Synthetische Daten werden erzeugt, um echte Daten nachzuahmen, und ihre Qualität ist für verschiedene Anwendungen von entscheidender Bedeutung. Die Qualität synthetischer Daten kann anhand von drei Prinzipien beurteilt werden: individuelle Plausibilität, Nützlichkeit und Datenschutz. Individuelle Plausibilität bezieht sich darauf, wie realistisch ein einzelnes Beispiel ist, während Nützlichkeit die Gesamtqualität des Datensatzes beschreibt. Datenschutz ist auch ein wesentlicher Aspekt, da synthetische Daten die Vertraulichkeit der ursprünglichen Daten nicht gefährden sollten.
Um synthetische Daten zu bewerten, können mehrere Methoden eingesetzt werden. Auf der Stichproben-Ebene kann ein binäres Klassifizierungsproblem verwendet werden, um zu bestimmen, ob ein Beispiel synthetisch oder echt ist. Wenn der Klassifizierer eine hohe Genauigkeit erreicht, sind die synthetischen Beispiele nicht realistisch genug. Auf der Datensatz-Ebene können statistische Verteilungen und visuelle Inspektionen verwendet werden, um die synthetischen und echten Datensätze zu vergleichen.
Das Synthetic Data Vault-Paket kann verwendet werden, um synthetische Daten zu generieren, und verschiedene Bewertungsmethoden können eingesetzt werden, um ihre Qualität zu beurteilen. Diese Methoden umfassen die Klassifizierungsbewertung, univariate Verteilungstests, visuelle Inspektionen unter Verwendung von Dimensionsreduktionstechniken und den Vergleich der Leistung von Modellen, die auf synthetischen und echten Daten trainiert wurden.
Im bereitgestellten Beispiel scheiterten die synthetischen Daten, die mit dem Synthetic Data Vault-Paket generiert wurden, daran, einen Klassifizierer zu täuschen, was darauf hinweist, dass die synthetischen Beispiele nicht realistisch genug sind. Die univariaten Verteilungstests zeigten auch, dass nur zwei von vier Variablen ähnliche Verteilungen in den echten und synthetischen Datensätzen aufwiesen. Visuelle Inspektionen unter Verwendung von Dimensionsreduktionstechniken hoben die Unterschiede zwischen den beiden Datensätzen weiter hervor.
Schließlich zeigte der Vergleich der Leistung von Modellen, die auf synthetischen und echten Daten trainiert wurden, dass die synthetischen Daten nicht in der Lage waren, komplexe Beziehungen zwischen Merkmalen zu erfassen, was darauf hinweist, dass sie für Vorhersageaufgaben nicht geeignet sind.
towardsdatascience.com
Evaluating synthetic data
