RSS Vers les Sciences des Données - Medium

Évaluation des données synthétiques

Les données synthétiques sont générées pour imiter les données réelles, et leur qualité est cruciale pour diverses applications. La qualité des données synthétiques peut être évaluée en fonction de trois principes : la plausibilité individuelle, l'utilité et la confidentialité. La plausibilité individuelle se réfère à la façon dont un échantillon unique est réaliste, tandis que l'utilité se réfère à la qualité globale du jeu de données. La confidentialité est également un aspect essentiel, car les données synthétiques ne doivent pas compromettre la confidentialité des données originales. Pour évaluer les données synthétiques, plusieurs méthodes peuvent être employées. Au niveau de l'échantillon, un problème de classification binaire peut être utilisé pour déterminer si un échantillon est synthétique ou réel. Si le classificateur atteint une précision élevée, les échantillons synthétiques ne sont pas suffisamment réalistes. Au niveau du jeu de données, les distributions statistiques et les inspections visuelles peuvent être utilisées pour comparer les jeux de données synthétiques et réels. Le package Synthetic Data Vault peut être utilisé pour générer des données synthétiques, et diverses méthodes d'évaluation peuvent être employées pour évaluer leur qualité. Ces méthodes incluent l'évaluation de la classification, les tests de distributions univariées, les inspections visuelles utilisant des techniques de réduction de dimension, et la comparaison des performances des modèles entraînés sur des données synthétiques et réelles. Dans l'exemple fourni, les données synthétiques générées à l'aide du package Synthetic Data Vault n'ont pas réussi à tromper un classificateur, indiquant que les échantillons synthétiques ne sont pas suffisamment réalistes. Les tests de distributions univariées ont également montré que seuls deux des quatre variables avaient des distributions similaires dans les jeux de données réel et synthétique. Les inspections visuelles utilisant des techniques de réduction de dimension ont mis en évidence les différences entre les deux jeux de données. Enfin, la comparaison des performances des modèles entraînés sur des données synthétiques et réelles a montré que les données synthétiques n'ont pas réussi à capturer les relations complexes entre les caractéristiques, indiquant qu'elles ne sont pas utiles pour les tâches de prédiction.
favicon
towardsdatascience.com
Evaluating synthetic data
Create attached notes ...