合成データは、実際のデータを模倣するために生成され、その品質は様々なアプリケーションにおいて非常に重要です。合成データの品質は、三つの原則に基づいて評価することができます。個々の妥当性、有用性、プライバシーです。個々の妥当性は、単一のサンプルの現実性を指し、有用性はデータセット全体の品質を指します。プライバシーも重要な側面であり、合成データはオリジナルのデータの機密性を損なうべきではありません。
合成データを評価するために、複数の方法を使用することができます。サンプルレベルでは、二値分類問題を使用して、サンプルが合成か実際かを判断することができます。如果分類器が高い精度を達成する場合、合成サンプルは十分に現実的ではありません。データセットレベルでは、統計分布と視覚的な検査を使用して、合成データセットと実際のデータセットを比較することができます。
Synthetic Data Vault パッケージを使用して合成データを生成し、様々な評価方法を使用してその品質を評価することができます。これらの方法には、分類評価、単変量分布テスト、次元削減技術を使用した視覚的な検査、合成データと実際のデータに基づいてトレーニングされたモデルの性能比較などが含まれます。
提供された例では、Synthetic Data Vault パッケージを使用して生成された合成データが、分類器を騙すことができなかったため、合成サンプルは十分に現実的ではありません。単変量分布テストも、4つの変数のうち2つしか実際のデータセットと同じ分布を持っていないことを示しました。次元削減技術を使用した視覚的な検査も、両方のデータセットの違いを強調しました。
最後に、合成データと実際のデータに基づいてトレーニングされたモデルの性能比較では、合成データが複雑な特徴間の関係を捉えることができなかったため、予測タスクには不適切であることを示しました。
towardsdatascience.com
Evaluating synthetic data
Create attached notes ...
