RSS 데이터 과학으로 - Medium

합성 데이터 평가

합성 데이터는 실제 데이터를 모방하기 위해 생성되며, 다양한 애플리케이션에 있어 그 품질이 중요합니다. 합성 데이터의 품질은 세 가지 원칙에 따라 평가할 수 있습니다. 개별 적합성, 유용성, 프라이버시입니다. 개별 적합성은 개별 샘플의 실제감을 의미하며, 유용성은 데이터셋의 전반적인 품질을 의미합니다. 프라이버시도 중요한 측면으로, 합성 데이터는 원래 데이터의 기밀성을 위협하지 않아야 합니다. 합성 데이터를 평가하는 방법은 여러 가지입니다. 샘플 수준에서는 이진 분류 문제를 사용하여 샘플이 합성인지 실제인지 판단할 수 있습니다. 분류기의 정확도가 높으면 합성 샘플이 실제감이 부족합니다. 데이터셋 수준에서는 통계 분포 및 시각적 검사를 사용하여 합성 및 실제 데이터셋을 비교할 수 있습니다. Synthetic Data Vault 패키지를 사용하여 합성 데이터를 생성할 수 있으며, 다양한 평가 방법을 사용하여 그 품질을 평가할 수 있습니다. 이러한 방법에는 분류 평가, 일변량 분포 테스트, 차원 축소 기법을 사용한 시각적 검사, 합성 및 실제 데이터에 대한 모델 성능 비교 등이 있습니다. 제공된 예에서는 Synthetic Data Vault 패키지를 사용하여 생성된 합성 데이터가 분류기를 속이지 못하여 합성 샘플이 실제감이 부족함을 나타내었습니다. 일변량 분포 테스트에서도 실제 및 합성 데이터셋의 4개 변수 중 2개만이 유사한 분포를 보였습니다. 차원 축소 기법을 사용한 시각적 검사에서도 두 데이터셋 간의 차이를 강조했습니다. 마지막으로, 합성 및 실제 데이터에 대한 모델 성능 비교에서는 합성 데이터가 특징 간의 복잡한 관계를 포착하지 못하여 예측 작업에 적합하지 않음을 나타내었습니다.
favicon
towardsdatascience.com
Evaluating synthetic data