RSS на пути к науке о данных - Medium

Оценка синтетических данных

Синтетические данные генерируются для имитации реальных данных, и их качество играет ключевую роль в различных приложениях. Качество синтетических данных может быть оценено на основе трех принципов: индивидуальная правдоподобность, полезность и приватность. Индивидуальная правдоподобность касается того, насколько реалистична отдельная выборка, в то время как полезность связана с общим качеством набора данных. Приватность также является важным аспектом, поскольку синтетические данные не должны нарушать конфиденциальность оригинальных данных. Чтобы оценить синтетические данные, могут быть использованы несколько методов. На уровне выборки можно использовать бинарную классификацию, чтобы определить, является ли выборка синтетической или реальной. Если классификатор достигает высокой точности, то синтетические выборки недостаточно реалистичны. На уровне набора данных статистические распределения и визуальные инспекции могут быть использованы для сравнения синтетического и реального наборов данных. Пакет Synthetic Data Vault может быть использован для генерации синтетических данных, и разные методы оценки могут быть применены для оценки их качества. Эти методы включают оценку классификации, тесты одномерных распределений, визуальные инспекции с использованием методов уменьшения размерности и сравнение производительности моделей, обученных на синтетических и реальных данных. В приведенном примере синтетические данные, сгенерированные с помощью пакета Synthetic Data Vault, не смогли обмануть классификатор, что указывает на то, что синтетические выборки недостаточно реалистичны. Тесты одномерных распределений также показали, что только две из четырех переменных имели похожие распределения в реальном и синтетическом наборах данных. Визуальные инспекции с использованием методов уменьшения размерности еще больше подчеркнули разницу между двумя наборами данных. Наконец, сравнение производительности моделей, обученных на синтетических и реальных данных, показало, что синтетические данные не смогли захватить сложные взаимосвязи между признаками, что указывает на то, что они не подходят для прогнозирования задач.
favicon
towardsdatascience.com
Evaluating synthetic data
Create attached notes ...