Сообщество RSS DEV

Спасение сигнала: как МОС извлекает точность из катастрофического отравления данных

Проект исследует проблему «Мусор на входе, мусор на выходе» в машинном обучении с использованием набора данных Scikit-Learn Digits Dataset для рукописных цифр. Исследование намеренно повредило набор данных высокими уровнями гауссовского шума, чтобы смоделировать реальные несовершенства данных. Три модели машинного обучения - наивный байесовский классификатор, ближайшие соседи и многослойный перцептрон - были протестированы на шумных данных. Производительность всех моделей резко снизилась, упав до почти случайных догадок, подчеркивая влияние плохого качества данных. Для очистки данных и смягчения эффектов добавленного шума была использована методика анализа главных компонентов (PCA). PCA была настроена на сохранение 80% дисперсии, эффективно фильтруя случайный шум. Модели KNN и MLP продемонстрировали значительное восстановление точности после применения PCA. Гауссовский наивный байесовский классификатор также улучшился, но не восстановился так же полно из-за предположения о независимости пикселей. Проект продемонстрировал эффективность PCA как метода восстановления данных. Будущие исследования могут изучать свёрточные нейронные сети, потенциально исключая необходимость в отдельных шагах очистки. Код проекта доступен в репозитории автора на GitHub. Результаты исследования демонстрируют важность очистки и предварительной обработки данных в машинном обучении. Эта работа подкрепляет необходимость решения проблем качества данных для надёжной и стабильной производительности модели. Исследование подчеркивает ценность использования математических методов для улучшения данных до обучения модели.
favicon
dev.to
Rescuing the Signal: How PCA Salvages Accuracy from Catastrophic Data Poisoning
Изображение к статье: Спасение сигнала: как МОС извлекает точность из катастрофического отравления данных
Create attached notes ...