RSS DEV 커뮤니티

신호 구하기: 주성분 분석(PCA)이 치명적인 데이터 중독으로부터 정확도를 회복하는 방법

이 프로젝트는 Scikit-Learn의 필기 숫자 데이터 세트를 사용하여 머신 러닝에서 "Garbage In, Garbage Out" 문제를 조사합니다. 연구는 실제 데이터의 불완전성을 시뮬레이션하기 위해 고수준의 가우시안 노이즈로 데이터 세트를 의도적으로 손상시켰습니다. 가우시안 나이브 베이즈, K-최근접 이웃, 다층 퍼셉트론의 세 가지 머신 러닝 모델이 노이즈가 있는 데이터에 대해 테스트되었습니다. 모든 모델의 성능이 급격히 감소하여 무작위 추측에 가까워졌으며, 이는 데이터 품질 저하의 영향을 강조합니다. 주성분 분석(PCA)은 데이터를 디노이즈하고 추가된 노이즈의 영향을 완화하기 위해 사용되었습니다. PCA는 분산의 80%를 유지하도록 구성되어 무작위 노이즈를 효과적으로 필터링했습니다. KNN 및 MLP 모델은 PCA 적용 후 정확도가 크게 회복되었습니다. 가우시안 나이브 베이즈는 개선되었지만, 픽셀의 독립성을 가정하기 때문에 완전히 회복되지 못했습니다. 이 프로젝트는 PCA가 데이터 개선 기술로서의 효과를 입증했습니다. 향후 연구에서는 컨볼루션 신경망을 탐구하여 별도의 디노이징 단계가 필요하지 않도록 할 수 있습니다. 프로젝트의 코드는 저자의 GitHub 저장소에서 확인할 수 있습니다. 연구 결과는 머신 러닝에서 데이터 정리 및 전처리의 중요성을 보여줍니다. 이 연구는 견고하고 신뢰할 수 있는 모델 성능을 위해 데이터 품질 문제를 해결해야 할 필요성을 강조합니다. 이 연구는 모델 훈련 전에 수학적 기법을 사용하여 데이터를 개선하는 것의 가치를 강조합니다.
favicon
dev.to
Rescuing the Signal: How PCA Salvages Accuracy from Catastrophic Data Poisoning
기사 이미지: 신호 구하기: 주성분 분석(PCA)이 치명적인 데이터 중독으로부터 정확도를 회복하는 방법
Create attached notes ...