PCA (주요 성분 분석)는 데이터 과학 기법으로 일반적으로 차원 축소 및 시각화에 사용되지만 이상치 검출에도 유용합니다. 데이터를 새로운 좌표계로 변환하여 차원으로 알려진 구성 요소로 분리하고, 이러한 구성 요소 내에서 이상치를 잘 분리합니다. 이 방법은 PCA를 사용하여 데이터를 변환하고 각 구성 요소에 대한 간단한 테스트를 적용하여 각 행을 점수화하거나, 공간의 재구성 오류를 살펴보는 것으로 이상치를 확인할 수 있습니다. 이 기법은 기능 간의 상관관계를 가정하고 데이터의 일반적인 모양을 나타내는 공분산 행렬을 생성하여 공간을 변환하는 방식으로 작동합니다. PyOD는 이상치 검출을 위해 PCA 기반의 세 가지 클래스를 제공합니다: PyODKernelPCA, PCA, KPCA. 이러한 클래스를 사용하여 PCA 변환을 수행하고 변환된 데이터에서 이상치를 검출할 수 있습니다.
towardsdatascience.com
Using PCA for Outlier Detection
