主成分分析(PCA)は、次元削減や視覚化に一般的に使用されるデータサイエンスの手法ですが、外れ値検出にも役立ちます。データを新しい座標系に変換し、次元は成分と呼ばれ、外れ値をこれらの成分内でよく分離します。この方法は、PCAを使用してデータを変換し、各行をスコアするために各成分に単純なテストを適用することで、または再構築エラーを確認することで外れ値を特定するために使用できます。この手法は、特徴間の相関を前提とし、データの全体的な形状を表す共分散行列を作成することで機能します。共分散行列は、空間を変換するために使用されます。PyODは、外れ値検出のためにPCAに基づく3つのクラスを提供しています。PyODKernelPCA、PCA、KPCAです。これらのクラスは、PCA変換を実行し、変換されたデータで外れ値を検出するために使用できます。
towardsdatascience.com
Using PCA for Outlier Detection
