L'analyse en composantes principales (ACP) est une technique de science des données couramment utilisée pour la réduction de dimensionnalité et la visualisation, mais elle est également utile pour la détection d'outliers. Elle transforme les données dans un nouveau système de coordonnées, où les dimensions sont connues sous le nom de composantes, et sépare souvent bien les outliers dans ces composantes. La méthode peut être utilisée pour identifier les outliers en transformant les données à l'aide de l'ACP et en appliquant ensuite des tests simples sur chaque composante pour noter chaque ligne, ou en examinant l'erreur de reconstruction. La technique suppose des corrélations entre les caractéristiques et fonctionne en créant une matrice de covariance qui représente la forme générale des données, qui est ensuite utilisée pour transformer l'espace. PyOD propose trois classes basées sur l'ACP pour la détection d'outliers : PyODKernelPCA, PCA et KPCA. Ces classes peuvent être utilisées pour effectuer des transformations ACP et détecter des outliers dans les données transformées.
towardsdatascience.com
Using PCA for Outlier Detection
Create attached notes ...
