El PCA (análisis de componentes principales) es una técnica de ciencia de datos comúnmente utilizada para la reducción de dimensionalidad y visualización, pero también es útil para la detección de valores atípicos. Transforma los datos en un nuevo sistema de coordenadas, donde las dimensiones se conocen como componentes, y a menudo separa bien los valores atípicos dentro de estos componentes. El método se puede utilizar para identificar valores atípicos transformando los datos utilizando PCA y luego aplicando pruebas simples en cada componente para puntuar cada fila, o examinando el error de reconstrucción. La técnica supone correlaciones entre características y funciona creando una matriz de covarianza que representa la forma general de los datos, que luego se utiliza para transformar el espacio. PyOD proporciona tres clases basadas en PCA para la detección de valores atípicos: PyODKernelPCA, PCA y KPCA. Estas clases se pueden utilizar para realizar transformaciones PCA y detectar valores atípicos en los datos transformados.
towardsdatascience.com
Using PCA for Outlier Detection
