RSS Richtung Data Science - Medium

Verwendung von PCA zur Ausreißererkennung

PCA (Hauptkomponentenanalyse) ist eine Technik der Datenwissenschaft, die häufig für die Reduzierung der Dimensionalität und Visualisierung verwendet wird, aber auch für die Erkennung von Ausreißern nützlich ist. Sie transformiert die Daten in ein neues Koordinatensystem, in dem die Dimensionen als Komponenten bezeichnet werden und oft Ausreißer gut innerhalb dieser Komponenten trennt. Die Methode kann verwendet werden, um Ausreißer zu identifizieren, indem die Daten mithilfe von PCA transformiert und dann einfache Tests auf jeder Komponente angewendet werden, um jede Zeile zu bewerten, oder indem der Rekonstruktionsfehler betrachtet wird. Die Technik geht von Korrelationen zwischen Merkmalen aus und funktioniert, indem eine Kovarianzmatrix erstellt wird, die die allgemeine Form der Daten darstellt, die dann verwendet wird, um den Raum zu transformieren. PyOD bietet drei Klassen auf Basis von PCA für die Ausreißererkennung an: PyODKernelPCA, PCA und KPCA. Diese Klassen können verwendet werden, um PCA-Transformationen durchzuführen und Ausreißer im transformierten Daten zu erkennen.
favicon
towardsdatascience.com
Using PCA for Outlier Detection