Lineare Regression ist ein statistisches Verfahren, das numerische Werte mithilfe einer linearen Gleichung vorhersagt, indem es die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen modelliert. Die am häufigsten verwendeten Ansätze zur linearen Regression werden "Least Squares Methoden" genannt, die darin bestehen, Muster in Daten zu finden, indem sie die quadrierten Differenzen zwischen Vorhersagen und tatsächlichen Werten minimieren. Die Ordinary Least Squares (OLS) ist ein grundlegendes Verfahren der linearen Regression, das die beste passende Linie durch Datenpunkte findet, indem es die Summe der quadrierten Abstände zwischen jedem Punkt und der Linie minimiert. Das Optimierungsziel besteht darin, Koeffizienten zu finden, die die Summe der quadrierten Abstände minimieren, was mithilfe der Normalgleichung berechnet werden kann. Im multidimensionalen Fall umfasst der Trainingsprozess das Vorbereiten der Datenmatrix, das Berechnen der Koeffizienten mithilfe der Normalgleichung und das Erstellen von Vorhersagen durch Multiplizieren neuer Datenpunkte mit den Koeffizienten. Die Ridge-Regression ist eine Variante der OLS, die eine Strafterm hinzufügt, um große Koeffizienten zu entmutigen, was zu Überanpassung führen kann. Der Strafterm wird durch den Lambda-Parameter gesteuert, der bestimmt, wie sehr große Koeffizienten bestraft werden sollen. Der Trainingsprozess für die Ridge-Regression ähnelt dem der OLS, aber mit einer Modifikation der geschlossenen Lösung. Die Wahl zwischen OLS und Ridge hängt von den Daten ab, wobei OLS für gutartige Daten geeignet ist und Ridge für Daten mit vielen Merkmalen, Multikollinearität oder Anzeichen von Überanpassung geeignet ist.
towardsdatascience.com
Least Squares Regression, Explained: A Visual Guide with Code Examples for Beginners
