La régression linéaire est une méthode statistique qui prédit des valeurs numériques en utilisant une équation linéaire, modélisant la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Les approches les plus courantes de la régression linéaire sont appelées "méthodes des moindres carrés", qui fonctionnent en trouvant des modèles dans les données en minimisant les différences carrées entre les prédictions et les valeurs réelles. La régression linéaire ordinaire (OLS) est une approche fondamentale de la régression linéaire qui trouve la meilleure ligne d'ajustement à travers les points de données en minimisant la somme des distances carrées entre chaque point et la ligne. L'objectif d'optimisation est de trouver les coefficients qui minimisent la somme des distances carrées, qui peuvent être calculés en utilisant l'équation normale. Dans le cas multidimensionnel, le processus d'apprentissage implique de préparer la matrice de données, de calculer les coefficients en utilisant l'équation normale, et de faire des prédictions en multipliant les nouveaux points de données par les coefficients. La régression de Ridge est une variante de l'OLS qui ajoute un terme de pénalité à la fonction objectif pour décourager les coefficients élevés, qui peuvent entraîner une sur-apprentissage. Le terme de pénalité est contrôlé par le paramètre lambda, qui détermine combien pénaliser les coefficients élevés. Le processus d'apprentissage pour la régression de Ridge est similaire à celui de l'OLS, mais avec une modification de la solution fermée. Le choix entre l'OLS et la régression de Ridge dépend des données, avec l'OLS convenant pour les données bien comportées et la régression de Ridge convenant pour les données avec de nombreuses caractéristiques, de la multicollinéarité ou des signes de sur-apprentissage.
towardsdatascience.com
Least Squares Regression, Explained: A Visual Guide with Code Examples for Beginners
Create attached notes ...
