Les K-Plus Proches Voisins (KNN) sont un algorithme d'apprentissage automatique fondamental, non paramétrique et paresseux dans l'apprentissage automatique. Il classe ou prédit des valeurs pour de nouveaux points de données en fonction de leurs voisins les plus proches dans les données d'entraînement. Le processus central de l'algorithme implique le calcul des distances entre un nouveau point de données et tous les points d'entraînement. Il sélectionne ensuite les 'k' points de données les plus proches, appelés voisins. Pour la classification, le nouveau point prend la classe majoritaire de ses voisins. Pour la régression, sa valeur prédite est la moyenne des valeurs de ses voisins. Le choix de la métrique de distance est crucial pour les performances de KNN, avec les distances euclidienne, de Manhattan et de Minkowski étant des exemples courants. KNN a des applications étendues dans les systèmes de recommandation, la reconnaissance d'images, la détection d'anomalies, la modélisation financière et le diagnostic médical. Cependant, il souffre d'un coût computationnel élevé sur les grands ensembles de données, de sensibilité aux caractéristiques non pertinentes et au bruit, et de la malédiction de la dimensionalité. La valeur optimale de 'k' nécessite également un ajustement soigneux. Malgré ces limitations, la recherche en cours vise à améliorer l'efficacité et la scalabilité de KNN. Sa simplicité et son interprétabilité garantissent sa pertinence continue pour les besoins éducatifs et la prototypage, en particulier avec les petits ensembles de données.
dev.to
Understanding the KNN Algorithm: Finding Your Nearest Neighbors
Create attached notes ...
