Glossaire

Voisins les plus proches (KNN)

Explore le KNN, un algorithme d'apprentissage automatique polyvalent pour la classification, la régression, la reconnaissance d'images et bien plus encore. Apprends comment il prédit en utilisant la proximité des données.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

K-Nearest Neighbors (KNN) est un algorithme d'apprentissage automatique simple, mais puissant, utilisé pour les tâches de classification et de régression. Sa fonction principale est de prédire la classe ou la valeur d'un point de données en fonction des "k" points de données les plus proches dans l'espace des caractéristiques. Le KNN est connu pour sa simplicité et son efficacité dans le traitement des problèmes de classification, en particulier avec les ensembles de données où la limite de décision n'est pas linéaire.

Comment fonctionnent les K-voisins les plus proches

KNN fonctionne en stockant tous les points de données disponibles et, lorsqu'une prédiction est nécessaire, en identifiant les "k" voisins les plus proches du point d'interrogation. L'algorithme détermine ensuite la classe la plus courante (pour la classification) ou la valeur moyenne (pour la régression) parmi ces voisins en tant que prédiction.

  • Métrique de distance: le choix de la métrique de distance est crucial dans le KNN. Les distances euclidiennes, de Manhattan et de Minkowski sont des mesures courantes. Cette métrique détermine la façon dont la "proximité" des points de données est mesurée.

  • Choisir 'k': La sélection de la valeur appropriée de 'k' est essentielle pour la performance du modèle. Une petite valeur de 'k' rend le modèle plus sensible au bruit, tandis qu'une grande valeur de 'k' peut simplifier à l'extrême la frontière de décision, ce qui risque de faire passer à côté de schémas subtils.

  • Complexité informatique: Le KNN nécessite le calcul des distances entre le point d'interrogation et tous les autres points de l'ensemble de données, ce qui le rend intensif en termes de calcul lorsque la taille de l'ensemble de données augmente. Cette caractéristique peut rendre le KNN difficile à utiliser avec de grands ensembles de données sans optimisation.

Applications de KNN

  1. Reconnaissance d'images: KNN peut classer les images en fonction des valeurs d'intensité des pixels. Dans le domaine de la vision par ordinateur, il est utilisé pour détecter des modèles dans des ensembles de données d'images en comparant de nouvelles images à des images précédemment catégorisées.

  2. Systèmes de recommandation: En s'appuyant sur les données d'interaction entre l'utilisateur et l'article, le KNN identifie les utilisateurs ou les articles similaires afin de fournir des recommandations. Cette technique est couramment utilisée dans les plateformes de commerce électronique pour suggérer des produits en fonction du comportement historique et des préférences d'un utilisateur.

  3. Diagnostic médical: KNN aide à prédire l'état des patients en comparant les nouvelles données des patients avec les données existantes des dossiers historiques des patients, ce qui facilite le diagnostic et la planification du traitement.

Exemples concrets

  • Détection des fraudes: Les institutions financières utilisent le KNN pour détecter les transactions frauduleuses en identifiant des schémas typiques de la fraude en fonction de l'historique des transactions.

  • Prédiction du cours des actions: En finance, le KNN est appliqué pour prévoir les cours des actions en analysant les tendances passées et en identifiant les modèles historiques similaires pour prédire les mouvements futurs.

Avantages et inconvénients

  • Pour:

    • Mise en œuvre simple sans nécessité d'une phase de formation au modèle.
    • Aucun réglage des paramètres du modèle n'est nécessaire, si ce n'est le choix de 'k' et de la métrique de distance.
    • Donne de bons résultats avec les petits ensembles de données et les problèmes de classification multi-classes.
  • Cons:

    • Coût de calcul élevé pendant la phase de prédiction.
    • Sensible aux caractéristiques non pertinentes ou redondantes puisque toutes les caractéristiques contribuent de façon égale.
    • Dégradation rapide des performances avec l'augmentation de la dimensionnalité, connue sous le nom de "malédiction de la dimensionnalité".

Concepts connexes et alternatives

  • Regroupement K-Means: Alors que le KNN est utilisé pour la classification, le K-Means Clustering est un algorithme d'apprentissage non supervisé qui regroupe les données en grappes sur la base de la similarité des caractéristiques.

  • Machine à vecteurs de support (SVM) : Contrairement à KNN, SVM est un modèle d'apprentissage supervisé qui trouve l'hyperplan dans l'espace des caractéristiques qui sépare le mieux les différentes classes. En savoir plus sur les machines à vecteurs de support.

  • Arbres de décision: Ces modèles créent un graphique arborescent de décisions pour faciliter la classification. En savoir plus sur les arbres de décision.

Pour les applications pratiques et le déploiement, explore les capacités de Ultralytics HUB, une plateforme qui permet de former et de déployer facilement des modèles d'apprentissage automatique comme KNN et au-delà. Visite Ultralytics HUB pour tirer parti de solutions sans code pour tes projets d'IA.

Pour comprendre comment le KNN s'inscrit dans des tâches plus larges d'apprentissage automatique, explore plus avant l'apprentissage supervisé et d'autres concepts d'apprentissage automatique connexes.

Tout lire