Glossaire

Surajustement

Apprends à identifier, prévenir et traiter le surajustement dans l'apprentissage automatique. Découvre des techniques pour améliorer la généralisation des modèles et les performances dans le monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le surajustement dans l'apprentissage machine (ML) se produit lorsqu'un modèle apprend trop bien les données d'entraînement, capturant le bruit et les fluctuations aléatoires au lieu du modèle sous-jacent. Cela conduit à d'excellentes performances sur l'ensemble des données d'apprentissage, mais à une mauvaise généralisation à de nouvelles données inédites. Essentiellement, le modèle devient trop complexe et adapté spécifiquement aux exemples de formation, ce qui revient à mémoriser des réponses plutôt qu'à comprendre des concepts. C'est un défi courant lors de la formation de modèles d'IA, en particulier avec des algorithmes complexes comme les réseaux neuronaux utilisés dans Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images.

Comprendre le surajustement

Le surajustement survient parce que les modèles ML visent à minimiser les erreurs sur les données d'apprentissage. Si un modèle possède une complexité excessive (par exemple, trop de paramètres ou de couches), il peut s'adapter même au bruit aléatoire présent dans l'ensemble d'apprentissage. Ce bruit ne représente pas les véritables modèles sous-jacents et il est peu probable qu'il soit présent dans les nouveaux ensembles de données. Imagine qu'un costume soit parfaitement adapté aux mensurations exactes d'une personne un jour donné - il pourrait ne pas lui convenir si son poids fluctue légèrement ou si quelqu'un d'autre l'essaie. En ML, cet "ajustement parfait" sur les données d'entraînement se traduit par un manque de flexibilité et des performances médiocres sur les données du monde réel, ce que l'on appelle souvent une mauvaise généralisation.

Le problème opposé est le sous-ajustement, lorsqu'un modèle est trop simple pour capturer la structure sous-jacente des données. Un modèle sous-adapté donne de mauvais résultats à la fois sur les données d'entraînement et sur les nouvelles données parce qu'il n'a pas suffisamment appris. L'objectif est de trouver un équilibre optimal, souvent discuté dans le contexte du compromis biais-variance, en créant un modèle qui se généralise bien à des données inédites.

Exemples réels de surajustement

  • Analyse d'images médicales: Dans l'analyse d'images médicales pour la détection de maladies, un modèle surajouté peut devenir exceptionnellement bon pour identifier des maladies dans l'ensemble spécifique d'images sur lequel il a été formé, peut-être en apprenant des artefacts ou des bruits uniques présents uniquement dans cet ensemble de données (par exemple, à partir d'un scanner spécifique). Lorsqu'on lui présente de nouvelles images médicales provenant de machines, de populations de patients ou de conditions d'imagerie différentes, le modèle peut ne pas réussir à se généraliser, ce qui peut conduire à des diagnostics inexacts en milieu clinique. Par exemple, un modèle formé pour détecter des tumeurs à l'aide d'IRM provenant de l'hôpital A peut s'adapter de façon excessive aux caractéristiques du scanner IRM spécifique de cet hôpital et donner de mauvais résultats avec les scans de l'hôpital B, même si la pathologie sous-jacente est identique.
  • Conduite autonome: Un modèle de détection d'objets pour un véhicule autonome formé excessivement sur des données diurnes et par temps clair risque de se suradapter à ces conditions. Il peut bien reconnaître les piétons et les autres véhicules en plein soleil, mais éprouver des difficultés importantes la nuit, sous la pluie, dans le brouillard ou la neige, et ne pas détecter les objets de manière fiable en raison du manque de généralisation à ces entrées visuelles variées, ce qui pose un risque sérieux pour la sécurité.

Prévenir le surajustement

Plusieurs techniques peuvent aider à atténuer le surajustement et à améliorer la généralisation du modèle :

  • Simplifie le modèle: L'utilisation d'une architecture de modèle moins complexe (moins de couches ou de paramètres) peut empêcher le modèle de s'adapter au bruit. Des techniques comme l'élagage du modèle peuvent également réduire la complexité.
  • Augmentation des données: L'augmentation artificielle de la taille et de la diversité de l'ensemble de données d'entraînement aide le modèle à apprendre des caractéristiques plus robustes. Les techniques d'augmentation des données d'Ultralytics YOLO comprennent les rotations, les translations, la mise à l'échelle et les changements de couleur.
  • Régularisation: L'ajout de pénalités à la fonction de perte en fonction des paramètres du modèle décourage les modèles trop complexes. Les méthodes courantes comprennent la régularisation L1 et L2.
  • Arrêt précoce: Surveillance des performances du modèle sur un ensemble de données de validation distinct pendant la formation et arrêt du processus lorsque les performances de validation commencent à se dégrader, même si les performances de formation continuent de s'améliorer. Cela permet d'éviter que le modèle n'apprenne les données d'apprentissage pendant un trop grand nombre d'époques.
  • Validation croisée: Les techniques comme la validation croisée K-Fold fournissent une estimation plus robuste des performances du modèle sur des données inédites et aident à sélectionner des modèles qui généralisent mieux.
  • Abandon: Le fait de mettre aléatoirement à zéro une fraction des activations des neurones pendant la formation oblige le réseau à apprendre des représentations plus redondantes, ce qui réduit la dépendance à l'égard de neurones spécifiques. Voir l'explication du concept Dropout.

En comprenant et en traitant l'overfitting, les développeurs peuvent construire des modèles d'IA plus fiables et plus efficaces. Des outils comme Ultralytics HUB peuvent contribuer au suivi des expériences et à l'évaluation des modèles, en aidant à la détection et à l'atténuation de l'overfitting pendant le cycle de vie du développement du modèle.

Tout lire