Glossaire

Surajustement

Apprends à détecter et à prévenir le surajustement dans l'apprentissage automatique grâce à des techniques telles que l'augmentation des données, la régularisation et la validation croisée.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le surajustement est un problème courant dans l'apprentissage automatique où un modèle apprend trop bien les données d'apprentissage, y compris son bruit et ses valeurs aberrantes. Il en résulte un modèle qui fonctionne exceptionnellement bien sur les données d'apprentissage, mais mal sur des données inédites, telles qu'un ensemble de validation ou de test. Essentiellement, le modèle ne parvient pas à se généraliser, capturant les détails spécifiques des données d'apprentissage plutôt que les modèles sous-jacents.

Détecter et prévenir le surajustement

Pour identifier un surajustement, il faut surveiller les performances du modèle à la fois sur les données d'apprentissage et sur des données de validation distinctes. Une différence significative de performance entre ces deux ensembles de données indique un surajustement potentiel. Plusieurs techniques peuvent aider à prévenir le surajustement :

  • Augmentation des données: L'augmentation de la taille et de la diversité de l'ensemble de données d'entraînement grâce à l'augmentation des données peut aider le modèle à apprendre des caractéristiques plus robustes.
  • Validation croisée: L'utilisation de techniques telles que la validation croisée K-Fold permet d'évaluer dans quelle mesure le modèle se généralise à de nouvelles données.
  • Régularisation: Les méthodes de régularisation, telles que la régularisation L1 et L2, ajoutent un terme de pénalité à la fonction de perte pour décourager les modèles trop complexes.
  • Arrêt précoce: Le suivi des performances du modèle sur un ensemble de validation et l'arrêt de la formation lorsque les performances commencent à se dégrader permettent d'éviter le surajustement.
  • Modèles plus simples: Le choix d'un modèle moins complexe avec moins de paramètres peut réduire le risque de surajustement, surtout lorsque l'ensemble de données est petit.

Pertinence et impact

Le surajustement est un problème critique dans diverses applications d'apprentissage automatique (ML), car il affecte la fiabilité et la précision des modèles dans les scénarios du monde réel. Par exemple, dans le domaine de la vision artificielle (CV), un modèle surajusté peut donner de bons résultats dans la reconnaissance d'objets spécifiques dans les images d'apprentissage, mais ne pas réussir à se généraliser à de nouvelles images non vues.

Exemples concrets

Diagnostic médical

Dans le domaine de la santé, un modèle surajusté peut diagnostiquer avec précision des maladies sur la base de l'ensemble de données d'entraînement, mais échouer lorsqu'il est présenté avec de nouvelles données de patients. Par exemple, un modèle formé pour détecter les tumeurs cérébrales à l'aide d'un ensemble limité de scanners IRM peut apprendre les caractéristiques spécifiques de ces scanners plutôt que les caractéristiques générales des tumeurs. Cela peut conduire à un diagnostic erroné lorsque le modèle rencontre des scanners provenant de patients ou d'équipements d'imagerie différents. Plus d'informations sur l'IA dans les soins de santé.

Véhicules autonomes

Dans le contexte des véhicules autonomes, un modèle de détection d'objets surajouté peut fonctionner parfaitement dans des simulations ou des environnements contrôlés, mais s'avérer difficile dans diverses conditions de conduite réelles. Par exemple, un modèle formé uniquement sur des images de piétons par temps ensoleillé pourrait ne pas détecter les piétons sous la pluie ou la neige. Pour en savoir plus sur la détection d'objets, consulte le site Web Ultralytics .

Termes distingués

Sous-appareillage

L'ajustement insuffisant est le contraire de l'ajustement excessif. Il se produit lorsqu'un modèle est trop simple pour capturer les modèles sous-jacents dans les données, ce qui entraîne de mauvaises performances à la fois sur les ensembles de formation et de validation. Cela est souvent dû à une complexité insuffisante du modèle ou à une formation inadéquate.

Compromis biais-variance

Le compromis biais-variance est un concept fondamental de l'apprentissage automatique qui est lié à l'ajustement excessif et à l'ajustement insuffisant. Un biais élevé conduit à un sous-ajustement, tandis qu'une variance élevée conduit à un surajustement. Il est essentiel d'équilibrer ces deux éléments pour construire un modèle qui se généralise bien.

Outils et technologies

Plusieurs outils et technologies peuvent aider à atténuer le surajustement. Ultralytics YOLO Par exemple, les modèles d'analyse de l'environnement intègrent diverses techniques pour empêcher l'ajustement excessif, telles que des méthodes avancées d'augmentation des données et de régularisation. En outre, des plateformes telles que Ultralytics HUB fournissent des outils pour surveiller les performances des modèles et ajuster les hyperparamètres afin d'obtenir des résultats optimaux.

Les cadres de travail comme TensorFlow et PyTorch offrent une assistance étendue pour la mise en œuvre de techniques de régularisation, de validation croisée et d'autres méthodes pour lutter contre le surajustement. Ces outils offrent la flexibilité nécessaire pour construire des modèles d'apprentissage automatique robustes et fiables.

Tout lire