Glossaire

Sous-appareillage

Apprends à identifier, prévenir et traiter l'underfitting dans les modèles d'apprentissage automatique grâce à des conseils d'experts, des stratégies et des exemples concrets.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Dans le domaine de l'apprentissage machine (ML), l'obtention de performances optimales des modèles nécessite de trouver un équilibre entre simplicité et complexité. L'insuffisance d'ajustement est un problème courant lorsqu'un modèle est trop simpliste pour capturer les modèles sous-jacents présents dans les données d'entraînement. Cela signifie que le modèle ne parvient pas à apprendre efficacement, ce qui entraîne des performances médiocres non seulement sur les données sur lesquelles il a été formé, mais aussi sur de nouvelles données inédites. Un modèle sous-adapté n'a pas la capacité nécessaire pour représenter avec précision les relations au sein des données.

Quelles sont les causes de l'inadaptation ?

Plusieurs facteurs peuvent conduire à un modèle sous-adapté :

  • Complexité insuffisante du modèle: L'architecture du modèle choisi peut être trop simple pour la tâche. Par exemple, l'utilisation d'un modèle linéaire pour des données complexes et non linéaires, ou d'un réseau neuronal avec trop peu de couches ou de neurones. Il est essentiel de comprendre la complexité du modèle.
  • Caractéristiques inadéquates: Les caractéristiques d'entrée fournies au modèle peuvent ne pas contenir suffisamment d'informations pertinentes pour faire des prédictions précises. Une ingénierie efficace des caractéristiques est cruciale pour éviter cela.
  • Formation insuffisante: Le modèle n'a peut-être pas été entraîné pendant suffisamment d'époques, ce qui signifie qu'il n'a pas eu suffisamment l'occasion d'apprendre les modèles contenus dans les données d'entraînement.
  • Régularisation excessive: Bien que les techniques de régularisation soient utilisées pour empêcher le surajustement, les appliquer de façon trop agressive peut contraindre excessivement le modèle, entravant sa capacité à apprendre les modèles de données et provoquant un sous-ajustement.

Identifier un sous-ajustement

Le sous-ajustement est généralement diagnostiqué en évaluant les performances du modèle pendant et après la formation :

  • Erreur d'apprentissage élevée: Le modèle donne des résultats médiocres même sur les données sur lesquelles il a été formé. Les mesures de performance comme l'exactitude, la précision ou le rappel sont faibles, tandis que la valeur de la fonction de perte reste élevée.
  • Erreur de validation élevée: Le modèle obtient également de mauvais résultats sur les données de validation, ce qui indique qu'il n'a pas appris les modèles généraux.
  • Courbes d'apprentissage: La représentation graphique de l'erreur du modèle sur les ensembles d'entraînement et de validation au fil du temps(courbes d'apprentissage) peut révéler un sous-ajustement si les deux courbes plafonnent à un niveau d'erreur élevé. Pour des tâches spécifiques comme la détection d'objets, consulte les guides sur les mesures de performanceYOLO .

Remédier à la sous-adaptation

Plusieurs stratégies peuvent aider à surmonter le sous-ajustement :

Exemples concrets de sous-adaptation

  • Prédire les prix des maisons avec des caractéristiques limitées: Imagine que tu essaies de prédire le prix des maisons en utilisant uniquement le nombre de chambres à coucher. Ce modèle simple (peu de caractéristiques) serait probablement sous-adapté parce qu'il ignore des facteurs cruciaux comme l'emplacement, la superficie et l'âge, ne parvenant pas à saisir la véritable complexité du marché de l'immobilier.
  • Classificateur d'images de base pour les scènes complexes: Entraîner un réseau neuronal convolutif (CNN) très simple avec seulement une ou deux couches convolutives pour une tâche de classification d'image complexe, comme l'identification de diverses espèces d'oiseaux dans des environnements variés. Le modèle risque de ne pas apprendre les caractéristiques complexes qui distinguent les différentes espèces, ce qui se traduit par des performances médiocres sur les images familières comme sur les nouvelles.

Sous-appareillage ou sur-appareillage

Le sous-ajustement est l'inverse du surajustement. Un modèle sous-adapté est trop simple et ne parvient pas à saisir la tendance sous-jacente des données, ce qui entraîne un biais important. Un modèle surajusté est trop complexe ; il apprend trop bien les données d'apprentissage, y compris le bruit et les valeurs aberrantes, ce qui entraîne une variance élevée et des performances médiocres sur les nouvelles données. L'objectif de l'apprentissage automatique est de trouver un équilibre entre ces deux extrêmes, afin d'obtenir une bonne généralisation. Cet équilibre est souvent discuté en termes de compromis biais-variance. Des techniques comme la validation croisée (voir le guide K-Fold d'Ultralytics ) et le réglage minutieux des hyperparamètres (voir le guide Tuning d'Ultralytics ) sont essentielles pour trouver cet équilibre optimal. Des plateformes comme Ultralytics HUB peuvent aider à gérer les expériences et à suivre les performances des modèles afin d'identifier et d'atténuer à la fois le sous-ajustement et le surajustement.

Tout lire