Dans le domaine de l'apprentissage machine (ML), l'obtention de performances optimales des modèles nécessite de trouver un équilibre entre simplicité et complexité. L'insuffisance d'ajustement est un problème courant lorsqu'un modèle est trop simpliste pour capturer les modèles sous-jacents présents dans les données d'entraînement. Cela signifie que le modèle ne parvient pas à apprendre efficacement, ce qui entraîne de mauvaises performances non seulement sur les données sur lesquelles il a été formé, mais aussi sur de nouvelles données inédites(données de test ou entrées du monde réel). Un modèle sous-adapté n'a pas la capacité ou le temps de formation nécessaires pour représenter les relations au sein des données avec précision, ce qui entraîne un biais important et une incapacité à bien généraliser.
Quelles sont les causes de l'inadaptation ?
Plusieurs facteurs peuvent contribuer à un modèle sous-adapté :
- Complexité insuffisante du modèle: Le modèle choisi peut être trop simple pour la complexité des données. Par exemple, l'utilisation d'un modèle de régression linéaire de base pour des données présentant des schémas non linéaires, ou l'utilisation d'un réseau neuronal (NN) avec trop peu de couches ou de neurones.
- Ingénierie des caractéristiques inadéquate : Les caractéristiques d'entrée fournies au modèle peuvent ne pas contenir suffisamment d'informations pertinentes ou ne pas représenter efficacement les modèles sous-jacents.
- Données de formation insuffisantes : Le modèle peut ne pas avoir vu suffisamment d'exemples pour apprendre les modèles sous-jacents. C'est particulièrement vrai pour les modèles d'apprentissage profond complexes. Il est crucial de disposer de données diverses et représentatives, que l'on peut explorer grâce à des plateformes comme les ensembles de donnéesUltralytics .
- Formation trop courte : le processus de formation du modèle peut être arrêté prématurément, avant qu'il n'ait eu assez d'époques pour apprendre les modèles dans les données.
- Régularisation excessive : Les techniques utilisées pour empêcher le surajustement, telles que la régularisation L1 ou L2 ou les taux d'abandon élevés, peuvent parfois contraindre excessivement le modèle, l'empêchant d'apprendre les modèles nécessaires si elles sont appliquées trop fortement.
Identifier un sous-ajustement
Le sous-ajustement est généralement diagnostiqué en évaluant les performances du modèle pendant et après la formation :
- Erreur d'apprentissage élevée : Le modèle donne des résultats médiocres même sur les données sur lesquelles il a été formé. Les mesures clés comme l'exactitude, la précision, le rappel ou le score F1 sont faibles, et la valeur de la fonction de perte reste élevée.
- Erreur de validation/test élevée : Le modèle donne également de mauvais résultats sur des données de validation ou des données de test non vues. L'écart de performance entre l'erreur d'entraînement et l'erreur de validation est généralement faible, mais les deux erreurs sont inacceptables.
- Courbes d'apprentissage: La représentation graphique des pertes/métriques d'apprentissage et de validation par rapport aux époques d' apprentissage peut révéler un sous-ajustement. Si les deux courbes plafonnent à un niveau d'erreur élevé, le modèle est probablement sous-adapté. Tu peux surveiller ces courbes à l'aide d'outils comme TensorBoard ou Weights & Biases. Il est également essentiel de comprendre les mesures de performance spécifiques à YOLO .
Remédier à la sous-adaptation
Plusieurs stratégies peuvent aider à surmonter le sous-ajustement :
- Augmente la complexité du modèle: Utilise une architecture de modèle plus puissante avec plus de paramètres, de couches ou de neurones. Par exemple, passer d'un CNN plus simple à une architecture plus avancée comme Ultralytics YOLO11 pour les tâches de détection d'objets.
- Améliorer l'ingénierie des caractéristiques: Créer des caractéristiques plus informatives à partir des données existantes ou intégrer de nouvelles sources de données pertinentes.
- Augmenter la durée de la formation : Entraîne le modèle pendant plus d'époques pour lui donner suffisamment de temps pour apprendre les modèles de données. Consulte les conseils sur l'entraînement du modèle pour obtenir des indications.
- Réduire la régularisation: Diminuer la force des techniques de régularisation (par exemple, diminuer le paramètre de régularisation lambda, réduire la probabilité d'abandon).
- Veille à ce que les données soient suffisantes : Rassemble plus d'exemples de formation. Si la collecte de plus de données est infaisable, des techniques comme l'augmentation des données peuvent augmenter artificiellement la diversité des données de formation. La gestion des ensembles de données peut être rationalisée à l'aide de plateformes comme Ultralytics HUB.
Sous-appareillage ou sur-appareillage
L'ajustement insuffisant et l'ajustement excessif sont les deux faces d'une même pièce, représentant des échecs dans la généralisation du modèle.
- Sous-ajustement : Le modèle est trop simple ( biais important). Il ne parvient pas à capturer les tendances sous-jacentes des données, ce qui se traduit par de mauvaises performances sur les ensembles d'apprentissage et de test.
- Ajustement excessif : Le modèle est trop complexe (variance élevée). Il apprend trop bien les données d'entraînement, y compris le bruit et les fluctuations aléatoires, ce qui entraîne d'excellentes performances sur l'ensemble d'entraînement mais de mauvaises performances sur les données non vues.
L'objectif de la ML est de trouver un juste milieu entre l'ajustement insuffisant et l'ajustement excessif, souvent discuté dans le contexte du compromis biais-variance, où le modèle apprend les vrais modèles sous-jacents sans mémoriser le bruit.
Exemples concrets de sous-adaptation
- Classificateur d'images simple : Entraîner un réseau neuronal convolutif (CNN) très basique (par exemple, avec seulement une ou deux couches convolutives) sur une tâche de classification d'image complexe comme la classification de milliers de catégories d'objets dans ImageNet. Le modèle serait probablement sous-adapté parce que sa capacité limitée l'empêche d'apprendre les caractéristiques complexes nécessaires pour faire la distinction entre de nombreuses classes de manière efficace. La précision de l'apprentissage et de la validation resterait faible.
- Maintenance prédictive de base : Utiliser un modèle linéaire simple pour prédire la défaillance d'une machine en se basant uniquement sur la température de fonctionnement. Si les pannes sont en fait influencées par une interaction complexe de facteurs tels que les vibrations, l'âge, la pression et les non-linéarités de température, le modèle linéaire sera sous-adapté. Il ne peut pas saisir la véritable complexité, ce qui entraîne une mauvaise performance de la modélisation prédictive et ne permet pas d'anticiper les défaillances avec précision. Il serait nécessaire d'utiliser des modèles plus complexes ou de meilleures caractéristiques. Des outils comme PyTorch ou TensorFlow offrent des outils pour construire des modèles plus sophistiqués.