Glossaire

Normalisation

Découvre comment la normalisation améliore les modèles d'IA et de ML en mettant les données à l'échelle, en améliorant la vitesse d'entraînement et en garantissant des performances optimales dans les applications.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La normalisation est une technique de prétraitement fondamentale dans l'apprentissage automatique (ML) et l'intelligence artificielle (IA), essentielle pour s'assurer que les données d'entrée sont cohérentes et correctement mises à l'échelle. Elle consiste à transformer les données dans un format ou une plage standard, ce qui aide les modèles à apprendre efficacement en améliorant les taux de convergence pendant la formation et en réduisant la probabilité de prédictions biaisées. En veillant à ce que toutes les caractéristiques contribuent de manière égale, la normalisation est essentielle pour obtenir des performances optimales du modèle.

Pourquoi la normalisation est-elle importante ?

Dans l'apprentissage automatique, les données proviennent souvent de diverses sources et peuvent présenter des fourchettes, des unités et des distributions variées. Par exemple, dans un ensemble de données prédisant les prix des logements, des caractéristiques telles que la superficie en pieds carrés peuvent s'étendre sur des milliers d'unités, alors que le nombre de chambres à coucher ne peut varier que de 1 à 10. Sans normalisation, les algorithmes tels que la descente de gradient peuvent avoir du mal à converger car l'échelle d'une caractéristique peut dominer les autres, ce qui entraîne de mauvaises performances.

La normalisation permet de s'assurer que :

  • Les caractéristiques sont à une échelle similaire, ce qui empêche une caractéristique d'influencer le modèle de façon disproportionnée.
  • La formation est plus rapide et plus stable en aidant les algorithmes d'optimisation comme la descente de gradient à converger plus efficacement.
  • Les modèles se généralisent mieux en évitant les biais introduits par la variation de l'échelle des caractéristiques.

Techniques courantes

  • Échelle Min-Max: Transforme les données en une plage fixe, souvent [0,1], en préservant les distances relatives entre les valeurs. Ceci est particulièrement utile pour les algorithmes qui reposent sur des mesures de distance, tels que les K-voisins les plus proches (KNN).
  • Normalisation du score Z (standardisation): Centre les données autour d'une moyenne de 0 et d'un écart-type de 1. Cette méthode est particulièrement efficace pour les ensembles de données dont la distribution varie.
  • Mise à l'échelle décimale: Divise les données par une puissance de 10, ce qui réduit leur ampleur tout en conservant leur structure d'origine.

Pour les tâches impliquant des données d'image, des techniques telles que la normalisation par lots sont couramment utilisées pendant la formation pour normaliser les activations entre les couches, améliorer la convergence et éviter des problèmes tels que les dégradés de disparition.

Applications dans le domaine de l'IA et de la ML

La normalisation joue un rôle essentiel à travers diverses applications de ML et d'IA :

  1. Deep Learning
    Dans les réseaux neuronaux, la normalisation assure une distribution cohérente des données d'entrée, améliorant ainsi les performances de l'entraînement. Par exemple, la normalisation par lots est largement appliquée au sein des réseaux neuronaux convolutifs (CNN) pour stabiliser la formation en normalisant les sorties intermédiaires.

  2. Traitement du langage naturel (NLP)
    Dans les tâches NLP, la normalisation peut impliquer un prétraitement du texte, comme la conversion du texte en minuscules ou la suppression de la ponctuation, afin d'assurer l'uniformité des données d'entrée. Ceci est particulièrement utile pour les modèles tels que les transformateurs et les modèles GPT.

  3. Computer Vision (CV)
    Pour les ensembles de données d'images, les valeurs des pixels sont souvent normalisées à une plage de [0,1] ou [-1,1], ce qui garantit la cohérence entre les images dans des tâches telles que la classification d'images et la détection d'objets. Pour en savoir plus sur la préparation des ensembles de données pour les tâches de vision, consulte Ultralytics' Dataset Guide.

Exemples concrets

Exemple 1 : Imagerie médicale

Dans le domaine de la santé, la normalisation assure la cohérence des valeurs d'intensité des pixels dans les images médicales telles que les radiographies ou les IRM. Ceci est crucial pour les modèles tels que Ultralytics YOLO dans des tâches telles que la détection de tumeurs, où les variations de luminosité ou de contraste pourraient induire le modèle en erreur.

Exemple 2 : Véhicules autonomes

Pour les voitures auto-conduites, les données des capteurs provenant du LiDAR, des caméras et du GPS doivent être normalisées pour garantir une prise de décision précise en temps réel. La normalisation aide à aligner les données provenant de différentes sources, telles que les cartes de profondeur et les images RVB, ce qui permet aux algorithmes d'interpréter efficacement l'environnement. Explore comment l 'IA transforme les véhicules autonomes.

Différences essentielles par rapport aux concepts apparentés

La normalisation est souvent confondue avec des techniques apparentées telles que :

  • Normalisation: Alors que la normalisation met les données à l'échelle d'un intervalle spécifique, la standardisation se concentre sur le centrage des données autour d'une moyenne de 0 avec une variance unitaire. Apprends-en plus sur les techniques de prétraitement des données pour une compréhension plus approfondie.
  • Régularisation: Contrairement à la normalisation, qui transforme les données d'entrée, la régularisation fait appel à des techniques telles que les pénalités L1 ou L2 pour réduire l'ajustement excessif des modèles. Explore la régularisation pour plus de détails.

Outils et ressources

  • Ultralytics HUB: Une plateforme sans code pour former et déployer des modèles d'IA, offrant une intégration transparente d'ensembles de données normalisées pour des tâches telles que la détection et la segmentation d'objets.
  • Guide de normalisation Scikit-learn: Une ressource complète pour mettre en œuvre la normalisation dans les flux de travail de Python .
  • Ensemble de données ImageNet: Un ensemble de données populaire où la normalisation est essentielle pour une formation efficace.

La normalisation est une pierre angulaire des flux de travail d'apprentissage automatique réussis, car elle garantit que les données se présentent sous la meilleure forme possible pour l'entraînement des modèles. En adoptant cette technique, les développeurs peuvent améliorer l'efficacité, la fiabilité et l'évolutivité de leurs modèles dans diverses applications d'IA.

Tout lire