Augmentation des données
Améliorez vos modèles d'apprentissage automatique grâce à l'augmentation des données. Découvrez des techniques permettant d'augmenter la précision, de réduire l'overfitting et d'améliorer la robustesse.
L'augmentation des données est une technique essentielle de l'apprentissage machine (ML) utilisée pour augmenter artificiellement la taille et la diversité d'un ensemble de données d'apprentissage. Pour ce faire, on crée des versions modifiées, mais réalistes, d'échantillons de données existants. L'objectif principal est d'améliorer les performances et la robustesse des modèles d'IA, en particulier dans le domaine de la vision artificielle (CV), en les exposant à une plus grande variété de conditions pendant la formation. Cela permet d'éviter le surajustement, lorsqu'un modèle apprend trop bien les données d'apprentissage mais ne parvient pas à se généraliser à de nouvelles données inédites, ce qui conduit en fin de compte à une plus grande précision du modèle.
Applications dans le monde réel
L'augmentation des données est une pratique courante dans de nombreux domaines pour construire des systèmes d'intelligence artificielle plus fiables.
- L'IA dans les soins de santé: Dans le domaine de l'analyse d'images médicales, les ensembles de données sont souvent restreints en raison des réglementations relatives à la protection de la vie privée des patients et de la rareté de certaines maladies. Pour former un modèle de détection des tumeurs dans les scanners, des techniques d'augmentation telles que la rotation, la mise à l'échelle et les changements de luminosité créent un ensemble plus diversifié d'exemples de formation. Cela permet au modèle d'identifier avec précision les anomalies, quelles que soient les variations de l'équipement d'imagerie ou du positionnement du patient, améliorant ainsi la fiabilité du diagnostic.
- L'IA pour l'automobile: Le développement de systèmes robustes de détection d'objets pour les véhicules autonomes nécessite des données provenant d'innombrables scénarios de conduite. Au lieu de collecter des données pour toutes les conditions possibles, l'augmentation peut simuler différentes conditions météorologiques (par exemple, en ajoutant de la pluie ou de la neige synthétique), l'éclairage (jour, crépuscule, nuit) et les occlusions (par exemple, un piéton partiellement caché par une autre voiture). Le système de perception du véhicule est ainsi plus fiable dans les environnements imprévisibles du monde réel.
Parmi les autres applications importantes, on peut citer l'IA dans la fabrication pour le contrôle de la qualité et l 'IA dans l'agriculture pour la détection des maladies des cultures dans des conditions de terrain variables.
Augmentation des données et concepts connexes
Il est important de distinguer l'augmentation des données des autres techniques liées aux données.
- Données synthétiques: Bien que les deux méthodes améliorent les ensembles de données, elles fonctionnent différemment. L'augmentation des données modifie les données réelles existantes. En revanche, la génération de données synthétiques crée des données artificielles entièrement nouvelles à partir de zéro en utilisant des simulations ou des modèles génératifs comme les GAN. Alors que l'augmentation accroît la variance autour des données observées, les données synthétiques peuvent créer de nouveaux scénarios qui ne sont pas présents dans l'ensemble de données original, un concept exploré dans cette vue d'ensemble des données synthétiques en vision par ordinateur.
- Nettoyage des données: Le nettoyage des données fait partie d'un processus plus large de prétraitement des données qui se concentre sur l'identification et la correction des erreurs, des incohérences et des inexactitudes dans un ensemble de données. Son objectif est d'améliorer la qualité des données. L'augmentation des données, quant à elle, consiste à accroître la quantité et la variété des données. Un ensemble de données propre est le point de départ idéal avant d'appliquer l'augmentation.
- Apprentissage par transfert: Cette technique consiste à utiliser un modèle pré-entraîné sur un grand ensemble de données de référence comme ImageNet, puis à l'affiner sur un ensemble de données plus petit et spécifique à une tâche. L'augmentation des données est souvent utilisée au cours de la phase d'ajustement pour améliorer encore les performances et éviter l'ajustement excessif sur les nouvelles données.
Des plateformes comme Ultralytics HUB rationalisent l'ensemble du processus de formation des modèles, en intégrant l'augmentation des données en tant qu'étape clé pour aider les utilisateurs à construire des modèles d'IA de vision puissants et à la pointe de la technologie.
Comment fonctionne l'augmentation des données
Dans le domaine de la vision par ordinateur, l'augmentation des données consiste à appliquer une série de transformations aux images. Ces transformations sont conçues pour simuler les variations du monde réel qu'un modèle pourrait rencontrer après son déploiement. Les techniques les plus courantes sont les suivantes :
De nombreux frameworks d'apprentissage profond, comme PyTorch et TensorFlow, fournissent des outils pour l'augmentation des données. Des bibliothèques spécialisées comme Albumentations offrent une vaste collection de techniques d'augmentation très performantes et sont intégrées à des modèles comme Ultralytics YOLO11 pour diversifier les données d'entraînement de manière transparente.