Glossaire

Données synthétiques

Découvrez comment les données synthétiques alimentent l'IA et l'apprentissage automatique. Apprenez à générer des ensembles de données de haute qualité pour Ultralytics afin d'améliorer dès aujourd'hui la précision des modèles.

Les données synthétiques sont des informations générées artificiellement qui imitent les propriétés statistiques, les modèles et les caractéristiques structurelles des données réelles. Dans les domaines en rapide évolution de l' intelligence artificielle (IA) et de l' apprentissage automatique (ML), ces données constituent une ressource essentielle lorsque la collecte de données authentiques est coûteuse, longue ou soumise à des restrictions en matière de réglementation sur la confidentialité. Contrairement aux données organiques collectées à partir d'événements réels, les données synthétiques sont créées de manière algorithmique à l'aide de techniques telles que les simulations informatiques et les modèles génératifs avancés. D'ici 2030, les analystes industriels de Gartner prévoient que les données synthétiques éclipseront les données réelles dans les modèles d'IA, modifiant fondamentalement la manière dont les systèmes intelligents sont construits et déployés.

Le rôle des données synthétiques dans le développement de l'IA

La principale raison d'utiliser des ensembles de données synthétiques est de surmonter les limites inhérentes à la collecte et à l'annotation traditionnelles des données. La formation de modèles robustes de vision par ordinateur (CV) nécessite souvent des ensembles de données massifs contenant des scénarios diversifiés. Lorsque les données du monde réel sont rares, comme dans le cas du diagnostic de maladies rares ou d'accidents de la route dangereux, les données synthétiques comblent cette lacune.

La génération de ces données permet aux développeurs de créer des données d'entraînement parfaitement étiquetées à la demande. Cela inclut des rectangles de sélection précis pour la détection d'objets ou des masques au pixel près pour la segmentation sémantique, éliminant ainsi les erreurs humaines souvent présentes dans les processus d'étiquetage manuels. De plus, cela permet de remédier aux biais dans l'IA en permettant aux ingénieurs d'équilibrer délibérément les ensembles de données avec des groupes sous-représentés ou des conditions environnementales, garantissant ainsi des performances plus équitables du modèle.

Applications concrètes

Les données synthétiques révolutionnent les secteurs où la confidentialité, la sécurité et l'évolutivité des données sont primordiales.

Simulations de conduite autonome : tester des véhicules autonomes uniquement dans le monde physique est risqué et limité géographiquement. Les entreprises utilisent des simulateurs photoréalistes, tels que NVIDIA , pour entraîner leurs systèmes de perception. Ces simulateurs génèrent des milliards de kilomètres virtuels, exposant l'IA à des conditions météorologiques dangereuses, au comportement imprévisible des piétons et à des configurations urbaines complexes difficiles à reproduire de manière cohérente dans le monde réel.
Santé et imagerie médicale : les lois sur la confidentialité des patients telles que l'HIPAA et le RGPD réglementent strictement le partage des dossiers médicaux. Les données synthétiques permettent de créer des ensembles de données réalistes pour l'analyse d'images médicales, telles que des radiographies ou des IRM, qui conservent les marqueurs pathologiques sans contenir aucune information personnelle identifiable. Cela permet aux chercheurs de former des modèles de détection des tumeurs de manière collaborative sans compromettre la confidentialité des patients.

Génération de données synthétiques pour l'IA visuelle

La création de données synthétiques de haute qualité implique souvent deux approches principales : les moteurs de simulation et l' IA générative. Les moteurs de simulation, comme le moteur Unity, utilisent des graphiques 3D pour rendre des scènes avec un éclairage et des textures basés sur la physique. Par ailleurs, les modèles génératifs, tels que les réseaux antagonistes génératifs (GAN) et les modèles de diffusion, apprennent la distribution des données réelles afin de synthétiser de nouveaux exemples photoréalistes.

Une fois qu'un ensemble de données synthétiques est généré, il peut être utilisé pour entraîner des modèles haute performance. Python suivant montre comment charger un modèle, potentiellement entraîné sur des données synthétiques, à l'aide de la fonction ultralytics paquet pour effectuer une inférence sur une image.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()