Découvrez l'apprentissage supervisé dans le domaine de l'IA. Apprenez comment des modèles tels que Ultralytics utilisent des données étiquetées pour la classification et la régression afin d'obtenir des résultats très précis.
L'apprentissage supervisé est une approche fondamentale de l' intelligence artificielle (IA) dans laquelle les algorithmes sont entraînés à partir de données d'entrée qui ont été étiquetées avec la sortie correcte. Dans cette méthode, le modèle apprend en comparant ses propres prédictions avec ces étiquettes fournies, disposant ainsi d'un « superviseur » qui le corrige pendant le processus d'entraînement. L'objectif principal est que le système apprenne suffisamment bien la fonction de mappage des entrées vers les sorties pour pouvoir prédire avec précision les étiquettes pour de nouvelles données de test inconnues . Cette technique est le moteur de bon nombre des applications d'IA les plus pratiques et les plus performantes utilisées aujourd'hui, allant des filtres anti-spam pour les e-mails aux systèmes de conduite autonome.
Le flux de travail de l'apprentissage supervisé s'articule autour de l'utilisation de données étiquetées. Un ensemble de données est constitué, dans lequel chaque exemple d'entraînement est associé à une étiquette « vérité terrain » correspondante. Pendant la phase d'entraînement du modèle, l'algorithme traite les caractéristiques d'entrée et génère une prédiction. Une formule mathématique appelée fonction de perte mesure ensuite l'erreur, c'est-à-dire la différence entre la prédiction du modèle et l'étiquette réelle.
Pour minimiser cette erreur, un algorithme d'optimisation, tel que la descente stochastique du gradient (SGD), ajuste de manière itérative les paramètres internes du modèle ou les pondérations du modèle. Ce processus se répète sur plusieurs cycles, appelés époques, jusqu'à ce que le modèle atteigne un niveau de précision satisfaisant sans surajustement aux données d'entraînement . Des outils tels que la Ultralytics simplifient l'ensemble de ce pipeline en gérant l'annotation, l'entraînement et l'évaluation des ensembles de données dans un environnement unifié.
Les problèmes d'apprentissage supervisé sont généralement classés en deux types principaux en fonction de la nature de la variable cible :
L'apprentissage supervisé alimente un large éventail de technologies dans différents secteurs :
Il est important de distinguer l'apprentissage supervisé de l'apprentissage non supervisé. Alors que l'apprentissage supervisé s'appuie sur des paires entrée-sortie étiquetées, l'apprentissage non supervisé fonctionne avec des données non étiquetées. Dans les scénarios non supervisés , l'algorithme tente de trouver par lui-même des structures, des modèles ou des regroupements cachés dans les données, comme la segmentation de la clientèle dans le marketing. L'apprentissage supervisé est généralement plus précis pour des tâches spécifiques où des données historiques sont disponibles, tandis que l'apprentissage non supervisé est plus adapté à l'analyse exploratoire des données.
L'apprentissage supervisé est essentiel à la formation des modèles modernes de vision par ordinateur. Python suivant montre comment former un modèle YOLO26 à l'aide d'un ensemble de données supervisé (COCO8). Le modèle apprend à detect à partir des images étiquetées dans l'ensemble de données.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt") # load a pretrained model (recommended for training)
# Train the model using the 'coco8.yaml' dataset (supervised learning)
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# The model is now fine-tuned based on the supervised labels in the dataset
Ce processus simple exploite la puissance de PyTorch en arrière-plan pour effectuer des opérations matricielles complexes et des calculs de gradient. Pour ceux qui cherchent à rationaliser la gestion des données, la Ultralytics propose des outils de formation en ligne et d' annotation automatique, ce qui rend le flux de travail de l'apprentissage supervisé nettement plus efficace.