Impara le basi dell'etichettatura dei dati per l'apprendimento automatico. Scopri i tipi principali, come il rilevamento degli oggetti, e come accelerare i flussi di lavoro utilizzando Ultralytics .
L'etichettatura dei dati è il processo fondamentale che consiste nell'identificare i dati grezzi, come immagini, fotogrammi video, testo o audio, e aggiungere tag informativi o metadati per fornire un contesto. Nel campo dell' apprendimento automatico (ML), gli algoritmi non sono in grado di comprendere intrinsecamente il mondo fisico, ma necessitano di un "insegnante" che li guidi. Questa guida si presenta sotto forma di set di dati etichettati utilizzati durante l' apprendimento supervisionato. Le etichette fungono da verità di base, rappresentando le risposte corrette che il modello cerca di prevedere. Sia che si tratti di addestrare un semplice classificatore o un'architettura complessa come Ultralytics , l'accuratezza, la coerenza e la qualità di queste etichette sono i fattori determinanti principali per il successo di un modello.
Sebbene questi termini siano spesso usati in modo intercambiabile nelle conversazioni informali, esiste una sottile differenza che vale la pena sottolineare. Il "data labeling" si riferisce generalmente all'atto generico di assegnare una categoria o un tag a un dato (ad esempio, contrassegnare un'e-mail come "spam"). Al contrario, l' annotazione dei dati è spesso più specifica per la visione artificiale (CV) e comporta la delineazione precisa degli oggetti utilizzando riquadri di delimitazione, poligoni o punti chiave. Tuttavia, nella maggior parte dei flussi di lavoro delle operazioni di ML (MLOps), entrambi i termini descrivono la creazione di dati di addestramento di alta qualità.
Il metodo di etichettatura cambia in base al compito che il modello deve svolgere. I tipi più comuni includono:
L'utilità dell'etichettatura dei dati si estende praticamente a tutti i settori che impiegano l'intelligenza artificiale.
La creazione di un set di dati etichettati è spesso la parte più dispendiosa in termini di tempo di un progetto di IA. Il processo prevede in genere un approccio "Human-in-the-Loop" (HITL), in cui gli annotatori umani verificano le etichette per garantire un'elevata precisione. I moderni flussi di lavoro sfruttano strumenti come la Ultralytics , che semplifica la gestione dei set di dati e consente ai team di collaborare alle annotazioni. È possibile impiegare anche tecniche avanzate come l' apprendimento attivo, in cui un modello pre-etichettatura i dati e gli esseri umani correggono solo le previsioni a bassa affidabilità, velocizzando notevolmente il processo.
L'esempio seguente mostra come utilizzare un modello YOLO26 pre-addestrato per generare automaticamente etichette (etichettatura automatica) per una nuova immagine, che possono poi essere corrette dall'uomo:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")