Aprenda os fundamentos da rotulagem de dados para aprendizagem automática. Descubra os principais tipos, como deteção de objetos, e como acelerar fluxos de trabalho usando Ultralytics .
A rotulagem de dados é o processo fundamental de identificar dados brutos — como imagens, fotogramas de vídeo, texto ou áudio — e adicionar etiquetas informativas ou metadados para fornecer contexto. No domínio da aprendizagem automática (ML), os algoritmos não conseguem compreender inerentemente o mundo físico; eles precisam de um «professor» para os orientar. Essa orientação vem na forma de conjuntos de dados rotulados usados durante a aprendizagem supervisionada. As etiquetas servem como verdade fundamental, representando as respostas corretas que o modelo se esforça para prever. Seja no treinamento de um classificador simples ou de uma arquitetura complexa como o Ultralytics , a precisão, a consistência e a qualidade dessas etiquetas são os principais determinantes do sucesso de um modelo.
Embora os termos sejam frequentemente usados de forma intercambiável em conversas informais, há uma distinção sutil que vale a pena notar. "Rotulagem de dados" geralmente refere-se ao ato amplo de atribuir uma categoria ou etiqueta a um dado (por exemplo, marcar um e-mail como "spam"). Em contrapartida, a anotação de dados é frequentemente mais específica da visão computacional (CV), envolvendo a delimitação precisa de objetos usando caixas delimitadoras, polígonos ou pontos-chave. No entanto, na maioria dos fluxos de trabalho de operações de ML (MLOps), ambos os termos descrevem a criação de dados de treino de alta qualidade.
O método de rotulagem muda com base na tarefa que o modelo deve realizar. Os tipos comuns incluem:
A utilidade da rotulagem de dados se estende a praticamente todos os setores que empregam IA.
Criar um conjunto de dados rotulados é frequentemente a parte mais demorada de um projeto de IA. O processo envolve normalmente uma abordagem «Human-in-the-Loop» (HITL), em que anotadores humanos verificam os rótulos para garantir uma elevada precisão. Os fluxos de trabalho modernos utilizam ferramentas como a Ultralytics , que simplifica a gestão de conjuntos de dados e permite que as equipas colaborem nas anotações. Técnicas avançadas como a aprendizagem ativa também podem ser empregadas, em que um modelo pré-rotula os dados e os humanos apenas corrigem as previsões de baixa confiança, acelerando significativamente o processo.
O exemplo a seguir demonstra como usar um modelo YOLO26 pré-treinado para gerar automaticamente rótulos (rotulagem automática) para uma nova imagem, que podem então ser corrigidos por humanos:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")