Glossário

Etiquetagem de dados

Descobre o papel fundamental da etiquetagem de dados na aprendizagem automática, o seu processo, desafios e aplicações reais no desenvolvimento da IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A etiquetagem de dados é o processo essencial de adicionar etiquetas informativas ou anotações a dados em bruto, como imagens, vídeos, texto ou áudio. Estas etiquetas fornecem contexto, permitindo que os modelos de aprendizagem automática (ML) compreendam e interpretem os dados com precisão. Na Aprendizagem Supervisionada, os dados etiquetados funcionam como a "verdade fundamental", as respostas corretas verificadas com as quais os modelos aprendem a identificar padrões e a fazer previsões futuras. A qualidade e a precisão destas etiquetas influenciam diretamente o desempenho do modelo, tornando a etiquetagem de dados um passo fundamental na construção de sistemas fiáveis de Inteligência Artificial (IA), particularmente em áreas como a Visão por Computador (CV).

Importância da rotulagem de dados

Os dados rotulados de alta qualidade são a base de projectos de ML bem sucedidos. Modelos como o Ultralytics YOLO dependem fortemente de conjuntos de dados rotulados com precisão para um treino eficaz. Etiquetas inconsistentes ou incorrectas podem levar a modelos com fraco desempenho e a previsões pouco fiáveis em cenários do mundo real. A preparação de dados, que inclui a rotulagem, constitui frequentemente uma parte significativa do tempo investido em projectos de IA, sublinhando o seu papel crítico. Alguns relatórios, como o relatório Anaconda State of Data Science, indicam que a preparação de dados consome uma grande parte do tempo dos cientistas de dados.

O processo de rotulagem de dados

O processo de rotulagem de dados envolve normalmente várias fases:

  1. Recolha de dados: Recolhe os dados em bruto (imagens, vídeos, etc.) que precisam de ser etiquetados.
  2. Definição de diretrizes: Estabelece instruções e normas claras sobre a forma como os rótulos devem ser aplicados para garantir a coerência.
  3. Anotação: Aplica etiquetas aos dados de acordo com as diretrizes definidas, utilizando ferramentas especializadas. É frequentemente designada por anotação de dados.
  4. Garantia de qualidade (QA): Revê os dados rotulados para verificar a exatidão, a consistência e a adesão às diretrizes.

Para uma análise mais aprofundada dos passos práticos, consulta o Guia de Anotação e Recolha de DadosUltralytics .

Tipos de rotulagem de dados na visão computacional

Diferentes tarefas CV requerem diferentes tipos de etiquetas:

  • Caixas de delimitação: Desenha rectângulos à volta de objectos de interesse para a Deteção de Objectos.
  • Polígonos/Máscaras: Delinear a forma exacta dos objectos ao nível do pixel para a segmentação de imagens.
  • Pontos-chave: Marcação de pontos específicos num objeto (por exemplo, articulações num corpo humano) para Estimativa de Pose.
  • Etiquetas de classificação: Atribui uma única etiqueta a uma imagem inteira para categorizar o seu conteúdo.

Aplicações e exemplos do mundo real

A rotulagem de dados alimenta inúmeras aplicações de IA em vários sectores:

  • Cuidados de saúde: Rotular imagens médicas (como raios X ou ressonâncias magnéticas de recursos como o The Cancer Imaging Archive (TCIA)) para treinar modelos que detectam doenças ou anomalias. Vê mais em IA nos cuidados de saúde.
  • Veículos autónomos: Anotar dados de sensores (imagens de câmaras, nuvens de pontos LiDAR) a partir de conjuntos de dados como o Waymo Open Dataset para ensinar os carros autónomos a perceber peões, veículos e sinais de trânsito. Explora a IA no sector automóvel.
  • Retalho: Marcação de produtos nas prateleiras em imagens para automatizar a gestão do inventário ou analisar o comportamento dos clientes.
  • Agricultura: Rotular imagens de culturas para monitorizar a saúde, detetar doenças ou estimar o rendimento.

Conceitos relacionados

A etiquetagem de dados está intimamente ligada a outros conceitos-chave de ML:

  • Aumento de dados: Técnicas utilizadas para aumentar artificialmente o tamanho e a diversidade de um conjunto de dados rotulados, aplicando transformações (como rotação ou alterações de brilho) aos dados existentes. Podes encontrar mais detalhes nesta visão geral do aumento de dados.
  • Pré-processamento de dados: Os passos tomados para limpar, formatar e preparar os dados brutos antes de serem rotulados ou utilizados para formação.
  • Aprendizagem supervisionada: O paradigma de ML que se baseia em dados rotulados para treinar modelos, em contraste com a aprendizagem não supervisionada ou por reforço. Podes ler mais sobre este tema na página Aprendizagem supervisionada da Wikipédia.

Desafios na rotulagem de dados

Apesar da sua importância, a rotulagem de dados apresenta desafios:

  • Custo e tempo: A etiquetagem de grandes conjuntos de dados pode ser dispendiosa e demorada, exigindo frequentemente um esforço humano significativo.
  • Controlo de qualidade: Garantir uma elevada exatidão e consistência entre rótulos é difícil, mas crucial para o desempenho do modelo. A manutenção de uma elevada qualidade dos dados é fundamental.
  • Subjetividade: Algumas tarefas requerem julgamentos subjectivos, o que leva a potenciais inconsistências entre os rotuladores.
  • Escalabilidade: Gerir e escalar operações de etiquetagem para conjuntos de dados muito grandes pode ser complexo.

Técnicas como a Aprendizagem Ativa visam reduzir a carga de rotulagem, selecionando de forma inteligente os pontos de dados mais informativos para rotular em primeiro lugar, reduzindo potencialmente o esforço global, tal como explicado na página de aprendizagem ativa da Wikipedia.

Ferramentas e plataformas

Várias ferramentas ajudam a simplificar o processo de rotulagem de dados. OUltralytics HUB oferece gestão integrada de conjuntos de dados e funcionalidades de etiquetagem concebidas para tarefas de visão por computador. Outras plataformas populares de código aberto e comerciais incluem o Label Studio e o CVAT (Computer Vision Annotation Tool).

Lê tudo