Glossário

Pré-processamento de dados

Pré-processamento de dados principais para aprendizagem automática. Aprende técnicas como limpeza, dimensionamento e codificação para aumentar a precisão e o desempenho do modelo.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O pré-processamento de dados envolve as técnicas essenciais utilizadas para limpar, transformar e organizar dados brutos num formato estruturado e adequado antes de serem utilizados para treinar modelos de aprendizagem automática (ML). Os dados brutos recolhidos de várias fontes são frequentemente confusos, contendo valores em falta, inconsistências, ruído ou erros. O pré-processamento aborda estas questões, melhorando a qualidade dos dados, o que se traduz diretamente num melhor desempenho, precisão e fiabilidade dos modelos de ML. Este passo é fundamental em qualquer projeto orientado para os dados, incluindo os da Inteligência Artificial (IA) e da Visão por Computador (CV).

Porque é que o pré-processamento de dados é importante?

O princípio "lixo dentro, lixo fora" aplica-se fortemente à aprendizagem automática. Os modelos aprendem padrões diretamente a partir dos dados com que são treinados. Se os dados de entrada tiverem falhas, o modelo aprenderá padrões incorrectos ou irrelevantes, conduzindo a previsões fracas e a resultados pouco fiáveis. Dados de alta qualidade e bem preparados são cruciais para a criação de modelos eficazes, como o Ultralytics YOLO para tarefas exigentes como a deteção de objectos. O pré-processamento correto dos dados contribui significativamente ao

  • Melhora a precisão do modelo: Dados limpos e bem estruturados ajudam o modelo a aprender padrões significativos de forma mais eficaz.
  • Aumenta a eficiência: O pré-processamento pode reduzir os recursos computacionais necessários para a formação, simplificando os dados ou reduzindo a sua dimensionalidade.
  • Reduzir o sobreajuste: A resolução do ruído e dos valores atípicos pode impedir que o modelo aprenda estes detalhes irrelevantes, melhorando a sua capacidade de generalização para novos dados e evitando o sobreajuste.
  • Garante a fiabilidade: A formatação consistente dos dados leva a um comportamento mais estável e fiável do modelo durante o treino e a inferência.

Técnicas comuns de pré-processamento de dados

São aplicadas várias técnicas durante o pré-processamento de dados, muitas vezes em combinação, dependendo do tipo de dados e da tarefa específica de ML. As principais técnicas incluem:

  • Limpeza de dados: Isto envolve a identificação e a correção de erros, o tratamento de valores em falta (por exemplo, através de imputação ou remoção) e o tratamento de pontos de dados discrepantes ou ruidosos. Ferramentas como o Pandas são normalmente utilizadas para este efeito em Python.
  • Transformação de dados: Esta etapa modifica os dados para um formato mais adequado.
    • Escalonamento: Técnicas como Normalização (escalonamento de dados para um intervalo, normalmente de 0 a 1) ou Padronização (escalonamento de dados para ter média zero e variância unitária) ajudam algoritmos que são sensíveis a escalas de caraterísticas, como modelos baseados em descida de gradiente. Saiba mais sobre técnicas de dimensionamento na documentação de pré-processamento do Scikit-learn.
    • Codificação: Converte caraterísticas categóricas (como etiquetas de texto) em representações numéricas (por exemplo, codificação de um ponto) que os modelos podem processar.
  • Engenharia de caraterísticas: Cria caraterísticas novas e potencialmente mais informativas a partir das existentes para melhorar o desempenho do modelo. Isto requer conhecimento do domínio e criatividade.
  • Extração de caraterísticas: Extrai automaticamente um conjunto mais pequeno de caraterísticas dos dados originais, preservando a informação essencial. Utiliza frequentemente técnicas como a análise de componentes principais (PCA).
  • Redução de dimensionalidade: Reduzir o número de caraterísticas de entrada para simplificar o modelo, diminuir o tempo de treino e mitigar o risco de sobreajuste, especialmente importante para Big Data.
  • Pré-processamento específico da imagem: Para tarefas de visão computacional, as etapas comuns incluem redimensionar imagens para uma dimensão consistente, converter espaços de cores (por exemplo, BGR para RGB), ajustar o brilho ou o contraste e aplicar filtros para redução de ruído usando bibliotecas como OpenCV. Ultralytics fornece orientações sobre o pré-processamento de dados anotados para modelos YOLO .

Aplicações no mundo real

O pré-processamento de dados é fundamental em inúmeras aplicações de IA/ML:

  1. Análise de imagens médicas: Antes que um modelo de IA possa analisar exames de ressonância magnética ou tomografia computadorizada para detetar anormalidades como tumores(exemplo do conjunto de dados de tumores cerebrais), as imagens devem ser pré-processadas. Isto inclui frequentemente a redução do ruído utilizando filtros, a normalização da intensidade para normalizar os níveis de brilho em diferentes exames e máquinas e o registo de imagens para alinhar vários exames. Estes passos garantem que o modelo recebe dados consistentes, melhorando a sua capacidade de detetar anomalias subtis com precisão. Isto é vital para aplicações em IA nos cuidados de saúde.
  2. Veículos autónomos: Os veículos autónomos dependem de sensores como câmaras e LiDAR. Os dados brutos destes sensores necessitam de um pré-processamento exaustivo. As imagens das câmaras podem necessitar de redimensionamento, correção de cor e ajustes de brilho para lidar com condições de iluminação variáveis. Os dados da nuvem de pontos LiDAR podem necessitar de filtragem para remover ruído ou pontos no solo. Este pré-processamento garante que os sistemas de deteção e seguimento de objectos recebem dados limpos e padronizados para identificar peões, veículos e obstáculos de forma fiável, o que é crucial para a segurança em aplicações de IA no sector automóvel.

Pré-processamento de dados vs. conceitos relacionados

É útil distinguir o pré-processamento de dados de termos estreitamente relacionados:

  • Limpeza de dados vs. Pré-processamento de dados: A limpeza de dados é um subconjunto do pré-processamento de dados, especificamente centrado na identificação e correção de erros, inconsistências e valores em falta no conjunto de dados. O pré-processamento é mais abrangente, englobando a limpeza, bem como a transformação, o escalonamento e a manipulação de caraterísticas.
  • Aumento de dados vs. Pré-processamento de dados: O aumento de dados envolve aumentar artificialmente o tamanho e a diversidade do conjunto de dados de treinamento criando cópias modificadas de dados existentes (por exemplo, girando ou invertendo imagens). Embora o aumento seja uma parte vital da preparação de dados para treinamento, especialmente no aprendizado profundo, ele é normalmente realizado após as etapas iniciais de pré-processamento, como limpeza e redimensionamento. Explora dicas para a formação de modelos, incluindo estratégias de aumento.
  • Engenharia de caraterísticas vs. Pré-processamento de dados: A engenharia de caraterísticas é o processo de criação de novas caraterísticas de entrada a partir de caraterísticas existentes. É frequentemente considerado um passo dentro do pipeline de pré-processamento de dados mais amplo, com o objetivo de melhorar o poder de previsão do modelo.
  • Rotulagem de dados vs. Pré-processamento de dados: A rotulagem de dados envolve a atribuição de etiquetas ou anotações significativas (como desenhar caixas delimitadoras à volta de objectos) a dados em bruto. Isto é essencial para tarefas de aprendizagem supervisionada. A rotulagem é uma etapa distinta que geralmente ocorre antes ou junto com o pré-processamento. As etiquetas de alta qualidade combinadas com um pré-processamento eficaz são cruciais para a formação de modelos. Consulta o guia de Anotação e Recolha de DadosUltralytics para obteres mais informações.

A gestão de conjuntos de dados e a aplicação de etapas de pré-processamento podem ser simplificadas através de plataformas como o Ultralytics HUB, que oferece ferramentas para a gestão de conjuntos de dados e a formação de modelos.

Lê tudo