Glossário

Pré-processamento de dados

Pré-processamento de dados principais para aprendizagem automática. Aprende técnicas como limpeza, dimensionamento e codificação para aumentar a precisão e o desempenho do modelo.

O pré-processamento de dados envolve as técnicas essenciais utilizadas para limpar, transformar e organizar dados brutos num formato estruturado e adequado antes de serem utilizados para treinar modelos de aprendizagem automática (ML). Os dados brutos recolhidos de várias fontes são frequentemente confusos, contendo valores em falta, inconsistências, ruído ou erros. O pré-processamento aborda estas questões, melhorando a qualidade dos dados, o que se traduz diretamente num melhor desempenho, precisão e fiabilidade dos modelos de ML. Este passo é fundamental em qualquer projeto orientado para os dados, incluindo os da Inteligência Artificial (IA) e da Visão por Computador (CV).

Porque é que o pré-processamento de dados é importante?

O princípio "lixo dentro, lixo fora" aplica-se fortemente à aprendizagem automática. Os modelos aprendem padrões diretamente a partir dos dados com que são treinados. Se os dados de entrada tiverem falhas, o modelo aprenderá padrões incorrectos ou irrelevantes, conduzindo a previsões fracas e a resultados pouco fiáveis. Dados de alta qualidade e bem preparados são cruciais para a criação de modelos eficazes, como o Ultralytics YOLO para tarefas exigentes como a deteção de objectos. O pré-processamento correto dos dados contribui significativamente ao

Melhora a precisão do modelo: Dados limpos e bem estruturados ajudam o modelo a aprender padrões significativos de forma mais eficaz.
Aumenta a eficiência: O pré-processamento pode reduzir os recursos computacionais necessários para a formação, simplificando os dados ou reduzindo a sua dimensionalidade.
Reduzir o sobreajuste: A resolução do ruído e dos valores atípicos pode impedir que o modelo aprenda estes detalhes irrelevantes, melhorando a sua capacidade de generalização para novos dados e evitando o sobreajuste.
Garante a fiabilidade: A formatação consistente dos dados leva a um comportamento mais estável e fiável do modelo durante o treino e a inferência.

Técnicas comuns de pré-processamento de dados

São aplicadas várias técnicas durante o pré-processamento de dados, muitas vezes em combinação, dependendo do tipo de dados e da tarefa específica de ML. As principais técnicas incluem:

Limpeza de dados: Isto envolve a identificação e a correção de erros, o tratamento de valores em falta (por exemplo, através de imputação ou remoção) e o tratamento de pontos de dados discrepantes ou ruidosos. Ferramentas como o Pandas são normalmente utilizadas para este efeito em Python.
Transformação de dados: Esta etapa modifica os dados para um formato mais adequado.
- Escalonamento: Técnicas como Normalização (escalonamento de dados para um intervalo, normalmente de 0 a 1) ou Padronização (escalonamento de dados para ter média zero e variância unitária) ajudam algoritmos que são sensíveis a escalas de caraterísticas, como modelos baseados em descida de gradiente. Saiba mais sobre técnicas de dimensionamento na documentação de pré-processamento do Scikit-learn.
- Codificação: Converte caraterísticas categóricas (como etiquetas de texto) em representações numéricas (por exemplo, codificação de um ponto) que os modelos podem processar.
Engenharia de caraterísticas: Cria caraterísticas novas e potencialmente mais informativas a partir das existentes para melhorar o desempenho do modelo. Isto requer conhecimento do domínio e criatividade.
Extração de caraterísticas: Extrai automaticamente um conjunto mais pequeno de caraterísticas dos dados originais, preservando a informação essencial. Utiliza frequentemente técnicas como a análise de componentes principais (PCA).
Redução de dimensionalidade: Reduzir o número de caraterísticas de entrada para simplificar o modelo, diminuir o tempo de treino e mitigar o risco de sobreajuste, especialmente importante para Big Data.
Pré-processamento específico da imagem: Para tarefas de visão computacional, as etapas comuns incluem redimensionar imagens para uma dimensão consistente, converter espaços de cores (por exemplo, BGR para RGB), ajustar o brilho ou o contraste e aplicar filtros para redução de ruído usando bibliotecas como OpenCV. Ultralytics fornece orientações sobre o pré-processamento de dados anotados para modelos YOLO .

Aplicações no mundo real

O pré-processamento de dados é fundamental em inúmeras aplicações de IA/ML:

Análise de imagens médicas: Antes que um modelo de IA possa analisar exames de ressonância magnética ou tomografia computadorizada para detetar anormalidades como tumores(exemplo do conjunto de dados de tumores cerebrais), as imagens devem ser pré-processadas. Isto inclui frequentemente a redução do ruído utilizando filtros, a normalização da intensidade para normalizar os níveis de brilho em diferentes exames e máquinas e o registo de imagens para alinhar vários exames. Estes passos garantem que o modelo recebe dados consistentes, melhorando a sua capacidade de detetar anomalias subtis com precisão. Isto é vital para aplicações em IA nos cuidados de saúde.
Veículos autónomos: Os veículos autónomos dependem de sensores como câmaras e LiDAR. Os dados brutos destes sensores necessitam de um pré-processamento exaustivo. As imagens das câmaras podem necessitar de redimensionamento, correção de cor e ajustes de brilho para lidar com condições de iluminação variáveis. Os dados da nuvem de pontos LiDAR podem necessitar de filtragem para remover ruído ou pontos no solo. Este pré-processamento garante que os sistemas de deteção e seguimento de objectos recebem dados limpos e padronizados para identificar peões, veículos e obstáculos de forma fiável, o que é crucial para a segurança em aplicações de IA no sector automóvel.