Glossário

Limpeza de dados

Aprende como a limpeza de dados garante conjuntos de dados precisos e de alta qualidade para IA e ML. Melhora o desempenho do modelo com técnicas de limpeza eficientes.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A limpeza de dados é o processo de preparação e refinamento de dados em bruto para garantir a sua qualidade, consistência e relevância para utilização em aplicações de aprendizagem automática (ML) e inteligência artificial (IA). Envolve a identificação e correção de erros, o preenchimento de valores em falta, a remoção de duplicados e a garantia de uma formatação uniforme. Dados de alta qualidade são essenciais para treinar modelos de ML precisos e fiáveis, e a limpeza de dados é um passo fundamental para o conseguir.

Porque é que a limpeza de dados é importante

A limpeza de dados é fundamental no contexto da IA e do ML porque o desempenho dos modelos está diretamente ligado à qualidade dos dados utilizados para a formação. Dados sujos ou inconsistentes podem levar a previsões imprecisas, resultados enviesados e conhecimentos pouco fiáveis. Ao garantir que os dados são precisos, completos e formatados corretamente, a limpeza de dados melhora o desempenho do modelo e ajuda a evitar problemas como o sobreajuste ou o subajuste.

Principais benefícios

  • Precisão melhorada: Os dados limpos permitem que os modelos aprendam padrões significativos, melhorando as suas capacidades de previsão. Sabe mais sobre a importância da precisão na aprendizagem automática.
  • Redução do enviesamento: A limpeza de dados ajuda a minimizar o enviesamento do conjunto de dados, garantindo uma formação de modelos justa e equilibrada.
  • Aumenta a eficiência: Os dados bem preparados aceleram a fase de pré-processamento de dados, reduzindo a sobrecarga computacional.

Etapas da limpeza de dados

  1. Identificar erros: Detetar inconsistências, como valores em falta, outliers ou entradas incorrectas, utilizando ferramentas estatísticas ou visualizações. Por exemplo, as matrizes de confusão podem ser utilizadas para analisar erros de classificação em conjuntos de dados rotulados.
  2. Tratamento de dados em falta: Preencher as lacunas com técnicas de imputação ou remover registos incompletos, dependendo do contexto do conjunto de dados.
  3. Remoção de duplicados: Identifica e elimina entradas duplicadas para garantir a unicidade e a exatidão dos dados.
  4. Padronização de formatos: Assegura a formatação consistente de campos como datas, texto ou valores numéricos.
  5. Validação de dados: Verificação cruzada de dados com fontes externas ou conhecimento do domínio.
  6. Remover o ruído: Filtra pontos de dados irrelevantes para se concentrar em caraterísticas significativas.

Para obter orientações pormenorizadas sobre a preparação de dados anotados, consulta o guia de pré-processamento de dados.

Limpeza de dados em IA e ML

Nos fluxos de trabalho de IA e ML, a limpeza de dados é frequentemente uma das etapas preliminares no pipeline de pré-processamento de dados mais amplo. Assim que os dados são limpos, podem ser aumentados, normalizados ou divididos em conjuntos de treino, validação e teste.

Aplicações no mundo real

  • Cuidados de saúde: Nos sistemas de IA médica, a limpeza de dados é vital para o processamento de registos de pacientes, dados de imagiologia ou resultados de laboratório. Por exemplo, a limpeza de imagens médicas utilizadas na análise de imagens médicas garante uma deteção e um diagnóstico precisos de anomalias.
  • Retalho: As aplicações de retalho envolvem frequentemente a limpeza de dados de transação para analisar o comportamento do cliente ou otimizar o inventário. A remoção de duplicados ou a normalização de identificadores de produtos pode aumentar a precisão dos sistemas de recomendação.

Exemplos de limpeza de dados na prática

Exemplo 1: Deteção de fraudes financeiras

Uma instituição financeira reúne dados de transacções para treinar um modelo de ML para deteção de fraudes. O conjunto de dados em bruto contém valores em falta no campo "local da transação" e entradas duplicadas para algumas transacções. A limpeza de dados envolve:

  • Preenche os valores em falta utilizando a localização mais frequente para o utilizador.
  • Remove entradas duplicadas para evitar distorcer o modelo de deteção.
  • Normaliza os campos numéricos, como os montantes das transacções, para garantir um escalonamento consistente.

Este processo melhora a qualidade do conjunto de dados, permitindo que o modelo identifique corretamente padrões fraudulentos sem se distrair com erros ou inconsistências.

Exemplo 2: Previsão de rendimento agrícola

Na agricultura orientada para a IA, os sensores recolhem dados sobre a qualidade do solo, as condições meteorológicas e a saúde das culturas. Os dados em bruto contêm frequentemente ruído devido a avarias dos sensores ou a erros de transmissão de dados. Ao limpar os dados - eliminando os valores atípicos e preenchendo as leituras em falta - o conjunto de dados torna-se mais fiável para modelos de treino que prevêem tempos de plantação ideais ou rendimentos esperados. Sabe mais sobre a IA na agricultura.

Ferramentas e técnicas

Várias ferramentas e plataformas ajudam na limpeza de dados, desde simples software de folha de cálculo a bibliotecas de programação avançadas. Para projectos de grande escala, a integração de fluxos de trabalho de limpeza de dados com plataformas como Ultralytics HUB pode simplificar o processo e garantir uma compatibilidade perfeita com modelos de IA como Ultralytics YOLO.

Ferramentas comuns

  • Pandas: Uma biblioteca Python para manipulação e limpeza de dados.
  • Dask: Uma biblioteca para lidar com conjuntos de dados maiores do que a memória.
  • OpenRefine: Uma ferramenta para limpar e transformar dados confusos.

Conceitos relacionados

  • Rotulagem de dados: Após a limpeza, os dados precisam frequentemente de ser rotulados para os preparar para tarefas de aprendizagem supervisionada.
  • Aumento de dados: Os dados limpos podem ser aumentados para aumentar a diversidade e melhorar a generalização do modelo.
  • Desvio de dados: Monitoriza as alterações na distribuição dos dados ao longo do tempo, o que pode afetar o desempenho do modelo.

A limpeza de dados é um passo crucial no pipeline de IA e ML, lançando as bases para modelos precisos, eficientes e impactantes. A utilização de ferramentas e práticas recomendadas garante que os teus dados estão prontos para gerar informações e inovações significativas em todos os sectores.

Lê tudo