Glossário

Limpeza de dados

Domina a limpeza de dados para projectos de IA e ML. Aprende técnicas para corrigir erros, melhorar a qualidade dos dados e aumentar o desempenho do modelo de forma eficaz!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A limpeza de dados é um passo crucial na fase de pré-processamento de dados de qualquer projeto de aprendizagem automática (ML) ou inteligência artificial (IA). Envolve a identificação e correção de erros, inconsistências e imprecisões nos dados em bruto para garantir que o conjunto de dados utilizado para formação ou análise é de alta qualidade, fiável e adequado para o fim pretendido. Este processo é essencial porque o desempenho dos modelos de ML depende muito da qualidade dos dados de entrada. Dados imprecisos ou inconsistentes podem conduzir a resultados enganadores, a um fraco desempenho do modelo e a conclusões incorrectas.

Importância da limpeza de dados na IA e no ML

No domínio da IA e do ML, os dados são o combustível que alimenta os algoritmos e os modelos. Os dados de alta qualidade permitem que os modelos aprendam eficazmente, façam previsões precisas e generalizem bem para dados novos e não vistos. A limpeza de dados desempenha um papel fundamental para alcançar este objetivo, garantindo que os dados introduzidos nos modelos são precisos, consistentes e relevantes. Sem uma limpeza de dados adequada, os modelos podem sofrer de problemas como o sobreajuste, em que o modelo tem um bom desempenho nos dados de treino mas um desempenho fraco nos novos dados, ou o subajuste, em que o modelo não consegue captar os padrões subjacentes nos dados.

Técnicas comuns de limpeza de dados

São utilizadas várias técnicas na limpeza de dados, dependendo da natureza dos dados e dos problemas específicos presentes. Algumas das técnicas mais comuns incluem:

  • Tratamento de valores em falta: Os dados em falta podem ser tratados removendo as entradas de dados com valores em falta ou imputando-os. Os métodos de imputação incluem a substituição dos valores em falta pela média, mediana ou moda da caraterística, ou a utilização de técnicas mais avançadas como a imputação por regressão.
  • Deteção e tratamento de outliers: Os outliers, ou pontos de dados que se desviam significativamente do resto do conjunto de dados, podem distorcer os resultados da análise. Técnicas como o método IQR (Interquartile Range) ou o Z-score podem ser utilizadas para identificar os valores anómalos, que podem depois ser removidos ou transformados.
  • Remoção de duplicados: As entradas de dados duplicadas podem levar a uma representação excessiva de determinados padrões nos dados. A identificação e remoção de duplicados garante que o conjunto de dados reflecte com precisão a distribuição subjacente.
  • Transformação de dados: Envolve a conversão de dados num formato adequado para análise. As transformações comuns incluem a normalização, que dimensiona os dados para um intervalo específico, e a padronização, que transforma os dados para que tenham uma média de 0 e um desvio padrão de 1. Saiba mais sobre a normalização no aprendizado de máquina.
  • Redução de dados: Esta técnica tem como objetivo reduzir a dimensão do conjunto de dados, preservando as suas caraterísticas essenciais. Técnicas como a análise de componentes principais (PCA) podem ser utilizadas para a redução da dimensionalidade.
  • Discretização de dados: Converte dados contínuos em intervalos ou categorias discretas, que podem ser úteis para certos tipos de análise ou algoritmos.

Limpeza de dados vs. outras etapas de pré-processamento de dados

Embora a limpeza de dados seja uma componente crítica do pré-processamento de dados, é distinta de outras etapas de pré-processamento. A limpeza de dados centra-se especificamente na identificação e correção de erros e inconsistências nos dados. Em contrapartida, a transformação de dados envolve a modificação do formato ou da estrutura dos dados, e a redução de dados visa diminuir o tamanho do conjunto de dados, mantendo a sua informação essencial. O aumento de dados envolve a criação de novos pontos de dados a partir de dados existentes para aumentar o tamanho do conjunto de dados. Cada um destes passos desempenha um papel único na preparação dos dados para análise e modelação.

Exemplos de limpeza de dados em aplicações do mundo real

  1. Cuidados de saúde: Na análise de imagens médicas, a limpeza de dados pode envolver a remoção de imagens com artefactos, a garantia de uma qualidade de imagem consistente e a normalização dos formatos de imagem. Por exemplo, ao treinar um modelo de análise de imagens médicas para detetar tumores, é crucial remover imagens com má resolução ou rotulagem incorrecta.
  2. Veículos autónomos: Para treinar veículos autónomos, a limpeza de dados é essencial para garantir a precisão dos sistemas de deteção e seguimento de objectos. Isto pode envolver a remoção de dados recolhidos durante avarias do sensor, a correção de objectos mal identificados e o tratamento de dados inconsistentes de diferentes sensores.

A limpeza de dados é um passo indispensável no ciclo de vida dos projectos de IA e ML. Ao garantir a qualidade e a consistência dos dados, permite o desenvolvimento de modelos mais precisos, fiáveis e robustos. Isto, por sua vez, conduz a uma melhor tomada de decisões, a um melhor desempenho e a conhecimentos mais valiosos derivados dos dados. É importante notar que a limpeza de dados é um processo iterativo, sendo muitas vezes necessário rever e aperfeiçoar os passos de limpeza à medida que o projeto progride e são obtidos novos conhecimentos.

Lê tudo