Glossário

Extração de dados

Descobre como a prospeção de dados transforma dados brutos em informações acionáveis, potenciando a IA, o ML e as aplicações do mundo real nos cuidados de saúde, no retalho e muito mais!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A extração de dados é o processo de descoberta de padrões, correlações, anomalias e outras informações valiosas escondidas em grandes conjuntos de dados. Combina técnicas de aprendizagem automática (ML), estatísticas e sistemas de bases de dados para transformar dados brutos em informações e conhecimentos úteis. No domínio da inteligência artificial (IA), a extração de dados é um passo fundamental para compreender as caraterísticas dos dados, preparar os dados para a formação de modelos e descobrir estruturas subjacentes que conduzem à tomada de decisões inteligentes. A ideia central é frequentemente designada por Descoberta de Conhecimentos em Bases de Dados (KDD).

Principais técnicas de extração de dados

A extração de dados engloba uma variedade de técnicas utilizadas para explorar e analisar dados de diferentes perspectivas. Alguns métodos comuns incluem:

  • Classificação: Atribui pontos de dados a categorias ou classes predefinidas. Utilizada em tarefas como a deteção de correio eletrónico não solicitado ou a classificação de imagens.
  • Agrupamento: Agrupa pontos de dados semelhantes sem conhecimento prévio dos grupos. Útil para segmentação de clientes ou para identificar padrões distintos em dados biológicos. Vê algoritmos como K-Means ou DBSCAN.
  • Regressão: Prevê valores numéricos contínuos, como a previsão de vendas ou a estimativa de preços de casas. Os exemplos incluem Regressão Linear.
  • Extração de regras de associação: Descobre relações ou associações entre itens em grandes conjuntos de dados, utilizados na análise de cestos de compras para compreender os hábitos de compra.
  • Deteção de anomalias: Identifica pontos de dados ou eventos que se desviam significativamente da norma, o que é crucial para a deteção de fraudes ou para a identificação de anomalias em dados de sensores.
  • Redução da dimensionalidade: Reduzir o número de variáveis (caraterísticas) em consideração, preservando informações importantes, muitas vezes usando técnicas como a análise de componentes principais (PCA).

O processo de extração de dados

A extração de dados é normalmente um processo iterativo que envolve várias fases:

  1. Compreensão do negócio: Definição dos objectivos e requisitos do projeto.
  2. Compreensão dos dados: Recolha e exploração inicial de dados para te familiarizares com os dados.
  3. Preparação dos dados: Envolve a limpeza de dados (tratamento de valores em falta, ruído), integração de dados (combinação de fontes), seleção de dados (escolha de dados relevantes) e pré-processamento de dados (formatação de dados). A ampliação de dados também pode ser aplicada aqui.
  4. Modelação: Seleciona e aplica várias técnicas de extração (como a classificação e o agrupamento) para identificar padrões. Isto envolve frequentemente a utilização de algoritmos de ML.
  5. Avaliação: Avalia os padrões descobertos quanto à validade, novidade, utilidade e compreensibilidade. São frequentemente utilizadas métricas como a exatidão ou o mAP.
  6. Implementação: Utiliza os conhecimentos descobertos para a tomada de decisões, integrando-os frequentemente em sistemas operacionais ou comunicando os resultados. Isto pode envolver a implementação de modelos.

Exploração de dados vs. conceitos relacionados

Embora relacionada, a extração de dados difere de outros domínios centrados nos dados:

  • Análise de dados: A análise de dados é um termo mais abrangente que engloba todo o processo de inspeção, limpeza, transformação e modelação de dados para apoiar a tomada de decisões. A extração de dados é uma etapa específica da análise de dados que se centra na descoberta de padrões novos e ocultos. A análise centra-se frequentemente em estatísticas descritivas e relações conhecidas, enquanto a extração procura o desconhecido.
  • Aprendizagem automática (AM): A aprendizagem automática é um domínio da IA centrado no desenvolvimento de algoritmos que permitem aos sistemas aprender com os dados. A prospeção de dados utiliza algoritmos de aprendizagem automática como ferramentas para descobrir padrões, mas a aprendizagem automática em si é mais vasta, abrangendo a criação e aplicação de algoritmos de aprendizagem para várias tarefas (previsão, classificação, etc.). O objetivo da prospeção de dados é essencialmente a descoberta de conhecimentos a partir dos dados.
  • Grandes volumes de dados: Big Data refere-se a conjuntos de dados caracterizados por um grande volume, alta velocidade e grande variedade. As técnicas de extração de dados são essenciais para extrair valor dos Grandes Dados, mas os Grandes Dados em si descrevem a natureza dos dados, não o processo de análise. Ferramentas como o Apache Spark são frequentemente utilizadas para a extração de Grandes Dados.

Aplicações de IA/ML do mundo real

A extração de dados impulsiona a inovação em muitos sectores:

  1. Retalho e comércio eletrónico: Os retalhistas utilizam a extração de regras de associação (análise do cabaz de compras) em dados de transacções para descobrir que produtos são frequentemente comprados em conjunto. Esta informação informa o design do layout da loja, promoções direcionadas e alimenta os sistemas de recomendação online ("Os clientes que compraram X também compraram Y"). Isto ajuda a otimizar a gestão de inventário orientada por IA e a personalizar as experiências dos clientes, como se vê em plataformas como a Amazon.
  2. Cuidados de saúde: As técnicas de extração de dados, como a classificação e o agrupamento, analisam registos de pacientes (EHRs) e imagens médicas para identificar padrões associados a doenças, prever factores de risco dos pacientes ou avaliar a eficácia do tratamento. Por exemplo, a extração de dados de diagnóstico pode ajudar na deteção precoce de doenças como o cancro (por exemplo, utilizando conjuntos de dados como o conjunto de dados de tumores cerebrais) ou na previsão de readmissões hospitalares, contribuindo para melhorar os cuidados aos doentes e a atribuição de recursos em instituições como os NIH. Explora a IA nas soluções de cuidados de saúde para veres mais exemplos.

Extração de dados e Ultralytics

Na Ultralytics, os princípios de extração de dados estão subjacentes a muitos aspectos do desenvolvimento e implementação de modelos de visão por computador (CV) de última geração, como Ultralytics YOLO. O treino de modelos robustos para tarefas como a deteção de objectos ou a segmentação de imagens requer dados de alta qualidade e bem compreendidos. As técnicas de extração de dados são essenciais durante o pré-processamento de dados e a recolha e anotação de dados para limpar os dados, identificar enviesamentos(enviesamento do conjunto de dados) e selecionar caraterísticas relevantes, melhorando, em última análise, a precisão do modelo.

Além disso, oUltralytics HUB fornece uma plataforma onde os utilizadores podem gerir conjuntos de dados e treinar modelos. As ferramentas do ecossistema HUB facilitam a exploração e a compreensão dos conjuntos de dados, permitindo que os utilizadores apliquem conceitos de extração de dados para otimizar os seus próprios fluxos de trabalho de ML e tirar partido de técnicas como o aumento de dados de forma eficaz. Compreender os dados através da extração de dados é crucial antes de empreender passos como a afinação de hiperparâmetros. Podes saber mais sobre o papel da aprendizagem automática e da extração de dados na visão computacional no nosso blogue. Estruturas como PyTorch e bibliotecas como a OpenCV são ferramentas fundamentais utilizadas juntamente com estes processos.

Lê tudo