Glossário

Extração de dados

Descobre como a prospeção de dados transforma dados brutos em informações acionáveis, potenciando a IA, o ML e as aplicações do mundo real nos cuidados de saúde, no retalho e muito mais!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A extração de dados é o processo de descoberta de padrões, tendências e conhecimentos valiosos escondidos em grandes conjuntos de dados. Emprega uma combinação de métodos estatísticos, algoritmos de aprendizagem automática (ML) e sistemas de bases de dados para transformar dados brutos em informação compreensível e acionável. Este processo é fundamental para a inteligência artificial (IA), fornecendo a base para a construção de modelos preditivos e permitindo a tomada de decisões baseadas em dados em vários domínios. Uma extração de dados eficaz ajuda as organizações a otimizar processos, a compreender o comportamento dos clientes e a identificar novas oportunidades, descobrindo relações que podem não ser óbvias através de uma simples análise de dados.

Técnicas fundamentais de extração de dados

A extração de dados utiliza várias técnicas para extrair diferentes tipos de informação:

  • Classificação: Atribui itens de uma coleção a categorias ou classes alvo. O objetivo é prever com precisão a classe alvo para cada caso nos dados (por exemplo, prever a rotatividade de clientes). Frequentemente, utiliza métodos de aprendizagem supervisionada.
  • Agrupamento: Agrupa pontos de dados semelhantes sem conhecimento prévio dos grupos. Algoritmos como K-Means ou DBSCAN ajudam a identificar agrupamentos naturais nos dados, um exemplo de aprendizagem não supervisionada.
  • Regressão: Prevê um valor contínuo (por exemplo, prever preços de casas com base em caraterísticas como tamanho e localização). Modela a relação entre variáveis.
  • Extração de regras de associação: Descobre relações entre variáveis em grandes bases de dados, frequentemente utilizadas para análise de cestos de compras (por exemplo, descobrir que os clientes que compram pão também tendem a comprar leite).
  • Deteção de anomalias: Identificação de pontos de dados ou eventos que se desviam significativamente da norma, crucial para aplicações como a deteção de fraudes ou a identificação de defeitos no fabrico.

Data Mining vs. Termos relacionados

Embora relacionada, a extração de dados difere de outras disciplinas centradas nos dados:

  • Análise de dados: Concentra-se mais em estatísticas descritivas, relatórios e visualização de dados para compreender o desempenho passado e as tendências actuais. A extração de dados vai muitas vezes mais longe, dando ênfase à modelação preditiva e à descoberta de padrões.
  • Aprendizagem automática (ML): Fornece os algoritmos e ferramentas utilizados na extração de dados para encontrar padrões e criar modelos. A extração de dados é o processo mais amplo de aplicação destes (e outros) métodos para extrair conhecimentos dos dados. Muitas tarefas de ML, como a classificação de imagens, são aplicações possibilitadas por princípios de extração de dados aplicados a dados visuais.
  • Big Data: Refere-se a conjuntos de dados extremamente grandes que requerem ferramentas e técnicas especializadas para serem processados. As técnicas de extração de dados são frequentemente aplicadas a Big Data para extrair informações, mas a extração de dados em si pode ser realizada em conjuntos de dados de qualquer dimensão. A metodologia CRISP-DM fornece um modelo de processo padrão para projectos de extração de dados.

Aplicações do mundo real da extração de dados

As técnicas de extração de dados impulsionam a inovação e a eficiência em numerosos sectores. Eis dois exemplos:

  1. Análise do cabaz de compras: Os supermercados utilizam a extração de regras de associação em dados de transacções para compreender os hábitos de compra. Descobrir que os clientes compram frequentemente batatas fritas e refrigerantes em conjunto pode levar a colocar estes artigos perto uns dos outros ou a oferecer promoções de pacotes, como discutido em estratégias para IA no retalho.
  2. Diagnóstico Preditivo nos Cuidados de Saúde: Os hospitais e os investigadores aplicam técnicas de classificação e agrupamento aos dados dos pacientes (sintomas, historial, resultados de testes) para prever a probabilidade de doenças como a diabetes ou problemas cardíacos. Isto ajuda na deteção precoce e nos planos de tratamento personalizados, um aspeto fundamental da IA nos cuidados de saúde. Por exemplo, técnicas semelhantes às utilizadas na deteção de tumores em imagiologia médica baseiam-se fortemente em padrões extraídos de vastos conjuntos de dados médicos.

Extração de dados e Ultralytics

Na Ultralytics, os princípios de extração de dados estão subjacentes a muitos aspectos do desenvolvimento e implementação de modelos de visão por computador (CV) de última geração, como Ultralytics YOLO. O treino de modelos robustos para tarefas como a deteção de objectos ou a segmentação de imagens requer dados de alta qualidade e bem compreendidos. As técnicas de extração de dados são essenciais durante o pré-processamento de dados e a recolha e anotação de dados para limpar os dados, identificar enviesamentos(enviesamento do conjunto de dados) e selecionar caraterísticas relevantes, melhorando, em última análise, a precisão do modelo.

Além disso, oUltralytics HUB fornece uma plataforma onde os utilizadores podem gerir conjuntos de dados e treinar modelos. As ferramentas do ecossistema HUB facilitam a exploração e a compreensão dos conjuntos de dados, permitindo que os utilizadores apliquem conceitos de extração de dados para otimizar os seus próprios fluxos de trabalho de ML e tirar partido de técnicas como o aumento de dados de forma eficaz. Compreender os dados através da extração de dados é crucial antes de empreender passos como a afinação de hiperparâmetros. Podes saber mais sobre o papel da aprendizagem automática e da extração de dados na visão computacional no nosso blogue.

Lê tudo