Glossário

DBSCAN (Agrupamento espacial baseado na densidade de aplicações com ruído)

Descobre o DBSCAN: um algoritmo de agrupamento robusto para identificar padrões, lidar com o ruído e analisar conjuntos de dados complexos na aprendizagem automática.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de agrupamento muito utilizado na aprendizagem automática (ML) e na extração de dados. Pertence à categoria dos métodos de aprendizagem não supervisionada, o que significa que descobre padrões nos dados sem rótulos predefinidos. O DBSCAN é excelente no agrupamento de pontos de dados que estão muito próximos uns dos outros no espaço de caraterísticas, identificando eficazmente agrupamentos de formas arbitrárias. Um ponto forte é a sua capacidade de marcar pontos isolados em regiões de baixa densidade como outliers ou ruído, tornando-o robusto para conjuntos de dados do mundo real. Ao contrário dos algoritmos que exigem a especificação prévia do número de clusters, o DBSCAN determina os clusters com base na densidade dos dados, oferecendo flexibilidade em várias tarefas de exploração de dados no âmbito da inteligência artificial (IA).

Como funciona o DBSCAN

O DBSCAN identifica os clusters com base no conceito de densidade alcançável. Vê os clusters como áreas de alta densidade separadas por áreas de baixa densidade. O comportamento do algoritmo é controlado principalmente por dois parâmetros:

  1. Epsilon (eps): Este parâmetro define a distância máxima entre dois pontos de dados para que um seja considerado como na vizinhança do outro. Cria essencialmente um raio à volta de cada ponto.
  2. Pontos mínimos (minPts): Este parâmetro indica o número mínimo de pontos de dados necessários na vizinhança eps de um ponto (incluindo o próprio ponto) para que esse ponto seja classificado como um "ponto central".

Com base nestes parâmetros, os pontos de dados são categorizados em três tipos:

  • Pontos principais: Um ponto é um ponto central se tiver pelo menos minPts vizinhos dentro da tua eps raio. Estes pontos estão normalmente localizados no interior de um cluster.
  • Pontos de fronteira: Um ponto é um ponto de fronteira se for acessível a partir de um ponto central (ou seja, dentro da eps raio de um ponto central) mas não tem minPts vizinha de si própria. Os pontos de fronteira situam-se nos limites dos agrupamentos.
  • Pontos de Ruído (Outliers): Um ponto que não é nem um ponto central nem um ponto de fronteira é considerado ruído. Estes pontos são tipicamente isolados em regiões de baixa densidade.

O algoritmo começa por selecionar um ponto de dados arbitrário e não visitado. Verifica se o ponto é um ponto central, examinando o seu epsSe for um ponto central, forma-se um novo cluster e o algoritmo adiciona recursivamente todos os pontos alcançáveis em termos de densidade (pontos centrais e de fronteira na vizinhança) a este cluster. Se for um ponto central, é formado um novo cluster e o algoritmo adiciona recursivamente todos os pontos de densidade alcançável (pontos centrais e de fronteira na vizinhança) a este cluster. Se o ponto selecionado for um ponto de ruído, é temporariamente marcado como tal e o algoritmo avança para o próximo ponto não visitado. Este processo continua até que todos os pontos tenham sido visitados e atribuídos a um cluster ou marcados como ruído. Para uma análise mais aprofundada da metodologia original, consulta o documento de investigação: "Um algoritmo baseado na densidade para descobrir clusters em grandes bases de dados espaciais com ruído".

Principais vantagens e desvantagens

O DBSCAN oferece várias vantagens:

  • Lida com formas arbitrárias: Ao contrário de algoritmos como o K-means, o DBSCAN pode encontrar clusters não esféricos.
  • Não precisa de definir previamente a contagem de clusters: O número de clusters é determinado pelo algoritmo com base na densidade.
  • Resistente a valores atípicos: Tem um mecanismo incorporado para identificar e tratar pontos de ruído.

No entanto, também tem limitações:

  • Sensibilidade dos parâmetros: A qualidade dos resultados do agrupamento depende em grande medida da escolha de eps e minPts. Encontrar os parâmetros ideais pode ser um desafio. Ferramentas como implementações da oferta scikit-learn que podes afinar.
  • Dificuldade com densidades variáveis: Tem dificuldades com conjuntos de dados em que os clusters têm densidades significativamente diferentes, uma vez que um único eps-minPts A combinação pode não funcionar bem para todos os clusters.
  • Dados de alta dimensão: O desempenho pode degradar-se em espaços de elevada dimensão devido à"maldição da dimensionalidade", em que o conceito de densidade se torna menos significativo.

DBSCAN vs. Outros Métodos de Clustering

O DBSCAN é frequentemente comparado com outros algoritmos de agrupamento, nomeadamente o agrupamento K-means. As principais diferenças incluem:

  • Forma do cluster: O K-means assume que os clusters são esféricos e de tamanho igual, enquanto o DBSCAN pode encontrar clusters com formas arbitrárias.
  • Número de clusters: O K-means requer que o utilizador especifique o número de clusters (k) de antemão, enquanto o DBSCAN o determina automaticamente.
  • Manipulação de outliers: O K-means atribui cada ponto a um cluster, tornando-o sensível a outliers. DBSCAN identifica e isola explicitamente os outliers como ruído.
  • Complexidade computacional: O K-means é geralmente mais rápido do que o DBSCAN, especialmente em grandes conjuntos de dados, embora a complexidade do DBSCAN possa variar dependendo das escolhas de parâmetros e das optimizações da estrutura de dados, como as árvores KD.

Aplicações no mundo real

A capacidade do DBSCAN de encontrar grupos densos e isolar outliers torna-o adequado para várias aplicações:

  • Deteção de anomalias: Identifica padrões invulgares que se desviam do comportamento normal. Por exemplo, detetar transacções fraudulentas com cartões de crédito que aparecem frequentemente como pontos isolados em comparação com grupos densos de despesas legítimas, ou identificar intrusões em dados de tráfego de rede para cibersegurança. Explora conceitos relacionados na IA de visão para deteção de anomalias.
  • Análise de dados espaciais: Analisa dados geográficos ou espaciais. Por exemplo, agrupar localizações de clientes para identificar segmentos de mercado, analisar pontos críticos de criminalidade numa cidade(IA em cidades inteligentes) ou identificar padrões na análise de imagens de satélite para classificação da utilização do solo ou monitorização ambiental.
  • Análise de dados biológicos: Agrupamento de dados de expressão genética ou identificação de estruturas em bases de dados de proteínas.
  • Sistemas de recomendação: Agrupamento de utilizadores com preferências semelhantes com base em dados de interação esparsos(visão geral do sistema de recomendação).

DBSCAN e Ultralytics

O que fazes Ultralytics centra-se principalmente em modelos de aprendizagem supervisionada, como o Ultralytics YOLO para tarefas que incluem a deteção de objectos, a classificação de imagens e a segmentação de imagens. Embora o DBSCAN, sendo um método não supervisionado, não esteja diretamente integrado nos circuitos de formação principais de modelos como o YOLOv8 ou YOLO11os seus princípios são relevantes no contexto mais alargado da visão computacional (CV) e da análise de dados. Compreender a densidade e a distribuição dos dados é crucial na preparação e análise de conjuntos de dados para treino ou no pós-processamento de resultados de modelos, por exemplo, agrupando objectos detectados com base na sua proximidade espacial após a inferência. Plataformas como o Ultralytics HUB fornecem ferramentas para a gestão e visualização de conjuntos de dados, que podem complementar as técnicas de análise exploratória de dados em que podem ser aplicados algoritmos de agrupamento como o DBSCAN.

Lê tudo