Glossário

DBSCAN (Agrupamento espacial baseado na densidade de aplicações com ruído)

Descobre o DBSCAN: um algoritmo de agrupamento robusto para identificar padrões, lidar com o ruído e analisar conjuntos de dados complexos na aprendizagem automática.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de agrupamento popular utilizado na aprendizagem automática (ML) e na extração de dados. Como um tipo de método de aprendizagem não supervisionado, agrupa os pontos de dados que estão muito próximos, marcando os pontos que se encontram sozinhos em regiões de baixa densidade como outliers ou ruído. Ao contrário dos métodos de partição como o K-means, o DBSCAN pode descobrir agrupamentos de formas arbitrárias e não requer que o número de agrupamentos seja especificado previamente, tornando-o versátil para várias tarefas de exploração de dados no âmbito da inteligência artificial (IA).

Como funciona o DBSCAN

O DBSCAN funciona com base no conceito de densidade alcançável. Define clusters como regiões densas de pontos de dados separados por áreas de menor densidade. O algoritmo baseia-se em dois parâmetros-chave: 'epsilon' (eps) e 'pontos mínimos' (minPts). Epsilon define a distância máxima entre dois pontos para que sejam considerados vizinhos, estabelecendo essencialmente um raio à volta de cada ponto. MinPts especifica o número mínimo de pontos necessários na vizinhança epsilon de um ponto (incluindo o próprio ponto) para que este seja classificado como um "ponto central".

Os pontos são classificados da seguinte forma:

  • Pontos principais: Pontos com pelo menos minPts vizinhos dentro do raio epsilon. Estes pontos formam o interior de um cluster.
  • Pontos de fronteira: Pontos que são alcançáveis a partir de um ponto central mas que não têm vizinhos minPts. Encontra-se na borda de um cluster.
  • Pontos de Ruído (Outliers): Pontos que não são pontos centrais nem de fronteira. Residem em regiões de baixa densidade.

O algoritmo começa com um ponto arbitrário e recupera a sua vizinhança epsilon. Se for um ponto central, inicia um novo cluster. O algoritmo expande então este cluster adicionando todos os pontos diretamente alcançáveis (vizinhos) e explorando iterativamente as suas vizinhanças. Este processo continua até que não seja possível adicionar mais pontos a qualquer cluster.

Principais vantagens

O DBSCAN oferece várias vantagens em relação a outros algoritmos de agrupamento:

  • Lida com o ruído de forma eficaz: Identifica e rotula explicitamente os pontos de ruído, algo que muitos outros algoritmos têm dificuldade em fazer.
  • Formas arbitrárias de clusters: Consegue encontrar clusters que não são esféricos, ao contrário de algoritmos como o K-means clustering que assumem que os clusters são convexos ou esféricos.
  • Não precisa de especificar previamente a contagem de clusters: O número de clusters é determinado pelo algoritmo com base na estrutura de densidade dos dados.

No entanto, pode ser sensível à escolha de eps e minPtse o seu desempenho pode degradar-se em dados de elevada dimensão devido ao "maldição da dimensionalidade".

Aplicações no mundo real

A capacidade do DBSCAN para encontrar grupos densos e isolar valores atípicos torna-o valioso em vários domínios:

  1. Deteção de anomalias: Identificação de transacções invulgares em finanças, deteção de intrusões na rede para aumentar a segurança dos dados ou deteção de artigos defeituosos no controlo de qualidade do fabrico, complementando frequentemente a visão por computador em sistemas de fabrico.
  2. Análise de dados geoespaciais: Agrupar localizações de incidentes (como crimes ou surtos de doenças) num mapa para identificar pontos críticos, analisar distribuições de clientes para planeamento de retalho ou compreender padrões na análise de imagens de satélite. Isto ajuda a desenvolver soluções para a IA em cidades inteligentes.

DBSCAN e Ultralytics

O que fazes Ultralytics centra-se principalmente em modelos de aprendizagem supervisionada como o Ultralytics YOLO para tarefas como a deteção de objectos e a segmentação de imagens. Embora o DBSCAN não esteja diretamente implementado no ciclo de formação YOLO , os princípios subjacentes à análise da densidade são relevantes. Compreender a distribuição espacial e a densidade é crucial para analisar conjuntos de dados ou interpretar os resultados dos modelos de deteção (por exemplo, agrupamento de objectos detectados). Além disso, oUltralytics HUB oferece ferramentas para gerir e analisar conjuntos de dados, alinhando-se com o contexto mais alargado da exploração de dados, em que técnicas de agrupamento como o DBSCAN desempenham um papel importante.

Para obter detalhes técnicos mais profundos, consulta recursos como a documentação do scikit-learn DBSCAN ou o artigo de investigação original:"A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise" (Um algoritmo baseado na densidade para descobrir grupos em grandes bases de dados espaciais com ruído).

Lê tudo