Descobre o DBSCAN: um algoritmo de agrupamento robusto para identificar padrões, lidar com o ruído e analisar conjuntos de dados complexos na aprendizagem automática.
O DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de agrupamento muito utilizado na aprendizagem automática (ML) e na extração de dados. Pertence à categoria dos métodos de aprendizagem não supervisionada, o que significa que descobre padrões nos dados sem rótulos predefinidos. O DBSCAN é excelente no agrupamento de pontos de dados que estão muito próximos uns dos outros no espaço de caraterísticas, identificando eficazmente agrupamentos de formas arbitrárias. Um ponto forte é a sua capacidade de marcar pontos isolados em regiões de baixa densidade como outliers ou ruído, tornando-o robusto para conjuntos de dados do mundo real. Ao contrário dos algoritmos que exigem a especificação prévia do número de clusters, o DBSCAN determina os clusters com base na densidade dos dados, oferecendo flexibilidade em várias tarefas de exploração de dados no âmbito da inteligência artificial (IA).
O DBSCAN identifica os clusters com base no conceito de densidade alcançável. Vê os clusters como áreas de alta densidade separadas por áreas de baixa densidade. O comportamento do algoritmo é controlado principalmente por dois parâmetros:
Com base nestes parâmetros, os pontos de dados são categorizados em três tipos:
minPts
vizinhos dentro da tua eps
raio. Estes pontos estão normalmente localizados no interior de um cluster.eps
raio de um ponto central) mas não tem minPts
vizinha de si própria. Os pontos de fronteira situam-se nos limites dos agrupamentos.O algoritmo começa por selecionar um ponto de dados arbitrário e não visitado. Verifica se o ponto é um ponto central, examinando o seu eps
Se for um ponto central, forma-se um novo cluster e o algoritmo adiciona recursivamente todos os pontos alcançáveis em termos de densidade (pontos centrais e de fronteira na vizinhança) a este cluster. Se for um ponto central, é formado um novo cluster e o algoritmo adiciona recursivamente todos os pontos de densidade alcançável (pontos centrais e de fronteira na vizinhança) a este cluster. Se o ponto selecionado for um ponto de ruído, é temporariamente marcado como tal e o algoritmo avança para o próximo ponto não visitado. Este processo continua até que todos os pontos tenham sido visitados e atribuídos a um cluster ou marcados como ruído. Para uma análise mais aprofundada da metodologia original, consulta o documento de investigação: "Um algoritmo baseado na densidade para descobrir clusters em grandes bases de dados espaciais com ruído".
O DBSCAN oferece várias vantagens:
No entanto, também tem limitações:
eps
e minPts
. Encontrar os parâmetros ideais pode ser um desafio. Ferramentas como implementações da oferta scikit-learn que podes afinar.eps
-minPts
A combinação pode não funcionar bem para todos os clusters.O DBSCAN é frequentemente comparado com outros algoritmos de agrupamento, nomeadamente o agrupamento K-means. As principais diferenças incluem:
k
) de antemão, enquanto o DBSCAN o determina automaticamente.A capacidade do DBSCAN de encontrar grupos densos e isolar outliers torna-o adequado para várias aplicações:
O que fazes Ultralytics centra-se principalmente em modelos de aprendizagem supervisionada, como o Ultralytics YOLO para tarefas que incluem a deteção de objectos, a classificação de imagens e a segmentação de imagens. Embora o DBSCAN, sendo um método não supervisionado, não esteja diretamente integrado nos circuitos de formação principais de modelos como o YOLOv8 ou YOLO11os seus princípios são relevantes no contexto mais alargado da visão computacional (CV) e da análise de dados. Compreender a densidade e a distribuição dos dados é crucial na preparação e análise de conjuntos de dados para treino ou no pós-processamento de resultados de modelos, por exemplo, agrupando objectos detectados com base na sua proximidade espacial após a inferência. Plataformas como o Ultralytics HUB fornecem ferramentas para a gestão e visualização de conjuntos de dados, que podem complementar as técnicas de análise exploratória de dados em que podem ser aplicados algoritmos de agrupamento como o DBSCAN.