Descubra DBSCAN: un algoritmo de agrupación robusto para identificar patrones, manejar el ruido y analizar conjuntos de datos complejos en el aprendizaje automático.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un popular algoritmo de aprendizaje no supervisado que se utiliza para agrupar puntos de datos que están muy juntos, marcando como valores atípicos los puntos que se encuentran solos en regiones de baja densidad. A diferencia de otros métodos de clustering, DBSCAN no requiere que se especifique de antemano el número de clusters. Su capacidad para encontrar conglomerados de forma arbitraria y su robustez frente al ruido lo convierten en una potente herramienta para la minería y el análisis de datos. El algoritmo se presentó por primera vez en 1996 en un artículo de Martin Ester, Hans-Peter Kriegel, Jörg Sander y Xiaowei Xu, que se convirtió en un trabajo fundacional en este campo.
DBSCAN define clusters basados en la densidad de puntos de datos en un espacio dado. Opera con dos parámetros clave:
eps
): Este parámetro define el radio de una vecindad alrededor de un punto de datos. Todos los puntos dentro de esta distancia se consideran vecinos.En función de estos parámetros, DBSCAN clasifica cada punto de datos en uno de los tres tipos siguientes:
MinPts
dentro de su eps
vecindario. Estos puntos son el interior de un conglomerado.eps
de un punto central, pero que no tiene suficientes vecinos para ser un punto central. Estos puntos forman el borde de un conglomerado.El algoritmo comienza con un punto arbitrario y recupera su vecindad. Si es un punto central, se crea un nuevo clúster. A continuación, el algoritmo amplía iterativamente el clúster añadiendo todos los vecinos directamente alcanzables, un proceso que continúa hasta que no se pueden añadir más puntos a ningún clúster. Puede ver una implementación visual en la documentación de scikit-learn.
La capacidad de DBSCAN para identificar el ruido y descubrir conglomerados no lineales lo hace muy valioso en diversos ámbitos:
El ecosistema Ultralytics se centra principalmente en modelos de aprendizaje supervisado, como Ultralytics YOLO para tareas como la detección de objetos, la clasificación de imágenes y la segmentación de instancias. Aunque DBSCAN es un método no supervisado, sus principios son relevantes en el contexto más amplio de la visión por ordenador (CV).
Por ejemplo, tras realizar la detección de objetos con un modelo como YOLO11 en un vídeo de una calle muy transitada, se podría aplicar DBSCAN a las coordenadas centrales de los recuadros delimitadores detectados. Este paso de postprocesamiento puede agrupar las detecciones individuales de peatones en distintas multitudes, proporcionando un mayor nivel de comprensión de la escena. Comprender la distribución de los datos también es crucial a la hora de preparar los conjuntos de datos para el entrenamiento. El análisis exploratorio de datos mediante DBSCAN puede revelar patrones o anomalías en el conjunto de datos, que pueden gestionarse y visualizarse mediante plataformas como Ultralytics HUB.
k
) de antemano, mientras que DBSCAN determina el número de conglomerados automáticamente. K-Means también tiene problemas con los conglomerados no esféricos y es sensible a los valores atípicos, ya que fuerza a cada punto a formar parte de un conglomerado. DBSCAN destaca en la búsqueda de conglomerados de forma arbitraria y aísla eficazmente los valores atípicos como ruido.