Glosario

DBSCAN (agrupación espacial basada en la densidad de aplicaciones con ruido)

Descubra DBSCAN: un algoritmo de agrupación robusto para identificar patrones, manejar el ruido y analizar conjuntos de datos complejos en el aprendizaje automático.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un popular algoritmo de aprendizaje no supervisado que se utiliza para agrupar puntos de datos que están muy juntos, marcando como valores atípicos los puntos que se encuentran solos en regiones de baja densidad. A diferencia de otros métodos de clustering, DBSCAN no requiere que se especifique de antemano el número de clusters. Su capacidad para encontrar conglomerados de forma arbitraria y su robustez frente al ruido lo convierten en una potente herramienta para la minería y el análisis de datos. El algoritmo se presentó por primera vez en 1996 en un artículo de Martin Ester, Hans-Peter Kriegel, Jörg Sander y Xiaowei Xu, que se convirtió en un trabajo fundacional en este campo.

Cómo funciona DBSCAN

DBSCAN define clusters basados en la densidad de puntos de datos en un espacio dado. Opera con dos parámetros clave:

  • Epsilon (ε o eps): Este parámetro define el radio de una vecindad alrededor de un punto de datos. Todos los puntos dentro de esta distancia se consideran vecinos.
  • Puntos mínimos (MinPts): Es el número mínimo de puntos de datos (incluido el propio punto) necesarios para formar una región o clúster denso.

En función de estos parámetros, DBSCAN clasifica cada punto de datos en uno de los tres tipos siguientes:

  1. Puntos básicos: Un punto es un punto central si tiene al menos MinPts dentro de su eps vecindario. Estos puntos son el interior de un conglomerado.
  2. Puntos fronterizos: Un punto es un punto fronterizo si se encuentra dentro del eps de un punto central, pero que no tiene suficientes vecinos para ser un punto central. Estos puntos forman el borde de un conglomerado.
  3. Puntos de ruido (valores atípicos): Un punto se considera ruido si no es ni un punto núcleo ni un punto frontera. Son los valores atípicos que no pertenecen a ningún conglomerado.

El algoritmo comienza con un punto arbitrario y recupera su vecindad. Si es un punto central, se crea un nuevo clúster. A continuación, el algoritmo amplía iterativamente el clúster añadiendo todos los vecinos directamente alcanzables, un proceso que continúa hasta que no se pueden añadir más puntos a ningún clúster. Puede ver una implementación visual en la documentación de scikit-learn.

Aplicaciones AI/ML en el mundo real

La capacidad de DBSCAN para identificar el ruido y descubrir conglomerados no lineales lo hace muy valioso en diversos ámbitos:

  • Análisis geoespacial: Los urbanistas y geógrafos utilizan DBSCAN para analizar datos espaciales. Por ejemplo, agrupando las coordenadas GPS de los incidentes de tráfico, pueden identificar los puntos conflictivos. Del mismo modo, puede utilizarse para encontrar grupos de casos de enfermedades notificados, lo que ayuda a los epidemiólogos a rastrear los brotes. Organizaciones como la Autoridad de Información Geoespacial de Japón utilizan métodos similares basados en la densidad para elaborar mapas.
  • Detección de anomalías en finanzas: En el sector financiero, DBSCAN puede utilizarse para detectar transacciones fraudulentas. Al agrupar los patrones de gasto típicos de un cliente, cualquier transacción que quede fuera de estos grupos (es decir, que se considere ruido) puede marcarse para ser investigada más a fondo. Este enfoque es un componente clave de los sistemas modernos de detección del fraude.

DBSCAN y Ultralytics

El ecosistema Ultralytics se centra principalmente en modelos de aprendizaje supervisado, como Ultralytics YOLO para tareas como la detección de objetos, la clasificación de imágenes y la segmentación de instancias. Aunque DBSCAN es un método no supervisado, sus principios son relevantes en el contexto más amplio de la visión por ordenador (CV).

Por ejemplo, tras realizar la detección de objetos con un modelo como YOLO11 en un vídeo de una calle muy transitada, se podría aplicar DBSCAN a las coordenadas centrales de los recuadros delimitadores detectados. Este paso de postprocesamiento puede agrupar las detecciones individuales de peatones en distintas multitudes, proporcionando un mayor nivel de comprensión de la escena. Comprender la distribución de los datos también es crucial a la hora de preparar los conjuntos de datos para el entrenamiento. El análisis exploratorio de datos mediante DBSCAN puede revelar patrones o anomalías en el conjunto de datos, que pueden gestionarse y visualizarse mediante plataformas como Ultralytics HUB.

Distinción de términos afines

  • Agrupación K-Means: La diferencia más significativa es que K-Means requiere que el usuario especifique el número de conglomerados (k) de antemano, mientras que DBSCAN determina el número de conglomerados automáticamente. K-Means también tiene problemas con los conglomerados no esféricos y es sensible a los valores atípicos, ya que fuerza a cada punto a formar parte de un conglomerado. DBSCAN destaca en la búsqueda de conglomerados de forma arbitraria y aísla eficazmente los valores atípicos como ruido.
  • Agrupación jerárquica: Este método crea un árbol de conglomerados, conocido como dendrograma. Aunque resulta útil para visualizar estructuras de conglomerados anidadas, puede ser más costoso computacionalmente en conjuntos de datos grandes que DBSCAN. La elección entre uno y otro depende a menudo del tamaño del conjunto de datos y del resultado deseado, como se indica en las guías para elegir el algoritmo de clustering adecuado.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles