Glosario

Aprendizaje no supervisado

Descubre cómo el aprendizaje no supervisado utiliza la agrupación, la reducción dimensional y la detección de anomalías para descubrir patrones ocultos en los datos.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El aprendizaje no supervisado es una categoría del aprendizaje automático (AM ) en la que los algoritmos se entrenan con datos que no tienen etiquetas o categorías predefinidas. A diferencia del aprendizaje supervisado, el objetivo no es predecir una salida conocida basándose en las características de entrada. En su lugar, el sistema intenta aprender por sí mismo la estructura subyacente, los patrones y las relaciones de los datos. Es como darle a un ordenador una gran colección de elementos sin clasificar y pedirle que encuentre agrupaciones naturales o características interesantes sin decirle lo que tiene que buscar. Este enfoque es crucial para explorar conjuntos de datos complejos y descubrir perspectivas que podrían no ser evidentes de antemano, formando una parte clave de la Inteligencia Artificial (IA) moderna.

Cómo funciona el aprendizaje no supervisado

En el aprendizaje no supervisado, el algoritmo examina los puntos de datos de entrada e intenta identificar similitudes, diferencias o correlaciones entre ellos. No hay respuestas "correctas" ni resultados objetivo durante la fase de entrenamiento. Los algoritmos deben inferir la estructura inherente presente en los datos. Esto a menudo implica organizar los puntos de datos en grupos(agrupación), reducir la complejidad de los datos(reducción de la dimensionalidad) o identificar puntos de datos inusuales(detección de anomalías). El éxito de los métodos no supervisados suele depender de lo bien que el algoritmo pueda captar las propiedades intrínsecas del conjunto de datos sin orientación externa.

Técnicas y conceptos clave

Varias técnicas se engloban bajo el paraguas del aprendizaje no supervisado:

  • Agrupación: Consiste en agrupar puntos de datos similares en función de determinadas características. El objetivo es crear agrupaciones en las que los elementos de una agrupación sean muy similares, y los elementos de agrupaciones diferentes sean disímiles. Entre los algoritmos más comunes están K-Means Clustering y DBSCAN. Es útil para tareas como la segmentación de clientes o la organización de grandes colecciones de documentos.
  • Reducción de la dimensionalidad: Estas técnicas pretenden reducir el número de variables de entrada (características) de un conjunto de datos, conservando la información esencial. Esto simplifica los modelos, reduce el coste computacional y puede ayudar a visualizar los datos. Entre los métodos más populares están el Análisis de Componentes Principales (ACP ) y la Incrustación de Vecinos Estocásticos Distribuida (t-SNE).
  • Aprendizaje de reglas de asociación: Descubre relaciones interesantes o reglas de asociación entre variables de grandes conjuntos de datos. Un ejemplo clásico es el análisis de la cesta de la compra, que identifica los artículos que se compran juntos con frecuencia. Aquí se suelen utilizar algoritmos como Apriori. Más información sobre la minería de reglas de asociación.
  • Detección de anomalías: Esta técnica se centra en identificar puntos de datos que se desvían significativamente de la mayoría de los datos. Se utiliza mucho para la detección de fraudes, la seguridad de las redes y la identificación de defectos en la fabricación.
  • Modelos Generativos: Algunos modelos no supervisados, como las Redes Generativas Adversariales (GAN) o los Autocodificadores, pueden aprender la distribución de datos subyacente para generar nuevas muestras de datos que se parezcan a los datos originales.

Aplicaciones en el mundo real

El aprendizaje no supervisado tiene diversas aplicaciones en distintos campos:

Comparación con otros paradigmas de aprendizaje

El aprendizaje no supervisado difiere significativamente de otros enfoques de ML:

El aprendizaje no supervisado es una poderosa herramienta para explorar datos, descubrir estructuras ocultas y extraer características valiosas, que a menudo sirve como primer paso crítico en canalizaciones complejas de análisis de datos o complementa otras técnicas de ML. Plataformas como Ultralytics HUB proporcionan entornos en los que pueden desarrollarse y gestionarse diversos modelos de ML, que potencialmente incorporan técnicas no supervisadas para la preparación o el análisis de datos. Marcos como PyTorch y TensorFlow ofrecen amplias bibliotecas que soportan la implementación de algoritmos no supervisados.

Leer todo