Explora el aprendizaje no supervisado para descubrir patrones ocultos en datos sin etiquetar. Aprende sobre la agrupación, la detección de anomalías y cómo impulsa las soluciones modernas de IA.
El aprendizaje no supervisado es un tipo de aprendizaje automático en el que un algoritmo aprende patrones a partir de datos sin etiquetar sin intervención humana. A diferencia del aprendizaje supervisado, que se basa en pares de entrada-salida etiquetados para entrenar un modelo, el aprendizaje no supervisado se ocupa de datos que no tienen etiquetas históricas. El sistema intenta esencialmente enseñarse a sí mismo descubriendo estructuras, patrones o relaciones ocultas dentro de los datos de entrada. Este enfoque es especialmente valioso porque la gran mayoría de los datos que se generan hoy en día (imágenes, vídeos, texto y registros de sensores) no están estructurados ni etiquetados.
En escenarios no supervisados, el algoritmo se deja a su aire para descubrir estructuras interesantes en los datos. El objetivo suele ser modelar la distribución subyacente de los datos u obtener más información sobre los propios datos. Dado que no se proporcionan «respuestas correctas» durante el entrenamiento, el modelo no puede evaluarse en cuanto a su precisión en el sentido tradicional. En su lugar, el rendimiento se mide a menudo por la capacidad del modelo para reducir la dimensionalidad o agrupar puntos de datos similares.
Esta metodología refleja la forma en que los seres humanos suelen aprender nuevos conceptos. Por ejemplo, un niño puede distinguir entre perros y gatos observando sus diferentes formas y comportamientos sin necesidad de conocer inicialmente los nombres «perro» y «gato». Del mismo modo, los algoritmos no supervisados agrupan la información basándose en similitudes inherentes. Esta capacidad es fundamental para el desarrollo de la inteligencia artificial general (IAG), ya que permite a los sistemas adaptarse a nuevos entornos sin una supervisión humana constante.
El aprendizaje no supervisado abarca varias técnicas distintas, cada una de ellas adecuada para diferentes tipos de problemas de análisis de datos :
Es importante distinguir el aprendizaje no supervisado del aprendizaje supervisado. La principal diferencia radica en los datos utilizados. El aprendizaje supervisado requiere un conjunto de datos etiquetados, lo que significa que cada ejemplo de entrenamiento se empareja con un resultado correcto (por ejemplo, una imagen de un gato etiquetada como «gato»). El modelo aprende a asignar entradas a resultados para minimizar el error.
Por el contrario, el aprendizaje no supervisado utiliza datos sin etiquetar. No existe un bucle de retroalimentación que indique al modelo si su resultado es correcto. Existe un término medio denominado aprendizaje semisupervisado, que combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos sin etiquetar para mejorar la precisión del aprendizaje, y que se utiliza a menudo cuando etiquetar los datos resulta caro o lleva mucho tiempo.
El aprendizaje no supervisado impulsa muchas tecnologías con las que nos encontramos a diario. He aquí dos ejemplos concretos:
Mientras Ultralytics YOLO26 es principalmente un marco de detección de objetos supervisado
, las técnicas no supervisadas se utilizan a menudo en las etapas de preprocesamiento, como el análisis de las distribuciones de los cuadros de anclaje
o la agrupación de características de conjuntos de datos. A continuación se muestra un ejemplo sencillo utilizando sklearn para realizar la agrupación K-Means,
una técnica fundamental no supervisada.
import numpy as np
from sklearn.cluster import KMeans
# Generate synthetic data: 10 points with 2 features each
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize KMeans with 2 clusters (k=2)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (no labels provided!)
kmeans.fit(X)
# Predict which cluster each point belongs to
print(f"Labels: {kmeans.labels_}")
# Output will group the first 3 points together (0) and the last 3 together (1)
El aprendizaje profundo (DL) moderno está integrando cada vez más principios no supervisados. Técnicas como el aprendizaje auto-supervisado (SSL) permiten a los modelos generar sus propias señales de supervisión a partir de los datos. Por ejemplo, en el procesamiento del lenguaje natural (NLP), modelos como GPT-4 se entrenan previamente con grandes cantidades de texto para predecir la siguiente palabra de una frase, aprendiendo de forma eficaz la estructura del lenguaje sin etiquetas explícitas.
De manera similar, en la visión por computadora (CV), los autoencodificadores se utilizan para aprender codificaciones de datos eficientes. Estas redes neuronales comprimen las imágenes en una representación de menor dimensión y luego las reconstruyen. Este proceso enseña a la red las características más destacadas de los datos visuales , lo que resulta útil para tareas como la eliminación de ruido en imágenes y el modelado generativo.
Para aquellos que buscan gestionar conjuntos de datos para el entrenamiento, Ultralytics ofrece herramientas para visualizar las distribuciones de datos, lo que puede ayudar a identificar grupos o anomalías antes de que comience el proceso de entrenamiento supervisado. Comprender la estructura de los datos mediante la exploración no supervisada suele ser el primer paso para crear soluciones de IA robustas.