Glosario

Aprendizaje Semisupervisado

Descubre cómo el Aprendizaje Semisupervisado combina datos etiquetados y no etiquetados para mejorar los modelos de IA, reducir los costes de etiquetado y aumentar la precisión.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Aprendizaje Semisupervisado (SSL) es un tipo de técnica de Aprendizaje Automático (AM ) que se sitúa entre el aprendizaje supervisado y el aprendizaje no supervisado. Utiliza una combinación de una pequeña cantidad de datos etiquetados y una gran cantidad de datos sin etiquetar para entrenar modelos. La principal motivación del SSL es el elevado coste y esfuerzo que suele conllevar el etiquetado de datos, especialmente en dominios complejos. Al aprovechar los datos no etiquetados fácilmente disponibles, SSL pretende mejorar el rendimiento y la generalización del modelo más allá de lo que se podría conseguir utilizando sólo los limitados datos etiquetados.

Cómo funciona el aprendizaje semisupervisado

El principio básico del Aprendizaje Semisupervisado es que los datos no etiquetados, a pesar de carecer de etiquetas explícitas, contienen información valiosa sobre la estructura y distribución subyacentes de los datos. Los algoritmos de SSL intentan explotar esta estructura para mejorar el proceso de aprendizaje. Los enfoques habituales suelen implicar hacer suposiciones sobre los datos, como la "suposición de conglomerado" (es probable que los puntos del mismo conglomerado tengan la misma etiqueta) o la "suposición de colector" (los puntos de datos se encuentran en un colector de dimensiones inferiores).

Las técnicas utilizadas en SSL incluyen métodos como el pseudoetiquetado, en el que un modelo entrenado en los datos etiquetados iniciales se utiliza para predecir las etiquetas de los datos no etiquetados. Las predicciones de alta confianza se tratan como "pseudoetiquetas" y se añaden al conjunto de entrenamiento. Otro enfoque consiste en la regularización de la consistencia, que anima al modelo a producir resultados similares para versiones perturbadas de la misma entrada no etiquetada, a menudo mediante técnicas como el aumento de datos. Estos métodos ayudan al modelo a aprender características más robustas utilizando el amplio conjunto de datos sin etiquetar. Puedes encontrar un buen resumen de SSL en Hacia la Ciencia de los Datos.

Aplicaciones y ejemplos

El aprendizaje semisupervisado es especialmente útil en escenarios en los que la obtención de datos etiquetados es un cuello de botella. Algunas áreas de aplicación clave son:

  • Clasificación de imágenes: Entrenar un modelo para clasificar imágenes (por ejemplo, utilizando conjuntos de datos como CIFAR-10) en los que sólo una pequeña fracción de las imágenes están etiquetadas manualmente, pero millones de imágenes sin etiquetar están disponibles en la web.
  • Análisis de imágenes médicas: Mejora de los modelos de diagnóstico mediante el entrenamiento en unas pocas exploraciones médicas anotadas por expertos junto a un conjunto mayor de exploraciones no anotadas. Esto puede mejorar tareas como la detección de tumores.
  • Clasificación de páginas web: Categorizar páginas web utilizando un pequeño conjunto de páginas clasificadas manualmente y un gran número de páginas sin categorizar extraídas de Internet. Ver un ejemplo de investigación temprana sobre Clasificación de Contenidos Web.
  • Reconocimiento del habla: Construir sistemas que utilicen una cantidad limitada de datos de audio transcritos combinados con grandes volúmenes de habla no transcrita.
  • Procesamiento del Lenguaje Natural (PLN): Mejorar tareas como el análisis de sentimientos o la clasificación de textos aprovechando grandes corpus de textos no etiquetados junto con conjuntos de datos etiquetados más pequeños.

Distinciones con conceptos afines

Es importante diferenciar el Aprendizaje Semisupervisado de los paradigmas de ML relacionados:

  • Aprendizaje supervisado: Se basa totalmente en datos totalmente etiquetados para el entrenamiento. SSL utiliza datos etiquetados y no etiquetados.
  • Aprendizaje no supervisado: Utiliza sólo datos no etiquetados, normalmente para tareas como la agrupación o la reducción dimensional, sin predecir etiquetas predefinidas. El SSL utiliza datos no etiquetados para mejorar una tarea supervisada.
  • Aprendizaje Autosupervisado: También utiliza datos no etiquetados, pero genera señales de supervisión a partir de los propios datos (por ejemplo, predecir una palabra enmascarada, colorear una imagen). Suele utilizarse para preentrenar modelos que luego se afinan con datos etiquetados, mientras que el SSL suele incorporar ambos tipos de datos durante la fase principal de entrenamiento.

Ventajas del aprendizaje semisupervisado

  • Menor coste de etiquetado: Reduce significativamente la necesidad de una anotación manual de los datos, que es cara y requiere mucho tiempo.
  • Mayor precisión: Puede conducir a una mayor precisión del modelo en comparación con el entrenamiento sólo en pequeños conjuntos de datos etiquetados, aprovechando la información de los datos no etiquetados.
  • Generalización mejorada: Los modelos entrenados con SSL suelen generalizar mejor a datos nuevos, no vistos, al aprender las estructuras de datos subyacentes.
  • Aprovecha la abundancia de datos: Utiliza eficazmente las enormes cantidades de datos no etiquetados disponibles en muchas aplicaciones del mundo real.

El aprendizaje semisupervisado ofrece un enfoque práctico y potente para crear sistemas eficaces de Inteligencia Artificial (IA), sobre todo en tareas de visión por ordenador como la detección de objetos, en las que abundan las imágenes o vídeos sin etiquetar. Plataformas como Ultralytics HUB facilitan la gestión de conjuntos de datos que pueden incluir mezclas de datos etiquetados y no etiquetados para el entrenamiento de modelos como Ultralytics YOLO. Explorar las técnicas SSL puede ser crucial para los proyectos que se enfrentan a limitaciones en la disponibilidad de datos etiquetados, como se destaca en recursos como las publicaciones sobre SSL del Blog deGoogle AI.

Leer todo