Aprendizaje semisupervisado
Descubra cómo el aprendizaje semisupervisado combina datos etiquetados y no etiquetados para mejorar los modelos de IA, reducir los costes de etiquetado y aumentar la precisión.
El aprendizaje semisupervisado (SSL) es una técnica de aprendizaje automático que tiende un puente entre el aprendizaje supervisado y el aprendizaje no supervisado. Aprovecha una pequeña cantidad de datos etiquetados junto con una gran cantidad de datos sin etiquetar para mejorar la precisión del aprendizaje. En muchos escenarios reales, la adquisición de datos no etiquetados es barata, pero el proceso de etiquetado de datos es costoso y requiere mucho tiempo. SSL aborda este reto permitiendo que los modelos aprendan de la gran cantidad de ejemplos sin etiquetar, guiados por la estructura y la información proporcionada por el conjunto etiquetado más pequeño. Este enfoque es especialmente potente en el aprendizaje profundo (deep learning, DL), donde los modelos requieren enormes conjuntos de datos para lograr un alto rendimiento.
Cómo funciona el aprendizaje semisupervisado
La idea central de SSL es utilizar los datos etiquetados para construir un modelo inicial y, a continuación, utilizar este modelo para hacer predicciones sobre los datos no etiquetados. Las predicciones más fiables del modelo se tratan como "pseudoetiquetas" y se añaden al conjunto de entrenamiento. A continuación, el modelo se vuelve a entrenar con esta combinación de etiquetas originales y pseudoetiquetas de alta confianza. Este proceso iterativo permite al modelo aprender la estructura subyacente de todo el conjunto de datos, no sólo de la pequeña parte etiquetada.
Entre las técnicas SSL más comunes se incluyen:
- Regularización de la coherencia: Este método refuerza la idea de que las predicciones del modelo deben seguir siendo coherentes incluso cuando los datos de entrada están ligeramente perturbados. Por ejemplo, una imagen con un aumento menor de los datos debería arrojar la misma clasificación.
- Modelos generativos: Técnicas como las redes generativas adversariales (GAN) pueden aprender a generar datos que se parezcan a la distribución real de los datos, lo que ayuda a definir mejor los límites de decisión entre clases.
- Métodos basados en grafos: Estos métodos representan los puntos de datos como nodos en un grafo y propagan etiquetas de los nodos etiquetados a los no etiquetados en función de su proximidad o similitud. Se puede encontrar una descripción técnica en estudios académicos.
Aplicaciones reales
SSL es muy eficaz en dominios donde el etiquetado es un cuello de botella. Dos ejemplos destacados son:
- Análisis de imágenes médicas: Etiquetar exploraciones médicas como resonancias magnéticas o tomografías computarizadas para detectar tumores requiere la intervención de radiólogos expertos y resulta muy caro. Con SSL, se puede entrenar un modelo con unos cientos de exploraciones etiquetadas y, a continuación, perfeccionarlo con miles de exploraciones sin etiquetar procedentes de archivos hospitalarios. Esto permite desarrollar modelos sólidos de clasificación y segmentación de imágenes con un esfuerzo manual significativamente menor.
- Clasificación de contenidos y documentos web: Clasificar manualmente miles de millones de páginas web, artículos de noticias o reseñas de clientes es poco práctico. SSL puede utilizar un pequeño conjunto de documentos clasificados manualmente para entrenar un clasificador de texto inicial. A continuación, el modelo clasifica el corpus masivo de documentos sin etiquetar, utilizando sus propias predicciones para mejorar con el tiempo tareas como el análisis de sentimientos o la categorización de temas.
Comparación con otros paradigmas de aprendizaje
Es importante distinguir la SSL de los conceptos relacionados de Inteligencia Artificial (IA):
- Aprendizaje Autosupervisado (SSL): Aunque comparte acrónimo, el aprendizaje autosupervisado es diferente. Es un tipo de aprendizaje no supervisado en el que las etiquetas se generan a partir de los propios datos mediante tareas previas (por ejemplo, predecir una palabra enmascarada en una frase). No utiliza ningún dato etiquetado manualmente, mientras que el aprendizaje semisupervisado requiere un pequeño conjunto de datos etiquetados explícitamente para guiar el proceso de entrenamiento del modelo.
- Aprendizaje activo: Esta técnica también pretende reducir los costes de etiquetado. Sin embargo, en lugar de utilizar todos los datos sin etiquetar, un modelo de aprendizaje activo consulta de forma inteligente a un anotador humano para que etiquete los puntos de datos más informativos. SSL, en cambio, suele utilizar los datos sin etiquetar sin interacción humana directa durante el entrenamiento.
- Aprendizaje por transferencia: Consiste en utilizar un modelo preentrenado en un gran conjunto de datos (como ImageNet) y luego perfeccionarlo en un conjunto de datos más pequeño y específico de la tarea. Aunque ambos aprovechan el conocimiento existente, el SSL aprende de los datos no etiquetados de la propia tarea objetivo, mientras que el aprendizaje por transferencia aprovecha el conocimiento de una tarea diferente (aunque a menudo relacionada).