El aprendizaje semisupervisado es un potente enfoque del aprendizaje automático (AM) que aprovecha tanto los datos etiquetados como los no etiquetados para entrenar modelos. Esta técnica es especialmente útil cuando la obtención de datos etiquetados es cara o requiere mucho tiempo, mientras que los datos no etiquetados son abundantes y están fácilmente disponibles. Al combinar los puntos fuertes del aprendizaje supervisado y no supervisado, el aprendizaje semisupervisado puede lograr una gran precisión con menos dependencia de conjuntos de datos totalmente etiquetados, lo que lo convierte en una herramienta valiosa en diversas aplicaciones del mundo real.
Cómo funciona el aprendizaje semisupervisado
Los algoritmos de aprendizaje semisupervisado utilizan una pequeña cantidad de datos etiquetados para guiar el proceso de aprendizaje, al tiempo que extraen patrones y estructuras de un conjunto mayor de datos sin etiquetar. Los datos etiquetados proporcionan supervisión explícita, enseñando al modelo relaciones específicas entre entradas y salidas. Los datos no etiquetados, por otra parte, ayudan al modelo a aprender la distribución y las características subyacentes de los datos, mejorando su capacidad de generalizar a nuevos ejemplos no vistos.
Existen varios enfoques del aprendizaje semisupervisado, entre ellos:
- Autoentrenamiento: El modelo se entrena inicialmente con los datos etiquetados y luego se utiliza para predecir las etiquetas de los datos sin etiquetar. Las predicciones de alta confianza se añaden al conjunto etiquetado, y el modelo se vuelve a entrenar de forma iterativa.
- Co-entrenamiento: Se entrenan dos o más modelos en diferentes vistas o subconjuntos de los datos etiquetados. A continuación, cada modelo etiqueta los datos no etiquetados, y las predicciones se utilizan para aumentar el conjunto de entrenamiento de los otros modelos.
- Modelos generativos: Estos modelos, como las Redes Generativas Adversariales (GAN), aprenden la distribución de probabilidad conjunta de los datos y las etiquetas. A continuación, pueden generar nuevos puntos de datos o deducir las etiquetas que faltan basándose en la distribución aprendida.
- Métodos basados en grafos: Estos métodos representan los datos como un grafo, donde los nodos son puntos de datos (tanto etiquetados como sin etiquetar) y las aristas representan similitudes entre ellos. La información de las etiquetas se propaga por el grafo, lo que permite al modelo inferir etiquetas para los nodos no etiquetados.
Ventajas del aprendizaje semisupervisado
El aprendizaje semisupervisado ofrece varias ventajas clave:
- Reducción del esfuerzo de etiquetado: Al utilizar datos sin etiquetar, el aprendizaje semisupervisado reduce significativamente la necesidad de un extenso etiquetado manual, ahorrando tiempo y recursos.
- Mayor precisión: La inclusión de datos no etiquetados ayuda al modelo a aprender una representación más completa de la distribución de los datos, lo que a menudo conduce a una mayor precisión en comparación con el uso de sólo datos etiquetados.
- Mejor generalización: La exposición a un conjunto de datos más amplio y diverso, que incluya tanto ejemplos etiquetados como no etiquetados, mejora la capacidad del modelo para generalizar a datos no vistos.
- Aprovechar los abundantes datos sin etiquetar: En muchos dominios, los datos no etiquetados están fácilmente disponibles (por ejemplo, imágenes de Internet, texto de páginas web). El aprendizaje semisupervisado nos permite aprovechar este vasto recurso.
Aplicaciones del aprendizaje semisupervisado
El aprendizaje semisupervisado encuentra aplicaciones en diversos ámbitos, entre ellos:
- Visión por ordenador: Las tareas de detección de objetos, clasificación de imágenes y segmentación de imágenes pueden beneficiarse del aprendizaje semisupervisado, especialmente cuando las imágenes etiquetadas son escasas. Por ejemplo, se puede entrenar un modelo para detectar objetos específicos en imágenes utilizando un pequeño conjunto de imágenes etiquetadas y una gran colección de imágenes no etiquetadas de Internet. Explora cómo los modelos de Ultralytics YOLO están transformando la visión por ordenador con soluciones innovadoras.
- Procesamiento del Lenguaje Natural: El análisis de sentimientos, la clasificación de textos y el reconocimiento de entidades con nombre pueden aprovechar el aprendizaje semisupervisado para mejorar el rendimiento cuando los datos de texto etiquetado son limitados. Por ejemplo, se puede entrenar un modelo para clasificar el sentimiento de las reseñas de productos utilizando un pequeño conjunto de reseñas etiquetadas y un gran corpus de reseñas no etiquetadas de foros online. Descubre más sobre el procesamiento del lenguaje natural (PLN).
- Diagnóstico médico: En la asistencia sanitaria, obtener datos médicos etiquetados puede ser un reto debido a la preocupación por la privacidad y a la necesidad de anotaciones de expertos. El aprendizaje semisupervisado puede utilizarse para entrenar modelos de diagnóstico de enfermedades, análisis de imágenes médicas y descubrimiento de fármacos utilizando una combinación de datos de pacientes etiquetados y no etiquetados. Más información sobre la IA en la sanidad.
- Detección del fraude: El aprendizaje semisupervisado puede mejorar los sistemas de detección de fraudes aprendiendo a partir de un pequeño conjunto de transacciones fraudulentas etiquetadas y un gran volumen de datos de transacciones sin etiquetar. El modelo puede identificar pautas y anomalías indicativas de fraude, incluso con ejemplos etiquetados limitados.
Comparación con otros paradigmas de aprendizaje
El aprendizaje semisupervisado difiere del supervisado y del no supervisado en lo siguiente:
- Aprendizaje supervisado: Se basa únicamente en datos etiquetados para el entrenamiento. Aunque es preciso, puede verse limitado por la disponibilidad y el coste de los datos etiquetados.
- Aprendizaje no supervisado: Utiliza sólo datos no etiquetados para descubrir patrones y estructuras. Aunque es útil para el análisis exploratorio, no aprende directamente a asignar entradas a salidas específicas.
- Aprendizaje semisupervisado: Consigue un equilibrio entre el aprendizaje supervisado y el no supervisado, aprovechando tanto los datos etiquetados como los no etiquetados para lograr un mejor rendimiento con menos esfuerzo de etiquetado.
El aprendizaje semisupervisado también puede considerarse una forma de aprendizaje activo, en el que el modelo selecciona activamente los puntos de datos sin etiquetar más informativos para que los etiquete un oráculo (por ejemplo, un experto humano). Sin embargo, en el aprendizaje semisupervisado, el modelo se basa principalmente en los datos etiquetados existentes y en la estructura de los datos sin etiquetar, en lugar de buscar activamente nuevas etiquetas.
Para más información sobre conceptos relacionados con el aprendizaje automático, explora el glosarioUltralytics .