Glosario

Aprendizaje Semisupervisado

Descubre cómo el Aprendizaje Semisupervisado combina datos etiquetados y no etiquetados para mejorar los modelos de IA, reducir los costes de etiquetado y aumentar la precisión.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El aprendizaje semisupervisado es una rama del aprendizaje automático que tiende un puente entre el aprendizaje supervisado y el no supervisado. Aprovecha tanto los datos etiquetados como los no etiquetados para entrenar modelos. En muchos escenarios del mundo real, obtener datos etiquetados puede ser caro y llevar mucho tiempo, ya que requiere la anotación manual por parte de expertos. En cambio, los datos no etiquetados suelen estar disponibles en grandes cantidades. Las técnicas de aprendizaje semisupervisado aprovechan esta abundancia de datos no etiquetados para mejorar el rendimiento de los modelos, especialmente cuando los datos etiquetados son escasos.

Cómo funciona el aprendizaje semisupervisado

A diferencia del aprendizaje supervisado, que se basa totalmente en datos etiquetados, y del aprendizaje no supervisado, que sólo utiliza datos sin etiquetar, el aprendizaje semisupervisado combina ambos. La idea central es que los datos no etiquetados contienen información valiosa sobre la estructura subyacente de la distribución de los datos. Al incorporar esta información, los modelos de aprendizaje semisupervisado a menudo pueden lograr una mayor precisión y generalización que los modelos entrenados únicamente con datos etiquetados limitados.

Varias técnicas se engloban bajo el paraguas del aprendizaje semisupervisado, entre ellas:

  • Pseudoetiquetado: Este método consiste en entrenar un modelo con datos etiquetados y luego utilizarlo para predecir las etiquetas de los datos no etiquetados. Estas etiquetas predichas, o "pseudoetiquetas", se tratan como si fueran etiquetas verdaderas y se utilizan para volver a entrenar el modelo, a menudo de forma iterativa.
  • Regularización de la coherencia: Este enfoque anima al modelo a producir predicciones similares para puntos de datos no etiquetados, incluso cuando están ligeramente perturbados o aumentados. A menudo se utilizan técnicas como el aumento de datos para crear estas perturbaciones.
  • Métodos basados en gráficos: Estos métodos representan los puntos de datos como nodos de un grafo, donde las aristas conectan puntos similares. Las etiquetas se propagan de los nodos etiquetados a los no etiquetados basándose en la estructura del grafo.
  • Autoformación: Similar al pseudoetiquetado, el autoentrenamiento amplía iterativamente el conjunto de datos etiquetados añadiendo predicciones de alta confianza sobre datos no etiquetados.

Aplicaciones del aprendizaje semisupervisado

El aprendizaje semisupervisado es valioso en diversos ámbitos, sobre todo cuando los datos etiquetados son limitados:

  • Análisis de imágenes médicas: En el análisis de imágenes médicas, la adquisición de imágenes médicas etiquetadas para tareas como la detección de tumores o la clasificación de enfermedades suele requerir la intervención de radiólogos expertos, lo que resulta caro y lleva mucho tiempo. El aprendizaje semisupervisado puede ayudar a entrenar modelos precisos utilizando un conjunto menor de imágenes etiquetadas junto con un conjunto mayor de exploraciones no etiquetadas. Por ejemplo, en la detección de tumores cerebrales utilizando Ultralytics YOLO para la detección de objetos, las técnicas semisupervisadas podrían mejorar el rendimiento del modelo con datos de RM etiquetados limitados.
  • Procesamiento del Lenguaje Natural (PLN): Tareas como el análisis de sentimientos o el reconocimiento de entidades con nombre (NER) suelen beneficiarse del aprendizaje semisupervisado. Se dispone fácilmente de grandes cantidades de datos de texto, pero etiquetar el texto para tareas específicas de PLN puede ser laborioso. Los métodos semisupervisados pueden aprovechar el texto no etiquetado para mejorar la comprensión del modelo de los matices del lenguaje y el contexto.
  • Reconocimiento del habla: Al igual que la PNL, los sistemas de reconocimiento del habla pueden beneficiarse de grandes cantidades de datos de audio no etiquetados. El aprendizaje semisupervisado ayuda a crear modelos sólidos que generalizan bien incluso con pocos datos de voz etiquetados.
  • Clasificación de imágenes y detección de objetos: En tareas de visión por ordenador como la clasificación de imágenes y la detección de objetos, el aprendizaje semisupervisado puede utilizarse para mejorar el rendimiento de modelos como Ultralytics YOLOv8 cuando se entrenan en conjuntos de datos en los que sólo una fracción de las imágenes están anotadas con cuadros delimitadores o etiquetas. Ultralytics HUB puede utilizarse para gestionar conjuntos de datos y entrenar modelos, y el aprendizaje semisupervisado puede integrarse para optimizar el entrenamiento con datos etiquetados limitados.

Ventajas del aprendizaje semisupervisado

  • Precisión mejorada: Al utilizar datos no etiquetados, el aprendizaje semisupervisado a menudo puede dar lugar a modelos con mayor precisión en comparación con el aprendizaje supervisado con datos etiquetados limitados.
  • Reducción de los costes de etiquetado: Reduce significativamente la necesidad de un extenso etiquetado manual de datos, ahorrando tiempo y recursos.
  • Mejor generalización: El entrenamiento con datos etiquetados y no etiquetados puede ayudar a los modelos a aprender representaciones más robustas y generalizables, lo que conduce a un mejor rendimiento en datos no vistos.

El aprendizaje semisupervisado ofrece un potente enfoque del aprendizaje automático, especialmente en escenarios en los que los datos etiquetados son un cuello de botella. Al aprovechar eficazmente la riqueza de los datos no etiquetados disponibles, permite el desarrollo de sistemas de IA más precisos y eficientes en una amplia gama de aplicaciones.

Leer todo