Glosario

Aprendizaje autosupervisado

Descubre cómo el aprendizaje autosupervisado aprovecha los datos no etiquetados para un entrenamiento eficaz, transformando la IA en visión por ordenador, PNL y más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El aprendizaje autosupervisado es un enfoque de aprendizaje automático que aprovecha los datos no etiquetados para entrenar modelos. A diferencia del aprendizaje supervisado, que requiere conjuntos de datos etiquetados, el aprendizaje autosupervisado crea sus propias etiquetas a partir de la estructura inherente de los propios datos no etiquetados. Este método es especialmente valioso en campos como la visión por ordenador (VC) y el procesamiento del lenguaje natural (PLN), donde se dispone fácilmente de grandes cantidades de datos sin etiquetar, pero el etiquetado manual es costoso y requiere mucho tiempo.

Cómo funciona el aprendizaje autosupervisado

La idea central del aprendizaje autosupervisado es diseñar una "tarea pretexto" que permita a un modelo aprender representaciones útiles a partir de datos no etiquetados. Esta tarea pretexto se formula de tal manera que resolverla requiera comprender patrones significativos en los datos. Por ejemplo, en el procesamiento de imágenes, una tarea pretexto podría ser predecir la rotación aplicada a un parche de imagen o colorear una imagen en escala de grises. En el procesamiento del lenguaje, una tarea pretexto habitual es el modelado del lenguaje enmascarado, en el que el modelo predice las palabras enmascaradas de una frase.

Una vez que el modelo se ha entrenado en la tarea previa utilizando una gran cantidad de datos sin etiquetar, aprende características y representaciones generales de los datos. Estas representaciones aprendidas pueden transferirse y afinarse para tareas posteriores, como la detección de objetos, la clasificación de imágenes o la segmentación de imágenes, a menudo con muchos menos datos etiquetados de los que se necesitarían para un entrenamiento puramente supervisado. Esta capacidad de aprendizaje por transferencia es una ventaja clave del aprendizaje autosupervisado.

Aplicaciones del aprendizaje autosupervisado

El aprendizaje autosupervisado ha encontrado aplicaciones en diversos dominios, especialmente cuando los datos etiquetados son escasos o caros de obtener:

  • Visión por ordenador: En el análisis de imágenes médicas, el aprendizaje autosupervisado puede preentrenar modelos en grandes conjuntos de datos de imágenes médicas sin etiquetar (como radiografías o resonancias magnéticas). Estos modelos preentrenados pueden ajustarse para tareas de diagnóstico específicas utilizando datos etiquetados limitados, lo que mejora la precisión y la eficacia de la interpretación de imágenes médicas. Por ejemplo, modelos como Ultralytics YOLOv8 pueden beneficiarse de un preentrenamiento autosupervisado para mejorar su rendimiento en la detección de anomalías en imágenes médicas.
  • Procesamiento del Lenguaje Natural: Los grandes modelos lingüísticos (LLM) como el GPT-4 suelen preentrenarse mediante técnicas de aprendizaje autosupervisado en cantidades masivas de datos de texto. Este preentrenamiento les permite aprender capacidades generales de comprensión y generación del lenguaje, que luego se ajustan para tareas específicas de PLN como el resumen de textos, la traducción o el análisis de sentimientos. Técnicas como el ajuste rápido aprovechan aún más estos modelos preentrenados para una adaptación eficaz a nuevas tareas.

Aprendizaje Autosupervisado vs. Conceptos Similares

Es importante distinguir el aprendizaje autosupervisado de otros paradigmas de aprendizaje automático relacionados:

  • Aprendizaje no supervisado: Aunque ambos utilizan datos no etiquetados, el aprendizaje no supervis ado pretende encontrar estructuras o patrones inherentes en los datos sin ninguna tarea específica en mente (por ejemplo, agrupación, reducción de la dimensionalidad). El aprendizaje autosupervisado, en cambio, formula una tarea previa para aprender representaciones que sean útiles para tareas posteriores.
  • Aprendizaje semisupervisado: El aprendizaje semisupervisado utiliza una combinación de datos etiquetados y no etiquetados, pero sigue dependiendo de cierta cantidad de datos etiquetados para el entrenamiento. El aprendizaje autosupervisado se centra principalmente en el aprendizaje a partir de datos no etiquetados y luego, potencialmente, en el ajuste con una pequeña cantidad de datos etiquetados.

El aprendizaje autosupervisado representa un avance significativo en el aprendizaje automático, ya que permite utilizar eficazmente las enormes cantidades de datos no etiquetados disponibles y reducir la dependencia de costosos conjuntos de datos etiquetados. A medida que los modelos Ultralytics YOLO11 sigan evolucionando, es probable que las técnicas autosupervisadas desempeñen un papel cada vez más importante en la mejora de su rendimiento y aplicabilidad en diversas aplicaciones de IA de visión.

Leer todo