Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje Activo

Descubra cómo el aprendizaje activo optimiza el entrenamiento de la IA. Aprenda a utilizar Ultralytics para identificar datos informativos, reducir los costes de etiquetado y aumentar la precisión.

El aprendizaje activo es un enfoque estratégico en el aprendizaje automático (ML) en el que el algoritmo selecciona de forma proactiva los puntos de datos más informativos para etiquetarlos, en lugar de aceptar pasivamente un conjunto de datos preetiquetado . En el aprendizaje supervisado tradicional, los modelos suelen requerir grandes cantidades de datos anotados, cuya creación puede resultar costosa y llevar mucho tiempo. El aprendizaje activo optimiza este proceso identificando ejemplos «inciertos» o «difíciles» —aquellos cercanos al límite de decisión o en los que el modelo carece de confianza— y solicitando a los anotadores humanos que etiqueten solo esas instancias específicas . Este bucle iterativo permite a los modelos alcanzar una alta precisión con un número significativamente menor de muestras etiquetadas, lo que lo hace muy eficiente para proyectos con presupuestos limitados o restricciones de tiempo.

Cómo funciona el ciclo de aprendizaje activo

El núcleo del aprendizaje activo es un bucle de retroalimentación al que a menudo se hace referencia como human-in-the-loop. En lugar de entrenar una sola vez con un conjunto de datos estático, el modelo evoluciona a través de ciclos de consulta y actualización.

  1. Inicialización: El proceso comienza con un pequeño conjunto de datos de entrenamiento etiquetados que se utilizan para entrenar un modelo inicial, como Ultralytics .
  2. Selección de consultas: El modelo evalúa un gran conjunto de datos sin etiquetar. Mediante una estrategia de consulta—normalmente el muestreo de incertidumbre—, selecciona las imágenes o el texto en los que sus predicciones son menos fiables.
  3. Anotación: Estas muestras de alta prioridad se envían a un experto humano, a menudo denominado «oráculo» en la literatura sobre aprendizaje activo, para el etiquetado de datos.
  4. Reentrenamiento: Los datos recién etiquetados se añaden al conjunto de entrenamiento y el modelo se vuelve a entrenar. Este modelo actualizado está entonces mejor preparado para seleccionar el siguiente lote de muestras confusas.

Aplicaciones en el mundo real

El aprendizaje activo es indispensable en industrias donde los datos son abundantes, pero el etiquetado requiere conocimientos especializados o costes elevados.

  • Análisis de imágenes médicas: En campos como la radiología, el etiquetado requiere expertos certificados por juntas profesionales cuyo tiempo es extremadamente valioso. En lugar de pedir a un médico que anote miles de escáneres claros, un sistema de aprendizaje activo puede filtrar los casos ambiguos , como tumores en fase inicial o anomalías poco frecuentes, lo que permite al experto centrarse únicamente en las imágenes que realmente mejoran la capacidad de diagnóstico del modelo.
  • Vehículos autónomos: Los coches autónomos generan petabytes de datos de vídeo. Etiquetar cada fotograma es imposible. El aprendizaje activo ayuda a los ingenieros a identificar casos extremos, como peatones con disfraces o conducir con nieve intensa, que los modelos estándar de detección de objetos podrían pasar por alto. Al dar prioridad a estos escenarios poco frecuentes, las empresas mejoran la seguridad sin malgastar recursos en imágenes repetitivas de autopistas.

Python : Filtrado de predicciones inciertas

El siguiente ejemplo muestra una lógica sencilla de «muestreo de incertidumbre» utilizando Ultralytics . Cargamos un modelo, ejecutamos la inferencia en las imágenes y marcamos aquellas cuya puntuación de confianza está por debajo de un umbral determinado para su revisión manual.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# List of unlabeled image paths
unlabeled_images = ["https://ultralytics.com/images/bus.jpg", "https://ultralytics.com/images/zidane.jpg"]

# Run inference
results = model(unlabeled_images)

# Identify samples with low confidence for active learning
uncertain_threshold = 0.6
for result in results:
    # Check if any detection confidence is below the threshold
    if result.boxes.conf.numel() > 0 and result.boxes.conf.min() < uncertain_threshold:
        print(f"Active Learning Query: {result.path} needs human labeling.")

Distinguir conceptos relacionados

Es importante diferenciar el aprendizaje activo de otros paradigmas de formación similares:

  • Aprendizaje semisupervisado: Aunque ambos métodos utilizan datos sin etiquetar, el aprendizaje semisupervisado asigna automáticamente pseudoetiquetas a los datos basándose en las predicciones de alta confianza del modelo . Por el contrario, el aprendizaje activo solicita explícitamente la intervención humana en las predicciones de baja confianza.
  • Aprendizaje por transferencia: consiste en tomar un modelo preentrenado (como uno entrenado en ImageNet) y adaptarlo a una nueva tarea. El aprendizaje activo se centra en qué datos etiquetar, mientras que el aprendizaje por transferencia se centra en reutilizar las características aprendidas.
  • Aprendizaje por refuerzo: Aquí, un agente aprende al interactuar con un entorno y recibir recompensas. El aprendizaje activo es diferente porque busca etiquetas estáticas de verdad fundamental de un oráculo, en lugar de optimizar una secuencia de acciones para obtener una recompensa.

Integración con MLOps

La implementación eficaz del aprendizaje activo requiere un sólido proceso de operaciones de aprendizaje automático (MLOps) . Se necesita una infraestructura para gestionar las versiones de los datos, activar trabajos de reentrenamiento y proporcionar la interfaz de anotación a los usuarios. Las herramientas que se integran con Ultralytics permiten a los usuarios pasar fácilmente de la inferencia a la curación de datos y al entrenamiento. Por ejemplo, el uso de scripts de entrenamiento personalizados permite a los desarrolladores incorporar rápidamente nuevos lotes de datos de aprendizaje activo a sus YOLO .

Para obtener más información sobre las estrategias de muestreo, los investigadores suelen remitirse a estudios exhaustivos sobre literatura de aprendizaje activo. Además, comprender las métricas de evaluación de modelos es fundamental para verificar que el bucle de aprendizaje activo está mejorando realmente el rendimiento.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora