Glosario

Destilación del conocimiento

Descubre cómo la Destilación del Conocimiento comprime los modelos de IA para una inferencia más rápida, una precisión mejorada y una eficiencia en el despliegue de dispositivos de borde.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Destilación del Conocimiento es una técnica del aprendizaje automático (AM ) en la que un modelo más pequeño y compacto (el "alumno") se entrena para imitar el comportamiento de un modelo más grande y complejo (el "maestro"). El objetivo principal es transferir el "conocimiento" aprendido por el modelo maestro al modelo alumno, permitiendo que éste alcance un rendimiento comparable pero con requisitos computacionales significativamente menores, como un tamaño reducido y una latencia de inferencia más rápida. Esto hace que los modelos complejos de aprendizaje profundo (deep learning, DL) resulten prácticos para su despliegue en entornos con recursos limitados, como dispositivos móviles o plataformas de computación de borde. El concepto fue popularizado por Geoffrey Hinton y sus colegas en su artículo"Destilar el conocimiento en una red neuronal".

Cómo funciona la destilación del conocimiento

El proceso suele implicar un modelo maestro preentrenado, que puede ser un único modelo potente o un conjunto de modelos conocidos por su gran precisión. El modelo del alumno, normalmente con menos parámetros o una arquitectura menos profunda (por ejemplo, una Red Neuronal Convolucional (CNN) más pequeña), se entrena utilizando los resultados del modelo del profesor como guía. En lugar de utilizar sólo las etiquetas duras (la verdad sobre el terreno) de los datos de entrenamiento, el alumno suele aprender de los "objetivos blandos" del profesor: las distribuciones de probabilidad completas predichas por el profesor en todas las clases. Estos objetivos blandos contienen información más rica sobre cómo el modelo del profesor generaliza y representa las similitudes entre las clases. Se utiliza una función de pérdida especial, a menudo llamada pérdida de destilación, para minimizar la diferencia entre las predicciones del alumno y los objetivos blandos del profesor, a veces combinada con una pérdida estándar calculada utilizando las etiquetas reales.

Beneficios e importancia

La Destilación del Conocimiento ofrece varias ventajas clave:

  • Compresión de modelos: Crea modelos más pequeños que requieren menos espacio de almacenamiento.
  • Inferencia más rápida: La menor complejidad del modelo da lugar a predicciones más rápidas, cruciales para las aplicaciones de inferencia en tiempo real.
  • Eficiencia energética: Los modelos más pequeños consumen menos energía, lo que es importante para los dispositivos alimentados por batería y las prácticas sostenibles de IA. Consulta las directrices de Salud y Seguridad MedioambientalesUltralytics .
  • Despliegue en dispositivos Edge: Permite potentes capacidades de IA en hardware con memoria y potencia de procesamiento limitadas, como Raspberry Pi o NVIDIA Jetson.
  • Mejora potencial del rendimiento: A veces, el modelo del alumno puede generalizar mejor que un modelo de tamaño similar entrenado directamente con etiquetas duras, ya que aprende de la señal de supervisión más rica proporcionada por el profesor.

Aplicaciones en el mundo real

La Destilación del Conocimiento se utiliza ampliamente en diversos ámbitos:

  1. Visión por ordenador: Grandes modelos de detección de objetos o segmentación de imágenes, como versiones complejas de Ultralytics YOLO o Transformadores de Visión (ViT), pueden destilarse en versiones ligeras adecuadas para aplicaciones móvilesUltralytics HUB App) o sistemas integrados en vehículos autónomos o robótica. Por ejemplo, Intuitivo utiliza la destilación de conocimientos para transferirlos de grandes modelos fundacionales a modelos más pequeños y rentables para escalar millones de puntos de compra autónomos, acelerando significativamente la anotación (Fuente: YOLO Vision 2023 Talk).
  2. Procesamiento del Lenguaje Natural (PLN): Los Grandes Modelos Lingüísticos (LLM ) masivos, como BERT o GPT, a menudo se destilan en versiones más pequeñas (por ejemplo, DistilBERT de Hugging Face) para tareas como el análisis de sentimientos o la respuesta a preguntas en dispositivos con presupuestos computacionales limitados o para aplicaciones que requieren una latencia más baja, como los chatbots.

Conceptos relacionados

La Destilación del Conocimiento está relacionada con otras técnicas de optimización de modelos, pero es distinta de ellas:

  • Poda del modelo: Consiste en eliminar los pesos o conexiones menos importantes de una red ya entrenada para reducir su tamaño. La destilación entrena una nueva red más pequeña.
  • Cuantización del modelo: Reduce la precisión numérica de las ponderaciones del modelo (por ejemplo, de flotantes de 32 bits a enteros de 8 bits) para disminuir el tamaño y acelerar el cálculo; suele utilizarse junto con la destilación o después de ella. Ver integraciones como ONNX o TensorRT.
  • Aprendizaje por transferencia: Reutiliza partes de un modelo preentrenado (normalmente la columna vertebral) y lo afina en un nuevo conjunto de datos o tarea. La destilación se centra en transferir el comportamiento predictivo de un maestro a una arquitectura de alumnos potencialmente diferente.
  • Aprendizaje federado: Entrena modelos a través de dispositivos descentralizados sin compartir datos brutos, centrándose en la privacidad. La destilación se centra en la compresión de modelos.

La Destilación del Conocimiento es una poderosa herramienta para hacer más accesibles y eficientes los modelos de IA más avanzados, salvando la distancia entre los modelos de investigación a gran escala y el despliegue práctico de modelos en el mundo real. Plataformas como Ultralytics HUB facilitan la formación y el despliegue de modelos potencialmente destilados como YOLOv8 o YOLO11.

Leer todo