Glosario

Destilación del conocimiento

Descubre cómo la Destilación del Conocimiento comprime los modelos de IA para una inferencia más rápida, una precisión mejorada y una eficiencia en el despliegue de dispositivos de borde.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La destilación de conocimientos es una técnica de compresión de modelos utilizada en el aprendizaje automático para transferir conocimientos de un modelo grande y complejo (el "maestro") a un modelo más pequeño y sencillo (el "alumno"). El objetivo es entrenar el modelo alumno para que alcance un rendimiento comparable al del modelo maestro, aunque el alumno tenga menos parámetros y sea computacionalmente menos costoso. Esto es especialmente útil para desplegar modelos en dispositivos con recursos limitados o en aplicaciones que requieren tiempos de inferencia rápidos.

Cómo funciona la destilación del conocimiento

La idea central de la Destilación del Conocimiento es utilizar las salidas blandas (probabilidades) del modelo del profesor como objetivos de entrenamiento para el modelo del alumno, además o en lugar de las etiquetas duras (verdad sobre el terreno). Los modelos del profesor, a menudo preentrenados en vastos conjuntos de datos, pueden captar relaciones intrincadas en los datos y generalizar bien. Al aprender de estos objetivos blandos, el modelo del alumno puede aprender información más rica de la que aprendería sólo de las etiquetas duras. Este proceso suele implicar el uso de una "temperatura" más alta en la función softmax durante la inferencia del profesor para suavizar la distribución de probabilidad, proporcionando información más matizada al alumno.

Beneficios y aplicaciones

La Destilación del Conocimiento ofrece varias ventajas, lo que la convierte en una técnica valiosa en diversas aplicaciones de la IA:

  • Compresión de modelos: Permite crear modelos más pequeños y eficientes, adecuados para su despliegue en dispositivos periféricos con recursos computacionales limitados, como teléfonos móviles o sistemas integrados. Esto es crucial para aplicaciones como la detección de objetos en tiempo real en dispositivos como Raspberry Pi o NVIDIA Jetson.
  • Generalización mejorada: Los modelos de alumnos entrenados con Destilación de Conocimientos suelen mostrar un mejor rendimiento de generalización que los modelos entrenados únicamente con etiquetas duras. Pueden aprender de las representaciones aprendidas del profesor, lo que mejora la precisión y la solidez.
  • Inferencia más rápida: Los modelos más pequeños conducen naturalmente a tiempos de inferencia más rápidos, lo que es esencial para aplicaciones en tiempo real como la conducción autónoma, la automatización de procesos robóticos (RPA) y los sistemas de seguridad.

Las aplicaciones de la Destilación del Conocimiento en el mundo real están muy extendidas:

  • Procesamiento del Lenguaje Natural (PLN): En PLN, la Destilación del Conocimiento puede utilizarse para comprimir grandes modelos lingüísticos como GPT-3 o BERT en modelos más pequeños y eficientes para su despliegue móvil o en el borde. Por ejemplo, un modelo destilado puede potenciar el análisis de sentimientos en dispositivos móviles sin necesidad de conectividad en la nube.
  • Visión por ordenador: Ultralytics YOLOv8 o modelos similares de detección de objetos pueden destilarse para su despliegue en aplicaciones en tiempo real en dispositivos de borde. Por ejemplo, en las ciudades inteligentes, los modelos destilados pueden utilizarse para una supervisión y gestión eficientes del tráfico, ejecutándose directamente en dispositivos informáticos de borde en los cruces de tráfico. Otra aplicación es el análisis de imágenes médicas, donde los modelos destilados pueden proporcionar diagnósticos preliminares más rápidos en el punto de atención.

Destilación del Conocimiento vs. Poda de Modelos y Cuantificación

Aunque la Destilación del Conocimiento es una técnica de compresión de modelos, es diferente de otros métodos como la poda de modelos y la cuantización de modelos. La poda de modelos reduce el tamaño de un modelo eliminando las conexiones (pesos) menos importantes, mientras que la cuantización de modelos reduce la precisión de los pesos del modelo para utilizar menos memoria y cálculo. La Destilación del Conocimiento, por otra parte, entrena un nuevo modelo más pequeño desde cero utilizando el conocimiento de un modelo mayor. Estas técnicas también pueden combinarse; por ejemplo, un modelo destilado puede podarse o cuantizarse aún más para lograr una mayor compresión y eficacia. Herramientas como Model Compression Toolkit (MCT) de Sony y OpenVINO pueden utilizarse para optimizar aún más los modelos después de la destilación para el despliegue en el borde.

Leer todo