Descubre cómo la Destilación del Conocimiento comprime los modelos de IA para una inferencia más rápida, una precisión mejorada y una eficiencia en el despliegue de dispositivos de borde.
La Destilación del Conocimiento es una técnica del aprendizaje automático (AM ) en la que un modelo más pequeño y compacto (el "alumno") se entrena para imitar el comportamiento de un modelo más grande y complejo (el "maestro"). El objetivo principal es transferir el "conocimiento" aprendido por el modelo maestro al modelo alumno, permitiendo que éste alcance un rendimiento comparable pero con requisitos computacionales significativamente menores, como un tamaño reducido y una latencia de inferencia más rápida. Esto hace que los modelos complejos de aprendizaje profundo (deep learning, DL) resulten prácticos para su despliegue en entornos con recursos limitados, como dispositivos móviles o plataformas de computación de borde. El concepto fue popularizado por Geoffrey Hinton y sus colegas en su artículo"Destilar el conocimiento en una red neuronal".
El proceso suele implicar un modelo maestro preentrenado, que puede ser un único modelo potente o un conjunto de modelos conocidos por su gran precisión. El modelo del alumno, normalmente con menos parámetros o una arquitectura menos profunda (por ejemplo, una Red Neuronal Convolucional (CNN) más pequeña), se entrena utilizando los resultados del modelo del profesor como guía. En lugar de utilizar sólo las etiquetas duras (la verdad sobre el terreno) de los datos de entrenamiento, el alumno suele aprender de los "objetivos blandos" del profesor: las distribuciones de probabilidad completas predichas por el profesor en todas las clases. Estos objetivos blandos contienen información más rica sobre cómo el modelo del profesor generaliza y representa las similitudes entre las clases. Se utiliza una función de pérdida especial, a menudo llamada pérdida de destilación, para minimizar la diferencia entre las predicciones del alumno y los objetivos blandos del profesor, a veces combinada con una pérdida estándar calculada utilizando las etiquetas reales.
La Destilación del Conocimiento ofrece varias ventajas clave:
La Destilación del Conocimiento se utiliza ampliamente en diversos ámbitos:
La Destilación del Conocimiento está relacionada con otras técnicas de optimización de modelos, pero es distinta de ellas:
La Destilación del Conocimiento es una poderosa herramienta para hacer más accesibles y eficientes los modelos de IA más avanzados, salvando la distancia entre los modelos de investigación a gran escala y el despliegue práctico de modelos en el mundo real. Plataformas como Ultralytics HUB facilitan la formación y el despliegue de modelos potencialmente destilados como YOLOv8 o YOLO11.