Glosario

Cuantificación del modelo

Optimiza el rendimiento de la IA con la cuantización de modelos. Reduce el tamaño, aumenta la velocidad y mejora la eficiencia energética para implantaciones en el mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La cuantización de modelos es una técnica de optimización crucial utilizada en el aprendizaje automático para reducir los costes computacionales y de memoria del despliegue de modelos de IA. Funciona convirtiendo los pesos y las activaciones de una red neuronal de números en coma flotante de alta precisión (como los flotantes de 32 bits) a formatos de menor precisión, como los enteros de 8 bits. Este proceso reduce significativamente el tamaño del modelo y acelera la velocidad de inferencia, lo que lo hace ideal para su despliegue en dispositivos con recursos limitados.

Comprender la cuantización de modelos

La idea central de la cuantización de modelos es representar los valores numéricos de un modelo con menos bits. La mayoría de los modelos de aprendizaje profundo se entrenan y funcionan con números de coma flotante, que ofrecen una gran precisión pero exigen una potencia de cálculo y una memoria considerables. La cuantización reduce esta demanda asignando el rango continuo de valores de coma flotante a un conjunto más pequeño de valores enteros discretos. Esto puede compararse a reducir la paleta de colores de una imagen; aunque se pierdan algunos detalles, la información esencial permanece, y el tamaño del archivo se reduce mucho.

Existen varias técnicas para la cuantización de modelos. La cuantización post-entrenamiento se aplica después de que un modelo haya sido completamente entrenado, convirtiendo sus pesos y activaciones a una precisión menor sin más entrenamiento. Es un método sencillo, pero a veces puede provocar un ligero descenso de la precisión. El entrenamiento consciente de la cuantización (QAT), en cambio, incorpora el proceso de cuantización en la propia fase de entrenamiento. Esto permite que el modelo aprenda y se adapte a las restricciones de menor precisión, lo que a menudo da como resultado una mayor precisión en comparación con la cuantización posterior al entrenamiento. También pueden utilizarse técnicas como el entrenamiento de precisión mixta para equilibrar la precisión y la eficacia durante el proceso de entrenamiento.

Ventajas de la cuantización de modelos

La cuantización de modelos ofrece varias ventajas clave, sobre todo para desplegar modelos de IA en aplicaciones del mundo real:

  • Tamaño reducido del modelo: La cuantización reduce drásticamente el tamaño del archivo del modelo. Por ejemplo, convertir un modelo de flotantes de 32 bits a enteros de 8 bits puede reducir el tamaño del modelo hasta cuatro veces. Esto es especialmente beneficioso para el despliegue del modelo en dispositivos con almacenamiento limitado, como teléfonos móviles o dispositivos de borde.
  • Mayor velocidad de inferencia: Los cálculos de menor precisión son significativamente más rápidos, especialmente en hardware optimizado para aritmética de enteros. Esto reduce la latencia de la inferencia y mejora el rendimiento en tiempo real, algo crucial para aplicaciones como la detección de objetos en tiempo real mediante modelos Ultralytics YOLO .
  • Menor coste computacional: Realizar cálculos con menor precisión requiere menos potencia de cálculo y energía. Esto es vital para los dispositivos que funcionan con baterías y reduce los recursos computacionales totales necesarios para las aplicaciones de IA.
  • Mayor eficiencia energética: Una menor demanda computacional se traduce en un menor consumo de energía, lo que hace que los modelos cuantizados sean más eficientes energéticamente. Esto es especialmente importante para los sistemas móviles e integrados.

Aplicaciones en el mundo real

La cuantización de modelos es esencial para desplegar modelos de IA en una amplia gama de aplicaciones, sobre todo cuando los recursos son limitados o la velocidad es crítica. He aquí un par de ejemplos:

  1. Dispositivos móviles: Los teléfonos inteligentes suelen utilizar modelos cuantizados para funciones de IA en el dispositivo, como el reconocimiento de imágenes y el procesamiento del lenguaje natural. La cuantización permite que estos modelos complejos se ejecuten eficazmente en GPUs móviles o hardware especializado como las TPUs Edge que se encuentran en dispositivos como Raspberry Pi, sin agotar la batería ni causar problemas de rendimiento. Por ejemplo, ejecutar un modelo Ultralytics YOLO en una aplicación Android o iOS se beneficia enormemente de la cuantización para la detección de objetos en tiempo real.
  2. Edge Computing y dispositivos IoT: En escenarios como las ciudades inteligentes o la automatización industrial, los modelos de IA se despliegan en numerosos dispositivos de borde para el procesamiento de datos en tiempo real. La cuantización es vital aquí para permitir un servicio eficiente del modelo en estos dispositivos, que a menudo tienen una potencia de procesamiento y una memoria limitadas. Piensa en una cámara inteligente que utilice Ultralytics YOLO para sistemas de alarma de seguridad; la cuantización garantiza una detección y respuesta oportunas, al tiempo que minimiza los requisitos de hardware.

Cuantización vs. Poda del modelo

Aunque tanto la cuantización como la poda de modelos son técnicas de optimización de modelos destinadas a reducir su tamaño y mejorar su eficacia, funcionan de forma diferente. La cuantización reduce la precisión de las representaciones numéricas, mientras que la poda reduce el número de parámetros de un modelo eliminando las conexiones o neuronas menos importantes. Ambas técnicas pueden utilizarse de forma independiente o combinadas para conseguir un rendimiento y un tamaño óptimos del modelo. Herramientas como TensorRT y OpenVINO suelen incorporar la cuantización y la poda como parte de sus procesos de optimización.

En resumen, la cuantización de modelos es una técnica poderosa que hace que la IA sea más accesible y desplegable en una gama más amplia de dispositivos y aplicaciones, al mejorar la eficacia sin pérdida significativa de precisión.

Leer todo