Glosario

Entrenamiento consciente de la cuantización (QAT)

Optimiza los modelos de IA para dispositivos periféricos con la Formación Consciente de la Cuantización (QAT), garantizando una gran precisión y eficacia en entornos con recursos limitados.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Entrenamiento Consciente de la Cuantización (QAT) es una técnica de optimización crucial en el aprendizaje automático que tiende un puente entre los modelos de IA de alta precisión y su despliegue eficiente en dispositivos con recursos limitados. A medida que las aplicaciones de IA se extienden a dispositivos periféricos como teléfonos inteligentes, sensores IoT y sistemas integrados, la necesidad de modelos que sean precisos y eficientes desde el punto de vista informático se convierte en primordial. QAT aborda este reto simulando los efectos de la cuantización durante la fase de entrenamiento del modelo, lo que da lugar a modelos robustos y optimizados para hardware de baja precisión.

Cómo funciona el entrenamiento consciente de la cuantización

El Entrenamiento Consciente de la Cuantización refina las redes neuronales para que toleren la reducida precisión numérica inherente a los entornos de despliegue. A diferencia de la cuantización post-entrenamiento, que se aplica después de que un modelo esté completamente entrenado, QAT integra la cuantización en el propio bucle de entrenamiento. Esto se consigue simulando el proceso de cuantización -reduciendo la precisión numérica de pesos y activaciones- durante las pasadas hacia delante y hacia atrás. Al hacerlo, el modelo aprende a compensar la pérdida de precisión, lo que da como resultado un modelo que mantiene una mayor precisión cuando se cuantiza realmente para su despliegue. Este método consiste en utilizar operaciones de "cuantización falsa" que imitan la aritmética de baja precisión, como int8, mientras se siguen realizando los cálculos del gradiente y las actualizaciones de los pesos con total precisión. Este enfoque permite que el modelo se adapte y sea menos sensible a los efectos de la cuantización, lo que conduce a un mejor rendimiento en la inferencia cuantizada.

Para una comprensión más amplia de las técnicas de optimización, consulta la guía sobre optimización de modelos, que proporciona una rápida visión general de los métodos para mejorar la eficacia de los modelos.

Distinción de conceptos afines

QAT vs. Cuantificación de modelos

Aunque tanto la QAT como la cuantización del modelo pretenden reducir la precisión del modelo, sus enfoques y resultados difieren significativamente. La cuantización de modelos suele ser un proceso posterior al entrenamiento que convierte un modelo entrenado de precisión completa a un formato de menor precisión (como INT8) para reducir el tamaño del modelo y acelerar la inferencia. Este método es sencillo, pero a veces puede provocar un descenso considerable de la precisión, sobre todo en modelos complejos. QAT, en cambio, prepara proactivamente el modelo para la cuantización durante el entrenamiento, mitigando así la pérdida de precisión y consiguiendo a menudo un rendimiento superior en entornos de baja precisión.

QAT vs. Precisión Mixta

El entrenamiento de precisión mixta es otra técnica de optimización centrada en acelerar el proceso de entrenamiento y reducir la huella de memoria durante el entrenamiento. Consiste en utilizar números de coma flotante de 16 y 32 bits en la red. Mientras que la precisión mixta se centra principalmente en la eficacia del entrenamiento, la QAT está diseñada específicamente para mejorar el rendimiento de los modelos después de la cuantización, centrándose en la eficacia y la precisión de la inferencia en escenarios de despliegue de baja precisión.

Aplicaciones reales de QAT

El Entrenamiento Consciente de la Cuantización es esencial para desplegar modelos de IA en aplicaciones del mundo real en las que la eficiencia de los recursos es fundamental. He aquí un par de ejemplos:

Ejemplo 1: Inteligencia Artificial Edge en dispositivos inteligentes

En dispositivos inteligentes como smartphones y dispositivos IoT, los recursos computacionales y la potencia son limitados. La QAT se utiliza ampliamente para optimizar modelos para aplicaciones de IA de borde, permitiendo el procesamiento en tiempo real directamente en el dispositivo. Por ejemplo, Ultralytics YOLO , un modelo de detección de objetos de última generación, puede optimizarse mediante QAT para garantizar una detección eficiente de objetos en tiempo real en aplicaciones como los sistemas de seguridad doméstica inteligente o las cámaras potenciadas por IA. Al reducir el tamaño del modelo y las demandas computacionales, QAT hace factible ejecutar tareas complejas de IA en dispositivos con capacidades de procesamiento limitadas.

Ejemplo 2: Vehículos autónomos y robótica

Los vehículos autónomos y la robótica requieren sistemas de IA que puedan tomar decisiones rápidas bajo estrictas limitaciones de latencia y potencia. La QAT desempeña un papel vital en la optimización de modelos para su despliegue en sistemas integrados dentro de estas aplicaciones. Por ejemplo, la aplicación de QAT a Ultralytics YOLOv8 los modelos puede mejorar significativamente la eficacia de los sistemas de detección de vehículos y seguimiento de peatones, que son cruciales para la toma de decisiones en tiempo real en la conducción autónoma. Esta optimización garantiza que la IA pueda funcionar eficazmente dentro de las limitaciones de potencia y computación del hardware del vehículo.

Para explorar cómo se aplican las soluciones de Ultralytics en diversos sectores, visita Ultralytics Soluciones.

Leer todo