Glosario

Precisión mixta

Aumente la eficiencia del aprendizaje profundo con el entrenamiento de precisión mixta. Consigue mayor velocidad, menor uso de memoria y ahorro de energía sin sacrificar la precisión.

La precisión mixta es una técnica utilizada en el aprendizaje profundo para acelerar el entrenamiento del modelo y reducir el consumo de memoria. Consiste en utilizar una combinación de formatos numéricos de menor precisión, como punto flotante de 16 bits (FP16), y formatos de mayor precisión, como punto flotante de 32 bits (FP32), durante el cálculo. Al utilizar estratégicamente números de menor precisión para ciertas partes del modelo, como la multiplicación de pesos, y mantener los componentes críticos, como las actualizaciones de pesos, en precisión más alta, el entrenamiento de precisión mixta puede acelerar significativamente el rendimiento en las GPU modernas sin una pérdida sustancial en la precisión del modelo.

Cómo funciona la precisión mixta

La idea central de la precisión mixta es aprovechar la velocidad y la eficiencia de memoria de los tipos de datos de menor precisión. El hardware moderno, especialmente las GPU NVIDIA con Tensor Cores, puede realizar operaciones con números de 16 bits mucho más rápido que con números de 32 bits. El proceso suele implicar tres pasos clave:

Conversión a baja precisión: La mayoría de las operaciones del modelo, en particular las multiplicaciones de matrices y las convoluciones, se realizan utilizando aritmética de media precisión (FP16). Esto reduce el espacio de memoria y acelera los cálculos.
Mantener una copia maestra de los pesos: Para mantener la precisión y estabilidad del modelo, se mantiene una copia maestra de los pesos del modelo en el formato estándar de punto flotante de 32 bits (FP32). Esta copia maestra se utiliza para acumular gradientes y actualizar los pesos durante el proceso de entrenamiento.
Escalado de pérdidas: Para evitar el subdesbordamiento numérico -donde los valores de gradiente pequeños se convierten en cero cuando se convierten a FP16- se utiliza una técnica llamada escalado de pérdidas. Consiste en multiplicar la pérdida por un factor de escala antes de la retropropagación para mantener los valores del gradiente dentro de un rango representable para FP16. Antes de actualizar los pesos, los gradientes se reducen.

Los marcos de aprendizaje profundo como PyTorch y TensorFlow tienen soporte integrado para la precisión mixta automática, lo que facilita su implementación.

Aplicaciones y ejemplos

La precisión mixta está muy extendida en el entrenamiento de modelos de aprendizaje automático (ML) a gran escala, donde la eficiencia es primordial.

Entrenamiento de grandes modelos lingüísticos (LLM): Modelos como GPT-3 y BERT tienen miles de millones de parámetros. Entrenarlos utilizando sólo FP32 requeriría cantidades prohibitivas de memoria y tiempo en la GPU. La precisión mixta hace factible el entrenamiento de estos modelos básicos al reducir significativamente las necesidades de memoria y acelerar los cálculos. Esto permite a los investigadores iterar con mayor rapidez y construir modelos lingüísticos aún más potentes.
Aceleración de los modelos de visión por ordenador: En visión por computador (CV), la precisión mixta acelera el entrenamiento de modelos complejos como las redes neuronales convolucionales (CNN) y los transformadores de visión (ViT). Para tareas como la detección de objetos y la segmentación de imágenes, los modelos Ultralytics YOLO, incluido el último Ultralytics YOLO11, aprovechan la precisión mixta para una convergencia más rápida. Esto resulta especialmente útil para el ajuste de hiperparámetros y el desarrollo rápido en plataformas como Ultralytics HUB. Un entrenamiento más rápido también facilita una experimentación más rápida en grandes conjuntos de datos como COCO. La precisión mixta también se puede utilizar durante la inferencia para acelerar el despliegue del modelo, especialmente cuando se exporta a formatos como TensorRT, que está muy optimizado para precisiones más bajas.

Conceptos relacionados

La precisión mixta es una de las diversas técnicas de optimización utilizadas para hacer más eficientes los modelos de aprendizaje profundo. Es importante distinguirla de otros conceptos relacionados:

Cuantización de modelos: La cuantización reduce el tamaño del modelo y el coste computacional convirtiendo los números de coma flotante (como FP32 o FP16) en formatos enteros de bits más bajos, como INT8. Mientras que la precisión mixta utiliza diferentes formatos de coma flotante durante el entrenamiento, la cuantización se aplica normalmente después del entrenamiento(cuantización post-entrenamiento) o durante el mismo(entrenamiento consciente de la cuantización) para optimizar la inferencia, especialmente en dispositivos de borde.
Poda de modelos: La poda es una técnica que consiste en eliminar las conexiones (pesos) redundantes o sin importancia de una red neuronal. A diferencia de la precisión mixta, que cambia el formato numérico de los pesos, la poda altera la propia arquitectura del modelo para reducir su tamaño y complejidad. Estas técnicas pueden emplearse conjuntamente para obtener un mayor rendimiento.

Precisión mixta

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona la precisión mixta

Aplicaciones y ejemplos

Conceptos relacionados

Leer más en esta categoría

Exploración del GPT-5 de OpenAI: un sistema unificado inteligente

Google AlphaEarth utiliza datos de observación para la cartografía mundial

FastVLM: Apple presenta su nuevo modelo de lenguaje de visión rápida

Únase a la comunidad Ultralytics