Glossaire

Précision mixte

Booste l'efficacité de l'apprentissage profond avec un entraînement de précision mixte ! Obtiens des vitesses plus rapides, une utilisation réduite de la mémoire et des économies d'énergie sans sacrifier la précision.

L'apprentissage à précision mixte est une technique utilisée dans l'apprentissage profond (DL) pour accélérer l'apprentissage des modèles et réduire la consommation de mémoire sans avoir d'impact significatif sur la précision des modèles. Elle y parvient en utilisant stratégiquement une combinaison de différents formats de précision numérique pour le stockage et le calcul des valeurs au sein d'un réseau neuronal (NN). Généralement, cela implique l'utilisation du format standard 32 bits à virgule flottante (FP32 ou simple précision) pour les parties critiques comme le stockage des poids du modèle, tout en employant les formats 16 bits à virgule flottante plus rapides et moins gourmands en mémoire (FP16 ou demi-précision, et parfois BF16 ou BFloat16) pour les calculs pendant les passes avant et arrière(rétropropagation).

Comment fonctionne la précision mixte

L'idée principale derrière la précision mixte est de tirer parti des avantages de la vitesse et de la mémoire des formats de précision inférieure tout en atténuant les problèmes potentiels de stabilité numérique. Une approche courante comprend les étapes suivantes :

Maintien des poids principaux en FP32 : Une copie principale des poids du modèle est conservée dans le format standard FP32 afin de garantir une grande précision pour les mises à jour des poids.
Utiliser FP16/BF16 pour les calculs : Pendant la boucle d'apprentissage, les poids FP32 sont coulés en FP16 ou BF16 pour les passes avant et arrière. Les calculs utilisant ces formats de précision inférieure sont nettement plus rapides sur le matériel moderne comme les GPUNVIDIA équipés de Tensor Cores, qui sont spécifiquement conçus pour accélérer les multiplications de matrices à des précisions inférieures.
Mise à l'échelle des pertes : Lorsque l'on utilise FP16, la plage des nombres représentables est beaucoup plus petite que FP32. Les petites valeurs de gradient calculées pendant la rétropropagation peuvent donc devenir nulles (sous-écoulement), ce qui entrave l'apprentissage. Pour éviter cela, la valeur de la perte est mise à l'échelle avant la rétropropagation, ce qui a pour effet de mettre à l'échelle les gradients dans une plage représentable par FP16. Avant la mise à jour du poids, ces gradients sont remis à l'échelle. BF16, avec sa plage dynamique plus large similaire à FP32 mais sa précision plus faible, évite souvent la nécessité d'une mise à l'échelle de la perte.
Mettre à jour les poids principaux : Les gradients calculés (remis à l'échelle si l'échelonnement des pertes a été utilisé) sont utilisés pour mettre à jour la copie principale des poids, qui restent en FP32.

Cet équilibre minutieux permet aux modèles de s'entraîner plus rapidement et d'utiliser moins de GPU mémoire.

Avantages de la précision mixte

Formation plus rapide : Les calculs de moindre précision (FP16/BF16) s'exécutent beaucoup plus rapidement sur du matériel compatible, ce qui réduit considérablement le temps nécessaire pour chaque époque de formation. Cela permet une itération et une expérimentation plus rapides.
Consommation de mémoire réduite : Les valeurs FP16/BF16 nécessitent la moitié de la mémoire des valeurs FP32. Cette réduction s'applique aux activations stockées pendant la passe avant et aux gradients calculés pendant la passe arrière. La réduction de la consommation de mémoire permet de former des modèles plus importants ou d'utiliser des lots plus importants, ce qui peut améliorer les performances du modèle et la stabilité de la formation.
Amélioration de l'efficacité : La combinaison d'un calcul plus rapide et d'exigences moindres en matière de bande passante mémoire conduit à une utilisation plus efficace des ressources matérielles, ce qui peut potentiellement réduire les coûts de formation pour l'informatique en nuage ou les clusters sur site.