Découvre l'impact de la taille des lots sur l'apprentissage profond. Optimise efficacement la vitesse d'entraînement, l'utilisation de la mémoire et les performances du modèle.
Dans l'apprentissage automatique, en particulier lors de la formation de modèles d'apprentissage profond, la taille du lot fait référence au nombre d'exemples de formation utilisés dans une itération. Au lieu de traiter l'ensemble des données en une seule fois, ce qui est souvent infaisable sur le plan informatique, les données sont divisées en groupes ou lots plus petits et gérables. Les paramètres du modèle sont mis à jour après le traitement de chaque lot, ce qui rend la formation plus efficace, en particulier avec les grands ensembles de données courants dans le domaine de la vision par ordinateur.
Le choix d'une taille de lot appropriée est un hyperparamètre critique qui affecte de manière significative la dynamique de formation du modèle, l'utilisation des ressources et la performance finale.
La sélection de la taille de lot optimale implique un équilibre entre l'efficacité de calcul, les contraintes de mémoire et la généralisation du modèle. Il n'y a pas de "meilleure" taille de lot unique ; cela dépend souvent de l'ensemble de données spécifique, de l'architecture du modèle et du matériel disponible.
Il est important de distinguer la taille des lots des concepts connexes :
Dans les tâches de détection d'objets, telles que celles effectuées par Ultralytics YOLO la taille du lot a un impact direct sur le nombre d'images traitées simultanément pendant la formation. Par exemple, lors de l'entraînement d'un modèle comme YOLOv8 sur un ensemble de données comme VisDrone, une taille de lot plus importante (par exemple, 32 ou 64) peut accélérer de manière significative le temps d'apprentissage par époque sur un matériel capable. Cependant, il est nécessaire de surveiller attentivement la mémoire du GPU . La formation peut être gérée et suivie efficacement à l'aide de plateformes comme Ultralytics HUB.
Lors de l'entraînement d'un modèle de classification d'images, par exemple sur l'ensemble de données ImageNet, la taille des lots influence la stabilité et la convergence du processus d'entraînement. Un chercheur peut commencer avec une taille de lot de 256 et l'ajuster en fonction de l'observation du comportement de la fonction de perte et de la précision de la validation. Des lots plus petits peuvent être nécessaires pour les modèles avec des architectures complexes ou lorsque l'on utilise des ressources matérielles limitées comme dans l'environnement Google Colab.