Glossário

Tamanho do lote

Descobre o impacto do tamanho do lote na aprendizagem profunda. Otimiza a velocidade de treino, a utilização da memória e o desempenho do modelo de forma eficiente.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Na aprendizagem automática, em particular na formação de modelos de aprendizagem profunda, o tamanho do lote refere-se ao número de exemplos de formação utilizados numa iteração. Em vez de processar todo o conjunto de dados de uma só vez, o que muitas vezes é computacionalmente inviável, os dados são divididos em grupos ou lotes mais pequenos e geríveis. Os parâmetros do modelo são actualizados após o processamento de cada lote, tornando a formação mais eficiente, especialmente com grandes conjuntos de dados comuns na visão computacional.

Importância do tamanho do lote

A escolha de um tamanho de lote adequado é um hiperparâmetro crítico que afecta significativamente a dinâmica de treino do modelo, a utilização de recursos e o desempenho final.

  • Velocidade de treinamento: Os tamanhos de lote maiores geralmente levam a épocas de treinamento mais rápidas porque permitem uma melhor utilização dos recursos de processamento paralelo encontrados em hardware como GPUs. Processa mais dados por ciclo de computação.
  • Utilização de memória: Uma consequência direta de lotes maiores é o aumento do consumo de memória. O tamanho do lote deve caber na memória de hardware disponível (por exemplo, VRAM GPU ). Se ultrapassares este limite, poderás causar erros ou abrandar drasticamente o treino. Algumas plataformas oferecem orientação para otimizar a utilização da memória.
  • Desempenho e generalização do modelo: Tamanhos de lote menores introduzem mais ruído na estimativa do gradiente durante o treinamento por meio de técnicas como Stochastic Gradient Descent (SGD). Este ruído pode atuar como uma forma de regularização, ajudando potencialmente o modelo a evitar mínimos acentuados no cenário de perdas e a generalizar melhor para dados não vistos, reduzindo o risco de sobreajuste. No entanto, lotes muito pequenos podem tornar o treinamento instável. Lotes maiores fornecem uma estimativa de gradiente mais precisa, mas podem convergir para mínimos menos ideais e requerem técnicas como o aquecimento da taxa de aprendizagem para estabilidade.

Escolher o tamanho certo do lote

A seleção do tamanho ideal do lote envolve o equilíbrio entre a eficiência computacional, as restrições de memória e a generalização do modelo. Não existe um único "melhor" tamanho de lote; depende frequentemente do conjunto de dados específico, da arquitetura do modelo e do hardware disponível.

Tamanho do lote vs. outros termos relacionados

É importante distinguir a dimensão do lote de conceitos relacionados:

  • Iteração: Representa uma única atualização dos pesos do modelo. Em loops de treinamento padrão, uma iteração corresponde ao processamento de um lote de dados e à execução do backpropagation.
  • Época: Representa uma passagem completa por todo o conjunto de dados de treino. Se um conjunto de dados tiver 1000 amostras e o tamanho do lote for 100, então são necessárias 10 iterações para completar uma época (1000 / 100 = 10).

Aplicações no mundo real

Deteção de objectos

Em tarefas de deteção de objectos, como as realizadas pela Ultralytics YOLO o tamanho do lote tem um impacto direto no número de imagens processadas em simultâneo durante a formação. Por exemplo, ao treinar um modelo como o YOLOv8 em um conjunto de dados como o VisDrone, um tamanho de lote maior (por exemplo, 32 ou 64) pode acelerar significativamente o tempo de treinamento por época em hardware capaz. No entanto, é necessária uma monitorização cuidadosa da memória GPU . O treino pode ser gerido e monitorizado eficazmente utilizando plataformas como o Ultralytics HUB.

Classificação de imagens

Ao treinar um modelo de classificação de imagens, talvez no conjunto de dados ImageNet, o tamanho do lote influencia a estabilidade e a convergência do processo de treinamento. Um investigador pode começar com um tamanho de lote de 256 e ajustá-lo com base na observação do comportamento da função de perda e da precisão da validação. Poderão ser necessários lotes mais pequenos para modelos com arquitecturas complexas ou quando se utilizam recursos de hardware limitados, como um ambiente Google Colab.

Lê tudo