Descobre o impacto do tamanho do lote na aprendizagem profunda. Otimiza a velocidade de treino, a utilização da memória e o desempenho do modelo de forma eficiente.
Na aprendizagem automática, em particular na formação de modelos de aprendizagem profunda, o tamanho do lote refere-se ao número de exemplos de formação utilizados numa iteração. Em vez de processar todo o conjunto de dados de uma só vez, o que muitas vezes é computacionalmente inviável, os dados são divididos em grupos ou lotes mais pequenos e geríveis. Os parâmetros do modelo são actualizados após o processamento de cada lote, tornando a formação mais eficiente, especialmente com grandes conjuntos de dados comuns na visão computacional.
A escolha de um tamanho de lote adequado é um hiperparâmetro crítico que afecta significativamente a dinâmica de treino do modelo, a utilização de recursos e o desempenho final.
A seleção do tamanho ideal do lote envolve o equilíbrio entre a eficiência computacional, as restrições de memória e a generalização do modelo. Não existe um único "melhor" tamanho de lote; depende frequentemente do conjunto de dados específico, da arquitetura do modelo e do hardware disponível.
É importante distinguir a dimensão do lote de conceitos relacionados:
Em tarefas de deteção de objectos, como as realizadas pela Ultralytics YOLO o tamanho do lote tem um impacto direto no número de imagens processadas em simultâneo durante a formação. Por exemplo, ao treinar um modelo como o YOLOv8 em um conjunto de dados como o VisDrone, um tamanho de lote maior (por exemplo, 32 ou 64) pode acelerar significativamente o tempo de treinamento por época em hardware capaz. No entanto, é necessária uma monitorização cuidadosa da memória GPU . O treino pode ser gerido e monitorizado eficazmente utilizando plataformas como o Ultralytics HUB.
Ao treinar um modelo de classificação de imagens, talvez no conjunto de dados ImageNet, o tamanho do lote influencia a estabilidade e a convergência do processo de treinamento. Um investigador pode começar com um tamanho de lote de 256 e ajustá-lo com base na observação do comportamento da função de perda e da precisão da validação. Poderão ser necessários lotes mais pequenos para modelos com arquitecturas complexas ou quando se utilizam recursos de hardware limitados, como um ambiente Google Colab.