Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Treinamento Sensível à Quantização (QAT)

Saiba como o Quantization-Aware Training (QAT) otimiza os modelos Ultralytics para implementação em borda. Descubra como manter alta precisão com precisão INT8.

O Treino Consciente da Quantização (QAT) é uma técnica especializada utilizada durante a fase de treino de modelos de aprendizagem automática para prepará-los para ambientes de menor precisão. Em fluxos de trabalho padrão de aprendizagem profunda, os modelos normalmente operam utilizando números de ponto flutuante de 32 bits de alta precisão (FP32). Embora essa precisão ofereça excelente exatidão, ela pode ser computacionalmente cara e consumir muita memória, especialmente em dispositivos de ponta. O QAT simula os efeitos da quantização — reduzindo a precisão para formatos como inteiros de 8 bits (INT8) — enquanto o modelo ainda está em treino. Ao introduzir esses erros de quantização durante o processo de aprendizagem, o modelo aprende a adaptar os seus pesos e recuperar efetivamente a precisão que, de outra forma, poderia ser perdida durante a conversão pós-treino.

Por que o QAT é importante para a implementação de ponta

A implementação de modelos de visão computacional em dispositivos com recursos limitados geralmente requer um equilíbrio entre velocidade e desempenho. Os métodos de quantização padrão, conhecidos como quantização pós-treinamento (PTQ), aplicam a redução de precisão somente após o modelo estar totalmente treinado. Embora a PTQ seja rápida, ela pode, às vezes, prejudicar a precisão de modelos sensíveis, pois os pesos da rede neural são significativamente alterados sem chance de ajuste.

O QAT resolve isso permitindo que o modelo "pratique" a quantização. Durante a passagem direta do treinamento, os pesos e as ativações são simulados como valores de baixa precisão. Isso permite que o processo de descida de gradiente atualize os parâmetros do modelo de forma a minimizar a perda especificamente para o estado quantizado. O resultado é um modelo robusto que mantém alta precisão mesmo quando implantado em hardware como microcontroladores ou processadores móveis.

Diferenciando QAT de Quantização Pós-Treinamento (PTQ)

É útil distinguir QAT da quantização do modelo, especificamente a quantização pós-treinamento (PTQ):

  • Quantização pós-treinamento (PTQ): O modelo é treinado normalmente em FP32. Após a conclusão do treinamento, os pesos são convertidos para INT8. Isso é mais rápido e não requer retreinamento, mas pode resultar em maior perda de precisão para arquiteturas complexas.
  • Treinamento com Consciência de Quantização (QAT): O processo de quantização é emulado durante a fase de ajuste fino. O modelo ajusta os seus parâmetros internos para acomodar o ruído introduzido pela menor precisão, normalmente produzindo melhor precisão do que o PTQ.

Aplicações no Mundo Real

O QAT é essencial para indústrias onde a inferência em tempo real em hardware de ponta é crítica.

  • Drones detect ônomos: Nas operações de drones com IA, a duração da bateria e o poder de processamento a bordo são severamente limitados. Os drones que utilizam modelos otimizados via QAT podem detetar obstáculos ou track com alta precisão enquanto utilizam aceleradores INT8, prolongando significativamente os tempos de voo em comparação com os modelos FP32.
  • Câmaras inteligentes para retalho: os supermercados utilizam visão computacional no retalho para monitorizar o inventário das prateleiras ou gerir as filas das caixas registadoras. Estes sistemas funcionam frequentemente em gateways de baixo consumo energético. A QAT garante que os modelos de deteção de objetos executados nestes dispositivos mantêm a precisão necessária para distinguir entre produtos semelhantes, sem necessidade de uma conectividade à nuvem dispendiosa.

Implementando o QAT com Ultralytics

A Ultralytics e o YOLO suportam a exportação de modelos para formatos quantizados. Embora o QAT seja um procedimento de treino complexo, as estruturas modernas facilitam a preparação de modelos para inferência quantizada.

Abaixo está um exemplo de como pode exportar um modelo YOLO26 treinado para um TFLite quantizado INT8, que utiliza os princípios de quantização para uma implementação eficiente em borda.

from ultralytics import YOLO

# Load a trained YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format with INT8 quantization
# This prepares the model for efficient execution on edge devices
model.export(format="tflite", int8=True)

Integração com ecossistemas de ponta

Os modelos otimizados por meio de técnicas de quantização são projetados para serem executados em motores de inferência especializados. Os modelos treinados com QAT são frequentemente implementados usando ONNX para compatibilidade entre plataformas ou OpenVINO para otimização em Intel . Isso garante que, seja o alvo um Raspberry Pi ou um Edge TPU dedicado, o modelo opere com a maior eficiência e velocidade possíveis.

Conceitos-chave relacionados com o QAT

Para compreender totalmente o QAT, é útil estar familiarizado com vários conceitos relacionados com a aprendizagem automática:

  • Precisão: Refere-se ao nível de detalhe usado para representar números. Meia precisão (FP16) e INT8 são alvos comuns para quantização.
  • Calibração: O processo de determinar o intervalo de valores de ativação dinâmica (mín./máx.) para mapear números de ponto flutuante para inteiros de forma eficaz. Esta é uma etapa crucial na implantação YOLO quantizados.
  • Latência de inferência: Um dos principais benefícios do QAT é a redução da latência de inferência, permitindo uma tomada de decisão mais rápida em sistemas em tempo real.
  • Ajustes finos: O QAT é frequentemente executado como uma etapa de ajustes finos em um modelo pré-treinado, em vez de treinar do zero, economizando recursos computacionais.

Ao integrar o Quantization-Aware Training no pipeline MLOps, os programadores podem preencher a lacuna entre modelos de pesquisa de alta precisão e aplicações de IA de ponta altamente eficientes e prontas para produção.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora