리소스가 제한된 환경에서 높은 정확도와 효율성을 보장하는 양자화 인식 학습(QAT)을 통해 엣지 디바이스에 맞게 AI 모델을 최적화하세요.
양자화 인식 훈련(QAT)은 수치 정밀도가 낮은 신경망(NN) 을 배포할 수 있도록 준비하는 고급 모델 최적화 기법입니다. 32비트 부동 소수점 숫자(FP32)를 사용하는 표준 훈련과 달리 QAT는 훈련 또는 미세 조정 프로세스 중에 8비트 정수(INT8) 계산의 효과를 시뮬레이션합니다. QAT는 추론 중에 발생할 양자화 오류를 모델이 '인식'하게 함으로써 모델이 가중치를 조정하여 잠재적인 정확도 손실을 최소화할 수 있도록 합니다. 그 결과 고성능을 유지하는 작고 효율적인 모델이 탄생하여 리소스가 제한된 하드웨어에 배포하기에 이상적입니다.
QAT 프로세스는 일반적으로 사전 학습된 FP32 모델로 시작합니다. "가짜" 양자화 노드가 모델의 아키텍처에 삽입되어 부동 소수점 값을 저정밀 정수로 변환하는 효과를 모방합니다. 그런 다음 모델은 학습 데이터 세트에 대해 재학습됩니다. 이 재학습 단계에서 모델은 표준 역전파를 통해 양자화와 관련된 정보 손실에 적응하는 방법을 학습합니다. 이를 통해 모델은 정확도 감소에 덜 민감한 보다 강력한 가중치 세트를 찾을 수 있습니다. PyTorch 및 TensorFlow와 같은 선도적인 딥 러닝 프레임워크는 QAT 워크플로를 구현하기 위한 강력한 도구와 API를 제공합니다.
QAT는 또 다른 일반적인 모델 정량화 방법인 훈련 후 정량화(PTQ)와 자주 비교됩니다. 주요 차이점은 양자화가 적용되는 시점에 있습니다.
정량화 인식 훈련은 효율성이 중요한 리소스 제약 환경에서 정교한 AI 모델을 배포하는 데 필수적입니다.
QAT는 모델 배포 최적화를 위한 여러 기술 중 하나이며, 효율성을 극대화하기 위해 다른 기술과 함께 사용되는 경우가 많습니다.
Ultralytics는 QAT 워크플로우와 호환되는 ONNX, TensorRT, TFLite와 같은 다양한 형식으로 모델을 내보낼 수 있도록 지원하므로 인텔 및 NVIDIA와 같은 회사의 다양한 하드웨어에 효율적으로 배포할 수 있습니다. Ultralytics HUB와 같은 플랫폼을 사용하여 QAT에 최적화된 모델을 관리하고 배포할 수 있습니다. 정확도 요구 사항을 충족하려면 QAT 후 관련 메트릭을 사용하여 모델 성능을 평가하는 것이 필수적입니다.