용어집

모델 정량화

모델 정량화를 통해 AI 성능을 최적화하세요. 실제 배포를 위해 크기를 줄이고, 속도를 높이고, 에너지 효율성을 개선하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

모델 양자화는 머신러닝에서 AI 모델을 배포하는 데 드는 계산 및 메모리 비용을 줄이기 위해 사용되는 중요한 최적화 기법입니다. 이는 신경망의 가중치와 활성화를 고정밀 부동 소수점 숫자(예: 32비트 부동 소수점)에서 8비트 정수와 같은 저정밀 형식으로 변환하는 방식으로 작동합니다. 이 프로세스는 모델 크기를 크게 줄이고 추론 속도를 가속화하여 리소스가 제한된 디바이스에 배포하는 데 이상적입니다.

모델 정량화 이해

모델 양자화의 핵심 아이디어는 모델의 숫자 값을 더 적은 비트로 표현하는 것입니다. 대부분의 딥 러닝 모델은 부동 소수점 숫자를 사용해 학습되고 작동하는데, 부동 소수점은 높은 정밀도를 제공하지만 상당한 연산 능력과 메모리를 필요로 합니다. 양자화는 부동 소수점 값의 연속 범위를 더 작은 불연속 정수 값 집합으로 매핑하여 이러한 수요를 줄입니다. 이는 이미지의 색상 팔레트를 줄이는 것에 비유할 수 있는데, 일부 디테일은 손실될 수 있지만 필수 정보는 그대로 유지되고 파일 크기는 훨씬 작아집니다.

모델 정량화에는 여러 가지 기술이 있습니다. 학습 후 정량화는 모델이 완전히 학습된 후에 적용되며, 추가 학습 없이 가중치와 활성화를 더 낮은 정밀도로 변환합니다. 이 방법은 간단한 방법이지만 때때로 정확도가 약간 떨어질 수 있습니다. 반면 양자화 인식 훈련(QAT)은 양자화 프로세스를 훈련 단계 자체에 통합합니다. 이를 통해 모델이 낮은 정밀도 제약 조건을 학습하고 적응할 수 있으므로 훈련 후 양자화에 비해 정확도가 향상되는 경우가 많습니다. 혼합 정밀도 훈련과 같은 기법을 사용하여 훈련 과정에서 정확도와 효율성의 균형을 맞출 수도 있습니다.

모델 정량화의 이점

모델 정량화는 특히 실제 애플리케이션에 AI 모델을 배포할 때 몇 가지 주요 이점을 제공합니다:

  • 모델 크기 감소: 양자화하면 모델 파일의 크기가 크게 줄어듭니다. 예를 들어, 모델을 32비트 부동 소수점에서 8비트 정수로 변환하면 모델 크기가 최대 4배까지 줄어들 수 있습니다. 이는 휴대폰이나 엣지 디바이스처럼 저장 공간이 제한된 디바이스에 모델을 배포할 때 특히 유용합니다.
  • 더 빨라진 추론 속도: 특히 정수 연산에 최적화된 하드웨어에서 저정밀도 연산이 훨씬 빨라집니다. 이는 추론 지연 시간을 줄이고 실시간 성능을 향상시켜 Ultralytics YOLO 모델을 사용하는 실시간 객체 감지와 같은 애플리케이션에 매우 중요합니다.
  • 계산 비용 절감: 낮은 정밀도로 계산을 수행하면 더 적은 연산 능력과 에너지가 필요합니다. 이는 배터리로 구동되는 디바이스에 필수적이며, AI 애플리케이션에 필요한 전체 컴퓨팅 리소스를 줄여줍니다.
  • 에너지 효율성 향상: 연산 요구량이 낮을수록 에너지 소비량이 줄어들어 정량화된 모델의 에너지 효율이 높아집니다. 이는 모바일 및 임베디드 시스템에서 특히 중요합니다.

실제 애플리케이션

모델 정량화는 특히 리소스가 제한적이거나 속도가 중요한 광범위한 애플리케이션에서 AI 모델을 배포하는 데 필수적입니다. 다음은 몇 가지 예시입니다:

  1. 모바일 디바이스: 스마트폰은 이미지 인식이나 자연어 처리와 같은 온디바이스 AI 기능을 위해 양자화된 모델을 활용하는 경우가 많습니다. 양자화를 사용하면 이러한 복잡한 모델을 배터리 수명을 소모하거나 성능 문제를 일으키지 않고도 모바일 GPU 또는 Raspberry Pi와 같은 장치에 있는 Edge TPU와 같은 특수 하드웨어에서 효율적으로 실행할 수 있습니다. 예를 들어, Android 또는 iOS 앱에서 Ultralytics YOLO 모델을 실행하면 실시간 객체 감지를 위한 양자화의 이점을 크게 누릴 수 있습니다.
  2. 엣지 컴퓨팅 및 IoT 디바이스: 스마트 시티나 산업 자동화와 같은 시나리오에서는 실시간 데이터 처리를 위해 수많은 엣지 디바이스에 AI 모델이 배포됩니다. 처리 능력과 메모리가 제한된 경우가 많은 이러한 디바이스에서 효율적인 모델 서비스를 제공하기 위해서는 양자화가 필수적입니다. 보안 경보 시스템에 Ultralytics YOLO 을 사용하는 스마트 카메라를 예로 들면, 정량화는 하드웨어 요구 사항을 최소화하면서 적시에 감지하고 대응할 수 있도록 합니다.

정량화 대 모델 가지치기

모델 양자화와 모델 가지치기는 모두 모델 크기를 줄이고 효율성을 개선하기 위한 모델 최적화 기법이지만, 작동 방식은 다릅니다. 양자화는 수치 표현의 정밀도를 낮추는 반면, 가지치기는 덜 중요한 연결이나 뉴런을 제거하여 모델의 매개변수 수를 줄입니다. 두 가지 기법을 독립적으로 사용하거나 조합하여 최적의 모델 성능과 크기를 달성할 수 있습니다. 다음과 같은 도구 TensorRTOpenVINO 와 같은 도구는 최적화 파이프라인의 일부로 양자화 및 가지치기를 통합하는 경우가 많습니다.

요약하면, 모델 정량화는 정확도의 큰 손실 없이 효율성을 개선하여 더 다양한 디바이스와 애플리케이션에서 AI에 더 쉽게 접근하고 배포할 수 있게 해주는 강력한 기술입니다.

모두 보기