용어집

모델 서빙

실시간 예측, 확장성 및 애플리케이션과의 원활한 통합을 위해 AI 모델을 배포하는 모델 제공의 필수 요소에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

머신러닝(ML) 모델을 학습하고 검증한 다음 중요한 단계는 새로운 데이터에 대한 예측을 생성하는 데 사용할 수 있도록 하는 것입니다. 이 프로세스를 모델 서비스라고 합니다. 여기에는 일반적으로 API 엔드포인트 뒤에 있는 프로덕션 환경에 학습된 모델을 배포하여 애플리케이션이나 다른 시스템이 실시간으로 예측을 요청할 수 있도록 하는 작업이 포함됩니다. 모델 서빙은 개발된 모델과 실제 애플리케이션 사이의 다리 역할을 하며, 정적 파일에서 더 넓은 머신 러닝 수명 주기 내에서 가치를 창출하는 활성 서비스로 변환합니다.

모델 서빙의 중요성

모델 서빙은 ML 모델을 운영하기 위한 기본 요소입니다. 이 기능이 없으면 아무리 정확한 모델이라도 최첨단 Ultralytics YOLO 객체 감지기처럼 아무리 정확한 모델이라도 개발 환경에서 고립된 채로 실제 프로세스에 영향을 미칠 수 없습니다. 효과적인 모델 제공을 보장합니다:

  • 접근성: REST API 또는 gRPC와 같은 표준 인터페이스를 통해 다양한 애플리케이션에서 모델 예측을 사용할 수 있습니다.
  • 확장성: 다양한 예측 요청을 처리하여 수요 변화에 따라 일관된 성능을 보장합니다. Amazon SageMakerGoogle Cloud AI Platform과 같은 클라우드 플랫폼은 관리형 확장 솔루션을 제공합니다.
  • 신뢰성: 중요한 애플리케이션에 안정적이고 지속적으로 사용할 수 있는 서비스를 제공합니다.
  • 성능: 짧은 추론 대기 시간을 위해 최적화되어 컴퓨터 비전자연어 처리(NLP)와 같은 분야에서 실시간 추론 사용 사례를 지원합니다.

실제 애플리케이션

모델 서빙은 우리가 매일 사용하는 수많은 AI 기반 기능을 가능하게 합니다. 다음은 두 가지 예입니다:

  1. 전자상거래 제품 추천: 온라인 상점을 탐색할 때 백엔드에서 제공하는 모델이 추천 시스템을 구동합니다. 검색 기록이나 사용자 프로필을 입력으로 받아 실시간으로 맞춤화된 제품 제안을 반환합니다.
  2. 의료 진단 지원: 의료 분야에서는 의료 이미지 분석을 위해 훈련된 모델을 API를 통해 제공할 수 있습니다. 의사는 엑스레이나 MRI와 같은 환자 스캔을 서비스에 업로드하면, 잠재적인 이상 징후나 진단 인사이트를 반환하여 임상적 의사결정을 지원할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 이러한 전문화된 모델의 배포를 용이하게 합니다.

모델 서빙의 주요 구성 요소

강력한 모델 서빙 시스템을 구현하려면 몇 가지 구성 요소가 필요합니다:

  • 모델 형식: 학습된 모델은 다음과 같이 배포에 적합한 형식으로 저장해야 합니다. ONNX, TensorFlow SavedModel 또는 최적화된 형식인 TensorRT.
  • 서빙 프레임워크: TensorFlow Serving, TorchServe 또는 NVIDIA Triton 추론 서버와 같은 소프트웨어가 모델 수명 주기를 관리하고, 요청을 처리하고, 추론을 수행합니다.
  • API 엔드포인트: 인터페이스(주로 API 게이트웨이에서 관리)는 모델의 예측 기능을 클라이언트 애플리케이션에 노출합니다.
  • 인프라: 기본 하드웨어 및 소프트웨어 환경으로, 온프레미스 서버, 클라우드 컴퓨팅 인스턴스 또는 특수한 에지 컴퓨팅 디바이스 등이 포함될 수 있습니다.
  • 모니터링: 모델 모니터링을 위한 도구와 프로세스는 성능, 지연 시간, 오류 및 잠재적인 데이터 드리프트를 추적하여 시간이 지나도 제공되는 모델이 효과적으로 유지되도록 합니다.

모델 배포 대 모델 제공

모델 배포와 모델 서비스라는 용어는 종종 서로 연관되어 있지만 동일하지는 않습니다. 모델 배포는 학습된 모델을 사용할 수 있도록 하는 보다 광범위한 개념입니다. 여기에는 애플리케이션에 직접 모델을 임베드하거나, 오프라인 추론을 위해 엣지 디바이스에 배포하거나, 예측을 주기적으로 실행하는 일괄 처리 파이프라인을 설정하는 등 다양한 전략이 포함될 수 있습니다. 필요에 따라 다양한 모델 배포 옵션을 살펴볼 수 있습니다.

모델 서비스란 구체적으로 모델을 네트워크 서비스로 배포하는 것을 말하며, 일반적으로 API를 통해 액세스할 수 있고, 온디맨드, 종종 실시간 예측 요청을 처리하도록 설계되었습니다. 이는 확장성과 짧은 지연 시간을 고려하여 지속적인 추론 기능을 제공하는 데 중점을 둔 특정 유형의 모델 배포입니다. 즉각적인 예측이 필요한 많은 대화형 애플리케이션의 경우, 모델 서빙이 선호되는 배포 방법입니다.

모두 보기