용어집

모델 서빙

실시간 예측, 확장성 및 애플리케이션과의 원활한 통합을 위해 AI 모델을 배포하는 모델 제공의 필수 요소에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

인공 지능과 머신 러닝의 영역에서는 일단 모델이 학습되면 그 여정이 끝나지 않습니다. 이러한 모델을 실질적으로 유용하게 사용하려면 보이지 않는 새로운 데이터에 대한 예측을 위해 모델에 액세스할 수 있어야 합니다. 이때 모델 서빙이 중요한 역할을 합니다. 모델 서빙은 학습된 머신 러닝 모델을 애플리케이션이나 시스템에서 액세스하여 추론을 수행할 수 있는 프로덕션 환경에 배포하는 프로세스입니다. 기본적으로 모델 개발과 실제 애플리케이션 간의 격차를 해소하여 비즈니스와 사용자가 AI 모델의 강력한 기능을 활용할 수 있도록 합니다.

모델 서빙의 중요성

모델 서빙은 정적이고 학습된 모델을 동적이고 운영 가능한 서비스로 변환하기 때문에 매우 중요합니다. 모델 서빙이 없다면 머신러닝 모델은 개발 환경에만 국한되어 실제 시나리오에서 가치를 제공할 수 없습니다. 효율적인 모델 서빙이 이를 보장합니다:

  • 실시간 예측: 사기 탐지나 자율 주행과 같이 시간에 민감한 작업에 필수적인 즉각적인 예측을 애플리케이션에서 수행할 수 있도록 지원합니다. 실시간 추론은 많은 최신 AI 애플리케이션에서 필수적입니다.
  • 확장성 및 안정성: 프로덕션 환경에서는 다양한 부하를 처리할 수 있는 확장성과 지속적인 운영을 보장하는 안정성이 요구됩니다. 모델 서비스 인프라는 이러한 요구 사항을 충족하도록 설계되어 필요에 따라 리소스를 확장하고 고가용성을 유지합니다.
  • 접근성 및 통합: API를 통해 모델에 액세스하는 표준화된 방법을 제공하므로 웹 서비스부터 모바일 앱까지 다양한 애플리케이션에 AI 기능을 쉽게 통합할 수 있습니다. 이를 통해 컴퓨터 비전이나 자연어 처리(NLP) 를 더 광범위한 시스템에 쉽게 통합할 수 있습니다.
  • 모델 관리 및 버전 관리: 다양한 모델 버전을 손쉽게 관리하여 원활한 업데이트와 롤백이 가능합니다. 이는 모델의 정확성을 유지하고 진화하는 데이터에 적응하는 데 매우 중요합니다. Ultralytics HUB는 효율적인 모델 관리를 위한 도구를 제공합니다.

실제 애플리케이션

모델 서비스는 산업 전반의 다양한 AI 애플리케이션을 지원합니다. 다음은 몇 가지 구체적인 예시입니다:

  • 전자상거래 제품 추천: 이커머스 플랫폼은 실시간으로 개인화된 제품 추천을 제공하기 위해 모델 서비스를 사용합니다. 학습된 추천 시스템 모델은 API를 통해 제공됩니다. 사용자가 웹사이트를 탐색하면 애플리케이션은 사용자 데이터를 모델 제공 엔드포인트로 전송하고, 그러면 예측된 제품 추천을 사용자에게 표시하여 고객 경험을 개선하고 판매를 촉진합니다.
  • 진단을 위한 의료 이미지 분석: 의료 분야에서는 종양 검출에 사용되는 것과 같은 의료 이미지 분석 모델이 방사선과 의사를 지원하기 위해 제공됩니다. 새로운 의료 이미지(예: X-레이 또는 MRI)가 촬영되면 모델 제공 시스템으로 전송됩니다. 이 모델은 추론을 수행하고 잠재적인 이상 징후를 강조하는 등의 진단 인사이트를 제공하여 더 빠르고 정확한 진단을 돕습니다.

모델 서빙의 주요 구성 요소

일반적인 모델 서비스 아키텍처에는 함께 작동하는 몇 가지 주요 구성 요소가 포함됩니다:

  • 학습된 모델: 핵심 구성 요소는 학습된 머신 러닝 모델 자체로, 효율적인 배포를 위해 종종 ONNX 또는 TensorFlow SavedModel 같은 형식으로 저장됩니다. Ultralytics YOLO 모델은 배포 유연성을 위해 다음과 같은 다양한 형식으로 내보낼 수 있습니다. TensorRTOpenVINO.
  • 서비스 인프라: 여기에는 모델이 실행되는 하드웨어 및 소프트웨어 환경이 포함됩니다. Amazon SageMaker 또는 Google Cloud AI Platform과 같은 클라우드 기반 플랫폼 또는 온프레미스 서버가 여기에 해당합니다. 서버리스 컴퓨팅 옵션도 확장성과 비용 효율성으로 인해 인기를 얻고 있습니다.
  • API 서버: API(애플리케이션 프로그래밍 인터페이스) 서버는 애플리케이션과 제공되는 모델 간의 인터페이스 역할을 합니다. 예측 요청을 수신하여 추론을 위해 모델로 전송하고 예측을 반환합니다. 일반적인 API 프레임워크에는 RESTgRPC가 포함됩니다.
  • 로드 밸런서: 로드 밸런서는 높은 트래픽을 처리하고 확장성을 보장하기 위해 들어오는 요청을 서비스 인프라의 여러 인스턴스에 분산하여 과부하를 방지하고 성능을 유지합니다.
  • 모니터링 및 로깅: 강력한 모니터링 및 로깅 시스템은 모델 성능을 추적하고, 문제를 감지하며, 시간이 지남에 따라 서비스 시스템의 안정성을 보장하는 데 필수적입니다. 여기에는 추론 지연 시간, 처리량 및 오류율 모니터링이 포함되며, 이는 모델 모니터링의 일부입니다.

모델 배포 대 모델 서비스

종종 같은 의미로 사용되지만 모델 배포와 모델 서빙은 서로 다른 의미로 사용됩니다. 모델 배포는 모델을 사용할 수 있도록 만드는 보다 광범위한 프로세스로, 단순히 API를 통해 제공하는 것 외에도 다양한 방법을 포함할 수 있습니다. 모델 배포 옵션은 애플리케이션에 직접 모델을 임베드하거나, 엣지 디바이스에 배포하거나, 배치 추론 파이프라인을 설정하는 등 다양합니다.

특히 모델 제공은 일반적으로 API를 통해 실시간 추론을 위한 확장 가능하고 액세스 가능한 전용 서비스를 설정하는 것을 말합니다. 이는 지속적인 온디맨드 예측 기능에 초점을 맞춘 특정 유형의 배포입니다. 지연 시간 요구 사항, 확장성 요구 사항, 통합 복잡성 등 애플리케이션 요구 사항에 따라 배포 방법을 선택할 수 있습니다. 즉각적인 예측과 다양한 시스템으로의 원활한 통합이 필요한 애플리케이션의 경우 모델 서빙이 이상적인 접근 방식입니다.

모두 보기