용어집

실시간 추론

실시간 추론( Ultralytics YOLO )을 통해 자율 주행 및 보안 시스템과 같은 AI 애플리케이션에서 어떻게 즉각적인 예측이 가능한지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

실시간 추론은 학습된 머신 러닝(ML) 모델이 새로운 데이터가 도착하는 즉시 예측 또는 의사 결정을 내리는 프로세스를 말합니다. 시간 경과에 따라 수집된 데이터를 그룹으로 처리하는 배치 추론과 달리 실시간 추론은 짧은 지연 시간과 즉각적인 응답을 우선시합니다. 이 기능은 실시간 데이터 스트림을 기반으로 즉각적인 피드백이나 조치가 필요한 애플리케이션에 필수적이며, 실시간 컴퓨팅의 원칙에 따라 시스템이 변화하는 조건에 동적으로 반응할 수 있게 해줍니다.

실시간 추론의 이해

실제로 실시간 추론은 다음과 같은 ML 모델을 배포하는 것을 의미합니다. Ultralytics YOLO 모델과 같은 ML 모델을 배포하여 비디오 프레임이나 센서 판독값과 같은 개별 데이터 입력을 분석하고 최소한의 지연으로 출력을 생성할 수 있습니다. 주요 성능 지표는 입력을 받은 후 예측을 생성하기까지 걸리는 시간인 추론 지연 시간입니다. 짧은 지연 시간을 달성하려면 모델 자체를 최적화하고 특수 하드웨어 및 소프트웨어를 활용하는 등 여러 가지 전략이 필요합니다.

실시간 추론과 일괄 추론 비교

주요 차이점은 데이터 처리 방식과 관련 지연 시간 요구 사항에 있습니다:

  • 실시간 추론: 각 예측에 대한 지연을 최소화하는 데 중점을 두고 데이터가 도착하는 대로 포인트별로 데이터를 처리합니다. 즉각적인 응답이 필요한 대화형 시스템이나 애플리케이션에 필수적입니다. 자율 주행 차량의 장애물 감지를 생각해 보세요.
  • 일괄 추론: 대량의 데이터 청크 또는 일괄 처리, 종종 주기적으로 예약. 지연 시간보다는 처리량(대량의 데이터를 효율적으로 처리)에 최적화되어 있습니다. 일일 보고서 생성이나 대규모 데이터 세트의 오프라인 분석과 같은 작업에 적합합니다. Google Cloud는 배치 예측에 대한 인사이트를 제공합니다.

실시간 추론의 응용

실시간 추론은 즉각적인 의사 결정이 중요한 많은 최신 인공 지능(AI) 애플리케이션을 지원합니다:

  • 자율 시스템: 자율 주행 자동차로봇 공학용 AI에서 실시간 추론은 환경을 탐색하고, 장애물을 감지(물체 감지)하며, 순식간에 주행 결정을 내리는 데 매우 중요합니다.
  • 보안 및 감시: 보안 시스템은 실시간 추론을 통해 침입을 감지하고, 의심스러운 활동을 식별하거나, 군중을 즉시 모니터링합니다.
  • 헬스케어: 시술이나 진단 중에 즉각적인 의료 이미지 분석을 활성화하면 환자 치료 결과와 진단 정확도를 크게 향상시킬 수 있습니다.
  • 제조: 제조 분야의 실시간 품질 관리를 통해 생산 라인의 결함을 즉시 감지하여 낭비를 줄이고 효율성을 개선할 수 있습니다.
  • 대화형 애플리케이션: 가상 비서, 실시간 언어 번역, 콘텐츠 추천 시스템은 지연 시간이 짧은 추론에 의존하여 원활한 사용자 경험을 제공합니다.

실시간 성능 달성

실시간 애플리케이션을 위해 모델을 충분히 빠르게 실행하려면 상당한 최적화가 필요한 경우가 많습니다:

  • 모델 최적화: 모델 양자화 (모델 가중치의 정밀도 감소) 및 모델 가지치기 (모델에서 중복되는 부분 제거)와 같은 기술은 계산 부하와 메모리 사용량을 줄여줍니다.
  • 하드웨어 가속: 엣지 디바이스에서 GPU, TPU(Tensor 프로세싱 유닛) 또는 전용 AI 가속기(예: NVIDIA Jetson, Google Coral Edge TPU)와 같은 특수 하드웨어를 활용하면 계산 속도를 획기적으로 높일 수 있습니다. 엣지 컴퓨팅 자체는 지연을 최소화하면서 로컬에서 데이터를 처리하는 데 매우 중요합니다.
  • 효율적인 추론 엔진: 다음과 같은 소프트웨어 라이브러리 및 런타임 TensorRT, OpenVINO, ONNX 런타임과 같은 소프트웨어 라이브러리 및 런타임, 다음과 같은 프레임워크 PyTorch 또는 TensorFlow 과 같은 프레임워크는 학습된 모델에 최적화된 실행 경로를 제공합니다. 추론 엔진은 예측을 위해 모델을 효율적으로 실행하도록 특별히 설계되었습니다.

다음과 같은 모델 Ultralytics YOLO11 와 같은 모델은 효율성과 정확성을 염두에 두고 설계되어 실시간 객체 감지 작업에 적합합니다. Ultralytics HUB와 같은 플랫폼은 훈련, 최적화(예: 내보내기 ONNX 또는 TensorRT 형식으로 내보내기) 및 모델을 배포할 수 있는 도구를 제공하여 다양한 배포 옵션에서 실시간 추론 솔루션을 쉽게 구현할 수 있습니다.

모두 보기