용어집

실시간 추론

실시간 추론( Ultralytics YOLO )을 통해 자율 주행 및 보안 시스템과 같은 AI 애플리케이션에서 어떻게 즉각적인 예측이 가능한지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

실시간 추론은 학습된 머신 러닝 (ML) 모델이 새로운 데이터가 도착하는 즉시 예측 또는 의사 결정을 내리는 프로세스를 말합니다. 시간 경과에 따라 수집된 데이터를 그룹으로 처리하는 배치 추론과 달리 실시간 추론은 짧은 지연 시간과 즉각적인 응답을 우선시합니다. 이 기능은 실시간 데이터 스트림을 기반으로 즉각적인 피드백이나 조치가 필요한 애플리케이션에 필수적이며, 시스템이 변화하는 조건에 동적으로 대응할 수 있게 해줍니다.

실시간 추론의 이해

실제로 실시간 추론은 다음과 같은 ML 모델을 배포하는 것을 의미합니다. Ultralytics YOLO 모델과 같은 ML 모델을 배포하여 비디오 프레임이나 센서 판독값과 같은 개별 데이터 입력을 분석하고 최소한의 지연으로 출력을 생성할 수 있습니다. 주요 성능 지표는 입력 수신부터 예측 생성까지 걸리는 시간인 추론 지연 시간입니다. 짧은 지연 시간을 달성하려면 몇 가지 전략이 필요합니다:

  • 모델 최적화: 모델 양자화 (모델 가중치의 정밀도 감소) 및 모델 가지치기 (덜 중요한 모델 매개변수 제거)와 같은 기술은 더 작고 빠른 모델을 만드는 데 사용됩니다.
  • 하드웨어 가속: 엣지 디바이스에서 GPU, TPU 또는 전용 AI 가속기(예: NVIDIA Jetson, Google Coral Edge TPU)와 같은 특수 하드웨어를 활용하면 계산 속도가 크게 빨라집니다.
  • 효율적인 소프트웨어: 다음과 같은 최적화된 추론 엔진 및 런타임 사용 TensorRT, OpenVINO또는 ONNX 런타임을 사용하면 대상 하드웨어에서 성능을 극대화할 수 있습니다. 다음과 같은 프레임워크 PyTorch 와 같은 프레임워크도 효율적인 추론을 지원하는 기능을 제공합니다.

실시간 추론과 일괄 추론 비교

주요 차이점은 데이터 처리 방식과 관련 지연 시간 요구 사항에 있습니다:

  • 실시간 추론: 단일 데이터 포인트 또는 소규모 미니 배치를 도착하는 대로 처리합니다. 즉각적인 결과를 위해 지연 시간을 최소화하는 데 중점을 둡니다. 실시간 이벤트에 반응하는 대화형 시스템이나 애플리케이션에 이상적입니다.
  • 일괄 추론: 시간이 지남에 따라 축적된 대량의 데이터를 처리합니다. 개별 예측의 대기 시간을 최소화하기보다는 처리량을 극대화(대량의 데이터를 효율적으로 처리)하는 데 중점을 둡니다. 오프라인 분석, 보고 또는 즉각적인 결과가 중요하지 않은 작업에 적합하며, Google Cloud의 일괄 예측 개요에 설명되어 있습니다.

실시간 추론의 응용

실시간 추론은 즉각적인 의사 결정이 중요한 많은 최신 AI 애플리케이션을 지원합니다:

  1. 자율 주행 시스템: 자율 주행 자동차는 물체 감지 (보행자, 차량, 장애물 식별) 및 내비게이션을 위해 실시간 추론에 크게 의존하여 차량이 주변 환경에 즉각적으로 반응할 수 있도록 합니다. Ultralytics 모델은 자율 주행 차량용 AI를 개발하는 데 자주 사용됩니다.
  2. 보안 및 감시: AI 기반 보안 시스템은 실시간 추론을 통해 침입을 감지하고 의심스러운 활동을 식별하거나 실시간 비디오 피드에서 군중을 모니터링하여 즉각적인 경고와 대응을 가능하게 합니다.
  3. 의료 진단: 의료 이미지 분석에서 실시간 추론은 초음파 같은 실시간 영상에서 즉각적인 피드백을 제공하거나 이상 징후를 강조 표시하여 시술 중 의사를 도와 진단 정확도를 향상시킬 수 있습니다.
  4. 산업 자동화: 실시간 추론을 통해 생산 라인의 결함을 즉시 식별하거나 로봇 팔을 정밀한 작업으로 안내하여 제조 공정에서 자동화된 품질 관리가 가능합니다.

Ultralytics HUB와 같은 플랫폼은 모델을 훈련, 최적화 및 배포하는 도구를 제공하여 다양한 배포 옵션에서 실시간 추론 솔루션을 쉽게 구현할 수 있도록 지원합니다.

모두 보기