실시간 추론이란 머신러닝 모델이 데이터를 처리하고 거의 즉각적으로 예측을 내리는 기능을 말합니다. 이는 자율 주행 차량, 의료 모니터링, 실시간 비디오 분석 등 즉각적인 의사 결정이 필요한 애플리케이션에 매우 중요합니다. 시간을 두고 데이터를 수집하여 일괄 처리하는 배치 처리와 달리, 실시간 추론은 각 데이터 포인트가 도착하는 즉시 처리하여 즉각적인 결과를 제공합니다.
실시간 추론은 AI 시스템이 현실 세계와 적시에 상호 작용할 수 있도록 하는 데 중추적인 역할을 합니다. 예를 들어, 자율 주행 자동차는 센서의 실시간 데이터에 의존하여 순식간에 내비게이션 결정을 내립니다. 마찬가지로 의료 분야의 AI에서는 환자의 바이탈을 지속적으로 모니터링하여 이상이 감지되면 즉시 경고를 트리거할 수 있습니다.
실시간 기능은 AI 기반 시스템이 사용자 행동에 따라 조명, 온도, 보안 설정을 동적으로 조정하는 AI 지원 스마트 홈 솔루션과 같은 애플리케이션에서 사용자 경험을 향상시킵니다.
실시간 추론에는 일반적으로 계산 수요를 처리할 수 있는 GPU 또는 TPU와 같은 강력한 하드웨어에 학습된 모델을 배포하는 작업이 포함됩니다. 다음과 같은 모델은 Ultralytics YOLO 과 같은 모델은 속도에 최적화되어 있어 다양한 플랫폼에서 실시간으로 객체 감지를 수행할 수 있습니다.
데이터 소스 가까이에서 계산이 수행되는 엣지 컴퓨팅과 통합하면 지연 시간을 줄여 실시간 추론의 효율성을 더욱 높일 수 있습니다. 원활한 머신 러닝을 위한Ultralytics HUB를 통해 엣지 디바이스에 모델을 배포하는 방법에 대해 자세히 알아보세요.
실시간 추론의 가장 까다로운 응용 분야 중 하나는 자율 주행 분야입니다. 자율주행차의 AI는 자율주행차가 센서와 AI 모델을 사용하여 환경을 모니터링하고, 장애물을 감지하고, 즉각적으로 주행 결정을 내리는 방법을 보여줍니다.
소매업에서는 실시간 추론을 통해 AI 기반 재고 시스템의 효율성을 향상시켜 재고 관리를 최적화할 수 있습니다. 시각적 AI 시스템은 기업이 정확한 재고 수준을 유지하고 낭비를 줄이며 고객 수요를 효율적으로 충족할 수 있도록 도와줍니다.
실시간 추론은 즉각적인 데이터 처리에 중점을 두는 반면, 컴퓨팅의 일괄 처리와 같은 개념은 예약된 시간에 데이터를 그룹으로 수집하고 처리합니다. 반면 실시간 시스템은 항상 활성 상태로 데이터를 지속적으로 처리합니다.
모델 배포의 이해에는 실시간 작동을 위한 환경 설정, 실시간 추론과의 구분 등 ML 모델을 사용할 수 있도록 준비하는 과정이 포함됩니다.
하드웨어 기능과 모델 최적화 기법(예: 가지치기 및 정량화를 통한 모델 최적화)의 지속적인 개선은 실시간 추론 속도를 높이는 데 기여하고 있습니다. 특히 모델 크기, 전력 소비, 지연 없이 정확성을 보장하는 것과 관련된 과제는 여전히 남아 있습니다. Ultralytics YOLOv8 과 OpenVINO 에서 더 빠른 추론 속도를 달성하는 방법을 살펴보세요.
실시간 추론은 동적인 환경에서 AI의 잠재력을 최대한 활용하기 위해 필수적입니다. 기술이 발전함에 따라 그 적용 범위가 확대되어 산업 전반에 걸쳐 혁신적인 솔루션을 제공할 것입니다. 이러한 기술을 살펴보고 싶다면 실시간 처리를 간소화하는 플랫폼인 모델 배포용 허브( Ultralytics )에서 실험해 볼 수 있습니다.