용어집

관찰 가능성

통합 가시성이 어떻게 AI/ML 시스템을 향상시키는지 알아보세요 Ultralytics YOLO . 실제 애플리케이션에서 인사이트를 얻고, 성능을 최적화하고, 안정성을 보장하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

관찰 가능성은 복잡한 시스템의 동작과 성능에 대한 중요한 인사이트를 제공하며, 특히 인공 지능(AI)머신 러닝(ML)의 역동적인 분야에서 매우 중요합니다. 다음과 같은 정교한 모델로 작업하는 사용자에게 적합합니다. Ultralytics YOLO와 같은 정교한 모델을 사용하는 사용자에게는 외부 출력을 통해 배포된 애플리케이션의 내부 상태를 이해하는 것이 실제 애플리케이션에서 안정성을 유지하고 성능을 최적화하며 신뢰성을 보장하는 데 핵심입니다. 이는 모델 개발과 운영 성공 사이의 격차를 해소하는 데 도움이 됩니다.

관찰 가능성이란 무엇인가요?

통합 가시성이란 로그, 메트릭, 추적 등의 출력을 검토하여 시스템의 내부 상태를 측정하고 이해하는 기능입니다. 일반적으로 사전 정의된 대시보드와 알려진 장애 모드(예, CPU 사용량, 오류율 등)에 초점을 맞춘 기존의 모니터링과 달리, 통합 가시성을 통해 팀은 시스템 동작을 사전에 탐색하고 개발 중에 예상하지 못한 새로운 문제까지 진단할 수 있습니다. 머신 러닝 운영(MLOps)의 맥락에서는 시스템이 특정 방식으로 작동하는 이유에 대해 더 심층적인 질문을 할 수 있으며, 이는 ML 모델 개발배포의 반복적인 특성에 매우 중요합니다. 이는 딥 러닝 모델을 포함한 복잡한 시스템에 대한 가시성을 확보하는 것입니다.

AI/ML에서 통합 가시성이 중요한 이유는 무엇인가요?

딥 러닝 모델의 복잡성과 종종 '블랙박스' 같은 특성으로 인해 관찰 기능은 필수 불가결한 요소입니다. 주요 이유는 다음과 같습니다:

  • 성능 최적화: 추론 파이프라인 또는 분산 훈련 중 병목 현상을 파악하여 리소스 사용량 최적화(GPU), 추론 대기 시간과 같은 메트릭을 개선합니다.
  • 신뢰성 및 디버깅: 데이터 드리프트, 시간 경과에 따른 모델 성능 저하, 입력 데이터의 에지 케이스로 인한 예기치 않은 동작 등의 문제를 빠르게 감지하고 진단할 수 있습니다. 이를 통해 모델의 정확성과 견고성을 유지할 수 있습니다.
  • 신뢰와 설명 가능성: 모델 예측 및 행동에 대한 인사이트를 제공하고, 특히 자율 주행 차량이나 의료와 같은 중요한 애플리케이션에서 설명 가능한 AI(XAI) 를 위한 노력을 지원하며, 사용자 신뢰를 구축합니다.
  • 규정 준수 및 거버넌스: 결정 사항을 기록하고 알고리즘 편향성을 모니터링하여 모델이 정의된 윤리적 경계(AI 윤리) 내에서 작동하고 규제 요건을 충족하도록 보장합니다. AI의 투명성은 핵심적인 이점입니다.

관찰 가능성 대 모니터링

통합 가시성과 모니터링은 서로 연관되어 있지만 범위와 목적이 다릅니다. 모니터링은 사전 정의된 메트릭에 대한 데이터를 수집하고 분석하여 알려진 벤치마크(예: 배포된 개체 탐지 모델의 mAP 점수 추적)와 비교하여 시스템 상태를 추적하는 것을 포함합니다. "시스템이 가동 중인가?" 또는 "오류율이 X 이하인가?"와 같은 질문에 답합니다. 모델 모니터링은 프로덕션 환경의 ML 모델에 초점을 맞춘 특정 유형의 모니터링입니다.

그러나 통합 가시성은 데이터 출력(로그, 메트릭, 추적 - 흔히"통합 가시성의 세 가지 기둥"이라고 함)을 사용하여 보다 심층적이고 탐색적인 분석을 가능하게 합니다. 이를 통해 시스템 상태, 특히 예상치 못한 상태의 '이유'를 이해할 수 있습니다. 모니터링을 알려진 문제를 보고하는 대시보드를 보는 것으로 생각하면, 통합 가시성은 로그 쿼리 또는 요청 추적과 같은 도구를 통해 알려진 이상 징후를 조사할 수 있는 도구를 제공합니다(예: 로그 쿼리 또는 요청 추적). 복잡한 시스템을 쉽게 디버깅할 수 있습니다.

핵심 구성 요소(세 가지 기둥)

관찰 가능성은 세 가지 주요 유형의 원격 분석 데이터에 의존합니다:

  1. 로그: 로그: 시스템 내에서 발생하는 개별 이벤트에 대한 타임스탬프가 찍힌 기록입니다. 로그는 특정 인시던트를 디버깅하거나 작업 순서를 이해하는 데 유용한 상세한 상황별 정보를 제공합니다. 예를 들면 오류 메시지, 애플리케이션 이벤트 또는 요청 세부 정보 등이 있습니다.
  2. 메트릭: 메트릭: 일정 기간 동안 측정된 시스템 성능 또는 동작을 수치로 표현한 것입니다. 메트릭은 추세를 추적하고, 경고를 설정하고, 전반적인 시스템 상태(예: 요청 지연 시간, 오류율, 리소스 사용률)를 파악하는 데 집계가 가능하고 효율적입니다.
  3. 추적: 추적: 분산 시스템의 다양한 구성 요소를 통해 전파되는 요청 또는 작업의 여정을 보여주는 기록입니다. 추적은 흐름을 시각화하고, 성능 병목 현상을 파악하고, 서비스 간의 종속성을 이해하는 데 도움이 되며, 이는 마이크로서비스 아키텍처나 복잡한 ML 파이프라인에 매우 중요합니다.

실제 애플리케이션

통합 가시성 관행은 정교한 AI/ML 배포에서 매우 중요합니다:

  • 자율 주행 시스템: 차량용 AI 솔루션에서는 통합 가시성이 매우 중요합니다. 센서(LiDAR, 카메라 등)의 로그, 인식 모델 추론 속도에 대한 메트릭, 인식에서 제어에 이르는 의사 결정 과정을 추적하는 흔적은 지속적으로 분석됩니다. 이를 통해 Waymo와 같은 회사의 엔지니어는 드물게 발생하는 오류(예: 특정 기상 조건에서 물체를 잘못 식별하는 경우)를 진단하고 시스템의 안전과 신뢰성을 보장할 수 있습니다.
  • 의료 이미지 분석: 의료 이미지 분석에 AI를 배포할 때 통합 가시성은 진단 품질을 보장하는 데 도움이 됩니다. 메트릭은 모델의 신뢰도 점수와 영상의학과 전문의와의 일치율을 추적합니다. 로그는 검토를 위해 플래그가 지정된 에지 케이스 또는 이미지를 기록합니다. 추적은 이미지 수집부터 전처리, 추론, 보고에 이르기까지 이미지를 추적하여 오류나 지연의 원인을 파악하고 의료 규정을 준수하는 데 도움을 줍니다(방사선학 AI 연구).

도구 및 플랫폼

통합 가시성을 구현하려면 종종 전문화된 도구와 플랫폼이 필요합니다. Prometheus (메트릭), Grafana (시각화), Loki (로그), Jaeger 또는 Zipkin (추적)과 같은 오픈 소스 솔루션이 널리 사용됩니다. OpenTelemetry는 공급업체 중립적인 계측 표준을 제공합니다. Datadog, New Relic, Dynatrace와 같은 상용 플랫폼은 통합 솔루션을 제공합니다. MLflow와 같은 MLOps 플랫폼, Weights & BiasesClearML 과 같은 MLOps 플랫폼에는 실험을 추적하고 모델을 모니터링하는 기능이 포함되어 있어 전반적인 시스템 통합 가시성에 기여하는 경우가 많습니다. Ultralytics HUB는 훈련 실행, 데이터 세트 및 배포된 모델을 쉽게 관리할 수 있게 해주며, 모델 훈련 단계에서 통합 가시성의 핵심 요소인 메트릭을 시각화하기 위해 TensorBoard와 같은 도구와 통합됩니다.

모두 보기