컴퓨터 비전에서 광학 흐름의 힘을 알아보세요. 어떻게 움직임을 추정하고, 비디오 분석을 개선하며, AI의 혁신을 주도하는지 알아보세요.
광학 흐름은 관찰자(카메라 등)와 장면 사이의 상대적인 움직임으로 인해 시각적 장면에서 물체, 표면 및 가장자리의 겉으로 보이는 움직임 패턴을 설명합니다. 이는 비디오 시퀀스의 연속 프레임 사이에서 개별 픽셀 또는 피처의 움직임을 추정하는 데 사용되는 컴퓨터 비전(CV) 의 기본 개념입니다. 이 기술은 장면의 역학에 대한 중요한 정보를 제공하여 기계가 생물학적 시각 시스템이 움직임을 인식하는 방식과 유사하게 움직임을 이해할 수 있게 해줍니다. 이는 비디오 데이터 분석과 관련된 다양한 인공지능(AI) 및 머신러닝(ML) 애플리케이션의 핵심 구성 요소입니다.
광학 흐름 계산의 핵심 아이디어는 물체의 특정 지점에 해당하는 픽셀의 밝기가 이미지 평면을 가로질러 이동할 때 짧은 시간 간격으로 일정하게 유지되거나 예측 가능하게 변화한다는 '밝기 불변성'이라는 가정입니다. 알고리즘은 한 프레임에서 다음 프레임까지 이러한 강도 패턴을 추적하여 각 픽셀 또는 특정 관심 지점에 대한 모션 벡터를 계산합니다.
광 흐름을 계산하는 일반적인 기법은 다음과 같습니다:
광학 흐름과 관련 작업을 구분하는 것이 중요합니다:
광학적 흐름은 비디오에서 움직임을 이해해야 하는 많은 애플리케이션에서 매우 중요합니다:
OpenCV와 같은 라이브러리는 고전적인 광학 흐름 알고리즘의 구현을 제공합니다(OpenCV 광학 흐름 자습서). 딥 러닝 접근 방식의 경우, 다음과 같은 프레임워크 PyTorch 와 TensorFlow 와 같은 프레임워크가 일반적으로 사용되며, 종종 다음과 같은 플랫폼을 통해 제공되는 사전 학습된 모델을 활용합니다. Hugging Face. 이러한 모델을 훈련하려면 FlyingThings3D 또는 Sintel 데이터 세트와 같은 실측 데이터 흐름 정보가 포함된 대규모 비디오 데이터 세트가 필요합니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트와 모델 훈련 워크플로우를 관리하는 데 도움을 줄 수 있지만, 주로 광학 흐름 추정보다는 감지 및 세분화와 같은 작업에 중점을 둡니다.