녹색 확인
링크가 클립보드에 복사됨

스트리밍에서 비전 AI의 비하인드 스토리 살펴보기

컴퓨터 비전이 개인화된 추천과 실시간 콘텐츠 분석으로 스트리밍 플랫폼을 개선하여 더 나은 사용자 경험을 제공하는 방법을 알아보세요.

스트리밍 플랫폼이 어떻게 좋아하는 프로그램을 이렇게 쉽게 시청할 수 있는지 궁금한 적이 있나요? 얼마 전까지만 해도 엔터테인먼트는 매우 달랐습니다. TV 방송 시간표는 고정되어 있었고 시청자들은 일반적으로 방송 중인 프로그램을 시청했습니다. 스트리밍 서비스는 이러한 패러다임을 바꾸어 놓았습니다. 조사에 따르면 2023년 전 세계 동영상 스트리밍 시장 규모는 1,068억 3,000만 달러였으며, 2034년에는 8,658억 5,000만 달러에 달할 것으로 예상됩니다.

이러한 진화에는 인공지능(AI) 이 중추적인 역할을 하고 있습니다. 특히 이 분야에서 컴퓨터 비전 혁신이 증가하고 있습니다. 비전 AI를 통해 스트리밍 플랫폼은 프레임을 분석하고 패턴을 인식하여 동영상 콘텐츠를 이해하고 해석할 수 있습니다. 

컴퓨터 비전은 시각적 데이터를 처리함으로써 플랫폼이 더 스마트한 추천을 생성하고, 콘텐츠 구성을 개선하고, 인터랙티브 기능을 강화하는 데 도움을 줍니다. 이 문서에서는 컴퓨터 비전이 스트리밍 플랫폼에서 콘텐츠 전달을 개선하고, 사용자 참여를 개선하며, 콘텐츠 검색을 간소화하는 데 어떻게 도움이 되는지 살펴봅니다. 지금 바로 시작하세요!

그림 1. 글로벌 비디오 스트리밍 시장.

컴퓨터 비전 및 스트리밍 플랫폼 살펴보기

스트리밍 플랫폼의 경우, 컴퓨터 비전은 동영상을 개별 프레임으로 분류하고 다음과 같은 모델을 사용하여 분석하는 데 도움을 줄 수 있습니다. Ultralytics YOLO11YOLO11 같은 모델은 라벨링된 예제의 대규모 데이터 세트에 대해 맞춤 학습할 수 있습니다. 레이블이 지정된 예시란 이미지 또는 비디오 프레임에 포함된 개체, 동작 또는 장면 유형과 같은 세부 정보가 태그된 이미지 또는 비디오 프레임을 말합니다. 이를 통해 모델은 유사한 패턴을 인식하는 방법을 학습할 수 있습니다. 이러한 모델은 실시간으로 객체를 감지하고, 장면을 분류하고, 패턴을 식별하여 콘텐츠에 대한 귀중한 인사이트를 제공할 수 있습니다.

컴퓨터 비전이 스트리밍 플랫폼에서 사용자 경험을 최적화하고 콘텐츠 접근성을 높이기 위해 어떻게 적용되는지 몇 가지 예를 통해 더 잘 이해할 수 있습니다.

개인화된 추천을 위한 장면 인식

장면 인식은 시각적 콘텐츠와 테마에 따라 이미지 또는 비디오 프레임을 분류하는 컴퓨터 비전 기술입니다. 개별 객체보다는 장면의 전체적인 설정이나 분위기를 식별하는 데 중점을 두는 특수한 형태의 이미지 분류라고 생각할 수 있습니다. 

예를 들어 장면 인식 시스템은 색상, 질감, 조명, 물체 등의 특징을 분석하여 장면을 '여분의 침실', '숲길', '바위가 많은 해안' 등의 카테고리로 그룹화할 수 있습니다. 장면 인식을 통해 스트리밍 플랫폼은 콘텐츠에 효과적으로 태그를 지정하고 정리할 수 있습니다.

그림 2. AI를 사용하여 장면 분류하기.

이는 개인 맞춤형 추천에서 핵심적인 역할을 합니다. 사용자가 '햇살 가득한 해안'과 같은 고요한 야외 배경이나 '세련된 주방'과 같은 트렌디한 인테리어가 등장하는 콘텐츠를 자주 시청하는 경우, 플랫폼은 비슷한 비주얼의 프로그램이나 영화를 추천할 수 있습니다. 장면 인식은 콘텐츠 검색을 간소화하고 사용자의 시청 환경 설정에 맞는 추천을 제공합니다.

이미지 및 썸네일 생성

이미지 및 미리보기 이미지 생성은 시청자의 관심을 끌고 주요 순간을 강조하기 위해 동영상의 시각적 미리보기를 만드는 프로세스입니다. AI와 컴퓨터 비전은 이 프로세스를 자동화하여 관련성이 높고 눈길을 사로잡는 미리보기 이미지를 만들 수 있습니다.

프로세스는 다음과 같이 진행됩니다:

  • 프레임 분석: 컴퓨터 비전 시스템은 수천 개의 비디오 프레임을 스캔하여 눈에 띄는 순간을 식별하는 것으로 시작할 수 있습니다. 여기에는 감정 표현, 주요 행동 또는 동영상 콘텐츠를 가장 잘 나타내는 시각적으로 눈에 띄는 장면이 포함될 수 있습니다.
  • 모션 분석: 잠재적인 프레임이 선택되면 Vision AI를 사용하여 선명하고 흐릿함이 없는지 확인하여 썸네일의 전반적인 시각적 품질을 향상시킬 수 있습니다.
  • 물체 감지 및 장면 분석: 다음과 같은 모델을 사용하여 YOLO11 (객체 감지 및 인스턴스 분할과 같은 컴퓨터 비전 작업을 지원하는) 모델을 사용하여 시스템은 프레임에서 객체, 캐릭터 또는 설정과 같은 중요한 요소를 감지할 수 있습니다. 이 단계에서는 썸네일이 동영상의 본질을 정확하게 반영하는지 재확인합니다.
  • 이미지 다듬기: 선택한 프레임은 카메라 각도, 조명, 구도 등의 요소를 고려하여 다듬어집니다. 
  • 개인화: 마지막으로, 머신러닝 알고리즘을 사용하여 사용자 선호도와 시청 기록을 기반으로 썸네일을 개인화할 수 있습니다. 이렇게 하면 개인의 취향에 맞게 비주얼을 맞춤화하여 관심을 끌고 참여를 유도할 가능성이 높아집니다.

유사한 실제 적용 사례의 좋은 예로 컴퓨터 비전을 사용하여 썸네일을 자동으로 생성하는 Netflix가 있습니다. 넷플릭스는 프레임을 분석하여 감정, 맥락, 영화적 디테일을 감지함으로써 시청자 개개인의 선호도에 맞는 썸네일을 생성합니다. 예를 들어 로맨틱 코미디를 즐기는 사용자에게는 경쾌한 순간을 강조하는 썸네일이 표시되고, 액션을 좋아하는 사용자에게는 강렬하고 에너지 넘치는 장면이 표시될 수 있습니다.

그림 3. TV 프로그램 미리보기 이미지는 시청자 선호도에 맞게 맞춤 설정할 수 있습니다.

자동화된 콘텐츠 미리보기 

스트리밍 플랫폼을 스크롤할 때 시선을 사로잡는 짧은 미리보기는 무작위로 표시되는 것이 아닙니다. 컴퓨터 비전과 같은 기술을 사용하여 시선을 사로잡고 동영상에서 가장 매력적인 순간을 강조하기 위해 신중하게 제작됩니다. 최고의 순간이 선택되면 매끄럽고 매력적인 미리보기로 이어집니다. 

이러한 순간을 선택하는 과정에는 몇 가지 주요 단계가 포함됩니다:

  • 장면 분할: 조명, 카메라 각도 또는 시각적 효과의 변화와 같은 자연스러운 전환을 기반으로 동영상을 더 작은 섹션으로 나눕니다.
  • 모션 감지: 역동적이고 액션이 가득한 순간을 식별하여 미리보기가 시선을 사로잡을 수 있도록 합니다.
  • 주목도 모델: 색상, 밝기, 대비와 같은 시각적 특징을 분석하여 장면에서 가장 눈길을 끄는 부분을 정확히 찾아냅니다.
  • 얼굴 표정 분석: 감정 표현이 강한 순간을 선별하여 시청자와 더 깊은 관계를 형성합니다.

콘텐츠 분류 및 태그 지정

장르, 분위기 또는 특정 테마별로 동영상을 탐색하려면 정확한 콘텐츠 분류와 태그 지정이 필요합니다. 인기 있는 스트리밍 플랫폼은 컴퓨터 비전을 사용하여 사물, 동작, 설정 또는 감정에 대해 동영상을 분석한 다음 관련 태그를 할당함으로써 이 프로세스를 자동화합니다. 이를 통해 대규모 미디어 라이브러리를 구성하고 시청자 선호도에 맞게 콘텐츠를 매칭하여 개인화된 추천을 더욱 정확하게 제공할 수 있습니다.

장면 분할, 객체 감지, 활동 인식과 같은 비전 AI 기술을 사용하여 콘텐츠에 효과적으로 태그를 지정할 수 있습니다. 사물, 감정 톤, 행동과 같은 핵심 요소를 식별하여 각 타이틀에 대한 자세한 메타데이터를 생성합니다. 그런 다음 머신 러닝을 통해 메타데이터를 분석하여 사용자가 원하는 것을 더 쉽게 찾을 수 있는 카테고리를 만들고 전반적인 검색 환경을 개선할 수 있습니다.

그림 4. 개인화된 스트리밍 추천을 위한 자동화된 콘텐츠 분류의 예입니다.

AI 기반 스트리밍 플랫폼의 장점과 과제

컴퓨터 비전은 사용자 경험을 향상시키는 혁신적인 기능으로 스트리밍 플랫폼을 개선하고 있습니다. 고려해야 할 몇 가지 고유한 이점은 다음과 같습니다:

  • 적응형 스트리밍 품질: 컴퓨터 비전은 비디오 장면을 분석하여 더 높은 화질이 필요한 움직임이 많거나 디테일한 순간을 찾아냅니다. 그런 다음 이러한 인사이트를 사용하여 사용자의 디바이스와 인터넷 속도에 맞게 스트리밍 품질을 조정할 수 있습니다.
  • 실시간 행동 모니터링: AI를 사용하여 실시간 스트리밍을 모니터링하여 불법 복제를 실시간으로 감지할 수 있습니다. 또한 오버레이(예: 로고 또는 광고)를 추가하거나 다른 플랫폼으로 스트림을 재방송하는 등의 무단 행위를 식별할 수 있습니다.
  • 에너지 효율적인 콘텐츠 전송: Vision AI 인사이트는 사용자 수요와 시청 패턴을 분석하여 콘텐츠 전송을 최적화할 수 있습니다. 인기 콘텐츠를 로컬에 캐싱하고 비디오 품질을 조정하면 대역폭 사용량과 에너지 소비를 줄여 스트리밍을 더욱 지속 가능하게 만들 수 있습니다.

다양한 장점에도 불구하고 이러한 혁신을 구현할 때 염두에 두어야 할 몇 가지 제한 사항도 있습니다:

  • 높은 컴퓨팅 요구 사항: 컴퓨터 비전 알고리즘은 비디오 콘텐츠를 처리하고 분석하는 데 많은 연산 능력이 필요하며, 이는 비용과 에너지 사용량 증가로 이어질 수 있습니다.
  • 데이터 개인 정보 보호 문제: 컴퓨터 비전은 사용자 상호 작용과 콘텐츠의 대규모 데이터 세트에 의존하기 때문에 데이터 프라이버시 및 보안에 대한 우려가 제기될 수 있습니다.
  • 데이터 편향: 컴퓨터 비전 모델은 학습 데이터에 편향성을 반영할 수 있습니다. 이로 인해 특정 유형의 콘텐츠를 선호하고 추천의 다양성이 줄어들 수 있습니다.

스트리밍 플랫폼에서 AI의 미래

엣지 컴퓨팅과 3D 기술과 같은 혁신은 엔터테인먼트 경험의 미래를 형성하는 데 도움을 주고 있습니다. 엣지 컴퓨팅은 동영상이 스트리밍되는 곳에서 더 가까운 곳에서 동영상을 처리하는 데 사용할 수 있습니다. 지연을 줄이고 대역폭을 절약할 수 있으며, 이는 라이브 스트리밍과 인터랙티브 콘텐츠에 특히 중요합니다. 응답 시간이 빨라지면 시청자에게 더 원활하고 몰입도 높은 경험을 제공할 수 있습니다.

동시에 3D 기술은 쇼, 영화, 인터랙티브 기능에 깊이와 사실감을 더하고 있습니다. 이러한 발전은 증강 현실(AR) 과 가상 현실(VR)과 같은 새로운 가능성의 문도 열어주고 있습니다. VR 헤드셋과 같은 디바이스를 통해 시청자는 완전한 몰입형 환경에 발을 들여놓을 수 있습니다. 디지털 세계와 실제 세계 사이의 경계가 모호해져 완전히 새로운 차원의 몰입도를 창출할 수 있습니다.

그림 5. VR 기반 인터랙티브 경험으로 스트리밍의 재구성.

주요 내용

컴퓨터 비전은 비디오 분석을 더욱 스마트하게, 콘텐츠 분류를 더욱 빠르게, 추천을 더욱 개인화하여 스트리밍 플랫폼을 재정의하고 있습니다. Ultralytics YOLO11 과 같은 모델을 통해 플랫폼은 실시간으로 객체를 감지하고 장면을 분류할 수 있습니다. 이를 통해 콘텐츠 태그를 더 쉽게 지정하고 프로그램과 영화를 추천하는 방식을 개선할 수 있습니다.

비전 AI와 통합된 스트리밍 플랫폼은 시청자에게 더욱 몰입도 높은 경험을 제공하는 동시에 더 원활하고 효율적인 플랫폼 운영을 보장합니다. 기술이 발전함에 따라 스트리밍 서비스는 더욱 인터랙티브해져 더욱 풍부하고 몰입도 높은 엔터테인먼트 경험을 제공할 것입니다.

AI에 대해 궁금하신가요? GitHub 리포지토리를 방문하여 자세히 살펴보고 커뮤니티와 소통하세요. 의료 분야와 농업 분야의 컴퓨터 비전에서 AI의 다양한 적용 사례를 살펴보세요.

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기