ストリーミングにおけるビジョンAIの舞台裏に迫る

より良いユーザー体験のために、パーソナライズされたレコメンデーションとリアルタイムのコンテンツ分析でストリーミング・プラットフォームを強化するコンピュータ・ビジョンの仕組みをご覧ください。

執筆者

アビラミ・ヴィナ

min read

2024年12月10日

2025年4月3日

AI対応ストリーミング・プラットフォームの利点と課題

ストリーミング・プラットフォームにおけるAIの未来

ストリーミング・プラットフォームのおかげで、好きな番組を簡単に見られるようになったことを不思議に思ったことはないだろうか。少し前まで、エンターテインメントは大きく異なっていた。テレビのスケジュールは決まっており、視聴者は放送中のものを見るのが一般的だった。ストリーミング・サービスはこのパラダイムを変えた。調査によると、世界の動画ストリーミング市場は2023年に1,068億3,000万ドルと評価され、2034年には8,658億5,000万ドルに達すると予想されている。

人工知能（AI）はこの進化において極めて重要である。特に、この分野ではコンピュータ・ビジョンの技術革新が進んでいる。ビジョンAIにより、ストリーミング・プラットフォームはフレームを分析しパターンを認識することで、ビデオコンテンツを理解し解釈することができる。

視覚データを処理することで、コンピュータ・ビジョンはプラットフォームがよりスマートなレコメンデーションを作成し、コンテンツ構成を改善し、さらにはインタラクティブ機能を強化するのに役立ちます。この記事では、ストリーミングプラットフォームがコンテンツ配信を改善し、ユーザーエンゲージメントを向上させ、コンテンツ発見を簡素化するために、コンピュータビジョンがどのように役立っているかを探ります。始めよう！

‍

コンピュータ・ビジョンとストリーミング・プラットフォームの探求

ストリーミング・プラットフォームに関しては、コンピュータ・ビジョンは動画を個々のフレームに分解し、以下のようなモデルを使用して分析するのに役立ちます。 Ultralytics YOLO11YOLO11 、ラベル付けされた例の大規模なデータセットでカスタムトレーニングすることができます。ラベル付けされた例とは、含まれているオブジェクト、起こっているアクション、シーンのタイプなどの詳細がタグ付けされた画像やビデオフレームです。これは、モデルが類似したパターンを認識することを学習するのに役立ちます。これらのモデルはオブジェクトを検出し、シーンを分類し、リアルタイムでパターンを特定することができ、コンテンツに対する貴重な洞察を提供します。

この仕組みをよりよく理解するために、ストリーミング・プラットフォームでコンピューター・ビジョンがどのように応用され、ユーザー体験を最適化し、コンテンツをより利用しやすくしているのか、いくつかの例を見てみよう。

パーソナライズされたレコメンデーションのためのシーン認識

シーン認識とは、画像やビデオフレームをその視覚的内容やテーマに基づいて分類するコンピュータビジョン技術である。画像分類の特殊な形態と考えることができ、個々のオブジェクトよりもシーンの全体的な設定や雰囲気を識別することに重点が置かれている。

例えば、シーン認識システムは、色、テクスチャ、照明、オブジェクトなどの特徴を分析することによって、シーンを「予備の寝室」、「森の小道」、「岩だらけの海岸」などのカテゴリーにグループ分けすることができる。シーン認識によって、ストリーミング・プラットフォームはコンテンツに効果的にタグを付け、整理することができる。

‍

パーソナライズされたレコメンデーションにおいて重要な役割を果たす。晴れた海岸」のようなのどかな屋外や、「スタイリッシュなキッチン」のようなトレンディなインテリアをフィーチャーしたコンテンツをよく視聴するユーザーには、似たようなビジュアルの番組や映画を推薦することができる。シーン認識は、コンテンツの発見を簡素化し、ユーザーの視聴嗜好に合ったレコメンドを提示する。

画像とサムネイルの生成

画像とサムネイルの生成は、視聴者を惹きつけ、重要な瞬間を強調するために、動画のビジュアルプレビューを作成するプロセスです。AIとコンピュータ・ビジョンはこのプロセスを自動化し、サムネイルが適切で目を引くようにします。

そのプロセスはこうだ：

フレーム分析： コンピュータビジョンシステムは、まず何千ものビデオフレームをスキャンして、目立つ瞬間を特定します。これには、感情的な表情、重要なアクション、視覚的に印象的なシーンなど、ビデオの内容を最もよく表すものが含まれる。
‍
モーション解析： 可能性のあるフレームが選択されると、Vision AIを使用して、シャープでブレがないことをチェックし、サムネイルの全体的なビジュアル品質を向上させることができます。
‍
オブジェクト検出 およびシーン分析： などのモデルを用いて YOLO11(オブジェクト検出やインスタンスのセグメンテーションのようなコンピュータ・ビジョンのタスクをサポートする）YOLO11のようなモデルを使用して、システムは、オブジェクト、キャラクター、または設定のようなフレーム内の重要な要素を検出することができます。このステップでは、サムネイルがビデオの本質を正確に反映していることを再確認する。
‍
画像の洗練： 選択されたフレームは、カメラアングル、照明、構図などの要素を考慮し、洗練されます。
‍
パーソナライズ： 最後に、機械学習アルゴリズムを使用して、ユーザーの好みや閲覧履歴に基づいてサムネイルをパーソナライズすることができる。そうすることで、ビジュアルを個人の嗜好に合わせることができ、注目を集めエンゲージメントを高めることができる。

同じような実世界での応用例として、Netflixがコンピュータビジョンを使ってサムネイルを自動生成している例がある。フレームを解析して感情や文脈、映画のディテールを検出することで、ネットフリックスは個々の視聴者の好みに合ったサムネイルを作成する。例えば、ロマンティック・コメディが好きなユーザーには、ほのぼのとした瞬間を強調したサムネイルが表示されるかもしれないし、アクションファンには、激しくエネルギッシュなシーンが表示されるかもしれない。

‍

コンテンツの自動プレビュー

ストリーミング・プラットフォームをスクロールするとき、あなたが目にする短くて目を引くプレビューはランダムなものではありません。コンピューター・ビジョンなどの技術を駆使して、注目を集め、動画の最も魅力的な瞬間を強調するよう、注意深く作られています。最高の瞬間が選択されると、それらは滑らかで魅力的なプレビューにつなぎ合わされます。

その瞬間を選ぶプロセスには、いくつかの重要なステップがある：

シーン分割：
‍ 照明、カメラアングル、ビジュアルの変化など、自然なトランジションに基づき、ビデオをより小さなセクションに分割する。
モーション検出：
‍ ダイナミックでアクションに満ちた瞬間を識別し、プレビューが注目を集めるようにします。
顕著性モデル：色、明るさ、コントラストなどの視覚的特徴を分析し、シーンの最も目を引く部分をピンポイントで特定する。
‍
表情分析:感情的な表情が強い瞬間を選び、視聴者との深いつながりを生み出す。

コンテンツの分類とタグ付け

ジャンル別、ムード別、特定のテーマ別に映画をブラウズする機能は、コンテンツの正確な分類とタグ付けに依存している。人気のあるストリーミング・プラットフォームは、オブジェクト、アクション、設定、または感情についてビデオを分析し、関連するタグを割り当てることによって、このプロセスを自動化するためにコンピュータ・ビジョンを使用しています。これは、大規模なメディア・ライブラリの整理に役立ち、コンテンツを視聴者の好みに一致させることで、パーソナライズされたレコメンデーションをより正確にする。

シーンセグメンテーション、オブジェクト検出、アクティビティ認識などのビジョンAI技術は、コンテンツに効果的にタグ付けするために使用できる。オブジェクト、感情的なトーン、行動などの重要な要素を識別することで、各タイトルの詳細なメタデータを作成する。このメタデータを機械学習で分析し、カテゴリを作成することで、ユーザーが探しているものを見つけやすくし、全体的なブラウジング体験を向上させることができる。

‍

AI対応ストリーミング・プラットフォームの利点と課題

コンピューター・ビジョンは、ユーザー体験を向上させる革新的な機能でストリーミング・プラットフォームを改善している。ここでは、いくつかのユニークな利点を紹介する：

アダプティブ・ストリーミング品質：コンピューター・ビジョンがビデオ・シーンを分析し、高画質を必要とする動きの多い瞬間や詳細な瞬間を特定することができる。これらの洞察は、ユーザーのデバイスやインターネット速度に合わせてストリーミング品質を調整するために使用することができます。
‍
リアルタイムの行動監視： AIを使用してライブストリームを監視し、海賊行為をリアルタイムで検出することができます。また、オーバーレイ（ロゴや広告など）の追加や、他のプラットフォームへのストリームの再放送など、不正な行為を特定することもできます。
‍
エネルギー効率の高いコンテンツ配信：Vision AIの洞察力は、ユーザーの需要と視聴パターンを分析することで、コンテンツ配信を最適化することができる。人気のコンテンツをローカルにキャッシュし、ビデオの画質を調整することで、帯域幅の使用量とエネルギー消費量を削減し、ストリーミングをより持続可能なものにします。

さまざまな利点がある一方で、こうした技術革新を実施する際に留意すべき制限もある：

高い計算能力:コンピュータ・ビジョンのアルゴリズムは、ビデオ・コンテンツの処理と分析に大きな計算能力を必要とし、コストとエネルギー使用量の増加につながります。

データプライバシーに関する懸念:コンピュータ・ビジョンは、ユーザーとのインタラクションやコンテンツの大規模なデータセットに依存しているため、データのプライバシーやセキュリティに関する懸念が生じる可能性がある。

データの偏り:コンピュータ・ビジョンのモデルは、学習データに偏りを反映することがある。そのため、特定のタイプのコンテンツが好まれ、推薦のバリエーションが少なくなる可能性がある。

ストリーミング・プラットフォームにおけるAIの未来

エッジコンピューティングや3D技術のような革新は、私たちがエンターテインメントを体験する方法の未来を形成するのに役立っている。エッジコンピューティングは、ストリーミングされる場所の近くでビデオを処理するために使用できます。遅延を減らし、帯域幅を節約できるため、ライブストリーミングやインタラクティブコンテンツには特に重要です。より速い応答時間は、視聴者にとってよりスムーズで魅力的な体験を意味する。

同時に、3D技術は、ショー、映画、インタラクティブ機能に深みとリアリズムを加えている。これらの進歩は、拡張現実（AR）や仮想現実（VR）のような新たな可能性への扉も開いている。VRヘッドセットのような機器を使えば、視聴者は完全に没入した環境に足を踏み入れることができる。デジタルと物理的な世界の境界線が曖昧になり、まったく新しいレベルのエンゲージメントを生み出すことができる。

‍

要点

コンピュータ・ビジョンは、ビデオ解析をよりスマートにし、コンテンツ分類をより速くし、レコメンデーションをよりパーソナライズすることで、ストリーミング・プラットフォームを再定義している。Ultralytics YOLO11 のようなモデルにより、プラットフォームはリアルタイムでオブジェクトを検出し、シーンを分類することができる。これにより、コンテンツのタグ付けが容易になり、番組や映画の提案方法も改善される。

Vision AIと統合されたストリーミング・プラットフォームは、よりスムーズで効率的なプラットフォーム運用を保証しながら、視聴者により魅力的な体験を提供する。技術の進歩に伴い、ストリーミング・サービスはよりインタラクティブになり、より豊かで没入感のあるエンターテインメント体験を提供するようになるだろう。

AIに興味がありますか？私たちのGitHubリポジトリにアクセスして、さらに詳しく調べたり、私たちのコミュニティとつながったりしてください。ヘルスケアや農業におけるコンピュータビジョンなど、AIのさまざまな応用例をご覧ください。

ストリーミングにおけるビジョンAIの舞台裏に迫る