YOLO Vision 2024のパネルトークから興味深い洞察をご覧ください。ジェネレーティブAIが、リアルタイムVision AIモデルの前途をどのように形成しているのかを探る。
ジェネレーティブAIとは、既存のデータからパターンを学習することで、画像、テキスト、音声などの新しいコンテンツを作成する人工知能(AI)の一分野である。近年の進歩により、人間の創造性を模倣した非常にリアルなコンテンツを作成することができるようになった。
しかし、ジェネレーティブAIの影響は、単にコンテンツを作成するだけにとどまらない。Ultralytics YOLO モデルのようなリアルタイムコンピュータビジョンモデルが進化し続けるにつれて、ジェネレーティブAIは視覚データの処理方法や拡張方法も再定義し、実世界のシナリオにおける革新的なアプリケーションへの道を開いている。
この新たな技術シフトは、Ultralytics主催の年次ハイブリッド・イベントであるYOLO Vision 2024(YV24)で興味深い話題となった。YV24では、AI愛好家と業界リーダーが一堂に会し、コンピューター・ビジョンにおける最新のブレークスルーについて議論した。このイベントでは、イノベーション、効率性、リアルタイムAIソリューションの未来に焦点が当てられた。
このイベントの目玉のひとつは、「ジェネレーティブAI時代のYOLO 」をテーマにしたパネルトークだった。パネルには、Ultralytics創設者兼CEOのグレン・ジョーチャー氏、Ultralyticsシニア機械学習エンジニアのジン・チウ氏、清華大学のアオ・ワン氏が登壇した。彼らは、ジェネレーティブAIがコンピュータ・ビジョンにどのような影響を及ぼしているのか、また実用的なAIモデルを構築する上での課題について探求した。
この記事では、彼らの議論から重要な洞察を再確認し、ジェネレーティブAIがVision AIをどのように変革しつつあるのかを詳しく見ていく。
Ultralytics YOLO モデルの開発には、グレン・ジョーチャー以外にも多くの熟練エンジニアが重要な役割を果たしている。その一人であるジン・チウは、YOLO思いがけない出会いについて語った。彼のAIへの情熱は大学時代に始まったと説明する。彼はこの分野を探求し、学ぶことに多くの時間を費やした。ジン・チウは、GitHubでグレン・ジョーチャーとつながり、さまざまなAIプロジェクトに参加するようになったと振り返った。
グレン・ジョーチャーは、ジン・チウが言ったことに加えて、GitHubについてこう説明した。素晴らしいコミュニティであり、AIを始めるには本当に素晴らしい方法です」。
ジン・チュウのAIへの関心と、彼が取り組んでいる Ultralytics YOLOv5モデルの改良に貢献した。その後、彼は Ultralytics YOLOv8の開発で重要な役割を果たした。彼はそれを信じられないような旅だったと語っている。今日、ジン・チウは、次のようなモデルの改良と研究を続けている。 Ultralytics YOLO11.
中国からリモートでパネルトークに参加したアオ・ワンは、博士課程の学生であると自己紹介した。当初はソフトウェア工学を専攻していたが、AIへの情熱からコンピュータビジョンとディープラーニングにシフトしたという。
彼が有名なYOLO モデルに出会ったのは、さまざまなAI技術やモデルを試しているときだった。彼はそのスピードと精度に感銘を受け、物体検出のようなコンピュータ・ビジョンのタスクに深く入り込むようになった。最近、Ao WangはYOLO モデルの最新バージョンであるYOLOv10に貢献した。彼の研究は、より高速で高精度なモデルの最適化に重点を置いた。
その後、パネルディスカッションはジェネレーティブAIの議論に入り、ジン・チウはジェネレーティブAIとビジョンAIの目的が全く異なることを指摘した。ジェネレーティブAIは、テキスト、画像、動画といったものを創造・生成するものであり、ビジョンAIは、すでに存在するもの(主に画像)を分析するものである。
グレン・ジョーチャーは、サイズも大きな違いだと強調した。ジェネレーティブAIのモデルは巨大で、多くの場合、数十億ものパラメーター(モデルがデータから学習するための内部設定)を含んでいる。コンピュータ・ビジョンのモデルはもっと小さい。私たちが持っている最小のYOLO モデルは、最小のLLM(大規模言語モデル)の約1000分の1です。つまり、30億のパラメータに対して300万のパラメータです"
ジン・チウは、ジェネレーティブAIとコンピュータービジョンのトレーニングや導入プロセスも大きく異なると付け加えた。ジェネレーティブAIを実行するには、巨大で強力なサーバーが必要です。一方、YOLOようなモデルは効率性を重視して作られており、標準的なハードウェアでトレーニングやデプロイが可能だ。そのため、Ultralytics YOLO モデルは実世界でより実用的なものとなっている。
両者は異なるものだが、この2つの分野は絡み合い始めている。グレン・ジョーチャーは、Generative AIがVision AIに新たな進歩をもたらし、モデルをより賢く、より効率的にしていると詳しく説明した。
ジェネレーティブAIは急速に進歩しており、これらのブレークスルーは、コンピュータビジョンを含む人工知能の他の多くの分野に影響を与えている。次に、このパネルからの興味深い洞察を紹介しよう。
パネルの冒頭でグレン・ジョーチャーは、機械学習のアイデアは長い間存在していたが、コンピュータはそれを機能させるのに十分な性能を持っていなかったと説明した。AIのアイデアを実現するには、より強力なハードウェアが必要だった。
並列処理能力を持つGPU(グラフィック・プロセッシング・ユニット)の台頭は、この20年ですべてを変えた。GPUはAIモデルの学習をより高速かつ効率的にし、ディープラーニングの急速な発展を可能にした。
現在、TPU(Tensor 処理ユニット)や最適化されたGPUのようなAIチップは、より大きく複雑なモデルを処理しながら、より少ない電力で動作する。これにより、AIはより身近になり、実世界のアプリケーションで役立つようになった。
新しいハードウェアが改良されるたびに、ジェネレーティブAIとコンピュータビジョンアプリケーションの両方がより強力になっている。これらの進歩により、リアルタイムAIはより速く、より効率的になり、より多くの産業で使用できるようになっている。
ジェネレイティブAIがコンピュータ・ビジョンにどのような影響を及ぼしているかという質問に対して、ジン・チウは、トランスフォーマー(AIが画像の最も重要な部分に集中できるようにするモデル)が、AIが画像を理解し処理する方法を変えたと語った。最初の大きな一歩はDETR(Detection Transformer)で、物体検出にこの新しいアプローチを用いた。DETRは精度を向上させたが、場合によっては動作が遅くなるというパフォーマンス上の問題があった。
これを解決するために、研究者たちはRT-DETRようなハイブリッドモデルを作った。これらのモデルは、畳み込みニューラルネットワーク(CNN、画像から自動的に学習して特徴を抽出する深層学習モデル)と変換器を組み合わせ、速度と精度のバランスをとっている。このアプローチは、変換器の利点を活用しながら、物体検出を高速化する。
興味深いことに、YOLOv10はトランスフォーマーベースのアテンションレイヤー(スポットライトのような働きをするモデルの一部で、画像の最も重要な部分を強調する一方で、関連性の低いディテールは無視する)を使って性能を高めている。
アオ・ワンはまた、生成AIがモデルの学習方法をどのように変えつつあるかについても言及した。マスク画像モデリングのような技術は、AIが画像からより効率的に学習するのを助け、手作業でラベル付けされた大規模なデータセットの必要性を減らす。これにより、コンピュータ・ビジョンの学習はより速く、より少ないリソースで行えるようになる。
パネルで議論されたもうひとつの重要なアイデアは、生成AIとビジョンAIをどのように組み合わせれば、より高性能なモデルを構築できるかということだった。グレン・ジョーチャーは、この2つのアプローチにはそれぞれ異なる強みがあるが、組み合わせることで新たな可能性が開けると説明した。
例えば、YOLO ようなビジョンAIモデルは、画像をグリッドに分割してオブジェクトを識別することが多い。このグリッドベースの方法は、言語モデルが今日多くの言語モデルが直面している課題である、細部をピンポイントで特定し、それを説明する能力を向上させるのに役立つだろう。要するに、これらのテクニックを組み合わせることで、見たものを正確に検出し、明確に説明できるシステムにつながるかもしれないのだ。
ジェネレーティブAIとコンピュータ・ビジョンは共に進歩している。ジェネレーティブAIは画像や動画を作成する一方で、ビジョンAIモデルをより正確かつ効率的にする新しい革新的なアイデアをもたらすことで、画像や動画の解析を改善する。
この洞察に満ちたYV24のパネルトークでは、グレン・ジョーチャー、ジン・チウ、アオ・ワンが、これらのテクノロジーがどのように未来を形成していくのかについて考えを語った。より優れたAIハードウェアにより、ジェネレーティブAIとビジョンAIは進化を続け、さらなるイノベーションをもたらすだろう。この2つの分野は、より賢く、より速く、そしてより日常生活に役立つAIを創造するために協力しています。
私たちのコミュニティに参加して、GitHubリポジトリを探索し、ビジョンAIについてもっと学びましょう。コンピュータビジョンプロジェクトを開始するためのライセンスオプションをご覧ください。製造業におけるAIや 自動運転におけるコンピュータビジョンのようなイノベーションに興味がありますか?ソリューションのページをご覧ください。