グリーンチェック
クリップボードにコピーされたリンク

Hugging FaceオープンソースツールでCVプロジェクトを強化

YOLO ビジョン2024の基調講演を再訪し、Hugging Faceオープンソース・ツールがAI開発をどのように前進させているかを探ることに焦点を当てます。

適切なアルゴリズムを選択することは、インパクトのあるコンピュータ・ビジョン・ソリューションを構築するためのほんの一部に過ぎません。AIエンジニアは多くの場合、大規模なデータセットを扱い、特定のタスクのためにモデルを微調整し、実世界のパフォーマンスのためにAIシステムを最適化します。AIアプリケーションが急速に採用されるにつれ、これらのプロセスを簡素化するツールのニーズも高まっています。

YOLO ビジョン2024(YV24)では、Ultralytics毎年開催しているハイブリッドイベントで、AIの専門家と技術愛好家が集まり、コンピュータービジョンの最新イノベーションを探求しました。このイベントでは、AIアプリケーションの開発をスピードアップする方法など、さまざまなトピックについて議論が交わされた。

このイベントの重要なハイライトは、モデルのトレーニング、最適化、デプロイメントを合理化するオープンソースのAIプラットフォームであるHugging Face基調講演だった。Hugging Face機械学習エンジニアであるPavel Lakubovskii氏は、そのツールが、画像内のオブジェクトの検出、画像の異なるグループへの分類、特定の例に対する事前のトレーニングなしでの予測(ゼロショット学習)などのコンピュータビジョンタスクのワークフローをどのように改善するかを共有した。

Hugging Face Hubは、Ultralytics YOLO11ような様々なAIとコンピュータビジョンモデルをホストし、アクセスを提供しています。この記事では、Pavelの講演から重要な点をまとめ、開発者がどのようにHugging Faceオープンソースツールを使ってAIモデルを素早く構築し、デプロイできるかを見ていきます。

図1.YV24のステージに立つパヴェル。

Hugging Face AI開発の高速化をサポート

パベルはまず、Hugging Face オープンソースのAIプラットフォームとして紹介し、さまざまなアプリケーションのための事前学習済みモデルを提供することを紹介した。これらのモデルは、自然言語処理(NLP)、コンピュータビジョン、マルチモーダルAIなど、AIのさまざまな分野のために設計されており、システムがテキスト、画像、音声などのさまざまな種類のデータを処理することを可能にする。

パベルは、Hugging Face 現在100万以上のモデルをホストしており、開発者は特定のプロジェクトに適したモデルを簡単に見つけることができると述べた。Hugging Face 、モデルのトレーニング、微調整、展開のためのツールを提供することで、AI開発を簡素化することを目指している。開発者がさまざまなモデルを試すことができれば、AIを実世界のアプリケーションに統合するプロセスが簡素化される。

Hugging Face 当初NLPで知られていたが、その後コンピュータ・ビジョンとマルチモーダルAIに拡張され、開発者はより幅広いAIタスクに取り組むことができるようになった。また、フォーラム、Discord、GitHubを通じて、開発者がコラボレーションしたり、洞察を共有したり、サポートを受けたりできる強力なコミュニティもある。

コンピュータ・ビジョン・アプリケーションのためのHugging Face モデルの探求

さらに詳しく説明すると、パベルはHugging Faceツールがいかにコンピュータ・ビジョン・アプリケーションの構築を容易にするかを説明した。開発者は、画像分類、物体検出、ビジョン言語アプリケーションのようなタスクに使用できる。

彼はまた、これらのコンピュータ・ビジョン・タスクの多くは、Hugging Face 利用可能な事前学習済みモデルで処理することができ、ゼロから学習する必要性を減らすことで時間を節約できると指摘した。実際、Hugging Face 、食品分類、ペット分類、感情検出を含む、画像分類タスクのための13,000以上の事前訓練済みモデルを提供しています。

あなたのプロジェクトのためにモデルをトレーニングする必要はないでしょう。コミュニティの誰かによってすでにトレーニングされたモデルが、ハブで見つかるかもしれません」。 

物体検出のためのHugging Face モデル 

別の例として、パベルは、Hugging Face 、画像内のオブジェクトを識別し、位置を特定するために使用されるコンピュータ・ビジョンの重要な機能である、オブジェクト検出にどのように役立つかを詳しく説明しました。限られたラベル付きデータであっても、Hugging Face Hubで利用可能な事前訓練されたモデルは、物体検出をより効率的にすることができます。 

彼はまた、Hugging Face掲載されている、このタスクのために作られたいくつかのモデルの概要も説明した:

  • リアルタイム物体検出モデル:スピードが重要な動的環境では、DETR(Detection Transformer)のようなモデルがリアルタイムの物体検出機能を提供する。DETRはCOCOデータセットで学習され、マルチスケール特徴を効率的に処理するように設計されているため、時間に敏感なアプリケーションに適しています。
  • 視覚言語モデル:画像処理とテキスト処理を組み合わせたモデルで、AIシステムが画像と説明文をマッチングさせたり、学習データを超えてオブジェクトを認識したりすることを可能にする。例えば、CLIPやSigLIPは 、テキストとビジュアルをリンクさせることで画像検索を改善し、AIソリューションがそのコンテキストを理解することで新しいオブジェクトを識別することを可能にします。
  • ゼロショット物体検出モデル:画像とテキストの関係を理解することで、見たことのない物体を識別することができる。OwlVit、GroundingDINO、OmDetなどがその例で、ゼロショット学習を使って、ラベル付きの学習データを必要とせずに新しいオブジェクトを検出する。

Hugging Face 使い方

Pavelはその後、Hugging Face モデルを実際に使ってみることに焦点を移し、開発者がモデルを活用する3つの方法を説明した。

彼は、開発者がコードを書くことなく、Hugging Face Hub上で直接モデルをブラウズできる方法を実演し、インタラクティブなインターフェイスを通して即座にモデルをテストすることを容易にした。「コードを一行も書くことなく、またコンピュータにモデルをダウンロードすることなく試すことができます。一部のモデルはサイズが大きいため、ハブ上で実行することで、ストレージや処理の制限を避けることができます。

図2.Hugging Face 使い方。

また、Hugging Face Inference APIにより、開発者はシンプルなAPIコールでAIモデルを実行することができます。複雑なセットアップを必要とせず、迅速なテスト、概念実証プロジェクト、ラピッドプロトタイピングに最適です。

より高度なユースケースのために、開発者は、PyTorch TensorFlow両方をサポートしながら、テキスト、ビジョン、オーディオタスクのために事前に訓練されたモデルを提供するオープンソースツールであるHugging Face Transformersフレームワークを使用することができます。Pavelは、たった2行のコードで、開発者はHugging Face Hubからモデルを取得し、画像プロセッサのような前処理ツールにリンクし、Vision AIアプリケーションのために画像データを分析することができると説明した。

Hugging FaceAIワークフローの最適化

次にパベルは、Hugging Face AIのワークフローをどのように効率化できるかを説明した。彼が取り上げた重要なトピックのひとつは、ディープラーニング・モデルの中核機能であるTransformersのアテンション・メカニズムを最適化することで、入力データの最も関連性の高い部分に焦点を当てることができる。これにより、言語処理やコンピューター・ビジョンに関わるタスクの精度が向上する。しかし、リソースを大量に消費する可能性がある。

アテンション・メカニズムを最適化することで、スピードを向上させながらメモリ使用量を大幅に減らすことができる。例えば、より効率的なアテンション実装に切り替えることで、最大で1.8倍高速化することができます」とパベルは指摘する。

Hugging Face 、Transformersフレームワーク内でより効率的なアテンション実装のための組み込みサポートを提供します。開発者は、モデルをロードするときに代替のアテンション実装を指定するだけで、これらの最適化を有効にすることができます。

オプティマムとTorch コンパイル

量子化とは、AIモデルが使用する数値の精度を下げることで、性能にあまり影響を与えずにモデルを小さくする技術である。これにより、モデルのメモリ使用量を減らし、より高速に動作させることができるため、スマートフォンや組み込みシステムのような処理能力が限られたデバイスに適している。

効率をさらに向上させるため、パベルはモデルの最適化とデプロイのために設計されたツールセットであるHugging Face Optimumライブラリを紹介した。わずか数行のコードで、開発者は量子化技術を適用し、モデルをONNX (Open Neural Network Exchange)のような効率的なフォーマットに変換することができ、クラウドサーバーやエッジデバイスを含むさまざまな種類のハードウェア上でスムーズに動作させることができる。

図3.パベルはOptimumライブラリとその特徴について語った。

最後にPavelは、AIモデルがデータを処理する方法を最適化し、より高速で効率的に実行するPyTorch 機能であるTorch Compileの利点について言及した。Hugging Face 、Torch OptimumライブラリにTorch Compileを統合し、開発者が最小限のコード変更でこれらのパフォーマンス向上を利用できるようにしている。 

モデルの計算構造を最適化することで、Torch コンパイルは推論時間を高速化し、精度や品質を損なうことなくフレームレートを毎秒29フレームから150フレームに向上させることができる。

Hugging Face 使ったモデルの展開

続いてパベルは、適切なモデルを選択し、開発に最適なアプローチを選択した後、開発者がHugging Face ツールを使用してVision AIモデルを拡張し、展開する方法について簡単に触れた。

例えば、開発者はGradioとStreamlitを使ってインタラクティブなAIアプリケーションを展開することができる。Gradioは、開発者が機械学習モデルのためのウェブベースのインタフェースを作成することを可能にし、Streamlitは、シンプルなPython スクリプトでインタラクティブなデータアプリケーションを構築するのに役立ちます。 

パベルはまた、Hugging Face 提供するガイド、トレーニング・ノートブック、スクリプト例について、「ゼロからすべてを書き始める必要はありません」と指摘した。これらのリソースは、開発者が一からすべてを構築することなく、すぐに使い始められるようにするものです。

図4.YV24でHugging Face 機能について語るパベル。

Hugging Face メリット 

基調講演の最後に、パベルはHugging Face Hubを使用する利点をまとめた。彼は、モデル管理とコラボレーションをいかに簡素化するかを強調した。彼はまた、初心者と専門家の両方がAIモデルを理解し、実装するのに役立つガイド、ノートブック、チュートリアルが利用可能であることに注意を促した。

「Hubにはすでにクールなスペースがたくさんあります。似たようなものを見つけ、共有されているコードをクローンし、数行を修正し、自分のモデルに置き換えて、プッシュバックすることができます」と説明し、開発者にプラットフォームの柔軟性を活用するよう促した。

要点 

YV24での講演でパベルは、Hugging Face AIモデルのトレーニング、最適化、デプロイメントをサポートするツールをどのように提供しているかを紹介した。例えば、Transformers、Optimum、Torch Compileのようなイノベーションは、開発者がモデルのパフォーマンスを向上させるのに役立ちます。

AIモデルがより効率的になるにつれて、量子化とエッジ展開の進歩により、リソースが限られたデバイスでの実行が容易になっている。これらの改善と、Hugging Face ようなツールやUltralytics YOLO11ような高度なコンピュータビジョンモデルとの組み合わせが、スケーラブルで高性能なビジョンAIアプリケーションを構築する鍵となります。

成長中のコミュニティに参加しましょう!GitHubリポジトリでAIについて学び、yolo ライセンスをチェックしてVision AIプロジェクトを始めましょう。ヘルスケアにおけるコンピュータ・ビジョンや 農業におけるコンピュータ・ビジョンのようなイノベーションに興味がありますか?ソリューションのページをご覧ください!

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう