ポーズ推定のためのUltralytics YOLO11の使い方

アビラミ・ヴィナ

3分で読める

2024年10月14日

Ultralytics YOLO11モデルを使用して正確なポーズ推定を行う方法を学びます。リアルタイム推論と様々なアプリケーションのためのカスタムモデルのトレーニングについて説明します。

人工知能(AI)の一分野であるコンピュータービジョンに関する研究は、1960年代まで遡ることができる。しかし、機械が画像を理解する方法に大きなブレークスルーが見られるようになったのは、ディープラーニングが台頭した2010年代になってからである。コンピュータビジョンにおける最新の進歩のひとつが、最先端のUltralytics YOLO11モデルである。YOLO11モデルは、Ultralyticsの年次ハイブリッドイベントYOLO Vision 2024(YV24)で初めて紹介され、ポーズ推定を含む様々なコンピュータビジョンタスクをサポートします。

姿勢推定は、画像やビデオ内の人物や物体のキーポイントを検出し、その位置、姿勢、動きを理解するために使用できます。スポーツ分析動物の行動監視ロボット工学などのアプリケーションで広く使用され、機械がリアルタイムで物理的な動作を解釈するのに役立っています。YOLO(You Only Look Once)シリーズの 初期モデルよりも精度、効率、速度が向上しているため、YOLO11はリアルタイムの姿勢推定タスクに適しています。

__wf_reserved_inherit
図1.姿勢推定にUltralytics YOLO11を使用した例。

この記事では、ポーズ推定とは何かを探り、その応用例をいくつか説明し、ポーズ推定のためにYOLO11と Ultralytics Pythonパッケージの使い方を説明する。また、Ultralytics HUBを使って、YOLO11とポーズ推定を簡単なクリック操作で試す方法も紹介します。それでは始めましょう!

ポーズ推定とは?

ポーズ推定のための新しいUltralytics YOLO11モデルの使い方に入る前に、ポーズ推定について理解を深めておこう。

ポーズ推定は、画像やビデオ内の人物や物体のポーズを分析するために使用されるコンピュータビジョン技術である。YOLO11のようなディープラーニング・モデルは、与えられた物体や人物のキーポイントを識別し、位置を特定し、追跡することができる。物体の場合、これらのキーポイントには角、エッジ、または明確な表面マークが含まれ、人間の場合、これらのキーポイントは肘、膝、肩などの主要な関節を表す。 

姿勢推定は、物体検出のような他のコンピュータビジョンタスクと比較すると、独特で複雑である。物体検出が画像内の物体の周りにボックスを描くことで物体の位置を特定するのに対して、姿勢推定は物体上のキーポイントの正確な位置を予測することでさらに進めます。

__wf_reserved_inherit
図2.YOLO11を使って、オフィス内の人物のポーズを検出・推定しているところ。

ポーズ推定に関しては、主にボトムアップとトップダウンの2つの方法がある。ボトムアップアプローチは、個々のキーポイントを検出し、それらをスケルトンにグループ化する。一方、トップダウンアプローチは、まずオブジェクトを検出し、その中のキーポイントを推定することに重点を置く。 

YOLO11は、トップダウン方式とボトムアップ方式の両方の長所を兼ね備えている。ボトムアップ手法のように、キーポイントを手作業でグループ化する必要がなく、シンプルかつ高速に動作する。同時に、人物の検出とポーズの推定をワンステップで行うことで、トップダウン方式の精度を利用している。

YOLO11でのポーズ推定ユースケース 

ポーズ推定のためのYOLO11の多彩な機能は、多くの産業における可能なアプリケーションの幅を広げている。YOLO11のポーズ推定ユースケースを詳しく見てみよう。

YOLO11によるリアルタイム姿勢推定:作業員の安全性向上

建設プロジェクトにおいて、安全性は重要な要素である。統計上、建設現場では労働災害の発生件数が多いため、これは特に真実である。2021年には、労働関連の死亡災害の約20%が建設現場やその周辺で発生している。重機や電気系統のような日常的なリスクがあるため、作業員の安全を守るためには強力な安全対策が不可欠である。標識やバリケードの使用、監督者による手作業での監視といった従来の方法は必ずしも効果的ではなく、監督者をより重要な業務から遠ざけてしまうことも多い。

AIは安全性を向上させるために介入することができ、ポーズ推定ベースの作業員監視システムを使用することで事故のリスクを減らすことができます。Ultralytics YOLO11モデルは、作業員の動きや姿勢を追跡するために使用することができます。作業員が危険な機器の近くに立ちすぎたり、作業を誤って行ったりするような潜在的な危険は、すぐに発見することができます。リスクが検出された場合、監督者に通知したり、アラームで作業員に警告したりすることができる。常時監視システムは、常に危険を察知し、作業員を保護することで、建設現場をより安全にすることができます。 

__wf_reserved_inherit
図3.YOLO11を使った建設現場での姿勢推定の例。

家畜モニタリングのためのYOLO11による姿勢推定

農家や 研究者は、YOLO11を使って牛のような家畜の動きや行動を研究し、跛行などの病気の初期兆候を見つけることができる。跛行とは、動物が足腰の痛みのためにうまく動けない状態のことである。牛の場合、跛行のような病気は健康と福祉に影響するだけでなく、酪農場での生産問題にもつながります。研究によると、跛行は世界の酪農産業において、放牧システムでは牛の8%、閉鎖システムでは15%から30%が罹患している。跛行を早期に発見し対処することで、動物福祉を向上させ、跛行による生産損失を減らすことができます。

YOLO11のポーズ推定機能は、酪農家が動物の歩行パターンを追跡し、関節の問題や感染症などの健康問題を知らせる可能性のある異常を素早く特定するのに役立ちます。これらの問題を早期に発見することで、迅速な治療が可能になり、動物の不快感を軽減し、酪農家が経済的損失を回避するのに役立ちます。

ビジョンAI対応モニタリングシステムは、休息行動、社会的相互作用、摂食パターンの分析にも役立つ。また、農家はポーズ推定を利用して、ストレスや攻撃性の兆候を観察することもできる。これらの洞察は、動物にとってより良い生活環境を開拓し、彼らの幸福度を高めるために使用することができる。

__wf_reserved_inherit
図4.牛の姿勢推定の可視化。

フィットネス業界におけるYOLO11の使用例

ポーズ推定は、ワークアウト中にリアルタイムで姿勢を改善するのにも役立つ。YOLO11を使えば、ジムやヨガのインストラクターは、関節や手足などの重要なポイントに焦点を当てながら、トレーニング中の人々の体の動きをモニターし、追跡して姿勢を評価することができる。収集されたデータは、理想的なポーズやワークアウトのテクニックと比較することができ、インストラクターは、誰かが間違った動きをしている場合にアラートを受け取ることができ、怪我の予防に役立つ。

__wf_reserved_inherit
図5.ワークアウトを分析するためにポーズ推定を使用する。

例えば、ヨガのクラスでは、ポーズを推定することで、生徒全員が適切なバランスとアライメントを維持しているかどうかを監視することができる。コンピュータ・ビジョンとポーズ推定を統合したモバイル・アプリケーションは、自宅でトレーニングに励む人々や、パーソナル・トレーナーを利用できない人々にとって、フィットネスをより身近なものにします。この継続的なリアルタイムのフィードバックにより、ユーザーは怪我のリスクを減らしながら、テクニックを向上させ、フィットネス目標を達成することができる。

YOLO11モデルでリアルタイムポーズ推定を試す

さて、ここまでポーズ推定とは何かを探り、その応用例をいくつか説明してきた。新しいYOLO11モデルを使って、どのようにポーズ推定を試すことができるかを見てみよう。これを始めるには、Ultralytics Pythonパッケージを使うか、Ultralytics HUBを使うかの2つの方法があります。両方のオプションを見てみましょう。

YOLO11を使った推論の実行

推論を実行するには、YOLO11モデルがトレーニング セット以外の新しいデータを処理し、そのデータに基づいて予測を行うために学習したパターンを使用します。Ultralytics Pythonパッケージを使えば、コードを通して推論を実行することができる。Ultralyticsパッケージをpip、conda、またはDockerを使ってインストールするだけです 。インストール中に何らかの問題に直面した場合は、よくある問題ガイドに役立つトラブルシューティングのヒントが掲載されています。 

パッケージのインストールが完了したら、次のコードでモデルをロードし、それを使って画像内のオブジェクトのポーズを予測する方法を説明します。

__wf_reserved_inherit
図6.YOLO11を使って推論を実行するコード・スニペット。

YOLO11カスタムモデルのトレーニング

例えば、コンピュータビジョンのプロジェクトに取り組んでいて、ポーズ推定を含む特定のアプリケーションのための特定のデータセットを持っているとします。そうすれば、用途に合わせてYOLO11のカスタムモデルを 微調整し、訓練することができます。例えば、キーポイントのデータセットを使ってトラの手足、頭、尾の位置などの主要な特徴を特定することで、画像中のトラのポーズを分析し、理解することができます。

以下のコード・スニペットを使って、YOLO11のポーズ推定モデルをロードし、トレーニングすることができます。モデルはYAML設定から構築することもできるし、トレーニング済みのモデルをロードしてトレーニングすることもできる。このスクリプトでは、重みを転送し、指定したデータセット(例えば、ポーズ推定用のCOCOデータセット)を使ってモデルの学習を開始することもできます。

__wf_reserved_inherit
図7.カスタムトレーニングYOLO11。

新しくトレーニングされたカスタムモデルを使用して、コンピュータビジョンソリューションに関連する未知の画像に対して推論を実行することができます。学習したモデルは、エクスポートモードを使用して他の形式に変換することもできます。

Ultralytics HUBでYOLO11を試す

ここまでは、基本的なコーディングの知識を必要とするYOLO11の使い方について見てきた。もしそれがあなたの求めているものでないなら、あるいはコーディングに慣れていないなら、別の選択肢がある:Ultralytics HUBだ。Ultralytics HUBは、YOLOモデルのトレーニングとデプロイのプロセスを簡素化するために設計されたユーザーフレンドリーなプラットフォームです。HUBを使えば、技術的な専門知識がなくても、データセットの管理、モデルのトレーニング、デプロイを簡単に行うことができます。

画像の推論を実行するには、アカウントを作成し、「モデル」セクションに移動して、興味のあるYOLO11ポーズ推定モデルを選択します。プレビューセクションでは、画像をアップロードし、以下のように予測結果を見ることができます。 

__wf_reserved_inherit
図8.YOLO11を使用したUltralytics HUBでの姿勢推定。

YOLO11による人間のポーズ検出の進歩

Ultralytics YOLO11は、幅広い用途において、姿勢推定などのタスクに正確で柔軟なソリューションを提供します。建設現場での作業員の安全性向上から、家畜の健康状態のモニタリング、フィットネス・ルーティンにおける姿勢矯正の支援まで、YOLO11は高度なコンピューター・ビジョン技術によって精度とリアルタイムのフィードバックをもたらします。 

複数のモデルバリエーションや特定のユースケースに合わせたカスタムトレーニング機能など、その多用途性により、開発者や企業にとって非常に価値のあるツールとなっています。UltralyticsのPythonパッケージでコーディングしても、Ultralytics HUBを使用して簡単に実装しても、YOLO11はポーズ推定を身近でインパクトのあるものにします。

GitHubリポジトリにアクセスし、私たちのコミュニティに参加してください。製造業や 農業におけるAIアプリケーションについては、ソリューションページをご覧ください。🚀

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう

無料で始める
クリップボードにコピーされたリンク