グリーンチェック
クリップボードにコピーされたリンク

高品質のコンピュータ・ビジョン・データセットの重要性

コンピュータビジョンモデルを構築する際の高品質データの必要性を探ります。データの品質がモデルのパフォーマンスにどのような影響を与えるかをご覧ください。

2019年現在、企業の人工知能(AI)導入は過去4年間で270%増加した。この成長は、コンピュータビジョン(CV)アプリケーション(機械が周囲の世界から視覚データを解釈・分析できるようにするAIシステム)の急速な統合に拍車をかけている。これらのアプリケーションは、医療用画像処理における病気の検出や自律走行車の実現から、交通機関における交通流の最適化やセキュリティシステムにおける監視の強化に至るまで、幅広い技術に力を与えている。 

のような最先端のコンピュータ・ビジョン・モデルの驚くべき精度と比類ない性能が、この急激な成長を大きく後押ししている。 Ultralytics YOLO11のような最先端のコンピュータ・ビジョン・モデルの驚くべき精度と比類なき性能が、この急激な成長を大きく後押ししている。しかし、これらのモデルの性能は、モデルの訓練、検証、テストに使用されるデータの質と量に大きく依存しています。 

十分な品質のデータがなければ、コンピュータビジョンモデルをトレーニングし、業界標準に合うように効果的に微調整することは困難です。この記事では、コンピュータビジョンモデルの作成におけるデータの重要な役割と、コンピュータビジョンにおいて高品質なデータが非常に重要である理由を探ります。また、カスタムコンピュータビジョンモデルのトレーニング中に高品質のデータセットを作成するためのヒントについても説明します。それでは始めましょう!

コンピュータ・ビジョン・モデル構築におけるデータの役割

コンピュータビジョンモデルは、パターンを認識し、正確な予測を行うために、画像やビデオの大規模なデータセットで訓練することができる。例えば、物体検出モデルは、ラベル付けされた数百、あるいは数千の画像や動画で学習させることで、物体を正確に識別することができる。 

このトレーニングデータの質と量は、モデルの性能に影響を与える。 

コンピュータ・ビジョンのモデルは、そのモデルに与えられたデータからしか学習することができないため、質の高いデータと多様な例を提供することが、モデルの成功にとって極めて重要である。十分で多様なデータセットがなければ、これらのモデルは実世界のシナリオを正確に分析できず、偏った結果や不正確な結果を出す可能性がある。 

そのため、モデルのトレーニングにおける データの役割を明確に理解することが重要です。高品質なデータの特徴を説明する前に、コンピュータビジョンモデルのトレーニング中に遭遇する可能性のあるデータセットの種類を理解しましょう。

コンピュータ・ビジョンのデータセットの種類

コンピュータ・ビジョンでは、トレーニング・プロセスで使用されるデータは3つのタイプに分類され、それぞれ特定の目的に使用されます。それぞれのタイプについて簡単に説明します:

  • トレーニングデータ:モデルをゼロから学習させるための主要なデータセット。あらかじめラベルが設定された画像や動画から構成され、モデルがパターンを学習し、オブジェクトを認識できるようにする。 
  • バリデーションデータ:学習中のモデルの性能をチェックするためのデータセット。新しい未知のデータに対してモデルが正しく動作することを確認するのに役立ちます。
  • 試験データ:学習済みモデルの最終的な性能を評価するために使用される別のデータセット。全く新しい未知のデータに対して、モデルがどの程度予測できるかをチェックする。
図1.コンピュータ・ビジョンにおけるデータの分類方法。

質の高いコンピュータ・ビジョン・データセットの特徴トップ5

データセットの種類に関係なく、高品質のデータは成功するコンピュータビジョンモデルを構築するために不可欠です。データセットを高品質にする主な特徴をいくつか紹介します:

  • 精度:理想的には、データは実世界の状況を忠実に反映し、正しいラベルが含まれていなければならない。例えば、ヘルスケアにおけるビジョンAIの場合、モデルが適切に学習するためには、レントゲンやスキャンの画像に正確なラベルを付ける必要がある。 
  • 多様性:良いデータセットには、モデルが様々な状況で良いパフォーマンスを発揮できるように、様々な例が含まれている。例えば、あるモデルが車の検出を学習する場合、データセットには様々な設定(昼、夜、雨など)の様々な形、大きさ、色の車が含まれるべきである。
  • 一貫性:高品質のデータセットは、統一されたフォーマットと品質基準に従っている。例えば、画像は同じような解像度を持ち(不鮮明なものとシャープなものがあるのではない)、リサイズや色調整など同じ前処理ステップを経る。
  • 適時性:定期的に更新されるデータセットは、現実世界の変化に対応できる。例えば、あらゆる種類の車両を検出するモデルをトレーニングするとしよう。電気スクーターのような新しいものが導入された場合、モデルが正確で最新であることを確認するために、データセットに追加する必要があります。
  • プライバシー:もしデータセットが人々の写真のような機密情報を含むなら、プライバシーに関するルールに従わなければならない。匿名化(識別可能な詳細を削除する)やデータマスキング(機密部分を隠す)のような技術は、データを安全に使用しながらプライバシーを保護することができる。

低品質データが引き起こす課題

高品質データの特徴を理解することは重要ですが、低品質データがコンピュータビジョンモデルにどのような影響を与えるかを考えることも同様に重要です。

オーバーフィッティングやアンダーフィッティングのような問題は、モデルの性能に深刻な影響を与えます。オーバーフィッティングは、モデルがトレーニングデータではうまく機能するが、新しいデータや未知のデータでは苦戦する場合に起こります。一方、アンダーフィッティングは、モデルが意味のあるパターンを学習するために、データセットが十分な例や質を提供していない場合に起こります。これらの問題を回避するためには、多様で偏りのない高品質のデータセットを維持し、トレーニングおよび実世界のアプリケーションの両方で信頼できるパフォーマンスを確保することが不可欠です。

図2.アンダーフィッティング対オーバーフィッティングオーバーフィッティング

データの質が低いと、モデルが生データから意味のあるパターンを抽出して学習することも難しくなる。データセットが不完全であったり、無関係であったり、多様性に欠ける場合、モデルは効果的なパフォーマンスを発揮するのに苦労するかもしれない。 

データを単純化した結果、低品質なデータになることがある。データを単純化することは、ストレージスペースを節約し、処理コストを削減するのに役立ちますが、単純化しすぎると、モデルがうまく機能するために必要な重要な詳細が削除される可能性があります。このような理由から、コンピュータビジョンの収集から配備までの プロセス全体を通して、高品質なデータを維持することが非常に重要なのです。経験則として、データセットは、信頼できるモデル予測を保証するために、多様で正確でありながら、必要不可欠な特徴を含むべきです。

図3.特徴抽出を理解する。

コンピュータ・ビジョン・データセットの品質を維持するためのヒント

高品質データの重要性と低品質データの影響を理解したところで、データセットを高水準にする方法を探ってみよう。

すべては信頼できるデータ収集から始まる。クラウドソーシング、様々な地域からのデータ、合成データの生成など、多様なソースを使用することで、バイアスを減らし、モデルが実世界のシナリオに対応できるようになる。データを収集したら、前処理が重要である。ピクセル値を一貫した範囲にスケーリングする正規化や、回転、反転、ズームなどの変換を適用するオーグメンテーションのような技術は、データセットを強化します。これらのステップにより、モデルがより一般化され、よりロバストになり、オーバーフィッティングのリスクを減らすことができます。

データセットを適切に分割することも重要なステップである。一般的なアプローチは、データの70%をトレーニング、15%を検証、15%をテストに割り当てることである。これらのセット間に重複がないことをダブルチェックすることで、データの漏れを防ぎ、正確なモデル評価を行うことができる。

図4.トレーニング、検証、テスト間の一般的なデータ分割。

また、 YOLO11 の ような訓練済みのモデルを使用して、時間と計算リソースを節約することもできます。YOLO11大規模なデータセットで訓練され、様々なコンピュータ・ビジョン・タスク用に設計されたモデルを、ニーズに合わせて特定のデータセット上で微調整することができます。モデルをデータに合わせて調整することで、オーバーフィッティングを回避し、強力なパフォーマンスを維持することができます。 

コンピュータ・ビジョン・データセットの前途

AIコミュニティは従来、レイヤーを増やしてより深いモデルを構築することで、パフォーマンスを向上させることに注力してきた。しかし、AIが進化を続けるにつれ、焦点はモデルの最適化からデータセットの質の向上に移りつつある。AIの父」とも呼ばれるアンドリュー・ンは、"AIの世界がこの10年で経験すべき最も重要な変化は、データ中心のAIへのシフトである "と考えている。 

このアプローチは、ラベルの精度を向上させ、ノイズの多い例を除去し、多様性を確保することによってデータセットを改良することに重点を置いている。コンピュータ・ビジョンにとって、これらの原則はバイアスや低品質データなどの問題に対処し、モデルが実世界のシナリオで信頼できる性能を発揮できるようにするために不可欠である。

将来を見据えると、コンピュータ・ビジョンの進歩は、膨大な量のデータを収集するのではなく、より小規模で高品質なデータセットを作成することに依存している。アンドリュー・ングによれば、「データの改善は、1回限りの前処理ではなく、機械学習モデル開発の反復プロセスの中核をなすものである」。データ中心の原則を重視することで、コンピュータ・ビジョンは今後も、様々な業界において、よりアクセスしやすく、効率的で、インパクトのあるものになっていくだろう。

要点

データはビジョンモデルのライフサイクルを通して重要な役割を果たします。データの収集から前処理、トレーニング、検証、テストに至るまで、データの品質はモデルの性能と信頼性に直接影響します。高品質なデータと正確なラベリングを優先することで、信頼性が高く正確な結果をもたらす堅牢なコンピュータビジョンモデルを構築することができます。 

データ駆動型の未来に向かう中で、偏見やプライバシー規制に関連するリスクを軽減するための倫理的配慮に取り組むことは不可欠です。最終的には、データの完全性と公平性を確保することが、コンピュータビジョン技術の可能性を最大限に引き出す鍵となります。

私たちのコミュニティに参加し、GitHubリポジトリをチェックしてAIについてもっと学びましょう。農業や 製造業などの分野でのAIアプリケーションについては、ソリューションのページをご覧ください。

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう