グリーンチェック
クリップボードにコピーされたリンク

2025年、最高のコンピュータ・ビジョン・データセットを探る

2025年最高のコンピュータ・ビジョン・データセットを詳しく見ていきましょう。多様で高品質なデータセットが、よりスマートなビジョンAIソリューションをどのように推進するかを学びましょう。

あなたが毎日するほとんどすべてのことにデータが関わっていることをご存知だろうか。ビデオを見たり、写真を撮ったり、Google チェックしたりすることは、750億台以上の接続された機器によって常に取り込まれる情報の流れに貢献している。これらのデータは人工知能(AI)の基盤を形成している。実際 Ultralytics YOLO11のような高度なコンピュータ・ビジョン・モデルは、パターンを特定し、画像を解釈し、私たちを取り巻く世界を理解するために視覚データに依存している。

興味深いことに、データの価値は量だけではない。それよりも、いかにうまく整理され、準備されているかが重要なのだ。データセットが乱雑だったり不完全だったりすると、ミスにつながる可能性がある。しかし、データセットがクリーンで多様であれば、群衆の中の物体を認識する場合でも、複雑なビジュアルを分析する場合でも、コンピュータ・ビジョンのモデルがより良いパフォーマンスを発揮するのに役立ちます。高品質のデータセットがすべての違いを生むのです。

この記事では、2025年における最高のコンピュータ・ビジョン・データセットを探求し、それらがより正確で効率的なコンピュータ・ビジョン・モデルの構築にどのように貢献しているかを見ていきます。さっそく始めましょう!

コンピュータ・ビジョンのデータセットとは?

コンピュータ・ビジョンのデータセットとは、コンピュータ・ビジョン・システムが視覚情報を理解・認識するための学習に役立つ画像やビデオのコレクションである。これらのデータセットには、モデルがデータ内のオブジェクト、人物、シーン、パターンを認識するのに役立つラベルや注釈が付属しています。

これらのデータセットは、コンピュータ・ビジョン・モデルの学習に使用することができ、顔の識別、物体の検出、シーンの分析などのタスクの改善に役立ちます。データセットがよく整理され、多様で正確であればあるほど、ビジョンAIモデルの性能は向上し、よりスマートで日常生活に役立つテクノロジーにつながる。

コンピュータ・ビジョンのデータセットの作り方

コンピュータ・ビジョンのデータセットを構築することは、誰かに世界の見方や理解の仕方を教えるための学習ノートを準備するようなものだ。開発する特定のアプリケーションにマッチする画像やビデオを集めることからすべてが始まる。 

理想的なデータセットには、さまざまな角度から、さまざまな照明条件下で、複数の背景や環境にわたって撮影された、対象物の多様な例が含まれます。このような多様性により、コンピュータビジョンモデルがパターンを正確に認識することを学習し、実世界のシナリオで確実に機能するようになります。

図1.完璧な視覚データセットの構築。画像は筆者による

関連する画像や動画を収集したら、次のステップはデータのラベリングだ。このプロセスでは、AIが各画像や動画に何が含まれているかを理解できるように、データにタグや注釈、説明を追加する。 

ラベルには、オブジェクトの名前、位置、境界線、その他の関連する詳細情報を含めることができ、視覚情報を正確に認識・解釈するモデルの学習に役立ちます。データラベリングは、単純な画像のコレクションを、コンピュータビジョンモデルの学習に使用できる構造化されたデータセットに変換します。

モデルのトレーニングには高品質のデータが必要

何がデータセットの質を高めるのか、不思議に思うかもしれない。正確なラベリング、多様性、一貫性など、多くの要素が関係している。例えば、複数のアノテーターが猫の耳を識別するために物体検出データセットにラベル付けする場合、あるアノテーターはそれを頭の一部としてラベル付けし、別のアノテーターはそれを耳として別々にラベル付けするかもしれない。この矛盾はモデルを混乱させ、正しく学習する能力に影響を与える可能性がある。

理想的なコンピュータビジョンのデータセットの性質を簡単に説明します:

  • 明確なラベル:各画像は、一貫性のある正確なラベルで正確に注釈されています。
  • 多様なデータ:データセットには、モデルがさまざまな状況でうまく機能するように、さまざまなオブジェクト、背景、照明条件、角度が含まれています。
  • 高解像度の画像:シャープで詳細な画像は、モデルの学習と特徴の認識を容易にします。

Ultralytics 様々なデータセットをサポートする

YOLO11ようなUltralytics YOLO モデルは、特定のYOLO ファイル形式のデータセットで動作するように構築されています。ご自身のデータをこのフォーマットに変換するのは簡単ですが、すぐに実験を始めたい方のために、手間のかからないオプションもご用意しています。 

Ultralytics Python パッケージは、幅広いコンピュータビジョンデータセットをサポートしており、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定などのタスクを使用するプロジェクトに、余分なセットアップなしで飛び込むことができます。  

ユーザーは、学習関数のパラメータの1つとしてデータセット名を指定することで、COCO、DOTA-v2.0、Open Images V7、ImageNetのようなすぐに使えるデータセットに簡単にアクセスできます。そうすることで、データセットが自動的にダウンロードされ、事前に設定されるため、モデルの構築と改良に集中することができます。

2025年のコンピュータ・ビジョン・データセット・トップ5

ビジョンAIの進歩は、イノベーションを推進し、ブレークスルーを可能にする多様で大規模なデータセットに依存しています。Ultralyticsサポートする、コンピュータビジョンモデルに影響を与える最も重要なデータセットを見てみましょう。

ImageNetデータセット 

ImageNetは、2007年にプリンストン大学のFei-Fei Liとそのチームによって作成され、2009年に導入された、1400万以上のラベル付き画像を持つ大規模なデータセットである。 さまざまな物体を認識・分類するシステムの学習に広く利用されている。その構造化された設計により、画像を正確に分類するモデルの学習に特に有用である。十分に文書化されているが、主に画像分類に焦点が当てられており、物体検出のようなタスクの詳細な注釈が欠けている。 

ここでは、ImageNetの主な強みを紹介しよう:

  • 多様性:20,000以上のカテゴリにまたがる画像を持つImageNetは、モデルの学習と汎化を促進する膨大で多様なデータセットを提供します。
  • 構造化された構成:画像はWordNetの階層構造を用いて綿密に分類され、効率的なデータ検索と体系的なモデル学習が容易になります。 
  • 包括的なドキュメント広範な研究と長年の研究により、ImageNetは初心者にも専門家にもわかりやすく、コンピュータビジョンプロジェクトのための貴重な洞察と指針を提供します。

しかし、どんなデータセットにも限界がある。以下は、考慮すべき課題の一部である:

  • 計算負荷:その巨大なサイズは、コンピューティングリソースが限られている小規模チームにとって課題となる可能性がある。
  • 時間データの欠如:静止画像しか含まれていないため、ビデオや時間ベースのデータを必要とするアプリケーションのニーズを満たさない可能性がある。
  • 古い画像:データセットの一部の画像は古く、現在のオブジェクト、スタイル、環境を反映していない可能性があり、最新のアプリケーションとの関連性を低下させる可能性がある。

DOTA-v2.0データセット

DOTA-v2.0データセットは、DOTAがDataset for Object Detection in Aerial Imagesの略で、特にOriented bounding box(OBB)オブジェクト検出のために作成された航空画像の広範なコレクションです。OBB検出では、回転したバウンディングボックスを使用して、画像内のオブジェクトの実際の向きにより正確に位置合わせを行います。この方法は、物体が様々な角度で表示されることが多い航空画像に特に有効で、より正確な位置特定と全体的な検出精度の向上につながります。

このデータセットは、11,000枚以上の画像と、18のオブジェクトカテゴリにわたる170万個以上のバウンディングボックスから構成されている。画像は800×800から20,000×20,000ピクセルの範囲で、飛行機、船、建物などのオブジェクトが含まれる。 

図2.DOTA-v2.0データセットの画像と注釈の例。画像は筆者による

その詳細な注釈のため、DOTA-v2.0はリモートセンシングと航空監視プロジェクトに人気の選択肢となっています。以下はDOTA-v2.0の主な機能です:

  • 多様なオブジェクトカテゴリー:車両、港湾、貯蔵タンクなど、さまざまな種類のオブジェクトをカバーしているため、モデルは実世界のさまざまなオブジェクトに触れることができる。
  • 高品質のアノテーション:専門のアノテーターが、オブジェクトの形状と方向を明確に示す、正確な方向のバウンディングボックスを提供。
  • マルチスケール画像:データセットにはさまざまなサイズの画像が含まれており、モデルが小さいスケールと大きいスケールの両方で物体を検出する方法を学習するのに役立つ。

DOTA-v2には多くの長所があるが、ユーザーが留意すべき制限もある:

  • 余分なダウンロード手順: DOTAデータセットの管理方法により、DOTA-v2.0は余分なセットアップ手順を必要とします。まずDOTA-v1.0の画像をダウンロードし、DOTA-v2.0用の追加画像と更新された注釈を追加してデータセットを完成させる必要があります。
  • 複雑なアノテーション:オリエンテッドなバウンディングボックスは、モデルのトレーニング中に扱うのに余分な労力を必要とする場合がある。
  • 範囲が限定されている:DOTA-v2は航空画像用に設計されているため、この領域以外の一般的な物体検出タスクにはあまり役に立たない。

Roboflow 100データセット 

Roboflow 100(RF100)データセットはRoboflow Intel支援を受けて作成した。このデータセットは、物体検出モデルがどの程度機能するかをテストし、ベンチマークするために使用することができます。このベンチマークデータセットには、90,000以上の公開データセットから選ばれた100種類のデータセットが含まれています。ヘルスケア、航空写真、ゲームなどの分野から224,000以上の画像と800以上のオブジェクトクラスが含まれている。 

RF100を使用する主な利点は以下の通りです:

  • 幅広い領域をカバー:医療画像、航空写真、水中探査など7つの分野のデータセットを収録。 
  • モデルの改善を促す: RF100の多様性と領域特有の課題は、現在のモデルのギャップを明らかにし、より適応性が高くロバストな物体検出ソリューションに向けた研究を促進する。
  • 一貫した画像フォーマット:すべての画像は640x640ピクセルにリサイズされています。これにより、ユーザーは画像サイズを調整することなくモデルをトレーニングすることができます。

その長所とは裏腹に、RF100には留意すべき欠点もある:

  • タスクが限定される: RF100は物体検出用に設計されているため、セグメンテーションや分類のようなタスクには対応できない。
  • ベンチマーク中心: RF100は、実世界のアプリケーションのモデルをトレーニングするためではなく、主にベンチマークツールとして設計されているため、その結果は実際の展開シナリオには完全に反映されない可能性がある。
  • アノテーションのばらつき:RF100はクラウドソーシングされたデータセットを集約しているため、アノテーションの品質やラベリング方法に一貫性がなく、モデルの評価やファインチューニングに影響を与える可能性がある。

COCO (Common objects in context) データセット

COCOデータセットは、最も広く利用されているコンピュータビジョンデータセットの1つで、33万枚以上の画像と詳細な画像注釈を提供しています。オブジェクト検出、セグメンテーション、画像キャプション用に設計されており、多くのプロジェクトで貴重なリソースとなっています。バウンディングボックスやセグメンテーションマスクを含む詳細なラベルは、システムが画像を正確に分析するための学習に役立ちます。

このデータセットはその柔軟性で知られており、単純なプロジェクトから複雑なプロジェクトまで、様々なタスクに有用です。視覚AIの分野では標準的なデータセットとなっており、モデルの性能を評価するためのチャレンジやコンペティションで頻繁に使用されています。

その強みは以下の通りだ:

  • 多様でリアルなデータ:データセットには、複数のオブジェクト、オクルージョン、さまざまな照明条件など、実世界のシナリオから得られた画像が含まれています。
  • 強力なコミュニティと研究での採用:主要な機械学習コンペティションや研究で使用されているCOCOデータセットは、広範なドキュメント、トレーニング済みモデル、活発なコミュニティサポートを持っています。
  • 豊富で詳細な注釈:COCOデータセットは、オブジェクトのセグメンテーション、キーポイント、キャプションを含む非常に詳細なアノテーションを提供し、正確な視覚的理解を必要とするプロジェクトに最適です。

ここで、注意すべき制限要因もいくつか挙げておこう:

  • 高い計算要件:そのサイズと複雑さゆえに、COCO上でのモデルのトレーニングには多大な計算リソースが必要となり、ハードウェアが限られているチームにとっては困難なものとなる。
  • データの不均衡:オブジェクトのカテゴリによっては、他のカテゴリよりも画像が圧倒的に多く、モデルのトレーニングに偏りが生じる可能性がある。
  • 複雑なアノテーション構造:データセットの詳細なアノテーションは貴重ではあるが、構造化されたVision AIデータセットを扱う経験のない初心者や小規模なチームにとっては、圧倒される可能性がある。

オープンイメージズV7データセット

Open Images V7は、Googleキュレーションされた大規模なオープンソースデータセットで、600のオブジェクトカテゴリに対するアノテーションを持つ900万枚以上の画像が収録されています。様々な種類のアノテーションが含まれており、複雑なコンピュータビジョンタスクに取り組むのに最適です。その規模と深さは、コンピュータビジョンモデルのトレーニングとテストのための包括的なリソースを提供します。

図3.Open Images V7データセットを垣間見る。画像は著者による

また、Open Images V7データセットは研究分野で人気があるため、ユーザーが学ぶためのリソースや事例が豊富にあります。しかし、その巨大なサイズは、特に小規模なチームにとっては、ダウンロードや処理に時間がかかる可能性がある。また、アノテーションに一貫性がないため、データのクリーンアップに余分な労力がかかることや、統合が必ずしもシームレスでないため、追加の準備が必要になることもあります。 

正しいデータセットの選択 

適切なデータセットを選ぶことは、コンピュータビジョンプロジェクトを成功に導くための大きな要素です。最適な選択は、特定のタスクに依存します - 良いマッチングを見つけることは、モデルが正しいスキルを学習するのに役立ちます。また、ツールとの統合が容易なデータセットであれば、モデルの構築により集中でき、トラブルシューティングの手間を省くことができます。

図4.適切なデータセットを選ぶための要素。画像は著者による

要点

高品質のデータセットは、コンピュータビジョンモデルのバックボーンであり、システムが画像を正確に解釈することを学習するのに役立ちます。多様で十分に注釈付けされたデータセットは特に重要であり、これによってモデルは実世界のシナリオで確実に動作し、限られたデータや質の低いデータによるエラーを減らすことができます。

Ultralytics 、コンピュータビジョンのデータセットへのアクセスや作業のプロセスを簡素化し、プロジェクトに適したデータを簡単に見つけることができます。適切なデータセットを選択することは、より正確でインパクトのある結果につながる、高性能なモデルを構築する上で非常に重要なステップです。

私たちのコミュニティに参加し、GitHubリポジトリを探索してAIについてもっと学びましょう。私たちのソリューションページで、ヘルスケアのためのコンピュータビジョンや 自動運転車の AIのような進歩を発見してください。ライセンスオプションをチェックして、今すぐコンピュータビジョンを始めるための第一歩を踏み出しましょう!

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう