用語集

ベンチマークデータセット

AI評価におけるベンチマークデータセットの役割を探る。Ultralytics コンピュータビジョンタスクの精度と速度において新たな基準を確立する方法を学ぶ。

ベンチマークデータセットとは、機械学習（ML）モデルの性能を公平かつ再現性のある客観的な方法で評価するために設計された、標準化された高品質なデータ集合である。内部テストに使用される独自データとは異なり、ベンチマークデータセットは研究開発コミュニティ向けの公開された「測定基準」として機能する。異なるアルゴリズムを全く同じ入力データでテストし、同一の評価指標を用いることで、開発者はどのモデルが優れた精度、速度、効率性を提供するかを正確に判断できます。これらのデータセットは、コンピュータビジョン（CV）や自然言語処理（NLP）などの分野における科学的進歩を追跡する上で基礎的な役割を果たします。

標準化の重要性

人工知能（AI）の急速に進化する環境において、新しいモデルが「より高速」または「より正確」であると主張することは、共通の基準点なしでは実質的に無意味である。ベンチマークデータセットはこの必要な共通基盤を提供する。これらは通常、小さな物体の検出、遮蔽の処理、または劣悪な照明条件でのナビゲーションといった特定の課題を表現するように精選されている。

主要なコンテスト（例：ImageNet 視覚ImageNet チャレンジ）は、健全な競争と革新を促進するためにこれらのデータセットに依存している。この標準化により、モデルアーキテクチャの改善が、容易な非標準データや選りすぐりのデータでのテスト結果ではなく、真の技術的進歩であることを保証する。さらに、確立されたベンチマークを使用することで、研究者は潜在的なデータセットの偏りを特定し、モデルが多様な実世界のシナリオにうまく一般化することを保証できます。

ベンチマークとその他のデータ分割の区別

ベンチマークデータセットと、標準的なモデル開発ライフサイクルで使用されるデータ分割を区別することは極めて重要です。両者は類似点を共有しますが、その役割は明確に異なります：

トレーニングデータ: モデルを学習させるために使用される素材。アルゴリズムはこのデータに基づいて内部の重みを調整する。
バリデーションデータ:ハイパーパラメータを調整し、オーバーフィッティングを防ぐために学習中に使用されるサブセット。オーバーフィッティングを防ぐ。これは予備的なチェックとして機能するが最終的なスコアにはならない。
テストデータ:リリース前にパフォーマンスをチェックするための内部データセット。
ベンチマーク・データセット：普遍的に受け入れられている外部テストセット。ベンチマークはテストデータとして機能する、ベンチマークはテストデータとして機能するが、主な違いはモデル比較。

実際のアプリケーション

ベンチマークデータセットは、厳格な安全性と信頼性の基準を確立することで、様々な業界における成功を定義します。これにより組織は、モデルが重要な環境での導入準備が整っていることを検証できます。

汎用ビジョンにおける物体検出

物体検出における最も顕著な例は COCO Common Objects in Context）データセットである。 Ultralytics がYOLO26のような新アーキテクチャUltralytics 、その性能COCO 厳密にベンチマークされCOCO 平均精度（mAP）の COCO 。これにより研究者はYOLO26がCOCOに対して YOLO11 や他の一流モデルと比べて、人や自転車、動物などの日常的な物体を認識する能力がどうなのかを正確に把握できる。

自律走行の安全性

自動車業界において、安全性は最優先事項である。自動運転車の開発者は、KITTI Vision Benchmark SuiteやWaymo Open Datasetといった専門的なベンチマークを活用する。これらのデータセットには、歩行者、自転車利用者、交通標識を含む都市部の運転環境の複雑なアノテーション付き記録が含まれている。エンジニアはこれらのベンチマークを用いて知覚システムを評価することで、実世界の交通シナリオにおけるシステムの堅牢性を定量化し、 AIが動的な危険に正しく反応することを保証できる。

Ultralyticsベンチマーキング

正確な比較を容易にするため、Ultralytics 異なるエクスポート形式間でモデルをベンチマークする組み込みツールをUltralytics 。例えば ONNX や TensorRTといった異なるエクスポート形式間でモデルのベンチマークを容易にするため、Ultralyticsは組み込みツールを提供しています。これにより、ユーザーはエッジデバイスやクラウドサーバーなど、特定のハードウェア環境において、推論レイテンシと精度との最適なトレードオフを特定できます。

以下の例は、Python YOLO26モデルのベンチマークを実行する方法を示します。このプロセスでは、標準的なデータセット構成におけるモデルの速度と精度を評価します。

from ultralytics import YOLO

# Load the official YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy (mAP) on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

課題と考慮事項

ベンチマークは不可欠だが、完璧ではない。「テスト対策」と呼ばれる現象が起きる可能性がある。研究者が新しい未知のデータへの汎化能力を犠牲にして、特定のベンチマークで高得点を獲得するようモデルを最適化する場合だ。さらに、現実世界の状況が変化するにつれて、静的なベンチマークは時代遅れになる可能性がある。Objects365 Google Imagesに見られるようなデータセットの継続的な更新は、多様性と規模を拡大することでこれらの問題を軽減します。カスタムベンチマーク用に独自のデータセットを管理したいユーザーは、Ultralytics を活用して効率的なデータ収集と評価を実現できます。

ベンチマークデータセット

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

標準化の重要性

ベンチマークとその他のデータ分割の区別

実際のアプリケーション

汎用ビジョンにおける物体検出

自律走行の安全性

Ultralyticsベンチマーキング

課題と考慮事項

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

ベンチマークデータセット

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

標準化の重要性

ベンチマークとその他のデータ分割の区別

実際のアプリケーション

汎用ビジョンにおける物体検出

自律走行の安全性

Ultralyticsベンチマーキング

課題と考慮事項

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？ 概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

単眼深度推定とは何か？概要