用語集

データクリーニング

AIやMLプロジェクトのためのデータクリーニングをマスターしよう。エラーを修正し、データ品質を向上させ、モデルのパフォーマンスを効果的に高めるテクニックを学びます!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データクリーニングは、データセットからエラー、矛盾、不正確さ、破損したレコードを特定し、修正または削除する重要なプロセスである。これは、信頼性が高く効果的な人工知能(AI)や機械学習(ML)モデルを構築するための基本である。クリーンなデータがなければ、最終的なアウトプット(AIモデル)は、データサイエンスで一般的な「ガベージ・イン、ガベージ・アウト」の原則に従い、欠陥のあるものになる可能性が高い。クリーンなデータは、より良いモデルパフォーマンス、より信頼できる洞察、AIにおけるバイアスの低減につながります。

AIと機械学習における関連性

AIやMLでは、学習データの質がモデルの精度と新しい未知のデータへの汎化能力に直接影響します。データクリーニングは、MLワークフローにおける重要な最初のステップであり、多くの場合、フィーチャーエンジニアリングやモデルトレーニングなどのタスクに先行する。次のようなモデル Ultralytics YOLOのようなモデルは、物体の検出や インスタンスのセグメンテーションのような負荷の高いタスクに使用され、効果的に学習するためには、クリーンで構造化されたデータセットに大きく依存します。ミスラベル画像、一貫性のないバウンディングボックスフォーマット、欠損値、重複エントリなどのエラーは、パフォーマンスを著しく低下させ、実世界のアプリケーションにおいて信頼できない予測につながります。データクリーニングを通してこれらの問題に対処することで、モデルが生データに存在するノイズやエラーではなく、意味のあるパターンを学習し、オーバーフィッティングのような問題を防ぐことができます。

一般的なデータクリーニングタスク

データクリーニングには、データセット内の特定の問題に合わせた様々な手法が含まれる。一般的な作業には以下が含まれる:

  • 欠損データの処理欠損値のある項目を特定し、それを除去するか、推定するか(インピュテーション)、欠損データに頑健なアルゴリズムを使用するかを決定する。欠損データの取り扱いには、状況に応じてさまざまな戦略がある。
  • 誤りと矛盾の修正:誤字脱字の修正、単位やフォーマットの標準化(例:日付フォーマット、大文字表記)、矛盾するデータポイントの解決。これはデータの完全性を維持するために極めて重要である。
  • 重複レコードの削除:分析またはモデルのトレーニングに影響を与える可能性のある、同一またはそれに近いエントリを特定し、削除する。
  • 外れ値の取り扱い:他のオブザベーションと著しく異なるデータ・ポイントを検出すること。原因によって、外れ値は除去されるか、修正されるか、または保持されるかもしれない。さまざまな外れ値検出法を採用できる.
  • 構造的エラーへの対処:一貫性のない命名規則やエントリの位置間違いなど、データ構造に関連する問題を修正する。

実世界での応用

データクリーニングは、多くのAI/MLアプリケーションにおいて不可欠である:

  1. 医療画像解析 脳腫瘍データセットのようなヘルスケアデータセットでは、データのクリーニングには、低画質または破損したスキャン(不鮮明な画像など)の除去、画像フォーマット(DICOMなど)の標準化、誤ったラベルの診断の修正、HIPAAのような規制に従って患者データのプライバシーを確実に維持することなどが含まれます。クリーンなデータは、信頼できる診断モデルのトレーニングに不可欠である。米国国立衛生研究所(NIH)は、生物医学研究におけるデータ品質を重視しています。ヘルスケアにおけるAIの詳細を見る。
  2. 小売在庫管理 SKU-110Kデータセットを使用する可能性のあるシステムのように、コンピュータ・ビジョンを使用して在庫を追跡するシステムの場合、クリーニングには、画像内の誤認識商品の修正、スキャンエラーによる重複入力の削除、異なるデータソース間での商品名やコードの標準化、需要予測や推奨システムに使用される販売記録の不整合の処理などが含まれます。これにより、正確な在庫数と効率的なサプライチェーンオペレーションが保証され、AIによる小売業の効率化の実現に貢献します。Google Cloud AI for Retailのようなプラットフォームは、多くの場合、クリーンな入力データに依存しています。

データクリーニングと関連概念

データクリーニングは、関連するデータ準備ステップと区別することが重要である:

  • データの前処理これはデータクリーニングを含むより広い用語であるが、正規化(数値特徴のスケーリング)、カテゴリー変数のエンコーディング、特徴抽出など、MLモデル用にデータを準備するための他の変換も含まれる。クリーニングがエラーの修正に重点を置くのに対し、前処理はアルゴリズム用にデータをフォーマットすることに重点を置く。詳細については、Ultralytics アノテーションデータの前処理に関するガイドを参照してください。
  • データのラベリングこれは生データに情報タグや注釈(ラベル)を追加するプロセスであり、例えば教師あり学習では画像のオブジェクトの周りにバウンディングボックスを描く。データのクリーニングは、品質チェック中に特定された誤ったラベルを修正することを含むかもしれませんが、ラベリングの最初の行為とは異なります。データ収集とアノテーションガイドは、ラベリングに関する洞察を提供します。Ultralytics HUBは、ラベル付けされたデータセットを管理するためのツールを提供しています。
  • データ増強この手法は、既存のデータを修正したコピー(画像を回転させる、明るさを変えるなど)を作成することで、学習データセットのサイズと多様性を人工的に増加させる。データ増強の目的はモデルの汎化性と頑健性を向上させることであり、データクリーニングの目的は元データの品質を向上させることである。詳しくは「2025年におけるデータ増強の究極ガイド」をご覧ください。

データクリーニングは、基礎となるデータの健全性を確保することで、AIシステムの信頼性とパフォーマンスを大幅に向上させる、基礎的で、しばしば反復的なプラクティスである。Pandasライブラリのようなツールは、PythonMLワークフローにおけるデータ操作やクリーニング作業に一般的に使用されています。特に、複雑なコンピュータビジョン(CV)タスクや、COCOや ImageNetのような大規模なベンチマークデータセットを扱う場合、厳密なクリーニングによってデータの品質を確保することは、信頼できるAIの開発に不可欠です。

すべて読む