用語集

データクリーニング

AIやMLプロジェクトのためのデータクリーニングをマスターしよう。エラーを修正し、データ品質を向上させ、モデルのパフォーマンスを効果的に高めるテクニックを学びます！

データクリーニングは、データセットからエラー、矛盾、不正確さ、破損したレコードを特定し、修正または削除する重要なプロセスである。これは、信頼性が高く効果的な人工知能（AI）や機械学習（ML）モデルを構築するための基本である。クリーンなデータがなければ、最終的なアウトプット（AIモデル）は、データサイエンスで一般的な「ガベージ・イン、ガベージ・アウト」の原則に従い、欠陥のあるものになる可能性が高い。クリーンなデータは、より良いモデルパフォーマンス、より信頼できる洞察、AIにおけるバイアスの低減につながります。

AIと機械学習における関連性

AIやMLでは、学習データの質がモデルの精度と新しい未知のデータへの汎化能力に直接影響します。データクリーニングは、MLワークフローにおける重要な最初のステップであり、多くの場合、フィーチャーエンジニアリングやモデルトレーニングなどのタスクに先行する。次のようなモデル Ultralytics YOLOのようなモデルは、物体の検出やインスタンスのセグメンテーションのような負荷の高いタスクに使用され、効果的に学習するためには、クリーンで構造化されたデータセットに大きく依存します。ミスラベル画像、一貫性のないバウンディングボックスフォーマット、欠損値、重複エントリなどのエラーは、パフォーマンスを著しく低下させ、実世界のアプリケーションにおいて信頼できない予測につながります。データクリーニングを通してこれらの問題に対処することで、モデルが生データに存在するノイズやエラーではなく、意味のあるパターンを学習し、オーバーフィッティングのような問題を防ぐことができます。

一般的なデータクリーニングタスク

データクリーニングには、データセット内の特定の問題に合わせた様々な手法が含まれる。一般的な作業には以下が含まれる：

欠損データの処理：欠損値のある項目を特定し、それを除去するか、推定するか（インピュテーション）、欠損データに頑健なアルゴリズムを使用するかを決定する。欠損データの取り扱いには、状況に応じてさまざまな戦略がある。
誤りと矛盾の修正：誤字脱字の修正、単位やフォーマットの標準化（例：日付フォーマット、大文字表記）、矛盾するデータポイントの解決。これはデータの完全性を維持するために極めて重要である。
重複レコードの削除：分析またはモデルのトレーニングに影響を与える可能性のある、同一またはそれに近いエントリを特定し、削除する。
外れ値の取り扱い：他のオブザベーションと著しく異なるデータ・ポイントを検出すること。原因によって、外れ値は除去されるか、修正されるか、または保持されるかもしれない。さまざまな外れ値検出法を採用できる．
構造的エラーへの対処：一貫性のない命名規則やエントリの位置間違いなど、データ構造に関連する問題を修正する。

実世界での応用

データクリーニングは、多くのAI/MLアプリケーションにおいて不可欠である：

医療画像解析： 脳腫瘍データセットのようなヘルスケアデータセットでは、データのクリーニングには、低画質または破損したスキャン（不鮮明な画像など）の除去、画像フォーマット（DICOMなど）の標準化、誤ったラベルの診断の修正、HIPAAのような規制に従って患者データのプライバシーを確実に維持することなどが含まれます。クリーンなデータは、信頼できる診断モデルのトレーニングに不可欠である。米国国立衛生研究所（NIH）は、生物医学研究におけるデータ品質を重視しています。ヘルスケアにおけるAIの詳細を見る。
小売在庫管理： SKU-110Kデータセットを使用する可能性のあるシステムのように、コンピュータ・ビジョンを使用して在庫を追跡するシステムの場合、クリーニングには、画像内の誤認識商品の修正、スキャンエラーによる重複入力の削除、異なるデータソース間での商品名やコードの標準化、需要予測や推奨システムに使用される販売記録の不整合の処理などが含まれます。これにより、正確な在庫数と効率的なサプライチェーンオペレーションが保証され、AIによる小売業の効率化の実現に貢献します。Google Cloud AI for Retailのようなプラットフォームは、多くの場合、クリーンな入力データに依存しています。