データクリーニングとは、機械学習(ML)や人工知能(AI)アプリケーションで使用するために、生データの品質、一貫性、関連性を確保するための準備と精製のプロセスである。これには、エラーの特定と修正、欠損値の補充、重複の削除、フォーマットの統一などが含まれる。高品質なデータは、正確で信頼性の高いMLモデルをトレーニングするために不可欠であり、データクリーニングはこれを実現するための基礎的なステップです。
モデルの性能はトレーニングに使用されるデータの質と直接結びついているため、データのクリーニングはAIやMLの文脈では非常に重要である。汚れたデータや一貫性のないデータは、不正確な予測、偏った結果、信頼できない洞察につながります。データが正確で、完全で、正しくフォーマットされていることを確認することで、データクリーニングはモデルのパフォーマンスを向上させ、オーバーフィッティングやアンダーフィッティングなどの問題を防ぐのに役立ちます。
注釈付きデータの準備に関する詳しいガイダンスについては、データ前処理ガイドを参照のこと。
AIやMLのワークフローでは、データクリーニングは、より広範なデータ前処理パイプラインの中で、しばしば前段階の1つとなる。いったんデータがクリーニングされると、データの増強、正規化、あるいはトレーニング、検証、テスト・セットへの分割が可能になる。
ある金融機関が、不正検知のための ML モデルを学習させるために取引データを収集している。未加工のデータセットには、「取引場所」フィールドに欠損値があり、一部の取引でエントリが重複している。データクリーニングには以下が含まれる:
このプロセスによってデータセットの品質が向上し、モデルがエラーや矛盾に惑わされることなく不正パターンを正しく識別できるようになる。
AI主導の農業では、センサーが土壌の質、天候、作物の健康状態に関するデータを収集する。生データには、センサーの故障やデータ送信エラーによるノイズが含まれていることが多い。データをクリーニングし、異常値を取り除き、欠測を補うことで、データセットは最適な作付け時期や予想収量を予測するモデルをトレーニングするための信頼性が高まります。農業におけるAIの詳細については、こちらをご覧ください。
シンプルな表計算ソフトウェアから高度なプログラミング・ライブラリまで、データクリーニングを支援するツールやプラットフォームはいくつかある。大規模なプロジェクトでは、Ultralytics HUBのようなプラットフォームとデータクリーニングワークフローを統合することで、プロセスを合理化し、次のようなAIモデルとのシームレスな互換性を確保することができます。 Ultralytics YOLO.
データクリーニングは、AIとMLのパイプラインにおける重要なステップであり、正確で効率的かつインパクトのあるモデルの基礎を築きます。ツールやベストプラクティスを活用することで、業界を問わず、意味のある洞察とイノベーションを推進するためのデータの準備が整います。