用語集

データ前処理

機械学習のためのデータ前処理をマスターしよう。クリーニング、スケーリング、エンコードなどのテクニックを習得し、モデルの精度とパフォーマンスを向上させます。

データ前処理は、機械学習(ML)パイプラインにおける重要なステップであり、生データをクリーニング、変換、整理して、学習やモデル構築に適した状態にする。実世界からの生データは、しばしば不完全で一貫性がなく、エラーが含まれている可能性がある。前処理は、この乱雑なデータをクリーンで構造化された形式に変換する。モデルの予測の質は、学習させたデータの質に大きく依存するため、データの前処理は、AIシステムにおいて高い精度と信頼性のあるパフォーマンスを達成するための基礎的な作業となる。

データ前処理における主要タスク

データ前処理は、データを準備するための様々な技術を包含する広い用語である。具体的な手順はデータセットとMLタスクに依存するが、一般的なタスクは以下の通りである:

  • データのクリーニングデータセットからエラー、矛盾、欠損値を特定し、修正または除去するプロセス。これには、統計的手法を使って欠損データを埋めたり、重複する項目を削除したりすることが含まれる。クリーンなデータは信頼できるモデルの基礎である。
  • データの変換これは、データの規模や分布を変更することを含む。一般的なテクニックは 正規化これは数値特徴を標準的な範囲(例えば0から1)にスケーリングし、スケールの大きな特徴が学習プロセスを支配するのを防ぎます。様々なスケーリング方法についてはscikit-learn の前処理のドキュメントを参照してください。
  • フィーチャーエンジニアリングこれは、モデルのパフォーマンスを向上させるために、既存の特徴から新しい特徴を作り出す創造的なプロセスである。これには、特徴を組み合わせたり、分解したり、より意味のある情報を抽出するためにドメイン知識を使用したりすることが含まれる。関連する概念は 特徴抽出これはデータの次元を自動的に削減する。
  • カテゴリーデータのエンコード:多くのMLアルゴリズムは数値入力を必要とする。前処理では、ワンホットエンコーディングのような技術を使って(テキストラベルのような)カテゴリーデータを数値フォーマットに変換することがよくある。
  • リサイズと補強: コンピュータビジョン(CV)では、前処理として画像を均一な次元にリサイズすることが含まれる。また、それに続いて データ拡張これは画像の修正版を作成することでデータセットを人為的に拡張する。

実際のAI/MLアプリケーション

データの前処理は、すべてのAI領域において普遍的な要件である。その応用は、単純なタスクでも複雑なタスクでも成功するために不可欠である。

  1. 医療画像解析: 脳腫瘍データセットのようなデータセットからMRIスキャン中の腫瘍を検出するためにYOLOモデルを学習させる前に、画像を前処理する必要がある。これには、スキャン機器の違いを考慮したピクセル強度値の正規化、モデルのバックボーンが必要とする一貫した入力サイズへの全画像のリサイズ、破損したファイルや誤ったラベル付け例を除去するためのデータセットのクリーニングが含まれる。これにより、畳み込みニューラルネットワーク(CNN)は、画像のばらつきではなく、モデルの真の病理学的特徴を確実に学習する。これについては、腫瘍検出にYOLOを使用するブログで詳しく見ることができる。
  2. AIを活用した小売予測 小売業における顧客需要を予測するモデルの場合、生の販売データには取引記録の欠落、商品名の不統一、スケールが大きく異なる特徴(「商品価格」と「販売個数」など)が含まれることが多い。ここでの前処理は、予測モデリングアルゴリズムが各要因の重要性を効果的に重み付けできるように、欠落している販売数をインプットし、商品名を標準化し、数値特徴を正規化することを含む。ビジネスのための前処理の概要は、これらのステップを強調します。

データ前処理と関連概念

データ前処理を他の関連するデータ管理用語と区別することは有益である。

  • データのクリーニング前述の通り、データクリーニングはデータ前処理のサブセットである。前処理はモデル用にデータを準備するプロセス全体であるが、クリーニングは特に、エラーの修正、欠損値の処理、未加工データセット内の不整合の除去に重点を置く。
  • データ増強データ増強は、学習データのサイズを人為的に増やすために使用されるテクニックである。オーグメンテーションは学習用データの準備の一部であるが、通常、元のデータセットに対してクリーニングやリサイズなどの初期前処理が完了した後に適用される。オーグメンテーションの目的はモデルの汎化を向上させることであり、前処理は元のデータを使えるようにすることである。
  • データ分析データ分析とは、データセットを調査して結論を導き出し、意思決定をサポートする、より広範な分野である。データの前処理は、探索的データ分析(EDA)、モデリング、データの可視化も含むデータ分析ワークフローの基礎となる最初のステップです。

Ultralytics HUBのようなプラットフォームは、データセットを管理し、データの準備からモデルのデプロイまで、MLのライフサイクルを効率化するのに役立ちます。注釈付きデータの前処理に関するガイドは、さらに実践的な洞察を提供します。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク