用語集

データの前処理

機械学習のためのデータ前処理をマスターしよう。クリーニング、スケーリング、エンコードなどのテクニックを習得し、モデルの精度とパフォーマンスを向上させます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データ前処理は、機械学習パイプラインにおける重要なステップであり、生データを洗浄、変換、整理してモデル学習に適した状態にする。入力データの質は、機械学習モデルの性能と精度に大きく影響する。したがって、ロバストで信頼性の高いAIシステムを構築するためには、効果的なデータ前処理が不可欠である。このプロセスには通常、欠損値の処理、外れ値の処理、特徴の正規化または標準化、カテゴリ変数の数値表現への変換などが含まれる。

データ前処理の重要性

データの前処理は、いくつかの理由から不可欠である。第一に、モデルに投入されるデータが高品質であることを保証し、より正確で信頼性の高い予測につなげることができる。生データにはエラーや矛盾、ノイズが含まれていることが多く、それがモデルのパフォーマンスに悪影響を及ぼすことがあります。データをクリーニングし変換することで、これらの問題を軽減し、モデルの精度を向上させることができる。第二に、前処理はデータの複雑さを軽減し、モデルがパターンや関係を学習しやすくするのに役立ちます。その結果、学習時間が短縮され、より効率的なモデル性能が得られる。最後に、正規化や標準化のような前処理ステップは、機械学習アルゴリズム、特に勾配降下のような特徴スケールに敏感なアルゴリズムの安定性と収束性を向上させるのに役立ちます。

一般的なデータ前処理技術

データの前処理には、いくつかの手法が一般的に用いられている:

  • データのクリーニング:これは欠損値の処理、エラーの修正、データの矛盾の除去を含む。欠損値は、平均値、中央値、最頻値のインピュテーションや、k-最近傍インピュテーションのような高度なテクニックなど、さまざまな方法を用いてインピュテーションすることができます。
  • データの変換:これには正規化や標準化のような技術が含まれ、数値特徴を標準的な範囲にスケールし、大きな値を持つ特徴が学習プロセスを支配するのを防ぎます。
  • データの削減:これは、重要な情報を保持したままデータセットのサイズを縮小することである。主成分分析(PCA)のような技法は、最も重要な特徴を特定することでデータの次元を削減するために使用できる。
  • 特徴スケーリング:特徴スケーリングは、データの独立変数または特徴の範囲を正規化するために使用される手法である。Min-MaxスケーリングやZスコア正規化などの手法が一般的に使用される。
  • 特徴エンコーディング:カテゴリ変数は、機械学習モデルで使用するために数値表現にエンコードされることが多い。一般的なエンコーディング手法には、ワンホットエンコーディングやラベルエンコーディングがある。

実世界のアプリケーションにおけるデータ前処理

データの前処理は、現実世界のさまざまなAIや機械学習アプリケーションで重要な役割を果たしている。具体的な例を2つ紹介しよう:

  1. 自律走行車 自律走行車では、カメラ、ライダー、レーダーなどのさまざまなセンサーからのデータを、物体検出や経路計画などのタスクに使用する前に前処理する必要があります。前処理のステップには、ノイズ除去、画像補正、車両環境の統一された正確な表現を作成するためのセンサーフュージョンなどが含まれます。Ultralytics YOLO のようなコンピュータビジョンモデルは、リアルタイムで物体を正確に検出し分類するために、高品質の入力データに依存しています。
  2. 医用画像解析: 医用画像解析では、診断ツールの精度を向上させるために前処理が不可欠である。例えば、MRIやCTスキャンの画像は、腫瘍や病変のような重要な特徴を強調するために、ノイズ除去、コントラスト強調、正規化などの前処理を受けることがある。これらの前処理された画像は、画像セグメンテーションや分類などのタスクのためのディープラーニングモデルの学習に使用され、早期かつ正確な疾患診断に役立ちます。

データ前処理とその他の関連用語

データ前処理は幅広い用語であるが、データ準備パイプラインの他の関連概念と関連付けられることが多い:

  • データクリーニング: データクリーニングはデータ前処理のサブセットであり、特にデータのエラー、不整合、欠損値を特定し、修正することに重点を置く。データクリーニングは前処理の重要な部分であるが、データ品質の問題に焦点を絞ったものである。データ収集とアノテーションのベストプラクティスについては、こちらをご覧ください。
  • データ増強: データ増強とは、既存のデータポイントを修正したものを作成することで、学習データセットのサイズを人為的に増加させる技術である。これは、大量のデータを必要とする深層学習アプリケーションで特に有用である。データ増強はデータ前処理の一形態と考えることができますが、特に学習データに多くの可変性を導入することで、モデルの汎化を強化することを目的としています。アノテーションデータの前処理の詳細については、こちらをご覧ください。
  • フィーチャーエンジニアリング:フィーチャーエンジニアリングでは、モデルのパフォーマンスを向上させるために、新しいフィーチャーを作成したり、既存のフィーチャーを修正したりする。これには、相互作用項、多項式特徴、ドメイン固有特徴などを作成する技術が含まれる。フィーチャーエンジニアリングとデータ前処理はどちらもデータの質を向上させることを目的としていますが、フィーチャーエンジニアリングは新しい情報を作成することに重点を置いているのに対し、データ前処理は既存のデータのクリーニングと変換に重点を置いています。Ultralytics ドキュメントで、モデルトレーニングのヒントと モデル評価の洞察をご覧ください。

これらの前処理テクニックを理解し適用することで、実務家は機械学習モデルが高品質なデータで学習されることを保証し、パフォーマンス、精度、信頼性の向上につなげることができます。モデル展開のオプションと モデル展開のベストプラクティスの詳細については、こちらをご覧ください。

すべて読む