用語集

データ分析

データの質を最適化し、洞察を明らかにし、スマートな意思決定を可能にすることで、データ分析がどのようにAIとMLを成功に導くかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データ分析とは、データまたは統計の体系的な計算分析である。有用な情報を発見し、結論を導き出し、意思決定を支援することを目的として、データの調査、クリーニング、変換、モデリングを行う。人工知能(AI)や機械学習(ML)の領域では、データ解析はデータセットの準備、データの特性の理解、意味のある特徴の抽出、モデル性能の評価に不可欠であり、最終的にはより堅牢で信頼性の高いAIシステムにつながります。

AIと機械学習におけるデータ分析の妥当性

データ分析は、AIやMLプロジェクトが成功するための基礎となる。複雑なモデルをトレーニングする前に Ultralytics YOLOのような複雑なモデルをトレーニングする前に、生データは厳密な分析を受けなければなりません。これには、エラーや不整合を処理するためのデータクリーニングや、アルゴリズム用にデータを適切にフォーマットするためのデータ前処理などの重要なステップが含まれる。探索的データ分析(EDA)のようなテクニックは、多くの場合データの可視化を伴うが、データ内の根本的な構造、パターン、外れ値、潜在的なバイアスの発見に役立つ。これらの側面を理解することは、適切なモデルを選択し、効果的なトレーニングに必要なデータ品質を確保するために非常に重要です。

さらに、データ分析はモデル学習後に重要な役割を果たす。精度や 平均平均精度(mAP)のようなメトリクスを使用してモデルのパフォーマンスを評価するには、グランドトゥルースデータに対する予測結果を分析する必要があります。この分析プロセスは、モデルの弱点を特定し、エラーのタイプを理解し、ハイパーパラメータチューニングのような技術を通じてさらなる改善を導くのに役立ちます。

データ分析 vs. 関連概念

データ分析はしばしば同じ意味で使われるが、関連する用語とは微妙に異なる:

  • データマイニング:大規模なデータセットの中から、これまで知られていなかった新しいパターンや関係を発見することに重点を置く。データの記述(記述分析)や過去の事象の診断(診断分析)も含む、より広範なデータ分析分野の中の特定の手法と見なされることが多い。データマイニングの概念については、こちらをご覧ください。
  • 機械学習:データから学習し、明示的なプログラミングなしに予測や意思決定を行うアルゴリズムを含む。MLは、データ分析(特に予測分析および処方分析)において頻繁に使用されるツールであるが、データ分析自体は、データの収集、クリーニング、探索、視覚化、解釈を含むより広範なプロセスであり、複雑なMLモデルの構築を伴う場合もあれば、伴わない場合もある。機械学習(ML)についてもっと読む.

実際のAI/MLアプリケーション

データ解析は、様々なAIアプリケーションにおいて大きな進歩をもたらす:

  1. 医療診断 医療画像解析では、データ解析は医療スキャン(脳腫瘍データセットなどのMRIやCTなど)の大規模なデータセットを調べ、病気を示す可能性のある微妙なパターンを特定するために使用される。診断AIモデルをトレーニングする前に、アナリティクスは異なる患者グループ全体の特徴の分布を理解し、データセットが代表的であることを確認し、潜在的なバイアスを特定するのに役立ちます。トレーニング後、アナリティクスはモデルの診断精度を評価し、エラーの種類を特定し、改良を導きます。NIH Biomedical Data Scienceのようなリソースは、その重要性を強調しています。
  2. 小売業の顧客行動分析小売業はデータ分析を利用して購買パターンを把握し、オペレーションを最適化している。取引データの分析は、ユーザーに商品を提案するレコメンデーション・システムの構築に役立ちます。実店舗では、コンピュータ・ビジョン(CV)モデルを使用してビデオ・フィードを分析することで、顧客の動線と棚の相互作用に関する洞察を得ることができ、よりスマートな小売在庫管理のためのAIに役立ちます。アナリティクスは、このデータを解釈して店舗レイアウトや商品配置を最適化するのに役立つ。企業はこのような目的のために、Google Cloud AI for Retailのようなプラットフォームを活用しています。

ツールとテクニック

データアナリストは様々なツールやテクニックを用いる。回帰分析や時系列分析などの統計的手法は基本的なものである。データ操作のためのPandasやMLタスクのためのScikit-learnなどのライブラリを備えたPythonようなプログラミング言語が広く使われている。Tableauや Microsoft Power BIのようなデータ可視化ツールは、発見を伝えるために重要である。特定のMLパフォーマンスに関する洞察のために、Ultralytics HUBのようなプラットフォームは、Ultralytics アナリティクスガイドに詳述されているように、統合されたアナリティクスを提供します。

すべて読む