用語集

データ分析

データの質を最適化し、洞察を明らかにし、スマートな意思決定を可能にすることで、データ分析がどのようにAIとMLを成功に導くかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データ分析には、データや統計の体系的な計算による検証が含まれる。有用な情報を発見し、結論を導き出し、十分な情報に基づいた意思決定をサポートするために、データを検査、クリーニング、変換、モデル化するプロセスが含まれる。人工知能(AI)や機械学習(ML)の分野では、データ解析はデータセットの準備、探索的データ解析(EDA)などの手法によるデータ特性の理解、意味のある特徴の抽出、モデル性能の評価などの基礎となる。この厳密な分析は、最終的に以下のような洗練されたモデルを含む、より堅牢で信頼性の高いAIシステムの構築に貢献します。 Ultralytics YOLOのような洗練されたモデルも含まれます。

AIと機械学習におけるデータ分析の妥当性

データ分析は、AIやMLプロジェクトを成功させるための基礎となる。複雑なモデルをトレーニングする前に、生データを徹底的に分析する必要がある。これには、エラーや不整合に対処するためのデータクリーニングや、アルゴリズムに適したデータ形式にするためのデータ前処理などの重要なステップが含まれる。EDAのような技術は、しばしばSeabornのようなツールを使ったデータの可視化によって強化され、データ内の根本的なパターン、構造、外れ値、潜在的な偏りを明らかにするのに役立つ。これらの側面を深く理解することは、適切なモデルを選択し、データ品質を確保し、効果的なトレーニングを達成するために非常に重要であり、多くの場合、Ultralytics HUBのようなプラットフォームで管理されます。

さらに、モデルのトレーニング後もデータ分析は不可欠です。モデル・パフォーマンスの評価には、精度や 平均平均精度(mAP)のようなメトリクスを使用して、グランド・トゥルース・データに対する予測結果を分析することが含まれます。YOLO パフォーマンス測定基準については、ガイドで詳しく説明しています。この分析プロセスは、モデルの弱点を突き止め、エラーの種類を理解し(多くの場合、混同行列を使用して視覚化される)、ハイパーパラメータチューニングや異なるモデルアーキテクチャの探索などの方法による改善を導くのに役立ちます。フレームワーク PyTorchTensorFlowのようなフレームワークや、データ操作のためのPandasのようなライブラリは、このプロセスにおける一般的なツールです。

データ分析対関連概念

関連はあるが、データ分析は他のいくつかの用語とは異なる:

  • データマイニング大規模なデータセットから、これまで知られていなかった新たなパターンや関係を発見することに主眼を置く。データ分析では、既知のデータ側面の分析や特定の仮説の検証を行うことが多いが、探索的発見を含むこともある。コンピュータビジョンにおけるデータマイニングの役割については、こちらをご覧ください。
  • 機械学習(ML)明示的なプログラミングなしに予測や意思決定を行うために、データ(多くの場合、データ分析によって準備・分析されたもの)から学習するアルゴリズムを使用する。アナリティクスは、MLモデルが消費する洞察と準備されたデータを提供する。MLはAIを実現するための手法であり、データ分析はデータに適用されるプロセスである。
  • ビッグデータ非常に大規模で複雑なデータセットを指す。データ分析とは、それが「ビッグデータ」であるか否かにかかわらず、データから価値と洞察を引き出すプロセスである。ビッグデータ分析では、このような大規模データセットに特化した分析手法を適用する。
  • データの可視化データや情報をグラフィカルに表現すること。データを探索し、発見を効果的に伝えるために、データ分析の広範なプロセスの中で使用される重要なツールです。TensorBoard統合ガイドで例をご覧ください。
  • ビジネスインテリジェンス(BI):多くの場合、ダッシュボードやレポートを通じてビジネス上の意思決定に情報を提供するために、過去のデータを使用した記述的分析(何が起こったか)に重点を置く。データ分析には、記述的分析、診断的分析、予測的分析、処方的分析が含まれる。詳細はガートナーのIT用語集をご覧ください。

実際のAI/MLアプリケーション

データ分析は、数多くのAIアプリケーションの進歩を促進する上で重要な役割を担っている:

  1. 医療画像分析AIモデルが医療スキャン(X線やMRIなど)の異常を検出する前に、データ分析が広範囲に使用される。生画像は前処理(正規化、サイズ変更)され、クリーニングされる。探索的解析は、脳腫瘍データセットのようなデータセット内の画質のばらつきや患者の属性を理解するのに役立ちます。分析により、関連する特徴を特定し、診断モデルの性能(精度、感度、特異度)を専門家のアノテーションに照らして評価し、臨床使用のための改善を導く。NIH Biomedical Data Science initiativeのようなリソースは、その重要性を強調しています。YOLO モデルが医用画像診断における腫瘍検出にどのように使用できるかをご覧ください。
  2. AI主導の小売在庫管理小売企業はデータ分析を用いて在庫レベルを最適化し、無駄を省く。これには、過去の販売データの分析、季節トレンドの特定、顧客の購買パターンの理解(予測モデリング)などが含まれる。さらに、分析した視覚データを使って学習させたモデルを搭載したコンピュータ・ビジョン(CV)システムは、棚の在庫をリアルタイムで監視することができる。データ分析では、検出精度を分析し、在庫データを販売結果にリンクさせることで、これらのシステムの有効性を評価し、よりスマートな補充戦略を可能にします。業界のソリューションについては、Google Cloud AI for Retail をご覧ください。Ultralytics 、よりスマートな小売業の在庫管理とAIによる小売業の効率化を実現 するためのAIに関する洞察を提供します。

データ分析は、ヘルスケアから 農業製造業まで、多様な領域にわたって効果的なAIおよびMLシステムを構築、改良、検証するために必要な重要な洞察を提供します。Ultralytics HUBのようなプラットフォームを活用することで、データ分析からモデル展開までのプロセスを効率化することができます。

すべて読む