用語集

データマイニング

データマイニングがどのように生データを実用的な洞察に変換し、AI、ML、そしてヘルスケア、小売業などの実世界のアプリケーションに力を与えるかをご覧ください!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データマイニングとは、大規模なデータセットに隠されたパターン、相関関係、異常、その他の貴重な洞察を発見するプロセスである。機械学習(ML)、統計学、データベースシステムのテクニックを組み合わせ、生データを有用な情報や知識に変換する。人工知能(AI)の領域では、データマイニングは、データの特性を理解し、モデルトレーニングのためにデータを準備し、インテリジェントな意思決定を推進する根本的な構造を明らかにするための重要なステップとして機能する。核となる考え方は、しばしばデータベースにおける知識発見(KDD)と呼ばれる。

主要なデータマイニング技術

データマイニングは、さまざまな観点からデータを探索し、分析するために使用されるさまざまな技術を包含する。一般的な手法には次のようなものがある:

  • 分類データポイントをあらかじめ定義されたカテゴリーやクラスに割り当てること。スパムメール検出や画像分類などのタスクで使用される。
  • クラスタリンググループの事前知識なしに、類似したデータ点をグループ化すること。顧客のセグメンテーションや生物学的データにおける明確なパターンの特定に有用。K-Meansや DBSCANなどのアルゴリズムを参照。
  • 回帰販売予測や住宅価格の推定など、連続的な数値の予測。例には線形回帰が含まれる。
  • アソシエーション・ルール・マイニング大規模なデータセットから項目間の関係や関連性を発見する。購買習慣を理解するためのマーケットバスケット分析で有名。
  • 異常検知標準から大きく逸脱したデータポイントやイベントを特定し、不正検知やセンサーデータの異常値を特定するのに重要。
  • 次元削減多くの場合、主成分分析(PCA)のような技術を使用して、重要な情報を保持しながら、考慮する変数(特徴)の数を減らす。

データマイニングのプロセス

データマイニングは通常、いくつかの段階を含む反復プロセスである:

  1. ビジネス理解:プロジェクトの目的と要件の定義
  2. データの理解:データに慣れるための最初のデータ収集と調査。
  3. データの準備: データクリーニング(欠損値、ノイズの処理)、データ統合(ソースの結合)、データ選択(関連データの選択)、データ前処理(データのフォーマット)を含む。データの拡張もここで行われる。
  4. モデリング:パターンを特定するために、様々なマイニング技術(分類、クラスタリングなど)を選択し、適用すること。これには多くの場合、MLアルゴリズムが使用される。
  5. 評価:発見されたパターンの妥当性、新規性、有用性、理解可能性を評価する。精度や mAPのような指標がよく使われる。
  6. 展開:発見された知識を意思決定のために活用し、多くの場合、運用システムに統合したり、発見を報告したりする。これにはモデルの展開が含まれる。

データマイニングと関連概念

関連はあるが、データマイニングは他のデータに特化した分野とは異なる:

  • データ分析データ分析とは、意思決定をサポートするためにデータを検査、クリーニング、変換、モデル化するプロセス全体を包含する、より広い用語である。データマイニングは、データアナリティクスの中でも、新しい 隠れたパターンを発見することに焦点を当てた特定のステップである。アナリティクスは、記述統計や既知の関係に焦点を当てることが多いが、マイニングは未知のものを追求する。
  • 機械学習(ML)MLは、システムがデータから学習するアルゴリズムの開発に焦点を当てたAIの分野である。データマイニングは、パターンを発見するツールとしてMLアルゴリズムを使用するが、ML自体はより広く、様々なタスク(予測、分類など)のための学習アルゴリズムの作成と適用をカバーしている。データマイニングの目的は、主にデータからの知識発見である。
  • ビッグデータビッグデータとは、大量、高速、多種多様を特徴とするデータセットを指す。ビッグデータから価値を引き出すにはデータマイニング技術が不可欠だが、ビッグデータそのものはデータの性質を表すものであり、分析プロセスを表すものではない。ビッグデータのマイニングには、Apache Sparkのようなツールがよく使用される。

実際のAI/MLアプリケーション

データマイニングは多くの分野でイノベーションを推進する:

  1. 小売業とEコマース:小売企業は、取引データからアソシエーション・ルール・マイニング(マーケットバスケット分析)を行い、どの商品がよく一緒に買われているかを発見する。この洞察は、店舗レイアウト設計、ターゲット・プロモーション、オンライン推奨システム(「Xを買った顧客はYも買っている」)に反映される。これは、アマゾンのようなプラットフォームで見られるように、AI主導の在庫管理を最適化し、顧客体験をパーソナライズするのに役立つ。
  2. 医療分類やクラスタリングのようなデータマイニング技術は、患者記録(EHR)や医療画像を分析し、病気に関連するパターンを特定したり、患者の危険因子を予測したり、治療効果を評価したりする。例えば、診断データのマイニングは、がんのような疾患の早期発見(脳腫瘍データセットのようなデータセットの使用など)や、病院での再入院の予測に役立ち、NIHのような機関における患者ケアやリソース配分の改善に貢献します。ヘルスケアソリューションにおけるAIの例をもっと見る。

データマイニングとUltralytics

Ultralytics、データマイニングの原則が、以下のような最先端のコンピュータビジョン(CV)モデルの開発と展開の多くの側面を支えています。 Ultralytics YOLO.物体検出や 画像セグメンテーションのようなタスクのためのロバストモデルのトレーニングには、高品質でよく理解されたデータが必要です。データマイニング技術は、データの前処理データの収集とアノテーションの際に不可欠であり、データのクリーン化、バイアス(データセットの偏り)の特定、関連する特徴の選択を行い、最終的にモデルの精度を向上させます。

さらに、Ultralytics HUBは、ユーザーがデータセットを管理し、モデルを訓練できるプラットフォームを提供します。HUBエコシステム内のツールは、データセットの探索と理解を容易にし、ユーザーがデータマイニングの概念を適用して自身のMLワークフローを最適化し、データ増強のようなテクニックを効果的に活用することを可能にします。マイニングを通じてデータを理解することは、ハイパーパラメータのチューニングのようなステップを行う前に極めて重要です。コンピュータビジョンにおける機械学習とデータマイニングの役割については、当社のブログで詳しく説明しています。以下のようなフレームワーク PyTorchOpenCVのようなライブラリは、これらのプロセスと並行して使用される基本的なツールです。

すべて読む