用語集

データマイニング

データマイニングがどのように生データを実用的な洞察に変換し、AI、ML、そしてヘルスケア、小売業などの実世界のアプリケーションに力を与えるかをご覧ください!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データマイニングとは、大規模なデータセットに隠されたパターン、傾向、貴重な洞察を発見するプロセスである。統計的手法、機械学習(ML)アルゴリズム、データベースシステムを組み合わせて、生データを理解しやすく実用的な情報に変換する。このプロセスは人工知能(AI)の基本であり、予測モデルを構築し、さまざまな分野でデータ駆動型の意思決定を可能にする基盤を提供する。効果的なデータマイニングは、組織がプロセスを最適化し、顧客の行動を理解し、単純なデータ分析ではわからないような関係を明らかにすることで、新たな機会を特定するのに役立ちます。

データマイニングの主要テクニック

データマイニングは、様々な種類の情報を抽出するために様々な技術を利用する:

  • 分類:コレクション内のアイテムを目標のカテゴリまたはクラスに割り当てること。目標は、データ内の各ケースについてターゲットクラスを正確に予測することである(例えば、顧客の解約を予測する)。多くの場合、教師あり学習法が用いられる。
  • クラスタリング:グループに関する事前の知識なしに、類似したデータ点をグループ化すること。K-Meansや DBSCANのようなアルゴリズムは、教師なし学習の一例として、データ内の自然なグループ分けを識別するのに役立つ。
  • 回帰:連続的な値を予測する(例えば、広さや場所などの特徴に基づいて住宅価格を予測する)。変数間の関係をモデル化する。
  • アソシエーション・ルール・マイニング:大規模データベースの変数間の関係を発見し、しばしばマーケットバスケット分析に使用される(例えば、パンを購入する顧客は牛乳も購入する傾向があることを発見する)。
  • 異常検知標準から著しく逸脱したデータポイントやイベントを特定することで、不正検出や製造における欠陥の特定などのアプリケーションに極めて重要です。

データマイニングと関連用語

データマイニングは、他のデータ専門分野とは異なる:

  • データ分析:過去の実績や現在の傾向を把握するため、記述統計、レポーティング、データの視覚化に重点を置く。データマイニングは、予測モデリングやパターン発見に重点を置き、さらに踏み込んだものとなることが多い。
  • 機械学習(ML):データマイニングで使用されるアルゴリズムとツールを提供し、パターンを見つけてモデルを構築する。データマイニングは、データから知識を抽出するためにこれらの(そして他の)方法を適用する広範なプロセスである。画像分類のような多くのMLタスクは、ビジュアルデータに適用されるデータマイニングの原理によって実現されるアプリケーションである。
  • ビッグデータ処理に専門的なツールや技術を必要とする、非常に大規模なデータセットを指す。洞察力を抽出するためにデータマイニング技術がビッグデータに適用されることが多いが、データマイニング自体はどのような規模のデータセットに対しても実行可能である。CRISP-DM手法は、データマイニングプロジェクトの標準プロセスモデルを提供する。

データマイニングの実世界での応用

データマイニングの技術は、多くの分野でイノベーションと効率化を推進している。以下に2つの例を挙げる:

  1. 小売店のバスケット分析:スーパーマーケットでは、購買習慣を理解するために、取引データのアソシエーション・ルール・マイニングを使用している。顧客がポテトチップスとソーダを一緒に購入することが多いことを発見すれば、小売業におけるAIの戦略で説明したように、これらの商品を近くに置いたり、バンドルキャンペーンを提供したりすることにつながるかもしれない。
  2. ヘルスケア予測診断:病院や研究者は、患者のデータ(症状、病歴、検査結果)に分類やクラスタリング技術を適用し、糖尿病や心臓病などの病気の可能性を予測する。これは、早期発見と個別化された治療計画を支援するもので、ヘルスケアにおけるAIの重要な側面である。例えば、医用画像診断の腫瘍検出に使われるような技術は、膨大な医用データセットから採掘されたパターンに大きく依存している。

データマイニングとUltralytics

Ultralytics、データマイニングの原則が、以下のような最先端のコンピュータビジョン(CV)モデルの開発と展開の多くの側面を支えています。 Ultralytics YOLO.物体検出や 画像セグメンテーションのようなタスクのためのロバストモデルのトレーニングには、高品質でよく理解されたデータが必要です。データマイニング技術は、データの前処理データの収集とアノテーションの際に不可欠であり、データのクリーン化、バイアス(データセットの偏り)の特定、関連する特徴の選択を行い、最終的にモデルの精度を向上させます。

さらに、Ultralytics HUBは、ユーザーがデータセットを管理し、モデルを訓練できるプラットフォームを提供します。HUBエコシステム内のツールはデータセットの探索と理解を容易にし、ユーザーはデータマイニングの概念を適用して自身のMLワークフローを最適化し、データ増強のようなテクニックを効果的に活用することができます。マイニングを通じてデータを理解することは、ハイパーパラメータのチューニングのようなステップを行う前に極めて重要です。コンピュータ・ビジョンにおける機械学習とデータマイニングの役割については、私たちのブログで詳しく学ぶことができます。

すべて読む