용어집

데이터 마이닝

데이터 마이닝이 어떻게 원시 데이터를 실행 가능한 인사이트로 변환하여 의료, 소매업 등의 AI, ML 및 실제 애플리케이션을 지원하는지 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 마이닝은 대규모 데이터 세트에 숨겨진 패턴, 트렌드, 가치 있는 인사이트를 발견하는 프로세스입니다. 데이터 마이닝은 통계적 방법, 머신러닝(ML) 알고리즘, 데이터베이스 시스템을 조합하여 원시 데이터를 이해 가능하고 실행 가능한 정보로 변환합니다. 이 프로세스는 인공지능(AI)의 기본으로, 예측 모델을 구축하고 다양한 분야에서 데이터 기반 의사 결정을 내릴 수 있는 토대를 제공합니다. 효과적인 데이터 마이닝은 단순한 데이터 분석으로는 명확하지 않을 수 있는 관계를 발견하여 프로세스를 최적화하고, 고객 행동을 이해하며, 새로운 기회를 파악하는 데 도움이 됩니다.

데이터 마이닝의 핵심 기술

데이터 마이닝은 다양한 기술을 활용하여 다양한 유형의 정보를 추출합니다:

  • 분류: 컬렉션의 항목을 대상 카테고리 또는 클래스에 할당하는 작업입니다. 목표는 데이터의 각 사례에 대한 목표 클래스를 정확하게 예측하는 것입니다(예: 고객 이탈 예측). 여기에는 종종 지도 학습 방법이 사용됩니다.
  • 클러스터링: 그룹에 대한 사전 지식 없이 유사한 데이터 포인트를 함께 그룹화하는 것입니다. 비지도 학습의 예로, K-Means 또는 DBSCAN과 같은 알고리즘은 데이터에서 자연스러운 그룹을 식별하는 데 도움이 됩니다.
  • 회귀: 연속 값 예측(예: 크기 및 위치와 같은 특징을 기반으로 주택 가격 예측). 변수 간의 관계를 모델링합니다.
  • 연관 규칙 마이닝: 대규모 데이터베이스에서 변수 간의 관계를 발견하는 것으로, 시장 바구니 분석에 자주 사용됩니다(예: 빵을 구매하는 고객이 우유도 구매하는 경향이 있다는 것을 발견하는 것).
  • 이상 징후 탐지: 정상에서 크게 벗어난 데이터 포인트나 이벤트를 식별하는 것으로, 사기 탐지나 제조 결함 식별과 같은 애플리케이션에 매우 중요합니다.

데이터 마이닝과 관련 용어

관련성이 있긴 하지만 데이터 마이닝은 다른 데이터 중심 분야와는 다릅니다:

  • 데이터 분석: 설명적 통계, 보고 및 데이터 시각화에 더 중점을 두어 과거 성과와 현재 추세를 이해합니다. 데이터 마이닝은 여기서 더 나아가 예측 모델링과 패턴 발견을 강조하는 경우가 많습니다.
  • 머신 러닝(ML): 데이터 마이닝에서 패턴을 찾고 모델을 구축하는 데 사용되는 알고리즘과 도구를 제공합니다. 데이터 마이닝은 데이터에서 지식을 추출하기 위해 이러한 방법과 다른 방법을 적용하는 광범위한 프로세스입니다. 이미지 분류와 같은 많은 ML 작업은 시각적 데이터에 데이터 마이닝 원칙을 적용하여 구현되는 애플리케이션입니다.
  • 빅 데이터: 처리하기 위해 특수한 도구와 기술이 필요한 매우 큰 데이터 집합을 말합니다. 데이터 마이닝 기법은 종종 인사이트를 추출하기 위해 빅데이터에 적용되지만, 데이터 마이닝 자체는 모든 규모의 데이터 세트에서 수행될 수 있습니다. CRISP-DM 방법론은 데이터 마이닝 프로젝트를 위한 표준 프로세스 모델을 제공합니다.

데이터 마이닝의 실제 적용 사례

데이터 마이닝 기술은 다양한 분야에서 혁신과 효율성을 촉진합니다. 다음은 두 가지 예입니다:

  1. 소매점 장바구니 분석: 슈퍼마켓에서는 거래 데이터에 대한 연관 규칙 마이닝을 사용하여 구매 습관을 파악합니다. 고객이 감자칩과 탄산음료를 함께 자주 구매한다는 사실을 발견하면 소매업의 AI 전략에서 설명한 대로 해당 품목을 서로 가까이 배치하거나 번들 프로모션을 제공할 수 있습니다.
  2. 의료 예측 진단: 병원과 연구자들은 환자 데이터(증상, 병력, 검사 결과)에 분류 및 클러스터링 기술을 적용하여 당뇨병이나 심장 질환과 같은 질병의 가능성을 예측합니다. 이는 의료 분야에서 AI의 핵심 요소인 조기 발견과 개인화된 치료 계획을 수립하는 데 도움이 됩니다. 예를 들어, 의료 영상에서 종양 탐지에 사용되는 것과 유사한 기술은 방대한 의료 데이터 세트에서 채굴된 패턴에 크게 의존합니다.

데이터 마이닝 및 Ultralytics

Ultralytics 데이터 마이닝 원칙은 다음과 같은 최첨단 컴퓨터 비전(CV) 모델 개발 및 배포의 여러 측면을 뒷받침합니다. Ultralytics YOLO. 물체 감지나 이미지 분할과 같은 작업을 위한 강력한 모델을 훈련하려면 고품질의 잘 이해된 데이터가 필요합니다. 데이터 마이닝 기술은 데이터를 정리하고, 편향(데이터 세트 편향)을 식별하고, 관련 기능을 선택하여 궁극적으로 모델 정확도를 개선하기 위한 데이터 전처리와 데이터 수집 및 주석 달기 과정에서 필수적입니다.

또한, Ultralytics 허브는 사용자가 데이터 세트를 관리하고 모델을 훈련할 수 있는 플랫폼을 제공합니다. HUB 에코시스템 내의 도구는 데이터 세트의 탐색과 이해를 용이하게 하여 사용자가 데이터 마이닝 개념을 적용하여 자신의 ML 워크플로우를 최적화하고 데이터 증강과 같은 기술을 효과적으로 활용할 수 있도록 해줍니다. 하이퍼파라미터 튜닝과 같은 단계를 수행하기 전에 마이닝을 통해 데이터를 이해하는 것이 중요합니다. 컴퓨터 비전에서 머신러닝과 데이터 마이닝의 역할에 대한 자세한 내용은 블로그에서 확인할 수 있습니다.

모두 보기