용어집

데이터 마이닝

데이터 마이닝이 어떻게 원시 데이터를 실행 가능한 인사이트로 변환하여 의료, 소매업 등의 AI, ML 및 실제 애플리케이션을 지원하는지 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 마이닝은 대규모 데이터 세트에 숨겨진 패턴, 상관관계, 이상 징후 및 기타 가치 있는 인사이트를 발견하는 프로세스입니다. 머신러닝(ML), 통계, 데이터베이스 시스템의 기술을 결합하여 원시 데이터를 유용한 정보와 지식으로 변환합니다. 인공지능(AI) 영역에서 데이터 마이닝은 데이터 특성을 이해하고, 모델 학습을 위해 데이터를 준비하며, 지능적인 의사 결정을 이끌어내는 기본 구조를 밝혀내는 데 중요한 역할을 합니다. 이 핵심 아이디어는 흔히 데이터베이스에서의 지식 발견(KDD)이라고 불립니다.

주요 데이터 마이닝 기술

데이터 마이닝은 다양한 관점에서 데이터를 탐색하고 분석하는 데 사용되는 다양한 기술을 포괄합니다. 몇 가지 일반적인 방법은 다음과 같습니다:

  • 분류: 미리 정의된 카테고리 또는 클래스에 데이터 포인트를 할당합니다. 스팸 이메일 탐지 또는 이미지 분류와 같은 작업에 사용됩니다.
  • 클러스터링: 그룹에 대한 사전 지식 없이 유사한 데이터 포인트를 함께 그룹화합니다. 고객 세분화 또는 생물학적 데이터에서 뚜렷한 패턴을 식별하는 데 유용합니다. K-Means 또는 DBSCAN과 같은 알고리즘을 참조하세요.
  • 회귀: 판매량 예측이나 집값 추정과 같이 연속적인 수치 값을 예측하는 것입니다. 선형 회귀를 예로 들 수 있습니다.
  • 연관 규칙 마이닝: 대규모 데이터 세트에서 항목 간의 관계 또는 연관성을 발견하는 것으로, 구매 습관을 이해하기 위한 시장 바구니 분석에 사용되는 것으로 유명합니다.
  • 이상 징후 탐지: 정상에서 크게 벗어난 데이터 포인트 또는 이벤트를 식별하는 것으로, 사기 탐지 또는 센서 데이터에서 이상값을 식별하는 데 중요합니다.
  • 차원 축소: 중요한 정보를 보존하면서 고려 중인 변수(특징)의 수를 줄이는 것으로, 주로 주성분 분석(PCA)과 같은 기법을 사용합니다.

데이터 마이닝 프로세스

데이터 마이닝은 일반적으로 여러 단계가 포함된 반복적인 프로세스입니다:

  1. 비즈니스 이해: 프로젝트 목표 및 요구 사항 정의
  2. 데이터 이해: 초기 데이터 수집 및 탐색을 통해 데이터에 익숙해지는 과정입니다.
  3. 데이터 준비: 여기에는 데이터 정리 (누락된 값, 노이즈 처리), 데이터 통합(소스 결합), 데이터 선택(관련 데이터 선택), 데이터 전처리 (데이터 서식 지정)가 포함됩니다. 데이터 증강도 여기에 적용될 수 있습니다.
  4. 모델링: 패턴을 식별하기 위해 다양한 마이닝 기법(예: 분류, 클러스터링)을 선택하고 적용하는 작업입니다. 여기에는 종종 ML 알고리즘을 사용하는 것이 포함됩니다.
  5. 평가: 발견된 패턴의 유효성, 참신성, 유용성 및 이해도를 평가합니다. 정확도 또는 mAP와 같은 메트릭이 자주 사용됩니다.
  6. 배포: 발견한 지식을 의사 결정에 활용하고, 종종 운영 시스템에 통합하거나 결과를 보고하는 단계입니다. 여기에는 모델 배포가 포함될 수 있습니다.

데이터 마이닝과 관련 개념

관련성이 있긴 하지만 데이터 마이닝은 다른 데이터 중심 분야와 다릅니다:

  • 데이터 분석: 데이터 분석은 의사 결정을 지원하기 위해 데이터를 검사, 정리, 변환 및 모델링하는 전체 프로세스를 포괄하는 광범위한 용어입니다. 데이터 마이닝은 새롭고 숨겨진 패턴을 발견하는 데 초점을 맞춘 데이터 분석의 특정 단계입니다. 분석은 종종 설명적 통계와 알려진 관계에 초점을 맞추는 반면, 마이닝은 미지의 것을 찾습니다.
  • 머신 러닝(ML): ML은 시스템이 데이터로부터 학습할 수 있는 알고리즘을 개발하는 데 중점을 둔 AI의 한 분야입니다. 데이터 마이닝은 ML 알고리즘을 패턴을 발견하는 도구로 사용하지만, ML 자체는 다양한 작업(예측, 분류 등)을 위한 학습 알고리즘의 생성 및 적용을 포함하는 더 넓은 의미의 개념입니다. 데이터 마이닝의 목표는 주로 데이터에서 지식을 발견하는 것입니다.
  • 빅 데이터: 빅 데이터는 대용량, 고속, 다양성을 특징으로 하는 데이터 집합을 말합니다. 데이터 마이닝 기술은 빅데이터에서 가치를 추출하는 데 필수적이지만, 빅데이터 자체는 분석 프로세스가 아니라 데이터의 성격을 설명합니다. Apache Spark와 같은 도구는 빅데이터 마이닝에 자주 사용됩니다.

실제 AI/ML 애플리케이션

데이터 마이닝은 여러 부문에서 혁신을 주도합니다:

  1. 소매업 및 전자상거래: 소매업체는 거래 데이터에서 연관 규칙 마이닝(마켓 바스켓 분석)을 사용해 어떤 제품을 자주 함께 구매하는지 파악합니다. 이러한 인사이트는 매장 레이아웃 디자인, 타겟 프로모션에 정보를 제공하고 온라인 추천 시스템 ("X를 구매한 고객이 Y도 구매했습니다")을 강화합니다. 이는 Amazon과 같은 플랫폼에서 볼 수 있듯이 AI 기반 재고 관리를 최적화하고 고객 경험을 개인화하는 데 도움이 됩니다.
  2. 헬스케어: 분류 및 클러스터링과 같은 데이터 마이닝 기술은 환자 기록(EHR)과 의료 이미지를 분석하여 질병과 관련된 패턴을 파악하고, 환자의 위험 요인을 예측하거나, 치료 효과를 평가합니다. 예를 들어, 진단 데이터 마이닝은 암과 같은 질환을 조기에 발견하거나(예: 뇌종양 데이터 세트와 같은 데이터 세트 사용) 병원 재입원을 예측하는 데 도움을 주어 NIH와 같은 기관에서 환자 치료와 자원 배분을 개선하는 데 기여할 수 있습니다. 더 많은 사례를 보려면 의료 솔루션에서의 AI를 살펴보세요.

데이터 마이닝 및 Ultralytics

Ultralytics 데이터 마이닝 원칙은 다음과 같은 최첨단 컴퓨터 비전(CV) 모델 개발 및 배포의 여러 측면을 뒷받침합니다. Ultralytics YOLO. 물체 감지나 이미지 분할과 같은 작업을 위한 강력한 모델을 훈련하려면 고품질의 잘 이해된 데이터가 필요합니다. 데이터 마이닝 기술은 데이터를 정리하고, 편향(데이터 세트 편향)을 식별하고, 관련 기능을 선택하여 궁극적으로 모델 정확도를 개선하기 위한 데이터 전처리와 데이터 수집 및 주석 달기 과정에서 필수적입니다.

또한, Ultralytics 허브는 사용자가 데이터 세트를 관리하고 모델을 훈련할 수 있는 플랫폼을 제공합니다. HUB 에코시스템 내의 도구는 데이터 세트의 탐색과 이해를 용이하게 하여 사용자가 데이터 마이닝 개념을 적용하여 자신의 ML 워크플로우를 최적화하고 데이터 증강과 같은 기술을 효과적으로 활용할 수 있도록 해줍니다. 하이퍼파라미터 튜닝과 같은 단계를 수행하기 전에 마이닝을 통해 데이터를 이해하는 것이 중요합니다. 컴퓨터 비전에서 머신러닝과 데이터 마이닝의 역할에 대한 자세한 내용은 블로그에서 확인할 수 있습니다. 다음과 같은 프레임워크 PyTorch 와 같은 프레임워크와 OpenCV와 같은 라이브러리는 이러한 프로세스와 함께 사용되는 기본 도구입니다.

모두 보기