용어집

데이터 분석

데이터 분석이 데이터 품질을 최적화하고, 인사이트를 발견하고, 현명한 의사 결정을 지원함으로써 어떻게 AI와 ML의 성공을 이끄는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 분석은 데이터 또는 통계에 대한 체계적인 컴퓨터 분석입니다. 여기에는 유용한 정보를 발견하고, 결론을 도출하며, 의사 결정을 지원하기 위해 데이터를 조사, 정리, 변환, 모델링하는 작업이 포함됩니다. 인공지능(AI) 및 머신러닝(ML) 영역에서 데이터 분석은 데이터 세트를 준비하고, 데이터 특성을 이해하고, 의미 있는 특징을 추출하고, 모델 성능을 평가하여 궁극적으로 보다 강력하고 안정적인 AI 시스템을 구축하는 데 필수적입니다.

AI 및 머신 러닝에서 데이터 분석의 관련성

데이터 분석은 성공적인 AI 및 ML 프로젝트를 구축하는 기반이 됩니다. 다음과 같은 복잡한 모델을 학습하기 전에 Ultralytics YOLO와 같은 복잡한 모델을 훈련하기 전에 원시 데이터를 엄격하게 분석해야 합니다. 여기에는 오류와 불일치를 처리하기 위한 데이터 정리, 알고리즘에 적합한 데이터 형식을 지정하기 위한 데이터 전처리와 같은 필수 단계가 포함됩니다. 데이터 시각화와 관련된 탐색적 데이터 분석(EDA)과 같은 기술은 데이터의 기본 구조, 패턴, 이상값, 잠재적 편향성을 발견하는 데 도움이 됩니다. 이러한 측면을 이해하는 것은 적절한 모델을 선택하고 효과적인 학습에 필요한 데이터 품질을 보장하는 데 매우 중요합니다.

또한, 데이터 분석은 모델 학습 이후에도 중요한 역할을 합니다. 정확도 또는 평균 정밀도(mAP) 와 같은 메트릭을 사용하여 모델 성능을 평가하려면 실측 데이터와 비교하여 예측 결과를 분석해야 합니다. 이 분석 프로세스는 모델의 약점을 파악하고 오류 유형을 이해하며 하이퍼파라미터 튜닝과 같은 기술을 통해 추가 개선을 유도하는 데 도움이 됩니다.

데이터 분석과 관련 개념

종종 같은 의미로 사용되지만 데이터 분석은 관련 용어와 미묘한 차이가 있습니다:

  • 데이터 마이닝: 대규모 데이터 세트 내에서 이전에 알려지지 않은 새로운 패턴과 관계를 발견하는 데 특히 중점을 둡니다. 데이터 설명(설명 분석)과 과거 이벤트 진단(진단 분석)도 포함하는 광범위한 데이터 분석 분야 내의 특정 기술로 간주되기도 합니다. 데이터 마이닝 개념에 대해 더 자세히 알아볼 수 있습니다.
  • 머신 러닝: 명시적인 프로그래밍 없이 데이터를 학습하여 예측이나 결정을 내리는 알고리즘을 포함합니다. ML은 데이터 분석(특히 예측 및 처방 분석)에 자주 사용되는 도구이지만, 데이터 분석 자체는 데이터 수집, 정리, 탐색, 시각화 및 해석을 포함하는 광범위한 프로세스이며 복잡한 ML 모델 구축이 포함될 수도 있고 포함되지 않을 수도 있습니다. 머신 러닝(ML)에 대해 자세히 알아보세요.

실제 AI/ML 애플리케이션

데이터 분석은 다양한 AI 애플리케이션 전반에서 상당한 발전을 이끌고 있습니다:

  1. 의료 진단: 의료 이미지 분석에서 데이터 분석은 뇌종양 데이터 세트와 같은 MRI나 CT와 같은 대규모 의료 스캔 데이터 세트를 검사하여 질병을 나타낼 수 있는 미묘한 패턴을 식별하는 데 사용됩니다. 진단 AI 모델을 학습시키기 전에 분석은 여러 환자 그룹에 걸친 특징의 분포를 이해하여 데이터 세트가 대표성을 지니고 있는지 확인하고 잠재적인 편견을 식별하는 데 도움이 됩니다. 학습 후 분석은 모델의 진단 정확도를 평가하고 오류 유형을 식별하여 개선 방향을 안내합니다. NIH 생물의학 데이터 과학과 같은 리소스에서 그 중요성을 강조합니다.
  2. 소매 고객 행동 분석: 소매업체는 데이터 분석을 통해 구매 패턴을 이해하고 운영을 최적화합니다. 거래 데이터를 분석하면 사용자에게 상품을 제안하는 추천 시스템을 구축하는 데 도움이 됩니다. 오프라인 매장에서는 컴퓨터 비전(CV) 모델을 사용하여 비디오 피드를 분석하면 고객 트래픽 흐름과 진열대 상호 작용에 대한 인사이트를 얻을 수 있으며, 이를 통해 더 스마트한 소매 재고 관리를 위한 AI의 지원을 받을 수 있습니다. 분석은 이 데이터를 해석하여 매장 레이아웃과 제품 배치를 최적화하는 데 도움을 줍니다. 기업들은 이러한 목적을 위해 리테일용Google Cloud AI와 같은 플랫폼을 활용합니다.

도구 및 기술

데이터 분석가는 다양한 도구와 기법을 사용합니다. 회귀 및 시계열 분석을 포함한 통계적 방법은 기본입니다. Python 같은 프로그래밍 언어와 데이터 조작을 위한 Pandas, 머신러닝 작업을 위한 Scikit-learn과 같은 라이브러리가 널리 사용됩니다. Tableau 또는 Microsoft Power BI와 같은 데이터 시각화 도구는 결과를 전달하는 데 매우 중요합니다. 특정 ML 성능 인사이트의 경우, Ultralytics 분석 가이드에 자세히 설명된 대로 Ultralytics HUB와 같은 플랫폼에서 통합 분석을 제공합니다.

모두 보기