용어집

빅 데이터

AI/ML에서 빅데이터의 힘을 발견하세요! 대규모 데이터 세트가 머신 러닝, 처리 도구, 실제 애플리케이션을 어떻게 촉진하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

빅 데이터는 기존 데이터 처리 소프트웨어의 기능을 뛰어넘어 빠른 속도로 생성되는 매우 크고 다양한 데이터 세트를 말합니다. 이는 단순히 데이터의 양뿐만 아니라 데이터의 복잡성과 의미 있는 인사이트를 추출하기 위해 분석해야 하는 속도도 중요합니다. 이러한 방대한 데이터 세트는 강력한 머신러닝(ML)딥러닝(DL) 모델 학습을 위한 연료가 되기 때문에 인공지능(AI) 시대에는 빅데이터를 이해하는 것이 매우 중요합니다.

빅 데이터의 특성(대)

빅 데이터는 흔히 '대'라고 하는 몇 가지 주요 속성으로 특징지어집니다:

  • 볼륨: 이는 생성 및 수집되는 데이터의 규모를 의미하며, 테라바이트, 페타바이트 또는 엑사바이트 단위로 측정되는 경우가 많습니다. 이러한 볼륨을 처리하려면 확장 가능한 스토리지 및 처리 인프라가 필요하며, 종종 클라우드 컴퓨팅 솔루션을 활용합니다. IoT 디바이스의 센서 데이터나 대규모 웹사이트의 사용자 활동 로그 등이 그 예입니다.
  • 속도: 새로운 데이터가 생성되고 처리해야 하는 속도를 나타냅니다. 금융 시장 데이터나 소셜 미디어 스트림 처리와 같이 실시간 추론과 분석이 필요한 애플리케이션이 많습니다. Apache Kafka와 같은 기술은 고속 데이터 스트림을 처리하는 데 자주 사용됩니다.
  • 다양성: 빅데이터는 정형 데이터(데이터베이스 등), 반정형 데이터(JSON, XML), 비정형 데이터(텍스트 문서, 이메일, 이미지, 동영상 등) 등 다양한 형태로 존재합니다. 이러한 다양한 데이터는 저장, 처리, 분석에 어려움을 줍니다. 컴퓨터 비전과 자연어 처리(NLP) 의 작업은 주로 비정형 데이터를 다룹니다.
  • 진실성: 이는 데이터의 품질, 정확성 및 신뢰성과 관련이 있습니다. 빅 데이터는 종종 지저분하거나 불완전하거나 일관성이 없을 수 있으므로 분석이나 모델 학습에 안정적으로 사용하기 전에 상당한 데이터 정리와 전처리가 필요합니다. 신뢰할 수 있는 AI 시스템을 구축하려면 데이터의 정확성을 보장하는 것이 중요합니다.
  • 가치: 궁극적으로 빅데이터를 수집하고 분석하는 목적은 의사결정에 정보를 제공하고 프로세스를 최적화하거나 새로운 제품과 서비스를 창출할 수 있는 가치 있는 인사이트를 추출하는 것입니다. 여기에는 고급 분석과 머신러닝 기술을 적용하여 숨겨진 패턴과 상관관계를 발견하는 것이 포함됩니다.

AI 및 머신 러닝의 관련성

빅 데이터는 최신 AI와 머신러닝의 성공에 필수적인 요소입니다. 크고 다양한 데이터 세트를 통해 모델, 특히 심층 신경망은 복잡한 패턴을 학습하고 더 높은 정확도를 달성할 수 있습니다. 다음과 같은 정교한 모델 학습 Ultralytics YOLO 와 같은 정교한 모델을 훈련하려면 라벨이 지정된 방대한 양의 이미지 또는 비디오 데이터가 필요한 경우가 많습니다. 이러한 데이터 세트를 처리하려면 GPU와 같은 강력한 하드웨어와 Apache Spark와 같은 분산 컴퓨팅 프레임워크 또는 대규모 모델 학습을 관리하기 위한 Ultralytics HUB와 같은 도구가 통합된 플랫폼이 필요합니다.

실제 AI/ML 애플리케이션

빅 데이터는 다양한 산업 분야에서 수많은 AI 기반 애플리케이션의 원동력이 되고 있습니다:

  1. 개인 맞춤형 추천 시스템: 넷플릭스와 같은 스트리밍 서비스와 아마존과 같은 거대 이커머스 기업은 ML 알고리즘을 사용하여 방대한 사용자 상호 작용 데이터 세트(시청 기록, 구매 패턴, 클릭 수)를 분석합니다. 이를 통해 관련 콘텐츠나 제품을 제안하는 정교한 추천 시스템을 구축하여 사용자 경험을 개선하고 참여를 유도할 수 있습니다. 넷플릭스 리서치에서 이러한 시스템의 기반이 되는 연구 결과를 살펴볼 수 있습니다.
  2. 자율 주행: 자율 주행 차량은 센서(카메라, LiDAR, 레이더)의 방대한 데이터 스트림을 실시간으로 처리하는 데 의존합니다. 이 빅데이터는 물체 감지, 차선 유지, 내비게이션과 같은 중요한 작업을 위한 딥러닝 모델을 학습하는 데 사용되어 차량이 주변 환경을 안전하게 인식하고 반응할 수 있게 해줍니다. 자율 주행 차량의 AI 개발은 이 복잡한 데이터를 관리하고 활용하는 데 크게 좌우됩니다.

빅 데이터와 기존 데이터 비교

기존의 데이터 분석은 관계형 데이터베이스에 저장된 정형 데이터를 다루지만, 빅데이터는 더 많은 양, 더 빠른 속도, 더 다양한 데이터를 포괄하기 때문에 Hadoop 에코시스템과 같은 전문 도구와 기법이 필요한 경우가 많습니다. 머신 러닝 알고리즘은 빅데이터에서 인사이트를 추출하는 데 필수적인 반면, 기존 데이터는 단순한 통계적 방법이나 비즈니스 인텔리전스 도구를 사용하여 분석할 수 있습니다. 분산 시스템과 클라우드 플랫폼을 포함하는 빅 데이터에 필요한 인프라도 기존 데이터 웨어하우징과 크게 다릅니다.

모두 보기