녹색 확인
링크가 클립보드에 복사됨

고품질 컴퓨터 비전 데이터 세트의 중요성

컴퓨터 비전 모델을 구축할 때 고품질 데이터의 필요성에 대해 알아보세요. 데이터 품질이 모델 성능에 어떤 영향을 미치는지 알아보세요.

2019년 기준, 기업의 인공지능(AI) 도입은 지난 4년간 270% 증가했습니다. 이러한 성장에 힘입어 컴퓨터 비전(CV) 애플리케이션, 즉 기계가 주변 세계의 시각적 데이터를 해석하고 분석할 수 있게 해주는 AI 시스템이 빠르게 통합되고 있습니다. 이러한 애플리케이션은 의료 영상에서 질병을 감지하고 자율 주행 차량을 지원하는 것부터 교통 흐름 최적화, 보안 시스템의 감시 강화에 이르기까지 광범위한 기술을 뒷받침합니다. 

와 같은 최첨단 컴퓨터 비전 모델의 놀라운 정확도와 탁월한 성능 덕분에 Ultralytics YOLO11 과 같은 최첨단 컴퓨터 비전 모델의 놀라운 정확도와 탁월한 성능이 이러한 기하급수적인 성장을 주도했습니다. 그러나 이러한 모델의 성능은 모델을 학습, 검증 및 테스트하는 데 사용되는 데이터의 품질과 양에 크게 좌우됩니다. 

고품질 데이터가 충분하지 않으면 컴퓨터 비전 모델을 업계 표준에 맞게 효과적으로 훈련하고 미세 조정하기가 어려울 수 있습니다. 이 글에서는 컴퓨터 비전 모델을 만드는 데 있어 데이터의 중요한 역할과 컴퓨터 비전에서 고품질 데이터가 중요한 이유에 대해 살펴봅니다. 또한 맞춤형 컴퓨터 비전 모델을 훈련하는 동안 고품질 데이터 세트를 만드는 데 도움이 되는 몇 가지 팁도 소개합니다. 시작해 보겠습니다!

컴퓨터 비전 모델 구축에서 데이터의 역할

컴퓨터 비전 모델은 이미지와 동영상의 대규모 데이터 세트를 학습시켜 패턴을 인식하고 정확한 예측을 할 수 있습니다. 예를 들어, 물체 감지 모델은 수백 개 또는 수천 개의 레이블이 지정된 이미지와 동영상으로 학습하여 물체를 정확하게 식별할 수 있습니다. 

이 학습 데이터의 품질과 양은 모델의 성능에 영향을 미칩니다. 

컴퓨터 비전 모델은 노출된 데이터를 통해서만 학습할 수 있으므로 고품질의 데이터와 다양한 사례를 제공하는 것이 성공에 매우 중요합니다. 충분하고 다양한 데이터 세트가 없으면 이러한 모델은 실제 시나리오를 정확하게 분석하지 못하고 편향되거나 부정확한 결과를 도출할 수 있습니다. 

그렇기 때문에 모델 훈련에서 데이터의 역할을 명확하게 이해하는 것이 중요합니다. 고품질 데이터의 특성을 살펴보기 전에 컴퓨터 비전 모델을 학습할 때 마주칠 수 있는 데이터 세트의 유형을 이해해 보겠습니다.

컴퓨터 비전 데이터 세트의 유형

컴퓨터 비전에서 학습 과정에 사용되는 데이터는 세 가지 유형으로 분류되며, 각 유형은 특정 목적에 따라 사용됩니다. 각 유형에 대해 간략히 살펴보겠습니다:

  • 학습 데이터: 모델을 처음부터 학습시키는 데 사용되는 기본 데이터 세트입니다. 미리 정의된 레이블이 있는 이미지와 동영상으로 구성되며, 모델이 패턴을 학습하고 사물을 인식할 수 있도록 합니다. 
  • 유효성 검사 데이터: 모델이 학습되는 동안 모델이 얼마나 잘 작동하는지 확인하는 데 사용되는 데이터 집합입니다. 모델이 보이지 않는 새로운 데이터에서 올바르게 작동하는지 확인하는 데 도움이 됩니다.
  • 테스트 데이터: 학습된 모델의 최종 성능을 평가하는 데 사용되는 별도의 데이터 세트입니다. 모델이 완전히 새로운, 이전에 보지 못한 데이터에 대해 얼마나 잘 예측할 수 있는지 확인합니다.
그림 1. 컴퓨터 비전에서 데이터가 분류되는 방식.

고품질 컴퓨터 비전 데이터 세트의 5가지 특징

데이터 세트 유형에 관계없이 성공적인 컴퓨터 비전 모델을 구축하려면 고품질 데이터가 필수적입니다. 다음은 데이터 집합을 고품질로 만드는 몇 가지 주요 특징입니다:

  • 정확도: 이상적으로 데이터는 실제 상황을 면밀히 반영하고 정확한 레이블을 포함해야 합니다. 예를 들어 의료 분야의 비전 AI의 경우, 엑스레이나 스캔 이미지에 정확한 레이블을 지정해야 모델이 제대로 학습할 수 있습니다. 
  • 다양성: 좋은 데이터 세트에는 모델이 다양한 상황에서 잘 작동할 수 있도록 다양한 예시가 포함되어 있습니다. 예를 들어, 자동차 감지를 학습하는 모델이라면 다양한 설정(낮, 밤, 비 등)에서 다양한 모양, 크기, 색상의 자동차를 데이터 세트에 포함해야 합니다.
  • 일관성: 고품질 데이터 세트는 일관된 형식과 품질 표준을 따릅니다. 예를 들어, 이미지의 해상도가 비슷해야 하며(흐릿하고 선명한 이미지가 아닌), 크기 조정이나 색상 조정과 같은 동일한 전처리 단계를 거쳐야 모델이 일관된 정보를 통해 학습할 수 있습니다.
  • 적시성: 정기적으로 업데이트되는 데이터 세트는 현실 세계의 변화를 따라잡을 수 있습니다. 모든 유형의 차량을 감지하도록 모델을 훈련한다고 가정해 보겠습니다. 전기 스쿠터와 같은 새로운 차량이 도입되면 이를 데이터 세트에 추가하여 모델이 정확하고 최신 상태를 유지할 수 있도록 해야 합니다.
  • 개인 정보 보호: 데이터 세트에 사람의 사진과 같은 민감한 정보가 포함된 경우 개인정보 보호 규칙을 따라야 합니다. 익명화 (식별 가능한 세부 정보 제거) 및 데이터 마스킹(민감한 부분 숨기기)과 같은 기술을 사용하면 개인정보를 보호하면서도 데이터를 안전하게 사용할 수 있습니다.

낮은 품질의 데이터로 인한 과제

고품질 데이터의 특성을 이해하는 것도 중요하지만, 저품질 데이터가 컴퓨터 비전 모델에 어떤 영향을 미칠 수 있는지 고려하는 것도 그에 못지않게 중요합니다.

과적합 및 과소적합과 같은 문제는 모델 성능에 심각한 영향을 미칠 수 있습니다. 과적합은 모델이 학습 데이터에서는 잘 작동하지만 데이터 세트의 다양성이 부족하여 새롭거나 보이지 않는 데이터에서는 어려움을 겪을 때 발생합니다. 반면에 과소적합은 데이터 세트가 모델이 의미 있는 패턴을 학습하기에 충분한 예시나 품질을 제공하지 않을 때 발생합니다. 이러한 문제를 방지하려면 다양하고 편향되지 않은 고품질의 데이터 세트를 유지하여 훈련과 실제 애플리케이션 모두에서 안정적인 성능을 보장하는 것이 중요합니다.

그림 2. 과소 피팅 대. 과적합.

또한 품질이 낮은 데이터는 모델이 원시 데이터에서 의미 있는 패턴을 추출하고 학습하는 과정, 즉 특징 추출을 어렵게 만들 수 있습니다. 데이터 세트가 불완전하거나 관련성이 없거나 다양성이 부족한 경우 모델이 효과적으로 작동하는 데 어려움을 겪을 수 있습니다. 

때때로 데이터를 단순화하면 품질이 낮은 데이터가 발생할 수 있습니다. 데이터를 단순화하면 저장 공간을 절약하고 처리 비용을 줄이는 데 도움이 될 수 있지만 지나치게 단순화하면 모델이 제대로 작동하는 데 필요한 중요한 세부 정보가 제거될 수 있습니다. 그렇기 때문에 수집부터 배포에 이르는 전체 컴퓨터 비전 프로세스에서 고품질 데이터를 유지하는 것이 매우 중요합니다. 일반적으로 데이터 세트는 신뢰할 수 있는 모델 예측을 보장하기 위해 다양성과 정확성을 유지하면서 필수 기능을 포함해야 합니다.

그림 3. 특징 추출의 이해.

컴퓨터 비전 데이터 세트의 품질을 유지하기 위한 팁

이제 고품질 데이터의 중요성과 저품질 데이터가 미치는 영향에 대해 이해했으니, 데이터 세트가 높은 기준을 충족하는지 확인하는 방법을 살펴봅시다.

이 모든 것은 신뢰할 수 있는 데이터 수집에서 시작됩니다. 크라우드 소싱, 다양한 지역의 데이터, 합성 데이터 생성 등 다양한 소스를 사용하면 편향성을 줄이고 모델이 실제 시나리오를 처리하는 데 도움이 됩니다. 데이터를 수집한 후에는 전처리가 중요합니다. 픽셀 값을 일정한 범위로 조정하는 정규화, 회전, 뒤집기, 확대/축소 등의 변환을 적용하는 증강과 같은 기술은 데이터 집합을 향상시킵니다. 이러한 단계를 통해 모델이 더 잘 일반화되고 더 견고해져 과적합의 위험을 줄일 수 있습니다.

데이터 세트를 적절하게 분할하는 것도 또 다른 핵심 단계입니다. 일반적인 접근 방식은 데이터의 70%는 학습용으로, 15%는 검증용으로, 15%는 테스트용으로 할당하는 것입니다. 이러한 세트 간에 중복이 없는지 다시 확인하면 데이터 유출을 방지하고 정확한 모델 평가를 보장할 수 있습니다.

그림 4. 트레이닝, 검증, 테스트 간의 공통 데이터 분할.

또한 YOLO11 과 같은 사전 학습된 모델을 사용하여 시간과 계산 리소스를 절약할 수 있습니다. YOLO11 대규모 데이터 세트에 대해 학습되고 다양한 컴퓨터 비전 작업을 위해 설계된 모델을 특정 데이터 세트에 맞게 미세 조정하여 필요에 맞게 사용할 수 있습니다. 데이터에 맞게 모델을 조정하면 과적합을 피하고 강력한 성능을 유지할 수 있습니다. 

컴퓨터 비전 데이터 세트의 나아갈 길

AI 커뮤니티는 전통적으로 더 많은 계층으로 심층적인 모델을 구축하여 성능을 개선하는 데 주력해 왔습니다. 하지만 AI가 계속 발전함에 따라 이제는 모델 최적화에서 데이터 세트의 품질 개선으로 초점이 이동하고 있습니다. "AI의 아버지"로 불리는 앤드류 응은 "향후 10년간 AI 업계가 겪어야 할 가장 중요한 변화는 데이터 중심 AI로의 전환이 될 것"이라고 말합니다. 

이 접근 방식은 라벨 정확도를 개선하고, 노이즈가 있는 예시를 제거하며, 다양성을 보장함으로써 데이터 세트를 다듬는 데 중점을 둡니다. 컴퓨터 비전의 경우 이러한 원칙은 편향 및 저품질 데이터와 같은 문제를 해결하여 모델이 실제 시나리오에서 안정적으로 작동하도록 하는 데 매우 중요합니다.

앞으로 컴퓨터 비전의 발전은 방대한 양의 데이터를 수집하기보다는 고품질의 소규모 데이터 세트를 만드는 데 의존하게 될 것입니다. 앤드류 응은 "데이터 개선은 일회성 전처리 단계가 아니라 머신러닝 모델 개발의 반복적인 프로세스에서 핵심적인 부분입니다."라고 말합니다. 데이터 중심 원칙에 집중함으로써 컴퓨터 비전은 다양한 산업 분야에서 더욱 접근하기 쉽고 효율적이며 영향력을 발휘할 수 있게 될 것입니다.

주요 내용

데이터는 비전 모델의 수명 주기 전반에 걸쳐 중요한 역할을 합니다. 데이터 수집부터 전처리, 훈련, 검증, 테스트에 이르기까지 데이터의 품질은 모델의 성능과 신뢰성에 직접적인 영향을 미칩니다. 고품질 데이터와 정확한 라벨링에 우선순위를 두면 신뢰할 수 있고 정확한 결과를 제공하는 강력한 컴퓨터 비전 모델을 구축할 수 있습니다. 

데이터 중심의 미래로 나아갈수록 편견 및 개인정보 보호 규정과 관련된 위험을 완화하기 위해 윤리적 고려 사항을 해결하는 것이 필수적입니다. 궁극적으로 데이터의 무결성과 공정성을 보장하는 것이 컴퓨터 비전 기술의 잠재력을 최대한 활용하기 위한 핵심입니다.

커뮤니티에 가입하고 GitHub 리포지토리를 확인하여 AI에 대해 자세히 알아보세요. 솔루션 페이지에서 농업제조와 같은 분야의 더 많은 AI 애플리케이션을 살펴보세요.

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기