녹색 확인
링크가 클립보드에 복사됨

능동적 학습으로 컴퓨터 비전 개발 속도 향상

컴퓨터 비전에서 액티브 러닝을 사용하여 주석 작업을 최소화하는 방법을 알아보고 다양한 산업 분야에서 실제 적용 사례를 살펴보세요.

컴퓨터 비전 모델을 훈련하는 것은 아이에게 색을 인식하도록 가르치는 것과 매우 유사합니다. 먼저 색깔이 있는 물체 모음이 필요합니다. 그런 다음 아이에게 각 색상을 정확하게 식별하도록 지도해야 하는데, 이 작업은 시간이 많이 걸리고 반복적인 경우가 많습니다.

아이가 학습하려면 많은 예시가 필요한 것처럼, 비전 모델이 이미지의 패턴과 물체를 인식하려면 라벨링된 대량의 데이터 세트가 필요합니다. 그러나 방대한 양의 데이터에 라벨을 붙이려면 리소스는 물론 많은 시간과 노력이 필요합니다. 능동형 학습과 같은 기술은 이 과정을 간소화하는 데 도움이 될 수 있습니다.

능동형 학습은 대규모 데이터 세트에서 가장 중요한 데이터를 선별하여 라벨을 붙이는 단계별 프로세스입니다. 모델은 이렇게 라벨이 지정된 데이터를 통해 학습하여 더욱 정확하고 효과적으로 학습합니다. 가장 가치 있는 데이터에만 집중하면 필요한 라벨링의 양이 줄어들고 모델 개발 속도가 빨라집니다.

이 글에서는 능동 학습이 모델 학습에 어떻게 도움이 되고, 라벨링 비용을 줄이며, 모델의 전반적인 정확도를 향상시키는지 살펴봅니다.

이미지 데이터 세트는 구축하기 쉽지 않습니다.

데이터 세트는 컴퓨터 비전과 딥러닝 모델의 기초입니다. ImageNet과 같은 인기 있는 데이터 세트는 다양한 개체 범주의 수백만 개의 이미지를 제공합니다. 하지만 이렇게 방대한 양의 고품질 데이터세트를 생성하고 유지 관리하는 데에는 여러 가지 어려움이 따릅니다. 

예를 들어, 데이터를 수집하고 라벨을 붙이는 데는 시간과 리소스, 숙련된 주석가가 필요하기 때문에 특정 애플리케이션에 따라 프로세스가 까다로울 수 있습니다. 이미지 데이터 세트에 대한 수요 증가에 대응하기 위해서는 혁신적이고 효율적인 솔루션이 필요하며, 이것이 바로 능동형 학습이 해결하고자 하는 문제입니다. 

능동형 학습은 데이터 라벨링 프로세스를 최적화하여 완벽한 솔루션을 제공합니다. 액티브 러닝은 주석을 달기 위해 가장 유익한 데이터 포인트를 전략적으로 선택함으로써 모델 성능을 극대화하는 동시에 라벨링 작업을 최소화합니다. 

능동적 학습이란 무엇인가요?

능동 학습은 반복적인 머신 러닝 기법으로, 라벨이 지정되지 않은 대규모 데이터 풀에서 모델이 라벨을 지정할 가장 중요한 데이터 포인트를 선택합니다. 이렇게 선택된 데이터 포인트에는 수동으로 레이블을 지정하여 학습 데이터 세트에 추가합니다. 

그런 다음 업데이트된 데이터 세트에 대해 모델을 재학습하고 레이블을 지정할 다음 데이터 포인트 세트를 선택합니다. 이 과정이 반복되며, 가장 유익한 데이터 요소에 집중하여 모델을 지속적으로 개선합니다. 모델이 원하는 정확도에 도달하거나 사전에 설정한 라벨링 기준을 충족할 때까지 이 사이클이 계속됩니다.

그림 1. 능동적 학습의 개요.

능동적 학습의 작동 방식 이해

능동적 학습 기법이 어떤 데이터 포인트에 수동 라벨링이 필요한지, 그리고 다음에 라벨링할 데이터 포인트를 어떻게 결정하는지 궁금할 것입니다. 능동적 학습이 어떻게 작동하는지 잘 모르는 주제에 집중하고 다양한 주제를 다루며 시험에 대비하는 것과 비교하여 이해해 보겠습니다.

초기 데이터 선택 프로세스의 경우, 능동 학습은 불확실성 샘플링 및 다양성 기반 샘플링과 같은 전략을 사용합니다. 불확실성 샘플링은 모델의 예측에 대한 확신이 가장 낮은 데이터 포인트에 우선순위를 부여하여 까다로운 경우의 정확도를 개선하는 것을 목표로 합니다. 다양성 기반 샘플링은 광범위한 특성을 포괄하는 데이터 포인트를 선택하여 다양한 사례에 노출함으로써 모델이 보이지 않는 데이터에 대해서도 잘 일반화할 수 있도록 합니다.

그림 2. 불확실성 샘플링(왼쪽)과 다양성 기반 샘플링(오른쪽).

초기 데이터 선택 후 능동 학습은 라벨링에 풀 기반 샘플링과 스트림 기반 샘플링이라는 두 가지 주요 접근 방식을 사용하는데, 이는 교사가 학생이 가장 중요한 것에 집중할 수 있도록 돕는 것과 유사합니다. 

풀 기반 샘플링의 경우, 모델은 레이블이 지정되지 않은 대규모 데이터 풀을 스캔하여 가장 어렵거나 유익한 예시를 선택하여 레이블을 지정하는데, 이는 학생이 가장 어려운 플래시카드의 우선순위를 정하는 것과 같습니다. 스트림 기반 샘플링의 경우, 모델은 데이터가 도착하는 대로 처리하여 라벨을 붙일지 건너뛸지 결정하는데, 이는 학생이 막혔을 때만 도움을 요청하는 것과 비슷합니다. 두 경우 모두 레이블이 지정된 데이터는 학습 세트에 추가되고 모델은 스스로 재학습하여 반복할 때마다 꾸준히 개선됩니다.

능동적 학습의 적용 사례 살펴보기

능동형 학습은 모델 정확도를 높이고 데이터 라벨링 프로세스를 간소화함으로써 의료 영상 및 자율 주행과 같은 컴퓨터 비전 애플리케이션에서 핵심적인 역할을 합니다. 흥미로운 예로 자율주행 자동차에서 저조도 또는 안개 상황에서 보행자나 물체를 감지하는 데 사용되는 컴퓨터 비전 모델을 들 수 있습니다. 능동형 학습은 다양하고 까다로운 주행 시나리오에 집중함으로써 정확도를 향상시킬 수 있습니다. 

특히 능동 학습은 이러한 시나리오에서 불확실한 데이터나 프레임을 식별하여 선택적으로 라벨을 지정하는 데 사용할 수 있습니다. 이러한 라벨링된 예시를 학습 세트에 추가하면 악천후나 야간 운전과 같이 어려운 환경에서 보행자와 사물을 더 잘 인식하는 모델을 만들 수 있습니다.

예를 들어, NVIDIA 는 능동형 학습을 사용하여 자율 주행 모델의 야간 보행자 감지 기능을 개선했습니다. 특히 까다로운 시나리오에서 가장 유익한 데이터를 전략적으로 선택하여 학습함으로써 모델의 성능이 크게 향상되었습니다.

그림 3. 능동 학습을 사용하여 우산을 든 보행자를 감지하는 모습.

능동적 학습으로 라벨 제작 비용 절감

능동형 학습의 또 다른 핵심 측면은 라벨링 비용을 절감할 수 있다는 점입니다. 전체 데이터 세트에 주석을 달지 않고 가장 중요한 데이터 포인트에만 집중함으로써 이를 달성할 수 있습니다. 이러한 표적화된 접근 방식은 시간, 노력, 비용을 절약합니다. 능동형 학습은 불확실하거나 다양한 샘플에 집중함으로써 필요한 주석의 수를 줄이면서도 높은 모델 정확도를 유지합니다.

실제로 연구 결과에 따르면 능동형 학습은 성능 저하 없이 라벨 제작 비용을 40~60%까지 절감할 수 있습니다. 이는 데이터 라벨링 비용이 많이 드는 의료 및 제조와 같은 산업에서 특히 유용합니다. 액티브 러닝은 주석 프로세스를 간소화함으로써 기업이 정확성을 유지하면서 모델을 더 빠르게 개발하고 더 효율적으로 배포할 수 있도록 도와줍니다.

능동적 학습의 이점

능동적 학습이 제공하는 다른 주요 장점은 다음과 같습니다:

  • 클래스 불균형 문제 해결: 능동형 학습은 소수 데이터 클래스의 인스턴스에 레이블을 지정하여 클래스 불균형 문제를 해결하는 데 도움이 될 수 있습니다. 이 모델은 데이터가 제한된 드문 시나리오에서 더 나은 성능을 발휘할 수 있습니다.
  • 개발 주기 단축: 더 적은 데이터에 간접적으로 레이블을 지정하면 머신 러닝 및 컴퓨터 비전 모델의 개발 프로세스가 빨라져 추가 반복과 실험에 더 많은 시간과 리소스를 확보할 수 있습니다.
  • 적응성: 불확실하거나 엣지 케이스 샘플을 반복하여 학습 데이터를 지속적으로 개선할 수 있으므로 동적이거나 진화하는 데이터 세트에 적합합니다.

액티브 러닝과 AutoML이 함께 작동하는 방법

자동화된 머신 러닝(AutoML)은 머신 러닝 모델 구축 및 배포와 관련된 시간 소모적이고 반복적인 작업을 자동화하는 데 중점을 둡니다. 모델 선택 및 성능 평가와 같은 작업을 자동화하여 수동 작업의 필요성을 줄여 머신 러닝 워크플로우를 간소화합니다. 

능동형 학습과 통합하면 AutoML은 모델 개발 수명 주기를 가속화하고 최적화할 수 있습니다. 능동형 학습 구성 요소는 레이블을 지정할 가장 유익한 데이터 포인트를 전략적으로 선택하고, AutoML은 아키텍처, 매개변수, 튜닝 선택을 자동화하여 모델을 개선합니다.

그림 4. AutoML 워크플로.

예를 들어 이러한 기술 조합을 이해해 보겠습니다. 

의료 영상에서 희귀한 상태를 감지하려고 한다고 가정해 보겠습니다(레이블이 지정된 데이터 세트가 제한적이고 비용이 많이 드는 사용 사례). 액티브 러닝은 엑스레이 이미지의 미묘한 변화와 같이 모델이 분류하지 못하는 불확실한 데이터를 식별하고 선택할 수 있습니다. 그런 다음, 불확실한 데이터에 우선순위를 지정하여 수동 주석을 달아 모델의 이해도를 높일 수 있습니다. 

AutoML은 주석이 달린 데이터를 통해 다양한 아키텍처, 하이퍼파라미터 및 기타 데이터 증강 기술을 탐색하여 모델을 최적화할 수 있습니다. 반복적인 프로세스를 통해 의료 전문가가 정확한 진단을 내리는 데 도움이 되는 Ultralytics YOLO11 과 같은 신뢰할 수 있는 비전 모델을 빠르게 개발할 수 있습니다.

능동적 학습의 과제

능동적 학습과 그 기술은 많은 장점을 제공하지만, 이러한 전략을 구현할 때 염두에 두어야 할 몇 가지 고려 사항이 있습니다:

  • 쿼리 전략 선택: 능동 학습에는 많은 기술이 포함되며, 최적의 방법을 선택하는 것은 모델의 효과에 큰 영향을 미칩니다. 부적절한 전략을 선택하면 특정 애플리케이션에 대한 모델의 성능이 저하될 수 있습니다.
  • 재교육 비용: 액티브 러닝의 반복적인 특성으로 인해 특히 대규모 데이터 세트의 경우 고가의 컴퓨팅 리소스가 필요합니다. 각 라벨링 라운드가 끝날 때마다 모델을 재학습해야 하므로 복잡성이 증가합니다.
  • 초기 모델 품질: 능동 학습의 효과는 초기 모델의 품질에 따라 달라집니다. 초기 모델의 성능이 좋지 않으면 유용한 데이터 요소를 정확하게 식별하지 못하여 라벨 요청이 표준 이하로 처리되고 전반적인 성능이 저하될 수 있습니다.

능동형 학습과 AutoML의 미래

최근 AI와 컴퓨터 비전의 발전으로 능동 학습은 더욱 복잡한 문제를 해결하고 머신 러닝 워크플로우를 간소화할 수 있게 되었습니다. 능동 학습을 연합 학습 및 자기 지도 학습과 같은 기술과 결합하면 비전 모델의 효율성과 확장성을 더욱 향상시킬 수 있습니다. 

연합 학습을 사용하면 데이터가 원래 위치를 벗어나지 않고도 분산 프레임워크를 통해 여러 기기나 서버에서 모델을 학습할 수 있습니다. 데이터 개인정보 보호가 중요한 헬스케어와 같은 산업에서 연합 학습을 사용하면 민감한 로컬 데이터를 안전하게 유지하면서 직접 학습할 수 있습니다. 원시 데이터를 공유하는 대신 모델 업데이트나 인사이트만 공유하므로 개인 정보를 보호하면서 학습 프로세스에 계속 기여할 수 있습니다.

한편, 자가 지도 학습은 레이블이 지정되지 않은 데이터에 대해 모델을 사전 학습시켜 레이블이 지정된 데이터의 필요성을 줄이는 데 도움이 됩니다. 이 프로세스는 모델의 강력한 기반을 구축합니다. 그런 다음 능동 학습은 이를 기반으로 사람이 주석을 달아야 할 가장 중요한 데이터 포인트를 식별하고 선택함으로써 모델을 더욱 정교하게 다듬을 수 있습니다.

능동적 학습에서 능동적 영향력까지

능동 학습은 데이터 주석에 드는 높은 비용과 더 정확한 모델의 필요성 등 컴퓨터 비전의 주요 과제를 해결할 수 있는 실용적인 방법을 제공합니다. 가장 가치 있는 데이터 포인트에만 라벨을 붙이는 데 집중함으로써 사람의 수고를 줄이면서 모델의 성능을 향상시킬 수 있습니다.

AutoML과 같은 기술과 결합하면 능동형 학습은 시간이 많이 걸리는 작업을 자동화하여 모델 개발을 간소화합니다. 기술이 계속 발전함에 따라 능동형 학습은 더 스마트하고 효율적인 컴퓨터 비전 시스템을 구축하는 데 필수적인 도구가 될 것입니다.

GitHub 리포지토리를 살펴보고 커뮤니티에 참여하여 AI 및 컴퓨터 비전 모델에 대해 자세히 알아보세요. 솔루션 페이지에서 제조의료 분야의 컴퓨터 비전 적용 사례를 더 자세히 알아보세요. 또한 라이선스 옵션을 확인하여 지금 바로 비전 AI 여정을 시작할 수 있습니다.

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기