용어집

확산 모델

디퓨전 모델이 어떻게 사실적인 이미지, 동영상, 데이터를 탁월한 디테일과 안정성으로 생성하여 제너레이티브 AI에 혁신을 가져오는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

확산 모델은 머신 러닝(ML) 에서 생성 모델의 한 종류로, 특히 컴퓨터 비전(CV) 영역에서 고품질의 다양한 샘플을 생성하는 능력으로 큰 주목을 받고 있습니다. 열역학의 개념에서 영감을 얻은 이 모델은 이미지와 같은 데이터에 노이즈를 체계적으로 추가하여 순수한 노이즈가 될 때까지 '순방향 프로세스'를 거친 다음 이 프로세스를 역으로 학습하는 방식으로 작동합니다. '역방향 프로세스'는 무작위 노이즈에서 시작하여 실제 데이터 샘플이 생성될 때까지 반복적으로 정제하여 노이즈를 점진적으로 제거하도록 신경망을 훈련하는 것입니다.

확산 모델의 작동 방식

핵심 아이디어는 두 단계로 구성됩니다:

  1. 순방향 확산 프로세스: 이 단계에서는 원본 데이터 샘플(예: 이미지)을 가져와 여러 단계에 걸쳐 소량의 가우시안 노이즈를 점차적으로 추가합니다. 이 과정은 원본 이미지가 무작위 노이즈와 구분할 수 없을 때까지 계속됩니다. 이 단계는 고정되어 있으며 학습을 포함하지 않습니다.
  2. 역 노이즈 제거 프로세스: 여기서 학습이 이루어집니다. 일반적으로 U-Net과 같은 정교한 신경망 아키텍처로 구성된 모델은 포워드 프로세스의 각 단계에서 추가되는 노이즈를 예측하도록 학습됩니다. 생성 과정에서 모델은 순수한 노이즈로 시작하여 학습된 예측을 사용하여 동일한 단계에 걸쳐 점진적으로 노이즈를 제거함으로써 효과적으로 확산을 역전시키고 새로운 데이터 샘플을 생성합니다. 이러한 단계별 세분화를 통해 매우 상세한 결과물을 생성할 수 있습니다.

다른 생성 모델과의 비교

확산 모델은 생성적 적대 신경망(GAN)과 같이 널리 사용되는 다른 생성 접근 방식과 크게 다릅니다. GAN은 생성자와 판별자가 서로 경쟁하여 학습이 불안정해지는 경우가 많지만, 확산 모델은 학습 역학이 더 안정적인 경향이 있습니다. 일반적으로 추론(생성) 과정에서 더 많은 계산 단계가 필요하기 때문에 속도가 느리지만 GAN에 비해 샘플 다양성과 품질이 더 우수한 경우가 많습니다. 압축된 잠재 공간을 학습하는 변형 자동 인코더(VAE)와 달리 확산 모델은 노이즈 및 노이즈 제거 프로세스를 통해 데이터 공간에서 직접 작동합니다. 널리 사용되는 변형은 효율성과 고품질 출력으로 유명한 안정적 확산입니다.

확산 모델의 적용

확산 모델은 고충실도 생성이 필요한 작업에 탁월합니다:

  • 텍스트-이미지 합성: Google Imagen이나 OpenAI의 DALL-E 2와 같은 모델은 확산 기법을 활용하여 텍스트 설명을 기반으로 상세한 이미지를 생성합니다. 사용자가 프롬프트를 제공하면 모델이 그에 맞는 시각적 이미지를 생성합니다.
  • 의료 이미지 분석: 훈련 데이터 증강을 위한 합성 의료 이미지 생성, 스캔 품질 향상을 위한 이미지 초고해상도, 심지어 건강한 조직의 분포를 학습하여 이상 징후를 탐지하는 등의 작업에 사용할 수 있습니다. 예를 들어, 사실적인 MRI 또는 CT 스캔을 생성하면 제한된 환자 데이터에만 의존하지 않고도 진단 AI 모델을 훈련하여 종양에 대한 이미지 분할과 같은 작업을 보완할 수 있습니다.
  • 기타 분야: 오디오 생성, 동영상 생성( Google Veo 등), 신약 개발을 위한 분자 설계, 데이터 압축 등에 활용하기 위한 연구가 진행되고 있습니다.

다음과 같은 프레임워크 PyTorch 와 같은 프레임워크와 Hugging Face Diffusers 라이브러리는 도구와 사전 학습된 모델을 제공하여 개발자가 확산 모델을 더 쉽게 실험하고 배포할 수 있도록 지원합니다. 다양하고 고품질의 데이터를 생성할 수 있어 제너레이티브 AI의 지속적인 진화에 강력한 도구가 될 수 있습니다.

모두 보기