용어집

안정적인 확산

텍스트 프롬프트에서 사실적인 이미지를 생성하여 창의성과 효율성을 혁신하는 최첨단 AI 모델인 스테이블 디퓨전에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

안정적 확산은 확산 모델 범주에 속하는 대표적인 딥러닝(DL) 모델로, 특히 텍스트-이미지 생성을 위해 설계되었습니다. CompVis의 연구원과 엔지니어들이 2022년에 출시했습니다, Stability AILAION의 연구원 및 엔지니어들이 개발한 이 모델은 텍스트 설명에서 상세한 고품질 이미지를 생성하는 기능으로 빠르게 인기를 얻었습니다. 오픈 소스라는 특성 덕분에 고급 제너레이티브 AI 기능을 폭넓게 이용할 수 있었습니다. 당시의 다른 많은 강력한 생성 모델과 달리 Stable Diffusion은 적절한 GPU (그래픽 처리 장치)를 갖춘 일반 소비자용 하드웨어에서 실행할 수 있습니다.

안정적인 확산의 작동 방식

안정적 확산의 핵심은 확산 프로세스를 활용합니다. 이 프로세스는 무작위 노이즈 패턴으로 시작하여 텍스트 프롬프트의 안내에 따라 단계적으로 노이즈를 제거하면서 점차적으로 개선해 나갑니다. 이 프로세스의 계산 효율을 높이기 위해 대부분의 프로세스는 고해상도 픽셀 데이터에 직접 적용하지 않고 저차원 잠재 공간 내에서 작동합니다. 텍스트 프롬프트는 텍스트 인코더를 사용하여 해석되며, 종종 CLIP(대조 언어-이미지 사전 학습)과 같은 모델을 기반으로 단어를 이미지 생성 프로세스가 이해할 수 있는 표현으로 변환합니다. 이러한 반복적인 개선을 통해 모델은 원래의 Stable Diffusion 연구 논문에서 자세히 설명한 대로 다양한 텍스트 입력을 기반으로 복잡하고 일관성 있는 이미지를 합성할 수 있습니다.

GAN과의 주요 차이점

안정적 확산과 생성적 적대적 네트워크(GAN) 는 모두 이미지 생성에 사용되지만, 작동 방식은 다릅니다:

  • 훈련 과정: GAN은 생성자(이미지 생성)와 판별자(이미지 판별) 간의 경쟁 프로세스를 포함하므로 때때로 불안정한 훈련으로 이어질 수 있습니다. 안정 확산과 같은 확산 모델은 일반적으로 노이즈가 추가되는 과정을 역으로 학습하여 보다 안정적인 훈련 역학을 갖습니다.
  • 이미지 품질 및 다양성: GAN은 역사적으로 선명한 이미지를 생성하는 데 탁월했지만, 때때로 제한된 변형을 생성하는 '모드 붕괴'로 인해 어려움을 겪을 수 있습니다. 확산 모델은 추론 과정에서 더 많은 계산 단계가 필요할 수 있지만 복잡한 프롬프트에 잘 맞추고 이미지 다양성과 일관성을 향상시키는 경우가 많습니다.
  • 메커니즘: GAN은 무작위 벡터에서 이미지를 직접 생성하는 방법을 학습합니다. 확산 모델은 텍스트와 같은 컨디셔닝 정보를 기반으로 무작위 노이즈 패턴의 노이즈를 반복적으로 제거하는 방법을 학습합니다.

실제 애플리케이션

스테이블 디퓨전의 다목적성은 다양한 분야에 걸쳐 수많은 애플리케이션을 가능하게 합니다:

  • 크리에이티브 아트 및 디자인: 아티스트, 디자이너, 콘텐츠 크리에이터는 Stability AI 드림스튜디오 또는 통합 소프트웨어와 같은 도구를 사용하여 독특한 비주얼, 컨셉 아트, 일러스트레이션, 마케팅 자료, 텍스트 설명을 기반으로 한 3D 모델의 텍스처까지 생성할 수 있습니다.
  • 합성 데이터 생성: 머신 러닝(ML), 특히 컴퓨터 비전(CV)에서 Stable Diffusion은 합성 데이터를 생성할 수 있습니다. 예를 들어 희귀한 물체 또는 특정 시나리오의 다양한 이미지를 생성하면 물체 감지와 같은 작업을 위한 학습 데이터를 보강하여 다음과 같은 모델의 견고성을 향상시킬 수 있습니다. Ultralytics YOLO. 이것은 데이터 증강의 한 형태입니다.
  • 교육 및 연구: 복잡한 주제에 대한 시각적 보조 자료를 생성하거나 시뮬레이션에서 잠재적인 결과를 탐색할 수 있습니다.
  • 엔터테인먼트: 게임, 가상 세계 또는 영화 제작의 스토리보드용 에셋을 제작합니다.

액세스 및 사용

안정적인 확산 모델 및 관련 도구는 다음과 같은 플랫폼을 통해 널리 제공됩니다. Hugging Face와 같은 프레임워크 내에서 인기있는 Diffusers 라이브러리와 같은 라이브러리를 활용하는 경우가 많습니다. PyTorch 또는 TensorFlow. 개방적인 특성 덕분에 특정 작업이나 스타일에 대한 커뮤니티 개발과 미세 조정을 장려하여 인공 지능(AI)의 빠른 발전에 기여하고 있습니다. Ultralytics 주로 효율적인 객체 감지 모델(YOLOv8, YOLOv10, YOLO11) 및 MLOps 간소화를 위한 Ultralytics HUB와 같은 도구에 주로 초점을 맞추고 있지만, 보다 광범위한 AI 환경에서는 Stable Diffusion과 같은 생성 모델을 이해하는 것이 중요합니다.

윤리적 고려 사항

안정적 확산과 같은 생성 모델의 힘은 윤리적 문제도 수반합니다. 그럴듯한 딥페이크 생성, 합의되지 않은 노골적인 콘텐츠 생성, 학습 데이터에 존재하는 사회적 편견을 지속시켜 알고리즘 편향으로 이어질 수 있는 가능성 등이 우려되는 문제입니다. 이러한 기술을 개발하고 배포하려면 AI 윤리를 신중하게 고려하고 책임감 있는 AI 관행을 위한 안전장치를 구현해야 합니다.

모두 보기