용어집

시퀀스 간 모델

시퀀스 간 모델이 어떻게 입력을 출력 시퀀스로 변환하여 번역, 챗봇, 음성 인식과 같은 AI 작업을 지원하는지 알아보세요.

시퀀스 대 시퀀스(Seq2Seq) 모델은 입력 시퀀스를 출력 시퀀스로 변환하도록 설계된 딥 러닝 모델의 한 종류로, 입력과 출력의 길이가 다를 수 있습니다. 이러한 유연성 덕분에 자연어 처리(NLP) 등의 다양한 작업에 매우 강력합니다. 이 핵심 아이디어는 기계 번역과 같은 분야에 혁명을 일으킨 Google과 요슈아 벤지오 연구소의 연구원들이 논문을 통해 소개한 바 있습니다.

Seq2Seq 모델의 작동 방식

Seq2Seq 모델은 인코더-디코더 아키텍처를 기반으로 합니다. 이 구조 덕분에 이 모델은 가변 길이의 시퀀스를 효과적으로 처리할 수 있습니다.

  • 인코더: 이 구성 요소는 영어 문장과 같은 전체 입력 시퀀스를 처리합니다. 인코더는 시퀀스를 한 번에 한 요소씩(예: 단어 단위) 읽고 정보를 문맥 벡터 또는 "생각 벡터"라고 하는 고정 길이의 숫자 표현으로 압축합니다. 일반적으로 인코더는 순차적 정보를 캡처하는 데 능숙한 순환 신경망(RNN) 또는 장단기 메모리(LSTM)와 같은 고급 변형이 사용됩니다.

  • 디코더: 이 컴포넌트는 인코더에서 컨텍스트 벡터를 초기 입력으로 받습니다. 디코더의 역할은 한 번에 한 요소씩 출력 시퀀스를 생성하는 것입니다. 예를 들어 번역 작업에서는 번역된 문장을 단어 단위로 생성합니다. 각 단계의 출력은 다음 단계의 디코더로 다시 피드백되어 일관된 시퀀스를 생성할 수 있습니다. 이 과정은 특별한 시퀀스 종료 토큰이 생성될 때까지 계속됩니다. Seq2Seq 성능을 크게 개선한 핵심 혁신은 주의 메커니즘으로, 디코더가 출력을 생성하는 동안 원래 입력 시퀀스의 다른 부분을 다시 살펴볼 수 있게 해줍니다.

Seq2Seq 모델의 애플리케이션

가변 길이 입력을 가변 길이 출력에 매핑하는 기능 덕분에 Seq2Seq 모델은 매우 다양한 용도로 사용할 수 있습니다.

  • 기계 번역: 전형적인 애플리케이션입니다. 모델은 한 언어로 된 문장(예: "안녕하세요?")을 받아 다른 언어로 번역할 수 있습니다(예: "Wie geht es Ihnen?"). Google 번역과 같은 서비스는 이러한 원리를 많이 활용하고 있습니다.
  • 텍스트 요약: Seq2Seq 모델은 긴 기사나 문서(입력 시퀀스)를 읽고 간결한 요약(출력 시퀀스)을 생성할 수 있습니다. 이는 많은 양의 텍스트를 이해하기 쉬운 인사이트로 압축하는 데 유용합니다.
  • 챗봇 및 대화형 AI: 사용자의 쿼리 또는 진술(입력 시퀀스)에 대해 관련성 있고 맥락에 맞는 응답(출력 시퀀스)을 생성하도록 모델을 학습시킬 수 있습니다.
  • 이미지 캡션: 여기에는 컴퓨터 비전이 포함되지만 원리는 비슷합니다. CNN은 인코더 역할을 하여 이미지를 처리하고 컨텍스트 벡터를 생성한 다음 디코더가 설명 텍스트 시퀀스를 생성하는 데 사용합니다. 이것은 다중 모달 모델의 예입니다.

Seq2Seq과 다른 아키텍처 비교

RNN을 기반으로 하는 Seq2Seq 모델은 획기적이었지만, 이 분야는 진화해 왔습니다:

  • 표준 RNN: 일반적으로 시퀀스를 동일한 길이의 시퀀스에 매핑하거나 전체 시퀀스를 분류하며, 가변 출력 길이에 대한 인코더-디코더 구조의 유연성이 부족합니다.
  • 트랜스포머: 이제 RNN 기반 Seq2Seq 모델에서 처리하던 많은 NLP 작업의 주류를 차지하게 되었습니다. 반복 대신 자체 주의와 위치 인코딩을 사용하여 병렬화를 개선하고 장거리 종속성을 보다 효과적으로 포착할 수 있습니다. 그러나 기본 인코더-디코더 개념은 여전히 많은 Transformer 기반 모델의 핵심입니다. Ultralytics에서 지원하는 Baidu의 RT-DETR과 같은 모델은 객체 감지를 위해 Transformer 구성 요소를 통합합니다.
  • CNN: 이미지와 같은 그리드형 데이터에 주로 사용되지만(예: 탐지 및 세분화를 위한 Ultralytics YOLO 모델), 시퀀스 작업에도 적용되기도 합니다.

Seq2Seq은 종종 RNN 기반 인코더-디코더 구조를 의미하지만, 중간 표현을 사용해 입력 시퀀스를 출력 시퀀스에 매핑하는 일반적인 원칙은 여전히 많은 최신 아키텍처의 핵심입니다. PyTorch와 TensorFlow와 같은 도구는 기존 및 최신 시퀀스 모델을 모두 구현하기 위한 빌딩 블록을 제공합니다. 전체 모델 배포 파이프라인을 간소화하는 Ultralytics HUB와 같은 플랫폼을 사용하면 훈련 프로세스를 간소화할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨