용어집

롱포머

긴 시퀀스에 최적화된 트랜스포머 모델로서 NLP, 유전체학 및 비디오 분석에 확장 가능한 효율성을 제공하는 Longformer에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

롱포머는 매우 긴 텍스트 시퀀스를 효율적으로 처리하도록 설계된 특수한 트랜스포머 기반 모델로, BERT(양방향 인코더의 트랜스포머 표현)와 같은 이전 모델의 한계를 극복합니다. 앨런 인공지능 연구소(AI2)의 연구원들이 개발한 Longformer는 수천 개의 토큰을 처리할 때 표준 Transformer 모델이 직면하는 계산 복잡성 문제를 해결하여 긴 문서가 포함된 작업에 적합합니다. 이 기능은 광범위한 텍스트 범위에서 문맥을 이해해야 하는 자연어 처리(NLP) 애플리케이션을 발전시키는 데 매우 중요합니다.

롱포머 작동 방식

표준 트랜스포머 모델은 모든 토큰이 다른 모든 토큰에 주의를 기울이는 완전한 자기 주의 메커니즘을 사용합니다. 이 메커니즘은 강력하지만 메모리와 계산 요구사항이 시퀀스 길이에 따라 4배로 늘어나기 때문에 수백 개 이상의 토큰을 사용하는 시퀀스에는 비현실적입니다. 롱포머는 시퀀스 길이에 따라 선형적으로 확장되는 효율적인 주의 패턴을 도입합니다. 주로 다음과 같은 조합을 사용합니다:

  • 슬라이딩 창 주의: 각 토큰은 양쪽의 고정된 수의 인접 토큰에만 참석하여 로컬 컨텍스트 창을 생성합니다.
  • 확장된 슬라이딩 창: 계산을 크게 늘리지 않고 수용 필드를 늘리기 위해 일부 창 주의 레이어는 간격(확장)을 사용하여 토큰이 더 멀리 있는 토큰에 간접적으로 참석할 수 있도록 합니다.
  • 글로벌 관심: 미리 선택된 소수의 토큰이 전체 시퀀스에 참석할 수 있으며, 전체 시퀀스가 해당 토큰에 참석할 수 있습니다. 이는 종종 작업에 중요한 특정 토큰에 사용됩니다. [CLS] 토큰을 사용합니다.

이 수정된 주의 메커니즘을 통해 롱포머는 강력한 성능을 유지하면서 BERT와 같은 모델의 일반적인 512개 토큰 제한보다 훨씬 긴 최대 수만 개의 토큰 입력을 처리할 수 있습니다. 이러한 효율성은 많은 실제 머신 러닝(ML) 작업에 필수적입니다.

다른 모델과의 주요 차이점

롱포머와 BERT 또는 GPT-2와 같은 모델의 가장 큰 차이점은 효율적으로 처리할 수 있는 최대 시퀀스 길이에 있습니다. BERT는 512개 토큰으로 제한되는 반면, Longformer는 훨씬 더 긴 시퀀스를 관리할 수 있습니다. 리포머나 트랜스포머-XL과 같이 긴 시퀀스를 위해 설계된 다른 모델들은 효율성을 달성하기 위해 로컬리티에 민감한 해싱이나 반복 메커니즘과 같은 다양한 기술을 사용합니다. 원래 연구 논문에 자세히 설명된 Longformer의 접근 방식은 미세 조정 후 다양한 다운스트림 작업에 적합한 로컬 및 글로벌 관심의 유연한 조합을 제공합니다.

애플리케이션 및 사용 사례

롱포머의 긴 문서 처리 능력은 이전에는 어렵거나 문서 분할과 같은 복잡한 해결 방법이 필요했던 수많은 NLP 작업에 대한 가능성을 열어줍니다.

  • 문서 수준 질문 답변: 법률 문서, 기술 매뉴얼 또는 긴 보고서와 같이 여러 단락이나 페이지에 걸쳐 있는 정보에 따라 답변이 달라질 수 있는 광범위한 문서 내에서 답변을 찾습니다.
  • 긴 문서 요약: 전체 문서의 맥락을 이해하여 전체 기사, 연구 논문 또는 책 챕터의 간결한 요약을 생성합니다.
  • 핵심 참조 해상도: 긴 텍스트에서 동일한 엔티티를 가리키는 언급을 식별하는 기능입니다.
  • 과학 문헌 분석: 방대한 학술 논문에서 정보를 처리하고 추출합니다. 다음과 같은 플랫폼 Hugging Face 와 같은 플랫폼은 트랜스포머 라이브러리를 통해 이러한 애플리케이션을 위해 사전 학습된 Longformer 모델에 쉽게 액세스할 수 있습니다.

AI/ML에서의 중요성

롱포머는 딥 러닝 모델이 긴 형식의 텍스트를 이해하고 추론할 수 있도록 하는 데 있어 중요한 진전을 이뤘습니다. 표준 트랜스포머의 복잡성 병목 현상을 극복함으로써 대규모 언어 모델(LLM)이 문서, 책, 확장된 대화와 관련된 작업을 보다 효과적으로 처리할 수 있게 해줍니다. 이 기능은 심층적인 문맥 이해가 필요한 애플리케이션에 필수적이며, 긴 형식의 인간 언어를 처리할 때 AI가 달성할 수 있는 한계를 넓혀줍니다. 물체 감지와 같은 컴퓨터 비전 작업에는 Ultralytics YOLO 같은 모델이 탁월한 반면, Longformer는 복잡하고 긴 형식의 텍스트 데이터를 처리하는 데에도 이와 유사한 발전된 기능을 제공합니다. Ultralytics HUB와 같은 도구는 특정 NLP 작업에 맞게 미세 조정된 모델을 포함해 다양한 AI 모델의 배포와 관리를 간소화합니다.

모두 보기