용어집

롱포머

긴 시퀀스에 최적화된 트랜스포머 모델로서 NLP, 유전체학 및 비디오 분석에 확장 가능한 효율성을 제공하는 Longformer에 대해 알아보세요.

롱포머는 매우 긴 텍스트 시퀀스를 효율적으로 처리하도록 설계된 특수한 트랜스포머 기반 모델로, BERT(양방향 인코더의 트랜스포머 표현)와 같은 이전 모델의 한계를 극복합니다. 앨런 인공지능 연구소(AI2)의 연구원들이 개발한 Longformer는 수천 개의 토큰을 처리할 때 표준 Transformer 모델이 직면하는 계산 복잡성 문제를 해결하여 긴 문서가 포함된 작업에 적합합니다. 이 기능은 광범위한 텍스트 범위에서 문맥을 이해해야 하는 자연어 처리(NLP) 애플리케이션을 발전시키는 데 매우 중요합니다.

롱포머 작동 방식

표준 트랜스포머 모델은 모든 토큰이 다른 모든 토큰에 주의를 기울이는 완전한 자기 주의 메커니즘을 사용합니다. 이 메커니즘은 강력하지만 메모리와 계산 요구사항이 시퀀스 길이에 따라 4배로 늘어나기 때문에 수백 개 이상의 토큰을 사용하는 시퀀스에는 비현실적입니다. 롱포머는 시퀀스 길이에 따라 선형적으로 확장되는 효율적인 주의 패턴을 도입합니다. 주로 다음과 같은 조합을 사용합니다:

슬라이딩 창 주의: 각 토큰은 양쪽의 고정된 수의 인접 토큰에만 참석하여 로컬 컨텍스트 창을 생성합니다.
확장된 슬라이딩 창: 계산을 크게 늘리지 않고 수용 필드를 늘리기 위해 일부 창 주의 레이어는 간격(확장)을 사용하여 토큰이 더 멀리 있는 토큰에 간접적으로 참석할 수 있도록 합니다.
글로벌 관심: 미리 선택된 소수의 토큰이 전체 시퀀스에 참석할 수 있으며, 전체 시퀀스가 해당 토큰에 참석할 수 있습니다. 이는 종종 작업에 중요한 특정 토큰에 사용됩니다. [CLS] 토큰을 사용합니다.

이 수정된 주의 메커니즘을 통해 롱포머는 강력한 성능을 유지하면서 BERT와 같은 모델의 일반적인 512개 토큰 제한보다 훨씬 긴 최대 수만 개의 토큰 입력을 처리할 수 있습니다. 이러한 효율성은 많은 실제 머신 러닝(ML) 작업에 필수적입니다.

다른 모델과의 주요 차이점

롱포머와 BERT 또는 GPT-2와 같은 모델의 가장 큰 차이점은 효율적으로 처리할 수 있는 최대 시퀀스 길이에 있습니다. BERT는 512개 토큰으로 제한되는 반면, Longformer는 훨씬 더 긴 시퀀스를 관리할 수 있습니다. 리포머나 트랜스포머-XL과 같이 긴 시퀀스를 위해 설계된 다른 모델들은 효율성을 달성하기 위해 로컬리티에 민감한 해싱이나 반복 메커니즘과 같은 다양한 기술을 사용합니다. 원래 연구 논문에 자세히 설명된 Longformer의 접근 방식은 미세 조정 후 다양한 다운스트림 작업에 적합한 로컬 및 글로벌 관심의 유연한 조합을 제공합니다.

애플리케이션 및 사용 사례

롱포머의 긴 문서 처리 능력은 이전에는 어렵거나 문서 분할과 같은 복잡한 해결 방법이 필요했던 수많은 NLP 작업에 대한 가능성을 열어줍니다.

문서 수준 질문 답변: 법률 문서, 기술 매뉴얼 또는 긴 보고서와 같이 여러 단락이나 페이지에 걸쳐 있는 정보에 따라 답변이 달라질 수 있는 광범위한 문서 내에서 답변을 찾습니다.
긴 문서 요약: 전체 문서의 맥락을 이해하여 전체 기사, 연구 논문 또는 책 챕터의 간결한 요약을 생성합니다.
핵심 참조 해상도: 긴 텍스트에서 동일한 엔티티를 가리키는 언급을 식별하는 기능입니다.
과학 문헌 분석: 방대한 학술 논문에서 정보를 처리하고 추출합니다. 다음과 같은 플랫폼 Hugging Face 와 같은 플랫폼은 트랜스포머 라이브러리를 통해 이러한 애플리케이션을 위해 사전 학습된 Longformer 모델에 쉽게 액세스할 수 있습니다.

AI/ML에서의 중요성

롱포머는 딥 러닝 모델이 긴 형식의 텍스트를 이해하고 추론할 수 있도록 하는 데 있어 중요한 진전을 이뤘습니다. 표준 트랜스포머의 복잡성 병목 현상을 극복함으로써 대규모 언어 모델(LLM)이 문서, 책, 확장된 대화와 관련된 작업을 보다 효과적으로 처리할 수 있게 해줍니다. 이 기능은 심층적인 문맥 이해가 필요한 애플리케이션에 필수적이며, 긴 형식의 인간 언어를 처리할 때 AI가 달성할 수 있는 한계를 넓혀줍니다. 물체 감지와 같은 컴퓨터 비전 작업에는 Ultralytics YOLO 같은 모델이 탁월한 반면, Longformer는 복잡하고 긴 형식의 텍스트 데이터를 처리하는 데에도 이와 유사한 발전된 기능을 제공합니다. Ultralytics HUB와 같은 도구는 특정 NLP 작업에 맞게 미세 조정된 모델을 포함해 다양한 AI 모델의 배포와 관리를 간소화합니다.

롱포머

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

롱포머 작동 방식

다른 모델과의 주요 차이점

애플리케이션 및 사용 사례

AI/ML에서의 중요성

블로그 더 보기

Ultralytics 커뮤니티 가입하기

롱포머

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

롱포머 작동 방식

다른 모델과의 주요 차이점

애플리케이션 및 사용 사례

AI/ML에서의 중요성

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련