용어집

롱포머

긴 시퀀스에 최적화된 트랜스포머 모델로서 NLP, 유전체학 및 비디오 분석에 확장 가능한 효율성을 제공하는 Longformer에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

롱포머는 매우 긴 데이터 시퀀스를 기존 트랜스포머보다 더 효율적으로 처리하도록 설계된 트랜스포머 모델 아키텍처의 일종입니다. 이 향상된 기능은 시퀀스 길이에 따라 4제곱으로 확장되는 계산 제약으로 인해 긴 입력에 어려움을 겪는 표준 트랜스포머 모델의 주요 한계를 해결합니다.

롱포머 이해

기존의 트랜스포머 모델은 강력하지만 텍스트, 오디오 또는 비디오의 긴 시퀀스를 처리할 때 어려움을 겪습니다. 주의 메커니즘의 계산 복잡성은 입력 시퀀스 길이에 따라 4제곱으로 증가하기 때문에 긴 문서나 고해상도 입력에는 비현실적입니다. 롱포머는 시퀀스 길이에 따라 선형적으로 확장되는 주의 메커니즘을 도입하여 이 문제를 해결합니다. 이러한 혁신을 통해 모델은 수천 또는 수만 개의 토큰 입력을 처리할 수 있어 다양한 AI 작업에서 더 긴 컨텍스트를 처리할 수 있는 새로운 가능성을 열어줍니다.

롱포머의 효율성의 핵심은 다양한 유형의 주의력을 결합한 하이브리드 주의력 메커니즘입니다:

  • 슬라이딩 창 주의: 각 토큰은 주변의 고정된 수의 토큰에 연결하여 로컬 컨텍스트를 생성합니다. 이는 계산적으로 효율적이며 로컬 종속성을 효과적으로 포착합니다.
  • 글로벌 어텐션: 미리 정의된 특정 토큰은 다른 모든 토큰에 주의를 기울이고 모든 토큰은 이러한 글로벌 토큰에 주의를 기울입니다. 이를 통해 모델은 글로벌 표현을 학습하고 긴 시퀀스 전체에 걸쳐 전반적인 컨텍스트를 유지할 수 있습니다.
  • 확장된 슬라이딩 창 주의: 슬라이딩 창 주의와 유사하지만 창에 간격(확장)이 있어 비슷한 계산 비용으로 더 큰 유효 수신 필드를 허용합니다.

이러한 주의 메커니즘을 전략적으로 결합함으로써 Longformer는 계산 부담을 크게 줄이면서도 긴 입력을 이해하는 데 필수적인 장거리 종속성을 모델링할 수 있는 기능을 유지합니다. 따라서 문서, 기사 또는 대화를 다루는 자연어 처리(NLP) 작업과 고해상도 이미지 또는 동영상과 관련된 컴퓨터 비전 작업에서 특히 유용합니다.

롱포머의 애플리케이션

롱포머는 긴 시퀀스를 처리할 수 있기 때문에 컨텍스트 길이가 중요한 다양한 애플리케이션에 적합합니다:

  • 문서 요약: 일관된 요약을 생성하기 위해 전체 문서를 이해해야 하는 작업에서 Longformer는 전체 텍스트 입력을 처리하여 탁월한 성능을 발휘합니다. 예를 들어, 긴 보고서의 컨텍스트가 필수적인 법률 또는 의료 이미지 분석에서 Longformer는 컨텍스트 창이 제한된 모델에 비해 더 포괄적이고 정확한 요약을 제공할 수 있습니다.
  • 긴 문서에 대한 질문 답변: 롱포머는 방대한 문서에서 정보를 검색해야 하는 질문 답변 시스템에서 매우 효과적입니다. 예를 들어 법률 AI 애플리케이션의 경우, 긴 판례 문서나 법령을 기반으로 특정 법률 질문에 답하는 데 Longformer를 사용할 수 있으므로 한 번에 텍스트 조각만 처리할 수 있는 모델에 비해 상당한 이점을 제공합니다.
  • 게놈 데이터 처리: 롱포머의 아키텍처는 텍스트 외에도 게놈 서열을 포함한 다른 서열 데이터 유형에도 적용할 수 있습니다. 생물정보학에서는 생물학적 과정과 질병을 이해하기 위해 긴 DNA 또는 RNA 서열을 분석하는 것이 매우 중요합니다. Longformer는 이러한 긴 서열을 처리하여 짧은 컨텍스트 기능을 가진 모델에서 놓칠 수 있는 패턴과 관계를 식별할 수 있습니다.
  • 긴 비디오 분석: 동영상과 관련된 컴퓨터 비전 작업, 특히 장시간에 걸친 이벤트를 이해해야 하는 작업에서는 긴 프레임 시퀀스를 처리하는 데 Longformer를 적용할 수 있습니다. 이는 시간적 맥락이 중요한 감시나 긴 수술 절차 분석과 같은 애플리케이션에 유용합니다.

롱포머 및 트랜스포머 모델

롱포머는 기존 트랜스포머 아키텍처를 발전시킨 것으로, 특히 긴 시퀀스를 처리할 때 표준 트랜스포머의 계산적 한계를 극복하기 위해 설계되었습니다. 기존 트랜스포머는 4차원적으로 복잡한 풀셀프 어텐션(full self-attention)을 활용하지만, Longformer는 선형적 복잡성을 달성하기 위해 스파스 어텐션 패턴을 도입합니다. 따라서 롱포머는 컨텍스트 관계를 포착하는 트랜스포머 아키텍처의 핵심 강점을 그대로 유지하면서 장거리 종속성을 포함하는 작업에 더욱 확장 가능하고 효율적인 옵션이 될 수 있습니다. 입력 시퀀스가 짧은 작업의 경우 표준 트랜스포머로도 충분할 수 있지만, 광범위한 컨텍스트를 처리해야 하는 애플리케이션의 경우 Longformer가 상당한 이점을 제공합니다. 다른 모델 아키텍처를 살펴볼 수 있습니다. YOLO-NAS 또는 RT-DETRUltralytics 에코시스템에서 효율적이고 정확한 객체 감지 작업을 위해 설계된 다른 모델 아키텍처를 살펴보며 AI 모델 아키텍처의 다양한 환경을 살펴보세요.

모두 보기