용어집

자기 주의

문맥을 인식하는 정확성으로 NLP, 컴퓨터 비전 및 음성 인식에 혁신을 가져오는 AI의 셀프 어텐션 기능을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

자기 주의는 현대 인공 지능의 중추적인 메커니즘으로, 특히 영향력 있는 논문 "주의만 있으면 된다"에서 소개된 트랜스포머 아키텍처에서 두드러지게 나타납니다. 이를 통해 모델은 정보를 처리할 때 단일 입력 시퀀스의 여러 부분의 중요도를 평가하여 데이터 자체의 맥락과 관계를 더 깊이 이해할 수 있습니다. 이는 주로 서로 다른 입력 및 출력 시퀀스의 연관성에 초점을 맞추던 이전의 주의 집중 방법과는 대조적입니다. 자연어 처리에 혁신적인 변화를 가져왔으며 컴퓨터 비전(CV)에서도 그 영향력이 점점 더 커지고 있습니다.

셀프 어텐션의 작동 방식

자기 주의의 핵심 아이디어는 맥락을 고려하면서 정보의 특정 부분에 집중하는 인간의 능력을 모방하는 것입니다. 예를 들어, 문장을 읽을 때 한 단어의 의미는 그 주변의 단어에 따라 달라지는 경우가 많습니다. 자기 주의는 AI 모델이 입력 시퀀스 내의 모든 요소(예: 단어 또는 이미지 패치) 간의 관계를 평가할 수 있게 해줍니다. 이 모델은 시퀀스의 다른 모든 요소와 비교하여 각 요소에 대한 '주의 점수'를 계산합니다. 이 점수는 특정 요소에 대한 출력 표현을 생성할 때 각 요소가 받아야 할 '주의' 또는 가중치를 결정하여 모델이 컨텍스트와 장거리 의존성을 이해하기 위해 입력의 가장 관련성이 높은 부분에 효과적으로 집중할 수 있도록 합니다. 이 프로세스에는 각 입력 요소에 대한 쿼리, 키 및 값 표현을 생성하는 작업이 포함되며, 종종 입력 임베딩에서 파생됩니다.

주요 이점

셀프 어텐션은 기존 시퀀스 처리 기술에 비해 몇 가지 장점이 있습니다:

  • 장거리 종속성 캡처: 로컬 피처에 초점을 맞추는 컨볼루션 신경망(CNN) 이나 사라지는 기울기와 같은 문제로 인해 긴 시퀀스에서 어려움을 겪을 수 있는 순환 신경망(RNN) 과 달리, 자기 주의는 시퀀스에서 멀리 떨어져 있는 요소 간의 관계를 직접 모델링할 수 있습니다.
  • 병렬화: 서로 다른 요소에 대한 자체 주의 계산을 병렬로 수행할 수 있어, RNN의 본질적인 순차적 특성에 비해 훈련 및 추론 속도가 크게 빨라집니다. 이러한 효율성은 이미지넷과 같은 대규모 데이터 세트에서 대규모 모델을 훈련하는 데 매우 중요합니다.
  • 문맥 이해력 향상: 입력의 모든 부분의 관련성을 평가함으로써 모델은 보다 맥락적으로 풍부한 표현을 생성하여 복잡한 작업의 성능을 향상시킬 수 있습니다.

자기 주의력 대 전통적인 주의력

둘 다 주의 메커니즘의 범주에 속하지만, 자기 주의는 기존의 주의와는 크게 다릅니다. 전통적인 주의는 일반적으로 기계 번역 시 소스 문장의 단어와 목표 문장의 단어의 관계와 같이 서로 다른 두 시퀀스의 요소 간에 주의 점수를 계산합니다. 그러나 자체 주의는 단일 시퀀스 내에서 주의 점수를 계산하여 입력의 요소를 동일한 입력의 다른 요소와 연관시킵니다. 이러한 내부 집중은 입력의 구조와 문맥에 대한 깊은 이해가 필요한 작업에서 효과적인 핵심 요소입니다.

AI 응용 분야

자기 주의는 다양한 영역에 걸친 많은 최첨단 모델의 기본입니다:

향후 방향

플래시어텐션과 희소주의 변형과 같은 방법 등 계산 효율성과 폭넓은 적용 가능성을 목표로 자기 주의 메커니즘을 개선하는 연구가 계속되고 있습니다. AI 모델이 점점 더 복잡해짐에 따라, 자기 주의는 전문 AI 애플리케이션부터 인공 일반 지능(AGI) 추구에 이르기까지 다양한 분야에서 발전을 주도하는 초석 기술로 남을 것으로 예상됩니다. Ultralytics HUB와 같은 도구와 플랫폼은 이러한 고급 기술을 통합한 모델의 훈련과 배포를 용이하게 합니다.

모두 보기