AI 모델의 구성 요소인 토큰이 어떻게 NLP, 컴퓨터 비전, 그리고 감정 분석 및 객체 감지와 같은 작업을 지원하는지 알아보세요.
인공지능(AI) 과 머신러닝(ML), 특히 자연어 처리(NLP)와 컴퓨터 비전 분야에서 '토큰'은 모델이 처리하는 가장 작은 데이터 단위를 나타냅니다. 토큰은 AI 모델이 텍스트, 이미지 또는 기타 형태의 데이터 등 정보를 이해하고 분석하는 데 사용하는 기본 구성 요소라고 생각하면 됩니다. 토큰은 원시 입력을 알고리즘이 해석하고 학습할 수 있는 형식으로 변환하는 데 필수적이며, 여러 복잡한 AI 작업의 기초를 형성합니다.
토큰은 다음과 같은 프로세스의 개별적인 결과물입니다. 토큰화. 예를 들어, NLP에서는Ultralytics YOLO 빠르고 정확합니다"와 같은 문장을 개별 단어로 토큰화할 수 있습니다: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]
. 특정 토큰화 전략에 따라 토큰은 하위 단어 단위(예: "Ultra", "lytics")일 수도 있고 개별 문자일 수도 있습니다. 이러한 분류는 연속적인 텍스트나 복잡한 데이터를 관리하기 쉬운 조각으로 변환합니다.
토큰이 중요한 이유는 많은 최신 AI 시스템에서 사용되는 트랜스포머와 같은 강력한 아키텍처를 포함한 대부분의 딥러닝 모델이 원시 비정형 데이터를 직접 처리할 수 없기 때문입니다. 이러한 모델은 정형화된, 종종 숫자 형식의 입력이 필요합니다. 토큰화는 이러한 가교 역할을 합니다. 데이터가 토큰화되면 각 토큰은 일반적으로 어휘의 ID와 같은 숫자 표현에 매핑되거나, 더 일반적으로는 임베딩이라고 하는 고밀도 벡터 표현에 매핑됩니다. 이러한 임베딩은 토큰 간의 의미 관계를 포착하며, 모델은 학습 중에 이를 학습합니다.
데이터를 토큰으로 분류하는 방법에는 여러 가지가 있습니다:
토큰과 관련 용어를 구분하는 것이 중요합니다:
토큰은 다양한 AI 영역에서 기본이 됩니다. 다음은 두 가지 구체적인 예시입니다:
기계 번역: Google 번역과 같은 서비스에서는 한 언어의 입력 문장이 먼저 토큰화됩니다. 이러한 토큰은 시퀀스 간 모델(종종 트랜스포머)에 의해 처리된 다음 대상 언어로 번역된 문장을 나타내는 토큰을 생성합니다. 토큰화의 선택은 번역 정확도와 유창성에 큰 영향을 미칩니다. GPT-4 및 BERT와 같은 LLM은 번역, 텍스트 생성, 감정 분석 등의 작업을 위해 토큰 처리에 크게 의존합니다. 프롬프트 튜닝 및 프롬프트 체이닝과 같은 기술에는 입력 토큰 시퀀스를 조작하여 모델 동작을 안내하는 작업이 포함됩니다.
트랜스포머와 컴퓨터 비전: 토큰은 전통적으로 NLP와 관련이 있었지만, 이제 비전 트랜스포머(ViT)와 같은 고급 컴퓨터 비전 모델의 핵심입니다. ViT에서 이미지는 고정된 크기의 겹치지 않는 패치(예: 16x16픽셀)로 나뉩니다. 각 패치는 '비주얼 토큰'으로 취급됩니다. 이러한 토큰은 선형적으로 임베드되어 주의 메커니즘을 사용해 이미지의 여러 부분 간의 관계를 분석하는 Transformer 아키텍처에 공급됩니다. 이 접근 방식은 이미지 분류, 물체 감지, 이미지 분할과 같은 작업에 사용됩니다. 세그먼트 애니씽 모델(SAM) 과 같은 모델은 이 토큰 기반 접근 방식을 활용합니다. 다음과 같은 컨볼루션 모델에서도 Ultralytics YOLOv8 또는 최신 Ultralytics YOLO11의 경우, 탐지에 사용되는 그리드 셀 시스템은 암시적인 형태의 공간 토큰화로 볼 수 있습니다.
토큰을 이해하는 것은 AI 모델이 정보를 해석하고 처리하는 방식을 파악하는 데 있어 기본이 됩니다. AI가 발전함에 따라 토큰의 개념과 토큰을 만드는 방법은 다양한 데이터 유형을 처리하고 의료 이미지 분석에서 자율 주행 차량에 이르기까지 다양한 애플리케이션을 위한 보다 정교한 모델을 구축하는 데 핵심적인 역할을 하게 될 것입니다. Ultralytics 허브와 같은 플랫폼은 암시적 또는 명시적으로 토큰화된 데이터와 관련된 데이터 세트를 관리하고 모델을 훈련하는 도구를 제공합니다.