용어집

토큰화

NLP와 ML에서 토큰화의 힘을 알아보세요! 텍스트를 토큰으로 분할하여 감정 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

토큰화는 인공 지능(AI)과 머신 러닝(ML)의 기본적인 전처리 단계로, 특히 자연어 처리(NLP)에 필수적입니다. 토큰화는 텍스트나 기타 데이터의 시퀀스를 토큰이라고 하는 더 작고 관리하기 쉬운 단위로 분해하는 작업을 포함합니다. 이러한 토큰은 알고리즘이 정보를 이해하고 처리하는 데 사용하는 기본 구성 요소로서 원시 입력을 분석에 적합한 형식으로 변환하는 역할을 합니다.

토큰화 작동 방식

토큰화의 핵심 개념은 세분화입니다. 텍스트 데이터의 경우, 이는 일반적으로 미리 정의된 규칙이나 학습된 패턴에 따라 문장을 단어, 하위 단어 또는 개별 문자로 분할하는 것을 의미합니다. 예를 들어,Ultralytics YOLOv8 강력하다"라는 문장을 토큰화할 수 있습니다: ["Ultralytics", "YOLOv8", "is", "powerful"]. 선택한 구체적인 방법은 작업과 모델 아키텍처에 따라 다릅니다. 일반적인 기술로는 공백과 구두점으로 나누거나 다음과 같은 고급 방법을 사용하는 것이 있습니다. 바이트 쌍 인코딩(BPE) 또는 워드피스에서 자주 사용되는 대규모 언어 모델(LLM) 같은 BERT 를 사용하여 많은 어휘와 모르는 단어를 효과적으로 처리할 수 있습니다.

관련성 및 실제 적용 사례

대부분의 ML 모델은 숫자 입력을 필요로 하기 때문에 토큰화는 필수적입니다. 텍스트를 개별 토큰으로 변환하면 이러한 토큰을 임베딩과 같은 숫자 표현에 매핑하여 모델이 데이터 내의 패턴과 관계를 학습할 수 있습니다. 이 프로세스는 수많은 AI 애플리케이션의 기반이 됩니다:

  1. 기계 번역: Google 번역과 같은 서비스는 소스 언어의 입력 문장을 토큰으로 토큰화하고, 복잡한 신경망(주로 Transformer)을 사용하여 이러한 토큰을 처리한 다음 대상 언어로 토큰을 생성하여 최종적으로 문장으로 다시 조립합니다. 정확한 토큰화를 통해 언어적 뉘앙스를 정확하게 포착할 수 있습니다.
  2. 감정 분석: "서비스가 훌륭했습니다!"와 같은 고객 리뷰의 감성을 파악하기 위해 먼저 텍스트를 토큰화합니다(["The", "service", "was", "excellent", "!"]). 각 토큰 를 임베딩하여 분석하면 모델이 전체 감성을 긍정, 부정 또는 중립으로 분류할 수 있습니다. 이는 고객 피드백을 분석하는 비즈니스에 매우 중요한 기능입니다. 감정 분석에 대해 자세히 알아보기.
  3. 비전 언어 모델: CLIP 또는 Ultralytics YOLO 같은 모델은 제로 샷 물체 감지 또는 이미지 분할과 같은 작업에 대한 사용자 쿼리를 이해하기 위해 텍스트 프롬프트를 토큰화하는 데 의존합니다. 텍스트 토큰은 이미지에서 학습한 시각적 특징과 연결됩니다.

컴퓨터 비전에서의 토큰화

전통적으로 NLP와 연관된 개념이지만, 이 개념은 컴퓨터 비전(CV)으로 확장되었습니다. 비전 트랜스포머(ViT)에서 이미지는 '시각적 토큰'으로 취급되는 고정된 크기의 패치로 나뉩니다. 이러한 토큰은 NLP 트랜스포머에서 텍스트 토큰과 유사하게 처리되어 모델이 이미지 내의 공간 계층 구조와 맥락을 이해할 수 있게 해줍니다.

혜택 및 도구

효과적인 토큰화는 입력 데이터를 표준화하고, 모델 처리를 간소화하며, 특히 서브워드 방식을 통해 어휘 크기를 관리하는 데 도움이 됩니다. Hugging Face 토큰라이저와 같은 라이브러리와 NLTK와 같은 툴킷은 강력한 구현을 제공합니다. Ultralytics HUB와 같은 플랫폼은 토큰화를 포함한 데이터 전처리의 복잡성을 추상화하여 다음과 같은 프레임워크로 구축된 학습 모델의 워크플로우를 간소화합니다. PyTorch 또는 TensorFlow. 토큰화를 이해하는 것은 많은 최신 AI 시스템을 구축하고 최적화하는 데 있어 핵심입니다.

모두 보기