용어집

토큰화

NLP와 ML에서 토큰화의 힘을 알아보세요! 텍스트를 토큰으로 분할하여 감정 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.

토큰화는 인공 지능(AI)과 머신 러닝(ML)의 기본적인 전처리 단계로, 특히 자연어 처리(NLP)에 필수적입니다. 토큰화는 텍스트나 기타 데이터의 시퀀스를 토큰이라고 하는 더 작고 관리하기 쉬운 단위로 분해하는 작업을 포함합니다. 이러한 토큰은 알고리즘이 정보를 이해하고 처리하는 데 사용하는 기본 구성 요소로서 원시 입력을 분석에 적합한 형식으로 변환하는 역할을 합니다.

토큰화 작동 방식

토큰화의 핵심 개념은 세분화입니다. 텍스트 데이터의 경우, 이는 일반적으로 미리 정의된 규칙이나 학습된 패턴에 따라 문장을 단어, 하위 단어 또는 개별 문자로 분할하는 것을 의미합니다. 예를 들어,Ultralytics YOLOv8 강력하다"라는 문장을 토큰화할 수 있습니다: ["Ultralytics", "YOLOv8", "is", "powerful"]. 선택한 구체적인 방법은 작업과 모델 아키텍처에 따라 다릅니다. 일반적인 기술로는 공백과 구두점으로 나누거나 다음과 같은 고급 방법을 사용하는 것이 있습니다. 바이트 쌍 인코딩(BPE) 또는 워드피스에서 자주 사용되는 대규모 언어 모델(LLM) 같은 BERT 를 사용하여 많은 어휘와 모르는 단어를 효과적으로 처리할 수 있습니다.

컴퓨터 비전에서의 토큰화

전통적으로 NLP와 연관된 개념이지만, 이 개념은 컴퓨터 비전(CV)으로 확장되었습니다. 비전 트랜스포머(ViT)에서 이미지는 '시각적 토큰'으로 취급되는 고정된 크기의 패치로 나뉩니다. 이러한 토큰은 NLP 트랜스포머에서 텍스트 토큰과 유사하게 처리되어 모델이 이미지 내의 공간 계층 구조와 맥락을 이해할 수 있게 해줍니다.

혜택 및 도구

효과적인 토큰화는 입력 데이터를 표준화하고, 모델 처리를 간소화하며, 특히 서브워드 방식을 통해 어휘 크기를 관리하는 데 도움이 됩니다. Hugging Face 토큰라이저와 같은 라이브러리와 NLTK와 같은 툴킷은 강력한 구현을 제공합니다. Ultralytics HUB와 같은 플랫폼은 토큰화를 포함한 데이터 전처리의 복잡성을 추상화하여 다음과 같은 프레임워크로 구축된 학습 모델의 워크플로우를 간소화합니다. PyTorch 또는 TensorFlow. 토큰화를 이해하는 것은 많은 최신 AI 시스템을 구축하고 최적화하는 데 있어 핵심입니다.

토큰화

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

토큰화 작동 방식

관련성 및 실제 적용 사례

컴퓨터 비전에서의 토큰화

혜택 및 도구

블로그 더 보기

Ultralytics 커뮤니티 가입하기

토큰화

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

토큰화 작동 방식

관련성 및 실제 적용 사례

컴퓨터 비전에서의 토큰화

혜택 및 도구

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련