Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Token

Tìm hiểu cách các token đóng vai trò là đơn vị thông tin cơ bản trong trí tuệ nhân tạo. Khám phá vai trò của chúng trong xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và phát hiện từ vựng mở với YOLO26.

Trong kiến ​​trúc phức tạp của trí tuệ nhân tạo hiện đại, một token đại diện cho đơn vị thông tin cơ bản, nguyên tử mà mô hình xử lý. Trước khi thuật toán có thể diễn giải một câu, phân tích một đoạn mã phần mềm hoặc nhận dạng các đối tượng trong hình ảnh, dữ liệu đầu vào thô phải được chia nhỏ thành các phần tử rời rạc, được chuẩn hóa này. Việc phân đoạn này là một bước quan trọng trong quá trình tiền xử lý dữ liệu , chuyển đổi các đầu vào không có cấu trúc thành định dạng số mà mạng nơ-ron có thể tính toán hiệu quả. Trong khi con người cảm nhận ngôn ngữ như một dòng suy nghĩ liên tục hoặc hình ảnh như những cảnh trực quan liền mạch, các mô hình tính toán yêu cầu các khối xây dựng chi tiết này để thực hiện các thao tác như nhận dạng mẫu và phân tích ngữ nghĩa.

Token so với Tokenization

Để nắm bắt được cơ chế hoạt động của máy học , điều cần thiết là phải phân biệt giữa đơn vị dữ liệu và quy trình được sử dụng để tạo ra nó. Sự phân biệt này giúp tránh nhầm lẫn khi thiết kế các đường dẫn dữ liệu và chuẩn bị tài liệu đào tạo trên Nền tảng Ultralytics .

  • Phân tách từ (Tokenization ): Đây là quá trình thuật toán (động từ) chia dữ liệu thô thành các phần nhỏ. Đối với văn bản, điều này có thể bao gồm việc sử dụng các thư viện như Natural Language Toolkit (NLTK) để xác định ranh giới giữa các đơn vị.
  • Token: Đây là kết quả đầu ra (danh từ). Đó là khối dữ liệu thực tế—chẳng hạn như một từ, một từ con hoặc một mảng hình ảnh—cuối cùng được ánh xạ tới một vectơ số được gọi là embedding .

Các Token trong các lĩnh vực AI khác nhau

Bản chất của một token thay đổi đáng kể tùy thuộc vào phương thức xử lý dữ liệu, đặc biệt là giữa lĩnh vực văn bản và hình ảnh.

Mã thông báo văn bản trong NLP

Trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP) , token là đầu vào cho các Mô hình Ngôn ngữ Lớn (LLM) . Các phương pháp ban đầu chỉ ánh xạ tới toàn bộ từ, nhưng các kiến ​​trúc hiện đại sử dụng các thuật toán từ con như Mã hóa Cặp Byte (BPE) . Phương pháp này cho phép các mô hình xử lý các từ hiếm bằng cách chia chúng thành các âm tiết có nghĩa, cân bằng kích thước từ vựng với phạm vi ngữ nghĩa. Ví dụ, từ "unhappiness" có thể được phân tách thành "un", "happi" và "ness".

Mã thông báo trực quan trong thị giác máy tính

Khái niệm mã hóa token đã được mở rộng sang lĩnh vực thị giác máy tính với sự ra đời của Vision Transformer (ViT) . Không giống như các mạng tích chập truyền thống xử lý pixel trong các cửa sổ trượt, Transformer chia một hình ảnh thành một lưới các mảng có kích thước cố định (ví dụ: 16x16 pixel). Mỗi mảng được làm phẳng và được coi là một token hình ảnh riêng biệt. Cách tiếp cận này cho phép mô hình sử dụng các cơ chế tự chú ý để hiểu mối quan hệ giữa các phần xa nhau của hình ảnh, tương tự như cách Google Research ban đầu áp dụng Transformer cho văn bản.

Các Ứng dụng Thực tế

Token đóng vai trò là cầu nối giữa dữ liệu của con người và trí tuệ máy móc trong vô số ứng dụng.

  1. Phát hiện đối tượng với từ vựng mở: Các mô hình tiên tiến như YOLO -World sử dụng phương pháp đa phương thức, trong đó các mã văn bản tương tác với các đặc điểm hình ảnh. Người dùng có thể nhập các lời nhắc văn bản tùy chỉnh (ví dụ: "mũ bảo hiểm màu xanh"), mà mô hình sẽ phân tách thành mã và so khớp với các đối tượng trong hình ảnh. Điều này cho phép học không cần huấn luyện trước , cho phép phát hiện các đối tượng mà mô hình không được huấn luyện cụ thể.
  2. Trí tuệ nhân tạo tạo sinh: Trong các hệ thống tạo văn bản như chatbot, AI hoạt động bằng cách dự đoán xác suất của từ tiếp theo trong một chuỗi. Bằng cách chọn lặp đi lặp lại từ tiếp theo có khả năng xảy ra cao nhất, hệ thống sẽ xây dựng các câu và đoạn văn mạch lạc, hỗ trợ các công cụ từ hỗ trợ khách hàng tự động đến trợ lý ảo .

Python Ví dụ: Sử dụng mã thông báo văn bản để phát hiện

Đoạn mã sau đây minh họa cách thức hoạt động của... ultralytics Gói này sử dụng các mã thông báo văn bản để hướng dẫn. phát hiện đối tượngTrong khi công nghệ tiên tiến nhất YOLO26 được khuyến nghị cho suy luận tốc độ cao, phân loại cố định. YOLO -Kiến trúc World cho phép người dùng định nghĩa các lớp dưới dạng mã thông báo văn bản trong quá trình thực thi một cách độc đáo.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

Hiểu về token là điều cơ bản để định hướng trong lĩnh vực trí tuệ nhân tạo tạo sinh và phân tích nâng cao. Cho dù đó là giúp chatbot giao tiếp trôi chảy hay hỗ trợ hệ thống thị giác phân biệt giữa các lớp đối tượng tinh tế, token vẫn là đơn vị tiền tệ thiết yếu của trí tuệ máy móc được sử dụng bởi các framework như PyTorchTensorFlow .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay