Thuật ngữ

Mã thông báo

Tìm hiểu cách các mã thông báo, thành phần cơ bản của mô hình AI, hỗ trợ NLP, thị giác máy tính và các tác vụ như phân tích tình cảm và phát hiện đối tượng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực Trí tuệ nhân tạo và Học máy, đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP) và ngày càng tăng trong thị giác máy tính, một 'mã thông báo' đại diện cho đơn vị dữ liệu nhỏ nhất mà một mô hình xử lý. Hãy coi mã thông báo là các khối xây dựng cơ bản mà các mô hình AI sử dụng để hiểu và phân tích thông tin, cho dù đó là văn bản, hình ảnh hay các dạng dữ liệu khác.

Hiểu về Token

Tokenization là quá trình chia nhỏ dữ liệu thô thành các phần nhỏ hơn, dễ tiêu hóa này. Ví dụ, trong NLP, văn bản được token hóa thành các từ, đơn vị từ phụ hoặc thậm chí là các ký tự. Quá trình này biến đổi văn bản liên tục thành các đơn vị rời rạc mà các mô hình học máy có thể xử lý hiệu quả. Cách dữ liệu được token hóa có thể tác động đáng kể đến hiệu suất và hiệu quả của mô hình.

Mã thông báo rất quan trọng vì các mô hình học máy, đặc biệt là các mô hình học sâu như những mô hình được sử dụng trong Ultralytics YOLO , không thể xử lý trực tiếp dữ liệu thô, không có cấu trúc. Chúng yêu cầu dữ liệu phải ở định dạng số hoặc rời rạc. Mã hóa đóng vai trò là cầu nối, chuyển đổi các đầu vào phức tạp thành định dạng mà thuật toán có thể hiểu và học hỏi. Sự chuyển đổi này rất cần thiết cho các tác vụ như tạo văn bản, phân tích tình cảm và phát hiện đối tượng.

Ứng dụng của Token

Token tìm thấy ứng dụng trong nhiều tác vụ AI và ML khác nhau. Sau đây là một vài ví dụ cụ thể:

  • Xử lý ngôn ngữ tự nhiên (NLP): Trong NLP, các mã thông báo là những con ngựa thồ của các mô hình ngôn ngữ. Ví dụ, khi thực hiện phân tích tình cảm , một câu như "Phim này thật tuyệt!" có thể được mã hóa thành ["Đây", "phim", "là", "tuyệt vời", "!"]. Mỗi mã thông báo này sau đó được chuyển đổi thành biểu diễn số, như nhúng từ, mà mô hình sử dụng để hiểu tình cảm. Các mô hình ngôn ngữ lớn như GPT-4GPT-3 phụ thuộc rất nhiều vào các mã thông báo để xử lý và tạo văn bản. Các kỹ thuật như nối chuỗi nhắc nhởđiều chỉnh nhắc nhở được thiết kế xung quanh việc thao tác và tối ưu hóa các chuỗi mã thông báo để đạt được đầu ra mong muốn từ các mô hình này.

  • Thị giác máy tính: Mặc dù theo truyền thống được liên kết với NLP, các mã thông báo ngày càng quan trọng trong các mô hình thị giác máy tính hiện đại, đặc biệt là với sự gia tăng của Vision Transformers (ViT). Trong các mô hình như Segment Anything Model ( SAM ) , hình ảnh thường được chia thành các bản vá, có thể được coi là các mã thông báo trực quan. Các mã thông báo trực quan này sau đó được xử lý bởi các mạng lưới biến áp, tận dụng các cơ chế chú ý để hiểu các mối quan hệ giữa các phần khác nhau của hình ảnh cho các tác vụ như phân đoạn hình ảnhphát hiện đối tượng . Ngay cả trong các mô hình phát hiện đối tượng như Ultralytics YOLOv8 , mặc dù không sử dụng rõ ràng 'mã thông báo trực quan' theo cùng một cách như ViT, khái niệm chia nhỏ hình ảnh thành lưới và xử lý từng ô lưới có thể được coi là một dạng mã thông báo ngầm định, trong đó mỗi ô lưới trở thành một đơn vị phân tích.

Hiểu về token là điều cơ bản để nắm bắt cách các mô hình AI xử lý thông tin. Khi AI tiếp tục phát triển, khái niệm token và token hóa có thể sẽ trở nên quan trọng hơn nữa trong việc xử lý các loại dữ liệu đa dạng và xây dựng các mô hình tinh vi và hiệu quả hơn.

Đọc tất cả