Khám phá sức mạnh của mã thông báo trong NLP và ML! Tìm hiểu cách chia văn bản thành mã thông báo giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.
Tokenization là bước tiền xử lý cơ bản trong Trí tuệ nhân tạo (AI) và Học máy (ML) , đặc biệt quan trọng trong Xử lý ngôn ngữ tự nhiên (NLP) . Nó bao gồm việc chia nhỏ các chuỗi văn bản hoặc dữ liệu khác thành các đơn vị nhỏ hơn, dễ quản lý được gọi là token . Các token này đóng vai trò là các khối xây dựng cơ bản mà các thuật toán sử dụng để hiểu và xử lý thông tin, chuyển đổi đầu vào thô thành định dạng phù hợp để phân tích.
Ý tưởng cốt lõi đằng sau tokenization là phân đoạn. Đối với dữ liệu văn bản, điều này thường có nghĩa là chia câu thành các từ, từ phụ hoặc thậm chí các ký tự riêng lẻ dựa trên các quy tắc được xác định trước hoặc các mẫu đã học. Ví dụ, câu " Ultralytics YOLOv8 "mạnh mẽ" có thể được mã hóa thành: ["Ultralytics", "YOLOv8", "is", "powerful"]
. Phương pháp cụ thể được chọn phụ thuộc vào nhiệm vụ và kiến trúc mô hình. Các kỹ thuật phổ biến bao gồm phân tách theo khoảng trắng và dấu câu hoặc sử dụng các phương pháp nâng cao hơn như Mã hóa cặp byte (BPE) hoặc Từ ngữ, thường được sử dụng trong Mô hình ngôn ngữ lớn (LLM) giống BERT để xử lý các từ vựng lớn và các từ chưa biết một cách hiệu quả.
Tokenization là điều cần thiết vì hầu hết các mô hình ML đều yêu cầu đầu vào số. Bằng cách chuyển đổi văn bản thành các token rời rạc, sau đó chúng ta có thể ánh xạ các token này thành các biểu diễn số như nhúng , cho phép các mô hình học các mẫu và mối quan hệ trong dữ liệu. Quá trình này hỗ trợ nhiều ứng dụng AI:
["The", "service", "was", "excellent", "!"]
). Mỗi dấu hiệu sau đó được phân tích, thường sử dụng nhúng của nó, cho phép mô hình phân loại cảm xúc chung là tích cực, tiêu cực hoặc trung tính. Điều này rất quan trọng đối với các doanh nghiệp phân tích phản hồi của khách hàng. Tìm hiểu thêm về Phân tích tình cảm.Trong khi theo truyền thống liên quan đến NLP, khái niệm này mở rộng sang Computer Vision (CV) . Trong Vision Transformers (ViT) , hình ảnh được chia thành các bản vá có kích thước cố định, được coi là 'mã thông báo trực quan'. Các mã thông báo này sau đó được xử lý tương tự như mã thông báo văn bản trong bộ chuyển đổi NLP, cho phép các mô hình hiểu được các phân cấp không gian và ngữ cảnh trong hình ảnh.
Phân mã hiệu quả chuẩn hóa dữ liệu đầu vào, đơn giản hóa quá trình xử lý cho các mô hình và giúp quản lý kích thước từ vựng, đặc biệt là với các phương pháp từ phụ. Các thư viện như Hugging Face Tokenizers và các bộ công cụ như NLTK cung cấp các triển khai mạnh mẽ. Các nền tảng như Ultralytics HUB thường trừu tượng hóa sự phức tạp của quá trình xử lý trước dữ liệu , bao gồm cả phân mã, hợp lý hóa quy trình làm việc để đào tạo các mô hình được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow . Hiểu được phân mã là chìa khóa để xây dựng và tối ưu hóa nhiều hệ thống AI hiện đại.