Thuật ngữ

Mã hóa

Khám phá sức mạnh của mã thông báo trong NLP và ML! Tìm hiểu cách chia văn bản thành mã thông báo giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Tokenization là bước tiền xử lý cơ bản trong Trí tuệ nhân tạo (AI) và Học máy (ML) , đặc biệt quan trọng trong Xử lý ngôn ngữ tự nhiên (NLP) . Nó bao gồm việc chia nhỏ các chuỗi văn bản hoặc dữ liệu khác thành các đơn vị nhỏ hơn, dễ quản lý được gọi là token . Các token này đóng vai trò là các khối xây dựng cơ bản mà các thuật toán sử dụng để hiểu và xử lý thông tin, chuyển đổi đầu vào thô thành định dạng phù hợp để phân tích.

Tokenization hoạt động như thế nào

Ý tưởng cốt lõi đằng sau tokenization là phân đoạn. Đối với dữ liệu văn bản, điều này thường có nghĩa là chia câu thành các từ, từ phụ hoặc thậm chí các ký tự riêng lẻ dựa trên các quy tắc được xác định trước hoặc các mẫu đã học. Ví dụ, câu " Ultralytics YOLOv8 "mạnh mẽ" có thể được mã hóa thành: ["Ultralytics", "YOLOv8", "is", "powerful"]. Phương pháp cụ thể được chọn phụ thuộc vào nhiệm vụ và kiến trúc mô hình. Các kỹ thuật phổ biến bao gồm phân tách theo khoảng trắng và dấu câu hoặc sử dụng các phương pháp nâng cao hơn như Mã hóa cặp byte (BPE) hoặc Từ ngữ, thường được sử dụng trong Mô hình ngôn ngữ lớn (LLM) giống BERT để xử lý các từ vựng lớn và các từ chưa biết một cách hiệu quả.

Sự liên quan và ứng dụng trong thế giới thực

Tokenization là điều cần thiết vì hầu hết các mô hình ML đều yêu cầu đầu vào số. Bằng cách chuyển đổi văn bản thành các token rời rạc, sau đó chúng ta có thể ánh xạ các token này thành các biểu diễn số như nhúng , cho phép các mô hình học các mẫu và mối quan hệ trong dữ liệu. Quá trình này hỗ trợ nhiều ứng dụng AI:

  1. Dịch máy: Các dịch vụ như Google Translate mã hóa các câu đầu vào trong ngôn ngữ nguồn thành các mã thông báo, xử lý các mã thông báo này bằng các mạng nơ-ron phức tạp (thường là Transformers ), sau đó tạo ra các mã thông báo trong ngôn ngữ đích, cuối cùng được lắp ráp lại thành các câu. Mã thông báo chính xác đảm bảo rằng các sắc thái ngôn ngữ được nắm bắt chính xác.
  2. Phân tích tình cảm: Để xác định cảm nghĩ của khách hàng về đánh giá như "Dịch vụ tuyệt vời!", trước tiên văn bản được mã hóa (["The", "service", "was", "excellent", "!"]). Mỗi dấu hiệu sau đó được phân tích, thường sử dụng nhúng của nó, cho phép mô hình phân loại cảm xúc chung là tích cực, tiêu cực hoặc trung tính. Điều này rất quan trọng đối với các doanh nghiệp phân tích phản hồi của khách hàng. Tìm hiểu thêm về Phân tích tình cảm.
  3. Mô hình ngôn ngữ thị giác: Các mô hình như CLIP hoặc Ultralytics YOLO -World dựa vào việc mã hóa các lời nhắc văn bản để hiểu các truy vấn của người dùng cho các tác vụ như phát hiện đối tượng zero-shot hoặc phân đoạn hình ảnh . Các mã thông báo văn bản được liên kết với các tính năng trực quan học được từ hình ảnh.

Mã hóa trong thị giác máy tính

Trong khi theo truyền thống liên quan đến NLP, khái niệm này mở rộng sang Computer Vision (CV) . Trong Vision Transformers (ViT) , hình ảnh được chia thành các bản vá có kích thước cố định, được coi là 'mã thông báo trực quan'. Các mã thông báo này sau đó được xử lý tương tự như mã thông báo văn bản trong bộ chuyển đổi NLP, cho phép các mô hình hiểu được các phân cấp không gian và ngữ cảnh trong hình ảnh.

Lợi ích và Công cụ

Phân mã hiệu quả chuẩn hóa dữ liệu đầu vào, đơn giản hóa quá trình xử lý cho các mô hình và giúp quản lý kích thước từ vựng, đặc biệt là với các phương pháp từ phụ. Các thư viện như Hugging Face Tokenizers và các bộ công cụ như NLTK cung cấp các triển khai mạnh mẽ. Các nền tảng như Ultralytics HUB thường trừu tượng hóa sự phức tạp của quá trình xử lý trước dữ liệu , bao gồm cả phân mã, hợp lý hóa quy trình làm việc để đào tạo các mô hình được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow . Hiểu được phân mã là chìa khóa để xây dựng và tối ưu hóa nhiều hệ thống AI hiện đại.

Đọc tất cả