Thuật ngữ

Mã hóa

Khám phá sức mạnh của mã thông báo trong NLP và AI! Tìm hiểu cách chia văn bản thành mã thông báo giúp tăng cường phân tích tình cảm, phân loại và nhiều hơn nữa.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Token hóa là quá trình chia nhỏ văn bản thành các đơn vị nhỏ hơn gọi là token. Các token này có thể nhỏ như các ký tự, từ hoặc cụm từ riêng lẻ, tùy thuộc vào ngữ cảnh và ứng dụng. Token hóa là bước cơ bản trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) và học máy (ML), cho phép máy tính xử lý và phân tích dữ liệu văn bản một cách hiệu quả. Bằng cách chuyển đổi văn bản phi cấu trúc thành token có cấu trúc, token hóa giúp các thuật toán thực hiện các tác vụ như phân loại văn bản, phân tích tình cảm và mô hình hóa ngôn ngữ dễ dàng hơn.

Tầm quan trọng của việc mã hóa trong AI

Tokenization là điều cần thiết để chuyển đổi văn bản thô thành định dạng mà các mô hình học máy có thể hiểu được. Trong NLP, các mô hình như BERT hoặc GPT xử lý chuỗi token thay vì văn bản thô. Các token này hoạt động như các khối xây dựng cho các phân tích sâu hơn, chẳng hạn như nhúng thế hệ hoặc cơ chế chú ý.

Ngoài ra, việc mã hóa giúp chuẩn hóa văn bản, cho phép các thuật toán tập trung vào các mẫu có ý nghĩa thay vì các chi tiết không liên quan (ví dụ: dấu câu hoặc khoảng trắng). Quá trình này cũng hỗ trợ các tác vụ như tạo văn bản , trong đó các mô hình dự đoán mã thông báo tiếp theo trong một chuỗi và dịch máy , trong đó các mã thông báo được dịch giữa các ngôn ngữ.

Các loại mã hóa

  1. Phân chia từ: Chia văn bản thành các từ riêng lẻ. Ví dụ, câu " Ultralytics HUB mạnh mẽ" trở thành [" Ultralytics ", "HUB", "là", "mạnh mẽ"].
  2. Phân chia từ phụ: Chia văn bản thành các đơn vị từ phụ nhỏ hơn. Phương pháp này phổ biến trong các mô hình như BERT và GPT để xử lý các từ hiếm hoặc không xác định bằng cách chia chúng thành các phần có nghĩa (ví dụ: "powerful" thành "power" và "ful").
  3. Phân tách ký tự: Chia văn bản thành các ký tự riêng lẻ. Ví dụ: " Ultralytics " trở thành ["U", "l", "t", "r", "a", "l", "y", "t", "i", "c", "s"].

Mỗi phương pháp đều có ưu điểm và nhược điểm riêng. Phân chia từ đơn giản nhưng có thể gặp khó khăn với các từ chưa biết, trong khi phân chia từ phụ và ký tự xử lý các từ hiếm tốt hơn nhưng làm tăng độ dài chuỗi và độ phức tạp tính toán.

Ứng dụng của Tokenization

Phân tích tình cảm

Trong phân tích tình cảm, mã thông báo chia các đánh giá của người dùng hoặc bài đăng trên phương tiện truyền thông xã hội thành các mã thông báo để xác định tình cảm tích cực, tiêu cực hoặc trung tính. Ví dụ, trong bài đánh giá sản phẩm như "Tôi thích tốc độ của Ultralytics YOLO , "tokenization giúp trích xuất các token quan trọng như "tình yêu", "tốc độ" và " Ultralytics YOLO "để đánh giá tình cảm.

Phân loại văn bản

Phân loại là một bước quan trọng trong các tác vụ phân loại văn bản như phát hiện thư rác hoặc mô hình hóa chủ đề. Trong phát hiện thư rác, các mô hình phân tích các mã thông báo trong email để xác định các mẫu phân biệt giữa thư rác và thư hợp lệ. Tìm hiểu thêm về các tác vụ phân loại và cách triển khai của chúng trong Ultralytics YOLO quy trình công việc.

Mô hình ngôn ngữ

Mã thông báo là một phần không thể thiếu trong việc đào tạo và sử dụng các mô hình ngôn ngữ như GPT-4. Mã thông báo đại diện cho đầu vào và đầu ra của các mô hình này, cho phép thực hiện các tác vụ như tóm tắt văn bản , trả lời câu hỏi và AI đàm thoại.

Siêu dữ liệu phát hiện đối tượng

Trong các tác vụ thị giác máy tính, mã thông báo được sử dụng để xử lý siêu dữ liệu, chẳng hạn như nhãn đối tượng hoặc chú thích. Ví dụ, các mô hình phát hiện đối tượng như Ultralytics YOLO có thể mã hóa các chú thích dựa trên văn bản để tăng cường khả năng tương thích với các quy trình học máy.

Mã hóa trong thực tế

Ví dụ 1: Ứng dụng NLP

Hãy xem xét một chatbot được hỗ trợ bởi hiểu ngôn ngữ tự nhiên (NLU) . Mã hóa chuyển đổi dữ liệu đầu vào của người dùng như "Thời tiết ở Madrid như thế nào?" thành các mã thông báo như ["What", "'s", "the", "weather", "like", "in", "Madrid", "?"]. Sau đó, các mã thông báo này được xử lý để tạo ra phản hồi có liên quan.

Ví dụ 2: Phân chia từ phụ cho các từ hiếm

Trong một tập dữ liệu chăm sóc sức khỏe, các thuật ngữ y khoa hiếm như "angioplasty" có thể không xuất hiện trong các từ vựng chuẩn. Phân chia từ khóa phụ chia thuật ngữ thành ["angio", "plasty"], cho phép các mô hình hiểu và xử lý các thuật ngữ không quen thuộc một cách hiệu quả. Tìm hiểu thêm về các ứng dụng chăm sóc sức khỏe của AI .

Mã hóa so với các khái niệm liên quan

Trong khi tokenization là cơ bản trong NLP, nó khác với các khái niệm liên quan như nhúngcơ chế chú ý . Tokenization chuẩn bị văn bản thô để xử lý, trong khi nhúng chuyển đổi token thành các vectơ số và cơ chế chú ý xác định tầm quan trọng của token trong một chuỗi.

Công cụ và Khung hỗ trợ Mã hóa

  • PyTorch : Mã hóa thường được tích hợp vào PyTorch đường ống cho các tác vụ NLP.
  • Ultralytics HUB : Đơn giản hóa việc đào tạo và triển khai mô hình, bao gồm các bước xử lý trước như mã hóa.
  • Hugging Face Transformers : Cung cấp các trình phân tích cú pháp được đào tạo trước cho các mô hình ngôn ngữ hiện đại.

Tóm lại, tokenization là một bước quan trọng trong việc chuẩn bị dữ liệu văn bản cho các ứng dụng AI và học máy. Tính linh hoạt và tiện ích của nó mở rộng trên phân tích tình cảm, phân loại, mô hình hóa ngôn ngữ, v.v., khiến nó trở thành một quy trình không thể thiếu trong quy trình làm việc AI hiện đại.

Đọc tất cả