Thuật ngữ

Nhúng

Tìm hiểu nhúng là gì và cách chúng hỗ trợ AI bằng cách nắm bắt các mối quan hệ ngữ nghĩa trong dữ liệu cho NLP, đề xuất và thị giác máy tính.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực học máy (ML) và trí tuệ nhân tạo, nhúng là một kỹ thuật mạnh mẽ để biểu diễn dữ liệu—chẳng hạn như từ, câu, hình ảnh hoặc các mục khác—dưới dạng các vectơ số dày đặc trong không gian đa chiều. Phép biến đổi này được học từ dữ liệu, cho phép các thuật toán nắm bắt ý nghĩa ngữ nghĩa, bối cảnh hoặc đặc điểm của đầu vào. Ưu điểm chính là các mục tương tự được ánh xạ tới các điểm gần đó trong "không gian nhúng" này, cho phép máy hiểu các mối quan hệ và mẫu phức tạp hiệu quả hơn so với các biểu diễn thưa thớt truyền thống.

Nhúng là gì?

Nhúng về cơ bản là các biểu diễn vectơ dày đặc, ít chiều, đã học của các biến rời rạc (như từ) hoặc các đối tượng phức tạp (như hình ảnh). Không giống như các phương pháp như mã hóa one-hot tạo ra các vectơ thưa thớt, nhiều chiều, trong đó mỗi mục là độc lập, nhúng nắm bắt các mối quan hệ sắc thái. Ví dụ, trong nhúng từ, các từ có nghĩa tương tự hoặc được sử dụng trong các ngữ cảnh tương tự, như "chó" và "cún con", sẽ có các vectơ gần nhau về mặt toán học (ví dụ, sử dụng độ tương tự cosin). Sự gần gũi này trong không gian nhúng phản ánh độ tương tự về mặt ngữ nghĩa. Các vectơ này thường bao gồm các số thực và có thể dao động từ hàng chục đến hàng nghìn chiều, tùy thuộc vào độ phức tạp của dữ liệu và mô hình.

Cách thức hoạt động của nhúng

Nhúng thường được tạo bằng mô hình mạng nơ-ron (NN) được đào tạo trên các tập dữ liệu lớn. Ví dụ, một kỹ thuật phổ biến cho nhúng từ liên quan đến việc đào tạo một mô hình để dự đoán một từ dựa trên các từ xung quanh (ngữ cảnh của nó) trong các câu. Trong quá trình đào tạo này, mạng điều chỉnh các tham số nội bộ của nó, bao gồm các vectơ nhúng cho từng từ, để giảm thiểu lỗi dự đoán. Các vectơ kết quả mã hóa ngầm thông tin cú pháp và ngữ nghĩa học được từ ngữ liệu văn bản lớn. Số chiều trong không gian nhúng là một siêu tham số quan trọng, ảnh hưởng đến khả năng nắm bắt chi tiết của mô hình so với chi phí tính toán của nó. Việc trực quan hóa các không gian nhiều chiều này thường yêu cầu các kỹ thuật giảm chiều như t-SNE hoặc PCA , có thể được xem bằng các công cụ như TensorFlow Projector .

Ứng dụng của nhúng

Nhúng là nền tảng cơ bản cho nhiều ứng dụng AI hiện đại:

  • Xử lý ngôn ngữ tự nhiên (NLP) : Nhúng từ và câu cung cấp năng lượng cho các tác vụ như phân tích tình cảm , dịch máy và phân loại văn bản. Chúng cho phép các mô hình hiểu các phép loại suy (ví dụ: "vua" - "đàn ông" + "phụ nữ" ≈ "nữ hoàng") bằng cách thực hiện phép tính vectơ. Các mô hình cổ điển bao gồm Word2Vec và GloVe, trong khi các phương pháp tiếp cận hiện đại như BERT tạo ra các nhúng phụ thuộc vào ngữ cảnh bằng cách sử dụng kiến trúc Transformer .
  • Hệ thống đề xuất : Người dùng và các mục (như phim hoặc sản phẩm) được nhúng vào cùng một không gian. Các đề xuất được thực hiện bằng cách tìm các mục có nhúng gần với nhúng của người dùng, phản ánh sở thích của họ. Các công ty như Netflix rất dựa vào các kỹ thuật nhúng.
  • Computer Vision (CV) : Hình ảnh hoặc các bản vá hình ảnh có thể được chuyển đổi thành nhúng cho các tác vụ như truy xuất hình ảnh (tìm hình ảnh tương tự về mặt thị giác) hoặc phân cụm. Các mô hình như Ultralytics YOLO không chỉ có thể được sử dụng để phát hiện đối tượng hoặc phân đoạn hình ảnh mà các lớp bên trong của chúng cũng có khả năng đóng vai trò là trình trích xuất tính năng mạnh mẽ để tạo nhúng biểu diễn nội dung hình ảnh.

Nhúng so với các kỹ thuật biểu diễn khác

Việc nhúng có nhiều ưu điểm hơn so với các phương pháp biểu diễn đơn giản hơn:

  • Mã hóa One-Hot: Biểu diễn các danh mục dưới dạng các vectơ nhị phân thưa thớt. Các vectơ này là trực giao (không giống nhau) và không nắm bắt bất kỳ mối quan hệ ngữ nghĩa nào giữa các danh mục. Tính đa chiều cũng tăng tuyến tính với số lượng các mục duy nhất, trở nên không hiệu quả đối với các từ vựng lớn.
  • Bag-of-Words (BoW) : Biểu diễn văn bản dựa trên tần suất từ, bỏ qua ngữ pháp và thứ tự từ. Mặc dù đơn giản, nhưng nó không nắm bắt được ý nghĩa ngữ nghĩa hiệu quả so với nhúng.
  • TF -IDF (Tần suất thuật ngữ-Tần suất tài liệu nghịch đảo) : Đánh giá trọng số của các từ dựa trên tần suất của chúng trong một tài liệu so với tần suất của chúng trên toàn bộ ngữ liệu. Nó đo lường tầm quan trọng của từ nhưng không nắm bắt được sự tương đồng về mặt ngữ nghĩa như nhúng.

Kết thúc

Nhúng đại diện cho một bước tiến đáng kể trong cách máy móc xử lý và hiểu dữ liệu phức tạp. Bằng cách ánh xạ các mục thành các biểu diễn vectơ có ý nghĩa, chúng cho phép phân tích phức tạp và cung cấp năng lượng cho nhiều ứng dụng AI, đặc biệt là trong NLP và các hệ thống đề xuất. Khi các mô hình và kỹ thuật đào tạo tiếp tục phát triển, nhúng có khả năng sẽ trở nên quan trọng hơn nữa trong việc xây dựng các hệ thống thông minh. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc đào tạo và triển khai các mô hình thường dựa trên các biểu diễn mạnh mẽ này, giúp AI tiên tiến dễ tiếp cận hơn. Để tìm hiểu thêm, hãy khám phá tài liệu Ultralytics .

Đọc tất cả