Tìm hiểu nhúng là gì và cách chúng hỗ trợ AI bằng cách nắm bắt các mối quan hệ ngữ nghĩa trong dữ liệu cho NLP, đề xuất và thị giác máy tính.
Trong lĩnh vực học máy và trí tuệ nhân tạo, nhúng là một cách biểu diễn dữ liệu - từ, câu hoặc thậm chí là hình ảnh - dưới dạng các điểm trong không gian đa chiều, trong đó vị trí của mỗi điểm phản ánh ý nghĩa ngữ nghĩa hoặc đặc điểm của nó. Các biểu diễn này được học bởi các thuật toán phân tích lượng lớn dữ liệu, cho phép chúng nắm bắt các mối quan hệ và mẫu phức tạp. Nhúng là nền tảng trong việc cho phép máy hiểu và xử lý ngôn ngữ tự nhiên và các dạng dữ liệu khác hiệu quả hơn.
Nhúng về cơ bản là các biểu diễn vectơ dày đặc của dữ liệu. Không giống như các phương pháp truyền thống có thể biểu diễn các từ hoặc mục dưới dạng các ký hiệu độc lập, duy nhất, nhúng nắm bắt các sắc thái ý nghĩa bằng cách ánh xạ các điểm dữ liệu thành các vectơ của các số thực trong không gian có nhiều chiều. Không gian này thường được gọi là không gian nhúng. Ý tưởng chính là các mục tương tự sẽ có các nhúng tương tự, nghĩa là chúng sẽ nằm gần nhau trong không gian này. Ví dụ, trong mô hình nhúng từ, các từ có ý nghĩa tương tự, như "mèo" và "mèo con", sẽ được biểu diễn bằng các vectơ gần nhau.
Nhúng thường được tạo ra bằng cách sử dụng các mô hình mạng nơ-ron được đào tạo trên các tập dữ liệu lớn. Ví dụ, một mô hình có thể được đào tạo để dự đoán một từ dựa trên các từ xung quanh trong một câu. Trong quá trình đào tạo này, mô hình học cách ánh xạ từng từ thành một vectơ theo cách nắm bắt được ngữ cảnh ngữ nghĩa của nó. Các chiều của không gian nhúng là một siêu tham số của mô hình, thường dao động từ vài chục đến vài trăm. Mỗi chiều nắm bắt một khía cạnh khác nhau về ý nghĩa hoặc đặc điểm của dữ liệu, mặc dù con người không phải lúc nào cũng có thể diễn giải trực tiếp các khía cạnh này.
Nhúng có nhiều ứng dụng trong nhiều lĩnh vực khác nhau trong AI và học máy. Sau đây là một số ví dụ đáng chú ý:
Trong NLP, nhúng từ được sử dụng để cung cấp năng lượng cho các ứng dụng như phân tích tình cảm , dịch máy và phân loại văn bản. Bằng cách biểu diễn các từ dưới dạng vectơ, các mô hình có thể thực hiện các phép toán để hiểu và tạo văn bản. Ví dụ, phương trình nổi tiếng "vua - đàn ông + phụ nữ = nữ hoàng" thường được chứng minh bằng cách nhúng từ để minh họa cách các vectơ này có thể nắm bắt các mối quan hệ ngữ nghĩa.
Nhúng được sử dụng để biểu diễn người dùng và mục trong hệ thống đề xuất. Bằng cách ánh xạ người dùng và mục vào cùng một không gian nhúng, hệ thống có thể đề xuất các mục gần với sở thích của người dùng. Cách tiếp cận này được các công ty như Netflix và Amazon sử dụng để đề xuất phim hoặc sản phẩm dựa trên hành vi của người dùng và đặc điểm của mục.
Mặc dù ít phổ biến hơn trong NLP, nhúng cũng có thể được sử dụng trong thị giác máy tính . Ví dụ, hình ảnh có thể được ánh xạ đến không gian nhúng nơi các hình ảnh tương tự nằm gần nhau. Điều này có thể được sử dụng cho các tác vụ như truy xuất hình ảnh hoặc phân cụm. Bằng cách tận dụng Ultralytics YOLO mô hình, người dùng có thể nâng cao hơn nữa khả năng phân tích hình ảnh bằng cách tích hợp khả năng phát hiện đối tượng và phân đoạn hình ảnh , giúp cho việc nhúng dữ liệu trở nên hữu ích và nhiều thông tin hơn cho các ứng dụng cụ thể.
Mô hình không gian vectơ là một mô hình toán học được sử dụng để biểu diễn các tài liệu văn bản hoặc bất kỳ đối tượng nào dưới dạng vectơ của các định danh. Đây là một khái niệm cơ bản cho nhúng, trong đó mỗi chiều của vectơ tương ứng với một thuật ngữ hoặc tính năng riêng biệt.
Các kỹ thuật như Phân tích thành phần chính (PCA) và Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) thường được sử dụng để trực quan hóa các nhúng chiều cao trong không gian chiều thấp hơn (ví dụ: 2D hoặc 3D) trong khi vẫn giữ nguyên khoảng cách tương đối giữa các điểm. Giảm chiều giúp hiểu và diễn giải không gian nhúng.
Các nhúng từ truyền thống như Word2Vec và GloVe cung cấp một biểu diễn tĩnh cho mỗi từ. Ngược lại, các nhúng theo ngữ cảnh, chẳng hạn như các nhúng được tạo bởi BERT (Bidirectional Encoder Representations from Transformers) và các mô hình Transformer khác, tạo ra các nhúng thay đổi dựa trên ngữ cảnh mà từ đó xuất hiện. Điều này cho phép mô hình nắm bắt các nghĩa khác nhau của một từ trong các câu khác nhau.
Mã hóa one-hot là một cách đơn giản để biểu diễn dữ liệu theo danh mục, trong đó mỗi danh mục được biểu diễn dưới dạng một vectơ nhị phân với một "1" và các "0" còn lại. Không giống như nhúng, vectơ one-hot thưa thớt và không nắm bắt được mối quan hệ ngữ nghĩa giữa các danh mục.
Mô hình bag-of-words biểu diễn văn bản dưới dạng tần suất của mỗi từ, bỏ qua ngữ pháp và thứ tự từ. Mặc dù đơn giản, nhưng nó không nắm bắt được ý nghĩa ngữ nghĩa của các từ theo cùng cách mà nhúng thực hiện.
TF -IDF (Tần suất thuật ngữ-Tần suất tài liệu nghịch đảo) là một số liệu thống kê số phản ánh mức độ quan trọng của một từ đối với một tài liệu trong một bộ sưu tập hoặc ngữ liệu. Nó kết hợp tần suất của một từ trong một tài liệu với độ hiếm của từ đó trên toàn bộ ngữ liệu, cung cấp thước đo về mức độ liên quan. Mặc dù hữu ích, TF -IDF không nắm bắt được các mối quan hệ ngữ nghĩa hiệu quả như nhúng.
Nhúng đã trở thành nền tảng của máy học hiện đại, đặc biệt là trong lĩnh vực NLP. Bằng cách biểu diễn dữ liệu dưới dạng các vectơ dày đặc trong không gian đa chiều, nhúng nắm bắt các mối quan hệ ngữ nghĩa phong phú và cho phép xử lý và phân tích tinh vi hơn. Cho dù đó là hiểu ngôn ngữ tự nhiên, cung cấp năng lượng cho hệ thống đề xuất hay tăng cường các tác vụ thị giác máy tính, nhúng đóng vai trò quan trọng trong việc thúc đẩy khả năng của các hệ thống AI. Khi nghiên cứu tiến triển, chúng ta có thể mong đợi nhúng sẽ tiếp tục phát triển, dẫn đến các biểu diễn dữ liệu mạnh mẽ và sắc thái hơn nữa. Với các công cụ như Ultralytics HUB, việc quản lý và triển khai các mô hình tiên tiến này trở nên dễ tiếp cận hơn, cho phép người dùng đào tạo các mô hình YOLO một cách hiệu quả và tích hợp các giải pháp AI tiên tiến vào ứng dụng của họ.