Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE)
Khám phá t-SNE, một kỹ thuật mạnh mẽ để trực quan hóa dữ liệu đa chiều. Tìm hiểu cách sử dụng, lợi ích và ứng dụng của nó trong AI và ML.
Nhúng Lân cận Ngẫu nhiên Phân tán T (t-SNE) là một kỹ thuật giảm chiều phi tuyến tính mạnh mẽ, chủ yếu được sử dụng để trực quan hóa dữ liệu. Nó cho phép các nhà nghiên cứu và chuyên gia trong lĩnh vực Học máy (ML) trực quan hóa các tập dữ liệu nhiều chiều trong không gian ít chiều, thường là biểu đồ 2D hoặc 3D. Được phát triển bởi Laurens van der Maaten và Geoffrey Hinton, điểm mạnh chính của nó là khả năng đáng chú ý trong việc tiết lộ cấu trúc cục bộ cơ bản của dữ liệu, chẳng hạn như cụm và đa tạp, mà các kỹ thuật khác có thể bỏ sót. Các triển khai có sẵn rộng rãi trong các thư viện như Scikit-learn và các khuôn khổ như PyTorch .
Ý tưởng cốt lõi của t-SNE là đặt các điểm dữ liệu tương tự gần nhau và các điểm không tương tự cách xa nhau trên bản đồ chiều thấp. Nó thực hiện điều này bằng cách chuyển đổi khoảng cách Euclidean chiều cao giữa các điểm dữ liệu thành các xác suất có điều kiện biểu diễn sự tương đồng. Sau đó, nó sử dụng một phân phối xác suất tương tự trong bản đồ chiều thấp và giảm thiểu độ phân kỳ giữa hai phân phối này.
Ứng dụng trong AI và ML
t-SNE được sử dụng rộng rãi để khám phá hình ảnh trên nhiều lĩnh vực khác nhau của Trí tuệ nhân tạo (AI) .
- Hiển thị các đặc điểm của mạng nơ-ron: Trong Thị giác máy tính (CV) , t-SNE rất hữu ích trong việc hiểu những gì một mô hình học sâu đã học được. Ví dụ, bạn có thể lấy các đặc điểm nhúng từ một lớp trung gian của Mạng nơ-ron tích chập (CNN) được huấn luyện để phân loại hình ảnh và sử dụng t-SNE để vẽ đồ thị. Nếu mô hình, chẳng hạn như mô hình YOLO của Ultralytics , được huấn luyện tốt trên một tập dữ liệu như CIFAR-10 , đồ thị kết quả sẽ hiển thị các cụm riêng biệt tương ứng với các danh mục hình ảnh khác nhau (ví dụ: "mèo", "chó", "ô tô"). Điều này cung cấp một sự xác nhận trực quan về khả năng phân biệt của mô hình.
- Khám phá Dữ liệu Văn bản: Trong Xử lý Ngôn ngữ Tự nhiên (NLP) , t-SNE có thể trực quan hóa các nhúng từ đa chiều như Word2Vec hoặc GloVe. Điều này giúp hiểu được mối quan hệ ngữ nghĩa giữa các từ; ví dụ, các từ như "vua", "nữ hoàng", "hoàng tử" và "công chúa" sẽ được nhóm lại với nhau. Các trực quan hóa như vậy rất hữu ích cho việc khám phá tập hợp văn bản và gỡ lỗi các mô hình ngôn ngữ được sử dụng trong các tác vụ như phân loại tài liệu .
- Tin sinh học và Hình ảnh Y khoa: Các nhà nghiên cứu sử dụng t-SNE để trực quan hóa dữ liệu sinh học phức tạp, chẳng hạn như các mẫu biểu hiện gen từ microarray, nhằm xác định quần thể tế bào hoặc phân nhóm bệnh. Nó cũng được sử dụng trong phân tích hình ảnh y khoa để phân nhóm các loại mô hoặc khối u khác nhau, như trong tập dữ liệu U Não .
T-SNE so với các kỹ thuật khác
Điều quan trọng là phải phân biệt t-SNE với các phương pháp giảm chiều khác.
- Phân tích Thành phần Chính (PCA) : PCA là một kỹ thuật tuyến tính tập trung vào việc bảo toàn phương sai tối đa trong dữ liệu, tương ứng với việc bảo toàn cấu trúc toàn cục, quy mô lớn. Ngược lại, t-SNE là một phương pháp phi tuyến tính, rất hiệu quả trong việc phát hiện cấu trúc cục bộ (tức là cách các điểm dữ liệu riêng lẻ nhóm lại với nhau). Mặc dù PCA nhanh hơn và mang tính xác định, nhưng bản chất tuyến tính của nó có thể không nắm bắt được các mối quan hệ phức tạp mà t-SNE có thể làm được. Thông thường, trước tiên PCA được sử dụng để giảm kích thước tập dữ liệu xuống một số chiều trung gian (ví dụ: 30-50) trước khi áp dụng t-SNE để giảm tải tính toán và nhiễu.
- Autoencoder : Autoencoder là một loại mạng nơ-ron có khả năng học các biểu diễn dữ liệu phi tuyến tính mạnh mẽ. Mặc dù linh hoạt hơn PCA và t-SNE, chúng thường khó diễn giải hơn và tốn kém hơn về mặt tính toán khi huấn luyện. Chúng chủ yếu được sử dụng để trích xuất đặc trưng hơn là trực quan hóa trực tiếp.
Những cân nhắc và hạn chế
Mặc dù mạnh mẽ, t-SNE có một số hạn chế mà người dùng phải cân nhắc.
- Chi phí tính toán: Thuật toán có độ phức tạp theo thời gian và không gian bậc hai dựa trên số điểm dữ liệu, khiến nó chậm hơn đối với các tập dữ liệu có hàng trăm nghìn mẫu. Các kỹ thuật như Barnes-Hut t-SNE mang lại những cải tiến đáng kể về hiệu suất.
- Độ nhạy siêu tham số: Kết quả có thể bị ảnh hưởng đáng kể bởi các siêu tham số của nó, đặc biệt là "độ phức tạp", tức là ước tính về số lượng điểm lân cận gần nhất mà mỗi điểm có. Không có một giá trị độ phức tạp nào là tốt nhất trên toàn cầu. Một nguồn tài liệu tuyệt vời để hiểu những ảnh hưởng này là bài viết " Cách sử dụng t-SNE hiệu quả " trên Distill.
- Diễn giải Cấu trúc Toàn cục: Cần thận trọng khi diễn giải trực quan hóa t-SNE. Kích thước tương đối của các cụm và khoảng cách giữa chúng trong biểu đồ cuối cùng không nhất thiết phản ánh sự phân tách thực tế trong không gian đa chiều ban đầu. Trọng tâm của thuật toán là bảo toàn các lân cận cục bộ, chứ không phải hình học toàn cục. Các công cụ như TensorFlow Projector cho phép khám phá tương tác, giúp xây dựng trực giác. Việc quản lý và trực quan hóa các phân tích như vậy có thể được đơn giản hóa bằng các nền tảng như Ultralytics HUB .