Khám phá t-SNE, một kỹ thuật mạnh mẽ để trực quan hóa dữ liệu đa chiều. Tìm hiểu cách sử dụng, lợi ích và ứng dụng của nó trong AI và ML.
Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) là một kỹ thuật phổ biến được sử dụng để giảm chiều , đặc biệt phù hợp để trực quan hóa các tập dữ liệu có chiều cao trong không gian có chiều thấp, thường là hai hoặc ba chiều. Được phát triển bởi Laurens van der Maaten và Geoffrey Hinton, kỹ thuật này rất hiệu quả trong việc tiết lộ cấu trúc cơ bản của dữ liệu, chẳng hạn như cụm và đa tạp, giúp dữ liệu phức tạp dễ hiểu hơn thông qua kiểm tra trực quan. Kỹ thuật này được sử dụng rộng rãi trong các lĩnh vực học máy (ML) và phân tích dữ liệu.
Ý tưởng cốt lõi đằng sau t-SNE là bảo toàn cấu trúc cục bộ của dữ liệu. Nó mô hình hóa sự tương đồng giữa các điểm dữ liệu chiều cao như các xác suất có điều kiện và sau đó cố gắng tìm một nhúng chiều thấp tạo ra phân phối xác suất tương tự giữa các điểm được ánh xạ. Không giống như các phương pháp tuyến tính như Phân tích thành phần chính (PCA) , t-SNE không tuyến tính và mang tính xác suất. Điều này cho phép nó nắm bắt các mối quan hệ phức tạp mà PCA có thể bỏ sót, đặc biệt là khi dữ liệu nằm trên các đa tạp cong. Tuy nhiên, PCA bảo toàn cấu trúc toàn cục và phương sai của dữ liệu tốt hơn.
Thuật toán tính toán sự tương đồng từng cặp giữa các điểm trong cả chiều cao và chiều thấp. Thuật toán sử dụng phân phối Gaussian trong không gian chiều cao và phân phối t (cụ thể là phân phối t của Student với một bậc tự do) trong không gian chiều thấp. Việc sử dụng phân phối t giúp giảm bớt "vấn đề đông đúc" (khi các điểm có xu hướng tập trung lại ở tâm bản đồ) và phân tách các điểm không giống nhau hiệu quả hơn trong bản đồ chiều thấp. Quá trình này bao gồm việc giảm thiểu sự phân kỳ giữa hai phân phối này bằng cách sử dụng gradient descent . Để biết giải thích kỹ thuật chi tiết, hãy tham khảo bài báo t-SNE gốc .
t-SNE chủ yếu là một kỹ thuật trực quan hóa, vô cùng hữu ích để khám phá và hiểu dữ liệu đa chiều do các mô hình AI tạo ra. Sau đây là một số ví dụ:
Mặc dù mạnh mẽ, t-SNE có những đặc điểm mà người dùng cần hiểu:
Tóm lại, t-SNE là một công cụ có giá trị trong bộ công cụ Trí tuệ nhân tạo (AI) để trực quan hóa và thu thập trực giác về các tập dữ liệu phức tạp, đa chiều, bổ sung cho các phương pháp phân tích khác.