Thuật ngữ

Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE)

Khám phá t-SNE, một kỹ thuật mạnh mẽ để trực quan hóa dữ liệu đa chiều. Tìm hiểu cách sử dụng, lợi ích và ứng dụng của nó trong AI và ML.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) là một kỹ thuật phổ biến được sử dụng để giảm chiều , đặc biệt phù hợp để trực quan hóa các tập dữ liệu có chiều cao trong không gian có chiều thấp, thường là hai hoặc ba chiều. Được phát triển bởi Laurens van der Maaten và Geoffrey Hinton, kỹ thuật này rất hiệu quả trong việc tiết lộ cấu trúc cơ bản của dữ liệu, chẳng hạn như cụm và đa tạp, giúp dữ liệu phức tạp dễ hiểu hơn thông qua kiểm tra trực quan. Kỹ thuật này được sử dụng rộng rãi trong các lĩnh vực học máy (ML) và phân tích dữ liệu.

Hiểu về t-SNE

Ý tưởng cốt lõi đằng sau t-SNE là bảo toàn cấu trúc cục bộ của dữ liệu. Nó mô hình hóa sự tương đồng giữa các điểm dữ liệu chiều cao như các xác suất có điều kiện và sau đó cố gắng tìm một nhúng chiều thấp tạo ra phân phối xác suất tương tự giữa các điểm được ánh xạ. Không giống như các phương pháp tuyến tính như Phân tích thành phần chính (PCA) , t-SNE không tuyến tính và mang tính xác suất. Điều này cho phép nó nắm bắt các mối quan hệ phức tạp mà PCA có thể bỏ sót, đặc biệt là khi dữ liệu nằm trên các đa tạp cong. Tuy nhiên, PCA bảo toàn cấu trúc toàn cục và phương sai của dữ liệu tốt hơn.

Thuật toán tính toán sự tương đồng từng cặp giữa các điểm trong cả chiều cao và chiều thấp. Thuật toán sử dụng phân phối Gaussian trong không gian chiều cao và phân phối t (cụ thể là phân phối t của Student với một bậc tự do) trong không gian chiều thấp. Việc sử dụng phân phối t giúp giảm bớt "vấn đề đông đúc" (khi các điểm có xu hướng tập trung lại ở tâm bản đồ) và phân tách các điểm không giống nhau hiệu quả hơn trong bản đồ chiều thấp. Quá trình này bao gồm việc giảm thiểu sự phân kỳ giữa hai phân phối này bằng cách sử dụng gradient descent . Để biết giải thích kỹ thuật chi tiết, hãy tham khảo bài báo t-SNE gốc .

Ứng dụng trong AI và ML

t-SNE chủ yếu là một kỹ thuật trực quan hóa, vô cùng hữu ích để khám phá và hiểu dữ liệu đa chiều do các mô hình AI tạo ra. Sau đây là một số ví dụ:

Những cân nhắc chính

Mặc dù mạnh mẽ, t-SNE có những đặc điểm mà người dùng cần hiểu:

  • Chi phí tính toán: t-SNE có thể tốn nhiều công sức tính toán, đặc biệt là đối với các tập dữ liệu rất lớn, vì nó đòi hỏi phải tính toán độ tương đồng theo từng cặp.
  • Độ nhạy của siêu tham số: Kết quả nhạy cảm với siêu tham số, đặc biệt là "sự bối rối", ảnh hưởng đến số lượng các láng giềng cục bộ được xem xét cho mỗi điểm. Điều chỉnh siêu tham số thích hợp thường là cần thiết. Các triển khai như trong scikit-learn cung cấp các điều khiển cho các tham số này.
  • Diễn giải: Kích thước của các cụm và khoảng cách giữa chúng trong biểu đồ t-SNE không phải lúc nào cũng tương ứng trực tiếp với kích thước cụm thực tế hoặc khoảng cách trong không gian nhiều chiều ban đầu. Nó chủ yếu tiết lộ những điểm tương đồng và nhóm cục bộ. Đây là công cụ để khám phá hơn là phân tích cụm xác định như K-Means .

Tóm lại, t-SNE là một công cụ có giá trị trong bộ công cụ Trí tuệ nhân tạo (AI) để trực quan hóa và thu thập trực giác về các tập dữ liệu phức tạp, đa chiều, bổ sung cho các phương pháp phân tích khác.

Đọc tất cả