Thuật ngữ

Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE)

Trực quan hóa dữ liệu đa chiều một cách dễ dàng với t-SNE. Khám phá các mẫu, tìm hiểu các cụm và nâng cao hiểu biết về máy học ngay hôm nay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) là một kỹ thuật mạnh mẽ được sử dụng trong học máy để trực quan hóa dữ liệu nhiều chiều trong không gian ít chiều hơn, thường là hai hoặc ba chiều. Phương pháp này đặc biệt hiệu quả để khám phá và hiểu các tập dữ liệu phức tạp bằng cách tiết lộ các mẫu và cấu trúc cơ bản có thể không rõ ràng trong không gian nhiều chiều ban đầu. Bằng cách giảm kích thước trong khi vẫn giữ nguyên các mối quan hệ cục bộ giữa các điểm dữ liệu, t-SNE cho phép trực quan hóa và phân tích trực quan, khiến nó trở thành một công cụ có giá trị trong phân tích dữ liệu khám phá và quy trình làm việc học máy.

Cách t-SNE hoạt động

t-SNE hoạt động bằng cách xây dựng một phân phối xác suất trên các cặp đối tượng có chiều cao theo cách mà các đối tượng tương tự được gán một xác suất cao hơn trong khi các đối tượng không giống nhau được gán một xác suất thấp hơn. Sau đó, nó định nghĩa một phân phối xác suất tương tự trên các điểm trong bản đồ chiều thấp và nó giảm thiểu sự phân kỳ Kullback-Leibler giữa hai phân phối liên quan đến vị trí của các điểm trong bản đồ. Phương pháp này được thiết kế để bảo toàn các vùng lân cận cục bộ, nghĩa là các điểm gần nhau trong không gian chiều cao sẽ có xu hướng gần nhau trong biểu diễn chiều thấp.

Tìm hiểu thêm về các khái niệm liên quan trong Giảm chiều và cách nó hỗ trợ máy học.

Sự khác biệt chính so với các kỹ thuật khác

Trong khi t-SNE là một kỹ thuật giảm chiều , nó khác đáng kể so với các phương pháp khác như Phân tích thành phần chính (PCA) . PCA tập trung vào việc bảo toàn cấu trúc toàn cục của dữ liệu bằng cách tối đa hóa phương sai, trong khi t-SNE nhấn mạnh vào việc bảo toàn các vùng lân cận cục bộ. Sự khác biệt này khiến t-SNE đặc biệt hữu ích để trực quan hóa các cụm và khám phá các cấu trúc ẩn trong dữ liệu. Một kỹ thuật liên quan khác là Phân cụm K-Means , được sử dụng để phân vùng dữ liệu thành các cụm. Mặc dù cả hai có thể được sử dụng cùng nhau, t-SNE chủ yếu là một công cụ trực quan hóa, trong khi K-Means là một thuật toán phân cụm.

Ứng dụng trong thế giới thực

Phân tích bộ gen

Trong tin sinh học, t-SNE được sử dụng rộng rãi để trực quan hóa dữ liệu bộ gen phức tạp. Ví dụ, nó có thể giúp các nhà nghiên cứu xác định các quần thể tế bào riêng biệt trong dữ liệu giải trình tự RNA tế bào đơn. Bằng cách giảm các cấu hình biểu hiện gen nhiều chiều thành bản đồ hai chiều, t-SNE có thể tiết lộ các cụm tế bào có các kiểu biểu hiện tương tự, hỗ trợ việc khám phá các loại tế bào hoặc trạng thái mới.

Khám phá tác động của AI đến Phân tích bộ gen bằng Máy học .

Nhận dạng hình ảnh

t-SNE cũng có thể được áp dụng trong nhận dạng hình ảnh để trực quan hóa các không gian đặc điểm được học bởi các mô hình học sâu . Ví dụ, khi đào tạo Mạng nơ-ron tích chập (CNN) để phân loại hình ảnh, t-SNE có thể được sử dụng để trực quan hóa cách mạng phân tách các lớp khác nhau trong không gian đặc điểm. Điều này có thể cung cấp thông tin chi tiết về quy trình ra quyết định của mô hình và giúp xác định các lĩnh vực tiềm năng để cải thiện.

Khám phá việc sử dụng Ultralytics YOLO cho các hệ thống phát hiện hình ảnh tiên tiến.

Thông tin chi tiết về kỹ thuật

t-SNE liên quan đến một quá trình ngẫu nhiên, nghĩa là nó sử dụng tính ngẫu nhiên để đạt được kết quả của nó. Thuật toán bắt đầu bằng cách tính toán các điểm tương đồng theo cặp giữa các điểm dữ liệu trong không gian chiều cao bằng cách sử dụng phân phối Gaussian. Sau đó, nó ánh xạ các điểm này vào không gian chiều thấp hơn và sử dụng phân phối t để tính toán các điểm tương đồng. Quá trình tối ưu hóa điều chỉnh lặp lại vị trí của các điểm trong không gian chiều thấp để giảm thiểu sự phân kỳ giữa hai phân phối xác suất.

Sử dụng trong AI/ML

Ngoài trực quan hóa, t-SNE có thể được sử dụng để hiểu sâu hơn về cấu trúc của không gian đặc điểm trong các mô hình học sâu. Nó đặc biệt có giá trị để hiểu cách các mô hình phân biệt giữa các lớp hoặc danh mục khác nhau. Bằng cách trực quan hóa các lớp trung gian của mạng nơ-ron, các nhà nghiên cứu có thể chẩn đoán hành vi của mô hình, xác định các vấn đề tiềm ẩn và tinh chỉnh kiến trúc mô hình.

Tìm hiểu thêm về Kỹ thuật trích xuất tính năng trong AI và ý nghĩa của chúng.

Kết thúc

t-SNE là một công cụ vô giá để trực quan hóa và diễn giải dữ liệu đa chiều trong học máy. Khả năng bảo toàn cấu trúc cục bộ của nó khiến nó đặc biệt hiệu quả trong việc khám phá các cụm và mẫu trong các tập dữ liệu phức tạp. Cho dù được sử dụng để khám phá dữ liệu bộ gen, hiểu các mô hình học sâu hay trực quan hóa kết quả xử lý ngôn ngữ tự nhiên, t-SNE cung cấp một phương tiện mạnh mẽ để có được thông tin chi tiết về cấu trúc cơ bản của dữ liệu.

Khám phá cách Công cụ AI Vision của Ultralytics có thể nâng cao hơn nữa các dự án AI của bạn bằng cách tích hợp các kỹ thuật tiên tiến như vậy.

Đọc tất cả