Tìm hiểu cách giảm chiều dữ liệu tối ưu hóa quy trình làm việc của ML. Khám phá các kỹ thuật như PCA và t-SNE để cải thiện hiệu quả. Ultralytics Hiệu năng và trực quan hóa dữ liệu của YOLO26.
Giảm chiều dữ liệu là một kỹ thuật mang tính đột phá trong học máy (ML) và khoa học dữ liệu, được sử dụng để giảm số lượng biến đầu vào—thường được gọi là các đặc trưng hoặc chiều—trong một tập dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất. Trong kỷ nguyên dữ liệu lớn , các tập dữ liệu thường chứa hàng nghìn biến, dẫn đến hiện tượng được gọi là lời nguyền của chiều dữ liệu . Hiện tượng này có thể khiến việc huấn luyện mô hình trở nên tốn kém về mặt tính toán, dễ bị quá khớp và khó diễn giải. Bằng cách chiếu dữ liệu đa chiều vào không gian có chiều thấp hơn, các chuyên gia có thể cải thiện hiệu quả, khả năng trực quan hóa và hiệu suất dự đoán.
Giảm độ phức tạp của dữ liệu là một bước cơ bản trong các quy trình tiền xử lý dữ liệu . Điều này mang lại một số lợi ích thiết thực cho việc xây dựng các hệ thống trí tuệ nhân tạo (AI) mạnh mẽ:
Các phương pháp giảm chiều thường được phân loại dựa trên việc chúng có bảo toàn cấu trúc tuyến tính toàn cục hay không, cũng như không gian phi tuyến tính cục bộ của dữ liệu.
Kỹ thuật tuyến tính được sử dụng rộng rãi nhất là Phân tích Thành phần Chính (PCA) . PCA hoạt động bằng cách xác định các "thành phần chính"—các trục trực giao nắm bắt được phương sai tối đa trong dữ liệu. Nó chiếu dữ liệu gốc lên các trục mới này, loại bỏ hiệu quả các chiều đóng góp ít thông tin. Đây là một kỹ thuật cơ bản trong các quy trình học không giám sát .
Đối với các cấu trúc dữ liệu phức tạp, chẳng hạn như hình ảnh hoặc văn bản nhúng , các phương pháp phi tuyến tính thường được yêu cầu. Các kỹ thuật như t-Distributed Stochastic Neighbor Embedding (t-SNE) và UMAP (Uniform Manifold Approximation and Projection) rất hiệu quả trong việc bảo toàn các vùng lân cận cục bộ, khiến chúng trở nên lý tưởng để trực quan hóa các cụm dữ liệu đa chiều. Ngoài ra, autoencoder là các mạng nơ-ron được huấn luyện để nén đầu vào thành một biểu diễn không gian tiềm ẩn và tái tạo chúng, học được một cách mã hóa dữ liệu nhỏ gọn.
Giảm chiều dữ liệu là yếu tố then chốt trong nhiều lĩnh vực của học sâu (DL) :
Điều quan trọng là phải phân biệt khái niệm này với việc lựa chọn đặc trưng , vì chúng đạt được các mục tiêu tương tự thông qua các cơ chế khác nhau:
Ví dụ sau minh họa cách lấy đầu ra đa chiều (mô phỏng vectơ nhúng hình ảnh) và giảm nó xuống bằng PCA. Đây là quy trình làm việc phổ biến khi trực quan hóa cách một mô hình như YOLO26 nhóm các lớp tương tự nhau.
import numpy as np
from sklearn.decomposition import PCA
# Simulate high-dimensional embeddings (e.g., 10 images, 512 features each)
# In a real workflow, these would come from a model like YOLO26n
embeddings = np.random.rand(10, 512)
# Initialize PCA to reduce from 512 dimensions to 2
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(embeddings)
# Output shape is now (10, 2), ready for 2D plotting
print(f"Original shape: {embeddings.shape}") # (10, 512)
print(f"Reduced shape: {reduced_data.shape}") # (10, 2)