Giảm chiều là một quá trình quan trọng trong học máy (ML) và phân tích dữ liệu được sử dụng để giảm số lượng các tính năng (hoặc chiều) trong một tập dữ liệu trong khi vẫn giữ lại càng nhiều thông tin có ý nghĩa càng tốt. Dữ liệu có chiều cao, chứa nhiều tính năng, có thể dẫn đến những thách thức được gọi là "lời nguyền của chiều" , trong đó các mô hình trở nên tốn kém về mặt tính toán để đào tạo, yêu cầu nhiều bộ nhớ hơn, dễ bị quá khớp và có thể gặp khó khăn trong việc khái quát hóa tốt do phân phối dữ liệu thưa thớt. Các kỹ thuật giảm chiều nhằm mục đích giảm thiểu các vấn đề này bằng cách chuyển đổi dữ liệu thành không gian có chiều thấp hơn, đơn giản hóa mô hình, cải thiện tốc độ đào tạo, nâng cao hiệu suất mô hình và cho phép trực quan hóa dữ liệu dễ dàng hơn.
Giảm chiều hoạt động như thế nào
Các kỹ thuật giảm kích thước thường được chia thành hai loại chính:
- Lựa chọn tính năng: Các phương pháp này chọn một tập hợp con các tính năng gốc, loại bỏ những tính năng được coi là không liên quan hoặc thừa. Mục tiêu là giữ lại các tính năng thông tin nhất mà không thay đổi chúng. Các phương pháp có thể được phân loại thành bộ lọc (dựa trên các thuộc tính thống kê), trình bao bọc (dựa trên hiệu suất mô hình) hoặc nhúng (tích hợp vào quy trình đào tạo mô hình).
- Trích xuất tính năng: Các phương pháp này chuyển đổi dữ liệu gốc có chiều cao thành không gian tính năng mới, có chiều thấp hơn. Thay vì chỉ chọn các tính năng, chúng tạo ra các tính năng mới (thường là sự kết hợp của các tính năng gốc) để nắm bắt thông tin cần thiết. Đây là một khái niệm cốt lõi được trình bày chi tiết hơn trong mục thuật ngữ trích xuất tính năng .
Kỹ thuật chính
Một số thuật toán thường được sử dụng để giảm chiều:
- Phân tích thành phần chính (PCA) : Một kỹ thuật tuyến tính được sử dụng rộng rãi để trích xuất tính năng. PCA xác định các thành phần chính – các tính năng mới, không tương quan nắm bắt được phương sai tối đa trong dữ liệu gốc. Nó chiếu dữ liệu lên các thành phần này, giảm hiệu quả các chiều trong khi vẫn bảo toàn hầu hết tính biến thiên của dữ liệu. Nó thường được triển khai bằng các thư viện như Scikit-learn .
- Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) : Một kỹ thuật phi tuyến tính chủ yếu được sử dụng để trực quan hóa dữ liệu nhiều chiều trong hai hoặc ba chiều. t-SNE tập trung vào việc bảo toàn cấu trúc cục bộ của dữ liệu, ánh xạ các điểm dữ liệu nhiều chiều thành các điểm ít chiều sao cho các điểm tương tự vẫn gần nhau. Mặc dù tuyệt vời để trực quan hóa, nhưng nó đòi hỏi nhiều tính toán và ít phù hợp hơn để giảm chiều chung trước khi đào tạo mô hình so với PCA. Trang web của Laurens van der Maaten cung cấp các tài nguyên về t-SNE.
- Autoencoder: Một loại mạng nơ-ron (NN) được sử dụng cho việc học không giám sát và trích xuất tính năng. Một autoencoder bao gồm một bộ mã hóa nén dữ liệu đầu vào thành một biểu diễn tiềm ẩn có chiều thấp hơn (lớp thắt cổ chai) và một bộ giải mã tái tạo dữ liệu gốc từ biểu diễn này. Biểu diễn tiềm ẩn được nén đóng vai trò là đầu ra có chiều giảm. Những thứ này thường được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow .
Giảm chiều so với các khái niệm liên quan
- Trích xuất tính năng: Như đã đề cập, trích xuất tính năng là một loại giảm chiều tạo ra các tính năng mới từ các tính năng cũ. Các kỹ thuật như PCA và autoencoder nằm trong danh mục này.
- Kỹ thuật tính năng : Đây là một quy trình rộng hơn bao gồm việc tạo, lựa chọn và chuyển đổi các tính năng để cải thiện hiệu suất mô hình. Giảm chiều (cả lựa chọn và trích xuất) được coi là một phần của kỹ thuật tính năng. Kỹ thuật tính năng hiệu quả thường đòi hỏi chuyên môn về lĩnh vực.
- Nén dữ liệu: Mặc dù cả hai đều hướng đến mục tiêu giảm kích thước dữ liệu, nhưng việc giảm chiều dữ liệu tập trung cụ thể vào việc bảo toàn thông tin có liên quan đến các tác vụ ML, có khả năng loại bỏ một số chi tiết tái tạo. Nén dữ liệu tiêu chuẩn (như tệp ZIP) hướng đến mục tiêu giảm thiểu kích thước lưu trữ mà không mất dữ liệu hoặc với mức mất dữ liệu có thể chấp nhận được để tái tạo, không nhất thiết phải tối ưu hóa cho đầu vào của mô hình ML.
Ứng dụng trong AI và ML
Giảm kích thước là rất quan trọng trong nhiều ứng dụng Trí tuệ nhân tạo (AI) và ML:
- Thị giác máy tính (CV) : Hình ảnh chứa một lượng lớn dữ liệu pixel. Các kỹ thuật như PCA hoặc trích xuất tính năng vốn có trong Mạng nơ-ron tích chập (CNN) (được sử dụng trong các mô hình như Ultralytics YOLO ) làm giảm tính đa chiều này, tập trung vào các mẫu có liên quan cho các tác vụ như phát hiện đối tượng hoặc phân loại hình ảnh . Điều này giúp tăng tốc quá trình xử lý và có thể cải thiện độ chính xác của mô hình . Tiền xử lý hướng dẫn dữ liệu thường bao gồm các bước liên quan đến xử lý tính năng.
- Tin sinh học: Phân tích dữ liệu bộ gen thường liên quan đến các tập dữ liệu có hàng nghìn biểu hiện gen (tính năng). Giảm chiều giúp các nhà nghiên cứu xác định các mô hình quan trọng liên quan đến bệnh tật hoặc chức năng sinh học, giúp dữ liệu sinh học phức tạp dễ quản lý hơn. Các nghiên cứu được công bố trên các tạp chí như Nature Methods thường sử dụng các kỹ thuật này.
- Xử lý ngôn ngữ tự nhiên (NLP) : Dữ liệu văn bản có thể được biểu diễn trong không gian nhiều chiều bằng các kỹ thuật như TF -IDF hoặc nhúng từ . Giảm chiều giúp đơn giản hóa các biểu diễn này cho các tác vụ như phân loại tài liệu , mô hình chủ đề hoặc phân tích tình cảm .
- Hình dung dữ liệu: Các kỹ thuật như t-SNE vô cùng hữu ích khi vẽ biểu đồ các tập dữ liệu có nhiều chiều (ví dụ: phân khúc khách hàng, nhóm gen) ở dạng 2D hoặc 3D, cho phép con người kiểm tra trực quan và hiểu các cấu trúc hoặc mối quan hệ tiềm năng trong dữ liệu. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc quản lý các tập dữ liệu và mô hình khi các phân tích như vậy có liên quan.
Lợi ích và thách thức
Những lợi ích:
- Giảm chi phí tính toán và thời gian đào tạo.
- Giảm thiểu yêu cầu về bộ nhớ và lưu trữ.
- Có thể giảm thiểu hiện tượng đa chiều và giảm tình trạng quá khớp .
- Cải thiện hiệu suất mô hình bằng cách loại bỏ nhiễu và sự dư thừa.
- Cho phép trực quan hóa dữ liệu phức tạp, có nhiều chiều.
Thách thức:
- Có khả năng mất thông tin quan trọng nếu không áp dụng cẩn thận.
- Việc lựa chọn kỹ thuật phù hợp và số lượng kích thước mục tiêu có thể là một thách thức.
- Đôi khi, các đặc điểm được chuyển đổi (trong quá trình trích xuất đặc điểm) có thể khó diễn giải hơn so với các đặc điểm gốc.
- Một số kỹ thuật, như t-SNE, tốn kém về mặt tính toán.
Việc hiểu và áp dụng giảm chiều là điều cần thiết để xử lý hiệu quả các tập dữ liệu lớn và phức tạp trong quá trình phát triển AI hiện đại.