Thuật ngữ

Giảm chiều

Đơn giản hóa dữ liệu đa chiều với các kỹ thuật giảm đa chiều. Cải thiện hiệu suất, khả năng trực quan hóa và hiệu quả của mô hình ML ngay hôm nay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Giảm chiều là một quá trình quan trọng trong Học máy (ML) và phân tích dữ liệu được sử dụng để giảm số lượng các tính năng (hoặc chiều) trong một tập dữ liệu trong khi vẫn bảo toàn càng nhiều thông tin có ý nghĩa càng tốt. Dữ liệu chiều cao, phổ biến trong các lĩnh vực như thị giác máy tínhXử lý ngôn ngữ tự nhiên (NLP) , có thể dẫn đến tình trạng tính toán kém hiệu quả, mô hình phức tạp và nguy cơ quá khớp . Bằng cách giảm chiều, chúng tôi hướng đến mục tiêu đơn giản hóa các mô hình, cải thiện tốc độ đào tạo, nâng cao hiệu suất và tạo điều kiện trực quan hóa dữ liệu.

Tại sao việc giảm kích thước lại quan trọng?

Làm việc với các tập dữ liệu có nhiều chiều đặt ra một số thách thức, thường được gọi là " lời nguyền của chiều ". Khi số lượng các tính năng tăng lên, khối lượng không gian dữ liệu tăng theo cấp số nhân, đòi hỏi nhiều dữ liệu hơn đáng kể để duy trì ý nghĩa thống kê. Giảm chiều giúp giảm thiểu các vấn đề này bằng cách:

  1. Giảm chi phí tính toán: Ít chiều hơn có nghĩa là cần ít tính toán hơn cho các thuật toán đào tạo, dẫn đến phát triển mô hình và suy luận nhanh hơn.
  2. Cải thiện hiệu suất mô hình: Việc loại bỏ các tính năng không liên quan hoặc dư thừa có thể giảm nhiễu và giúp mô hình tổng quát hóa tốt hơn đối với dữ liệu chưa biết, thường dẫn đến cải thiện độ chính xáccác số liệu hiệu suất khác.
  3. Cho phép trực quan hóa dữ liệu: Con người gặp khó khăn trong việc trực quan hóa dữ liệu vượt ra ngoài ba chiều. Giảm dữ liệu xuống còn hai hoặc ba chiều bằng các kỹ thuật như Phân tích thành phần chính (PCA) hoặc Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) cho phép khám phá trực quan và khám phá hiểu biết sâu sắc.
  4. Giảm thiểu sự dư thừa: Dữ liệu có chiều cao thường chứa các tính năng tương quan. Các kỹ thuật giảm chiều có thể kết hợp hoặc chọn các tính năng để biểu diễn dữ liệu một cách gọn gàng hơn.

Phương pháp giảm chiều

Có hai cách tiếp cận chính để giảm tính đa chiều, thường được áp dụng trong quá trình xử lý trước dữ liệu :

  1. Lựa chọn tính năng: Điều này liên quan đến việc lựa chọn một tập hợp con các tính năng gốc có liên quan nhất đến nhiệm vụ. Các tính năng được xếp hạng dựa trên điểm số thống kê hoặc tầm quan trọng của mô hình và các tính năng ít quan trọng hơn sẽ bị loại bỏ. Khía cạnh chính là các tính năng được chọn vẫn không thay đổi so với dạng ban đầu của chúng.
  2. Trích xuất tính năng: Phương pháp này tạo ra các tính năng mới, ít chiều hơn bằng cách kết hợp hoặc chuyển đổi các tính năng gốc. Không giống như lựa chọn tính năng, các tính năng kết quả khác với các tính năng gốc nhưng vẫn nắm bắt được thông tin cần thiết. Các kỹ thuật trích xuất tính năng phổ biến bao gồm PCA, Linear Discriminant Analysis (LDA) và Autoencoders . Nhiều thư viện, như Scikit-learn , cung cấp các triển khai của các phương pháp này.

Điều quan trọng là phải phân biệt việc giảm chiều với Kỹ thuật tính năng , đây là một quá trình rộng hơn có thể bao gồm việc tạo các tính năng mới, chuyển đổi các tính năng hiện có hoặc giảm chiều trong một bước.

Ứng dụng trong thế giới thực

Giảm kích thước được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau:

Kết thúc

Giảm chiều là một kỹ thuật thiết yếu để quản lý sự phức tạp của các tập dữ liệu hiện đại trong AI và ML. Bằng cách đơn giản hóa dữ liệu thông qua việc lựa chọn hoặc trích xuất tính năng, các chuyên gia có thể xây dựng các mô hình hiệu quả hơn, mạnh mẽ hơn và dễ diễn giải hơn. Hiểu và áp dụng giảm chiều là rất quan trọng để tối ưu hóa quy trình làm việc, cho dù là để đào tạo nhanh hơn trên các nền tảng như Ultralytics HUB hay triển khai các mô hình có yêu cầu tính toán thấp hơn.

Đọc tất cả