Thuật ngữ

Giảm chiều

Đơn giản hóa dữ liệu đa chiều với các kỹ thuật giảm đa chiều. Cải thiện hiệu suất, khả năng trực quan hóa và hiệu quả của mô hình ML ngay hôm nay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Giảm chiều là một kỹ thuật quan trọng trong học máy (ML) được sử dụng để đơn giản hóa các tập dữ liệu phức tạp bằng cách giảm số lượng các tính năng hoặc biến, trong khi vẫn bảo toàn thông tin cần thiết. Dữ liệu có chiều cao, trong đó số lượng các tính năng lớn, có thể dẫn đến những thách thức như tăng chi phí tính toán, quá khớp và khó khăn trong việc trực quan hóa. Giảm chiều giải quyết các vấn đề này bằng cách chuyển đổi dữ liệu thành không gian có chiều thấp hơn, giúp dữ liệu dễ quản lý và hiệu quả hơn cho việc phân tích và lập mô hình.

Các loại giảm chiều

Về cơ bản có hai loại kỹ thuật giảm chiều: lựa chọn đặc điểm và trích xuất đặc điểm.

Lựa chọn tính năng

Lựa chọn tính năng liên quan đến việc chọn một tập hợp con các tính năng gốc dựa trên mức độ liên quan và tầm quan trọng của chúng đối với nhiệm vụ đang thực hiện. Phương pháp này giữ nguyên ý nghĩa gốc của các tính năng, giúp kết quả dễ hiểu hơn. Các phương pháp lựa chọn tính năng phổ biến bao gồm các phương pháp lọc, phương pháp bao bọc và phương pháp nhúng. Các phương pháp lọc đánh giá từng tính năng độc lập bằng các biện pháp thống kê, chẳng hạn như tương quan hoặc thông tin tương hỗ. Các phương pháp bao bọc đánh giá các tập hợp con của các tính năng bằng cách đào tạo một mô hình và đánh giá hiệu suất của nó. Các phương pháp nhúng kết hợp lựa chọn tính năng như một phần của quy trình đào tạo mô hình, chẳng hạn như trong các cây quyết định hoặc các kỹ thuật chính quy hóa như Lasso.

Trích xuất tính năng

Trích xuất tính năng tạo ra các tính năng mới bằng cách kết hợp hoặc chuyển đổi các tính năng gốc. Cách tiếp cận này thường dẫn đến một biểu diễn nhỏ gọn hơn của dữ liệu, nhưng các tính năng mới có thể không có cách diễn giải trực tiếp theo các biến gốc. Các kỹ thuật trích xuất tính năng phổ biến bao gồm Phân tích thành phần chính (PCA) và Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE). PCA xác định các thành phần chính, là các tổ hợp tuyến tính của các tính năng gốc nắm bắt được phương sai tối đa trong dữ liệu. t-SNE đặc biệt hữu ích để trực quan hóa dữ liệu nhiều chiều trong hai hoặc ba chiều bằng cách bảo toàn các điểm tương đồng cục bộ giữa các điểm dữ liệu.

Ứng dụng của việc giảm kích thước

Giảm chiều được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau trong AI và ML. Sau đây là một số ứng dụng đáng chú ý:

  • Hình dung dữ liệu: Giảm dữ liệu nhiều chiều xuống còn hai hoặc ba chiều cho phép hình dung và khám phá các mô hình và mối quan hệ trong dữ liệu dễ dàng hơn.
  • Giảm nhiễu: Bằng cách tập trung vào các tính năng quan trọng nhất, việc giảm chiều có thể giúp lọc nhiễu và cải thiện tỷ lệ tín hiệu trên nhiễu trong dữ liệu.
  • Hiệu quả tính toán: Làm việc với ít tính năng hơn sẽ giảm tài nguyên tính toán cần thiết cho quá trình đào tạo và suy luận, giúp thời gian xử lý nhanh hơn.
  • Ngăn ngừa quá khớp: Dữ liệu có chiều cao có thể dẫn đến các mô hình khớp quá mức với dữ liệu đào tạo, hoạt động kém trên dữ liệu chưa biết. Giảm chiều giúp giảm thiểu rủi ro này bằng cách đơn giản hóa mô hình và cải thiện khả năng khái quát hóa của mô hình.
  • Cải thiện hiệu suất mô hình: Bằng cách loại bỏ các tính năng không liên quan hoặc dư thừa, việc giảm số chiều có thể nâng cao độ chính xác và hiệu quả của các mô hình học máy.

Ví dụ trong các ứng dụng AI/ML thực tế

Nhận dạng hình ảnh

Trong nhận dạng hình ảnh , hình ảnh thường được biểu diễn bằng một số lượng lớn pixel, mỗi pixel được coi là một đặc điểm. Áp dụng các kỹ thuật giảm chiều như PCA có thể giảm đáng kể số lượng đặc điểm trong khi vẫn giữ lại thông tin cần thiết để phân biệt giữa các hình ảnh khác nhau. Điều này không chỉ tăng tốc quá trình đào tạo các mô hình thị giác máy tính mà còn giúp giảm yêu cầu lưu trữ cho các tập dữ liệu hình ảnh. Ví dụ, PCA có thể được sử dụng để chuyển đổi một tập dữ liệu hình ảnh khuôn mặt thành không gian có chiều thấp hơn, trong đó mỗi đặc điểm mới đại diện cho một thành phần chính nắm bắt các biến thể quan trọng nhất trong các đặc điểm khuôn mặt.

Xử lý ngôn ngữ tự nhiên

Trong xử lý ngôn ngữ tự nhiên (NLP) , các tài liệu văn bản thường được biểu diễn bằng các vectơ có chiều cao, chẳng hạn như trong túi từ hoặc TF - Các mô hình IDF. Các kỹ thuật giảm chiều, chẳng hạn như Phân bổ Dirichlet tiềm ẩn (LDA) hoặc Phân tích ma trận không âm (NMF), có thể được sử dụng để giảm chiều của các vectơ này trong khi vẫn giữ nguyên ý nghĩa ngữ nghĩa của văn bản. Ví dụ, LDA có thể xác định các chủ đề trong một tập hợp các tài liệu, biểu diễn mỗi tài liệu dưới dạng hỗn hợp các chủ đề này. Điều này làm giảm chiều của dữ liệu và cung cấp một biểu diễn dễ diễn giải hơn của văn bản.

Kết thúc

Giảm chiều là một kỹ thuật thiết yếu trong học máy để quản lý dữ liệu có chiều cao, cải thiện hiệu quả tính toán và tăng cường hiệu suất mô hình. Bằng cách giảm số lượng tính năng thông qua lựa chọn tính năng hoặc trích xuất tính năng, người thực hành có thể tạo ra các mô hình mạnh mẽ và hiệu quả hơn. Hiểu các nguyên tắc và ứng dụng của việc giảm chiều là rất quan trọng đối với bất kỳ ai làm việc với các tập dữ liệu phức tạp trong AI và ML. Cho dù là thông qua việc đơn giản hóa dữ liệu để trực quan hóa hay tối ưu hóa các mô hình để có hiệu suất tốt hơn, việc giảm chiều đóng vai trò quan trọng trong sự thành công của nhiều dự án học máy. Đối với những người sử dụng Ultralytics YOLO mô hình, tích hợp các kỹ thuật giảm chiều có thể dẫn đến thời gian đào tạo nhanh hơn và dự đoán chính xác hơn, đặc biệt là khi xử lý hình ảnh có độ phân giải cao hoặc tập dữ liệu lớn. Các kỹ thuật như PCA thường được sử dụng để giảm chiều của dữ liệu hình ảnh trước khi đưa vào mạng nơ-ron tích chập (CNN) , như được mô tả trong một bài báo nghiên cứu về giảm chiều để phân loại hình ảnh . Ngoài ra, bộ mã hóa tự động có thể được sử dụng để học mã hóa dữ liệu hiệu quả theo cách không giám sát, giúp nâng cao hơn nữa hiệu suất của các mô hình như Ultralytics YOLO .

Đọc tất cả