Thuật ngữ

Giảm chiều

Đơn giản hóa dữ liệu đa chiều với các kỹ thuật giảm đa chiều mạnh mẽ như PCA & t-SNE. Tăng hiệu quả mô hình ML ngay hôm nay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Giảm chiều là một kỹ thuật được sử dụng trong học máy để giảm số lượng biến đầu vào trong một tập dữ liệu trong khi vẫn bảo toàn thông tin cần thiết. Quá trình này đơn giản hóa dữ liệu, giúp phân tích và mô hình hóa dễ dàng hơn mà không làm mất đi các chi tiết quan trọng. Bằng cách giảm chiều, chúng ta có thể cải thiện hiệu quả tính toán, giảm nhu cầu lưu trữ và nâng cao hiệu suất của các mô hình học máy.

Tầm quan trọng của việc giảm kích thước

Trong nhiều tập dữ liệu thực tế, đặc biệt là trong các lĩnh vực như thị giác máy tínhxử lý ngôn ngữ tự nhiên (NLP) , dữ liệu có thể có hàng trăm hoặc thậm chí hàng nghìn tính năng. Dữ liệu có chiều cao có thể dẫn đến một số thách thức, bao gồm tăng độ phức tạp tính toán, nguy cơ quá khớp và khó khăn trong việc trực quan hóa và diễn giải dữ liệu. Giảm chiều giúp giảm thiểu các vấn đề này bằng cách chuyển đổi dữ liệu thành không gian có chiều thấp hơn, giữ lại hầu hết thông tin quan trọng.

Các kỹ thuật chính để giảm kích thước

Có một số kỹ thuật giảm chiều, được phân loại thành hai loại: lựa chọn đặc điểm và trích xuất đặc điểm.

Lựa chọn tính năng

Lựa chọn tính năng liên quan đến việc chọn một tập hợp con các tính năng gốc dựa trên tầm quan trọng hoặc sự liên quan của chúng đối với nhiệm vụ dự đoán. Cách tiếp cận này giữ nguyên các tính năng gốc, giúp kết quả dễ diễn giải hơn. Các phương pháp phổ biến bao gồm:

  • Phương pháp lọc: Các phương pháp này sử dụng các biện pháp thống kê để chấm điểm và xếp hạng các tính năng. Ví dụ bao gồm các bài kiểm tra chi bình phương và mức tăng thông tin.
  • Phương pháp Wrapper: Các phương pháp này đánh giá các tập hợp con của các tính năng bằng cách sử dụng một mô hình học máy cụ thể. Ví dụ bao gồm lựa chọn tiến và loại bỏ lùi.
  • Phương pháp nhúng: Các phương pháp này kết hợp lựa chọn tính năng như một phần của quá trình đào tạo mô hình. Ví dụ bao gồm hồi quy LASSO và Ridge.

Trích xuất tính năng

Trích xuất tính năng tạo ra các tính năng mới bằng cách kết hợp hoặc chuyển đổi các tính năng gốc. Các tính năng hoặc thành phần mới này nắm bắt thông tin quan trọng nhất trong dữ liệu. Các kỹ thuật phổ biến bao gồm:

  • Phân tích thành phần chính (PCA): PCA chuyển đổi dữ liệu thành một tập hợp mới các tính năng không tương quan được gọi là các thành phần chính, được sắp xếp theo lượng phương sai mà chúng giải thích. Tìm hiểu thêm về PCA trên Wikipedia .
  • Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE): t-SNE đặc biệt hữu ích để trực quan hóa dữ liệu nhiều chiều trong hai hoặc ba chiều. Nó tập trung vào việc bảo toàn các mối quan hệ cục bộ giữa các điểm dữ liệu. Có thể tìm thêm thông tin trong bài báo gốc về t-SNE .
  • Phân tích phân biệt tuyến tính (LDA): LDA là phương pháp có giám sát tìm ra các tổ hợp tuyến tính của các tính năng phân tách tốt nhất các lớp trong dữ liệu. Phương pháp này thường được sử dụng trong các tác vụ phân loại.

Ứng dụng của việc giảm kích thước

Giảm chiều được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau để cải thiện hiệu quả và khả năng diễn giải của mô hình. Sau đây là một số ví dụ:

Nhận dạng hình ảnh

Trong nhận dạng hình ảnh , hình ảnh có thể có hàng nghìn pixel, mỗi pixel đại diện cho một tính năng. Sử dụng các kỹ thuật như PCA, số lượng tính năng có thể được giảm trong khi vẫn giữ nguyên thông tin cần thiết về hình ảnh. Điều này giúp đào tạo mạng nơ-ron tích chập (CNN) nhanh hơn và hiệu quả hơn. Ví dụ, trong các hệ thống nhận dạng khuôn mặt, PCA có thể giảm chiều của hình ảnh khuôn mặt, giúp xác định và phân loại khuôn mặt dễ dàng hơn. Khám phá thêm về nhận dạng khuôn mặt trong các ứng dụng AI .

Phân tích văn bản

Trong phân tích văn bản, tài liệu có thể được biểu diễn bằng các vectơ tần suất từ hoặc nhúng có chiều cao. Các kỹ thuật giảm chiều như Phân bổ Dirichlet tiềm ẩn (LDA) hoặc t-SNE có thể giảm chiều, giúp dễ dàng nhóm các tài liệu tương tự hoặc trực quan hóa các chủ đề. Ví dụ, trong phân tích phản hồi của khách hàng, giảm chiều có thể giúp xác định các chủ đề và cảm xúc chính trong một tập hợp lớn các bài đánh giá.

Y tế

Trong chăm sóc sức khỏe, dữ liệu bệnh nhân có thể bao gồm nhiều biến số như tiền sử bệnh, kết quả xét nghiệm và thông tin di truyền. Giảm chiều có thể giúp đơn giản hóa dữ liệu này, giúp xây dựng các mô hình dự đoán cho kết quả chẩn đoán hoặc điều trị dễ dàng hơn. Ví dụ, PCA có thể xác định các dấu hiệu di truyền quan trọng nhất liên quan đến một bệnh cụ thể. Tìm hiểu thêm về Vision AI trong chăm sóc sức khỏe .

Giảm chiều so với Kỹ thuật tính năng

Mặc dù cả giảm chiều và kỹ thuật tính năng đều nhằm mục đích cải thiện hiệu suất mô hình, nhưng chúng thực hiện theo những cách khác nhau. Kỹ thuật tính năng liên quan đến việc tạo các tính năng mới từ các tính năng hiện có, thường đòi hỏi chuyên môn về lĩnh vực. Mặt khác, giảm chiều tập trung vào việc giảm số lượng tính năng trong khi vẫn bảo toàn thông tin cần thiết. Kỹ thuật tính năng có thể được sử dụng kết hợp với giảm chiều để nâng cao hơn nữa hiệu suất mô hình.

Kết thúc

Giảm chiều là một kỹ thuật mạnh mẽ để đơn giản hóa dữ liệu và cải thiện hiệu quả của các mô hình học máy. Bằng cách giảm số lượng tính năng, chúng ta có thể vượt qua các thách thức liên quan đến dữ liệu có chiều cao, chẳng hạn như độ phức tạp tính toán tăng lên và quá khớp. Các kỹ thuật như PCA và t-SNE được sử dụng rộng rãi trong nhiều ứng dụng khác nhau, từ nhận dạng hình ảnh đến phân tích văn bản và chăm sóc sức khỏe. Hiểu và áp dụng giảm chiều có thể cải thiện đáng kể hiệu suất và khả năng diễn giải của các mô hình học máy của bạn. Để biết thêm thông tin về các chủ đề liên quan, hãy khám phá thuật ngữ Ultralytics .

Đọc tất cả