Thuật ngữ

Lớp bỏ học

Khám phá cách các lớp bỏ học ngăn chặn hiện tượng quá khớp trong mạng nơ-ron bằng cách cải thiện khả năng khái quát hóa, tính mạnh mẽ và hiệu suất mô hình.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Một lớp dropout là một kỹ thuật chính quy hóa được sử dụng trong mạng nơ-ron để ngăn chặn tình trạng overfitting, một vấn đề phổ biến khi một mô hình hoạt động tốt trên dữ liệu đào tạo nhưng kém trên dữ liệu chưa biết. Trong giai đoạn đào tạo, lớp dropout ngẫu nhiên "dropout" hoặc vô hiệu hóa một tỷ lệ phần trăm nơ-ron nhất định trong mạng. Quá trình này buộc mạng phải học các tính năng mạnh mẽ hơn không phụ thuộc vào sự hiện diện của các nơ-ron cụ thể, do đó cải thiện khả năng khái quát hóa của mô hình đối với dữ liệu mới, chưa biết.

Lớp Dropout hoạt động như thế nào

Trong một mạng nơ-ron chuẩn, mỗi nơ-ron trong một lớp được kết nối với mọi nơ-ron trong lớp trước đó. Trong quá trình đào tạo, các kết nối này được tăng cường hoặc suy yếu dựa trên dữ liệu mà mạng xử lý. Tuy nhiên, điều này có thể dẫn đến việc mạng trở nên quá chuyên biệt đối với dữ liệu đào tạo, thu thập nhiễu và các mẫu cụ thể không tổng quát hóa tốt với dữ liệu mới.

Một lớp dropout giải quyết vấn đề này bằng cách ngẫu nhiên thiết lập một phần các neuron trong một lớp thành 0 tại mỗi lần lặp lại đào tạo. Phần các neuron bị loại bỏ là một siêu tham số, thường được thiết lập giữa 0,2 và 0,5. Điều này có nghĩa là 20% đến 50% neuron trong lớp sẽ bị vô hiệu hóa trong mỗi lần truyền tới và truyền lui. Việc lựa chọn neuron nào bị loại bỏ thay đổi theo mỗi lần lặp lại, đảm bảo rằng mạng không phụ thuộc quá nhiều vào bất kỳ neuron riêng lẻ nào.

Lợi ích của việc sử dụng lớp Dropout

Các lớp bỏ học mang lại một số lợi thế trong việc đào tạo các mô hình học sâu:

  • Cải thiện khả năng khái quát hóa: Bằng cách ngăn chặn mạng lưới phụ thuộc quá nhiều vào các nơ-ron cụ thể, các lớp bỏ học khuyến khích việc học các tính năng mạnh mẽ và khái quát hơn.
  • Giảm hiện tượng quá khớp: Dropout giúp giảm hiện tượng quá khớp bằng cách đưa nhiễu vào quá trình đào tạo, khiến mô hình ít nhạy cảm hơn với dữ liệu đào tạo cụ thể.
  • Hiệu ứng tập hợp: Dropout có thể được xem như là quá trình đào tạo một tập hợp nhiều mạng với các tập hợp con khác nhau của các tế bào thần kinh. Hiệu ứng tập hợp này trung bình hóa các dự đoán của các mạng khác nhau này, dẫn đến hiệu suất tổng thể tốt hơn.
  • Hiệu quả tính toán: Mặc dù việc bỏ qua gây ra một số chi phí trong quá trình đào tạo, nhưng nó có thể dẫn đến sự hội tụ nhanh hơn và đào tạo hiệu quả hơn bằng cách giảm độ phức tạp của toàn bộ mạng.

Ứng dụng trong AI/ML thực tế

Các lớp dropout được sử dụng rộng rãi trong nhiều ứng dụng học sâu khác nhau. Sau đây là hai ví dụ cụ thể:

  1. Nhận dạng hình ảnh: Trong các tác vụ nhận dạng hình ảnh , chẳng hạn như các tác vụ được thực hiện bởi Convolutional Neural Networks (CNN) , các lớp dropout thường được sử dụng để cải thiện khả năng khái quát hóa của mô hình. Ví dụ, trong một mạng được đào tạo để phân loại hình ảnh, dropout có thể ngăn mô hình quá khớp với các tính năng cụ thể trong hình ảnh đào tạo, dẫn đến hiệu suất tốt hơn trên một tập hợp hình ảnh mới đa dạng.
  2. Xử lý ngôn ngữ tự nhiên: Trong các tác vụ Xử lý ngôn ngữ tự nhiên (NLP) , chẳng hạn như phân tích tình cảm hoặc tạo văn bản , các lớp dropout có thể được áp dụng cho Mạng nơ-ron hồi quy (RNN) hoặc mô hình Transformer . Bằng cách loại bỏ ngẫu nhiên các nơ-ron, mô hình học cách đưa ra dự đoán dựa trên nhiều tín hiệu ngữ cảnh, cải thiện độ mạnh mẽ và độ chính xác của nó trên dữ liệu văn bản chưa thấy.

Dropout so với các kỹ thuật chính quy hóa khác

Dropout là một trong số nhiều kỹ thuật chính quy hóa được sử dụng trong học máy (ML) . Sau đây là cách nó so sánh với một số phương pháp phổ biến khác:

  • Chính quy hóa L1 và L2: Các kỹ thuật này thêm một thuật ngữ phạt vào hàm mất mát dựa trên độ lớn của trọng số của mô hình. Chính quy hóa L1 khuyến khích sự thưa thớt bằng cách đưa một số trọng số về 0, trong khi chính quy hóa L2 khuyến khích các trọng số nhỏ hơn nói chung. Không giống như dropout, các phương pháp này không liên quan đến việc vô hiệu hóa ngẫu nhiên các tế bào thần kinh mà thay vào đó điều chỉnh các trọng số trong quá trình đào tạo.
  • Early Stopping: Kỹ thuật này bao gồm việc theo dõi hiệu suất của mô hình trên một tập dữ liệu xác thực và dừng quá trình đào tạo khi hiệu suất bắt đầu giảm. Mặc dù early stop có thể ngăn chặn tình trạng quá khớp, nhưng nó không cải thiện việc học các tính năng mạnh mẽ theo cùng cách như dropout.
  • Tăng cường dữ liệu : Kỹ thuật này liên quan đến việc tạo các ví dụ đào tạo mới bằng cách áp dụng các phép biến đổi vào dữ liệu hiện có, chẳng hạn như xoay hoặc cắt hình ảnh. Tăng cường dữ liệu làm tăng tính đa dạng của tập đào tạo, giúp mô hình tổng quát hóa tốt hơn. Mặc dù hiệu quả, nhưng đây là một cách tiếp cận khác so với quy tắc hóa nội bộ do dropout cung cấp.

Triển khai Dropout trong mạng nơ-ron

Các lớp dropout thường được chèn giữa các lớp được kết nối đầy đủ hoặc sau các lớp tích chập trong mạng nơ-ron. Chúng có thể dễ dàng được tích hợp vào các mô hình bằng cách sử dụng các khuôn khổ học sâu phổ biến như TensorFlowPyTorch . Tỷ lệ dropout, xác định tỷ lệ tế bào thần kinh bị vô hiệu hóa, là một siêu tham số có thể được điều chỉnh để tối ưu hóa hiệu suất mô hình. Để biết các kỹ thuật tối ưu hóa mô hình nâng cao hơn, hãy khám phá điều chỉnh siêu tham số .

Khi triển khai dropout, điều quan trọng cần lưu ý là lớp dropout hoạt động khác nhau trong quá trình đào tạo và suy luận. Trong quá trình đào tạo, các neuron bị loại bỏ ngẫu nhiên như đã mô tả. Tuy nhiên, trong quá trình suy luận, tất cả các neuron đều hoạt động, nhưng đầu ra của chúng được thu nhỏ theo tỷ lệ dropout để duy trì độ lớn đầu ra mong đợi. Việc thu nhỏ này đảm bảo rằng các dự đoán của mô hình nhất quán giữa quá trình đào tạo và suy luận.

Để đọc thêm, bạn có thể khám phá bài báo nghiên cứu gốc về dropout của Srivastava và cộng sự, trong đó cung cấp phân tích chuyên sâu về phương pháp và hiệu quả của nó: Dropout: A Simple Way to Prevent Neural Networks from Overfitting . Bạn cũng có thể tìm hiểu thêm về các khái niệm liên quan như chuẩn hóachính quy hóa theo lô để hiểu sâu hơn về các kỹ thuật được sử dụng để cải thiện hiệu suất của mạng nơ-ron.

Đọc tất cả