Khám phá cách các lớp bỏ học ngăn chặn hiện tượng quá khớp trong mạng nơ-ron bằng cách cải thiện khả năng khái quát hóa, tính mạnh mẽ và hiệu suất mô hình.
Dropout Layer là một kỹ thuật cơ bản được sử dụng trong đào tạo mạng nơ-ron (NN) để chống lại vấn đề quá khớp . Được giới thiệu bởi Hinton và cộng sự trong bài báo có ảnh hưởng của họ năm 2014 , dropout đã trở thành một phương pháp chính quy hóa được áp dụng rộng rãi trong học sâu (DL) , đặc biệt hiệu quả trong các mạng lớn có nhiều tham số. Mục tiêu chính của nó là cải thiện khả năng khái quát hóa của mô hình, đảm bảo mô hình hoạt động tốt trên dữ liệu chưa biết, không chỉ dữ liệu đào tạo .
Trong quá trình đào tạo mô hình , một Dropout Layer ngẫu nhiên "dropout" hoặc vô hiệu hóa một phần các neuron (đơn vị) trong lớp đó cho mỗi mẫu đào tạo. Điều này có nghĩa là đầu ra của các neuron được chọn này được đặt thành 0 và chúng không đóng góp vào quá trình truyền tiếp hoặc tham gia vào bước truyền ngược cho mẫu cụ thể đó. Phần neuron bị dropout được xác định bởi tỷ lệ dropout, một siêu tham số thường được đặt giữa 0,2 và 0,5 .
Quan trọng là dropout chỉ hoạt động trong quá trình đào tạo. Trong quá trình suy luận hoặc dự đoán trên dữ liệu thử nghiệm , tất cả các neuron đều hoạt động. Để bù đắp cho thực tế là có nhiều neuron hoạt động trong quá trình suy luận hơn là trong quá trình đào tạo, đầu ra của lớp thường được thu nhỏ theo tỷ lệ dropout (một kỹ thuật được gọi là dropout đảo ngược, thường được triển khai trong các khuôn khổ như PyTorch và TensorFlow ).
Lợi ích cốt lõi của việc sử dụng Dropout Layers là cải thiện tổng quát hóa mô hình và giảm tình trạng overfitting. Nó đạt được điều này thông qua một số cơ chế:
Dropout được sử dụng rộng rãi trong nhiều lĩnh vực của trí tuệ nhân tạo (AI) và máy học (ML) :
Dropout là một trong số nhiều kỹ thuật được sử dụng để điều chỉnh trong học sâu. Những kỹ thuật khác bao gồm:
Tóm lại, Dropout Layer là một kỹ thuật chính quy hóa đơn giản nhưng mạnh mẽ, cần thiết để đào tạo các mô hình học sâu mạnh mẽ trên nhiều ứng dụng khác nhau, từ thị giác máy tính đến NLP.