Kích thước lô

Khám phá tác động của kích thước lô lên học sâu. Tối ưu hóa tốc độ đào tạo, sử dụng bộ nhớ và hiệu suất mô hình một cách hiệu quả.

Kích thước lô là một siêu tham số cơ bản trong học máy , xác định số lượng mẫu huấn luyện được xử lý trước khi các tham số nội bộ của mô hình được cập nhật. Thay vì xử lý toàn bộ tập dữ liệu huấn luyện cùng một lúc, vốn có thể gây tốn kém về mặt tính toán, dữ liệu được chia thành các tập con nhỏ hơn hay còn gọi là "lô". Việc lựa chọn kích thước lô là một quyết định quan trọng, ảnh hưởng trực tiếp đến động lực học, tốc độ huấn luyện và hiệu suất cuối cùng của mô hình. Nó thể hiện sự đánh đổi giữa hiệu quả tính toán và độ chính xác của ước lượng gradient được sử dụng để cập nhật trọng số mô hình.

Vai trò của quy mô lô trong đào tạo mô hình

Trong quá trình huấn luyện, mạng nơ-ron (NN) học bằng cách điều chỉnh trọng số dựa trên sai số mà nó mắc phải. Việc điều chỉnh này được hướng dẫn bởi một thuật toán tối ưu hóa như gradient descent . Kích thước lô xác định số lượng ví dụ mà mô hình "nhìn thấy" trước khi tính toán gradient và thực hiện cập nhật trọng số.

Giảm Gradient Ngẫu Nhiên (SGD): Khi kích thước lô là 1, quá trình này được gọi là giảm gradient ngẫu nhiên. Gradient được tính toán cho từng mẫu riêng lẻ, dẫn đến việc cập nhật thường xuyên nhưng nhiễu.
Giảm Gradient Hàng Loạt: Khi kích thước hàng loạt bằng tổng số mẫu trong tập dữ liệu huấn luyện, phương pháp này được gọi là giảm gradient hàng loạt. Phương pháp này cung cấp ước tính gradient rất chính xác nhưng tốn kém về mặt tính toán và bộ nhớ.
Giảm Gradient Hàng Loạt Nhỏ: Đây là phương pháp phổ biến nhất, trong đó kích thước hàng loạt được đặt thành một giá trị từ 1 đến tổng kích thước tập dữ liệu (ví dụ: 32, 64, 128). Phương pháp này cân bằng giữa tính ổn định của giảm gradient hàng loạt và hiệu quả của giảm gradient ngẫu nhiên .

Việc lựa chọn kích thước lô ảnh hưởng đáng kể đến quá trình đào tạo. Kích thước lô lớn hơn cung cấp ước tính chính xác hơn về gradient, nhưng chi phí tính toán cho mỗi lần cập nhật lại cao hơn. Ngược lại, kích thước lô nhỏ hơn dẫn đến ước tính gradient kém chính xác hơn nhưng cho phép cập nhật nhanh hơn.

Chọn đúng kích thước lô

Việc tìm ra kích thước lô tối ưu là một phần quan trọng của việc điều chỉnh siêu tham số và phụ thuộc vào tập dữ liệu, kiến trúc mô hình và phần cứng có sẵn.

Kích thước lô lớn: Xử lý nhiều dữ liệu cùng lúc có thể tận dụng tối đa khả năng xử lý song song của GPU , giúp rút ngắn thời gian huấn luyện trên mỗi epoch . Tuy nhiên, nghiên cứu đã chỉ ra rằng các lô rất lớn đôi khi có thể dẫn đến "khoảng cách tổng quát hóa", tức là mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng lại kém trên dữ liệu chưa được biết đến. Chúng cũng đòi hỏi bộ nhớ đáng kể, đây có thể là một yếu tố hạn chế.
Kích thước lô nhỏ: Những kích thước này đòi hỏi ít bộ nhớ hơn và thường dẫn đến tổng quát hóa mô hình tốt hơn, vì nhiễu trong các bản cập nhật gradient có thể giúp mô hình thoát khỏi các cực tiểu cục bộ và tìm ra giải pháp mạnh mẽ hơn. Điều này có thể giúp ngăn ngừa hiện tượng quá khớp . Nhược điểm chính là quá trình huấn luyện chậm hơn do các bản cập nhật trọng số được thực hiện thường xuyên hơn và ít dữ liệu được xử lý song song hơn.

Đối với nhiều ứng dụng, kích thước lô là lũy thừa của 2 (như 32, 64, 128, 256) được khuyến nghị vì chúng thường phù hợp với kiến trúc bộ nhớ GPU . Các công cụ như Ultralytics HUB cho phép dễ dàng thử nghiệm với các kích thước lô khác nhau khi huấn luyện mô hình .