Thuật ngữ

Kích thước lô

Khám phá tác động của kích thước lô lên học sâu. Tối ưu hóa tốc độ đào tạo, sử dụng bộ nhớ và hiệu suất mô hình một cách hiệu quả.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong học máy, đặc biệt là khi đào tạo các mô hình học sâu , kích thước lô đề cập đến số lượng ví dụ đào tạo được sử dụng trong một lần lặp. Thay vì xử lý toàn bộ tập dữ liệu cùng một lúc, điều này thường không khả thi về mặt tính toán, dữ liệu được chia thành các nhóm hoặc lô nhỏ hơn, dễ quản lý hơn. Các tham số của mô hình được cập nhật sau khi xử lý từng lô, giúp đào tạo hiệu quả hơn, đặc biệt là với các tập dữ liệu lớn phổ biến trong thị giác máy tính .

Tầm quan trọng của kích thước lô

Việc lựa chọn kích thước lô phù hợp là một siêu tham số quan trọng ảnh hưởng đáng kể đến động lực đào tạo mô hình, việc sử dụng tài nguyên và hiệu suất cuối cùng.

  • Tốc độ đào tạo: Kích thước lô lớn hơn thường dẫn đến thời gian đào tạo nhanh hơn vì chúng cho phép sử dụng tốt hơn các khả năng xử lý song song có trong phần cứng như GPU . Nhiều dữ liệu hơn được xử lý trên mỗi chu kỳ tính toán.
  • Sử dụng bộ nhớ: Hậu quả trực tiếp của các lô lớn hơn là mức tiêu thụ bộ nhớ tăng lên. Kích thước lô phải phù hợp với bộ nhớ phần cứng khả dụng (ví dụ: GPU VRAM). Vượt quá giới hạn này sẽ gây ra lỗi hoặc làm chậm đáng kể quá trình đào tạo. Một số nền tảng cung cấp hướng dẫn về cách tối ưu hóa việc sử dụng bộ nhớ .
  • Hiệu suất mô hình và khái quát hóa: Kích thước lô nhỏ hơn đưa thêm nhiễu vào ước tính độ dốc trong quá trình đào tạo thông qua các kỹ thuật như Stochastic Gradient Descent (SGD) . Nhiễu này có thể hoạt động như một dạng chính quy hóa , có khả năng giúp mô hình tránh được các cực tiểu đột ngột trong bối cảnh mất mát và khái quát hóa tốt hơn đối với dữ liệu chưa biết, giảm nguy cơ quá khớp . Tuy nhiên, các lô rất nhỏ có thể khiến quá trình đào tạo không ổn định. Các lô lớn hơn cung cấp ước tính độ dốc chính xác hơn nhưng có thể hội tụ đến các cực tiểu ít tối ưu hơn và yêu cầu các kỹ thuật như khởi động tốc độ học để ổn định.

Chọn đúng kích thước lô

Việc lựa chọn kích thước lô tối ưu liên quan đến việc cân bằng các đánh đổi giữa hiệu quả tính toán, hạn chế bộ nhớ và khái quát hóa mô hình. Không có kích thước lô "tốt nhất" duy nhất; nó thường phụ thuộc vào tập dữ liệu cụ thể, kiến trúc mô hình và phần cứng khả dụng.

  • Thử nghiệm: Thường đòi hỏi thử nghiệm thực nghiệm. Các lựa chọn phổ biến là lũy thừa của 2 (ví dụ: 16, 32, 64, 128) do tối ưu hóa căn chỉnh bộ nhớ phần cứng.
  • Giới hạn phần cứng: Hạn chế chính thường là GPU bộ nhớ. Các công cụ và kỹ thuật như đào tạo độ chính xác hỗn hợp có thể giúp phù hợp với quy mô lô hiệu quả lớn hơn.
  • Đặc điểm của tập dữ liệu: Kích thước và bản chất của tập dữ liệu ( ví dụ: COCO ) có thể ảnh hưởng đến sự lựa chọn.
  • Kích thước lô tự động: Một số khung, như Ultralytics YOLO , cung cấp các tiện ích để tự động tìm kích thước lô lớn nhất có thể phù hợp với bộ nhớ phần cứng. Bạn có thể khám phá thêm các mẹo trong hướng dẫn của chúng tôi về Thực hành tốt nhất về Học máy và Mẹo đào tạo mô hình . Tinh chỉnh điều này là một phần của quy trình tinh chỉnh siêu tham số rộng hơn.

Kích thước lô so với các thuật ngữ liên quan khác

Điều quan trọng là phải phân biệt kích thước lô với các khái niệm liên quan:

  • Lặp lại: Biểu thị một lần cập nhật duy nhất của trọng số mô hình. Trong các vòng lặp đào tạo tiêu chuẩn, một lần lặp lại tương ứng với việc xử lý một lô dữ liệu và thực hiện truyền ngược .
  • Epoch : Biểu thị một lần hoàn thành qua toàn bộ tập dữ liệu đào tạo. Nếu một tập dữ liệu có 1000 mẫu và kích thước lô là 100, thì cần 10 lần lặp để hoàn thành một epoch (1000 / 100 = 10).

Ứng dụng trong thế giới thực

Phát hiện đối tượng

Trong các tác vụ phát hiện đối tượng , chẳng hạn như các tác vụ được thực hiện bởi các mô hình YOLO Ultralytics , kích thước lô ảnh hưởng trực tiếp đến số lượng hình ảnh được xử lý đồng thời trong quá trình đào tạo. Ví dụ, khi đào tạo một mô hình như YOLOv8 trên một tập dữ liệu như VisDrone , kích thước lô lớn hơn (ví dụ: 32 hoặc 64) có thể tăng tốc đáng kể thời gian đào tạo trên mỗi kỷ nguyên trên phần cứng có khả năng. Tuy nhiên, việc theo dõi cẩn thận GPU cần có bộ nhớ. Việc đào tạo có thể được quản lý và theo dõi hiệu quả bằng các nền tảng như Ultralytics HUB .

Phân loại hình ảnh

Khi đào tạo mô hình phân loại hình ảnh , có thể trên tập dữ liệu ImageNet , kích thước lô ảnh hưởng đến tính ổn định và sự hội tụ của quá trình đào tạo. Một nhà nghiên cứu có thể bắt đầu với kích thước lô là 256 và điều chỉnh dựa trên việc quan sát hành vi của hàm mất mátđộ chính xác xác thực. Các lô nhỏ hơn có thể cần thiết cho các mô hình có kiến trúc phức tạp hoặc khi sử dụng tài nguyên phần cứng hạn chế như môi trường Google Colab .

Đọc tất cả