Cải thiện mô hình học máy của bạn bằng cách tăng cường dữ liệu. Khám phá các kỹ thuật để tăng độ chính xác, giảm tình trạng quá khớp và cải thiện độ mạnh mẽ.
Tăng cường dữ liệu là một kỹ thuật được sử dụng trong học máy để mở rộng nhân tạo kích thước của tập dữ liệu đào tạo bằng cách tạo các phiên bản đã sửa đổi của dữ liệu hiện có. Quá trình này bao gồm việc áp dụng nhiều phép biến đổi khác nhau vào dữ liệu gốc, chẳng hạn như xoay, lật, thay đổi tỷ lệ hoặc cắt xén hình ảnh. Bằng cách tăng tính đa dạng của dữ liệu đào tạo, tăng cường dữ liệu giúp cải thiện khả năng khái quát hóa của các mô hình học máy, khiến chúng mạnh mẽ hơn và ít bị quá khớp hơn. Quá khớp xảy ra khi một mô hình học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu và giá trị ngoại lai, điều này có thể dẫn đến hiệu suất kém trên dữ liệu mới, chưa từng thấy.
Tăng cường dữ liệu mang lại một số lợi ích chính. Đầu tiên, nó giúp giảm tình trạng quá khớp bằng cách cho mô hình tiếp xúc với nhiều biến thể hơn trong quá trình đào tạo. Điều này làm cho mô hình ít nhạy cảm hơn với các tính năng cụ thể của dữ liệu đào tạo và có khả năng khái quát hóa hơn đối với dữ liệu mới, chưa từng thấy. Thứ hai, nó có thể cải thiện độ chính xác và hiệu suất của các mô hình, đặc biệt là khi tập dữ liệu gốc nhỏ hoặc thiếu tính đa dạng. Bằng cách tạo ra nhiều ví dụ đào tạo hơn, tăng cường dữ liệu cung cấp cho mô hình nhiều cơ hội hơn để tìm hiểu các mẫu cơ bản trong dữ liệu. Cuối cùng, nó có thể tăng cường tính mạnh mẽ của mô hình, giúp mô hình có khả năng phục hồi tốt hơn trước những thay đổi trong dữ liệu đầu vào, chẳng hạn như sự thay đổi về ánh sáng, hướng hoặc nhiễu nền.
Một số kỹ thuật phổ biến được sử dụng để tăng cường dữ liệu, đặc biệt là trong các tác vụ thị giác máy tính:
Trong thị giác máy tính, việc tăng cường dữ liệu đặc biệt hữu ích vì nó có thể mô phỏng nhiều tình huống thực tế mà một mô hình có thể gặp phải. Ví dụ, trong phát hiện đối tượng , một Ultralytics YOLO lần đầu tiên YOLO được đề cập trên một trang mô hình được đào tạo trên hình ảnh tăng cường có thể học cách phát hiện các đối tượng bất kể hướng, kích thước hoặc điều kiện ánh sáng của chúng. Điều này rất quan trọng đối với các ứng dụng như xe tự hành, trong đó mô hình phải hoạt động đáng tin cậy trong các điều kiện đa dạng và không thể đoán trước. Ví dụ, bằng cách áp dụng nhiều phép biến đổi khác nhau như xoay, thay đổi tỷ lệ và thêm nhiễu vào hình ảnh của người đi bộ và xe cộ, hệ thống lái xe tự hành có thể được đào tạo để phát hiện chính xác các đối tượng này trong nhiều tình huống thực tế. Tương tự như vậy, trong phân loại hình ảnh , việc tăng cường hình ảnh bằng các điều chỉnh màu khác nhau có thể giúp mô hình tổng quát hóa tốt hơn đối với các điều kiện ánh sáng khác nhau.
Trong khi tăng cường dữ liệu được sử dụng rộng rãi trong thị giác máy tính, nó cũng có thể áp dụng trong các lĩnh vực khác như xử lý ngôn ngữ tự nhiên (NLP) và xử lý âm thanh. Trong NLP, các kỹ thuật như thay thế từ đồng nghĩa, dịch ngược và chèn/xóa ngẫu nhiên các từ có thể tăng cường dữ liệu văn bản. Trong xử lý âm thanh, việc thêm tiếng ồn nền, thay đổi cao độ hoặc kéo dài thời gian âm thanh có thể tạo ra các ví dụ đào tạo đa dạng.
Điều quan trọng là phải phân biệt việc tăng cường dữ liệu với các kỹ thuật liên quan khác:
Một số công cụ và thư viện hỗ trợ tăng cường dữ liệu. Trong Python , các thư viện như OpenCV và TensorFlow cung cấp nhiều chức năng để chuyển đổi hình ảnh. Ngoài ra, các thư viện chuyên biệt như Albumentations cung cấp các đường ống tăng cường đa dạng và được tối ưu hóa cao. Ultralytics HUB cũng cung cấp các công cụ để tăng cường dữ liệu, giúp tích hợp các kỹ thuật này vào quy trình đào tạo mô hình dễ dàng hơn. Khám phá các kỹ thuật tăng cường dữ liệu như MixUp, Mosaic và Random Perspective để tăng cường đào tạo mô hình.