Thuật ngữ

Tăng cường dữ liệu

Cải thiện mô hình học máy của bạn bằng cách tăng cường dữ liệu. Khám phá các kỹ thuật để tăng độ chính xác, giảm tình trạng quá khớp và cải thiện độ mạnh mẽ.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Tăng cường dữ liệu là một kỹ thuật được sử dụng trong học máy để mở rộng nhân tạo kích thước của tập dữ liệu đào tạo bằng cách tạo các phiên bản đã sửa đổi của dữ liệu hiện có. Quá trình này bao gồm việc áp dụng nhiều phép biến đổi khác nhau vào dữ liệu gốc, chẳng hạn như xoay, lật, thay đổi tỷ lệ hoặc cắt xén hình ảnh. Bằng cách tăng tính đa dạng của dữ liệu đào tạo, tăng cường dữ liệu giúp cải thiện khả năng khái quát hóa của các mô hình học máy, khiến chúng mạnh mẽ hơn và ít bị quá khớp hơn. Quá khớp xảy ra khi một mô hình học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu và giá trị ngoại lai, điều này có thể dẫn đến hiệu suất kém trên dữ liệu mới, chưa từng thấy.

Lợi ích của việc tăng cường dữ liệu

Tăng cường dữ liệu mang lại một số lợi ích chính. Đầu tiên, nó giúp giảm tình trạng quá khớp bằng cách cho mô hình tiếp xúc với nhiều biến thể hơn trong quá trình đào tạo. Điều này làm cho mô hình ít nhạy cảm hơn với các tính năng cụ thể của dữ liệu đào tạo và có khả năng khái quát hóa hơn đối với dữ liệu mới, chưa từng thấy. Thứ hai, nó có thể cải thiện độ chính xác và hiệu suất của các mô hình, đặc biệt là khi tập dữ liệu gốc nhỏ hoặc thiếu tính đa dạng. Bằng cách tạo ra nhiều ví dụ đào tạo hơn, tăng cường dữ liệu cung cấp cho mô hình nhiều cơ hội hơn để tìm hiểu các mẫu cơ bản trong dữ liệu. Cuối cùng, nó có thể tăng cường tính mạnh mẽ của mô hình, giúp mô hình có khả năng phục hồi tốt hơn trước những thay đổi trong dữ liệu đầu vào, chẳng hạn như sự thay đổi về ánh sáng, hướng hoặc nhiễu nền.

Kỹ thuật tăng cường dữ liệu phổ biến

Một số kỹ thuật phổ biến được sử dụng để tăng cường dữ liệu, đặc biệt là trong các tác vụ thị giác máy tính:

  • Biến đổi hình học : Bao gồm các hoạt động như xoay, tịnh tiến, thu nhỏ, cắt và lật. Ví dụ, xoay hình ảnh vài độ hoặc lật theo chiều ngang có thể tạo ra các ví dụ đào tạo mới, hợp lệ.
  • Chuyển đổi không gian màu : Điều chỉnh độ sáng, độ tương phản, độ bão hòa hoặc sắc thái của hình ảnh có thể mô phỏng các điều kiện ánh sáng khác nhau và cải thiện khả năng khái quát hóa của mô hình trên nhiều môi trường khác nhau.
  • Bộ lọc hạt nhân : Áp dụng bộ lọc để làm sắc nét hoặc làm mờ hình ảnh có thể giúp mô hình tìm hiểu các tính năng không thay đổi theo những thay đổi này.
  • Xóa ngẫu nhiên : Việc xóa ngẫu nhiên các phần của hình ảnh có thể giúp mô hình trở nên mạnh mẽ hơn trước tình trạng che khuất hoặc mất các phần đối tượng.
  • Trộn hình ảnh : Các kỹ thuật như MixUp và CutMix liên quan đến việc trộn hình ảnh và nhãn tương ứng của chúng để tạo ra các ví dụ đào tạo mới. Ví dụ, MixUp nội suy tuyến tính cả hình ảnh và nhãn của chúng.

Tăng cường dữ liệu trong thị giác máy tính

Trong thị giác máy tính, việc tăng cường dữ liệu đặc biệt hữu ích vì nó có thể mô phỏng nhiều tình huống thực tế mà một mô hình có thể gặp phải. Ví dụ, trong phát hiện đối tượng , một Ultralytics YOLO lần đầu tiên YOLO được đề cập trên một trang mô hình được đào tạo trên hình ảnh tăng cường có thể học cách phát hiện các đối tượng bất kể hướng, kích thước hoặc điều kiện ánh sáng của chúng. Điều này rất quan trọng đối với các ứng dụng như xe tự hành, trong đó mô hình phải hoạt động đáng tin cậy trong các điều kiện đa dạng và không thể đoán trước. Ví dụ, bằng cách áp dụng nhiều phép biến đổi khác nhau như xoay, thay đổi tỷ lệ và thêm nhiễu vào hình ảnh của người đi bộ và xe cộ, hệ thống lái xe tự hành có thể được đào tạo để phát hiện chính xác các đối tượng này trong nhiều tình huống thực tế. Tương tự như vậy, trong phân loại hình ảnh , việc tăng cường hình ảnh bằng các điều chỉnh màu khác nhau có thể giúp mô hình tổng quát hóa tốt hơn đối với các điều kiện ánh sáng khác nhau.

Tăng cường dữ liệu trong các lĩnh vực khác

Trong khi tăng cường dữ liệu được sử dụng rộng rãi trong thị giác máy tính, nó cũng có thể áp dụng trong các lĩnh vực khác như xử lý ngôn ngữ tự nhiên (NLP) và xử lý âm thanh. Trong NLP, các kỹ thuật như thay thế từ đồng nghĩa, dịch ngược và chèn/xóa ngẫu nhiên các từ có thể tăng cường dữ liệu văn bản. Trong xử lý âm thanh, việc thêm tiếng ồn nền, thay đổi cao độ hoặc kéo dài thời gian âm thanh có thể tạo ra các ví dụ đào tạo đa dạng.

Ứng dụng trong thế giới thực

  • Chăm sóc sức khỏe : Trong phân tích hình ảnh y tế , tăng cường dữ liệu có thể được sử dụng để đào tạo các mô hình trên một số lượng hạn chế các hình ảnh y tế. Ví dụ, bằng cách áp dụng các phép quay, lật và biến dạng nhỏ vào quét MRI, một mô hình có thể học cách phát hiện các bất thường chính xác hơn trên các bệnh nhân và tình trạng hình ảnh khác nhau.
  • Nông nghiệp : Tăng cường dữ liệu có thể giúp đào tạo các mô hình để phát hiện bệnh thực vật hoặc sâu bệnh từ hình ảnh chụp trong nhiều điều kiện khác nhau. Bằng cách tăng cường hình ảnh cây trồng với ánh sáng, góc độ và mức độ thu phóng khác nhau, các mô hình có thể hoạt động mạnh mẽ trên đồng ruộng, giúp nông dân xác định vấn đề sớm và thực hiện hành động khắc phục.

Tăng cường dữ liệu so với các kỹ thuật khác

Điều quan trọng là phải phân biệt việc tăng cường dữ liệu với các kỹ thuật liên quan khác:

  • Tiền xử lý dữ liệu : Trong khi cả tăng cường dữ liệu và tiền xử lý dữ liệu đều chuẩn bị dữ liệu để đào tạo mô hình, tiền xử lý thường bao gồm các bước như chuẩn hóa, chuẩn hóa và xử lý các giá trị bị thiếu. Các bước này rất cần thiết để đảm bảo dữ liệu có định dạng phù hợp với mô hình. Mặt khác, tăng cường dữ liệu tập trung vào việc tăng tính đa dạng của dữ liệu đào tạo.
  • Tạo dữ liệu tổng hợp : Dữ liệu tổng hợp liên quan đến việc tạo ra các điểm dữ liệu hoàn toàn mới, thường sử dụng các mô hình tạo như Mạng đối nghịch tạo sinh (GAN). Điều này khác với việc tăng cường dữ liệu, tức là sửa đổi dữ liệu hiện có. Dữ liệu tổng hợp có thể đặc biệt hữu ích khi dữ liệu thực tế khan hiếm hoặc nhạy cảm, chẳng hạn như trong các ứng dụng y tế hoặc tài chính.

Công cụ và Thư viện

Một số công cụ và thư viện hỗ trợ tăng cường dữ liệu. Trong Python , các thư viện như OpenCVTensorFlow cung cấp nhiều chức năng để chuyển đổi hình ảnh. Ngoài ra, các thư viện chuyên biệt như Albumentations cung cấp các đường ống tăng cường đa dạng và được tối ưu hóa cao. Ultralytics HUB cũng cung cấp các công cụ để tăng cường dữ liệu, giúp tích hợp các kỹ thuật này vào quy trình đào tạo mô hình dễ dàng hơn. Khám phá các kỹ thuật tăng cường dữ liệu như MixUp, Mosaic và Random Perspective để tăng cường đào tạo mô hình.

Đọc tất cả