Thuật ngữ

Dữ liệu tổng hợp

Mở khóa sức mạnh của dữ liệu tổng hợp cho AI/ML! Khắc phục tình trạng khan hiếm dữ liệu, các vấn đề về quyền riêng tư và chi phí trong khi thúc đẩy đào tạo và đổi mới mô hình.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Dữ liệu tổng hợp đề cập đến dữ liệu được tạo ra một cách nhân tạo mô phỏng các thuộc tính thống kê của dữ liệu thế giới thực, thay vì được thu thập trực tiếp từ các sự kiện hoặc phép đo thực tế. Trong lĩnh vực Trí tuệ nhân tạo (AI)Học máy (ML) , dữ liệu tổng hợp đóng vai trò là phương án thay thế hoặc bổ sung quan trọng cho dữ liệu đào tạo thực tế. Nó đặc biệt có giá trị khi việc thu thập đủ dữ liệu thế giới thực là khó khăn, tốn kém, mất thời gian hoặc gây ra các mối lo ngại về quyền riêng tư. Thông tin được tạo ra một cách nhân tạo này giúp đào tạo các mô hình, kiểm tra hệ thống và khám phá các tình huống có thể hiếm hoặc nguy hiểm trong thực tế.

Dữ liệu tổng hợp được tạo ra như thế nào

Dữ liệu tổng hợp có thể được tạo ra bằng nhiều kỹ thuật khác nhau, tùy thuộc vào độ phức tạp và độ trung thực mong muốn:

  • Mô hình thống kê: Sử dụng các phương pháp thống kê như lấy mẫu từ các phân phối phù hợp với đặc điểm của dữ liệu thực.
  • Mô phỏng: Tạo môi trường ảo hoặc mô hình để tạo dữ liệu dựa trên các quy tắc và tương tác được xác định trước. Điều này phổ biến trong các lĩnh vực như robot và hệ thống tự động. Các nền tảng như NVIDIA Omniverse thường được sử dụng để tạo mô phỏng thực tế.
  • Mô hình sinh: Sử dụng các kỹ thuật Học sâu (DL) , chẳng hạn như Mạng đối nghịch sinh (GAN) hoặc Bộ mã hóa tự động biến thiên (VAE), để tìm hiểu các mẫu cơ bản của dữ liệu thực và tạo ra các điểm dữ liệu mới, tương tự. Bài báo GAN ban đầu đã giới thiệu một khuôn khổ mạnh mẽ cho việc này.

Tầm quan trọng trong AI và thị giác máy tính

Dữ liệu tổng hợp mang lại một số lợi thế cho quá trình phát triển AI:

  • Khắc phục tình trạng khan hiếm dữ liệu: Cung cấp các tập dữ liệu lớn cần thiết để đào tạo các mô hình phức tạp như Ultralytics YOLO khi dữ liệu thực tế bị hạn chế.
  • Nâng cao Quyền riêng tư dữ liệu: Cho phép đào tạo mô hình mà không tiết lộ thông tin nhạy cảm trong thế giới thực, rất quan trọng trong các lĩnh vực như chăm sóc sức khỏe và tài chính. Các kỹ thuật đôi khi có thể kết hợp các khái niệm như Quyền riêng tư khác biệt .
  • Bao gồm các trường hợp ngoại lệ: Cho phép tạo dữ liệu cho các tình huống hiếm gặp hoặc quan trọng (ví dụ: tình huống khẩn cấp đối với xe tự lái) khó có thể ghi lại trong thế giới thực.
  • Giảm độ lệch: Có khả năng giúp giảm độ lệch của tập dữ liệu bằng cách tạo ra các tập dữ liệu cân bằng, mặc dù phải cẩn thận để không đưa vào các độ lệch mới.
  • Hiệu quả về chi phí và thời gian: Việc tạo dữ liệu tổng hợp có thể nhanh hơn và rẻ hơn so với việc thu thập và chú thích dữ liệu thực tế rộng rãi.

Trong thị giác máy tính , hình ảnh tổng hợp được sử dụng để đào tạo các mô hình cho các nhiệm vụ như phát hiện đối tượngphân đoạn hình ảnh trong nhiều điều kiện khác nhau (ánh sáng, thời tiết, góc nhìn).

Ứng dụng trong thế giới thực

  1. Xe tự hành: Đào tạo hệ thống nhận thức cho xe tự lái đòi hỏi lượng dữ liệu khổng lồ bao gồm nhiều điều kiện lái xe khác nhau và các sự kiện hiếm gặp (như tai nạn hoặc chướng ngại vật bất thường). Các công ty sử dụng trình mô phỏng như Unity Simulation hoặc các nền tảng độc quyền như môi trường mô phỏng của Waymo để tạo dữ liệu lái xe tổng hợp thực tế, cải thiện độ mạnh mẽ và an toàn của mô hình cho AI trong ô tô .
  2. Chăm sóc sức khỏe: Quy định về quyền riêng tư của bệnh nhân (như HIPAA) hạn chế việc sử dụng dữ liệu y tế thực. Dữ liệu tổng hợp cho phép các nhà nghiên cứu và nhà phát triển đào tạo các mô hình AI để phân tích hình ảnh y tế (ví dụ: phát hiện khối u ) hoặc phân tích hồ sơ sức khỏe điện tử mà không ảnh hưởng đến tính bảo mật của bệnh nhân. Các dự án như Synthea tạo hồ sơ bệnh nhân tổng hợp để nghiên cứu trong lĩnh vực AI trong chăm sóc sức khỏe .

Dữ liệu tổng hợp so với dữ liệu tăng cường

Mặc dù cả dữ liệu tổng hợp và dữ liệu tăng cường đều hướng đến mục đích tăng tính đa dạng và khối lượng dữ liệu đào tạo, nhưng chúng là những khái niệm riêng biệt:

  • Tăng cường dữ liệu: Bao gồm việc áp dụng các phép biến đổi (như xoay, thay đổi tỷ lệ, cắt xén, thay đổi màu) vào dữ liệu thực hiện có để tạo ra các phiên bản được sửa đổi đôi chút. Nó mở rộng tập dữ liệu nhưng dựa vào việc có một tập dữ liệu thực ban đầu. Các công cụ như Albumentations có thể được tích hợp cho mục đích này.
  • Dữ liệu tổng hợp: Bao gồm việc tạo ra các điểm dữ liệu hoàn toàn mới từ đầu, thường sử dụng mô hình hoặc mô phỏng, mà không nhất thiết phải bắt đầu từ các ví dụ thực tế (mặc dù các mô hình thường được đào tạo trên dữ liệu thực tế ban đầu).

Dữ liệu tổng hợp có thể giải quyết những khoảng trống mà việc tăng cường không thể, chẳng hạn như tạo ví dụ về các tình huống hoàn toàn chưa từng thấy hoặc tạo dữ liệu khi dữ liệu thực tế hoàn toàn không khả dụng hoặc không sử dụng được do các hạn chế về quyền riêng tư. Tuy nhiên, việc đảm bảo dữ liệu tổng hợp phản ánh chính xác độ phức tạp của thế giới thực vẫn là một thách thức, có khả năng dẫn đến các vấn đề như quá khớp với phân phối tổng hợp nếu không được quản lý cẩn thận. Các nền tảng như Ultralytics HUB hỗ trợ các mô hình đào tạo trên nhiều tập dữ liệu khác nhau, có khả năng bao gồm cả các tập dữ liệu tổng hợp.

Đọc tất cả