Khám phá cách Mạng đối kháng tạo sinh (GAN) tạo ra dữ liệu tổng hợp chân thực. Tìm hiểu cách huấn luyện. Ultralytics YOLO26 với bộ dữ liệu được tăng cường bằng GAN dành cho trí tuệ nhân tạo thị giác.
Mạng đối kháng tạo sinh (GAN) là một khung lý thuyết phức tạp trong lĩnh vực trí tuệ nhân tạo (AI) được thiết kế để tạo ra các trường hợp dữ liệu mới tương tự như dữ liệu huấn luyện. Được giới thiệu trong một bài báo đột phá của Ian Goodfellow và các đồng nghiệp vào năm 2014, GAN hoạt động dựa trên nguyên tắc cạnh tranh độc đáo giữa hai mạng nơ-ron riêng biệt. Kiến trúc này đã trở thành nền tảng của AI tạo sinh hiện đại, cho phép tạo ra hình ảnh chân thực, nâng cao chất lượng video và tổng hợp các tập dữ liệu huấn luyện đa dạng cho các tác vụ học máy phức tạp.
Cơ chế cốt lõi của GAN liên quan đến hai mô hình được huấn luyện đồng thời trong một trò chơi tổng bằng không, thường được mô tả bằng phép so sánh giữa một kẻ làm tiền giả và một thám tử.
Trong quá trình huấn luyện, bộ tạo giảm thiểu xác suất bộ phân loại tạo ra kết quả phân loại chính xác, trong khi bộ phân loại tối đa hóa xác suất đó. Vòng lặp đối kháng này tiếp tục cho đến khi hệ thống đạt đến trạng thái cân bằng Nash , một trạng thái mà bộ tạo tạo ra dữ liệu thực tế đến mức bộ phân loại không còn phân biệt được nó với các ví dụ thực tế.
GAN đã vượt ra khỏi lý thuyết hàn lâm để giải quyết các vấn đề thực tiễn trong nhiều ngành công nghiệp khác nhau, đặc biệt là trong lĩnh vực thị giác máy tính .
Mặc dù cả hai đều là công nghệ tạo sinh, điều quan trọng là phải phân biệt GAN với các mô hình khuếch tán như những mô hình được sử dụng trong Khuếch tán ổn định .
Một trường hợp sử dụng mạnh mẽ của GAN là tạo ra các tập dữ liệu tổng hợp để huấn luyện các mô hình phát hiện đối tượng như YOLO26 . Nếu bạn thiếu đủ hình ảnh thực tế về một khuyết tật hoặc đối tượng cụ thể, GAN có thể tạo ra hàng ngàn biến thể được gắn nhãn. Sau đó, bạn có thể quản lý các tập dữ liệu này và huấn luyện mô hình của mình bằng Nền tảng Ultralytics .
Ví dụ sau đây minh họa cách tải mô hình YOLO26 để huấn luyện trên tập dữ liệu, có thể tích hợp liền mạch các hình ảnh tổng hợp do GAN tạo ra nhằm nâng cao hiệu suất:
from ultralytics import YOLO
# Load the YOLO26 model (Latest stable Ultralytics model)
model = YOLO("yolo26n.pt")
# Train the model on a dataset configuration file
# The dataset path defined in 'coco8.yaml' can contain both real and GAN-generated images
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Verify the model performance on validation data
metrics = model.val()
Mặc dù có khả năng vượt trội, việc huấn luyện GAN đòi hỏi phải tinh chỉnh các siêu tham số một cách cẩn thận. Các vấn đề như hiện tượng suy giảm độ dốc có thể xảy ra nếu bộ phân loại học quá nhanh, không cung cấp phản hồi có ý nghĩa nào cho bộ tạo. Hơn nữa, khi GAN ngày càng có khả năng tạo ra deepfake , ngành công nghiệp đang ngày càng tập trung vào đạo đức AI và phát triển các phương pháp để... detect Nội dung do AI tạo ra.