Thuật ngữ

AI tạo ra

Khám phá cách AI tạo ra nội dung gốc như văn bản, hình ảnh và âm thanh, chuyển đổi các ngành công nghiệp bằng các ứng dụng sáng tạo.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trí tuệ nhân tạo tạo sinh (AI) đại diện cho một nhánh quan trọng trong lĩnh vực rộng lớn hơn của trí tuệ nhân tạo (AI) , tập trung cụ thể vào việc tạo ra các hệ thống có khả năng tạo ra nội dung hoàn toàn mới, gốc. Nội dung này có thể trải dài trên nhiều phương thức khác nhau, bao gồm văn bản, hình ảnh, âm thanh, mã và thậm chí cả dữ liệu tổng hợp . Không giống như các mô hình AI phân biệt, được đào tạo để phân loại hoặc đưa ra dự đoán dựa trên dữ liệu đầu vào (như xác định đối tượng trong hình ảnh bằng cách sử dụng phát hiện đối tượng ), các mô hình tạo sinh tìm hiểu các mẫu, cấu trúc và phân phối xác suất cơ bản trong tập dữ liệu đào tạo. Sau đó, chúng sử dụng kiến thức đã học này để tạo ra các đầu ra mới mô phỏng các đặc điểm của dữ liệu gốc. Những đột phá gần đây, đặc biệt là được thúc đẩy bởi các kiến trúc như Bộ biến đổi được đào tạo trước tạo sinh (GPT)các mô hình khuếch tán , đã cho phép tạo ra nội dung cực kỳ chân thực và phức tạp, mở rộng ranh giới của khả năng sáng tạo của máy móc.

Trí tuệ nhân tạo (AI) hoạt động như thế nào

Ý tưởng cốt lõi đằng sau hầu hết các mô hình sinh là học cách biểu diễn phân phối dữ liệu. Sau khi học được phân phối này, mô hình có thể lấy mẫu từ đó để tạo ra các điểm dữ liệu mới có sự tương đồng về mặt thống kê với dữ liệu mà nó được đào tạo. Điều này liên quan đến kiến trúc mạng nơ-ron (NN) phức tạp và các kỹ thuật đào tạo tinh vi. Một số kiến trúc nổi bật bao gồm:

  • Mạng đối nghịch tạo sinh (GAN): Các mô hình này sử dụng hai mạng nơ-ron cạnh tranh—một bộ tạo dữ liệu và một bộ phân biệt cố gắng phân biệt giữa dữ liệu thực và dữ liệu được tạo—để cải thiện chất lượng của đầu ra được tạo ra theo từng bước.
  • Bộ mã hóa tự động biến thiên (VAE): VAE tìm hiểu cách biểu diễn nén (không gian tiềm ẩn) của dữ liệu và sau đó có thể tạo dữ liệu mới bằng cách lấy mẫu các điểm từ không gian tiềm ẩn này và giải mã chúng.
  • Transformers: Ban đầu được phát triển cho xử lý ngôn ngữ tự nhiên (NLP) , kiến trúc Transformer, đặc biệt là cơ chế tự chú ý của nó, đã chứng tỏ tính hiệu quả cao đối với nhiều tác vụ tạo ra khác nhau, tạo thành cơ sở cho các Mô hình ngôn ngữ lớn (LLM) như GPT-4 .
  • Mô hình khuếch tán: Các mô hình này hoạt động bằng cách thêm nhiễu dần dần vào dữ liệu đào tạo và sau đó học cách đảo ngược quá trình này, bắt đầu từ nhiễu để tạo ra các mẫu dữ liệu sạch, mạch lạc. Các mô hình như Stable Diffusion là những ví dụ nổi bật được sử dụng để tạo văn bản thành hình ảnh .

Trí tuệ nhân tạo so với thị giác máy tính

Mặc dù cả hai đều là các lĩnh vực con của AI, nhưng AI tạo sinh và Thị giác máy tính (CV) có các mục tiêu khác nhau về cơ bản. CV tập trung vào việc cho phép máy móc diễn giảihiểu thông tin trực quan từ thế giới, thực hiện các nhiệm vụ như phân loại hình ảnh , phát hiện đối tượng và phân đoạn thể hiện . Ngược lại, AI tạo sinh tập trung vào việc tạo nội dung trực quan mới (hoặc nội dung khác).

Những khác biệt chính được nêu bật trong các cuộc thảo luận như tại YOLO Vision 2024 bao gồm:

  1. Kích thước mô hình: Các mô hình tạo sinh, đặc biệt là LLM và các mô hình hình ảnh lớn, thường chứa hàng tỷ hoặc thậm chí hàng nghìn tỷ tham số. Các mô hình CV được thiết kế để phân tích thời gian thực, chẳng hạn như Ultralytics YOLO11 , thường nhỏ hơn nhiều và hiệu quả hơn, với một số biến thể chỉ có vài triệu tham số ( so sánh các mô hình YOLO ).
  2. Tài nguyên tính toán: Đào tạo và chạy các mô hình tạo lớn đòi hỏi sức mạnh tính toán đáng kể, thường liên quan đến các cụm GPU phân tán. Nhiều mô hình CV, bao gồm cả những mô hình từ Ultralytics , được tối ưu hóa để tăng hiệu quả và có thể triển khai trên phần cứng tiêu chuẩn hoặc các thiết bị biên chuyên dụng bằng cách sử dụng các nền tảng như ONNX hoặc TensorRT .
  3. Mục tiêu: CV phân tích dữ liệu hiện có; AI tạo sinh tổng hợp dữ liệu mới.

Bất chấp những khác biệt này, các lĩnh vực này ngày càng được kết nối với nhau. AI tạo sinh đang chứng minh giá trị của nó đối với CV bằng cách tạo ra dữ liệu tổng hợp chất lượng cao. Dữ liệu tổng hợp này có thể tăng cường các tập dữ liệu thực tế, giúp đào tạo các mô hình CV mạnh mẽ và chính xác hơn, đặc biệt là đối với các tình huống mà dữ liệu thực tế khan hiếm hoặc khó có được, chẳng hạn như trong mô phỏng lái xe tự động hoặc hình ảnh tình trạng bệnh hiếm gặp ( AI trong chăm sóc sức khỏe ).

Ứng dụng trong thế giới thực

Trí tuệ nhân tạo (AI) đang chuyển đổi nhiều ngành công nghiệp:

  • Tạo nội dung: Tự động hóa việc tạo bài viết, bản sao tiếp thị, kịch bản ( GPT-3 ), tạo hình ảnh và tác phẩm nghệ thuật độc đáo ( Midjourney , DALL-E 3 ), sáng tác nhạc và tạo nội dung video ( OpenAI Sora ).
  • Tạo dữ liệu tổng hợp: Tạo các tập dữ liệu thực tế để đào tạo các mô hình ML trong các lĩnh vực như robot , tài chính ( mô hình thị giác máy tính trong tài chính ) và chăm sóc sức khỏe, cải thiện hiệu suất mô hình và giải quyết các vấn đề về quyền riêng tư dữ liệu . Ví dụ, tạo hình ảnh y tế tổng hợp để đào tạo các công cụ chẩn đoán mà không sử dụng dữ liệu bệnh nhân thực.
  • Khám phá thuốc và khoa học vật liệu: Thiết kế các cấu trúc phân tử mới và dự đoán các đặc tính của chúng, đẩy nhanh quá trình nghiên cứu và phát triển như đã được chứng minh bởi các tổ chức như Google DeepMind .
  • Cá nhân hóa: Cung cấp trải nghiệm người dùng được tùy chỉnh cao thông qua việc tạo nội dung động trong chatbot , trợ lý ảo và công cụ đề xuất .
  • Phát triển phần mềm: Hỗ trợ các nhà phát triển bằng cách tạo đoạn mã, đề xuất sửa lỗi và thậm chí tạo toàn bộ chức năng dựa trên mô tả ngôn ngữ tự nhiên ( GitHub Copilot ).

Những thách thức và cân nhắc về mặt đạo đức

Sự tiến bộ nhanh chóng của AI tạo sinh cũng mang lại những thách thức. Đảm bảo việc sử dụng có đạo đức các công cụ mạnh mẽ này là tối quan trọng, đặc biệt liên quan đến deepfake , thông tin sai lệch, quyền sở hữu trí tuệ và sự thiên vị cố hữu học được từ dữ liệu đào tạo. Để giải quyết những vấn đề này, cần phải phát triển mô hình cẩn thận, các phương pháp phát hiện mạnh mẽ và các hướng dẫn rõ ràng được nêu trong các nguyên tắc về đạo đức AI . Hơn nữa, các nguồn lực tính toán đáng kể cần thiết đặt ra các mối quan ngại về môi trường và khả năng tiếp cận. Các nền tảng như Ultralytics HUB hướng đến mục tiêu hợp lý hóa quy trình làm việc và có khả năng giảm bớt các rào cản gia nhập đối với một số tác vụ AI nhất định.

Đọc tất cả