Khám phá những hiểu biết thú vị từ một cuộc nói chuyện nhóm tại YOLO Tầm nhìn 2024. Khám phá cách AI tạo sinh đang định hình con đường phía trước cho các mô hình AI tầm nhìn thời gian thực.
Trí tuệ nhân tạo tạo sinh là một nhánh của trí tuệ nhân tạo (AI) tạo ra nội dung mới, chẳng hạn như hình ảnh, văn bản hoặc âm thanh, bằng cách học các mẫu từ dữ liệu hiện có. Nhờ những tiến bộ gần đây, giờ đây AI có thể được sử dụng để tạo ra nội dung có độ chân thực cao, thường bắt chước sự sáng tạo của con người.
Tuy nhiên, tác động của AI tạo sinh không chỉ dừng lại ở việc tạo ra nội dung. Khi các mô hình thị giác máy tính thời gian thực như mô hình YOLO Ultralytics tiếp tục phát triển, AI tạo sinh cũng đang định nghĩa lại cách dữ liệu trực quan được xử lý và tăng cường, mở đường cho các ứng dụng sáng tạo trong các tình huống thực tế.
Sự thay đổi công nghệ mới này là chủ đề thảo luận thú vị tại YOLO Vision 2024 (YV24), một sự kiện kết hợp thường niên do Ultralytics . YV24 chứng kiến những người đam mê AI và các nhà lãnh đạo ngành công nghiệp tụ họp để thảo luận về những đột phá mới nhất trong thị giác máy tính . Sự kiện tập trung vào đổi mới, hiệu quả và tương lai của các giải pháp AI thời gian thực.
Một trong những điểm nhấn chính của sự kiện là buổi tọa đàm về YOLO trong Kỷ nguyên AI tạo sinh . Buổi tọa đàm có sự tham gia của Glenn Jocher , Nhà sáng lập & Tổng giám đốc điều hành của Ultralytics , Jing Qiu , Kỹ sư học máy cao cấp tại Ultralytics và Ao Wang từ Đại học Thanh Hoa. Họ đã khám phá cách AI tạo ra ảnh hưởng đến thị giác máy tính và những thách thức trong việc xây dựng các mô hình AI thực tế.
Trong bài viết này, chúng ta sẽ xem xét lại những hiểu biết chính từ cuộc thảo luận của họ và xem xét kỹ hơn cách AI tạo sinh đang chuyển đổi Vision AI.
Cùng với Glenn Jocher, nhiều kỹ sư lành nghề đã đóng vai trò quan trọng trong việc phát triển Ultralytics YOLO mô hình. Một trong số họ, Jing Qiu, kể lại sự khởi đầu bất ngờ của mình với YOLO . Anh giải thích rằng niềm đam mê AI của anh bắt đầu từ những năm đại học. Anh đã dành rất nhiều thời gian để khám phá và tìm hiểu về lĩnh vực này. Jing Qiu nhớ lại cách anh kết nối với Glenn Jocher trên GitHub và tham gia vào nhiều dự án AI khác nhau.
Bổ sung cho những gì Jing Qiu đã nói, Glenn Jocher mô tả GitHub là "một cách tuyệt vời để chia sẻ - nơi những người bạn chưa từng gặp đến với nhau để giúp đỡ lẫn nhau, đóng góp vào công việc của nhau. Đây là một cộng đồng tuyệt vời và là một cách thực sự tuyệt vời để bắt đầu trong lĩnh vực AI."
Sự quan tâm của Jing Qiu đối với AI và công trình của ông trên Ultralytics YOLOv5 đã giúp tinh chỉnh mô hình. Sau đó, ông đóng vai trò quan trọng trong việc phát triển Ultralytics YOLOv8 , giới thiệu những cải tiến hơn nữa. Ông mô tả đó là một hành trình đáng kinh ngạc. Ngày nay, Jing Qiu tiếp tục cải tiến và làm việc trên các mô hình như Ultralytics YOLO11 .
Tham gia buổi tọa đàm từ xa từ Trung Quốc, Ao Wang giới thiệu mình là nghiên cứu sinh tiến sĩ. Ban đầu, anh học kỹ thuật phần mềm, nhưng niềm đam mê với AI đã khiến anh chuyển sang lĩnh vực thị giác máy tính và học sâu.
Cuộc gặp gỡ đầu tiên của anh với người nổi tiếng YOLO mô hình trong khi thử nghiệm với nhiều kỹ thuật và mô hình AI khác nhau. Anh ấy đã rất ấn tượng với tốc độ và độ chính xác của nó, điều này đã truyền cảm hứng cho anh ấy để đi sâu hơn vào các nhiệm vụ thị giác máy tính như phát hiện đối tượng. Gần đây, Ao Wang đã đóng góp cho YOLOv10, một phiên bản gần đây của YOLO mô hình. Nghiên cứu của ông tập trung vào việc tối ưu hóa mô hình để nhanh hơn và chính xác hơn.
Sau đó, hội thảo bắt đầu thảo luận về AI tạo sinh, và Jing Qiu chỉ ra rằng AI tạo sinh và AI thị giác có mục đích rất khác nhau. AI tạo sinh tạo ra hoặc tạo ra những thứ như văn bản, hình ảnh và video, trong khi AI thị giác phân tích những gì đã tồn tại, chủ yếu là hình ảnh.
Glenn Jocher nhấn mạnh rằng kích thước cũng là một sự khác biệt lớn. Các mô hình AI tạo sinh rất lớn, thường chứa hàng tỷ tham số - các thiết lập nội bộ giúp mô hình học hỏi từ dữ liệu. Các mô hình thị giác máy tính nhỏ hơn nhiều. Ông nói, "Các mô hình nhỏ nhất YOLO mô hình chúng tôi có nhỏ hơn khoảng một nghìn lần so với LLM [Mô hình ngôn ngữ lớn] nhỏ nhất. Vì vậy, 3 triệu tham số so với ba tỷ.”
Jing Qiu nói thêm rằng AI tạo sinh và quy trình đào tạo và triển khai thị giác máy tính cũng rất khác nhau. AI tạo sinh cần máy chủ lớn, mạnh mẽ để chạy. Các mô hình như YOLO Mặt khác, được xây dựng để đạt hiệu quả và có thể được đào tạo và triển khai trên phần cứng tiêu chuẩn. Điều đó làm cho Ultralytics YOLO các mô hình thực tế hơn để sử dụng trong thực tế.
Mặc dù chúng khác nhau, hai lĩnh vực này đang bắt đầu đan xen vào nhau. Glenn Jocher giải thích thêm rằng AI tạo sinh đang mang lại những tiến bộ mới cho Vision AI, giúp các mô hình thông minh hơn và hiệu quả hơn.
Trí tuệ nhân tạo tạo ra đã phát triển nhanh chóng và những đột phá này đang ảnh hưởng đến nhiều lĩnh vực khác của trí tuệ nhân tạo, bao gồm cả thị giác máy tính. Tiếp theo, chúng ta hãy cùng xem qua một số hiểu biết hấp dẫn từ hội thảo về vấn đề này.
Ngay từ đầu hội thảo, Glenn Jocher đã giải thích rằng các ý tưởng về máy học đã xuất hiện từ lâu, nhưng máy tính không đủ mạnh để thực hiện chúng. Các ý tưởng về AI cần phần cứng mạnh hơn để biến chúng thành hiện thực.
Sự phát triển của GPU (Bộ xử lý đồ họa) trong 20 năm qua với khả năng xử lý song song đã thay đổi mọi thứ. Chúng giúp đào tạo các mô hình AI nhanh hơn và hiệu quả hơn nhiều, cho phép học sâu phát triển với tốc độ nhanh chóng.
Ngày nay, các chip AI như TPU ( Tensor Processing Units) và GPU được tối ưu hóa sử dụng ít năng lượng hơn trong khi xử lý các mô hình lớn hơn và phức tạp hơn. Điều này đã làm cho AI dễ tiếp cận và hữu ích hơn trong các ứng dụng thực tế.
Với mỗi cải tiến phần cứng mới, cả AI tạo sinh và ứng dụng thị giác máy tính đều trở nên mạnh mẽ hơn. Những tiến bộ này đang giúp AI thời gian thực nhanh hơn, hiệu quả hơn và sẵn sàng sử dụng trong nhiều ngành công nghiệp hơn.
Khi được hỏi AI tạo ra đang ảnh hưởng đến thị giác máy tính như thế nào, Jing Qiu cho biết các bộ chuyển đổi - các mô hình giúp AI tập trung vào các phần quan trọng nhất của hình ảnh - đã thay đổi cách AI hiểu và xử lý hình ảnh. Bước tiến lớn đầu tiên là DETR (Bộ chuyển đổi phát hiện), sử dụng phương pháp tiếp cận mới này để phát hiện đối tượng. Nó cải thiện độ chính xác nhưng có các vấn đề về hiệu suất khiến nó chậm hơn trong một số trường hợp.
Để giải quyết vấn đề này, các nhà nghiên cứu đã tạo ra các mô hình lai như RT-DETR . Các mô hình này kết hợp Mạng nơ-ron tích chập (CNN, là các mô hình học sâu tự động học và trích xuất các đặc điểm từ hình ảnh) và bộ biến đổi, cân bằng tốc độ và độ chính xác. Phương pháp này tận dụng lợi ích của bộ biến đổi trong khi giúp phát hiện đối tượng nhanh hơn.
Điều thú vị là YOLOv10 sử dụng các lớp chú ý dựa trên bộ biến đổi (các phần của mô hình hoạt động như đèn rọi để làm nổi bật các khu vực quan trọng nhất trong hình ảnh đồng thời bỏ qua các chi tiết ít liên quan hơn) để tăng hiệu suất.
Ao Wang cũng đề cập đến cách AI tạo ra đang thay đổi cách đào tạo mô hình. Các kỹ thuật như mô hình hóa hình ảnh được che giấu giúp AI học từ hình ảnh hiệu quả hơn, giảm nhu cầu về các tập dữ liệu lớn được gắn nhãn thủ công. Điều này giúp đào tạo thị giác máy tính nhanh hơn và ít tốn tài nguyên hơn.
Một ý tưởng quan trọng khác mà hội thảo thảo luận là cách AI tạo sinh và AI thị giác có thể kết hợp với nhau để xây dựng các mô hình có khả năng hơn. Glenn Jocher giải thích rằng mặc dù hai cách tiếp cận này có những điểm mạnh khác nhau, nhưng việc kết hợp chúng có thể mở ra những khả năng mới.
Ví dụ, các mô hình Vision AI như YOLO thường chia hình ảnh thành lưới để xác định các đối tượng. Phương pháp dựa trên lưới này có thể giúp các mô hình ngôn ngữ cải thiện khả năng xác định chi tiết và mô tả chúng - một thách thức mà nhiều mô hình ngôn ngữ phải đối mặt ngày nay. Về bản chất, việc hợp nhất các kỹ thuật này có thể dẫn đến các hệ thống có thể phát hiện chính xác và giải thích rõ ràng những gì chúng nhìn thấy.
Trí tuệ nhân tạo và thị giác máy tính đang cùng nhau tiến triển. Trong khi Trí tuệ nhân tạo tạo ra hình ảnh và video, nó cũng cải thiện khả năng phân tích hình ảnh và video bằng cách đưa ra những ý tưởng sáng tạo mới có thể giúp các mô hình Trí tuệ nhân tạo thị giác chính xác và hiệu quả hơn.
Trong bài nói chuyện sâu sắc này của YV24, Glenn Jocher, Jing Qiu và Ao Wang đã chia sẻ suy nghĩ của họ về cách các công nghệ này đang định hình tương lai. Với phần cứng AI tốt hơn, AI tạo sinh và AI thị giác sẽ tiếp tục phát triển, dẫn đến những đổi mới thậm chí còn lớn hơn. Hai lĩnh vực này đang hợp tác với nhau để tạo ra AI thông minh hơn, nhanh hơn và hữu ích hơn cho cuộc sống hàng ngày.
Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về Vision AI. Xem các tùy chọn cấp phép của chúng tôi để khởi động các dự án thị giác máy tính của bạn. Bạn có quan tâm đến những đổi mới như AI trong sản xuất hoặc thị giác máy tính trong xe tự lái không? Truy cập các trang giải pháp của chúng tôi để khám phá thêm.
Bắt đầu hành trình của bạn với tương lai của machine learning