So sánh Ultralytics YOLOv8 , YOLOv9, YOLOv10 và Ultralytics YOLO11 để hiểu cách các mô hình này đã phát triển và cải thiện như thế nào từ năm 2023 đến năm 2025.
Từ việc tự động hóa các tác vụ hàng ngày đến việc giúp đưa ra quyết định sáng suốt theo thời gian thực, trí tuệ nhân tạo (AI) đang định hình lại tương lai của nhiều ngành công nghiệp khác nhau. Một lĩnh vực đặc biệt hấp dẫn của AI là thị giác máy tính , hay còn gọi là Vision AI. Nó tập trung vào việc cho phép máy móc phân tích và diễn giải dữ liệu trực quan giống như con người.
Cụ thể, các mô hình thị giác máy tính đang thúc đẩy những đổi mới giúp tăng cường cả tính an toàn và hiệu quả. Ví dụ, các mô hình này được sử dụng trong xe tự lái để phát hiện người đi bộ và trong camera an ninh để giám sát cơ sở suốt ngày đêm.
Một số mô hình thị giác máy tính nổi tiếng nhất là YOLO (Bạn chỉ nhìn một lần) các mô hình, được biết đến với khả năng phát hiện đối tượng theo thời gian thực. Theo thời gian, YOLO Các mẫu xe đã được cải tiến, mỗi phiên bản mới đều mang lại hiệu suất tốt hơn và tính linh hoạt hơn.
Các phiên bản mới hơn như Ultralytics YOLO11 có thể xử lý nhiều tác vụ khác nhau, như phân đoạn trường hợp, phân loại hình ảnh, ước tính tư thế và theo dõi nhiều đối tượng, với độ chính xác, tốc độ và độ tinh vi tốt hơn bao giờ hết.
Trong bài viết này, chúng tôi sẽ so sánh Ultralytics YOLOv8 , YOLOv9, YOLOv10 và Ultralytics YOLO11 để hiểu rõ hơn về cách các mô hình này đã phát triển. Chúng tôi sẽ phân tích các tính năng chính, kết quả chuẩn và sự khác biệt về hiệu suất của chúng. Hãy bắt đầu!
YOLOv8 , được phát hành bởi Ultralytics vào ngày 10 tháng 1 năm 2023, là một bước tiến lớn so với trước đó YOLO mô hình. Nó được tối ưu hóa để phát hiện chính xác theo thời gian thực, kết hợp các phương pháp đã được thử nghiệm kỹ lưỡng với các bản cập nhật sáng tạo để có kết quả tốt hơn.
Ngoài việc phát hiện đối tượng , nó còn hỗ trợ các tác vụ thị giác máy tính sau: phân đoạn thể hiện, ước tính tư thế, phát hiện đối tượng hộp giới hạn định hướng (OBB) và phân loại hình ảnh. Một tính năng quan trọng khác của YOLOv8 là nó có năm phiên bản mẫu khác nhau - Nano, Nhỏ, Trung bình, Lớn và X - để bạn có thể lựa chọn mức cân bằng phù hợp giữa tốc độ và độ chính xác dựa trên nhu cầu của mình.
Do tính linh hoạt và hiệu suất mạnh mẽ của nó, YOLOv8 có thể được sử dụng trong nhiều ứng dụng thực tế, như hệ thống an ninh, thành phố thông minh, chăm sóc sức khỏe và tự động hóa công nghiệp.
Sau đây là cái nhìn sâu hơn về một số tính năng chính khác của YOLOv8 :
YOLOv9 được phát hành vào ngày 21 tháng 2 năm 2024, bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Academia Sinica, Đài Loan. Nó hỗ trợ các tác vụ như phát hiện đối tượng và phân đoạn thể hiện .
Mô hình này được xây dựng dựa trên Ultralytics YOLOv5 và giới thiệu hai cải tiến chính: Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
PGI giúp YOLOv9 lưu giữ thông tin quan trọng khi xử lý dữ liệu qua các lớp của nó, dẫn đến kết quả chính xác hơn. Trong khi đó, GELAN cải thiện cách mô hình sử dụng các lớp của nó, tăng cường hiệu suất và hiệu quả tính toán. Nhờ những nâng cấp này, YOLOv9 có thể xử lý các tác vụ thời gian thực trên các thiết bị biên và ứng dụng di động, nơi tài nguyên điện toán thường bị hạn chế.
Dưới đây là cái nhìn thoáng qua về một số tính năng chính khác của YOLOv8 :
YOLOv10 được giới thiệu vào ngày 23 tháng 5 năm 2024, bởi các nhà nghiên cứu từ Đại học Thanh Hoa và tập trung vào phát hiện đối tượng theo thời gian thực. Nó giải quyết những hạn chế trong các phiên bản trước đó YOLO phiên bản bằng cách loại bỏ nhu cầu về việc loại bỏ không tối đa (NMS), một bước xử lý hậu kỳ được sử dụng để loại bỏ các phát hiện trùng lặp và tinh chỉnh thiết kế mô hình tổng thể. Điều này dẫn đến việc phát hiện đối tượng nhanh hơn và hiệu quả hơn, đồng thời vẫn đạt được độ chính xác tiên tiến.
Một phần quan trọng giúp điều này khả thi là phương pháp đào tạo được gọi là gán nhãn kép nhất quán. Nó kết hợp hai chiến lược: một chiến lược cho phép nhiều dự đoán học từ cùng một đối tượng (một-nhiều) và một chiến lược khác tập trung vào việc chọn dự đoán đơn lẻ tốt nhất (một-một). Vì cả hai chiến lược đều tuân theo cùng một quy tắc khớp, nên mô hình tự học cách tránh trùng lặp, do đó không cần NMS.
Kiến trúc của YOLOv10 cũng sử dụng xương sống CSPNet được cải tiến để học các tính năng hiệu quả hơn và một PAN (Path Aggregation Network) kết hợp thông tin từ các lớp khác nhau, giúp phát hiện tốt hơn cả các vật thể nhỏ và lớn. Những cải tiến này giúp có thể sử dụng YOLOv10 cho các ứng dụng thực tế trong sản xuất, bán lẻ và lái xe tự động.
Sau đây là một số tính năng nổi bật khác của YOLOv10:
Năm nay, vào ngày 30 tháng 9, Ultralytics chính thức ra mắt YOLO11 - một trong những mô hình mới nhất trong YOLO series - tại sự kiện kết hợp thường niên, YOLO Vision 2024 (YV24) .
Phiên bản này mang lại những cải tiến đáng kể so với các phiên bản trước. YOLO11 nhanh hơn, chính xác hơn và hiệu quả cao hơn. Nó hỗ trợ đầy đủ các tác vụ thị giác máy tính YOLOv8 người dùng quen thuộc với, bao gồm phát hiện đối tượng, phân đoạn trường hợp và phân loại hình ảnh. Nó cũng duy trì khả năng tương thích với YOLOv8 quy trình làm việc, giúp người dùng dễ dàng chuyển đổi sang phiên bản mới một cách suôn sẻ.
Trên hết, YOLO11 được thiết kế để đáp ứng nhiều nhu cầu điện toán khác nhau - từ các thiết bị biên nhẹ đến các hệ thống đám mây mạnh mẽ. Mô hình này có sẵn dưới dạng cả phiên bản mã nguồn mở và phiên bản doanh nghiệp, giúp nó có thể thích ứng với các trường hợp sử dụng khác nhau.
Đây là lựa chọn tuyệt vời cho các nhiệm vụ chính xác như chụp ảnh y tế và phát hiện vệ tinh, cũng như các ứng dụng rộng hơn trong xe tự hành, nông nghiệp và chăm sóc sức khỏe.
Dưới đây là một số tính năng độc đáo khác của YOLO11 :
Khi khám phá các mô hình khác nhau, không phải lúc nào cũng dễ dàng để so sánh chúng chỉ bằng cách xem xét các tính năng của chúng. Đó là lúc chuẩn mực xuất hiện. Bằng cách chạy tất cả các mô hình trên cùng một tập dữ liệu, chúng ta có thể đo lường và so sánh hiệu suất của chúng một cách khách quan. Hãy cùng xem xét hiệu suất của từng mô hình trên tập dữ liệu COCO .
Khi so sánh YOLO các mô hình, mỗi phiên bản mới đều mang lại những cải tiến đáng kể về độ chính xác, tốc độ và tính linh hoạt. Đặc biệt, YOLO11m có bước tiến vượt bậc ở đây vì nó sử dụng ít hơn 22% tham số so với YOLOv8m , nghĩa là nó nhẹ hơn và chạy nhanh hơn. Ngoài ra, mặc dù có kích thước nhỏ hơn, nó đạt được độ chính xác trung bình (mAP) cao hơn trên tập dữ liệu COCO. Chỉ số này đo lường mức độ mô hình phát hiện và định vị các đối tượng tốt như thế nào, do đó, mAP cao hơn có nghĩa là dự đoán chính xác hơn.
Hãy cùng khám phá xem các mô hình này hoạt động như thế nào trong tình huống thực tế.
Để so sánh YOLOv8 , YOLOv9, YOLOv10 và YOLO11 , cả bốn đều được chạy trên cùng một video giao thông sử dụng điểm tin cậy là 0,3 (mô hình chỉ hiển thị phát hiện khi có ít nhất 30% tin tưởng rằng nó đã xác định đúng một đối tượng) và kích thước hình ảnh là 640 để đánh giá công bằng. Kết quả phát hiện và theo dõi đối tượng làm nổi bật những khác biệt chính về độ chính xác, tốc độ và độ chính xác của phát hiện.
Từ khung hình đầu tiên, YOLO11 đã phát hiện những xe lớn như xe tải mà YOLOv10 đã bỏ sót. YOLOv8 và YOLOv9 cho thấy hiệu suất tốt nhưng thay đổi tùy thuộc vào điều kiện ánh sáng và kích thước vật thể. Các phương tiện nhỏ hơn, ở xa vẫn là một thách thức đối với tất cả các mô hình, mặc dù YOLO11 cũng cho thấy những cải thiện đáng chú ý trong các phát hiện đó.
Về tốc độ, tất cả các mô hình đều hoạt động trong khoảng từ 10 đến 20 mili giây cho mỗi khung hình, đủ nhanh để xử lý các tác vụ thời gian thực ở mức hơn 50 FPS. Một mặt, YOLOv8 và YOLOv9 cung cấp khả năng phát hiện ổn định và đáng tin cậy trong suốt video. Điều thú vị là YOLOv10, được thiết kế để có độ trễ thấp hơn, nhanh hơn nhưng lại cho thấy một số điểm không nhất quán trong việc phát hiện một số loại đối tượng nhất định.
YOLO11 , mặt khác, nổi bật vì độ chính xác của nó, mang lại sự cân bằng mạnh mẽ giữa tốc độ và độ chính xác . Mặc dù không có mô hình nào thực hiện hoàn hảo trong mọi khung hình, nhưng so sánh cạnh nhau đã chứng minh rõ ràng rằng YOLO11 mang lại hiệu suất tổng thể tốt nhất.
Việc lựa chọn mô hình cho một dự án phụ thuộc vào các yêu cầu cụ thể của dự án đó. Ví dụ, một số ứng dụng có thể ưu tiên tốc độ, trong khi những ứng dụng khác có thể yêu cầu độ chính xác cao hơn hoặc phải đối mặt với các ràng buộc triển khai ảnh hưởng đến quyết định.
Một yếu tố quan trọng khác là loại nhiệm vụ thị giác máy tính mà bạn cần giải quyết. Nếu bạn đang tìm kiếm sự linh hoạt rộng hơn trên các nhiệm vụ khác nhau, YOLOv8 Và YOLO11 là những lựa chọn tốt.
Cho dù bạn chọn YOLOv8 hoặc YOLO11 thực sự phụ thuộc vào nhu cầu của bạn. YOLOv8 là một lựa chọn phù hợp nếu bạn mới làm quen với thị giác máy tính và coi trọng một cộng đồng lớn hơn, nhiều hướng dẫn hơn và tích hợp rộng rãi với bên thứ ba .
Mặt khác, nếu bạn đang tìm kiếm hiệu suất tiên tiến với độ chính xác và tốc độ tốt hơn, YOLO11 là lựa chọn tốt hơn, mặc dù cộng đồng nhỏ hơn và ít tích hợp hơn do là phiên bản mới hơn.
Từ Ultralytics YOLOv8 ĐẾN Ultralytics YOLO11 , sự tiến hóa của YOLO loạt mô hình phản ánh sự thúc đẩy nhất quán hướng tới các mô hình thị giác máy tính thông minh hơn. Mỗi phiên bản của YOLO mang lại những nâng cấp có ý nghĩa về tốc độ, độ chính xác và độ tin cậy.
Khi tầm nhìn máy tính tiếp tục phát triển, các mô hình này cung cấp các giải pháp đáng tin cậy cho các thách thức trong thế giới thực, từ phát hiện đối tượng đến các hệ thống tự động. Sự phát triển liên tục của YOLO Các mô hình cho thấy lĩnh vực này đã phát triển đến mức nào và chúng ta có thể mong đợi nhiều hơn nữa trong tương lai.
Để tìm hiểu thêm về AI, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá những tiến bộ trong nhiều ngành, từ Vision AI trong sản xuất đến thị giác máy tính trong chăm sóc sức khỏe . Hãy xem các tùy chọn cấp phép của chúng tôi để bắt đầu các dự án Vision AI của bạn ngay hôm nay.
Bắt đầu hành trình của bạn với tương lai của machine learning