Khám phá YOLO12, mô hình thị giác máy tính mới nhất! Tìm hiểu cách kiến trúc tập trung vào sự chú ý và công nghệ FlashAttention cải thiện các tác vụ phát hiện đối tượng trong nhiều ngành công nghiệp
Thị giác máy tính là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc hiểu được hình ảnh và video. Đây là một lĩnh vực đang phát triển với tốc độ đáng kinh ngạc vì các nhà nghiên cứu và phát triển AI liên tục đẩy mạnh các giới hạn. Cộng đồng AI luôn hướng đến mục tiêu làm cho các mô hình nhanh hơn, thông minh hơn và hiệu quả hơn. Một trong những đột phá mới nhất là YOLO12 , sự bổ sung mới nhất cho YOLO Dòng sản phẩm (You Only Look Once), phát hành vào ngày 18 tháng 2 năm 2025.
YOLO12 được phát triển bởi các nhà nghiên cứu từ Đại học Buffalo, SUNY (Đại học Tiểu bang New York) và Viện Hàn lâm Khoa học Trung Quốc. Theo cách tiếp cận mới độc đáo, YOLO12 giới thiệu các cơ chế chú ý, cho phép mô hình tập trung vào các phần thiết yếu nhất của hình ảnh thay vì xử lý mọi thứ như nhau.
Nó cũng có FlashAttention, một kỹ thuật giúp tăng tốc xử lý trong khi sử dụng ít bộ nhớ hơn, và cơ chế chú ý theo khu vực, được thiết kế để mô phỏng cách con người tự nhiên tập trung vào các vật thể ở trung tâm.
Những cải tiến này làm cho YOLO12n chính xác hơn 2,1% so với YOLOv10n và YOLO12m chính xác hơn 1,0% so với YOLO11m. Tuy nhiên, điều này đi kèm với sự đánh đổi - YOLO12n chậm hơn YOLOv10n 9% và YOLO12m chậm hơn YOLO11m 3%.
Trong bài viết này, chúng ta sẽ khám phá điều gì làm cho YOLO12 khác biệt, cách so sánh với các phiên bản trước và nơi có thể áp dụng.
Chuỗi mô hình YOLO là tập hợp các mô hình thị giác máy tính được thiết kế để phát hiện đối tượng theo thời gian thực, nghĩa là chúng có thể nhanh chóng xác định và định vị các đối tượng trong hình ảnh và video. Theo thời gian, mỗi phiên bản đều được cải thiện về tốc độ, độ chính xác và hiệu quả.
Ví dụ, Ultralytics YOLOv5 , phát hành năm 2020, được sử dụng rộng rãi vì nó nhanh chóng và dễ dàng để đào tạo và triển khai tùy chỉnh. Sau đó, Ultralytics YOLOv8 đã cải thiện điều này bằng cách cung cấp hỗ trợ bổ sung cho các tác vụ thị giác máy tính như phân đoạn thể hiện và theo dõi đối tượng.
Gần đây hơn, Ultralytics YOLO11 tập trung vào việc cải thiện xử lý thời gian thực trong khi vẫn duy trì sự cân bằng giữa tốc độ và độ chính xác. Ví dụ, YOLO11m có ít hơn 22% tham số so với YOLOv8m , nhưng vẫn mang lại hiệu suất phát hiện tốt hơn trên tập dữ liệu COCO, một chuẩn mực được sử dụng rộng rãi để đánh giá các mô hình phát hiện đối tượng.
Dựa trên những tiến bộ này, YOLO12 giới thiệu một sự thay đổi trong cách xử lý thông tin hình ảnh. Thay vì xử lý tất cả các phần của hình ảnh một cách bình đẳng, nó ưu tiên các khu vực có liên quan nhất, cải thiện độ chính xác phát hiện. Nói một cách đơn giản, YOLO12 xây dựng dựa trên những cải tiến trước đó trong khi hướng đến mục tiêu chính xác hơn.
YOLO12 giới thiệu một số cải tiến giúp tăng cường các tác vụ thị giác máy tính trong khi vẫn giữ nguyên tốc độ xử lý thời gian thực. Sau đây là tổng quan về các tính năng chính của YOLO12:
Để hiểu cách các tính năng này hoạt động trong thực tế, hãy xem xét một trung tâm mua sắm. YOLO12 có thể giúp theo dõi người mua sắm, xác định đồ trang trí cửa hàng như cây trồng trong chậu hoặc biển quảng cáo và phát hiện các mặt hàng bị thất lạc hoặc bị bỏ lại.
Kiến trúc tập trung vào sự chú ý giúp tập trung vào các chi tiết quan trọng nhất, trong khi FlashAttention đảm bảo xử lý mọi thứ nhanh chóng mà không làm quá tải hệ thống. Điều này giúp người điều hành trung tâm thương mại dễ dàng cải thiện bảo mật, sắp xếp bố cục cửa hàng và nâng cao trải nghiệm mua sắm tổng thể.
Tuy nhiên, YOLO12 cũng có một số hạn chế cần lưu ý:
YOLO12 có nhiều biến thể, mỗi biến thể được tối ưu hóa cho các nhu cầu khác nhau. Các phiên bản nhỏ hơn (nano và nhỏ) ưu tiên tốc độ và hiệu quả, khiến chúng trở nên lý tưởng cho các thiết bị di động và điện toán biên. Các phiên bản trung bình và lớn tạo sự cân bằng giữa tốc độ và độ chính xác , trong khi YOLO12x (cực lớn) được thiết kế cho các ứng dụng có độ chính xác cao, chẳng hạn như tự động hóa công nghiệp, hình ảnh y tế và hệ thống giám sát tiên tiến.
Với những biến thể này, YOLO12 cung cấp các mức hiệu suất khác nhau tùy thuộc vào kích thước mô hình. Các thử nghiệm chuẩn cho thấy một số biến thể nhất định của YOLO12 vượt trội hơn YOLOv10 và YOLO11 về độ chính xác, đạt được độ chính xác trung bình (mAP) cao hơn.
Tuy nhiên, một số mẫu máy như YOLO12m, YOLO12l và YOLO12x xử lý hình ảnh chậm hơn YOLO11 , cho thấy sự đánh đổi giữa độ chính xác phát hiện và tốc độ. Mặc dù vậy, YOLO12 vẫn hiệu quả, yêu cầu ít tham số hơn nhiều mô hình khác, mặc dù nó vẫn sử dụng nhiều hơn YOLO11 . Điều này làm cho nó trở thành sự lựa chọn tuyệt vời cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thô.
YOLO12 được hỗ trợ bởi gói Ultralytics Python và dễ sử dụng, giúp cả người mới bắt đầu và chuyên gia đều có thể sử dụng. Chỉ với một vài dòng mã, người dùng có thể tải các mô hình được đào tạo trước, chạy nhiều tác vụ thị giác máy tính trên hình ảnh và video, cũng như đào tạo YOLO12 trên các tập dữ liệu tùy chỉnh. Ultralytics Python Gói này đơn giản hóa quy trình, loại bỏ nhu cầu thực hiện các bước thiết lập phức tạp.
Ví dụ, đây là các bước bạn cần thực hiện để sử dụng YOLO12 để phát hiện đối tượng :
Các bước này giúp YOLO12 dễ sử dụng cho nhiều ứng dụng khác nhau, từ giám sát và theo dõi bán lẻ đến hình ảnh y tế và xe tự hành.
YOLO12 có thể được sử dụng trong nhiều ứng dụng thực tế nhờ khả năng hỗ trợ phát hiện đối tượng, phân đoạn thực thể, phân loại hình ảnh, ước tính tư thế và phát hiện đối tượng theo hướng (OBB).
Tuy nhiên, như chúng ta đã thảo luận trước đó, các mô hình YOLO12 ưu tiên độ chính xác hơn tốc độ, nghĩa là chúng mất nhiều thời gian hơn một chút để xử lý hình ảnh so với các phiên bản trước đó. Sự đánh đổi này khiến YOLO12 trở nên lý tưởng cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thời gian thực, chẳng hạn như:
Trước khi chạy YOLO12, điều quan trọng là phải đảm bảo hệ thống của bạn đáp ứng các yêu cầu cần thiết.
Về mặt kỹ thuật, YOLO12 có thể chạy trên bất kỳ GPU (Bộ xử lý đồ họa) chuyên dụng nào. Theo mặc định, nó không yêu cầu FlashAttention, vì vậy nó có thể hoạt động trên hầu hết GPU hệ thống không có tính năng này. Tuy nhiên, việc bật FlashAttention có thể đặc biệt hữu ích khi làm việc với các tập dữ liệu lớn hoặc hình ảnh có độ phân giải cao, vì tính năng này giúp ngăn ngừa tình trạng chậm lại, giảm mức sử dụng bộ nhớ và cải thiện hiệu quả xử lý.
Để sử dụng FlashAttention, bạn sẽ cần một NVIDIA GPU từ một trong các dòng sau: Turing (T4, Quadro RTX), Ampere (dòng RTX 30, A30, A40, A100), Ada Lovelace (dòng RTX 40) hoặc Hopper (H100, H200).
Giữ khả năng sử dụng và khả năng truy cập trong tâm trí, Ultralytics Python gói chưa hỗ trợ suy luận FlashAttention vì việc cài đặt có thể khá phức tạp về mặt kỹ thuật. Để tìm hiểu thêm về cách bắt đầu với YOLO12 và tối ưu hóa hiệu suất của nó, hãy xem tài liệu chính thức Ultralytics .
Khi thị giác máy tính tiến bộ, các mô hình trở nên chính xác và hiệu quả hơn. YOLO12 cải thiện các tác vụ thị giác máy tính như phát hiện đối tượng, phân đoạn thể hiện và phân loại hình ảnh với xử lý tập trung vào sự chú ý và FlashAttention, tăng cường độ chính xác đồng thời tối ưu hóa việc sử dụng bộ nhớ.
Đồng thời, tầm nhìn máy tính dễ tiếp cận hơn bao giờ hết. YOLO12 dễ sử dụng thông qua Ultralytics Python gói và tập trung vào độ chính xác hơn tốc độ, rất phù hợp cho hình ảnh y tế, kiểm tra công nghiệp và robot - những ứng dụng đòi hỏi độ chính xác cao.
Bạn có tò mò về AI không? Hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi . Khám phá những đổi mới trong các lĩnh vực như AI trong xe tự lái và thị giác máy tính trong nông nghiệp trên các trang giải pháp của chúng tôi. Hãy xem các tùy chọn cấp phép của chúng tôi và hiện thực hóa các dự án Vision AI của bạn. 🚀
Bắt đầu hành trình của bạn với tương lai của machine learning