Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Giải thích về YOLO12: Các ứng dụng và trường hợp sử dụng trong thế giới thực

Khám phá YOLO12, mô hình thị giác máy tính mới nhất! Tìm hiểu cách kiến trúc tập trung vào sự chú ý và công nghệ FlashAttention cải thiện các tác vụ phát hiện đối tượng trong nhiều ngành công nghiệp

Thị giác máy tính là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc hiểu được hình ảnh và video. Đây là một lĩnh vực đang phát triển với tốc độ đáng kinh ngạc vì các nhà nghiên cứu và phát triển AI liên tục đẩy mạnh các giới hạn. Cộng đồng AI luôn hướng đến mục tiêu làm cho các mô hình nhanh hơn, thông minh hơn và hiệu quả hơn. Một trong những đột phá mới nhất là YOLO12 , sự bổ sung mới nhất cho YOLO Dòng sản phẩm (You Only Look Once), phát hành vào ngày 18 tháng 2 năm 2025.

YOLO12 được phát triển bởi các nhà nghiên cứu từ Đại học Buffalo, SUNY (Đại học Tiểu bang New York) và Viện Hàn lâm Khoa học Trung Quốc. Theo cách tiếp cận mới độc đáo, YOLO12 giới thiệu các cơ chế chú ý, cho phép mô hình tập trung vào các phần thiết yếu nhất của hình ảnh thay vì xử lý mọi thứ như nhau. 

Nó cũng có FlashAttention, một kỹ thuật giúp tăng tốc xử lý trong khi sử dụng ít bộ nhớ hơn, và cơ chế chú ý theo khu vực, được thiết kế để mô phỏng cách con người tự nhiên tập trung vào các vật thể ở trung tâm.

Những cải tiến này làm cho YOLO12n chính xác hơn 2,1% so với YOLOv10n và YOLO12m chính xác hơn 1,0% so với YOLO11m. Tuy nhiên, điều này đi kèm với sự đánh đổi - YOLO12n chậm hơn YOLOv10n 9% và YOLO12m chậm hơn YOLO11m 3%.

Hình 1. Một ví dụ về việc sử dụng YOLO12 để phát hiện vật thể.

Trong bài viết này, chúng ta sẽ khám phá điều gì làm cho YOLO12 khác biệt, cách so sánh với các phiên bản trước và nơi có thể áp dụng.

Con đường đến với sự ra mắt của YOLO12

Chuỗi mô hình YOLO là tập hợp các mô hình thị giác máy tính được thiết kế để phát hiện đối tượng theo thời gian thực, nghĩa là chúng có thể nhanh chóng xác định và định vị các đối tượng trong hình ảnh và video. Theo thời gian, mỗi phiên bản đều được cải thiện về tốc độ, độ chính xác và hiệu quả.

Ví dụ, Ultralytics YOLOv5 , phát hành năm 2020, được sử dụng rộng rãi vì nó nhanh chóng và dễ dàng để đào tạo và triển khai tùy chỉnh. Sau đó, Ultralytics YOLOv8 đã cải thiện điều này bằng cách cung cấp hỗ trợ bổ sung cho các tác vụ thị giác máy tính như phân đoạn thể hiện và theo dõi đối tượng. 

Gần đây hơn, Ultralytics YOLO11 tập trung vào việc cải thiện xử lý thời gian thực trong khi vẫn duy trì sự cân bằng giữa tốc độ và độ chính xác. Ví dụ, YOLO11m có ít hơn 22% tham số so với YOLOv8m , nhưng vẫn mang lại hiệu suất phát hiện tốt hơn trên tập dữ liệu COCO, một chuẩn mực được sử dụng rộng rãi để đánh giá các mô hình phát hiện đối tượng.

Dựa trên những tiến bộ này, YOLO12 giới thiệu một sự thay đổi trong cách xử lý thông tin hình ảnh. Thay vì xử lý tất cả các phần của hình ảnh một cách bình đẳng, nó ưu tiên các khu vực có liên quan nhất, cải thiện độ chính xác phát hiện. Nói một cách đơn giản, YOLO12 xây dựng dựa trên những cải tiến trước đó trong khi hướng đến mục tiêu chính xác hơn.

Các tính năng chính của YOLO12

YOLO12 giới thiệu một số cải tiến giúp tăng cường các tác vụ thị giác máy tính trong khi vẫn giữ nguyên tốc độ xử lý thời gian thực. Sau đây là tổng quan về các tính năng chính của YOLO12:

  • Kiến trúc tập trung vào sự chú ý : Thay vì xử lý mọi phần của hình ảnh một cách bình đẳng, YOLO12 tập trung vào các khu vực quan trọng nhất. Điều này cải thiện độ chính xác và cắt giảm quá trình xử lý không cần thiết, giúp phát hiện sắc nét hơn và hiệu quả hơn, ngay cả trong các hình ảnh lộn xộn.
  • FlashAttention: YOLO12 tăng tốc độ phân tích hình ảnh trong khi sử dụng ít bộ nhớ hơn. Với FlashAttention (một thuật toán tiết kiệm bộ nhớ), nó tối ưu hóa việc xử lý dữ liệu, giảm tải cho phần cứng và giúp các tác vụ thời gian thực mượt mà và đáng tin cậy hơn.
  • Residual Efficient Layer Aggregation Networks (R-ELAN) : YOLO12 tổ chức các lớp của mình hiệu quả hơn bằng cách sử dụng R-ELAN, giúp cải thiện cách mô hình xử lý và học hỏi từ dữ liệu. Điều này giúp đào tạo ổn định hơn, nhận dạng đối tượng sắc nét hơn và yêu cầu tính toán thấp hơn, do đó, nó chạy hiệu quả trên các môi trường khác nhau.

Để hiểu cách các tính năng này hoạt động trong thực tế, hãy xem xét một trung tâm mua sắm. YOLO12 có thể giúp theo dõi người mua sắm, xác định đồ trang trí cửa hàng như cây trồng trong chậu hoặc biển quảng cáo và phát hiện các mặt hàng bị thất lạc hoặc bị bỏ lại. 

Kiến trúc tập trung vào sự chú ý giúp tập trung vào các chi tiết quan trọng nhất, trong khi FlashAttention đảm bảo xử lý mọi thứ nhanh chóng mà không làm quá tải hệ thống. Điều này giúp người điều hành trung tâm thương mại dễ dàng cải thiện bảo mật, sắp xếp bố cục cửa hàng và nâng cao trải nghiệm mua sắm tổng thể.

Hình 2. Phát hiện các đối tượng trong trung tâm mua sắm bằng YOLO12.

Tuy nhiên, YOLO12 cũng có một số hạn chế cần lưu ý:

  • Thời gian đào tạo chậm hơn: Do cấu trúc của nó, YOLO12 cần nhiều thời gian đào tạo hơn so với YOLO11 .
  • Thách thức khi xuất : Một số người dùng có thể gặp khó khăn khi xuất mô hình YOLO12, đặc biệt là khi tích hợp chúng vào các môi trường triển khai cụ thể.

Hiểu về các chuẩn hiệu suất của YOLO12

YOLO12 có nhiều biến thể, mỗi biến thể được tối ưu hóa cho các nhu cầu khác nhau. Các phiên bản nhỏ hơn (nano và nhỏ) ưu tiên tốc độ và hiệu quả, khiến chúng trở nên lý tưởng cho các thiết bị di động và điện toán biên. Các phiên bản trung bình và lớn tạo sự cân bằng giữa tốc độ và độ chính xác , trong khi YOLO12x (cực lớn) được thiết kế cho các ứng dụng có độ chính xác cao, chẳng hạn như tự động hóa công nghiệp, hình ảnh y tế và hệ thống giám sát tiên tiến.

Với những biến thể này, YOLO12 cung cấp các mức hiệu suất khác nhau tùy thuộc vào kích thước mô hình. Các thử nghiệm chuẩn cho thấy một số biến thể nhất định của YOLO12 vượt trội hơn YOLOv10 và YOLO11 về độ chính xác, đạt được độ chính xác trung bình (mAP) cao hơn. 

Tuy nhiên, một số mẫu máy như YOLO12m, YOLO12l và YOLO12x xử lý hình ảnh chậm hơn YOLO11 , cho thấy sự đánh đổi giữa độ chính xác phát hiện và tốc độ. Mặc dù vậy, YOLO12 vẫn hiệu quả, yêu cầu ít tham số hơn nhiều mô hình khác, mặc dù nó vẫn sử dụng nhiều hơn YOLO11 . Điều này làm cho nó trở thành sự lựa chọn tuyệt vời cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thô.

Hình 3. So sánh Ultralytics YOLO11 và YOLO12.

Sử dụng YOLO12 thông qua Ultralytics Python bưu kiện

YOLO12 được hỗ trợ bởi gói Ultralytics Python và dễ sử dụng, giúp cả người mới bắt đầu và chuyên gia đều có thể sử dụng. Chỉ với một vài dòng mã, người dùng có thể tải các mô hình được đào tạo trước, chạy nhiều tác vụ thị giác máy tính trên hình ảnh và video, cũng như đào tạo YOLO12 trên các tập dữ liệu tùy chỉnh. Ultralytics Python Gói này đơn giản hóa quy trình, loại bỏ nhu cầu thực hiện các bước thiết lập phức tạp.

Ví dụ, đây là các bước bạn cần thực hiện để sử dụng YOLO12 để phát hiện đối tượng :

  • Cài đặt gói Ultralytics : Đầu tiên, cài đặt Ultralytics Python gói, cung cấp các công cụ cần thiết để chạy YOLO12 hiệu quả. Điều này đảm bảo rằng tất cả các phụ thuộc được thiết lập chính xác.
  • Tải mô hình YOLO12 đã được đào tạo trước: Chọn biến thể YOLO12 phù hợp (nano, nhỏ, trung bình, lớn hoặc cực lớn) dựa trên mức độ chính xác và tốc độ cần thiết cho nhiệm vụ của bạn.
  • Cung cấp hình ảnh hoặc video: Nhập tệp hình ảnh hoặc video mà bạn muốn phân tích. YOLO12 cũng có thể xử lý nguồn cấp video trực tiếp để phát hiện theo thời gian thực.
  • Chạy quy trình phát hiện: Mô hình quét dữ liệu trực quan, xác định các đối tượng và đặt các hộp giới hạn xung quanh chúng. Nó dán nhãn cho từng đối tượng được phát hiện bằng lớp dự đoán và điểm tin cậy.
  • Điều chỉnh cài đặt phát hiện: Bạn cũng có thể sửa đổi các thông số như ngưỡng tin cậy để tinh chỉnh độ chính xác và hiệu suất phát hiện.
  • Lưu hoặc sử dụng đầu ra: Hình ảnh hoặc video đã xử lý, hiện chứa các đối tượng được phát hiện, có thể được lưu hoặc tích hợp vào ứng dụng để phân tích, tự động hóa hoặc ra quyết định thêm.

Các bước này giúp YOLO12 dễ sử dụng cho nhiều ứng dụng khác nhau, từ giám sát và theo dõi bán lẻ đến hình ảnh y tế và xe tự hành.

Ứng dụng YOLO12 thực tế

YOLO12 có thể được sử dụng trong nhiều ứng dụng thực tế nhờ khả năng hỗ trợ phát hiện đối tượng, phân đoạn thực thể, phân loại hình ảnh, ước tính tư thế và phát hiện đối tượng theo hướng (OBB). 

Hình 4. YOLO12 hỗ trợ các tác vụ như phát hiện đối tượng và phân đoạn thể hiện.

Tuy nhiên, như chúng ta đã thảo luận trước đó, các mô hình YOLO12 ưu tiên độ chính xác hơn tốc độ, nghĩa là chúng mất nhiều thời gian hơn một chút để xử lý hình ảnh so với các phiên bản trước đó. Sự đánh đổi này khiến YOLO12 trở nên lý tưởng cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thời gian thực, chẳng hạn như:

  • Chụp ảnh y tế : YOLO12 có thể được đào tạo tùy chỉnh để phát hiện khối u hoặc bất thường trong ảnh X-quang và MRI với độ chính xác cao, khiến nó trở thành công cụ hữu ích cho các bác sĩ và bác sĩ X-quang cần phân tích hình ảnh chính xác để chẩn đoán.
  • Kiểm soát chất lượng trong sản xuất : Có thể giúp xác định lỗi sản phẩm trong quá trình sản xuất, đảm bảo chỉ những sản phẩm chất lượng cao mới được đưa ra thị trường đồng thời giảm thiểu lãng phí và nâng cao hiệu quả.
  • Phân tích pháp y : Các cơ quan thực thi pháp luật có thể tinh chỉnh YOLO12 để phân tích cảnh quay giám sát và thu thập bằng chứng. Trong các cuộc điều tra tội phạm, độ chính xác là rất quan trọng để xác định các chi tiết quan trọng.
  • Nông nghiệp chính xác : Nông dân có thể sử dụng YOLO12 để phân tích sức khỏe cây trồng, phát hiện bệnh tật hoặc sâu bệnh và theo dõi tình trạng đất. Đánh giá chính xác giúp tối ưu hóa các chiến lược canh tác, dẫn đến năng suất và quản lý tài nguyên tốt hơn.

Bắt đầu với YOLO12

Trước khi chạy YOLO12, điều quan trọng là phải đảm bảo hệ thống của bạn đáp ứng các yêu cầu cần thiết.

Về mặt kỹ thuật, YOLO12 có thể chạy trên bất kỳ GPU (Bộ xử lý đồ họa) chuyên dụng nào. Theo mặc định, nó không yêu cầu FlashAttention, vì vậy nó có thể hoạt động trên hầu hết GPU hệ thống không có tính năng này. Tuy nhiên, việc bật FlashAttention có thể đặc biệt hữu ích khi làm việc với các tập dữ liệu lớn hoặc hình ảnh có độ phân giải cao, vì tính năng này giúp ngăn ngừa tình trạng chậm lại, giảm mức sử dụng bộ nhớ và cải thiện hiệu quả xử lý. 

Để sử dụng FlashAttention, bạn sẽ cần một NVIDIA GPU từ một trong các dòng sau: Turing (T4, Quadro RTX), Ampere (dòng RTX 30, A30, A40, A100), Ada Lovelace (dòng RTX 40) hoặc Hopper (H100, H200).

Giữ khả năng sử dụng và khả năng truy cập trong tâm trí, Ultralytics Python gói chưa hỗ trợ suy luận FlashAttention vì việc cài đặt có thể khá phức tạp về mặt kỹ thuật. Để tìm hiểu thêm về cách bắt đầu với YOLO12 và tối ưu hóa hiệu suất của nó, hãy xem tài liệu chính thức Ultralytics .

Những điểm chính

Khi thị giác máy tính tiến bộ, các mô hình trở nên chính xác và hiệu quả hơn. YOLO12 cải thiện các tác vụ thị giác máy tính như phát hiện đối tượng, phân đoạn thể hiện và phân loại hình ảnh với xử lý tập trung vào sự chú ý và FlashAttention, tăng cường độ chính xác đồng thời tối ưu hóa việc sử dụng bộ nhớ.

Đồng thời, tầm nhìn máy tính dễ tiếp cận hơn bao giờ hết. YOLO12 dễ sử dụng thông qua Ultralytics Python gói và tập trung vào độ chính xác hơn tốc độ, rất phù hợp cho hình ảnh y tế, kiểm tra công nghiệp và robot - những ứng dụng đòi hỏi độ chính xác cao.

Bạn có tò mò về AI không? Hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi . Khám phá những đổi mới trong các lĩnh vực như AI trong xe tự láithị giác máy tính trong nông nghiệp trên các trang giải pháp của chúng tôi. Hãy xem các tùy chọn cấp phép của chúng tôi và hiện thực hóa các dự án Vision AI của bạn. 🚀

Logo FacebookBiểu trưng TwitterBiểu tượng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning