Khám phá sức mạnh của phát hiện đối tượng—xác định và định vị các đối tượng trong hình ảnh hoặc video bằng các mô hình tiên tiến như YOLO . Khám phá các ứng dụng thực tế!
Phát hiện đối tượng là một nhiệm vụ quan trọng trong thị giác máy tính, cho phép máy móc xác định và định vị các đối tượng cụ thể trong hình ảnh hoặc video. Không giống như phân loại hình ảnh, chỉ xác định sự hiện diện của một đối tượng trong hình ảnh, phát hiện đối tượng vẽ các hộp giới hạn xung quanh mỗi đối tượng được phát hiện, chỉ định vị trí của nó. Công nghệ này thu hẹp khoảng cách giữa cách máy móc nhận thức dữ liệu hình ảnh và cách con người hiểu môi trường xung quanh.
Về bản chất, phát hiện đối tượng kết hợp hai quy trình chính: phân loại và định vị. Phân loại xác định những đối tượng nào có mặt (ví dụ: ô tô, người, cây), trong khi định vị xác định vị trí của những đối tượng này trong hình ảnh, thường bằng cách vẽ một hộp giới hạn xung quanh chúng. Điều này thường đạt được bằng cách sử dụng các thuật toán phức tạp, thường dựa trên Mạng nơ-ron tích chập (CNN) , học cách nhận dạng các mẫu và đặc điểm đặc trưng cho các đối tượng khác nhau. Độ chính xác của các mô hình phát hiện đối tượng thường được đánh giá bằng các số liệu như Giao điểm trên hợp (IoU) và Độ chính xác trung bình trung bình (mAP) .
Các mô hình phát hiện đối tượng có thể được phân loại thành hai loại chính: máy dò một giai đoạn và máy dò hai giai đoạn. Máy dò hai giai đoạn, như R-CNN, ưu tiên độ chính xác bằng cách tạo đề xuất vùng trước rồi phân loại các vùng này. Ngược lại, máy dò một giai đoạn, như Ultralytics YOLO , cung cấp hiệu suất nhanh hơn bằng cách dự đoán trực tiếp các hộp giới hạn và xác suất lớp trong một lần chạy. Máy dò không neo là một phương pháp mới hơn giúp đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu về các hộp neo được xác định trước, có khả năng cải thiện khả năng khái quát hóa và giảm độ phức tạp.
Phát hiện đối tượng có nhiều ứng dụng thực tế trong nhiều ngành công nghiệp khác nhau:
Phát triển và triển khai các mô hình phát hiện đối tượng thường liên quan đến việc sử dụng các công cụ và khuôn khổ mạnh mẽ. Ultralytics YOLO là một lựa chọn phổ biến do tốc độ và độ chính xác của nó, cung cấp các mô hình như YOLOv8 và YOLOv11 . OpenCV là một thư viện được sử dụng rộng rãi khác cung cấp nhiều chức năng cho các tác vụ thị giác máy tính, bao gồm xử lý hình ảnh và phát hiện đối tượng. Các nền tảng như Ultralytics HUB đơn giản hóa quá trình đào tạo, triển khai và quản lý các mô hình Ultralytics YOLO .
Mặc dù có tiến bộ đáng kể, phát hiện vật thể vẫn phải đối mặt với những thách thức, chẳng hạn như phát hiện chính xác các vật thể nhỏ, xử lý các vật thể bị che khuất (vật thể ẩn một phần) và duy trì tính mạnh mẽ trong các điều kiện ánh sáng và hình dạng vật thể khác nhau. Nghiên cứu đang được tiến hành tập trung vào việc cải thiện hiệu quả, độ chính xác và khả năng khái quát hóa của mô hình. Những tiến bộ trong các lĩnh vực như Vision Transformers (ViT) và các kiến trúc hiệu quả hơn liên tục mở rộng ranh giới của những gì có thể trong phát hiện vật thể theo thời gian thực.