Khám phá sức mạnh của phát hiện đối tượng—xác định và định vị các đối tượng trong hình ảnh hoặc video bằng các mô hình tiên tiến như YOLO . Khám phá các ứng dụng thực tế!
Phát hiện đối tượng là một nhiệm vụ cơ bản trong thị giác máy tính (CV) liên quan đến việc xác định sự hiện diện, vị trí và loại của một hoặc nhiều đối tượng trong một hình ảnh hoặc video. Không giống như phân loại hình ảnh , chỉ định một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: 'mèo'), phát hiện đối tượng phác thảo chính xác từng trường hợp đối tượng bằng cách sử dụng hộp giới hạn và chỉ định nhãn lớp cho nó (ví dụ: 'mèo' tại tọa độ x, y, chiều rộng, chiều cao). Khả năng này cho phép máy móc hiểu các cảnh trực quan với độ chi tiết cao hơn, mô phỏng nhận thức thị giác của con người chặt chẽ hơn và cho phép tương tác phức tạp hơn với môi trường. Đây là công nghệ cốt lõi đằng sau nhiều ứng dụng trí tuệ nhân tạo (AI) hiện đại.
Phát hiện đối tượng thường kết hợp hai nhiệm vụ cốt lõi: phân loại đối tượng (xác định đối tượng 'là gì') và định vị đối tượng (xác định đối tượng 'ở đâu', thường thông qua tọa độ hộp giới hạn). Các hệ thống phát hiện đối tượng hiện đại phụ thuộc rất nhiều vào học sâu (DL) , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng này được đào tạo trên các tập dữ liệu lớn, có chú thích, chẳng hạn như tập dữ liệu COCO phổ biến hoặc Open Images V7 , để tìm hiểu các tính năng và mẫu trực quan liên quan đến các lớp đối tượng khác nhau.
Trong quá trình vận hành (được gọi là suy luận ), mô hình được đào tạo sẽ xử lý một hình ảnh hoặc khung video đầu vào. Nó đưa ra danh sách các đối tượng tiềm năng, mỗi đối tượng được biểu diễn bằng một hộp giới hạn, một nhãn lớp được dự đoán (ví dụ: 'xe hơi', 'người', 'chó') và một điểm tin cậy cho biết mức độ chắc chắn của mô hình về khả năng phát hiện. Các kỹ thuật như Non-Maximum Suppression (NMS) thường được sử dụng để tinh chỉnh các đầu ra này bằng cách loại bỏ các hộp trùng lặp, dư thừa cho cùng một đối tượng. Hiệu suất của các mô hình này thường được đánh giá bằng các số liệu như Giao điểm trên hợp nhất (IoU) và Độ chính xác trung bình trung bình (mAP) .
Điều quan trọng là phải phân biệt phát hiện đối tượng với các tác vụ thị giác máy tính liên quan khác:
Các mô hình phát hiện đối tượng thường được chia thành hai loại chính, chủ yếu khác nhau về cách tiếp cận và sự đánh đổi giữa tốc độ/độ chính xác:
Phát hiện đối tượng là công nghệ nền tảng cho phép ứng dụng nhiều ngành công nghiệp khác nhau:
Phát triển và triển khai các mô hình phát hiện đối tượng liên quan đến nhiều công cụ và kỹ thuật khác nhau. Các khuôn khổ học sâu phổ biến như PyTorch và TensorFlow cung cấp các thư viện nền tảng. Các thư viện thị giác máy tính như OpenCV cung cấp các chức năng xử lý hình ảnh thiết yếu.
Ultralytics cung cấp các mô hình YOLO Ultralytics tiên tiến, bao gồm YOLOv8 và YOLO11 , được tối ưu hóa về tốc độ và độ chính xác. Nền tảng Ultralytics HUB đơn giản hóa quy trình làm việc hơn nữa, cung cấp các công cụ để quản lý tập dữ liệu , đào tạo các mô hình tùy chỉnh , thực hiện điều chỉnh siêu tham số và tạo điều kiện triển khai mô hình . Đào tạo mô hình hiệu quả thường được hưởng lợi từ các chiến lược và kỹ thuật tăng cường dữ liệu như học chuyển giao bằng cách sử dụng trọng số được đào tạo trước từ các tập dữ liệu như ImageNet .