Thuật ngữ

Phát hiện đối tượng

Khám phá sức mạnh của phát hiện đối tượng—xác định và định vị các đối tượng trong hình ảnh hoặc video bằng các mô hình tiên tiến như YOLO . Khám phá các ứng dụng thực tế!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phát hiện đối tượng là một nhiệm vụ cơ bản trong thị giác máy tính (CV) liên quan đến việc xác định sự hiện diện, vị trí và loại của một hoặc nhiều đối tượng trong một hình ảnh hoặc video. Không giống như phân loại hình ảnh , chỉ định một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: 'mèo'), phát hiện đối tượng phác thảo chính xác từng trường hợp đối tượng bằng cách sử dụng hộp giới hạn và chỉ định nhãn lớp cho nó (ví dụ: 'mèo' tại tọa độ x, y, chiều rộng, chiều cao). Khả năng này cho phép máy móc hiểu các cảnh trực quan với độ chi tiết cao hơn, mô phỏng nhận thức thị giác của con người chặt chẽ hơn và cho phép tương tác phức tạp hơn với môi trường. Đây là công nghệ cốt lõi đằng sau nhiều ứng dụng trí tuệ nhân tạo (AI) hiện đại.

Cách thức hoạt động của phát hiện đối tượng

Phát hiện đối tượng thường kết hợp hai nhiệm vụ cốt lõi: phân loại đối tượng (xác định đối tượng 'là gì') và định vị đối tượng (xác định đối tượng 'ở đâu', thường thông qua tọa độ hộp giới hạn). Các hệ thống phát hiện đối tượng hiện đại phụ thuộc rất nhiều vào học sâu (DL) , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng này được đào tạo trên các tập dữ liệu lớn, có chú thích, chẳng hạn như tập dữ liệu COCO phổ biến hoặc Open Images V7 , để tìm hiểu các tính năng và mẫu trực quan liên quan đến các lớp đối tượng khác nhau.

Trong quá trình vận hành (được gọi là suy luận ), mô hình được đào tạo sẽ xử lý một hình ảnh hoặc khung video đầu vào. Nó đưa ra danh sách các đối tượng tiềm năng, mỗi đối tượng được biểu diễn bằng một hộp giới hạn, một nhãn lớp được dự đoán (ví dụ: 'xe hơi', 'người', 'chó') và một điểm tin cậy cho biết mức độ chắc chắn của mô hình về khả năng phát hiện. Các kỹ thuật như Non-Maximum Suppression (NMS) thường được sử dụng để tinh chỉnh các đầu ra này bằng cách loại bỏ các hộp trùng lặp, dư thừa cho cùng một đối tượng. Hiệu suất của các mô hình này thường được đánh giá bằng các số liệu như Giao điểm trên hợp nhất (IoU)Độ chính xác trung bình trung bình (mAP) .

Phát hiện đối tượng so với các nhiệm vụ liên quan

Điều quan trọng là phải phân biệt phát hiện đối tượng với các tác vụ thị giác máy tính liên quan khác:

  • Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "Hình ảnh này có hình một con chó"). Không xác định vị trí của đối tượng.
  • Phân đoạn hình ảnh: Phân loại từng pixel trong hình ảnh, tạo ra bản đồ chi tiết về ranh giới đối tượng. Điều này chi tiết hơn các hộp giới hạn phát hiện đối tượng.
    • Phân đoạn ngữ nghĩa : Gán nhãn lớp cho mỗi pixel (ví dụ: tất cả các pixel thuộc về 'ô tô' đều được gắn nhãn 'ô tô'). Phân đoạn ngữ nghĩa không phân biệt giữa các trường hợp khác nhau của cùng một lớp.
    • Phân đoạn trường hợp : Gán nhãn lớp cho mỗi pixel phân biệt giữa các trường hợp riêng lẻ của cùng một lớp (ví dụ: 'xe 1', 'xe 2'). Kết hợp phát hiện và phân đoạn.
  • Theo dõi đối tượng : Bao gồm việc phát hiện các đối tượng trong các khung video liên tiếp và gán một ID duy nhất cho mỗi đối tượng để theo dõi chuyển động của nó theo thời gian. Điều này dựa trên việc phát hiện đối tượng.

Các loại mô hình phát hiện đối tượng

Các mô hình phát hiện đối tượng thường được chia thành hai loại chính, chủ yếu khác nhau về cách tiếp cận và sự đánh đổi giữa tốc độ/độ chính xác:

  • Máy dò đối tượng hai giai đoạn : Các mô hình này trước tiên đề xuất các vùng quan tâm (RoI) nơi có thể định vị các đối tượng và sau đó phân loại các đối tượng trong các vùng đó. Ví dụ bao gồm họ R-CNN (Fast R-CNN, Faster R-CNN). Chúng thường đạt độ chính xác cao nhưng có xu hướng chậm hơn.
  • Bộ dò đối tượng một giai đoạn : Các mô hình này trực tiếp dự đoán các hộp giới hạn và xác suất lớp từ hình ảnh đầu vào trong một lần chạy, mà không cần bước đề xuất vùng riêng biệt. Ví dụ bao gồm chuỗi Ultralytics YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector) và RetinaNet. Chúng thường nhanh hơn, khiến chúng phù hợp với suy luận thời gian thực , đôi khi phải trả giá bằng độ chính xác thấp hơn một chút so với các phương pháp hai giai đoạn, mặc dù các mô hình như YOLO11 thu hẹp khoảng cách này một cách hiệu quả. Các phương pháp tiếp cận mới hơn như bộ dò không neo đơn giản hóa hơn nữa quy trình một giai đoạn. Bạn có thể khám phá các so sánh giữa các mô hình YOLO khác nhau và các kiến trúc khác như RT-DETR .

Ứng dụng trong thế giới thực

Phát hiện đối tượng là công nghệ nền tảng cho phép ứng dụng nhiều ngành công nghiệp khác nhau:

  1. Hệ thống tự động: Thiết yếu cho xe tự láirô-bốt , cho phép xe cộ và rô-bốt nhận biết môi trường xung quanh bằng cách phát hiện người đi bộ, xe cộ khác, chướng ngại vật, biển báo giao thông và các vật dụng cụ thể để tương tác. Các công ty như TeslaWaymo rất tin tưởng vào khả năng phát hiện vật thể mạnh mẽ.
  2. An ninh và Giám sát: Được sử dụng trong hệ thống báo động an ninh để phát hiện kẻ xâm nhập, theo dõi đám đông ( Vision AI trong Quản lý đám đông ), xác định đồ vật bị bỏ rơi và nâng cao hiệu quả giám sát ở không gian công cộng và tài sản tư nhân.
  3. Phân tích bán lẻ: Cung cấp các ứng dụng như hệ thống thanh toán tự động, quản lý hàng tồn kho dựa trên AI , giám sát kệ hàng (phát hiện các mặt hàng hết hàng) và phân tích thói quen ra vào của khách hàng.
  4. Chăm sóc sức khỏe: Được ứng dụng trong phân tích hình ảnh y tế để phát hiện các bất thường như khối u ( Sử dụng YOLO11 để phát hiện khối u ) hoặc các tổn thương trên phim X-quang, CT và MRI, hỗ trợ các bác sĩ X-quang chẩn đoán ( X-quang: Trí tuệ nhân tạo ).
  5. Nông nghiệp: Cho phép áp dụng các kỹ thuật canh tác chính xác, chẳng hạn như phát hiện sâu bệnh, cỏ dại, đếm trái cây ( Tầm nhìn máy tính trong nông nghiệp ) và theo dõi sức khỏe cây trồng ( AI trong các giải pháp nông nghiệp ).
  6. Sản xuất: Được sử dụng để kiểm soát chất lượng bằng cách phát hiện lỗi trong sản phẩm trên dây chuyền lắp ráp ( Kiểm tra chất lượng trong sản xuất ), đảm bảo an toàn bằng cách giám sát các khu vực nguy hiểm và tự động hóa các nhiệm vụ của rô-bốt.

Công cụ và đào tạo

Phát triển và triển khai các mô hình phát hiện đối tượng liên quan đến nhiều công cụ và kỹ thuật khác nhau. Các khuôn khổ học sâu phổ biến như PyTorchTensorFlow cung cấp các thư viện nền tảng. Các thư viện thị giác máy tính như OpenCV cung cấp các chức năng xử lý hình ảnh thiết yếu.

Ultralytics cung cấp các mô hình YOLO Ultralytics tiên tiến, bao gồm YOLOv8YOLO11 , được tối ưu hóa về tốc độ và độ chính xác. Nền tảng Ultralytics HUB đơn giản hóa quy trình làm việc hơn nữa, cung cấp các công cụ để quản lý tập dữ liệu , đào tạo các mô hình tùy chỉnh , thực hiện điều chỉnh siêu tham số và tạo điều kiện triển khai mô hình . Đào tạo mô hình hiệu quả thường được hưởng lợi từ các chiến lược và kỹ thuật tăng cường dữ liệu như học chuyển giao bằng cách sử dụng trọng số được đào tạo trước từ các tập dữ liệu như ImageNet .

Đọc tất cả