Thuật ngữ

Phát hiện đối tượng

Khám phá sức mạnh của phát hiện đối tượng—xác định và định vị các đối tượng trong hình ảnh hoặc video bằng các mô hình tiên tiến như YOLO . Khám phá các ứng dụng thực tế!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phát hiện đối tượng là một nhiệm vụ cơ bản trong thị giác máy tính (CV) liên quan đến việc xác định sự hiện diện, vị trí và loại của một hoặc nhiều đối tượng trong một hình ảnh hoặc video. Không giống như phân loại hình ảnh, chỉ định một nhãn duy nhất cho toàn bộ hình ảnh, phát hiện đối tượng phác thảo chính xác từng trường hợp đối tượng bằng cách sử dụng hộp giới hạn và chỉ định nhãn lớp cho trường hợp đó. Khả năng này cho phép máy hiểu các cảnh trực quan với độ chi tiết cao hơn, phản ánh gần hơn nhận thức thị giác của con người.

Cách thức hoạt động của phát hiện đối tượng

Phát hiện đối tượng thường kết hợp hai nhiệm vụ cốt lõi: phân loại đối tượng (xác định 'đối tượng' nào đang có mặt) và định vị đối tượng (xác định 'vị trí' của đối tượng). Các hệ thống phát hiện đối tượng hiện đại phụ thuộc rất nhiều vào học sâu (DL) , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng này được đào tạo trên các tập dữ liệu lớn, chẳng hạn như tập dữ liệu COCO phổ biến, để tìm hiểu các tính năng và mẫu liên quan đến các lớp đối tượng khác nhau. Mô hình xử lý một hình ảnh đầu vào và đưa ra danh sách các hộp giới hạn, mỗi hộp có một nhãn lớp liên quan (ví dụ: 'ô tô', 'người') và điểm tin cậy. Hiệu suất của các mô hình này thường được đo bằng các số liệu như Giao điểm trên hợp (IoU)Độ chính xác trung bình trung bình (mAP) .

Phát hiện đối tượng so với các nhiệm vụ liên quan

Điều quan trọng là phải phân biệt phát hiện đối tượng với các tác vụ thị giác máy tính liên quan khác:

  • Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "Hình ảnh này có hình một con mèo"). Nó không cung cấp thông tin vị trí cho đối tượng.
  • Phân đoạn hình ảnh : Phân loại từng pixel trong một hình ảnh. Phân đoạn ngữ nghĩa gán nhãn lớp cho từng pixel (ví dụ: tất cả các pixel thuộc về ô tô đều được gắn nhãn 'ô tô'), trong khi Phân đoạn thể hiện phân biệt giữa các thể hiện khác nhau của cùng một lớp (ví dụ: gắn nhãn 'ô tô 1', 'ô tô 2'). Phân đoạn cung cấp thông tin không gian chi tiết hơn so với các hộp giới hạn của phát hiện đối tượng.

Các loại mô hình phát hiện đối tượng

Các mô hình phát hiện đối tượng thường được chia thành hai loại:

  • Máy dò hai giai đoạn: Các mô hình này trước tiên đề xuất các vùng quan tâm (RoI) nơi các đối tượng có thể được định vị và sau đó phân loại các đối tượng trong các vùng này. Ví dụ bao gồm họ R-CNN ( CNN theo vùng ). Chúng thường đạt được độ chính xác cao nhưng có thể chậm hơn.
  • Bộ dò một giai đoạn: Các mô hình này thực hiện định vị và phân loại trong một lần chạy trực tiếp trên lưới hình ảnh. Ví dụ bao gồm các mô hình YOLO Ultralytics như YOLOv8YOLOv11 . Chúng thường nhanh hơn, khiến chúng phù hợp với suy luận thời gian thực . Các phương pháp mới hơn như bộ dò không neo đơn giản hóa quá trình phát hiện hơn nữa. Bạn có thể khám phá các so sánh giữa các mô hình YOLO khác nhau để hiểu được sự đánh đổi của chúng.

Ứng dụng trong thế giới thực

Phát hiện đối tượng rất quan trọng đối với nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau:

  • Hệ thống tự động: Cho phép xe AI trong xe tự lái phát hiện người đi bộ, xe khác, biển báo giao thông và chướng ngại vật để điều hướng an toàn. Công nghệ của Waymo phụ thuộc rất nhiều vào khả năng phát hiện vật thể tinh vi.
  • Giám sát và An ninh: Giám sát các khu vực để phát hiện xâm nhập trái phép, phát hiện các hoạt động đáng ngờ hoặc triển khai hệ thống báo động an ninh tự động.
  • Phân tích bán lẻ: Theo dõi sản phẩm trên kệ để quản lý hàng tồn kho bằng AI , phân tích lượng khách hàng và cải thiện quy trình thanh toán.
  • Chăm sóc sức khỏe: Hỗ trợ phân tích hình ảnh y tế bằng cách xác định khối u, tổn thương hoặc các bất thường khác trong các lần quét như chụp X-quang hoặc chụp MRI. Nghiên cứu được công bố trên các tạp chí như Radiology: Artificial Intelligence thường có các ứng dụng như vậy.
  • Nông nghiệp: Theo dõi sức khỏe cây trồng, phát hiện sâu bệnh và tự động hóa quy trình thu hoạch bằng giải pháp AI trong nông nghiệp .

Công cụ và đào tạo

Phát triển các mô hình phát hiện đối tượng liên quan đến việc sử dụng các công cụ và nền tảng chuyên dụng. Các khuôn khổ như PyTorchTensorFlow cung cấp các khối xây dựng. Các thư viện như OpenCV cung cấp các chức năng thị giác máy tính thiết yếu. Ultralytics cung cấp các mô hình Ultralytics YOLO hiện đại và nền tảng Ultralytics HUB , đơn giản hóa quy trình đào tạo các mô hình tùy chỉnh , quản lý tập dữ liệu và triển khai các giải pháp hiệu quả. Đào tạo mô hình hiệu quả thường đòi hỏi phải điều chỉnh siêu tham số cẩn thận và các chiến lược tăng cường dữ liệu.

Đọc tất cả