Thuật ngữ

Kiến trúc phát hiện đối tượng

Khám phá sức mạnh của kiến trúc phát hiện đối tượng, xương sống AI để hiểu hình ảnh. Tìm hiểu các loại, công cụ và ứng dụng thực tế ngay hôm nay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Kiến trúc phát hiện đối tượng là những cấu trúc cơ bản hỗ trợ cách các hệ thống trí tuệ nhân tạo (AI) diễn giải thông tin trực quan. Các mạng nơ-ron chuyên biệt này được thiết kế không chỉ để phân loại các đối tượng trong một hình ảnh (xác định những gì hiện diện) mà còn để định vị chính xác chúng, thường bằng cách vẽ các hộp giới hạn xung quanh mỗi trường hợp được phát hiện. Đối với những người quen thuộc với các khái niệm học máy (ML) cơ bản, việc hiểu các kiến trúc này là rất quan trọng để tận dụng các khả năng của thị giác máy tính (CV) hiện đại. Chúng tạo thành xương sống của các hệ thống cho phép máy móc "nhìn" và hiểu thế giới theo cách tương tự như con người.

Thành phần cốt lõi

Hầu hết các kiến trúc phát hiện đối tượng bao gồm một số thành phần chính hoạt động cùng nhau. Một mạng xương sống , thường là Mạng nơ-ron tích chập (CNN) , thực hiện trích xuất tính năng ban đầu từ hình ảnh đầu vào, xác định các mẫu cấp thấp như cạnh và kết cấu, và các tính năng phức tạp hơn dần dần. Một thành phần "cổ" thường theo sau, tổng hợp các tính năng từ các giai đoạn khác nhau của xương sống để tạo ra các biểu diễn phong phú hơn phù hợp để phát hiện các đối tượng ở nhiều quy mô khác nhau, một khái niệm được trình bày chi tiết trong các tài nguyên như bài báo Mạng kim tự tháp tính năng . Cuối cùng, đầu phát hiện sử dụng các tính năng này để dự đoán lớp và vị trí (tọa độ hộp giới hạn) của các đối tượng. Hiệu suất thường được đo bằng các số liệu như Giao điểm trên hợp nhất (IoU) để đánh giá độ chính xác định vị và Độ chính xác trung bình trung bình (mAP) cho chất lượng phát hiện tổng thể, với các giải thích chi tiết có sẵn trên các trang web như trang đánh giá tập dữ liệu COCO .

Các loại kiến trúc

Kiến trúc phát hiện đối tượng được phân loại rộng rãi dựa trên cách tiếp cận của chúng:

Phân biệt với các thuật ngữ tương tự

Điều quan trọng là phải phân biệt kiến trúc phát hiện đối tượng với các tác vụ thị giác máy tính liên quan:

  • Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "mèo", "chó"). Nó xác định những gì có trong hình ảnh trên toàn cục nhưng không xác định vị trí của các đối tượng cụ thể. Xem tài liệu về nhiệm vụ phân loại Ultralytics để biết ví dụ.
  • Phân đoạn ngữ nghĩa : Phân loại từng pixel trong hình ảnh thành một danh mục được xác định trước (ví dụ: tất cả các pixel thuộc về ô tô đều được gắn nhãn "ô tô"). Nó cung cấp khả năng dự đoán dày đặc nhưng không phân biệt giữa các trường hợp khác nhau của cùng một lớp đối tượng.
  • Phân đoạn thể hiện : Tiến xa hơn phân đoạn ngữ nghĩa bằng cách phân loại từng pixel phân biệt giữa các thể hiện đối tượng riêng lẻ (ví dụ: dán nhãn "xe 1", "xe 2"). Nó kết hợp phát hiện đối tượng và phân đoạn ngữ nghĩa. Kiểm tra tài liệu về tác vụ phân đoạn Ultralytics để biết thêm chi tiết.

Ứng dụng trong thế giới thực

Kiến trúc phát hiện đối tượng hỗ trợ nhiều ứng dụng AI trong nhiều lĩnh vực khác nhau:

Công cụ và công nghệ

Việc phát triển và triển khai các mô hình dựa trên các kiến trúc này thường liên quan đến các công cụ và khuôn khổ chuyên dụng:

Đọc tất cả