Thuật ngữ

Kiến trúc phát hiện đối tượng

Khám phá sức mạnh của kiến trúc phát hiện đối tượng, xương sống AI để hiểu hình ảnh. Tìm hiểu các loại, công cụ và ứng dụng thực tế ngay hôm nay!

Kiến trúc phát hiện đối tượng là những cấu trúc cơ bản hỗ trợ cách các hệ thống trí tuệ nhân tạo (AI) diễn giải thông tin trực quan. Các mạng nơ-ron chuyên biệt này được thiết kế không chỉ để phân loại các đối tượng trong một hình ảnh (xác định những gì hiện diện) mà còn để định vị chính xác chúng, thường bằng cách vẽ các hộp giới hạn xung quanh mỗi trường hợp được phát hiện. Đối với những người quen thuộc với các khái niệm học máy (ML) cơ bản, việc hiểu các kiến trúc này là rất quan trọng để tận dụng các khả năng của thị giác máy tính (CV) hiện đại. Chúng tạo thành xương sống của các hệ thống cho phép máy móc "nhìn" và hiểu thế giới theo cách tương tự như con người.

Thành phần cốt lõi

Hầu hết các kiến trúc phát hiện đối tượng bao gồm một số thành phần chính hoạt động cùng nhau. Một mạng xương sống , thường là Mạng nơ-ron tích chập (CNN) , thực hiện trích xuất tính năng ban đầu từ hình ảnh đầu vào, xác định các mẫu cấp thấp như cạnh và kết cấu, và các tính năng phức tạp hơn dần dần. Một thành phần "cổ" thường theo sau, tổng hợp các tính năng từ các giai đoạn khác nhau của xương sống để tạo ra các biểu diễn phong phú hơn phù hợp để phát hiện các đối tượng ở nhiều quy mô khác nhau, một khái niệm được trình bày chi tiết trong các tài nguyên như bài báo Mạng kim tự tháp tính năng . Cuối cùng, đầu phát hiện sử dụng các tính năng này để dự đoán lớp và vị trí (tọa độ hộp giới hạn) của các đối tượng. Hiệu suất thường được đo bằng các số liệu như Giao điểm trên hợp nhất (IoU) để đánh giá độ chính xác định vị và Độ chính xác trung bình trung bình (mAP) cho chất lượng phát hiện tổng thể, với các giải thích chi tiết có sẵn trên các trang web như trang đánh giá tập dữ liệu COCO .

Các loại kiến trúc

Kiến trúc phát hiện đối tượng được phân loại rộng rãi dựa trên cách tiếp cận của chúng:

Máy dò hai giai đoạn : Các mô hình này trước tiên đề xuất các vùng quan tâm (RoI) nơi các đối tượng có thể được định vị và sau đó phân loại và tinh chỉnh hộp giới hạn cho mỗi RoI. Ví dụ bao gồm họ R-CNN, chẳng hạn như Faster R-CNN . Chúng thường có độ chính xác cao nhưng có thể tốn nhiều tính toán.
Bộ dò một giai đoạn : Các mô hình này trực tiếp dự đoán các hộp giới hạn và xác suất lớp từ hình ảnh đầu vào trong một lần chạy, bỏ qua bước đề xuất vùng. Ví dụ bao gồm Bộ dò đa hộp một lần (SSD) và họ YOLO Ultralytics . Chúng thường cung cấp tốc độ suy luận thời gian thực nhanh hơn, khiến chúng phù hợp với các ứng dụng yêu cầu phản hồi nhanh. Các bộ dò một giai đoạn hiện đại như YOLO11 thường sử dụng các kỹ thuật không neo , đơn giản hóa thiết kế so với các phương pháp dựa trên neo cũ hơn. Bạn có thể khám phá các so sánh giữa các mô hình YOLO khác nhau để xem sự phát triển của chúng.

Phân biệt với các thuật ngữ tương tự

Điều quan trọng là phải phân biệt kiến trúc phát hiện đối tượng với các tác vụ thị giác máy tính liên quan:

Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "mèo", "chó"). Nó xác định những gì có trong hình ảnh trên toàn cục nhưng không xác định vị trí của các đối tượng cụ thể. Xem tài liệu về nhiệm vụ phân loại Ultralytics để biết ví dụ.
Phân đoạn ngữ nghĩa : Phân loại từng pixel trong hình ảnh thành một danh mục được xác định trước (ví dụ: tất cả các pixel thuộc về ô tô đều được gắn nhãn "ô tô"). Nó cung cấp khả năng dự đoán dày đặc nhưng không phân biệt giữa các trường hợp khác nhau của cùng một lớp đối tượng.
Phân đoạn thể hiện : Tiến xa hơn phân đoạn ngữ nghĩa bằng cách phân loại từng pixel và phân biệt giữa các thể hiện đối tượng riêng lẻ (ví dụ: dán nhãn "xe 1", "xe 2"). Nó kết hợp phát hiện đối tượng và phân đoạn ngữ nghĩa. Kiểm tra tài liệu về tác vụ phân đoạn Ultralytics để biết thêm chi tiết.

Ứng dụng trong thế giới thực

Kiến trúc phát hiện đối tượng hỗ trợ nhiều ứng dụng AI trong nhiều lĩnh vực khác nhau:

Xe tự hành : Cần thiết cho xe tự lái để nhận biết môi trường xung quanh bằng cách phát hiện người đi bộ, xe khác, biển báo giao thông và vạch kẻ đường. Các công ty như Waymo phụ thuộc rất nhiều vào khả năng phát hiện vật thể tinh vi. Đọc thêm về AI trong xe tự lái .
An ninh và giám sát: Được sử dụng trong các hệ thống an ninh để phát hiện truy cập trái phép, theo dõi đám đông để phát hiện hoạt động bất thường hoặc triển khai nhận dạng khuôn mặt . Xem Hướng dẫn về Hệ thống báo động an ninh Ultralytics để biết ví dụ thực tế.
Phân tích hình ảnh y tế : Hỗ trợ các bác sĩ X quang phát hiện các bất thường như khối u hoặc gãy xương trong X-quang, CT và MRI. Khám phá AI trong các giải pháp chăm sóc sức khỏe và các ứng dụng cụ thể như phát hiện khối u bằng YOLO11 .
Phân tích bán lẻ: Cho phép các ứng dụng như thanh toán tự động, theo dõi kệ hàng và AI để quản lý hàng tồn kho .

Công cụ và công nghệ

Việc phát triển và triển khai các mô hình dựa trên các kiến trúc này thường liên quan đến các công cụ và khuôn khổ chuyên dụng:

Khung học sâu: Các thư viện như PyTorch (truy cập trang web chính thức PyTorch ) và TensorFlow (xem trang web TensorFlow ) cung cấp các khối xây dựng cốt lõi.
Thư viện thị giác máy tính: OpenCV (trang web chính thức: OpenCV.org ) cung cấp nhiều chức năng để xử lý và chỉnh sửa hình ảnh.
Mô hình và Nền tảng: Ultralytics cung cấp các mô hình Ultralytics YOLO tiên tiến và nền tảng Ultralytics HUB , giúp đơn giản hóa quá trình đào tạo các mô hình tùy chỉnh , quản lý tập dữ liệu ( như COCO ) và triển khai các giải pháp.
Nguồn mở: Nhiều kiến trúc và công cụ phát hiện đối tượng được phát triển theo giấy phép nguồn mở , thúc đẩy sự hợp tác và đổi mới trong cộng đồng AI. Các nguồn như GitHub lưu trữ nhiều dự án trong lĩnh vực này.

Kiến trúc phát hiện đối tượng

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Thành phần cốt lõi

Các loại kiến trúc

Phân biệt với các thuật ngữ tương tự

Ứng dụng trong thế giới thực

Công cụ và công nghệ

Đọc thêm blog

Tham gia Ultralytics cộng đồng