Kiến trúc phát hiện đối tượng là những cấu trúc cơ bản hỗ trợ cách các hệ thống trí tuệ nhân tạo (AI) diễn giải thông tin trực quan. Các mạng nơ-ron chuyên dụng này được thiết kế không chỉ để phân loại các đối tượng trong một hình ảnh (xác định những gì hiện diện) mà còn để định vị chính xác chúng, thường bằng cách vẽ các hộp giới hạn xung quanh mỗi trường hợp được phát hiện. Đối với những người quen thuộc với các khái niệm học máy cơ bản, việc hiểu các kiến trúc này là rất quan trọng để tận dụng các khả năng của thị giác máy tính hiện đại.
Thành phần cốt lõi
Hầu hết các kiến trúc phát hiện đối tượng bao gồm một số thành phần chính hoạt động cùng nhau. Một mạng xương sống , thường là Mạng nơ-ron tích chập (CNN) , thực hiện trích xuất tính năng ban đầu từ hình ảnh đầu vào, xác định các mẫu cấp thấp như cạnh và kết cấu, và các tính năng phức tạp hơn dần dần. Một thành phần "cổ" thường theo sau, tổng hợp các tính năng từ các giai đoạn khác nhau của xương sống để tạo ra các biểu diễn phong phú hơn phù hợp để phát hiện các đối tượng ở nhiều tỷ lệ khác nhau. Cuối cùng, đầu phát hiện sử dụng các tính năng này để dự đoán lớp và vị trí (tọa độ hộp giới hạn) của các đối tượng. Hiệu suất thường được đo bằng các số liệu như Giao điểm trên Hợp nhất (IoU) để đánh giá độ chính xác định vị.
Các loại kiến trúc
Kiến trúc phát hiện đối tượng được phân loại rộng rãi dựa trên cách tiếp cận của chúng:
- Bộ dò hai giai đoạn : Các kiến trúc này, chẳng hạn như R-CNN và các kiến trúc kế thừa như Faster R-CNN , trước tiên xác định các vùng quan tâm tiềm năng (đề xuất vùng) trong hình ảnh và sau đó phân loại và tinh chỉnh các hộp giới hạn cho các đối tượng trong các vùng này. Chúng thường được biết đến với độ chính xác cao nhưng có thể chậm hơn.
- Bộ dò một giai đoạn : Các kiến trúc như SSD ( Bộ dò MultiBox một lần ) và Ultralytics YOLO (Bạn chỉ nhìn một lần) thực hiện định vị và phân loại đối tượng đồng thời trong một lần chuyển tiếp qua mạng. Điều này làm cho chúng nhanh hơn đáng kể và phù hợp với suy luận thời gian thực . Hiện đại YOLO các mô hình như YOLO11 thường sử dụng các kỹ thuật không có mỏ neo , đơn giản hóa thiết kế và có khả năng cải thiện khả năng khái quát hóa so với các phương pháp dựa trên mỏ neo cũ.
Phân biệt với các thuật ngữ tương tự
Điều quan trọng là phải phân biệt kiến trúc phát hiện đối tượng với các tác vụ thị giác máy tính liên quan:
- Phân loại hình ảnh : Xác định chủ thể chính của hình ảnh (ví dụ: "mèo") nhưng không xác định vị trí của nó. Phát hiện đối tượng cho bạn biết những đối tượng nào có mặt và chúng ở đâu .
- Phân đoạn ngữ nghĩa : Phân loại mọi pixel trong hình ảnh thành các danh mục được xác định trước (ví dụ: đường, ô tô, bầu trời), cung cấp khả năng hiểu sâu sắc ở cấp độ pixel mà không phân biệt giữa các trường hợp đối tượng riêng lẻ.
- Phân đoạn trường hợp : Tiến xa hơn một bước so với cả phát hiện đối tượng và phân đoạn ngữ nghĩa bằng cách xác định các trường hợp đối tượng riêng lẻ và cung cấp mặt nạ cấp pixel cho từng trường hợp.
Ứng dụng trong thế giới thực
Kiến trúc phát hiện đối tượng hỗ trợ nhiều ứng dụng AI trong nhiều lĩnh vực khác nhau:
- Xe tự hành : Rất quan trọng để cho phép xe tự lái nhận biết môi trường xung quanh bằng cách phát hiện các phương tiện khác, người đi bộ, người đi xe đạp và tín hiệu giao thông để điều hướng an toàn ( xem blog AI trong xe tự lái ).
- Phân tích hình ảnh y tế : Hỗ trợ các bác sĩ X quang bằng cách tự động phát hiện và xác định vị trí các bất thường như khối u, tổn thương hoặc gãy xương trên phim X-quang, CT và MRI, có khả năng đưa đến chẩn đoán sớm hơn ( khám phá AI trong chăm sóc sức khỏe ).
- An ninh và Giám sát: Tự động hóa việc giám sát bằng cách phát hiện xâm nhập, xác định cá nhân cụ thể ( nhận dạng khuôn mặt ) hoặc theo dõi các đối tượng trong nguồn cấp dữ liệu video ( xem Hướng dẫn về Hệ thống Báo động An ninh ).
- Phân tích bán lẻ: Theo dõi hàng tồn kho trên kệ ( AI để quản lý hàng tồn kho ), phân tích lượng khách hàng ra vào cửa hàng và cải thiện hệ thống thanh toán.
Công cụ và công nghệ
Việc phát triển và triển khai các mô hình dựa trên các kiến trúc này thường liên quan đến các công cụ và khuôn khổ chuyên dụng:
- Ultralytics YOLO : Một họ mô hình phổ biến và một khuôn khổ đi kèm được biết đến với khả năng cân bằng tốc độ và độ chính xác, được sử dụng rộng rãi cho các ứng dụng thời gian thực. Bạn có thể so sánh các YOLO các phiên bản như YOLO11 so với YOLOv10 .
- Ultralytics HUB : Một nền tảng đơn giản hóa quá trình đào tạo, quản lý và triển khai YOLO các mô hình không cần mã hóa mở rộng.
- Khung học sâu: Các thư viện như PyTorch và TensorFlow cung cấp các khối xây dựng để tạo và đào tạo các mạng nơ-ron phức tạp này.
- OpenCV : Một thư viện mã nguồn mở thiết yếu cung cấp nhiều chức năng thị giác máy tính thường được sử dụng cùng với các mô hình phát hiện cho các tác vụ tiền xử lý và hậu xử lý.