Trong kiến trúc của các mô hình phát hiện đối tượng , đầu phát hiện là một thành phần quan trọng thường nằm ở cuối đường ống mạng. Theo sau xương sống (trích xuất các đặc điểm ban đầu) và cổ (tổng hợp và tinh chỉnh các đặc điểm này), đầu phát hiện lấy thông tin hình ảnh đã xử lý, được gọi là bản đồ đặc điểm và chuyển chúng thành các dự đoán cuối cùng. Về cơ bản, nó đóng vai trò là đơn vị ra quyết định của mô hình học sâu , xác định các đối tượng hiện diện, vị trí của chúng thông qua các hộp giới hạn và chỉ định điểm tin cậy cho mỗi lần phát hiện.
Chức năng và hoạt động
Đầu phát hiện xử lý các đặc điểm trừu tượng, phong phú được tạo ra bởi các lớp trước đó của mạng nơ-ron . Các đặc điểm này mã hóa các mẫu, kết cấu và hình dạng phức tạp có liên quan đến các đối tượng tiềm năng trong hình ảnh đầu vào. Đầu thường sử dụng tập hợp các lớp riêng của nó, thường bao gồm các lớp tích chập , để thực hiện hai nhiệm vụ chính:
- Phân loại: Dự đoán nhãn lớp cho mỗi đối tượng được phát hiện (ví dụ: 'người', 'ô tô', 'chó'). Điều này thường đạt được bằng cách sử dụng các kỹ thuật kết thúc bằng Softmax hoặc hàm kích hoạt tương tự để đưa ra xác suất cho mỗi lớp.
- Định vị (Hồi quy): Dự đoán tọa độ chính xác của hộp giới hạn bao quanh mỗi đối tượng được phát hiện. Điều này được coi là một vấn đề hồi quy .
Các mô hình tiên tiến như Ultralytics YOLO kết hợp các đầu phát hiện hiệu quả cao được thiết kế để thực hiện các tác vụ này một cách nhanh chóng, cho phép suy luận thời gian thực rất quan trọng đối với nhiều ứng dụng. Các dự đoán thường được xử lý hậu kỳ bằng các kỹ thuật như Non-Maximum Suppression (NMS) để loại bỏ các phát hiện trùng lặp.
Các thành phần chính và các biến thể
Thiết kế đầu phát hiện thay đổi đáng kể tùy thuộc vào kiến trúc phát hiện đối tượng cụ thể. Các biến thể chính bao gồm:
- Dựa trên neo so với không có neo:
- Các máy dò dựa trên mỏ neo , phổ biến trong các mô hình như Faster R-CNN và các mô hình trước đó YOLO phiên bản, dựa vào một tập hợp các hộp neo được xác định trước có nhiều kích thước và tỷ lệ khung hình khác nhau tại các vị trí khác nhau trên bản đồ đặc điểm. Đầu dự đoán các độ lệch để tinh chỉnh các neo này và phân loại đối tượng trong đó.
- Các máy dò không neo , được sử dụng trong các mô hình như YOLO11 và FCOS, dự đoán trực tiếp các thuộc tính của đối tượng như điểm trung tâm và kích thước mà không cần neo được xác định trước. Cách tiếp cận này có thể đơn giản hóa thiết kế và có khả năng cải thiện khả năng khái quát hóa, như được nêu bật trong các lợi ích của phát hiện không neo .
- Đầu ghép so với đầu tách rời: Một số thiết kế sử dụng một tập hợp lớp duy nhất (đầu ghép) cho cả phân loại và hồi quy, trong khi những thiết kế khác sử dụng các nhánh riêng biệt (đầu tách rời) cho mỗi nhiệm vụ, đôi khi có thể cải thiện độ chính xác . Ultralytics Các mô-đun đầu có thể được khám phá thêm trong tài liệu API .
So sánh với các thành phần và nhiệm vụ khác
Để hiểu được đầu phát hiện, cần phải phân biệt nó với các bộ phận khác của mô hình thị giác máy tính (CV) và các nhiệm vụ liên quan:
- Xương sống: Mạng xương sống (ví dụ: ResNet, VGG) chịu trách nhiệm trích xuất các tính năng ban đầu từ hình ảnh đầu vào, tìm hiểu các tính năng phân cấp từ các cạnh cấp thấp đến các phần đối tượng cấp cao.
- Cổ: Nằm giữa xương sống và đầu, cổ thường tổng hợp các đặc điểm từ nhiều thang đo của xương sống (sử dụng các kỹ thuật như Mạng kim tự tháp đặc điểm ) để cung cấp bối cảnh phong phú hơn cho việc phát hiện các vật thể có nhiều kích cỡ khác nhau.
- Phân loại hình ảnh: Không giống như phát hiện đối tượng, phân loại hình ảnh gán một nhãn duy nhất cho toàn bộ hình ảnh mà không định vị.
- Nhiệm vụ phân đoạn: Phân đoạn ngữ nghĩa phân loại từng pixel trong hình ảnh, trong khi Phân đoạn thể hiện tiến xa hơn bằng cách phân biệt các thể hiện khác nhau của cùng một lớp đối tượng ở cấp độ pixel. Phát hiện đối tượng cung cấp các hộp giới hạn, không phải mặt nạ pixel.
Ứng dụng trong thế giới thực
Hiệu quả của đầu phát hiện ảnh hưởng trực tiếp đến hiệu suất của nhiều ứng dụng AI được xây dựng dựa trên khả năng phát hiện đối tượng:
- Lái xe tự động: Đầu phát hiện rất quan trọng trong AI dành cho xe tự lái để xác định và định vị người đi bộ, phương tiện khác, biển báo giao thông và chướng ngại vật theo thời gian thực, cho phép điều hướng an toàn. Các công ty như Waymo rất tin tưởng vào công nghệ này .
- An ninh và giám sát: Trong hệ thống an ninh , đầu phát hiện cho phép giám sát tự động bằng cách xác định những người không được phép, đồ vật bị bỏ rơi hoặc các sự kiện cụ thể trong nguồn cấp dữ liệu video. Điều này tạo thành cơ sở cho các ứng dụng như hướng dẫn Hệ thống báo động an ninh Ultralytics .
- Phân tích bán lẻ: Được sử dụng để quản lý hàng tồn kho , theo dõi kệ hàng và phân tích hành vi khách hàng.
- Chụp ảnh y tế: Hỗ trợ các bác sĩ X-quang bằng cách phát hiện các bất thường như khối u hoặc gãy xương trong quá trình chụp, góp phần phân tích hình ảnh y tế .
- Sản xuất: Cho phép kiểm soát chất lượng trong sản xuất bằng cách tự động phát hiện lỗi trong sản phẩm trên dây chuyền lắp ráp.
Các mô hình phát hiện đối tượng hiện đại như YOLOv8 và YOLO11 , thường được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow , có các đầu phát hiện tinh vi được tối ưu hóa cho cả tốc độ và độ chính xác trên các tập dữ liệu chuẩn như COCO . Việc đào tạo và triển khai các mô hình này được tạo điều kiện thuận lợi bởi các nền tảng như Ultralytics HUB , cho phép người dùng tận dụng các khả năng phát hiện mạnh mẽ cho các nhu cầu cụ thể của họ. Đánh giá hiệu suất thường liên quan đến các số liệu như mAP và IoU , được nêu chi tiết trong hướng dẫn YOLO Performance Metrics .