Khám phá cách các máy dò dựa trên mỏ neo cách mạng hóa việc phát hiện vật thể với khả năng định vị chính xác, khả năng thích ứng với quy mô và các ứng dụng thực tế.
Các máy dò dựa trên mỏ neo đại diện cho một phương pháp tiếp cận quan trọng và cơ bản trong tầm nhìn máy tính (CV) để giải quyết nhiệm vụ phát hiện đối tượng . Các mô hình này hoạt động bằng cách sử dụng một tập hợp các hộp tham chiếu được xác định trước, thường được gọi là "mỏ neo" hoặc "trước", có kích thước và tỷ lệ khung hình cụ thể. Mỏ neo được phân bổ trên toàn bộ hình ảnh và hoạt động như các phỏng đoán hoặc mẫu ban đầu, cho phép mô hình dự đoán vị trí và loại đối tượng hiệu quả hơn, đặc biệt là khi xử lý các mục có nhiều tỷ lệ và hình dạng khác nhau. Nhiều mô hình phát hiện đối tượng ban đầu có ảnh hưởng, chẳng hạn như một số phiên bản của họ Ultralytics YOLO , đã sử dụng kỹ thuật này.
Khái niệm cơ bản đằng sau các bộ dò dựa trên neo là phủ một lưới dày đặc các hộp neo được xác định trước này trên hình ảnh đầu vào ở nhiều vị trí và tỷ lệ. Mỗi hộp neo tương ứng với một vật thể tiềm năng có kích thước và hình dạng cụ thể. Trong quá trình đào tạo mô hình , bộ dò tìm hiểu hai điều chính cho mỗi neo: đầu tiên, nó phân loại xem hộp neo có chứa vật thể hoặc nền có liên quan hay không; thứ hai, nó tinh chỉnh vị trí và kích thước của neo (một quá trình gọi là hồi quy) để khớp chính xác với hộp giới hạn của vật thể thực tế.
Hãy xem xét việc phát hiện nhiều loại xe khác nhau trong hình ảnh của một con phố đông đúc. Thay vì phân tích từng nhóm pixel, một mô hình dựa trên mỏ neo sử dụng các mẫu hộp được xác định trước: các mẫu nhỏ hơn cho người đi bộ, hình vuông vừa cho ô tô và hình chữ nhật lớn hơn cho xe buýt. Các mẫu này (mỏ neo) được đặt trên toàn bộ hình ảnh. Nếu một mỏ neo chồng chéo đáng kể với một chiếc ô tô, mô hình sẽ học cách phân loại nó là 'ô tô' và điều chỉnh tọa độ và kích thước của mỏ neo để phù hợp hoàn hảo với chiếc ô tô. Các mỏ neo chỉ bao phủ đường hoặc tòa nhà được phân loại là 'nền'. Phương pháp tiếp cận có hệ thống này, được hướng dẫn bởi các hình dạng được xác định trước, giúp quản lý sự phức tạp của việc phát hiện đối tượng. Hiệu suất thường được đánh giá bằng các số liệu như Giao điểm trên hợp nhất (IoU) và Độ chính xác trung bình trung bình (mAP) .
Các máy dò dựa trên mỏ neo, thường tận dụng Mạng nơ-ron tích chập (CNN) mạnh mẽ làm xương sống , mang lại những lợi thế riêng biệt:
Các máy dò dựa trên mỏ neo đã được triển khai thành công trong nhiều tình huống thực tế:
Trong những năm gần đây, các máy dò không neo đã nổi lên như một giải pháp thay thế phổ biến. Không giống như các mô hình dựa trên neo (ví dụ: Ultralytics YOLOv5 ), các phương pháp tiếp cận không neo dự đoán vị trí và kích thước của vật thể trực tiếp, thường bằng cách xác định các điểm chính (như tâm hoặc góc của vật thể) hoặc dự đoán khoảng cách từ một điểm đến ranh giới của vật thể, loại bỏ nhu cầu về hình dạng neo được xác định trước.
Những điểm khác biệt chính bao gồm:
Trong khi các máy dò dựa trên neo như YOLOv4 rất thành công, nhiều kiến trúc hiện đại, bao gồm Ultralytics YOLO11 , đã áp dụng các thiết kế không neo để tận dụng lợi ích của chúng về tính đơn giản và hiệu quả. Bạn có thể khám phá những lợi thế của phát hiện không neo trong YOLO11 và xem các so sánh giữa các mô hình YOLO khác nhau .
Phát triển và triển khai các mô hình phát hiện đối tượng, dù dựa trên neo hay không neo, đều liên quan đến việc sử dụng các khuôn khổ như PyTorch hoặc TensorFlow và các thư viện như OpenCV . Các nền tảng như Ultralytics HUB cung cấp các quy trình làm việc hợp lý để đào tạo các mô hình tùy chỉnh , quản lý tập dữ liệu và triển khai các giải pháp, hỗ trợ nhiều kiến trúc mô hình khác nhau. Để tìm hiểu thêm, các tài nguyên như Papers With Code liệt kê các mô hình tiên tiến và các khóa học từ các nền tảng như DeepLearning.AI bao gồm các khái niệm cơ bản.