Thuật ngữ

Máy dò dựa trên mỏ neo

Khám phá cách các máy dò dựa trên mỏ neo cách mạng hóa việc phát hiện vật thể với khả năng định vị chính xác, khả năng thích ứng với quy mô và các ứng dụng thực tế.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Các máy dò dựa trên mỏ neo đại diện cho một phương pháp tiếp cận quan trọng và cơ bản trong tầm nhìn máy tính (CV) để giải quyết nhiệm vụ phát hiện đối tượng . Các mô hình này hoạt động bằng cách sử dụng một tập hợp các hộp tham chiếu được xác định trước, thường được gọi là "mỏ neo" hoặc "trước", có kích thước và tỷ lệ khung hình cụ thể. Mỏ neo được phân bổ trên toàn bộ hình ảnh và hoạt động như các phỏng đoán hoặc mẫu ban đầu, cho phép mô hình dự đoán vị trí và loại đối tượng hiệu quả hơn, đặc biệt là khi xử lý các mục có nhiều tỷ lệ và hình dạng khác nhau. Nhiều mô hình phát hiện đối tượng ban đầu có ảnh hưởng, chẳng hạn như một số phiên bản của họ Ultralytics YOLO , đã sử dụng kỹ thuật này.

Máy dò dựa trên neo hoạt động như thế nào

Khái niệm cơ bản đằng sau các bộ dò dựa trên neo là phủ một lưới dày đặc các hộp neo được xác định trước này trên hình ảnh đầu vào ở nhiều vị trí và tỷ lệ. Mỗi hộp neo tương ứng với một vật thể tiềm năng có kích thước và hình dạng cụ thể. Trong quá trình đào tạo mô hình , bộ dò tìm hiểu hai điều chính cho mỗi neo: đầu tiên, nó phân loại xem hộp neo có chứa vật thể hoặc nền có liên quan hay không; thứ hai, nó tinh chỉnh vị trí và kích thước của neo (một quá trình gọi là hồi quy) để khớp chính xác với hộp giới hạn của vật thể thực tế.

Hãy xem xét việc phát hiện nhiều loại xe khác nhau trong hình ảnh của một con phố đông đúc. Thay vì phân tích từng nhóm pixel, một mô hình dựa trên mỏ neo sử dụng các mẫu hộp được xác định trước: các mẫu nhỏ hơn cho người đi bộ, hình vuông vừa cho ô tô và hình chữ nhật lớn hơn cho xe buýt. Các mẫu này (mỏ neo) được đặt trên toàn bộ hình ảnh. Nếu một mỏ neo chồng chéo đáng kể với một chiếc ô tô, mô hình sẽ học cách phân loại nó là 'ô tô' và điều chỉnh tọa độ và kích thước của mỏ neo để phù hợp hoàn hảo với chiếc ô tô. Các mỏ neo chỉ bao phủ đường hoặc tòa nhà được phân loại là 'nền'. Phương pháp tiếp cận có hệ thống này, được hướng dẫn bởi các hình dạng được xác định trước, giúp quản lý sự phức tạp của việc phát hiện đối tượng. Hiệu suất thường được đánh giá bằng các số liệu như Giao điểm trên hợp nhất (IoU)Độ chính xác trung bình trung bình (mAP) .

Các tính năng và lợi thế chính

Các máy dò dựa trên mỏ neo, thường tận dụng Mạng nơ-ron tích chập (CNN) mạnh mẽ làm xương sống , mang lại những lợi thế riêng biệt:

  • Xử lý sự thay đổi về tỷ lệ và tỷ lệ khung hình: Các mỏ neo được xác định trước bao phủ rõ ràng nhiều hình dạng và kích thước khác nhau, giúp các mô hình này có khả năng phát hiện vật thể tốt bất kể kích thước hoặc hướng của chúng.
  • Dự đoán có cấu trúc: Mỏ neo cung cấp một phương pháp có cấu trúc để tạo đề xuất đối tượng trên toàn bộ hình ảnh, đảm bảo phạm vi bao phủ toàn diện.
  • Thu hồi cao: Bằng cách tạo ra số lượng lớn các vị trí đối tượng tiềm năng thông qua mỏ neo, các phương pháp này thường đạt được khả năng thu hồi cao, nghĩa là chúng có hiệu quả trong việc tìm kiếm hầu hết các đối tượng có liên quan, mặc dù điều này đôi khi đòi hỏi các bước xử lý hậu kỳ như Loại bỏ không tối đa (NMS) để lọc các mục trùng lặp.
  • Hiệu suất đã được chứng minh: Các kiến trúc như Faster R-CNNSSD (Single Shot MultiBox Detector) đã chứng minh hiệu suất mạnh mẽ trên các tập dữ liệu chuẩn như COCO .

Ứng dụng trong thế giới thực

Các máy dò dựa trên mỏ neo đã được triển khai thành công trong nhiều tình huống thực tế:

  1. Xe tự hành: Phát hiện xe cộ, người đi bộ, người đi xe đạp và biển báo giao thông có nhiều kích thước và khoảng cách khác nhau là rất quan trọng để điều hướng an toàn. Các phương pháp dựa trên mỏ neo giúp đảm bảo rằng các vật thể ở gần và xa, lớn và nhỏ đều được xác định một cách đáng tin cậy. Các công ty như Waymo phụ thuộc rất nhiều vào khả năng phát hiện vật thể mạnh mẽ. Tìm hiểu thêm về AI trong xe tự lái .
  2. Phân tích bán lẻ: Trong các cửa hàng, các máy dò này có thể theo dõi các kệ hàng để xác định sản phẩm, kiểm tra mức tồn kho hoặc phân tích các mẫu lưu lượng khách hàng bằng cách phát hiện người. Khả năng xử lý các kích thước và hình dạng bao bì sản phẩm khác nhau là điều cần thiết cho các ứng dụng như quản lý hàng tồn kho do AI điều khiển .

Máy dò dựa trên neo so với máy dò không có neo

Trong những năm gần đây, các máy dò không neo đã nổi lên như một giải pháp thay thế phổ biến. Không giống như các mô hình dựa trên neo (ví dụ: Ultralytics YOLOv5 ), các phương pháp tiếp cận không neo dự đoán vị trí và kích thước của vật thể trực tiếp, thường bằng cách xác định các điểm chính (như tâm hoặc góc của vật thể) hoặc dự đoán khoảng cách từ một điểm đến ranh giới của vật thể, loại bỏ nhu cầu về hình dạng neo được xác định trước.

Những điểm khác biệt chính bao gồm:

  • Độ phức tạp: Các mô hình dựa trên mỏ neo đòi hỏi thiết kế và điều chỉnh cẩn thận các tham số mỏ neo (kích thước, tỷ lệ, thang đo), có thể phụ thuộc vào tập dữ liệu. Các mô hình không có mỏ neo đơn giản hóa thiết kế đầu phát hiện.
  • Tính linh hoạt: Các phương pháp không có mỏ neo có thể thích ứng tốt hơn với các đối tượng có tỷ lệ khung hình hoặc hình dạng bất thường mà bộ mỏ neo cố định không thể hiện tốt.
  • Hiệu quả: Việc loại bỏ các mỏ neo có thể làm giảm số lượng dự đoán mà mô hình cần thực hiện, có khả năng dẫn đến suy luận nhanh hơn và xử lý hậu kỳ đơn giản hơn.

Trong khi các máy dò dựa trên neo như YOLOv4 rất thành công, nhiều kiến trúc hiện đại, bao gồm Ultralytics YOLO11 , đã áp dụng các thiết kế không neo để tận dụng lợi ích của chúng về tính đơn giản và hiệu quả. Bạn có thể khám phá những lợi thế của phát hiện không neo trong YOLO11 và xem các so sánh giữa các mô hình YOLO khác nhau .

Công cụ và đào tạo

Phát triển và triển khai các mô hình phát hiện đối tượng, dù dựa trên neo hay không neo, đều liên quan đến việc sử dụng các khuôn khổ như PyTorch hoặc TensorFlow và các thư viện như OpenCV . Các nền tảng như Ultralytics HUB cung cấp các quy trình làm việc hợp lý để đào tạo các mô hình tùy chỉnh , quản lý tập dữ liệu và triển khai các giải pháp, hỗ trợ nhiều kiến trúc mô hình khác nhau. Để tìm hiểu thêm, các tài nguyên như Papers With Code liệt kê các mô hình tiên tiến và các khóa học từ các nền tảng như DeepLearning.AI bao gồm các khái niệm cơ bản.

Đọc tất cả