Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Các bộ dò tìm dựa trên Anchor

Khám phá cách các bộ dò dựa trên neo sử dụng các hộp giới hạn được xác định trước để phát hiện đối tượng. Tìm hiểu các cơ chế cốt lõi, các trường hợp sử dụng thực tế và cách chúng so sánh với các phương pháp hiện đại, nhanh hơn. Ultralytics YOLO26.

Các bộ dò dựa trên neo là một lớp cơ bản của các mô hình phát hiện đối tượng trong thị giác máy tính, sử dụng một tập hợp các hộp giới hạn được xác định trước để định vị và classify Thay vì cố gắng dự đoán tọa độ của một đối tượng từ một điểm trống, các hệ thống này bắt đầu với các mẫu tham chiếu cố định được gọi là hộp neo . Mạng nơ-ron sau đó được huấn luyện để xác định mẫu nào phù hợp nhất với một đối tượng trong hình ảnh và tính toán các độ lệch cụ thể—điều chỉnh vị trí và kích thước—cần thiết để căn chỉnh hộp neo hoàn hảo với mục tiêu. Cách tiếp cận này biến đổi vấn đề khó khăn về dự đoán tọa độ tùy ý thành một nhiệm vụ hồi quy ổn định hơn, đây là một bước đột phá quan trọng trong sự phát triển của các kiến ​​trúc học sâu (DL) ban đầu như Faster R-CNN và SSD.

Cơ chế dựa trên neo hoạt động như thế nào?

Nguyên tắc hoạt động cốt lõi của bộ dò dựa trên neo xoay quanh việc chia ảnh đầu vào thành một lưới dày đặc. Tại mỗi ô của lưới này, mô hình tạo ra nhiều hộp neo với tỷ lệ và kích thước khác nhau để phù hợp với các hình dạng đối tượng khác nhau, chẳng hạn như người đi bộ cao hoặc phương tiện rộng. Khi dữ liệu hình ảnh đi qua mạng lưới xử lý của mô hình, mạng sẽ trích xuất các đặc trưng phong phú để thực hiện hai nhiệm vụ đồng thời:

  1. Phân loại: Mô hình gán điểm xác suất cho mỗi điểm neo, dự đoán xem nó có chứa một lớp đối tượng cụ thể (ví dụ: "ô tô", "chó") hay chỉ đơn thuần là nhiễu nền.
  2. Hồi quy hộp: Đối với các điểm neo được xác định là chứa đối tượng, mạng nơ-ron dự đoán các hệ số hiệu chỉnh để tinh chỉnh tâm của điểm neo. x, y tọa độ, chiều rộng và chiều cao, dẫn đến một không gian chật hẹp. bounding box (khung giới hạn).

Trong quá trình huấn luyện mô hình , các bộ dò này sử dụng một chỉ số gọi là Giao điểm trên Hợp nhất ( IoU ) để so khớp các anchor được xác định trước với các nhãn thực tế được cung cấp trong tập dữ liệu. Các anchor có độ chồng chéo cao được coi là mẫu dương. Vì quá trình này tạo ra hàng ngàn khả năng phát hiện tiềm năng, một thuật toán lọc được gọi là Loại bỏ cực đại không đồng nhất ( NMS ) được áp dụng trong quá trình suy luận để loại bỏ các hộp dư thừa và chỉ giữ lại dự đoán chính xác nhất cho mỗi đối tượng.

So sánh với các thiết bị dò không cần neo

Mặc dù các phương pháp dựa trên điểm neo đã thiết lập tiêu chuẩn trong nhiều năm, lĩnh vực này đã phát triển theo hướng các bộ dò không dựa trên điểm neo . Hiểu được sự khác biệt này là rất quan trọng đối với các chuyên gia hiện đại.

  • Dựa trên neo: Các mô hình như YOLOv5RetinaNet gốc dựa vào cấu hình thủ công hoặc thuật toán phân cụm như phân cụm k-means để xác định kích thước neo tốt nhất cho một tập dữ liệu. Điều này mang lại sự ổn định nhưng có thể cứng nhắc nếu các đối tượng có hình dạng khác nhau nhiều.
  • Không cần neo (Anchor-Free): Các kiến ​​trúc hiện đại, bao gồm YOLO26 , thường loại bỏ hoàn toàn giai đoạn neo. Chúng dự đoán tâm và kích thước đối tượng trực tiếp từ các pixel của bản đồ đặc trưng, ​​giảm chi phí tính toán và đơn giản hóa việc tìm kiếm siêu tham số. Cách tiếp cận "từ đầu đến cuối" này thường nhanh hơn và dễ huấn luyện hơn trên nhiều loại dữ liệu khác nhau.

Các Ứng dụng Thực tế

Logic dựa trên neo vẫn còn phù hợp trong nhiều hệ thống sản xuất chuyên dụng và truyền thống, nơi hình dạng đối tượng có thể dự đoán được và nhất quán.

  • Giám sát giao thông: Trong các hệ thống giao thông thông minh, camera được sử dụng. detect các phương tiện được sử dụng để quản lý luồng giao thông hoặc xác định các vi phạm. Vì ô tô và xe tải có kích thước tiêu chuẩn, các mô hình dựa trên điểm neo có thể được tinh chỉnh với các thông tin tiên nghiệm cụ thể để tối đa hóa độ chính xác và khả năng thu hồi .
  • Tự động hóa bán lẻ: Hệ thống thanh toán tự động sử dụng thị giác máy tính để nhận diện sản phẩm. Vì các mặt hàng đóng gói như hộp ngũ cốc duy trì tỷ lệ khung hình cố định, các điểm neo cung cấp thông tin tiên nghiệm mạnh mẽ cho mạng lưới, giúp nó phân biệt giữa các mặt hàng trông tương tự nhau trong một khung cảnh lộn xộn.

Ví dụ triển khai

Mặc dù các mẫu YOLO26 mới nhất sử dụng đầu dò không cần neo để đạt hiệu suất vượt trội, giao diện phát hiện chuyển động vẫn nhất quán. Nền tảng Ultralytics và Python API đơn giản hóa sự phức tạp của việc mô hình sử dụng điểm neo hay điểm trung tâm, cho phép người dùng tập trung vào kết quả.

Dưới đây là cách tải mô hình và chạy suy luận. detect các đối tượng, một quy trình làm việc áp dụng bất kể kiến ​​trúc neo cơ bản là gì:

from ultralytics import YOLO

# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")

# Run inference on an image source
# The model handles internal logic (anchor-based or anchor-free) automatically
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the first result with bounding boxes
results[0].show()

Đọc thêm

Để hiểu sâu hơn về các cơ chế phát hiện, hãy tìm hiểu nghiên cứu nền tảng về Faster R-CNN, mô hình đã giới thiệu Mạng đề xuất vùng (Region Proposal Network - RPN), hoặc đọc về Bộ dò đa hộp một lần chụp (Single Shot MultiBox Detector - SSD) , mô hình đã tối ưu hóa việc phát hiện dựa trên anchor để tăng tốc độ. Để có cái nhìn tổng quan hơn về lĩnh vực này, tập dữ liệu COCO được sử dụng làm chuẩn mực để đánh giá cả mô hình dựa trên anchor và không dựa trên anchor. Ngoài ra, các khóa học nâng cao trên Coursera thường đề cập đến các chi tiết toán học của hồi quy hộp và khớp anchor.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay