Khám phá cách các bộ dò dựa trên neo sử dụng các hộp giới hạn được xác định trước để phát hiện đối tượng. Tìm hiểu các cơ chế cốt lõi, các trường hợp sử dụng thực tế và cách chúng so sánh với các phương pháp hiện đại, nhanh hơn. Ultralytics YOLO26.
Các bộ dò dựa trên neo là một lớp cơ bản của các mô hình phát hiện đối tượng trong thị giác máy tính, sử dụng một tập hợp các hộp giới hạn được xác định trước để định vị và classify Thay vì cố gắng dự đoán tọa độ của một đối tượng từ một điểm trống, các hệ thống này bắt đầu với các mẫu tham chiếu cố định được gọi là hộp neo . Mạng nơ-ron sau đó được huấn luyện để xác định mẫu nào phù hợp nhất với một đối tượng trong hình ảnh và tính toán các độ lệch cụ thể—điều chỉnh vị trí và kích thước—cần thiết để căn chỉnh hộp neo hoàn hảo với mục tiêu. Cách tiếp cận này biến đổi vấn đề khó khăn về dự đoán tọa độ tùy ý thành một nhiệm vụ hồi quy ổn định hơn, đây là một bước đột phá quan trọng trong sự phát triển của các kiến trúc học sâu (DL) ban đầu như Faster R-CNN và SSD.
Nguyên tắc hoạt động cốt lõi của bộ dò dựa trên neo xoay quanh việc chia ảnh đầu vào thành một lưới dày đặc. Tại mỗi ô của lưới này, mô hình tạo ra nhiều hộp neo với tỷ lệ và kích thước khác nhau để phù hợp với các hình dạng đối tượng khác nhau, chẳng hạn như người đi bộ cao hoặc phương tiện rộng. Khi dữ liệu hình ảnh đi qua mạng lưới xử lý của mô hình, mạng sẽ trích xuất các đặc trưng phong phú để thực hiện hai nhiệm vụ đồng thời:
x, y tọa độ, chiều rộng và chiều cao, dẫn đến một không gian chật hẹp.
bounding box (khung giới hạn).
Trong quá trình huấn luyện mô hình , các bộ dò này sử dụng một chỉ số gọi là Giao điểm trên Hợp nhất ( IoU ) để so khớp các anchor được xác định trước với các nhãn thực tế được cung cấp trong tập dữ liệu. Các anchor có độ chồng chéo cao được coi là mẫu dương. Vì quá trình này tạo ra hàng ngàn khả năng phát hiện tiềm năng, một thuật toán lọc được gọi là Loại bỏ cực đại không đồng nhất ( NMS ) được áp dụng trong quá trình suy luận để loại bỏ các hộp dư thừa và chỉ giữ lại dự đoán chính xác nhất cho mỗi đối tượng.
Mặc dù các phương pháp dựa trên điểm neo đã thiết lập tiêu chuẩn trong nhiều năm, lĩnh vực này đã phát triển theo hướng các bộ dò không dựa trên điểm neo . Hiểu được sự khác biệt này là rất quan trọng đối với các chuyên gia hiện đại.
Logic dựa trên neo vẫn còn phù hợp trong nhiều hệ thống sản xuất chuyên dụng và truyền thống, nơi hình dạng đối tượng có thể dự đoán được và nhất quán.
Mặc dù các mẫu YOLO26 mới nhất sử dụng đầu dò không cần neo để đạt hiệu suất vượt trội, giao diện phát hiện chuyển động vẫn nhất quán. Nền tảng Ultralytics và Python API đơn giản hóa sự phức tạp của việc mô hình sử dụng điểm neo hay điểm trung tâm, cho phép người dùng tập trung vào kết quả.
Dưới đây là cách tải mô hình và chạy suy luận. detect các đối tượng, một quy trình làm việc áp dụng bất kể kiến trúc neo cơ bản là gì:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# The model handles internal logic (anchor-based or anchor-free) automatically
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes
results[0].show()
Để hiểu sâu hơn về các cơ chế phát hiện, hãy tìm hiểu nghiên cứu nền tảng về Faster R-CNN, mô hình đã giới thiệu Mạng đề xuất vùng (Region Proposal Network - RPN), hoặc đọc về Bộ dò đa hộp một lần chụp (Single Shot MultiBox Detector - SSD) , mô hình đã tối ưu hóa việc phát hiện dựa trên anchor để tăng tốc độ. Để có cái nhìn tổng quan hơn về lĩnh vực này, tập dữ liệu COCO được sử dụng làm chuẩn mực để đánh giá cả mô hình dựa trên anchor và không dựa trên anchor. Ngoài ra, các khóa học nâng cao trên Coursera thường đề cập đến các chi tiết toán học của hồi quy hộp và khớp anchor.