Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Đầu dò

Tìm hiểu cách đầu dò giúp phát hiện vật thể trong thời gian thực. Khám phá vai trò của nó trong... Ultralytics YOLO26 được sử dụng để dự đoán các hộp giới hạn và nhãn với độ chính xác cao.

Bộ xử lý phát hiện đóng vai trò là lớp ra quyết định cuối cùng trong kiến ​​trúc mạng nơ-ron phát hiện đối tượng. Trong khi các lớp trước đó của mô hình chịu trách nhiệm hiểu hình dạng, kết cấu và đặc điểm trong ảnh, thì bộ xử lý phát hiện là thành phần cụ thể diễn giải thông tin này để dự đoán chính xác những đối tượng nào có mặt và vị trí của chúng. Nó chuyển đổi dữ liệu trừu tượng, cấp cao do bộ trích xuất đặc trưng tạo ra thành kết quả có thể hành động, thường xuất ra một tập hợp các hộp giới hạn bao quanh các đối tượng được xác định cùng với nhãn lớp và điểm tin cậy tương ứng của chúng.

Phân biệt đầu với cột sống và cổ.

Để hiểu đầy đủ chức năng của đầu dò, ta có thể hình dung các đầu dò hiện đại được cấu tạo từ ba giai đoạn chính, mỗi giai đoạn phục vụ một mục đích riêng biệt trong quy trình xử lý hình ảnh máy tính (CV) :

  • Mạng trục chính: Đây là phần khởi đầu của mạng, thường là Mạng nơ-ron tích chập (CNN) như ResNet hoặc CSPNet. Nó xử lý hình ảnh đầu vào thô để tạo ra các bản đồ đặc trưng biểu diễn các mẫu hình ảnh.
  • Cổ: Nằm giữa cột sống và đầu, cổ có chức năng tinh chỉnh và kết hợp các đặc điểm từ các tỷ lệ khác nhau. Các kiến ​​trúc như Mạng Kim tự tháp Đặc trưng (FPN) đảm bảo mô hình có thể... detect các đối tượng có kích thước khác nhau bằng cách tổng hợp ngữ cảnh.
  • Đầu: Thành phần cuối cùng tiếp nhận các đặc điểm đã được tinh chỉnh từ phần cổ. Nó thực hiện nhiệm vụ phân loại (phân loại là gì?) và hồi quy (hồi quy nằm ở đâu?).

Sự tiến hóa: Dựa trên neo so với không dựa trên neo

Thiết kế của các đầu dò đã phát triển đáng kể để cải thiện tốc độ và độ chính xác, đặc biệt là trong quá trình chuyển đổi từ các phương pháp truyền thống sang các mô hình suy luận thời gian thực hiện đại.

  • Đầu dò dựa trên điểm neo: Các bộ dò đối tượng một giai đoạn truyền thống dựa vào các hộp neo được xác định trước — các hình dạng tham chiếu cố định với nhiều kích thước khác nhau. Đầu dò sẽ dự đoán mức độ cần kéo giãn hoặc dịch chuyển các điểm neo này để phù hợp với đối tượng. Phương pháp này được mô tả chi tiết trong nghiên cứu nền tảng về Faster R-CNN .
  • Đầu dò không cần neo: Các mô hình hiện đại, bao gồm cả YOLO26 mới nhất, sử dụng các đầu dò không cần neo . Các đầu dò này dự đoán tâm và kích thước đối tượng trực tiếp từ các pixel trong bản đồ đặc trưng, ​​loại bỏ nhu cầu điều chỉnh neo thủ công. Điều này đơn giản hóa kiến ​​trúc và nâng cao khả năng tổng quát hóa của mô hình đối với các hình dạng đối tượng mới, một kỹ thuật thường được liên kết với Phát hiện đối tượng một giai đoạn hoàn toàn tích chập (FCOS) .

Các Ứng dụng Thực tế

Độ chính xác của đầu dò là yếu tố then chốt để triển khai trí tuệ nhân tạo (AI) trong môi trường công nghiệp và an toàn cao. Người dùng có thể dễ dàng chú thích dữ liệu và huấn luyện các đầu dò chuyên dụng này bằng Nền tảng Ultralytics .

  • Lái xe tự động: Trong trí tuệ nhân tạo dành cho ô tô , bộ phận cảm biến chịu trách nhiệm phân biệt giữa người đi bộ, đèn giao thông và các phương tiện khác trong thời gian thực. Một bộ phận cảm biến được tối ưu hóa cao đảm bảo độ trễ suy luận đủ thấp để xe có thể phản ứng tức thì.
  • Chẩn đoán y khoa: Trong phân tích hình ảnh y khoa , các đầu dò được tinh chỉnh để xác định vị trí các bất thường như khối u trong ảnh chụp MRI. Nhánh hồi quy phải cực kỳ chính xác để vạch ra ranh giới chính xác của tổn thương, hỗ trợ các bác sĩ trong việc đưa ra các giải pháp chăm sóc sức khỏe .

Ví dụ mã

Ví dụ sau đây minh họa cách tải một YOLO26 Mô hình và kiểm tra đầu ra của bộ phận phát hiện. Khi quá trình suy luận diễn ra, bộ phận này xử lý hình ảnh và trả về kết quả cuối cùng. boxes Bao gồm tọa độ và mã số lớp.

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to utilize the detection head
results = model("https://ultralytics.com/images/bus.jpg")

# The detection head outputs are stored in results[0].boxes
for box in results[0].boxes:
    # Print the bounding box coordinates and the predicted class
    print(f"Class: {int(box.cls)}, Coordinates: {box.xywh.numpy()}")

Sự tương tác này làm nổi bật cách đầu dò chuyển đổi các kích hoạt mạng thần kinh phức tạp thành dữ liệu dễ đọc mà các nhà phát triển có thể sử dụng cho các tác vụ tiếp theo như theo dõi hoặc đếm đối tượng .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay