Khám phá cơ chế hoạt động của các bộ phát hiện đối tượng hai giai đoạn, tập trung vào đề xuất vùng và phân loại. Tìm hiểu lý do tại sao các mô hình hiện đại như... Ultralytics YOLO26 hiện đang dẫn đầu.
Các bộ dò đối tượng hai giai đoạn là một lớp kiến trúc học sâu (DL) phức tạp được sử dụng trong thị giác máy tính để xác định và định vị các đối tượng trong một hình ảnh. Không giống như các bộ dò một giai đoạn thực hiện phát hiện trong một lần duy nhất, các mô hình này chia nhiệm vụ thành hai giai đoạn riêng biệt: đề xuất vùng và phân loại đối tượng. Cách tiếp cận phân tách này được tiên phong để ưu tiên độ chính xác định vị cao, khiến các bộ dò này có ý nghĩa lịch sử trong sự phát triển của trí tuệ nhân tạo (AI) . Bằng cách tách biệt "vị trí" khỏi "đối tượng", các bộ dò hai giai đoạn thường đạt được độ chính xác vượt trội, đặc biệt là đối với các đối tượng nhỏ hoặc bị che khuất, mặc dù điều này thường đi kèm với chi phí tăng tài nguyên tính toán và độ trễ suy luận chậm hơn.
Kiến trúc của bộ dò hai giai đoạn dựa trên quy trình làm việc tuần tự, mô phỏng cách con người xem xét kỹ lưỡng một khung cảnh.
Những ví dụ nổi bật về kiến trúc này bao gồm họ R-CNN, đặc biệt là Faster R-CNN và Mask R-CNN , vốn đã thiết lập tiêu chuẩn cho các bài kiểm tra học thuật trong nhiều năm.
Việc phân biệt giữa các mô hình hai giai đoạn và các bộ dò vật thể một giai đoạn như Single Shot MultiBox Detector (SSD) và... là rất hữu ích. Ultralytics YOLO Trong khi các mô hình hai giai đoạn ưu tiên độ chính xác bằng cách xử lý các vùng riêng biệt, các mô hình một giai đoạn lại coi việc phát hiện là một bài toán hồi quy duy nhất, ánh xạ trực tiếp các pixel hình ảnh đến tọa độ hộp giới hạn và xác suất lớp.
Trong quá khứ, điều này tạo ra một sự đánh đổi: các mô hình hai giai đoạn chính xác hơn nhưng chậm hơn, trong khi các mô hình một giai đoạn nhanh hơn nhưng kém chính xác hơn. Tuy nhiên, những tiến bộ hiện đại đã làm mờ ranh giới này. Các mô hình tiên tiến như YOLO26 hiện nay sử dụng kiến trúc đầu cuối có độ chính xác sánh ngang với các bộ dò hai giai đoạn trong khi vẫn duy trì tốc độ cần thiết cho suy luận thời gian thực .
Do chú trọng vào độ chính xác và khả năng thu hồi dữ liệu , các bộ dò hai giai đoạn thường được ưu tiên sử dụng trong những trường hợp mà sự an toàn và chi tiết quan trọng hơn tốc độ xử lý thô.
Mặc dù các bộ dò hai giai đoạn đã đặt nền tảng cho thị giác máy tính độ chính xác cao, các nhà phát triển hiện đại thường sử dụng các mô hình một giai đoạn tiên tiến hơn, mang lại hiệu suất tương đương với quy trình triển khai dễ dàng hơn đáng kể. Nền tảng Ultralytics đơn giản hóa việc huấn luyện và triển khai các mô hình này, quản lý tập dữ liệu và tài nguyên tính toán một cách hiệu quả.
Sau đây Python Ví dụ này minh họa cách tải và chạy suy luận bằng quy trình phát hiện đối tượng hiện đại.
ultralyticsĐạt được kết quả có độ chính xác cao tương tự như các phương pháp hai giai đoạn truyền thống nhưng hiệu quả hơn:
from ultralytics import YOLO
# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Process results (bounding boxes, classes, and confidence scores)
for result in results:
result.show() # Display the detection outcomes
print(result.boxes.conf) # Print confidence scores