Khám phá những nguyên tắc cơ bản của phát hiện đối tượng. Tìm hiểu cách thức thực hiện. Ultralytics YOLO26 nhận diện và định vị các vật thể trong thời gian thực với tốc độ và độ chính xác vượt trội.
Phát hiện đối tượng là một công nghệ then chốt trong lĩnh vực Thị giác máy tính (CV), cho phép các hệ thống máy tính xác định và định vị các đối tượng cụ thể trong dữ liệu hình ảnh. Không giống như các nhiệm vụ phân loại hình ảnh đơn giản hơn, chỉ gán một nhãn duy nhất cho toàn bộ hình ảnh, phát hiện đối tượng cung cấp sự hiểu biết chi tiết hơn bằng cách đồng thời dự đoán lớp của một đối tượng (ví dụ: "người", "ô tô", "chó") và vị trí không gian của nó. Vị trí này thường được biểu thị bằng một hình chữ nhật bao quanh đối tượng, kèm theo điểm số độ tin cậy cho biết mức độ chắc chắn của mô hình. Khả năng kép này—nhận dạng cộng với định vị—đóng vai trò là nền tảng cảm giác cho các ứng dụng Trí tuệ nhân tạo (AI) hiện đại, cho phép máy móc tương tác có ý nghĩa với môi trường của chúng.
Các thuật toán phát hiện hiện đại dựa rất nhiều vào kiến trúc Học sâu (Deep Learning - DL) , đặc biệt là Mạng thần kinh tích chập (Convolutional Neural Networks - CNN) , để trích xuất các đặc điểm phức tạp từ hình ảnh đầu vào. Quá trình này bắt đầu bằng giai đoạn huấn luyện , trong đó mô hình học cách nhận dạng các mẫu bằng cách sử dụng các bộ dữ liệu lớn đã được gắn nhãn như bộ dữ liệu COCO . Trong giai đoạn này, thuật toán tối ưu hóa trọng số của mô hình để giảm thiểu lỗi dự đoán.
Khi mô hình được triển khai để suy luận , nó sẽ quét các hình ảnh mới để đề xuất các đối tượng tiềm năng. Sau đó, các thuật toán tiên tiến sẽ áp dụng phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression - NMS ) để lọc ra các phát hiện trùng lặp, đảm bảo rằng mỗi thực thể riêng biệt chỉ được làm nổi bật một lần. Độ chính xác của các dự đoán này thường được đánh giá bằng chỉ số Giao điểm trên Hợp nhất (Intersection over Union - IoU ) , đo lường sự chồng chéo giữa hộp được dự đoán và dữ liệu thực tế. Những tiến bộ gần đây đã dẫn đến các kiến trúc đầu cuối như YOLO26 , giúp tối ưu hóa quy trình này để đạt được tốc độ vượt trội và khả năng suy luận thời gian thực trên các thiết bị biên.
Việc phân biệt giữa phát hiện đối tượng và các khái niệm liên quan là rất quan trọng để lựa chọn công cụ phù hợp cho dự án:
Tính linh hoạt của việc phát hiện đối tượng thúc đẩy sự đổi mới trong các ngành công nghiệp lớn. Trong lĩnh vực ô tô, trí tuệ nhân tạo (AI) trong xe tự lái phụ thuộc rất nhiều vào các mô hình phát hiện để nhận diện người đi bộ, biển báo giao thông và các phương tiện khác ngay lập tức nhằm điều hướng an toàn. Bằng cách xử lý nguồn cấp dữ liệu video từ camera trên xe, các hệ thống này đưa ra quyết định trong tích tắc, giúp ngăn ngừa tai nạn.
Một trường hợp sử dụng nổi bật khác được tìm thấy trong lĩnh vực Trí tuệ nhân tạo (AI) trong ngành bán lẻ . Hệ thống thanh toán tự động và robot quản lý kho thông minh sử dụng công nghệ nhận diện vật thể để quét kệ hàng, nhận dạng sản phẩm, và... detect Tình trạng thiếu hàng hoặc thất lạc hàng hóa. Hệ thống tự động hóa này giúp tối ưu hóa chuỗi cung ứng và cải thiện trải nghiệm khách hàng bằng cách đảm bảo sản phẩm luôn có sẵn.
Các nhà phát triển có thể dễ dàng triển khai quy trình phát hiện bằng cách sử dụng ultralytics Python gói. Ví dụ sau đây minh họa cách tải một mô hình đã được huấn luyện trước. YOLO26 Xây dựng mô hình và thực hiện suy luận trên hình ảnh.
from ultralytics import YOLO
# Load the latest YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image from a URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
Đối với các nhóm muốn mở rộng quy mô hoạt động, Nền tảng Ultralytics cung cấp một môi trường toàn diện để chú thích dữ liệu, huấn luyện các mô hình tùy chỉnh trên đám mây và triển khai chúng ở nhiều định dạng khác nhau như ONNX hoặc TensorRT . Việc sử dụng các nền tảng như vậy giúp đơn giản hóa vòng đời MLOps , cho phép các kỹ sư tập trung vào việc hoàn thiện ứng dụng của họ thay vì quản lý cơ sở hạ tầng.