Khám phá sức mạnh của suy luận thời gian thực để đưa ra dự đoán AI tức thì. Tìm hiểu cách thức thực hiện. Ultralytics YOLO26 mang lại kết quả độ trễ thấp cho các thiết bị biên và robot.
Suy luận thời gian thực đề cập đến quá trình mà một mô hình học máy (ML) đã được huấn luyện chấp nhận dữ liệu đầu vào trực tiếp và tạo ra các dự đoán gần như ngay lập tức. Không giống như xử lý ngoại tuyến, nơi dữ liệu được thu thập và phân tích hàng loạt vào thời điểm sau đó, suy luận thời gian thực diễn ra tức thì, cho phép các hệ thống phản ứng với môi trường của chúng một cách nhanh chóng và linh hoạt. Khả năng này là cốt lõi của các ứng dụng Trí tuệ Nhân tạo (AI) hiện đại, cho phép các thiết bị nhận biết, diễn giải và hành động dựa trên dữ liệu trong vòng mili giây.
Chỉ số chính để đánh giá hiệu suất thời gian thực là độ trễ suy luận . Chỉ số này đo lường độ trễ thời gian giữa thời điểm dữ liệu được đưa vào mô hình—ví dụ như một khung hình từ camera video—và thời điểm mô hình tạo ra đầu ra, chẳng hạn như hộp giới hạn hoặc nhãn phân loại. Để một ứng dụng được coi là "thời gian thực", độ trễ phải đủ thấp để phù hợp với tốc độ của luồng dữ liệu đến.
Ví dụ, trong các tác vụ hiểu video chạy ở tốc độ 30 khung hình/giây (FPS), hệ thống có ngân sách thời gian nghiêm ngặt là khoảng 33 mili giây để xử lý mỗi khung hình. Nếu quá trình suy luận mất nhiều thời gian hơn, hệ thống sẽ tạo ra độ trễ, có khả năng dẫn đến mất khung hình hoặc phản hồi chậm trễ. Để đạt được điều này thường cần đến khả năng tăng tốc phần cứng bằng cách sử dụng GPU hoặc các thiết bị AI biên chuyên dụng như NVIDIA Jetson .
Việc phân biệt giữa quy trình làm việc thời gian thực và xử lý theo lô là rất hữu ích. Mặc dù cả hai đều liên quan đến việc tạo ra dự đoán, nhưng mục tiêu và kiến trúc của chúng khác nhau đáng kể:
Khả năng đưa ra quyết định trong tích tắc đã làm thay đổi nhiều ngành công nghiệp bằng cách cho phép tự động hóa trong môi trường năng động.
Việc triển khai các mô hình cho các ứng dụng thời gian thực thường yêu cầu tối ưu hóa để đảm bảo chúng hoạt động hiệu quả trên phần cứng mục tiêu. Các kỹ thuật như lượng tử hóa mô hình làm giảm độ chính xác của trọng số mô hình (ví dụ: từ float32 xuống int8) để giảm mức sử dụng bộ nhớ và tăng tốc độ suy luận với tác động tối thiểu đến độ chính xác .
Các nhà phát triển có thể sử dụng Nền tảng Ultralytics để tối ưu hóa quy trình này. Nền tảng này đơn giản hóa quá trình huấn luyện và cho phép người dùng xuất mô hình sang các định dạng được tối ưu hóa như TensorRT . NVIDIA GPU, OpenVINO cho Intel CPU, hoặc TFLite để triển khai trên thiết bị di động.
Sau đây Python Đoạn mã này minh họa cách chạy suy luận thời gian thực trên nguồn cấp dữ liệu webcam bằng cách sử dụng...
ultralytics Thư viện này sử dụng... YOLO26 Mô hình Nano, được thiết kế đặc biệt để mang lại hiệu năng tốc độ cao trên các thiết bị biên.
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")