Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Suy luận thời gian thực

Khám phá sức mạnh của suy luận thời gian thực để đưa ra dự đoán AI tức thì. Tìm hiểu cách thức thực hiện. Ultralytics YOLO26 mang lại kết quả độ trễ thấp cho các thiết bị biên và robot.

Suy luận thời gian thực đề cập đến quá trình mà một mô hình học máy (ML) đã được huấn luyện chấp nhận dữ liệu đầu vào trực tiếp và tạo ra các dự đoán gần như ngay lập tức. Không giống như xử lý ngoại tuyến, nơi dữ liệu được thu thập và phân tích hàng loạt vào thời điểm sau đó, suy luận thời gian thực diễn ra tức thì, cho phép các hệ thống phản ứng với môi trường của chúng một cách nhanh chóng và linh hoạt. Khả năng này là cốt lõi của các ứng dụng Trí tuệ Nhân tạo (AI) hiện đại, cho phép các thiết bị nhận biết, diễn giải và hành động dựa trên dữ liệu trong vòng mili giây.

Tầm quan trọng của độ trễ thấp

Chỉ số chính để đánh giá hiệu suất thời gian thực là độ trễ suy luận . Chỉ số này đo lường độ trễ thời gian giữa thời điểm dữ liệu được đưa vào mô hình—ví dụ như một khung hình từ camera video—và thời điểm mô hình tạo ra đầu ra, chẳng hạn như hộp giới hạn hoặc nhãn phân loại. Để một ứng dụng được coi là "thời gian thực", độ trễ phải đủ thấp để phù hợp với tốc độ của luồng dữ liệu đến.

Ví dụ, trong các tác vụ hiểu video chạy ở tốc độ 30 khung hình/giây (FPS), hệ thống có ngân sách thời gian nghiêm ngặt là khoảng 33 mili giây để xử lý mỗi khung hình. Nếu quá trình suy luận mất nhiều thời gian hơn, hệ thống sẽ tạo ra độ trễ, có khả năng dẫn đến mất khung hình hoặc phản hồi chậm trễ. Để đạt được điều này thường cần đến khả năng tăng tốc phần cứng bằng cách sử dụng GPU hoặc các thiết bị AI biên chuyên dụng như NVIDIA Jetson .

Suy luận thời gian thực so với suy luận hàng loạt

Việc phân biệt giữa quy trình làm việc thời gian thực và xử lý theo lô là rất hữu ích. Mặc dù cả hai đều liên quan đến việc tạo ra dự đoán, nhưng mục tiêu và kiến ​​trúc của chúng khác nhau đáng kể:

  • Suy luận thời gian thực: Ưu tiên độ trễ thấp. Nó xử lý các điểm dữ liệu đơn lẻ (hoặc các lô dữ liệu rất nhỏ) ngay khi chúng đến. Điều này rất cần thiết cho các ứng dụng tương tác như xe tự lái , nơi một chiếc xe phải ngay lập tức phản hồi. detect Người đi bộ phải phanh kịp thời.
  • Suy luận theo lô: Ưu tiên thông lượng cao. Phương pháp này thu thập một lượng lớn dữ liệu và xử lý tất cả cùng một lúc. Điều này phù hợp với các tác vụ không khẩn cấp, chẳng hạn như tạo báo cáo kiểm kê hàng đêm hoặc phân tích xu hướng dữ liệu lớn trong quá khứ.

Các Ứng dụng Thực tế

Khả năng đưa ra quyết định trong tích tắc đã làm thay đổi nhiều ngành công nghiệp bằng cách cho phép tự động hóa trong môi trường năng động.

  • Sản xuất thông minh: Trong ứng dụng AI trong sản xuất , các camera đặt trên băng chuyền sử dụng suy luận thời gian thực để thực hiện kiểm soát chất lượng tự động. Mô hình phát hiện vật thể có thể ngay lập tức xác định các khuyết tật hoặc vật thể lạ trong sản phẩm di chuyển với tốc độ cao. Nếu phát hiện bất thường, hệ thống sẽ kích hoạt cánh tay robot để loại bỏ vật thể đó ngay lập tức, đảm bảo chỉ những sản phẩm chất lượng cao mới được đưa vào đóng gói.
  • Giám sát và An ninh: Các hệ thống an ninh hiện đại dựa vào thị giác máy tính để giám sát khu vực xung quanh. Thay vì chỉ ghi hình, các camera này thực hiện phát hiện người hoặc nhận diện khuôn mặt theo thời gian thực để cảnh báo nhân viên an ninh về việc xâm nhập trái phép ngay khi sự việc xảy ra.
  • Robot học: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong robot học , robot sử dụng phương pháp ước lượng tư thế để điều hướng trong không gian vật lý phức tạp. Một robot trong kho hàng phải liên tục suy luận vị trí của các chướng ngại vật và công nhân để lập kế hoạch di chuyển an toàn và hiệu quả.

Tối ưu hóa và triển khai

Việc triển khai các mô hình cho các ứng dụng thời gian thực thường yêu cầu tối ưu hóa để đảm bảo chúng hoạt động hiệu quả trên phần cứng mục tiêu. Các kỹ thuật như lượng tử hóa mô hình làm giảm độ chính xác của trọng số mô hình (ví dụ: từ float32 xuống int8) để giảm mức sử dụng bộ nhớ và tăng tốc độ suy luận với tác động tối thiểu đến độ chính xác .

Các nhà phát triển có thể sử dụng Nền tảng Ultralytics để tối ưu hóa quy trình này. Nền tảng này đơn giản hóa quá trình huấn luyện và cho phép người dùng xuất mô hình sang các định dạng được tối ưu hóa như TensorRT . NVIDIA GPU, OpenVINO cho Intel CPU, hoặc TFLite để triển khai trên thiết bị di động.

Ví dụ mã

Sau đây Python Đoạn mã này minh họa cách chạy suy luận thời gian thực trên nguồn cấp dữ liệu webcam bằng cách sử dụng... ultralytics Thư viện này sử dụng... YOLO26 Mô hình Nano, được thiết kế đặc biệt để mang lại hiệu năng tốc độ cao trên các thiết bị biên.

from ultralytics import YOLO

# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")

# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)

# Iterate through the generator to process frames as they arrive
for result in results:
    # Example: Print the number of objects detected in the current frame
    print(f"Detected {len(result.boxes)} objects")

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay