Suy luận thời gian thực đề cập đến quá trình mà mô hình học máy (ML) được đào tạo đưa ra dự đoán hoặc quyết định ngay lập tức khi dữ liệu mới đến. Không giống như suy luận theo lô, xử lý dữ liệu theo nhóm được thu thập theo thời gian, suy luận thời gian thực ưu tiên độ trễ thấp và phản hồi tức thời. Khả năng này rất cần thiết cho các ứng dụng yêu cầu phản hồi hoặc hành động ngay lập tức dựa trên luồng dữ liệu trực tiếp, cho phép các hệ thống phản ứng động với các điều kiện thay đổi.
Hiểu về suy luận thời gian thực
Trên thực tế, suy luận thời gian thực có nghĩa là triển khai một mô hình ML, chẳng hạn như mô hình YOLO Ultralytics cho thị giác máy tính , do đó, nó có thể phân tích các dữ liệu đầu vào riêng lẻ (như khung hình video hoặc số liệu cảm biến) và tạo ra đầu ra với độ trễ tối thiểu. Chỉ số hiệu suất chính là độ trễ suy luận , thời gian từ khi nhận đầu vào đến khi tạo ra dự đoán. Để đạt được độ trễ thấp thường liên quan đến một số chiến lược:
- Tối ưu hóa mô hình: Các kỹ thuật như lượng tử hóa mô hình (giảm độ chính xác của trọng số mô hình) và cắt tỉa mô hình (loại bỏ các tham số ít quan trọng hơn của mô hình) được sử dụng để tạo ra các mô hình nhỏ hơn và nhanh hơn.
- Tăng tốc phần cứng: Sử dụng phần cứng chuyên dụng như GPU , TPU hoặc bộ tăng tốc AI chuyên dụng trên các thiết bị biên (ví dụ: NVIDIA Jetson , Google Coral Edge TPU ) giúp tăng tốc đáng kể tốc độ tính toán.
- Phần mềm hiệu quả: Sử dụng các công cụ suy luận và thời gian chạy được tối ưu hóa như TensorRT , OpenVINO hoặc ONNX Runtime giúp tối đa hóa hiệu suất trên phần cứng mục tiêu. Các khuôn khổ như PyTorch cũng cung cấp các tính năng hỗ trợ suy luận hiệu quả.
Suy luận thời gian thực so với suy luận hàng loạt
Sự khác biệt chính nằm ở cách xử lý dữ liệu và các yêu cầu về độ trễ liên quan:
- Suy luận thời gian thực: Xử lý các điểm dữ liệu đơn lẻ hoặc các lô nhỏ khi chúng đến. Tập trung vào việc giảm thiểu độ trễ để có kết quả ngay lập tức. Lý tưởng cho các hệ thống hoặc ứng dụng tương tác phản ứng với các sự kiện trực tiếp.
- Suy luận theo lô: Xử lý khối lượng lớn dữ liệu tích lũy theo thời gian. Tập trung vào việc tối đa hóa thông lượng (xử lý khối lượng lớn dữ liệu hiệu quả) thay vì giảm thiểu độ trễ cho từng dự đoán. Phù hợp cho phân tích ngoại tuyến, báo cáo hoặc các tác vụ mà kết quả ngay lập tức không quan trọng, như đã giải thích trong tổng quan dự đoán theo lô của Google Cloud .
Ứng dụng của suy luận thời gian thực
Suy luận thời gian thực hỗ trợ nhiều ứng dụng AI hiện đại, nơi mà việc ra quyết định tức thời là rất quan trọng:
- Hệ thống tự động: Xe tự lái chủ yếu dựa vào suy luận thời gian thực để phát hiện vật thể (xác định người đi bộ, phương tiện, chướng ngại vật) và điều hướng, cho phép xe phản ứng tức thời với môi trường xung quanh. Ultralytics các mô hình thường được sử dụng để phát triển AI cho xe tự lái .
- An ninh và giám sát: Hệ thống an ninh hỗ trợ AI sử dụng suy luận thời gian thực để phát hiện xâm nhập, xác định hoạt động đáng ngờ hoặc theo dõi đám đông trong nguồn cấp dữ liệu video trực tiếp, cho phép đưa ra cảnh báo và phản ứng ngay lập tức.
- Chẩn đoán chăm sóc sức khỏe: Trong phân tích hình ảnh y tế , suy luận thời gian thực có thể hỗ trợ bác sĩ trong quá trình thực hiện thủ thuật bằng cách cung cấp phản hồi tức thời hoặc làm nổi bật các bất thường trong hình ảnh trực tiếp như siêu âm, có khả năng cải thiện độ chính xác của chẩn đoán .
- Tự động hóa công nghiệp: Suy luận thời gian thực cho phép kiểm soát chất lượng tự động trong sản xuất bằng cách xác định ngay lập tức các lỗi trên dây chuyền sản xuất hoặc điều khiển cánh tay rô-bốt thực hiện các nhiệm vụ chính xác.
Các nền tảng như Ultralytics HUB cung cấp các công cụ để đào tạo, tối ưu hóa và triển khai các mô hình, tạo điều kiện thuận lợi cho việc triển khai các giải pháp suy luận thời gian thực trên nhiều tùy chọn triển khai khác nhau.