Thuật ngữ

Độ trễ suy luận

Tối ưu hóa hiệu suất AI với độ trễ suy luận thấp. Tìm hiểu các yếu tố chính, ứng dụng thực tế và kỹ thuật để tăng cường phản hồi theo thời gian thực.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Độ trễ suy luận là một số liệu quan trọng trong trí tuệ nhân tạo và học máy (ML) , đặc biệt là khi triển khai các mô hình cho các ứng dụng trong thế giới thực. Nó đề cập đến độ trễ thời gian giữa thời điểm đầu vào (như truy vấn hình ảnh hoặc văn bản) được trình bày cho một mô hình đã được đào tạo và thời điểm mô hình tạo ra dự đoán hoặc đầu ra. Về cơ bản, nó đo lường tốc độ một mô hình có thể xử lý dữ liệu mới và cung cấp kết quả. Giảm thiểu độ trễ suy luận thường rất quan trọng đối với các ứng dụng yêu cầu phản hồi kịp thời, ảnh hưởng trực tiếp đến khả năng sử dụng và hiệu quả của các hệ thống AI .

Sự liên quan của độ trễ suy luận

Độ trễ suy luận thấp rất quan trọng đối với trải nghiệm người dùng tích cực và tính khả thi của nhiều ứng dụng AI. Trong các hệ thống tương tác, chẳng hạn như chatbot hoặc dịch vụ dịch thuật thời gian thực, độ trễ cao dẫn đến sự chậm trễ đáng chú ý, gây khó chịu cho người dùng. Đối với các ứng dụng quan trọng như xe tự hành hoặc công cụ chẩn đoán y tế , ngay cả sự chậm trễ nhỏ cũng có thể gây ra hậu quả đáng kể, ảnh hưởng đến sự an toàn và khả năng ra quyết định. Do đó, việc hiểu, đo lường và tối ưu hóa độ trễ suy luận là một khía cạnh quan trọng để triển khai các mô hình AI hiệu quả. Đây là một số liệu riêng biệt so với thông lượng, đo lường số lượng suy luận được xử lý trên một đơn vị thời gian; một ứng dụng có thể yêu cầu độ trễ thấp (phản hồi cá nhân nhanh) ngay cả khi thông lượng tổng thể không quá cao. Bạn có thể tìm hiểu thêm về cách tối ưu hóa các khía cạnh khác nhau này trong các hướng dẫn như hướng dẫn về Độ trễ OpenVINO so với Chế độ thông lượng .

Ứng dụng trong thế giới thực

Tầm quan trọng của độ trễ suy luận thấp được thể hiện rõ trong nhiều lĩnh vực:

  • Xe tự hành: Xe tự lái dựa vào khả năng phát hiện vật thể nhanh chóng và hiểu bối cảnh để điều hướng an toàn. Độ trễ thấp đảm bảo xe có thể phản ứng ngay lập tức với người đi bộ, xe khác hoặc chướng ngại vật bất ngờ, điều này rất quan trọng đối với sự an toàn. Các mô hình YOLO Ultralytics thường được tối ưu hóa cho các tác vụ suy luận thời gian thực như vậy.
  • AI tương tác: Các ứng dụng như trợ lý ảo ( Amazon Alexa , Google Assistant ) hoặc dịch vụ dịch thuật cần xử lý giọng nói hoặc văn bản đầu vào và phản hồi theo kiểu hội thoại. Độ trễ cao làm gián đoạn luồng tương tác và làm giảm trải nghiệm của người dùng.
  • Tự động hóa công nghiệp: Trong sản xuất , hệ thống thị giác máy tính thực hiện kiểm tra kiểm soát chất lượng trên dây chuyền lắp ráp. Độ trễ thấp cho phép xác định và loại bỏ nhanh chóng các sản phẩm lỗi mà không làm chậm quá trình sản xuất. Điều này thường liên quan đến việc triển khai các mô hình trên các thiết bị biên .
  • Chăm sóc sức khỏe: AI phân tích hình ảnh y tế (như chụp CT hoặc chụp X-quang) cần cung cấp kết quả nhanh chóng để hỗ trợ chẩn đoán chính xác và lập kế hoạch điều trị kịp thời. Xem cách YOLO được sử dụng để phát hiện khối u .
  • Hệ thống an ninh: Hệ thống giám sát thời gian thực sử dụng AI để phát hiện mối đe dọa (ví dụ: xác định kẻ xâm nhập hoặc vật thể bị bỏ rơi). Độ trễ thấp cho phép cảnh báo và phản hồi ngay lập tức, giống như trong hệ thống báo động an ninh .

Các yếu tố ảnh hưởng đến độ trễ suy luận

Một số yếu tố ảnh hưởng đến tốc độ thực hiện suy luận của mô hình:

  • Độ phức tạp của mô hình: Các mạng nơ-ron (NN) lớn hơn và phức tạp hơn thường yêu cầu nhiều phép tính hơn, dẫn đến độ trễ cao hơn. Việc lựa chọn kiến trúc đóng vai trò quan trọng. Bạn có thể so sánh các mô hình khác nhau như YOLOv10 với YOLO11 để xem sự đánh đổi.
  • Phần cứng: Sức mạnh xử lý của phần cứng được sử dụng để suy luận là rất quan trọng. Phần cứng chuyên dụng như GPU , TPU hoặc bộ tăng tốc AI chuyên dụng ( Google Edge TPU , NVIDIA Jetson ) có thể giảm đáng kể độ trễ so với CPU tiêu chuẩn.
  • Tối ưu hóa phần mềm: Sử dụng các công cụ suy luận được tối ưu hóa như NVIDIA TensorRT hoặc OpenVINO của Intel có thể cải thiện đáng kể hiệu suất bằng cách tối ưu hóa đồ thị mô hình và tận dụng các hướng dẫn dành riêng cho phần cứng. Các khuôn khổ như PyTorch cũng cung cấp các công cụ để tối ưu hóa. Xuất mô hình sang các định dạng như ONNX tạo điều kiện triển khai trên các công cụ khác nhau.
  • Kích thước lô: Xử lý nhiều đầu vào cùng nhau ( xử lý lô ) có thể cải thiện thông lượng chung nhưng thường làm tăng độ trễ cho các suy luận riêng lẻ. Các ứng dụng thời gian thực thường sử dụng kích thước lô là 1.
  • Truyền dữ liệu: Thời gian di chuyển dữ liệu đầu vào vào mô hình và lấy dữ liệu đầu ra có thể làm tăng độ trễ chung, đặc biệt là trong các tình huống điện toán phân tán hoặc điện toán đám mây .
  • Lượng tử hóa và cắt tỉa: Các kỹ thuật như lượng tử hóa mô hình (giảm độ chính xác về số) và cắt tỉa mô hình (loại bỏ các tham số mô hình dư thừa) có thể giảm kích thước mô hình và yêu cầu tính toán, giảm độ trễ. Đọc thêm về tối ưu hóa mô hình trong hướng dẫn nhanh này .

Quản lý độ trễ suy luận là một hành động cân bằng quan trọng giữa độ chính xác của mô hình, chi phí tính toán và thời gian phản hồi, điều cần thiết để triển khai các giải pháp AI hiệu quả được quản lý thông qua các nền tảng như Ultralytics HUB . Hiểu các bước của một dự án thị giác máy tính bao gồm lập kế hoạch cho các yêu cầu hiệu suất này trong quá trình triển khai mô hình .

Đọc tất cả