Khả năng quan sát
Khám phá cách khả năng quan sát nâng cao các hệ thống AI/ML như Ultralytics YOLO. Nhận thông tin chi tiết, tối ưu hóa hiệu suất và đảm bảo độ tin cậy trong các ứng dụng thực tế.
Khả năng quan sát là hoạt động thiết kế và trang bị hệ thống để cung cấp dữ liệu độ trung thực cao về trạng thái bên trong của chúng, cho phép các nhóm khám phá, gỡ lỗi và hiểu hành vi của chúng một cách hiệu quả. Trong bối cảnh Trí tuệ Nhân tạo (AI) và Học máy (ML) , khả năng quan sát vượt xa việc giám sát đơn thuần để cho phép hiểu sâu sắc về các mô hình và đường ống dữ liệu phức tạp. Thay vì chỉ theo dõi các số liệu hiệu suất được xác định trước, một hệ thống có thể quan sát cung cấp dữ liệu phong phú, có thể khám phá, cho phép bạn đặt ra những câu hỏi mới và chẩn đoán các vấn đề chưa biết sau khi triển khai mô hình .
Khả năng quan sát so với giám sát
Mặc dù thường được sử dụng cùng nhau, khả năng quan sát và giám sát mô hình là những khái niệm riêng biệt.
- Giám sát là quá trình thu thập và phân tích dữ liệu để theo dõi các chế độ lỗi đã biết. Bạn thiết lập cảnh báo cho các ngưỡng cụ thể, được xác định trước, chẳng hạn như tỷ lệ lỗi vượt quá 5% hoặc độ trễ suy luận vượt quá 200ms. Hệ thống sẽ cho bạn biết nếu có vấn đề gì xảy ra.
- Khả năng quan sát là một đặc tính của hệ thống cho phép bạn hiểu tại sao có vấn đề, ngay cả khi bạn chưa từng gặp vấn đề đó trước đây. Nó sử dụng nhật ký, số liệu và dấu vết chi tiết để cho phép phân tích khám phá và xác định nguyên nhân gốc rễ. Một hệ thống có thể quan sát là một hệ thống bạn có thể gỡ lỗi mà không cần phải chuyển giao mã mới để thu thập thêm thông tin. Khả năng này rất quan trọng để quản lý bản chất khó lường của các hệ thống AI trong quá trình sản xuất.
Ba trụ cột của khả năng quan sát
Khả năng quan sát thường được xây dựng dựa trên ba loại dữ liệu đo từ xa cốt lõi:
- Nhật ký: Đây là những bản ghi sự kiện bất biến, có dấu thời gian. Trong các hệ thống ML, nhật ký có thể ghi lại các yêu cầu dự đoán riêng lẻ, lỗi xác thực dữ liệu hoặc thay đổi cấu hình hệ thống. Trong khi nhật ký truyền thống có thể chỉ là văn bản đơn giản, thì nhật ký có cấu trúc (ví dụ: ở định dạng JSON ) giúp việc truy vấn và phân tích nhật ký ở quy mô lớn dễ dàng hơn nhiều.
- Chỉ số: Đây là các biểu diễn số của dữ liệu được đo lường theo thời gian. Các chỉ số chính trong hệ thống ML bao gồm độ chính xác của mô hình, thông lượng dự đoán, mức sử dụng CPU / GPU và mức sử dụng bộ nhớ. Các cơ sở dữ liệu chuỗi thời gian như Prometheus thường được sử dụng để lưu trữ và truy vấn dữ liệu này.
- Theo dõi: Theo dõi cung cấp cái nhìn chi tiết về một yêu cầu hoặc giao dịch duy nhất khi nó di chuyển qua tất cả các thành phần của hệ thống. Trong quy trình thị giác máy tính , theo dõi có thể theo dõi một hình ảnh duy nhất từ khâu tiếp nhận và tiền xử lý đến suy luận mô hình và hậu xử lý, hiển thị thời gian dành cho mỗi bước. Điều này rất hữu ích trong việc xác định các điểm nghẽn và lỗi trong hệ thống phân tán.
Tại sao khả năng quan sát lại quan trọng đối với các hệ thống AI
Các mô hình học sâu có thể rất phức tạp và khó hiểu, khiến việc hiểu hành vi của chúng trong thế giới thực trở nên khó khăn. Khả năng quan sát là điều cần thiết cho:
- Gỡ lỗi và khắc phục sự cố: Khi một mô hình như Ultralytics YOLO11 đưa ra dự đoán không chính xác, các công cụ quan sát có thể giúp theo dõi dữ liệu đầu vào và kích hoạt mô hình để hiểu nguyên nhân.
- Phát hiện Độ lệch: Các mô hình AI có thể suy giảm chất lượng theo thời gian do độ lệch dữ liệu (khi phân phối dữ liệu sản xuất thay đổi so với dữ liệu huấn luyện ) hoặc độ lệch khái niệm. Khả năng quan sát giúp phát hiện những thay đổi này bằng cách theo dõi phân phối dữ liệu và hiệu suất mô hình.
- Đảm bảo sự tin cậy và công bằng: Trong các ứng dụng nhạy cảm như AI trong chăm sóc sức khỏe , khả năng quan sát hỗ trợ AI có thể giải thích (XAI) và tính minh bạch trong AI bằng cách cung cấp một bản ghi kiểm toán rõ ràng về các quyết định của mô hình. Điều này rất quan trọng để tuân thủ quy định và xây dựng niềm tin với các bên liên quan.
- Tối ưu hóa hiệu suất: Bằng cách theo dõi mức sử dụng tài nguyên và độ trễ, các nhóm có thể tối ưu hóa hiệu quả của mô hình và giảm chi phí vận hành, đây là mục tiêu chính của MLOps .
Ứng dụng trong thế giới thực
- Xe tự hành: Xe tự hành sử dụng mô hình nhận thức để phát hiện vật thể theo thời gian thực. Công cụ quan sát theo dõi khung hình camera trong toàn bộ hệ thống, từ cảm biến đến quyết định. Nếu xe không phát hiện được người đi bộ vào lúc hoàng hôn, các kỹ sư có thể sử dụng công nghệ theo dõi để xem liệu độ trễ trong bước tiền xử lý hình ảnh có phải là nguyên nhân hay không. Họ cũng có thể phân tích các số liệu về điểm tin cậy phát hiện vào các thời điểm khác nhau trong ngày để xác định các vấn đề hệ thống.
- Quản lý Hàng tồn kho Bán lẻ: Hệ thống bán lẻ thông minh sử dụng camera để giám sát hàng tồn kho trên kệ. Nền tảng quan sát theo dõi số lượng sản phẩm được phát hiện trên mỗi kệ, tần suất gọi API và độ trễ của dự đoán. Nếu hệ thống báo cáo mức tồn kho không chính xác cho một sản phẩm cụ thể, các nhà phát triển có thể lọc dấu vết cho SKU của sản phẩm đó, kiểm tra hình ảnh đã ghi và điểm dự đoán, đồng thời xác định xem ánh sáng kém hoặc bao bì bất thường có phải là nguyên nhân gây ra sự cố hay không. Điều này cho phép chẩn đoán và đào tạo lại nhanh chóng với khả năng tăng cường dữ liệu tốt hơn.
Công cụ và Nền tảng
Việc triển khai khả năng quan sát thường liên quan đến các công cụ và nền tảng chuyên dụng. Các giải pháp nguồn mở như Grafana (trực quan hóa), Loki (nhật ký) và Jaeger (theo dõi) rất phổ biến. OpenTelemetry cung cấp một tiêu chuẩn độc lập với nhà cung cấp cho việc đo lường. Các nền tảng thương mại như Datadog , New Relic và Dynatrace cung cấp các giải pháp tích hợp. Các nền tảng MLOps như MLflow , Weights & Biases và ClearML thường bao gồm các tính năng theo dõi thí nghiệm và giám sát mô hình. Ultralytics HUB hỗ trợ quản lý các lần chạy huấn luyện và mô hình đã triển khai, tích hợp với các công cụ như TensorBoard để trực quan hóa các số liệu, một khía cạnh quan trọng của khả năng quan sát trong giai đoạn huấn luyện mô hình .