Trong lĩnh vực Trí tuệ nhân tạo và Học máy, một khi mô hình được đào tạo, hành trình của nó còn lâu mới kết thúc. Để các mô hình này hữu ích trong thực tế, chúng cần phải có thể truy cập được để đưa ra dự đoán về dữ liệu mới, chưa từng thấy. Đây chính là lúc phục vụ mô hình phát huy tác dụng. Phục vụ mô hình là quá trình triển khai mô hình học máy đã được đào tạo vào môi trường sản xuất, nơi ứng dụng hoặc hệ thống có thể truy cập để thực hiện suy luận. Về cơ bản, nó thu hẹp khoảng cách giữa phát triển mô hình và ứng dụng thực tế, cho phép doanh nghiệp và người dùng tận dụng sức mạnh của các mô hình AI.
Tầm quan trọng của việc phục vụ mô hình
Phục vụ mô hình là rất quan trọng vì nó chuyển đổi một mô hình tĩnh, được đào tạo thành một dịch vụ động, hoạt động. Nếu không có phục vụ mô hình, các mô hình học máy sẽ vẫn bị giới hạn trong môi trường phát triển, không thể cung cấp giá trị trong các tình huống thực tế. Phục vụ mô hình hiệu quả đảm bảo:
- Dự đoán thời gian thực: Cho phép các ứng dụng đưa ra dự đoán ngay lập tức, điều cần thiết cho các tác vụ nhạy cảm về thời gian như phát hiện gian lận hoặc lái xe tự động. Suy luận thời gian thực rất quan trọng trong nhiều ứng dụng AI hiện đại.
- Khả năng mở rộng và độ tin cậy: Môi trường sản xuất đòi hỏi khả năng mở rộng để xử lý các tải khác nhau và độ tin cậy để đảm bảo hoạt động liên tục. Cơ sở hạ tầng phục vụ mô hình được thiết kế để đáp ứng các nhu cầu này, mở rộng tài nguyên khi cần và duy trì tính khả dụng cao.
- Khả năng truy cập và tích hợp: Cung cấp một cách chuẩn hóa để truy cập các mô hình thông qua API, giúp dễ dàng tích hợp các khả năng AI vào nhiều ứng dụng khác nhau, từ dịch vụ web đến ứng dụng di động. Điều này tạo điều kiện thuận lợi cho việc kết hợp thị giác máy tính hoặc xử lý ngôn ngữ tự nhiên (NLP) vào các hệ thống rộng hơn.
- Quản lý và phiên bản mô hình: Tạo điều kiện thuận lợi cho việc quản lý các phiên bản mô hình khác nhau, cho phép cập nhật và khôi phục liền mạch. Điều này rất quan trọng để duy trì độ chính xác của mô hình và thích ứng với dữ liệu đang phát triển. Ultralytics HUB cung cấp các công cụ để quản lý mô hình hiệu quả.
Ứng dụng trong thế giới thực
Mô hình phục vụ cung cấp năng lượng cho một loạt các ứng dụng AI trên khắp các ngành công nghiệp. Sau đây là một vài ví dụ cụ thể:
- Đề xuất sản phẩm thương mại điện tử: Các nền tảng thương mại điện tử sử dụng mô hình phục vụ để cung cấp các đề xuất sản phẩm được cá nhân hóa theo thời gian thực. Một mô hình hệ thống đề xuất được đào tạo được phục vụ thông qua API. Khi người dùng duyệt trang web, ứng dụng sẽ gửi dữ liệu người dùng đến điểm cuối phục vụ mô hình, sau đó trả về các đề xuất sản phẩm được dự đoán để hiển thị cho người dùng, nâng cao trải nghiệm của khách hàng và thúc đẩy doanh số.
- Phân tích hình ảnh y tế để chẩn đoán: Trong chăm sóc sức khỏe, các mô hình phân tích hình ảnh y tế , chẳng hạn như các mô hình được sử dụng để phát hiện khối u, được dùng để hỗ trợ các bác sĩ X quang. Khi có được hình ảnh y tế mới (như X-quang hoặc MRI), hình ảnh đó sẽ được gửi đến hệ thống phục vụ mô hình. Mô hình thực hiện suy luận và trả về thông tin chẩn đoán, chẳng hạn như làm nổi bật các bất thường tiềm ẩn, hỗ trợ chẩn đoán nhanh hơn và chính xác hơn.
Các thành phần chính của mô hình phục vụ
Một mô hình kiến trúc phục vụ tiêu biểu bao gồm một số thành phần chính hoạt động phối hợp:
- Mô hình được đào tạo: Thành phần cốt lõi là chính mô hình máy học được đào tạo, thường được lưu ở các định dạng như ONNX hoặc TensorFlow SavedModel để triển khai hiệu quả. Ultralytics YOLO Các mô hình có thể được xuất sang nhiều định dạng khác nhau để triển khai linh hoạt, bao gồm TensorRT và OpenVINO .
- Cơ sở hạ tầng phục vụ: Bao gồm môi trường phần cứng và phần mềm nơi mô hình chạy. Có thể là các nền tảng đám mây như Amazon SageMaker hoặc Google Cloud AI Platform hoặc máy chủ tại chỗ. Các tùy chọn điện toán không máy chủ cũng đang trở nên phổ biến vì khả năng mở rộng và hiệu quả về chi phí.
- Máy chủ API: Máy chủ API (Giao diện lập trình ứng dụng) hoạt động như giao diện giữa các ứng dụng và mô hình được phục vụ. Nó nhận các yêu cầu dự đoán, gửi chúng đến mô hình để suy luận và trả về các dự đoán. Các khuôn khổ API phổ biến bao gồm REST và gRPC .
- Bộ cân bằng tải: Để xử lý lưu lượng truy cập cao và đảm bảo khả năng mở rộng, bộ cân bằng tải phân phối các yêu cầu đến trên nhiều phiên bản của cơ sở hạ tầng phục vụ, ngăn ngừa quá tải và duy trì hiệu suất.
- Giám sát và ghi nhật ký: Hệ thống giám sát và ghi nhật ký mạnh mẽ là cần thiết để theo dõi hiệu suất mô hình, phát hiện sự cố và đảm bảo độ tin cậy của hệ thống phục vụ theo thời gian. Điều này bao gồm giám sát độ trễ suy luận , thông lượng và tỷ lệ lỗi và là một phần của giám sát mô hình .
Triển khai mô hình so với phục vụ mô hình
Mặc dù thường được sử dụng thay thế cho nhau, triển khai mô hình và phục vụ mô hình có ý nghĩa riêng biệt. Triển khai mô hình là quá trình rộng hơn để tạo mô hình có sẵn để sử dụng, có thể bao gồm nhiều phương pháp khác nhau ngoài việc chỉ phục vụ thông qua API. Các tùy chọn triển khai mô hình có thể bao gồm nhúng mô hình trực tiếp vào ứng dụng, triển khai đến các thiết bị biên hoặc thiết lập đường ống suy luận hàng loạt.
Cụ thể, phục vụ mô hình đề cập đến việc thiết lập một dịch vụ chuyên dụng, có thể mở rộng và có thể truy cập để suy luận theo thời gian thực, thường thông qua API. Đây là một loại triển khai cụ thể tập trung vào khả năng dự đoán liên tục, theo yêu cầu. Việc lựa chọn giữa các phương pháp triển khai phụ thuộc vào các yêu cầu của ứng dụng, chẳng hạn như nhu cầu về độ trễ, nhu cầu về khả năng mở rộng và độ phức tạp của tích hợp. Đối với các ứng dụng yêu cầu dự đoán tức thời và tích hợp liền mạch vào các hệ thống đa dạng, phục vụ mô hình là phương pháp lý tưởng.