Khám phá Quy trình ra quyết định Markov (MDP) và vai trò của chúng trong AI, học tăng cường, robot và ra quyết định trong chăm sóc sức khỏe.
Quy trình quyết định Markov (MDP) cung cấp một khuôn khổ toán học để mô hình hóa quá trình ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần có thể kiểm soát được bởi người ra quyết định, thường được gọi là tác nhân. Đây là một khái niệm nền tảng trong Trí tuệ nhân tạo (AI) , đặc biệt là nền tảng cho lĩnh vực Học tăng cường (RL) . MDP cho phép các tác nhân học các hành vi tối ưu thông qua thử nghiệm và sai sót bằng cách tương tác với môi trường của họ theo thời gian.
MDP thường được xác định bởi một số thành phần chính sau:
Một đặc điểm xác định của MDP là Thuộc tính Markov. Giả định này nêu rằng trạng thái tương lai và phần thưởng chỉ phụ thuộc vào trạng thái hiện tại và hành động được thực hiện, không phụ thuộc vào trình tự các trạng thái và hành động dẫn đến trạng thái hiện tại. Về bản chất, trạng thái hiện tại chứa tất cả thông tin có liên quan từ quá khứ để đưa ra quyết định tối ưu cho tương lai. Điều này đơn giản hóa đáng kể quá trình lập mô hình. Bạn có thể tìm thêm thông tin chi tiết trên trang Thuộc tính Markov của Wikipedia .
MDP cung cấp cơ sở lý thuyết để giải quyết nhiều vấn đề quyết định tuần tự trong thế giới thực:
MDP chính thức hóa cấu trúc vấn đề cho hầu hết các tác vụ Học tăng cường . Không giống như Học có giám sát (học từ dữ liệu được gắn nhãn) hoặc Học không giám sát (tìm mẫu), RL tập trung vào việc học thông qua tương tác và phản hồi (phần thưởng) để đạt được mục tiêu dài hạn, biến MDP thành khuôn khổ tự nhiên. Mô hình này rất quan trọng đối với việc đào tạo các tác nhân cần đưa ra chuỗi quyết định trong môi trường động, ngày càng có liên quan trong các lĩnh vực như Thị giác máy tính (CV) đối với các tác vụ đòi hỏi nhận thức hoặc tương tác tích cực. Mục tiêu chung trong nhánh Học máy (ML) này thường là tối ưu hóa Độ chính xác dài hạn hoặc thành công của tác vụ thông qua tín hiệu phần thưởng.
Mặc dù liên quan đến các mô hình trình tự như Mô hình Markov ẩn (HMM) , MDP khác biệt vì chúng liên quan đến một tác nhân chủ động lựa chọn các hành động để tác động đến quá trình chuyển đổi và tối đa hóa phần thưởng, trong khi HMM thường mô hình hóa các hệ thống trong đó quá trình chuyển đổi trạng thái diễn ra dựa trên xác suất mà không có sự kiểm soát của tác nhân đối với các hành động. Giải quyết MDP thường liên quan đến các kỹ thuật như Lập trình động (nếu mô hình được biết đầy đủ) hoặc các thuật toán RL như học Q và phương pháp gradient chính sách khi mô hình không được biết. Các phương pháp này thường dựa vào Phương trình Bellman để liên hệ giá trị của trạng thái với các giá trị của các trạng thái tiếp theo. Các công cụ như OpenAI Gym (nay là Gymnasium) cung cấp môi trường để phát triển và thử nghiệm các tác nhân RL, thường được triển khai bằng các khuôn khổ như PyTorch . Việc quản lý đào tạo và Triển khai mô hình của các mô hình phức tạp như vậy có thể được tạo điều kiện thuận lợi bởi các nền tảng như Ultralytics HUB , hỗ trợ nhiều quy trình làm việc AI khác nhau, bao gồm cả những quy trình liên quan đến các mô hình tiên tiến như Ultralytics YOLO . Để hiểu toàn diện, hãy tham khảo các tài nguyên như sách RL của Sutton & Barto .