Thuật ngữ

Quá trình quyết định Markov (MDP)

Khám phá Quy trình ra quyết định Markov (MDP) và vai trò của chúng trong AI, học tăng cường, robot và ra quyết định trong chăm sóc sức khỏe.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Quy trình quyết định Markov (MDP) cung cấp một khuôn khổ toán học để mô hình hóa quá trình ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần có thể kiểm soát được bởi người ra quyết định, thường được gọi là tác nhân. Đây là một khái niệm nền tảng trong Trí tuệ nhân tạo (AI) , đặc biệt là nền tảng cho lĩnh vực Học tăng cường (RL) . MDP cho phép các tác nhân học các hành vi tối ưu thông qua thử nghiệm và sai sót bằng cách tương tác với môi trường của họ theo thời gian.

Các thành phần cốt lõi của MDP

MDP thường được xác định bởi một số thành phần chính sau:

  • Trạng thái (S): Một tập hợp các tình huống hoặc cấu hình có thể có mà tác nhân có thể gặp phải. Ví dụ, vị trí của một rô-bốt trong phòng hoặc mức tồn kho của một sản phẩm.
  • Hành động (A): Một tập hợp các lựa chọn có sẵn cho tác nhân ở mỗi trạng thái. Ví dụ, hướng mà robot có thể di chuyển hoặc số lượng sản phẩm cần đặt hàng.
  • Xác suất chuyển tiếp (P): Xác suất chuyển từ trạng thái này sang trạng thái khác sau khi thực hiện một hành động cụ thể. Điều này phản ánh sự không chắc chắn trong môi trường. Ví dụ, cố gắng di chuyển về phía trước có thể thành công 90% thời gian nhưng thất bại 10% (giữ nguyên vị trí hoặc đâm vào chướng ngại vật).
  • Phần thưởng (R): Một tín hiệu số mà tác nhân nhận được sau khi chuyển từ trạng thái này sang trạng thái khác do một hành động. Phần thưởng cho biết mong muốn chuyển đổi ngay lập tức. Mục tiêu thường là tối đa hóa phần thưởng tích lũy theo thời gian.
  • Chính sách (π): Chiến lược của tác nhân, quyết định hành động nào cần chọn trong mỗi trạng thái. Mục tiêu khi giải quyết MDP thường là tìm ra chính sách tối ưu để tối đa hóa phần thưởng dài hạn dự kiến. Các kỹ thuật từ Học tăng cường sâu thường được sử dụng để tìm ra các chính sách như vậy trong các môi trường phức tạp.

Tính chất Markov

Một đặc điểm xác định của MDP là Thuộc tính Markov. Giả định này nêu rằng trạng thái tương lai và phần thưởng chỉ phụ thuộc vào trạng thái hiện tại và hành động được thực hiện, không phụ thuộc vào trình tự các trạng thái và hành động dẫn đến trạng thái hiện tại. Về bản chất, trạng thái hiện tại chứa tất cả thông tin có liên quan từ quá khứ để đưa ra quyết định tối ưu cho tương lai. Điều này đơn giản hóa đáng kể quá trình lập mô hình. Bạn có thể tìm thêm thông tin chi tiết trên trang Thuộc tính Markov của Wikipedia .

Ứng dụng trong thế giới thực

MDP cung cấp cơ sở lý thuyết để giải quyết nhiều vấn đề quyết định tuần tự trong thế giới thực:

  • Điều hướng Robot : Một robot quyết định cách di chuyển để đến đích trong khi tránh chướng ngại vật. Các trạng thái là các vị trí và hướng có thể có của robot, các hành động là các lệnh di chuyển (tiến về phía trước, rẽ), các chuyển tiếp liên quan đến xác suất di chuyển thành công và phần thưởng có thể là tích cực khi đạt được mục tiêu và tiêu cực khi va chạm hoặc mất thời gian. Điều này mở rộng sang các hệ thống phức tạp như Xe tự hành .
  • Quản lý hàng tồn kho: Xác định chính sách đặt hàng tối ưu cho các sản phẩm có nhu cầu không chắc chắn. Các trạng thái biểu thị mức tồn kho, hành động là số lượng đặt hàng, quá trình chuyển đổi phụ thuộc vào nhu cầu khách hàng ngẫu nhiên và phần thưởng cân bằng doanh thu bán hàng với chi phí đặt hàng và lưu kho. Điều này rất quan trọng đối với các ứng dụng như AI để quản lý hàng tồn kho bán lẻ thông minh hơn . Bạn có thể tìm thấy công trình học thuật khám phá MDP trong Nghiên cứu hoạt động .
  • Chơi trò chơi: Các tác nhân AI học cách chơi các trò chơi như cờ vua hoặc cờ vây, trong đó trạng thái là cấu hình bàn cờ, hành động là các nước đi hợp lệ và phần thưởng được trao cho người chiến thắng trò chơi. Công trình của DeepMind trên AlphaGo cho thấy sức mạnh của RL trong các lĩnh vực như vậy.

Sự liên quan trong AI và Học máy

MDP chính thức hóa cấu trúc vấn đề cho hầu hết các tác vụ Học tăng cường . Không giống như Học có giám sát (học từ dữ liệu được gắn nhãn) hoặc Học không giám sát (tìm mẫu), RL tập trung vào việc học thông qua tương tác và phản hồi (phần thưởng) để đạt được mục tiêu dài hạn, biến MDP thành khuôn khổ tự nhiên. Mô hình này rất quan trọng đối với việc đào tạo các tác nhân cần đưa ra chuỗi quyết định trong môi trường động, ngày càng có liên quan trong các lĩnh vực như Thị giác máy tính (CV) đối với các tác vụ đòi hỏi nhận thức hoặc tương tác tích cực. Mục tiêu chung trong nhánh Học máy (ML) này thường là tối ưu hóa Độ chính xác dài hạn hoặc thành công của tác vụ thông qua tín hiệu phần thưởng.

Mối quan hệ với các khái niệm khác

Mặc dù liên quan đến các mô hình trình tự như Mô hình Markov ẩn (HMM) , MDP khác biệt vì chúng liên quan đến một tác nhân chủ động lựa chọn các hành động để tác động đến quá trình chuyển đổi và tối đa hóa phần thưởng, trong khi HMM thường mô hình hóa các hệ thống trong đó quá trình chuyển đổi trạng thái diễn ra dựa trên xác suất mà không có sự kiểm soát của tác nhân đối với các hành động. Giải quyết MDP thường liên quan đến các kỹ thuật như Lập trình động (nếu mô hình được biết đầy đủ) hoặc các thuật toán RL như học Q và phương pháp gradient chính sách khi mô hình không được biết. Các phương pháp này thường dựa vào Phương trình Bellman để liên hệ giá trị của trạng thái với các giá trị của các trạng thái tiếp theo. Các công cụ như OpenAI Gym (nay là Gymnasium) cung cấp môi trường để phát triển và thử nghiệm các tác nhân RL, thường được triển khai bằng các khuôn khổ như PyTorch . Việc quản lý đào tạo và Triển khai mô hình của các mô hình phức tạp như vậy có thể được tạo điều kiện thuận lợi bởi các nền tảng như Ultralytics HUB , hỗ trợ nhiều quy trình làm việc AI khác nhau, bao gồm cả những quy trình liên quan đến các mô hình tiên tiến như Ultralytics YOLO . Để hiểu toàn diện, hãy tham khảo các tài nguyên như sách RL của Sutton & Barto .

Đọc tất cả