Thuật ngữ

Quá trình quyết định Markov (MDP)

Khám phá Quy trình ra quyết định Markov (MDP) và vai trò của chúng trong AI, học tăng cường, robot và ra quyết định trong chăm sóc sức khỏe.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Quy trình quyết định Markov (MDP) là một khuôn khổ toán học được sử dụng để mô hình hóa quá trình ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần nằm trong tầm kiểm soát của người ra quyết định, thường được gọi là tác nhân. Đây là một khái niệm nền tảng trong Trí tuệ nhân tạo (AI) , đặc biệt là trong lĩnh vực Học tăng cường (RL) . MDP cung cấp một cách chính thức để mô tả các vấn đề mà trong đó một tác nhân tương tác với môi trường theo thời gian, học cách đưa ra chuỗi quyết định để đạt được một mục tiêu cụ thể, thường là tối đa hóa phần thưởng tích lũy. Khuôn khổ này rất cần thiết để hiểu cách các tác nhân có thể học được các hành vi tối ưu trong các môi trường phức tạp và không chắc chắn.

Các thành phần chính của MDP

MDP thường được xác định bởi một số thành phần chính sau:

  • Trạng thái (S): Một tập hợp các tình huống hoặc cấu hình có thể có mà tác nhân có thể gặp phải. Ví dụ, trong nhiệm vụ điều hướng của rô-bốt, trạng thái có thể biểu thị vị trí của rô-bốt trong lưới.
  • Hành động (A): Một tập hợp các lựa chọn có sẵn cho tác nhân ở mỗi trạng thái. Các hành động cụ thể có sẵn có thể phụ thuộc vào trạng thái hiện tại. Đối với robot, các hành động có thể là 'di chuyển về phía bắc', 'di chuyển về phía nam', 'di chuyển về phía đông', 'di chuyển về phía tây'.
  • Xác suất chuyển tiếp (P): Xác định xác suất di chuyển từ trạng thái này (các trạng thái) sang trạng thái khác (các trạng thái) sau khi thực hiện một hành động cụ thể (a). Điều này nắm bắt được sự không chắc chắn trong môi trường; một hành động không phải lúc nào cũng dẫn đến kết quả mong muốn. Ví dụ, một rô-bốt cố gắng di chuyển về phía bắc có thể có một cơ hội nhỏ bị trượt và ở lại cùng một vị trí hoặc di chuyển hơi lệch hướng.
  • Phần thưởng (R): Giá trị số mà tác nhân nhận được sau khi chuyển từ trạng thái (các trạng thái) sang trạng thái (các trạng thái) do hành động (a). Phần thưởng cho biết mức độ tốt hay xấu của một quá trình chuyển đổi hoặc trạng thái cụ thể. Mục tiêu thường là tối đa hóa tổng phần thưởng tích lũy theo thời gian. Việc đạt đến vị trí mục tiêu có thể mang lại phần thưởng tích cực lớn, trong khi việc va phải chướng ngại vật có thể mang lại phần thưởng tiêu cực.
  • Hệ số chiết khấu (γ): Giá trị từ 0 đến 1 xác định tầm quan trọng của phần thưởng trong tương lai so với phần thưởng trước mắt. Hệ số chiết khấu thấp hơn ưu tiên lợi nhuận ngắn hạn, trong khi giá trị cao hơn nhấn mạnh vào thành công dài hạn.

Một khía cạnh quan trọng của MDP là Tính chất Markov , nói rằng trạng thái và phần thưởng trong tương lai chỉ phụ thuộc vào trạng thái và hành động hiện tại, chứ không phụ thuộc vào trình tự các trạng thái và hành động dẫn đến trạng thái hiện tại.

MDP hoạt động như thế nào trong AI và Học máy

Trong bối cảnh Học máy (ML) , MDP tạo thành nền tảng cho hầu hết các thuật toán Học tăng cường . Mục tiêu trong MDP là tìm ra chính sách tối ưu (π), là chiến lược hoặc quy tắc cho tác nhân biết hành động nào cần thực hiện ở mỗi trạng thái để tối đa hóa phần thưởng chiết khấu tích lũy dự kiến của mình.

Các thuật toán như Q-learning, SARSA và các phương pháp chính sách gradient được thiết kế để giải quyết MDP, thường không yêu cầu kiến thức rõ ràng về xác suất chuyển đổi hoặc hàm phần thưởng, thay vào đó học chúng thông qua tương tác với môi trường. Vòng lặp tương tác này liên quan đến việc tác nhân quan sát trạng thái hiện tại, chọn hành động dựa trên chính sách của mình, nhận phần thưởng và chuyển sang trạng thái mới theo động lực của môi trường. Quá trình này lặp lại, cho phép tác nhân dần tinh chỉnh chính sách của mình. Mô hình học tập này khác đáng kể so với Học có giám sát (học từ dữ liệu được gắn nhãn) và Học không giám sát (tìm các mẫu trong dữ liệu không được gắn nhãn).

Ứng dụng trong thế giới thực

MDP và các kỹ thuật RL được sử dụng để giải quyết chúng có nhiều ứng dụng thực tế:

  • Robot : Huấn luyện robot thực hiện các nhiệm vụ phức tạp như điều hướng ở địa hình không xác định, thao tác vật thể hoặc hoạt động trên dây chuyền lắp ráp. Robot học trình tự hành động tốt nhất để đạt được mục tiêu trong khi xử lý các bất ổn về mặt vật lý. Xem cách thị giác máy tính tích hợp với robot .
  • Hệ thống tự động: Tối ưu hóa hành vi của xe tự hành , chẳng hạn như quyết định khi nào cần chuyển làn đường hoặc cách di chuyển qua các ngã tư một cách an toàn và hiệu quả ( AI trong xe tự lái ).
  • Tài chính: Phát triển các chiến lược giao dịch theo thuật toán trong đó một tác nhân tìm hiểu các chính sách mua/bán tối ưu dựa trên trạng thái thị trường hoặc tối ưu hóa danh mục đầu tư ( blog AI trong tài chính ).
  • Quản lý tài nguyên: Tối ưu hóa các quyết định trong các lĩnh vực như kiểm soát hàng tồn kho , phân phối năng lượng trong lưới điện thông minh ( blog AI trong năng lượng ) hoặc phân bổ kênh động trong mạng không dây.
  • Chơi trò chơi: Đào tạo các tác nhân AI chơi các trò chơi cờ bàn phức tạp (như cờ vây hoặc cờ vua) hoặc các trò chơi điện tử ở cấp độ siêu phàm, chẳng hạn như AlphaGo của DeepMind .

Mối quan hệ với các khái niệm khác

Sẽ rất hữu ích khi phân biệt MDP với các khái niệm liên quan:

  • Học tăng cường (RL) : RL là một lĩnh vực học máy liên quan đến cách các tác nhân học các hành vi tối ưu thông qua thử nghiệm và sai sót. MDP cung cấp khuôn khổ toán học chính thức xác định vấn đề mà các thuật toán RL hướng đến để giải quyết. Học tăng cường sâu kết hợp RL với Học sâu (DL) để xử lý các không gian trạng thái phức tạp, nhiều chiều.
  • Mô hình Markov ẩn (HMM) : HMM là mô hình thống kê được sử dụng khi hệ thống được mô hình hóa được coi là một quá trình Markov với các trạng thái không quan sát được (ẩn). Không giống như MDP, HMM chủ yếu tập trung vào việc suy ra các trạng thái ẩn từ các quan sát và thường không liên quan đến các hành động hoặc phần thưởng cho việc ra quyết định.
  • Lập trình động : Các kỹ thuật như Lặp giá trị và Lặp chính sách, có thể giải quyết MDP nếu mô hình (chuyển đổi và phần thưởng) được biết, dựa trên các nguyên tắc lập trình động.

Phát triển các giải pháp dựa trên MDP thường liên quan đến việc sử dụng các thư viện RL được xây dựng trên các khuôn khổ như PyTorch hoặc TensorFlow . Quản lý các thí nghiệm và đào tạo mô hình có thể liên quan đến các nền tảng như Ultralytics HUB để hợp lý hóa quy trình làm việc của dự án AI . Đánh giá mô hình hiệu quả là rất quan trọng để đánh giá hiệu suất của chính sách đã học.

Đọc tất cả