Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử nghiệm và sai sót để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!
Reinforcement Learning (RL) là một lĩnh vực riêng biệt trong Machine Learning (ML) nơi một tác nhân học cách đưa ra quyết định bằng cách thực hiện các hành động trong môi trường để đạt được mục tiêu cụ thể. Không giống như các mô hình ML khác, các tác nhân RL không được chỉ rõ phải thực hiện hành động nào. Thay vào đó, chúng học thông qua thử nghiệm và sai sót, nhận phản hồi dưới dạng phần thưởng hoặc hình phạt dựa trên hành động của chúng. Mục tiêu cơ bản của tác nhân là học một chiến lược, được gọi là chính sách, giúp tối đa hóa phần thưởng tích lũy của nó theo thời gian.
Hiểu về RL bao gồm một số thành phần chính:
Quá trình RL là lặp đi lặp lại. Tác nhân quan sát trạng thái hiện tại của môi trường, chọn một hành động dựa trên chính sách hiện tại của nó và thực hiện hành động đó. Môi trường chuyển sang trạng thái mới và cung cấp tín hiệu phần thưởng cho tác nhân. Tác nhân sử dụng tín hiệu phần thưởng này để cập nhật chính sách của mình, nhằm mục đích nhận được nhiều phần thưởng hơn trong tương lai. Một khía cạnh quan trọng của quá trình này là sự cân bằng giữa khám phá (thử các hành động mới để khám phá ra phần thưởng có khả năng tốt hơn) và khai thác (sử dụng các hành động đã biết mang lại phần thưởng cao). Vòng lặp học tập này thường được chính thức hóa bằng cách sử dụng Quy trình quyết định Markov (MDP) .
RL khác biệt đáng kể so với các mô hình ML chính khác:
Trong khi các kỹ thuật từ Học sâu (DL) , chẳng hạn như sử dụng Mạng nơ-ron (NN) , thường được sử dụng trong RL (được gọi là Học tăng cường sâu) để xử lý các không gian trạng thái phức tạp (như hình ảnh) và các chính sách hoặc hàm giá trị gần đúng, thì cơ chế học cơ bản dựa trên phần thưởng vẫn riêng biệt.
RL đã chứng minh được sự thành công đáng kể trong nhiều lĩnh vực phức tạp:
Trong nhiều ứng dụng RL thực tế, đặc biệt là trong robot và hệ thống tự động, Thị giác máy tính (CV) đóng vai trò quan trọng. Các mô hình như Ultralytics YOLO có thể xử lý đầu vào trực quan (ví dụ: nguồn cấp dữ liệu camera) để trích xuất thông tin có liên quan về môi trường, hình thành biểu diễn 'trạng thái' được tác nhân RL sử dụng. Điều này cho phép các tác nhân nhận thức môi trường xung quanh và đưa ra quyết định sáng suốt dựa trên dữ liệu trực quan. Các công cụ như OpenAI Gym và các trình mô phỏng chuyên dụng thường được sử dụng để đào tạo các tác nhân RL dựa trên thị giác này. Trong khi Ultralytics các mô hình chủ yếu tập trung vào các nhiệm vụ nhận thức thông qua học có giám sát, đầu ra của chúng có thể đóng vai trò là đầu vào quan trọng cho các hệ thống RL kiểm soát các tác nhân vật lý hoặc điều hướng các môi trường thị giác phức tạp. Việc đào tạo và triển khai các hệ thống phức tạp như vậy có thể được quản lý bằng các nền tảng như Ultralytics HUB .
Để hiểu cơ bản về các khái niệm RL, các nguồn tài liệu như chương giới thiệu trong cuốn sách Reinforcement Learning của Sutton và Barto được khuyến khích sử dụng.