Thuật ngữ

Học tăng cường

Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử nghiệm và sai sót để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Reinforcement Learning (RL) là một lĩnh vực riêng biệt trong Machine Learning (ML) nơi một tác nhân học cách đưa ra quyết định bằng cách thực hiện các hành động trong môi trường để đạt được mục tiêu cụ thể. Không giống như các mô hình ML khác, các tác nhân RL không được chỉ rõ phải thực hiện hành động nào. Thay vào đó, chúng học thông qua thử nghiệm và sai sót, nhận phản hồi dưới dạng phần thưởng hoặc hình phạt dựa trên hành động của chúng. Mục tiêu cơ bản của tác nhân là học một chiến lược, được gọi là chính sách, giúp tối đa hóa phần thưởng tích lũy của nó theo thời gian.

Các khái niệm cốt lõi trong học tăng cường

Hiểu về RL bao gồm một số thành phần chính:

  • Tác nhân: Người học hoặc người ra quyết định tương tác với môi trường.
  • Môi trường: Thế giới bên ngoài hoặc hệ thống mà tác nhân tương tác. Nó cung cấp phản hồi cho tác nhân.
  • Trạng thái: Biểu diễn tình huống hoặc cấu hình hiện tại của môi trường. Trong các ứng dụng Thị giác máy tính (CV) , trạng thái có thể được lấy từ dữ liệu hình ảnh.
  • Hành động: Một động thái hoặc quyết định được thực hiện bởi tác nhân, ảnh hưởng đến trạng thái của môi trường.
  • Phần thưởng: Tín hiệu phản hồi số từ môi trường cho biết hành động cuối cùng của tác nhân tốt hay xấu liên quan đến mục tiêu.
  • Chính sách: Chiến lược hoặc bản đồ mà tác nhân sử dụng để xác định hành động tiếp theo dựa trên trạng thái hiện tại. Mục tiêu của RL là tìm ra chính sách tối ưu.

Học tăng cường hoạt động như thế nào

Quá trình RL là lặp đi lặp lại. Tác nhân quan sát trạng thái hiện tại của môi trường, chọn một hành động dựa trên chính sách hiện tại của nó và thực hiện hành động đó. Môi trường chuyển sang trạng thái mới và cung cấp tín hiệu phần thưởng cho tác nhân. Tác nhân sử dụng tín hiệu phần thưởng này để cập nhật chính sách của mình, nhằm mục đích nhận được nhiều phần thưởng hơn trong tương lai. Một khía cạnh quan trọng của quá trình này là sự cân bằng giữa khám phá (thử các hành động mới để khám phá ra phần thưởng có khả năng tốt hơn) và khai thác (sử dụng các hành động đã biết mang lại phần thưởng cao). Vòng lặp học tập này thường được chính thức hóa bằng cách sử dụng Quy trình quyết định Markov (MDP) .

So sánh với các loại máy học khác

RL khác biệt đáng kể so với các mô hình ML chính khác:

  • Học có giám sát : Học từ các tập dữ liệu được gắn nhãn, trong đó đầu ra chính xác được cung cấp cho mỗi đầu vào. RL học từ các tín hiệu phần thưởng mà không có nhãn hành động chính xác rõ ràng.
  • Học không giám sát : Tìm các mẫu và cấu trúc trong dữ liệu không có nhãn. RL tập trung vào việc học theo mục tiêu thông qua tương tác và phản hồi.

Trong khi các kỹ thuật từ Học sâu (DL) , chẳng hạn như sử dụng Mạng nơ-ron (NN) , thường được sử dụng trong RL (được gọi là Học tăng cường sâu) để xử lý các không gian trạng thái phức tạp (như hình ảnh) và các chính sách hoặc hàm giá trị gần đúng, thì cơ chế học cơ bản dựa trên phần thưởng vẫn riêng biệt.

Ứng dụng trong thế giới thực

RL đã chứng minh được sự thành công đáng kể trong nhiều lĩnh vực phức tạp:

  1. Chơi trò chơi: Các tác nhân RL đã đạt được hiệu suất siêu phàm trong các trò chơi phức tạp như Go ( AlphaGo của DeepMind ) và nhiều trò chơi điện tử khác ( OpenAI Five trong Dota 2 ). Các tác nhân này học các chiến lược phức tạp thông qua việc tự chơi, vượt xa khả năng của con người. Khả năng này được khám phá trong AI trong Trò chơi điện tử .
  2. Robot : RL được sử dụng để huấn luyện robot thực hiện các nhiệm vụ như di chuyển, thao tác vật thể và lắp ráp. Robot có thể học các kỹ năng vận động phức tạp trong môi trường mô phỏng hoặc trực tiếp thông qua tương tác trong thế giới thực, thích nghi với các tình huống không lường trước được. Bạn có thể tìm hiểu thêm về Hiểu về Tích hợp Robot .
  3. Xe tự hành : Thuật toán RL có thể được sử dụng để tối ưu hóa các chính sách lái xe, chẳng hạn như ra quyết định thay đổi làn đường, nhập làn hoặc điều hướng qua các giao lộ, góp phần vào những tiến bộ được thảo luận trong AI trong Xe tự lái .
  4. Hệ thống đề xuất: RL có thể cá nhân hóa các đề xuất bằng cách tìm hiểu sở thích của người dùng dựa trên tương tác và phản hồi theo thời gian, thích ứng linh hoạt với sở thích thay đổi. Tìm hiểu thêm về hệ thống đề xuất .

Học tăng cường và thị giác máy tính

Trong nhiều ứng dụng RL thực tế, đặc biệt là trong robot và hệ thống tự động, Thị giác máy tính (CV) đóng vai trò quan trọng. Các mô hình như Ultralytics YOLO có thể xử lý đầu vào trực quan (ví dụ: nguồn cấp dữ liệu camera) để trích xuất thông tin có liên quan về môi trường, hình thành biểu diễn 'trạng thái' được tác nhân RL sử dụng. Điều này cho phép các tác nhân nhận thức môi trường xung quanh và đưa ra quyết định sáng suốt dựa trên dữ liệu trực quan. Các công cụ như OpenAI Gym và các trình mô phỏng chuyên dụng thường được sử dụng để đào tạo các tác nhân RL dựa trên thị giác này. Trong khi Ultralytics các mô hình chủ yếu tập trung vào các nhiệm vụ nhận thức thông qua học có giám sát, đầu ra của chúng có thể đóng vai trò là đầu vào quan trọng cho các hệ thống RL kiểm soát các tác nhân vật lý hoặc điều hướng các môi trường thị giác phức tạp. Việc đào tạo và triển khai các hệ thống phức tạp như vậy có thể được quản lý bằng các nền tảng như Ultralytics HUB .

Để hiểu cơ bản về các khái niệm RL, các nguồn tài liệu như chương giới thiệu trong cuốn sách Reinforcement Learning của Sutton và Barto được khuyến khích sử dụng.

Đọc tất cả