Thuật ngữ

Học tăng cường

Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử nghiệm và sai sót để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học tăng cường (RL) là một loại Học máy (ML) trong đó một tác nhân thông minh học cách đưa ra một chuỗi các quyết định bằng cách cố gắng tối đa hóa phần thưởng mà nó nhận được cho các hành động của mình. Không giống như học có giám sát , học từ các ví dụ được gắn nhãn hoặc học không giám sát , tìm ra các mẫu trong dữ liệu không được gắn nhãn, RL học thông qua thử nghiệm và sai sót bằng cách tương tác với môi trường. Tác nhân nhận được phản hồi dưới dạng phần thưởng hoặc hình phạt dựa trên các hành động mà nó thực hiện, hướng dẫn quá trình học của nó hướng tới việc đạt được một mục tiêu cụ thể.

Các khái niệm cốt lõi

Một số thành phần chính xác định hệ thống Học tăng cường:

  • Tác nhân: Người học hoặc thực thể ra quyết định tương tác với môi trường.
  • Môi trường: Hệ thống hoặc thế giới bên ngoài mà tác nhân hoạt động.
  • Trạng thái: Biểu thị tình hình hoặc cấu hình hiện tại của môi trường được tác nhân nhận thức.
  • Hành động: Một quyết định hoặc hành động được thực hiện bởi tác nhân trong môi trường.
  • Phần thưởng: Một tín hiệu số nhận được từ môi trường sau khi thực hiện một hành động, cho biết hành động đó tốt hay xấu ở trạng thái cụ thể. Mục tiêu của tác nhân thường là tối đa hóa phần thưởng tích lũy theo thời gian.
  • Chính sách: Chiến lược hoặc bản đồ mà tác nhân sử dụng để xác định hành động tiếp theo dựa trên trạng thái hiện tại. Về cơ bản, đây là những gì tác nhân học được.
  • Hàm giá trị: Dự đoán về phần thưởng tương lai mong đợi có thể đạt được từ một trạng thái nhất định hoặc bằng cách thực hiện một hành động cụ thể trong một trạng thái nhất định, theo một chính sách cụ thể.
  • Quy trình quyết định Markov (MDP) : Một khuôn khổ toán học thường được sử dụng để mô hình hóa các vấn đề RL, xác định sự tương tác giữa tác nhân và môi trường.

Một thách thức cơ bản trong RL là sự đánh đổi giữa khám phá và khai thác : tác nhân phải cân bằng giữa việc khám phá các hành động mới để tìm ra phần thưởng có khả năng cao hơn (khám phá) với việc lựa chọn các hành động được biết là mang lại phần thưởng tốt (khai thác).

Học tăng cường hoạt động như thế nào

Quá trình RL thường mang tính lặp lại. Tác nhân quan sát trạng thái hiện tại của môi trường, chọn hành động dựa trên chính sách hiện tại của nó, thực hiện hành động và nhận phần thưởng (hoặc hình phạt) và trạng thái tiếp theo từ môi trường. Phản hồi này được sử dụng để cập nhật chính sách hoặc hàm giá trị của tác nhân, cải thiện khả năng ra quyết định của nó theo thời gian. Các thuật toán RL phổ biến bao gồm các phương pháp Q-learning, SARSA và Policy Gradient, mỗi phương pháp sử dụng các chiến lược khác nhau để học và cập nhật chính sách. Học tăng cường sâu (DRL) kết hợp RL với các kỹ thuật học sâu , sử dụng mạng nơ-ron (NN) để ước tính các chính sách hoặc hàm giá trị, cho phép RL giải quyết các vấn đề với không gian trạng thái phức tạp, nhiều chiều như hình ảnh hoặc dữ liệu cảm biến.

So sánh với các mô hình học tập khác

RL khác biệt đáng kể so với các mô hình ML khác:

  • Học có giám sát : Học từ một tập dữ liệu chứa các ví dụ được gắn nhãn (cặp đầu vào-đầu ra). Mục tiêu là học một hàm ánh xạ dự đoán đầu ra cho các đầu vào mới. Ví dụ bao gồm phân loại hình ảnh và hồi quy. RL học từ tương tác và phản hồi (phần thưởng), không phải từ các câu trả lời đúng được xác định trước.
  • Học không giám sát : Học các mẫu và cấu trúc từ dữ liệu không có nhãn. Ví dụ bao gồm phân cụmgiảm chiều . RL hướng đến mục tiêu, học một chính sách để tối đa hóa phần thưởng, trong khi học không giám sát tập trung vào khám phá cấu trúc dữ liệu.

Ứng dụng trong thế giới thực

RL đã tạo ra những đột phá trong nhiều lĩnh vực khác nhau:

  • Robot : Đào tạo robot thực hiện các nhiệm vụ phức tạp như thao tác vật thể, di chuyển và điều hướng trong môi trường không quen thuộc. Các công ty như Boston Dynamics giới thiệu các khả năng robot tiên tiến thường được phát triển bằng các nguyên tắc RL. Xem Ultralytics làm việc về việc tích hợp thị giác máy tính vào robot .
  • Chơi trò chơi: Tạo ra các tác nhân đạt hiệu suất siêu phàm trong các trò chơi phức tạp, chẳng hạn như Cờ vây ( AlphaGo của DeepMind ) và các trò chơi video phức tạp ( OpenAI Five ).
  • Xe tự hành : Phát triển hệ thống ra quyết định cho xe tự lái, chẳng hạn như lập kế hoạch đường đi và chiến lược kiểm soát. Khám phá AI trong các giải pháp ô tô .
  • Hệ thống đề xuất : Tối ưu hóa các đề xuất (ví dụ: phim, sản phẩm) dựa trên tương tác của người dùng để tối đa hóa sự gắn kết lâu dài.
  • Quản lý tài nguyên: Tối ưu hóa việc phân bổ tài nguyên trong các lĩnh vực như quản lý lưới điện, điều khiển đèn giao thông ( AI trong Quản lý giao thông ) và hậu cần chuỗi cung ứng .

Sự liên quan trong hệ sinh thái AI

Học tăng cường là một thành phần quan trọng của bối cảnh Trí tuệ nhân tạo (AI) rộng lớn hơn, đặc biệt là để tạo ra các hệ thống tự động có khả năng đưa ra quyết định phức tạp. Trong khi các công ty như Ultralytics chuyên về các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân đoạn thể hiện bằng cách sử dụng học có giám sát, khả năng nhận thức do các mô hình này cung cấp thường là đầu vào thiết yếu (trạng thái) cho các tác nhân RL. Ví dụ, một rô-bốt có thể sử dụng mô hình phát hiện đối tượng được triển khai thông qua Ultralytics HUB để hiểu môi trường xung quanh trước khi chính sách RL quyết định bước đi tiếp theo của nó. Hiểu RL cung cấp bối cảnh về cách nhận thức nâng cao phù hợp với việc xây dựng các hệ thống thông minh, tự chủ, thường được phát triển bằng các khuôn khổ như PyTorch và được thử nghiệm trong các môi trường mô phỏng như Gymnasium (trước đây là OpenAI Gym) . Nhiều ứng dụng trong thế giới thực liên quan đến việc tích hợp nhận thức ( Tầm nhìn máy tính ) với việc ra quyết định (RL).

Đọc tất cả