Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử nghiệm và sai sót để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!
Học tăng cường (RL) là một loại Học máy (ML) trong đó một tác nhân thông minh học cách đưa ra một chuỗi các quyết định bằng cách cố gắng tối đa hóa phần thưởng mà nó nhận được cho các hành động của mình. Không giống như học có giám sát , học từ các ví dụ được gắn nhãn hoặc học không giám sát , tìm ra các mẫu trong dữ liệu không được gắn nhãn, RL học thông qua thử nghiệm và sai sót bằng cách tương tác với môi trường. Tác nhân nhận được phản hồi dưới dạng phần thưởng hoặc hình phạt dựa trên các hành động mà nó thực hiện, hướng dẫn quá trình học của nó hướng tới việc đạt được một mục tiêu cụ thể.
Một số thành phần chính xác định hệ thống Học tăng cường:
Một thách thức cơ bản trong RL là sự đánh đổi giữa khám phá và khai thác : tác nhân phải cân bằng giữa việc khám phá các hành động mới để tìm ra phần thưởng có khả năng cao hơn (khám phá) với việc lựa chọn các hành động được biết là mang lại phần thưởng tốt (khai thác).
Quá trình RL thường mang tính lặp lại. Tác nhân quan sát trạng thái hiện tại của môi trường, chọn hành động dựa trên chính sách hiện tại của nó, thực hiện hành động và nhận phần thưởng (hoặc hình phạt) và trạng thái tiếp theo từ môi trường. Phản hồi này được sử dụng để cập nhật chính sách hoặc hàm giá trị của tác nhân, cải thiện khả năng ra quyết định của nó theo thời gian. Các thuật toán RL phổ biến bao gồm các phương pháp Q-learning, SARSA và Policy Gradient, mỗi phương pháp sử dụng các chiến lược khác nhau để học và cập nhật chính sách. Học tăng cường sâu (DRL) kết hợp RL với các kỹ thuật học sâu , sử dụng mạng nơ-ron (NN) để ước tính các chính sách hoặc hàm giá trị, cho phép RL giải quyết các vấn đề với không gian trạng thái phức tạp, nhiều chiều như hình ảnh hoặc dữ liệu cảm biến.
RL khác biệt đáng kể so với các mô hình ML khác:
RL đã tạo ra những đột phá trong nhiều lĩnh vực khác nhau:
Học tăng cường là một thành phần quan trọng của bối cảnh Trí tuệ nhân tạo (AI) rộng lớn hơn, đặc biệt là để tạo ra các hệ thống tự động có khả năng đưa ra quyết định phức tạp. Trong khi các công ty như Ultralytics chuyên về các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân đoạn thể hiện bằng cách sử dụng học có giám sát, khả năng nhận thức do các mô hình này cung cấp thường là đầu vào thiết yếu (trạng thái) cho các tác nhân RL. Ví dụ, một rô-bốt có thể sử dụng mô hình phát hiện đối tượng được triển khai thông qua Ultralytics HUB để hiểu môi trường xung quanh trước khi chính sách RL quyết định bước đi tiếp theo của nó. Hiểu RL cung cấp bối cảnh về cách nhận thức nâng cao phù hợp với việc xây dựng các hệ thống thông minh, tự chủ, thường được phát triển bằng các khuôn khổ như PyTorch và được thử nghiệm trong các môi trường mô phỏng như Gymnasium (trước đây là OpenAI Gym) . Nhiều ứng dụng trong thế giới thực liên quan đến việc tích hợp nhận thức ( Tầm nhìn máy tính ) với việc ra quyết định (RL).