Thuật ngữ

Học tăng cường

Khám phá Học tăng cường: Chuyển đổi AI với khả năng ra quyết định tự động bằng cách sử dụng các khái niệm và ứng dụng RL trong robot, trò chơi và công nghiệp.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học tăng cường (RL) là một lĩnh vực con của học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách thực hiện các hành động trong môi trường để đạt được các mục tiêu nhất định. Không giống như học có giám sát, trong đó mô hình học từ một tập dữ liệu được gắn nhãn, học tăng cường dựa vào hệ thống phần thưởng và hình phạt để hướng dẫn tác nhân đến hành vi tối ưu.

Học tăng cường hoạt động như thế nào

Trong học tăng cường, tác nhân tương tác với môi trường theo các bước thời gian rời rạc. Ở mỗi bước, tác nhân nhận được phản hồi dưới dạng phần thưởng, là một giá trị số. Mục tiêu là tối đa hóa phần thưởng tích lũy theo thời gian. Tác nhân chọn hành động dựa trên chính sách, có thể là xác định hoặc ngẫu nhiên. Theo thời gian, chính sách được cải thiện khi tác nhân học hỏi từ hậu quả của hành động của mình.

Các yếu tố chính của hệ thống RL bao gồm:

  • Tác nhân : Người học hoặc người ra quyết định.
  • Môi trường : Mọi thứ mà tác nhân tương tác.
  • Hành động : Tất cả các hành động có thể mà tác nhân có thể thực hiện.
  • Phần thưởng : Phản hồi từ môi trường để đánh giá hành động.
  • Trạng thái : Biểu thị tình trạng hiện tại của môi trường.
  • Chính sách : Chiến lược mà tác nhân sử dụng để xác định hành động dựa trên trạng thái hiện tại.

Các khái niệm RL quan trọng

  • Hàm giá trị : Ước tính phần thưởng tích lũy dự kiến từ một trạng thái hoặc cặp trạng thái-hành động nhất định.
  • Q-Learning : Một thuật toán RL phổ biến trong đó tác nhân học trực tiếp giá trị của các hành động.
  • Khám phá so với Khai thác : Cân bằng giữa nhu cầu khám phá các chiến lược mới và khai thác các chiến lược thành công đã biết.
  • Học chênh lệch thời gian : Kết hợp các ý tưởng từ phương pháp Monte Carlo và lập trình động.

Phân biệt RL với các thuật ngữ liên quan

Học tăng cường khác với học có giám sát , trong đó mô hình học từ các cặp đầu vào-đầu ra. Thay vào đó, RL nhấn mạnh vào việc học từ tương tác với môi trường. Nó cũng khác với học không giám sát vì không có nhãn rõ ràng nào cho phản hồi phần thưởng.

Ứng dụng của Học tăng cường

Xe tự lái

Học tăng cường rất quan trọng trong việc phát triển AI cho xe tự lái . Các thuật toán RL giúp những chiếc xe này học các chiến lược lái xe tối ưu thông qua môi trường mô phỏng trước khi thử nghiệm thực tế.

Robotics

RL cho phép robot học các nhiệm vụ phức tạp bằng cách thử và sai. Ví dụ, robot trong kho có thể học cách xử lý nhiều vật thể khác nhau thông qua học tăng cường, tăng hiệu quả và độ chính xác.

Chơi trò chơi

RL đã được ứng dụng rộng rãi trong các trò chơi, nơi các tác nhân học cách chơi và thành thạo các trò chơi như cờ vây và cờ vua, như được chứng minh bởi AlphaGo của DeepMind .

RL trong Kinh doanh và Công nghiệp

Học tăng cường có thể tối ưu hóa các hoạt động như quản lý hàng tồn kho và hậu cần. Tại Ultralytics , các hệ thống dựa trên RL giúp đưa ra quyết định dựa trên dữ liệu để nâng cao hiệu quả và hiệu quả về chi phí trong chuỗi cung ứng.

Tài nguyên để khám phá thêm

  • Khám phá những kiến thức cơ bản về mạng nơ-ron thường được sử dụng trong thuật toán RL.
  • Hiểu cách điện toán đám mây hỗ trợ đào tạo RL quy mô lớn.
  • Khám phá cách Ultralytics HUB có thể hợp lý hóa nỗ lực đào tạo và triển khai mô hình của bạn.

Học tăng cường nổi bật là phương pháp mạnh mẽ để phát triển các hệ thống thông minh có khả năng ra quyết định tự động, trở thành nền tảng cho những tiến bộ trong trí tuệ nhân tạo và máy học.

Đọc tất cả