Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học tăng cường (Reinforcement Learning)

Khám phá các khái niệm cốt lõi của Học tăng cường (Reinforcement Learning - RL). Tìm hiểu cách các tác nhân sử dụng phản hồi để hoàn thành nhiệm vụ và xem cách thức hoạt động của chúng. Ultralytics YOLO26 cung cấp năng lượng cho các hệ thống thị giác RL.

Học tăng cường (Reinforcement Learning - RL) là một nhánh nhỏ hướng mục tiêu của học máy (Machine Learning - ML), trong đó một hệ thống tự động, được gọi là tác nhân (agent), học cách đưa ra quyết định bằng cách thực hiện các hành động và nhận phản hồi từ môi trường của nó. Không giống như học có giám sát , dựa trên các tập dữ liệu tĩnh được gắn nhãn với các câu trả lời đúng, các thuật toán RL học thông qua một quá trình thử và sai năng động. Tác nhân tương tác với một mô phỏng hoặc thế giới thực, quan sát hậu quả của các hành động của nó để xác định chiến lược nào mang lại phần thưởng dài hạn cao nhất. Cách tiếp cận này mô phỏng chặt chẽ khái niệm tâm lý học về điều kiện hóa hành động , trong đó hành vi được hình thành bởi sự củng cố tích cực (phần thưởng) và củng cố tiêu cực (hình phạt) theo thời gian.

Các khái niệm cốt lõi của vòng lặp RL

Để hiểu cách thức hoạt động của RL, việc hình dung nó như một chu kỳ tương tác liên tục sẽ rất hữu ích. Khung lý thuyết này thường được hình thức hóa về mặt toán học dưới dạng Quy trình Quyết định Markov (MDP) , cấu trúc việc ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần được kiểm soát bởi người ra quyết định.

Các thành phần chính của chu trình học tập này bao gồm:

  • Tác nhân AI : Thực thể chịu trách nhiệm học hỏi và đưa ra quyết định. Nó nhận thức môi trường và thực hiện các hành động để tối đa hóa thành công tích lũy của mình.
  • Môi trường: Thế giới bên ngoài mà tác nhân hoạt động trong đó. Đó có thể là một trò chơi điện tử phức tạp, một mô phỏng thị trường tài chính, hoặc một nhà kho vật lý trong lĩnh vực trí tuệ nhân tạo ứng dụng trong logistics .
  • Trạng thái: Một hình ảnh chụp nhanh hoặc biểu diễn tình hình hiện tại. Trong các ứng dụng trực quan, điều này thường liên quan đến việc xử lý nguồn cấp dữ liệu camera bằng thị giác máy tính (CV) để detect vật thể và chướng ngại vật.
  • Hành động: Là bước đi hoặc lựa chọn cụ thể mà tác nhân thực hiện. Toàn bộ tập hợp các bước đi có thể có được gọi là không gian hành động .
  • Phần thưởng: Một tín hiệu số được gửi từ môi trường đến tác nhân sau một hành động. Một hàm phần thưởng được thiết kế tốt sẽ gán giá trị tích cực cho các hành động có lợi và hình phạt cho các hành động có hại.
  • Chính sách: Chiến lược hoặc tập hợp quy tắc mà tác nhân sử dụng để xác định hành động tiếp theo dựa trên trạng thái hiện tại. Các thuật toán như Q-learning xác định cách chính sách này được cập nhật và tối ưu hóa.

Các Ứng dụng Thực tế

Học tăng cường đã vượt ra khỏi phạm vi nghiên cứu lý thuyết và được ứng dụng thực tiễn, mang lại tác động lớn trong nhiều ngành công nghiệp khác nhau.

  • Robot tiên tiến: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong robot , học tăng cường (RL) cho phép máy móc nắm vững các kỹ năng vận động phức tạp mà khó có thể lập trình trực tiếp. Robot có thể học cách nắm bắt các vật thể có hình dạng bất thường hoặc di chuyển trên địa hình gồ ghề bằng cách huấn luyện trong các công cụ mô phỏng vật lý như NVIDIA Isaac Sim trước khi được đưa vào sử dụng thực tế.
  • Hệ thống tự hành: Xe tự hành sử dụng học tăng cường (RL) để đưa ra quyết định trong thời gian thực trong các tình huống giao thông khó lường. Trong khi các mô hình phát hiện đối tượng xác định người đi bộ và biển báo, các thuật toán RL giúp xác định các chính sách lái xe an toàn cho việc nhập làn và điều hướng tại giao lộ.
  • Tối ưu hóa chiến lược: Học tăng cường (RL) thu hút sự chú ý toàn cầu khi các hệ thống như AlphaGo của Google DeepMind đánh bại các nhà vô địch thế giới trong các trò chơi cờ phức tạp. Ngoài lĩnh vực trò chơi, các tác nhân này còn tối ưu hóa hậu cần công nghiệp, chẳng hạn như điều khiển hệ thống làm mát trong trung tâm dữ liệu để giảm tiêu thụ năng lượng.

Tích hợp thị giác máy tính với học tăng cường

Trong nhiều ứng dụng hiện đại, "trạng thái" mà tác nhân quan sát được là trực quan. Các mô hình hiệu năng cao như YOLO26 hoạt động như lớp nhận thức cho các tác nhân học tăng cường (RL), chuyển đổi hình ảnh thô thành dữ liệu có cấu trúc. Thông tin đã được xử lý này—chẳng hạn như vị trí và loại đối tượng—trở thành trạng thái mà chính sách RL sử dụng để lựa chọn hành động.

Ví dụ sau đây minh họa cách sử dụng ultralytics Gói này dùng để xử lý khung môi trường, tạo ra một biểu diễn trạng thái (ví dụ: số lượng đối tượng) cho một vòng lặp RL lý thuyết.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Phân biệt các thuật ngữ liên quan

Điều quan trọng là phải phân biệt Học tăng cường (Reinforcement Learning) với các mô hình học máy khác:

  • So với Học có Giám sát : Học có giám sát yêu cầu một người giám sát bên ngoài có kiến ​​thức chuyên môn cung cấp dữ liệu huấn luyện được gắn nhãn (ví dụ: "hình ảnh này chứa một con mèo"). Ngược lại, Học tăng cường (RL) học hỏi từ hậu quả của chính hành động của nó mà không cần nhãn rõ ràng, khám phá ra các con đường tối ưu thông qua quá trình khám phá.
  • So với Học tăng cường (RL) : Học tăng cường tập trung vào việc tìm kiếm các cấu trúc hoặc mô hình ẩn trong dữ liệu chưa được gắn nhãn (như phân cụm khách hàng). RL khác biệt ở chỗ nó hướng đến mục tiêu rõ ràng, tập trung vào việc tối đa hóa tín hiệu phần thưởng thay vì chỉ mô tả cấu trúc dữ liệu.

Khi sức mạnh tính toán tăng lên, các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) đang tiếp tục tinh chỉnh cách các tác nhân học hỏi, giúp mục tiêu của chúng phù hợp hơn với các giá trị phức tạp của con người và các tiêu chuẩn an toàn. Các nhà nghiên cứu thường sử dụng các môi trường tiêu chuẩn hóa như Gymnasium để đánh giá và cải thiện các thuật toán này. Đối với các nhóm muốn quản lý các tập dữ liệu cần thiết cho các lớp nhận thức của các tác nhân này, Nền tảng Ultralytics cung cấp các công cụ toàn diện để chú thích và quản lý mô hình.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay