Khám phá các khái niệm cốt lõi của Học tăng cường (Reinforcement Learning - RL). Tìm hiểu cách các tác nhân sử dụng phản hồi để hoàn thành nhiệm vụ và xem cách thức hoạt động của chúng. Ultralytics YOLO26 cung cấp năng lượng cho các hệ thống thị giác RL.
Học tăng cường (Reinforcement Learning - RL) là một nhánh nhỏ hướng mục tiêu của học máy (Machine Learning - ML), trong đó một hệ thống tự động, được gọi là tác nhân (agent), học cách đưa ra quyết định bằng cách thực hiện các hành động và nhận phản hồi từ môi trường của nó. Không giống như học có giám sát , dựa trên các tập dữ liệu tĩnh được gắn nhãn với các câu trả lời đúng, các thuật toán RL học thông qua một quá trình thử và sai năng động. Tác nhân tương tác với một mô phỏng hoặc thế giới thực, quan sát hậu quả của các hành động của nó để xác định chiến lược nào mang lại phần thưởng dài hạn cao nhất. Cách tiếp cận này mô phỏng chặt chẽ khái niệm tâm lý học về điều kiện hóa hành động , trong đó hành vi được hình thành bởi sự củng cố tích cực (phần thưởng) và củng cố tiêu cực (hình phạt) theo thời gian.
Để hiểu cách thức hoạt động của RL, việc hình dung nó như một chu kỳ tương tác liên tục sẽ rất hữu ích. Khung lý thuyết này thường được hình thức hóa về mặt toán học dưới dạng Quy trình Quyết định Markov (MDP) , cấu trúc việc ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần được kiểm soát bởi người ra quyết định.
Các thành phần chính của chu trình học tập này bao gồm:
Học tăng cường đã vượt ra khỏi phạm vi nghiên cứu lý thuyết và được ứng dụng thực tiễn, mang lại tác động lớn trong nhiều ngành công nghiệp khác nhau.
Trong nhiều ứng dụng hiện đại, "trạng thái" mà tác nhân quan sát được là trực quan. Các mô hình hiệu năng cao như YOLO26 hoạt động như lớp nhận thức cho các tác nhân học tăng cường (RL), chuyển đổi hình ảnh thô thành dữ liệu có cấu trúc. Thông tin đã được xử lý này—chẳng hạn như vị trí và loại đối tượng—trở thành trạng thái mà chính sách RL sử dụng để lựa chọn hành động.
Ví dụ sau đây minh họa cách sử dụng ultralytics Gói này dùng để xử lý khung môi trường, tạo ra một biểu diễn trạng thái (ví dụ: số lượng đối tượng) cho một vòng lặp RL lý thuyết.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
Điều quan trọng là phải phân biệt Học tăng cường (Reinforcement Learning) với các mô hình học máy khác:
Khi sức mạnh tính toán tăng lên, các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) đang tiếp tục tinh chỉnh cách các tác nhân học hỏi, giúp mục tiêu của chúng phù hợp hơn với các giá trị phức tạp của con người và các tiêu chuẩn an toàn. Các nhà nghiên cứu thường sử dụng các môi trường tiêu chuẩn hóa như Gymnasium để đánh giá và cải thiện các thuật toán này. Đối với các nhóm muốn quản lý các tập dữ liệu cần thiết cho các lớp nhận thức của các tác nhân này, Nền tảng Ultralytics cung cấp các công cụ toàn diện để chú thích và quản lý mô hình.