Khám phá Học tăng cường sâu (Deep Reinforcement Learning - DRL) và cách nó kết hợp việc ra quyết định của AI với học sâu. Tìm hiểu cách sử dụng Ultralytics YOLO26 được sử dụng như một lớp nhận thức hiện nay.
Học tăng cường sâu (Deep Reinforcement Learning - DRL) là một nhánh nâng cao của trí tuệ nhân tạo (AI) kết hợp khả năng ra quyết định của học tăng cường với sức mạnh nhận thức của học sâu (Deep Learning - DL) . Trong khi học tăng cường truyền thống dựa vào các phương pháp bảng để ánh xạ các tình huống thành hành động, các phương pháp này gặp khó khăn khi môi trường phức tạp hoặc trực quan. DRL khắc phục điều này bằng cách sử dụng mạng nơ-ron để diễn giải dữ liệu đầu vào đa chiều, chẳng hạn như khung hình video hoặc dữ liệu cảm biến, cho phép máy móc học các chiến lược hiệu quả trực tiếp từ kinh nghiệm thô mà không cần hướng dẫn rõ ràng từ con người.
Trong hệ thống DRL, tác nhân AI tương tác với môi trường theo các bước thời gian rời rạc. Ở mỗi bước, tác nhân quan sát "trạng thái" hiện tại, chọn một hành động dựa trên chính sách và nhận tín hiệu phần thưởng cho biết sự thành công hay thất bại của hành động đó. Mục tiêu chính là tối đa hóa phần thưởng tích lũy theo thời gian.
Thành phần "sâu" đề cập đến việc sử dụng mạng nơ-ron sâu để xấp xỉ chính sách (chiến lược hành động) hoặc hàm giá trị (phần thưởng ước tính trong tương lai). Điều này cho phép tác nhân xử lý dữ liệu phi cấu trúc, sử dụng thị giác máy tính (CV) để "nhìn" môi trường giống như con người. Khả năng này được hỗ trợ bởi các framework như PyTorch hoặc TensorFlow , giúp đơn giản hóa việc huấn luyện các mạng phức tạp này.
DRL đã vượt ra khỏi phạm vi nghiên cứu lý thuyết để tiến tới các ứng dụng thực tiễn, có tác động lớn trong nhiều ngành công nghiệp khác nhau:
Đối với nhiều ứng dụng DRL, "trạng thái" được thể hiện bằng hình ảnh. Các mô hình tốc độ cao đóng vai trò như đôi mắt của tác nhân, chuyển đổi hình ảnh thô thành dữ liệu có cấu trúc mà mạng lưới chính sách có thể sử dụng để xử lý. Ví dụ sau minh họa cách mô hình YOLO26 hoạt động như lớp nhận thức cho một tác nhân, trích xuất các quan sát (ví dụ: số lượng vật cản) từ môi trường.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
Sẽ rất hữu ích khi phân biệt Deep Reinforcement Learning với các thuật ngữ tương tự để hiểu vị trí độc đáo của nó trong bối cảnh AI:
Các nhà phát triển muốn quản lý các tập dữ liệu cần thiết cho các lớp nhận thức của hệ thống DRL có thể sử dụng Nền tảng Ultralytics , giúp đơn giản hóa quy trình chú thích và huấn luyện trên đám mây. Ngoài ra, các nhà nghiên cứu thường sử dụng các môi trường tiêu chuẩn như Gymnasium để so sánh hiệu năng các thuật toán DRL của họ với các tiêu chuẩn đã được thiết lập.