Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học Tăng Cường Sâu (Deep Reinforcement Learning)

Khám phá Học tăng cường sâu (Deep Reinforcement Learning - DRL) và cách nó kết hợp việc ra quyết định của AI với học sâu. Tìm hiểu cách sử dụng Ultralytics YOLO26 được sử dụng như một lớp nhận thức hiện nay.

Học tăng cường sâu (Deep Reinforcement Learning - DRL) là một nhánh nâng cao của trí tuệ nhân tạo (AI) kết hợp khả năng ra quyết định của học tăng cường với sức mạnh nhận thức của học sâu (Deep Learning - DL) . Trong khi học tăng cường truyền thống dựa vào các phương pháp bảng để ánh xạ các tình huống thành hành động, các phương pháp này gặp khó khăn khi môi trường phức tạp hoặc trực quan. DRL khắc phục điều này bằng cách sử dụng mạng nơ-ron để diễn giải dữ liệu đầu vào đa chiều, chẳng hạn như khung hình video hoặc dữ liệu cảm biến, cho phép máy móc học các chiến lược hiệu quả trực tiếp từ kinh nghiệm thô mà không cần hướng dẫn rõ ràng từ con người.

Cơ chế cốt lõi của DRL

Trong hệ thống DRL, tác nhân AI tương tác với môi trường theo các bước thời gian rời rạc. Ở mỗi bước, tác nhân quan sát "trạng thái" hiện tại, chọn một hành động dựa trên chính sách và nhận tín hiệu phần thưởng cho biết sự thành công hay thất bại của hành động đó. Mục tiêu chính là tối đa hóa phần thưởng tích lũy theo thời gian.

Thành phần "sâu" đề cập đến việc sử dụng mạng nơ-ron sâu để xấp xỉ chính sách (chiến lược hành động) hoặc hàm giá trị (phần thưởng ước tính trong tương lai). Điều này cho phép tác nhân xử lý dữ liệu phi cấu trúc, sử dụng thị giác máy tính (CV) để "nhìn" môi trường giống như con người. Khả năng này được hỗ trợ bởi các framework như PyTorch hoặc TensorFlow , giúp đơn giản hóa việc huấn luyện các mạng phức tạp này.

Các Ứng dụng Thực tế

DRL đã vượt ra khỏi phạm vi nghiên cứu lý thuyết để tiến tới các ứng dụng thực tiễn, có tác động lớn trong nhiều ngành công nghiệp khác nhau:

  • Robot tiên tiến: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong robot , DRL cho phép máy móc nắm vững các kỹ năng vận động phức tạp mà khó có thể lập trình trực tiếp. Robot có thể học cách nắm bắt các vật thể có hình dạng bất thường hoặc di chuyển trên địa hình gồ ghề bằng cách tinh chỉnh chuyển động của chúng trong các công cụ vật lý như NVIDIA Isaac Sim . Điều này thường bao gồm việc huấn luyện trên dữ liệu tổng hợp trước khi triển khai chính sách lên phần cứng vật lý.
  • Lái xe tự hành: Xe tự hành tận dụng DRL (Daily Radiating Learning) để đưa ra quyết định trong thời gian thực trong các tình huống giao thông khó lường. Trong khi các mô hình phát hiện đối tượng xác định người đi bộ và biển báo, các thuật toán DRL sử dụng thông tin đó để xác định các chính sách lái xe an toàn cho việc nhập làn, điều hướng giao lộ và kiểm soát tốc độ, quản lý hiệu quả độ trễ suy luận cần thiết cho sự an toàn.

Tầm nhìn với tư cách là Quan sát viên Nhà nước

Đối với nhiều ứng dụng DRL, "trạng thái" được thể hiện bằng hình ảnh. Các mô hình tốc độ cao đóng vai trò như đôi mắt của tác nhân, chuyển đổi hình ảnh thô thành dữ liệu có cấu trúc mà mạng lưới chính sách có thể sử dụng để xử lý. Ví dụ sau minh họa cách mô hình YOLO26 hoạt động như lớp nhận thức cho một tác nhân, trích xuất các quan sát (ví dụ: số lượng vật cản) từ môi trường.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Phân biệt DRL với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt Deep Reinforcement Learning với các thuật ngữ tương tự để hiểu vị trí độc đáo của nó trong bối cảnh AI:

  • Học tăng cường (Reinforcement Learning - RL) : RL tiêu chuẩn là khái niệm nền tảng nhưng thường dựa vào các bảng tra cứu (như bảng Q), điều này trở nên không thực tế đối với không gian trạng thái lớn. DRL giải quyết vấn đề này bằng cách sử dụng học sâu để xấp xỉ các hàm, cho phép nó xử lý các đầu vào phức tạp như hình ảnh.
  • Học tăng cường từ phản hồi của con người (RLHF) : Trong khi DRL thường tối ưu hóa cho một hàm thưởng được định nghĩa bằng toán học (ví dụ: điểm trong trò chơi), RLHF tinh chỉnh các mô hình — cụ thể là các Mô hình Ngôn ngữ Lớn (LLM) — bằng cách sử dụng các sở thích chủ quan của con người để điều chỉnh hành vi của AI phù hợp với các giá trị của con người, một kỹ thuật được các nhóm nghiên cứu như OpenAI phổ biến.
  • Học không giám sát : Các phương pháp không giám sát tìm kiếm các mẫu ẩn trong dữ liệu mà không cần phản hồi rõ ràng. Ngược lại, DRL hướng đến mục tiêu, được thúc đẩy bởi tín hiệu phần thưởng chủ động hướng dẫn tác nhân đến một mục tiêu cụ thể, như đã được thảo luận trong các tài liệu nền tảng của Sutton và Barto .

Các nhà phát triển muốn quản lý các tập dữ liệu cần thiết cho các lớp nhận thức của hệ thống DRL có thể sử dụng Nền tảng Ultralytics , giúp đơn giản hóa quy trình chú thích và huấn luyện trên đám mây. Ngoài ra, các nhà nghiên cứu thường sử dụng các môi trường tiêu chuẩn như Gymnasium để so sánh hiệu năng các thuật toán DRL của họ với các tiêu chuẩn đã được thiết lập.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay