용어집

강화 학습

상담원이 시행착오를 통해 행동을 최적화하여 보상을 극대화하는 강화 학습에 대해 알아보세요. 개념, 적용 사례 및 이점을 살펴보세요!

강화 학습(RL)은 지능형 에이전트가 자신의 행동에 대해 받는 보상을 최대화하여 일련의 결정을 내리는 방법을 학습하는 머신 러닝(ML) 의 한 유형입니다. 레이블이 지정된 예제에서 학습하는 지도 학습이나 레이블이 지정되지 않은 데이터에서 패턴을 찾는 비지도 학습과 달리 RL은 환경과 상호 작용하여 시행착오를 통해 학습합니다. 에이전트는 자신이 취한 행동에 따라 보상 또는 페널티의 형태로 피드백을 받아 특정 목표를 달성하기 위한 학습 과정을 안내합니다.

핵심 개념

강화 학습 시스템을 정의하는 몇 가지 주요 구성 요소가 있습니다:

에이전트: 에이전트: 환경과 상호 작용하는 학습자 또는 의사 결정 주체를 말합니다.
환경: 환경: 에이전트가 작동하는 외부 시스템 또는 세계입니다.
상태: 상태: 상담원이 인지한 환경의 현재 상황 또는 구성을 나타냅니다.
액션: 작업: 환경 내에서 상담원이 내린 결정이나 움직임입니다.
보상: 보상: 작업을 수행한 후 환경으로부터 받은 수치 신호로, 해당 작업이 특정 상태에서 얼마나 좋았는지 또는 나빴는지를 나타냅니다. 에이전트의 목표는 일반적으로 시간 경과에 따른 누적 보상을 최대화하는 것입니다.
정책: 현재 상태에 따라 다음 작업을 결정하기 위해 상담원이 사용하는 전략 또는 매핑입니다. 이는 기본적으로 상담원이 학습하는 내용입니다.
값 함수: 특정 정책에 따라 주어진 상태에서 또는 특정 상태에서 특정 행동을 취함으로써 달성할 수 있는 미래의 예상 보상에 대한 예측입니다.
마르코프 결정 과정(MDP): 에이전트와 환경 간의 상호 작용을 정의하는 RL 문제를 모델링하는 데 일반적으로 사용되는 수학적 프레임워크입니다.

에이전트는 잠재적으로 더 높은 보상을 얻기 위해 새로운 행동을 탐색하는 것(탐색)과 좋은 보상을 얻을 수 있는 것으로 알려진 행동( 착취)을 선택하는 것(착취)의 균형을 맞춰야 하는 것이 RL의 근본적인 과제입니다.

강화 학습의 작동 원리

RL 프로세스는 일반적으로 반복적입니다. 에이전트는 환경의 현재 상태를 관찰하고, 현재 정책에 따라 작업을 선택하고, 작업을 수행한 후 환경으로부터 보상(또는 페널티)과 다음 상태를 받습니다. 이 피드백은 에이전트의 정책 또는 가치 함수를 업데이트하는 데 사용되어 시간이 지남에 따라 의사 결정을 개선합니다. 일반적인 RL 알고리즘에는 Q-러닝, SARSA 및 정책 그라데이션 방법이 있으며, 각 알고리즘은 정책을 학습하고 업데이트하는 데 서로 다른 전략을 사용합니다. 심층 강화 학습(DRL)은 신경망(NN) 을 사용하여 정책이나 가치 함수의 근사치를 구하는 딥 러닝 기술과 RL을 결합하여 이미지나 센서 데이터와 같은 복잡하고 고차원적인 상태 공간의 문제를 해결할 수 있게 해줍니다.

다른 학습 패러다임과의 비교

RL은 다른 ML 패러다임과 크게 다릅니다:

지도 학습: 레이블이 지정된 예제(입력-출력 쌍)가 포함된 데이터 세트에서 학습합니다. 새로운 입력에 대한 출력을 예측하는 매핑 함수를 학습하는 것이 목표입니다. 이미지 분류와 회귀를 예로 들 수 있습니다. RL은 미리 정의된 정답이 아닌 상호 작용과 피드백(보상)을 통해 학습합니다.
비지도 학습: 레이블이 없는 데이터에서 패턴과 구조를 학습합니다. 클러스터링과 차원 축소 등이 그 예입니다. RL은 목표 지향적이며 보상을 극대화하기 위한 정책을 학습하는 반면, 비지도 학습은 데이터 구조 발견에 중점을 둡니다.

실제 애플리케이션

RL은 다양한 영역에서 혁신을 가능하게 했습니다:

로봇 공학: 낯선 환경에서 물체 조작, 이동, 탐색과 같은 복잡한 작업을 수행하도록 로봇을 훈련시키는 것입니다. Boston Dynamics와 같은 회사는 종종 RL 원리를 사용하여 개발된 고급 로봇 기능을 선보입니다. 로봇 공학에 컴퓨터 비전을 통합하는 Ultralytics 작업을 살펴보세요.
게임 플레이: 바둑(딥마인드의 알파고)이나 복잡한 비디오 게임(오픈AI 파이브)과 같은 복잡한 게임에서 초인적인 성능을 발휘하는 에이전트 만들기.
자율주행 차량: 경로 계획 및 제어 전략과 같은 자율주행차를 위한 의사 결정 시스템 개발. 자동차 솔루션의 AI에 대해 알아보세요.
추천 시스템: 사용자 상호 작용을 기반으로 추천(예: 영화, 제품)을 최적화하여 장기적인 참여를 극대화합니다.
리소스 관리: 에너지 그리드 관리, 신호등 제어(교통 관리의 AI), 공급망 물류 등의 영역에서 리소스 할당을 최적화합니다.

AI 생태계에서의 관련성

강화 학습은 특히 복잡한 의사 결정을 내릴 수 있는 자율 시스템을 만드는 데 있어 광범위한 인공 지능(AI) 환경에서 중요한 구성 요소입니다. Ultralytics 같은 회사는 다음과 같은 비전 AI 모델을 전문으로 합니다. Ultralytics YOLO 와 같은 비전 AI 모델은 지도 학습을 이용한 객체 감지 및 인스턴스 세분화와 같은 작업에 특화되어 있지만, 이러한 모델에서 제공하는 인식 기능은 종종 RL 에이전트의 필수 입력(상태)입니다. 예를 들어, 로봇은 RL 정책에 따라 다음 동작을 결정하기 전에 Ultralytics HUB를 통해 배포된 객체 감지 모델을 사용하여 주변 환경을 이해할 수 있습니다. RL을 이해하면 고급 인식이 지능형 자율 시스템 구축에 어떻게 적합한지에 대한 컨텍스트를 제공하며, 종종 다음과 같은 프레임워크를 사용하여 개발됩니다. PyTorch 와 같은 프레임워크를 사용하여 개발되고 Gymnasium(이전의 OpenAI Gym)과 같은 시뮬레이션 환경에서 테스트되는 경우가 많습니다. 많은 실제 애플리케이션에는 지각(컴퓨터 비전)과 의사 결정(RL)의 통합이 포함됩니다.

강화 학습

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

핵심 개념

강화 학습의 작동 원리

다른 학습 패러다임과의 비교

실제 애플리케이션

AI 생태계에서의 관련성

블로그 더 보기

Ultralytics 커뮤니티 가입하기

강화 학습

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

핵심 개념

강화 학습의 작동 원리

다른 학습 패러다임과의 비교

실제 애플리케이션

AI 생태계에서의 관련성

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련