용어집

강화 학습

에이전트가 환경과 상호작용하여 보상을 극대화하는 머신 러닝 접근 방식인 강화 학습의 강력한 기능을 알아보세요. 자세히 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

강화 학습(RL)은 에이전트가 환경과 상호 작용하여 일련의 결정을 내리는 방법을 학습하는 일종의 머신 러닝입니다. 에이전트는 이 환경 내에서 행동을 취하고 보상 또는 페널티의 형태로 피드백을 받습니다. 목표는 에이전트가 시간이 지남에 따라 누적 보상을 극대화하는 전략 또는 정책을 학습하는 것입니다. 이 학습 과정은 시행착오를 통해 학습이 이루어지는 행동 심리학에서 영감을 얻었습니다. 레이블이 지정된 데이터에 의존하는 지도 학습이나 레이블이 지정되지 않은 데이터에서 패턴을 찾는 데 중점을 두는 비지도 학습과 달리 강화 학습은 에이전트와 환경 간의 상호 작용 역학에 의해 구동됩니다.

강화 학습의 주요 개념

강화 학습을 이해하기 위해서는 몇 가지 핵심 개념이 필요합니다:

  • 에이전트: 에이전트: 환경과 상호작용하는 학습자이자 의사 결정자입니다.
  • 환경: 상담원이 상호작용하는 외부 시스템입니다. 상담원에게 상태를 표시하고 상담원으로부터 작업을 수신합니다.
  • 상태: 특정 시점의 환경 표현입니다. 상담원에게 조치를 취하는 데 필요한 정보를 제공합니다.
  • 행동: 작업: 환경에 영향을 미치는 상담원의 움직임이나 결정입니다.
  • 보상: 보상: 상담원 작업의 성공 또는 실패를 측정하는 환경의 피드백입니다. 상담원의 목표는 시간이 지남에 따라 총 보상을 극대화하는 것입니다.
  • 정책: 정책: 상담원이 현재 상태에 따라 다음 작업을 결정하기 위해 사용하는 전략입니다. 결정론적 또는 확률론적일 수 있습니다.
  • 값 함수: 특정 상태에 있거나 특정 상태에서 특정 행동을 취했을 때 예상되는 누적 보상을 추정하는 함수입니다.
  • Q-값: 특정 상태에서 시작하여 특정 조치를 취한 후 특정 정책을 따를 때의 예상 수익률입니다.

강화 학습의 관련성 및 응용 분야

강화 학습은 이전에는 해결하기 어려웠던 복잡한 의사 결정 문제를 해결할 수 있는 능력으로 인해 큰 주목을 받고 있습니다. 강화 학습은 다양한 영역에 걸쳐 활용되며 그 다양성과 힘을 입증하고 있습니다. 예를 들어 자율 주행 차량에서 RL은 차량이 도로를 탐색하고 교통 상황에서 의사 결정을 내리고 경로를 최적화하도록 훈련하는 데 사용될 수 있습니다. 의료 분야에서 RL 알고리즘은 환자의 반응에 따라 치료 계획을 개인화하고 병원 운영을 최적화할 수 있습니다.

강화 학습의 실제 사례

게임 플레이: RL의 가장 두드러진 사례 중 하나는 게임 플레이 분야입니다. 바둑 게임에서 세계 챔피언을 꺾은 AI인 딥마인드의 알파고는 강화 학습을 활용하여 게임을 마스터했습니다. 마찬가지로 알파제로는 체스, 장기, 바둑에서 초인적인 성과를 거두며 복잡한 전략 게임을 마스터하는 데 있어 RL의 힘을 보여주었습니다. 비디오 게임에서의 AI에 대한 자세한 내용은 Ultralytics 블로그에서 확인하세요.

로봇 공학: 강화 학습은 로봇 제어, 내비게이션, 조작과 같은 작업을 위해 로봇 공학에서 광범위하게 사용됩니다. 예를 들어, 로봇은 보상에 따라 시행착오를 거치면서 걷기, 물체 잡기, 복잡한 작업 수행을 학습할 수 있습니다. 이는 명시적인 프로그래밍이 어려운 시나리오에서 특히 유용합니다. 로봇 공학에 컴퓨터 비전을 통합하는 방법을 살펴보고 더 많은 인사이트를 얻으세요.

강화 학습과 관련 용어 구별하기

강화 학습은 강력한 기술이지만, 다른 머신 러닝 패러다임과 구별하는 것이 중요합니다:

  • 지도 학습: 지도 학습에서는 각 입력에 대해 올바른 출력이 알려진 레이블이 지정된 데이터 세트에 대해 모델을 학습합니다. 반면 강화 학습은 명시적인 레이블 없이 보상과 페널티를 통해 학습합니다. 지도 학습에 대해 자세히 알아보세요.
  • 비지도 학습: 비지도 학습은 레이블이 지정되지 않은 데이터를 다루며, 기본 패턴과 구조를 발견하는 것을 목표로 합니다. 반면 강화 학습은 환경과의 상호작용을 통해 최적의 행동을 학습하는 데 중점을 둡니다. 비지도 학습에 대해 자세히 알아보세요.

강화 학습의 기술 및 도구

여러 기술과 프레임워크가 강화 학습 모델의 개발과 배포를 지원합니다. PyTorchTensorFlow 는 RL 에이전트를 구축하고 훈련하기 위한 도구를 제공하는 인기 있는 딥러닝 프레임워크입니다. 또한 OpenAI Gym과 같은 환경은 RL 알고리즘을 훈련하고 테스트할 수 있는 표준화된 환경을 제공합니다. Ultralytics 또한 강화 학습 기술과 통합할 수 있는 컴퓨터 비전 분야의 최첨단 솔루션을 제공합니다. 예를 들어 Ultralytics YOLO 모델은 RL 프레임워크 내에서 객체 감지 작업에 사용할 수 있습니다. 모델 배포에 대한 자세한 내용은 Ultralytics 허브 페이지에서 확인하세요.

모두 보기