용어집

강화 학습

강화 학습을 살펴보세요: 로봇 공학, 게임, 산업 분야에서 RL 개념과 애플리케이션을 사용하여 자율적 의사 결정으로 AI를 혁신하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

강화 학습(RL)은 에이전트가 특정 목표를 달성하기 위해 환경에서 작업을 수행하여 의사 결정을 내리는 방법을 학습하는 머신 러닝의 하위 분야입니다. 모델이 레이블이 지정된 데이터 세트에서 학습하는 지도 학습과 달리 강화 학습은 보상 및 페널티 시스템에 의존하여 에이전트를 최적의 행동으로 안내합니다.

강화 학습의 작동 원리

강화 학습에서 에이전트는 개별적인 시간 단계로 환경과 상호 작용합니다. 각 단계에서 에이전트는 숫자 값인 보상 형태로 피드백을 받습니다. 목표는 시간 경과에 따른 누적 보상을 최대화하는 것입니다. 에이전트는 결정론적이거나 확률적일 수 있는 정책에 따라 작업을 선택합니다. 시간이 지남에 따라 에이전트가 행동의 결과를 학습하면서 정책이 개선됩니다.

RL 시스템의 주요 요소는 다음과 같습니다:

  • 에이전트: 학습자 또는 의사 결정권자.
  • 환경: 환경: 상담원이 상호작용하는 모든 것.
  • 액션: 작업: 상담원이 할 수 있는 모든 가능한 동작입니다.
  • 보상: 보상: 작업을 평가하기 위한 환경의 피드백입니다.
  • 상태: 상태: 환경의 현재 상황을 나타냅니다.
  • 정책: 정책: 상담원이 현재 상태에 따라 작업을 결정하기 위해 사용하는 전략입니다.

중요한 RL 개념

  • 값 함수: 주어진 상태 또는 상태-행동 쌍에서 예상되는 누적 보상을 추정합니다.
  • Q-러닝: 에이전트가 작업의 가치를 직접 학습하는 인기 있는 RL 알고리즘입니다.
  • 탐색 대 활용: 새로운 전략을 탐색할 필요성과 이미 성공한 전략을 활용하는 것 사이에서 균형을 잡아야 합니다.
  • 시간차 학습: 몬테카를로 방법과 동적 프로그래밍의 아이디어를 결합합니다.

RL과 관련 용어 구분하기

강화 학습은 모델이 입력-출력 쌍을 통해 학습하는 지도 학습과는 다릅니다. 대신 RL은 환경과의 상호작용을 통한 학습을 강조합니다. 또한 보상 피드백에 대한 명시적인 레이블을 사용할 수 없다는 점에서 비지도 학습과도 다릅니다.

강화 학습의 응용

자율 주행 자동차

강화 학습은 자율 주행 차량용 AI를 개발하는 데 매우 중요합니다. RL 알고리즘은 실제 테스트 전에 시뮬레이션 환경을 통해 차량이 최적의 주행 전략을 학습할 수 있도록 도와줍니다.

로봇 공학

RL을 사용하면 로봇이 시행착오를 통해 복잡한 작업을 학습할 수 있습니다. 예를 들어 물류창고의 로봇은 강화 학습을 통해 다양한 물체를 다루는 방법을 학습하여 효율성과 정확성을 높일 수 있습니다.

게임 플레이

RL은 딥마인드의 알파고에서 보여준 것처럼 에이전트가 바둑이나 체스와 같은 게임을 학습하고 마스터하는 게임에 적용되어 유명해졌습니다.

비즈니스 및 산업 분야의 RL

강화 학습은 재고 관리 및 물류와 같은 운영을 최적화할 수 있습니다. 에서 Ultralytics에서 RL 기반 시스템은 공급망의 효율성과 비용 효율성을 높이기 위해 데이터 기반 의사 결정을 내리는 데 도움이 됩니다.

추가 탐색을 위한 리소스

  • RL 알고리즘에 자주 사용되는 신경망의 기초에 대해 알아보세요.
  • 클라우드 컴퓨팅이 어떻게 대규모 RL 교육을 지원하는지 알아보세요.
  • Ultralytics HUB를 통해 모델 교육 및 배포 작업을 간소화하는 방법을 알아보세요.

강화 학습은 자율적인 의사 결정을 내릴 수 있는 지능형 시스템을 개발하는 강력한 방법으로, 인공지능과 머신러닝 발전의 초석이 되고 있습니다.

모두 보기