용어집

마르코프 의사 결정 프로세스(MDP)

AI, 강화 학습, 로봇 공학 및 의료 의사 결정에서 마르코프 의사 결정 프로세스(MDP)와 그 역할에 대해 알아보세요.

마르코프 의사결정 과정(MDP)은 결과가 부분적으로 무작위적이고 부분적으로 의사결정자의 통제 하에 있는 상황에서 의사결정을 모델링하기 위한 수학적 프레임워크입니다. 이는 인공 지능과 머신 러닝, 특히 강화 학습 분야에서 중요한 개념으로 복잡한 순차적 의사 결정 문제를 해결하기 위한 구조화된 접근 방식을 제공합니다. MDP는 에이전트가 환경과 상호작용하는 문제를 공식화하는 데 사용되며, 누적 보상을 극대화하는 행동을 선택하는 것을 목표로 합니다.

정의

마르코프 의사결정 프로세스(MDP)는 상태 집합, 행동 집합, 전이 확률, 보상 함수로 정의됩니다. 공식적으로 MDP는 이산 시간 확률적 제어 프로세스입니다. 이는 결과가 부분적으로 무작위적이고 부분적으로 의사 결정자의 통제 하에 있는 상황에서 의사 결정을 모델링하기 위한 수학적 프레임워크를 제공합니다. 더 자세한 수학적 설명은 Wikipedia의 마르코프 의사 결정 과정 페이지와 같은 리소스에서 찾아볼 수 있습니다. '마르코프' 속성의 핵심은 미래 상태는 이전 상태나 행동의 기록이 아니라 현재 상태와 행동에만 의존한다는 점입니다. 이 '메모리 없는' 속성은 문제를 단순화하면서도 많은 실제 시나리오를 포착할 수 있습니다.

MDP의 주요 구성 요소

상태: 상태는 에이전트가 처할 수 있는 가능한 상황이나 구성을 나타냅니다. 예를 들어 자율 주행 자동차 시나리오에서 상태에는 자동차의 현재 위치, 속도 및 주변 교통 상황이 포함될 수 있습니다. 로보틱 프로세스 자동화(RPA)의 맥락에서 상태는 워크플로 프로세스의 현재 단계일 수 있습니다.
작업: 에이전트가 각 상태에서 수행할 수 있는 선택 사항입니다. 자율 주행 자동차의 예를 계속 이어서, 액션은 가속, 감속, 좌회전, 우회전 등이 될 수 있습니다. 챗봇의 경우 액션은 사용자의 입력에 대해 제공할 수 있는 다양한 응답이 될 수 있습니다.
전환 확률: 각 상태-행동 쌍에 대해 이 확률은 가능한 각 다음 상태로 전환될 가능성을 정의합니다. MDP에는 확률성이 포함되므로 어떤 상태에서 어떤 행동을 취한다고 해서 특정 결과가 보장되는 것이 아니라 가능한 다음 상태에 대한 확률 분포로 이어집니다.
보상 함수: 이 함수는 상담원이 새로운 상태로 전환한 후 받는 즉각적인 보상을 정량화합니다. 보상은 양수(바람직한) 또는 음수(바람직하지 않은, 흔히 비용 또는 페널티라고 함)일 수 있습니다. 예를 들어 게임에서 승리하면 큰 양의 보상을 받는 반면 패배하면 음의 보상을 받을 수 있습니다. 모델에 대한 하이퍼파라미터 튜닝에서 보상은 유효성 검사 세트의 모델 성능 지표와 관련될 수 있습니다.

마르코프 의사 결정 프로세스(MDP)

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

정의

MDP의 주요 구성 요소

관련성 및 응용 분야

관련 개념

블로그 더 보기

Ultralytics 커뮤니티 가입하기

마르코프 의사 결정 프로세스(MDP)

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

정의

MDP의 주요 구성 요소

관련성 및 응용 분야

관련 개념

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련