题目
与马尔可夫奖励过程相比,马尔可夫决策过程引入了哪一个新的元素()A. 动作B. 反馈C. 终止状态D. 概率转移矩阵
与马尔可夫奖励过程相比,马尔可夫决策过程引入了哪一个新的元素()
A. 动作
B. 反馈
C. 终止状态
D. 概率转移矩阵
题目解答
答案
A. 动作
解析
马尔可夫奖励过程(Markov Reward Process, MRP)是强化学习中的一个基本概念,它描述了一个状态序列,其中每个状态都与一个奖励相关联。而马尔可夫决策过程(Markov Decision Process, MDP)则是在MRP的基础上,引入了“动作”这一概念,即在每个状态下,智能体可以采取不同的动作,这些动作会影响状态的转移和奖励的获得。因此,MDP比MRP多了一个动作的概念,使得智能体能够通过选择不同的动作来影响其环境和获得的奖励。