题目
在遗憾最小化算法中,玩家i按照如下方法来计算其在每一轮产生的悔恨值() A. 其他玩家策略不变,只改变玩家i的策略后,所产生的收益之差。B. 每个玩家策略不变,只改变收益函数,所产生的收益之差。C. 所有玩家策略均改变,所产生的收益之差。D. 至少改变1个以上玩家的策略,所产生的收益之差。
在遗憾最小化算法中,玩家i按照如下方法来计算其在每一轮产生的悔恨值()
- A. 其他玩家策略不变,只改变玩家i的策略后,所产生的收益之差。
- B. 每个玩家策略不变,只改变收益函数,所产生的收益之差。
- C. 所有玩家策略均改变,所产生的收益之差。
- D. 至少改变1个以上玩家的策略,所产生的收益之差。
题目解答
答案
A
解析
遗憾最小化算法是一种在多轮博弈中,玩家通过不断调整策略来减少遗憾值的方法。遗憾值是指玩家在每一轮中,如果改变自己的策略,而其他玩家的策略保持不变,所能获得的最大收益与当前收益之间的差值。遗憾值反映了玩家在当前策略下可能错失的收益。通过最小化遗憾值,玩家可以逐渐逼近最优策略。