题目

强化学习不需要样本输入,需要对机器产生的行为进行评价。A. 正确B. 错误

强化学习不需要样本输入,需要对机器产生的行为进行评价。

A. 正确

B. 错误

题目解答

B. 错误

强化学习的核心特点是通过与环境交互并根据奖励信号调整行为，而非依赖预设的标签数据。题目中的陈述包含两个部分：

关键矛盾点在于“样本输入”的定义。若“样本输入”指无标签的环境状态信息，则强化学习仍需此类输入，因此前半句错误，导致整个陈述错误。

概念辨析

监督学习：需要大量带标签的样本输入（如图像分类任务中的标注数据）。
强化学习：
- 无需带标签的数据，但需要环境状态作为输入（如游戏画面、传感器数据）。
- 通过奖励信号（评价机制）调整行为策略。

题目解析