题目
在Transformer模型中,自注意力机制(Self-Attention)的主要作用是()。A. 对输入序列进行编码B. 增加模型的非线性能力C. 计算序列中每个词与其他词的相关性D. 减少模型的参数量
在Transformer模型中,自注意力机制(Self-Attention)的主要作用是()。 A. 对输入序列进行编码 B. 增加模型的非线性能力 C. 计算序列中每个词与其他词的相关性 D. 减少模型的参数量
题目解答
答案
C
解析
自注意力机制(Self-Attention)是Transformer模型的核心组件,其主要作用是捕捉序列中不同位置之间的依赖关系。通过计算每个词与其他词的相关性,模型能够并行处理整个序列,并灵活关注重要信息。本题需明确区分自注意力与其他模块(如位置编码、前馈网络)的功能差异,抓住其“词间关系建模”这一关键特性。
选项分析
选项A:对输入序列进行编码
- 错误原因:输入序列的编码通常由词嵌入(Word Embedding)和位置编码(Positional Encoding)完成,而自注意力机制的作用是处理已编码的向量,而非直接进行编码。
选项B:增加模型的非线性能力
- 错误原因:非线性能力主要依赖于激活函数(如ReLU)和层归一化(LayerNorm)等操作。自注意力机制的核心是线性变换(矩阵乘法)和softmax归一化,其非线性作用并非主要目的。
选项C:计算序列中每个词与其他词的相关性
- 正确原因:自注意力机制通过查询(Query)、键(Key)、值(Value)的线性变换,计算词间相似性(点积),再通过加权求和实现信息整合。这一过程直接反映词间相关性,是自注意力的核心功能。
选项D:减少模型的参数量
- 错误原因:自注意力机制引入多个线性变换矩阵(如多头注意力中的参数),通常会增加模型参数量,而非减少。