题目

在Transformer模型中，自注意力机制（Self-Attention）的主要作用是（）。A. 对输入序列进行编码B. 增加模型的非线性能力C. 计算序列中每个词与其他词的相关性D. 减少模型的参数量

在Transformer模型中，自注意力机制（Self-Attention）的主要作用是（）。 A. 对输入序列进行编码 B. 增加模型的非线性能力 C. 计算序列中每个词与其他词的相关性 D. 减少模型的参数量

题目解答

答案

解析

自注意力机制（Self-Attention）是Transformer模型的核心组件，其主要作用是捕捉序列中不同位置之间的依赖关系。通过计算每个词与其他词的相关性，模型能够并行处理整个序列，并灵活关注重要信息。本题需明确区分自注意力与其他模块（如位置编码、前馈网络）的功能差异，抓住其“词间关系建模”这一关键特性。

选项分析

选项A：对输入序列进行编码

错误原因：输入序列的编码通常由词嵌入（Word Embedding）和位置编码（Positional Encoding）完成，而自注意力机制的作用是处理已编码的向量，而非直接进行编码。

选项B：增加模型的非线性能力

错误原因：非线性能力主要依赖于激活函数（如ReLU）和层归一化（LayerNorm）等操作。自注意力机制的核心是线性变换（矩阵乘法）和softmax归一化，其非线性作用并非主要目的。

选项C：计算序列中每个词与其他词的相关性

正确原因：自注意力机制通过查询（Query）、键（Key）、值（Value）的线性变换，计算词间相似性（点积），再通过加权求和实现信息整合。这一过程直接反映词间相关性，是自注意力的核心功能。

选项D：减少模型的参数量

错误原因：自注意力机制引入多个线性变换矩阵（如多头注意力中的参数），通常会增加模型参数量，而非减少。