题目
以下哪种语言模型[1]是基于统计方法,通过计算词语在语料库[2]中的共现频率来预测下一个词的概率?()A. N-gram语言模型B. RNN语言模型C. Transformer语言模型D. BERT语言模型
以下哪种语言模型[1]是基于统计方法,通过计算词语在语料库[2]中的共现频率来预测下一个词的概率?() A. N-gram语言模型 B. RNN语言模型 C. Transformer语言模型 D. BERT语言模型
题目解答
答案
A
解析
考查要点:本题主要考查对不同语言模型核心原理的理解,特别是区分统计方法与神经网络方法的关键特征。
解题核心思路:
- 统计语言模型(如N-gram)直接基于语料库中词语的共现频率计算概率,不依赖复杂的参数训练。
- 神经网络模型(如RNN、Transformer、BERT)通过参数化的函数(如神经网络)建模语言规律,而非直接统计频率。
破题关键:抓住“统计方法”和“共现频率”两个关键词,直接对应N-gram模型的特性。
选项分析
A. N-gram语言模型
核心原理:基于马尔可夫假设,假设下一个词仅与前$n-1$个词相关。通过统计语料库中词语序列的共现次数,计算条件概率$P(w_t | w_{t-n+1}, ..., w_{t-1})$。
特点:完全依赖历史数据的频率分布,无参数训练过程。
B. RNN语言模型
核心原理:使用循环神经网络(如LSTM)建模长序列依赖,通过词嵌入和隐藏层状态预测下一个词。
特点:基于参数化的函数,而非直接统计频率。
C. Transformer语言模型
核心原理:利用自注意力机制捕获全局上下文关系,通过多层变换网络生成预测概率。
特点:依赖参数化的注意力权重,而非简单的共现统计。
D. BERT语言模型
核心原理:基于Transformer的双向预训练模型,通过Masked LM任务学习上下文关系。
特点:双向建模且依赖参数化,非统计方法。
结论:只有N-gram模型符合“统计共现频率”的描述。