题目
7.在自然语言处理中,将文本序列切分为独立的词汇单元的过程称之为______。识别文本中专有名词(如人名、地名、机构名)的任务称为______。
7.在自然语言处理中,将文本序列切分为独立的词汇单元的过程称之为______。识别文本中专有名词(如人名、地名、机构名)的任务称为______。
题目解答
答案
在自然语言处理中,将文本序列切分为独立的词单元的过程被称为分词。这是文本处理的基础步骤,尤其在中文等没有明显词边界的语言中尤为重要。
同时,识别文本中专有名词(如人名、地名、机构名等)的任务称为命名实体识别(Named Entity Recognition, NER),它是信息提取、知识图谱构建等应用的重要基础。
答案:
分词
命名实体识别
解析
本题主要考查自然语言处理中的基本概念。解题思路是根据对自然语言处理相关知识的记忆和理解,直接确定将文本序列切分为独立词汇单元的过程以及识别文本中专有名词任务的专业术语。
对于第一个空,在自然语言处理里,把文本序列切分成独立词单元的操作,其标准定义就是“分词”。这是因为在处理文本时,尤其是像中文这类没有明显词边界的语言,需要通过分词来明确词汇的界限,以便后续进行诸如词性标注、句法分析等操作。
对于第二个空,识别文本中专有名词(像人名、地名、机构名等)的任务,在自然语言处理领域有专门的术语“命名实体识别(Named Entity Recognition, NER)”。命名实体识别是信息提取、知识图谱构建等应用的重要基础,通过它可以从文本中准确找出具有特定意义的实体信息。