CN110502644B

CN110502644B - 一种领域层级词典挖掘构建的主动学习方法

Info

Publication number: CN110502644B
Application number: CN201910800936.5A
Authority: CN
Inventors: 梅珊; 熊海涛; 柴庆凤; 贺惠新
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2023-08-04
Anticipated expiration: 2039-08-28
Also published as: CN110502644A

Abstract

本发明公开了一种领域层级词典挖掘构建的主动学习方法，包括：构建领域专业词实体抽取模型，抽取领域文章中的专业词来生成底层原始专业词库；结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典；基于领域词典结合多种同义词生成方法生成领域同义词典；通过网络开放资源构建领域层级词的初始种子词，训练层级词预测模型，并总结相关优化过滤规则；基于领域词典及同义词典，结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词并构建层级词典，并方便在不同领域下进行扩展应用。

Description

一种领域层级词典挖掘构建的主动学习方法

技术领域

本发明涉及自然语言处理的计算机技术领域，尤其涉及一种领域层级词典挖掘构建的主动学习方法。

背景技术

自然语言是人类在长期生活中形成的一种承载信息的交流符号，这种符号语言的含义由人们的生活环境、领域分工以及工作经验所影响造就。而字作为语言信息表达的基本元素，有共同的经历人员会为表达特定领域的一种实体或者行为，而将字拼接起来形成专用词汇。

随着社会分工的不断分化，人们从事的领域类型不断增多，各领域中产生的专用词汇的数量也变得庞大，不同领域之间的词汇的意思也不尽相同，而对领域中语言涉及的领域专有词的认知，更需要通过在领域中的经验，而无法由字的拼接规律来推理表达。领域专有词的认识问题成为了自然语言语义理解的基本问题，基于专有词构建层级词典也自然而然成为进一步需要探讨的问题。

通过计算机自动挖掘领域专有词语并构建层级词典是很现实的应用需求。当前计算机的记忆功能强，而推理技能不足，在对领域专有词的认知上，基于人工规则的方法，重点在于从语法结构上分析构建构词规则，并在分析语料时完全利用规则发现词语，这种方法对参与人员的语言及领域的专业知识要求都很高，而人思考设计的遗漏必然导致词汇总结的缺失量更大，而且这种***不便于迁移到不同领域上基于统计的方法从自然语言文本中分析词汇组成的概率，由于对领域的训练数据的体量足够大，这对人工标注的劳动要求很高，当前的主要处理方式多是在不分领域的熟语料上进行统一的训练学习生成模型，并最终用在不同领域上，这造成了准确率降低。挖掘出领域专有词汇并形成专有词汇字典，是为了后续的应用任务，而由于通用方法的针对性不足，加入了不同领域的专有词的会造成后续任务的失效。

发明内容

为解决上述技术问题，本发明的目的是提供一种领域层级词典挖掘构建的主动学习方法，该方法可结合一般语料进行建模分析，并在不同领域上进行变通应用，可有效提高专有词挖掘的准确性和全面性。

本发明的目的通过以下的技术方案来实现：

一种领域层级词典挖掘构建的主动学习方法，包括：

A构建领域专业词实体抽取模型，抽取领域文章中的专业词来生成底层原始专业词库；

B结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典；

C基于领域词典结合多种同义词生成方法生成领域同义词典；

D通过网络开放资源构建领域层级词的初始种子词，训练层级词预测模型，并总结相关优化过滤规则；

E基于领域词典及同义词典，结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

基于语料的领域相关性，提出了基于实体挖掘的专有词挖掘方法，基于最新的BERT构建BERT-BLSTM-CRF模型得到高准确率的专有词挖掘模型并生成高质量的候选领域词，结合领域已有的小规模专业词典，在计算候选词的支持度时赋予已被认可的专业词高的权值，完成领域新词的高质量筛选，进一步结合多种同义词生成方法生成高质量的领域同义词典，从而基于网络开放资源结合层级匹配模型及规则完成对已存在的符合认知的领域层级体系的扩充。

有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词并构建层级词典，并方便在不同领域下进行扩展应用，而提取后的词汇形成的领域专有词可补充进领域专业词典中，进一步供给计算机做后续的各种分析。

附图说明

图1是领域层级词典挖掘构建的主动学习方法流程图；

图2是领域词典及领域同义词典构建的流程图；

图3是领域层级词典的构建流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为领域层级词典挖掘构建的主动学习方法流程，包括：

步骤101构建领域专业词实体抽取模型，抽取领域文章中的专业词来生成底层原始专业词库；

步骤102结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典；

步骤103基于领域词典结合多种同义词生成方法生成领域同义词典；

步骤104通过网络开放资源构建领域层级词的初始种子词，训练层级词预测模型，并总结相关优化过滤规则；

步骤105基于领域词典及同义词典，结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。

上述步骤102通过多种过滤条件的综合运用，并且在计算支持度的时候，结合已被高度认可的领域小规模的专业词，赋予专业词不同的权重，优化支持度的计算结果，更好地达到专业词过滤的效果。

上述方法可以划分为两个阶段的工作，第一阶段工作如图2所示，通过构建相应的专业词实体抽取模型(迭代优化)抽取领域文章中的特定专业词来生成底层原始词库，经信息熵、支持度及词性模板过滤等构建领域词典，结合多种同义词生成方法生成领域同义词典，为领域层级词典的构建提供可靠的底层数据；第二阶段如图3所示，通过网络开放资源构建领域层级词的初始种子词，训练层级词预测模型(迭代优化)并总结相关优化过滤规则，在第一阶段生成的领域词中进行领域层级词的预测抽取，实现领域层级词表的上下级扩充，并引入领域同义词实现领域层级词表的同级扩充。

具体操作步骤如下：

步骤一，获取模型训练阶段的依赖资源；获取已做好标记(各句子中的字符有确定的是否被标注为专业词即专有实体的标准答案)的N个句子的集合S＝{S(i)}为训练语料，要求N≥10000，各句子记为S(i)，其中1≤i≤N。

步骤二，对训练语料的所有字符进行数据特征化预处理，得到每个字符的模型输入特征值和输出值，即根据输入的标记数据获得对应的tokens、input_ids、input_mask、segment_ids、label_ids作为BERT-BLSTM-CRF模型的特征输入和输出，进行医学实体抽取模型的训练(医学实体主要包括研究对象及研究方法等，均属于医学内的专业名词，所以可以作为挖掘领域词的原始词)，操作如下：

1)分句预处理；

2)针对每个句子，进行特征化预处理；

Features＝{input_ids，input_mask，segment_ids，label_ids}，其中tokens是原始语句按照字符切分，input_ids是基于tokens将每个字符转换为对应的字符索引数值，input_mask是字符掩码，segment_ids是语句标识，label_ids是每个字符对应的数字标签，实体标记采用传统的BIESO模式(B代表实体词的开头，I代表实体词的中间，E代表实体词的结尾，S代表单个字符的实体词，O代表的是非实体词字符，[CLS]和[SEP]是单独给语料新增的开头和结尾标志)，字符标签与数字标签之间的转换关系设置为label2id＝{'O':1,'B':2,'I':3,'E':4,'S':5,'[CLS]':6,'[SEP]':7}。

3)输入到构建的BERT-BLSTM-CRF模型中，进行专业词抽取的模型训练；

4)保存模型并获取模型在测试集上的PRF值，针对模型进行调参迭代优化，保存最佳模型作为最红应用模型。

步骤三，对于领域内的所有待提取实体的文章语料G＝{G(i)}，i≥1000000，对每篇文章进行以下处理：

1)分句预处理；

2)针对每个句子，应用步骤二中的方法进行特征化预处理；

3)输入到步骤二生成的模型中，获取每个句子的预测标签结果；

4)根据预测标签、label2id及BIESO标记规则生成实体词抽取结果；

5)汇总每个句子生成的实体词，得到每篇文章的实体词抽取结果；

6)汇总所有文章的实体词抽取结果，生成领域专业词备选词库。

步骤四，基于步骤三获取的领域专业词备选词库，融合领域的网络词库资源，生成领域词典备选总词库，并统计每个词在领域文章中的词频，针对高低频数据作不同的过滤操作。

1)针对高频词，根据各候选领域词的出现频数、凝合程度(支持度)及自由程度(信息熵)，设置对应的阈值(迭代优化获取最佳阈值)，提取满足所有阈值要求的候选词作为最终结果。

文本片段的凝合程度越高成词可能性越大，计算凝合程度需要枚举文本片段对应的所有凝合方式：这个文本片段是由哪几部分组合而来的，有多少种组合方式。令p(x)为文本片段x在整个语料中出现的概率，而{x₁,x₂,x₃......x_n}为x的某种组合方式，即x存在多种{x₁,x₂,x₃......x_n}的组合，那么我们定义‘x’的凝合程度就是在各种组合条件下x出现概率除以组合方式下各子片段概率积的结果的最小值，值得注意的是，与一般计算凝合程度不同的一点，其中针对分母中各子片段增加了专业词的权重赋值w_i，如果属于已认可的专业词，则对应w_i>1的任意正值，专业性越强的词值越大，不属于已认可的专业词，则对应w_i＝1：

文本片段的自由运用程度也是判断它是否成词的重要标准，如果一个文本片段能够算作一个词的话，它应该能够灵活地出现在各种不同的环境中，具有丰富的左邻字集合和右邻字集合。此时考虑左右邻字集合的信息量，计算左/右邻字集合信息熵。

2)针对低频词，考虑百度词库规模及其具有一定的权威性，利用第三方API进行词性分析，结合词性过滤模板进行领域词的过滤。

3)汇总高低频领域词典，经规则过滤迭代优化，生成最终版本的领域词典。

步骤五，基于领域词典，引入多种同义词生成方法生成领域同义词典，主要包括规则同义、大小写同义、词序颠倒同义、繁简体同义、中英文同义词、词向量同义等，其中规则由领域专家提供，中英文同义词由第三方翻译API及第三方百科知识结合生成，各同义规则下的同义词迭代优化，汇总生成最终的领域同义词典，多种同义词生成方法的综合运用，有效解决了当前没有任何一种有效同义词构建模型而无法直接挖掘同义词的问题。

步骤六考虑到不能对已存在的符合认知的层级体系进行破坏，可优先借鉴业界广泛认可的领域的语义层级知识体系，设定为领域层级词表的初始词表(如医学领域选择MESH词表作为初始词表)，基于网络资源爬虫，在互联网开放域资源中进行层级种子词的初步扩充：从开放域资源相关网站中进行领域层级相关内容的查找、匹配和收集，生成初步领域层级结构。

引入残差结构的网络训练上下级词匹配模型(应用word2vec专业词向量模型，将上下位专业名词带入到词向量中作为训练集合，得出相应的特征向量，把得出的向量对其清洗后带入到深度参差神经网络中，训练得出模型。在测试预测阶段，预测出词向量，使用最近距离计算出topN和相应的距离作为上下位关系的置信度)，根据模型的初步结果进行人工审核，增加一些层级词的过滤匹配规则(词频、上下级词的相似度、重合度等)来配合模型使用，在领域词典中进行层级词挖掘扩展领域层级结构，并引入领域同义词典，进行同级词的扩充。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种领域层级词典挖掘构建的主动学习方法，其特征在于，所述方法包括：

C基于领域词典结合多种同义词生成方法生成领域同义词典；

E基于领域词典及同义词典，结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充；

所述步骤C具体包括对于领域内的所有待提取实体的文章语料G＝{G(i)}，i≥1000000，对每篇文章进行以下处理：

1)分句预处理；

2)针对每个句子，应用对训练语料的所有字符进行数据特征化预处理，得到每个字符的模型输入特征值和输出值的方法进行特征化预处理；

3)输入到BERT-BLSTM-CRF模型中，获取每个句子的预测标签结果；

6)汇总所有文章的实体词抽取结果，生成领域专业词备选词库；

所述步骤D具体包括：基于获取的领域专业词备选词库，融合领域的网络词库资源，生成领域词典备选总词库，并统计每个词在领域文章中的词频，针对高低频数据作不同的过滤操作；

1)针对高频词，根据各候选领域词的出现频数、凝合程度及自由程度，设置对应的阈值，提取满足所有阈值要求的候选词作为最终结果；

文本片段的凝合程度越高成词可能性越大，计算凝合程度需要枚举文本片段对应的所有凝合方式：这个文本片段是由哪几部分组合而来的，有多少种组合方式；令p(x)为文本片段x在整个语料中出现的概率，而{x₁,x₂,x₃......x_n}为x的某种组合方式，即x存在多种{x₁,x₂,x₃......x_n}的组合，定义‘x’的凝合程度就是在各种组合条件下x出现概率除以组合方式下各子片段概率积的结果的最小值，与一般计算凝合程度不同的一点，其中针对分母中各子片段增加了专业词的权重赋值w_i，如果属于已认可的专业词，则对应w_i>1的任意正值，专业性越强的词值越大，不属于已认可的专业词，则对应w_i＝1：

文本片段的自由运用程度也是判断它是否成词的重要标准，如果一个文本片段能够算作一个词的话，能够灵活地出现在各种不同的环境中，具有左邻字集合和右邻字集合；考虑左右邻字集合的信息量，计算左/右邻字集合信息熵；

2)针对低频词，利用API进行词性分析，结合词性过滤模板进行领域词的过滤；

3)汇总高低频领域词典，经规则过滤迭代优化，生成最终版本的领域词典；

所述领域同义词典包括：规则同义、大小写同义、词序颠倒同义、繁简体同义、中英文同义词与词向量同义；各同义规则下的同义词迭代优化，汇总生成最终的领域同义词典。

2.如权利要求1所述的领域层级词典挖掘构建的主动学习方法，其特征在于，所述步骤A具体包括：获取模型训练阶段的依赖资源，即获取已做好标记的N个句子的集合为训练语料；对训练语料的所有字符进行数据特征化预处理，得到每个字符的模型输入特征值和输出值；对领域内的所有待提取实体的文章进行处理。

3.如权利要求1所述的领域层级词典挖掘构建的主动学习方法，其特征在于，所述领域专业词包括领域的研究对象与研究方法；其中，研究对象是论文主要研究目标的核心主体；研究方法是论文涉及到的主要技术，引入BERT预训练模型构建BERT-BLSTM-CRF模型。

4.如权利要求1所述的领域层级词典挖掘构建的主动学习方法，其特征在于，所述步骤B具体包括：基于获取的领域专业词备选词库，融合领域的网络词库资源，生成领域词典备选总词库，并统计每个词在领域文章中的词频，针对高频数据和低频数据作不同的过滤操作。

5.如权利要求1所述的领域层级词典挖掘构建的主动学习方法，其特征在于，所述步骤E具体包括：基于已有的领域词完成层级词的扩展，并且引入同义词进行层级词的同级扩展。