CN110442861B

CN110442861B - 一种基于真实世界统计的中文专业术语与新词发现的方法

Info

Publication number: CN110442861B
Application number: CN201910608625.9A
Authority: CN
Inventors: 马逸韬; 宁光; 姚华彦; 崔斌; 张敬谊; 李光亚; 张鑫金
Original assignee: SHANGHAI INSTITUTE OF ENDOCRINE AND METABOLIC DISEASES; WONDERS INFORMATION CO Ltd
Current assignee: SHANGHAI INSTITUTE OF ENDOCRINE AND METABOLIC DISEASES; WONDERS INFORMATION CO Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2023-04-07
Anticipated expiration: 2039-07-08
Also published as: CN110442861A

Abstract

本发明涉及一种基于真实世界统计的中文专业术语与新词发现的方法。本发明使用了点间互信息(PMI)以及邻接熵(BE)来判断来寻找“种子”(具有高聚合性的词)，采用这两个方法的原因主要是他们都属于无监督学习并且有着互补的作用。在找到“种子”之后，我们用基于16亿字的真实世界语料中所提炼出的统计信息来筛选出新词。

Description

一种基于真实世界统计的中文专业术语与新词发现的方法

技术领域

本发明涉及一种基于真实世界统计的中文专业术语与新词发现的方法，用于专业领域中文文本中的新词以及专业术语的检测。

背景技术

分词在中文自然语言处理(NLP)中有着重要的地位，它是进行自然语言处理的首要工作。在目前的自然语言处理过程中，对于一些专业性很强的文本构建一个专业词字典是提高分词质量的一个有效方法。如何在专业领域高效的建立专业词字典是一个困难的工作，目前大量的方法都是基于人工标注的深度学习算法，这个过程被称为实体名称识别。但是在没有专业人员帮助或者现存字典的情况下，它没法处理像药物名称或是手术名称这类的专业医疗文本。

以医学领域的药物名称为例，见表1

表1:药品名中英文对照表(部分)

可以看到，对于这样的一个专业文本大多数非专业人士根本不可能完成进行准确的标注工作。比如“多瑞吉(芬太尼透皮贴剂)”，这个词可以被分成两部分：“多瑞吉”和“芬太尼透皮贴剂”。但是第二部分由于存在音译词与专业名词，这会容易让人无从下手。它的正确分法是“芬太尼”、“透”、“皮贴剂”。“透”这个词容易被人合并到其他词内。同样的问题在类似的文本中会经常出现，此类专业类型的文本的标注难度极大，传统的NLP处理方法对这类专业文本的处理效果极差，远远不能满足实际应用要求。

发明内容

本发明的目的是：基于信息熵、邻接熵来判定一个词的凝固程度，从而实现文本中新词和专业术语的发现。

为了达到上述目的，本发明的技术方案是提供了一种基于真实世界统计的中文专业术语与新词发现的方法，其特征在于，包括以下步骤：

步骤1、收集来自于各个新闻媒体的新闻语料，将该新闻语料定义为新闻文本，将医疗机构临床药物名称作为对照医学专业测试文本，将该对照医学专业测试文本定义为专业文本；

步骤2、对新闻文本及专业文本分别使用二元切词，舍弃新闻文本切词结果中的非中文字符后获得候选词，统计候选词的出现次数和频率，剔除频率较低的候选词后，对每个剩余的候选词进行PMI值的计算，PMI值是一个计算候选词中两个字之间凝固程度的标准，PMI值越高则代表两个字之间的联系更紧密，计算每个候选词的PMI值后，将PMI值在一分位后的候选词舍弃，从而获得目标词；

步骤3、计算步骤2获得的任意一个目标词x的外部邻接熵

和内部邻接熵

其中：

式中，H_r(x)表示目标词x的右邻接熵，H_l(x)表示目标词x的左邻接熵，H_r(x_l)表示目标词x中位于左边的字x_l的右邻接熵，H_l(x_r)表示目标词x中位于右边的字x_r的左邻接熵；

步骤4、根据每个目标词的外部邻接熵和内部邻接熵计算得到每个目标词的BE值，并对每个BE值做归一化处理得到归一化后的BE值，设目标词x的BE值为BE(x)，归一化后的BE值为

则有：

式中，

表示所有目标词的BE值的均值，Std(BE(x))表示BE(x)的标准差；

步骤5、获得每个目标词的分数值，设目标词x的分数值为Score(x)，则有：

式中，λ表示权值，pmi′表示目标词x的PMI值；

步骤6、将分数值大于设定阈值的目标词作为种子词；

步骤7、完成了种子词的生成后，得到一张二元字符的词组表，词组表中词的凝固程度高，认为所需要提取的专业术语已经通过二元词的形式从新闻文本中提取出来，把词组表中的二元词整合在一起。

优选地，步骤2中，设新闻文本通过二元切词获得的任意一个候选词的PMI值为pmi′，则有：

式中，x表示专业文本通过二元切词获得的候选词中的一个字，另一个字为y，p(x)表示字x在专业文本中出现的频率，p(y)表示字y在专业文本中出现的频率，p(x,y)表示词xy在专业文本中出现的频率；x′表示新闻文本通过二元切词获得的候选词中的一个字，x′＝x，另一个字为y′，y′＝y，p(x′)表示字x′在新闻文本中出现的频率，p(y′)表示字y′在新闻文本中出现的频率，p(x′,y′)表示词x′y′在新闻文本中出现的频率。

优选地，步骤2中，对获得的所述pmi′进行归一化处理，则所述pmi′的归一化值为

则有：

将获得的归一化值

作为当前候选词的PMI值。

优选地，步骤7中，把词组表中的二元词整合在一起时，通过使用条件概率来把词组表中的二元词重新组合或者延长。

本发明使用了点间互信息(PMI)以及邻接熵(BE)来判断来寻找“种子”(具有高聚合性的词)，采用这两个方法的原因主要是他们都属于无监督学习并且有着互补的作用。在找到“种子”之后，我们用基于16亿字的真实世界语料中所提炼出的统计信息来筛选出新词。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供了一种基于真实世界统计的中文专业术语与新词发现的方法，包括以下步骤：

第一步，收集来自于新浪新闻、中国日报、腾讯新闻、百度新闻和***网络媒体的新闻语料(以下简称新闻文本)。使用医疗机构临床药物名称作为对照医学专业测试文本(以下简称专业文本)。

第二步，对新闻文本、专业文本分别使用二元切词，舍弃切词结果中的非中文字符。获得的结果包含候选词、候选词出现次数和候选词频率，表2中是对1G新闻文本进行了上述操作并且展示了部分结果。剔除频率低于α的候选词。对剔除低频词后的每个候选词进行PMI和BE值的计算来得到每个二元字符的词凝固度。

候选词	候选词出现次数	候选词出现频率
			表示	544435	0.00133
产品	422727	0.00103
			编辑	372018	0.00091
报道	259518	0.00063
			北京	249406	0.00060
出现	245255	0.00059
			部分	240593	0.00058
成为	229208	0.00056
			的一	226781	0.00055
第一	224486	0.00054

表2:1G新闻文本二元切词后的候选词、候选词出现次数以及候选词频率(部分)

第三步，计算第二步得到的每个候选词PMI值

PMI值是一个计算两个词之间凝固程度的标准，它的值越高则代表两个字之间的联系更紧密，数学上PMI值可以表示为pmi：

式(1)中，x表示一个词，y表示另一个词，P(x)表示词x在文本中出现的频率，P(y)表示词x在文本中出现的频率，P(x,y)表示词xy在文本中出现的频率。

将计算PMI值的式(1)应用到本发明后，对其进行修正，计算得到第二步获得的新闻文本通过二元切词后的候选词的修正后的PMI值pmi′，则有：

式(2)中，x表示专业文本通过二元切词获得的候选词中的一个字，另一个字为y；x′表示新闻文本通过二元切词获得的候选词中的一个字，x′＝x，另一个字为y′，y′＝y，本发明意在通过x′y′来校正xy。

首先将pmi′≤0的候选词舍弃掉，随后计算修正后的PMI值pmi′的归一化值

将该归一化值作为当前候选词的PMI值，则有：

本发明希望通过新闻文本下的候选词来修正专业文本，专业文本是本发明的测试对象，本发明的目标是挖掘里面的词。但是传统方法挖出来的词存在各种各样的问题。所以，本发明通过新闻文本，也就是真实世界的数据来进行校正。

对所有候选词的PMI值做降序排序，随后舍弃PMI值在第一四分位数(样本中所有数值由小到大排列后第25％的数字)后的候选词，从而获得目标词。

以下步骤，本发明将计算目标词的BE值，BE(邻接熵)是用来判断词凝固度的另一个标准。对于一个目标词x，我们定义x_i作为它的邻近字符。x的单向邻接熵就可以写作：H(x)＝-∑_ip(x_i)log₂ p(x_i)，p(x_i)表示词x_i在文本中出现的频率。它表明了一个目标词左右两侧字出现的多样性。数值越高代表这个词会在文中更多的出现，反之则说明这个词不会出现在文中的很多地方，它更倾向于与邻接的词合并成一个新词。

第四步，计算第三步获得的任意一个目标词x的外部邻接熵

和内部邻接熵

其中：

式(4)、(5)中，H_r(x)表示目标词x的右邻接熵，H_l(x)表示目标词x的左邻接熵，H_r(x_l)表示目标词x中位于左边的字x_l的右邻接熵，H_l(x_r)表示目标词x中位于右边的字x_r的左邻接熵。

x_lr代表的是目标词x左边那个词的右邻接熵，x_rl代表的是目标词x右边那个词的左邻接熵。

外部邻接熵

的结果代表了一个词的多样性，当外部邻接熵

的值比较大的时候则说明这个词会在大量的语境中出现。本发明还通过计算内部邻接熵来取得更好的效果。

第五步，根据每个目标词的外部邻接熵和内部邻接熵计算得到每个目标词的BE值，并对每个BE值做归一化处理得到归一化后的BE值，设目标词x的BE值为BE(x)，归一化后的BE值为

则有：

式(6)、(7)中，

表示所有目标词的BE值的均值，Std(BE(x))表示BE(x)的标准差。式(6)通过结合内部邻接熵和外部邻接熵得到一个新的数值，这个数值的大小可以表达候选词的凝固程度。在理想情况下，希望看到的种子词是可以在多种语境下都存在并且词的内部凝固程度很高，从数学上可以表示为式(6)。

本发明需要把BE和PMI结合来计算所有“种子”的词凝固程度，因此对最终的结果需要做归一化的处理。在不知道整体的样本分布和参数的情况下，本发明使用t分布进行归一化处理，如式(7)所示。

第六步，获得每个目标词的分数值，设目标词x的分数值为Score(x)，则有：

式(7)中，λ表示权值，pmi_′表示目标词x的PMI值。

为了得到更高质量的种子词，本发明在结合PMI和BE的时候需要给他们添加权重，本发明引入了λ作为参数参与计算，如式(7)所示。

第七步，将分数值大于设定阈值的目标词作为种子词。分数值越大，则表明候选的种子词更像是一个固定搭配；反之，这说明这个词不足以成为一个新词或者候选词。

第八步，完成了种子词的生成后，得到一张二元字符的词组表，这些词的凝固程度都很高。由于结合了真实世界的统计量作为筛选条件，可以认为所需要提取的专业术语已经通过二元词的形式提取出来。之后需要把这些二元词整合在一起。本发明通过使用条件概率来把这些分散的字符串重新组合或者延长。

比如，从“二甲”这个词出发，我们始终把字符串内的最后一个词作为出发点。所以对于“二甲”来说，我们选择“甲”作为出发点。下一步测试寻找“种子”表内所有以“甲”作为开头的词语。这些词语的出现概率语贝叶斯条件概率的形式一致

随后本发明会给出一个阀值来确定哪些词可以作为延长的对象。比如，“注射”的候选词会有“射液”、“射剂”等，将这些词重新组合后会得到三元的新词。不断的迭代运算直到没有下一个词或者所有的候选词都无法达到设定的阀值。至此完成所有专业词发现。

以下以具体实例来进一步说明本发明：

步骤1，收集来自于新浪新闻、中国日报、腾讯新闻、百度新闻和***网络媒体，时间跨度为2014年到2018年，领域涵盖了体育、娱乐、政治、科学、艺术和文化等领域,每一篇新闻的字数大约在1000字，共计8GB的新闻数据，总字数达到了16亿字的新闻语料(以下简称新闻文本)。使用医疗机构临床药物名称作为对照医学专业测试文本(以下简称专业文本)。

步骤2：生成二元词表并且舍弃出现频率小于5的候选词。随后就算出每个词PMI，并且舍弃PMI<0的字符因为这表示了他们不足以成为一个词。

步骤3：设置权重λ＝0.3，计算出每个候选者的BE并且与PMI结合成为一个新的量，记为score。最后，找到score的一分位数值并且舍弃小于这个值的候选词。

完成了上述的所有过程后会得到一张具有统计意义并且词凝固度很高的表格。表3是对这张“种子”表做降序排列后的结果，表中显示了凝固程度排名较高的结果。这些“种子”的共有特点是他们在现实中出现但很少被使用，此外在我们的测试文本中大量且经常一起出现。因此，我们相信他们可以作为高质量的种子，并且已经做好了拓展词长度的准备。

排序	候选词	Socre
			1	医辩	14.919
2	叉配	13.762
			3	点配	12.535
4	量泵	12.414
			5	腔或	12.385
6	云芝	11.798
			7	查与	11.794
8	备仪	11.537
			9	两面	10.590
10	学检	10.178

表3:测试文本中词凝聚度最高的10个词以及他们的得分

步骤4，生成名为Continue与stop的列表。其中，Continue中存放还可以被继续拓展长度的词语；stop中存放已经无法被继续拓展长度的词语。开始拓展词的长度，设置概率阀值为0.3，这表明了这个词只有在P_next>0.3的情况下才会被视为可以拓展的候选词。如果当前的词依然可以找到拓展词那就把它放入Continue的列表；反之，则放入stop的列表。

Claims

1.一种基于真实世界统计的中文专业术语与新词发现的方法，其特征在于，包括以下步骤：

步骤2、对新闻文本及专业文本分别使用二元切词，舍弃新闻文本切词结果中的非中文字符后获得候选词，统计候选词的出现次数和频率，剔除频率小于5的候选词后，对每个剩余的候选词进行PMI值的计算，PMI值是一个计算候选词中两个字之间凝固程度的标准，PMI值越高则代表两个字之间的联系更紧密，计算每个候选词的PMI值后，将PMI值在一分位后的候选词舍弃，从而获得目标词；设新闻文本通过二元切词获得的任意一个候选词的PMI值为pmi′，则有：

式中，x表示专业文本通过二元切词获得的候选词中的一个字，另一个字为y，p(x)表示字x在专业文本中出现的频率，p(y)表示字y在专业文本中出现的频率，p(x,y)表示词xy在专业文本中出现的频率；x^′表示新闻文本通过二元切词获得的候选词中的一个字，x^′＝x，另一个字为y^′，y^′＝y，p(x^′)表示字x^′在新闻文本中出现的频率，p(y^′)表示字y^′在新闻文本中出现的频率，p(x^′,y^′)表示词x′y^′在新闻文本中出现的频率；

对获得的所述pmi′进行归一化处理，则所述pmi′的归一化值为