CN105488098B

CN105488098B - 一种基于领域差异性的新词提取方法

Info

Publication number: CN105488098B
Application number: CN201510711219.7A
Authority: CN
Inventors: 史树敏; 周新宇; 黄河燕; 史胜清
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2015-10-28
Filing date: 2015-10-28
Publication date: 2019-02-05
Anticipated expiration: 2035-10-28
Also published as: CN105488098A

Abstract

本发明涉及一种基于领域差异性的新词提取的方法，属于自然语言处理应用技术领域。本发明首先通过比较不同领域间字分布的差异性，获得差异字种子，然后通过n‑gram方式拓展差异字种子，构建候选词集，接下来根据领域差异大小去除候选词集合中的重复词，最后对候选词集合中每一个词，分别以领域差异值、凝合度，以及成词率作为衡量标准，剔除领域差异较低的候选词得到新词。对比现有技术，本发明通过利用不同语料领域间差异信息，选取种子字，并通过n‑gram拓展获得候选词集合；然后再次利用词本身以及领域间差异信息，自动地选择候选词中的新词，从而明显提高了新词发现的数目和准确度。

Description

一种基于领域差异性的新词提取方法

技术领域

本发明涉及一种新词提取的方法，特别涉及一种基于领域差异性的新词提取的方法，属于自然语言处理应用技术领域。

背景技术

网络新词是指伴随着互联网出现并流行使用的一些特殊语言或文字。通常来源于影视网络热门用语，或因某一社会现象而产生的一些为大家所接受的用词。网络新词在网络领域文本，如：贴吧、微博中频繁出现。统计发现，中国每年超过1000个新词出现在人们的日常生活中。根据相关研究成果，超过60％的分词错误来自网络新词，新词识别的准确程度直接影响着智能信息处理***的性能。例如：在智能信息处理的文本情感分析任务中，固定词组搭配能够体现出情感极性，对于新词词组，如果无法对其正确识别，会导致所判断出的情感极性失真。如：“表达十分高大上”(这是一条产品的网友评论)，这里“高大上”实际应该作为一个网络新词，整体来表示“高端大气上档次”的积极情感，然而目前几乎所有的应用***中，分词处理后形成的标注序列为“表达/v十分/adv高/adj大/adj上/adv”，即：将该网络新词切分成单字，错误的分词处理使该句丢失了积极情感倾向的含义，对后续信息的智能分析产生了严重影响。因此对新词的有效识别在自然语言处理领域中有着非常重要的意义。

目前，新词提取主要分为基于规则的方法和基于统计的方法两类。基于规则方法的主要思路是：着眼于新词的构词原理，将其作为理论依据并建立一个有助于识别新词的常用语料库；然后研究词语的自身语言特性，建造一个以词语的自然属性为基础的特殊构词规则库。基于规则的方法对新词的识别准确率较高，但需要极强的语言素养与相关领域知识背景。基于统计的方法实现新词识别主要有两种手段，一种是将新词提取作为分词必不可少的一部分，通过特定统计模型最终推断出最有可能的分隔点进而得到新词。经典的统计模型有条件随机场(Conditional Random Fields，CRF)、基于特征频率信息的梯度下降训练模型等。另一种手段是将新词提取作为一个单独的任务，通常需要做词性标注(Part-Of-Speech,POS)的预处理。由于网络新词具有实时性，流通性强、动态变化等特点，因此纯粹的基于规则的方法往往效果不佳；而完全采用统计手段获取网络新词也存在训练数据稀疏、有效特征抽取困难等不足。目前大部分研究者使用规则和统计相结合的方法,以期发挥各自的优势，然而这些方法都忽略了语料库本身的信息特征优势，即：相同词在不同领域主题之间的信息(内涵)差异，具体体现为不同领域主题下相同词对应的词分布表现不同。

发明内容

本发明针对网络中不断产生和使用的新词，提出一种基于领域差异性的新词提取方法，本方法充分利用不同领域语料自身的特性，在现有通用评价体系下，有效提高了新词识别的准确率。

本发明的思想是通过比较不同领域间字分布的差异性，获得差异字种子，通过n-gram方式拓展差异字，构建候选词集，然后对候选词集合中每一个词，分别以领域差异值、凝合度，以及成词率作为衡量标准，进一步提取得到新词。

本发明中涉及的相关定义如下：

定义1：领域差异字，指能够体现领域差异性的单字，该单字能反映领域特征，其在不同领域语料中出现频率有很大区别。如，若单字c在网络语料中出现频率f_internet(c)与在新闻领域中出现频率f_news(c)之比超过阈值λ，则称c为领域差异字。对于单字成词的语言现象，若其能够体现出差异性。本发明亦认定其具有词分布的差异表现。

定义2：重复词，当词W_A和词W_B满足条件称W_B和W_A互为重复词。如：“喜大普奔”(W_A)与“大普奔”(W_B)。

定义3：领域差异值DV(Difference Value)，领域差异性的度量，利用词W在网络语料出现频率f_internet(W)与新闻语料出现频率f_news(W)计算得出；其中f_internet(W)表示词W在网络语料中出现频率，f_news(W)表示词W在新闻语料中出现频率。

定义4：凝合度CV(Concrete Value)，衡量词被正确切分的量化指标。如“电影院”有“电影”+“院”和“电”+“影院”两种凝合方式。对任意词W＝c₁c₂(其中，c₁或c₂表示构成该词的字或者词)，通过枚举其所有可能的凝合方式，计算对应权值，取其中最小值，作为该词凝合度。

定义5：成词率NWP(New Word Probability)，判断某单字序列是否组成词语的指标。如：“爱说”、“爱吃”均由单字组成，但NWP很低，即表示二者均不构成词。

本发明的的目的是通过以下步骤实现的：

一种基于领域差异性的新词提取方法，包括以下步骤：

步骤一，将待获取新词的某领域输入语料S₁与其它领域语料S₂进行对比获取领域差异字种子；

作为优选，通过以下步骤得到领域差异字种子：

(1)分别统计S₁和S₂中每一个字“c”出现的频率f_s1(c)和f_s2(c)；

(2)通过下述公式计算每个字在S₁和S₂中的差异值：

D_{word_seg}(c)＝f_s1(c)/1+f_s2(c)

(3)设定阈值λ，如果字“c”的差异值D_{word_seg}(c)超过阈值λ，将字“c”作为差异字种子。

步骤二，拓展领域差异字种子，构建候选词集合Set_candidate；

作为优选，通过以下步骤采用n-gram方式进行拓展，具体过程如下：

(1)在语料S₁中，分别取n＝2，3，4，5，获取其对应的所有的n-gram词，对这些n-gram词，如果包含有任意差异字，则保留，并统计这些n-gram词出现频率，加入候选词集合Set_candidate；

(2)对候选词集合Set_candidate中所有候选词W，与预设阈值比较，如果其词频在候选词集合Set_candidate中删去W；

步骤三：根据候选词的领域差异大小去除候选词集合Set_candidate中的重复词；

作为优选，候选词W的领域差异可以通过以下公式计算：

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))

其中f_s1(W)表示W在语料S₁中出现的频率，f_s2(W)表示词W在语料S₂中出现的频率。

进一步的，为了得到更好的去重效果，重复词的领域差异可以综合考虑凝合度与领域差异值得到，即根据定义2，找出候选词集合Set_Candidate中所有的重复词，对重复词进行比较，选出重复词中权重较大的保留，较小的舍弃；重复该过程直到候选词集合Set_Candidate中不再含有重复词，具体过程如下：

(1)根据定义2，取n＝2,3,4,5，对Set_Candidate中所有词比较，找出所有重复词，n表示Set_Candidate集合的词中包含的单字个数；

(2)根据定义3、定义4计算每个重复词的凝合度CV(W)和领域差异值DV(W)，其计算公式分别如下：

凝合度：

领域差异值：

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))

进一步地，对重复词两两比较如下公式所示加权后权值V大小，留下权值较大的词：

V(W)＝αⁿ*DV(W)+CV(W)

其中，a为参数，表示不同n-gram之间所允许的差异的度量，n表示词W中单字数目，c_i表示词W中第i个字或词，w₁和w₂为互为重复的两个词。

(3)重复进行步骤(1)、(2)，直到候选词集合中不再含有重复词。

步骤四、去除Set_Candidate中领域差异较低的候选词，将高于预设阈值γ的候选词加入新词集合Y并输出得到所有新词。

作为优选，候选词W的领域差异可以通过以下公式计算：

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))

进一步的，所述领域差异可以通过对候选词集合Set_candidate中的每一个候选词，分别根据定义3、4、5，计算其领域差异值(DV)，成词率(NWP)以及凝合度(CV)，并将其按一定的比例综合来表征，具体如下：

(1)根据下式计算候选词W差异值DV(W)：

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))

(2)根据下式计算候选词W成词率NWP(W)：

其中，f(c_i)表示W中单字c_i出现频率；Single(c_i)表示使用分词工具后，c_i出现频率；

(3)根据下式计算候选词W凝合度CV(W)：

(4)将差异值(DV)、成词率(NWP)，及凝合度(CV)分别进行归一化处理，归一化公式如下：

其中，X_j对应第j个词当前值(差异值，成词率或者凝合度)、X_min表示所有词中该值的最低值、X_max表示所有词中该值的最高值；

(5)根据下式计算候选词W权重V：

V(W)＝a*DV(W)+b*CV(W)+c*NWP(W)

其中，a、b和c分别表示差异值、凝合度、成词率占权重V的比例。

有益效果

本发明对比现有技术，通过利用不同语料领域间差异信息，选取种子字，并通过n-gram拓展获得候选词集合；然后再次利用词本身以及领域间差异信息，自动地选择候选词中的新词，从而明显提高了新词发现的数目和准确度。

附图说明

图1为本发明实施例一种基于领域差异性的新词提取方法的流程示意图；

图2为本发明方法与现有四种新词提取方法在新词识别数量以及准确率方面的对比结果示意图。

具体实施方式

下面结合附图与实施例对本发明方法做进一步详细说明。

实施例

本实施例以网络语料作为S₁、新闻语料作为S₂为例对本发明方法进行详细说明。

网络语料选择如表1所示贴吧中的一个帖子：

表1：

新闻语料选择如表2所示2001年4月4日某新闻：

表2：

一种基于领域差异性的新词提取方法，其处理流程如图1所示，包括以下步骤：

步骤一、获取领域差异字种子：

领域差异字即是在一种语料中出现次数明显多于其它语料的字，获取领域差异字的方式多种多样，本实施简单的以字在两种语料中出现的频次差是否高于某预设阈值来判定是否将其作为领域差异字种子，具体如下：

分别统计网络语料中每一个字出现的频次以及其在新闻语料中出现的频次；然后计算二者的差异值，最后设定阈值λ为2，将差异值大于等于λ的字作为差异字；得到差异字集合如表3所示：

表3：

步骤二、拓展差异字种子，获取候选词集合

对差异字进行拓展来获取候选词的方式多种多样，如通过字典或采用n-gram方式进行拓展，本实施例中采用n-gram方式，具体如下：在网络语料中，分别取n＝2、3、4或5，获取所有的n-gram组合词串，对这些n-gram词，如果包含有任意差异字，则保留，如果是无意义词串，则删除。如：“好漂亮的喵星人”，可以分别提取出如下n-gram形式：

2-gram{“好漂”，“漂亮”，“亮的”，“的喵”，“喵星”，“星人”}，

3-gram{“好漂亮”，“漂亮的”，“亮的喵”，“的喵星”，“喵星人”}，

4-gram{“好漂亮的”，“漂亮的喵”，“亮的喵星”，“的喵星人”}，以及5-gram{“好漂亮的喵”，“漂亮的喵星”，“亮的喵星人”}

然后，分别统计这些n-gram的词频，设置阈值当词语W词频f(W)超过阈值且包含上述任一差异字时，选为候选词，最终得到的候选词集合如表4所示：

表4：

步骤三、去除重复词。

首先根据定义2，找出候选词集合Set_Candidate所有的重复词；下面为以“喵星人”为例找出的所有重复词：{喵星，喵星人}，{星人，喵星人}，{喵星人，的喵星人}，{喵星人，爱的喵星人}；

其次根据两两重复词之间的领域差异大小保留领域差异较大候选词；在此，领域差异可以简单的以候选词在两种语料中出现的频次来表征，本实施例中为克服简单的频次差带来的因语料不同的影响，采用二者比值求对数来表征，如下公式所示：

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))

进一步的，实验结果证明，如果领域差异不但能考虑如上公式所示领域差异值DV，还能考虑凝合度CV的话将能得到更好的去重效果，即领域差异通过如下公式所示二者综合之后的权值得到：

V(W)＝αⁿ*DV(W)+CV(W)

因此，根据定义3、4，计算以上每个词的凝合度以及差异值。以{喵星人，爱的喵星人}为例去除重复词，喵星人词频为6，爱的喵星人词频为3，在新闻语料中词频均为0，则：

DV(喵星人)＝log((6+1)/(0+1))＝0.845

DV(爱的喵星人)＝log((3+1)/(0+1))＝0.602

CV(喵星人)有“喵”+“星人”和“喵星”+“人”两种凝合方式，其凝合度值分别为

CV(“喵”+“星人”)＝6/(8*6)＝0.125

CV(“喵星”+“人”)＝6/(6*7)＝0.143.

取其较小值作为词语“喵星人”凝合度

CV(喵星人)＝0.125

同理CV(爱的喵星人)有“爱”+“的喵星人”、“爱的”+“喵星人”、“爱的喵”+“星人”、“爱的喵星”+“人”四种凝合方式。

其凝合度值分别为：

CV(“爱”+“的喵星人”)＝3/(4*4)＝0.185

CV(“爱的”+“喵星人”)＝3/(3*6)＝0.167

CV(“爱的喵”+“星人”)＝3/(3*6)＝0.167

CV(“爱的喵星”+“人”)＝3/(3*7)＝0.143取其较小值作为词语“爱的喵星人”凝合度

CV(爱的喵星人)＝0.143

取a参数为1.1

V(喵星人)＝0.845*1.1³+0.125＝1.249

V(爱的喵星人)＝0.602*1.1⁵+0.143＝1.113

所以在本次候选词去重中保留“喵星人”，删去“爱的喵星人”。对Set_Candidate中所有的重复词，执行步骤三，直至没有重复词产生。最终确定的候选词如表5所示：

表5：

步骤四、根据领域差异筛选候选词得到新词集合并输出。

同步骤三，所述领域差异可以通过候选词在不同语料间频次比值取对数后表征，但经实验证明，如果领域差异能够综合考虑领域差异值DV、成词率NWP以及凝合度CV，按照如下公式所示将三者按照一定的比例综合的话将取得更好的效果：

V(W)＝a*DV(W)+b*CV(W)+c*NWP(W)

对候选词集合Set_Candidate中的每一个候选词，分别根据定义3、4、5，计算其领域差异值，成词率以及凝合度：

仍以“喵星人”一词为例：

差异值：DV(喵星人)＝log((6+1)/(0+1))＝0.845

凝合度：CV(喵星人)＝6/(8*6)＝0.125(取“喵”+“星人”得最低)

成词率：

本实施例采用ICTCLAS分词工具将上文分词后得到single(喵)＝8，single(星)＝6，single(人)＝7；又f(喵)＝8，f(星)＝6，f(人)＝7，f(喵星人)＝6；因此

进一步的，为取得更好的提取效果，需要将以上三种值进行归一化后再综合得到领域差异的权值；

表5所示7个词中三种值的最大、最小值分别为：

DV_max＝0.903；DV_min＝0.176；

CV_max＝0.25；CV_min＝0.071；

NWP_max＝1；NWP_min＝0；

归一化后，“喵星人”三种值分别为：

取a＝0.6，b＝0.4，c＝-0.2；

V_喵星人＝0.6*0.920+0.4*0.302-0.2*0＝0.6728

由此得到表5所示所有的词的领域差异如表6所示：

表6：

取阈值γ＝0.4，滤除所有领域差异低于阈值γ的词得到新词集合为{楼主，喵星人，玲体}。

实验结果：

为了验证本发明实施例基于领域差异性的新词提取方法的有效性，本实验采用新浪微博6月6-8日三天微博，共计10,237,813条，以及百度“李毅大帝吧”共计3,524,584个帖子作为网络语料，使用***1993年到2004年所有发布的新闻数据，共计9,517,292个句子作为新闻语料，分别利用现有新词提取方法CV、NWP、EMI、PNWD以及本发明提出的DV以及DV+CV+NWP方法在新词识别数量以及准确率方面进行对比，对比结果如图2所示。

CV和NWP为本领域技术人员普遍了解的新词提取统计方法，此处不再赘述。

EMI:Zhang等人于2009年提出的Enhanced Mutual Information算法，其公式：

其中，词语W＝w₁w₂…w_n，w_i为构成词语的每一个字，n为构成词语的字的个数。F表示词语W出现次数，F_i表示字w_i出现次数。该算法思想在于衡量词语对每个字的依赖性，值越大，则成为词语的可能性越大。

PNWD:Huang等人于2014年提出的基于模式的新词识别(Patten New WordDetection)算法。该算法核心思想是利用POS标注信息并通过种子词汇自动地选择符合短语模式如<ad，*，au>的模型，再通过这些模型自动提取出新出现词汇的方法。

如图2所示，图中x轴表示前k个词，y轴表示前k个词的平均准确率AP(k)。由图中可以看到，与基准实验EMI相比，CV，NWP，DV，DV+CV+NWP均取得更好的效果，与基准实验PNWD相比，DV和DV+CV+NWP效果更好，而CV和NWP在结果集合较小时，准确度比PNWD稍差，而随着结果数据的扩大，CV和NWP又有着明显的提升。这是因为PWND只能发现形容词性的新词，而忽略了其他词性的新词，所以，在高效的识别出形容词性的新词后，PWND对于其他词性的新词识别率下降。对于DV，取得非常好的效果，主要因为该方法充分利用了不同领域之间差异性，而新词很能体现这种领域差异性。对于CV和NWP，其识别准确率稍差，主要因为CV和NWP对于2-gram词汇判断稍差，对2-gram词汇，会把他分成2个单字，而单字出现的概率很大，造成2-gram的这2个值极低，不易被识别，而新词中2-gram词汇有很大一部分，故而该2种方法效果不太理想。DV+CV+NWP综合了DV，CV以及NWP三种方法的优势，得到最好的结果。因此，与传统方法相比，本发明提出的基于领域差异性的新词提取方法能得到更高准确率和发现更多的新词。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都在要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于领域差异性的新词提取方法，其特征在于，包括以下步骤：

步骤1、将待获取新词的某领域输入语料S₁与其它领域语料S₂进行对比获取领域差异字种子；所述领域差异字，指能够体现领域差异性的单字，即若单字c在某类领域语料中出现频率f_internet(c)与在另一类领域语料中出现频率f_news(c)之比超过阈值λ，则称c为领域差异字；

步骤2、通过n-gram方式拓展领域差异字种子，构建候选词集合Set_Candidate，具体过程如下：

(1)在语料S₁中，分别取n＝2，3，4，5，获取其对应的所有的n-gram词，对这些n-gram词，如果包含有任意领域差异字，则保留，并统计这些n-gram词出现频率，加入候选词集合Set_Candidate；

(2)对候选词集合Set_Candidate中所有候选词W，与预设阈值比较，如果其词频在候选词集合Set_Candidate中删去W；步骤3、根据候选词的领域差异大小去除候选词集合Set_Candidate中的重复词；

所述候选词W的领域差异通过以下公式计算：

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))

其中f_s1(W)表示词W在语料S₁中出现的频率，f_s2(W)表示词W在语料S₂中出现的频率；

步骤4、去除Set_Candidate中领域差异较低的候选词，将高于预设阈值γ的候选词加入新词集合Y并输出得到所有新词。

2.根据权利要求1所述的一种基于领域差异性的新词提取方法，其特征在于，所述领域差异字种子通过以下过程获取：

(2)通过下述公式计算每个字在S₁和S₂中的差异值：

D_{word_seg}(c)＝f_s1(c)/f_s2(c)

(3)设定阈值λ，如果字“c”的差异值D_{word_seg}(c)超过差异阈值λ，将字“c”作为差异字种子。

3.根据权利要求2所述的一种基于领域差异性的新词提取方法，其特征在于，λ＝2。

4.根据权利要求1-3任一所述的一种基于领域差异性的新词提取方法，其特征在于，所述根据领域差异大小去除候选词集合Set_Candidate中的重复词通过以下步骤进行：

(1)取n＝2、3、4或5，对Set_Candidate中所有词进行比较，找出所有重复词，n表示Set_Candidate集合的词中包含的字的个数；

(2)对于找到的重复词综合考虑凝合度CV以及领域差异值DV通过下式计算其权重V，并保留权重较大的词、去除权重较小的词从而达到去重的目的：

V(W)＝αⁿ*DV(W)+CV(W)；

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))；

其中，α为参数，表示不同n-gram之间所允许的差异的度量，c_i表示词W中第i个字或词，且W＝c₁c₂；其中，f(W)表示词W在文本语料中出现的频率；

5.根据权利要求4所述的一种基于领域差异性的新词提取方法，其特征在于，α ＝1.1。

6.根据权利要求1-3任一所述的一种基于领域差异性的新词提取方法，其特征在于，所述去除Set_Candidate中领域差异较低的候选词中的“领域差异”为将领域差异值DV、成词率NWP以及凝合度CV按一定的比例综合后的值，即权重V，具体通过以下过程得到：

(1)根据下式计算候选词W差异值DV(W)：

DV(W)＝log(1+f_s1(W)/(1+f_s2(W)))

(2)根据下式计算候选词W成词率NWP(W)：

其中，f(c_i)表示字c_i出现频率；Single(c_i)表示使用分词工具后，c_i出现频率；i表示构成W的字词的标号，n表示构成词W的所有字词的数量；

(3)根据下式计算候选词W凝合度CV(W)：

其中，X_j对应第j个词当前值，所述当前值为差异值、成词率或者凝合度、X_min表示所有词中该值的最低值、X_max表示所有词中该值的最高值；

(4)根据下式计算候选词W权重V：

V(W)＝a*DV(W)+b*CV(W)+c*NWP(W)

7.根据权利要求6所述的一种基于领域差异性的新词提取方法，其特征在于，a＝0.6，b＝0.4，c＝-0.2。

8.根据权利要求1-3、5或7任一所述的一种基于领域差异性的新词提取方法，其特征在于，γ＝0.4。