CN104375989A

CN104375989A - 自然语言文本关键词关联网络构建***

Info

Publication number: CN104375989A
Application number: CN201410719646.5A
Authority: CN
Inventors: 王晶华; 陈晰; 郭光�; 孙辰军; 赵洋
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Hebei Electric Power Co Ltd; Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Hebei Electric Power Co Ltd; Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date: 2014-12-01
Filing date: 2014-12-01
Publication date: 2015-02-25

Abstract

本发明提供一种自然语言文本关键词关联网络构建***，包括分词模块、统计模块、训练模块、关联度计算模块和生成模块；分词模块，用于构建关键词的词典，根据词典对目标语料库进行分词操作，得到多个词；统计模块，用于对得到的多个词基于N元统计语言模型统计前后词关联出现的频度；训练模块，用于以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量；关联度计算模块，用于计算两个词的词向量的相似度，作为两个词语义相关性的度量，生成两个词之间语义关联度；生成模块，用于根据所述语义关联度，按照两个词之间的所述语义关联度的高低，生成文本关键词关联网络。该***，能够有效地提高有关项目中文本关联网络的精确度。

Description

自然语言文本关键词关联网络构建***

技术领域

本发明属于自然语言处理技术领域，更具体地说，特别涉及一种自然语言文本关键词关联网络构建***。

背景技术

一般情况下，对海量科技项目数据处理或者专家信息数据总结评价，借助计算机处理显得尤为必要，在自然语言处理技术中，由于中文自身的语言特点，中文处理比以拉丁语系为主的西文处理要复杂得多。而使得计算机能够处理自然语言的一个前提是文本量化。文本量化的一个处理手段是提取文本内容中的特征词，即从各类科技文献、科技项目立项和评审等文本材料中抽取出行业或领域关键词，再通过关键词匹配等构建文本之间的关联网络。

对于中文处理来说，量化关联度的一个前提是对文本进行分词，在进行分词操作得到词表后，当前最常用的词表示方法是把每个词表示为一个很长的向量，向量的维度是词表大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的词，即对文本中的每个词赋予了一个数字编码。该***为稀疏方式存储，非常简洁实用。但是，任意两个词之间都是孤立的，向量无法表示词之间的关系。因此，不同字组成的同义词，例如“话筒”和“麦克风”，通过这种表示方法无法体现其相同的意义。这就导致了有时关联度很高的关键词不会被识别，使得构建的关联网络精度不高。

发明内容

本发明要解决的技术问题是提供一种自然语言文本关键词关联网络构建***，用以解决上述技术问题。

本发明提供了一种自然语言文本关键词关联网络构建***，包括分词模块、统计模块、训练模块、关联度计算模块和生成模块；

所述分词模块，用于构建关键词的词典，根据所述词典对目标语料库进行分词操作，得到多个词；

所述统计模块，用于对得到的多个词基于N元统计语言模型统计前后词关联出现的频度；

所述训练模块，用于以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量；

所述关联度计算模块，用于计算两个词的词向量的相似度，作为两个词语义相关性的度量，生成两个词之间语义关联度；

所述生成模块，用于根据所述语义关联度，按照两个词之间的所述语义关联度的高低，生成文本关键词关联网络。

其中，所述分词模块包括构建词典子模块；

所述构建词典子模块，用于通过爬虫技术爬取目标语料库中的关键词信息，将得到的多个关键词汇总为词典。

其中，所述分词模块还包括用于基于字符串匹配进行分词的第一分词子模块，以及用于基于语义理解进行分词的第二分词子模块和/或用于基于字相邻共现频度统计进行分词的第三分词子模块。

其中，所述词向量为维度小于等于100的低维实数向量。

其中，所述统计模块包括元组划分模块；

所述元组划分模块，用于对切分后的多个词，按照相邻出现的1、2···N个词为一个元组，进行元组划分，统计每个词在前N-1个词出现的条件下出现的概率。

其中，所述训练模块，用于：

采用三层的神经网络训练语言模型，将前N-1个向量首尾相接拼起来，形成一个(N-1)m维的向量，作为所述神经网络的第一层，m为所述词向量的维度；

使用d+Hx计算得到第二层，并使用tanh作为激活函数，d是一个偏置项；

第三层输出V个节点yi，后使用softmax激活函数将输出值y归一化成概率，yi表示下一个词为i的未归一化log概率，y的计算公式为：

y＝b+Wx+Utanh(d+Hx)

其中U是第二层到第三层的参数，b也为一个偏置项；

用随机梯度下降法把所述语言模型优化出来。

其中，所述关联度计算模块，用于计算两个词的词向量的余弦距离。

本发明提供了一种自然语言文本关键词关联网络构建***，分词模块对中文自然语言文本进行分词后，统计模块基于N元统计语言模型统计前后词关联出现的频度，训练模块以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量，以两个词向量的相似度，度量两个词之间语义关联度，进而构建关联网络，即将中文的语义信息通过概率统计的方式，结合神经网络进行语言模型的训练，量化为词向量信息，这样构建的关联网络，结合了语义信息，相比单纯的对不同字词进行编码而不考虑语义的关联方式，显然关联的精度更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自然语言文本关键词关联网络构建***结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步的详细说明。

本发明实施例提供了一种自然语言文本关键词关联网络构建***。

参见图1所示，该***包括分词模块、统计模块、训练模块、关联度计算模块和生成模块。

其中分词模块，用于构建关键词的词典，根据词典对目标语料库进行分词操作，得到多个词。

分词模块包括构建词典子模块，用于通过爬虫技术爬取目标语料库中的关键词信息，将得到的多个关键词汇总为词典，并依据词典对语料库进行分词操作。

优选地，分词模块还包括用于基于字符串匹配进行分词的第一分词子模块，以及用于基于语义理解进行分词的第二分词子模块和/或用于基于字相邻共现频度统计进行分词的第三分词子模块。即分词操作包括基于字符串匹配进行分词，优选地，还应结合基于语义理解进行分词方法和/或基于字相邻共现频度统计进行分词方法，综合进行分词，得到词表。采用单一的分词方式，可能准确度不高，因此，将基于字符串匹配和基于理解以及基于统计这三种方式进行合理搭配和结合运用，可提高分词的准确度。

优选地，可利用n阶马尔科夫模型n-gram模型，将待分词文本进行分词，得到第一文本，n-gram模型用于消除分词歧义，第一文本包括以空格为间隔的词串；当第一文本中包括目标词串时，将目标词串添加至词典，得到更新后的词典，目标词串为未存储在所述词典中的词串。根据所述更新后的词典，利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本进行分词，分别得到第二文本和第三文本。从第二本文以及第三文本中选取词长期望和词长方差符合要求的文本作为分词结果。

更优地，对已分词的语料进行训练得到CRF模型；采用所述CRF模型对未分词的语料进行分词；判断分词成功的语料是否满足设置的条件，如果是，则加入到所述已分词的语料中；循环执行上述步骤，直至所述已分词的语料的规模不再扩大，得到最终的CRF模型。

统计模块，用于对得到的多个词基于N元统计语言模型统计前后词关联出现的频度。

统计模块包括元组划分模块。元组划分模块，用于对切分后的多个词，按照相邻出现的1、2···N个词为一个元组，进行元组划分，统计每个词在前N-1个词出现的条件下出现的概率。

其中N为自然数，即不为0的实数整数。

N元统计语言模型的形式化描述：给定一个词串，其为自然语言的概率P(w1,w2,…,wt)，w1到wt依次表示文本中的各个词，则有如下推论：

P(w1,w2,…,wt)＝P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt-1)

其中P(w1)表示第一个词w1出现的概率，P(w2|w1)是在已知第一个词的前提下，第二个词出现的概率，以次类推。可以看出，词w的出现概率取决于它前面所有词，因常用的自然语言中的词语量都非常大，导致计算P(w1,w2,…,wt)非常复杂，因此当前的自然语言处理领域都考虑使用N元语言模型，N元模型假定每个词出现的概率只与前面出现的N-1个词有关系，因此用P(wt|wt-n+1,…,wt-1)近似求解P(wt|w1,w2,…,wt-1)。

例如，以3元语言模型为例，假定整个语料库已经被切分成词串w1,w2,…,wn，则可以得到所有连续的1元组(<w1>,<w2>,<w3>,…,<wn>)、2元组(<w1,w2>,<w2,w3>,…,<wn-1,wn>)和3元组(<w1,w2,w3>,<w2,w3,w4>,…,<wn-2,wn-1,wn>)，进而统计出每个词wt在前2个词wt-1,wt-2出现的条件下出现的概率。

训练模块，用于以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量。

本发明实施例中所使用的词向量是一种形如[0.792,-0.177,-0.107,0.109,-0.542,...]的低维实数向量，维度一般不超过100，可以为50或者100这样的整数。这种词向量可通过衡量彼此之间的距离得到语义相似度，同时高维词表的表示复杂度极大的降低。

本发明中的词向量通过利用前馈或递归神经网络训练语言模型得到，以C(w)表示词w所对应的词向量，神经网络的输入是前N-1个词wt-n+1,…,wt-1个词对应的词向量，输出是一个向量，向量中的第i个元素表示下一个词是wi的概率，进而利用语料库获得的N元组计算出的统计概率作为训练条件，进而不断调整神经网络各层权重，优化结束后获得了语言模型和词向量。

作为一种可实施方式，本发明实施例使用一个三层的神经网络来构建语言模型。

wt-n+1,…,wt-1是前N-1个词，需要根据这已知的N-1个词预测下一个词wt。C(w)表示词w所对应的词向量，整个模型中使用的是一套唯一的词向量，存在矩阵C(一个|V|×m的矩阵)中。其中|V|表示词表的大小(语料中的总词数)，m表示词向量的维度。C到C(w)的转化就是从矩阵中取出一行。

网络的第一层(输入层)是将C(wt-n+1),…,C(wt-2),C(wt-1)这N-1个向量首尾相接拼起来，形成一个(N-1)m维的向量。

网络的第二层(隐藏层)如同普通的神经网络，直接使用d+Hx计算得到。d是一个偏置项。在此之后，使用tanh作为激活函数。

网络的第三层(输出层)一共有|V|个节点，每个节点yi表示下一个词为i的未归一化log概率。最后使用softmax激活函数将输出值y归一化成概率。最终，y的计算公式为：

y＝b+Wx+Utanh(d+Hx)

式子中的U(一个|V|×h的矩阵)是隐藏层到输出层的参数，整个模型的多数计算集中在U和隐藏层的矩阵乘法中。最后用随机梯度下降法把这个模型优化出来。一般神经网络的输入层只是一个输入值，而本模型的输入层也是参数(存在C中)，也需要优化的。优化结束后同时产生了词向量和语言模型。

更优地，采用如下神经网络算法表示语言模型：

h = Σ_{i = 1}^{t - 1} H_{i} C (w_{i})

y_j＝C(w_j)T_h

其中，C(w)便是词向量。其中，h表示n-gram三层神经网络中的第二层隐藏层，带有语义信息。Hi是一个m×m的矩阵，该矩阵可以理解为第i个词经过Hi变换之后对第t个词产生的贡献。因此这里的隐藏层是对前t-1个词的总结，即隐藏层h是对下一个词的一种预测。

yj是预测下一个词为wj的log概率，由C(wj)和h的内积计算获得，可以直接反应两个词的相似度。如果各词向量的模基本一致，内积的数值大小即可反应两个向量的余弦值大小。

优选地，也可将大词表拆分为多个小词表；将每个小词表对应一个神经网络语言模型，每个神经网络语言模型的输入维数相同且独立进行第一次训练；将各神经网络语言模型的输出向量合并并进行第二次训练；得到归一化的神经网络语言模型。

关联度计算模块，用于计算两个词的词向量的相似度，作为两个词语义相关性的度量，生成两个词之间语义关联度。

利用向量空间模型VSM(Vector Space Model)对两个词的向量进行距离计算作为两个词语义相关性的度量，生成两个词之间语义关联度，进而构造出整个关键词语义网络。计算两个词的词向量的相似度包括计算两个词的词向量的余弦距离。

每个词表示为一个浮点向量，可以表示为高维空间中的一个向量，利用两个向量之间的夹角计算两个向量的距离并表示他们的相似程度。

生成模块，用于根据所述语义关联度，按照两个词之间的所述语义关联度的高低，生成文本关键词关联网络。

无论科技项目、科技成果还是专家信息都是以文本形式进行描述和表达。在对大型科技成果数据库、专家信息库以及文献库等数据库中的内容进行量化、比较、评价等分析操作时，需要计算机能够理解各种文本内容的语义，才能更为准确的进行相关计算。例如分析项目之间是否具有相似性、模糊检索时均需要用到文本相似度计算；专家专业能力分析中需要将用于描述专家的关键词和项目关键词进行模式匹配分析等。

此外，现有的关键词网络多通过人工方式构建词库实现，对于新出现的词以及不在词库中的词无法识别。在中文信息处理中通常使用的分词算法无法识别特定行业的关键词，而且待评项目往往由于涉及科技创新，会创造出一些新的专业术语和名词。因此，不仅需要识别关键词，还需要依赖于关键词的语义相关性进行更为准确的关键词关联识别，即结合自然语言处理、信息检索、模式识别等技术，根据现有的信息形成语料库，通过统计手段分析关键词之间的相关性。

因此，本发明实施例提供的关联网络构建***，可用于量化评价科技项目、科技成果，以及专家评估和遴选等应用领域。由于采用了可计算距离的词向量算法，因此可以获得词向量的语义相似度，进而生成的词语义网络可以较好的表示各个词之间的近似关系。同时该***在应用于处理大规模预料库时，词向量维度较低，一般不超过100，相对于现在常用的稀疏词向量表示方式，复杂度大为降低。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种自然语言文本关键词关联网络构建***，其特征在于，包括分词模块、统计模块、训练模块、关联度计算模块和生成模块；

2.根据权利要求1所述的自然语言文本关键词关联网络构建***，其特征在于，所述分词模块包括构建词典子模块；

3.根据权利要求2所述的自然语言文本关键词关联网络构建***，其特征在于，所述分词模块还包括用于基于字符串匹配进行分词的第一分词子模块，以及用于基于语义理解进行分词的第二分词子模块和/或用于基于字相邻共现频度统计进行分词的第三分词子模块。

4.根据权利要求1所述的自然语言文本关键词关联网络构建***，其特征在于，所述词向量为维度小于等于100的低维实数向量。

5.根据权利要求1所述的自然语言文本关键词关联网络构建***，其特征在于，所述统计模块包括元组划分模块；

6.根据权利要求1所述的自然语言文本关键词关联网络构建***，其特征在于，所述训练模块，用于：

第三层输出V个节点y_i，后使用softmax激活函数将输出值y归一化成概率，y_i表示下一个词为i的未归一化log概率，y的计算公式为：

y＝b+Wx+Utanh(d+Hx)

其中U是第二层到第三层的参数，b也为一个偏置项；

用随机梯度下降法把所述语言模型优化出来。

7.根据权利要求1所述的自然语言文本关键词关联网络构建***，其特征在于，所述关联度计算模块，用于计算两个词的词向量的余弦距离。