CN110569503B

CN110569503B - 一种基于词统计与WordNet的义项表示与消歧方法

Info

Publication number: CN110569503B
Application number: CN201910803617.XA
Authority: CN
Inventors: 朱新华; 郭青松; 温海旭; 陈宏朝
Original assignee: Yami Technology Guangzhou Co ltd
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2023-12-29
Anticipated expiration: 2039-08-28
Also published as: CN110569503A

Abstract

本发明公开一种基于词统计与WordNet的义项表示与消歧方法，发明利用WordNet中已经整理好的在国际上广泛认可的词语义项集与同义词集作为先验知识，提出了一种基于***词统计的义项向量生成方法，该方法以***中作为语料，利用词统计模型训练得到初步的词向量，然后充分利用词统计向量维度词的语义信息，合并WordNet同义词的词向量，形成词语的义项向量，同时还提出了利用WordNet注解来进行义项消歧的方法，这样可以提高词语在不同语言环境下的语义计算精度，从而能够在实际应用中合理、准确地使用义项向量，并可广泛应用于自然语言处理的各种语义计算场合。

Description

一种基于词统计与WordNet的义项表示与消歧方法

技术领域

本发明涉及人工智能中的自然语言理解领域，具体涉及一种基于词统计与WordNet的义项表示与消歧方法。

背景技术

目前人工智能领域中的深度学习技术发展突飞猛进，不仅在图像领域表现优异，在自然语言处理方面也是应用广泛。随着深度神经网络与自然语言处理的结合，词向量也被提出。旨在解决自然语言在神经网络中的向量表示，将词语转化未稠密向量，而且对于相似的词，其对应的词在向量空间中也相近。在自然语言处理应用中，词向量是作为深度学习模型的特征进行输入，因此，最终模型的效果很大程度上也取决于词向量的效果。

基于神经网络的词向量，通过大数据进行训练，因此更为准确，但它直接使用训练网络中输入层的权重作为词向量，向量维度缺乏语义解释，因此无法通过词向量的合并得到义项向量。基于统计的词向量以词语作为维度，其向量维度具有丰富的语义，因此可以通过合并这类词向量得到义项向量。然而，由于在自然语言中普遍存在一词多义的现象，因此想要让计算机能够准确地理解自然语言，必须正确使用词语的词义。词义是词汇在一定的语言环境下所反映的特定意义，它更加具象、物化在该语境下的语义属性，能够更好的反映出词汇之间的关系。目前各种词向量一般都是针对词语生成唯一的词向量，并没有将义项词向量训练出来，所以在实际应用中，每个词语只能使用唯一的词向量在不同的语言环境下进行语义计算，这极大地降低了语义计算的精度。

发明内容

本发明所要解决的是目前每个词语只能使用唯一的词向量在不同的语言环境下进行语义计算，从而极大地降低了语义计算的精度的问题，提供一种基于词统计与WordNet的义项表示与消歧方法。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于词统计与WordNet的义项表示与消歧方法，包括如下步骤：

步骤1、获取***的离线页面文件，并对离线***页面文件进行预处理，得到预处理好的***语料；

步骤2、对于预处理好的***语料，选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练，得到词共现矩阵与词向量；

步骤3、从WordNet中获取词语的义项集及其同义词集；

步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集，通过合并同义词的词向量，生成词语的义项向量；

步骤5、从WordNet中获取词语的每个义项的注解集；

步骤6、将义项注解句与消歧文本形成待比较的文本对列表；

步骤7、将待比较文本对列表中的文本，进行词根还原处理，提取出它们之中的名词与动词分别作为它们的核心语义袋，以将文本对的比较转换为由名词和动词组成的核心语义袋的比较；

步骤8、通过核心语义袋，计算出词语每个义项的注解集与消歧文本之间的相似度；

步骤9、根据词语每个义项的注解集与消歧文本之间的相似度，输出注解集与消歧文本相似度最高的义项作为消歧结果。

上述步骤4的具体过程如下：

步骤4.1、对于词语t的第i个义项tⁱ，将该词语t的词向量V(t)作为义项tⁱ的初始化义项向量SV₀(tⁱ)，即令SV₀(tⁱ)＝V(t)；

步骤4.2、对于同义词集中单义同义词st，依次采用下式将该单义同义词st的词向量V(st)与初始化义项向量SV₀(tⁱ)进行迭代合并，生成义项tⁱ的一级义项向量SV₁(tⁱ)，如下式所示：

SV₁(tⁱ)＝{(s_i,wt(s_i,SV₀(tⁱ))+wt(s_i,V(st))|s_i∈D₁∪D₂}

其中，wt(s_i,SV₀(tⁱ))表示维度词s_i在初始化义项向量SV₀(tⁱ)中的权重，wt(s_i,V(st))表示维度词s_i在词向量V(st)中的权重，D₁表示初始化义项向量SV₀(tⁱ)中权重不为0的维度词的集合，D₂表示词向量V(st)中权重不为0的维度词的集合；

在每次迭代合并前，先使用上一次迭代合并的结果SV₁(tⁱ)作为初始化义项向量SV₀(tⁱ)，即令SV₀(tⁱ)＝SV₁(tⁱ)；若义项tⁱ同义词集中不存在任何单义同义词，则令SV₁(tⁱ)＝SV₀(tⁱ)；

步骤4.3、对于同义词集中多义同义词dt，依次采用下式将该多义同义词dt词向量V(dt)与一级义项向量SV₁(tⁱ)进行迭代合并，生成义项tⁱ的二级义项向量SV₂(tⁱ)，如下式所示：

其中，wt(s_i,SV₁(tⁱ))表示维度词s_i在一级义项向量SV₁(tⁱ)中的权重，wt²(s_i,V(dt))表示维度词s_i在词向量V(dt)中的权重，wt(s_j,SV₁(tⁱ))表示维度词s_j在一级义项向量SV₁(tⁱ)中的权重，D₃表示一级义项向量SV₁(tⁱ)中权重不为0的维度词的集合，D₄表示词向量V(dt)中权重不为0的维度词的集合；

在每次迭代合并前，先使用上一次迭代合并的结果SV₂(tⁱ)作为一级义项向量SV₁(tⁱ)，即令SV₁(tⁱ)＝SV₂(tⁱ)；若义项tⁱ同义词集中不存在任何多义同义词，则令SV₂(tⁱ)＝SV₁(tⁱ)；

步骤4.4、对于义项tⁱ同义词集中的组合同义词ct，将该组合同义词ct中的第一个词ft的词向量V(ft)作为组合同义词ct的初始化组合词向量CV₀(ct)，即令CV₀(ct)＝V(ft)；

步骤4.5、对于组合词同义词ct中的独立词at，依次采用下式将词向量V(at)与初始化组合词向量CV₀(ct)进行迭代合并，生成组合同义词组合同义词ct的一级组合词向量CV₁(ct)，如下式所示：

其中，wt(s_i,CV₀(ct))表示维度词s_i在初始化组合词向量CV₀(ct)中的权重，wt(s_i,V(at))表示维度词s_i在词向量V(at)中的权重，wt(s_j,CV₀(ct))表示维度词s_j在初始化组合词向量CV₀(ct)中的权重，D₅表示初始化组合词向量CV₀(ct)中权重不为0的维度词的集合，D₆表示词向量V(at)中权重不为0的维度词的集合；

在每次迭代合并前，先使用上一次迭代合并的结果CV₁(ct)作为初始化组合词向量CV₀(ct)，即令CV₀(ct)＝CV₁(ct)；

步骤4.6、依次将步骤4.3所得tⁱ的二级义项向量SV₂(tⁱ)与步骤4.5所得的一级组合词向量CV₁(ct)进行迭代合并，生成义项tⁱ的最终向量SFV(tⁱ)，如下式所示：

其中，wt(s_i,SV₂(tⁱ))表示维度词s_i在二级义项向量SV₂(tⁱ)中的权重，wt(s_i,CV₁(ct))表示维度词s_i在一级组合词向量CV₁(ct)中的权重，wt(s_j,SV₂(tⁱ))表示维度词s_j在二级义项向量SV₂(tⁱ)中的权重，D₇表示二级义项向量SV₂(tⁱ)中权重不为0的维度词的集合，D₈表示一级组合词向量CV₁(ct)中权重不为0的维度词的集合；

在每次迭代合并前，先使用上一次迭代合并的结果SFV(tⁱ)作为二级义项向量SV₂(tⁱ)，即令SV₂(tⁱ)＝SFV(tⁱ)；若义项tⁱ同义词集中无任何组合同义词，则令SFV(tⁱ)＝SV₂(tⁱ)。

上述方案中，对于所生成的词向量和义项向量，只保存其中权重不为零的维度词及其权重，而将没有保存的维度词的权重默认为0。

上述步骤8中，词语t的义项tⁱ的注解集gloss(tⁱ)与待消歧词语t所在的消歧文本text^t之间的相似度sim(gloss(tⁱ),text^t)为：

sim(gloss(tⁱ),text^t)＝max{sim(glBag_j,textBag)|j∈[1,p_i]}

其中，sim(glBag_j,textBag)表示核心语义袋glBag_j与textBag之间的相似度，max{·}表示求最大值，glBag_j表示从注解句子gl_j中提取出的由名词与动词组成的核心语义袋，gl_j表示义项tⁱ的注解集gloss(tⁱ)中任意一个由分号分隔的注解句子，textBag表示从待消歧文本text^t中提取出的由名词与动词组成的核心语义袋，p_i表示义项tⁱ的注解集gloss(tⁱ)中注解句子的个数，B₁表示核心语义袋glBag_j，B₂表示核心语义袋textBag，|·|表示核心语义袋中词语的个数，depth(u)表示词语u在WordNet层次结构中的深度，depth(v)表示词语v在WordNet层次结构中的深度，LCS(u,v)表示词语u与v在WordNet中的最近公共父结点，depth(LCS(u,v))表示最近公共父结点在WordNet层次结构中的深度。

与现有技术相比，本发明利用WordNet中已经整理好的在国际上广泛认可的词语义项集与同义词集作为先验知识，提出了一种基于***词统计的义项向量生成方法，该方法以***中作为语料，利用词统计模型训练得到初步的词向量，然后充分利用词统计向量维度词的语义信息，合并WordNet同义词的词向量，形成词语的义项向量，同时还提出了利用WordNet注解来进行义项消歧的方法，这样可以提高词语在不同语言环境下的语义计算精度，从而能够在实际应用中合理、准确地使用义项向量，并可广泛应用于自然语言处理的各种语义计算场合。

附图说明

图1为一种基于词统计与WordNet的义项表示与消歧方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种基于词统计与WordNet的义项表示与消歧方法，如图1所示，其具体包括如下步骤：

首先获取到***的离线页面文件，然后将其中的非法字符转换为空格，图片表格删除仅保留标题，链接保留文本，最终留下包含a-z(A-Z范围的转化为小写)及数字的纯文本。清洗完成后通过词统计模型生成共现矩阵并从中获取对应的词向量，最终形成初始词向量，作为义项生成模型的输入，然后本发明将词语在WordNet对应的义项以及同义词集也作为输入，目的是为了利用词语对应的同义词集来生成对应的义项向量，首先模型将同义词集中的所有词通过查表的形式从初始词向量中获得，同时将输入词作为源词，查到相应词向量作为基准，与同义词集中的其他词进行交运算，在此之前，本发明将同义词集中具有单义项的词进行筛选，因为这些词可以更好的表达源词的语义，没有多义项，所以不会造成干扰，最终将这些词的向量与源词进行并运算，以扩展丰富源词的语义特征。其中还涉及到组合词的问题，目前并没有很好的方法来生成组合词的向量，本发明的解决办法是将组合词拆分为单个单词，然后将这些单个单词的向量进行合并，即维度相交的部分相加，而没有相交的进行并运算。最后将输出单词对应义项的向量。

一、基于***的词共现矩阵与词向量的生成

本发明是基于***开放语料库训练的词统计向量，因为***中词语较多，所以取其中词频在前30万的词作为训练的目标词和维度词，最终获得这30万词的词向量，且每一个词向量的维度为30万维，每一个维度都为词语，有其特定意义。例如，一个词统计向量示实例如下所示：

V(deckhand)＝{(guinean,0.284611),(trawler,0.250539),(cowell,0.247986),…}

具体生成步骤如下：

(1)下载并预处理***的离线页面数据文件。

首先通过***提供的转储备份数据库获取***的离线页面数据文件。本发明使用JWPL(Java Wikipedia Library)工具来解析***下载数据库，JWPL运行在从***下载数据库创建的优化数据库上，可快速访问***的页面文章、类别、链接、重定向等。离线***页面中包含了各种各样的数据，不仅有文本，还有图片、表格、链接以及网页中特有的字符，本发明利用公式(1)对***页面数据进行清洗，最终留下训练词向量所需的文本数据，并将A-Z范围的大写字符转化为小写的a-z，将不可显示符号转换为空格，然后将预处理好的***页面数据输入步骤(2)的词统计模型中。

Page_wiki＝{lower(w)|w∈S} (1)

其中，lower是对字符进行小写转换的函数，S为可显示字符与数字的集合。

(2)生成基于***词统计的词共现矩阵与词向量。

对于预处理好的***语料，由于其词语丰富，数量较多，为方便训练，且为生成更有效的词向量，最终选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练，得到如公式(2)、(3)所示的词共现矩阵与词向量，本发明取K＝30万。

公式(2)表示基于***的词共现矩阵，其由一个K*k的权重矩阵组成，其中每一行为一个目标词在该矩阵中的词向量即权重向量；

V(t_i)＝{(t_j,w_i,j)|t_j∈T^K} (3)

公式(3)表示目标词t_i在词共现矩阵中的词向量，其为K个形如(t_j,w_i,j)的维度词及其权重对子组成，T^K表示K个维度词的集合，t_j表示T^K中的一个维度词，w_i,j表示目标词t_i在维度词t_j上的权重，w_i,j的计算公式如下所示：

定义一个以目标词t_i为中心，左右边界为L个词的共现窗口window，取L∈[2,5]，然后按公式(4)计算在该window下，目标词t_i在维度词t_j上的权重w_i,j：

其中，f(t_i,t_j)为词语t_i与t_j在***语料中按指定共现窗口window测量到的共同出现的次数，f(t_i)、f(t_j)分别表示词语t_i与t_j在***语料中出现的次数。

二、从WordNet中获取词语的义项集及其同义词集

本发明使用国际上广泛认可的WordNet，作为输入词条的义项集和同义词集的先验知识库。在WordNet中词语如果是多义词，则提供多个义项，且每个义项通常由多个同义词组成同义词集，并包括相应的注解。注解通常是由非常简单易懂的句子来对义项进行定义与举例。词汇语言学起源于对词的认识：词一般分为词形和词义，词形通常来特指源词或主题词，词义表示词形即源词所代表的词汇概念。对于同一个源词，在不同的上下文中可表示不同的词义，所以为了能够更好地区分词义，词的文法分类通常利用词形和词义之间的映射关系来表示。在WordNet中，有些词形可以对应多个不同的词义，即一词多义；而有些词义也可以用不同的词形来表示，即一义多词。基于***词统计的原始词向量是基于***文本语料进行统计的，并不能区分词语的同义词集及多义项。因此，本发明使用WordNet字典，来获取词语的义项集及其同义词集，操作步骤如下：

(1)在WordNet字典中输入索引词语t。

(2)搜索WordNet字典，获得如公式(5)所示的词语t的多义项集SenSet(t)，以及公式(6)所示的每个义项的同义词集sense(tⁱ)：

SenSet(t)＝{sense(tⁱ)|i∈[1,n_t]} (5)

公式(5)表示词语t在WordNet中具有n_t个义项，n_t为正整数；

sense(tⁱ)＝{t,t_j|j∈[0,m_i]} (6)

公式(6)表示词语t的第i个义项的同义词集由t和t之外的m_i个词语组成，m_i为0或正整数。

例如，对于词条Brazil，在WordNet中共有2个义项：

Brazil义项1：{源词:Brazil，同义词:Federative Republic of Brazil，同义词:Brasil}

Brazil义项2：{源词:Brazil，同义词:brazil nut}。

三、通过合并同义词的词向量，生成词语的义项向量

本发明的基于***词统计与WordNet的义项向量生成步骤为：

(1)义项向量的初始化。

对于词语t的第i个义项tⁱ，本发明使用由公式(3)生成的词向量V(t)初始化义项向量SV₀(tⁱ)，即：

SV₀(tⁱ)＝V(t) (7)

(2)将初始义项向量与单义同义词向量进行合并。

本发明将在WordNet中仅具有一个义项的同义词定义为单义同义词。对于一个源词，如果义项元素越少，说明该源词表达的语义更明确，歧义更少，得到的词向量干扰也越少，因此本发明将单义同义词向量中与源词向量的权重直接相加，达到突出单义同义词向量在义项向量生成中的作用。

设义项tⁱ同义词集sense(tⁱ)中存在一个单义同义词st，则本发明采用如下的公式(8)将st的词向量V(st)与初始义项向量SV₀(tⁱ)进行合并，生成新的义项向量SV₁(tⁱ)：

SV₁(tⁱ)＝{(s_i,wt(s_i,SV₀(tⁱ))+wt(s_i,V(st))|s_i∈D₁∪D₂} (8)

其中，SV₀(tⁱ)由公式(7)生成，V(st)由公式(3)生成，D₁表示SV₀(tⁱ)中权重不为0的维度词的集合，D₂表示V(st)中权重不为0的维度词的集合，函数wt(s,V)表示维度词s在向量V中的权重。

(3)重复步骤(2)，将sense(tⁱ)中所有单义同义词的词向量与义项向量SV₁(tⁱ)进行合并。其中，每次合并前先使用上一次合并的结果SV₁(tⁱ)初始化向量SV₀(tⁱ)，即令SV₀(tⁱ)＝SV₁(tⁱ)；若义项tⁱ同义词集sense(tⁱ)中不存在任何单义同义词，则令SV₁(tⁱ)＝SV₀(tⁱ)。

(4)将义项向量与多义同义词向量进行合并。

本发明将在WordNet中具有多个义项的同义词定义为多义同义词。为降低多义同义词向量对义项向量生成的负面作用，本发明采用如下的公式(9)将多义同义词向量V(dt)与义项向量SV₁(tⁱ)进行非线性合并，生成新的义项向量SV₂(tⁱ)：

其中，SV₁(tⁱ)由步骤(2)与步骤(3)生成，dt表示义项tⁱ同义词集sense(tⁱ)中的一个多义同义词，V(dt)为由公式(3)生成的dt的词向量，D₃表示SV₁(tⁱ)中权重不为0的维度词的集合，D₄表示V(dt)中权重不为0的维度词的集合。

(5)重复步骤(4)，将sense(tⁱ)中的所有多义同义词的词向量与义项向量SV₂(tⁱ)进行合并。其中，每次合并前先使用上一次合并的结果SV₂(tⁱ)初始化向量SV₁(tⁱ)，即令SV₁(tⁱ)＝SV₂(tⁱ)；若义项tⁱ同义词集sense(tⁱ)中不存在任何多义同义词，则令SV₂(tⁱ)＝SV₁(tⁱ)。

(6)生成组合同义词向量。

本发明将在WordNet同义词组中由多个独立词组成的短语定义为组合同义词，例如，组合词：computerized_axial_tomography→词语1：computerized+词语2：axial+词语3：tomography。对于义项tⁱ同义词集sense(tⁱ)中的组合同义词ct，本发明首先采用ct中的第一个词ft的词向量按如下的公式(10)初始化组合词向量CV₀(ct)：

CV₀(ct)＝V(ft) (10)

然后，对于组合词同义词ct中的独立词at，本发明采用如下的公式(11)将词向量V(at)与组合词向量CV₀(ct)进行合并，生成新的组合词向量CV₁(ct)：

其中，CV₀(ct)由公式(10)生成，V(at)由公式(3)生成，D₅表示CV₀(ct)中权重不为0的维度词的集合，D₆表示V(at)中权重不为0的维度词的集合。

最后，重复执行公式(11)将组合词同义词ct中的所有独立单词向量与组合词向量CV₁(ct)进行合并。其中，每次合并前先使用上一次合并的结果CV₁(ct)初始化向量CV₀(ct)，即令CV₀(ct)＝CV₁(ct)。

(7)将义项向量与组合同义词向量进行合并。

对于按步骤(6)生成的组合同义词向量CV₁(ct)，本发明采用如下的公式(12)将其与义项向量SV₂(tⁱ)进行合并，生成义项tⁱ的最终向量SFV(tⁱ)。

其中，SV₂(tⁱ)由步骤(4)与步骤(5)生成，CV₁(ct)由步骤(6)生成，D₇表示SV₂(tⁱ)中权重不为0的维度词的集合，D₈表示CV₁(ct)中权重不为0的维度词的集合。

(8)重复步骤(7)，将sense(tⁱ)中的所有组合同义词向量与义项向量SFV(tⁱ)进行合并。其中，每次合并前先使用上一次合并的结果SFV(tⁱ)初始化向量SV₂(tⁱ)，即令SV₂(tⁱ)＝SFV(tⁱ)；若义项tⁱ同义词集sense(tⁱ)中无任何组合同义词，则令SFV(tⁱ)＝SV₂(tⁱ)。

四、基于WordNet的义项消歧方法

由于在自然语言中一词多义的现象普遍存在，所以想要让计算机能够准确理解自然语言，自动消歧是非常重要的。词义是词汇在一定的语言环境下反映的特定意义，它更加具象、物化在该语境下的语义属性，能够更好的反映出词汇之间的关系。所谓义项消歧是指在一个指定文本中确定一个词语所对应的义项。义项消歧是应用义项向量的前提和配套方法。

本发明提出一种基于WordNet的义项消歧方法，可以在实际应用中配合本发明生成的义项词向量的使用。本发明提出的基于WordNet的义项消歧步骤如下：

(1)从WordNet中获取词语的每个义项的注解集。

提取义项注解。在WordNet中，对于词的一个义项，是将所有同义词放在一个集合中作为该义项的同义词集，除此之外，还加入了注解，该注解一般是由几句简单句构成(通常为定义和例句)，可以使WordNet的使用者能够区分开可能混淆的词义。本发明在WordNet中将义项同义词集中的注解句提取出来，定义成如公式(13)所示的注解集合：

gloss(tⁱ)＝{gl_j|j∈[1,p_i]} (13)

公式(13)表示义项tⁱ的注解集由p_i个注解句子组成，其中gl_j表示义项tⁱ的注解集中任意一个由分号分隔的注解句子。

例如，以Brazil为例，Brazil在WordNet中的语料为：

Brazil：

1.Brazil,Federative Republic of Brazil,Brasil--(the largest LatinAmerican country and the largest Portuguese speaking country in the world；located in the central and northeastern part of South America；world's leadingcoffee exporter)

2.brazil nut,brazil--(three-sided tropical American nut with whiteoily meat and hard brown shell)

从而得到Brazil的两个义项的注解集为：

gloss(Brazil¹)＝{the largest Latin American country and the largestPortuguese speaking country in the world；located in the central andnortheastern part of South America；world's leading coffee exporter}

gloss(Brazil²)＝{three-sided tropical American nut with white oilymeat and hard brown shell}

(2)将义项注解句与消歧文本形成待比较的文本对列表。

将步骤(1)所提取的义项注解句子分别与待消歧词语义项所在的消歧文本进行组合，形成待比较的文本对列表，如公式(14)所示：

TextList(gloss(tⁱ),text^t)＝{(gl_j:text^t)|j∈[1,p_i]} (14)

其中，gloss(tⁱ)表示义项tⁱ的注解集，它由公式(13)生成，text^t表示待消歧词语t所在的文本，(gl_j:text^t)表示一个待比较的文本对。例如,

对于待消歧的语句:text^Brazil＝”Unlike in the US where African Americanswere united in the civil rights struggle,in<b>Brazil</b>the philosophy ofwhitening has helped divide blacks from other non-whites and prevented a moreactive civil rights movement”

得到如下所示的比较文本对列表：

List(gloss(Brazil²),text^Brazil)＝{”three-sided tropical American nutwith white oily meat and hard brown shell”:”Unlike in the US where AfricanAmericans were united in the civil rights struggle,in<b>Brazil</b>thephilosophy of whitening has helped divide blacks from other non-whites andprevented a more active civil rights movement”}

(3)将文本对的比较转换为由名词和动词组成的核心语义袋的比较。

将步骤(2)生成的待比较文本对列表中的文本，进行词根还原处理，提取出它们之中的名词与动词分别作为它们的核心语义袋，将文本对的比较转换为它们核心语义袋的比较，如公式(15)所示，并生成相应的核心语义袋比较对列表，如公式(16)所示：

TextList(gloss(tⁱ),text^t)＝BagList(gloss(tⁱ),text^t) (15)

BagList(gloss(tⁱ),text^t)＝{(glBag_j:textBag)|j∈[1,p_i]} (16)

其中，(glBag_j:textBag)表示一个核心语义比较对，glBag_j表示从注解句子gl_j中提取出的由名词与动词组成的核心语义袋，textBag表示从待消歧文本text^t中提取出的由名词与动词组成的核心语义袋。

例如，利用斯坦福词性还原与词性标注工具，得到List(gloss(Brazil²),text^Brazil)的核心语义袋：

List(gloss(Brazil²),text^Brazil)＝{(nut,oily,meat,shell):(US,African,Americans,civil,rights,Brazil,philosophy,whitening,blacks,non-whites,active,civil,rights,movement)}

(4)通过核心语义袋，计算出词语每个义项的注解集与消歧文本之间的相似度。

通过以下公式(17)计算义项tⁱ的注解集gloss(tⁱ)与待消歧文本text^t的相似度：

sim(gloss(tⁱ),text^t)＝max{sim(glBag_j,textBag)|j∈[1,p_i]} (17)

其中，max{·}表示求集合中的最大值，核心语义袋glBag_j与textBag之间的相似度通过如下的公式(18)计算：

其中，B₁表示核心语义袋glBag_j，B₂表示核心语义袋textBag，|B₁|、|B₂|分别表示表示核心语义袋B₁、B₂中词语的个数。词语u与v的相似度sim(u,v)采用如下的公式(19)计算：

其中，函数depth(u)表示词语u在WordNet层次结构中的深度，LCS(u,v)表示词语u与v在WordNet中的最近公共父结点。

(5)输出注解集与消歧文本相似度最高的义项作为消歧结果。

根据步骤(4)计算词语t每个义项的注解集与待消歧文本text^t的相似度，将其中相似度最大的义项t^*作为最终消歧结果，即词语t在消歧文本text^t中的消歧结果为注解集与text^t的相似度最高的义项t^*，如公式(20)所示：

其中，n_t表示词语t的义项个数，t^*表示t的使sim(gloss(tⁱ),text)计算值最大的义项，sim(gloss(tⁱ),text^t)由公式(16)计算。

例如：

通过公式(17)、(18)与(19)可计算出义项Brazil¹的注解集与消歧文本text^Brazil的相似度为：

sim(gloss(Brazil¹),text^Brazil)＝MAX(0.627,0.408,0.745)＝0.745

同理可得义项Brazil²的注解集与消歧文本text^Brazil的相似度为：

sim(gloss(Brazil²),text^Brazil)＝MAX(0.576)＝0.576

最终通过公式(20)计算得到相似度最大的义项1作为消岐结果，即消岐结果是注解集与消歧文本相似度等于0.745的义项Brazil¹。

五、向量保存结构

本发明的词向量为高维向量，维度词达30万个，为方便存储与计算，本发明对于所生成的词向量和义项向量只保存其中权重不为零的维度词及其权重，而将没有保存的维度词的权重默认为0。

例如：

SFV(Brazil¹)＝{(impa,0.042714),(lluvia,0.036314),(maracana,0.035894),(petropolis,0.04243),...,(in,0.008653),(to,0.000161),(and,0.002992)}

六、实验对比

本实施例使用2019年7月1日发布的英语***版本进行实验对比，该版本包含15GB的页面文本，其中包含5,895,703篇页面文章。本实施例使用JWPL(Java WikipediaLibrary)工具来解析Wikipedia下载数据库。JWPL运行在从***下载数据库创建的优化数据库上，可快速访问***的页面文章、类别、链接、重定向等。本实施例使用WordNet 3.0作为义项向量生成与义项消歧的知识语料库。对于***离线页面，本实施例使用perl工具进行预处理，对数据进行清洗。然后，使用DISSECT toolkit得到原始词统计向量，其生成过程为：首先选取词频排在前30万的词作为目标词，以及作为词向量维度进行词统计训练，然后利用L＝2的上下文的窗口来得到目标词与维度词的共同出现的次数，最终得到词的共现矩阵与词向量。最后，使用本发明提出的方法生成词语的义项向量。

本实施例对所生成的基于***词统计与WordNet的义项向量与所提出的义项消歧方法，进行了相应的测试，选取了国际上广泛认可的通用词语相关性测试集WordSim-353与带消歧文本的词语相关性测试集SCWS-2003(Stanford’s Contextual WordSimilarities)，如表1所示：

表1.用于实验对比的两个数据集

针对以上两个数据集，本实施例采用Spearman系数对比，来展现本发明方法的试验结果，Spearman系数计算公式如下所示：

其中n表示数据集中词对的数目，d_i指的是变量Xi与变量Yi之间的等级差异，Xi指的是人工判定值列表中的第i个元素，Yi指的是计算值列表中的第i个元素。本实施例实现的本发明方法在两种数据集中与原始词统计向量的对比结果如下表所示：

表2.义项向量与词向量在两个典型数据集中的Spearman系数对比

Method	WordSim-353	SCWS
			原始词统计向量	0.634	0.584
本发明的义项向量与消歧方法	0.638	0.631

从本实施例的实验中可以看出，对于未带消歧文本的WordSim-353数据集而言，本发明提出的义项向量与消歧方法和原始词统计向量的计算结果持平，并且稍有提高，说明本发明的方法并没有偏离词统计向量的主方向，而且没有造成负面影响；而在带有消歧文本的SCWS2003数据集中，可以看出，经过本发明提出的消歧方法对义项进行消歧，本发明提出的义项向量在此数据集中起到了关键性作用，Spearman系数从0.58大幅度提升到了0.63，这充分说明本发明提出的基于***词统计与WordNet的义项向量生成与义项消歧方法是可行和优秀的。

Claims

1.一种基于词统计与WordNet的义项表示与消歧方法，其特征是，包括如下步骤：

步骤3、从WordNet中获取词语的义项集及其同义词集；

步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集，通过合并同义词的词向量，生成词语的义项向量；即：

SV₁(tⁱ)＝{(s_i,wt(s_i,SV₀(tⁱ))+wt(s_i,V(st))|s_i∈D₁∪D₂}

在每次迭代合并前，先使用上一次迭代合并的结果SFV(tⁱ)作为二级义项向量SV₂(tⁱ)，即令SV₂(tⁱ)＝SFV(tⁱ)；若义项tⁱ同义词集中无任何组合同义词，则令SFV(tⁱ)＝SV₂(tⁱ)；

步骤5、从WordNet中获取词语的每个义项的注解集；

步骤6、将义项注解句与消歧文本形成待比较的文本对列表；

2.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法，其特征是，对于所生成的词向量和义项向量，只保存其中权重不为零的维度词及其权重，而将没有保存的维度词的权重默认为0。

3.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法，其特征是，步骤8中，词语t的义项tⁱ的注解集gloss(tⁱ)与待消歧词语t所在的消歧文本text^t之间的相似度sim(gloss(tⁱ),text^t)为：

sim(gloss(tⁱ),text^t)＝max{sim(glBag_j,textBag)|j∈[1,p_i]}

其中，sim(glBag_j,textBag)表示核心语义袋glBag_j与textBag之间的相似度，

max{·}表示求最大值，glBag_j表示从注解句子gl_j中提取出的由名词与动词组成的核心语义袋，gl_j表示义项tⁱ的注解集gloss(tⁱ)中任意一个由分号分隔的注解句子，textBag表示从待消歧文本text^t中提取出的由名词与动词组成的核心语义袋，p_i表示义项tⁱ的注解集gloss(tⁱ)中注解句子的个数，B₁表示核心语义袋glBag_j，B₂表示核心语义袋textBag，|·|表示核心语义袋中词语的个数，depth(u)表示词语u在WordNet层次结构中的深度，depth(v)表示词语v在WordNet层次结构中的深度，LCS(u,v)表示词语u与v在WordNet中的最近公共父结点，depth(LCS(u,v))表示最近公共父结点在WordNet层次结构中的深度。