CN109815401A

CN109815401A - 一种应用于Web人物搜索的人名消歧方法

Info

Publication number: CN109815401A
Application number: CN201910061520.6A
Authority: CN
Inventors: 张军; 胡欣; 占梦来; 邹佩良; 王另
Original assignee: Sichuan Chengzhi Hearing Technology Co Ltd; University of Electronic Science and Technology of China
Current assignee: Sichuan Chengzhi Hearing Technology Co Ltd; University of Electronic Science and Technology of China
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-28

Abstract

本发明公开一种应用于Web任务搜索的人名消岐方法，包括：S1、提取HTML网页源码，并取出其中与人物信息无关的噪音；S2、提取人物网页特征集；S3、将步骤S2提取的人物网页特征集生成代表某个人物相关网页的组合特征向量；S4、采用凝聚层次聚类算法进行层次聚类，得到人物网页聚类结果；本发明的方法通过n元大写模型的引入，解决了传统的命名实体识别的限制，命名实体提取有限，无法对文本中许多特有词汇、专有词汇的提取；通过对提取的不同特征，按照其对人物表征的重要性，赋予不同的权重，提高了人名消歧的准确度。

Description

一种应用于Web人物搜索的人名消歧方法

技术领域

本发明属于光电传输领域，特别涉及一种全光纤分布式声波传感技术。

背景技术

随着移动互联网时代的到来，搜索引擎成为人们获得知识的重要工具，在互联网上搜索人物信息是十分常见的事情。据统计约有5％-10％的搜索引擎查询涉及到人名，而只有不到20％的人愿意在搜索人名的时候加上额外信息。同时，人名有很高的歧义性，据美国人口调查局报告显示，有10亿人却仅仅用了90000个不同的名字。搜索引擎人名检索得到的是多个同名任务的相关网页的混合结果，而且还有“名人”网页有淹没“非名人”的趋势。例如Google搜索“Michael Jordan”，结果会涉及若干个不同人物实体，比如篮球明星、大学教授、电影演员等，所有出现名字“Michael Jordan”的网页都会显示出来。而前面显示的都是篮球明显Jordan，这样的结果不令人满意。所以，人们对任务搜索的要求是普遍而迫切的，人物搜索的关键问题是把同名人物网页按个体分开，其核心问题是人名消歧，又称为重名消歧。

近年来，研究人员对人名消歧开始有了更多关注，最初只是作为实体公指问题进行研究，现在是把人名消歧定义为聚类问题。Web人名消歧主要包括以下几种方法：基于网络知识资源分类方法、基于图分割的聚类方法以及基于向量空间模型的聚类方法。

(1)基于网络知识资源分类方法

基于网络知识资源分类方法利用网络上现有的公开资源，构建特有的类别体系，使这些类别与现实世界中的人物信息中区分度较强的社会属性建立对应关系，再将人物按其社会属性划分到不同类别中，从而达到消歧的目的。

该方法较典型的是抽取职业目录，收集粒度适中的多种职业分类的相关文档作为训练数据，假设一种职业对应一个人物，然后将各个文档分类到现实世界的职业分类体系中，进而通过职业的异同判断各个文档中人物的异同。

(2)基于图分割的聚类方法

基于图分割的聚类方法构造了以文档为顶点，以文档之间的联系为边的图，然后通过图分割的方法完成聚类。

其中典型的是基于社会化网络的人名消歧，它将假设使用同样名字的各个重名者分别属于不同的圈子，或者重名者尽管圈子有交叠但体现在互联网的信息之间交叠极少；而同一个圈子之中，人物和信息之间的关联却很密切。在这样的假设之下，这类方法将文档视为节点：将互联网文档之间的链接关系或超过阈值次数的人名共现的关系视为边；构造出社会化网络，并应用图分割方法对网络进行聚类，得到不同的圈子；如果若干文档属于同一个圈子，则认为其中出现的同一人名指代现实世界的同一个人物。

(3)基于向量空间模型的聚类方法

基于向量空间模型的聚类方法最初是为解决多文档人名的共指消解问题^[1]使用了向量空间模型。首先***生成一个关于各个文档的指代链；再抽取与该指代链相关的句子，生成关于各个文档的摘要而后输出；最后***计算各个文档的摘要之间的相似性，相似性大于实验中特定阈值的，就被认为是指代同一个人物实体，这两篇文档即被划分到同一个簇中。

后来的基于向量空间模型的方法也是提取特征向量、利用标准向量空间模型进行聚类的思路，这种方法主要工作集中在特征抽取、网络资源利用和聚类方法。

现有的Web人名消歧技术都有一些缺点，如基于网络知识资源分类方法需要同名人物不能拥有相同职业、基于图分割的聚类方法要求同名人物之间的交际圈不怎么重叠等。另外，对于基于向量空间模型的聚类方法，之前的特征选择以及处理的原因，以及特征集融合方法的原因，导致使用基于向量空间模型的聚类方法进行Web人名消歧有一定的局限性。

发明内容

为解决上述技术问题，本发明提出一种应用于Web人物搜索的人名消岐方法，结合N元大写模型的特征组合人名消歧方法，实现了网络人名消歧。

本发明采用的技术方案为：一种应用于Web任务搜索的人名消岐方法，包括：

S1、提取HTML网页源码，并取出其中与人物信息无关的噪音；所述的与人物信息无关的噪音至少包括：HTML网页源码中的标签、script脚本、对人名消歧无用的导航菜单、对人名消歧无用的广告。

S2、提取人物网页特征集；所述人物网页特征集，包括：网页URL、网页标题及摘要、网页正文、命名实体以及n元大写模型。

S3、将步骤S2提取的人物网页特征集生成代表某个人物相关网页的组合特征向量；

S4、采用凝聚层次聚类算法进行层次聚类，得到人物网页聚类结果。

进一步地，步骤S3包括：

S31、采用向量空间模型对步骤S2提取的人物网页特征集进行建模，得到网页URL特征集、网页标题及摘要特征集、网页正文生成的特征集、命名实体生成的特征集以及n元大写模型生成的特征集；

S32、根据步骤S31中的各特征集，采用线性加权的方式构造组合特征向量。

所述的线性加权对各特征集的加权系数按照该人物网页特征集对人名消歧指示作用的贡献程度确定。

更进一步地，还包括对步骤S32中的组合特征向量采用TF-IDF统计方法对其权重值进行重新优化，得到最终的代表某个人物相关网页的组合特征向量。

最终的代表某个人物相关网页的组合特征向量，表达式为：

其中，w_i表示重新确定的权重，1≤i≤m'，tf_i是中某关键字的出现频率，N_d是待消歧人物网页文档总数，df_i表示出现关键字k_i的文档数，m'表示最终组合后的特征词个数。

重新确定的权重w_i的计算式为：

本发明的有益效果：本发明引入n元大写模型，通过对HTML进行预处理，然后，将预处理后的文本用来进行特征提取，提取多个特征，并加入了n元大写模型作为网页一个重要特征；引入依据特征重要程度对特征向量进行加权的方法，利用不同特征对人物的表征程度不同，对其特征赋予不同权重；构造网页特征向量，通过层次聚类，将满足相似度阈值要求的人物网页集融为一个类，最终得到的结果就是Web人名消歧的结果，来将同名人物网页按实体分开，具有如下优点：

(1)通过n元大写模型的引入，解决了传统的命名实体识别的限制，命名实体提取有限，无法对文本中许多特有词汇、专有词汇的提取。

(2)通过对提取的不同特征，按照其对人物表征的重要性，赋予不同的权重，提高了人名消歧的准确度。

附图说明

图1为本发明的方案流程图。

具体实施方式

首先对本发明涉及的现有技术进行简要说明：

1、词频-逆文档频率算法

TF-IDF(Term Frequency-Inverse Document Frequency)，词频-逆文档频率算法，它是一种统计方法，用于评估一字词对一文件集或一语料库的中的某一篇文档的重要性，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。总结一下，就是一个词在一篇文档中出现的次数越多，同时在其他所有文档中出现的次数越少，这个词越能代表这篇文档的内容。

TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。

TF，即词频。词频指的是某一个指定词在一篇文档中出现的次数，为了避免词频偏向长文档(同一个词可能在长文档里比短文档里出现的次数多，而不管重要与否)，所以用词出现的次数比文档的总词数作为归一化公式以防止它偏向长的文章。TF的计算公式如下：

IDF，即逆向文件频率。有些通用词在每个文档中都会大量出现，用TF公式计算出来的权重肯定很大，但是这样的词无法反应一篇文档的主题，我们需要那些在一篇文档中出现的多而在其他文档中出现的少的词，这一类的词才能反映文档主题，显然TF是做不到这一点的，而逆向文件频率恰好可以做到这一点。如果包含某个词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。按如下公式计算某个词条的IDF值：

分母加1是为了防止分母是0。某一文档中的高频词语，以及该词语在整个文档集合中的低文件频率，可以产生高权重的TF-IDF值，因此，TF-IDF倾向于过滤掉常见词，保留重要词语。TF-IDF＝TF×IDF

TFIDF算法是建立在这样一个假设之上的：对区别文档最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力，TFIDF法认为一个单词出现的文本频数越小，它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，调整权值的目的在于突出重要单词，抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权，并且单纯地认为文本频数小的单词就越重要，文本频数大的单词就越无用，显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以TFIDF法的精度并不是很高。此外，在TFIDF算法中并没有体现出单词的位置信息，对于Web文档而言，权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同，其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数，然后乘以特征词的词频，以提高文本表示的效果。

2、凝聚层次聚类

层次聚类是一种基于原型的聚类算法，试图在不同层次对数据集进行划分，从而形成树形的聚类结构。层次聚类算法的优势在于，它不需要事先指定簇的数量。凝聚层次聚类采用的是"自底向上"的思想，先将每一个样本都看成是一个不同的簇，通过重复将最近的一对簇进行合并，直到最后所有的样本都属于同一个簇为止。

假设同一篇网页文档中出现的待消歧人名仅对应现实中一个人物个体，则人名消歧就可以看成是硬聚类问题，聚类结果没有重叠；同时，由于重名人物的数目未知且不固定，此类问题又属于非监督类问题，适用于凝聚层次聚类算法。两文档之间的相似度由文档特征向量之间的夹角余弦来表示，类间相似度采用的是平均距离法。公式如下：

聚类初始时，将每个人名对应的网页集P＝{p1,…,pi,…,pn}中的每一个网页pi看作是一个具有单个成员的类Ci＝{pi}，所以就构成了P的一个聚类C＝{c1,c2,…,cn}，对于类{ci,cj}之间采用上面的特征向量进行计算其相似度，然后选取相似度最大的两个簇进行合并，形成一个新的类，即c_k＝c_i∪c_j，从而对于P形成一个新的聚类C＝{c1,c2,…,cn-1}；重复上面的步骤，直到所有的簇间的相似度小于某个阈值或全部成为一个簇。

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示为本发明的方案流程图，本发明的实现过程包括以下步骤：

S1、预处理

为了得到干净的数据集，需要对重名人物网页集进行清洗工作，去除其中与人物信息无关的噪音。预处理的目标是去除HTML网页源码中的标签，script脚本和对人名消歧无用的导航菜单，广告等噪音信息，提取网页的正文信息。

原始HTML首先借用HTMLPaser工具包去除其中的标签和script脚本，采用和文献^[3]中相似的方法，对于块级层次的标签(例如<div>，<p>)只有超过十个单词的文本块内容被保留，以便移除导航菜单、广告等。

S2、特征提取

假设人物个体均有其自身的特征，同名人物之所以可被区分，就是因为其与众不同的特征；人物实体网页中词汇信息同样可以反映人名归属，聚类算法可以通过这些特征及特征间相似度判断同名人物所属类别。对于不同的信息源需要采用不同的处理策略，抽取其中的文本特征信息。

(1)网页URL

网页的URL中包含了一些指示信息，对URL的处理过程：以URL中的分隔符(:/.)为边界把其切分成独立的小字串单元，对比自建字典移除其中常见的对消歧无意义的字符串，例如http、www等。纯数字串、特殊符号同样会被移除。

(2)网页标题及摘要标题是对网页正文总结性的文字，摘要是由搜索引擎返回的概要信息，是对查询主题词信息的高度概括，因此两者对人名消歧的指示作用相比正文更准确。对标题和摘要采用通用的文本处理方法：文本分词、归一化、去除停用词、词干提取，最终得到含有重复词汇的词干集合。

(3)网页正文

网页正文的处理目的是将其中的词汇转化为较为规整的格式，由于单复数、时态语态等语法的存在，英语具有丰富的词性变化，对正文的处理采用与标题和摘要处理的方法类似，都需要做词干提取。

(4)命名实体

命名实体是区分人物身份很重要的特征，人物生活地点、职业和工作单位名称等都可以很好地标识一个人物。使用NER工具识别网页正文中出现的人名、地名、公司组织等命名实体。由于命名实体大多为专有名词，所以只需要统一转化为小写，不需要做词干提取。还通过定义正则表达式规则帮助识别文本中出现的邮箱、数字串等其他特殊字串信息。

(5)n元大写模型

n元大写模型是文本中重要的特征，由于命名实体识别种类有限，所以选择连续的n个大写字母开头的词汇作为特征词汇，例如电影名、奖项等都是符合这种要求，所以我们提取n元大写模型，形成一个词汇列表，作为一个网页人物特征使用。

n元(n-gram)大写模型是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

S3、特征组合

对于提取的人物网页特征集，需要对其进行建模，将其转化为计算机可以理解的数学模型，才方便作进一步的处理。

首先采用向量空间模型(VSM)对上下文提取的特征信息分别进行建模，即特征集被表示成具有一定权重值的关键字组成的多维向量，关键字的权重设为其在特征集中的出现频率。假设建模情况如下：

网页URL特征集f1:

网页标题和摘要特征集f2:

网页正文生成的特征集f3:

命名实体生成的特征集f4:

n元大写模型生成的特征集f5:

其中，tf是特征集中的关键字k的出现频率。

同时采用线性加权的方式将五个独立特征向量融合在一起构造组合特征向量加权系数λ₁、λ₂、λ₃、λ₄和λ₅依照特征集对人名消歧指示作用的贡献程度设定，具体数值通过实验人工给出相对较优的结果。例如相对于网页正文信息，网页的命名实体和n元大写模型特征有着更强的消歧指示作用，所以对应的特征集加权系数应该高于网页正文的加权系数。

对于融合后的新特征向量使用TF-IDF统计方法对其权重值进行重新优化。因此，最终生成的代表某个人物相关网页的组合特征向量为：

其中，tf_i是中某关键字的出现频率，N_d是待消歧人物网页文档总数，df_i表示出现关键字k_i的文档数。

S4、层次聚类

通过采用凝聚层次聚类算法(HAC)，两文档之间的相似度由文档特征向量之间的夹角余弦来表示，类间相似度采用的是平均距离法。聚类初始时，每个人名对应的文档集D＝{d₁,d₂,...,d_n}看作是一个具有单个成员的类，因此构成初始聚类C＝{c₁,c₂,...,c_n}；计算类(c_i,c_j)之间的相似度，选取相似度最大的两个类进行合并，生成新的类c_m，从而构成D的一个新的聚类C＝{c₁,c₂,...,c_n-1}；重复上述步骤，直到所有类之间相似度小于给定的相似度阈值β或者全部聚为一类。

本发明能够有效准确地进行人名消歧工作。以WePS数据集为例，通过采用上述方法来进行人名消歧效果检验。当仅使用特征f1、f2进行人名消歧时，纯度P尚可，但逆纯度IP较低，说明虽然特征f1、f2中的个人信息较准确，但由于信息量少，数据比较稀疏，造成逆纯度较低。使用特征f3的消歧的逆纯度有所提高的同时其纯度降低，主要是正文中含有大量个人信息的同时还引入了一些噪音。对于特征f4命名实体的消歧结果纯度也比较高，其逆纯度比较低，可能是NER工具识别准确度的影响，导致命名实体较少。所以我们引入了n元大写模型这个特征，作为命名实体特征的补充，命名实体大多都是首字母大写的词汇组，选择更多的连续首字母大写词汇组提升性能。

不同的特征有不同的特点，通过组合可以弥补单独使用某一类特征的不足之处，基于f1+f2+f3+f4+f5的消歧在保证聚类结果纯度适当的同时其逆纯度也有所提高，不同特征组合的聚类效果如表1所示。

表1不同特征组合的聚类效果

聚类特征	纯度P	逆纯度IP
			f1+f2	0.80	0.63
f3	0.74	0.70
			f4	0.78	0.65
f1+f2+f3+f4+f5	0.88	0.73

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种应用于Web任务搜索的人名消岐方法，其特征在于，包括：

S1、提取HTML网页源码，并取出其中与人物信息无关的噪音；

S2、提取人物网页特征集；

2.根据权利要求1所述的一种应用于Web任务搜索的人名消岐方法，其特征在于，步骤S1所述的与人物信息无关的噪音至少包括：HTML网页源码中的标签、script脚本、对人名消歧无用的导航菜单、对人名消歧无用的广告。

3.根据权利要求2所述的一种应用于Web任务搜索的人名消岐方法，其特征在于，步骤S2所述人物网页特征集，包括：网页URL、网页标题及摘要、网页正文、命名实体以及n元大写模型。

4.根据权利要求3所述的一种应用于Web任务搜索的人名消岐方法，其特征在于，步骤S3包括：

5.根据权利要求4所述的一种应用于Web任务搜索的人名消岐方法，其特征在于，步骤S32所述的线性加权对各特征集的加权系数按照该人物网页特征集对人名消歧指示作用的贡献程度确定。

6.根据权利要求5所述的一种应用于Web任务搜索的人名消岐方法，其特征在于，还包括对步骤S32中的组合特征向量采用TF-IDF统计方法对其权重值进行重新优化，得到最终的代表某个人物相关网页的组合特征向量。

7.根据权利要求6所述的一种应用于Web任务搜索的人名消岐方法，其特征在于，最终的代表某个人物相关网页的组合特征向量，表达式为：

其中，w_i表示重新确定的权重，1≤i≤m'，m'表示最终组合后的特征词个数，tf_i是中某关键字的出现频率，N_d是待消歧人物网页文档总数，df_i表示出现关键字k_i的文档数。

8.根据权利要求7所述的一种应用于Web任务搜索的人名消岐方法，其特征在于，