CN111814027B

CN111814027B - 基于搜索引擎的多源人物属性融合方法

Info

Publication number: CN111814027B
Application number: CN202010867732.6A
Authority: CN
Inventors: 于富财; 叶浩维; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-03-21
Anticipated expiration: 2040-08-26
Also published as: CN111814027A

Abstract

本发明公开一种基于搜索引擎的多源人物属性融合方法，应用于多源人物属性融合，针对现有技术中存在的缺乏判定多源属性集是否属于同一个目标人物，并尽量消除同名和噪声的有效解决方案，本发明将基于搜索引擎的词汇相似度计算的思想应用到人物属性融合领域，引入了搜索引擎的额外信息，巧妙地解决了人物属性融合中属性表达形式多变且难以预料，属性集信息不相交和仅计算文本相似度信息不足的问题；并且根据人物知名度不同，设置了自适应参数，从而调整置信度离散程度；最后综合上述两种置信度计算方法，提出了加权的人物属性对综合置信度计算方法。

Description

基于搜索引擎的多源人物属性融合方法

技术领域

本发明属于大数据处理领域，特别涉及一种人物属性提取技术。

背景技术

随着互联网应用的迅猛发展，通过网络能够获取的数据量也呈指数级井喷式地增长，如何从这些海量数据中快速、准确地分析出真正有用的信息，显得尤为关键和紧迫。

人物属性，又叫人物特征。人物属性包含描述一个人从出生到死亡的所有信息，如：出生地，出生时间，所在国家，从事工作，信仰宗教，死亡地点，死亡时间等。人物属性提取就是要在网络中识别出人物的这些属性，人物属性提取有着很重要的实际应用，比如人名消歧、人物知识库的构建、人物搜索引擎等等。而现今大部分研究主要集中在网络特定领域的信息提取，仅仅针对人物属性提取的研究较少。

人物属性提取一般包括多源人物属性提取和人物属性融合两个重要过程。属性提取是指从不同的信息源解析并获得人物的属性集，这里的信息源主要指搜索人名得到的不同网页；属性融合则是对这些不同来源的属性集进行分析，判断这些属性集是否属于我们搜索的目标人物，最后将属于目标人物的属性集整合到一起，并输出结果。人物融合主要用来解决不同来源的人物属性的同名人物消歧问题，噪声问题等。

如表1所示，假如我们搜索人物张三，从不同来源获得以下属性集：

表1目标人物张三的不同来源属性集示例

如表1所示，我们假设从不同来源提取出了张三的四个属性集。可以做出如下推测：

(1)从字面上看，可以推测1、4这两个属性集大概率属于我们的目标人物张三，因为1、4中有相同的生日和大学属性。

(2)属性集3可能属于另一个同名张三，这就是同名消歧问题。

(3)我们也不能确定1和2是同一个张三，2也有可能是另一个人，因为搜索张三，可能会出现张三相关的其他人物网页，从而影响提取结果，这就是噪声问题。

融合一般包括两个重要步骤：属性对齐和实体对齐。属性对齐是用来确定属性集之间否具有类似或相同的属性，主要方法有基于字符串距离的方法、基于字典匹配的方法、基于语义相似的方法等。例如：上表中属性集1的属性“教育背景”和属性集4的属性“大学”是对应的，寻找这种对应关系就是属性对其的过程。实体对齐是判断现实世界中多个实体是否指向同一个实体的过程。即需要判断不同来源的人物属性集是否指向同一个客观人物实体，实体对齐需要我们通过计算人物、属性值之间的相似关系或者引入一些其他技术手段来实现。

网络是一个天然的海量的文本语料库，比如谷歌能够提取相对的页面计数，这个计数接近真实的社会词汇和短语的使用频数，目前语言学研究领域也开始支持该方法^[1]。

搜索引擎能够提供的两个有用的信息源：网页结果计数和片段(Snippets)。查询的页计数是对包含查询词的页数的估计。一般来说，页数可能不一定等于单词频率，因为查询的单词可能在一个页面上出现多次。但是考虑搜索引擎的数据量，这里可以用来估计单词的出现频率。查询p和q的页数可以被视为单词p和q同时出现的全局度量。片段(Snippets)是搜索引擎围绕文档中的查询词提取的一个简短文本窗口，提供有关查询词的本地上下文的有用信息。利用片段进行语义相似性度量，已经用于查询扩展、个人名称消歧和社区挖掘等领域。相对于网页内容，片段是一种相对比较容易获得的信息，从工程上来说，利用片段可以解决下载搜索引擎结果的所有页面带来的效率问题。

相关的现有技术如下：

1、归一化谷歌距离(NGD)

Cilibrasi and Vitanyi提出了一种基于谷歌查询页数的词汇语义相似度算法，称为归一化谷歌距离(Normalized Google Distance)。

其中，H(P)为查询P的结果页面计数，H(Q)为查询Q的结果页面计数，H(P,Q)为查询P和Q的结果页面计数(即页面同时包含P和Q)，N一般选取值为谷歌搜索的总索引页面数(10¹¹)，N也可以选择为大于H(x)的任一值，N增大大，NGD计算结果会缩小，分布也会更加紧凑；N缩小，NGD计算结果会放大，分布也会更加离散。

2、逐点共有信息相似度算法(WebPMI)

在数据挖掘或者信息检索的相关领域中，经常会用到PMI(Pointwise MutualInformation)来衡量两个事件的相关性。可以基于此，定义PMI形式的基于搜索引擎页面计数计算相似性的方法，公式如下：

这里，N是搜索引擎索引的文档数量。其中，H(P)为查询P的结果页面计数，H(Q)为查询Q的结果页面计数，H(P∩Q为查询P和Q的结果页面计数(即页面同时包含P和Q)。该方法基于最大似然估计原理，很好的利用了搜索引擎结果可以近似词汇在语料库中出现频率的特点。

3、基于搜索结果片段的双重检查相似度算法

Chen等人提出了一种双重检查模型，使用web搜索引擎返回的文本片段(Snippets)来计算单词之间的语义相似度。对于两个单词P和Q，他们从网络搜索引擎收集每个单词的片段。然后，计算单词P在Q的搜索结果片段中出现的次数，以及单词Q在P的搜索结果片段中出现的次数。然后非线性地组合这两个值来计算P和Q之间的相似性。同现双重检查(CODC,Co-Occurrence Double Check)度量被定义为：

其中，H(P@Q)是单词P在Q的搜索结果片段中出现的次数，H(Q@P)是单词Q在P的搜索结果片段中出现的次数，H(P)为查询P的结果页面计数，H(Q)为查询Q的结果页面计数。α为可调参数。

发明内容

本发明所要解决的技术问题为：如何判定多源属性集是否属于同一个目标人物，并尽量消除同名和噪声的影响。

本发明为解决上述技术问题，采用的技术方案为：一种基于搜索引擎的多源人物属性融合方法，包括：

S1、对两个目标属性集进行属性对齐处理；若存在对应的属性，则记为一个属性对，并执行步骤S2，否则结束；

S2、对每一个有对应关系的属性对计算置信度；

S3、计算置信度的平均值；若平均值大于阈值，则两个目标属性集属于同一目标人物，否则两个目标属性集不属于同一目标人物。

进一步地，步骤S1包括以下分步骤：

S11、建立高置信度属性词典；

S12、基于字符串编辑距离来进行属性名配对；

S13、对于余下的属性名，基于逐点共有信息进行属性对齐。

进一步地，步骤S2所述置信度基于搜索引擎页面计数进行计算，具体计算式为：

M＝f(C)

其中，f(C,v_p)为搜索“人物C”和“属性值v_p”的结果页面计数，f(C,v_q)为搜索“人物C”和“属性值v_p”的结果页面计数，f(C,v_p,v_q)为搜索“人物C”和“属性值v_p”和“属性值v_q”结果页面计数。

进一步地，步骤S2所述置信度基于片段内容进行计算，具体计算式为：

其中，f(v_q@(C,v_p))指查询人物C和属性名v_p的结果片段中，v_q出现的次数；f(C,v_p)为查询人物C和属性名v_p的结果片段总数；μ表示所取的f(C,v_p)片段总数的比例，μ∈(0,1]；q和p为调节因子。

进一步地，步骤S2所述置信度采用下式计算：

Con(Tp,Tq,C)＝β×TCDC(T_p,T_q,C)+(1-β)(1-NGDC(T_p,T_q,C))

其中，β为权重，N为搜索引擎索引的总页面数，α为可调参数，TCDC(T_p,T_q,C)表示基于双重检查的人物属性对置信度，NGDC(T_p,T_q,C)表示基于人名和两个属性的共现页面计数的人物属性对置信度。

本发明的有益效果：本发明针对人物属性融合应用场景，设计了一种梯度的属性对齐方法，减少了计算量，并且引入了基于搜索引擎页面计数的WebPMI相似度计算方法来计算属性名之间的相似性，适用于任何形式的属性名，同时该计算结果是可缓存的，进一步减少了计算量；本发明还设计了三种人物属性对置信度的计算方法，基于搜索引擎的词汇语义相似度计算的思想，提出了NGDC和TCDC两种置信度度量方法以及融合两种置信度的度量方法，NGDC和TCDC分别基于搜索引擎页面计数和片段内容来计算属性对属于同一个目标人物的可能性；本发明的方法巧妙地利用了搜索引擎的特性，引入了额外信息，利用了Web这个天然的海量数据库，解决了人物属性对置信度计算的几个难点问题：

a.属性值存在较多长词组，难以使用传统方法计算语义相似度；

b.属性值存在无法预料的表达形式，或者一些尚未收录的新词语；

c.两个属性对的属性值完全不同时，也不能断定这个属性不属于同一个人的信息不足问题。

附图说明

图1为人物属性融合流程图；

图2属性对齐流程图。

具体实施方式

多源人物属性融合是人物属性抽取应用过程中的一个重要部分。人物属性融合的主要目的就是进行噪声去除和人名消歧。通俗地说，人物属性融合需要判定来自不同信息源的属性集是否指向我们的目标人物。

为了便于表述，假设已经从不同信息源(例如网页，知识库等)获得了人物C的若干属性集，需要进行两两计算，考虑其中待计算的两个目标属性集：

属性集P中，k_p为属性名，v_p为对应的属性值，称K_p为P的属性名集，V_p为P的属性值集，定义P中某一属性对T_p＝(k_p,v_p)，属性集Q中定义同上，上标1,2,…,n表示属性序号。本发明后文的描述都依据此假设，不再赘述。

假如我们搜索人物C＝“张三”，从不同的网页来源中提取出两个了不同的属性集，如表1，取其中的属性集1，记作P，取属性集2，记作Q，得到如表2所示的不同来源属性集P、Q。

表2不同来源属性集P、Q示例

在人物融合过程中，需要对属性集进行两两计算，这里以P和Q为例，接下来需要计算P和Q是否属于同一个张三，若不是，则不进行融合，从而消除歧义。当然P或Q也有可能属于另一个人，即噪声，这也是在融合的过程中需要判别出来的。

在计算过程中，会存在以下问题：

(1)属性名的对齐问题，我们需要将不同来源的属性集中的属性对进行对齐，由于一个属性可能有很多种表达方法，例如生日属性的表达方式可能有{生日,出生日期,出生年月,…}，我们难以构建词典来覆盖所有属性的所有表达式方式。而传统的词汇相似度计算又不适合于此情景，因为属性表达可能会存在很多长词组、简写甚至一些新词汇。因此，本发明需要解决人物属性融合情景下的属性对齐技术问题。

(2)人物属性对置信度度量，假设经过属性对齐，得出人物C的一对对齐后的属性对T_p＝(k_p,v_p)和T_q＝(k_q,v_q)。我们称T_p和T_q都属于目标人物C的可能性为人物属性对置信度，记作Con(T_p,T_q,C)。同属性名一样，属性值也存在表达方式不一致、大多为长词组和存在很多简写和新词汇的问题。另外，置信度的计算还有一个难点，就是不能仅仅依据属性值在字符串或者语义上的信息来度量置信度，因为不同的属性集在信息上可能互不相交。例如：P和Q中都存在属性名为“职业”的属性对，即，T_p＝(“职业”,“老师”)，T_q＝(“职业”,“学者”)。从字面上看这两个属性值是毫无关系的，但是目标人物可能既是一名老师，又是一个学者。这就需要我们引入属性值字面之外的信息。所以，本发明需要解决人物属性融合情景下属性值置信度计算的问题。

为了解决上述技术问题，本发明提出了一种基于搜索引擎的多源人物融合方法；如图1所示，包括：

A1、对两个目标属性集进行属性对齐处理；若存在对应的属性，则执行步骤S2，否则结束；

A2、对每一个有对应关系的人物属性对计算置信度；

A3、计算置信度的平均值；若平均值大于阈值，则两个目标属性集属于同一目标人物，否则两个目标属性集不属于同一目标人物。

步骤A1属性对齐过程如图2所示，包括以下分步骤：

(1)首先需要建立高置信度属性词典。高置信度属性是指可以高度区分一个人物实体的属性，且这些属性有可以预见的表达方式。例如：出生日期、死亡日期等。词典应该包含该属性的所有表达方式。虽然前文提到所有属性的不同表达方式是难以覆盖的，但是此处仅需构建少数属性的词典，这是可以通过人工做到的。我们首先在P、Q中搜索是否同时包含这些高置信度属性，若存在，则直接利用正则进行属性值解析。根据解析结果直接判定P、Q是否属于同一个人。

(2)接下来，基于字符串编辑距离来进行属性名配对，对P、Q中的属性名kp和kq两两计算编辑距离相似度。若编辑距离相似度大于阈值(threshold_lev)，则判定这两个属性是对齐的。

对于属性对T_p和T_q，把k_p和k_q的编辑距离记作lev(k_p,k_q)如果lev(k_p,k_q)>threshold_lev，则判定T_p和T_q是对齐的。

这里的阈值threshold_lev应当设置得较大，因为很多属性名都是很短的单词，编辑距离主要用来纠正一些多余的空格，单复数等情况。根据实验可以总结出threshold_lev的范围应当为[0.9,1]。但是要注意的是，编辑距离无法反映属性名的语义特征，另外有很多属性名是非规范的表达形式，或者是简写，因此我们需要最后一步对齐将语义信息考虑其中。

(3)最后，我们对于余下的属性名，基于逐点共有信息(PMI)进行属性对齐。

其中，N是搜索引擎索引的文档数量，H(k_p)为属性名k_p搜索结果计数，H(k_p∩k_q)是属性名k_p和属性名k_p的搜索结果计数。若WebPMI(k_p,k_q)>threshold_pmi，则认为属性对T_p和T_q是对齐的。其中threshold_pmi为阈值，一般取[0.5,0.7]。

相比NGD(Normalized Google Distance，归一化谷歌距离)，基于PMI(PointwiseMutual Information，逐点互信息)的相似度计算更加适用于结果页面数更多的情况，考虑到属性名集合中大多为常用词，这里使用基于PMI的相似度计算方法更加适合。

步骤A2基于搜索引擎人物属性对置信度算法，包括以下内容：

1)算法的合理性

目前被谷歌编入索引的Web页面数量接近10¹⁰，每个常见的搜索词都出现在数以百万计的网页中。如此巨大的数据量可以认为是一个真正代表人类知识的样本，谷歌搜索词的概率，作为Google返回的页面计数频率除以由谷歌索引的页面数量,近似实际的相对频率的搜索词在社会实际使用。

在人名消歧过程中，假设搜索人名张三，结果中两个不同属性集中有两个不同职业属性“老师”，“学者”，那我们词条“张三老师”和词条“张三学者”是我们的谷歌距离计算目标，如果张三确实是有老师和学者的双重身份，那么词条“张三老师学者”的页面计数不会有太大的差距，如果上述两个属性集确实不指向同一个张三或者其中一个根本就不是张三，那么词条“张三老师学者”的计数会有指数层面的下降，从而反映在NGD的计算公式中。这也是符合谷歌距离的提出背景的。因此，本发明借助谷歌距离的思想，来计算人物属性对相似度是合理的。

另外，属性相似度不适合单纯使用字符串相似度来衡量，例如上文的例子中，“电子科技大学”和“UESTC”是同一个意思，但是字符串相似度为0，同理，很多属性名存在很多无法预知的表达形式，而且大多不止一个单词，也难以单纯使用word2vec或者wordnet等传统方法进行语义度量。

2)基于谷歌距离计算人物属性对置信度

基于NGD算法的思想，本发明设计了一种人物属性对置信度计算方法。该方法主要利用人名和两个属性的共现页面计数来衡量人物和属性的关联程度，称为NGDC(Normalized Google distance of characters)。

M＝f(C)

其中，f(C,v_p)为搜索“人物C”和“属性值v_p”的结果页面计数。f(C,v_p,v_q)为搜索“人物C”和“属性值v_p”和“属性值v_q”结果页面计数。因为人物属性对的搜索结果可能会很少。而且根据不同目标人物的知名度，搜索结果会有较大差距，因此令M为自适应参数，f(C)指单独搜索人物C的网页结果计数，M的设置能够使结果更加离散。NGDC(T_p,T_q,C)∈[0,+∞)(在某些特殊情况下，若搜索引擎结果不准确，NGDC(T_p,T_q,C)的值会小于0，该种情况可忽略)，NGDC(T_p,T_q,C)的值越大，说明T_p和T_q同属于C的可能性越低，反之亦然，这里阈值取值范围一般为[0.5,1.5]，比如本实施例设定阈值为1.0，当NGDC(T_p,T_q,C)的值小于1.0时，T_p和T_q同属于C；否则T_p和T_q中至少有一个不属于C。

3)基于片段的双重检查算法计算人物属性对置信度

基于谷歌距离计算人物属性对置信度的计算方法适用于检索结果较少的人物属性置信度计算。该方法仅考虑了网页计数，没有考虑网页内容。为了弥补这个问题，本发明提出了一种基于片段的人物属性对置信度计算方法。片段指的是搜索引擎结果中，每个网页的节选窗口，一般包含搜索的关键词。片段能够反映网页中有关搜索关键词的关键内容。由于请求所有网页内容在工程上是难以实现的，因此对片段的分析在这里是一个较好的选择。

本发明的一种基于双重检查的人物属性对置信度算法，称为TCDC(Tuple ofcharacters and attributes confidence based on double check)。

其中，f(v_q@(C,v_p))指查询人物C和属性名v_p的结果片段中，v_q出现的次数。f(C,v_p)为查询人物C和属性名v_p的结果片段总数。μ∈(0,1]表示所取的f(C,v_p)片段总数的比例，防止计算过多的片段以保证算法的可行性。q和p为调节因子，防止因为f(C,v_p)或f(C,v_q)本身较小导致结果失真。TCDC(T_p,T_q,C)∈[0,1]，通常情况下，可以根据计算机处理能力来设置片段比例μ，一般会把计算片段数控制在1000以内。TCDC(T_p,T_q,C)的阈值为0.5左右，即TCDC(T_p,T_q,C)的值大于0.5时，T_p和T_q同属于C；否则T_p和T_q中至少有一个不属于C。

4)人物属性对置信度Con(Tp,Tq,C)

综合前文所述人物属性对相似度计算方法NGDC和TCDC，本发明提出对于一个人物C，和属性对Tp、Tq的人物属性对置信度Con(Tp,Tq,C)的计算方法：

Con(Tp,Tq,C)＝β×TCDC(T_p,T_q,C)+(1-β)(1-NGDC(T_p,T_q,C)) (7)

其中，β为权重，N为搜索引擎索引的总页面数，一般为10¹¹，α为可调参数，用来缩小N和查询结果差距过大的影响，α∈(0,1]。可见，人物属性对查询页面越少，β越小，NGDC的权重越低，反之亦然。Con(Tp,Tq,C)∈(-∞,+∞)，当Con(Tp,Tq,C)小于阈值时，判定Tp和Tq同属于C，反之则不属于。通常情况下Con(Tp,Tq,C)的绝对值不会很大(小于1，主要受NGDC影响)，阈值取值范围为[0.5,0.75]，比如本实施例中阈值取值为0.6，当Con(Tp,Tq,C)大于0.6时，则判定Tp和Tq同属于C；否则判定Tp和Tq至少有一个不属于C。

步骤A3中置信度平均值计算式为：

其中，Con(P,Q)为P、Q同属于C的置信度，n为对齐的属性对总数。Con(Tp,Tq,C)为Tp、Tq同属于C的置信度，Con(P,Q)若大于阈值threshlod_con，则判定P、Q同属于C，反之则不属于，阈值threshlod_con取值参考上文Con(Tp,Tq,C)。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于搜索引擎的多源人物属性融合方法，其特征在于，包括：

S2、对每一个有对应关系的属性对计算置信度；步骤S2所述置信度基于搜索引擎页面计数进行计算，具体计算式为：

M＝f(C)

其中，f(C,v_p)为搜索“人物C”和“属性值v_p”的结果页面计数，f(C,v_p,v_q)为搜索“人物C”和“属性值v_p”和“属性值v_q”结果页面计数，max[]表示求最大值，min[]表示求最小值；

或，

步骤S2所述置信度基于片段内容进行计算，具体计算式为：

其中，f(v_q@(C,v_p))指查询人物C和属性名v_p的结果片段中，v_q出现的次数；f(C,v_p)为查询人物C和属性名v_p的结果片段总数；μ表示所取的f(C,v_p)片段总数的比例，μ∈(0,1]；q和p为调节因子；

或，

步骤S2所述置信度采用下式计算：

Con(Tp,Tq,C)＝β×TCDC(T_p,T_q,C)+(1-β)(1-NGDC(T_p,T_q,C))

其中，β为权重，N为搜索引擎索引的总页面数，α为可调参数，TCDC(T_p,T_q,C)表示基于双重检查的人物属性对置信度，NGDC(T_p,T_q,C)表示基于人名和两个属性的共现页面计数的人物属性对置信度；

2.根据权利要求1所述的一种基于搜索引擎的多源人物属性融合方法，其特征在于，步骤S1包括以下分步骤：

S11、建立高置信度属性词典；

S12、基于字符串编辑距离来进行属性名配对；

S13、对于余下的属性名，基于逐点共有信息进行属性对齐。

3.根据权利要求1所述的一种基于搜索引擎的多源人物属性融合方法，其特征在于，步骤S3所述计算置信度的平均值的公式为：

其中，Con(P,Q)为P、Q同属于C的置信度，n为对齐的属性对总数，Con(Tp,Tq,C)为Tp、Tq同属于C的置信度。