CN102054029A

CN102054029A - 一种基于社会网络和人名上下文的人物信息消歧处理方法

Info

Publication number: CN102054029A
Application number: CN 201010593747
Authority: CN
Inventors: 刘远超; 刘铭; 王晓龙; 刘秉权; 林磊; 单丽莉; 孙承杰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2011-05-11

Abstract

一种基于社会网络和人名上下文的人物信息消歧处理方法，本发明涉及一种互联网人物信息的消歧处理方法。它解决了现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。用于网络人物信息检索。它包括下述步骤：一、用户输入一个要检索的人名，利用搜索引擎完成检索，利用下载软件把检索到的网页下载到本地计算机；二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理，形成文档；三、利用人物领域信息先对文档进行分类，再利用社会网络和上下文信息对人物领域信息进行聚类处理，最终显示出每个人物领域信息与实体人物之间的对应关系，并且显示出每个实体人物存在的社会网络。

Description

一种基于社会网络和人名上下文的人物信息消歧处理方法

技术领域

本发明涉及一种互联网人物信息的消歧处理方法。

背景技术

由于通用搜索引擎对垂直领域相关知识的检索结果远未达到人们的预期，垂直搜索引擎技术应运而生。命名实体的研究作为垂直搜索引擎技术的核心，其研究也逐渐热门起来。命名实体是文本中承载信息的重要语言单位。实体概念在文本中的引用(entity mention，也可称为指称项)可以有三种形式：命名性指称、名词性指称和代词性指称。围绕命名实体有一系列的研究任务，例如：命名实体的识别、排歧、属性抽取、关系抽取等。其中，命名实体识别任务是识别出文本中实体概念的命名性指称项，并标明其类别(例如人名、地名、机构名、产品名等)；命名实体排歧解决的是一个命名性指称项指称多个实体概念的问题以及多个命名性指称项指称同一个实体概念的问题。

利用搜索引擎检索人物信息是互联网用户的主要活动之一，然而现实世界中，多个人物共用一个人名是很普遍的现象，根据国家语委1989年对第三次全国人口普查资料进行的抽样调查，单名重名率为67.7％，双名重名率为32.4％，这导致搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合。例如，Google检索“王刚”返回的前10个结果中就有“国家著名演员”、“***委员”、“西北工业大学副教授”、“山东黄金篮球队队员”、“建筑师”、“中国作家协会会员”等六位不同实体人物。虽然现在有些***能对检索结果进行聚类处理，例如Bbmao、人立方等，但它们都把人名当成普通词汇进行处理，聚类结果的标签也是这个人名相关的一些词汇，没有对人名的重名结果进行区分。如在人立方六度空间中搜索“马二磊”和“刘德华”的关系时，***会给出通过“崔青”，“杨臣刚”建立联系。因此有必要按照文档中出现的某个指定的人名所指向的人进行聚类。最后，在每个类中，所有指定的人名都必须是指向现实生活中的同一个人，最终形成的结果简单、精炼、美观，使用户更快、更方便的得到所需搜索的人物信息。但现有技术达不到上述要求。

发明内容

本发明的目的是提供一种基于社会网络和人名上下文的人物信息消歧处理方法，以解决现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。它包括下述步骤：一、用户输入一个要检索的人名，利用搜索引擎完成检索，利用下载软件把检索到的网页下载到本地计算机；二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理，形成文档；三、利用人物领域信息先对文档进行分类，再利用社会网络和上下文信息对人物领域信息进行聚类处理，最终显示出每个人物领域信息与实体人物之间的对应关系，并且显示出每个实体人物存在的社会网络。

由于本发明把检索到的网页进行了正文提取、分词和词性标注以及分类、聚类等处理，最终确定了实体人物与人物领域信息的对应关系并且显示出每个实体人物存在的社会网络，从而每个实体人物所对应的相关网页都能够被区分开，因而实现了人物信息的排歧处理。

附图说明

图1是本发明的整体原理示意图，图2是已基于人物领域信息的预分类示意图，图3是基于社会网络和上下文信息的文档处理示意图。

具体实施方式

具体实施方式一：本实施方式包括下述步骤：一、用户输入一个要检索的人名，利用搜索引擎，如Google API，(即谷歌公司提供的应用编程接口)完成检索，把检索到的网页下载到本地计算机；二、对上述网页分别进行正文提取、分词和词性标注处理，形成文档；所述分词即将每句话切分为具有独立意义的词条，词性标注是指同时标记每个词的如名词、动词等词性，分词和词性标注可分别采用广泛使用的正向最大匹配方法及N元文法等。三、利用人物领域信息先对文档进行分类，再利用社会网络和上下文信息对人物领域信息进行聚类处理，最终显示出每个人物领域信息与实体人物之间的对应关系，并且显示出每个实体人物存在的社会网络。

具体实施方式二：本实施方式与实施方式一的不同点是在第三步骤中利用人物领域信息进行分类是这样进行的：基于人物领域信息进行预分类，将人物信息分为文娱、行政、军事、科教、体育、医疗、经济等七大类，对每个类，手工标注若干篇代表性文档，而后提取每个领域类别的特征信息，形成一个领域特征库，那么利用SVM进行文档分类处理，简单地把现实中的人物进行分类。这样，一个类型中的人物就和其他类型中的人物分开了，他们之间就没有可比性了，后续只要处理同一个领域类别中的人物信息就可以了，对同一个类别中的人物进行聚类处理，从而最终实现人物信息的排歧处理。

具体实施方式三：本实施方式与实施方式一的不同点是在第三步骤中利用社会网络和上下文信息对人物领域信息进行聚类处理是这样进行的：文档中出现的其他人物信息的上下文信息能很好的显示了人物的一些用于区别他人的特有属性。文档中共现的人名组成其社会网络，上下文信息构成其社会属性特征。检索人名A，如果文档D1中出现人名A和B，文档D2中也出现人名A和B，那么文档D1和D2就是说的同一个现实中的人物实体，那么他们对应于同一个类别，否则D2中出现人名A和C，则认为他们为不同的人物类别。并且在处理过程中，其社会网络是在不断的扩大的，即如果文档D1中出现人名A、B和C，文档D2中出现人名A、B和D，那么文档D1和文档D2的社会网络都将是A、B、C、D。但是在利用社会网络处理过程中会出现一篇文档中只出现一个名字，那么社会网络处理方法就会失效，这时利用上下文信息，主要是对其社会属性如职称等信息进行匹配进行处理，如果文档D4中没有出现其他共现人名的话，如果文档D3和文档D4中人名上下文信息匹配度高的话，就认为D3和D4是同一个类别，并且这样可能把D3的社会网络传递给了D4。

具体实施方式四：据中华人民共和国国家***对于社会各个行业的划分标准，本实施方式将“人物”划分为七个类别，分别是文娱、行政、军事、科教、体育、医疗、经济。本实施方式根据文档词频(DF)、信息增益(IG)、互信息(MI)、X2统计(CHI)、交叉熵法和优势率等统计量获得文档特征，然后采用基于属性论的文本相似度方法来进行人物信息的预分类处理。

每个领域人物信息的特征库是已知的一个文本信息向量，利用目标文本向量与之计算相似度，每个领域都计算一次，哪个相似度大就将其归为哪一个类别。

知道已知文本信息向量为d＝(t₁w₁，t₂w₂...t_iw_i...t_nw_n)其中t为特征词，w为其对应的权重，在上面进行特征库构建的过程中，其中n值为2000，选取词的权重为词频，而根据属性论的方法，其权重为0-1之间的一个值，所以在这里对权重进行处理；

w_{i}^{'} = w_{i} / Σ_{j = 1}^{n} w_{j} - - - (1)

则形成新的向量空间d＝(t₁w′₁，t₂w′₂...t_iw′_i...t_nw′_n)。并且根据权重信息形成一个2000维的向量，T₁＝(w′₁，w′₂...w′_i...w′₂₀₀₀)。

对目标文本信息，先分词，而后进行停用词过滤，每个词的权重先为其词频，进而利用上述公式转化其权重，最终形成一个向量d′＝(t′₁w₁，t′₂w₂...t′_iw_i...t′_mw_m)，其中m为其维数。对于这个向量进行扩展，形成一个2000维的向量，遍历向量空间d，如果在位置i处，在向量d′中查到词t_i，则置新向量T₂的i位置的值为w_i，如果没有找到则在i处其值为0。

利用重心剖析模型，从而计算两个向量之间的距离。经过这七个特征领域库中的七个向量空间之间的计算，比较哪个相似度大，就把这个文本归于那一个类别中。

接下来结合图1、图2和图3举一个具体的例子说明本发明的人名消歧，本例子中消歧的结果为将人物界定为记者和非记者两个类别。

社会网络库的构建：在检索一个名字的过程中，针对检索的人名信息把爬取的文档分为记者信息文档和非记者信息文档，对于记者信息文档，就不进行社会网络的预处理。在非记者信息文档中，经过分词，词性标注，利用命名实体识别，把出现的记者名字剔除出去，识别出其他的名字，提取出来，形成一个向量空间。对于文档d_i，形成向量空间，在这个向量空间中每个元素不重复。

R_i＝{name₁，name₂，name₃...name_n-1，name_n} (2)

为了判断一个文档中出现的名字是否是name的社会网络，本实施方式设定当这个名字与name共现为两次的时候，认定他们之间具有关系，即认定这个名字是name的社会网络中的一员。下面是对非记者信息文档形成的向量空间进行过滤，对于R_i中出现的一个名字name_j，如果他在其他向量空间中出现，则证明名字name_j与name共现在两次以上，就认为名字name_j是name的社会网络，如果没有出现，则认为不是name的社会网络，则向量R_i中把名字name_j剔除掉。最终形成每篇文档对应一个向量空间，则每个向量空间是其name的一个社会网络特征库。

人物社会属性库的构建：通常情况下，上下文的选取是基于核心词左右一定范围进行的，这个固定的范围被称为“窗口”，表示为[a，b]，即核心词语左a个位置和右b个位置。在非记者信息文档中，抽取其上下文信息作为其社会属性，并且在名字前后对称抽取。在信息分析过程中发现，其社会属性，如职称等信息一般都为名词性短语，所以在特征库建立过程中都是抽取的名词性短语。对于每篇非记者信息文档，抽取出一系列词语构成一个向量空间Q，又因为利用上下文信息对人物信息排歧是在社会网络信息处理之后，所以已有简单的类别信息，对于同一个类别文档，对其形成的向量Q进行合并处理，最终形成一个类别对应一个向量，即类别i形成Q_i＝Q₁∪Q₂∪Q₃∪......Q_n其中Q₁Q₂Q₃......Q_n为这个类型中每个文档对应的向量，Qi即为其社会属性特征库。

基于社会网络的人物信息排歧：假定每个文档d_i，其对应的社会网络向量空间为R_i，共有n个。最终形成一个个类别，这时候每个类别也对应一个社会网络，组成一个社会网络向量空间。现实生活中的文档分类的最终结果集合保存到Q中。

其算法思想如下：

初始化C＝{d₁，d₂，.....d_n}，Q＝φ

1.While C≠φ

2.从C中取出一个文档d_k，thenC＝C-{d_k}，Q＝{C₁，C₂，......C_m}(m≤n)

3.if

使得|R_k∩R_i|＞＝λ

4.then R_i＝R_k∪R_i，C_i＝C_i∪{d}

5.else Q＝{C₁，C₂，......C_m，C_m+1}(m+1≤n)其中C_m+1＝{d_k}

6.end if

7.end while

其中λ为设定的共现人名的一个阈值，可以设定为2或者3都可以，即当设定阈值为2时，即如果两篇文档中，如果除要检索的人名外还有一个相同的人名的时候就认定这两个文档指的是一个共同的人物实体，此时把文档归为同一个类中，并且把其社会网络加入其类别中，这样也体现了社会网络的传递性。

基于社会属性特征库的信息排歧：因为属性库提取的信息是提取的地域信息，有时一个文档中在检索的人名前出现的只有一个地域名称，所以在这里直接进行判断，文档A和文档B对应的社会属性库分别为Q₁和Q₂，如果Q₁∩Q₂≠φ，则认定文档A和B指定是同一个人物实体，但是在这里，其社会属性库没有进行合并，从而把文档进行归类，只是因为在这里一篇文档中可能出现其他记者信息报道的地域信息，会产生级联错误，故此这里对其社会属性库不进行扩展。其算法思想如下：记者信息文档C＝{d₁d₂......d_n}，每个文档d_i抽取出来的社会属性即地域信息为R_i，最终归类之后的集合为Q

初始化：C＝{d₁d₂......d_n}，Q＝φ

1.While C≠φ

2.从C中取出一个文档d_k，then C＝C-{d_k}，Q＝{C₁，C₂，......C_m}(m≤n)

3.if

使得R_k∩R_j≠φ

4.then C_i＝C_i∪{d}

5.else Q＝{C₁，C₂，......C_m，C_m+1}(m+1≤n)其中C_m+1＝{d_k}

6.end if

7.end while

对非记者信息文档的处理是在利用社会网络处理结果之上进行的，所以在这里处理过程中，已经有简单的类别归类。并且在利用上下文信息进行属性库构建的过程中，其窗口的大小选择的不同，对其方法设定的阈值也有不同的变化。本实施方式将a和b都取2，即人物名字前后各取两个名词性短语作为其社会属性，在判断的时候利用其社会属性库的交集，如果其值大于等于2则判断两个文档指向的是同一个人物实体，把他们进行归类处理，这时候不进行属性库的扩展，以免在属性抽取时产生的错误产生级联，影响其准确率问题。

Claims

1.一种基于社会网络和人名上下文的人物信息消歧处理方法，其特征在于它包括下述步骤：一、用户输入一个要检索的人名，利用搜索引擎完成检索，利用下载软件把检索到的网页下载到本地计算机；二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理，形成文档；三、利用人物领域信息先对文档进行分类，再利用社会网络和上下文信息对人物领域信息进行聚类处理，最终显示出每个人物领域信息与实体人物之间的对应关系，并且显示出每个实体人物存在的社会网络。

2.根据权利要求1所述的一种基于社会网络和人名上下文的人物信息消歧处理方法，其特征在于在第三步骤中利用人物领域信息进行分类是这样进行的：基于人物领域信息进行预分类，将人物信息分为文娱、行政、军事、科教、体育、医疗、经济七大类，根据手工标注的语料，提取每个领域类别的特征信息，形成一个领域特征库，利用SVM进行文档分类处理。

3.根据权利要求2所述的一种基于社会网络和人名上下文的人物信息消歧处理方法，其特征在于第三步骤中利用人物领域信息进行分类是这样进行的：根据文档词频、信息增益、互信息、X2统计、交叉熵法和优势率这些统计量获得文档特征，然后采用基于属性论的文本相似度方法来进行人物信息的预分类处理；每个领域人物信息的特征库是已知的一个文本信息向量，利用目标文本向量与之计算相似度，每个领域都计算一次，哪个相似度大就将其归为哪一个类别。

4.根据权利要求1所述的一种基于社会网络和人名上下文的人物信息消歧处理方法，其特征在于在第三步骤中利用社会网络和上下文信息对人物领域信息进行聚类处理是这样进行的：文档中出现的其他人物信息及人名附件的上下文信息能很好的显示了人物的一些用于区别他人的特有属性。文档中共现的人名组成其社会网络，上下文信息构成其社会属性特征。