CN105260457B

CN105260457B - 一种面向共指消解的多语义网实体对比表自动生成方法

Info

Publication number: CN105260457B
Application number: CN201510662906.4A
Authority: CN
Inventors: 胡伟; 仇宏磊; 瞿裕忠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2018-07-13
Anticipated expiration: 2035-10-14
Also published as: CN105260457A

Abstract

本发明公开了一种面向共指消解的多语义网实体对比表自动生成方法，包括以下步骤：给定一组候选共指实体，首先根据结构和文本信息来合并这组实体中语义相近的属性。接下来，基于合并后的属性及实体在属性上的取值分布对属性评分，并计算待选属性与已选属性的冗余度，从中挑选出一个高评分且低冗余的属性加入关键属性集合，重复本步骤直到选完预定数目的属性或无属性可选。最后，基于关键属性组织实体在关键属性上的取值，生成可视化实体对比表供用户参与实体共指消解。应用本发明能够提高用户参与多语义网实体共指消解的准确率和效率。

Description

一种面向共指消解的多语义网实体对比表自动生成方法

技术领域

本发明涉及语义网，尤其涉及一种面向共指消解的多语义网实体对比表自动生成方法。

背景技术

语义网（Semantic Web）是万维网的一个重要发展方向，为万维网上的知识表示、推理、交换和复用提供了基础。语义网使用一组“属性–取值”来描述其中的实体（entity，以下“实体”均指语义网实体），可以表示为集合{<p _i ,v _i>}n i=1，其中p _i表示某个属性，v _i表示p _i的取值。例如万维网的发明人Tim Berners-Lee，其姓名在语义网数据源DBpedia中被表示为<dbpedia:name, “Tim Berners- Lee”>。通常，一个实体的描述包含数十条乃至上百条这样的“属性–取值”，而且一个属性也可以有多个不同取值（例如一个人的朋友可以有许多）。随着语义网的快速发展，由不同机构和个人发布的语义网数据已经达到百亿数量级规模，如此大规模、异构的数据给语义网的研究和应用带来了巨大挑战。

语义网中大量不同来源的实体可能指称现实世界中的相同事物，这种现象常被称为实体共指（entity co-reference）。同时，不同数据源发布的实体所用属性不同，取值也有差异，这更加剧了语义网数据的复杂程度，给跨数据源语义网知识的表示、推理和集成造成了困难。为解决这一问题，早期完全依赖人工判别实体共指的方法需要消耗大量的时间和精力，面对大规模数据已不可行。语义网领域的研究者提出了多种全自动的实体共指消解（co-reference resolution）方法，但是这些方法目前尚不够准确，并且灵活性不足。最新研究进展则将人工判别和机器消解相结合，通过机器自动计算得到候选共指实体并呈现给用户，由用户做出判断并反馈结果。这种半自动方法不但节约了宝贵的人力资源，而且能够有效利用人类丰富的背景知识，提高实体共指消解的准确率。同时，机器在这个不断反馈的过程中，通过训练可以进一步优化实体共指消解的准确率。

在上述过程中，用户参与实体共指消解的一个关键在于如何能够在保证准确率的前提下，尽可能减少用户的参与，或尽可能减轻用户参与时的负担，使实体共指消解的效率更高、成本更低。根据调研，现有考虑用户参与实体共指消解的方法多数只为用户提供未经加工筛选的实体描述，用户面对的往往是杂乱无章、难以理解的大量属性和取值。而查找对于实体共指消解有关键作用的属性需要花费用户大量的时间，甚至一些隐藏属性会被忽略，从而导致用户做出不自信或错误的判断。另有少数方法为用户选取实体描述，形成实体摘要，但用户一次只能观察单个（如Sig.ma）或一对（如C3D+P）实体描述，摘要信息的对比性不足。当用户需要判断来自多于两个数据源的候选共指实体时，往往不得不在多个实体间进行来回切换，并在脑海中记住之前的实体描述，特别当实体含有相似属性和取值时，用户更难以快速准确判断。

发明内容

本发明提出了一种面向共指消解的多语义网实体对比表（comparative table）自动生成方法。该方法在用户参与实体共指消解时，自动生成实体对比表，将多个实体及其关键属性分别构成表中的行和列，呈现这些实体在关键属性上的取值。本发明能在提高用户参与实体共指消解准确率的同时，减少用户参与时间，减轻用户消解负担，提升用户交互体验。

本发明针对的主要问题是：现有方法在支撑用户参与实体共指消解时，对实体描述未经加工或加工不够，信息呈现缺乏组织，不具备对比性，造成准确率和效率较低。本发明的解决方案是：为多个候选共指实体自动生成一张实体对比表，表中呈现实体在一组关键属性上的取值，从而为用户提供更为充分准确的信息。通过对实体的属性进行合并、评分和筛选，以期发现最有益于用户判别实体是否共指的关键属性进行呈现。在应用本发明进行实体共指消解时，用户往往只需要对比两三个关键属性和取值即可做出判断，并且可同时对多个（特别是三个及以上）实体进行交叉比较。具体而言，面向共指消解的多语义网实体对比表自动生成方法包括以下步骤：

1. 对于来自不同语义网数据源的一组候选共指实体，分析其属性名称、属性的取值以及实体涉及的本体信息，以合并不同数据源中语义相近的属性。具体包括：根据描述实体的属性在本体中的层次结构，计算不同属性的结构相似度。根据属性名称及属性在这组候选共指实体集合上的取值，计算不同属性的文本相似度。最终，综合结构相似度和文本相似度来合并语义相近的属性。

2. 基于合并后的属性集合，获取实体在属性上的取值，根据取值分布对属性评分。对于某个属性，首先计算候选共指实体集合中不同实体在该属性上取值的差异程度，即实体在该属性上不同取值个数与实体在该属性上所有取值个数的比值；同时计算该属性的覆盖率，即可以覆盖的候选共指实体集合中实体的比例。根据两方面计算结果对属性进行综合评分。本发明认为取值差异程度越接近预设值，评分越高；属性覆盖率越高，评分越高。其中差异程度预设值可以根据候选共指实体数目以及涉及数据源的数目设定。综合评分越高的属性，给用户参与实体共指消解提供的信息量就越大，更应该被选为实体对比表中的关键属性。

3. 计算未选属性与已选属性的冗余度。属性的冗余度根据两个属性在取值上的相似度而定，取值相似度越高，属性冗余度越高，即两个属性表达的信息重复度越高。对于两个属性，在其中一个已被选入实体对比表的情况下，另一个属性与其的冗余度越高，越不容易被选入。

4. 综合属性评分、待选属性与已选属性的冗余度，挑选出一个高评分且低冗余的属性，加入实体对比表的关键属性集合。重复之前步骤挑选属性，直至属性数目达到预设值或无属性可选。

5. 按照选出顺序对关键属性进行排序，并获取实体在这些属性上的取值，生成可视化的实体对比表。表中每一行表示一个实体，每一列表示一个合并后的属性，单元格中填入对应实体在对应属性下的取值。对于未合并的属性，列名填入属性名称。对于合并后的属性，随机选取原先属性名称中的一个填入列名，也允许在选择相应参数后，列出合并前的所有属性名称。

本发明的有益效果包括：（1）对机器计算得到的多个候选共指实体信息进行了加工，选取若干关键属性呈现给用户，减少了用户参与时间，提高了实体共指消解的效率。（2）采用实体对比表的形式作为可视化呈现，同时展示一组实体在关键属性上的取值，方便用户在多个实体之间交叉比较，增强了用户参与信心，提高了实体共指消解的准确率。

附图说明

图1是本发明的整体流程图。

具体实施方式

本发明的整体流程如图1所示，包括5个部分：根据文本和结构信息合并不同数据源中语义相近的属性，根据实体取值分布计算属性评分，计算待选属性与已选属性的冗余度，挑选高评分且低冗余的关键属性，以及生成可视化实体对比表。

具体实施方式分别说明如下：

1. 根据文本和结构信息合并不同数据源中语义相近的属性

对于一组候选共指实体，通过对标识实体的URI的解引用（dereference）来抽取所有“属性–取值”描述。以属性为关键字，建立哈希（hash）表，表中存储内容为在对应属性上有取值的实体集合以及实体在对应属性上的取值。

如果两个属性覆盖的实体来自不同数据源，则对属性进行比较。首先，根据描述实体的属性在本体中的层次结构，计算两个属性的结构相似度，即为两个属性的公共父属性（super-property）在层次结构上的深度除以两个属性的深度之和（定义根节点的深度为0）；其次，计算属性名称的文本相似度，采用著名的Jaro-Winkler字符距离来度量；最后，计算哈希表中属性取值的文本相似度，因为取值可能为多个，选取最大值作为取值相似度，同样采用Jaro-Winkler距离来度量。

选取属性结构相似度、名称相似度和取值相似度中的最大值作为两个属性之间的综合相似度。设定阈值，对于综合相似度超过该阈值的属性进行合并。为保证准确率，本发明将阈值设为0.9。合并时，将哈希表中一个属性覆盖的实体以及取值并入另一个属性的哈希表中去，任取两个属性中的一个作为合并后的属性，并记录属性合并信息。

2. 根据实体取值分布计算属性评分

基于合并后以属性为关键字的哈希表，对表中每个属性计算评分，其创新点在于，针对实体对比表有限的呈现空间，综合考虑属性取值的差异程度和覆盖率，选出最合适实体共指消解的属性。

首先，计算候选共指实体在该属性上取值的差异程度，分为如下5个子步骤：

①初始化属性值池为空，设置该属性不同取值个数为0，总取值个数为0；

②对于该属性覆盖的一个实体，计算其每个属性值与属性值池中属性的文本相似度，同样采用Jaro-Winkler距离来度量，取最大相似度进行后续计算；

③将该属性值放入属性值池，属性不同取值个数+(1–相似度)，总取值个数+1；

④在处理完一个实体的所有属性值后，处理下一个实体，直至处理完该属性覆盖的所有实体；

⑤计算属性不同取值个数与总取值个数的比值，作为属性取值的差异程度。

接着，在得到属性总取值个数后，计算属性覆盖率，即在该属性上有取值的实体个数与候选共指实体总数的比值。

最后，根据属性取值差异程度和覆盖率对属性评分。对于某个属性p，diff(p)为p的取值差异程度，cover(p)为p的覆盖率，p的综合评分score(p)通过如下公式计算：

其中，R为差异程度预设值，可以根据候选共指实体数目以及涉及数据源的数目设定，本发明将R设为20%，即期望一个差异程度高的属性应该有20%左右的不同取值；而α和β为放大系数，根据经验可以设在1.5至2.5。另外，使用所有属性中的最高评分对各属性归一化。该公式的含义为，属性取值差异程度越接近预设值则评分越高，属性覆盖率越高则评分越高。

3. 计算待选属性与已选属性的冗余度对于所有待选属性，分别与每个已选属性进行比较，其创新点在于根据已选属性，动态调整待选属性。由于在之前步骤中已经合并了来自不同数据源的语义相近的属性，故本步骤重点比较同一数据源中属性取值的相似度，分为如下3个子步骤：

①从以属性为关键字的哈希表中取得两个属性的取值集合，设置取值相似度为0，设置覆盖实体个数为0；

②对于每个候选共指实体，计算其在两个属性上取值的相似度。若该实体在两个属性上均无取值，则不进行处理；若仅在一个属性上有取值，则取值相似度+0，覆盖实体个数+1；若在两个属性上都有取值，则计算最高的一对取值的文本相似度加入取值相似度，，同样采用Jaro-Winkler距离来度量，覆盖实体个数+1；

③完成所有候选共指实体的相关处理后，计算取值相似度与覆盖实体个数的比值，作为属性冗余度。

4. 挑选高评分且低冗余的关键属性

初始化已选属性集合为空；根据实体取值分布计算属性评分模块得到各属性评分，挑选评分最高的属性，作为关键属性，加入已选属性集合；

计算剩余待选属性与已选属性的冗余度；将属性评分和属性冗余度加权相减，取一个高评分且低冗余的属性。这里，属性评分的权重为0.6，属性冗余度的权重为0.4；

重新计算剩余待选属性的冗余度，直至属性数目达到预设值或无属性可选，本发明将属性数目预设值设为5。基于集合覆盖（set cover）问题可以证明，挑选最优关键属性属于NP难（NP-hard）问题。本发明创新性地在传统贪心求解策略的基础上，加入冗余度来动态调整属性评分，其时间复杂度为O(mn ²)，其中m是属性个数，n是实体个数。

5. 生成可视化实体对比表

构建实体对比表，表中每一行表示一个实体，每一列表示一个合并后的属性，列按照选出顺序对关键属性进行排序。对于未合并的属性，列名填入属性名称。对于合并后的属性，随机选取原先属性名称中的一个填入列名，也允许在选择相应参数后，列出合并前的所有属性名称。在单元格中，填入对应实体在对应属性下的所有不同取值。表1展示了本发明自动生成的一个多语义网实体对比表的例子，通过4个合并后的关键属性，可以清楚地判断出e1和e2共指希腊罗德（Rhodes）岛，而e3和e4共指希腊罗德市。因此，用户参与实体共指消解时，将为共指实体分配相同的组号，因此相同组号中的实体具有共指关系，而不同组号中的实体不共指。

另外，基于2011年国际本体匹配工具（Ontology Alignment EvaluationInitiative）评测中的***测试集（http://oaei.ontologymatching.org/2011/instance/index.html）对本发明和现有两种考虑用户参与实体共指消解方法（列表型和两两对比型）进行对比。***测试要求完成***数据源与DBpedia、Freebase及Geonames这3个语义网数据源之间的实体共指消解，数据源中存在的实体共指数以万计。邀请24名计算机专业研究生参与实体共指消解实验，通过7个不同维度的实验结果比较（参见表2），证明了本发明提出的面向共指消解的多语义网实体对比表生成方法的有效性，特别是能够提高用户参与多语义网实体共指消解的准确率和效率。

Claims

1.一种面向共指消解的多语义网实体对比表生成方法，其特征在于，包括以下步骤：

（1.1）对于来自不同语义网数据源的一组候选共指实体，根据实体涉及本体的结构信息和属性及取值的文本信息，合并不同数据源中语义相近的属性；

（1.2）基于所述步骤（1.1）得到的合并后的属性，根据实体在属性上的取值分布，为属性是否合适于实体共指消解计算评分；

（1.3）基于所述步骤（1.1）得到的合并后的属性，根据实体在属性上的取值，计算未选属性与已选属性的取值冗余度；

（1.4）基于所述步骤（1.2）得到的属性评分和所述步骤（1.3）得到的冗余度，挑选一组高评分且低冗余的关键属性；

（1.5）基于所述步骤（1.4）选出的关键属性及实体在关键属性上的取值，生成可视化实体对比表供用户参与实体共指消解；

所述步骤（1.2）包括以下步骤：

（2.1）计算候选共指实体集合中不同实体在该属性上取值的差异程度，即实体在该属性上不同取值个数与实体在该属性上所有取值个数的比值；

（2.2）计算属性的覆盖率，即该属性能够覆盖的候选共指实体集合中实体的比例；

（2.3）基于步骤（2.1）和步骤（2.2）计算属性综合评分，即取值的差异程度越接近预设值，评分越高；属性的覆盖率越高，评分越高；所述差异程度的预设值根据候选共指实体数目以及数据源数目设定。

2.根据权利要求1所述的面向共指消解的多语义网实体对比表生成方法，其特征在于，所述步骤（1.4）包括以下步骤：

（3.1）如果没有已选属性，则挑选一个评分最高的属性加入关键属性集合，并作为已选属性；

（3.2）如果存在已选属性，则对每个未选属性分别与每个已选属性计算冗余度，选择最大的冗余度作为该未选属性与已选属性集合的冗余度；

（3.3）基于每个属性的评分与冗余度，挑选出一个高评分且低冗余的属性加入关键属性集合；

（3.4）重复所述步骤（3.2）和步骤（3.3），直到选完预定数目的属性或无属性可选。