CN105335378A

CN105335378A - 多数据源的信息处理装置、服务器及方法

Info

Publication number: CN105335378A
Application number: CN201410291263.2A
Authority: CN
Inventors: 张姝; 孟遥; 杨铭; 缪庆亮; 李贤华; 房璐
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2016-02-17

Abstract

本发明实施例提供一种多数据源的信息处理装置、服务器及方法，该装置包括：第一判定单元，用于对至少两个数据源中的信息进行同一实体的判定；链接单元，用于将至少两个数据源中的实体链接到预先设定的外部资源中；第一扩展单元，用于根据外部资源中的信息对实体的属性进行扩展；第二判定单元，用于判断属性扩展后的信息是否满足预先设定的条件，当不满足预先设定的条件时，将属性扩展后的信息用于进行所述同一实体的判定，当满足预先设定的条件时，将属性扩展后的信息输出。通过对同一实体进行判定以及链接外部资源进行扩展属性，并且以迭代的方式进行上述判定和链接，能够有效的进行多数据源的信息整合，提高信息的准确性和全面性。

Description

多数据源的信息处理装置、服务器及方法

技术领域

本发明涉及通信技术领域，尤其涉及一种多数据源的信息处理装置、服务器及方法。

背景技术

随着信息技术的不断发展，各个技术领域中的信息量也越来越大。在很多情形下，需要使用多个数据源中的信息。例如，查询多个科技平台中的数据，政府部门进行信息统计、企业内部进行信息整合分析等。现有的查询和统计分析方法一般需要对多个数据源进行逐个查询和统计分析。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

上述现有的查询和统计分析方法，由于需要对多个数据源进行逐个查询和统计分析，查询和统计分析的效率较低，可用信息量较少且准确性较差。

本发明实施例提供一种多数据源的信息处理装置、服务器及方法，通过对同一实体进行判定以及链接外部资源进行扩展属性，并且以迭代的方式进行上述判定和链接，能够有效的进行多数据源的信息整合，提高信息的准确性和全面性。

根据本发明实施例的第一方面，提供一种多数据源的信息处理装置，所述装置包括：第一判定单元，所述第一判定单元用于对至少两个数据源中的信息进行同一实体的判定；链接单元，所述链接单元用于将所述至少两个数据源中的实体链接到预先设定的外部资源中；第一扩展单元，所述第一扩展单元用于根据外部资源中的信息对所述实体的属性进行扩展；第二判定单元，所述第二判定单元用于判断属性扩展后的信息是否满足预先设定的条件，当所述属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行所述同一实体的判定，当所述属性扩展后的信息满足预先设定的条件时，将所述属性扩展后的信息输出。

根据本发明实施例的第二方面，提供一种服务器，所述服务器包括根据本发明实施例的第一方面所述的多数据源的信息处理装置。

根据本发明实施例的第三方面，提供一种多数据源的信息处理方法，所述方法包括：对至少两个数据源中的信息进行同一实体的判定；将所述至少两个数据源中的实体链接到预先设定的外部资源中；根据外部资源中的信息对所述实体的属性进行扩展；判断属性扩展后的信息是否满足预先设定的条件，当所述属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行所述同一实体的判定，当所述属性扩展后的信息满足预先设定的条件时，将所述属性扩展后的信息输出。

本发明的有益效果在于：通过对同一实体进行判定以及链接外部资源进行扩展属性，并且以迭代的方式进行上述判定和链接，能够有效的进行多数据源的信息整合，提高信息的准确性和全面性。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例1的多数据源的信息处理装置的结构示意图；

图2是本发明实施例1的第一判定单元的结构示意图；

图3是本发明实施例1的进行同一实体的判定的方法流程图；

图4是本发明实施例1的链接单元的结构示意图；

图5是本发明实施例1的将至少两个数据源中的实体链接到预先设定的外部资源中的方法流程图；

图6是本发明实施例1的第一扩展单元的结构示意图；

图7是本发明实施例1的根据外部资源中的信息对该实体的属性进行扩展的方法流程图；

图8是本发明实施例1的翻译单元的结构示意图；

图9是本发明实施例1的对多种语言的实体进行翻译的方法流程图；

图10是本发明实施例1的融合单元的结构示意图；

图11是本发明实施例1的对至少两个数据源中的信息进行相同属性的融合的方法流程图；

图12是本发明实施例2的服务器的***构成的一示意框图；

图13是本发明实施例3的多数据源的信息处理方法的流程图；

图14是本发明实施例4的多数据源的信息处理方法的流程图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

图1是本发明实施例1的多数据源的信息处理装置的结构示意图。如图1所示，该装置100包括：第一判定单元101、链接单元102、第一扩展单元103以及第二判定单元104，其中，

第一判定单元101用于对至少两个数据源中的信息进行同一实体的判定；

链接单元102用于将至少两个数据源中的实体链接到预先设定的外部资源中；

第一扩展单元103用于根据外部资源中的信息对该实体的属性进行扩展；

第二判定单元104用于判断属性扩展后的信息是否满足预先设定的条件，当该属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行该同一实体的判定，当该属性扩展后的信息满足预先设定的条件时，将该属性扩展后的信息输出。

由上述实施例可知，通过对同一实体进行判定以及链接外部资源进行扩展属性，并且以迭代的方式进行上述判定和链接，能够有效的进行多数据源的信息整合，提高信息的准确性和全面性。

在本实施例中，该至少两个数据源可以包括本领域的任一种或多种数据源，例如，数据库、EXCEL表格、CSV文件、CRC文件等。其中，该至少两个数据源可以存储在该多数据源的信息处理装置的外部，也可以存储在该多数据源的信息处理装置中，本发明实施例不对数据源的存储位置进行限制。

在本实施例中，该实体可以包括本领域的任一种或多种实体，例如，人名、地名或机构名等。本发明实施例不对实体的具体类型和数量进行限定。

在本实施例中，对同一实体进行判定可以包括两种情形：不同的变体是否指向同一实体、以及同一实体是否具有歧义从而实际上表示不同的实体。但本发明实施例不限于这两种情形。

其中，对于不同的变体是否指向同一实体，例如，同一个人名、机构名或地名可能有不同的描述方法，因此存在多种变体，从而需要将其指向同一实体；对于同一实体是否具有歧义从而实际上表示不同的实体，例如，同一个人名实际上可能指向不同的人，或者同一个地名实际上可能指向不同的地点，需要将其分开代表不同的实体。

在本实施例中，可使用现有的任一种方法对至少两个数据源中的信息进行同一实体的判定。以下对本发明实施例的进行同一实体的判定的方法进行示例性的说明。

图2是本实施例的第一判定单元的结构示意图。如图2所示，该第一判定单元101包括：建立单元201、分组单元202以及分离单元203，其中，

建立单元201用于比较各个实体之间的相似程度，将相似度大于预先设定的阈值的实体聚在一起，从而建立候选池；

分组单元202用于根据与该实体相关的其他列的信息，对候选池中的信息进行合并与区分，利用聚类方法划分出各个不同的候选实体组；

分离单元203用于利用基于规则的方法，将该候选实体组的信息中的含有互斥属性的实体进行分离。

图3是本实施例的进行同一实体的判定的方法流程图。如图3所示，该方法包括：

步骤301：比较各个实体之间的相似程度，将相似度大于预先设定的阈值的实体聚在一起，从而建立候选池；

步骤302：根据与该实体相关的其他列的信息，对候选池中的信息进行合并与区分，利用聚类方法划分出各个不同的候选实体组；

步骤303：利用基于规则的方法，将该候选实体组的信息中的含有互斥属性的实体进行分离。

在本实施例中，比较各个实体之间的相似程度，将相似度大于预先设定的阈值的实体聚在一起，例如，在进行人名判定时，可比较各个人名之间的相似程度。

在本实施例中，根据与该实体相关的其他列的信息，对候选池中的信息进行合并与区分，利用聚类方法划分出各个不同的候选实体组。例如，在进行人名判定时，可利用地址，单位等信息，找出统计知识、强区分属性等。然后，可使用现有的任一种聚类方法划分出不同的候选实体组，例如，使用凝聚层次聚类法(HierarchicalAgglomerativeCluster)、k均值(k-means)聚类法等。本发明实施例不对聚类的具体方法进行限定。

在本实施例中，在第一判定单元101对至少两个数据源中的信息进行同一实体的判定后，基于判定的结果，链接单元102将至少两个数据源中的实体链接到预先设定的外部资源中。其中，该预先设定的外部资源可以是现有的任一个或多个外部资源，例如，***(Wikipedia)、Freebase等。

在本实施例中，可使用现有的任一种方法链接到预先设定的外部资源中。以下对本发明实施例的将至少两个数据源中的实体链接到预先设定的外部资源中的方法进行示例性的说明。

图4是本实施例的链接单元的结构示意图。如图4所示，该链接单元102包括：第三判定单元401、第一查找单元402以及第二查找单元403，其中，

第三判定单元401用于判定该实体是否存在歧义；

第一查找单元402用于当该实体不存在歧义时，利用完全匹配和/或扩展属性的方法在该外部资源中查找信息；

第二查找单元403用于当该实体存在歧义时，利用与该实体相关的其他属性以及该外部资源中的信息区分，在该外部资源中查找信息。

图5是本实施例的将至少两个数据源中的实体链接到预先设定的外部资源中的方法流程图。如图5所示，该方法包括：

步骤501：判定该实体是否存在歧义；其中，当判断结果为“否”时，进入步骤502，当判定结果为“是”时，进入步骤503；

步骤502：利用完全匹配和/或扩展属性的方法在该外部资源中查找信息；

步骤503：利用与该实体相关的其他属性以及该外部资源中的信息区分，在该外部资源中查找信息。

在本实施例中，将所述至少两个数据源中的实体链接到预先设定的外部资源中之后，第一扩展单元103根据外部资源中的信息对该实体的属性进行扩展。其中，可使用现有的任一种方法根据外部资源中的信息对该实体的属性进行扩展，以下对本发明实施例的根据外部资源中的信息对该实体的属性进行扩展的方法进行示例性的说明。

图6是本实施例的第一扩展单元的结构示意图。如图6所示，该第一扩展单元103包括：第一扩展模块601以及第二扩展模块602，其中，

第一扩展模块601用于根据外部资源中的结构化信息对该实体的属性进行扩展；

第二扩展模块602用于从外部资源中的非结构化信息中提取结构化信息，从而对该实体的属性进行扩展。

在本实施例中，第一扩展单元103可以同时包括第一扩展模块601以及第二扩展模块602，也可以包括其中的任一个模块。

图7是本实施例的根据外部资源中的信息对该实体的属性进行扩展的方法流程图。如图7所示，该方法包括：

步骤701：根据外部资源中的结构化信息对该实体的属性进行扩展；

步骤702：从外部资源中的非结构化信息中提取结构化信息，从而对该实体的属性进行扩展。

在本实施例中，该方法可以同时包括步骤701以及步骤702，也可以具有其中的任一个步骤。

在本实施例中，例如，可利用***(Wikipedia)中的已格式化的Infobox信息，或页面中的其他信息，对该实体的属性进行扩展。

在本实施例中，在根据外部资源中的信息对所述实体的属性进行扩展之后，第二判定单元104判断属性扩展后的信息是否满足预先设定的条件，当属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行上述同一实体的判定，当所述属性扩展后的信息满足预先设定的条件时，将属性扩展后的信息输出。

在本实施例中，可根据实际需要确定该预先设定的条件。例如，该预先设定的条件是：迭代次数达到设定的次数，或者属性扩展后的信息的改变量小于设定的阈值。

在本实施例中，当属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行上述同一实体的判定，即以属性扩展后的信息为基础，重复上述步骤，直到满足该预先设定的条件为止。通过该迭代过程，能够不断提高信息的准确性和全面性。

在本实施例中，该装置还可以包括：第一补全单元105，其中，第一补全单元105用于根据上述同一实体的判定后的信息，进行同一实体的属性补全，并将属性补全后的信息用于进行上述链接，其中，在进行该属性补全时，标明该属性的出处和/或可信度。

在本实施例中，可使用现有的任一种方法进行同一实体的属性补全。例如，可利用其他列的信息进行缺失信息的补全，其中，可采用增加候选的方式进行补全。

例如，对于指向同一个人的两行信息，如有一行信息中含有地址信息，而另一行中没有，则可将地址信息加入到没有该信息的行中，并在加入该地址信息时标明该属性的出处和/或可信度。其中，该可信度可利用现有的任一种方法获得，例如，该可信度可利用规则或统计信息而获取。

在本实施例中，第一补全单元105是可选部件，在图1中用虚线框表示。

通过根据上述同一实体的判定后的信息进行同一实体的属性补全，能够进一步提高信息的准确性和全面性。

在本实施例中，该装置还可以包括：翻译单元106，其中，翻译单元106用于对多种语言的实体进行翻译，并将翻译后的结果用于进行所述链接。其中，可使用现有的任一种方法对多种语言的实体进行翻译，以下对本发明实施例的对多种语言的实体进行翻译的方法进行示例性的说明。

图8是本实施例的翻译单元的结构示意图。如图8所示，该翻译单元106包括：候选获取单元801、检索单元802以及确定单元803，其中，

候选获取单元801用于利用机器翻译获得该实体的翻译候选项；

检索单元802用于利用搜索引擎检索获得该实体以及翻译候选项的共现统计信息，从而获得可能的候选对；

确定单元803用于利用检索结果中的其他信息与该实体的相应属性的相似程度，确定该可能的候选对中的每个候选对为正确翻译结果的可信度。

图9是本实施例的对多种语言的实体进行翻译的方法流程图。如图9所示，该方法包括：

步骤901：利用机器翻译获得该实体的翻译候选项；

步骤902：利用搜索引擎检索获得该实体以及翻译候选项的共现统计信息，从而获得可能的候选对；

步骤903：利用检索结果中的其他信息与该实体的相应属性的相似程度，确定该可能的候选对中的每个候选对为正确翻译结果的可信度。

本实施例的利用机器翻译获得候选项、利用搜索引擎进行检索以及确定可信度可使用现有的任一种方法。例如，对于文献数据库，关于论文的信息可能用中文和英文两种语言进行描述，同一作者也可以发表中文文献和相应的英文文献，可以利用现有的面向人名的翻译***，查找相应的该人名的翻译候选项，并利用搜索引用检索该人名的中文和英文的共现共计信息，利用检索结果中的其他信息与该人名的相应属性的相似程度，采用现有的基于规则的方法确定该可能的候选对中的每个候选对为正确翻译结果的可信度。

在本实施例中，翻译单元106是可选部件，在图1中用虚线框表示。

通过对多种语言的实体进行翻译，并将翻译后的结果用于进行所述链接，能够进一步提高信息的准确性和全面性，以利于信息的分析统计。

在本实施例中，该装置还可以包括：第二补全单元107，其用于根据对多种语言的实体进行翻译后的结果，进行同一实体的属性补全，并将属性补全后的信息用于进行上述链接。

在本实施例中，该第二补全单元107进行同一实体的属性补全可使用现有的任一种方法。例如，可使用与第一补全单元105进行同一实体的属性补全时相同的方法，此处不再赘述。

在本实施例中，第二补全单元107是可选部件，在图1中用虚线框表示。

通过根据对多种语言的实体进行翻译后的结果，进行同一实体的属性补全，并将属性补全后的信息用于进行上述链接，能够进一步提高信息的准确性和全面性。

在本实施例中，该装置还可以包括：融合单元108，其用于对至少两个数据源中的信息进行相同属性的融合，并将属性融合后的信息用于进行上述同一实体的判定。其中，可使用现有的任一种方法进行相同属性的融合。以下对本发明实施例的对至少两个数据源中的信息进行相同属性的融合的方法进行示例性的说明。

图10是本实施例的融合单元的结构示意图。如图10所示，该融合单元108包括：第四判定单元1001以及第五判定单元1002，其中，

第四判定单元1001用于根据至少两个数据源中的不同字段的分布相似程度初步判断该不同的字段是否可能指向同一属性；

第五判定单元1002用于当该不同的字段中的相同的重复实例大于预先设定的比例时，判定该不同的字段指向同一属性。

图11是本实施例的对至少两个数据源中的信息进行相同属性的融合的方法流程图。如图11所示，该方法包括：

步骤1101：根据至少两个数据源中的不同字段的分布相似程度初步判断该不同的字段是否可能指向同一属性；

步骤1102：当该不同的字段中的相同的重复实例大于预先设定的比例时，判定该不同的字段指向同一属性。

在本实施例中，可使用现有的任一种方法根据至少两个数据源中的不同字段的分布相似程度初步判断该不同的字段是否可能指向同一属性。例如，“人名”，“姓名”，“Name”等不同字段表述同一个含义，可利用到字段中实例的长度以及常用的N元组(N-gram)等信息，根据分布相似程度初步判断两字段是否可能指向同一种属性信息。

在本实施例中，该预先设定的比例可根据实际需要设定，本发明实施例不对该比例的数值进行限制。

在本实施例中，融合单元108是可选部件，在图1中用虚线框表示。

通过对至少两个数据源中的信息进行相同属性的融合，并将属性融合后的信息用于进行上述同一实体的判定，能够进一步提高信息的准确性和全面性。

在本实施例中，该装置还可以包括：清洗单元109，其用于对至少两个数据源中的信息进行数据清洗，并将数据清洗后的信息用于进行上述相同属性的融合。其中，可使用现有的任一种方法对至少两个数据源中的信息进行数据清洗。

例如，可利用基于规则的方法对至少两个数据源中的信息进行数据清洗，其中，对于字符级别的数据，可进行字符编码、全角半角统一以及特殊符号判断等处理，对于字符串级别的数据，可进行网络字符串处理以及人名姓氏判断等处理，例如，进行英文姓氏缩写、姓名前后位置分析以及基于概率统计的英文字母拼写矫正等处理。

实施例2

本发明实施例提供一种服务器，该服务器包括如实施例1所述的多数据源的信息处理装置。

图12是本发明实施例2的服务器1200的***构成的一示意框图。如图12所示，服务器1200可以包括中央处理器1201和存储器1202；存储器1202耦合到中央处理器1201。该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

如图12所示，该服务器1200还可以包括：通信模块1203、输入单元1204、显示器1205、电源1206。

在一个实施方式中，多数据源的信息处理装置的功能可以被集成到中央处理器1201中。其中，中央处理器1201可以被配置为：对至少两个数据源中的信息进行同一实体的判定；将所述至少两个数据源中的实体链接到预先设定的外部资源中；根据外部资源中的信息对所述实体的属性进行扩展；判断属性扩展后的信息是否满足预先设定的条件，当所述属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行所述同一实体的判定，当所述属性扩展后的信息满足预先设定的条件时，将所述属性扩展后的信息输出。

中央处理器1201还可以被配置为：根据所述同一实体的判定后的信息，进行同一实体的属性补全，并将属性补全后的信息用于进行所述链接，其中，在进行所述属性补全时，标明所述属性的出处和/或可信度。

中央处理器1201还可以被配置为：对多种语言的实体进行翻译，并将翻译后的结果用于进行所述链接；其中，所述对多种语言的实体进行翻译包括：利用机器翻译获得所述实体的翻译候选项；利用搜索引擎检索获得所述实体以及翻译候选项的共现统计信息，从而获得可能的候选对；利用检索结果中的其他信息与所述实体的相应属性的相似程度，确定所述可能的候选对中的每个候选对为正确翻译结果的可信度。

中央处理器1201还可以被配置为：根据对多种语言的实体进行翻译后的结果，进行同一实体的属性补全。

中央处理器1201还可以被配置为：对至少两个数据源中的信息进行相同属性的融合，并将属性融合后的信息用于进行所述同一实体的判定；其中，所述对至少两个数据源中的信息进行相同属性的融合包括：根据至少两个数据源中的不同字段的分布相似程度初步判断所述不同的字段是否可能指向同一属性；当所述不同的字段中的相同的重复实例大于预先设定的比例时，判定所述不同的字段指向同一属性。

中央处理器1201还可以被配置为：对至少两个数据源中的信息进行数据清洗，并将数据清洗后的信息用于进行所述相同属性的融合。

其中，所述对至少两个数据源中的信息进行同一实体的判定包括：判断不同的变体是否指向同一实体、以及同一实体是否具有歧义从而实际上表示不同的实体。

其中，所述对至少两个数据源中的信息进行同一实体的判定包括：比较各个实体之间的相似程度，将相似度大于预先设定的阈值的实体聚在一起，从而建立候选池；根据与所述实体相关的其他列的信息，对候选池中的信息进行合并与区分，利用聚类方法划分出各个不同的候选实体组；利用基于规则的方法，将所述候选实体组的信息中的含有互斥属性的实体进行分离。

其中，所述将所述至少两个数据源中的实体链接到预先设定的外部资源中包括：判定所述实体是否存在歧义；当所述实体不存在歧义时，利用完全匹配和/或扩展属性的方法在所述外部资源中查找信息；当所述实体存在歧义时，利用与所述实体相关的其他属性以及所述外部资源中的信息区分，在所述外部资源中查找信息。

其中，所述根据外部资源中的信息对所述实体的属性进行扩展包括：根据外部资源中的结构化信息对所述实体的属性进行扩展；和/或从外部资源中的非结构化信息中提取结构化信息，从而对所述实体的属性进行扩展。

在另一个实施方式中，多数据源的信息处理装置可以与中央处理器1201分开配置，例如可以将多数据源的信息处理装置为与中央处理器1201连接的芯片，通过中央处理器的控制来实现多数据源的信息处理装置的功能。

在本实施例中服务器1200也并不是必须要包括图12中所示的所有部件

如图12所示，中央处理器1201有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，中央处理器1201接收输入并控制服务器1200的各个部件的操作。

存储器1202，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器1201可执行该存储器1202存储的该程序，以实现信息存储或处理等。其他部件的功能与现有类似，此处不再赘述。服务器1200的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

实施例3

图13是本发明实施例3的多数据源的信息处理方法的流程图，对应于实施例1的多数据源的信息处理装置。如图13所示，该方法包括：

步骤1301：对至少两个数据源中的信息进行同一实体的判定；

步骤1302：将至少两个数据源中的实体链接到预先设定的外部资源中；

步骤1303：根据外部资源中的信息对该实体的属性进行扩展；

步骤1304：判断属性扩展后的信息是否满足预先设定的条件，当属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行该同一实体的判定，当属性扩展后的信息满足预先设定的条件时，将属性扩展后的信息输出。

在本实施例中，进行同一实体的判定的方法、将至少两个数据源中的实体链接到预先设定的外部资源中的方法、根据外部资源中的信息对该实体的属性进行扩展的方法以及判断属性扩展后的信息是否满足预先设定的条件的方法与实施例1的记载相同，此处不再赘述。

实施例4

图14是本发明实施例4的多数据源的信息处理方法的流程图，对应于实施例1的多数据源的信息处理装置。如图14所示，该方法包括：

步骤1401：对至少两个数据源中的信息进行数据清洗；

步骤1402：对数据清洗后的信息进行相同属性的融合；

步骤1403：进行同一实体的判定；

步骤1404：根据所述同一实体的判定后的信息，进行同一实体的属性补全，其中，在进行该属性补全时，标明所述属性的出处和/或可信度；

步骤1405：对属性补全后的信息中的多种语言的实体进行翻译；

步骤1406：根据翻译后的结果，进行同一实体的属性补全；

步骤1407：将同一实体的属性补全后的信息中的实体链接到预先设定的外部资源中；

步骤1408：根据外部资源中的信息对该实体的属性进行扩展；

步骤1409：判断属性扩展后的信息是否满足预先设定的条件，其中，当判断结果为“否”时，进入步骤1403，当判断结果为“是”时，进入步骤1410；

步骤1410：将该属性扩展后的信息输出。

在本实施例中，进行数据清洗的方法、进行相同属性的融合的方法、进行同一实体的判定的方法、进行同一实体的属性补全的方法、对属性补全后的信息中的多种语言的实体进行翻译的方法、进行同一实体的属性补全的方法、将至少两个数据源中的实体链接到预先设定的外部资源中的方法、根据外部资源中的信息对该实体的属性进行扩展的方法以及判断属性扩展后的信息是否满足预先设定的条件的方法与实施例1的记载相同，此处不再赘述。

本发明实施例还提供一种计算机可读程序，其中当在多数据源的信息处理装置或服务器中执行所述程序时，所述程序使得计算机在所述信息获取装置或服务器中执行实施例3或实施例4所述的多数据源的信息处理方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在多数据源的信息处理装置或服务器中执行实施例3或实施例4所述的多数据源的信息处理方法。

本发明以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1、一种多数据源的信息处理装置，所述信息处理装置包括：

第一判定单元，所述第一判定单元用于对至少两个数据源中的信息进行同一实体的判定；

链接单元，所述链接单元用于将所述至少两个数据源中的实体链接到预先设定的外部资源中；

第一扩展单元，所述第一扩展单元用于根据外部资源中的信息对所述实体的属性进行扩展；

第二判定单元，所述第二判定单元用于判断属性扩展后的信息是否满足预先设定的条件；当所述属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行所述同一实体的判定，当所述属性扩展后的信息满足预先设定的条件时，将所述属性扩展后的信息输出。

附记2、根据附记1所述的信息处理装置，其中，所述信息处理装置还包括：

第一补全单元，所述第一补全单元用于根据所述同一实体的判定后的信息，进行同一实体的属性补全，并将属性补全后的信息用于进行所述链接；其中，在进行所述属性补全时，标明所述属性的出处和/或可信度。

附记3、根据附记1所述的信息处理装置，其中，所述信息处理装置还包括：

翻译单元，所述翻译单元用于对多种语言的实体进行翻译，并将翻译后的结果用于进行所述链接；

其中，所述翻译单元包括：

候选获取单元，所述候选获取单元用于利用机器翻译获得所述实体的翻译候选项；

检索单元，所述检索单元用于利用搜索引擎检索获得所述实体以及翻译候选项的共现统计信息，从而获得可能的候选对；

确定单元，所述确定单元用于利用检索结果中的其他信息与所述实体的相应属性的相似程度，确定所述可能的候选对中的每个候选对为正确翻译结果的可信度。

附记4、根据附记3所述的信息处理装置，其中，所述信息处理装置还包括：

第二补全单元，所述第二补全单元用于根据对多种语言的实体进行翻译后的结果，进行同一实体的属性补全。

附记5、根据附记1所述的信息处理装置，其中，所述第一判定单元用于判断不同的变体是否指向同一实体、以及同一实体是否具有歧义从而实际上表示不同的实体。

附记6、根据附记1所述的信息处理装置，其中，所述第一判定单元包括：

建立单元，所述建立单元用于比较各个实体之间的相似程度，将相似度大于预先设定的阈值的实体聚在一起，从而建立候选池；

分组单元，所述分组单元用于根据与所述实体相关的其他列的信息，对候选池中的信息进行合并与区分，利用聚类方法划分出各个不同的候选实体组；

分离单元，所述分离单元用于利用基于规则的方法，将所述候选实体组的信息中的含有互斥属性的实体进行分离。

附记7、根据附记1所述的信息处理装置，其中，所述链接单元包括：

第三判定单元，所述第三判定单元用于判定所述实体是否存在歧义；

第一查找单元，所述第一查找单元用于当所述实体不存在歧义时，利用完全匹配和/或扩展属性的方法在所述外部资源中查找信息；

第二查找单元，所述第二查找单元用于当所述实体存在歧义时，利用与所述实体相关的其他属性以及所述外部资源中的信息区分，在所述外部资源中查找信息。

附记8、根据附记1所述的信息处理装置，其中，所述第一扩展单元包括：

第一扩展模块，所述第一扩展模块用于根据外部资源中的结构化信息对所述实体的属性进行扩展；和/或

第二扩展模块，所述第二扩展模块用于从外部资源中的非结构化信息中提取结构化信息，从而对所述实体的属性进行扩展。

附记9、根据附记1所述的信息处理装置，其中，所述信息处理装置还包括：

融合单元，所述融合单元用于对至少两个数据源中的信息进行相同属性的融合，并将属性融合后的信息用于进行所述同一实体的判定；

其中，所述融合单元包括：

第四判定单元，所述第四判定单元用于根据至少两个数据源中的不同字段的分布相似程度初步判断所述不同的字段是否可能指向同一属性；

第五判定单元，所述第五判定单元用于当所述不同的字段中的相同的重复实例大于预先设定的比例时，判定所述不同的字段指向同一属性。

附记10、根据附记9所述的信息处理装置，其中，所述信息处理装置还包括：

清洗单元，所述清洗单元用于对至少两个数据源中的信息进行数据清洗，并将数据清洗后的信息用于进行所述相同属性的融合。

附记11、一种服务器，所述服务器包括根据附记1-10任一项所述的多数据源的信息处理装置。

附记12、一种多数据源的信息处理方法，所述信息处理方法包括：

对至少两个数据源中的信息进行同一实体的判定；

将所述至少两个数据源中的实体链接到预先设定的外部资源中；

根据外部资源中的信息对所述实体的属性进行扩展；

判断属性扩展后的信息是否满足预先设定的条件；当所述属性扩展后的信息不满足预先设定的条件时，将属性扩展后的信息用于进行所述同一实体的判定，当所述属性扩展后的信息满足预先设定的条件时，将所述属性扩展后的信息输出。

附记13、根据附记12所述的信息处理方法，其中，所述信息处理方法还包括：

根据所述同一实体的判定后的信息，进行同一实体的属性补全，并将属性补全后的信息用于进行所述链接；其中，在进行所述属性补全时，标明所述属性的出处和/或可信度。

附记14、根据附记12所述的信息处理方法，其中，所述信息处理方法还包括：

对多种语言的实体进行翻译，并将翻译后的结果用于进行所述链接；

其中，所述对多种语言的实体进行翻译包括：

利用机器翻译获得所述实体的翻译候选项；

利用搜索引擎检索获得所述实体以及翻译候选项的共现统计信息，从而获得可能的候选对；

利用检索结果中的其他信息与所述实体的相应属性的相似程度，确定所述可能的候选对中的每个候选对为正确翻译结果的可信度。

附记15、根据附记14所述的信息处理方法，其中，所述信息处理方法还包括：

根据对多种语言的实体进行翻译后的结果，进行同一实体的属性补全。

附记16、根据附记12所述的信息处理方法，其中，所述对至少两个数据源中的信息进行同一实体的判定包括：

判断不同的变体是否指向同一实体、以及同一实体是否具有歧义从而实际上表示不同的实体。

附记17、根据附记12所述的信息处理方法，其中，所述对至少两个数据源中的信息进行同一实体的判定包括：

比较各个实体之间的相似程度，将相似度大于预先设定的阈值的实体聚在一起，从而建立候选池；

根据与所述实体相关的其他列的信息，对候选池中的信息进行合并与区分，利用聚类方法划分出各个不同的候选实体组；

利用基于规则的方法，将所述候选实体组的信息中的含有互斥属性的实体进行分离。

附记18、根据附记12所述的信息处理方法，其中，所述将所述至少两个数据源中的实体链接到预先设定的外部资源中包括：

判定所述实体是否存在歧义；

当所述实体不存在歧义时，利用完全匹配和/或扩展属性的方法在所述外部资源中查找信息；

当所述实体存在歧义时，利用与所述实体相关的其他属性以及所述外部资源中的信息区分，在所述外部资源中查找信息。

附记19、根据附记12所述的信息处理方法，其中，所述根据外部资源中的信息对所述实体的属性进行扩展包括：

根据外部资源中的结构化信息对所述实体的属性进行扩展；和/或

从外部资源中的非结构化信息中提取结构化信息，从而对所述实体的属性进行扩展。

附记20、根据附记12所述的信息处理方法，其中，所述信息处理方法还包括：

对至少两个数据源中的信息进行相同属性的融合，并将属性融合后的信息用于进行所述同一实体的判定；

其中，所述对至少两个数据源中的信息进行相同属性的融合包括：

根据至少两个数据源中的不同字段的分布相似程度初步判断所述不同的字段是否可能指向同一属性；

当所述不同的字段中的相同的重复实例大于预先设定的比例时，判定所述不同的字段指向同一属性。

Claims

1.一种多数据源的信息处理装置，所述信息处理装置包括：

2.根据权利要求1所述的信息处理装置，其中，所述信息处理装置还包括：

3.根据权利要求1所述的信息处理装置，其中，所述信息处理装置还包括：

其中，所述翻译单元包括：

4.根据权利要求3所述的信息处理装置，其中，所述信息处理装置还包括：

5.根据权利要求1所述的信息处理装置，其中，所述第一判定单元用于判断不同的变体是否指向同一实体、以及同一实体是否具有歧义从而实际上表示不同的实体。

6.根据权利要求1所述的信息处理装置，其中，所述第一判定单元包括：

7.根据权利要求1所述的信息处理装置，其中，所述链接单元包括：

8.根据权利要求1所述的信息处理装置，其中，所述第一扩展单元包括：

9.根据权利要求1所述的信息处理装置，其中，所述信息处理装置还包括：

其中，所述融合单元包括：

10.一种多数据源的信息处理方法，所述信息处理方法包括：

对至少两个数据源中的信息进行同一实体的判定；

根据外部资源中的信息对所述实体的属性进行扩展；