CN104102738B

CN104102738B - 一种扩充实体库的方法及装置

Info

Publication number: CN104102738B
Application number: CN201410364026.4A
Authority: CN
Inventors: 梁爽
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2018-04-27
Anticipated expiration: 2034-07-28
Also published as: CN104102738A

Abstract

本发明实施例公开了一种扩充实体库的方法及装置，该方法包括：从资源库中获取结构化数据；从所述结构化数据的预置含义字段的字段内容中识别出实体词；对所述实体词按照预设规则进行筛选；如果筛选出的实体词未出现在实体库中，则将所述实体词添加到所述实体库中，以扩充所述实体库，能提高扩充实体库中实体词的准确性。

Description

一种扩充实体库的方法及装置

技术领域

本发明涉及互联网信息处理技术领域，具体涉及一种扩充实体库的方法及装置。

背景技术

随着信息和网络技术的不断发展，人们越来越多地通过互联网进行各种知识和信息的搜索。内容提供商在互联网提供内容使所有用户均能平等地浏览、创造、完善内容平台。

例如百度百科、***、互动百科等，能够让互联网用户通过百科网站即能找到自己想要的全面、准确、客观的定义性信息，可供其他用户进行类似主题的查询和浏览，以便提供相应的知识或者借鉴。例如，词条是百科网站所含内容的基础分割单位，一个词条具有一个或多个单一的主题，用于阐述一件事物、一个人物、或者具备特定主题的组合等知识内容。在百科网站中包括极大数量的词条，这些百科词条可以大大地提高检索的准确性和检索的覆盖率，并且有利于从网页中提取结构化数据，可以进行垂直搜索，得到更为精确的信息。

随着信息的广泛传播以及人们交流内容的不断扩展，新词条层出不穷。极大地发现有价值的词条，扩充百科网站的实体库是百科产品的重要目标。常见的实现方案都是从已有的数据中，利用文本切分来分析文本中可能存在的实体词，判断哪些实体词是百科实体库中存在的，哪些是百科实体库中不存在的，将不存在的实体词增加到百科实体库中。但是这种方案存在文本切分和属性识别不准确的问题。

发明内容

有鉴于此，本发明实施例提供一种扩充实体库的方法及装置，以克服现有的百科实体库扩充存在文本切分和属性识别不准确的问题。

第一方面，本发明实施例提供了一种扩充实体库的方法，包括：

从资源库中获取结构化数据；

从所述结构化数据的预置含义字段的字段内容中识别出实体词；

对所述实体词按照预设规则进行筛选；

如果筛选出的实体词未出现在实体库中，则将所述实体词添加到所述实体库中，以扩充所述实体库。

第二方面，本发明实施例还提供了一种扩充实体库的装置，包括：

结构化数据识别单元，用于从资源库中获取结构化数据；

实体词识别单元，用于从所述结构化数据的预置含义字段的字段内容中识别出实体词；

实体词筛选单元，用于对所述实体词按照预设规则进行筛选；

实体词添加单元，用于如果筛选出的实体词未出现在实体库中，则将所述实体词添加到所述实体库中，以扩充所述实体库。

本发明实施例的技术方案通过从资源库中获取结构化数据，从预置含义字段的字段内容中识别出实体词，进行筛选后，将未出现在实体库中的实体词添加到实体库中，以扩充所述实体库。由于结构化数据的预置含义字段本身就是对文字内容进行了切分，且对应于一定的含义，所以从中有效获取实体词的概率更高，能提高扩充实体库中实体词的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明实施例一所述的扩充实体库的方法流程图；

图2是百度百科中示例词条中所包含的第一示例表格的截图；

图3是百度百科中示例词条中所包含的第二示例表格的截图；

图4是本发明实施例二所述的扩充实体库的方法流程图；

图5是本发明实施例三所述的扩充实体库的装置的结构框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

图1是本发明实施例一提供的扩充实体库的方法流程图，本实施例可适用于利用资源库中的结构化数据扩充实体库的情况，本实施例所称的实体词泛指名词与代词，也可进一步指满足预设条件的名词与代词。实体库则是用于存储各实体词的相关信息的数据库，能过为用户提供对实体词相关数据的获取。例如，在百科中实体词指词条的主题名称，词条是百科网站所含内容的基础分割单位，词条包括实体词、对该实体词的解释、以及与该实体词的相关信息。此外，其他类别的实体库，如音乐实体库、商品实体库等，也可以用音乐名称、商品名称等作为实体词，在实体库中存储各实体词的相关细节数据，如音乐背景介绍、商品产地等。

本实施例的方法可以由配置在服务器中的扩充实体库的装置来执行，如图1所示，本实施例所述的扩充实体库的方法包括：

S101、从资源库中获取结构化数据。

结构化数据是指将数据分别存储在至少一个预置含义字段中，通常可以用二维表结构逻辑来实现表达，在关系型数据库中的数据全部为结构化数据，在文件中，结构化数据包括表格、图表、报表等结构的数据。预置含义字段中的数据均符合该字段的预置含义要求，有一定的共性，例如都是姓名、都是地址等。结构化存储的数据通过预置含义字段进行了初步的划分，数据有一定的属性特征。

本实施例所称的资源库可为任意形式的数据源，例如数据库、文件包、网页资源库、电子文档等，只要能从中获取结构化数据，并在所述结构化数据中能挖掘到需要扩充到实体库的实体词即可。

由于本实施例的目的是扩充实体库，所使用的资源库中所包含的内容优选为与该实体库的内容相关度较高的内容。并且，在实体库中用于介绍实体词的相关数据中存在的其他实体词更多，关联性更强，适于作为扩展的工具。例如，若用于扩充百科实体库，则可以优选采用百科资源库作为资源库。以歌手为例，对“刘德华”这一实体词进行介绍的相关数据中，可能与此歌手关联的其他明星人物、歌曲、影片等实体词更多，则从已有实体词的相关结构化数据中查找并筛选出扩展的实体词的成功率更高。

S102、从所述结构化数据的预置含义字段的字段内容中识别出实体词。

由于结构化数据可以用二维表结构来逻辑表达实现，所以结构化数据的相同字段(即结构化数据中的列)的字段内容一般类别相同。当需要扩充实体库时，本实施例可通过根据需要扩充的实体词的类别，结合扩充目标设置字段的设置条件或枚举符合该扩充目标的字段，从所获取的结构化数据中筛选出满足所述扩充目标的预置含义字段，获取所述结构化数据中所筛选字段的字段内容，对所获取的字段内容进行识别获取实体词。若某些字段的字段内容不能直接识别出实体词，可对字段内容进行切分后再执行实体词识别操作即可。

例如，若目标为扩充人物类别中的实体词，可设置条件判断字段是否包含“者”、“员”、“人”、以及“演员”等字或词，也可枚举符合该扩充目标的字段“扮演角色”、“导演”、“合作演员”、以及“演唱者”等字段名称，以枚举字段名称为例，可以从百科词条“刘德华”中的结构化数据“参演电影”表格中筛选出“扮演角色”、“导演”、以及“合作演员”这三个字段作为预置含义字段，如图2所示。还可以从该词条中的“为他人创作”表格中筛选出“演唱者”这一字段作为预置含义字段，如图3所示。

其中，从“扮演角色”、“导演”、以及“演唱者”字段的字段内容中可以直接识别出实体词，而从“合作演员”字段中提取字段内容后，需要按分号进行切分来识别出实体词。

S103、对所述实体词按照预设规则进行筛选。

所述预设规则可根据实体库的扩充目标来设置，例如，将所述实体词中字数大于预设阈值的实体词过滤掉、将属于黑名单的实体词过滤掉、和/或将属于预设类型的实体词过滤掉(例如包含序号、时间、特殊符号)。

需要说明的是，所述预设规则可包括针对所有预置含义字段的字段内容的筛选规则，所述预设规则还可包括分别针对各预置含义字段的字段内容的筛选规则。

S104、如果筛选出的实体词未出现在实体库中，则将所述实体词添加到所述实体库中，以扩充所述实体库。

为了避免重复设置实体词，操作S103获取实体词后，还需判断实体词是否已经出现在实体库中，将未出现在所述实体库中的实体词添加到所述实体库中。

本实施例的技术方案通过从资源库中获取结构化数据，从预置含义字段的字段内容中识别出实体词，进行筛选后，将未出现在实体库中的实体词添加到实体库中，能消除实体词歧义，能减少对结构化数据识别的范围。由于结构化数据的预置含义字段本身就是对文字内容进行了切分，且对应于一定的含义，所以从中有效获取实体词的概率更高，可以提高实体词识别的准确性和效率，能提高扩充实体库的准确性和效率。

实施例二

图4是本发明实施例二所述的扩充实体库的方法流程图，本实施例以通过百科资源库中的结构化数据扩充百科实体库为例公开一种扩充实体库的方法，如图4所示，本实施例所述的扩充实体库的方法包括：

S401、从百科实体库中获取结构化数据。

作为优选，所述资源库可为该百科实体库，即从该百科实体库内部挖掘实体词来扩充它本身。

一般来说，为了方便检索和数据管理，百科实体库中的现有的实体词进行了分类，例如分为歌曲、电影、人物、自然、文化、地理、历史、生活、社会、艺术、经济、科技、体育等类别，或者某些类别还有进一步的更深层次的分类。因此，为了提高命中率，所述从资源库中获取结构化数据的操作，可进一步优选为从该百科实体库中与需要扩充的实体词的类别相关联的类别中获取结构化数据。例如，需要扩充百科实体库中的电影类别的实体词，而与电影类别相关联的类别为电影类别和人物类别，则仅需要从百科实体库的电影类别和人物类别中获取结构化数据，以缩小结构化数据的查找范围，从而提高扩充实体库的效率。

S402、获取所述结构化数据的预置含义字段。

当需要扩充百科实体库时，本实施例可通过根据需要扩充的实体词的类别，结合扩充目标设置字段的设置条件或枚举符合该扩充目标的字段，从所获取的结构化数据中筛选出满足所述扩充目标的预置含义字段，例如可过滤掉诸如时间、地址等字段，获取所述结构化数据中所筛选字段的字段内容，对所获取的字段内容进行识别获取实体词。

S403、获取所述结构化数据的预置含义字段的字段内容。

若某些字段的字段内容不能直接识别出实体词，可对字段内容进行切分后再执行实体词识别操作即可。

S404、过滤掉存在内链接的字段内容。

本实施例所称的内链接是指内链，即在实体库内部，如果存在某个实体词的相关数据，则此实体词出现在其他实体词的相关数据中时，会为此实体词建立内部链接，以便用户方便地找到该实体词自己的相关数据。例如在百科实体库中，在各词条内部会对其中涉及到的已有词条添加内链接，以供用户通过内链接找到词条所涉及的其他词条的网页位置和分类。例如百科词条“刘德华”中的结构化数据“参演电影”表格(如图2所示)中“扮演角色”这一列中，有些字段内容添加了内链接，有些未添加内链接(如图2所示的圈定内容)。包括添加内链接的内容已出现在百科的实体词中，无需添加，因此，为了提高效率，在获取字段内容后，可在进行实体词识别之前进行滤掉。

例如，从百科词条“刘德华”中的结构化数据“参演电影”表格(如图2所示)中“扮演角色”、“导演”、以及“合作演员”这三个预置含义字段中识别人物类别的实体词，在在获取这些字段内容之后，将存在内链接的字段内容过滤掉，仅获取未添加内链接(如图2所示的圈定内容)。又如，从该词条中的“为他人创作”表格(如图3所示)“歌曲名称”这一列中识别出歌曲类别的实体词，过滤掉内链接的字段内容后，仅获取未添加内链接(如图3所示)的圈定内容。通过滤掉存在内链接的字段内容来提前进行筛选，能缩小实体词识别的范围，从而能提高效率。

S405、从过滤后的字段内容中识别出实体词。

S406、对所述实体词按照预设规则进行筛选。

S407、对所述实体词进行去重处理。

需要说明的是，本操作可在筛选之后进行，也可在筛选之前进行。通过对所识别的实体词进行去重处理，能进一步减小操作408中的实体词的数目，同时能避免重复添加。

S408、如果所述实体词未出现在百科的实体词中，将所述实体词添加到百科实体库中。

本实施例以通过百科资源库中的结构化数据扩充百科实体库为例，在实施例一的基础之上，增加了过滤掉存在内链接的字段内容的操作，以及增加了对实体词进行去重处理的操作，能进一步提高扩充实体库的效率。

实施例三

图5是本发明实施例三所述的扩充实体库的装置的结构框图，如图5所示，本实施例所述的扩充实体库的装置包括：

结构化数据识别单元501，用于从资源库中获取结构化数据；

实体词识别单元502，用于从所述结构化数据的预置含义字段的字段内容中识别出实体词；

实体词筛选单元503，用于对所述实体词按照预设规则进行筛选；

实体词添加单元504，用于如果筛选出的实体词未出现在实体库中，则将所述实体词添加到所述实体库中，以扩充所述实体库。

进一步地，所述资源库为百科资源库。

进一步地，所述实体词识别单元502具体用于：

获取所述结构化数据的预置含义字段的字段内容；

如果所述字段内容在所述资源库中不存在内链接，则从所述字段内容中识别出实体词。

进一步地，所述实体词筛选单元503具体用于：

将符合下述至少一项的实体词过滤掉：所述实体词中字数大于预设阈值的实体词、属于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。

进一步地，所述实体词筛选单元503还用于：在将所述实体词添加到所述实体库中的操作之前，还包括：对所述实体词进行去重处理。

本实施例提供的扩充实体库的装置可执行本发明实施例一和实施例二所提供的扩充实体库的方法，具备执行方法相应的功能模块和有益效果。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种扩充实体库的方法，其特征在于，包括：

从资源库中获取结构化数据，所述结构化数据是指将数据分别存储在至少一个预置含义字段中，用二维表结构逻辑来实现表达；

从所述结构化数据的预置含义字段的字段内容中识别出实体词，其中，所述预置含义字段为，根据需要扩充的实体词的类别，结合扩充目标设置字段的设置条件或枚举符合扩充目标的字段，从所获取的结构化数据中筛选出的满足所述扩充目标的字段；

对所述实体词按照预设规则进行筛选；

2.根据权利要求1所述的方法，其特征在于，所述资源库为百科资源库。

3.根据权利要求2所述的方法，其特征在于，从所述结构化数据的预置含义字段的字段内容中识别出实体词的操作具体包括：

获取所述结构化数据的预置含义字段的字段内容；

4.根据权利要求1所述的方法，其特征在于，对所述实体词按照预设规则进行筛选的操作具体包括：

5.根据权利要求1所述的方法，其特征在于，在将所述实体词添加到所述实体库中的操作之前，还包括：对所述实体词进行去重处理。

6.一种扩充实体库的装置，其特征在于，包括：

结构化数据识别单元，用于从资源库中获取结构化数据，所述结构化数据是指将数据分别存储在至少一个预置含义字段中，用二维表结构逻辑来实现表达；

实体词识别单元，用于从所述结构化数据的预置含义字段的字段内容中识别出实体词，其中，所述预置含义字段为，根据需要扩充的实体词的类别，结合扩充目标设置字段的设置条件或枚举符合扩充目标的字段，从所获取的结构化数据中筛选出的满足所述扩充目标的字段；

7.根据权利要求6所述的装置，其特征在于，所述资源库为百科资源库。

8.根据权利要求7所述的装置，其特征在于，所述实体词识别单元具体用于：

获取所述结构化数据的预置含义字段的字段内容；

9.根据权利要求6所述的装置，其特征在于，所述实体词筛选单元具体用于，将符合下述至少一项的实体词过滤掉：所述实体词中字数大于预设阈值的实体词、属于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。

10.根据权利要求6所述的装置，其特征在于，所述实体词筛选单元还用于：在将所述实体词添加到所述实体库中的操作之前，还包括：对所述实体词进行去重处理。