CN103425660A

CN103425660A - 一种词条的获取方法和装置

Info

Publication number: CN103425660A
Application number: CN2012101512826A
Authority: CN
Inventors: 李永强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-05-15
Filing date: 2012-05-15
Publication date: 2013-12-04
Anticipated expiration: 2032-05-15
Also published as: CN103425660B

Abstract

本发明提供了一种词条的获取方法和装置，其中，该方法包括：获取词条库中同一分类的已有词条集合；利用所获取的已有词条集合进行搜索，得到包含所述已有词条的锚文本，并记录所述已有词条的锚文本所在的网页位置；根据所记录的网页位置，在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。本发明提供的获取方法和装置，利用已有词库挖掘实体词条，可指导用户创建新词，解决百科数据库中实体词条收录不足的问题，便于实现更有效的知识搜索。

Description

一种词条的获取方法和装置

【技术领域】

本发明涉及互联网信息处理技术领域，特别涉及一种词条的获取方法和装置。

【背景技术】

随着信息和网络技术的不断发展，人们越来越多地通过互联网进行各种知识和信息的搜索。百科网站是一个互联网所有用户均能平等的浏览、创造、完善内容的平台，例如百度百科、***、互动百科等，能够让互联网用户通过百科网站即能找到自己想要的全面、准确、客观的定义性信息，可供其他用户进行类似主题的查询和浏览，以便提供相应的知识或者借鉴。

词条是百科网站所含内容的基础分割单位，一个词条具有一个或多个单一的主题，用于阐述一件事物、一个人物、或者具备特定主题的组合等知识内容，例如：“故宫”、“刘德华”、“2008年北京***”等。在百科网站中包括极大数量的词条，这些词条记录了各种行业、各种主题、各种知识领域的内容。对于搜索引擎来说，利用这些百科词条可以大大提高检索的准确性和检索覆盖率，并且有利于从网页中提取结构化数据，用以进行垂直搜索，得到更为精确的信息。

随着信息的大量传播以及人们交流内容的不断扩展，新词条层出不穷。现有的新词条都是通过人工添加并创建新词条对应的知识内容，进而通过人工审核的方式将创建合格的新词条添加到百科网站中，以供用户进行知识和信息的搜索。对于一个未创建新词条，比如新的歌曲、电影、人物等，***并不会在互联网上主动发现，导致一些新词条无法及时创建和更新，影响搜索引擎的检索速度，甚至还会影响检索的准确性和召回率。

【发明内容】

有鉴于此，本发明提供了一种词条的获取方法和装置，利用已有词库挖掘实体词条，可指导用户创建新词，解决百科数据库中实体词条收录不足的问题，便于实现更有效的知识搜索。

具体技术方案如下：

一种词条的获取方法，该方法包括以下步骤：

S1、获取词条库中同一分类的已有词条集合；

S2、利用所获取的已有词条集合进行搜索，得到包含所述已有词条的锚文本，并记录所述已有词条的锚文本所在的网页位置；

S3、根据所记录的网页位置，在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。

根据本发明一优选实施例，在所述步骤S3之后，还包括：

S4、根据与所述已有词条的锚文本之间的上下文距离计算所提取的锚文本的权重，统计所提取的锚文本在当前分类中出现的频度，将频度或权重满足预设要求的锚文本识别为新词条。

根据本发明一优选实施例，所述锚文本所在的网页位置，包括：

锚文本所在的网页、锚文本所在的网页分块以及锚文本在网页分块中的位置。

根据本发明一优选实施例，所述上下文距离满足预设要求包括：

所提取的锚文本所在的网页分块与已有词条的锚文本所在的网页分块相同。

根据本发明一优选实施例，所述上下文距离满足要求，还包括：

所提取的锚文本与已有词条的锚文本的间隔距离小于预设距离阈值。

根据本发明一优选实施例，所述根据与所述已有词条的锚文本之间的上下文距离计算所提取的锚文本的权重，具体包括：

在同一网页分块中，确定所提取的锚文本与已有词条的锚文本的上下文距离；

利用确定的上下文距离，计算在对应的网页分块中所提取的锚文本的权重；

在整个当前分类下，将提取到的各个网页分块中计算得到的所提取的锚文本的权重进行求和，得到所提取的锚文本的权重。

根据本发明一优选实施例，所述在同一网页分块中确定所提取的锚文本与已有词条的锚文本的上下文距离，具体包括：

确定所提取的锚文本所在的网页分块中包含的已有词条的锚文本；

计算所提取的锚文本与获取的各个已有词条的锚文本之间的距离；

选取距离的最小值作为与已有词条的上下文距离。

根据本发明一优选实施例，在所述步骤S3之后，还包括：

将所提取的锚文本与所述词条库进行对比，得到未收录的锚文本；

仅对所述未收录的锚文本执行所述步骤S4。

根据本发明一优选实施例，在所述步骤S3之后，还包括：

将所提取的锚文本中不包含指定词性的锚文本过滤掉；

仅对过滤后剩余的锚文本执行所述步骤S4。

一种词条的获取装置，该装置包括：

已有词条获取模块，用于获取词条库中同一分类的已有词条集合；

搜索模块，用于利用所述已有词条获取模块获取的已有词条集合进行搜索，得到包含所述已有词条的锚文本，并记录所述已有词条的锚文本所在的网页位置；

提取模块，用于根据所述搜索模块记录的网页位置，在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。

根据本发明一优选实施例，该装置还包括：

新词条识别模块，用于根据与所述已有词条的锚文本之间的上下文距离计算所述提取模块提取的锚文本的权重，统计所提取的锚文本在当前分类中出现的频度，将频度或权重满足预设要求的锚文本识别为新词条。

根据本发明一优选实施例，所述新词条识别模块，包括：

距离确定单元，用于在同一网页分块中，确定所提取的锚文本与已有词条的锚文本的上下文距离；

权重计算单元，用于利用所述距离确定单元确定的上下文距离，计算在对应的网页分块中所提取的锚文本的权重；

加权单元，用于在整个当前分类下，将提取到的各个网页分块中计算得到的所提取的锚文本的权重进行求和，得到所提取的锚文本的权重。

根据本发明一优选实施例，所述距离确定单元，具体配置为：

选取距离的最小值作为与已有词条的上下文距离。

根据本发明一优选实施例，该装置还包括：

已有词条过滤模块，用于将所述提取模块提取的锚文本与所述词条库进行对比，得到未收录的锚文本；

并将所述未收录的锚文本提供给所述新词识别模块。

根据本发明一优选实施例，该装置还包括：

词性过滤模块，用于将所述提取模块提取的锚文本中不包含指定词性的锚文本过滤掉；

并将过滤后剩余的锚文本提供给所述新词识别模块。

由以上技术方案可以看出，本发明提供的词条的获取方法和装置，利用已有词库挖掘实体词条，提供尚未创建的新词条，可指导用户创建新词条对应的知识，解决百科数据库中实体词条收录不足的问题，有利于完善结构化的数据资料，便于实现更有效的知识搜索。

【附图说明】

图1为本发明实施例一提供的词条的获取方法流程图；

图2为网页及其包含的网页分块示意图；

图3为利用已有词条“因为爱情”搜索到的某个网页分块示意图；

图4为本发明实施例二提供的词条的获取方法流程图；

图5为本发明实施例三提供的词条的获取装置示意图；

图6为本发明实施例四提供的词条的获取装置示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1是本实施例提供的词条的获取方法流程图，如图1所示，该方法包括：

步骤S101、获取词条库中同一分类的已有词条集合。

所述词条库可以是百科词条库、输入法词条库等分类词条库，在本发明中以百科词条库为例进行说明。

所述分类可以采用分类词条库原有的各个类别，包括：歌曲、电影、人物、自然、文化、地理、历史、生活、社会、艺术、经济、科技、体育等类别，或者，可以对已有词条利用现有的分类或聚类方法(如贝叶斯分类方法、决策树方法、支持向量机SVM等)划分的类别。

获取词条库中同一分类的已有词条集合，逐一对词条库中各个分类的已有词条，执行步骤S102和步骤S103。

步骤S102、利用所获取的已有词条集合进行搜索，得到包含所述已有词条的锚文本，并记录所述已有词条的锚文本所在的网页位置。

在互联网网页中，利用获取的已有词条集合进行搜索，得到包含已有词条的锚文本，记录该些锚文本及锚文本所在的网页位置。

锚文本所在的网页位置可以包括：锚文本所在的网页、锚文本所在的网页分块以及锚文本在网页分块中的位置。图2是一个网页及其包含的网页分块示意图，如图2所示，锚文本1所在的网页位置为该网页的网页分块A内的第一个位置。

举个例子，通过步骤S101获取到百科词条中已有的歌曲分类集合T1，该歌曲分类集合T1中包括几万个已有词条，例如{因为爱情，爱你痛到不知痛，等等...}。通过搜索找到包含歌曲分类集合T1中已有词条的锚文本，例如，利用已有词条“因为爱情”进行搜索，在http://ting.***.com网页中找到锚文本“因为爱情”，如图3所示，记录该锚文本“因为爱情”所在的网页分块以及网页位置。

或者，在进行搜索包含所述已有词条的锚文本时，也可以先获取互联网上每个网页的所有锚文本，再利用各分类的已有词条集合进行匹配，找出能够匹配的锚文本，记录该些锚文本所在的网页、网页分块以及网页位置。

步骤S103、根据所记录的网页位置，在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。

对于所记录的已有词条的锚文本的网页位置，提取与该网页位置上下文距离满足要求的锚文本作为词条。

其中，所述上下文距离满足预设要求可以包括：

所提取的锚文本所在的网页分块与已有词条的锚文本所在的网页分块相同。如图2中的锚文本1和锚文本3所在的网页分块相同，但锚文本1和锚文本5则处于不同的网页分块中。如果锚文本1为已有词条的锚文本，则可以提取到满足要求的锚文本为：锚文本2和锚文本3。

具体地，可以根据页面布局标签确定锚文本所在的网页分块，如页面布局标签“<div></div>”和“<table></table>”等进行判断，确定是否处于相同的网页分块。或者，也可以根据网页视觉分块等来确定同一网页分块。

或者，所提取的锚文本所在的网页分块与已有词条的锚文本所在的网页分块相同，且所提取的锚文本与已有词条的锚文本的间隔距离小于预设距离阈值。

例如，图3为利用已有词条“因为爱情”搜索到的某个网页分块示意图，在图3中，“王菲”、“伤不起”、“王麟”、“最炫民族风”、“凤凰传奇”、“新贵妃醉酒”、“爱的供养”等锚文本与已有词条的锚文本“因为爱情”处于同一网页分块中，提取该些锚文本作为词条。

为了进一步提高精度，在提取上下文距离满足预设要求的锚文本，还对间隔距离有所限定。如果图3中“新贵妃醉酒”、“爱的供养”等锚文本与已有词条的锚文本“因为爱情”之间的间隔距离超过了预设距离阈值时，则不提取该些锚文本。

所述预设距离阈值根据实际需要进行设定，比如10个字符以内。

实施例二、

图4是本实施例提供的词条的获取方法流程图，如图4所示，该方法包括：

步骤S401、获取词条库中同一分类的已有词条集合。

步骤S402、利用所获取的已有词条集合进行搜索，得到包含所述已有词条的锚文本，并记录所述已有词条的锚文本所在的网页位置。

步骤S403、根据所记录的网页位置，在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。

上述步骤S401至S403与实施例一中的步骤S101至S103对应相同，于此不再赘述。

步骤S404、将所提取的锚文本与所述词条库进行对比，得到未收录的锚文本。

由于提取到的锚文本很可能为已有词条，因而，为了提高效率，对提取到的锚文本进行过滤，将已有词条过滤掉，以便后续仅对未收录的锚文本进行处理。如果图3中的“牵手”、“背叛情歌”是已有词条，则予以过滤掉。

由于在某一个分类下提取到的锚文本可能属于其他分类，例如，图3中可以提取到“王菲”、“王麟”等人物。因而，将提取到的锚文本与整个词条库进行对比，去掉已存在于词条库中的锚文本，得到未收录的锚文本。如果未收录的锚文本属于人物或其他预设相关分类下的词条，也予以保留，进一步执行步骤S405至S406。所述预设相关分类是指具有关联关系的分类，根据经验设定，例如，歌曲分类与人物、电影、娱乐等分类具有关联关系。

值得说明的是，在处理效率要求不高时，也可以不执行本步骤，或者，也可以在执行步骤S406得到锚文本的权重或频度之后再进行识别是否为未收录，以确定新词条。此时，以下步骤S405至S406则是对所提取的锚文本执行。

步骤S405、将未收录的锚文本中不包含指定词性的锚文本过滤掉。

对于步骤S404得到的锚文本，通过分词、词性标注技术过滤掉不包含指定词性的锚文本，例如过滤掉不包含动词、名词、形容词等的锚文本。

同时，为了得到规范的词条，还可以基于锚文本的长度和包含的标点符号进行过滤，将不符合要求的锚文本过滤掉。

当然，本步骤也并非为必要的步骤。

步骤S406、根据与所述已有词条的锚文本之间的上下文距离计算所述未收录的锚文本的权重，统计所述未收录的锚文本在当前分类中出现的频度，将频度或权重满足预设要求的锚文本识别为新词条。

统计步骤S405过滤后剩余的锚文本在当前分类中出现的频度，即出现次数，并计算步骤S405过滤后剩余的锚文本的权重，具体地，根据与所述已有词条的锚文本之间的上下文距离计算锚文本的权重，包括：

步骤S406_1、在同一网页分块中，确定所述未收录的锚文本与已有词条的锚文本的上下文距离。

具体地，先确定所述未收录的锚文本所在的网页分块中包含的已有词条的锚文本。

再计算所述未收录的锚文本与获取的各个已有词条的锚文本之间的距离。

其中，上下文距离d可以但不限于采用未收录的锚文本与已有词条之间间隔的字符串长度来计算，不包括页面布局标签、空格、回车等符号。

最后，选取距离的最小值作为与已有词条的上下文距离。

例如，在同一个网页分块中有多个已有词条的锚文本K1，K2，K3，…Kn，和多个未收录的锚文本L1，L2，L3等，逐一对该网页分块中未收录的锚文本，分别计算到K1～Kn的距离，将得出的距离最小值确定为该未收录的锚文本与已有词条的上下文距离。

步骤S406_2、利用确定的上下文距离，计算在对应的网页分块中所述未收录的锚文本的权重。

利用未收录的锚文本与已有词条的上下文距离，计算该未收录的锚文本在各个网页分块中的权重。上下文距离越近，权重越大。

权重计算公式可以但不限于采用：

\cos t = \sqrt{\frac{1}{d}}

(公式1)

如图3中，在该网页分块中，利用已有词条锚文本“因为爱情”计算未收录锚文本“伤不起”的权重，具体为：

上下文距离d＝6，间隔的字符串包括“2，王麟，-，进而得到权重为

\cos t = \sqrt{\frac{1}{6}} = 0.408 .

依次类推，在记录的各个网页分块中，计算在对应分块中的未收录锚文本的权重。

步骤S406_3、在整个当前分类下，将提取到的各个网页分块中计算得到的所述未收录的锚文本的权重进行求和，得到未收录的锚文本的权重。

在整个当前分类下，将步骤S406_2计算得到的在各个分块中的未收录锚文本的权重进行加权求和，作为所述未收录锚文本的权重。

例如：将步骤S406_2计算得到各个网页分块中“伤不起”的权重求和得到“伤不起”的权重为295.4，判断是否大于预设权重阈值。

统计得到“伤不起”在歌曲分类中出现了1442次，判断是否大于预设频次阈值。

如果权重大于预设权重阈值或者出现频次大于预设频次阈值，则将该锚文本识别为新词条。根据实际应用场合可以设定需两个条件同时满足时，才识别为新词条。

步骤S407、判断是否获取完词条库中的所有分类，如果是，则进入步骤S408，输出新词条的识别结果，否则，返回步骤S401，获取词条库中下一个分类的已有词条集合，直至取完所有分类，输出结果。

以上是对本发明所提供的方法进行的详细描述，下面对本发明提供的词条的获取装置进行详细描述。

实施例三

图5是本实施例提供的词条的获取装置示意图。如图5所示，该装置包括：

已有词条获取模块501，用于获取词条库中同一分类的已有词条集合。

获取词条库中同一分类的已有词条集合，逐一将词条库中各个分类的已有词条提供给搜索模块502和提取模块503执行。

搜索模块502，用于利用已有词条获取模块501获取的已有词条集合进行搜索，得到包含所述已有词条的锚文本，并记录所述已有词条的锚文本所在的网页位置。

举个例子，通过已有词条获取模块501获取到百科词条中已有的歌曲分类集合T1，该歌曲分类集合T1中包括几万个已有词条，例如{因为爱情，爱你痛到不知痛，等等...}。通过搜索找到包含歌曲分类集合T1中已有词条的锚文本，例如，利用已有词条“因为爱情”进行搜索，在http://ting.***.com网页中找到锚文本“因为爱情”，如图3所示，记录该锚文本“因为爱情”所在的网页分块以及网页位置。

提取模块503，用于根据搜索模块502记录的网页位置，在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。

其中，所述上下文距离满足预设要求可以包括：

实施例四、

图6是本实施例提供的词条的获取装置示意图，如图6所示，该装置包括：

已有词条获取模块601，用于获取词条库中同一分类的已有词条集合。

搜索模块602，用于利用已有词条获取模块601获取的已有词条集合进行搜索，得到包含所述已有词条的锚文本，并记录所述已有词条的锚文本所在的网页位置。

提取模块603，用于根据搜索模块602记录的网页位置，在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。

上述模块601至603与实施例三中的501至503的配置对应相同，于此不再赘述。

已有词条过滤模块604，用于将所提取的锚文本与所述词条库进行对比，得到未收录的锚文本。

由于在某一个分类下提取到的锚文本可能属于其他分类，例如，图3中可以提取到“王菲”、“王麟”等人物。因而，将提取到的锚文本与整个词条库进行对比，去掉已存在于词条库中的锚文本，得到未收录的锚文本。如果未收录的锚文本属于人物或其他预设相关分类下的词条，也予以保留，供给后续词性过滤模块605和新词条识别模块606进一步进行处理。所述预设相关分类是指具有关联关系的分类，根据经验设定，例如，歌曲分类与人物、电影、娱乐等分类具有关联关系。

值得说明的是，在处理效率要求不高时，也可以不设置本模块，或者，也可以在新词条识别模块606中得到锚文本的权重或频度之后再利用本模块进行识别是否为未收录，以确定新词条。此时，词性过滤模块605和新词条识别模块606则是对所提取的锚文本执行。

词性过滤模块605，用于将未收录的锚文本中不包含指定词性的锚文本过滤掉。

对于已有词条过滤模块604得到的锚文本，通过分词、词性标注技术过滤掉不包含指定词性的锚文本，例如过滤掉不包含动词、名词、形容词等的锚文本。

当然，本模块也并非为必要的模块。

新词条识别模块606，用于根据与所述已有词条的锚文本之间的上下文距离计算所述未收录的锚文本的权重，统计所述未收录的锚文本在当前分类中出现的频度，将频度或权重满足预设要求的锚文本识别为新词条。

统计词性过滤模块605过滤后剩余的锚文本在当前分类中出现的频度，即出现次数，并计算词性过滤模块605过滤后剩余的锚文本的权重，具体地，根据与所述已有词条的锚文本之间的上下文距离计算锚文本的权重，包括：

距离确定单元，用于在同一网页分块中，确定所述未收录的锚文本与已有词条的锚文本的上下文距离。

具体地，距离确定单元先确定所述未收录的锚文本所在的网页分块中包含的已有词条的锚文本。再计算所述未收录的锚文本与获取的各个已有词条的锚文本之间的距离。

最后，距离确定单元选取距离的最小值作为与已有词条的上下文距离。

权重计算单元，用于利用距离确定单元确定的上下文距离，计算在对应的网页分块中所述未收录的锚文本的权重。

权重计算单元利用未收录的锚文本与已有词条的上下文距离，计算该未收录的锚文本在各个网页分块中的权重，上下文距离越近，权重越大。

权重计算公式可以但不限于采用公式1进行计算。

\cos t = \sqrt{\frac{1}{6}} = 0.408 .

加权单元，用于在整个当前分类下，将提取到的各个网页分块中计算得到的所述未收录的锚文本的权重进行求和，得到未收录的锚文本的权重。

在整个当前分类下，将权重计算单元计算得到的在各个分块中的未收录锚文本的权重进行加权求和，作为所述未收录锚文本的权重。

例如：将权重计算单元计算得到各个网页分块中“伤不起”的权重求和得到“伤不起”的权重为295.4，判断是否大于预设权重阈值。

新词条识别模块606统计得到“伤不起”在歌曲分类中出现了1442次，判断是否大于预设频次阈值。

判断模块607，用于判断是否获取完词条库中的所有分类，如果是，则进入结果输出模块608，输出新词条的识别结果，否则，返回至已有词条获取模块601，获取词条库中下一个分类的已有词条集合，直至取完所有分类，输出结果。

本发明提供的词条的获取方法和装置，用已有词库挖掘实体词条，提供尚未创建的新词条，可指导用户创建新词条对应的知识，解决百科数据库中实体词条收录不足的问题，有利于完善结构化的数据资料(实体词条-属性名-属性值)，便于实现更有效的知识搜索。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种词条的获取方法，其特征在于，包括：

S1、获取词条库中同一分类的已有词条集合；

2.根据权利要求1所述的方法，其特征在于，在所述步骤S3之后，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述锚文本所在的网页位置，包括：

4.根据权利要求3所述的方法，其特征在于，所述上下文距离满足预设要求包括：

5.根据权利要求4所述的方法，其特征在于，所述上下文距离满足要求，还包括：

6.根据权利要求3所述的方法，其特征在于，所述根据与所述已有词条的锚文本之间的上下文距离计算所提取的锚文本的权重，具体包括：

7.根据权利要求6所述的方法，其特征在于，所述在同一网页分块中确定所提取的锚文本与已有词条的锚文本的上下文距离，具体包括：

选取距离的最小值作为与已有词条的上下文距离。

8.根据权利要求6所述的方法，其特征在于，在所述步骤S3之后，还包括：

仅对所述未收录的锚文本执行所述步骤S4。

9.根据权利要求2所述的方法，其特征在于，在所述步骤S3之后，还包括：

将所提取的锚文本中不包含指定词性的锚文本过滤掉；

仅对过滤后剩余的锚文本执行所述步骤S4。

10.一种词条的获取装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，该装置还包括：

12.根据权利要求10或11所述的装置，其特征在于，所述锚文本所在的网页位置，包括：

13.根据权利要求12所述的装置，其特征在于，所述上下文距离满足预设要求包括：

14.根据权利要求13所述的装置，其特征在于，所述上下文距离满足要求，还包括：

15.根据权利要求12所述的装置，其特征在于，所述新词条识别模块，包括：

16.根据权利要求15所述的装置，其特征在于，所述距离确定单元，具体配置为：

选取距离的最小值作为与已有词条的上下文距离。

17.根据权利要求15所述的装置，其特征在于，该装置还包括：

并将所述未收录的锚文本提供给所述新词识别模块。

18.根据权利要求11所述的装置，其特征在于，该装置还包括：

并将过滤后剩余的锚文本提供给所述新词识别模块。