CN106294358A

CN106294358A - 一种信息的检索方法及***

Info

Publication number: CN106294358A
Application number: CN201510246802.5A
Authority: CN
Inventors: 吕超; 强闰伟; 姚丽丽; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2017-01-04

Abstract

本发明公开了一种信息的检索方法及***，该方法包括：接收用户的输入指令，根据指令中的第一检索关键词信息在预设网络资源中获取与第一检索关键词信息对应的多条文本信息；识别多条文本信息中的关键词信息，获取与关键词信息对应的关键词类别，并将关键词信息对应的关键词类别以多个文本框的形式展示给用户，以使用户根据多个文本框选择与所述输入指令相对应的关键词信息；根据用户选择的关键词信息和第一检索关键词信息生成第二检索关键词信息；根据第二检索关键词信息，在预设语料库中选取符合预设条件的文本信息展示给用户。该方法通过多用户的原始查询指令进行扩展，并对检索结果进行优化，提高了信息检索的准确度，同时也提高了检索效率。

Description

一种信息的检索方法及***

技术领域

本发明涉及信息检索技术领域，具体涉及一种信息的检索方法及***。

背景技术

随着计算机网络的不断兴起，社交媒体开始取代纸媒逐渐成为用户获取信息的综合性平台。其中的代表微博客(简称微博)是基于用户关系的轻量级社交信息传播平台，用户可以广播并分享关于他的活动及状态信息。每天，数以亿条的信息在微博上被发布和分享，***性的信息数据量带来了微博平台的信息检索需求，用户也逐渐习惯在微博上进行各种内容的搜索。

当用户在微博上进行检索时，其检索需求往往并不明确，例如，用户想了解歌星周杰伦近期相关的事件，由于不确定具体的检索需求，所以用户首次输入“周杰伦”作为查询的关键词，微博检索***返回与周杰伦话题相关的微博信息。用户通过阅读了解到周杰伦近期发生两大重要事件，其一是新专辑发布，其二是和昆凌结婚。针对不同的兴趣，用户可能输入相应的新查询词“周杰伦新专辑”或“周杰伦昆凌”来进一步了解具体事件细节。由上面的例子可以看出，用户在微博中进行检索时，查询词往往不是一步到位，他需要不断分析检索***返回的结果，根据自己的兴趣进行查询修改。显而易见，这种分析反馈的过程会浪费用户大量的宝贵时间。

发明内容

针对现有技术中的缺陷，本发明提供一种信息的检索方法及***，该方法通过对用户初次的查询结果进行优化查询，提高了信息检索的准确度，同时也提高了检索效率。

第一方面，本发明提供一种信息的检索方法，包括：

接收用户的输入指令，根据所述指令中的第一检索关键词信息在预设网络资源中获取与所述第一检索关键词信息对应的多条文本信息；

识别所述多条文本信息中的关键词信息，获取与所述关键词信息对应的关键词类别，并将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户，以使用户根据所述多个文本框选择与所述输入指令相对应的关键词信息；

根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息；

根据所述第二检索关键词信息，在预设语料库中选取符合预设条件的文本信息展示给用户。

可选的，所述识别所述多条文本信息中的关键词信息，获取与所述关键词信息对应的关键词类别，包括：

通过实体识别方法，识别所述多条文本信息中的关键词信息，根据所述关键词信息获取与所述关键词信息对应的关键词类别。

可选的，所述预设语料库为建立索引后的语料库。

可选的，所述根据所述第二检索关键词信息，在预设的语料库中选取符合预设条件的文本信息展示给用户，包括：

根据所述第二检索关键词信息，遍历所述预设语料库，获取与所述第二检索关键词信息相对应的N条文本信息；

获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度；

根据所述第一文本相似度对所述N条文本信息进行排序；

在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息；

通过星型聚类算法，对所述预设数量的文本信息划分聚类，并将每一类中第一文本相似度最大的文本信息展示给用户；

其中，N为大于等于1的正整数。

可选的，所述通过星型聚类算法，对所述预设数量的文本信息划分聚类，包括：

获取预设数量的文本信息中的任意两条文本信息的第二文本相似度；

根据所述第二文本相似度，对所述预设数量的文本信息划分聚类。

第二方面，本发明还提供了一种信息的检索***，包括：

接收模块，用于接收用户的输入指令；

获取模块，用于识别所述多条文本信息中的关键词信息，获取与所述关键词信息对应的关键词类别；

第一展示模块，用于将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户；

生成模块，用于根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息；

第二展示模块，用于根据所述第二检索关键词信息，在预设语料库中选取符合预设条件的文本信息展示给用户。

可选的，所述获取模块，具体用于：

可选的，所述预设语料库为建立索引后的语料库。

可选的，所述第二展示模块，具体用于：

根据所述第一文本相似度对所述N条文本信息进行排序；

其中，N为大于等于1的正整数。

可选的，所述第二展示模块，还用于：

根据所述第二文本相似度，对所述预设数量的文本信息划分聚类。。

由上述技术方案可知，本发明提供的一种信息的检索方法及***，该方法通过查询与用户输入的指令相关的多条文本信息，然后对多条文本信息划分信息类别，再向用户展示这些信息类别，最后根据用户选择的信息类别对应的关键词以及初始的查询指令重新生成检索关键词信息，并通过重新生成的关键词在预设语料库中选取符合预设条件的文本信息展示给用户，该方法通过多用户的原始查询指令进行扩展，并对检索结果进行优化，提高了信息检索的准确度，同时也提高了检索效率。

附图说明

图1为本发明一实施例提供的信息的检索方法的流程示意图；

图2为本发明一实施例提供的信息的检索***的结构示意图；

图3为本发明另一实施例提供的信息的检索***的结构示意图；

图4为本发明一实施例提供的多来源实体识别模块的结构示意图；

图5为本发明一实施例提供的实时微博检索模块的结构示意图；

图6为本发明一实施例提供的微博检索结果过滤模块的结构示意图。

具体实施方式

下面结合附图，对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本发明实施例提供的信息的检索方法的流程示意图，如图1所示，该方法包括如下步骤：

101、接收用户的输入指令，根据所述指令中的第一检索关键词信息在预设网络资源中获取与所述第一检索关键词信息对应的多条文本信息；

举例来说，上述预设网络资源可以为包括新闻规范和简洁的谷歌新闻；流行的社交平台，例如Twitter；数据库，例如Freebase；或者是一些预先在谷歌新闻等网站上训练好的词向量等。

102、识别所述多条文本信息中的关键词信息，获取与所述关键词信息对应的关键词类别，并将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户，以使用户根据所述多个文本框选择与所述输入指令相对应的关键词信息；

上述关键词类别包括人物、地点、组织机构等类别，对应的文本框展示给用户时也包括上述类别。

举例来说，用户输入的是周杰伦，而通过上述网络资源查询到的文本信息包括：“周杰伦昆凌”“周杰伦鸟巢”“周杰伦演唱会”“周杰伦新专辑”，则根据上述文本信息可以将上述信息的类别比如人物“周杰伦昆凌”，地点“周杰伦鸟巢”，组织机构“周杰伦演唱会”“周杰伦新专辑”，当用户感兴趣的是人物的信息时，用户会在相对应的文本框中选择“周杰伦昆凌”。

103、根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息；

根据步骤102中举例的内容，当用户选择人物的关键词类别时，则第二检索关键词信息会包括“周杰伦昆凌”。

104、根据所述第二检索关键词信息，在预设语料库中选取符合预设条件的文本信息展示给用户。

具体的，所述预设语料库为建立索引后的语料库。

上述方法通过查询与用户输入的指令相关的多条文本信息，获取与所述关键词信息对应的关键词类别，再向用户展示这些关键词类别，最后根据用户选择的关键词类别对应的关键词信息以及初始的查询指令重新生成检索关键词信息，并通过重新生成的关键词在预设语料库中选取符合预设条件的文本信息展示给用户，该方法通过多用户的原始查询指令进行扩展，并对检索结果进行优化，提高了信息检索的准确度，同时也提高了检索效率。

在具体应用中，上述步骤102具体包括：

上述步骤104具体包括图1中未示出的如下子步骤：

1041、根据所述第二检索关键词信息，遍历所述预设语料库，获取与所述第二检索关键词信息相对应的N条文本信息；

1042、获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度；

1043、根据所述第一文本相似度对所述N条文本信息进行排序；

1044、在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息；

1045、通过星型聚类算法，对所述预设数量的文本信息划分聚类，并将每一类中第一文本相似度最大的文本信息展示给用户；

其中，N为大于等于1的正整数。

具体的，上述步骤1045，具体包括以下步骤：

上述步骤1045主要是对预设数量的文本信息中防止出现重复的信息展示给用户，或者相似度比较高的信息展示给用户，因此将上述信息中类别相似度比较高的划分成一类，因此，上述预设数量的文本信息可以划分成多类，然后再在每一类中选取文本相似度最高的一条文本信息展示用户，实现了对预设数量的文本信息中的噪音信息和冗余信息的优化操作。

可理解的是，上述第一文本相似度代表查询-文档相似度，也即为查询的第二检索关键词信息与N条文本信息的相似度，第二文本相似度代表文档-文档相似度，也即为获取的预设数量的文本信息中，任意两个文本信息的相似度。

下面通过具体的例子对上述方法作进一步地描述：

假设用户的原始查询为“周杰伦”。以谷歌新闻举例，首先***返回和“周杰伦”相关的M条实时新闻，例如第一条新闻是“周杰伦和昆凌在英国完婚”，第二条新闻是“周杰伦发布新专辑《鞋子特大号》”。

获取到相关实体新闻后，使用命名实体识别技术进行实体识别，例如“周杰伦和昆凌在英国完婚”中的实体有“周杰伦”、“昆凌”和“英国”，“周杰伦发布新专辑《鞋子特大号》”中的实体有“周杰伦”、“新专辑”和“《鞋子特大号》”。

以图的形式向用户展示这些实体，同时还有各实体对应的新闻。假设用户对周杰伦新婚这个新闻比较感兴趣，他就可以选择“昆凌”这个实体进行更深入的探索。

新的查询结合了原始查询和用户选择的实体，即“周杰伦昆凌”。

在上述结合了原始查询和用户选择的实体之后，进行检索相关人物和相关微博。结合一个例子，相关人物和相关微博检索的步骤如下：

(1)关于相关人物检索，***会将新查询拆分成一个个实体，即“周杰伦昆凌”会被拆分成“周杰伦”和“昆凌”，再去微博用户群体中查找对应的人名，返回对应的微博账号。

(2)关于相关微博检索，***会对微博文档集合建立索引，之后遍历每一个微博文档，根据新查询和微博文档之间的文本相似度，即KL距离，对微博文档进行打分，最后按照打分高低对微博文档进行排序，返回得分较高的前N条微博。

(3)假设返回4条微博，如下：

a)“恭喜周杰伦和昆凌在英国结婚，开心！”

b)“开心，周杰伦和昆凌终于在英国结婚啦！”

c)“年幼时候的偶像周杰伦和昆凌结婚了，好伤心…”

d)“周杰伦和昆凌结婚了，对象不是我，伤心…”

然后对上述返回的4条微博中的冗余微博和噪音微博。结合一个例子，过滤的步骤如下：

1)首先计算返回的前N条微博两两之间的相似度。

2)其次根据相似度分数进行星聚类，根据聚类算法，a)和b)聚成一类，c)和d)聚成一类。

3)选出每类中检索得分较高的一条微博，其中第一类选出a)，第二类选出c)。

4)将a)和c)作为最终的相关微博并展示给用户。

图2示出了本发明实施例提供的一种信息的检索***的结构示意图，如图2所示，该***包括：

接收模块21，用于接收用户的输入指令；

获取模块22，用于识别所述多条文本信息中的关键词信息，获取与所述关键词信息对应的关键词类别；

第一展示模块23，用于将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户；

生成模块24，用于根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息；

第二展示模块25，用于根据所述第二检索关键词信息，在预设语料库中选取符合预设条件的文本信息展示给用户。所述预设语料库为建立索引后的语料库。

所述获取模块22，具体用于：

所述第二展示模块25，具体用于：

根据所述第一文本相似度对所述N条文本信息进行排序；

其中，N为大于等于1的正整数。

所述第二展示模块25，还用于：

在另一个可实现的方式中，如图3所示，上述***还可以分为以下三个模块：多来源实体识别模块31、实时微博检索模块32、微博检索结果过滤模块33。

多来源实体识别模块31，用于从网络多来源收集和用户原始查询相关描述性文本信息，并利用实体识别技术提取其中的实体。

实时微博检索模块32，用于通过结合用户原始查询和用户选取的实体信息在微博文档集中进行检索，返回与之相关的微博集合作为检索结果。

微博检索结果过滤模块33，用于去除检索结果中的噪音微博和冗余微博，主要用到文本聚类去噪技术。通过以上技术，可以建立一个鲁棒性较强、检索效果较好且具有用户个性化的微博检索***。

为达上述目的，本发明采取的技术方案是：

如图4所示，在多来源实体识别模块31中，提供一个获取相关实体的装置，该装置主要包括：

描述性文本获取模块311：本发明选取了4个网络资源作为的多来源实体库，分别描述如下：

谷歌新闻是我们的第一个选择，因为相对于简单的文字，新闻更加规范和简洁。我们使用谷歌新闻的搜索接口来获取与原始查询最相近的相关新闻作为描述性文本。

Twitter是一个流行的社交平台，用户可以轻松分享和讨论相关的信息。和处理谷歌新闻类似，我们使用Twitter的搜索接口获取与原始查询最相近的相关微博作为描述性文本。

Freebase是一个用于组织人类知识的实用元组型知识数据库。我们使用了Freebase中实体的简要摘要属性来获取和原始查询相关的简介信息作为描述性文本。

最近，分布式词向量表示引起了文本理解相关学术圈很大的关注。词向量可以把各类语义关系和语言规律模式嵌入新的向量空间。为此，可以预先下载在谷歌新闻数据集上训练好的词向量表示。该谷歌新闻训练集包括约10亿个词。接着计算了原始查询和其他词在词向量空间中的余弦相似度，选取了距离最相近的词作为原始查询的描述性文本。

实体抽取模块312：利用实体识别技术从相关描述性文本中提取出对应的实体信息；

新查询生成模块313：***以图的形式向用户展现相关的实体，同时提供各自对应的新闻内容，用户根据个人喜好，选择一个实体进行更深入的探索，被选择的实体词语会和用户原始查询进行合并，生成新的查询词。

如图5所示，在实时微博检索模块32中，提供一个微博文本实时检索装置321和一个微博人物实时检索装置322。

微博文本实时检索装置321包括：

微博文档建立索引模块：获取近期微博文档信息，进行文本预处理，并建立倒排索引；

微博文档打分模块：对于新查询生成模块中生成的新查询，该打分模块需遍历索引并找出与查询相关的文档，利用经典的语言模型，计算新查询和微博文档的文本相似度，并以文本相似度对其进行打分；

微博文档检索模块：将这些文档按照文档得分进行排序，返回检索结果中的前预设数量条微博文档；

微博人物实时检索装置322包括：

微博人物建立索引模块：获取微博人物名称信息，进行文本预处理，并建立倒排索引；

微博人物检索模块：对于新查询生成模块中生成的新查询，将其拆分为原始查询和扩展实体。分别对原始查询和扩展实体进行人物检索，返回前预设数量条人物信息；

如图6所示，在微博检索结果过滤模块33中，提供一个微博检索结果过滤装置，该装置主要包括：

微博文本相似度打分模块331：为实时微博检索模块中返回的预设数量条相关微博两两进行比较，计算它们之间的文本相似度得分；

微博文本聚类模块332：根据微博文本之间的文本相似度得分，采用星聚类技术将其划分为不同类。

微博文本过滤模块333：对于聚类结果中的每一类，将得分最高的微博作为代表微博，过滤掉类中的其他微博，即噪音微博和冗余微博。

最后***返回这些代表微博和相关人物展示给用户。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种信息的检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述识别所述多条文本信息中的关键词信息，获取与所述关键词信息对应的关键词类别，包括：

3.根据权利要求1所述的方法，其特征在于，所述预设语料库为建立索引后的语料库。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二检索关键词信息，在预设的语料库中选取符合预设条件的文本信息展示给用户，包括：

根据所述第一文本相似度对所述N条文本信息进行排序；

其中，N为大于等于1的正整数。

5.根据权利要求4所述的方法，其特征在于，所述通过星型聚类算法，对所述预设数量的文本信息划分聚类，包括：

6.一种信息的检索***，其特征在于，包括：

接收模块，用于接收用户的输入指令；

7.根据权利要求6所述的***，其特征在于，所述获取模块，具体用于：

8.根据权利要求6所述的***，其特征在于，所述预设语料库为建立索引后的语料库。

9.根据权利要求8所述的***，其特征在于，所述第二展示模块，具体用于：

根据所述第一文本相似度对所述N条文本信息进行排序；

其中，N为大于等于1的正整数。

10.根据权利要求9所述的***，其特征在于，所述第二展示模块，还用于：