CN106294358A - 一种信息的检索方法及*** - Google Patents

一种信息的检索方法及*** Download PDF

Info

Publication number
CN106294358A
CN106294358A CN201510246802.5A CN201510246802A CN106294358A CN 106294358 A CN106294358 A CN 106294358A CN 201510246802 A CN201510246802 A CN 201510246802A CN 106294358 A CN106294358 A CN 106294358A
Authority
CN
China
Prior art keywords
text message
information
text
key word
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510246802.5A
Other languages
English (en)
Inventor
吕超
强闰伟
姚丽丽
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201510246802.5A priority Critical patent/CN106294358A/zh
Publication of CN106294358A publication Critical patent/CN106294358A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息的检索方法及***,该方法包括:接收用户的输入指令,根据指令中的第一检索关键词信息在预设网络资源中获取与第一检索关键词信息对应的多条文本信息;识别多条文本信息中的关键词信息,获取与关键词信息对应的关键词类别,并将关键词信息对应的关键词类别以多个文本框的形式展示给用户,以使用户根据多个文本框选择与所述输入指令相对应的关键词信息;根据用户选择的关键词信息和第一检索关键词信息生成第二检索关键词信息;根据第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。该方法通过多用户的原始查询指令进行扩展,并对检索结果进行优化,提高了信息检索的准确度,同时也提高了检索效率。

Description

一种信息的检索方法及***
技术领域
本发明涉及信息检索技术领域,具体涉及一种信息的检索方法及***。
背景技术
随着计算机网络的不断兴起,社交媒体开始取代纸媒逐渐成为用户获取信息的综合性平台。其中的代表微博客(简称微博)是基于用户关系的轻量级社交信息传播平台,用户可以广播并分享关于他的活动及状态信息。每天,数以亿条的信息在微博上被发布和分享,***性的信息数据量带来了微博平台的信息检索需求,用户也逐渐习惯在微博上进行各种内容的搜索。
当用户在微博上进行检索时,其检索需求往往并不明确,例如,用户想了解歌星周杰伦近期相关的事件,由于不确定具体的检索需求,所以用户首次输入“周杰伦”作为查询的关键词,微博检索***返回与周杰伦话题相关的微博信息。用户通过阅读了解到周杰伦近期发生两大重要事件,其一是新专辑发布,其二是和昆凌结婚。针对不同的兴趣,用户可能输入相应的新查询词“周杰伦新专辑”或“周杰伦昆凌”来进一步了解具体事件细节。由上面的例子可以看出,用户在微博中进行检索时,查询词往往不是一步到位,他需要不断分析检索***返回的结果,根据自己的兴趣进行查询修改。显而易见,这种分析反馈的过程会浪费用户大量的宝贵时间。
发明内容
针对现有技术中的缺陷,本发明提供一种信息的检索方法及***,该方法通过对用户初次的查询结果进行优化查询,提高了信息检索的准确度,同时也提高了检索效率。
第一方面,本发明提供一种信息的检索方法,包括:
接收用户的输入指令,根据所述指令中的第一检索关键词信息在预设网络资源中获取与所述第一检索关键词信息对应的多条文本信息;
识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别,并将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户,以使用户根据所述多个文本框选择与所述输入指令相对应的关键词信息;
根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息;
根据所述第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。
可选的,所述识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别,包括:
通过实体识别方法,识别所述多条文本信息中的关键词信息,根据所述关键词信息获取与所述关键词信息对应的关键词类别。
可选的,所述预设语料库为建立索引后的语料库。
可选的,所述根据所述第二检索关键词信息,在预设的语料库中选取符合预设条件的文本信息展示给用户,包括:
根据所述第二检索关键词信息,遍历所述预设语料库,获取与所述第二检索关键词信息相对应的N条文本信息;
获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度;
根据所述第一文本相似度对所述N条文本信息进行排序;
在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息;
通过星型聚类算法,对所述预设数量的文本信息划分聚类,并将每一类中第一文本相似度最大的文本信息展示给用户;
其中,N为大于等于1的正整数。
可选的,所述通过星型聚类算法,对所述预设数量的文本信息划分聚类,包括:
获取预设数量的文本信息中的任意两条文本信息的第二文本相似度;
根据所述第二文本相似度,对所述预设数量的文本信息划分聚类。
第二方面,本发明还提供了一种信息的检索***,包括:
接收模块,用于接收用户的输入指令;
获取模块,用于识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别;
第一展示模块,用于将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户;
生成模块,用于根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息;
第二展示模块,用于根据所述第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。
可选的,所述获取模块,具体用于:
通过实体识别方法,识别所述多条文本信息中的关键词信息,根据所述关键词信息获取与所述关键词信息对应的关键词类别。
可选的,所述预设语料库为建立索引后的语料库。
可选的,所述第二展示模块,具体用于:
根据所述第二检索关键词信息,遍历所述预设语料库,获取与所述第二检索关键词信息相对应的N条文本信息;
获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度;
根据所述第一文本相似度对所述N条文本信息进行排序;
在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息;
通过星型聚类算法,对所述预设数量的文本信息划分聚类,并将每一类中第一文本相似度最大的文本信息展示给用户;
其中,N为大于等于1的正整数。
可选的,所述第二展示模块,还用于:
获取预设数量的文本信息中的任意两条文本信息的第二文本相似度;
根据所述第二文本相似度,对所述预设数量的文本信息划分聚类。。
由上述技术方案可知,本发明提供的一种信息的检索方法及***,该方法通过查询与用户输入的指令相关的多条文本信息,然后对多条文本信息划分信息类别,再向用户展示这些信息类别,最后根据用户选择的信息类别对应的关键词以及初始的查询指令重新生成检索关键词信息,并通过重新生成的关键词在预设语料库中选取符合预设条件的文本信息展示给用户,该方法通过多用户的原始查询指令进行扩展,并对检索结果进行优化,提高了信息检索的准确度,同时也提高了检索效率。
附图说明
图1为本发明一实施例提供的信息的检索方法的流程示意图;
图2为本发明一实施例提供的信息的检索***的结构示意图;
图3为本发明另一实施例提供的信息的检索***的结构示意图;
图4为本发明一实施例提供的多来源实体识别模块的结构示意图;
图5为本发明一实施例提供的实时微博检索模块的结构示意图;
图6为本发明一实施例提供的微博检索结果过滤模块的结构示意图。
具体实施方式
下面结合附图,对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明实施例提供的信息的检索方法的流程示意图,如图1所示,该方法包括如下步骤:
101、接收用户的输入指令,根据所述指令中的第一检索关键词信息在预设网络资源中获取与所述第一检索关键词信息对应的多条文本信息;
举例来说,上述预设网络资源可以为包括新闻规范和简洁的谷歌新闻;流行的社交平台,例如Twitter;数据库,例如Freebase;或者是一些预先在谷歌新闻等网站上训练好的词向量等。
102、识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别,并将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户,以使用户根据所述多个文本框选择与所述输入指令相对应的关键词信息;
上述关键词类别包括人物、地点、组织机构等类别,对应的文本框展示给用户时也包括上述类别。
举例来说,用户输入的是周杰伦,而通过上述网络资源查询到的文本信息包括:“周杰伦昆凌”“周杰伦鸟巢”“周杰伦演唱会”“周杰伦新专辑”,则根据上述文本信息可以将上述信息的类别比如人物“周杰伦昆凌”,地点“周杰伦鸟巢”,组织机构“周杰伦演唱会”“周杰伦新专辑”,当用户感兴趣的是人物的信息时,用户会在相对应的文本框中选择“周杰伦昆凌”。
103、根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息;
根据步骤102中举例的内容,当用户选择人物的关键词类别时,则第二检索关键词信息会包括“周杰伦昆凌”。
104、根据所述第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。
具体的,所述预设语料库为建立索引后的语料库。
上述方法通过查询与用户输入的指令相关的多条文本信息,获取与所述关键词信息对应的关键词类别,再向用户展示这些关键词类别,最后根据用户选择的关键词类别对应的关键词信息以及初始的查询指令重新生成检索关键词信息,并通过重新生成的关键词在预设语料库中选取符合预设条件的文本信息展示给用户,该方法通过多用户的原始查询指令进行扩展,并对检索结果进行优化,提高了信息检索的准确度,同时也提高了检索效率。
在具体应用中,上述步骤102具体包括:
通过实体识别方法,识别所述多条文本信息中的关键词信息,根据所述关键词信息获取与所述关键词信息对应的关键词类别。
上述步骤104具体包括图1中未示出的如下子步骤:
1041、根据所述第二检索关键词信息,遍历所述预设语料库,获取与所述第二检索关键词信息相对应的N条文本信息;
1042、获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度;
1043、根据所述第一文本相似度对所述N条文本信息进行排序;
1044、在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息;
1045、通过星型聚类算法,对所述预设数量的文本信息划分聚类,并将每一类中第一文本相似度最大的文本信息展示给用户;
其中,N为大于等于1的正整数。
具体的,上述步骤1045,具体包括以下步骤:
获取预设数量的文本信息中的任意两条文本信息的第二文本相似度;
根据所述第二文本相似度,对所述预设数量的文本信息划分聚类。
上述步骤1045主要是对预设数量的文本信息中防止出现重复的信息展示给用户,或者相似度比较高的信息展示给用户,因此将上述信息中类别相似度比较高的划分成一类,因此,上述预设数量的文本信息可以划分成多类,然后再在每一类中选取文本相似度最高的一条文本信息展示用户,实现了对预设数量的文本信息中的噪音信息和冗余信息的优化操作。
可理解的是,上述第一文本相似度代表查询-文档相似度,也即为查询的第二检索关键词信息与N条文本信息的相似度,第二文本相似度代表文档-文档相似度,也即为获取的预设数量的文本信息中,任意两个文本信息的相似度。
下面通过具体的例子对上述方法作进一步地描述:
假设用户的原始查询为“周杰伦”。以谷歌新闻举例,首先***返回和“周杰伦”相关的M条实时新闻,例如第一条新闻是“周杰伦和昆凌在英国完婚”,第二条新闻是“周杰伦发布新专辑《鞋子特大号》”。
获取到相关实体新闻后,使用命名实体识别技术进行实体识别,例如“周杰伦和昆凌在英国完婚”中的实体有“周杰伦”、“昆凌”和“英国”,“周杰伦发布新专辑《鞋子特大号》”中的实体有“周杰伦”、“新专辑”和“《鞋子特大号》”。
以图的形式向用户展示这些实体,同时还有各实体对应的新闻。假设用户对周杰伦新婚这个新闻比较感兴趣,他就可以选择“昆凌”这个实体进行更深入的探索。
新的查询结合了原始查询和用户选择的实体,即“周杰伦昆凌”。
在上述结合了原始查询和用户选择的实体之后,进行检索相关人物和相关微博。结合一个例子,相关人物和相关微博检索的步骤如下:
(1)关于相关人物检索,***会将新查询拆分成一个个实体,即“周杰伦昆凌”会被拆分成“周杰伦”和“昆凌”,再去微博用户群体中查找对应的人名,返回对应的微博账号。
(2)关于相关微博检索,***会对微博文档集合建立索引,之后遍历每一个微博文档,根据新查询和微博文档之间的文本相似度,即KL距离,对微博文档进行打分,最后按照打分高低对微博文档进行排序,返回得分较高的前N条微博。
(3)假设返回4条微博,如下:
a)“恭喜周杰伦和昆凌在英国结婚,开心!”
b)“开心,周杰伦和昆凌终于在英国结婚啦!”
c)“年幼时候的偶像周杰伦和昆凌结婚了,好伤心…”
d)“周杰伦和昆凌结婚了,对象不是我,伤心…”
然后对上述返回的4条微博中的冗余微博和噪音微博。结合一个例子,过滤的步骤如下:
1)首先计算返回的前N条微博两两之间的相似度。
2)其次根据相似度分数进行星聚类,根据聚类算法,a)和b)聚成一类,c)和d)聚成一类。
3)选出每类中检索得分较高的一条微博,其中第一类选出a),第二类选出c)。
4)将a)和c)作为最终的相关微博并展示给用户。
图2示出了本发明实施例提供的一种信息的检索***的结构示意图,如图2所示,该***包括:
接收模块21,用于接收用户的输入指令;
获取模块22,用于识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别;
第一展示模块23,用于将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户;
生成模块24,用于根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息;
第二展示模块25,用于根据所述第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。所述预设语料库为建立索引后的语料库。
所述获取模块22,具体用于:
通过实体识别方法,识别所述多条文本信息中的关键词信息,根据所述关键词信息获取与所述关键词信息对应的关键词类别。
所述第二展示模块25,具体用于:
根据所述第二检索关键词信息,遍历所述预设语料库,获取与所述第二检索关键词信息相对应的N条文本信息;
获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度;
根据所述第一文本相似度对所述N条文本信息进行排序;
在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息;
通过星型聚类算法,对所述预设数量的文本信息划分聚类,并将每一类中第一文本相似度最大的文本信息展示给用户;
其中,N为大于等于1的正整数。
所述第二展示模块25,还用于:
获取预设数量的文本信息中的任意两条文本信息的第二文本相似度;
根据所述第二文本相似度,对所述预设数量的文本信息划分聚类。
在另一个可实现的方式中,如图3所示,上述***还可以分为以下三个模块:多来源实体识别模块31、实时微博检索模块32、微博检索结果过滤模块33。
多来源实体识别模块31,用于从网络多来源收集和用户原始查询相关描述性文本信息,并利用实体识别技术提取其中的实体。
实时微博检索模块32,用于通过结合用户原始查询和用户选取的实体信息在微博文档集中进行检索,返回与之相关的微博集合作为检索结果。
微博检索结果过滤模块33,用于去除检索结果中的噪音微博和冗余微博,主要用到文本聚类去噪技术。通过以上技术,可以建立一个鲁棒性较强、检索效果较好且具有用户个性化的微博检索***。
为达上述目的,本发明采取的技术方案是:
如图4所示,在多来源实体识别模块31中,提供一个获取相关实体的装置,该装置主要包括:
描述性文本获取模块311:本发明选取了4个网络资源作为的多来源实体库,分别描述如下:
谷歌新闻是我们的第一个选择,因为相对于简单的文字,新闻更加规范和简洁。我们使用谷歌新闻的搜索接口来获取与原始查询最相近的相关新闻作为描述性文本。
Twitter是一个流行的社交平台,用户可以轻松分享和讨论相关的信息。和处理谷歌新闻类似,我们使用Twitter的搜索接口获取与原始查询最相近的相关微博作为描述性文本。
Freebase是一个用于组织人类知识的实用元组型知识数据库。我们使用了Freebase中实体的简要摘要属性来获取和原始查询相关的简介信息作为描述性文本。
最近,分布式词向量表示引起了文本理解相关学术圈很大的关注。词向量可以把各类语义关系和语言规律模式嵌入新的向量空间。为此,可以预先下载在谷歌新闻数据集上训练好的词向量表示。该谷歌新闻训练集包括约10亿个词。接着计算了原始查询和其他词在词向量空间中的余弦相似度,选取了距离最相近的词作为原始查询的描述性文本。
实体抽取模块312:利用实体识别技术从相关描述性文本中提取出对应的实体信息;
新查询生成模块313:***以图的形式向用户展现相关的实体,同时提供各自对应的新闻内容,用户根据个人喜好,选择一个实体进行更深入的探索,被选择的实体词语会和用户原始查询进行合并,生成新的查询词。
如图5所示,在实时微博检索模块32中,提供一个微博文本实时检索装置321和一个微博人物实时检索装置322。
微博文本实时检索装置321包括:
微博文档建立索引模块:获取近期微博文档信息,进行文本预处理,并建立倒排索引;
微博文档打分模块:对于新查询生成模块中生成的新查询,该打分模块需遍历索引并找出与查询相关的文档,利用经典的语言模型,计算新查询和微博文档的文本相似度,并以文本相似度对其进行打分;
微博文档检索模块:将这些文档按照文档得分进行排序,返回检索结果中的前预设数量条微博文档;
微博人物实时检索装置322包括:
微博人物建立索引模块:获取微博人物名称信息,进行文本预处理,并建立倒排索引;
微博人物检索模块:对于新查询生成模块中生成的新查询,将其拆分为原始查询和扩展实体。分别对原始查询和扩展实体进行人物检索,返回前预设数量条人物信息;
如图6所示,在微博检索结果过滤模块33中,提供一个微博检索结果过滤装置,该装置主要包括:
微博文本相似度打分模块331:为实时微博检索模块中返回的预设数量条相关微博两两进行比较,计算它们之间的文本相似度得分;
微博文本聚类模块332:根据微博文本之间的文本相似度得分,采用星聚类技术将其划分为不同类。
微博文本过滤模块333:对于聚类结果中的每一类,将得分最高的微博作为代表微博,过滤掉类中的其他微博,即噪音微博和冗余微博。
最后***返回这些代表微博和相关人物展示给用户。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种信息的检索方法,其特征在于,包括:
接收用户的输入指令,根据所述指令中的第一检索关键词信息在预设网络资源中获取与所述第一检索关键词信息对应的多条文本信息;
识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别,并将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户,以使用户根据所述多个文本框选择与所述输入指令相对应的关键词信息;
根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息;
根据所述第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。
2.根据权利要求1所述的方法,其特征在于,所述识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别,包括:
通过实体识别方法,识别所述多条文本信息中的关键词信息,根据所述关键词信息获取与所述关键词信息对应的关键词类别。
3.根据权利要求1所述的方法,其特征在于,所述预设语料库为建立索引后的语料库。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二检索关键词信息,在预设的语料库中选取符合预设条件的文本信息展示给用户,包括:
根据所述第二检索关键词信息,遍历所述预设语料库,获取与所述第二检索关键词信息相对应的N条文本信息;
获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度;
根据所述第一文本相似度对所述N条文本信息进行排序;
在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息;
通过星型聚类算法,对所述预设数量的文本信息划分聚类,并将每一类中第一文本相似度最大的文本信息展示给用户;
其中,N为大于等于1的正整数。
5.根据权利要求4所述的方法,其特征在于,所述通过星型聚类算法,对所述预设数量的文本信息划分聚类,包括:
获取预设数量的文本信息中的任意两条文本信息的第二文本相似度;
根据所述第二文本相似度,对所述预设数量的文本信息划分聚类。
6.一种信息的检索***,其特征在于,包括:
接收模块,用于接收用户的输入指令;
获取模块,用于识别所述多条文本信息中的关键词信息,获取与所述关键词信息对应的关键词类别;
第一展示模块,用于将所述关键词信息对应的关键词类别以多个文本框的形式展示给用户;
生成模块,用于根据所述用户选择的关键词信息和所述第一检索关键词信息生成第二检索关键词信息;
第二展示模块,用于根据所述第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。
7.根据权利要求6所述的***,其特征在于,所述获取模块,具体用于:
通过实体识别方法,识别所述多条文本信息中的关键词信息,根据所述关键词信息获取与所述关键词信息对应的关键词类别。
8.根据权利要求6所述的***,其特征在于,所述预设语料库为建立索引后的语料库。
9.根据权利要求8所述的***,其特征在于,所述第二展示模块,具体用于:
根据所述第二检索关键词信息,遍历所述预设语料库,获取与所述第二检索关键词信息相对应的N条文本信息;
获取所述第二检索关键词信息与所述N条文本信息的第一文本相似度;
根据所述第一文本相似度对所述N条文本信息进行排序;
在排序后的所述N条文本信息中按照所述第一文本相似度从大到小的顺序选取预设数量的文本信息;
通过星型聚类算法,对所述预设数量的文本信息划分聚类,并将每一类中第一文本相似度最大的文本信息展示给用户;
其中,N为大于等于1的正整数。
10.根据权利要求9所述的***,其特征在于,所述第二展示模块,还用于:
获取预设数量的文本信息中的任意两条文本信息的第二文本相似度;
根据所述第二文本相似度,对所述预设数量的文本信息划分聚类。
CN201510246802.5A 2015-05-14 2015-05-14 一种信息的检索方法及*** Pending CN106294358A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510246802.5A CN106294358A (zh) 2015-05-14 2015-05-14 一种信息的检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510246802.5A CN106294358A (zh) 2015-05-14 2015-05-14 一种信息的检索方法及***

Publications (1)

Publication Number Publication Date
CN106294358A true CN106294358A (zh) 2017-01-04

Family

ID=57632188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510246802.5A Pending CN106294358A (zh) 2015-05-14 2015-05-14 一种信息的检索方法及***

Country Status (1)

Country Link
CN (1) CN106294358A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633074A (zh) * 2017-09-22 2018-01-26 咪咕文化科技有限公司 一种信息提取方法、装置及存储介质
CN108647355A (zh) * 2018-05-16 2018-10-12 平安普惠企业管理有限公司 测试用例的展示方法、装置、设备及存储介质
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及***
CN111309869A (zh) * 2020-02-28 2020-06-19 中国工商银行股份有限公司 实时文本流信息检索方法及***
CN112287148A (zh) * 2019-03-29 2021-01-29 艾思益信息应用技术股份公司 信息提供***
WO2021136009A1 (zh) * 2019-12-31 2021-07-08 阿里巴巴集团控股有限公司 搜索信息的处理方法、装置及电子设备
CN113111155A (zh) * 2020-01-10 2021-07-13 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060195438A1 (en) * 2005-02-25 2006-08-31 Sony Corporation Method and system for navigating and selecting media from large data sets
CN101324439A (zh) * 2008-07-29 2008-12-17 江苏华科导航科技有限公司 能对兴趣点进行检索的导航装置及其检索兴趣点的方法
CN101694666A (zh) * 2009-07-17 2010-04-14 刘二中 文件内容的特征词的输入和处理方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060195438A1 (en) * 2005-02-25 2006-08-31 Sony Corporation Method and system for navigating and selecting media from large data sets
CN101324439A (zh) * 2008-07-29 2008-12-17 江苏华科导航科技有限公司 能对兴趣点进行检索的导航装置及其检索兴趣点的方法
CN101694666A (zh) * 2009-07-17 2010-04-14 刘二中 文件内容的特征词的输入和处理方法
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633074A (zh) * 2017-09-22 2018-01-26 咪咕文化科技有限公司 一种信息提取方法、装置及存储介质
CN107633074B (zh) * 2017-09-22 2020-06-09 咪咕文化科技有限公司 一种信息提取方法、装置及存储介质
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及***
CN108647355A (zh) * 2018-05-16 2018-10-12 平安普惠企业管理有限公司 测试用例的展示方法、装置、设备及存储介质
CN112287148A (zh) * 2019-03-29 2021-01-29 艾思益信息应用技术股份公司 信息提供***
WO2021136009A1 (zh) * 2019-12-31 2021-07-08 阿里巴巴集团控股有限公司 搜索信息的处理方法、装置及电子设备
CN113111155A (zh) * 2020-01-10 2021-07-13 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN113111155B (zh) * 2020-01-10 2024-04-19 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN111309869A (zh) * 2020-02-28 2020-06-19 中国工商银行股份有限公司 实时文本流信息检索方法及***
CN111309869B (zh) * 2020-02-28 2023-09-22 中国工商银行股份有限公司 实时文本流信息检索方法及***

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106294358A (zh) 一种信息的检索方法及***
CN103678576B (zh) 基于动态语义分析的全文检索***
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的***
US8554854B2 (en) Systems and methods for identifying terms relevant to web pages using social network messages
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US7987191B2 (en) System and method for generating a relationship network
CN103455487B (zh) 一种搜索词的提取方法及装置
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
CN101551806A (zh) 一种个性化网址导航的方法和***
CN102999625A (zh) 一种检索请求语义扩展方法
WO2008058218A2 (en) Matching and recommending relevant videos and media to individual search engine results
CN102662965A (zh) 一种自动发现互联网热点新闻主题的方法及***
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN108021715B (zh) 基于语义结构特征分析的异构标签融合***
CN102163228A (zh) 用于确定资源候选项的排序结果的方法、装置及设备
CN103744887A (zh) 一种用于人物搜索的方法、装置和计算机设备
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
Agirre et al. Matching Cultural Heritage items to Wikipedia.
CN103678710A (zh) 一种基于用户行为的信息推荐方法
CN103226601B (zh) 一种图片搜索的方法和装置
JP6130270B2 (ja) メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication