CN108804532B - 一种查询意图的挖掘和查询意图的识别方法、装置 - Google Patents

一种查询意图的挖掘和查询意图的识别方法、装置 Download PDF

Info

Publication number
CN108804532B
CN108804532B CN201810416613.1A CN201810416613A CN108804532B CN 108804532 B CN108804532 B CN 108804532B CN 201810416613 A CN201810416613 A CN 201810416613A CN 108804532 B CN108804532 B CN 108804532B
Authority
CN
China
Prior art keywords
intention
class
determining
url
distribution probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810416613.1A
Other languages
English (en)
Other versions
CN108804532A (zh
Inventor
谢润泉
连凤宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810416613.1A priority Critical patent/CN108804532B/zh
Publication of CN108804532A publication Critical patent/CN108804532A/zh
Application granted granted Critical
Publication of CN108804532B publication Critical patent/CN108804532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种查询意图的挖掘和查询意图的识别方法、装置,属于通信技术领域,该方法包括,提取待查询的查询信息中的各个关键词,获得多个关键词集合,基于预先获取的各个关键词集合与每一个大类意图之间的分布概率,计算查询信息在每一个大类意图中的分布概率,进而确定目标大类意图,以及基于目标大类意图中各关键词的意图类型,进一步确定查询信息的子意图,这样,提高了查询意图识别的效率和准确性,扩展了查询信息的查询范围,增加了查询信息的查询结果的多样性。

Description

一种查询意图的挖掘和查询意图的识别方法、装置
技术领域
本申请涉及通信技术领域,尤其涉及一种查询意图的挖掘和查询意图的识别方法、装置。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,在根据用户输入的查询信息进行搜索时,可以通过分词的方式从查询信息中提取关键词后,采用关键词匹配的方式返回搜索结果,但是,由于从查询信息中提取的关键词可能存在多种歧义,因此,获得的搜索结果可能与用户的查询意图相差甚远。
为对用户的查询意图进行识别,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。现有技术中,通常采用将查询信息与挖掘的查询意图模板进行匹配的方式来确定用户查询意图,上述方法中,一方面,查询意图模板的挖掘需要的时间较长,另一方面,挖掘得到的查询意图模板也无法覆盖所有用户查询意图,导致模板覆盖率较低,因此,如何提高用户的查询意图识别效率和准确度,是一个值得考虑的问题。
发明内容
本申请实施例提供一种查询意图的挖掘和查询意图的识别方法、装置,用以在对用户的查询意图进行挖掘以及识别时,提高查询意图挖掘和识别的效率和准确度。
第一方面,一种查询意图的挖掘方法,包括:
针对任一关键词集合,获取该关键词对应的意图挖掘信息;
基于意图挖掘信息与大类意图之间的关联关系,分别确定各意图挖掘信息对应的大类意图,其中,大类意图是按照话题分类获得的查询的意图;
基于各意图挖掘信息对应的大类意图,分别确定关键词集合在每一个大类意图中的分布概率,并根据各分布概率确定关键词集合的查询意图。
较佳的,意图挖掘信息中包括以下至少一项:URL、URL标题、URL点击数据和意图补充信息,其中,URL和URL标题为利用关键词集合进行搜索得到的搜索结果中获得的,URL点击数据为针对URL根据点击日志数据确定出的。
较佳的,基于各意图挖掘信息对应的大类意图,分别确定关键词集合在每一个大类意图中的分布概率,具体包括:
针对各意图挖掘信息对应的每一个大类意图,基于对应该大类意图的URL 和URL标题,确定关键词集合与该大类意图之间的URL分布概率;
根据对应该大类意图的各URL点击数据,确定关键词集合在该大类意图中的点击分布概率;
根据对应该大类意图的各意图补充信息,确定关键词集合在该大类意图中的意图补充信息分布概率;
基于关键词集合在该大类意图中的URL分布概率、点击分布概率和意图补充信息分布概率,确定关键词集合在该大类意图中的分布概率。
较佳的,基于对应该大类意图的URL和URL标题,确定关键词集合与该大类意图之间的URL分布概率,包括:
基于对应该大类意图的各个URL,确定关键词集合与该大类意图之间的 URL匹配度;
基于对应该大类意图的各个URL标题,确定关键词集合与该大类意图之间的标题匹配度;
基于关键词集合与该大类意图之间的URL匹配度和标题匹配度,确定关键词集合与该大类意图之间的URL分布概率。
较佳的,基于对应该大类意图的各个URL,确定关键词集合与该大类意图之间的URL匹配度,包括:
获取对应该大类意图的每一个URL在搜索结果中的URL位置排序;
基于URL位置排序与匹配衰减指数之间的关联关系,分别确定每一个 URL位置排序对应的匹配衰减指数;
确定对应该大类意图的每一个URL的匹配衰减指数的加和为关键词集合与该大类意图之间的URL匹配度。
较佳的,基于对应该大类意图的各个URL标题,确定关键词集合与该大类意图之间的标题匹配度,包括:
针对该大类意图对应的每一个URL标题,分别确定每一URL标题与该大类意图包含的每一个词向量之间的余弦相似度,并将各个余弦相似度中的最大值,作为该URL标题与该大类意图之间的语义相似度;
获取各URL标题在搜索结果中的标题位置排序,并基于标题位置排序与匹配衰减指数之间的关联关系,分别确定每一个标题位置排序对应的匹配衰减指数;
分别确定该大类意图对应的每一个URL标题与该大类意图之间的语义相似性与相应的匹配衰减指数之间的匹配乘积;
确定各个匹配乘积的加和为关键词集合与该大类意图之间的标题匹配度。
第二方面,一种查询意图的识别方法,包括:
基于从接收的查询信息中提取的各个关键词得到各个关键词集合,并获取采用权利要求第一方面的方法获得的每一个关键词集合与每一个大类意图之间的分布概率;
针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定查询信息在该大类意图中的分布概率;
基于查询信息在各大类意图中的分布概率,确定查询信息对应的目标大类意图;
根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定查询信息的子意图,意图类型是将大类意图按照资源需求划分后获得的。
较佳的,根据各关键词集合在该大类意图中的分布概率,确定查询信息在该大类意图中的分布概率,具体包括:
针对每一个大类意图,根据各关键词集合在该大类意图中的分布概率与相应权重的加和,确定查询信息与该大类意图之间的查询匹配度;
获取各个关键词集合在该大类意图中的最大分布概率;
基于最大分布概率以及查询信息与每一个大类意图之间的查询匹配度,确定查询信息在该大类意图下的分布概率。
较佳的,根据确定的目标大类意图,确定各关键词的意图类型,具体包括:
针对每一个关键词,基于目标大类意图包含的各个意图类型与关键词之间的关联关系,确定该关键词对应的意图类型;
确定意图类型的数量为多个时,基于获取的该关键词在每一个意图类型下的资源分布概率和用户点击数据,确定该关键词在各意图类型下的关键词分布概率,并确定关键词分布概率最高的意图类型为该关键词的意图类型,其中,关键词分布概率表征基于关键词返回的搜索结果在各意图类型下的资源分布。
较佳的,意图类型包含主体类型和需求类型;以及
基于每一个关键词的意图类型,确定查询信息的子意图,具体包括:
基于各关键词与意图类型之间的关联关系,确定各个关键词中对应主体类型的关键词为主体词,对应需求类型的关键词为需求词;
基于意图类型与关联词之间的关联关系,获取主体词的意图类型对应的关联词;以及
基于需求词与关联词之间的关联关系,获取需求词对应的关联词;
确定需求词与获取的各关联词的任意组合为查询信息的子意图。
较佳的,在基于每一个关键词的意图类型,确定查询信息的子意图之后,进一步包括:
分别基于主体词与每一个子意图的组合,对查询信息进行搜索,获得搜索结果。
第三方面,一种查询意图的挖掘装置,包括:
搜索单元,用于针对任一关键词集合,获取该关键词对应的意图挖掘信息;
第一确定单元,用于基于意图挖掘信息与大类意图之间的关联关系,分别确定各意图挖掘信息对应的大类意图,其中,大类意图是按照话题分类获得的查询的意图;
第二确定单元,用于基于各意图挖掘信息对应的大类意图,分别确定关键词集合在每一个大类意图中的分布概率。
第四方面,一种查询意图的识别装置,包括:
获取单元,用于基于从接收的查询信息中提取的各个关键词得到各个关键词集合,并获取采用第三方面的装置获得的每一个关键词集合与每一个大类意图之间的分布概率;
第一确定单元,用于针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定查询信息在该大类意图中的分布概率;
第二确定单元,用于基于查询信息在各大类意图中的分布概率,确定查询信息对应的目标大类意图;
第三确定单元,用于根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定查询信息的子意图,意图类型是将大类意图按照资源需求划分后获得的。
第五方面,提供一种终端设备,包括至少一个处理单元、以及至少一个存储单元,其中,存储单元存储有计算机程序,当程序被处理单元执行时,使得处理单元执行上述任一一种查询意图的挖掘和查询意图的识别方法的步骤。
第六方面,提供一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当程序在终端设备上运行时,使得终端设备执行上述任一一种查询意图的挖掘和查询意图的识别方法的步骤。
本申请实施例提供的一种查询意图的挖掘和查询意图的识别方法、装置中,基于从接收的查询信息中提取的各个关键词得到各个关键词集合,针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定查询信息在该大类意图中的分布概率;基于查询信息在各大类意图中的分布概率,确定查询信息对应的目标大类意图;根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定查询信息的子意图,意图类型是将大类意图按照资源需求划分后获得的。这样,采用预先确定的关键词集合与大类意图之间的分布概率,确定查询信息在各大类意图中的分布概率,进而确定目标大类意图和子意图,提高了查询意图识别的效率和准确性,扩展了查询信息的查询范围,提高了后续搜索结果的多样性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为根据本发明实施方式的应用场景示意图;
图2a为本申请实施方式中一种查询意图的挖掘方法***的示意图;
图2b为本申请实施方式中搜索结果示意图;
图3a为本申请实施方式中一种查询意图的识别方法的实施流程图;
图3b为本申请实施方式中查询信息的分布概率图;
图3c为本申请实施方式中意图类型的示意图;
图3d为本申请实施方式中查询信息扩展的语法结构示意图一;
图3e为本申请实施方式中查询信息扩展的语法结构示意图二;
图3f为本申请实施方式中查询意图的识别方法的架构示意图;
图4为本申请实施方式中一种查询意图的挖掘装置的结构示意图;
图5为本申请实施方式中一种查询意图的识别装置的结构示意图;
图6为本申请实施方式中终端设备结构示意图。
具体实施方式
为了提高用户查询意图识别的效率和准确度,本申请实施例提供了一种查询意图的挖掘和查询意图的识别方法、装置。
首先,对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
1、终端设备:可以安装各类应用程序,并且能够将已安装的应用程序中提供的对象进行显示的设备,该电子设备可以是移动的,也可以是固定的,。例如,手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)或其它能够实现上述功能的电子设备等。
2、大类意图:为将用户的查询的意图按照话题进行分类后获得的。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,在根据用户输入的查询信息进行搜索时,通常先通过分词提取的方式,从查询信息中提取关键词,并采用关键词匹配的方式返回(Uniform Resource Locator,URL)标题,即文档标题。但是,由于查询信息通常较短,并且从查询信息中提取的关键词可能存在较多的歧义,因此,获得的搜索结果可能与用户真正的查询意图相差甚远。
例如,用户输入的查询信息为“乡村爱情10”,返回的URL标题为“第 10讲:如何看待爱情里的一方来自农村”,显然,返回的搜索结果仅与查询信息包含的各个关键词相匹配,但与用户查询的真正意图并不相关。
有鉴于此,本申请实施例提供了一种查询意图的挖掘和查询意图的识别方案,基于从接收的查询信息中提取的各个关键词得到各个关键词集合,针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定所述查询信息在该大类意图中的分布概率;基于所述查询信息在各大类意图中的分布概率,确定所述查询信息对应的目标大类意图;根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定所述查询信息的子意图,所述意图类型是将大类意图按照资源需求划分后获得的。
本申请实施例提供的一种查询意图的挖掘和查询意图的识别方法,可应用于终端设备中,该终端设备可以为手机、平板电脑、PDA(Personal Digital Assistant,掌上电脑)等。
为了提高用户查询意图识别的效率和准确度,本发明实施例给出了解决方案,参考图1所示的应用场景示意图,用户设备11上安装有设置有搜索功能的客户端,然后用户10通过用户设备11中安装的客户端向服务器12发送查询请求,服务器12在接收到查询请求后,基于从接收的查询信息中提取的各个关键词得到各个关键词集合,针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定所述查询信息在该大类意图中的分布概率;基于所述查询信息在各大类意图中的分布概率,确定所述查询信息对应的目标大类意图;根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定所述查询信息的子意图,所述意图类型是将大类意图按照资源需求划分后获得的。这样,提高了用户查询意图识别的效率和准确度。
需要说明的是,用户设备11与服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。用户设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),服务器 12可以为任何能够提供互联网服务的设备,用户设备11中的客户端可以为具有搜索功能的客户端,可以为微信和QQ浏览器等等。
需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
参阅图2a所示,为本申请提供的一种查询意图的挖掘方法的实施流程图。该方法的具体实施流程如下:
步骤200:服务器针对任一关键词集合,获取该关键词对应的意图挖掘信息。
具体的,意图挖掘信息中包括以下至少一项:统一资源定位符(Uniform ResourceLocator,URL)、URL标题、URL点击数据和意图补充信息。
其中,意图补充信息为通过关键词获取的各实体资源,即预先针对各大类意图设置的实体资源,这是由于URL和URL标题的覆盖率不全,因此,针对每个意图类预先设置一些实体资源以增加覆盖率。例如,实体资源为购物意图类中的商品名,品牌名等,音乐意图类中的歌手,歌曲,专辑等。
其中,获取意图挖掘信息时,可以采用以下几种方式中的任意一种或任意组合:
第一种方式为:服务器通过搜索引擎(如,百度和微信)对待挖掘的关键词集合进行搜索,获得基于该关键词返回的包含URL和URL标题的各意图挖掘信息。其中,在基于关键词集合进行搜索时,各个关键词之间不需要紧邻出现。
例如,参阅图2b所示,为一种搜索结果示意图,为对关键词集合{***,取现}进行百度搜索后获得的搜索结果,包括各URL和URL标题。
第二种方式为:服务器根据点击日志数据对关键词集合进行日志搜索,获取各个URL的URL点击数据。
第三种方式为:服务器在预先设置的针对实体资源(如,商品名,歌手,歌曲等)设置的意图补充信息的集合中,对关键词集合进行意图补充信息搜索。
步骤201:服务器基于意图挖掘信息与大类意图之间的关联关系,分别确定各意图挖掘信息对应的大类意图。
具体的,在对查询意图进行挖掘之前,服务器预先根据话题对用户查询的意图进行分类,获得各个大类意图,并建立大类意图与意图挖掘信息之间的关联关系。
其中,该关联关系包括URL与大类意图之间的关联关系,URL标题与大类意图之间的关联关系,URL点击数据与大类意图之间的关联关系,意图补充信息与大类意图之间的关联关系。
可选的,大类意图可以分为:旅游,游戏,体育,音乐,视频,软件,文学,美食,医疗,财经,汽车,房产,动漫,教育,科技,军事,购物,鸡汤文,娱乐,母婴,时尚,公众号,常用查询(天气,物流等),人物,资讯,图片,问答,百科(经验,知识)。
这样,就可以基于各意图挖掘信息,确定各个意图挖掘信息分别对应的大类意图。
步骤202:服务器基于各意图挖掘信息对应的大类意图,确定关键词集合分别与每一个大类意图的URL分布概率。
具体的,服务器针对每一个大类意图,执行以下步骤:
基于各个URL对应的大类意图,确定关键词集合与一个大类意图之间的 URL匹配度,并基于各个URL标题对应的大类意图,确定关键词集合与该大类意图之间的标题匹配度,以及基于该关键词集合与该大类意图之间的URL 匹配度和标题匹配度,确定该关键词集合与该大类意图之间的URL分布概率。其中,分布概率与URL匹配度和标题匹配度均呈正相关。
具体的,确定关键词集合与该大类意图之间的URL匹配度时,可以执行以下步骤:
获取对应该大类意图的每一个URL在所述搜索结果中的URL位置排序,并基于URL位置排序与匹配衰减指数之间的关联关系,分别确定每一个URL 位置排序对应的匹配衰减指数,以及计算确定出的各个URL的匹配衰减指数的加和,作为该关键词集合与该大类意图之间的URL匹配度。
可选的,计算URL匹配度时,可以采用以下公式:
Figure BDA0001649551370000111
其中,urlmatch为URL匹配度,urli为基于关键词集合获取的第i个URL, c为大类意图,m为关键词集合对应的URL的总数,indicator(urli,c)为0-1 函数,若urli对应的大类意图为c,为1,反之为0,pos(i)为与i呈负相关的位置惩罚函数,i和m均为正整数。
具体的,确定该关键词集合与该大类意图之间的标题匹配度时,可以执行以下步骤:
首先,分别针对该关键词集合的每一个URL标题,执行以下步骤:计算一个URL标题与该大类意图的每一个词向量之间的余弦相似度,并选取各个余弦相似度中的最大值,作为该URL标题与该大类意图之间的语义相似度。
然后,分别获取每一个URL标题在搜索结果中的标题位置排序,并基于标题位置排序与匹配衰减指数之间的关联关系,分别确定每一个标题位置排序对应的匹配衰减指数,以及基于每一个URL标题与一个大类意图之间的语义相似度,与相应的匹配衰减指数之间的匹配乘积的加和,获得该关键词集合与该大类意图之间的标题匹配度,其中,标题匹配度与该匹配乘积呈正相关。
可选的,计算标题匹配度时,可以采用以下公式:
Figure BDA0001649551370000112
其中,titlematch为标题匹配度,consine()为用于计算不同词向量之间的余弦相似度的函数,titlel_vector为基于关键词集合获取的第l个URL标题的标题向量,wordk_c_vector为大类意图c包含的第k个词向量,pos(l)为与l呈负相关的位置惩罚函数,n为URL标题的总数,y为针对大类意图设置的各个词向量的总数,k为词向量的序号,i、n和y均为正整数。
可选的,基于该关键词集合与该大类意图之间的URL匹配度和标题匹配度,确定该关键词集合与该大类意图之间的URL分布概率时,可以采用以下公式:
Figure BDA0001649551370000121
其中,Purl(c|j)为关键词集合j与大类意图c之间的URL分布概率,urlmatch为URL匹配度,titlematch为标题匹配度,jqv为预先针对关键词集合设置的搜索热度,为常数,w1和w2均为权重值。
步骤203:服务器根据对应该大类意图的各URL点击数据,确定关键词集合在该大类意图中的点击分布概率。
其中,点击分布概率是基于查询信息对应的URL点击数据在各个大类意图中的分布确定的。
步骤204:服务器根据对应该大类意图的各意图补充信息,确定关键词集合在该大类意图中的意图补充信息分布概率。
其中,意图补充信息分布概率是基于查询信息对应的各意图补充信息在各大类意图中的分布确定的。
这样,可以通过用户的URL点击数据,确定用户的喜好,通过意图补充信息,提高搜索的覆盖率。
步骤205:服务器基于关键词集合在该大类意图中的URL分布概率、点击分布概率和意图补充信息分布概率,确定关键词集合在该大类意图中的分布概率。
具体的,服务器基于确定出的点击分布概率和意图补充信息分布概率,针对每一个大类意图,执行以下步骤:
计算该大类意图下的点击分布概率,意图补充信息分布概率以及确定出的分布概率与相应的权重值的乘积的加和,确定关键词集合在该大类意图中的分布概率。
可选的,计算调整后的分布概率时,可以采用以下公式:
P(c|j)=Pd(c|j)wd+pn(c|j)wn+Purl(c|j)wurl
其中,P(c|j)为关键词集合在该大类意图中的分布概率,Pd为点击分布概率, pn为意图补充信息分布概率,Purl(c|j)为URL分布概率,j为关键词集合,c为大类意图,wd、wn和wurl为权重值。
本申请实施例中,仅以确定一个关键词集合与一个大类意图之间的分布概率为例进行说明,基于相同的原理,可以确定各个关键词集合分别与每一个大类意图的分布概率。在此不再赘述。
步骤206:服务器基于关键词集合在各大类意图中的分布概率,确定关键词集合的查询意图。
通过各分布概率,可以确定关键词集合分别在各大类意图中的分布状况,从而确定相应的查询意图。
这样,建立了各个关键词集合与各个大类意图之间的分布概率的数据库,从而可以在后续的过程中,基于各分布概率对查询信息的查询意图进行进一步识别。
参阅图3a所示,为本申请提供的一种查询意图的识别方法的实施流程图。该方法的具体实施流程如下:
步骤300:服务器基于从接收的查询信息中提取的各个关键词,获得各个关键词集合。
具体的,服务器对查询信息进行分词提取,获得若干关键词,并分别对获得的部分或全部关键词进行排列组合,获得多个关键词集合。其中,关键词集合为任意n个关键词的有序组合,n为整数,不大于一个查询信息的全部关键词的数量。
步骤301:针对每一个大类意图,服务器基于关键词集合与一个大类意图之间的分布概率,确定该查询信息与该大类意图之间的查询匹配度。
具体的,执行步骤301时,查询匹配度与关键词集合与一个大类意图之间的分布概率呈正相关。
可选的,计算查询信息与一个大类意图之间的查询匹配度时,可以采用以下公式:
Figure BDA0001649551370000141
其中,score(c|q)为查询信息与大类意图c之间的查询匹配度,q为查询信息的所有关键词集合,wj为关键词集合j的权重值,P(c|j)为关键词集合j与大类意图c之间的分布概率。
步骤302:服务器基于查询信息与每一个大类意图之间的查询匹配度,分别确定该查询信息在每一个大类意图中的分布概率。
具体的,执行步骤204时,可以采用以下公式:
Figure BDA0001649551370000142
其中,P(c|q)为查询信息q在大类意图c中的分布概率,score(c|q)为查询信息q与大类意图c之间的查询匹配度,b为大类意图的总数,x为大类意图的序号,p(c|j)为关键词集合j与大类意图c之间的分布概率,a为常数。
步骤303:服务器根据查询信息在各大类意图的分布概率,确定查询信息的目标大类意图。
具体的,服务器将选取分布概率最高的前t个大类意图,确定为目标大类意图,t为正整数。
参阅图3b所示,为查询信息的分布概率图。例如,查询信息:“大话西游之月光宝盒”在视频(video)中的分布概率为0.6,在百科(baike)中的分布概率为0.12,在娱乐(ent)中的分布概率为0.07,在动漫(dongman)中的分布概率为0.06。则分布概率最高的大类意图video为“大话西游之月光宝盒”的目标大类意图。基于相同的原理,可确定其它查询信息的分布概率和目标大类意图,在此不再赘述。
步骤304:服务器确定各关键词的意图类型。
具体的,服务器分别针对每一个关键词,每一个目标大类意图,执行以下步骤:
首先,服务器获取针对目标大类意图设置的各意图类型,确定关键词的意图类型。
其中,意图类型是将大类意图按照资源需求划分后获得的。
例如,参阅图3c所示,为各意图类型的示意图。可选的,视频意图中包含的意图类型可以为电影名、电视剧名、综艺名、演员、播放、人物、影评、票务、音乐、剧情、公众号、小视频以及视频需求等。
然后,服务器判断意图类型的数量是否为一个,若是,则确定该意图类型为该关键词的意图类型,否则,计算获取的该关键词在每一个意图类型下的资源分布概率和用户点击数据分别与相应权重乘积的集合,作为该关键词在各意图类型下的关键词分布概率,并将关键词分布概率最高的意图类型,确定为该关键词最后的意图类型。其中,关键词分布概率是表征基于关键词返回的搜索结果在各意图类型下的资源分布和用户喜好。
步骤305:服务器基于每一个关键词的意图类型,确定所述查询信息的子意图。
具体的,各意图类型还可划分为主体类型和需求类型。例如关键词集合“无问西东的影评”中,“无问西东”的意图类型既为电影名,也为主体类型,“影评”为需求类型。
服务器基于各关键词与意图类型之间的关联关系,确定各个关键词中对应主体类型的关键词为主体词,对应需求类型的关键词为需求词;基于意图类型与关联词之间的关联关系,获取主体词的意图类型对应的关联词;以及基于需求词与关联词之间的关联关系,获取需求词对应的关联词;确定需求词与获取的各关联词的任意组合为查询信息的子意图。
步骤306:服务器分别基于所述主体词与每一个子意图的组合,对所述查询信息进行搜索,获得搜索结果。
具体的,服务器将各子意图进行or组合后与主体词进行组合后进行搜索,获得搜索结果。
由于若将主体词与各子意图均进行and组合,过多的检索项,会增加检索压力,降低检索的效率,本申请实施例中,在现有的查询信息的语法树结构中增加or节点,将查询信息进行扩展,提高了检索的效率。
例如,参阅图3d所示,为查询信息扩展的语法结构示意图一。查询信息为“绣春刀哪里观看”,确定主体词“绣春刀”的意图类型为电影名,“观看”为需求词。获得电影名的关联词为“影评”,“剧照”和“导演”。
又例如,参阅图3e所示,为查询信息扩展的语法结构示意图二。查询信息为“战狼2精彩片段”,确定主体词“战狼2”的意图类型为电影名,“精彩片段”为需求词。获得电影名的关联词为“影评”,“剧照”和“导演”。
又例如,参阅图3e所示,为查询信息扩展的语法结构示意图二。查询信息为“朗读者综艺”,确定主体词“朗读者”的意图类型为综艺名,“综艺”为需求词。获得综艺名的关联词为“嘉宾”,“评价”和“观看”。
这样,就可以通过预先确定的关键词集合与大类意图之间的分布概率,快速的确定查询信息的目标大类意图,进而通过各关键词的意图类型,确定子意图,并通过子意图对查询信息进行拓展,增加了搜索结果的多样性。
进一步地,参阅表1所示,为查询意图识别的评测表。服务器分别采用微信和百度进行搜索,其中,top为按照热度选取查询信息,Random为通过随机获取的查询信息,显然,通过大类意图进行搜索的结果的精确度,低于通过扩展后确定的查询意图进行搜索的结果的精确度。
表1
搜索引擎 大类意图(top) 大类意图(Random) 意图扩展(top) 意图扩展(Random)
微信 84.3% 80.6% 88.2% 75.3%
百度 96.2% 95.5% 93.4% 84.1%
参阅图3f所示,为查询意图的识别方法的架构示意图。服务器预先根据各关键词集合与各大类意图之间的分布概率,点击分布概率以及意图补充信息分布概率,确定关键词集合在各大类意图中的分布概率。则在对查询信息进行查询意图的识别时,基于查询信息的各关键词集合,获取相应的分布概率,进而确定查询信息的目标分布概率,进而通过目标大类意图以及各关键词的意图类型,确定查询信息的子意图,最后,获得查询信息的查询结果。
基于同一发明构思,本申请实施例中还提供了一种查询意图的挖掘装置,由于上述装置及设备解决问题的原理与一种查询意图的挖掘方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,其为本申请实施例提供的一种查询意图的挖掘装置的结构示意图,包括:
搜索单元40,用于针对任一关键词集合,获取该关键词对应的意图挖掘信息;
第一确定单元41,用于基于意图挖掘信息与大类意图之间的关联关系,分别确定各意图挖掘信息对应的大类意图,其中,大类意图是按照话题分类获得的查询的意图;
第二确定单元42,用于基于各意图挖掘信息对应的大类意图,分别确定关键词集合在每一个大类意图中的分布概率。
较佳的,意图挖掘信息中包括以下至少一项:URL、URL标题、URL点击数据和意图补充信息,其中,URL和URL标题为利用关键词集合进行搜索得到的搜索结果中获得的,URL点击数据为针对URL根据点击日志数据确定出的。
较佳的,在基于各意图挖掘信息对应的大类意图,分别确定关键词集合在每一个大类意图中的分布概率时,第二确定单元42具体用于:
针对各意图挖掘信息对应的每一个大类意图,基于对应该大类意图的URL 和URL标题,确定关键词集合与该大类意图之间的URL分布概率;
根据对应该大类意图的各URL点击数据,确定关键词集合在该大类意图中的点击分布概率;
根据对应该大类意图的各意图补充信息,确定关键词集合在该大类意图中的意图补充信息分布概率;
基于关键词集合在该大类意图中的URL分布概率、点击分布概率和意图补充信息分布概率,确定关键词集合在该大类意图中的分布概率。
较佳的,在基于对应该大类意图的URL和URL标题,确定关键词集合与该大类意图之间的URL分布概率时,第二确定单元42还用于:
基于对应该大类意图的各个URL,确定关键词集合与该大类意图之间的 URL匹配度;
基于对应该大类意图的各个URL标题,确定关键词集合与该大类意图之间的标题匹配度;
基于关键词集合与该大类意图之间的URL匹配度和标题匹配度,确定关键词集合与该大类意图之间的URL分布概率。
较佳的,在基于对应该大类意图的各个URL,确定关键词集合与该大类意图之间的URL匹配度时,第二确定单元42还用于:
获取对应该大类意图的每一个URL在搜索结果中的URL位置排序;
基于URL位置排序与匹配衰减指数之间的关联关系,分别确定每一个 URL位置排序对应的匹配衰减指数;
确定对应该大类意图的每一个URL的匹配衰减指数的加和为关键词集合与该大类意图之间的URL匹配度。
较佳的,在基于对应该大类意图的各个URL标题,确定关键词集合与该大类意图之间的标题匹配度时,第二确定单元42还用于:
针对该大类意图对应的每一个URL标题,分别确定每一URL标题与该大类意图包含的每一个词向量之间的余弦相似度,并将各个余弦相似度中的最大值,作为该URL标题与该大类意图之间的语义相似度;
获取各URL标题在搜索结果中的标题位置排序,并基于标题位置排序与匹配衰减指数之间的关联关系,分别确定每一个标题位置排序对应的匹配衰减指数;
分别确定该大类意图对应的每一个URL标题与该大类意图之间的语义相似性与相应的匹配衰减指数之间的匹配乘积;
确定各个匹配乘积的加和为关键词集合与该大类意图之间的标题匹配度。
基于同一发明构思,本申请实施例中还提供了一种查询意图的挖掘装置,由于上述装置及设备解决问题的原理与一种查询意图的挖掘方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,其为本申请实施例提供的一种查询意图的识别装置的结构示意图,包括:
获取单元50,用于基于从接收的查询信息中提取的各个关键词得到各个关键词集合,并获取采用上述查询意图的挖掘装置获得的每一个关键词集合与每一个大类意图之间的分布概率;
第一确定单元51,用于针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定查询信息在该大类意图中的分布概率;
第二确定单元52,用于基于查询信息在各大类意图中的分布概率,确定查询信息对应的目标大类意图;
第三确定单元53,用于根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定查询信息的子意图,意图类型是将大类意图按照资源需求划分后获得的。
较佳的,在根据各关键词集合在该大类意图中的分布概率,确定查询信息在该大类意图中的分布概率时,第二确定单元52具体用于:
针对每一个大类意图,根据各关键词集合在该大类意图中的分布概率与相应权重的加和,确定查询信息与该大类意图之间的查询匹配度;
获取各个关键词集合在该大类意图中的最大分布概率;
基于最大分布概率以及查询信息与每一个大类意图之间的查询匹配度,确定查询信息在该大类意图下的分布概率。
较佳的,在根据确定的目标大类意图,确定各关键词的意图类型时,第三确定单元53具体用于:
针对每一个关键词,基于目标大类意图包含的各个意图类型与关键词之间的关联关系,确定该关键词对应的意图类型;
确定意图类型的数量为多个时,基于获取的该关键词在每一个意图类型下的资源分布概率和用户点击数据,确定该关键词在各意图类型下的关键词分布概率,并确定关键词分布概率最高的意图类型为该关键词的意图类型,其中,关键词分布概率表征基于关键词返回的搜索结果在各意图类型下的资源分布。
较佳的,意图类型包含主体类型和需求类型;以及
在基于每一个关键词的意图类型,确定查询信息的子意图时,第三确定单元53具体用于:
基于各关键词与意图类型之间的关联关系,确定各个关键词中对应主体类型的关键词为主体词,对应需求类型的关键词为需求词;
基于意图类型与关联词之间的关联关系,获取主体词的意图类型对应的关联词;以及
基于需求词与关联词之间的关联关系,获取需求词对应的关联词;
确定需求词与获取的各关联词的任意组合为查询信息的子意图。
较佳的,在基于每一个关键词的意图类型,确定查询信息的子意图之后,第三确定单元53具体用于:
分别基于主体词与每一个子意图的组合,对查询信息进行搜索,获得搜索结果。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于同一技术构思,本申请实施例还提供了一种终端设备600,参照图6 所示,终端设备600用于实施上述各个方法实施例记载的方法,例如实施图3a 所示的实施例,终端设备600可以包括存储器601、处理器602、输入单元603 和显示面板604。
所述存储器601,用于存储处理器602执行的计算机程序。存储器601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据终端设备600的使用所创建的数据等。处理器602,可以是一个中央处理单元(central processing unit, CPU),或者为数字处理单元等等。输入单元603,可以用于获取用户输入的用户指令。所述显示面板604,用于显示由用户输入的信息或提供给用户的信息,本申请实施例中,显示面板604主要用于显示终端设备中各应用程序的显示界面以及各显示界面中显示的控件对象。可选的,显示面板604可以采用液晶显示器(liquid crystal display,LCD)或OLED(organic light-emitting diode,有机发光二极管)等形式来配置显示面板604。
本申请实施例中不限定上述存储器601、处理器602、输入单元603和显示面板604之间的具体连接介质。本申请实施例在图6中以存储器601、处理器602、输入单元603、显示面板604之间通过总线605连接,总线605在图6 中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线605可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器601可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器601也可以是非易失性存储器 (non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘 (hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器 601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器601可以是上述存储器的组合。
处理器602,用于实现如实施图3a所示的实施例,包括:
所述处理器602,用于调用所述存储器601中存储的计算机程序执行如实施图3a所示的实施例。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的一种查询意图的挖掘方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种查询意图的挖掘方法中的步骤。例如,所述终端设备可以执行如实施图3a所示的实施例。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于一种查询意图的挖掘方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++ 等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

Claims (14)

1.一种查询意图的挖掘方法,其特征在于,包括:
针对任一关键词集合,获取该关键词对应的意图挖掘信息;
基于所述意图挖掘信息与大类意图之间的关联关系,分别确定各意图挖掘信息对应的大类意图,其中,所述大类意图是按照话题分类获得的查询的意图;
基于各意图挖掘信息对应的大类意图,分别确定所述关键词集合在每一个大类意图中的分布概率,并根据各分布概率确定所述关键词集合的查询意图分布;
所述意图挖掘信息中包括以下至少一项:统一资源定位符URL、URL标题、URL点击数据和意图补充信息;
所述基于各意图挖掘信息对应的大类意图,分别确定所述关键词集合在每一个大类意图中的分布概率,具体包括:
针对各意图挖掘信息对应的每一个大类意图,基于对应该大类意图的URL和URL标题,确定所述关键词集合与该大类意图之间的URL分布概率;
根据对应该大类意图的各URL点击数据,确定所述关键词集合在该大类意图中的点击分布概率;
根据对应该大类意图的各意图补充信息,确定所述关键词集合在该大类意图中的意图补充信息分布概率;
基于所述关键词集合在该大类意图中的URL分布概率、点击分布概率和意图补充信息分布概率,确定所述关键词集合在该大类意图中的分布概率。
2.如权利要求1所述的方法,其特征在于,所述URL和URL标题为利用所述关键词集合进行搜索得到的搜索结果中获得的,所述URL点击数据为针对URL根据点击日志数据确定出的。
3.如权利要求2所述的方法,其特征在于,基于对应该大类意图的URL和URL标题,确定所述关键词集合与该大类意图之间的URL分布概率,包括:
基于对应该大类意图的各个URL,确定所述关键词集合与该大类意图之间的URL匹配度;
基于对应该大类意图的各个URL标题,确定所述关键词集合与该大类意图之间的标题匹配度;
基于所述关键词集合与该大类意图之间的URL匹配度和标题匹配度,确定所述关键词集合与该大类意图之间的URL分布概率。
4.如权利要求3所述的方法,其特征在于,基于对应该大类意图的各个URL,确定所述关键词集合与该大类意图之间的URL匹配度,包括:
获取对应该大类意图的每一个URL在所述搜索结果中的URL位置排序;
基于URL位置排序与匹配衰减指数之间的关联关系,分别确定每一个URL位置排序对应的匹配衰减指数;
确定对应该大类意图的每一个URL的匹配衰减指数的加和为所述关键词集合与该大类意图之间的URL匹配度。
5.如权利要求3所述的方法,其特征在于,基于对应该大类意图的各个URL标题,确定所述关键词集合与该大类意图之间的标题匹配度,包括:
针对该大类意图对应的每一个URL标题,分别确定每一URL标题与该大类意图包含的每一个词向量之间的余弦相似度,并将各个余弦相似度中的最大值,作为该URL标题与该大类意图之间的语义相似度;
获取各URL标题在所述搜索结果中的标题位置排序,并基于标题位置排序与匹配衰减指数之间的关联关系,分别确定每一个标题位置排序对应的匹配衰减指数;
分别确定该大类意图对应的每一个URL标题与该大类意图之间的语义相似性与相应的匹配衰减指数之间的匹配乘积;
确定各个匹配乘积的加和为所述关键词集合与该大类意图之间的标题匹配度。
6.一种查询意图识别方法,其特征在于,包括:
基于从接收的查询信息中提取的各个关键词得到各个关键词集合,并获取采用权利要求1~5任一权利要求所述的方法获得的每一个关键词集合与每一个大类意图之间的分布概率;
针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定所述查询信息在该大类意图中的分布概率;
基于所述查询信息在各大类意图中的分布概率,确定所述查询信息对应的目标大类意图;
根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定所述查询信息的子意图,所述意图类型是将大类意图按照资源需求划分后获得的。
7.如权利要求6所述的方法,其特征在于,根据各关键词集合在该大类意图中的分布概率,确定所述查询信息在该大类意图中的分布概率,具体包括:
针对每一个大类意图,根据各关键词集合在该大类意图中的分布概率与相应权重的加和,确定所述查询信息与该大类意图之间的查询匹配度;
获取各个关键词集合在该大类意图中的最大分布概率;
基于所述最大分布概率以及所述查询信息与每一个大类意图之间的查询匹配度,确定所述查询信息在该大类意图下的分布概率。
8.如权利要求6所述的方法,其特征在于,根据确定的目标大类意图,确定各关键词的意图类型,具体包括:
针对每一个关键词,基于所述目标大类意图包含的各个意图类型与关键词之间的关联关系,确定该关键词对应的意图类型;
确定所述意图类型的数量为多个时,基于获取的该关键词在每一个意图类型下的资源分布概率和用户点击数据,确定该关键词在各意图类型下的关键词分布概率,并确定关键词分布概率最高的意图类型为该关键词的意图类型,其中,所述关键词分布概率表征基于关键词返回的搜索结果在各意图类型下的资源分布。
9.如权利要求6所述的方法,其特征在于,所述意图类型包含主体类型和需求类型;以及
基于每一个关键词的意图类型,确定所述查询信息的子意图,具体包括:
基于各关键词与意图类型之间的关联关系,确定各个关键词中对应主体类型的关键词为主体词,对应需求类型的关键词为需求词;
基于意图类型与关联词之间的关联关系,获取所述主体词的意图类型对应的关联词;以及
基于需求词与关联词之间的关联关系,获取所述需求词对应的关联词;
确定所述需求词与获取的各关联词的任意组合为所述查询信息的子意图。
10.如权利要求9所述的方法,其特征在于,在基于每一个关键词的意图类型,确定所述查询信息的子意图之后,进一步包括:
分别基于所述主体词与每一个子意图的组合,对所述查询信息进行搜索,获得搜索结果。
11.一种查询意图的挖掘装置,其特征在于,包括:
搜索单元,用于针对任一关键词集合,获取该关键词对应的意图挖掘信息;
第一确定单元,用于基于所述意图挖掘信息与大类意图之间的关联关系,分别确定各意图挖掘信息对应的大类意图,其中,所述大类意图是按照话题分类获得的查询的意图;
第二确定单元,用于基于各意图挖掘信息对应的大类意图,分别确定所述关键词集合在每一个大类意图中的分布概率;
所述基于各意图挖掘信息对应的大类意图,分别确定所述关键词集合在每一个大类意图中的分布概率,具体包括:
针对各意图挖掘信息对应的每一个大类意图,基于对应该大类意图的URL和URL标题,确定所述关键词集合与该大类意图之间的URL分布概率;
根据对应该大类意图的各URL点击数据,确定所述关键词集合在该大类意图中的点击分布概率;
根据对应该大类意图的各意图补充信息,确定所述关键词集合在该大类意图中的意图补充信息分布概率;
基于所述关键词集合在该大类意图中的URL分布概率、点击分布概率和意图补充信息分布概率,确定所述关键词集合在该大类意图中的分布概率。
12.一种查询意图的识别装置,其特征在于,包括:
获取单元,用于基于从接收的查询信息中提取的各个关键词得到各个关键词集合,并获取采用权利要求11所述的装置获得的每一个关键词集合与每一个大类意图之间的分布概率;
第一确定单元,用于针对每一大类意图,根据各关键词集合在该大类意图中的分布概率,确定所述查询信息在该大类意图中的分布概率;
第二确定单元,用于基于所述查询信息在各大类意图中的分布概率,确定所述查询信息对应的目标大类意图;
第三确定单元,用于根据确定的目标大类意图,确定各关键词的意图类型,并基于每一个关键词的意图类型,确定所述查询信息的子意图,所述意图类型是将大类意图按照资源需求划分后获得的。
13.一种终端设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1-5或6-10任一权利要求所述方法的步骤。
14.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1-5或6-10任一所述方法的步骤。
CN201810416613.1A 2018-05-03 2018-05-03 一种查询意图的挖掘和查询意图的识别方法、装置 Active CN108804532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810416613.1A CN108804532B (zh) 2018-05-03 2018-05-03 一种查询意图的挖掘和查询意图的识别方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810416613.1A CN108804532B (zh) 2018-05-03 2018-05-03 一种查询意图的挖掘和查询意图的识别方法、装置

Publications (2)

Publication Number Publication Date
CN108804532A CN108804532A (zh) 2018-11-13
CN108804532B true CN108804532B (zh) 2020-06-26

Family

ID=64093548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810416613.1A Active CN108804532B (zh) 2018-05-03 2018-05-03 一种查询意图的挖掘和查询意图的识别方法、装置

Country Status (1)

Country Link
CN (1) CN108804532B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783608B (zh) * 2018-12-20 2021-01-05 出门问问信息科技有限公司 目标假设的确定方法、装置、可读存储介质和电子设备
CN111368161B (zh) * 2018-12-26 2024-01-09 北京搜狗科技发展有限公司 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN109815314B (zh) * 2019-01-04 2023-08-08 平安科技(深圳)有限公司 一种意图识别方法、识别设备及计算机可读存储介质
CN109783736B (zh) * 2019-01-18 2022-03-08 广东小天才科技有限公司 一种意图推测方法及***
CN109918555B (zh) * 2019-02-20 2021-10-15 百度在线网络技术(北京)有限公司 用于提供搜索建议的方法、装置、设备和介质
CN111666006B (zh) * 2019-03-05 2022-01-14 京东方科技集团股份有限公司 画作问答方法及装置、画作问答***、可读存储介质
CN110162535B (zh) * 2019-03-26 2023-11-07 腾讯科技(深圳)有限公司 用于执行个性化的搜索方法、装置、设备以及存储介质
CN110096709A (zh) * 2019-05-07 2019-08-06 百度在线网络技术(北京)有限公司 指令处理方法及装置、服务器及计算机可读介质
CN110209766B (zh) * 2019-05-23 2021-01-29 招商局金融科技有限公司 数据展示方法、电子装置及存储介质
CN110176315B (zh) * 2019-06-05 2022-06-28 京东方科技集团股份有限公司 医疗问答方法及***、电子设备、计算机可读介质
CN111339239B (zh) * 2019-06-13 2021-01-05 海通证券股份有限公司 知识检索方法及装置、存储介质、服务器
CN110799973B (zh) * 2019-09-27 2024-04-19 京东方科技集团股份有限公司 信息查询方法及显示装置
CN111597322B (zh) * 2019-12-28 2023-04-21 华南理工大学 基于频繁项集的模板自动挖掘***及其方法
CN111209374B (zh) * 2020-01-07 2023-06-06 平安科技(深圳)有限公司 数据查询展示方法、装置、计算机***及可读存储介质
CN111353021B (zh) * 2020-02-28 2023-08-18 百度在线网络技术(北京)有限公司 意图识别方法和设备、电子设备和介质
CN111401048B (zh) * 2020-03-10 2021-05-11 北京五八信息技术有限公司 一种意图识别方法及装置
CN111597433B (zh) * 2020-04-10 2023-08-01 北京百度网讯科技有限公司 资源搜索方法、装置以及电子设备
CN111488451B (zh) * 2020-06-29 2020-09-18 上海飞旗网络技术股份有限公司 基于svm分类模型的用户查询信息及意图提取方法及装置
CN111949898A (zh) * 2020-08-28 2020-11-17 平安国际智慧城市科技股份有限公司 搜索结果排序方法、装置、设备及计算机可读存储介质
CN112182176A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN113656584A (zh) * 2021-08-18 2021-11-16 维沃移动通信有限公司 用户分类方法、装置、电子设备及存储介质
CN114610914A (zh) * 2022-03-11 2022-06-10 北京百度网讯科技有限公司 一种信息处理方法、装置及电子设备
CN114969339B (zh) * 2022-05-30 2023-05-12 中电金信软件有限公司 一种文本匹配方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873601A (zh) * 2012-12-11 2014-06-18 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及***
CN106302350A (zh) * 2015-06-01 2017-01-04 阿里巴巴集团控股有限公司 Url监测方法、装置及设备
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2017107708A1 (zh) * 2015-12-25 2017-06-29 北京搜狗科技发展有限公司 自适应用户代理的统一资源定位符前缀挖掘方法和装置
CN107958078A (zh) * 2017-12-13 2018-04-24 北京百度网讯科技有限公司 信息生成方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873601A (zh) * 2012-12-11 2014-06-18 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及***
CN106302350A (zh) * 2015-06-01 2017-01-04 阿里巴巴集团控股有限公司 Url监测方法、装置及设备
WO2017107708A1 (zh) * 2015-12-25 2017-06-29 北京搜狗科技发展有限公司 自适应用户代理的统一资源定位符前缀挖掘方法和装置
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107958078A (zh) * 2017-12-13 2018-04-24 北京百度网讯科技有限公司 信息生成方法和装置

Also Published As

Publication number Publication date
CN108804532A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804532B (zh) 一种查询意图的挖掘和查询意图的识别方法、装置
US20220237145A1 (en) Method of and system for enhanced local-device content discovery
US11669579B2 (en) Method and apparatus for providing search results
US10795939B2 (en) Query method and apparatus
US10210243B2 (en) Method and system for enhanced query term suggestion
CN107683471B (zh) 索引具有深度链接的网页
US11580168B2 (en) Method and system for providing context based query suggestions
US8661041B2 (en) Apparatus and method for semantic-based search and semantic metadata providing server and method of operating the same
US10289957B2 (en) Method and system for entity linking
US20130282709A1 (en) Method and system for query suggestion
US8874586B1 (en) Authority management for electronic searches
US20160267189A1 (en) Method for performing network search at a browser side and a browser
US20130282682A1 (en) Method and System for Search Suggestion
US20110055238A1 (en) Methods and systems for generating non-overlapping facets for a query
US8984414B2 (en) Function extension for browsers or documents
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理***
US9916384B2 (en) Related entities
US9619558B2 (en) Method and system for entity recognition in a query
CN112052297B (zh) 信息生成方法、装置、电子设备和计算机可读介质
JP2015106347A (ja) レコメンド装置およびレコメンド方法
CN111339452A (zh) 搜索结果展现的方法、终端、服务器和***
CN114357325A (zh) 内容搜索方法、装置、设备及介质
CN109656942B (zh) 存储sql语句的方法、装置、计算机设备及存储介质
CN109657129B (zh) 用于获取信息的方法及装置
CN112256719A (zh) 实体查询方法、装置、可读介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant