CN111310008A - 搜索意图识别方法、装置、电子设备和存储介质 - Google Patents
搜索意图识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111310008A CN111310008A CN202010204153.3A CN202010204153A CN111310008A CN 111310008 A CN111310008 A CN 111310008A CN 202010204153 A CN202010204153 A CN 202010204153A CN 111310008 A CN111310008 A CN 111310008A
- Authority
- CN
- China
- Prior art keywords
- search
- intention
- search intention
- scene
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 239000002131 composite material Substances 0.000 claims abstract description 55
- 230000006399 behavior Effects 0.000 claims description 155
- 239000013598 vector Substances 0.000 claims description 107
- 238000012549 training Methods 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 31
- 238000009826 distribution Methods 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 abstract description 5
- 241000287828 Gallus gallus Species 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 235000013305 food Nutrition 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 230000002860 competitive effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229910000734 martensite Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了搜索意图识别方法、装置、电子设备和存储介质。所述方法包括:响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图识别结果。该技术方案的有益效果在于,不仅关注搜索请求,还关注天气、位置、用户行为等与搜索请求关联的搜索场景信息,利用基于复合建模实现的搜索意图识别模型,参考多方面因素对用户真实需求进行预测,改善了仅根据搜索请求无法精确识别出搜索意图的问题,特别适合于生活服务类、LBS类搜索场景。
Description
技术领域
本申请涉及搜索引擎领域,具体涉及搜索意图识别方法、装置、电子设备和存储介质。
背景技术
准确预测用户的搜索意图,是搜索引擎至关重要的能力。其中,搜索意图通常指搜索行为背后体现的用户真实需求,例如,搜索“羽毛球”,可能是因为用户想购买羽毛球器械,也可能是寻找羽毛球场馆,亦可能是学习羽毛球规则,等等。在这个例子中,“购买器械”、“寻找场馆”以及“学习规则”就是与“羽毛球”这个搜索关键词相关的三类不同搜索意图。
对搜索意图进行识别,现有技术中有如下的几种常见方案:1)基于业务专家制定的规则,利用搜索关键词与规则的文本匹配确定搜索意图;2)基于文本分类或聚类进行搜索意图的预测;3)通过主题模型等方式,将关键词映射到高维度的语义向量空间,以表达搜索意图。
上述方案均存在着仅关注文本,缺少对其他因素关注的问题。可见,现有技术并不能满足业务需求,还有很大的改进空间。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的搜索意图识别方法、装置、电子设备和存储介质。
依据本申请的第一方面,提供了一种搜索意图识别方法,包括:响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图识别结果。
可选地,所述根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征包括:将所述搜索场景信息编码为场景特征向量,以及根据所述搜索请求编码得到与所述搜索请求对应的搜索请求特征向量;对所述场景特征向量和所述搜索请求特征向量进行融合,将得到的融合特征向量作为所述复合特征,其中搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。
可选地,所述将所述搜索场景信息编码为场景特征向量包括:将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量;所述场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。
可选地,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。
可选地,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。
可选地,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:对用户行为维度下的用户行为序列,在用户行为序列中的用户行为个数不大于指定数量的情况下,选定该用户行为序列中的全部用户行为;在用户行为序列中的用户行为个数大于指定数量的情况下,以倒序方式选定用户行为序列中指定数量个用户行为;获取各选定的用户行为所对应目标的搜索意图;对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。
可选地,所述指定数量是通过如下方式预先确定的:对搜索日志中每条包含下单行为的用户行为序列,统计该包含下单行为的用户行为序列中,连续点击行为序列的长度;所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为;将各连续点击行为序列的长度均值作为所述指定数量。
可选地,所述搜索意图识别模型是通过如下方式训练得到的:根据搜索日志生成训练样本;根据训练样本生成复合特征;利用根据训练样本生成的复合特征进行搜索意图识别模型的训练。
可选地,所述根据搜索日志生成训练样本包括:根据包含点击行为的搜索日志生成第一类正样本;根据包含下单行为的搜索日志生成第二类正样本;所述第一类正样本的权重小于第二类正样本的权重;根据仅包含浏览行为的搜索日志生成负样本。
可选地,所述搜索意图识别结果为多个搜索意图的意图强度分布,该方法还包括:获取指定搜索意图及其意图位次;根据所述意图位次和所述意图强度分布,确定指定搜索意图的意图强度值;根据指定搜索意图的意图强度值和所述意图强度分布,生成包含所述指定搜索意图的意图强度分布。
可选地,所述获取指定搜索意图及其意图位次包括:获取与所述搜索请求匹配、且在生效状态的指定搜索意图;所述生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。
依据本申请的第二方面,提供了一种搜索意图识别装置,包括:响应单元,用于响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;复合特征生成单元,用于根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;搜索意图识别单元,用于将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图结果。
可选地,所述复合特征生成单元,用于将所述搜索场景信息编码为场景特征向量,以及根据所述搜索请求编码得到与所述搜索请求对应的搜索请求特征向量;对所述场景特征向量和所述搜索请求特征向量进行融合,将得到的融合特征向量作为所述复合特征,其中搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。
可选地,所述复合特征生成单元,用于将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量;所述场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。
可选地,所述复合特征生成单元,用于对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。
可选地,所述复合特征生成单元,用于将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。
可选地,所述复合特征生成单元,用于对用户行为维度下的用户行为序列,在用户行为序列中的用户行为个数不大于指定数量的情况下,选定该用户行为序列中的全部用户行为;在用户行为序列中的用户行为个数大于指定数量的情况下,以倒序方式选定用户行为序列中指定数量个用户行为;获取各选定的用户行为所对应目标的搜索意图;对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。
可选地,所述装置还包括:预处理单元,用于对搜索日志中每条包含下单行为的用户行为序列,统计该包含下单行为的用户行为序列中,连续点击行为序列的长度;所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为;将各连续点击行为序列的长度均值作为所述指定数量。
可选地,所述装置还包括:预处理单元,用于根据搜索日志生成训练样本;根据训练样本生成复合特征;
训练单元,用于利用根据训练样本生成的复合特征进行搜索意图识别模型的训练。
可选地,所述预处理单元,用于根据包含点击行为的搜索日志生成第一类正样本;根据包含下单行为的搜索日志生成第二类正样本;所述第一类正样本的权重小于第二类正样本的权重;根据仅包含浏览行为的搜索日志生成负样本。
可选地,所述搜索意图识别结果为多个搜索意图的意图强度分布;所述装置还包括:意图调整单元,用于获取指定搜索意图及其意图位次;根据所述意图位次和所述意图强度分布,确定指定搜索意图的意图强度值;根据指定搜索意图的意图强度值和所述意图强度分布,生成包含所述指定搜索意图的意图强度分布。
可选地,所述意图调整单元,用于获取与所述搜索请求匹配、且在生效状态的指定搜索意图;所述生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。
依据本申请的第三方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的搜索意图识别方法。
依据本申请的第四方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的搜索意图识别方法。
由上述可知,本申请的技术方案,响应于搜索请求,获取搜索场景信息,根据搜索场景信息以及搜索请求,生成当前搜索场景的复合特征,将复合特征输入到搜索意图识别模型中,获取搜索意图识别模型输出的搜索意图识别结果。该技术方案不仅关注搜索请求,还关注天气、位置、用户行为等搜索场景信息,利用基于复合建模实现的搜索意图识别模型,参考多方面因素对用户真实需求进行预测,改善了仅根据搜索请求无法精确识别出搜索意图的问题,特别适合于生活服务类、LBS(Location Based Services,基于位置的服务)类搜索场景。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的搜索意图识别方法的流程示意图;
图2示出了根据本申请一个实施例的一种搜索意图识别模型的训练方法的流程示意图;
图3示出了根据本申请一个实施例的搜索意图识别模型的结构示意图;
图4示出了根据本申请一个实施例的一种搜索意图识别方法的流程示意图;
图5示出了根据本申请一个实施例的搜索意图识别装置的结构示意图;
图6示出了根据本申请一个实施例的电子设备的结构示意图;
图7示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
除了背景技术中所介绍的之外,方案1)还需要人工进行标注和规则制定,泛化能力差,不能应对业务场景的迭代变化;方案3)则难以适应对精确度和一致性要求很高的场景。本申请借鉴了方案2)的技术构思,提出了一种将用户行为、天气、位置等搜索场景信息纳入关注范围,结合搜索请求进行复合建模,实现对搜索意图更准确识别的方案。
图1示出了根据本申请一个实施例的搜索意图识别方法的流程示意图。如图1所示,搜索意图识别方法包括:
步骤S110,响应于搜索请求,获取与搜索请求关联的搜索场景信息。
本申请的实施例可以应用于各类使用搜索引擎技术的场景,包括但不限于百度、谷歌(此处的商业名称仅作示例性说明)等通用搜索引擎,专利、商标等领域的专用搜索引擎,以及应用APP内的搜索引擎等。
用户可以通过文本、图像、语音等各类方式生成搜索请求,例如文本可以是搜索关键词或者搜索语句的表述形式。
步骤S120,根据所述搜索场景信息以及搜索请求生成用于识别搜索意图的复合特征。
如果说搜索请求是用户对其搜索意图给出的直接表达,那么搜索场景信息可以看作是用户对其搜索意图给出的间接表达,并且能够补充搜索请求所没有体现出的潜在搜索意图。具体来说,搜索场景信息可以覆盖多个场景维度,例如时间维度、位置维度、天气维度等等。
例如,用户搜索“宫保鸡丁”,可能是因为想学习宫保鸡丁的做法,也可能是因为想点宫保鸡丁的外卖,也可能是希望前往售卖宫保鸡丁的餐馆就餐。但用户在搜索时,并不一定会以搜索请求清楚地表达出自己的搜索意图,这就需要用户在搜索中查找,或是进行二次检索,降低了用户体验。
但是,从搜索场景信息入手,就能够改善这一问题。例如,用户是在商场内搜索宫保鸡丁,那么就更有可能是希望往售卖宫保鸡丁的餐馆就餐,而并非查找菜谱或点外卖。此时,环境的作用就体现了出来。而如果用户略过了多个售卖宫保鸡丁的实体餐馆,点击进入了多个外卖餐馆的页面,并在一家外卖餐馆下单,就能够确定用户是希望点外卖,而非其他意图。这就体现了用户行为的作用。
步骤S130,将复合特征输入到搜索意图识别模型中,获取搜索意图识别模型输出的搜索意图识别结果。这里的搜索意图识别模型是基于对搜索请求以及搜索场景信息的复合建模以及预训练实现的。
举例而言,搜索意图可以包括外卖、堂食、菜谱、点评、优惠等等,这些搜索意图能够反映出用户需求,具体可以由业务方或是领域专家等进行搜索意图的名称确定以及类别划分。换句话说,可以理解为是概括出的用户需求。
具体到业务场景,搜索意图可以是和商品或者服务的类别相对应的,而商品和服务的类别可以根据业务需求进行定义,例如上面给出的外卖、堂食就是对服务提供方式的分类。
一个搜索结果可以对应一个或多个搜索意图,例如某餐馆既提供堂食售卖,也提供外卖服务,则该餐馆对应的搜索意图可以包括外卖和堂食;而另一餐馆只提供外卖服务,则该餐馆对应的搜索意图仅包括外卖。反过来,显然一个搜索意图也能够对应一个或多个搜索结果,并且一般是多个搜索结果,比如提供外卖服务的餐馆很多。搜索意图与用户的真实需求越匹配,对应地,展示给用户的搜索结果也就更容易达到用户的搜索目的。
可见,图1所示的搜索意图识别方法,不仅关注搜索请求,还关注天气、位置、用户行为等搜索场景信息,利用基于复合建模实现的搜索意图识别模型,参考多方面因素对用户真实需求进行预测,改善了仅根据搜索请求无法精确识别出搜索意图的问题,特别适合于生活服务类、LBS类搜索场景。
在本申请的一个实施例中,上述搜索意图识别方法中,根据搜索场景信息以及搜索请求生成用于识别搜索意图的复合特征包括:将搜索场景信息编码为场景特征向量,以及根据搜索请求编码得到与搜索请求对应的搜索请求特征向量;对场景特征向量和搜索请求特征向量进行融合,将得到的融合特征向量作为复合特征,其中搜索请求特征向量在融合特征向量中的维度占比不小于预设比值。
其中,特征向量是将文本、图像等信息的数学表达,一般是高维向量。编码操作可以采用现有技术中的任一类或多类特征工程技术实现,只需要得到向量化的数据即可。在一个具体实施例中,搜索请求特征向量和场景特征向量均为通过嵌入(Embedding)操作得到的连续向量。搜索请求特征向量的生成,可以是利用NLP(Natural LanguageProcessing,自然语言处理)技术对文本形式的搜索请求内容进行编码,或者是图像处理技术对图像形式的搜索请求内容进行编码实现的,等等。
前面提到,搜索请求是能够直接反映用户搜索意图的信息,因此搜索请求特征向量就显得相对重要,在融合特征向量中的维度占比不能过低。具体的融合操作可以是连接(Concat)操作。
在本申请的一个实施例中,上述搜索意图识别方法中,将搜索场景信息编码为场景特征向量包括:将场景信息按场景维度分别编码为与各场景维度对应的特征向量;场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。
其中,场景信息在位置维度下可以具体包括经纬度信息、城市信息、实体(兴趣点POI,例如商场、住宅区等)信息等;在天气维度下可以具体包括风力信息、温度信息等;在用户行为维度下可以具体包括点击信息、下单信息、浏览信息等;时间维度下可以具体包括季节信息、节假日信息等。
各场景维度都可以生成相应的特征向量,这些特征向量均可以独立作为场景特征向量,也可以将全部或部分通过Concat操作形成的融合特征向量作为场景特征向量。
在本申请的一个实施例中,上述搜索意图识别方法中,将场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。
其中,GeoHash处理本质上是空间索引的一种方式,可以理解为将地表视为一个二维平面,将平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码。以GeoHash方式建立空间索引,可以提高经纬度检索的效率。在本申请中利用GeoHash将二维的经纬度信息一维化,便于搜索意图模型的训练以及运用。独热编码(one-hot)可以理解为用N位状态寄存器编码N个状态,每个状态都有独立的寄存器位,但这些寄存器位中只有一位有效。通过独热编码可以将离散的特征连续化。
在本申请的一个实施例中,上述搜索意图识别方法中,将场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。分桶离散化处理主要针对风力、温度等连续值,使得得到的天气特征向量高维稀疏,便于搜索意图识别模型的训练以及使用。
在本申请的一个实施例中,上述搜索意图识别方法中,将场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:对用户行为维度下的用户行为序列,在用户行为序列中的用户行为个数不大于指定数量的情况下,选定该用户行为序列中的全部用户行为;在用户行为序列中的用户行为个数大于指定数量的情况下,以倒序方式选定用户行为序列中指定数量个用户行为;获取各选定的用户行为所对应目标的搜索意图;对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。
具体而言,日志可以记录各个用户行为的发生时间点,这些用户行为可以形成用户行为序列。用户行为信息如果包含多个用户行为,若作为搜索场景信息,则需要确保这些用户行为具有一定的关联性。因此,在本申请的实施例中提供了一种以时间倒序选择用户行为的方式,避免要纳入的用户行为数量过多,或者不具有关联性。
用户行为往往是与具体的搜索结果对应的,而这些搜索结果与业务相关,可以由业务方事先提供这些搜索结果的搜索意图,而这部分内容在实际场景下也通常不需要进行额外生成,因为业务方为了自身业务需要,通常都会先做好搜索意图的分类以及搜索结果与搜索意图的关联。
词嵌入编码(Word Embedding)是自然语言处理(Natural Language Processing,NLP)中的一项文本处理技术,在本申请的实施例中可以用其进行特征嵌入处理。当然,具体的特征嵌入方式并不限于该示例,例如还可以使用Transformer(谷歌提出的一类NLP模型,暂无中文名)、BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码器表征)模型和GPT(Generative Pre-Training,生成式训练)模型进行特征嵌入处理。
在本申请的一个实施例中,上述搜索意图识别方法中,指定数量是通过如下方式预先确定的:对搜索日志中每条包含下单行为的用户行为序列,统计该包含下单行为的用户行为序列中,连续点击行为序列的长度;连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为;将各连续点击行为序列的长度均值作为指定数量。
例如,对用户行为序列取当前行为前的不大于N次点击行为所对应的搜索意图,N的计算方法可以是:每次下单行为往前推30秒,如果有点击行为就计入,由此再往前推30秒……以此往复不断向前推,直至超过30秒或者发生下单行为便中断。这样就形成了连续点击行为序列。统计一个较长时间区间的连续行为序列的长度,求平均值即为N。对用户行为的建模即是以当前搜索请求的最多N次点击偏好预测当前偏好,以确定搜索意图。
在本申请的一个实施例中,上述搜索意图识别方法中,搜索意图识别模型是通过如下方式训练得到的:根据搜索日志生成训练样本;根据训练样本生成复合特征;利用根据训练样本生成的复合特征进行搜索意图识别模型的训练。
这里的搜索日志记录有搜索请求的具体内容,如查询文本或是查询图像,以及记录有搜索场景信息。具体训练时,可以分为多个阶段,在每个训练阶段后,对得到的搜索意图识别模型进行验证,验证通过则投入使用,如验证不通过,一方面可以对搜索意图识别模型的参数进行调整,也就是对搜索意图识别模型进行优化,另一方面也可以考虑对训练样本以及特征向量的生成方式或者融合方式进行调整。然后根据调整后的数据和流程重新进行训练,直至搜索意图识别模型验证通过。
例如一个优选方案中,搜索意图识别模型可以先进行预训练,根据预训练的反馈,可以对搜索请求特征向量进行微调(Fine-tuning)。
在本申请的一个实施例中,上述搜索意图识别方法中,根据搜索日志生成训练样本包括:根据包含点击行为的搜索日志生成第一类正样本;根据包含下单行为的搜索日志生成第二类正样本;第一类正样本的权重小于第二类正样本的权重;根据仅包含浏览行为的搜索日志生成负样本。
具体来说,搜索日志可以记录从用户发起一次搜索请求开始直到下单、重新进行搜索、或者离开搜索引擎的过程中的信息。例如,用户搜索了“宫保鸡丁”,搜索引擎通过页面展示了多个搜索结果,这些搜索结果有的仅被展示出来,有的被用户点击。用户最终还可能选择一些搜索结果进行下单。
对于浏览行为、点击行为和下单行为而言,下单行为最能够反映出用户真实的正向搜索意图,也就是“需要什么”;点击行为虽然也能够反映出用户的正向搜索意图,但也可能是通过误触产生;而如果仅有浏览行为,则能够反映出用户的负向搜索意图,也就是“不需要什么”。
因此,可以将点击行为的搜索日志作为第二类正样本,下单行为的搜索日志作为第一类正样本,并以权重区分,具体地,第二类正样本的权重与第一类正样本的权重比值可以是1:10。而负样本可以对应于用户在点击前浏览的搜索结果(业内称为“Skip above”,暂无中文名称),而对于点击后展现的那些搜索结果则不作处理。
当然,具体的样本生成方式可以不限于上述示例,可以根据需求进行变更。
图2示出了根据本申请一个实施例的一种搜索意图识别模型的训练方法的流程示意图。参见图2,当用户输入搜索关键词,发起搜索请求后,搜索引擎会返回搜索结果并记录搜索日志。搜索日志经过清洗等处理后被存储。通过搜索日志记录的浏览行为、点击行为和下单行为可以生成正负训练样本及权重,并通过结合业务方给出的搜索意图类别进行标注。在对训练样本进行特征处理后,得到搜索请求特征向量、经纬度特征向量、天气特征向量、用户行为特征向量以及其他一些可根据需求生成的扩展特征向量,根据这些特征向量生成融合特征向量,输入搜索意图识别模型进行训练,如果验证通过则得到可用的搜索意图识别模型,如果验证不通过则进行参数优化等处理,重复训练直至搜索意图识别模型验证通过。
另外,当有新的搜索意图产生(这里的新产生,并不一定是指用户有了新需求,更可能是业务上有了新的定义)时,在收集到一定数量的搜索日志后,可以对搜索意图识别模型进行迭代更新。
在特征处理方面,可以参照图3示出的根据本申请一个实施例的搜索意图识别模型的结构示意图。其中,搜索关键词通过编码层处理后得到搜索请求特征向量,进入网络层;经纬度信息经过GeoHash处理后进入编码层,得到经纬度特征向量;天气信息经过分桶离散化处理后进入编码层,得到天气特征向量;用户行为序列通过编码层处理后得到用户行为特征向量,进入网络层;经纬度特征向量与天气特征向量通过Concat操作得到环境特征向量,进入网络层;上述各网络层的输出通过Concat操作得到融合特征向量,进入主干网络层,输出搜索意图识别结果,并计算损失。
在本申请的一个实施例中,上述搜索意图识别方法中,搜索意图识别结果为多个搜索意图的意图强度分布,该方法还包括:获取指定搜索意图及其意图位次;根据意图位次和意图强度分布,确定指定搜索意图的意图强度值;根据指定搜索意图的意图强度值和意图强度分布,生成包含指定搜索意图的意图强度分布。
根据搜索日志来建模,最终得到搜索意图的方法虽然能够符合用户侧的需求,但是对于业务方而言也存在一定不足。原因在于,仅基于用户行为的建模,容易产生马太效应,即强者恒强,弱者恒弱,导致有些搜索意图容易被忽视,新的搜索意图较难被曝光。
并且,在冷启动(应用预设时间段内首次启动)场景下,由于用户行为信息的缺失,上述的搜索意图识别有时不能达到较好的业务效果。因此本申请设计了将其他搜索意图,如业务方推荐的搜索意图纳入的整合性方案,使得业务方在搜索意图识别过程中也有参与。
例如,根据用户输入的搜索关键词,搜索引擎识别出了A、B、C、D四个搜索意图,这四个搜索意图的意图强度逐次递减,分别为0.4,0.3,0.2和0.1,这样就形成了这四个搜索意图的意图强度分布,在展现时会优先展示A搜索意图对应的搜索结果。
但是业务方希望展示搜索意图E,并希望其能展示在第三位,也就是形成A、B、E、C、D的次序,此时就可以根据目前的意图强度分布,生成E的意图强度值,例如以B的意图强度值与C的意图强度值取算术平均值0.35。由于加入了E使得各意图强度值的总和超过1,可以利用softmax函数等进行归一化处理。
举一个具体的例子来说,每个搜索意图可以对应不同的搜索结果,用户可以在搜索结果页面中的各搜索意图间(例如每个搜索意图分别在各自的选项卡中展示其对应的搜索结果)进行切换。“外卖”是一个已有的搜索意图,而业务方在运营过程中,又推出了“精品外卖”这个新的搜索意图。则一个搜索结果可能既对应“外卖”,也对应“精品外卖”,而该搜索结果在“精品外卖”中的展示优先级更高。那么对于喜欢该搜索结果的用户来说,显然,“精品外卖”是更优的搜索意图。但由于该搜索意图是新产生的搜索意图,因此如果仅根据搜索意图识别模型输出的意图强度分布来进行搜索意图的展示,就使得“精品外卖”几乎不会被展示出来,不符合用户和业务方的需求。而如果根据上述方式对意图强度分布进行调整,就可以使“精品外卖”有较高的展示优先级,这样才能进一步根据搜索日志进行搜索意图识别模型的调整。
在本申请的一个实施例中,上述搜索意图识别方法中,获取指定搜索意图及其意图位次包括:获取与搜索请求匹配、且在生效状态的指定搜索意图;生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。
可以看到,指定搜索意图能够应用于冷启动场景,保障了一段时间或者展示次数内,指定搜索意图所处的位次,从而保证了对应搜索结果的展示,满足了对用户认知的培养。指定搜索意图失效时,搜索意图模型已积累了足够的搜索日志进行搜索意图识别。从而克服了用户行为建模场景常出现的马太效应问题,在贴近用户需求同时也满足了业务方需求。
图4示出了根据本申请一个实施例的一种搜索意图识别方法的流程示意图。如图4所示,当用户输入搜索关键词,发起搜索请求后,生成搜索请求特征向量、经纬度特征向量、天气特征向量、用户行为特征向量以及其他一些可根据需求生成的扩展特征向量,将这些特征向量融合后输入搜索意图识别模型,得到多个搜索意图的意图强度分布。如果业务方没有可用的指定搜索意图,那么就按照该意图强度分布来选择搜索结果进行展示;如果业务方有可用的指定搜索意图,那么就按照指定搜索意图重新计算意图强度分布,根据重新计算得到的意图强度分布来选择搜索结果进行展示。
业务方在提供指定搜索意图时,优选方案是按指定的数据格式来提供,例如,要求指定搜索意图与特定的搜索关键词关联,在特定时间、场景生效,并且有推荐曝光次数的限制,等等。例如,设定了生效时长后,自动地每天将时长天数减1,直至0;曝光次数也就是已展示次数,也随着每日搜索日志记录次数减少,直至0,按天更新。当某一搜索意图的生效时长和曝光次数都不为0时,将该搜索意图保障处在意图分布中的对应位次;反之,生效时长或者曝光次数任一为0,则不再考虑该指定搜索意图,此时完全由搜索意图识别模型来确定搜索意图。
图5示出了根据本申请一个实施例的一种搜索意图识别装置的结构示意图,如图5所示,搜索意图识别装置500包括:
响应单元510,用于响应于搜索请求,获取与搜索请求关联的搜索场景信息。
本申请的实施例可以应用于各类使用搜索引擎技术的场景,包括但不限于百度、谷歌(此处的商业名称仅作示例性说明)等通用搜索引擎,专利、商标等领域的专用搜索引擎,以及应用APP内的搜索引擎等。
用户可以通过文本、图像、语音等各类方式生成搜索请求(query),例如文本可以是搜索关键词或者搜索语句的表述形式。
复合特征生成单元520,用于根据所述搜索场景信息以及搜索请求生成用于识别搜索意图的复合特征。
如果说搜索请求是用户对其搜索意图给出的直接表达,那么搜索场景信息可以看作是用户对其搜索意图给出的间接表达,并且能够补充搜索请求所没有体现出的潜在搜索意图。具体来说,搜索场景信息可以覆盖多个场景维度,例如时间维度、位置维度、天气维度等等。
例如,用户搜索“宫保鸡丁”,可能是因为想学习宫保鸡丁的做法,也可能是因为想点宫保鸡丁的外卖,也可能是希望前往售卖宫保鸡丁的餐馆就餐。但用户在搜索时,并不一定会以搜索请求清楚地表达出自己的搜索意图,这就需要用户在搜索中查找,或是进行二次检索,降低了用户体验。
但是,从搜索场景信息入手,就能够改善这一问题。例如,用户是在商场内搜索宫保鸡丁,那么就更有可能是希望往售卖宫保鸡丁的餐馆就餐,而并非查找菜谱或点外卖。此时,环境的作用就体现了出来。而如果用户略过了多个售卖宫保鸡丁的实体餐馆,点击进入了多个外卖餐馆的页面,并在一家外卖餐馆下单,就能够确定用户是希望点外卖,而非其他意图。这就体现了用户行为的作用。
识别单元530,用于将复合特征输入到搜索意图识别模型中,获取搜索意图识别模型输出的搜索意图结果。这里的搜索意图识别模型是基于对搜索请求以及搜索场景信息的复合建模以及预训练实现的。
举例而言,搜索意图可以包括外卖、堂食、菜谱、点评、优惠等等,这些搜索意图能够反映出用户需求,具体可以由业务方或是领域专家等进行搜索意图的名称确定以及类别划分。换句话说,可以理解为是概括出的用户需求。
具体到业务场景,搜索意图可以是和商品或者服务的类别相对应的,而商品和服务的类别可以根据业务需求进行定义,例如上面给出的外卖、堂食就是对服务提供方式的分类。
一个搜索结果可以对应一个或多个搜索意图,例如某餐馆既提供堂食售卖,也提供外卖服务,则该餐馆对应的搜索意图可以包括外卖和堂食;而另一餐馆只提供外卖服务,则该餐馆对应的搜索意图仅包括外卖。反过来,显然一个搜索意图也能够对应多个搜索结果,比如提供外卖服务的餐馆很多。搜索意图与用户的真实需求越匹配,对应地,展示给用户的搜索结果也就更容易达到用户的搜索目的。
可见,图5所示的搜索意图识别装置,不仅关注搜索请求,还关注天气、位置、用户行为等搜索场景信息,利用基于复合建模实现的搜索意图识别模型,参考多方面因素对用户真实需求进行预测,改善了仅根据搜索请求无法精确识别出搜索意图的问题,特别适合于生活服务类、LBS类搜索场景。
在本申请的一个实施例中,搜索意图识别装置中,复合特征生成单元520,用于将搜索场景信息编码为场景特征向量,以及根据搜索请求编码得到与搜索请求对应的搜索请求特征向量;对场景特征向量和搜索请求特征向量进行融合,将得到的融合特征向量作为复合特征,其中搜索请求特征向量在融合特征向量中的维度占比不小于预设比值。
在本申请的一个实施例中,搜索意图识别装置中,复合特征生成单元520,用于将场景信息按场景维度分别编码为与各场景维度对应的特征向量;场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。
在本申请的一个实施例中,搜索意图识别装置中,复合特征生成单元520,用于对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。
在本申请的一个实施例中,搜索意图识别装置中,复合特征生成单元520,用于将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。
在本申请的一个实施例中,搜索意图识别装置中,复合特征生成单元520,用于对用户行为维度下的用户行为序列,以倒序方式选定用户行为序列中指定数量个用户行为;若用户行为序列中的用户行为个数小于指定数量,则选定该用户行为序列中的全部用户行为;获取各选定的用户行为所对应目标的搜索意图;对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。
在本申请的一个实施例中,搜索意图识别装置还包括:预处理单元,用于对搜索日志中每条包含下单行为的用户行为序列,统计该包含下单行为的用户行为序列中,连续点击行为序列的长度;连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为;将各连续点击行为序列的长度均值作为指定数量。
在本申请的一个实施例中,搜索意图识别装置还包括:预处理单元,用于根据搜索日志生成训练样本;根据训练样本生成复合特征;训练单元,用于利用根据训练样本生成的复合特征进行搜索意图识别模型的训练。
在本申请的一个实施例中,搜索意图识别装置中,预处理单元,用于根据包含点击行为的搜索日志生成第一类正样本;根据包含下单行为的搜索日志生成第二类正样本;第一类正样本的权重小于第二类正样本的权重;根据仅包含浏览行为的搜索日志生成负样本。
在本申请的一个实施例中,搜索意图识别装置中,搜索意图识别结果为多个搜索意图的意图强度分布;装置还包括:意图调整单元,用于获取指定搜索意图及其意图位次;根据意图位次和意图强度分布,确定指定搜索意图的意图强度值;根据指定搜索意图的意图强度值和意图强度分布,生成包含指定搜索意图的意图强度分布。
在本申请的一个实施例中,搜索意图识别装置中,意图调整单元,用于获取与搜索请求匹配、且在生效状态的指定搜索意图;生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,不仅关注搜索请求,还关注天气、位置、用户行为等搜索场景信息,利用基于复合建模实现的搜索意图识别模型,参考多方面因素对用户真实需求进行预测,改善了仅根据搜索请求无法精确识别出搜索意图的问题,特别适合于生活服务类、LBS类搜索场景。对于冷启动、业务方存在指定搜索意图的场景,可以利用与搜索请求匹配、且在生效状态的指定搜索意图进行意图强度分布的调整,进一步提升了最终给出的搜索意图与用户需求的匹配度。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的搜索意图识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图6示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备600包括处理器610和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器620。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码631的存储空间630。例如,用于存储计算机可读程序代码的存储空间630可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码631。计算机可读程序代码631可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图7所述的计算机可读存储介质。图7示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质700存储有用于执行根据本申请的方法步骤的计算机可读程序代码631,可以被电子设备600的处理器610读取,当计算机可读程序代码631由电子设备600运行时,导致该电子设备600执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码631可以执行上述任一实施例中示出的方法。计算机可读程序代码631可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (14)
1.一种搜索意图识别方法,包括:
响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;
根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;
将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图识别结果。
2.如权利要求1所述的搜索意图识别方法,其特征在于,所述根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征包括:
将所述搜索场景信息编码为场景特征向量,以及根据所述搜索请求编码得到与所述搜索请求对应的搜索请求特征向量;
对所述场景特征向量和所述搜索请求特征向量进行融合,将得到的融合特征向量作为所述复合特征,其中搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。
3.如权利要求2所述的搜索意图识别方法,其特征在于,所述将所述搜索场景信息编码为场景特征向量包括:
将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量;所述场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。
4.如权利要求3所述的搜索意图识别方法,其特征在于,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:
对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。
5.如权利要求3所述的搜索意图识别方法,其特征在于,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:
将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。
6.如权利要求3所述的搜索意图识别方法,其特征在于,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:
对用户行为维度下的用户行为序列,在用户行为序列中的用户行为个数不大于指定数量的情况下,选定该用户行为序列中的全部用户行为;在用户行为序列中的用户行为个数大于指定数量的情况下,以倒序方式选定用户行为序列中指定数量个用户行为;
获取各选定的用户行为所对应目标的搜索意图;
对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。
7.如权利要求6所述的搜索意图识别方法,其特征在于,所述指定数量是通过如下方式预先确定的:
对搜索日志中每条包含下单行为的用户行为序列,统计该包含下单行为的用户行为序列中,连续点击行为序列的长度;所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为;
将各连续点击行为序列的长度均值作为所述指定数量。
8.如权利要求1所述的搜索意图识别方法,其特征在于,所述搜索意图识别模型是通过如下方式训练得到的:
根据搜索日志生成训练样本;
根据训练样本生成复合特征;
利用根据训练样本生成的复合特征进行搜索意图识别模型的训练。
9.如权利要求8所述的搜索意图识别方法,其特征在于,所述根据搜索日志生成训练样本包括:
根据包含点击行为的搜索日志生成第一类正样本;
根据包含下单行为的搜索日志生成第二类正样本,所述第一类正样本的权重小于第二类正样本的权重;
根据仅包含浏览行为的搜索日志生成负样本。
10.如权利要求1-9中任一项所述的搜索意图识别方法,其特征在于,所述搜索意图识别结果为多个搜索意图的意图强度分布,该方法还包括:
获取指定搜索意图及其意图位次;
根据所述意图位次和所述意图强度分布,确定指定搜索意图的意图强度值;
根据指定搜索意图的意图强度值和所述意图强度分布,生成包含所述指定搜索意图的意图强度分布。
11.如权利要求10所述的搜索意图识别方法,其特征在于,所述获取指定搜索意图及其意图位次包括:
获取与所述搜索请求匹配、且在生效状态的指定搜索意图;
所述生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。
12.一种搜索意图识别装置,包括:
响应单元,用于响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;
复合特征生成单元,用于根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;
搜索意图识别单元,用于将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图结果。
13.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-11中任一项所述的搜索意图识别方法。
14.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-11中任一项所述的搜索意图识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010204153.3A CN111310008A (zh) | 2020-03-20 | 2020-03-20 | 搜索意图识别方法、装置、电子设备和存储介质 |
PCT/CN2021/080240 WO2021185147A1 (zh) | 2020-03-20 | 2021-03-11 | 搜索意图识别 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010204153.3A CN111310008A (zh) | 2020-03-20 | 2020-03-20 | 搜索意图识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111310008A true CN111310008A (zh) | 2020-06-19 |
Family
ID=71157269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010204153.3A Pending CN111310008A (zh) | 2020-03-20 | 2020-03-20 | 搜索意图识别方法、装置、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111310008A (zh) |
WO (1) | WO2021185147A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330215A (zh) * | 2020-11-26 | 2021-02-05 | 长沙理工大学 | 一种城市用车需求量预测方法、设备及存储介质 |
CN112765424A (zh) * | 2021-01-29 | 2021-05-07 | 北京字节跳动网络技术有限公司 | 数据查询方法、装置、设备及计算机可读介质 |
CN113032694A (zh) * | 2021-05-26 | 2021-06-25 | 浙江口碑网络技术有限公司 | 基于场景的查询方法及装置、存储介质、计算机设备 |
CN113255354A (zh) * | 2021-06-03 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 搜索意图识别方法、装置、服务器及存储介质 |
CN113343692A (zh) * | 2021-07-15 | 2021-09-03 | 杭州网易云音乐科技有限公司 | 搜索意图的识别方法、模型训练方法、装置、介质及设备 |
WO2021185147A1 (zh) * | 2020-03-20 | 2021-09-23 | 北京三快在线科技有限公司 | 搜索意图识别 |
CN113468405A (zh) * | 2021-06-25 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 数据搜索方法、装置、电子设备及存储介质 |
CN113553851A (zh) * | 2021-07-15 | 2021-10-26 | 杭州网易云音乐科技有限公司 | 关键词的确定方法、装置、存储介质和计算设备 |
CN114218259A (zh) * | 2022-02-21 | 2022-03-22 | 深圳市云初信息科技有限公司 | 基于大数据SaaS的多维科创信息搜索方法及*** |
CN114385933A (zh) * | 2022-03-22 | 2022-04-22 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN115099242A (zh) * | 2022-08-29 | 2022-09-23 | 江西电信信息产业有限公司 | 意图识别方法、***、计算机及可读存储介质 |
CN116881541A (zh) * | 2023-05-05 | 2023-10-13 | 厦门亚瑟网络科技有限公司 | 针对在线搜索活动的ai处理方法及在线服务大数据*** |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805023B (zh) * | 2023-08-25 | 2023-11-03 | 量子数科科技有限公司 | 一种基于大语言模型的外卖推荐方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049481A (zh) * | 2012-11-29 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种搜索方法和搜索设备 |
CN104866474A (zh) * | 2014-02-20 | 2015-08-26 | 阿里巴巴集团控股有限公司 | 个性化数据搜索方法及装置 |
CN105930527A (zh) * | 2016-06-01 | 2016-09-07 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN106326338A (zh) * | 2016-08-03 | 2017-01-11 | 北京百度网讯科技有限公司 | 基于搜索引擎的服务提供方法和装置 |
CN107862027A (zh) * | 2017-10-31 | 2018-03-30 | 北京小度信息科技有限公司 | 检索意图识别方法、装置、电子设备及可读存储介质 |
CN108416649A (zh) * | 2018-02-05 | 2018-08-17 | 北京三快在线科技有限公司 | 搜索结果排序方法、装置、电子设备及存储介质 |
CN109063200A (zh) * | 2018-09-11 | 2018-12-21 | 广州神马移动信息科技有限公司 | 资源搜索方法及其装置、电子设备、计算机可读介质 |
CN110020128A (zh) * | 2017-10-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN110309431A (zh) * | 2018-03-09 | 2019-10-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636336B (zh) * | 2013-11-06 | 2019-07-09 | 北京小度互娱科技有限公司 | 一种视频搜索的方法和装置 |
US10430465B2 (en) * | 2017-01-04 | 2019-10-01 | International Business Machines Corporation | Dynamic faceting for personalized search and discovery |
CN111310008A (zh) * | 2020-03-20 | 2020-06-19 | 北京三快在线科技有限公司 | 搜索意图识别方法、装置、电子设备和存储介质 |
-
2020
- 2020-03-20 CN CN202010204153.3A patent/CN111310008A/zh active Pending
-
2021
- 2021-03-11 WO PCT/CN2021/080240 patent/WO2021185147A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049481A (zh) * | 2012-11-29 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种搜索方法和搜索设备 |
CN104866474A (zh) * | 2014-02-20 | 2015-08-26 | 阿里巴巴集团控股有限公司 | 个性化数据搜索方法及装置 |
CN105930527A (zh) * | 2016-06-01 | 2016-09-07 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN106326338A (zh) * | 2016-08-03 | 2017-01-11 | 北京百度网讯科技有限公司 | 基于搜索引擎的服务提供方法和装置 |
CN110020128A (zh) * | 2017-10-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN107862027A (zh) * | 2017-10-31 | 2018-03-30 | 北京小度信息科技有限公司 | 检索意图识别方法、装置、电子设备及可读存储介质 |
CN108416649A (zh) * | 2018-02-05 | 2018-08-17 | 北京三快在线科技有限公司 | 搜索结果排序方法、装置、电子设备及存储介质 |
CN110309431A (zh) * | 2018-03-09 | 2019-10-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN109063200A (zh) * | 2018-09-11 | 2018-12-21 | 广州神马移动信息科技有限公司 | 资源搜索方法及其装置、电子设备、计算机可读介质 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021185147A1 (zh) * | 2020-03-20 | 2021-09-23 | 北京三快在线科技有限公司 | 搜索意图识别 |
CN112330215A (zh) * | 2020-11-26 | 2021-02-05 | 长沙理工大学 | 一种城市用车需求量预测方法、设备及存储介质 |
CN112330215B (zh) * | 2020-11-26 | 2024-02-02 | 长沙理工大学 | 一种城市用车需求量预测方法、设备及存储介质 |
CN112765424A (zh) * | 2021-01-29 | 2021-05-07 | 北京字节跳动网络技术有限公司 | 数据查询方法、装置、设备及计算机可读介质 |
CN112765424B (zh) * | 2021-01-29 | 2023-10-10 | 抖音视界有限公司 | 数据查询方法、装置、设备及计算机可读介质 |
CN113032694A (zh) * | 2021-05-26 | 2021-06-25 | 浙江口碑网络技术有限公司 | 基于场景的查询方法及装置、存储介质、计算机设备 |
CN113032694B (zh) * | 2021-05-26 | 2021-11-09 | 浙江口碑网络技术有限公司 | 基于场景的查询方法及装置、存储介质、计算机设备 |
CN113255354A (zh) * | 2021-06-03 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 搜索意图识别方法、装置、服务器及存储介质 |
CN113255354B (zh) * | 2021-06-03 | 2021-12-07 | 北京达佳互联信息技术有限公司 | 搜索意图识别方法、装置、服务器及存储介质 |
CN113468405B (zh) * | 2021-06-25 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 数据搜索方法、装置、电子设备及存储介质 |
CN113468405A (zh) * | 2021-06-25 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 数据搜索方法、装置、电子设备及存储介质 |
CN113343692B (zh) * | 2021-07-15 | 2023-09-12 | 杭州网易云音乐科技有限公司 | 搜索意图的识别方法、模型训练方法、装置、介质及设备 |
CN113553851A (zh) * | 2021-07-15 | 2021-10-26 | 杭州网易云音乐科技有限公司 | 关键词的确定方法、装置、存储介质和计算设备 |
CN113343692A (zh) * | 2021-07-15 | 2021-09-03 | 杭州网易云音乐科技有限公司 | 搜索意图的识别方法、模型训练方法、装置、介质及设备 |
CN114218259A (zh) * | 2022-02-21 | 2022-03-22 | 深圳市云初信息科技有限公司 | 基于大数据SaaS的多维科创信息搜索方法及*** |
CN114385933B (zh) * | 2022-03-22 | 2022-06-07 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN114385933A (zh) * | 2022-03-22 | 2022-04-22 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN115099242A (zh) * | 2022-08-29 | 2022-09-23 | 江西电信信息产业有限公司 | 意图识别方法、***、计算机及可读存储介质 |
CN115099242B (zh) * | 2022-08-29 | 2022-11-15 | 江西电信信息产业有限公司 | 意图识别方法、***、计算机及可读存储介质 |
CN116881541A (zh) * | 2023-05-05 | 2023-10-13 | 厦门亚瑟网络科技有限公司 | 针对在线搜索活动的ai处理方法及在线服务大数据*** |
Also Published As
Publication number | Publication date |
---|---|
WO2021185147A1 (zh) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310008A (zh) | 搜索意图识别方法、装置、电子设备和存储介质 | |
Azad et al. | Query expansion techniques for information retrieval: a survey | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Purves et al. | The design and implementation of SPIRIT: a spatially aware search engine for information retrieval on the Internet | |
JP6177871B2 (ja) | 製品情報の公開 | |
US7739258B1 (en) | Facilitating searches through content which is accessible through web-based forms | |
CN109101533B (zh) | 自动化阅读理解 | |
US20100191740A1 (en) | System and method for ranking web searches with quantified semantic features | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
CN107958385B (zh) | 基于买家定义函数的投标 | |
CN111052109A (zh) | 专家搜索线程邀请引擎 | |
CN105917364A (zh) | 对问答论坛中讨论话题的排名 | |
CN112182230A (zh) | 一种基于深度学习的文本数据分类方法和装置 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
Seyler et al. | An information retrieval framework for contextual suggestion based on heterogeneous information network embeddings | |
WO2023057988A1 (en) | Generation and use of content briefs for network content authoring | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN109657043A (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
JP5832869B2 (ja) | カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
CN112214511A (zh) | 一种基于wtp-wcd算法的api推荐方法 | |
CN110083785A (zh) | 基于用户搜索记录的性别年龄判别方法及装置 | |
Abudalfa | Comparative study on efficiency of using supervised learning techniques for target-dependent sentiment polarity classification in social media | |
Zamiralov et al. | Knowledge graph mining for realty domain using dependency parsing and QAT models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200619 |