CN109815308B - 意图识别模型的确定及检索意图识别方法、装置 - Google Patents
意图识别模型的确定及检索意图识别方法、装置 Download PDFInfo
- Publication number
- CN109815308B CN109815308B CN201910082455.5A CN201910082455A CN109815308B CN 109815308 B CN109815308 B CN 109815308B CN 201910082455 A CN201910082455 A CN 201910082455A CN 109815308 B CN109815308 B CN 109815308B
- Authority
- CN
- China
- Prior art keywords
- training
- keywords
- probability distribution
- object information
- system object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 383
- 238000009826 distribution Methods 0.000 claims abstract description 220
- 238000010801 machine learning Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims 2
- 238000013145 classification model Methods 0.000 abstract description 12
- 239000013598 vector Substances 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 23
- 238000000605 extraction Methods 0.000 description 22
- 230000006399 behavior Effects 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 20
- 238000010219 correlation analysis Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 235000014347 soups Nutrition 0.000 description 6
- 238000005065 mining Methods 0.000 description 5
- 235000021152 breakfast Nutrition 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 235000021022 fresh fruits Nutrition 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012946 outsourcing Methods 0.000 description 4
- 108010003272 Hyaluronate lyase Proteins 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 241000272525 Anas platyrhynchos Species 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000003205 fragrance Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种意图识别模型的确定及检索意图识别方法、装置。所述意图识别模型的确定方法包括:获取训练关键词相关的用户日志;基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。本公开可利用一个轻量级的原始训练样本得到一个较为精确的意图识别分类模型,节省了成本,提高了检索的准确性。
Description
本申请为分案申请,其母案申请的申请日为“2017年10月31日”、申请号为“2017110537100”、发明名称为“检索意图识别方法、装置、电子设备及可读存储介质”。
技术领域
本公开涉及计算机技术领域,具体涉及一种意图识别模型的确定及检索意图识别方法、装置。
背景技术
传统的搜索技术使用倒排索引构建数据索引关系,搜索过程往往是一个简单的字符串匹配算法。而高阶的搜索引擎,除了基本的性能优化以外,更多的考虑是如何提升用户的点击率,这就需要去挖掘用户输入关键字背后包含的更深层次的信息。例如:用户搜索“附近高端的宾馆”一词,从搜索意图角度看,包含了地理信息——“附近的”,需求信息——“宾馆住宿”、价格信息——“高消费水平”,从而为搜索引擎描绘了一副用户“搜索画像”,因此在对召回结果排序时,就需要考虑价格、评价、距用户的距离等信息。
发明内容
本公开实施例提供一种意图识别模型的确定及检索意图识别方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种意图识别模型的确定方法。
具体的,所述意图识别模型的确定方法,包括:
获取训练关键词相关的用户日志;
基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;
利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
结合第一方面,所述扩展因子还包括:
所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布中的至少之一。
结合第一方面,本公开在第一方面的第一种实现方式中,获取训练关键词相关的用户日志,包括:
获取预定时间段内以所述训练关键词作为输入的搜索日志。
结合第一方面,本公开在第一方面的第二种实现方式中,所述扩展因子包括主题在所述训练关键词上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述用户日志提取第一主题;
计算所述第一主题与所述训练关键词之间的边缘分布;
根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
结合第一方面,本公开在第一方面的第三种实现方式中,所述扩展因子包括已有***对象信息在主题上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述已有***对象信息提取第二主题;
计算所述第二主题与所述已有***对象信息之间的边缘分布;
根据所述第二主题与所述已有***对象信息之间的边缘分布确定所述已有***对象信息在所述第二主题上的概率分布。
结合第一方面、第一方面的第二种实现方式或第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的。
结合第一方面,本公开在第一方面的第五种实现方式中,利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型,包括:
将所述训练关键词以及所述扩展因子作为输入,对朴素贝叶斯模型进行训练,最终得到意图识别模型。
第二方面,本公开实施例中提供了一种检索意图识别方法。
具体的,所述检索意图识别方法,包括:
接收用户输入的查询关键词;
将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据第一方面所述的方法训练得到。
结合第二方面,本公开在第二方面的第一种实现方式中,将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图,包括:
将所述查询关键词分别输入至预先训练好的不同意图类别对应的意图识别模型中,并得到所述查询关键词与每个意图识别模型的意图识别结果之间的相关度;
根据所述相关度获得所述用户的检索意图。
第三方面,本公开实施例提供了一种意图识别模型的确定装置,包括:
获取模块,被配置为获取训练关键词相关的用户日志;
扩展模块,被配置为基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;
训练模块,被配置为利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,意图识别模型的确定装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持意图识别模型的确定装置执行上述第一方面中意图识别模型的确定方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述意图识别模型的确定装置还可以包括通信接口,用于意图识别模型的确定装置与其他设备或通信网络通信。
第四方面,本公开实施例提供了一种检索意图识别装置,包括:
接收模块,被配置为接收用户输入的查询关键词;
输入模块,被配置为将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据第三方面所述的意图识别模型的确定装置训练得到。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,检索意图识别装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持检索意图识别装置执行上述第二方面中检索意图识别装置方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述检索意图识别装置还可以包括通信接口,用于检索意图识别装置与其他设备或通信网络通信。
第五方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现:
获取训练关键词相关的用户日志;
基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;
利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
结合第五方面,所述扩展因子还包括:
所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布中的至少之一。
结合第五方面,本公开在第五方面的第一种实现方式中,
获取训练关键词相关的用户日志,包括:
获取预定时间段内以所述训练关键词作为输入的搜索日志。
结合第五方面,本公开在第五方面的第二种实现方式中,
所述扩展因子包括主题在所述训练关键词上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述用户日志提取第一主题;
计算所述第一主题与所述训练关键词之间的边缘分布;
根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
结合第五方面,本公开在第五方面的第三种实现方式中,
所述扩展因子包括已有***对象信息在主题上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述已有***对象信息提取第二主题;
计算所述第二主题与所述已有***对象信息之间的边缘分布;
根据所述第二主题与所述已有***对象信息之间的边缘分布确定所述已有***对象信息在所述第二主题上的概率分布。
结合第五方面、第五方面的第二种实现方式或第五方面的第三种实现方式,本公开在第五方面的第四种实现方式中,
所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的。
结合第五方面,本公开在第五方面的第五种实现方式中,
利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型,包括:
将所述训练关键词以及所述扩展因子作为输入,对朴素贝叶斯模型进行训练,最终得到意图识别模型。
第六方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现:
接收用户输入的查询关键词;
将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据第五方面所述的电子设备训练得到。
结合第六方面,本公开在第六方面的第一种实现方式中,将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图,包括:
将所述查询关键词分别输入至预先训练好的不同意图类别对应的意图识别模型中,并得到所述查询关键词与每个意图识别模型的意图识别结果之间的相关度;
根据所述相关度获得所述用户的检索意图。
第七方面,本公开实施例提供了一种计算机可读存储介质,用于存储意图识别模型的确定和/或检索意图识别装置所用的计算机指令,其包含用于执行上述第一方面中意图识别模型的确定方法和/或第二方面中检索意图识别方法所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例提出了一种意图识别模型的确定方案,对于***平台中针对***对象的用户检索,通过意图识别模型识别用户的检索意图,以提高用户检索结果的准确性。在训练意图识别模型时,本公开实施例基于用户日志以及***平台中已有***对象信息对训练关键词即训练样本进行扩展,得到扩展因子,进而使用训练关键词以及扩展因子来训练意图识别模型。通过本公开实施例的方案,能够丰富训练样本特征的资源,且利用语义分析得到与原训练样本有强关联关系的训练样本描述信息以及同义词集合,进而实现训练样本特征扩展,即可利用一个轻量级的原始训练样本得到一个较为精确的意图识别分类模型,节省了成本,提高了检索的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的意图识别模型的确定方法的流程图;
图2示出根据图1所示实施方式的步骤S102的流程图;
图3示出根据图1所示实施方式的步骤S102的又流程图;
图4示出根据本公开一实施方式中PLSA模型的模型逻辑示意图;
图5示出根据本公开一实施方式的意图识别模型的确定装置的结构框图;
图6示出根据图5所示实施方式的扩展模块502的结构框图;
图7示出根据图5所示实施方式的扩展模块502的又一结构框图;
图8是适于用来实现根据本公开一实施方式的意图识别模型的确定和/或检索意图识别方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
已有技术中,意图识别模型主要有两种,一种是规则模板构建,优点是有明确的意图目标,精确度较高,然而缺点在于覆盖率低,通用型不强。另一种是基于机器学习的原理,利用SVM分类器对检索意图进行半监督式的分类。特征选择方面,包含关键词长度、关键词频次、主题长度、主题频次、关键词首字、尾字、搜索行为日志、关键词点击信息、关键词交易成单信息等。分类模型应用方面,选择Ensemble框架。其原理为将多重分类模型组合起来,构建出一个综合的分类器,通过训练Ensemble模型,实现多重算法之间最优的组合关系。
目前,还没有为***平台中针对***对象,如电商平台中针对商户检索的定制化搜索意图模型及其相关应用,更多的是简单的文本匹配搜索算法的优化和组合,然而从电商类垂直搜索引擎的优化角度来看,搜索意图模型的设计刻不容缓。例如:用户在外卖点餐***平台中搜索“麻辣烫”这一关键词时,表象的意义是“麻辣烫”这道菜品,但从搜索意图识别角度来看,包含了“菜系-川菜”、“口味-麻辣”、“地域-西南”、“等级-小吃”、“近似词-冒菜”等更深层的信息。而后在搜索过程中,可以从这些特征信息出发,提供精度更高或者广度更展的结果。
图1示出根据本公开一实施方式的意图识别模型的确定方法的流程图。如图1所示,所述意图识别模型的确定方法包括以下步骤S101-S103:
在步骤S101中,获取训练关键词相关的用户日志;
在步骤S102中,基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;
在步骤S103中,利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
在本实施例中,针对***平台中的***对象进行检索时,为了识别用户检索意图,首先离线训练好意图识别模型,以便能够在在线识别时,利用该意图识别模型对用户检索意图进行识别。***对象是***平台提供的可以为用户提供服务的对象,例如外卖点餐***平台中的商家等。在训练意图识别模型时,首先收集训练样本即训练关键词,并利用训练关键词获取相关的用户日志,进而基于用户日志以及已有***对象信息对训练关键词进行扩展,得到扩展因子,并将训练关键词以及扩展因子都作为输入对机器学习模型进行训练,最终得到意图识别模型。
本公开实施例中,已有***对象信息包括***平台中已有***对象的相关文字信息,例如外卖点餐***平台中的商户介绍、商户特点等信息文档。训练关键词相关的用户日志包括***平台中采用训练关键词作为输入进行搜索产生的搜索行为日志。在收集到训练关键词后,可以从***平台服务端的日志文件获取与每个训练关键词相关的用户日志。之后针对每一训练关键词以及***平台中已有***对象信息对该训练关键词进行扩展。
本实施例中,扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布中的至少之一。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布。与主题关系越密切的词语,它的条件概率越大,反之则越小。通俗来说,一个主题就好像一个“桶”,它装了若干出现概率较高的词语。这些词语和这个主题有很强的相关性,或者说,正是这些词语共同定义了这个主题。对于一段话来说,有些词语可以出自这个“桶”,有些可能来自那个“桶”,一段文本往往是若干个主题的杂合体。
本实施例中,训练关键词可以对应多个不同的主题,而主题又可以对应包括训练关键词在内的多个关键词,因此主题在训练关键词上的概率分布可以是训练关键词对应的所有主题中,当前主题所占的比重;已有***对象信息可以对应多个不同的主题,而主题又可以对应多个不同的已有***对象;那么已有***对象信息在主题上的概率分布可以是同一主题所对应的所有已有***对象信息中,当前已有***对象信息所占的比重。已有关键词是指除训练关键词之外,***平台可能涉及到的其他关键词,训练关键词与已有关键词在主题维度上的概率分布可以是训练关键词与已有关键词在同一主题上所具有的相关性,训练关键词与已有***对象信息在主题维度上的概率分布可以是训练关键词与已有***对象在同一主题上的相关性。
本实施例中,机器学***台的涉及内容不同而不同。例如,对于外卖点餐***,意图识别结果可以为餐饮、商超、药店、早餐、水果生鲜、鲜花蛋糕、生活便利、无意义等中的一个,每个意图识别结果对应一个意图识别模型,也就是说,基于训练关键词可以训练出上述八个类别的意图识别模型。而在线识别时,意图识别模型的输入可以仅是用户输入的查询关键词,其输出是于该意图识别模型对应的意图识别结果的相关度。例如,对于餐饮这一意图识别结果对应的意图识别模型,其输出结果为输入的查询关键词与餐饮这一类别的相关度。
在本实施例的一个可选实现方式中,所述步骤S101即获取训练关键词相关的用户日志的步骤,进一步包括以下步骤:
获取预定时间段内以所述训练关键词作为输入的搜索日志。
在该可选的实现方式中,用户日志可以以训练关键词为维度,从***平台的服务端保存的用户日志中提取所有用户在线搜索的行为,即用户以训练关键词为查询输入的所有在线搜索日志。用户在线搜索的行为可以包括搜索、眼球位置、点击商户位置、点击商户频次、商户内浏览轨迹、商户内交易等信息。在一实施例中,以外卖点餐平台为例,用户在线搜索的行为最终的表示形式可以为表1所示:
其中,query为训练关键词,搜索次数可以是用户在***平台中以训练关键词作为查询输入进行的搜索次数;点击商户位置可以是从搜索结果列表中用户所点击的商户在显示列表中所排列的页数和顺序个数;点击商户列表的频次是指与训练关键词相关的搜索结果中商户被用户点击的次数;商户内交易信息可以是用户基于训练关键词的检索结果中,进行交易的商户的次数。
本实施例中,在提取到用户日志以后,还可以对用户日志以及已有***对象信息进行数据预处理,包括多粒度分词、拼写纠错扩展、命名实体识别、多音同形字扩展、停用词过滤等过程,将训练关键词相关的在线搜索行为日志和已有***对象信息转换成两个多维向量。之后,还可以对数据预处理的结果进行特征提取,特征提取的过程需要结合领域知识进行,以外卖点餐***平台为例,特征提取的记过包括训练关键词及其切词向量、商户描述信息主题词(如经营范围、主营、辅营)、训练关键的点击行为的多维数据(如表1所示)等。
在本实施例的一个可选实现方式中,如图2所示,所述扩展因子包括主题在所述训练关键词上的概率分布,所述步骤S102,即基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子的步骤,进一步包括以下步骤S201-S202:
在步骤S201中,基于所述用户日志提取第一主题;
在步骤S202中,计算所述第一主题与所述训练关键词之间的边缘分布;
在步骤S203中,根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
对训练关键词的扩展可以基于语义相关性分析进行。在该可选的实现方式中,主题在所述训练关键词上的概率分布这一扩展因子,可以通过提取训练关键词中存在的第一主题进行,在提取到第一主题后计算训练关键词与所提取到的第一主题之间的深层联系,从而确定语义相关性。在提取主题时,可以设置一定的时间窗口,以用户为维度对用户输入的查询关键词进行聚合,并对这些查询关键词进行处理作为用户检索轨迹。根据用户和该用户所涉及的***对象(如该用户使用过该***对象提供的服务)进行分组聚合。然后对每个查询关键词进行数据预处理生成词向量,处理步骤包括:分词拼音纠错等。针对每个分组,对分组内的词向量集合进行主题提取,并计算各个主题与查询关键词之间的边缘分布,然后根据每个分组的边缘分布,计算所有查询关键词与主题之间的概率分布,从中可以获得主题在训练关键词上的概率分布。例如,在外卖点餐***平台中,根据用户下单商户情况,对其用户检索轨迹进行聚合。如用户1在一段时间内的查询关键词经过处理后,得到A,B,C这三个词,则用户1的检索浏览轨迹是ABC。用户2的检索轨迹为CD,用户3的检索轨迹为AC。这三个用户同时在一个商户下单,则对他们的用户轨迹进行聚合得到聚合轨迹为ABCCCD。根据这三个用户的检索轨迹,从这个检索轨迹中较为突出的主题为C。这样,可以计算出主题与查询关键词的边缘分布,进而计算所有查询关键词与主题之间的概率分布。通过该可选的实现方式,可以基于主题提取获取主题在训练关键词上的概率分布。
在本实施例的一个可选实现方式中,如图3所示,所述扩展因子包括已有***对象信息在主题上的概率分布,所述步骤S102,即基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子的步骤,进一步包括以下步骤S301-S302:
在步骤S301中,基于所述已有***对象信息提取第二主题;
在步骤S302中,计算所述第二主题与所述已有***对象信息之间的边缘分布;
在步骤S303中,根据所述第二主题与所述已有***对象信息之间的边缘分布确定所述已有***对象信息在所述第二主题上的概率分布。
该可选的实现方式中,与上一实现方式类似,先提取已有***对象信息中的第二主题。在提取第二主题时,可以对已有***对象信息进行数据预处理得到特征向量,并基于已有***对象信息对所提供服务范围一致(如主营和辅营一致)的***对象进行聚合,对聚合的***对象的已有***对象信息进行主题提取,并计算主题与已有***对象信息的边缘分布,最后计算已有***对象信息在主题的概率分布。通过这种方式,可以快速获得已有***对象信息在主题的概率分布。
在本实施例的一个可选实现方式中,所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布,所述步骤S102即基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子的步骤,进一步包括以下步骤:
将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,得到所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的。
该可选的实现方式中,利用PLSA(probabilistic latent semantic analysis,概率潜在语义分析)主题模型确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布。所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布都可以采用语义相关性分析确定。PLSA主题模型的参数预先采用EM算法计算得到,在扩展训练关键词时,将训练关键词和已有***对象信息进行数据预处理,并进一步提取主题,再计算得到主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA的输入,再计算得到所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布。
语义相关性分析主要用于分析两段文字之间的相关性如何。而两段文字的相关程度不仅是单纯的文字重复,更主要的是深层语义的关联。在已有搜索技术中,通过分析语义相关性,一方面可以丰富搜索过程中所需要的数据,另一方面可以描绘搜索词与搜索结果之间的关联信息。从技术角度看,语义相关性分析属于自然语言处理领域的一个使用场景;从应用角度看,该技术属于搜索技术领域的一个重要优化环节。通过对语义相关性的挖掘,原本简单的关键词(也被称为query)可以扩展出更多的描述信息,为搜索行为的展开提供多元化的信息补充,从而从广度、深度上提升搜索的综合效果。目前常用的语义相关性分析模型包括主题模型(基于LDA(Latent Dirichlet Allocation,文档主题生成模型)或者PLSA算法)、利用RNNText(文本循环神经网络)的卷积神经网络文本语义分类模型等。目前应用较多的语义相关性模型为主题模型,主题模型本质上是对富文本训练集进行主题提取,然后构建主题与文本中关键词之间的关系模型。当关键词输入时,去寻找与关键词对应的主题,进而可以提取到语义相关性高的其他词语。目前主流的语义相关性分析模型大都采用向量空间模型,在文档的向量空间模型中,文档被表示成由特征词出现概率组成的多维向量,即将关键词(也称query)和文档转换到同一空间中进行向量相似度计算。一种经典的向量空间模型是贝叶斯模型,基于贝叶斯分类模型的语义相关性分析步骤如下:训练数据预处理,包括:语法分析,特殊字符过滤,去停用词,词根还原四个步骤;特征提取,基于数据的表征关系,例如:餐饮训练数据中的用户搜索关键字信息,并非取所有的关键字及其切词处理结果作为有效的特征,而是选择有点击行为的关键字作为有效数据,进而提取特征;基于伯努利贝叶斯模型的语义相关性分类。伯努利模型采用二项分布模型,即类条件概率和先验概率模型。最后通过计算输入关键词与构建好的贝叶斯分类模型各分类之间的概率值,来确定关键词与已有意图之间的语义相关性。
上述已有技术中,基于向量空间模型而设计的语义相关性模型没有能力处理一词多义以及一义多词的问题。例如,外卖点餐***平台中的关键词以及相关餐饮文档数据中往往包含大量多义词,例如:“周黑鸭”既可以理解为一种菜品,又可以理解为一个餐饮品牌,甚至是一种文化标签。因此,上述基于向量空间模型而设计的语义相关性模型显然无法很好地解决类似外卖点餐***平台这类一词多义或一义多词的情形。此外,贝叶斯模型可以说是强依赖于训练数据的,当数据样本可信度不高时,其轻量的训练样本优势可能不复存在,所训练出来的模型可能与目标相差较多。意图识别模型使用SVM分类器构建时,虽然精度会很高,但是SVM本身存在运算效能的问题,从搜索优化的角度看,更加希望把核心的数据计算做到实时性。目前的意图识别模型,往往是从关键词本身出发进行特征提取,从提升特征分析的角度来看,这种训练样本的采集策略其实是有待优化的。通过一些丰富样本特征的方法,或许可以得到更加丰富、信息量更大的训练样本。
因此,本公开实施例在构建意图识别模型时,首先将训练样本进行语义相关性分析,进而扩展出多个扩展因子,如主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布等,而其中所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布又采用PLSA主题模型得到,而PLSA主题模型的参数可以采用EM算法训练得到。因此,而本公开所介绍的pLSA改进算法可以以一种相对高效且保持精度的方式对训练关键词即训练样本的相关性进行挖掘,进而扩展训练关键词。在训练样本的相关性挖掘过程中,通过语义关联性分析,建设训练关键词与***对象信息间的关联关系,从而实现从搜索层面到***对象及***对象属性如外卖点餐***平台中商户、菜系、文化等深层抽象特征的过渡。
下面对于本公开实施例使用的PLSA模型进行详细介绍。
PLSA的概率图逻辑模型如图4所示,其中,D表示已有***对象信息,Z表示隐式主题,W表示当前观察的单词。P(di)表示单词出现在已有***对象信息di的概率,P(zk|di)表示已有***对象信息di中出现主题zk下的单词的概率,P(wj|zk)给定主题zk出现单词wj的概率。即每个相关性主题在所有的关键词及其切词上都满足概率分布,每个已有***对象信息在所有主题上都服从Multinomial分布。因此要计算的几个概率包括:
以P(di)的概率选中已有***对象信息di;
以P(zk|di)的概率选中主题zk;
以P(wj|zk)的概率产生一个单词;
因此本公开实施例中需要计算的相关性概率即(di,wj),(di,wj)的联合分布如下表示:
其中,K表示主题的个数。
之后利用EM算法对PLSA模型的参数进行训练。简单介绍下EM算法的步骤:
E步:计算隐式变量(例如本公开实施例中所涉及到的隐式主题)在当前估计条件下的后验概率;
M步:计算最大似然估计值,使用E步中得到的隐式变量的后验概率,得到上述两个参数值。
在本公开实施例中,利用PLSA模型,将关键词相关的搜索行为日志和***对象信息作为基础的训练数据,训练得到关键词与***对象信息的语义相关性模型。在得到语义相关性模型后,当新的训练关键词进入语义相关性模型时,会输出已有关键词集合中与这个训练关键词的相关性关系,可以给出深层语义相似的已有关键词,同时也可以给出扩展信息,例如,在外卖点餐***中可以得到的扩展信息包括:与此训练关键词高度关联的商户名称、该训练关键词包含的地域信息等。以“冒菜”作为训练关键词为例,在进入语义相关性分析模型后,可以获取相似的已有关键词,如“麻辣烫”、“串串香”等,同时还能获取扩展信息,如“U鼎冒菜”、“杨国福麻辣烫”、“张亮麻辣烫”等。
在本实施例的一个可选实现方式中,所述步骤S103,即利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型的步骤,进一步包括:
将所述训练关键词以及所述扩展因子作为输入,对朴素贝叶斯模型进行训练,最终得到意图识别模型。
该可选的实现方式中,意图识别模型采用朴素贝叶斯模型构建。意图识别过程本质上就是一个识别关键词相关联信息的过程。朴素贝叶斯模型把关联过程转化成一个简单的分类过程,处于同一分类体系内的文本信息必然具有天然的相关性。
已有技术中,意图识别方式包括基于规则模板的分类方法和基于机器学习的识别模型。从效果上看,基于贝叶斯等SVM模型的分类器往往可以获得更优秀、更具普遍适用性的识别模型。然而,贝叶斯模型可以说是强依赖于训练数据的,当数据样本可信度不高时,其轻量的训练样本优势可能不复存在,所训练出来的模型可能与目标相差较多。意图识别模型使用SVM分类器构建模型时,虽然精度会很高,但是SVM本身存在运算效能的问题,从搜索优化的角度看,更加希望把核心的数据计算做到实时性。目前的意图识别模型,往往是从关键词本身出发进行特征提取,从提升特征分析的角度来看,这种训练样本的采集策略其实是有待优化的。而本公开实施例通过一些丰富样本特征的方法,即通过语义相关性分析,从训练关键词扩展出多种因子,并利用训练关键词和这些扩展出来的扩展因子作为训练样本,使得训练样本更加丰富、信息量更大,进而通过训练朴素贝叶斯模型得到的意图识别模型的识别能力更加准确。
查询关键词到意图的映射数据是意图识别模型的核心,语义相关性分析和朴素贝叶斯分类都是为查询关键词到意图的映射关系服务的,可以认为意图识别的核心是数据以及构建在数据基础上的识别模型。意图识别尤其对类似餐饮搜索场景的用户体验提升意义非凡。用户搜索的查询关键词在搜索引擎中,被扩展成同义关键词、口味、地域、相关商户等信息,对搜索的过滤、排序等控制都有应用意义。
本公开实施例中,语义分析相关性模型中使用pLSA模型对多语义关键词进行多维度的分类,从而构建完整的语义关联模型,相较于传统的LDA,运算速度更快,实现更简单;而相较于贝叶斯模型而言,可以处理多文本语义的歧义问题,解决了传统语义分析模型对多义短关键词无法有效处理的问题。同时,弱化了模型对数据的强依赖性,在语义关系分析阶段,使用了pLSA算法,对训练样本要求较低,不再强依赖于训练集,更多地是分析抽象层的语义关联性,其提取深层语义的能力较强,这一点体现在计算两个重要的概率值:主题在文档上的Multinial分布概率以及关键词在主题上的概率分布;其还利用概率统计,并用EM算法学习PLSA模型参数,拥有较好的计算效能。本公开实施例为了提升计算效能,在保证模型分类效果的基础上,利用朴素贝叶斯分类器来构建意图识别引擎。而目前朴素贝叶斯模型已经使用C++语言进行编写,其运行效率相较于SVM等模型,运行效能提升80%以上。可以做到实时分类的效果,这对于服务的实时性非常重要。本公开实施例由于意图识别部分使用高效但较为简单的朴素贝叶斯分类器,而该算法强依赖于数据。为了解决这个问题,本公开实施例又利用语义分析得到与原关键词有强关联关系的关键词描述信息以及同义关键词集合(即通过扩展因子确定),进而实现特征扩展,使得朴素贝叶斯模型可以在一个相对较小的规模下获得较精确的分析效果,即可利用一个轻量级的原始训练样本得到一个较为精确的意图识别分类模型。
本公开一实施方式还提出了一种检索意图识别方法。该检索意图识别方法包括:
接收用户输入的查询关键词;
将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据上述意图识别模型的确定方法训练得到。
本实施例的具体细节可参见上述对意图识别模型的确定方法的描述再次不再赘述。
在本实施例的一个可选实现方式中,将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图的步骤,进一步包括:
将所述查询关键词分别输入至预先训练好的不同意图类别对应的意图识别模型中,并得到所述查询关键词与每个意图识别模型的意图识别结果之间的相关度;
根据所述相关度获得所述用户的检索意图。
该可选的实现方式中,如上述对意图识别模型的确定方法的描述可知,机器学***台的涉及内容不同而不同。例如,对于外卖点餐***,意图识别结果可以为餐饮、商超、药店、早餐、水果生鲜、鲜花蛋糕、生活便利、无意义等中的一个,每个意图识别结果对应一个意图识别模型,也就是说,基于训练关键词可以训练出上述八个类别的意图识别模型。而在线识别时,意图识别模型的输入可以仅是用户输入的查询关键词,其输出是于该意图识别模型对应的意图识别结果的相关度。例如,对于餐饮这一意图识别结果对应的意图识别模型,其输出结果为输入的查询关键词与餐饮这一类别的相关度。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图5示出根据本公开一实施方式的意图识别模型的确定装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,所述意图识别模型的确定装置包括获取模块501和扩展模块502、训练模块503:
获取模块501,被配置为获取训练关键词相关的用户日志;
扩展模块502,被配置为基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;
训练模块503,被配置为利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
在本实施例中,针对***平台中的***对象进行检索时,为了识别用户检索意图,首先离线训练好意图识别模型,以便能够在在线识别时,利用该意图识别模型对用户检索意图进行识别。***对象是***平台提供的可以为用户提供服务的对象,例如外卖点餐***平台中的商家等。在训练意图识别模型时,首先收集训练样本即训练关键词,并利用训练关键词获取相关的用户日志,进而基于用户日志以及已有***对象信息对训练关键词进行扩展,得到扩展因子,并将训练关键词以及扩展因子都作为输入对机器学习模型进行训练,最终得到意图识别模型。
本公开实施例中,已有***对象信息包括***平台中已有***对象的相关文字信息,例如外卖点餐***平台中的商户介绍、商户特点等信息文档。训练关键词相关的用户日志包括***平台中采用训练关键词作为输入进行搜索产生的搜索行为日志。在收集到训练关键词后,可以从***平台服务端的日志文件获取与每个训练关键词相关的用户日志。之后针对每一训练关键词以及***平台中已有***对象信息对该训练关键词进行扩展。
本实施例中,扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布中的至少之一。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布。与主题关系越密切的词语,它的条件概率越大,反之则越小。通俗来说,一个主题就好像一个“桶”,它装了若干出现概率较高的词语。这些词语和这个主题有很强的相关性,或者说,正是这些词语共同定义了这个主题。对于一段话来说,有些词语可以出自这个“桶”,有些可能来自那个“桶”,一段文本往往是若干个主题的杂合体。
本实施例中,训练关键词可以对应多个不同的主题,而主题又可以对应包括训练关键词在内的多个关键词,因此主题在训练关键词上的概率分布可以是训练关键词对应的所有主题中,当前主题所占的比重;已有***对象信息可以对应多个不同的主题,而主题又可以对应多个不同的已有***对象;那么已有***对象信息在主题上的概率分布可以是同一主题所对应的所有已有***对象信息中,当前已有***对象信息所占的比重。已有关键词是指除训练关键词之外,***平台可能涉及到的其他关键词,训练关键词与已有关键词在主题维度上的概率分布可以是训练关键词与已有关键词在同一主题上所具有的相关性,训练关键词与已有***对象信息在主题维度上的概率分布可以是训练关键词与已有***对象在同一主题上的相关性。
本实施例中,机器学***台的涉及内容不同而不同。例如,对于外卖点餐***,意图识别结果可以为餐饮、商超、药店、早餐、水果生鲜、鲜花蛋糕、生活便利、无意义等中的一个,每个意图识别结果对应一个意图识别模型,也就是说,基于训练关键词可以训练出上述八个类别的意图识别模型。而在线识别时,意图识别模型的输入可以仅是用户输入的查询关键词,其输出是于该意图识别模型对应的意图识别结果的相关度。例如,对于餐饮这一意图识别结果对应的意图识别模型,其输出结果为输入的查询关键词与餐饮这一类别的相关度。
在本实施例的一个可选实现方式中,所述获取模块501包括:
第一获取子模块,被配置为获取预定时间段内以所述训练关键词作为输入的搜索日志。
在该可选的实现方式中,用户日志可以以训练关键词为维度,从***平台的服务端保存的用户日志中提取所有用户在线搜索的行为,即用户以训练关键词为查询输入的所有在线搜索日志。用户在线搜索的行为可以包括搜索、眼球位置、点击商户位置、点击商户频次、商户内浏览轨迹、商户内交易等信息。在一实施例中,以外卖点餐平台为例,用户在线搜索的行为最终的表示形式可以为表1所示:
其中,query为训练关键词,搜索次数可以是用户在***平台中以训练关键词作为查询输入进行的搜索次数;点击商户位置可以是从搜索结果列表中用户所点击的商户在显示列表中所排列的页数和顺序个数;点击商户列表的频次是指与训练关键词相关的搜索结果中商户被用户点击的次数;商户内交易信息可以是用户基于训练关键词的检索结果中,进行交易的商户的次数。
本实施例中,在提取到用户日志以后,还可以对用户日志以及已有***对象信息进行数据预处理,包括多粒度分词、拼写纠错扩展、命名实体识别、多音同形字扩展、停用词过滤等过程,将训练关键词相关的在线搜索行为日志和已有***对象信息转换成两个多维向量。之后,还可以对数据预处理的结果进行特征提取,特征提取的过程需要结合领域知识进行,以外卖点餐***平台为例,特征提取的记过包括训练关键词及其切词向量、商户描述信息主题词(如经营范围、主营、辅营)、训练关键的点击行为的多维数据(如表1所示)等。
在本实施例的一个可选实现方式中,如图6所示,所述扩展因子包括主题在所述训练关键词上的概率分布,则所述扩展模块502包括:
第一提取子模块601,被配置为基于所述用户日志提取第一主题;
第一计算子模块602,被配置为计算所述第一主题与所述训练关键词之间的边缘分布;
第一确定子模块603,被配置为根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
对训练关键词的扩展可以基于语义相关性分析进行。在该可选的实现方式中,主题在所述训练关键词上的概率分布这一扩展因子,可以通过提取训练关键词中存在的第一主题进行,在提取到第一主题后计算训练关键词与所提取到的第一主题之间的深层联系,从而确定语义相关性。在提取主题时,可以设置一定的时间窗口,以用户为维度对用户输入的查询关键词进行聚合,并对这些查询关键词进行处理作为用户检索轨迹。根据用户和该用户所涉及的***对象(如该用户使用过该***对象提供的服务)进行分组聚合。然后对每个查询关键词进行数据预处理生成词向量,处理步骤包括:分词拼音纠错等。针对每个分组,对分组内的词向量集合进行主题提取,并计算各个主题与查询关键词之间的边缘分布,然后根据每个分组的边缘分布,计算所有查询关键词与主题之间的概率分布,从中可以获得主题在训练关键词上的概率分布。例如,在外卖点餐***平台中,根据用户下单商户情况,对其用户检索轨迹进行聚合。如用户1在一段时间内的查询关键词经过处理后,得到A,B,C这三个词,则用户1的检索浏览轨迹是ABC。用户2的检索轨迹为CD,用户3的检索轨迹为AC。这三个用户同时在一个商户下单,则对他们的用户轨迹进行聚合得到聚合轨迹为ABCCCD。根据这三个用户的检索轨迹,从这个检索轨迹中较为突出的主题为C。这样,可以计算出主题与查询关键词的边缘分布,进而计算所有查询关键词与主题之间的概率分布。通过该可选的实现方式,可以基于主题提取获取主题在训练关键词上的概率分布。
在本实施例的一个可选实现方式中,如图7所示,所述扩展因子包括已有***对象信息在主题上的概率分布,则所述扩展模块502包括:
第二提取子模块701,被配置为基于所述已有***对象信息提取第二主题;
第二计算子模块702,被配置为计算所述第二主题与所述已有***对象信息之间的边缘分布;
第二确定子模块703,被配置为根据所述第二主题与所述已有***对象信息之间的边缘分布确定所述已有***对象信息在所述第二主题上的概率分布。
该可选的实现方式中,与上一实现方式类似,先提取已有***对象信息中的第二主题。在提取第二主题时,可以对已有***对象信息进行数据预处理得到特征向量,并基于已有***对象信息对所提供服务范围一致(如主营和辅营一致)的***对象进行聚合,对聚合的***对象的已有***对象信息进行主题提取,并计算主题与已有***对象信息的边缘分布,最后计算已有***对象信息在主题的概率分布。通过这种方式,可以快速获得已有***对象信息在主题的概率分布。
在本实施例的一个可选实现方式中,所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布,则所述扩展模块502包括:
第三确定子模块,被配置为将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的。
该可选的实现方式中,利用PLSA(probabilistic latent semantic analysis,概率潜在语义分析)主题模型确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布。所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布都可以采用语义相关性分析确定。PLSA主题模型的参数预先采用EM算法计算得到,在扩展训练关键词时,将训练关键词和已有***对象信息进行数据预处理,并进一步提取主题,再计算得到主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA的输入,再计算得到所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布。
语义相关性分析主要用于分析两段文字之间的相关性如何。而两段文字的相关程度不仅是单纯的文字重复,更主要的是深层语义的关联。在已有搜索技术中,通过分析语义相关性,一方面可以丰富搜索过程中所需要的数据,另一方面可以描绘搜索词与搜索结果之间的关联信息。从技术角度看,语义相关性分析属于自然语言处理领域的一个使用场景;从应用角度看,该技术属于搜索技术领域的一个重要优化环节。通过对语义相关性的挖掘,原本简单的关键词(也被称为query)可以扩展出更多的描述信息,为搜索行为的展开提供多元化的信息补充,从而从广度、深度上提升搜索的综合效果。目前常用的语义相关性分析模型包括主题模型(基于LDA(Latent Dirichlet Allocation,文档主题生成模型)或者PLSA算法)、利用RNNText(文本循环神经网络)的卷积神经网络文本语义分类模型等。目前应用较多的语义相关性模型为主题模型,主题模型本质上是对富文本训练集进行主题提取,然后构建主题与文本中关键词之间的关系模型。当关键词输入时,去寻找与关键词对应的主题,进而可以提取到语义相关性高的其他词语。目前主流的语义相关性分析模型大都采用向量空间模型,在文档的向量空间模型中,文档被表示成由特征词出现概率组成的多维向量,即将关键词(也称query)和文档转换到同一空间中进行向量相似度计算。一种经典的向量空间模型是贝叶斯模型,基于贝叶斯分类模型的语义相关性分析步骤如下:训练数据预处理,包括:语法分析,特殊字符过滤,去停用词,词根还原四个步骤;特征提取,基于数据的表征关系,例如:餐饮训练数据中的用户搜索关键字信息,并非取所有的关键字及其切词处理结果作为有效的特征,而是选择有点击行为的关键字作为有效数据,进而提取特征;基于伯努利贝叶斯模型的语义相关性分类。伯努利模型采用二项分布模型,即类条件概率和先验概率模型。最后通过计算输入关键词与构建好的贝叶斯分类模型各分类之间的概率值,来确定关键词与已有意图之间的语义相关性。
上述已有技术中,基于向量空间模型而设计的语义相关性模型没有能力处理一词多义以及一义多词的问题。例如,外卖点餐***平台中的关键词以及相关餐饮文档数据中往往包含大量多义词,例如:“周黑鸭”既可以理解为一种菜品,又可以理解为一个餐饮品牌,甚至是一种文化标签。因此,上述基于向量空间模型而设计的语义相关性模型显然无法很好地解决类似外卖点餐***平台这类一词多义或一义多词的情形。此外,贝叶斯模型可以说是强依赖于训练数据的,当数据样本可信度不高时,其轻量的训练样本优势可能不复存在,所训练出来的模型可能与目标相差较多。意图识别模型使用SVM分类器构建时,虽然精度会很高,但是SVM本身存在运算效能的问题,从搜索优化的角度看,更加希望把核心的数据计算做到实时性。目前的意图识别模型,往往是从关键词本身出发进行特征提取,从提升特征分析的角度来看,这种训练样本的采集策略其实是有待优化的。通过一些丰富样本特征的方法,或许可以得到更加丰富、信息量更大的训练样本。
因此,本公开实施例在构建意图识别模型时,首先将训练样本进行语义相关性分析,进而扩展出多个扩展因子,如主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布等,而其中所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布又采用PLSA主题模型得到,而PLSA主题模型的参数可以采用EM算法训练得到。因此,而本公开所介绍的pLSA改进算法可以以一种相对高效且保持精度的方式对训练关键词即训练样本的相关性进行挖掘,进而扩展训练关键词。在训练样本的相关性挖掘过程中,通过语义关联性分析,建设训练关键词与***对象信息间的关联关系,从而实现从搜索层面到***对象及***对象属性如外卖点餐***平台中商户、菜系、文化等深层抽象特征的过渡。
下面对于本公开实施例使用的PLSA模型进行详细介绍。
PLSA的概率图逻辑模型如图4所示,其中,D表示已有***对象信息,Z表示隐式主题,W表示当前观察的单词。P(di)表示单词出现在已有***对象信息di的概率,P(zk|di)表示已有***对象信息di中出现主题zk下的单词的概率,P(wj|zk)给定主题zk出现单词wj的概率。即每个相关性主题在所有的关键词及其切词上都满足概率分布,每个已有***对象信息在所有主题上都服从Multinomial分布。因此要计算的几个概率包括:
以P(di)的概率选中已有***对象信息di;
以P(zk|di)的概率选中主题zk;
以P(wj|zk)的概率产生一个单词;
因此本公开实施例中需要计算的相关性概率即(di,wj),(di,wj)的联合分布如下表示:
其中,K表示主题的个数。
之后利用EM算法对PLSA模型的参数进行训练。简单介绍下EM算法的步骤:
E步:计算隐式变量(例如本公开实施例中所涉及到的隐式主题)在当前估计条件下的后验概率;
M步:计算最大似然估计值,使用E步中得到的隐式变量的后验概率,得到上述两个参数值。
在本公开实施例中,利用PLSA模型,将关键词相关的搜索行为日志和***对象信息作为基础的训练数据,训练得到关键词与***对象信息的语义相关性模型。在得到语义相关性模型后,当新的训练关键词进入语义相关性模型时,会输出已有关键词集合中与这个训练关键词的相关性关系,可以给出深层语义相似的已有关键词,同时也可以给出扩展信息,例如,在外卖点餐***中可以得到的扩展信息包括:与此训练关键词高度关联的商户名称、该训练关键词包含的地域信息等。以“冒菜”作为训练关键词为例,在进入语义相关性分析模型后,可以获取相似的已有关键词,如“麻辣烫”、“串串香”等,同时还能获取扩展信息,如“U鼎冒菜”、“杨国福麻辣烫”、“张亮麻辣烫”等。
在本实施例的一个可选实现方式中,所述训练模块503包括:
训练子模块,被配置为将所述训练关键词以及所述扩展因子作为输入,对朴素贝叶斯模型进行训练,最终得到意图识别模型。
该可选的实现方式中,意图识别模型采用朴素贝叶斯模型构建。意图识别过程本质上就是一个识别关键词相关联信息的过程。朴素贝叶斯模型把关联过程转化成一个简单的分类过程,处于同一分类体系内的文本信息必然具有天然的相关性。
已有技术中,意图识别方式包括基于规则模板的分类方法和基于机器学习的识别模型。从效果上看,基于贝叶斯等SVM模型的分类器往往可以获得更优秀、更具普遍适用性的识别模型。然而,贝叶斯模型可以说是强依赖于训练数据的,当数据样本可信度不高时,其轻量的训练样本优势可能不复存在,所训练出来的模型可能与目标相差较多。意图识别模型使用SVM分类器构建模型时,虽然精度会很高,但是SVM本身存在运算效能的问题,从搜索优化的角度看,更加希望把核心的数据计算做到实时性。目前的意图识别模型,往往是从关键词本身出发进行特征提取,从提升特征分析的角度来看,这种训练样本的采集策略其实是有待优化的。而本公开实施例通过一些丰富样本特征的方法,即通过语义相关性分析,从训练关键词扩展出多种因子,并利用训练关键词和这些扩展出来的扩展因子作为训练样本,使得训练样本更加丰富、信息量更大,进而通过训练朴素贝叶斯模型得到的意图识别模型的识别能力更加准确。
查询关键词到意图的映射数据是意图识别模型的核心,语义相关性分析和朴素贝叶斯分类都是为查询关键词到意图的映射关系服务的,可以认为意图识别的核心是数据以及构建在数据基础上的识别模型。意图识别尤其对类似餐饮搜索场景的用户体验提升意义非凡。用户搜索的查询关键词在搜索引擎中,被扩展成同义关键词、口味、地域、相关商户等信息,对搜索的过滤、排序等控制都有应用意义。
本公开实施例中,语义分析相关性模型中使用pLSA模型对多语义关键词进行多维度的分类,从而构建完整的语义关联模型,相较于传统的LDA,运算速度更快,实现更简单;而相较于贝叶斯模型而言,可以处理多文本语义的歧义问题,解决了传统语义分析模型对多义短关键词无法有效处理的问题。同时,弱化了模型对数据的强依赖性,在语义关系分析阶段,使用了pLSA算法,对训练样本要求较低,不再强依赖于训练集,更多地是分析抽象层的语义关联性,其提取深层语义的能力较强,这一点体现在计算两个重要的概率值:主题在文档上的Multinial分布概率以及关键词在主题上的概率分布;其还利用概率统计,并用EM算法学习PLSA模型参数,拥有较好的计算效能。本公开实施例为了提升计算效能,在保证模型分类效果的基础上,利用朴素贝叶斯分类器来构建意图识别引擎。而目前朴素贝叶斯模型已经使用C++语言进行编写,其运行效率相较于SVM等模型,运行效能提升80%以上。可以做到实时分类的效果,这对于服务的实时性非常重要。本公开实施例由于意图识别部分使用高效但较为简单的朴素贝叶斯分类器,而该算法强依赖于数据。为了解决这个问题,本公开实施例又利用语义分析得到与原关键词有强关联关系的关键词描述信息以及同义关键词集合(即通过扩展因子确定),进而实现特征扩展,使得朴素贝叶斯模型可以在一个相对较小的规模下获得较精确的分析效果,即可利用一个轻量级的原始训练样本得到一个较为精确的意图识别分类模型。
本公开一实施方式还提出了一种检索意图识别装置。该检索意图识别装置包括:
接收模块,被配置为接收用户输入的查询关键词;
输入模块,被配置为将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据上述意图识别模型的确定装置训练得到。
本实施例中的具体细节可参见上述对意图识别模型的确定装置的描述,在此不再赘述。
在本实施例的一个可选实现方式中,所述输入模块,包括:
输入子模块,被配置为将所述查询关键词分别输入至预先训练好的不同意图类别对应的意图识别模型中,并得到所述查询关键词与每个意图识别模型的意图识别结果之间的相关度;
获得子模块,被配置为根据所述相关度获得所述用户的检索意图。
该可选的实现方式中,如上述对意图识别模型的确定装置的描述可知,机器学***台的涉及内容不同而不同。例如,对于外卖点餐***,意图识别结果可以为餐饮、商超、药店、早餐、水果生鲜、鲜花蛋糕、生活便利、无意义等中的一个,每个意图识别结果对应一个意图识别模型,也就是说,基于训练关键词可以训练出上述八个类别的意图识别模型。而在线识别时,意图识别模型的输入可以仅是用户输入的查询关键词,其输出是于该意图识别模型对应的意图识别结果的相关度。例如,对于餐饮这一意图识别结果对应的意图识别模型,其输出结果为输入的查询关键词与餐饮这一类别的相关度。
图8是适于用来实现根据本公开实施方式的意图识别模型的确定和/或检索意图识别方法的电子设备的结构示意图。
如图8所示,电子设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述图1所示的实施方式中的各种处理。在RAM803中,还存储有电子设备800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施方式,上文参考图1及相关实施例描述的意图识别模型的确定方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1的意图识别模型的确定方法的程序代码,以实现:
获取训练关键词相关的用户日志;
基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布;
利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
在本公开一个可选的实施例中,所述扩展因子还包括:
所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布中的至少之一。
在本公开一个可选的实施例中,获取训练关键词相关的用户日志,包括:
获取预定时间段内以所述训练关键词作为输入的搜索日志。
在本公开一个可选的实施例中,所述扩展因子包括主题在所述训练关键词上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述用户日志提取第一主题;
计算所述第一主题与所述训练关键词之间的边缘分布;
根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
在本公开一个可选的实施例中,所述扩展因子包括已有***对象信息在主题上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述已有***对象信息提取第二主题;
计算所述第二主题与所述已有***对象信息之间的边缘分布;
根据所述第二主题与所述已有***对象信息之间的边缘分布确定所述已有***对象信息在所述第二主题上的概率分布。
在本公开一个可选的实施例中,所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的。
在本公开一个可选的实施例中,利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型,包括:
将所述训练关键词以及所述扩展因子作为输入,对朴素贝叶斯模型进行训练,最终得到意图识别模型。
根据本公开的实施方式,上文参考相关实施例描述的检索意图识别方法也可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行前述检索意图识别方法的程序代码,以实现:
接收用户输入的查询关键词;
将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据权利要求1-7任一项所述的方法训练得到。
在本公开一个可选的实施例中,将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图,包括:
将所述查询关键词分别输入至预先训练好的不同意图类别对应的意图识别模型中,并得到所述查询关键词与每个意图识别模型的意图识别结果之间的相关度;
根据所述相关度获得所述用户的检索意图。
在这样的实施方式中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (17)
1.一种意图识别模型的确定方法,其特征在于,包括:
获取训练关键词相关的用户日志;
基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;其中,将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的;
利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
2.根据权利要求1所述的意图识别模型的确定方法,其特征在于,获取训练关键词相关的用户日志,包括:
获取预定时间段内以所述训练关键词作为输入的搜索日志。
3.根据权利要求1所述的意图识别模型的确定方法,其特征在于,所述扩展因子包括主题在所述训练关键词上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述用户日志提取第一主题;
计算所述第一主题与所述训练关键词之间的边缘分布;
根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
4.根据权利要求1所述的意图识别模型的确定方法,其特征在于,所述扩展因子包括已有***对象信息在主题上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述已有***对象信息提取第二主题;
计算所述第二主题与所述已有***对象信息之间的边缘分布;
根据所述第二主题与所述已有***对象信息之间的边缘分布确定所述已有***对象信息在所述第二主题上的概率分布。
5.根据权利要求1所述的意图识别模型的确定方法,其特征在于,利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型,包括:
将所述训练关键词以及所述扩展因子作为输入,对朴素贝叶斯模型进行训练,最终得到意图识别模型。
6.一种检索意图识别方法,其特征在于,包括:
接收用户输入的查询关键词;
将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据权利要求1-5任一项所述的方法训练得到。
7.根据权利要求6所述的检索意图识别方法,其特征在于,将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图,包括:
将所述查询关键词分别输入至预先训练好的不同意图类别对应的意图识别模型中,并得到所述查询关键词与每个意图识别模型的意图识别结果之间的相关度;
根据所述相关度获得所述用户的检索意图。
8.一种意图识别模型的确定装置,其特征在于,包括:
获取模块,被配置为获取训练关键词相关的用户日志;
扩展模块,被配置为基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;其中,将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的;
训练模块,被配置为利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
9.一种检索意图识别装置,其特征在于,包括:
接收模块,被配置为接收用户输入的查询关键词;
输入模块,被配置为将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据权利要求8所述的装置训练得到。
10.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
获取训练关键词相关的用户日志;
基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,所述扩展因子包括主题在所述训练关键词上的概率分布、已有***对象信息在主题上的概率分布、所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;其中,将主题在所述训练关键词上的概率分布和已有***对象信息在主题上的概率分布作为PLSA主题模型的输入,确定所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有***对象信息在主题维度上的概率分布;所述PLSA主题模型是预先训练好的;
利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
11.根据权利要求10所述的电子设备,其特征在于,获取训练关键词相关的用户日志,包括:
获取预定时间段内以所述训练关键词作为输入的搜索日志。
12.根据权利要求10所述的电子设备,其特征在于,所述扩展因子包括主题在所述训练关键词上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述用户日志提取第一主题;
计算所述第一主题与所述训练关键词之间的边缘分布;
根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
13.根据权利要求10所述的电子设备,其特征在于,所述扩展因子包括已有***对象信息在主题上的概率分布,则基于所述用户日志以及已有***对象信息确定所述训练关键词的扩展因子,包括:
基于所述已有***对象信息提取第二主题;
计算所述第二主题与所述已有***对象信息之间的边缘分布;
根据所述第二主题与所述已有***对象信息之间的边缘分布确定所述已有***对象信息在所述第二主题上的概率分布。
14.根据权利要求10所述的电子设备,其特征在于,利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型,包括:
将所述训练关键词以及所述扩展因子作为输入,对朴素贝叶斯模型进行训练,最终得到意图识别模型。
15.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
接收用户输入的查询关键词;
将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图;其中,所述意图识别模型根据权利要求10-14任一项所述的电子设备训练得到。
16.根据权利要求15所述的电子设备,其特征在于,将所述查询关键词输入至预先训练好的意图识别模型进行处理,并得到所述用户的检索意图,包括:
将所述查询关键词分别输入至预先训练好的不同意图类别对应的意图识别模型中,并得到所述查询关键词与每个意图识别模型的意图识别结果之间的相关度;
根据所述相关度获得所述用户的检索意图。
17.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910082455.5A CN109815308B (zh) | 2017-10-31 | 2017-10-31 | 意图识别模型的确定及检索意图识别方法、装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910082455.5A CN109815308B (zh) | 2017-10-31 | 2017-10-31 | 意图识别模型的确定及检索意图识别方法、装置 |
CN201711053710.0A CN107862027B (zh) | 2017-10-31 | 2017-10-31 | 检索意图识别方法、装置、电子设备及可读存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711053710.0A Division CN107862027B (zh) | 2017-10-31 | 2017-10-31 | 检索意图识别方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815308A CN109815308A (zh) | 2019-05-28 |
CN109815308B true CN109815308B (zh) | 2021-01-01 |
Family
ID=61696461
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711053710.0A Expired - Fee Related CN107862027B (zh) | 2017-10-31 | 2017-10-31 | 检索意图识别方法、装置、电子设备及可读存储介质 |
CN201910082455.5A Expired - Fee Related CN109815308B (zh) | 2017-10-31 | 2017-10-31 | 意图识别模型的确定及检索意图识别方法、装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711053710.0A Expired - Fee Related CN107862027B (zh) | 2017-10-31 | 2017-10-31 | 检索意图识别方法、装置、电子设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN107862027B (zh) |
WO (1) | WO2019085236A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241269B (zh) * | 2018-07-27 | 2020-07-17 | 深圳追一科技有限公司 | 任务型机器人词槽填充方法 |
CN109543102A (zh) * | 2018-11-12 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 基于视频播放的信息推荐方法、装置及存储介质 |
CN109685545B (zh) * | 2018-11-16 | 2024-06-21 | 北京奇虎科技有限公司 | 待发放虚拟网络资源预估方法、装置及电子设备 |
CN109543190B (zh) * | 2018-11-29 | 2023-06-16 | 北京羽扇智信息科技有限公司 | 一种意图识别方法、装置、设备及存储介质 |
CN109815392A (zh) * | 2018-12-17 | 2019-05-28 | 北京三快在线科技有限公司 | 场景化商家召回方法、装置、电子设备及可读存储介质 |
CN110473008B (zh) * | 2019-07-31 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN110597961B (zh) * | 2019-09-18 | 2023-10-27 | 腾讯云计算(北京)有限责任公司 | 一种文本类目标注方法、装置、电子设备及存储介质 |
CN110825949A (zh) * | 2019-09-19 | 2020-02-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的信息检索方法、及其相关设备 |
WO2021077340A1 (zh) * | 2019-10-23 | 2021-04-29 | 深圳市欢太科技有限公司 | 词条推送方法、装置、电子设备及存储介质 |
CN111178075A (zh) * | 2019-12-19 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种在线客服日志分析方法和装置以及设备 |
CN111126074A (zh) * | 2019-12-24 | 2020-05-08 | 北京神舟航天软件技术有限公司 | 一种检索请求语义扩展方法 |
CN111859100B (zh) * | 2019-12-26 | 2023-11-03 | 北京嘀嘀无限科技发展有限公司 | 一种检索意图转移识别方法及装置 |
CN111324727B (zh) | 2020-02-19 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 用户意图识别方法、装置、设备和可读存储介质 |
CN111400340B (zh) * | 2020-03-12 | 2024-01-09 | 杭州城市大数据运营有限公司 | 一种自然语言处理方法、装置、计算机设备和存储介质 |
CN111310008A (zh) * | 2020-03-20 | 2020-06-19 | 北京三快在线科技有限公司 | 搜索意图识别方法、装置、电子设备和存储介质 |
CN111783440B (zh) * | 2020-07-02 | 2024-04-26 | 北京字节跳动网络技术有限公司 | 意图识别方法、装置、可读介质及电子设备 |
CN111985241B (zh) * | 2020-09-03 | 2023-08-08 | 深圳平安智慧医健科技有限公司 | 医学信息查询方法、装置、电子设备及介质 |
US11948566B2 (en) * | 2021-03-24 | 2024-04-02 | Adobe Inc. | Extensible search, content, and dialog management system with human-in-the-loop curation |
CN113095088B (zh) * | 2021-04-30 | 2022-03-04 | 哈尔滨工业大学 | 一种基于文本的消费意图分析方法 |
CN113343028B (zh) * | 2021-05-31 | 2022-09-02 | 北京达佳互联信息技术有限公司 | 意图确定模型的训练方法和装置 |
CN113342965B (zh) * | 2021-06-24 | 2023-11-14 | 平安国际融资租赁有限公司 | 意图预测及反馈方法、装置、计算机设备及可读存储介质 |
CN114090858B (zh) * | 2022-01-18 | 2022-04-26 | 广州博士信息技术研究院有限公司 | 基于自动化爬虫的资源池对象数据获取方法及*** |
CN114580543B (zh) * | 2022-03-07 | 2023-09-29 | 北京百度网讯科技有限公司 | 模型训练方法、交互日志解析方法、装置、设备及介质 |
CN115269809B (zh) * | 2022-09-19 | 2022-12-30 | 支付宝(杭州)信息技术有限公司 | 意图识别模型的训练方法和装置及意图识别方法和装置 |
CN116308635B (zh) * | 2023-02-23 | 2023-09-29 | 广州快塑电子科技有限公司 | 塑化产业报价结构化方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
CN107133290A (zh) * | 2017-04-19 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009053757A (ja) * | 2007-08-23 | 2009-03-12 | Toshiba Corp | 情報処理装置、入力方法およびプログラム |
US8589395B2 (en) * | 2008-04-15 | 2013-11-19 | Yahoo! Inc. | System and method for trail identification with search results |
US20120143789A1 (en) * | 2010-12-01 | 2012-06-07 | Microsoft Corporation | Click model that accounts for a user's intent when placing a quiery in a search engine |
CN104778176A (zh) * | 2014-01-13 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 一种数据搜索处理方法及装置 |
CN104866474B (zh) * | 2014-02-20 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 个性化数据搜索方法及装置 |
CN103823906A (zh) * | 2014-03-19 | 2014-05-28 | 北京邮电大学 | 一种基于微博数据的多维度检索排序优化算法和工具 |
CN105117487B (zh) * | 2015-09-19 | 2018-11-16 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN106919997B (zh) * | 2015-12-28 | 2020-12-22 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
CN106372132A (zh) * | 2016-08-25 | 2017-02-01 | 北京百度网讯科技有限公司 | 基于人工智能的查询意图预测方法和装置 |
CN106649818B (zh) * | 2016-12-29 | 2020-05-15 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 |
-
2017
- 2017-10-31 CN CN201711053710.0A patent/CN107862027B/zh not_active Expired - Fee Related
- 2017-10-31 CN CN201910082455.5A patent/CN109815308B/zh not_active Expired - Fee Related
- 2017-12-26 WO PCT/CN2017/118779 patent/WO2019085236A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
CN107133290A (zh) * | 2017-04-19 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109815308A (zh) | 2019-05-28 |
WO2019085236A1 (zh) | 2019-05-09 |
CN107862027A (zh) | 2018-03-30 |
CN107862027B (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
CN109376309B (zh) | 基于语义标签的文档推荐方法和装置 | |
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
US10120861B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机***和可读存储介质 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及*** | |
WO2013151546A1 (en) | Contextually propagating semantic knowledge over large datasets | |
US11263400B2 (en) | Identifying entity attribute relations | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
WO2023057988A1 (en) | Generation and use of content briefs for network content authoring | |
Zhu et al. | Real-time personalized twitter search based on semantic expansion and quality model | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
CN113609847A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
US20190095525A1 (en) | Extraction of expression for natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210101 |