CN107832476A

CN107832476A - 一种搜索序列的理解方法、装置、设备和存储介质

Info

Publication number: CN107832476A
Application number: CN201711248658.4A
Authority: CN
Inventors: 王硕寰; 孙宇; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-03-23
Anticipated expiration: 2037-12-01
Also published as: CN107832476B

Abstract

本发明实施例公开了一种搜索序列的理解方法、装置、设备和存储介质。所述方法包括：确定已标注搜索序列中包含的各词的词向量；将预先依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列CNN模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数；依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。该方案可以提高少量样本情况下的模型能力和泛化能力，优化训练模型，提高搜索序列的理解效果。

Description

一种搜索序列的理解方法、装置、设备和存储介质

技术领域

本发明实施例涉及信息处理技术领域，尤其涉及一种搜索序列的理解方法、装置、设备和存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的快速发展，智能客服、智能助手、车载导航和智能家居等越来越多的产品和应用开始尝试引入对话式的人机交互方式。但在实际工作中对话***的研发对于大多数开发者是一个很困难的工作，其中的一个主要技术难点就是搜索序列(Query)理解。Query理解的核心任务是将自然语言转化至机器可处理的形式化语言，建立自然语言与资源和服务的连接。

Query理解可以拆解为三个任务，即领域(Domain)识别(判断Query是否属于本领域，如果不属于本领域就不解析)、意图(Intent)分类(判断Query在该Domain下的细分意图)和槽位(Slot)标注(在该Intent下，标注Query中需关注的参数信息)。目前主要依据本领域的标注样本，利用卷积神经网络(Convolutional Neural Network，CNN)的模型结构做Domain识别，利用循环神经网络(Recurrent neural Network，RNN)或者循环神经网络-条件随机场(Recurrent neural Network-Conditional Random Field，RNN-CRF)的模型结构做Intent/Slot的联合解析。

然而现有技术存在如下问题：1)标注数据的成本代价高，开发者需要标注大量的数据进行模型训练，才能取得理想的Query理解效果。但是当标注数据量比较少时，模型效果受到了制约。2)Query理解模型的泛化能力不强，如果新的Query在字面上和训练集的Query完全不同，可能无法解析。例如开发者在为零食售卖机做Query理解服务，标注了“给我来一瓶可乐”，其中意图是“购买”，单位是“一”，商品为“可乐”。对于新Query“雪碧，2罐”，因为每一个词都没有学过，很难判断出这个Query的意图也是“购买”。除非用户收集并传入领域内的专名词典，很难发现“雪碧”和“可乐”一样，是种商品。3)开发者除了标注好的语料外，一般还有大量的未标注语料，这部分语料隐含着本领域的知识和常见的语法结构，但现有的技术无法使用。4)目前已有很多其他领域的Query理解语料，不同领域间的语料有一定的相似性。目前的技术无法迁移其他领域上的标注语料，优化一个全新领域的Query理解效果。

发明内容

本发明提供一种搜索序列的理解方法、装置、设备和存储介质，可以提高少量样本情况下的模型能力和泛化能力，优化训练模型，提高Query理解效果。

第一方面，本发明实施例提供了一种搜索序列的理解方法，包括：

确定已标注搜索序列中包含的各词的词向量；

将预先依据各统一资源定位符(Uniform Resource Locator,URL)站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列卷积神经网络模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数；

依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

第二方面，本发明实施例还提供了一种搜索序列的理解装置，包括：

词向量确定模块，用于确定已标注搜索序列中包含的各词的词向量；

模型参数模块，用于将预先依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列CNN模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数；

领域识别模型模块，用于依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的搜索序列的理解方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的搜索序列的理解方法。

本发明实施例通过大量搜索Query及其对应的点击结果，确定CNN的领域识别模型以及RNN的的意图/槽位识别模型的底层参数，再用少量的标注数据确定模型的上层参数。由于CNN模型和RNN模型中的底层参数规模很大，通过引入没有标注结果的无监督数据预先训练好底层参数，再通过少量有标注结果的数据对上层的模型参数进行训练，从而通过少量的标注数据即可实现模型训练，并且可以提高少量样本情况下的模型能力和泛化能力，优化训练模型，提高Query理解效果。

附图说明

图1是本发明实施例一中的一种搜索序列的理解方法的流程图；

图1a是本发明实施例一中的领域识别模型示意图；

图2是本发明实施例二中的一种搜索序列的理解方法的流程图；

图2a是本发明实施例二中的领域识别模型预训练示意图；

图3是本发明实施例三中的一种搜索序列的理解方法的流程图；

图3a是本发明实施例三中的一种搜索序列的理解方法的整体流程示意图；

图4是本发明实施例四中的一种搜索序列的理解方法的流程图；

图4a是本发明实施例四中的意图/槽位识别模型预训练示意图；

图4b是本发明实施例四中的意图/槽位识别模型示意图；

图5是本发明实施例五中的一种搜索序列的理解装置的结构示意图；

图6是本发明实施例六中的设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种搜索序列的理解方法的流程图，本实施例可适用于某个特定领域搜索序列理解的情况，该方法可以由一种搜索序列的理解装置来执行，具体包括如下步骤：

步骤110、确定已标注搜索序列中包含的各词的词向量。

在本实施例中，已标注搜索序列是指人工进行标注的有标注结果的搜索序列。具体的，针对某一特定领域，搜索序列的领域标注内容可以是该领域的名称，如电影领域、交通领域等。

其中，词向量可以为通过独热码(one-hot encoding)表示法将一个词表示为一个很长的向量，其维数是词汇表大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表当前的词。而在深度学习中，一般采用分布式表示(DistributedRepresentation)的方法表示词向量，这种方法将词用一种低维实数向量表示,优点在于相似的词在距离上更接近,能体现出不同词之间的相关性，从而反映词之间的依赖关系。本实施例采用分布式表示的方法标识词向量。

步骤120、将预先依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列CNN模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数。

通过搜索数据，记录Query与URL之间的点击行为，统计所有URL可以召回对应的Query。如果用户搜索了一条Query，展现了该URL，并且用户点击了该URL，则将该Query记为有点击Query(用户搜索加以展现)；用户没有点击该URL，则将该Query记为无点击Query。另外，还可以将搜索日志中其他的随机搜索序列作为无点击搜索序列。

其中，所述初始领域识别模型是基于CNN模型建立的，依次包括输入层、隐藏层、卷积层、池化层、暂弃层、全连通层和输出层，且隐藏层、卷积层和池化层的参数确定，全连通层参数未知。

具体的，在本实施例中，我们认为如果不同的两个Query点击的URL或各URL站点名在文本上有相似的地方，这两个Query可能是相关的。通过将其他领域的各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列在CNN模型中训练，得到底层参数：隐藏层参数、卷积层参数和池化层参数，并将这些底层参数作为初始领域识别模型中的底层参数。由于CNN模型中的底层模型参数规模很大，每个词用几百维向量表示，如果有十万个词，底层模型参数就会上亿，而上层的模型参数即全连通层参数，一般只包括几百维乘以几百维的矩阵，参数相对缩小很大，可以通过少量的标注数据学习。

步骤130、依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

具体的，参见图1a，将已标注的搜索序列中包含的各词的词向量作为初始领域识别模型的输入，初始领域识别模型对各词的词向量经过隐藏层(Hidden Layer)、卷积层(Convolution Layer)和池化层(Polling Layer)的底层处理之后，经过暂弃层(DropoutLayer)变换，即随机选择N个向量，如从256维向量中选择一半，再经过全连通层(FullConnect Layer，FCL)变换处理，将经全连通层的处理结果与搜索序列的领域标注进行比较，并依据比较结果调整FCL参数，直到满足迭代条件停止，可以得到全连通层的参数，即实现了领域识别模型的训练。

通过步骤120可以确定领域识别模型中的底层参数，通过步骤130可以确定模型中全连通层的参数，即确定了领域识别模型中的所有参数，得到了领域识别模型，可以对搜索序列进行领域识别。

本实施例通过大量搜索Query及其对应的点击结果，确定基于CNN的领域识别模型的底层参数，再用少量的标注数据确定领域识别模型的全连通层参数。由于CNN模型的底层参数规模很大，通过引入没有标注结果的无监督数据预先训练好底层参数，再通过少量有标注结果的数据对上层的模型参数进行训练，从而通过少量的标注数据即可实现模型训练，并且可以提高少量样本情况下的模型能力和泛化能力，优化训练模型，提高Query理解效果。

实施例二

图2是本发明实施例二中的一种搜索序列的理解方法的流程图。本实施例在上述实施例的基础上，进一步优化了上述搜索序列的理解方法。相应的，如图2所示，本实施例的方法具体包括：

步骤210、确定已标注搜索序列中包含的各词的词向量。

步骤220、获取各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列。

其中，所述URL站点名是URL中的服务器名加域名的组合，例如：若URL为：http://flights.ctrip.com/fuzzy/#ctm_ref＝ctr_nav_flt_fz_pgs，则此URL的服务器名为flights，域名为ctrip.com，站点名为flights.ctrip.com，或者，也可以使用flights.ctrip.com的页面标题作为站点名。

具体的，遍历所有的URL，获取到各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列。

步骤230、确定所述有点击搜索序列中包含的各词的词向量，所述无点击搜索序列中包含的各词的词向量，以及所述URL站点名中包含的各词的词向量。

在本实施例中，确定所述搜索序列或URL站点名中包含的各词的词向量的具体过程可以为：对所述搜索序列或所述URL站点名进行分词，得到所述搜索序列或所述URL站点名中包含的各词；对所述搜索序列或所述URL站点名中包含的各词进行词、词性、命名实体识别得到搜索序列或URL站点名中包含的各词的词向量。本实施例通过融合词、词性、命名实体等特征确定词向量。

步骤240、采用第一CNN模型依据所述有点击搜索序列中包含的各词的词向量确定有点击搜索向量，采用第一CNN模型依据所述无点击搜索序列中包含的各词的词向量确定无点击搜索向量，采用第二CNN模型依据所述URL站点名中包含的各词的词向量确定站点名向量。

具体的，参见图2a，有点击搜索序列QueryA和无点击搜索序列QueryB可以共用第一CNN模型进行训练，分别得到有点击搜索向量和无点击搜索向量，所述URL站点名采用另外的第二CNN模型进行训练，得到站点名向量。

步骤250、依据有点击搜索向量与站点名向量之间的第一相似度，以及无点击搜索向量与站点名向量之间的第二相似度，对所述第一CNN模型和所述第二CNN模型进行优化，将优化后的第一CNN模型作为所述搜索序列CNN模型。

具体的，参见图2a，计算站点名向量分别与有点击搜索向量和无点击搜索向量之间的相似度，得到第一相似度Similar_Score(QueryA,URL)和第二相似度Similar_Score(QueryB,URL)。然后通过反向传播(Back Propagation，BP)算法最小化损失(Loss)函数来对所述第一CNN模型和所述第二CNN模型进行优化，将优化后的第一CNN模型作为所述搜索序列CNN模型。

其中，所述Loss函数可以表示为：

其中，Similar(V_有点Q,V_T)为第一相似度，Similar(V_无点Q,V_T)为第二相似度，margin为常量。

步骤260、将预先依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列CNN模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数。

具体的，将步骤250确定的所述搜索序列CNN模型的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数，即确定了初始领域识别模型的底层参数。

步骤270、依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

具体的，可以迁移步骤250中的所述初始领域识别模型的底层参数作为领域识别模型中的底层参数。依据已标注搜索序列的领域标注，已标注搜索序列中包含的各词的词向量，以及未标注搜索序列中包含的各词的词向量对所述初始领域识别模型进行虚拟监督训练，先经过暂弃层变换，再经过全连通层变换后可以确定全连通层的参数。由此，得到了领域识别模型的底层参数和全连通层的参数，即得到了领域识别模型，可以对搜索序列进行领域识别。

实施例三

图3是本发明实施例三中的一种搜索序列的理解方法的流程图。本实施例在上述实施例的基础上，具体说明上述搜索序列的理解方法中的领域识别、意图识别和槽位识别的模型确定。相应的，本实施例的方法具体包括：

步骤310、确定已标注搜索序列中包含的各词的词向量。

步骤320、将预先依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列CNN模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数。

步骤321、依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

步骤322、依据已标注搜索序列的领域标注，已标注搜索序列中包含的各词的词向量，以及未标注搜索序列中包含的各词的词向量对所述初始领域识别模型进行虚拟监督训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

步骤330、将预先依据搜索序列训练得到的双向RNN语言模型中的隐藏层参数作为初始意图识别模型和初始槽位识别模型中的隐藏层参数。

步骤331、依据所述已标注搜索序列的意图标注对所述初始意图识别模型进行训练确定所述初始意图识别模型中的全连通层参数，以得到意图识别模型；或者，依据所述已标注搜索序列的槽位标注对所述初始槽位识别模型进行训练确定所述初始槽位识别模型中的全连通层参数和条件随机场层参数，以得到槽位识别模型。

步骤332、依据已标注搜索序列的意图标注，已标注搜索序列中包含的各词的词向量，以及未标注搜索序列中包含的各词的词向量对所述初始意图识别模型进行虚拟监督训练确定所述初始意图识别模型中的全连通层参数，以得到意图识别模型。

步骤333、依据已标注搜索序列的槽位标注，已标注搜索序列中包含的各词的词向量，以及未标注搜索序列中包含的各词的词向量对所述初始槽位识别模型进行虚拟监督训练确定所述初始槽位中的全连通层参数和条件随机场层参数，以得到槽位识别模型。

需要说明的是，步骤320和步骤330是并行的，没有先后顺序，也可以。

在本实施例中，若有本领域的未标注搜索序列，则优选的可以采用虚拟对抗训练技术(Virtual Adversarial Training)引入无监督的数据和标注好的数据一起，进行半监督的训练；对于有标注搜索序列也可以采用该虚拟对抗训练技术进行半监督训练。参见步骤322、步骤332和步骤333采用该虚拟对抗训练技术分别得到领域识别模型、意图识别模型和槽位识别模型。对于无标注结果的垂类数据，对其的领域、意图与槽位的概率分布，分别用最小化损失函数确定对识别结果扰动最大的方向，扰动后的识别结果与原来样本的识别结果差异尽可能的小。其中，最小化损失函数可以表示为：

其中，S表示样本，d表示扰动方向，p为意图或者槽位的概率分布，KL为其KL散度，r_v-adv为KL散度变化最大的方向，通过导数求出N′为有标注样本和无标注样本的总和。

图3a是本发明实施例三中的一种搜索序列的理解方法的整体流程示意图。在***集成中通过大量搜索Query数据及其对应的点击行为结果，得到有点击Query和无点击Query的词向量，并根据所述词向量可以得到CNN多特征分类模型，然后依据有标注数据和上述CNN多特征分类模型可以得到CNN的Domain模型。同时，根据搜索的Query数据也可以训练得到双向-循环神经网络(Bi-Recurrent neural Network，Bi-RNN)多特征语言模型，然后根据有标注数据和上述Bi-RNN多特征语言模型可以得到双向-循环神经网络-条件随机场(Bi-Recurrent neural Network-Conditional Random Field，Bi-RNN-CRF)的Intent/Slot模型。若有无标注的数据时，可以采用虚拟对抗训练技术可以引入无监督的数据和标注好的数据一起，进行半监督的训练，得到CNN的Domain模型和Bi-RNN-CRF的Intent/Slot模型。所述CNN的Domain模型和Bi-RNN-CRF的Intent/Slot模型供用户使用。

本发明实施例通过大量搜索Query及其对应的点击结果，确定基于CNN的领域识别模型以及基于双向RNN语言模型的意图/槽位识别模型的底层参数，再用少量的标注数据确定领域识别模型和意图/槽位识别模型的上层参数；并且对于未标注搜索序列和有标注搜索序列都可以采用虚拟对抗训练技术进行半监督训练。由于引入没有标注结果的无监督数据预先训练好底层参数，再通过少量有标注结果的数据对上层的模型参数进行训练，从而通过少量的标注数据即可实现模型训练，可以提高少量样本情况下的模型能力和泛化能力；采用虚拟对抗训练技术可以减少特征的微小差别对结果的影响，增加平滑性，优化训练模型，提高Query理解效果。

实施例四

图4是本发明实施例四中的一种搜索序列的理解方法的流程图。本实施例在上述实施例的基础上，进一步优化上述搜索序列的理解方法中的意图识别和槽位识别的模型确定。相应的，本实施例的方法具体包括：

步骤410、确定已标注搜索序列中包含的各词的词向量。

步骤420、确定搜索序列中包含的各词的词向量。

在本实施例中，确定搜索序列包含的各词的词向量的具体过程可以为：对所述搜索序列进行分词，得到所述搜索序列中包含的各词；对所述搜索序列中包含的各词进行词、词性、命名实体识别得到搜索序列中包含的各词的词向量。本实施例通过融合词、词性、命名实体等特征确定词向量。

步骤430、将搜索序列中包含的各词的词向量作为双向RNN语言模型的输入，通过所述双向RNN语言模型中的前向循环神经网络预测下一个词，反向循环神经网络预测前一个词，并依据预测结果调整所述双向RNN语言模型中的前向循环神经网络的隐藏层参数和反向循环神经网络的隐藏层参数。

具体的，参见图4a，将搜索序列中包含的各词的词向量作为双向RNN语言模型的输入，经过嵌入层(Embedding Layer)处理，再通过双向RNN语言模型层(RNN Layer)中的前向循环神经网络预测下一个词，反向循环神经网络预测前一个词，并依据预测结果调整所述双向RNN语言模型中的前向循环神经网络的隐藏层参数和反向循环神经网络的隐藏层参数。将所述前向循环神经网络的隐藏层参数和反向循环神经网络的隐藏层参数拼接后可以得到双向RNN语言模型中的隐藏层参数。其中，所述双向RNN语言模型也可以通过BP算法进行优化。

步骤440、将预先依据搜索序列训练得到的双向RNN语言模型中的隐藏层参数作为初始意图识别模型和初始槽位识别模型中的隐藏层参数。

其中，所述初始意图识别模型包括输入层、隐藏层、词表示层、暂弃层、序列表示层、全连通层和输出层，其中序列表示层用于将暂弃层输出的各词表示进行拼接得到序列的整体表示，所述初始槽位识别模型包括输入层、隐藏层、词表示层、暂弃层、全连通层、条件随机场层和输出层，且隐藏层、词表示层和暂弃层的参数确定，全连通层和条件随机场层参数未知。

具体的，通过步骤430中将搜索序列在双向RNN语言模型中训练，得到底层参数：隐藏层参数，并将该底层参数作为初始意图识别模型和初始槽位识别模型中的底层参数。

步骤450、依据所述已标注搜索序列的意图标注对所述初始意图识别模型进行训练确定所述初始意图识别模型中的全连通层参数，以得到意图识别模型；或者，依据所述已标注搜索序列的槽位标注对所述初始槽位识别模型进行训练确定所述初始槽位识别模型中的全连通层参数和条件随机场层参数，以得到槽位识别模型。

具体的，参见图4b，将已标注搜索序列的意图标注作为初始意图识别模型的输入，初始意图识别模型对意图标注经过隐藏层、词表示层和暂弃层的底层处理之后，再经过序列表示层、全连通层变换和Softmax分类函数的处理，可以确定全连通层的参数，即实现了意图识别模型的训练。

或者，参见图4b，将已标注搜索序列的槽位标注作为初始槽位识别模型的输入，初始槽位识别模型对槽位标注经过隐藏层、表示层和暂弃层的底层处理之后，经过条件随机场层(Conditional Random Field layer，CRFlayer)，建模槽位标签的开始概率(a)，转移概率(w)和终结概率(b)对于一个标注结果得到CRF参数；再经过全连通层变换，可以确定全连通层的参数，即实现了槽位识别模型的训练。

本发明实施例通过大量搜索Query及其对应的点击结果，确定基于双向RNN语言模型的意图/槽位识别模型的底层参数，再用少量的标注数据确定领域识别模型和意图/槽位识别模型的上层参数。由于RNN模型的底层参数规模很大，通过引入没有标注结果的无监督数据预先训练好底层参数，再通过少量有标注结果的数据对上层的模型参数进行训练，从而通过少量的标注数据即可实现模型训练，并且可以提高少量样本情况下的模型能力和泛化能力，优化训练模型，提高Query理解效果。

实施例五

图5是本发明实施例五中的一种搜索序列的理解装置的结构示意图，所述装置可以包括：

词向量确定模块510，用于确定已标注搜索序列中包含的各词的词向量；

模型参数模块520，用于将预先依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列CNN模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数；

领域识别模型模块530，用于依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

示例性的，该装置还可以包括CNN模型模块，具体用于：

获取各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列；

确定所述有点击搜索序列中包含的各词的词向量，所述无点击搜索序列中包含的各词的词向量，以及所述URL站点名中包含的各词的词向量；

采用第一CNN模型依据所述有点击搜索序列中包含的各词的词向量确定有点击搜索向量，采用第一CNN模型依据所述无点击搜索序列中包含的各词的词向量确定无点击搜索向量，采用第二CNN模型依据所述URL站点名中包含的各词的词向量确定站点名向量；

依据有点击搜索向量与站点名向量之间的第一相似度，以及无点击搜索向量与站点名向量之间的第二相似度，对所述第一CNN模型和所述第二CNN模型进行优化，将优化后的第一CNN模型作为所述搜索序列CNN模型。

示例性的，该装置还可以包括意图/槽位识别模型模块，具体用于：

在确定已标注搜索序列中包含的各词的词向量之后，将预先依据搜索序列训练得到的双向RNN语言模型中的隐藏层参数作为初始意图识别模型和初始槽位识别模型中的隐藏层参数；

依据所述已标注搜索序列的意图标注对所述初始意图识别模型进行训练确定所述初始意图识别模型中的全连通层参数，以得到意图识别模型；或者，依据所述已标注搜索序列的槽位标注对所述初始槽位识别模型进行训练确定所述初始槽位识别模型中的全连通层参数和条件随机场层参数，以得到槽位识别模型。

进一步的，该装置还可以包括双向RNN语言模型参数模块，具体用于：

确定搜索序列中包含的各词的词向量；

将搜索序列中包含的各词的词向量作为双向RNN语言模型的输入，通过所述双向RNN语言模型中的前向循环神经网络预测下一个词，反向循环神经网络预测前一个词，并依据预测结果调整所述双向RNN语言模型中的前向循环神经网络的隐藏层参数和反向循环神经网络的隐藏层参数。

示例性的，该装置还可以包括词向量模块，具体用于：

对所述搜索序列或所述URL站点名进行分词，得到所述搜索序列或所述URL站点名中包含的各词；

对所述搜索序列或所述URL站点名中包含的各词进行词、词性、命名实体识别得到搜索序列或URL站点名中包含的各词的词向量。

示例性的，所述领域识别模型模块具体可以用于：

依据已标注搜索序列的领域标注，已标注搜索序列中包含的各词的词向量，以及未标注搜索序列中包含的各词的词向量对所述初始领域识别模型进行虚拟监督训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型。

示例性的，所述意图识别模型模块具体可以用于：

依据已标注搜索序列的意图标注，已标注搜索序列中包含的各词的词向量，以及未标注搜索序列中包含的各词的词向量对所述初始意图识别模型进行虚拟监督训练确定所述初始意图识别模型中的全连通层参数，以得到意图识别模型。

示例性的，所述槽位识别模型模块具体可以用于：

依据已标注搜索序列的槽位标注，已标注搜索序列中包含的各词的词向量，以及未标注搜索序列中包含的各词的词向量对所述初始槽位识别模型进行虚拟监督训练确定所述初始槽位中的全连通层参数和条件随机场层参数，以得到槽位识别模型。

本发明实施例所提供的一种搜索序列的理解装置可执行本发明任意实施例所提供的搜索序列的理解方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六中的设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备612的框图。图6显示的设备612仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，设备612以通用计算设备的形式表现。设备612的组件可以包括但不限于：一个或者多个处理器616，***存储器628，连接不同***组件(包括***存储器628和处理器616)的总线618。

总线618表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器616或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

设备612典型地包括多种计算机***可读介质。这些介质可以是任何能够被设备612访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器628可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)630和/或高速缓存存储器632。设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***634可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块642的程序/实用工具640，可以存储在例如存储器628中，这样的程序模块642包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。

设备612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信，还可与一个或者多个使得用户能与该设备612交互的设备通信，和/或与使得该设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且，设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器620通过总线618与设备612的其它模块通信。应当明白，尽管图中未示出，可以结合设备612使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器616通过运行存储在***存储器628中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的搜索序列的理解方法，该方法包括：

确定已标注搜索序列中包含的各词的词向量；

将预先依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到的搜索序列CNN模型中的隐藏层参数、卷积层参数和池化层参数作为初始领域识别模型中的隐藏层参数、卷积层参数和池化层参数；

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的搜索序列的理解方法，该方法包括：

确定已标注搜索序列中包含的各词的词向量；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种搜索序列的理解方法，其特征在于，包括：

确定已标注搜索序列中包含的各词的词向量；

2.根据权利要求1所述的方法，其特征在于，所述依据各URL站点名以及各URL站点名的有点击搜索序列和无点击搜索序列训练得到搜索序列CNN模型包括：

3.根据权利要求1所述的方法，其特征在于，所述确定已标注搜索序列中包含的各词的词向量之后，还包括：

将预先依据搜索序列训练得到的双向RNN语言模型中的隐藏层参数作为初始意图识别模型和初始槽位识别模型中的隐藏层参数；

4.根据权利要求3所述的方法，其特征在于，所述依据搜索序列训练得到的双向RNN语言模型包括：

确定搜索序列中包含的各词的词向量；

5.根据权利要求2或权利要求4所述的方法，其特征在于，所述确定搜索序列或URL站点名中包含的各词的词向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述依据所述已标注搜索序列的领域标注，以及所述已标注搜索序列中包含的各词的词向量，对所述初始领域识别模型进行训练确定所述初始领域识别模型中的全连通层参数，以得到领域识别模型，包括：

7.根据权利要求4所述的方法，其特征在于，所述依据所述已标注搜索序列的意图标注对所述初始意图识别模型进行训练确定所述初始意图识别模型中的全连通层参数，以得到意图识别模型，包括：

8.根据权利要求4所述的方法，其特征在于，所述依据所述已标注搜索序列的槽位标注对所述初始槽位识别模型进行训练确定所述初始槽位识别模型中的全连通层参数和条件随机场层参数，以得到槽位识别模型，包括：

9.一种搜索序列的理解装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，还包括CNN模型模块，具体用于：

11.根据权利要求9所述的装置，其特征在于，还包括意图/槽位识别模型模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，还包括双向RNN语言模型参数模块，具体用于：

确定搜索序列中包含的各词的词向量；

13.根据权利要求10或权利要求12所述的装置，其特征在于，还包括词向量模块，具体用于：

14.根据权利要求9所述的装置，其特征在于，所述领域识别模型模块具体用于：

15.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的搜索序列的理解方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的搜索序列的理解方法。