CN108920622A

CN108920622A - 一种意图识别的训练方法、训练装置和识别装置

Info

Publication number: CN108920622A
Application number: CN201810694995.4A
Authority: CN
Inventors: 符文君; 吴友政
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-30
Anticipated expiration: 2038-06-29
Also published as: CN108920622B

Abstract

一种意图识别的训练方法、装置和识别装置，方法包括：获取与语料库文本中的语料对应的语料库文本向量；构建训练模型的联合损失函数公式；获取训练数据；对训练数据进行切分处理后映射到对应的语料库文本向量，记为训练向量；采用训练模型对训练样本向量进行预测，依据预测结果，计算各训练模型的损失函数值；基于各模型的损失函数值计算联合损失函数值，判断联合损失函数值是否小于设定阈值，如果是，训练结束，如果否，更新各模型参数，继续迭代训练。从而能够尽可能提高意图识别的泛化能力，解决语义歧义和容错问题。

Description

一种意图识别的训练方法、训练装置和识别装置

技术领域

本发明涉及智能技术领域，具体涉及一种基于多任务学习的意图识别的训练方法、训练装置和识别装置。

背景技术

“意图识别”指的是对用户输入的一段用于表达查询需求的信息，判定所属的意图类别。目前的意图识别技术主要应用于搜索引擎、人机对话***等，具体可以分为基于模板/词库和基于有监督分类的方法，基于模板/词库的方法从用户历史输入中挖掘特定的意图模版/词库，如果用户输入与对应类别的模版/词库中的词相匹配，则认为该输入属于此意图类别；基于有监督分类的方法则基于历史输入数据构建意图分类模型，预测用户输入意图类别。申请人经研究发现，目前技术存在的缺陷主要在于以下几方面：

①、泛化能力，基于模板的方法受限于模板和词库覆盖率问题，基于有监督分类的方法则受限于训练语料数据规模和数据质量问题。

②、歧义问题、语义缺失和容错问题，短文本往往存在不完整、语义缺失、及输入错误等问题，如，用户输入“玩且熊的夜后”，实际是想搜索“玩具熊的午夜后宫”。

此外，一些现有技术也尝试基于多任务学习的方法来进行分类。然而该方法也存在两个问题：首先，该方法基于其它任务训练得到文本向量，然后和目标任务的文本向量进行拼接后，再训练本任务的分类器，其它任务的误差有可能对本任务带来负面影响；其次，如果其它任务与当前任务无关，引入大量无关的外部信息，反而可能会对分类结果带来扰动。

因此，如何解决意图识别中存在的语义缺失、容错、歧义及泛化问题，成为本领域技术人员亟待解决的技术问题之一。

发明内容

有鉴于此，本发明实施例提供了一种基于多任务学习的意图识别的训练方法、训练装置和识别装置，以解决意图识别时的模型泛化能力，歧义问题和语义容错问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种意图识别的训练方法，包括：

将语料库文本中的语料映射到语义空间，得到与所述与语料对应的低维稠密向量，记为语料库文本向量；

构建所述训练模型的联合损失函数公式，所述训练模型包括意图识别模型、相似短文本生成模型和实体识别模型；

获取针对所述训练模型的训练数据；

对所述训练数据进行切分处理，将处理后的训练数据映射到对应的语料库文本向量，记为训练向量；

将所述训练向量输入至所述训练模型，基于训练模型输出的预测结果和所述训练向量对应的真实结果，计算得到所述意图识别模型、相似短文本生成模型和实体识别模型的损失函数值；

将各个模型的损失函数值带入所述联合损失函数公式得到联合损失函数值；

判断所述联合损失函数值是否小于设定值，如果否，调整所述意图识别模型、相似短文本生成模型和实体识别模型的训练参数，以降低模型的损失函数值，继续迭代训练，如果是，训练结束。

优选的，上述意图识别的训练方法中，构建所述训练模型的联合损失函数公式，包括：

构建意图识别模型、相似短文本生成模型和实体识别模型的联合损失函数公式：loss_total＝α*loss_{intent_recognition}+β*loss_{sim_query_generation}+γ*loss_{entity_recognition}，其中，所述α、β和γ为预设的损失权重因子，所述loss_{intent_recognition}为意图识别模型的损失函数，所述loss_{entity_recognition}为实体识别模型的损失函数，所述loss_{sim_query_generation}为相似文本生成模型的损失函数。

优选的，上述意图识别的训练方法中，所述将语料库文本中的语料映射到语义空间，得到与所述与语料对应的低维稠密向量，包括：

将语料数据库中的语料进行字层面、词层面或拼音层面的相应粒度的切分；

基于神经网络模型对切分后的文本进行训练，将其表示为低维稠密向量，所述低维稠密向量包括字向量、词向量或拼音向量。

优选的，上述意图识别的训练方法中，针对意图识别任务进行建模得到意图识别模型，包括：

采用LSTM模型针对意图识别任务进行建模，得到意图识别模型，所述意图识别模型的输入为查询query，输出为意图类别标签。

优选的，上述意图识别的训练方法中，针对相似短文本进行建模得到相似短文本生成模型，包括：

采用Seq2Seq模型针对相似短文本进行建得到相似短文本生成模型，所述相似短文本生成模型的输入为用户输入查询query,输出为相似的短文本。

优选的，上述意图识别的训练方法中，针对实体识别任务进行建模得到实体识别任务模型，包括：

基于卷积神经网络构建多分类模型，采用所述多分类模型作为实体识别任务模型基于训练数据对实体识别任务进行训练，所述训练数据为：包含所需识别的文本中所包含的实体的上下文文本，模型输入为包含实体的短文本，输出为实体类型标签。

一种意图识别的训练装置，包括：

语料向量训练单元，用于将语料库文本中的语料映射到语义空间，得到与所述与语料对应的低维稠密向量，记为语料库文本向量；

模型存储单元，用于存储有意图识别模型、相似短文本生成模型和实体识别模型；

联合损失函数公式存储单元，用于存储训练模型的联合损失函数公式，所述训练模型包括意图识别模型、相似短文本生成模型和实体识别模型；

训练数据采集单元，用于获取针对所述训练模型的训练数据；

训练向量采集单元，用于对所述训练数据进行切分处理，将处理后的训练数据映射到对应的语料库文本向量，记为训练向量；

损失函数值计算单元，用于将所述训练向量输入至所述训练模型，基于训练模型输出的预测结果和所述训练向量对应的真实结果，计算得到所述意图识别模型、相似短文本生成模型和实体识别模型的损失函数值，将各个模型的损失函数值带入所述联合损失函数公式得到联合损失函数值；

参数调整单元，用于判断所述联合损失函数值是否小于设定值，如果否，调整所述意图识别模型、相似短文本生成模型和实体识别模型的训练参数，以降低模型的损失函数值，继续迭代训练，如果是，训练结束。

优选的，上述意图识别的训练装置中，所述联合损失函数公式为：

loss_total＝α*loss_{intent_recognition}+β*loss_{sim_query_generation}+γ*loss_{entity_recognition}，其中，所述α、β和γ为预设的损失权重因子，所述loss_{intent_recognition}为意图识别模型的损失函数，所述loss_{entity_recognition}为实体识别模型的损失函数，所述loss_{sim_query_generation}为相似文本生成模型的损失函数。

优选的，上述意图识别的训练装置中，所述语料向量训练单元，具体用于：

优选的，上述意图识别的训练装置中，所述模型存储单元中存储的意图识别模型为：

采用LSTM模型针对意图识别任务进行建模，得到的意图识别模型，所述意图识别模型的输入为查询query，输出为意图类别标签；

所述模型存储单元中存储的相似短文本生成模型为：

采用Seq2Seq模型针对相似短文本进行建得到相似短文本生成模型，所述相似短文本生成模型的输入为用户输入查询query,输出为相似的短文本；

所述模型存储单元中存储的实体识别任务模型为：

基于卷积神经网络构建的多分类模型，所述多分类模型的训练数据为：包含所需识别的文本中所包含的实体的上下文文本，模型输入为包含实体的短文本，输出为实体类型标签。

一种意图识别设备，包括存储器和处理器；

所述存储器中存储有上述任意一项意图识别的训练方法训练得到的意图识别模型、相似短文本生成模型和实体识别模型，所述处理器用于当获取到用户查询query时，调用并执行所述意图识别模型、相似短文本生成模型和实体识别模型。

基于上述技术方案，本发明实施例提供的上述方案，能够基于多任务学习的方式采用获取针对意图识别模型、相似短文本生成模型和实体识别模型对输入文本进行处理，能够更有效地学习相关的语言知识，提高意图识别模型的泛化能力，能够尽可能解决意图识别中存在的语义歧义的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种意图识别的训练方法的流程示意图；

图2为基于LSTM模型构建意图识别模型的示例；

图3为本申请提供的一种意图识别的训练装置的结构示意图；

图4为本申请实施例公开的一种意图识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对于现有技术中对输入文本进行意图识别时，经常出现歧义的问题，本申请公开了一种意图识别的训练方法，参见图1，该方法可以包括：

步骤S101：对预料数据库中的语料进行训练得到与语料对应的文本向量；

具体的，本步骤中，将语料库文本中的语料映射到语义空间，得到与所述与语料对应的低维稠密向量，记为语料库文本向量，所述低维稠密向量的具体方式可以为字向量、词向量、拼音向量，在训练时，所采用的训练模型可以采用word2vec等模型。其中，所述语料数据库中存储有用户的历史文本输入信息、点击日志以及语音识别结果信息等语料，这些语料具体为文本形式，其中，文本输入信息即为用户通过输入设备键入的输入数据，所述点击日志指的是用户所点击的链接内容，例如用户进行搜索，通过鼠标点击并打开一个链接时，点击的内容和对应的query即保存在点击日志中，所述语音信息为用户通过语音搜索或进行其他语音交互时的语音内容，其中，语音信息可以先通过语音识别技术转换为相匹配的文字后在作为语音语料存储于所述语料数据库中。具体的，所述语料数据库可以通过预设的数据抓取应用由电子设备中各个***的日志中抓取相应的语料，例如，所述语料数据库中的语料可以是通过数据抓取应用从搜索查询日志、点击日志、问答知识库标题、微博、语音对话日志等海量短信息数据中获取得到，将抓取到的历史输入文本信息、点击日志信息以及语音信息等保存至所述语料数据库。

本步骤具体包括以下几个步骤：首先，将语料数据库中的某个文本(语料)先进行相应字层面/词层面/拼音层面的粒度切分，然后，基于神经网络模型进行训练，将切分后的文本表示为低维稠密的实数向量。例如，文本为“中国人民”，此时，基于字/词/拼音对文本进行切分后，可以得到“中/国/人/民”、“中国/人民”、“zhongguo/renmin”。上述方案中获取与文本对应的字向量，是为了解决未登录词问题，获取与文本对应的拼音向量，是为了解决兼容语音识别的错误转换问题。当然，为了便于数据存储及提取，本申请可以以矩阵的形式存储每个语料对应的语料库文本向量，具体的，在得到语料对应的低维稠密向量后，基于word2vec模型对语料对应的各个低维稠密向量进行组合，得到所述文本对应的特征向量矩阵。例如，具体实施时选择的是100维的字向量，那么训练完毕后，该“中/国/人/民”得到一个对应的4*100的字向量矩阵，矩阵的每行对应一个单字的向量，每列表示的是字向量的每一维，如下：

“中”[-0.1111,0.111,……,0.1233]

“国”[0.5324,0.3678,……,-0.1111]

“人”[-0.1111,0.1915,……,0.4996]

“民”[-0.1111,0.8113,……,0.3267]。

步骤S102：构建所述训练模型的联合损失函数公式，所述训练模型包括意图识别模型、相似短文本生成模型和实体识别模型；

在构建所述训练模型的联合损失函数公式之前，还需要针对各个任务进行建模得到训练模型，具体的：

分别针对意图识别任务、相似短文本任务和实体识别任务进行建模，得到意图识别模型、相似短文本生成模型和实体识别模型；

对于意图识别任务，在对意图识别任务进行训练时，训练数据为用户输入的查询query和与所述查询query对应的意图类别标签，首先将查询query进行分词或分字后，基于步骤S101的训练结果得到每个词或字映射到对应的向量，然后对每个词或字映射到对应的所有向量求平均，得到该查询query对应的向量,记为V1，随后对所述查询query进行实体识别，查看查询query是否匹配上预设的正则模式表中的特定模式，例如：“播放老九门”，老九门由所述预设的正则模式表识别为album，匹配上所述正则模式表中的模式：播放album，则该查询query得到对应的K维向量V2，其中，K为正则模式表中的模式个数，如果第i维取值为1，则代表查询query匹配上正则模式表中的第i个模式，取值为0则代表未匹配上正则模式表中的模式。随后将V1和V2作为预设神经网络模型的输入。本实施例中，神经网络的结构包括输入层、lstm层、dense layer层和skip layer层。具体可参见图2示例。

在本实施例中，例如，对于视频搜索引擎，输入的查询query为“播放老九门”，则输出的意图类别标签为“PLAY_VIDEO”,输入的查询query为“下载王者荣耀”，则输出的意图类别标签为“DOWNLOAD_GAME”,输入的查询query为“会员充值”，则输出的意图标签为“PURCHASE”。

对于相似短文本生成任务，其训练数据为相似短文本对，具体包括以下三类：①、查询query,与该查询query点击了同一文档的查询query，②、查询query，同一session的查询query，③、查询query，以及查询query所点击的title。在对相似短文本生成任务进行建模时，基于Seq2Seq模型针对相似短文本进行建模得到相似短文本生成模型，该相似短文本生成模型的输入为用户查询query,输出为与所述查询query相似的短文本。

Seq2seq模型的目标是基于给定序列X，输出序列Y，损失函数值采用交叉熵计算得到。Seq2seq模型由encoder和decoder两个循环神经网络组成，encoder神经网络将输入序列转换为一个固定长度的向量，decoder神经网络根据encoder神经网络生成的向量，生成一个新的序列。模型训练时，encoder神经网络的向量与其它任务共享。预测文本时，例如：模型的输入为：“如何购买会员”，encoder神经网络将该段文本逐个字或逐个词依次输入至网络，将其转换为一个固定长度的向量，decoder神经网络将该固定长度的向量转换为新文本输出，例如输出“怎么样给会员充值”。

对于实体识别任务，基于卷积神经网络构建多分类模型作为实体识别模型，采用所述多分类模型基于训练数据对实体识别任务进行训练，所述实体识别模型的训练数据为：包含该实体的上下文文本，模型输入为包含实体的短文本,输出为实体类型标签。训练数据具体来源可以为：百科等互联网公开语料资源，或由应用相关人员手工标注构建的语料数据。

在本实施例中，卷积神经网络架构包括如下几层：向量查找层，线性转换层1，Sigmoid层，线性转换层2，整句分析层。在对所述卷积神经网络进行训练时，神经网络模型基于随机梯度下降算法，采用交叉熵损失函数值进行训练。在预测输入文本的实体类型标签时，例如，对于输入“北京市”，在时刻t，***待处理汉字为“北”，经过向量查找层将所述“北”映射为实数向量，传输到线性转换层，经过线性层和sigmoid层的处理后，***对“北”的对应所有可能标记进行打分，标注概率最大的标记，分值越高标识概率越大。在下一时刻t+1,***接着处理句子中的下一个汉字“京”。在句子解析层，针对处理的文本生成分值网络，其中，第t列的节点是t时刻待处理汉字对应的所有实体类型标签的分值，t+1列的节点与t列的节点之间连线标识转移概率，用来描述标签之间的转换可能性，最后基于viterbi算法，在网络中找到总体得分最高的路径，作为最终的标记序列。例如，“北京市”对应的实体类型标签路径即为“B-LOC I-LOC I-LOC”。

训练模型构建完成后，构建每个训练模型的损失函数值，其中，意图识别模型的损失函数值为loss_{intent_recognition}，实体识别模型的损失函数值为loss_{entity_recognition}，相似文本生成模型的损失函数值为所述loss_{intent_recognition}、loss_{entity_recognition}和loss_{sim_query_generation}的值可以在对训练模型进行训练时采用均方差或者交叉熵法得到。为每个损失函数值赋予一特定的损失权重因子，将赋予损失权重因子之后的三个损失函数值之和作为意图识别模型、相似短文本生成模型和实体识别模型的联合损失函数值，即，通过联合损失函数公式：

loss_total＝α*loss_{intent_recognition}+β*loss_{sim_query_generation}+γ*loss_{entity_recognition}计算得得到联合损失函数值loss_total，其中，其中α、β和γ分别为loss_{intent_recognition}、loss_{entity_recognition}和loss_{sim_query_generation}的损失权重因子，所述α、β和γ的取值在(0，1)之间，其具体值可以依据用户需求自行调节。即，三个模型各有损失函数，设x为用户输入，此时，意图识别模型的损失函数为f1(x)，相当于loss_{intent_recognition},相似短文本模型的损失函数为f2(x),相当于loss_{entity_recognition}，实体识别模型的损失函数为f3(x)，相当于loss_{sim_query_generation},则联合损失函数为3个损失函数的线性加权，a*f1(x)+c*f2(x)+b*f3(x)，其中a相当于α，b相当于β，c相当于γ。

步骤S103：获取针对所述训练模型的训练数据；

其中，所述训练数据包括针对意图识别模型、相似短文本生成模型和实体识别模型的训练数据；

在本步骤中，所述训练数据为预设的训练数据集合中的一些数据，其具体数据内容可以依据用户需求自行选择，将所述训练数据作为上述各个模型的输入文本，且每个训练数据对应的实际的相似短文本和类别值是已知的。

步骤S104：对所述训练数据进行切分处理；

本步骤具体包括：对所述意图识别模型、相似短文本生成模型和实体识别模型的训练数据进行分词、分字或字词混合切分处理；

步骤S105：将处理后的训练数据映射到对应的语料库文本向量，记为训练向量；

对各个模型的输入文本进行分词或分字、或字词混合切分，当输入文本为中文文本时，可以选择基于隐马尔可夫、字符或条件随机场的分词模型对输入文本进行切分，当输入文本为英文文本时，可选择基于标点及空格作为分隔符进行切分，如果实施方式选择分词，输入文本为：“我想看老九门”，该输入文本被切分为“我/想/看/老九门”。如输入文本为“I want to play game”，该输入文本被切分为“I/want/to/play/game”；如果实施方式选择分字，则按字符切分即可，如可将输入文本“我想看老九门”切分为“我/想/看/老/九/门”，此外，根据应用需要，也可以选择字词混合切分，例如，对输入文本中的中文按字符切分方式对输入文本进行切分，对输入文本中的英文按词切分方式对输入文本进行切分，如：“我/想/看/billions”。

在对各个模型输入的训练数据进行切分处理后，将切分后的训练数据映射到步骤S101中得到的语料库文本向量，具体过程为：获取语料数据库中与训练数据相同的语料所对应的语料数据库文本向量，该语料数据库文本向量即为与训练数据对应的训练向量，其具体可以为字向量、词向量或拼音向量，如果语料库文本向量为拼音向量，则将训练数据的子或词转换为拼音，然后再映射得到对应的拼音向量。上述三个模型可共享一套字/词/拼音向量。

步骤S106：将所述训练向量输入至所述训练模型，基于训练模型输出的预测结果和所述训练向量对应的真实结果，计算得到所述意图识别模型、相似短文本生成模型和实体识别模型的损失函数值；

在本步骤中，当各个训练各个模型时，循环历遍每个任务，随机抽取一部分训练数据对应的训练向量作为模型输入，依据模型的输出结果和所述训练数据对应的真实结果计算各个模型的损失函数值，具体地，本实施例中，对于每个模型，基于模型预测的结果和每个训练数据的对应的真实结果进行one-hot处理，计算交叉熵损失函数，得到各个模型的损失函数值。

步骤S107：基于所述联合损失函数公式和各个模型的损失函数值计算得到联合损失函数值；

本步骤中，将步骤S107计算得到的各个损失函数值带入所述联合损失函数公式，即可得到所述联合损失函数值。

步骤S108：判断所述联合损失函数值是否小于设定值，如果是，训练结束，如果否，执行步骤S109；

步骤S109：基于后向传播算法更新所述意图识别模型、相似短文本生成模型和实体识别模型的参数，三个模型共享的输入向量作为模型参数也同步更新，继续执行步骤S103进行迭代训练。

在上述方案中，通过多任务学习的方式对输入文本进行处理，能够更有效地学习相关的语言知识，提高意图识别模型的泛化能力，尽可能解决意图识别中存在的语义缺失、容错、歧义及泛化等问题，具体的，可基于反向传播算法更新所述意图识别模型、相似短文本生成模型和实体识别模型的参数时。

对应于上述方法，本申请还公开了一种意图识别的训练装置，参见图3，其包括：

语料向量训练单元01，用于将语料库文本中的语料映射到语义空间，得到与所述与语料对应的低维稠密向量，记为语料库文本向量；

模型存储单元02，用于存储有意图识别模型、相似短文本生成模型和实体识别模型；

联合损失函数公式存储单元03，用于存储训练模型的联合损失函数公式，所述训练模型包括意图识别模型、相似短文本生成模型和实体识别模型；

训练数据采集单元04，用于获取针对所述训练模型的训练数据；

训练向量采集单元05，用于对所述训练数据进行切分处理，将处理后的训练数据映射到对应的语料库文本向量，记为训练向量；

损失函数值计算单元06，用于将所述训练向量输入至所述训练模型，基于训练模型输出的预测结果和所述训练向量对应的真实结果，计算得到所述意图识别模型、相似短文本生成模型和实体识别模型的损失函数值，将各个模型的损失函数值带入所述联合损失函数公式得到联合损失函数值；

参数调整单元07，用于判断所述联合损失函数值是否小于设定值，如果否，调整所述意图识别模型、相似短文本生成模型和实体识别模型的训练参数，以降低模型的损失函数值，继续迭代训练，如果是，训练结束。

与上述方法相对应，所述语料数据库中存储有用户的历史文本输入信息、点击日志以及语音信息，可基于以上信息训练语料库文本向量，及构造三个模型的训练数据集。

与上述方法相对应，所述语料向量训练单元训练向量时，具体用于：

与上述方法相对应，所述模型存储单元中存储的意图识别模型为：

所述模型存储单元中存储的相似短文本生成模型为：

所述模型存储单元中存储的实体识别任务模型为：

对应于上述意图识别的训练方法，本申请还公开了一种意图识别设备，参见图4，为本申请实施例公开的意图识别设备结构示意图，该设备可以包括：

存储器100和处理器200；

所述意图识别设备还包括通信接口300以及通信总线400，其中，存储器100、处理器200以及通信接口300通信均通过通信总线400实现相互间的通信。

所述存储器100用于存储程序代码；所述程序代码包括计算机操作指令。具体的，所述存储器中存储本申请上述任意一项实施例公开的意图识别的训练方法训练得到的意图识别模型、相似短文本生成模型和实体识别模型的程序代码。

存储器100可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

所述处理器200可以是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。所述处理器200用于调用并执行所述程序代码。具体的，所述处理器用于当获取到用户查询query时，调用并执行所述意图识别模型、相似短文本生成模型和实体识别模型。

为了描述的方便，描述以上***时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种意图识别的训练方法，其特征在于，包括：

构建训练模型的联合损失函数公式，所述训练模型包括意图识别模型、相似短文本生成模型和实体识别模型；

获取针对所述训练模型的训练数据；

2.根据权利要求1所述的意图识别的训练方法，其特征在于，构建所述训练模型的联合损失函数公式，包括：

3.根据权利要求1所述的意图识别的训练方法，其特征在于，所述将语料库文本中的语料映射到语义空间，得到与所述与语料对应的低维稠密向量，包括：

4.根据权利要求1所述的意图识别的训练方法，其特征在于，针对意图识别任务进行建模得到意图识别模型，包括：

5.根据权利要求1所述的意图识别的训练方法，其特征在于，针对相似短文本进行建模得到相似短文本生成模型，包括：

6.根据权利要求1所述的意图识别的训练方法，其特征在于，针对实体识别任务进行建模得到实体识别任务模型，包括：

7.一种意图识别的训练装置，其特征在于，包括：

8.根据权利要求7所述的意图识别的训练装置，其特征在于，所述联合损失函数公式为：

9.根据权利要求7所述的意图识别的训练装置，其特征在于，所述语料向量训练单元，具体用于：

10.根据权利要求7所述的意图识别的训练装置，其特征在于，所述模型存储单元中存储的意图识别模型为：

所述模型存储单元中存储的相似短文本生成模型为：

所述模型存储单元中存储的实体识别任务模型为：

11.一种意图识别设备，其特征在于，包括存储器和处理器；

所述存储器中存储有权利要求1-6任意一项意图识别的训练方法训练得到的意图识别模型、相似短文本生成模型和实体识别模型，所述处理器用于当获取到用户查询query时，调用并执行所述意图识别模型、相似短文本生成模型和实体识别模型。