针对用户问句的问题分类模型的训练方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及针对用户问句的问题分类模型的训练方法和装置。
背景技术
在机器人客服回答用户问题时,常常会涉及到针对用户问句的分类。例如,确定用户问句对应的标准问句,以便由机器人客服提供该标准问句对应的答案。其中,标准问句也称为标准问题,是根据业务整理的一些用户可能问的问题。每个问题有一个问题标识。
在针对用户问句的问题分类模型的训练时,常常缺乏足够可用的训练样本,以致无法保证训练后得到一个可靠的问题分类模型。
因此,希望能有改进的方案,能够在缺乏足够可用的训练样本时,保证训练后得到一个可靠的问题分类模型。
发明内容
本说明书一个或多个实施例描述了一种针对用户问句的问题分类模型的训练方法和装置,能够在缺乏足够可用的训练样本时,保证训练后得到一个可靠的问题分类模型。
第一方面,提供了一种针对用户问句的问题分类模型的训练方法,方法包括:
获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
将所述源领域的问题样本输入编码器,得到第一特征向量;将所述目标领域的问题样本输入所述编码器,得到第二特征向量;
将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;
根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
在一种可能的实施方式中,所述方法还包括:
将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;
将所述目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
在一种可能的实施方式中,所述将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,包括:
将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;
将所述反转特征向量作为样本特征输入域分类模型。
进一步地,所述对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,包括:
对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;
通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的标准问句。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的人工客服技能组类别。
在一种可能的实施方式中,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
进一步地,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
在一种可能的实施方式中,所述问题分类模型包括:
长短期记忆网络(long short term memory,LSTM)、深度神经网络(deep neuralnetwork,DNN)和卷积神经网络(convolutional neural networks,CNN);
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
第二方面,提供了一种针对用户问句的问题分类模型的训练方法,方法包括:
获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
将所述源领域的问题样本输入编码器,得到第一特征向量;
将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
根据所述问题分类预测结果和所述问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
将所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
将所述第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
根据所述域分类预测结果和所述领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
第三方面,提供了一种针对用户问句的问题分类模型的训练装置,装置包括:
获取单元,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元,用于将所述获取单元获取的源领域的问题样本输入编码器,得到第一特征向量;将所述获取单元获取的目标领域的问题样本输入所述编码器,得到第二特征向量;
第一预测单元,用于将所述编码单元得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第二预测单元,用于将所述编码单元得到的所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;
训练单元,用于根据所述第一预测单元得到的问题分类预测结果和所述获取单元获取的问题分类标签,根据所述第二预测单元得到的域分类预测结果和所述获取单元获取的领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
第四方面,提供了一种针对用户问句的问题分类模型的训练装置,装置包括:
获取单元,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元,用于将所述获取单元获取的源领域的问题样本输入编码器,得到第一特征向量;
第一预测单元,用于将所述编码单元得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第一训练单元,用于根据所述第一预测单元得到的问题分类预测结果和所述获取单元获取的问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
所述编码单元,还用于将所述获取单元获取的所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
第二预测单元,用于将所述编码单元得到的第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
第二训练单元,用于根据所述第二预测单元得到的域分类预测结果和所述获取单元获取的领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
通过本说明书实施例提供的方法和装置,首先获取源领域的样本数据和目标领域的样本数据,源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,目标领域的样本数据包括目标领域的问题样本和领域标签,源领域和目标领域具有相同的分类;然后将源领域的问题样本输入编码器,得到第一特征向量;将目标领域的问题样本输入编码器,得到第二特征向量;接着将第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;再将第一特征向量和第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;最后根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对编码器、问题分类模型和域分类模型进行联合训练,得到训练后的编码器和训练后的问题分类模型。由上可见,本说明书实施例,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的针对用户问句的处理方法流程图;
图3示出根据一个实施例的针对用户问句的问题分类模型的训练方法流程图;
图4示出根据一个实施例的模型结构示意图;
图5示出根据一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图;
图6示出根据另一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及针对用户问句的问题分类模型的训练,其中,训练后的问题分类模型用于确定用户问句归属的类别,上述类别可以但不限于包括用户问句对应的标准问句,或者,用户问句对应的人工客服技能组。参照图1,第一阶段,进行的是用户跟机器对话,也就是说,由机器人客服回答用户问题。第二阶段,进行的是用户跟小二对话,可以理解的是,小二即人工客服,也就是说,由人工客服回答用户问题。在第一阶段,机器无法回答用户问题时,会进入第二阶段,由人工客服回答用户问题。
图2示出根据一个实施例的针对用户问句的处理方法流程图,该方法涵盖了图1所示的第一阶段和第二阶段的处理过程。在第一阶段,引导用户说出需求,机器跟用户对话,详细分析用户需求,进行问题识别,也就是识别用户问句对应的标准问句。当问题识别不成功时,进入第二阶段,智能派单,小二跟用户对话并且标注用户问题,其中,智能派单即确定用户问句对应的人工客服技能组,标注用户问题即标注用户问句对应的标准问句。
在一个示例中,机器在接收到用户问句后,针对用户问句,确定该用户问句对应的标准问句,并将确定的标准问句展示给用户,由用户确认该标准问句是否满足其述求,如果用户确认该标准问句不满足其述求,则由用户补充部分描述,机器会针对该用户问句,再次确定该用户问句对应的标准问句。当确定标准问句的次数达到预定次数,并且仍然不满足用户述求时,确定用户问句对应的人工客服技能组,由人工客服跟用户对话并且标注用户问句对应的标准问句。
上述图1所示的场景中涉及两次分类过程,包括:确定用户问句对应的标准问句和确定用户问句对应的人工客服技能组。需要说明的是,该场景仅为示例,并不用于对本说明书实施例的实施场景的限定,本说明书实施例提供的针对用户问句的问题分类模型的训练方法,训练后的问题分类模型可以但不限于用于上述两种分类。
作为示例,本说明书实施例应用的场景为在线领域,也就是说,用户通过互联网发送问题的领域,该领域训练数据较少。而热线领域,也就是说,用户通过电话发送问题的领域,该领域训练数据较多。针对这一问题,采用了迁移学习的方式,对问题分类模型进行训练。具体地,采取了迁移学习中的域适应,即领域不同但任务相同,且源领域数据有标签,目标领域数据没有标签或者很少数据有标签。本说明书实施例,利用热线领域的训练数据,建立一个可靠的问题分类模型,以用于对在线领域的待测用户问句进行分类。
图3示出根据一个实施例的针对用户问句的问题分类模型的训练方法流程图,该方法可以基于图1所示的应用场景。如图3所示,该实施例中针对用户问句的问题分类模型的训练方法包括以下步骤:步骤31,获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;步骤32,将所述源领域的问题样本输入编码器,得到第一特征向量;将所述目标领域的问题样本输入所述编码器,得到第二特征向量;步骤33,将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;步骤34,将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;步骤35,根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。下面描述以上各个步骤的具体执行方式。
首先在步骤31,获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类。
在一个示例中,源领域为热线领域,目标领域为在线领域。问题分类标签用于指示问题样本对应的标准问句,或者,问题样本对应的人工客服技能组类别。领域标签用于指示问题样本属于源领域还是目标领域。
然后在步骤32,将所述源领域的问题样本输入编码器,得到第一特征向量;将所述目标领域的问题样本输入所述编码器,得到第二特征向量。
在一个示例中,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
进一步地,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
接着在步骤33,将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果。
在一个示例中,所述问题分类模型包括:
长短期记忆网络(long short term memory,LSTM)、深度神经网络(deep neuralnetwork,DNN)和卷积神经网络(convolutional neural networks,CNN);
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
再在步骤34,将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果。
在一个示例中,将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;将所述反转特征向量作为样本特征输入域分类模型。
最后在步骤35,根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
在一个示例中,步骤34,将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;将所述反转特征向量作为样本特征输入域分类模型。步骤35,对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
可以理解的是,对模型训练的目标:一方面是让源领域和目标领域区分不出来,另一方面是让问题分类准确。因此应最小化所述问题分类模型的损失函数,以及最大化所述域分类模型的损失函数。增加梯度反转层,可以使所述问题分类模型的损失函数和所述域分类模型的损失函数均按照最小化进行优化。
在一个示例中,将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;将所述目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
其中,所述用户问句对应的类别包括:
所述用户问句对应的标准问句,或所述用户问句对应的人工客服技能组类别。
图4示出根据一个实施例的模型结构示意图。参照图4,模型训练包括两个分支的训练,第一分支包括编码器和问题分类模型,第二分支包括编码器、梯度反转层和域分类模型。编码器作为两个分支的公共部分,在对两个分支的优化过程中均对其进行调参。而在对第一分支的优化过程中,对问题分类模型进行调参,对域分类模型不进行调参。在对第二分支的优化过程中,对域分类模型进行调参,对问题分类模型不进行调参。
在一个示例中,先利用源领域的训练数据对包括编码器和问题分类模型的分支进行训练,然后再利用源领域和目标领域的训练数据对包括编码器、梯度反转层和域分类模型的分支进行训练,最后利用训练好的编码器和问题分类模型这一分支对目标领域的待测用户问句进行分类。
例如,获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;将所述源领域的问题样本输入编码器,得到第一特征向量;将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;根据所述问题分类预测结果和所述问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;将所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;将所述第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;根据所述域分类预测结果和所述领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
通过本说明书实施例提供的方法,首先获取源领域的样本数据和目标领域的样本数据,源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,目标领域的样本数据包括目标领域的问题样本和领域标签,源领域和目标领域具有相同的分类;然后将源领域的问题样本输入编码器,得到第一特征向量;将目标领域的问题样本输入编码器,得到第二特征向量;接着将第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;再将第一特征向量和第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;最后根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对编码器、问题分类模型和域分类模型进行联合训练,得到训练后的编码器和训练后的问题分类模型。由上可见,本说明书实施例,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
根据另一方面的实施例,还提供一种针对用户问句的问题分类模型的训练装置,该装置用于执行本说明书实施例提供的针对用户问句的问题分类模型的训练方法。图5示出根据一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图。如图5所示,该装置500包括:
获取单元51,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元52,用于将所述获取单元51获取的源领域的问题样本输入编码器,得到第一特征向量;将所述获取单元51获取的目标领域的问题样本输入所述编码器,得到第二特征向量;
第一预测单元53,用于将所述编码单元52得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第二预测单元54,用于将所述编码单元52得到的所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;
训练单元55,用于根据所述第一预测单元53得到的问题分类预测结果和所述获取单元51获取的问题分类标签,根据所述第二预测单元54得到的域分类预测结果和所述获取单元51获取的领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
可选地,作为一个实施例,所述编码单元52,还用于将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;
所述第一预测单元53,还用于将所述编码单元52得到的目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
可选地,作为一个实施例,所述第二预测单元54,具体用于:
将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;
将所述反转特征向量作为样本特征输入域分类模型。
进一步地,所述训练单元55,具体用于:
对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;
通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的标准问句。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的人工客服技能组类别。
可选地,作为一个实施例,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
进一步地,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
可选地,作为一个实施例,所述问题分类模型包括:
长短期记忆网络LSTM、深度神经网络DNN和卷积神经网络CNN;
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
通过本说明书实施例提供的装置,首先获取单元51获取源领域的样本数据和目标领域的样本数据,源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,目标领域的样本数据包括目标领域的问题样本和领域标签,源领域和目标领域具有相同的分类;然后编码单元52将源领域的问题样本输入编码器,得到第一特征向量;将目标领域的问题样本输入编码器,得到第二特征向量;接着第一预测单元53将第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;再由第二预测单元54将第一特征向量和第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;最后由训练单元55根据所述第一预测单元53得到的问题分类预测结果和所述获取单元51获取的问题分类标签,根据所述第二预测单元54得到的域分类预测结果和所述获取单元51获取的领域标签,对编码器、问题分类模型和域分类模型进行联合训练,得到训练后的编码器和训练后的问题分类模型。由上可见,本说明书实施例,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
图6示出根据另一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图。如图6所示,该装置600包括:
获取单元61,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元62,用于将所述获取单元61获取的源领域的问题样本输入编码器,得到第一特征向量;
第一预测单元63,用于将所述编码单元62得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第一训练单元64,用于根据所述第一预测单元63得到的问题分类预测结果和所述获取单元61获取的问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
所述编码单元62,还用于将所述获取单元61获取的所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
第二预测单元65,用于将所述编码单元62得到的第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
第二训练单元66,用于根据所述第二预测单元65得到的域分类预测结果和所述获取单元61获取的领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
本说明书实施例提供的装置,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。