CN118132687A

CN118132687A - 语句处理和类目模型的训练方法、装置、设备及介质

Info

Publication number: CN118132687A
Application number: CN202211535212.0A
Authority: CN
Inventors: 庞胜; 熊超; 包勇军
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2024-06-04

Abstract

本公开提出一种语句处理和类目模型的训练方法、装置、设备及介质，方法包括：对目标语句中的各字符进行编码，以得到各字符的初始字符特征，并根据各字符的初始字符特征，生成目标语句的句子特征；分别将句子特征与各字符的初始字符特征进行融合，以得到各字符的目标字符特征；根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；根据预测槽位信息和预测意图信息，对目标语句进行处理。由此，将全局的句子特征融合到单个字符维度，可以促进字符对全局句子信息的感知，提升意图和槽位识别的准确性，从而可以实现根据准确的用户意图和槽位信息对目标语句进行精准处理，以满足用户的实际业务需求。

Description

语句处理和类目模型的训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语句处理和类目模型的训练方法、装置、设备及介质。

背景技术

智能客服***作为网络销售平台或网络购物平台客服场景的重要一环，可以帮助平台或商城、商家，为用户解决售前、售中、售后等问题，为直营商城、入驻商家节约大量的人力成本。其中，任务式多轮对话***作为智能客服***中的一个子模块，可以通过在与用户进行多轮对话交互过程中，理解用户意图和对话交互过程中的关键信息，最终帮助用户解决业务问题。

在任务式多轮对话***中，如何识别出用户输入的询问语句(query)中的意图(intent)信息和槽位(slot)信息，从而根据意图信息和槽位信息对询问语句进行精准处理，以满足用户的实际业务需求是非常重要的。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开提出一种语句处理和类目模型的训练方法、装置、设备及介质，以实现将全局的句子特征(即句子向量表示)融合到单个字符维度，可以促进字符对全局句子信息的感知，提升意图和槽位识别的准确性，从而可以实现根据准确的用户意图和槽位信息对目标语句进行精准处理，以满足用户的实际业务需求。

本公开第一方面实施例提出了一种语句处理方法，包括：

获取目标语句，并对所述目标语句中的各字符进行编码，以得到各所述字符的初始字符特征；

根据各所述字符的初始字符特征，生成所述目标语句的句子特征；

分别将所述句子特征与各所述字符的初始字符特征进行融合，以得到各所述字符的目标字符特征；

根据各所述字符的目标字符特征，分别对所述目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；

根据所述预测槽位信息和所述预测意图信息，对所述目标语句进行处理。

本公开第二方面实施例提出了一种类目模型的训练方法，包括：

获取样本语句，其中，所述样本语句的标注信息包括标注意图信息和标注槽位信息；

根据所述样本语句所属的第一类目，确定与所述第一类目匹配的初始类目模型；

对所述样本语句中的各字符进行编码，以得到各所述字符的初始字符特征，并根据各所述字符的初始字符特征，生成所述样本语句的句子特征；

采用初始类目模型根据各所述字符的初始字符特征和所述句子特征，分别对所述样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；

根据所述预测意图信息和所述标注意图信息之间的差异，以及所述预测槽位信息和所述标注槽位信息之间的差异，对所述初始类目模型进行训练，以得到目标类目模型。

本公开第三方面实施例提出了另一种语句处理方法，包括：

获取目标语句；

根据所述目标语句所属的第二类目，从多个目标类目模型中确定与所述第二类目匹配的目标类目模型；其中，所述目标类目模型是采用如本公开第二方面实施例所述的方法训练得到的；

采用与所述第二类目匹配的目标类目模型，对所述目标语句进行槽位识别和意图识别，以得到槽位识别信息和意图识别信息；

根据所述槽位识别信息和所述意图识别信息，对所述目标语句进行处理。

本公开第四方面实施例提出了一种语句处理装置，包括：

获取模块，用于获取目标语句；

编码模块，用于对所述目标语句中的各字符进行编码，以得到各所述字符的初始字符特征；

生成模块，用于根据各所述字符的初始字符特征，生成所述目标语句的句子特征；

融合模块，用于分别将所述句子特征与各所述字符的初始字符特征进行融合，以得到各所述字符的目标字符特征；

识别模块，用于根据各所述字符的目标字符特征，分别对所述目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；

处理模块，用于根据所述预测槽位信息和所述预测意图信息，对所述目标语句进行处理。

本公开第五方面实施例提出了一种类目模型的训练装置，包括：

获取模块，用于获取样本语句，其中，所述样本语句的标注信息包括标注意图信息和标注槽位信息；

确定模块，用于根据所述样本语句所属的第一类目，确定与所述第一类目匹配的初始类目模型；

处理模块，用于对所述样本语句中的各字符进行编码，以得到各所述字符的初始字符特征，并根据各所述字符的初始字符特征，生成所述样本语句的句子特征；

识别模块，用于采用初始类目模型根据各所述字符的初始字符特征和所述句子特征，分别对所述样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；

训练模块，用于根据所述预测意图信息和所述标注意图信息之间的差异，以及所述预测槽位信息和所述标注槽位信息之间的差异，对所述初始类目模型进行训练，以得到目标类目模型。

本公开第六方面实施例提出了另一种语句处理装置，包括：

获取模块，用于获取目标语句；

确定模块，用于根据所述目标语句所属的第二类目，从多个目标类目模型中确定与所述第二类目匹配的目标类目模型；其中，所述目标类目模型是采用如本公开第五方面实施例所述的装置训练得到的；

识别模块，用于采用与所述第二类目匹配的目标类目模型，对所述目标语句进行槽位识别和意图识别，以得到槽位识别信息和意图识别信息；

处理模块，用于根据所述槽位识别信息和所述意图识别信息，对所述目标语句进行处理。

本公开第七方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面实施例提出的语句处理方法，或者，执行本公开第二方面实施例提出的类目模型的训练方法，或者，执行本公开第三方面实施例提出的语句处理方法。

本公开第八方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面实施例提出的语句处理方法，或者，执行本公开第二方面实施例提出的类目模型的训练方法，或者，执行本公开第三方面实施例提出的语句处理方法。

本公开第九方面实施例提出了一种计算机程序，包括计算机程序，所述计算机程序在被处理器执行时实现本公开第一方面实施例所述的语句处理方法，或者，执行时实现本公开第二方面实施例提出的类目模型的训练方法，或者，执行时实现本公开第三方面实施例提出的语句处理方法。

上述本公开中的一个实施例至少具有如下优点或有益效果：

通过对目标语句中的各字符进行编码，以得到各字符的初始字符特征，并根据各字符的初始字符特征，生成目标语句的句子特征；分别将句子特征与各字符的初始字符特征进行融合，以得到各字符的目标字符特征；根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；根据预测槽位信息和预测意图信息，对目标语句进行处理。由此，将全局的句子特征(即句子向量表示)融合到单个字符维度，可以促进字符对全局句子信息的感知，提升意图和槽位识别的准确性，从而可以实现根据准确的用户意图和槽位信息对目标语句进行精准处理，以满足用户的实际业务需求。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例一所提供的语句处理方法的流程示意图；

图2为本公开实施例二所提供的语句处理方法的流程示意图；

图3为本公开实施例三所提供的语句处理方法的流程示意图；

图4为本公开实施例四所提供的类目模型的训练方法的流程示意图；

图5为本公开实施例五所提供的类目模型的训练方法的流程示意图；

图6为本公开实施例六所提供的类目模型的训练方法的流程示意图；

图7为本公开实施例七所提供的类目模型的训练方法的流程示意图；

图8为本公开实施例八所提供的语句处理方法的流程示意图；

图9为本公开实施例所提供的意图和槽位联合识别的离线处理流程示意图；

图10为本公开实施例所提供的模型整体架构示意图；

图11为本公开实施例所提供的类目模型的结构示意图；

图12为本公开实施例所提供的意图和槽位联合识别的在线处理流程示意图；

图13为本公开实施例九所提供的语句处理装置的结构示意图；

图14为本公开实施例十所提供的类目模型的训练装置的结构示意图；

图15为本公开实施例十一所提供的语句处理装置的结构示意图；

图16示出了适于用来实现本公开实施方式的示例性电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

在任务式多轮对话***中，NLU(Natural Language Understanding，自然语言理解)模块是非常重要的模块，其主要作用是识别用户输入的询问语句(query)中的意图(intent)信息和槽位(slot)信息。

举例而言，假设query为“请帮我订一张北京到上海的机票”，NLU模块需要识别出用户的意图信息为“订机票”，槽位信息为“出发地＝北京，目的地＝上海”。再比如，在网购销售平台或网络购物平台客服场景下，当用户输入“帮我开一下十月一号到十月十号的电子类产品***”，NLU模块需要识别出用户的意图信息为“开***”，槽位信息为“***时间周期＝十月一号到十月十号，***类别＝电子类”。

目前，针对NLU任务，主要通过以下两种方式来实现对query进行意图识别和槽位提取：

第一种，将意图识别和槽位提取(或槽位识别)作为两个独立任务进行建模，使用意图模型识别用户意图，使用槽位提取模型提取槽位。

第二种，将意图识别和槽位提取联合建模，即将意图识别任务和槽位提取任务的损失函数进行合并优化。由于意图和槽位通常具有强相关性，联合建模方式通常比独立建模方式的性能好。

虽然，将意图识别和槽位提取联合建模的方法比独立建模的方法效果好，但是，目前的联合建模方法仅仅是将两个任务的损失函数合并起来优化，这种方式并不能很好地将意图和槽位建立起联系。例如，联合建模方法的侧重点在于：采用意图信息辅助槽位识别，而忽略槽位信息对意图识别的影响，这往往会导致以下情况发生：由于槽位信息在句子中的多样表达，而导致意图识别出错。

举例而言，假设训练数据中的样本语句或样本语料为“请帮我订一张城市A到城市B的机票”，而模型在实际线上预测过程中，用户输入的query为“请帮我订一张城市C到城市D的机票”，由于用户仅仅是修改了句子中的出发地和目的地城市，且修改的城市名称在训练数据中没有出现过，如果使用BERT(Bidirectional Encoder Representations fromTransformers，来自转换器的双向编码器的表示)作为主干网络编码器，对query进行编码，得到的句子特征(即句子的向量表示)通常为最后一层Transformer输出的字符(token，比如汉字、子词subword等)向量的平均值，当query中出现较多和意图识别不相关的字符token时，句子特征会发生偏离，导致最终意图识别错误。

此外，通常会根据不同场景单独训练模型，但在网购销售平台或网络购物平台客服场景下，任务式多轮对话场景具有一定的业务知识相关性，对每个场景独立建模无法利用到不同的多轮场景之间的信息。比如，对于以下两个场景：“开***申请”和“***开具进度查询”，均与***相关，但每个场景模型只利用各自场景下的训练数据，没有在全局业务场景下学习到“***”token的向量表示。

针对上述存在的至少一个问题，本公开提出一种语句处理和类目模型的训练方法、装置、设备及介质。

下面参考附图描述本公开实施例的语句处理和类目模型的训练方法、装置、设备及介质。

图1为本公开实施例一所提供的语句处理方法的流程示意图。

本公开实施例以该语句处理方法被配置于语句处理装置中来举例说明，该语句处理装置可以应用于任一电子设备中，以使该电子设备可以执行语句处理功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为电脑、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作***、触摸屏和/或显示屏的硬件设备。

如图1所示，该语句处理方法可以包括以下步骤：

步骤101，获取目标语句，并对目标语句中的各字符进行编码，以得到各字符的初始字符特征。

在本公开实施例中，目标语句可以为用户输入的语句或问题，输入方式包括但不限于触摸输入(如滑动、点击等)、键盘输入、语音输入等。

作为一种应用场景，以该方法应用于网购销售平台或网络购物平台的智能客服场景进行示例性说明，目标语句可以为客户在智能客服***输入的语句(query)。

在本公开实施例中，字符(token)是指文本输入模型的最小粒度，比如，对于中文而言，字符可以为单个汉字，对于英文而言，字符可以为子词(subword)。

在本公开实施例中，可以对目标语句中的各字符进行编码，以得到各字符的初始字符特征。

作为一种示例，可以基于文本编码算法或文本特征提取算法，对目标语句中的各字符进行编码，以得到各字符的初始字符特征。比如，可以基于BERT模型对目标语句中的各字符进行编码，以得到各字符的初始字符特征。

例如，标记目标语句包含的字符个数为N，目标语句中第i个字符的初始字符特征为T_i，其中，i为不大于N的正整数。

步骤102，根据各字符的初始字符特征，生成目标语句的句子特征。

在本公开实施例中，可以根据各字符的初始字符特征，生成目标语句的句子特征。比如，可以将各字符的初始字符特征按位求取均值，以得到目标语句的句子特征。

步骤103，分别将句子特征与各字符的初始字符特征进行融合，以得到各字符的目标字符特征。

在本公开实施例中，针对目标语句中的任意一个字符，可以将句子特征与该字符的初始字符特征进行融合，以得到该字符的目标字符特征。

步骤104，根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

在本公开实施例中，可以根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

举例而言，以目标语句为“帮我开一下上周一到周五的电子***”，识别得到的预测意图信息可以为“开***”，预测槽位信息可以为“***时间周期＝上周一到周五，***类别＝电子类”。

步骤105，根据预测槽位信息和预测意图信息，对目标语句进行处理。

在本公开实施例中，可以根据预测槽位信息和预测意图信息，对目标语句进行处理。

仍以上述例子进行示例，可以根据预测槽位信息和预测意图信息，为用户开具上周一到周五的电子***。

本公开实施例的语句处理方法，通过对目标语句中的各字符进行编码，以得到各字符的初始字符特征，并根据各字符的初始字符特征，生成目标语句的句子特征；分别将句子特征与各字符的初始字符特征进行融合，以得到各字符的目标字符特征；根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；根据预测槽位信息和预测意图信息，对目标语句进行处理。由此，将全局的句子特征(即句子向量表示)融合到单个字符维度，可以促进字符对全局句子信息的感知，提升意图和槽位识别的准确性，从而可以实现根据准确的用户意图和槽位信息对目标语句进行精准处理，以满足用户的实际业务需求。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

为了清楚说明本公开上述实施例中是如何将句子特征与字符的初始字符特征进行融合，得到字符的目标字符特征的，本公开还提出一种语句处理方法。

图2为本公开实施例二所提供的语句处理方法的流程示意图。

如图2所示，该语句处理方法可以包括以下步骤：

步骤201，获取目标语句，并对目标语句中的各字符进行编码，以得到各字符的初始字符特征。

步骤202，根据各字符的初始字符特征，生成目标语句的句子特征。

步骤201至202的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤203，针对目标语句中的任一字符，确定该任一字符对各字符的第一权重。

在本公开实施例中，针对目标语句中的任一字符，可以确定该任一字符对各字符的权重，本公开中记为第一权重。

作为一种可能的实现方式，第一权重的计算方式可以为：确定各字符在目标语句中的重要程度，针对目标语句中的第i个字符，根据第i个字符的初始字符特征和目标语句中第j个字符的重要程度，确定第i个字符对第j个字符的第一权重；其中，i和j为小于或等于T的正整数，T为目标语句包含的字符个数。

作为一种示例，可以通过深度学习技术，确定各字符在目标语句中的重要程度，比如，各字符在目标语句中的重要程度可以由模型中的注意力机制的参数表征。例如，第j个字符的重要程度可以由向量w_j表征，其中，向量w_j为注意力机制的参数。

则可以根据以下公式，确定第i个字符对第j个字符的第一权重α_i,j为：

α_i,j＝σ(w_j·T_i)； (1)

其中，T_i为第i个字符的初始字符特征，σ为激活函数。

作为一种可能的实现方式，还可以对第i个字符对第j个字符的权重进行归一化处理，例如，可以根据第i个字符的初始字符特征和第j个字符的重要程度，确定第i个字符对第j个字符的初始权重，例如，第i个字符对第j个字符的初始权重e_i,j为：

e_i,j＝σ(w_j·T_i)； (2)

之后，可以根据第i个字符对各字符的初始权重，确定第一系数，比如，第一系数可以为：从而可以根据第i个字符对第j个字符的初始权重与第一系数，确定第i个字符对第j个字符的第一权重。比如，第i个字符对第j个字符的第一权重α_i,j为：

步骤204，根据该任一字符对各字符的第一权重，对该任一字符的初始字符特征进行加权求和，以得到该任一字符的中间字符特征。

在本公开实施例中，可以根据上述任一字符对各字符的第一权重，对该任一字符的初始字符特征进行加权求和，以得到任一字符的中间字符特征。

作为一种示例，标记第i个字符的中间字符特征为u_i，则有：

步骤205，将该任一字符的中间字符特征和句子特征进行融合，以得到该任一字符的目标字符特征。

在本公开实施例中，可以将上述任一字符的中间字符特征和句子特征进行融合，以得到该任一字符的目标字符特征。

作为一种示例，标记第i个字符的目标字符特征为v_i，则有：

v_i＝tanh(W₁u_i+W₂·I')； (5)

其中，I'为句子特征，W₁为u_i的相关性矩阵，是可训练参数，W₂为I'的相关性矩阵，也是可训练参数。

步骤206，根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

步骤207，根据预测槽位信息和预测意图信息，对目标语句进行处理。

步骤206至207的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的语句处理方法，通过将句子特征(句子整体表示)和单个字符的字符特征融合，可以使得单个字符的字符特征中融合目标语句的全局信息，促进与槽位相关的字符对全局信息的感知，提升槽位识别的准确性。

为了清楚说明本公开任一实施例中是如何根据各字符的目标字符特征，分别对目标语句进行意图识别和槽位识别的，本公开还提出一种语句处理方法。

图3为本公开实施例三所提供的语句处理方法的流程示意图。

如图3所示，该语句处理方法可以包括以下步骤：

步骤301，获取目标语句，并对目标语句中的各字符进行编码，以得到各字符的初始字符特征。

步骤302，根据各字符的初始字符特征，生成目标语句的句子特征。

步骤303，分别将句子特征与各字符的初始字符特征进行融合，以得到各字符的目标字符特征。

步骤304，根据各字符的目标字符特征，对目标语句进行槽位识别，以得到预测槽位信息。

步骤301至304的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

在本公开的任意一个实施例之中，可以将各字符的目标字符特征输入第一预测网络(比如CRF(Conditional Random Field，条件随机场)网络或CRF层)进行槽位识别，以得到预测槽位信息。其中，第一预测网络(比如CRF网络)已学习到特征与槽位之间的对应关系。由此，基于深度学习技术识别槽位信息，可以提升识别结果的准确性。

步骤305，针对目标语句中的任一字符，确定目标语句对该任一字符的第二权重。

在本公开实施例中，针对目标语句中的任意一个字符，可以确定目标语句对该字符的第二权重。

作为一种可能的实现方式，第二权重的计算方式可以为：针对目标语句中的任意一个字符，可以将句子特征和该字符的目标字符特征进行融合，以得到该字符的融合特征，本公开中记为第二融合特征。例如，第i个字符的第二融合特征可以为：I'·W_S·v_i，其中，W_S为相关性矩阵，为可训练参数。

之后，可以将该字符的第二融合特征输入激活函数，以根据激活函数的输出，确定目标语句对该字符的第二权重，比如，目标语句对第i个字符的第二权重可以为：

步骤306，根据第二权重，对句子特征和该任一字符的目标字符特征进行融合，以得到该任一字符的第一融合特征。

在本公开实施例中，可以根据目标语句对该任一字符的第二权重，对句子特征和该任一字符的目标字符特征进行融合，以得到该任一字符的第一融合特征。

作为一种示例，第i个字符的第一融合特征可以为：其中，W_I为相关性矩阵，为可训练参数。

步骤307，根据任一字符的第一融合特征，生成任一字符的意图特征。

在本公开实施例中，可以根据上述任一字符的第一融合特征，生成任一字符的意图特征。

作为一种示例，第i个字符的意图特征w_i可以为：

步骤308，根据各字符的意图特征，对目标语句进行意图识别，以得到预测意图信息。

在本公开实施例中，可以根据各字符的意图特征，对目标语句进行意图识别，以得到预测意图信息。

作为一种可能的实现方式，可以将各字符的意图特征进行平均池化，例如，将各字符的意图特征按位求取均值，以得到目标意图特征，从而可以将目标意图特征输入第一预测网络(比如全连接网络或全连接层)进行意图识别，以得到预测意图信息。由此，基于深度学习技术识别意图信息，可以提升识别结果的准确性。

步骤309，根据预测槽位信息和预测意图信息，对目标语句进行处理。

步骤309的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的语句处理方法，通过将单个字符的字符特征融合进目标语句的句子特征(句子整体表示、全局句子表示或全局句子向量)，可以促进句子特征对意图类别的表征，提升意图识别的准确性。

图4为本公开实施例四所提供的类目模型的训练方法的流程示意图。

如图4所示，该类目模型的训练方法可以包括以下步骤：

步骤401，获取样本语句，其中，样本语句的标注信息包括标注意图信息和标注槽位信息。

在本公开实施例中，样本语句可以为与任务式多轮对话相关的语句或问题。其中，对样本语句的获取方式不作限制，比如，样本语句可以为用户手动输入的语句，或者，样本语句可以为在线获取的语句，比如通过网络爬虫技术在线采集的语句，或者，样本语句可以为从现有的训练集获取的语句，等等。

其中，样本语句的个数可以为至少一个。

在本公开实施例中，还可以获取样本语句的标注信息，比如，可以通过人工标注方式，对样本语句进行标注，以得到样本语句的标注信息，或者，可以通过机器标注方式，对样本语句进行标注，以得到样本语句的标注信息。其中，标注信息中包括标注意图信息和标注槽位信息。

步骤402，根据样本语句所属的第一类目，确定与第一类目匹配的初始类目模型。

在本公开实施例中，第一类目例如可以为最小层级的类目，比如，以该方法应用于网络销售平台或网络购物平台的智能客服***进行示例，第一类目可以为网络销售平台或网络购物平台的三级类目(比如肉制品、豆制品、膨化食品等)。

在本公开实施例中，可以根据样本语句所属的类目，本公开中记为第一类目(比如三级类目)，确定与该第一类目匹配的初始类目模型。

步骤403，采用初始类目模型分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

在本公开实施例中，可以采用初始类目模型分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

作为一种示例，可以对样本语句中的各字符进行编码，以得到各字符的初始字符特征，并根据各字符的初始字符特征，生成样本语句的句子特征，之后，可以采用初始类目模型将句子特征分别与各字符的初字符始特征进行融合，以得到各字符的目标字符特征，最后，可以采用初始类目模型根据各字符的目标字符特征，分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。其实现原理与步骤101至104类似，或与步骤201至206类似，或与步骤301至308类似，在此不做赘述。

步骤404，根据预测意图信息和标注意图信息之间的差异，以及预测槽位信息和标注槽位信息之间的差异，对初始类目模型进行训练，以得到目标类目模型。

在本公开实施例中，可以根据预测意图信息和标注意图信息之间的差异，以及预测槽位信息和标注槽位信息之间的差异，对初始类目模型进行训练，以得到目标类目模型。

本公开实施例的类目模型的训练方法，通过获取样本语句，其中，样本语句的标注信息包括标注意图信息和标注槽位信息；根据样本语句所属的第一类目，确定与第一类目匹配的初始类目模型；采用初始类目模型分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；根据预测意图信息和标注意图信息之间的差异，以及预测槽位信息和标注槽位信息之间的差异，对初始类目模型进行训练，以得到目标类目模型。由此，可以实现结合意图识别任务的损失和槽位识别任务的损失，对初始类目模型进行联合优化，提升模型的预测效果。

为了清楚说明本公开任一实施例中是如何对初始类目模型进行训练，以得到目标类目模型的，本公开还提出一种类目模型的训练方法。

图5为本公开实施例五所提供的类目模型的训练方法的流程示意图。

如图5所示，该类目模型的训练方法可以包括以下步骤：

步骤501，获取样本语句，其中，样本语句的标注信息包括标注意图信息和标注槽位信息。

步骤502，根据样本语句所属的第一类目，确定与第一类目匹配的初始类目模型。

步骤503，采用初始类目模型分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

步骤501至503的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤504，根据预测意图信息和标注意图信息之间的差异，生成第一损失值。

其中，该差异是指预测意图信息和标注意图信息之间的差异程度或差异度。在预测意图信息和标注意图信息越接近的情况下，预测意图信息和标注意图信息之间的差异越小，比如，在预测意图信息和标注意图信息相同或匹配的情况下，差异最小；反之，在预测意图信息和标注意图信息越不接近(比如标注意图信息为“开***”、预测意图信息为“订机票”)的情况下，预测意图信息和标注意图信息之间的差异越大。

在本公开实施例中，可以根据预测意图信息和标注意图信息之间的差异，确定第一损失函数的计算值，本公开中记为第一损失值。比如，第一损失函数可以包括但不限于交叉熵损失函数，其中，交叉熵损失函数用于表征样本对应的标注信息和模型输出的预测信息之间的距离。

其中，第一损失值与上述差异呈正相关关系，即差异越小，第一损失值越小，反之，差异越大，第一损失值越大。

步骤505，根据预测槽位信息和标注槽位信息之间的差异，生成第二损失值。

其中，该差异是指预测槽位信息和标注槽位信息之间的差异程度或差异度。在预测槽位信息和标注槽位信息越接近的情况下，预测槽位信息和标注槽位信息之间的差异越小，反之，在预测槽位信息和标注槽位信息越不接近的情况下，预测槽位信息和标注槽位信息之间的差异越大。

在本公开实施例中，可以根据预测槽位信息和标注槽位信息之间的差异，确定第二损失函数的计算值，本公开中记为第二损失值。其中，第二损失函数可以包括但不限于负对数似然(neg_log_likehood)损失函数。

其中，第二损失值与上述差异呈正相关关系，即差异越小，第二损失值越小，反之，差异越大，第二损失值越大。

步骤506，根据第一损失值和第二损失值，生成第一目标损失值。

在本公开实施例中，可以根据第一损失值和第二损失值，生成第一目标损失值。其中，第一目标损失值与第一损失值呈正相关关系，且，第一目标损失值与第二损失值也呈正相关关系。

作为一种示例，可以对第一损失值和第二损失值进行加权求和，以得到第一目标损失值。

作为另一种示例，可以将第一损失值和第二损失值进行相加，以得到第一目标损失值。

步骤507，根据第一目标损失值，对初始类目模型中的模型参数进行调整，以得到目标类目模型。

在本公开实施例中，可以根据第一目标损失值，对初始类目模型中的模型参数进行调整，以得到经过训练后的目标类目模型。

作为一种可能的实现方式，可以根据第一目标损失值对初始类目模型中的模型参数进行调整，以使该第一目标损失值最小化。

需要说明的是，上述仅以模型训练的终止条件为第一目标损失值最小化进行示例，实际应用时，还可以设置其他终止条件，比如，训练次数达到设定次数，训练时长达到设定时长，第一目标损失值收敛等等，本公开对此并不做限制。

本公开实施例的类目模型的训练方法，通过分别计算意图识别任务的损失值和槽位识别任务的损失值，结合意图识别任务的损失值和槽位识别任务的损失值，对初始类目模型进行联合优化，可以提升模型的预测效果。

图6为本公开实施例六所提供的类目模型的训练方法的流程示意图。

如图6所示，该类目模型的训练方法可以包括以下步骤：

步骤601，获取多个样本语句，其中，每个样本语句的标注信息包括标注意图信息和标注槽位信息。

在本公开实施例中，可以获取多个样本语句，其中，每个样本语句属于一个类目，多个样本语句中的至少一个样本语句属于同一类目，且多个样本语句涉及多个类目。

步骤602，针对多个样本语句中的任一样本语句，根据该任一样本语句所属的第一类目，确定与该任一样本语句的第一类目匹配的初始类目模型。

步骤601至602的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤603，采用与该任一样本语句所属的第一类目匹配的初始类目模型，根据该任一样本语句中各字符的初始字符特征和该任一样本语句的句子特征，分别对该任一样本语句进行槽位识别和意图识别，以得到该任一样本语句对应的预测槽位信息和预测意图信息。

在本公开实施例中，针对多个样本语句中的任一样本语句，可以采用与该任一样本语句所属的第一类目匹配的初始类目模型，根据该任一样本语句中各字符的初始字符特征和该任一样本语句的句子特征，分别对该任一样本语句进行槽位识别和意图识别，以得到该任一样本语句对应的预测槽位信息和预测意图信息。其实现原理与步骤403类似，在此不做赘述。

步骤604，根据该任一样本语句对应的预测槽位信息和标注槽位信息之间的差异，以及根据该任一样本语句对应的预测意图信息和标注意图信息之间的差异，生成该任一样本语句对应的目标子损失值。

在本公开实施例中，针对多个样本语句中的任一样本语句，可以根据该任一样本语句对应的预测槽位信息和标注槽位信息之间的差异，以及根据该任一样本语句对应的预测意图信息和标注意图信息之间的差异，生成该任一样本语句对应的目标子损失值。

作为一种示例，可以根据该任一样本语句对应的预测槽位信息和标注槽位信息之间的差异，生成任一样本语句对应的第一子损失值，其实现原理与步骤505类似，在此不做赘述。并且，可以根据该任一样本语句对应的预测意图信息和标注意图信息之间的差异，生成该任一样本语句对应的第二子损失值，其实现原理与步骤504类似，在此不做赘述。从而可以根据第一子损失值和第二子损失值，生成该任一样本语句对应的目标子损失值，其实现原理与步骤506类似，在此不做赘述。

步骤605，根据各样本语句的目标子损失值，生成第二目标损失值。

在本公开实施例中，可以根据各样本语句的目标子损失值，生成第二目标损失值。其中，第二目标损失值与每个目标子损失值呈正相关关系。

作为一种示例，可以对各目标子损失值进行加权求和，以得到第二目标损失值。

作为另一种示例，可以将各目标子损失值进行相加，以得到第二目标损失值。

步骤606，根据第二目标损失值，对与各样本语句所属的第一类目匹配的初始类目模型进行联合训练，以得到各第一类目下的目标类目模型。

在本公开实施例中，可以根据第二目标损失值，对各第一类目下的初始类目模型进行联合训练，以得到经过训练后的各第一类目下的目标类目模型。

作为一种可能的实现方式，可以根据第二目标损失值，对各初始类目模型进行联合训练，以使该第二目标损失值最小化。

需要说明的是，上述仅以模型训练的终止条件为第二目标损失值最小化进行示例，实际应用时，还可以设置其他终止条件，比如，训练次数达到设定次数，训练时长达到设定时长，第二目标损失值收敛等等，本公开对此并不做限制。

本公开实施例的类目模型的训练方法，可以实现根据多个类目下的样本语句，对多个类目模型进行联合训练，以提升多个类目模型的训练效果。

为了清楚说明本公开任一实施例中是如何获取样本语句的，本公开还提出一种类目模型的训练方法。

图7为本公开实施例七所提供的类目模型的训练方法的流程示意图。

如图7所示，该类目模型的训练方法可以包括以下步骤：

步骤701，获取历史对话日志，并从历史对话日志中获取多个候选语句。

在本公开实施例中，可以获取历史对话日志，比如获取智能客服***的历史对话日志。

在本公开实施例中，从历史对话日志中获取用户输入的多个候选语句。例如，可以从历史会话日志中，过滤客服回答的回复语句，根据保留的各语句，确定候选语句。

步骤702，从多个候选语句中确定样本语句。

在本公开实施例中，可以从多个候选语句中确定样本语句，比如，可以从多个候选语句中确定与多轮任务式对话相关的样本语句。

作为一种可能的实现方式，可以基于设定规则(比如正则表达式、JSGF(JSpeechGrammer Format)语法等)，对多个候选语句进行筛选，以保留与设定规则匹配的样本语句。

作为另一种可能的实现方式，可以分别对多个候选语句进行分类，以得到多个候选语句的类别，并将类别与设定类别匹配的候选语句作为样本语句。

作为一种示例，可以基于文本二分类模型对候选语句进行分类，以得到候选语句的类别，其中，文本二分类模型可以输出两个类别，分别为第一类别和第二类别，其中，第一类别用于指示模型的输入语句与多轮任务式对话相关，第二类别用于指示模型的输入语句与多轮任务式对话无关。

设定类别可以为上述第一类别，当候选语句的类别为第一类别时，可以将该候选语句作为样本语句，而当候选语句的类别为第二类别时，可以过滤该候选语句。

作为又一种可能的实现方式，可以同时基于设定规则对候选语句进行筛选，并对候选语句进行分类，以保留类别与设定类别匹配，且与设定规则匹配的候选语句。

步骤703，获取样本语句对应的标注意图信息。

在本公开实施例中，可以通过人工标注方式，对样本语句进行意图标注，以得到样本语句的标注意图信息，或者，可以通过机器标注方式，对样本语句进行意图标注，以得到样本语句的标注意图信息。

步骤704，获取样本语句对应的标注槽位信息。

在本公开实施例中，可以通过人工标注方式，对样本语句进行槽位标注，以得到样本语句的标注槽位信息，或者，可以通过机器标注方式，对样本语句进行槽位标注，以得到样本语句的标注槽位信息。

步骤705，根据样本语句所属的第一类目，确定与第一类目匹配的初始类目模型。

步骤706，采用初始类目模型分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

步骤707，根据预测意图信息和标注意图信息之间的差异，以及预测槽位信息和标注槽位信息之间的差异，对初始类目模型进行训练，以得到目标类目模型。

步骤705至707的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的类目模型的训练方法，通过对历史对话日志中的各语句进行过滤，仅保留符合业务需求的样本语句，从而根据保留的样本语句对模型进行训练，可以提升模型的训练效果和预测效果。

上述为类目模型的训练方法所对应的各实施例，本公开还提出一种类目模型的应用方法，即语句处理方法。

图8为本公开实施例八所提供的语句处理方法的流程示意图。

如图8所示，该语句处理方法可以包括以下步骤：

步骤801，获取目标语句。

步骤801的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤802，根据目标语句所属的第二类目，从多个目标类目模型中确定与第二类目匹配的目标类目模型。

其中，目标类目模型是采用如图4至图7中任一实施例提出的方法训练得到的。

在本公开实施例中，可以根据目标语句所属的第二类目，从多个经过训练的目标类目模型中确定与该第二类目匹配的目标类目模型。

步骤803，采用与第二类目匹配的目标类目模型，对目标语句进行槽位识别和意图识别，以得到槽位识别信息和意图识别信息。

在本公开实施例中，可以采用与第二类目匹配的目标类目模型，对目标语句进行槽位识别和意图识别，以得到槽位识别信息和意图识别信息。其实现原理与步骤403类似，在此不做赘述。

步骤804，根据槽位识别信息和意图识别信息，对目标语句进行处理。

在本公开实施例中，可以根据槽位识别信息和意图识别信息，对目标语句进行处理。

举例而言，以目标语句为“帮我开一下上周一到周五的电子***”，识别得到的意图识别信息可以为“开***”，槽位识别信息可以为“***时间周期＝上周一到周五，***类别＝电子类”。可以根据槽位识别信息和意图识别信息，为用户开具上周一到周五的电子***。

本公开实施例的语句处理方法，通过根据目标语句所属的第二类目，从多个目标类目模型中确定与第二类目匹配的目标类目模型；采用与第二类目匹配的目标类目模型，对目标语句进行槽位识别和意图识别，以得到槽位识别信息和意图识别信息；根据槽位识别信息和意图识别信息，对目标语句进行处理。由此，基于与目标语句所属的类目(或业务场景)匹配的类目模型，对目标语句进行槽位识别和意图识别，可以提升识别结果的准确性，从而可以实现根据准确的用户意图和槽位信息对目标语句进行精准处理，以满足用户的实际业务需求。

在本公开的任意一个实施例之中，可以将意图信息和槽位信息建立联系，使意图信息可以辅助提升槽位识别的准确率，槽位信息可以辅助提升意图识别的准确率，避免槽位的多样性表达对句子意图识别信息的负面影响。并且，在单个任务式对话场景下利用到全局业务数据，即根据多个类目下的样本语句，对多个类目下的类目模型进行联合训练，提示意图和槽位识别的准确性。

作为一种示例，意图和槽位联合识别的处理流程可以包括以下两个部分：

第一，离线部分，主要负责从数据处理到模型产出的流程。

离线部分的处理流程可以如图9所示，主要包括以下步骤：

1.对话日志过滤。

模型的训练数据可以为网购销售平台或网络购物平台的客服日志数据或对话日志数据，考虑到日志中掺杂着大量与任务式对话无关的信息，因此可以通过以下两种方式，对日志数据进行过滤，以保留与用户的任务式多轮对话相关的日志，并作为样本语句：

第一种方式，通过对业务进行分析，整理出一套规则***，对日志中的各语句进行过滤，其中，规则***包含正则表达式、JSGF语法等。

第二种方式，训练简单的文本二分类模型，对日志中的语句进行分类。这种方式对与任务式多轮对话相关的语句的召回率相对规则***高，但需要额外标注的训练数据，以及需要根据标注的训练数据对文本二分类模型进行单独训练。

2.数据标注。对样本语句进行意图标注和槽位标注。

网购销售平台或网络购物平台的客服问题具有多级问题分类或场景，标注可以按照客服三级类目粒度进行区分，即对于每个样本语句，可以确定该样本语句所属的三级类目，并标注该样本语句在三级类目下的意图，并根据意图下涉及的具体槽位对样本语句进行标注。

举例而言，假设样本语句为“帮我开一下上周一到周五的电子***”，可以标注意图为“开***”，并标注槽位为“***时间周期＝上周一到周五，***类别＝电子类”。

3.场景数据。

使用与任务式多轮对话相关的样本语句(用户与人工客服的对话语句)对基础的BERT模型进行预训练和/或微调，即调整模型权重以适应客服业务场景。

4.多任务训练。

模型的整体架构可如图10所示，采用分层设计，由步骤3产出的预训练BERT模型作为业务模型，学习客服业务场景下的信息，此处的BERT模型相对比步骤3中的BERT模型而言会更加适应意图分类和槽位抽取任务。

为每个客服问题三级类目(以下简称为类目)单独训练针对类目知识的专有类目模型，由于所有类目的样本语句的数量较多，但是每个类目下的样本语句的数量较少，因此，业务模型设计为一个大模型，类目模型可以是一个小模型，所有类目模型的输入为业务模型的输出。且利用所有类目下的样本语句，对多个小的类目模型进行联合训练(端到端训练)，模型最终的损失loss为所有类目模型损失之和。

在训练过程中，类目模型会有多个，为了便于介绍，后续以类目模型的个数为1个进行示例性说明，类目模型的结构可以如图11所示。需要说明的是，当类目模型的个数为多个时，每个类目模型的输入均为业务模型(BERT模型)的输出。

其中，业务模型的输入为：将样本语句经过切分后，得到的字符(token)序列，即图11中的tok1、tok2、…、tokN是指样本语句中各个字符token，N为样本语句包含的字符个数。[CLS]标志放在语句的首位，经过BERT得到的表征向量C可以用于后续的分类任务。

具体地，在训练阶段，可以将样本语句对应的字符序列，输入业务模型进行编码，得到各个字符的初始字符特征T_i，定义整个样本语句的句子特征I'为所有T_i的按位平均值。

类目模型的作用为：

1)将第i个字符的初始字符特征进行加权平均，得到第i个字符的u_i：

其中，e_i,k＝σ(w_k·T_i)。

2)将第i个字符的u_i和句子特征进行结合，以得到第i个字符的v_i。目的是将句子的整体表示和单个字符的向量表示结合，使单个字符的向量表示可以比Transformer中的注意力层Attention更好地用到句子的全局信息。具体操作如下：

v_i＝tanh(W₁u_i+W₂·I')； (5)

其中，W₁为u_i的相关性矩阵，是类目模型中的可训练参数，W₂为I'的相关性矩阵，也是类目模型中的可训练参数。可以认为v_i是结合句子整体表示信息后的单个字符表示。

3)对于槽位识别任务，将各v_i向量输入类目模型中的CRF层(图11中未示出)进行槽位识别，以得到预测槽位信息，根据预测槽位信息和标注槽位信息之间的差异，计算负对数似然(neg_log_likehood)损失函数的计算值，并作为槽位识别任务的损失值。

4)对于意图识别任务，可以引入槽位信息，来避免槽位信息对意图识别的干扰，同时利用到槽位对意图相关的信息。因此，可以计算句子特征对第i个字符的v_i的相关系数(本公开中记为第二权重)：

其中，W_S为相关性矩阵，为类目模型的可训练参数。

计算第i个字符的意图特征w_i：

对所有w_i做平均池化averagepooling操作，得到句子的最终意图表示(本公开中记为目标意图特征)。之后，可以将目标意图特征输入类目模型中的全连接层(图11中未示出)进行意图识别，以得到预测意图信息，根据预测意图信息和标注意图信息之间的差异，计算交叉熵损失函数的计算值，并作为意图识别任务的损失值。

最终，可以将意图识别任务的损失值和槽位识别任务的损失值之和作为最终模型的损失值进行优化。

模型训练完成后，可以导出业务模型和多个类目模型，用于在线过程中对用户的目标语句进行意图预测和槽位预测。

第二，在线部分，负责加载离线训练好的模型，对线上服务请求进行解析。

在线部分的处理流程可以如图12所示。具体地，用户输入目标语句query后，将目标语句输入业务模型，得到目标语句中各字符的初始字符特征和句子特征，之后，通过与目标语句所属的类目匹配的目标类目模型基于各字符的初始字符特征和句子特征，对目标语句进行意图识别和槽位识别，以得到预测槽位信息和预测意图信息。

综上，本公开所提供的技术方案，至少具有以下优点：

将意图识别任务和槽位识别任务(或槽位提取任务)进行融合，将全局句子表示向量(即句子特征)融合到单个字符维度，促进槽位字符对全局句子信息的感知，并将单个字符信息融合进全局句子表示向量，促进全局句子表示向量对意图类别的表征。

采用多个类目场景下的样本语句对多个类目模型和业务模型进行多任务训练，业务模型学习业务共有知识，类目模型学习类目内知识，可以有效提高模型性能。

与上述图1至图3实施例提供的语句处理方法相对应，本公开还提供一种语句处理装置，由于本公开实施例提供的语句处理装置与上述图1至图4实施例提供的语句处理方法相对应，因此在语句处理方法的实施方式也适用于本公开实施例提供的语句处理装置，在本公开实施例中不再详细描述。

图13为本公开实施例九所提供的语句处理装置的结构示意图。

如图13所示，该语句处理装置1300可以包括：获取模块1301、编码模块1302、生成模块1303、融合模块1304、识别模块1305以及处理模块1306。

其中，获取模块1301，用于获取目标语句。

编码模块1302，用于对目标语句中的各字符进行编码，以得到各字符的初始字符特征。

生成模块1303，用于根据各字符的初始字符特征，生成目标语句的句子特征。

融合模块1304，用于分别将句子特征与各字符的初始字符特征进行融合，以得到各字符的目标字符特征。

识别模块1305，用于根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

处理模块1306，用于根据预测槽位信息和预测意图信息，对目标语句进行处理。

在本公开实施例的一种可能的实现方式中，融合模块1304，具体用于：针对目标语句中的任一字符，确定任一字符对各字符的第一权重；根据任一字符对各字符的第一权重，对任一字符的初始字符特征进行加权求和，以得到任一字符的中间字符特征；将任一字符的中间字符特征和句子特征进行融合，以得到任一字符的目标字符特征。

在本公开实施例的一种可能的实现方式中，融合模块1304，具体用于：确定各字符在目标语句中的重要程度；针对目标语句中的第i个字符，根据第i个字符的初始字符特征和目标语句中第j个字符的重要程度，确定第i个字符对第j个字符的第一权重；其中，i和j为小于或等于T的正整数，T为目标语句包含的字符个数。

在本公开实施例的一种可能的实现方式中，融合模块1304，具体用于：根据第i个字符的初始字符特征和第j个字符的重要程度，确定第i个字符对第j个字符的初始权重；根据第i个字符对各字符的初始权重，确定第一系数；根据第i个字符对第j个字符的初始权重与第一系数，确定第i个字符对第j个字符的第一权重。

在本公开实施例的一种可能的实现方式中，识别模块1305，具体用于：将各字符的目标字符特征输入条件随机场CRF网络；根据CRF网络的输出，确定预测槽位信息；其中，CRF网络已学习到特征与槽位之间的对应关系。

在本公开实施例的一种可能的实现方式中，识别模块1305，具体用于：针对目标语句中的任一字符，确定目标语句对任一字符的第二权重；根据第二权重，对句子特征和任一字符的目标字符特征进行融合，以得到任一字符的第一融合特征；根据任一字符的第一融合特征，生成任一字符的意图特征；根据各字符的意图特征，对目标语句进行意图识别，以得到预测意图信息。

在本公开实施例的一种可能的实现方式中，识别模块1305，具体用于：将各字符的意图特征进行平均池化，以得到目标意图特征；将目标意图特征输入全连接网络；根据全连接网络的输出，确定预测意图信息。

在本公开实施例的一种可能的实现方式中，识别模块1305，具体用于：针对目标语句中的任一字符，将句子特征和任一字符的目标字符特征进行融合，以得到任一字符的第二融合特征；将任一字符的第二融合特征输入激活函数，以根据激活函数的输出，确定目标语句对任一字符的第二权重。

本公开实施例的语句处理装置，通过对目标语句中的各字符进行编码，以得到各字符的初始字符特征，并根据各字符的初始字符特征，生成目标语句的句子特征；分别将句子特征与各字符的初始字符特征进行融合，以得到各字符的目标字符特征；根据各字符的目标字符特征，分别对目标语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；根据预测槽位信息和预测意图信息，对目标语句进行处理。由此，将全局的句子特征(即句子向量表示)融合到单个字符维度，可以促进字符对全局句子信息的感知，提升意图和槽位识别的准确性，从而可以实现根据准确的用户意图和槽位信息对目标语句进行精准处理，以满足用户的实际业务需求。

与上述图4至图7实施例提供的类目模型的训练方法相对应，本公开还提供一种类目模型的训练装置，由于本公开实施例提供的类目模型的训练装置与上述图4至图7实施例提供的类目模型的训练方法相对应，因此在类目模型的训练方法的实施方式也适用于本公开实施例提供的类目模型的训练装置，在本公开实施例中不再详细描述。

图14为本公开实施例十所提供的类目模型的训练装置的结构示意图。

如图14所示，该类目模型的训练装置1400可以包括：获取模块1401、确定模块1402、处理模块1403、识别模块1404以及训练模块1405。

其中，获取模块1401，用于获取样本语句，其中，样本语句的标注信息包括标注意图信息和标注槽位信息。

确定模块1402，用于根据样本语句所属的第一类目，确定与第一类目匹配的初始类目模型。

处理模块1403，用于对样本语句中的各字符进行编码，以得到各字符的初始字符特征，并根据各字符的初始字符特征，生成样本语句的句子特征。

识别模块1404，用于采用初始类目模型分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

训练模块1405，用于根据预测意图信息和标注意图信息之间的差异，以及预测槽位信息和标注槽位信息之间的差异，对初始类目模型进行训练，以得到目标类目模型。

在本公开实施例的一种可能的实现方式中，识别模块1404，具体用于：采用初始类目模型将句子特征分别与各字符的初字符始特征进行融合，以得到各字符的目标字符特征；采用初始类目模型根据各字符的目标字符特征，分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息。

在本公开实施例的一种可能的实现方式中，训练模块1405，具体用于：根据预测意图信息和标注意图信息之间的差异，生成第一损失值；根据预测槽位信息和标注槽位信息之间的差异，生成第二损失值；根据第一损失值和第二损失值，生成第一目标损失值；根据第一目标损失值，对初始类目模型中的模型参数进行调整，以得到目标类目模型。

在本公开实施例的一种可能的实现方式中，样本语句为多个；识别模块1404，具体用于：针对多个样本语句中的任一样本语句，采用与任一样本语句所属的第一类目匹配的初始类目模型，根据任一样本语句中各字符的初始字符特征和任一样本语句的句子特征，分别对任一样本语句进行槽位识别和意图识别，以得到任一样本语句对应的预测槽位信息和预测意图信息。

在本公开实施例的一种可能的实现方式中，训练模块1405，具体用于：根据任一样本语句对应的预测槽位信息和标注槽位信息之间的差异，以及根据任一样本语句对应的预测意图信息和标注意图信息之间的差异，生成任一样本语句对应的目标子损失值；根据各样本语句的目标子损失值，生成第二目标损失值；根据第二目标损失值，对与各样本语句所属的第一类目匹配的初始类目模型进行联合训练，以得到各第一类目下的目标类目模型。

在本公开实施例的一种可能的实现方式中，获取模块1401，具体用于：获取历史对话日志，并从历史对话日志中获取多个候选语句；从多个候选语句中确定样本语句；获取样本语句对应的标注意图信息；获取样本语句对应的标注槽位信息。

在本公开实施例的一种可能的实现方式中，获取模块1401，具体用于：基于设定规则，对多个候选语句进行筛选，以保留与设定规则匹配的样本语句；和/或，分别对多个候选语句进行分类，以得到多个候选语句的类目；将类别与设定类别匹配的候选语句作为样本语句。

本公开实施例的类目模型的训练装置，通过获取样本语句，其中，样本语句的标注信息包括标注意图信息和标注槽位信息；根据样本语句所属的第一类目，确定与第一类目匹配的初始类目模型；采用初始类目模型分别对样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；根据预测意图信息和标注意图信息之间的差异，以及预测槽位信息和标注槽位信息之间的差异，对初始类目模型进行训练，以得到目标类目模型。由此，可以实现结合意图识别任务的损失和槽位识别任务的损失，对初始类目模型进行联合优化，提升模型的预测效果。

与上述图8实施例提供的语句处理方法相对应，本公开还提供一种语句处理装置，由于本公开实施例提供的语句处理装置与上述图8实施例提供的语句处理方法相对应，因此在语句处理方法的实施方式也适用于本公开实施例提供的语句处理装置，在本公开实施例中不再详细描述。

图15为本公开实施例十一所提供的语句处理装置的结构示意图。

如图15所示，该语句处理装置1500可以包括：获取模块1501、确定模块1502、识别模块1503和处理模块1504。

其中，获取模块1501，用于获取目标语句。

确定模块1502，用于根据目标语句所属的第二类目，从多个目标类目模型中确定与第二类目匹配的目标类目模型；其中，目标类目模型是采用如图14所示的装置训练得到的。

识别模块1503，用于采用与第二类目匹配的目标类目模型，对目标语句进行槽位识别和意图识别，以得到槽位识别信息和意图识别信息。

处理模块1504，用于根据槽位识别信息和意图识别信息，对目标语句进行处理。

本公开实施例的语句处理装置，通过根据目标语句所属的第二类目，从多个目标类目模型中确定与第二类目匹配的目标类目模型；采用与第二类目匹配的目标类目模型，对目标语句进行槽位识别和意图识别，以得到槽位识别信息和意图识别信息；根据槽位识别信息和意图识别信息，对目标语句进行处理。由此，基于与目标语句所属的类目(或业务场景)匹配的类目模型，对目标语句进行槽位识别和意图识别，可以提升识别结果的准确性，从而可以实现根据准确的用户意图和槽位信息对目标语句进行精准处理，以满足用户的实际业务需求。

为了实现上述实施例，本公开还提出一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开前述任一实施例提出的语句处理方法或类目模型的训练方法。

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开前述任一实施例提出的语句处理方法或类目模型的训练方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本公开前述任一实施例提出的语句处理方法或类目模型的训练方法。

图16示出了适于用来实现本公开实施方式的示例性电子设备的框图。图16显示的电子设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图16所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图16未显示，通常称为“硬盘驱动器”)。尽管图16中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图16所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语句处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分别将所述句子特征与各所述字符的初始字符特征进行融合，以得到各所述字符的目标字符特征，包括：

针对所述目标语句中的任一字符，确定所述任一字符对各所述字符的第一权重；

根据所述任一字符对各所述字符的第一权重，对所述任一字符的初始字符特征进行加权求和，以得到所述任一字符的中间字符特征；

将所述任一字符的中间字符特征和所述句子特征进行融合，以得到所述任一字符的目标字符特征。

3.根据权利要求2所述的方法，其特征在于，所述针对所述目标语句中的任一字符，确定所述任一字符对各所述字符的第一权重，包括：

确定各所述字符在所述目标语句中的重要程度；

针对所述目标语句中的第i个字符，根据所述第i个字符的初始字符特征和所述目标语句中第j个字符的重要程度，确定所述第i个字符对所述第j个字符的第一权重；

其中，i和j为小于或等于T的正整数，T为所述目标语句包含的字符个数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第i个字符的初始字符特征和所述目标语句中第j个字符的重要程度，确定所述第i个字符对所述第j个字符的第一权重，包括：

根据所述第i个字符的初始字符特征和所述第j个字符的重要程度，确定所述第i个字符对所述第j个字符的初始权重；

根据所述第i个字符对各所述字符的初始权重，确定第一系数；

根据所述第i个字符对所述第j个字符的初始权重与所述第一系数，确定所述第i个字符对所述第j个字符的第一权重。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据各所述字符的目标字符特征，对所述目标语句进行槽位识别，包括：

将各所述字符的目标字符特征输入条件随机场CRF网络；

根据所述CRF网络的输出，确定所述预测槽位信息；

其中，所述CRF网络已学习到特征与槽位之间的对应关系。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据各所述字符的目标字符特征，对所述目标语句进行意图识别，以得到预测意图信息，包括：

针对所述目标语句中的任一字符，确定所述目标语句对所述任一字符的第二权重；

根据所述第二权重，对所述句子特征和所述任一字符的目标字符特征进行融合，以得到所述任一字符的第一融合特征；

根据所述任一字符的第一融合特征，生成所述任一字符的意图特征；

根据各所述字符的意图特征，对所述目标语句进行意图识别，以得到所述预测意图信息。

7.根据权利要求6所述的方法，其特征在于，所述根据各所述字符的意图特征，对所述目标语句进行意图识别，以得到预测意图信息，包括：

将各所述字符的意图特征进行平均池化，以得到目标意图特征；

将所述目标意图特征输入全连接网络；

根据所述全连接网络的输出，确定所述预测意图信息。

8.根据权利要求6所述的方法，其特征在于，所述针对所述目标语句中的任一字符，确定所述目标语句对所述任一字符的第二权重，包括：

针对所述目标语句中的任一字符，将所述句子特征和所述任一字符的目标字符特征进行融合，以得到所述任一字符的第二融合特征；

将所述任一字符的第二融合特征输入激活函数，以根据所述激活函数的输出，确定所述目标语句对所述任一字符的第二权重。

9.一种类目模型的训练方法，其特征在于，所述方法包括：

采用所述初始类目模型根据各所述字符的初始字符特征和所述句子特征，分别对所述样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息；

10.根据权利要求9所述的方法，其特征在于，所述采用所述初始类目模型根据各所述字符的初始字符特征和所述句子特征，分别对所述样本语句进行槽位识别和意图识别，以得到预测槽位信息和预测意图信息，包括：

采用所述初始类目模型将所述句子特征分别与各所述字符的初字符始特征进行融合，以得到各所述字符的目标字符特征；

采用所述初始类目模型根据各所述字符的目标字符特征，分别对所述样本语句进行槽位识别和意图识别，以得到所述预测槽位信息和所述预测意图信息。

11.根据权利要求9所述的方法，其特征在于，所述根据所述预测意图信息和所述标注意图信息之间的差异，以及所述预测槽位信息和所述标注槽位信息之间的差异，对所述初始类目模型进行训练，以得到目标类目模型，包括：

根据所述预测意图信息和所述标注意图信息之间的差异，生成第一损失值；

根据所述预测槽位信息和所述标注槽位信息之间的差异，生成第二损失值；

根据所述第一损失值和所述第二损失值，生成第一目标损失值；

根据所述第一目标损失值，对所述初始类目模型中的模型参数进行调整，以得到所述目标类目模型。

12.根据权利要求9所述的方法，其特征在于，所述样本语句为多个；

所述采用所述初始类目模型根据各所述字符的初始字符特征和所述句子特征，分别对所述样本语句，以得到预测槽位信息和预测意图信息，包括：

针对所述多个样本语句中的任一样本语句，采用与所述任一样本语句所属的第一类目匹配的初始类目模型，根据所述任一样本语句中各字符的初始字符特征和所述任一样本语句的句子特征，分别对所述任一样本语句进行槽位识别和意图识别，以得到所述任一样本语句对应的预测槽位信息和预测意图信息。

13.根据权利要求12所述的方法，其特征在于，所述根据所述预测意图信息和所述标注意图信息之间的差异，以及所述预测槽位信息和所述标注槽位信息之间的差异，对所述初始类目模型进行训练，以得到目标类目模型，包括：

根据所述任一样本语句对应的预测槽位信息和标注槽位信息之间的差异，以及根据所述任一样本语句对应的预测意图信息和标注意图信息之间的差异，生成所述任一样本语句对应的目标子损失值；

根据各所述样本语句的目标子损失值，生成第二目标损失值；

根据所述第二目标损失值，对与各所述样本语句所属的第一类目匹配的初始类目模型进行联合训练，以得到各所述第一类目下的目标类目模型。

14.根据权利要求9-13中任一项所述的方法，其特征在于，所述获取样本语句，包括：

获取历史对话日志，并从所述历史对话日志中获取多个候选语句；

从所述多个候选语句中确定样本语句；

获取所述样本语句对应的标注意图信息；

获取所述样本语句对应的标注槽位信息。

15.根据权利要求14所述的方法，其特征在于，所述从所述多个候选语句中确定样本语句，包括：

基于设定规则，对所述多个候选语句进行筛选，以保留与所述设定规则匹配的样本语句；

和/或，

分别对所述多个候选语句进行分类，以得到所述多个候选语句的类别；

将所述类别与设定类别匹配的候选语句作为所述样本语句。

16.一种语句处理方法，其特征在于，所述方法包括：

获取目标语句；

根据所述目标语句所属的第二类目，从多个目标类目模型中确定与所述第二类目匹配的目标类目模型；其中，所述目标类目模型是采用如权利要求9-15中任一项所述的方法训练得到的；

17.一种语句处理装置，其特征在于，所述装置包括：

获取模块，用于获取目标语句；

18.一种类目模型的训练装置，其特征在于，所述装置包括：

19.一种语句处理装置，其特征在于，所述装置包括：

获取模块，用于获取目标语句；

确定模块，用于根据所述目标语句所属的第二类目，从多个目标类目模型中确定与所述第二类目匹配的目标类目模型；其中，所述目标类目模型是采用如权利要求18所述的装置训练得到的；

20.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法，或者执行权利要求9-15中任一项所述的方法，或者执行权利要求16所述的方法。

21.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法，或者执行权利要求9-15中任一项所述的方法，或者执行权利要求16所述的方法。