CN114154395A

CN114154395A - 一种模型处理方法、装置和用于模型处理的装置

Info

Publication number: CN114154395A
Application number: CN202111301382.8A
Authority: CN
Inventors: 凡子威
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-03-08

Abstract

本发明实施例提供了一种模型处理方法、装置和用于模型处理的装置。所述方法包括：获取业务数据；将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。本发明实施例可以避免知识蒸馏过程中信息的丢失，提升业务模型的模型性能。

Description

一种模型处理方法、装置和用于模型处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型处理方法、装置和用于模型处理的装置。

背景技术

目前，预训练模型发展突飞猛进。预训练可以通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。并且，预训练模型可以将从大规模数据中学习到的知识迁移到具体的业务中。也就是说，若使用预训练模型对业务模型进行优化，则可以使得业务模型的效果更优。

但是，在一些场景下，并不能使用预训练模型对业务模型进行优化，从而使得业务模型的效果无法得到提升。

发明内容

本发明实施例提供一种模型处理方法、装置和用于模型处理的装置，可以利用预训练模型对初始业务模型进行优化，提升业务模型的模型性能。

为了解决上述问题，本发明实施例公开了一种模型处理方法，所述方法包括：

获取业务数据；

将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个所述预训练模型的建模单元对应一个全连接层输出，一个所述初始业务模型的建模单元对应一个全连接层输出；

将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；

根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

另一方面，本发明实施例公开了一种模型处理装置，所述装置包括：

业务数据获取模块，用于获取业务数据；

业务数据处理模块，用于将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个所述预训练模型的建模单元对应一个全连接层输出，一个所述初始业务模型的建模单元对应一个全连接层输出；

建模单元匹配模块，用于将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；

知识蒸馏模块，用于根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

再一方面，本发明实施例公开了一种用于模型处理的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如前述一个或多个所述的模型处理方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的模型处理方法。

本发明实施例还公开了一种计算机程序产品，所述计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的计算机设备执行如前述一个或多个所述的模型处理方法。

本发明实施例包括以下优点：

本发明实施例在获取业务数据之后，将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出。其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个建模单元对应一个全连接层输出。为了对所述预训练模型和所述初始业务模型进行知识蒸馏，本发明实施例将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符，然后，根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

本发明实施例可以在预训练模型和初始业务模型的建模单元不相同的情况下，通过对所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，实现对预训练模型和初始业务模型的知识蒸馏，得到优化的目标业务模型，从而提升业务性能。并且，本发明实施例在对预训练模型的全连接层输出和初始业务模型的全连接层输出进行匹配之前，先基于两个模型的自注意力机制分别对各自的所有建模单元进行处理，使得每个全连接层输出均参考模型全部的建模单元，从而避免了知识蒸馏过程中信息的丢失，有利于进一步提升目标业务模型的模型性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种模型处理方法实施例的步骤流程图；

图2是本发明的一种模型处理流程示意图；

图3是本发明的一种模型处理装置实施例的结构框图；

图4是本发明的一种用于模型处理的装置800的框图；

图5是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种模型处理方法实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤101、获取业务数据。

步骤102、将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个建模单元对应一个全连接层输出。

步骤103、将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符。

步骤104、根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

需要说明的是，在本发明实施例中，所述预训练模型和所述初始业务模型可以是预先训练得到的。示例性的，所述预训练模型可以是根据预训练数据和业务数据训练得到的。具体地：可以利用预训练数据训练得到初始预训练模型，而后，利用业务数据对所述初始预训练模型进行微调(Finetune)，得到基于业务的预训练模型。其中，所述预训数据可以是与业务无关的训练数据，所述预训练模型，可以包括但不限于BERT(BidirectionalEncoder Representations from Transformers，深度语言表示模型)、GPT(GenerativePre-Training，生成式的预训练)模型和ELECTRA(Efficiently Learning an Encoderthat Classifies Token Replacements Accurately，高效地学习对Token替换进行准确分类的编码器)。

在本发明实施例中，所述初始业务模型可以是利用业务数据训练得到的。可以理解的是，业务数据的数据量不能无限扩增，尤其是对于一些新兴业务，其业务数据更是十分有限。因此，初始业务模型的准确度往往不是特别高。而采用知识蒸馏的方式利用预训练模型对初始业务模型进行优化，则可以在不额外增加用于模型训练的业务数据的情况下，有效提升优化得到的目标业务模型的准确度。

使用知识蒸馏有一个前提，就是预训练模型的全连接层输出的序列长度和初始业务模型的全连接层输出的序列长度一致。这是因为在进行知识蒸馏时，要根据预训练模型的全连接层输出和业务模型的全连接层输出计算相对熵散度丢失(Kullback–Leiblerdivergence loss，KLD loss)。举例说明：预训练模型的全连接层输出包括3个向量，分别是w1、w2和w3，初始业务模型的全连接层输出包括3个向量，分别是L1、L2和L3，则KLD loss＝w1*L1+w2*L2+w3*L3。

在一些场景中，例如，在给文本自动添加标点符号的场景中，其对应的初始业务模型的建模单元为分词，预训练模型的建模单元为单个字符。分词可以包括一个或者多个字符，因此，初始业务模型的一个建模单元可能对应预训练模型的多个建模单元。而一个建模单元对应一个全连接层输出，这就导致该业务模型的全连接层输出的序列长度与预训练模型的全连接层输出的序列长度不一致，从而无法进行知识蒸馏。例如：对于文本“我是中国人”而言，预训练模型的输入包括5个建模单元，分别为：“我”、“是”、“中”、“国”、“人”，而初始业务模型的输入包括3个建模单元，分别是“我”、“是”、“中国人”。假设各个建模单元对应的全连接层输出是一个5维的向量，则对于预训练模型而言，其全连接层输出为5个5维向量，而对于业务模型而言，其全连接层输出为3个5维向量，显然，初始业务模型的全连接层输出的序列长度与预训练模型的全连接层输出的序列长度不一致。

由于所述初始业务模型的每个建模单元只包括一个字符的可能性较小，因此，在大多数情况下，所述预训练模型的全连接层输出的序列长度，大于所述初始业务模型的全连接层输出的序列长度，利用所述预训练模型的全连接层输出和所述初始业务模型的全连接层输出，无法进行知识蒸馏。鉴于此，本发明实施例提供了一种模型处理方法，通过引入自注意力机制，对预训练模型的全连接层输出和初始业务模型的全连接层输出进行软对齐，进而通过知识蒸馏得到目标业务模型。

参照图2，示出了本发明实施例提供的一种模型处理流程示意图。下面，将以给文本自动添加标点符号的场景为例，结合图2说明本发明提供的模型处理方法的具体实现步骤。

如图2所示，将业务数据分别输入至预训练模型和初始业务模型。预训练模型对业务数据中的字符进行映射，得到字符向量c1至c5。然后，预训练模型基于自注意力机制对字符向量c1至c5进行处理，得到全连接层输出S1至S5。其中，预训练模型的每一个全连接层输出均是基于字符向量c1至c5得到的。

初始业务模型对业务数据中的分词进行映射，得到分词向量w1至w3，然后，初始业务模型基于自注意力机制对分词向量w1至w3进行处理，得到全连接层输出L1至L3。其中，初始业务模型的每一个全连接层输出均是基于分词向量w1至w3得到的。

需要说的是，在本发明实施例中，预训练模型和初始业务模型的全连接层输出为未经归一化的标签概率值向量。例如，在给文本添加标点符号的场景中，可选的标点符号例如有4种，则各个建模单元对应的全连接层输出为一个5维向量，该5维向量的具体数值用于指示该4种标点符号的概率以及无标点符号的概率。全连接层输出又可以被称为Logits输出。

假设输入的业务数据为：“我是中国人”，图2中初始业务模型的3个分词向量分别对应“我”、“是”、“中国人”，则初始业务模型的全连接层输出L1对应“我”的标签概率值向量，L2对应“是”的标签概率值向量，L3对应“中国人”的标签概率值向量。预训练模型的5个字符向量分别对应“我”、“是”、“中”、“国”、“人”，则预训练模型的5个全连接层输出依次对应“我”、“是”、“中”、“国”、“人”的标签概率值向量。

若要对所述预训练模型和所述初始业务模型进行知识蒸馏，就需要找出预训练模型中与初始业务模的各个全连接层输出相匹配的全连接层输出，并计算KLD loss和CEloss(Cross Entropy Loss，交叉熵损失)。

在本发明实施例中，可以从所述预训练模型的建模单元中，确定出与所述初始业务模型的各个建模单元分别匹配的目标字符，而后，利用所述初始业务模型的全连接层输出、以及所述预训练模型的建模单元中与所述初始业务模型的各个建模单元分别匹配的目标字符的全连接层输出进行知识蒸馏。

例如，如图2所示，确定预训练模型中的目标字符“我”对应初始业务模型的建模单元“我”；确定预训练模型中的目标字符“是”对应初始业务模型的建模单元“是”；确定预训练模型中的目标字符“人”对应初始业务模型的建模单元“中国人”。而后，利用L1、L2、L3和S1、S2、S5进行知识蒸馏，得到目标业务模型。

由图2可以看出，在对所述预训练模型和所述初始业务模型进行知识蒸馏时，经过对齐处理，在计算KLD loss时，实际只参考了预训练模型的全连接层输出中的S1、S2和S5，舍弃了全连接层输出S3和S4。如果预训练模型的全连接输出仅由对应的分词向量得到，也即，S1仅由c1得到，S2仅由c2得到，依次类推，S5仅由c5得到，那么在知识蒸馏的过程中，就会丢失分词向量c3、c4的信息，影响最终得到的目标业务模型的模型性能。

因此，在本发明实施例中，在对预训练模型的全连接层输出和初始业务模型的全连接层输出进行匹配之前，先基于两个模型的自注意力机制分别对各自的所有建模单元进行处理，使得每个全连接层输出均参考模型全部的建模单元，从而避免了知识蒸馏过程中分词信息的丢失，有利于提升目标业务模型的模型性能。

其中，所述初始业务模型和所述目标业务模型，可以用于处理相关的业务。在一个示例中，所述初始业务模型和所述目标业务模型可以用于为文本添加标点符号。考虑到根据语音自动识别到的文本数据不包括标点符号，因此，在一些实施例中，所述文本数据可以是通过语音自动识别的文本数据。

在本发明的一种可选实施例中，步骤102所述将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出，包括：

步骤S11、将所述业务数据输入至预训练模型的自注意力网络层进行处理，得到所述业务数据对应的第一隐层向量；

步骤S12、将所述第一隐层向量输入至所述预训练模型的全连接层进行计算，得到所述预训练模型的全连接层输出；

步骤S13、将所述业务数据输入至初始业务模型的自注意力网络层进行处理，得到所述业务数据对应的第二隐层向量；

步骤S14、将所述第二隐层向量输入至所述初始业务模型的全连接层进行计算，得到所述预训练模型的全连接层输出。

在本发明实施例中，所述预训练模型和所述初始业务模型均可以包括自注意力网络层和全连接层。针对输入的业务数据，两个模型分别对业务数据进行映射得到各自的建模单元对应的编码向量。其中，所述预训练模型对业务数据进行映射得到字符向量，所述初始业务模型对业务数据进行映射得到分词向量。然后，基于自身的自注意力网络层对建模单元对应的编码向量进行处理，得到隐层向量，再将隐层向量输入至自身的全连接层进行计算，得到全连接层输出。

在本发明的一种可选实施例中，步骤103所述将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符，包括：

若第一字符集合构成第一分词，则确定所述第一字符集合的最后一个字符为目标字符，其中，所述第一字符集合包括多个字符，所述多个字符均为所述预训练模型的建模单元，所述第一分词为所述初始业务模型的任一建模单元。

在本发明实施例中，对于所述初始业务模型和所述目标业务模型可以用于为文本添加符号的情况，考虑到对于一个分词而言，其分词内部不可能会被添加标点符号，标点符号可能被添加在该分词最后一个字符之后。举例说明，对于分词“中国人”而言，字符“中”和字符“国”之间，不可能被添加标点符号；字符“国”和字符“人”之间，也不可能被添加标点符号。而字符“人”之后有可能被添加标点符号。因此，步骤103在具体实现时，可以是：将初始业务模型的各个建模单元与预训练模型的各个建模单元进行匹配，若预训练模型的多个建模单元构成初始业务模型的某一建模单元，则将所述多个建模单元中的最后一个建模单元，确定为与前述“某一建模单元”匹配的字符。

为方便描述，例如，将所述“某一建模单元”称为“第一分词”，将所述“预训练模型的多个建模单元”称为“第一字符集合”，则：若第一字符集合构成第一分词，则将所述第一字符集合的最后一个字符，确定为与所述第一分词匹配的目标字符。举例说明：第一字符集合为{“中”、“国”、“人”}，第一分词为“中国人”，则将所述第一字符集合的最后一个字符“人”，确定为与第一分词匹配的目标字符。

基于预训练模型的建模单元中的目标字符，就可以从所述预训练模型的全连接层输出的序列中，筛选出与初始业务模型的全连接层输出的序列长度相同的序列，从而进行知识蒸馏，使用预训练模型对初始业务模型进行优化，得到目标业务模型，提升业务性能。

在本发明的一种可选实施例中，所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签；步骤104所述根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型，包括：

步骤S21、根据所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出，计算所述预训练模型的第一损失值；

步骤S22、根据所述初始业务模型的全连接层输出和所述文本数据对应的标点符号标签，计算所述初始业务模型的第二损失值；

步骤S23、对所述第一损失值和所述第二损失值进行加权求和，得到所述预训练模型和所述初始业务模型的联合损失值；

步骤S24、根据所述联合损失值对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

其中，所述第一损失值可以是所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出的相对熵，也即KLD loss。以图2为例，假设预训练模型中，目标字符对应的全连接层输出分别为S1、S2和S5，则可以按照如下公式计算所述第一损失值：

其中，L(x)表示初始业务模型的全连接层输出L1至L3，S(x)表示预训练模型中目标字符对应的全连接层输出S1、S2和S5。

所述第二损失值可以为所述初始业务模型的全连接层输出和所述文本数据对应的标点符号标签的交叉熵，也即CE-loss。以图2为例，假设初始业务模型中，初始业务模型对应的全连接层输出为L1至L3，则可以按照如下公式计算所述第二损失值：

CE＝∑_x∈XP(x)logL(x) (2)

其中，P(x)表示所述文本数据对应的标点符号标签，L(x)表示初始业务模型的全连接层输出L1至L3。

分别计算得到第一损失值和第二损失值之后，对所述第一损失值和所述第二损失值进行加权求和，得到所述预训练模型和所述初始业务模型的联合损失值，并根据所述联合损失值进行知识蒸馏，得到目标业务模型。

需要说明的是，所述第一损失值和所述第二损失值的加权系数可以根据实际需求进行设定，例如，可以将所述第一损失值和所述第二损失值的加权系数均设置为0.5，对此，本发明实施例不做具体限定。

在本发明的一种可选实施例中，得到目标业务模型之后，可以利用该目标业务模型处理相关的业务。例如，可以利用所述目标业务模型为文本添加标点符号，则所述方法还包括：

步骤S31、获取语音数据；

步骤S32、对所述语音数据进行语音识别处理，得到所述语音数据对应的文本数据；

步骤S33、利用所述目标业务模型，为所述语音数据对应的文本数据添加标点符号；

步骤S34、输出添加标点符号后的文本数据。

其中，所述语音数据可以是用户通过麦克风实时录入的数据，也可以是用户提前录入并存储的数据，此处不做限定。

在本发明实施例中，可以利用语音识别技术，识别所述语音数据的具体内容，从而得到所述语音数据对应的文本。关于所述语音识别技术，此处不做详细介绍。

由于根据语音识别得到的文本不包括标点符号，因此，得到语音数据对应的文本数据之后，可以利用所述目标业务模型，自动为所述语音数据对应的文本数据添加标点符号，并进一步输出添加标点符号后的文本数据。

例如，在即时通信场景中，用户不便手动输入文本，则可以调用麦克风录入语音数据，而后，安装所述即时通信软件的设备则可以接收用户录入的语音数据，进一步对该语音数据进行识别，并利用所述目标业务模型，为所述语音数据对应的文本数据添加标点符号。而后，在即时通信页面的输入区，输入添加了标点符号的文本数据。

综上，本发明实施例可以在预训练模型和初始业务模型的建模单元不相同的情况下，通过对所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，实现对预训练模型和初始业务模型的知识蒸馏，得到优化的目标业务模型，从而提升业务性能。并且，本发明实施例在对预训练模型的全连接层输出和初始业务模型的全连接层输出进行匹配之前，先基于两个模型的自注意力机制分别对各自的建模单元进行处理，使得每个全连接层输出均参考模型全部的建模单元，从而避免了知识蒸馏过程中分词信息的丢失，有利于进一步提升目标业务模型的模型性能。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种模型处理装置实施例的结构框图，所述装置可以包括：

业务数据获取模块301，用于获取业务数据；

业务数据处理模块302，用于将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个所述预训练模型的建模单元对应一个全连接层输出，一个所述初始业务模型的建模单元对应一个全连接层输出；

建模单元匹配模块303，用于将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；

知识蒸馏模块304，用于根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

可选地，所述业务数据处理模块，包括：

第一隐层向量确定子模块，用于将所述业务数据输入至预训练模型的自注意力网络层进行处理，得到所述业务数据对应的第一隐层向量；

第一全连接层输出子模块，用于将所述第一隐层向量输入至所述预训练模型的全连接层进行计算，得到所述预训练模型的全连接层输出；

第二隐层向量确定子模块，用于将所述业务数据输入至初始业务模型的自注意力网络层进行处理，得到所述业务数据对应的第二隐层向量；

第二全连接层输出子模块，用于将所述第二隐层向量输入至所述初始业务模型的全连接层进行计算，得到所述预训练模型的全连接层输出。

可选地，所述建模单元匹配模块，包括：

建模单元匹配子模块，用于若第一字符集合构成第一分词，则确定所述第一字符集合的最后一个字符为目标字符，其中，所述第一字符集合包括多个字符，所述多个字符均为所述预训练模型的建模单元，所述第一分词为所述初始业务模型的任一建模单元。

可选地，所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选地，所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签；所述知识蒸馏模块，包括：

第一损失值计算子模块，用于根据所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出，计算所述预训练模型的第一损失值；

第二损失值计算子模块，用于根据所述初始业务模型的全连接层输出和所述文本数据对应的标点符号标签，计算所述初始业务模型的第二损失值；

联合损失值计算子模块，用于对所述第一损失值和所述第二损失值进行加权求和，得到所述预训练模型和所述初始业务模型的联合损失值；

知识蒸馏子模块，用于根据所述联合损失值对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

可选地，所述装置还包括：

语音数据获取模块，用于获取语音数据；

语音识别处理模块，用于对所述语音数据进行语音识别处理，得到所述语音数据对应的文本数据；

标点符号添加模块，用于利用所述目标业务模型，为所述语音数据对应的文本数据添加标点符号；

文本数据输出模块，用于输出添加标点符号后的文本数据。

可选地，所述业务数据包括对语音数据进行语音识别处理后得到的文本数据。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于模型处理的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

A11、获取业务数据；

A12、将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个所述预训练模型的建模单元对应一个全连接层输出，一个所述初始业务模型的建模单元对应一个全连接层输出；

A13、将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；

A14、根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

可选地，所述将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出，包括：

将所述业务数据输入至预训练模型的自注意力网络层进行处理，得到所述业务数据对应的第一隐层向量；

将所述第一隐层向量输入至所述预训练模型的全连接层进行计算，得到所述预训练模型的全连接层输出；

将所述业务数据输入至初始业务模型的自注意力网络层进行处理，得到所述业务数据对应的第二隐层向量；

将所述第二隐层向量输入至所述初始业务模型的全连接层进行计算，得到所述预训练模型的全连接层输出。

可选地，所述将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符，包括：

可选地，所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签；所述根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型，包括：

根据所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出，计算所述预训练模型的第一损失值；

根据所述初始业务模型的全连接层输出和所述文本数据对应的标点符号标签，计算所述初始业务模型的第二损失值；

对所述第一损失值和所述第二损失值进行加权求和，得到所述预训练模型和所述初始业务模型的联合损失值；

根据所述联合损失值对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取语音数据；

对所述语音数据进行语音识别处理，得到所述语音数据对应的文本数据；

利用所述目标业务模型，为所述语音数据对应的文本数据添加标点符号；

输出添加标点符号后的文本数据。

图4是根据一示例性实施例示出的一种用于模型处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音处理装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的模型处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行前文图1所对应实施例中模型训练方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本发明方法实施例的描述。

此外，需要说明的是：本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图1所对应实施例中模型训练方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种模型处理方法、一种模型处理装置和一种用于模型处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种模型处理方法，其特征在于，所述方法包括：

获取业务数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符，包括：

4.根据权利要求1所述的方法，其特征在于，所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

5.根据权利要求4所述的方法，其特征在于，所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签；所述根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取语音数据；

输出添加标点符号后的文本数据。

7.根据权利要求1至6任一所述的方法，其特征在于，所述业务数据包括对语音数据进行语音识别处理后得到的文本数据。

8.一种模型处理装置，其特征在于，所述装置包括：

业务数据获取模块，用于获取业务数据；

9.根据权利要求8所述的装置，其特征在于，所述业务数据处理模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述建模单元匹配模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

12.根据权利要求11所述的装置，其特征在于，所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签；所述知识蒸馏模块，包括：

13.一种用于模型处理的装置，其特征在于，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1至7中任一所述的模型处理方法的指令。

14.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的模型处理方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的计算机设备执行权利要求1至7任一项所述的模型处理方法。