CN111554268B

CN111554268B - 基于语言模型的语言识别方法、文本分类方法和装置

Info

Publication number: CN111554268B
Application number: CN202010667400.3A
Authority: CN
Inventors: 黄展鹏; 赵博; 赵瑞辉; 陆扩建
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-11-03
Anticipated expiration: 2040-07-13
Also published as: CN111554268A

Abstract

本申请涉及一种基于语言模型的语言识别方法、文本分类方法和装置、计算机设备和存储介质，包括：获取训练语句对应的训练词向量，将其分别输入到待训练的第一模型和已训练的第二模型中，得到第一模型的各个第一网络层输出的特征矩阵，以及第二模型的各个第二网络层输出的特征矩阵；第一网络层和第二网络层一一对应，第一模型的网络层层数小于第二模型的网络层层数；将各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度调整第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型，通过第一模型进行语言识别。采用本方法能够提高模型训练效率。

Description

基于语言模型的语言识别方法、文本分类方法和装置

技术领域

本申请涉及互联网技术领域，特别是涉及一种基于语言模型的语言识别方法、文本分类方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，出现了神经网络模型，神经网络模型可以用于处理各种NLP（Natural Language Processing，自然语言处理）任务。大型的神经网络模型通过知识蒸馏可以压缩为小型的神经网络模型。

传统技术中，对大型的神经网络模型的知识蒸馏方法通常为基于具体的NLP任务，对大型的神经网络模型进行知识蒸馏得到小型的神经网络模型，例如，基于文本相似度匹配任务定义对大型的神经网络模型知识蒸馏得到轻量级的神经网络模型的损失函数。

然而，基于具体的NLP任务进行知识蒸馏得到的神经网络模型只能应用于某一NLP任务，具有较大的局限性。当涉及其他NLP任务时，需要重新定义损失函数，重新进行知识蒸馏。由于大型的神经网络模型参数复杂，重新进行知识蒸馏会耗费较多的时间，导致模型训练效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高模型训练效率、节约资源的基于语言模型的语言识别方法、文本分类方法、装置、计算机设备和存储介质。

一种基于语言模型的语言识别方法，所述方法包括：

获取训练语句对应的训练词向量；

将训练词向量分别输入到待训练的第一模型和已训练的第二模型中，得到第一模型的各个第一网络层输出的特征矩阵，以及第二模型的各个第二网络层输出的特征矩阵；第一网络层与第二网络层一一对应，第一模型的网络层层数小于第二模型的网络层层数；

将各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度；

根据目标相似度调整第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型，并通过第一模型进行语言识别。

一种基于语言模型的语言识别装置，所述装置包括：

向量获取模块，用于获取训练语句对应的训练词向量；

特征矩阵输出模块，用于将训练词向量分别输入到待训练的第一模型和已训练的第二模型中，得到第一模型的各个第一网络层输出的特征矩阵，以及第二模型的各个第二网络层输出的特征矩阵；第一网络层与第二网络层一一对应，第一模型的网络层层数小于第二模型的网络层层数；

相似度计算模块，用于将各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度；

语言识别模块，用于根据目标相似度调整第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型，并通过第一模型进行语言识别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取训练语句对应的训练词向量；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取训练语句对应的训练词向量；

上述基于语言模型的语言识别方法、装置、计算机设备和存储介质，通过将训练词向量分别输入到待训练的小模型和已训练的大模型中，基于小模型各个网络层输出的特征矩阵和大模型各个对应网络层输出的特征矩阵计算小模型和大模型多个网络层之间的相似度，将各个网络层对应的相似度结合起来训练小模型，以使小模型不断学习大模型的特征表示。这样，最终训练得到的小模型不仅模型参数量比大模型小，而且模型性能与大模型相近。后续，可以使用小模型进行语言识别来处理NLP任务。并且，在处理不同的NLP任务时，只需要基于具体的NLP任务微调小模型的模型参数，不需要每次重新进行知识蒸馏，从而有效节约了模型训练时间，提高了模型训练效率。

一种文本分类方法，所述方法包括：

获取待分类文本；

将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果；文本分类模型是在已训练的第一模型的输出层之后添加分类层得到；已训练的第一模型的模型参数是以训练语句对应的训练词向量作为待训练的第一模型和已训练的第二模型的输入，将待训练的第一模型中各个第一网络层输出的特征矩阵和第二模型中与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度，根据目标相似度调整得到。

一种文本分类装置，所述装置包括：

文本获取模块，用于获取待分类文本；

分类结果获取模块，用于将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果；文本分类模型是在已训练的第一模型的输出层之后添加分类层得到；已训练的第一模型的模型参数是以训练语句对应的训练词向量作为待训练的第一模型和已训练的第二模型的输入，将待训练的第一模型中各个第一网络层输出的特征矩阵和第二模型中与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度，根据目标相似度调整得到。

获取待分类文本；

上述文本分类方法、装置、计算机设备和存储介质，通过将训练词向量分别输入到待训练的小模型和已训练的大模型中，基于小模型各个网络层输出的特征矩阵和大模型各个对应网络层输出的特征矩阵计算小模型和大模型多个网络层之间的相似度，将各个网络层对应的相似度结合起来训练小模型，以使小模型不断学习大模型的特征表示。这样，最终训练得到的小模型不仅模型参数量比大模型小，而且模型性能与大模型相近。基于训练好的小模型得到文本分类模型。由于小模型的模型参数已经较优，只需要微调文本分类模型的模型参数，文本分类模型即可用于处理文本分类任务，从而有效节省了文本分类模型的训练样本，节约资源，也节省了文本分类模型的训练时间，提高了文本分类模型的训练效率。

附图说明

图1为一个实施例中基于语言模型的语言识别方法和文本分类方法的应用环境图；

图2为一个实施例中基于语言模型的语言识别方法的流程示意图；

图3为一个实施例中变换层对应的相似度计算步骤的流程示意图；

图4为一个实施例中变换层的结构框图；

图5为一个实施例中目标自注意力网络损失计算步骤的流程示意图；

图6为一个实施例中自注意力网络知识蒸馏的示意图；

图7为一个实施例中隐藏网络知识蒸馏的示意图；

图8为一个实施例中文本分类模型训练步骤的流程示意图；

图9为一个实施例中文本分类方法的流程示意图；

图10为一个实施例中基于语言模型的语言识别方法的架构示意图；

图11为一个具体实施例中展示健康问答结果的页面示意图；

图12为一个实施例中基于语言模型的语言识别装置的结构框图；

图13为一个实施例中文本分类装置的结构框图；

图14为一个实施例中计算机设备的内部结构图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术包括计算机视觉技术以及机器学习/深度学习等方向。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请的方案涉及基于人工智能的机器学习、自然语言处理等技术。具体通过如下实施例进行说明。

本申请提供的基于语言模型的语言识别方法和文本分类方法，可以应用于如图1所示的应用环境中。图1为一个实施例中基于语言模型的语言识别方法和文本分类方法的应用环境图。如图1所示，该应用环境包括终端102、服务器104。其中，终端102通过网络与服务器104进行通信。终端102可以将训练语句对应的训练词向量发送至服务器104。服务器104存储有待训练的第一模型和已训练的第二模型。服务器104可以将训练词向量分别输入到待训练的第一模型和已训练的第二模型中，得到第一模型的各个第一网络层输出的特征矩阵，以及第二模型的各个第二网络层输出的特征矩阵，其中，第一网络层与第二网络层一一对应，第一模型的网络层层数小于第二模型的网络层层数。服务器104可以将各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度，根据目标相似度调整第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型。服务器104可以将已训练的第一模型返回给终端102。服务器104可以通过第一模型进行语言识别。具体可以是在已训练的第一模型的输出层之后添加分类层得到待训练的文本分类模型，进行有监督训练得到已训练的文本分类模型。服务器104获取待分类文本，将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果。服务器104可以将待分类文本对应的目标分类结果返回给终端102。服务器104可以将已训练的文本分类模型返回给终端102。

在一个实施例中，终端102也可以存储有待训练的第一模型和已训练的第二模型，通过上述实施例的步骤训练第一模型和文本分类模型。终端102获取待分类文本，将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于语言模型的语言识别方法，以该方法应用于图1中的终端102或服务器104为例进行说明，包括以下步骤：

步骤S202，获取训练语句对应的训练词向量。

其中，训练语句是用于模型训练的语句。训练词向量包括切分训练语句得到的各个训练词语对应的词向量。切分训练语句，也就是，对训练语句进行分词处理，分词处理是指将训练语句切分为一个一个单独的词语。

具体地，将训练语句进行分词处理，得到多个训练词语，获取各个训练词语对应的词向量，得到训练语句对应的训练词向量。

在一个实施例中，可以通过词典匹配来获取词向量，也可以通过用于产生词向量的模型来获取词向量。

在一个实施例中，训练语句可以是一个句子，在模型训练时，将一个句子对应的词向量分别输入到第一模型和第二模型中。当然，为了提高模型训练效率，训练语句也可以是多个句子，多个句子拼接成训练语句，在模型训练时，将多个句子对应的词向量分别输入到第一模型和第二模型中。此外，训练语句可以是涉及各个技术领域的语句，例如涉及医疗领域的医疗语句、涉及金融领域的金融语句、涉及游戏领域的游戏语句、涉及教育领域的学科语句等。也就是，可以通过各个技术领域的语句训练得到通用的第一模型。当然，为了提高训练得到的第一模型的准确性和适应性，还可以根据第一模型的应用领域确定训练语句，例如，当第一模型应用于医疗领域时，获取医疗语句来训练第一模型。

步骤S204，将训练词向量分别输入到待训练的第一模型和已训练的第二模型中，得到第一模型的各个第一网络层输出的特征矩阵，以及第二模型的各个第二网络层输出的特征矩阵；第一网络层与第二网络层一一对应，第一模型的网络层层数小于第二模型的网络层层数。

其中，第一模型和第二模型可以是同类型的神经网络模型，即第一模型和第二模型具有相同的网络层结构，第一模型和第二模型也可以是不同类型的神经网络模型，即第一模型和第二模型的网络层结构有差异。但是，第一模型的网络层层数小于第二模型的网络层层数，也就是，第一模型的模型大小和模型参数量小于第二模型。由于第二模型的模型参数量较多，在实际应用时，输出预测结果需要耗费较多时间。为了提高预测结果的输出速度和节约计算机资源，可以对大模型（第二模型）进行知识蒸馏得到轻量级的小模型（第一模型），从而在实际应用时，使用小模型进行语言识别。知识蒸馏是一种模型压缩方法，用于在教师-学生网络结构框架中，将复杂、学习能力强的教师网络模型已经学习到的特征表示知识蒸馏出来，传递给参数量小、学习能力弱的学生网络模型。

具体地，第一模型为学生网络模型，第二模型为教师网络模型。由于教师网络模型的网络层层数大于学生网络模型的网络层层数，因此，可以采用隔层蒸馏方法进行知识蒸馏，确定学生网络模型的各个网络层与教师网络模型的网络层的对应关系，让学生网络模型的网络层学习拟合教师网络模型对应的网络层，即将教师网络模型对应的网络层经过知识蒸馏压缩为学生网络模型的网络层。由于教师网络模型的网络层层数大于学生网络模型的网络层层数，因此教师网络模型的网络层是间隔对应学生网络模型的网络层。举个例子，当教师网络模型包括24层网络层、学生网络模型包括12层网络层时，可以是学生网络模型的第1层对应教师网络模型的第2层，学生网络模型的第2层对应教师网络模型的第4层，学生网络模型的第3层对应教师网络模型的第6层，学生网络模型的第4层对应教师网络模型的第8层，以此类推。

第一模型的训练过程是无监督训练。将训练词向量分别输入到待训练的学生网络模型和已训练的教师网络模型中，获取学生网络模型的各个网络层输出的特征矩阵，获取教师网络模型的各个目标网络层输出的特征矩阵，其中，教师网络模型的目标网络层与学生网络模型的网络层一一对应。后续，对存在对应关系的网络层各自输出的特征矩阵计算相似度，以判断学生网络模型的学习拟合教师网络模型的程度。

在一个实施例中，隔层蒸馏方法可以是均匀隔层蒸馏，也可以是随机隔层蒸馏。均匀隔层蒸馏具体可以是获取学生网络模型的网络层层数，获取教师网络模型的网络层层数，计算教师网络模型的网络层层数和学生网络模型的网络层层数的比值，以该比值为单位确定学生网络模型的网络层和教师网络模型的网络层之间的对应关系。举个例子，当教师网络模型包括12层网络层、学生网络模型包括4层网络层时，教师网络模型的网络层层数和学生网络模型的网络层层数的比值为3，可以采用隔3层的蒸馏方法，即学生网络模型的第1层对应教师网络模型的第3层，第2层对应第6层，第3层对应第9层，第4层对应第12层。随机隔层蒸馏方法具体可以是随机确定学生网络模型的网络层和教师网络模型的网络层之间的对应关系。当教师网络模型包括12层网络层、学生网络模型包括4层网络层时，可以是学生网络模型的第1层对应教师网络模型的第1层，第2层对应第6层，第3层对应第10层，第4层对应第12层。可以理解，通过均匀隔层蒸馏方法最终训练得到的学生网络模型的准确性比通过随机隔层蒸馏方法最终训练得到的学生网络模型的准确性高。

在一个实施例中，第一模型和第二模型为BERT（Bidirectional EncoderRepresentation fromTransformers，Transformer的双向编码器表示）模型。BERT模型是一个通用的NLU模型(Natural Language Understanding，自然语言理解模型)，可以为不同的NLP（Natural Language Processing，自然语言处理）任务提供支持。BERT模型包括多层变换层，各个变换层包括自注意力网络和隐藏网络。变换层用于对语句进行特征提取，聚焦语句中表面级别的、短语级别的、句法级别的和语义级别的信息，形成对语句的整体的理解。BERT模型包括BERT Large、BERT Base和BERT Tiny。BERT Large模型包括24层变换层，每层变换层中隐藏网络维度为1024，BERT Large模型参数量为3.4亿。BERT Base模型包括12层变换层，每层变换层中隐藏网络维度为768，BERT Base模型参数量为1.1亿。BERT Tiny模型包括4层变换层，每层变换层中隐藏网络维度为384，BERT Tiny模型参数量为0.1亿。当第二模型的模型大小为BERT Large时，第一模型的模型大小可以为BERT Base，也可以为BERTTiny。为了提高最终得到的BERT Tiny的准确性，可以设置两个阶段的知识蒸馏，而不是直接将BERT Large通过知识蒸馏压缩为BERT Tiny。两个阶段的知识蒸馏的流程完全相同，只是使用了不同大小的教师网络模型压缩为更小的学生网络模型。第一阶段是将教师网络模型Bert Large通过知识蒸馏压缩为学生网络模型Bert Base；第二阶段是将第一阶段得到的学生网络模型Bert Base作为新的教师网络模型通过知识蒸馏压缩为最终的学生网络模型Bert Tiny。

在一个实施例中，BERT模型包括嵌入层和多层变换层。教师网络模型的嵌入层可以直接通过知识蒸馏压缩为学生网络模型的嵌入层，教师网络模型的变换层通过隔层蒸馏方法压缩为学生网络模型的变换层。

在一个实施例中，可以在训练语句对应的训练词向量的首部***一个特殊向量，得到训练语句对应的目标训练词向量。例如，训练语句为“大家好”，训练语句对应的训练词向量包括“大”、“家”、“好”三个词语的词向量，训练语句对应的目标训练词向量包括特殊向量和“大”、“家”、“好”三个词语的词向量。将目标训练词向量分别输入至第一模型和第二模型中，基于目标训练词向量对第一模型进行无监督训练。特殊向量通过嵌入层和多层变换层可以学习到训练语句的语义表达。目标训练词向量通过嵌入层得到拼接矩阵，拼接矩阵是由特殊向量和“大”、“家”、“好”三个词语的词向量拼接得到。拼接矩阵输入至多层变换层最终输出目标特征矩阵。其中，拼接矩阵的第一行为特殊向量，第二行为“大”的词向量，第三行为“家”的词向量，第四行为“好”的词向量。目标特征矩阵第一行的数据组成的子特征矩阵可以用于表征训练语句的语义表达。

步骤S206，将各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度。

具体地，当存在对应关系的两个网络层各自输出的特征矩阵较为相似时，可以表明该存在对应关系的两个网络层之间的参数较为相似，也就是，学生网络模型的网络层较为成功地学习拟合了教师网络模型对应的网络层。计算存在对应关系的网络层输出的特征矩阵之间的相似度，得到多个相似度，将所有相似度加权求和得到目标相似度。举个例子，当学生网络模型的第1层对应教师网络模型的第3层，第2层对应第6层，第3层对应第9层，第4层对应第12层时，可以计算学生网络模型的第1层输出的特征矩阵和教师网络模型的第3层输出的特征矩阵之间的相似度，得到第一相似度，计算学生网络模型的第2层输出的特征矩阵和教师网络模型的第6层输出的特征矩阵之间的相似度，得到第二相似度，计算学生网络模型的第3层输出的特征矩阵和教师网络模型的第9层输出的特征矩阵之间的相似度，得到第三相似度，计算学生网络模型的第4层输出的特征矩阵和教师网络模型的第12层输出的特征矩阵之间的相似度，得到第四相似度，将第一相似度、第二相似度、第三相似度和第四相似度加权求和得到目标相似度。其中，各个网络层之间相似度的计算方法可以一致或不同。在一个实施例中，各个相似度对应的权重分别为1。

步骤S208，根据目标相似度调整第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型，并通过第一模型进行语言识别。

其中，收敛条件可以是目标相似度小于第一预设阈值，也可以是多次调整模型参数后得到的多个目标相似度的变化率小于第二预设阈值。

具体地，通过目标相似度反向传播，调整第一模型的模型参数并继续训练，直至更新后的目标相似度满足收敛条件，则训练完成，得到已训练的第一模型。此时，已训练的第一模型与第二模型的模型性能较为接近。通过已训练的第一模型可以进行语言识别以处理各种NLP任务。通过已训练的第一模型进行语言识别具体可以是通过已训练的第一模型进行文本分类，在已训练的第一模型的输出层之后添加分类层，得到待训练的文本分类模型，对待训练的文本分类模型进行有监督训练，微调模型参数，即可快速训练得到文本分类模型。基于不同的文本分类任务，可以获取不同的训练样本，设置不同的损失函数对文本分类模型进行有监督训练，快速训练得到适应于不同具体文本分类任务的不同文本分类模型。

上述基于语言模型的语言识别方法，通过将训练词向量分别输入到待训练的小模型和已训练的大模型中，基于小模型各个网络层输出的特征矩阵和大模型各个对应网络层输出的特征矩阵计算小模型和大模型多个网络层之间的相似度，将各个网络层对应的相似度结合起来训练小模型，以使小模型不断学习大模型的特征表示。这样，最终训练得到的小模型不仅模型参数量比大模型小，而且模型性能与大模型相近。后续，可以使用小模型进行语言识别来处理NLP任务。在处理不同的NLP任务时，只需要基于具体的NLP任务微调小模型的模型参数，不需要每次重新进行知识蒸馏，从而有效节约了模型训练时间，提高了模型训练效率。

在一个实施例中，如图3所示，第一模型和第二模型均包括多层变换层，各层变换层均包括自注意力网络和隐藏网络；步骤S206包括：

步骤S302，基于第一模型的变换层中自注意力网络输出的特征矩阵和第二模型对应的变换层中自注意力网络输出的特征矩阵，计算得到目标自注意力网络损失。

其中，第一模型和第二模型均包括多层变换层，各层变换层依次连接，各层变换层均包括自注意力网络和隐藏网络，但是第一模型的变换层层数小于第二模型的变换层层数。自注意力网络用于学习语句内部各个词语之间的相互指代关系，进而捕获语句中表面级别的、短语级别的、句法级别的和语义级别的信息。低层变换层主要捕获语句中表面级别的信息，中层变换层主要捕获语句中短语级别的、句法级别的信息，高层变换层主要捕获语句中语义级别的信息。隐藏网络用于对输入数据进行维度转换，以便后续网络的数据处理。

具体地，变换层的知识蒸馏包括自注意力网络的知识蒸馏。通过计算第一模型的变换层中自注意力网络输出的特征矩阵和第二模型对应的变换层中自注意力网络输出的特征矩阵之间的相似度，可以得到目标自注意力网络损失。自注意力网络的知识蒸馏的目标是让目标自注意力网络损失变小，使得第一模型的变换层中自注意力网络的参数接近于第二模型对应的变换层中自注意力网络的参数。

在一个实施例中，第一模型和第二模型的变换层可以是Transformer层，第一模型和第二模型的变换层也可以是Transformer-XL层，第一模型和第二模型的变换层还可以是Reformer层。以Transformer层为变换层的神经网络模型主要用于处理短句或短文本，以Transformer-XL层为变换层的神经网络模型主要用于处理长句或长文本，以Reformer层为变换层的神经网络模型主要用于处理长句或长文本。以Reformer层为变换层的神经网络模型的时间复杂度小于以Transformer-XL层为变换层的神经网络模型。

如图4所示，图4为一个实施例中变换层的结构框图。变换层为Transformer层。Transformer层包括多头自注意力网络（Multi-Head Attention，MHA）、残差连接和归一化网络（ADD&Norm）、前馈传播网络（Feed Forward Network，FFN）、残差连接和归一化网络（ADD&Norm）和隐藏网络（Hidden States）。多头自注意力网络包括多个自注意力头，不同的自注意力头用于学习语句中不同的上下文关系。残差和归一化网络可以将前面两个网络的输出进行求和正则归一化后，作为下一个网络的输入，能够加快模型收敛速度并优化具有多层网络层的神经网络模型。前馈网络可以对前面网络的输出进行特征转换，增加神经网络模型的可表达能力。隐藏网络用于对前面网络的输出进行维度转换，便于后续网络层的数据处理。

步骤S304，基于第一模型的变换层中隐藏网络输出的特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵，计算得到隐藏网络损失。

具体地，变换层的知识蒸馏还包括隐藏网络的知识蒸馏。通过计算第一模型的变换层中隐藏网络输出的特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵之间的相似度，可以得到隐藏网络损失。隐藏网络的知识蒸馏的目标是让隐藏网络损失变小，使得第一模型的变换层中隐藏网络的参数接近于第二模型对应的变换层中隐藏网络的参数。

步骤S306，根据目标自注意力网络损失和隐藏网络损失得到变换层对应的相似度。

具体地，通过将目标自注意力网络损失和隐藏网络损失加权求和得到变换层对应的相似度。在一个实施例中，目标自注意力网络损失和隐藏网络损失对应的权重分别为1。

本实施例中，通过将目标自注意力网络损失和隐藏网络损失加权求和得到变换层对应的相似度，将变换层中不同网络的损失结合起来训练第一模型，提高了第一模型的训练质量。

在一个实施例中，自注意力网络包括多个自注意力头，各个自注意力头均包括查询矩阵、键值矩阵和值矩阵，基于语言模型的语言识别方法还包括：通过自注意力网络中各个自注意力头中的查询矩阵、键值矩阵和值矩阵分别对自注意力网络的输入矩阵提取特征，得到各个自注意力头对应的特征矩阵集合；各个特征矩阵集合均包括查询特征矩阵、键值特征矩阵和值特征矩阵；将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行融合，得到各个特征矩阵集合对应的自注意力特征矩阵；将同一特征矩阵集合中的值特征矩阵进行自身融合，得到各个特征矩阵集合对应的自注意力值特征矩阵；自注意力网络输出的特征矩阵包括自注意力特征矩阵和自注意力值特征矩阵。

其中，自注意力网络包括多个自注意力头，各个自注意力头均包括查询矩阵、键值矩阵和值矩阵。各个自注意力头之间存在差异，可以是查询矩阵、键值矩阵和值矩阵中至少一个矩阵不同。查询矩阵用于捕获语句中词语与词语之间的依赖关系，键值矩阵用于捕获语句中词语作为关键词的特征信息，值矩阵用于捕获语句中词语自身的特征信息。

具体地，自注意力网络的输入矩阵分别与自注意力头中的查询矩阵、键值矩阵和特征矩阵进行矩阵乘法运算，即通过自注意力头中的查询矩阵、键值矩阵和值矩阵分别对自注意力网络的输入矩阵提取特征，得到查询特征矩阵、键值特征矩阵和值特征矩阵，将查询特征矩阵、键值特征矩阵和值特征矩阵组成特征矩阵集合。自注意力网络包括多个自注意力头，各个自注意力头分别对自注意力网络的输入矩阵进行特征提取，可以得到各个自注意力头对应的特征矩阵集合。将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行矩阵点积运算，即将通过查询矩阵和键值矩阵提取得到的特征进行融合，得到自注意力特征矩阵。由于有多个特征矩阵集合，因而可以得到各个特征矩阵集合对应的自注意力特征矩阵，也就是，各个自注意力头对应的自注意力特征矩阵。将同一特征矩阵集合中的值特征矩阵和值特征矩阵进行矩阵点积运算，即将通过值矩阵提取得到的特征进行自身融合，得到自注意力值特征矩阵。由于有多个特征矩阵集合，因而可以得到各个特征矩阵集合对应的自注意力值特征矩阵，也就是，各个自注意力头对应的自注意力值特征矩阵。自注意力网络可以将自注意力特征矩阵和自注意力值特征矩阵进行输出。

本实施例中，通过自注意力网络中的各个自注意力头对自注意力网络的输入矩阵进行特征提取和特征融合，得到自注意力特征矩阵和自注意力值特征矩阵，自注意力特征矩阵和自注意力值特征矩阵在一定程度上可以用于表征自注意力网络的参数，便于后续计算变换层对应的相似度。

在一个实施例中，如图5所示，步骤S302包括：

S502，以自注意力头为单位，根据第一模型的变换层中自注意力网络输出的自注意力特征矩阵和第二模型对应的变换层中自注意力网络输出的自注意力特征矩阵进行散度计算，得到各个第一自注意力网络损失。

其中，散度计算是用于计算特征矩阵之间的分布差异。

具体地，以自注意力头为单位进行第一模型的自注意力特征矩阵和第二模型的自注意力特征矩阵之间的散度计算。也就是，第一模型的变换层中自注意力网络第一个自注意力头对应的自注意力特征矩阵和第二模型对应的变换层中自注意力网络第一个自注意力头对应的自注意力特征矩阵进行散度计算，第一模型的变换层中自注意力网络第二个自注意力头对应的自注意力特征矩阵和第二模型对应的变换层中自注意力网络第二个自注意力头对应的自注意力特征矩阵进行散度计算，以此类推，最终得到多个第一自注意力网络损失。

在一个实施例中，自注意力特征矩阵的散度计算公式如下：

其中，

表示单个变换层对应的多个第一自注意力网络损失之和，M表示第一模型（学生网络模型）的变换层层数，N表示第二模型（教师网络模型）的变换层层数，i表示第一模型的第i层变换层，

表示自注意力网络中自注意力头的个数，

表示训练语句对应的训练词向量的总长度，即自注意力网络的输入矩阵的总行数，t表示自注意力网络的输入矩阵的第t行，

表示计算

和

的KL散度。

表示第一模型（学生网络模型）的自注意力矩阵，通过查询特征矩阵和键值特征矩阵进行矩阵点积运算得到，

表示第一模型变换层中自注意力网络的输入矩阵的第t行在通过第a个自注意力头对应的查询特征矩阵和键值特征矩阵进行矩阵点积运算得到的自注意力矩阵中对应的子矩阵。

表示第二模型（教师网络模型）的自注意力矩阵，通过查询特征矩阵和键值特征矩阵进行矩阵点积运算得到，

表示第二模型对应变换层中自注意力网络的输入矩阵的第t行在通过第a个自注意力头对应的查询特征矩阵和键值特征矩阵进行矩阵点积运算得到的自注意力矩阵中对应的子矩阵。a表示第a个自注意力头。

表示第一模型的第i个变换层对应的多个第一自注意力网络损失之和，

表示第一模型的所有变换层对应的多个第一自注意力网络损失之和。

S504，以自注意力头为单位，根据第一模型的变换层中自注意力网络输出的自注意力值特征矩阵和第二模型对应的变换层中自注意力网络输出的自注意力值特征矩阵进行散度计算，得到各个第二自注意力网络损失。

具体地，以自注意力头为单位进行第一模型的自注意力值特征矩阵和第二模型的自注意力值特征矩阵之间的散度计算。也就是，第一模型的变换层中自注意力网络第一个自注意力头对应的自注意力值特征矩阵和第二模型对应的变换层中自注意力网络第一个自注意力头对应的自注意力值特征矩阵进行散度计算，第一模型的变换层中自注意力网络第二个自注意力头对应的自注意力值特征矩阵和第二模型对应的变换层中自注意力网络第二个自注意力头对应的自注意力值特征矩阵进行散度计算，以此类推，最终得到多个第二自注意力网络损失。

在一个实施例中，自注意力值特征矩阵计算公式如下：

其中，

表示第二模型（教师网络模型）的第a个自注意力头对应的自注意力值矩阵，

表示第二模型的第a个自注意力头对应的值特征矩阵，

表示第二模型的第a个自注意力头对应的值特征矩阵的转置矩阵，

和

进行矩阵乘法运算相当于

和

进行矩阵点积运算。

表示第一模型（学生网络模型）的第a个自注意力头对应的自注意力值矩阵，

表示第一模型的第a个自注意力头对应的值特征矩阵，

表示第一模型的第a个自注意力头对应的值特征矩阵的转置矩阵，

和

进行矩阵乘法运算相当于

和

进行矩阵点积运算。

表示第二模型的变换层中隐藏网络的维度，

表示第一模型的变换层中隐藏网络的维度。

自注意力值特征矩阵的散度计算公式如下：

其中，

表示第一模型的单个变换层对应的多个第二自注意力网络损失之和。

表示第一模型的第i个变换层对应的多个第二自注意力网络损失之和，

表示第一模型的所有变换层对应的多个第二自注意力网络损失之和。

表示第二模型变换层中自注意力网络的输入矩阵的第t行在通过第a个自注意力头对应的值特征矩阵自身进行矩阵点积运算得到的自注意力值矩阵中对应的子矩阵。

表示第一模型变换层中自注意力网络的输入矩阵的第t行在通过第a个自注意力头对应的值特征矩阵自身进行矩阵点积运算得到的自注意力值矩阵中对应的子矩阵。

S506，基于各个第一自注意力网络损失和各个第二自注意力网络损失得到目标自注意力网络损失。

具体地，将各个第一自注意力网络损失和各个第二自注意力网络损失进行加权求和得到目标自注意力网络损失。在一个实施例中，第一自注意力网络损失和第二自注意力网络损失对应的权重为1。

如图6所示，图6为一个实施例中自注意力网络知识蒸馏的示意图。教师网络模型的自注意力网络和学生网络模型的自注意力网络可以输出各自的查询特征矩阵、键值特征矩阵和值特征矩阵。由于自注意力网络包括多个自注意力头，因此可以得到各个自注意力头对应的查询特征矩阵、键值特征矩阵和值特征矩阵。同一自注意力网络中同一自注意力头对应的查询特征矩阵和键值特征矩阵进行矩阵点积运算可以得到对应的自注意力矩阵（自注意力分布），那么，最终可以得到教师网络模型的自注意力网络中各个自注意力头对应的自注意力矩阵，学生网络模型的自注意力网络中各个自注意力头对应的自注意力矩阵，即教师网络模型和学生网络模型的多头自注意力矩阵（多头自注意力分布）。同一自注意力网络中同一自注意力头对应的值特征矩阵自己和自己进行矩阵点积运算可以得到对应的自注意力值矩阵（自注意力value关系分布），那么，最终可以得到教师网络模型的自注意力网络中各个自注意力头对应的自注意力值矩阵，学生网络模型的自注意力网络中各个自注意力头对应的自注意力矩阵，即教师网络模型和学生网络模型的多头自注意力矩阵（多头自注意力value关系分布）。自注意力网络知识蒸馏具体是通过对学生网络模型的多头自注意力分布与教师网络模型的多头自注意力分布进行散度计算，以使学生网络模型的多头自注意力分布与教师网络模型的多头自注意力分布越接近越好，通过对学生网络模型的多头自注意力value关系分布与教师网络模型的多头自注意力value关系分布进行散度计算，以使学生网络模型的多头自注意力value关系分布与教师网络模型的多头自注意力value关系分布越接近越好，即让学生网络模型的变换层中自注意力网络尽可能地学习到教师网络模型的对应变换层中自注意力网络的知识。

本实施例中，通过第一自注意力网络损失和第二自注意力网络损失加权得到目标自注意力网络损失，将不同类型的损失结合起来进行自注意力网络的知识蒸馏，提高了自注意力网络知识蒸馏的准确性。

在一个实施例中，步骤S304包括：将第一模型的变换层中隐藏网络输出的特征矩阵进行维度转换得到第一目标特征矩阵；第一目标特征矩阵的维度和第二模型对应的变换层中隐藏网络输出的特征矩阵的维度相同；计算第一目标特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵之间的距离，得到隐藏网络损失。

具体地，变换层的知识蒸馏除了自注意力网络的知识蒸馏，还包括隐藏网络的知识蒸馏。获取维度转换矩阵，通过维度转换矩阵将第一模型的变换层中隐藏网络输出的特征矩阵的维度转换为与第二模型对应的变换层中隐藏网络输出的特征矩阵的维度一致，以便通过矩阵进行相似度计算。计算转换得到的第一目标特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵之间的距离，即计算第一目标特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵之间的差异，得到隐藏网络损失。计算矩阵之间的距离包括但不限于采用余弦相似度算法、采用欧式距离算法、计算矩阵之间的均方误差、方差、均方差等。

在一个实施例中，可以根据公式L_hidn=MSE（H^SW_h，H^T）计算得到隐藏网络损失，H^S表示第一模型（学生网络模型）的隐藏网络输出的特征矩阵，H^T表示第二模型（教师网络模型）的隐藏网络输出的特征矩阵，W_h表示维度转换矩阵，用于将学生网络模型的隐藏网络输出的特征矩阵的维度转换为与教师网络模型的隐藏网络输出的特征矩阵一致的维度，以便计算隐藏网络损失。MSE表示计算H^SW_h和H^T的均方误差。

如图7所示，图7为一个实施例中隐藏网络知识蒸馏的示意图。图7的左半部分表示教师网络模型的隐藏网络，右半部分表示学生网络模型的隐藏网络。基于教师网络模型的隐藏网络输出的特征矩阵和学生网络模型的隐藏网络输出的特征矩阵计算得到隐藏网络损失。

本实施例中，通过计算第一模型的变换层中隐藏网络输出的特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵之间的距离，得到隐藏网络损失，基于隐藏网络损失进行隐藏网络知识蒸馏，提高了隐藏网络知识蒸馏的准确性。

在一个实施例中，第一模型和第二模型还包括嵌入层；步骤S206还包括：将第一模型的嵌入层输出的特征矩阵进行维度转换得到第二目标特征矩阵；第二目标特征矩阵的维度和第二模型对应的嵌入层输出的特征矩阵的维度相同；计算第二目标特征矩阵和第二模型对应的嵌入层输出的特征矩阵之间的距离，得到嵌入层对应的相似度。

其中，第一模型和第二模型还包括嵌入层。嵌入层可以作为第一模型和第二模型的第一个网络层，嵌入层与变换层连接。嵌入层用于将训练词向量拼接为训练矩阵，对训练矩阵进行维度转换，便于后续网络层的数据处理。

具体地，训练语句对应的训练词向量分别输入至第一模型和第二模型的嵌入层，第一模型和第二模型的嵌入层将各个训练词向量拼接为训练矩阵，训练矩阵的每一行代表一个训练词向量。训练词向量可以按词语在语句中的排列顺序拼接为训练矩阵，即训练矩阵的第一行表示特殊向量，训练矩阵的第二行表示语句中第一个词语对应的词向量，训练矩阵的第三行表示语句中第二个词语对应的词向量，以此类推。嵌入层输出的训练矩阵可以输入至第一个变换层的自注意力网络。嵌入层也可以进行知识蒸馏。获取维度转换矩阵，通过维度转换矩阵将第一模型的嵌入层输出的特征矩阵的维度转换为与第二模型对应的嵌入层输出的特征矩阵的维度一致，以便通过矩阵进行相似度计算。计算转换得到的第二目标特征矩阵和第二模型对应的嵌入层输出的特征矩阵之间的距离，即计算第二目标特征矩阵和第二模型对应的嵌入层输出的特征矩阵之间的差异，得到嵌入层对应的相似度，即嵌入层对应的损失。计算矩阵之间的距离包括但不限于采用余弦相似度算法、采用欧式距离算法、计算矩阵之间的均方误差、方差、均方差等。

在一个实施例中，可以根据公式L_embd=MSE（E^SW_e，E^T）计算得到嵌入层对应的相似度，E^S表示第一模型（学生网络模型）的嵌入层输出的特征矩阵，E^T表示第二模型（教师网络模型）的嵌入层输出的特征矩阵，W_e表示维度转换矩阵，用于将学生网络模型的嵌入层输出的特征矩阵的维度转换为与教师网络模型的嵌入层输出的特征矩阵一致的维度，以便计算嵌入层对应的相似度。MSE表示计算E^SW_e和E^T的均方误差。

本实施例中，通过计算第一模型的嵌入层输出的特征矩阵和第二模型对应的嵌入层输出的特征矩阵之间的距离，得到嵌入层对应的相似度，基于嵌入层对应的相似度进行嵌入层知识蒸馏，提高了嵌入层知识蒸馏的准确性。

在一个实施例中，步骤S206还包括：基于变换层对应的相似度和嵌入层对应的相似度得到目标相似度。

具体地，将变换层对应的相似度和嵌入层对应的相似度加权求和得到目标相似度。

在一个实施例中，可以根据公式L_model=L_embd+L_AT+L_VR+L_hidn计算得到目标相似度。其中，L_model表示目标相似度，L_embd表示嵌入层对应的相似度，L_AT、L_VR和L_hidn组成变换层对应的相似度，L_AT表示变换层中自注意力网络对应的第一自注意力网络损失，L_VR表示变换层中自注意力网络对应的第二自注意力网络损失，L_hidn表示变换层中隐藏网络损失。

本实施例中，通过将变换层对应的相似度和嵌入层对应的相似度加权得到目标相似度，将不同类型网络层的相似度结合起来训练第一模型，提高了第一模型的训练质量。

在一个实施例中，如图8所示，基于语言模型的语言识别方法还包括：

S802，在已训练的第一模型的输出层之后添加分类层，得到待训练的文本分类模型。

其中，分类层是指softmax层，用于解决多分类问题，相当于一个分类器。

具体地，已训练的第一模型可以应用于具体的NLP任务。在已训练的第一模型的输出层之后添加分类层，得到待训练的文本分类模型。分类层作为待训练的文本分类模型的输出层。

S804，获取待训练的文本分类模型的训练样本，训练样本包括训练文本和训练文本对应的标签信息。

具体地，针对不同的NLP任务，可以获取对应的训练样本分别训练得到不同的文本分类模型。例如，当NLP任务为文本分类任务时，可以获取文本分类任务对应的训练样本，训练用于文本分类的文本分类模型。文本分类任务对应的训练样本包括训练文本和训练文本对应的类别。当NLP任务为文本相似度匹配任务时，可以获取文本相似度匹配任务对应的训练样本，训练用于文本相似度匹配的文本分类模型。文本相似度匹配对应的训练样本包括多组训练文本和每组训练文本对应的相似度匹配结果。其中，每组训练文本包括至少两个文本。相似度匹配结果可以是具体的相似度或相似度匹配概率，也可以是匹配是否成功等。

S806，将训练文本作为文本分类模型的输入，得到输出层输出的特征矩阵，从输出层输出的特征矩阵中获取目标矩阵行对应的子特征矩阵，通过分类层对子特征矩阵进行分类计算得到训练文本对应的预测分类结果。

具体地，目标矩阵行可以是第一行。训练文本输入至文本分类模型之前可以获取训练文本进行分词处理，得到分词结果，获取分词结果对应的训练词向量，将分词结果对应的训练词向量加上特殊向量输入至文本分类模型中，分词结果对应的训练词向量加上特殊向量经过嵌入层、多层变换层输出特征矩阵，从输出的特征矩阵中获取第一行的数据组成子特征矩阵，子特征矩阵输入至分类层，通过分类层对子特征矩阵进行分类计算得到子分类参数，子分类参数用于衡量分类结果，进而将子分类参数进行整合得到训练文本对应的预测分类结果。用于文本分类的文本分类模型的输入为单个训练文本，预测分类结果可以是训练文本属于各个类别的概率。也可以从训练文本属于各个类别的概率中选取数值最大的类别和对应的概率作为预测分类结果。用于文本相似度匹配的文本分类模型的输入为至少两个训练文本，预测分类结果可以是至少两个训练文本的相似度匹配概率，也可以是至少两个训练文本是否匹配成功。

S808，基于训练文本对应的预测分类结果和训练文本对应的标签信息调整文本分类模型的模型参数，直到满足收敛条件，得到已训练的文本分类模型。

具体地，基于训练样本对文本分类模型进行训练是有监督训练。基于训练文本对应的预测分类结果和训练文本对应的标签信息反向传播，调整文本分类模型的模型参数并继续训练，直至满足收敛条件，则训练完成，得到已训练的文本分类模型。因为已训练的第一模型的模型参数已经较优，所有在有监督训练时，只需要微调文本分类模型的模型参数即可满足收敛条件，快速得到已训练的文本分类模型，提高了文本分类模型的训练效率，节约了计算机设备资源。

在一个实施例中，针对用途不同的文本分类模型可以预先设置不同的损失函数。在有监督训练时，基于训练文本对应的预测分类结果和训练文本对应的标签信息通过预设损失函数计算损失值，判断损失值是否符合预设条件，当未符合预设条件时，根据损失值对文本分类模型进行反向传播更新，得到更新模型参数的文本分类模型，再次基于训练样本对更新模型参数的文本分类模型进行训练，直至损失值符合预设条件，得到已训练的文本分类模型。

在一个实施例中，基于语言模型的语言识别方法还包括：获取待分类文本；将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果。

具体地，当文本分类模型训练完成后，可以获取待分类文本，将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果。例如，文本分类任务具体可以是搜索意图识别任务。搜索意图识别是指判断用户的搜索语句对应的类别，确定用户的搜索意图。当用于搜索意图识别的文本分类模型训练完成后，可以获取用户在搜索框中输入的搜索语句，将搜索语句输入至文本分类模型中，预测搜索语句对应的类别，根据预测得到的类别判断用户的搜索意图，进而可以获取该搜索意图对应的相关文本、图片等作为搜索结果，并向用户展示搜索结果，从而有效提升了搜索的准确性和用户对搜索结果的采纳率。

在一个实施例中，如图9所示，提供了一种文本分类方法，以该方法应用于图1中的终端102或服务器104为例进行说明，包括以下步骤：

S902，获取待分类文本。

S904，将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果；文本分类模型是在已训练的第一模型的输出层之后添加分类层得到；已训练的第一模型的模型参数是以训练语句对应的训练词向量作为待训练的第一模型和已训练的第二模型的输入，将待训练的第一模型中各个第一网络层输出的特征矩阵和第二模型中与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度，根据目标相似度调整得到。

其中，第一模型和第二模型可以是同类型的神经网络模型，也可以是不同类型的神经网络模型，但是第一模型的网络层层数小于第二模型的网络层层数。文本分类模型是用于文本分类的模型。待分类文本是指需要进行分类的文本。待分类文本可以是各个技术领域的文本，例如医疗领域的医疗文本，金融领域的金融文本，游戏领域的游戏文本等。在一个实施例中，待分类文本与第一模型的训练语句可以属于相同的技术领域，提高文本分类模型预测结果的准确性。当第一模型的训练语句是涉及各个技术领域的语句时，待分类文本可以是各个技术领域的文本。当第一模型的训练语句是医疗语句时，待分类文本可以是医疗文本。

具体地，获取待训练的第一模型和已训练的第二模型，获取训练语句对应的词向量，基于训练语句对应的词向量对第一模型进行无监督训练，将复杂、学习能力强的第二模型已经学习到的特征表示知识蒸馏出来，传递给参数量小、学习能力弱的第一模型。由于第二模型的网络层层数大于第一模型的网络层层数，所以采用隔层蒸馏方式进行知识蒸馏，即确定学生网络模型的各个网络层与教师网络模型的网络层的对应关系，让学生网络模型的网络层学习拟合教师网络模型对应的网络层。将训练语句对应的词向量输入至待训练的第一模型和已训练的第二模型，得到第一模型各个网络层输出的特征矩阵，得到第二模型各个对应网络层输出的特征矩阵。将存在对应关系的两个网络层输出的特征矩阵进行相似计算，得到各个相似度。将各个相似度加权求和得到目标相似度，根据目标相似度调整第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型。

第一模型训练完成后，在已训练的第一模型的输出层之后添加分类层，得到待训练的文本分类模型。获取训练样本，训练样本包括训练文本和训练文本对应的标签信息，基于训练样本对文本分类模型进行有监督训练。文本分类模型的训练过程具体可以将训练文本对应的词向量输入至待训练的文本分类模型中，文本分类模型输出预测分类结果，基于训练文本对应的标签信息和预测分类结果调整文本分类模型的模型参数，直到满足收敛条件，得到已训练的文本分类模型。由于第一模型的参数已经较优，因此只需要基于训练样本微调文本分类模型的模型参数，就可以快速训练得到可以使用的文本分类模型。

第一模型和文本分类模型详细的训练过程可以参见上文对于基于语言模型的语言识别方法中的限定，在此不再赘述。

上述文本分类方法，通过将训练词向量分别输入到待训练的小模型和已训练的大模型中，基于小模型各个网络层输出的特征矩阵和大模型各个对应网络层输出的特征矩阵计算小模型和大模型多个网络层之间的相似度，将各个网络层对应的相似度结合起来训练小模型，以使小模型不断学习大模型的特征表示。这样，最终训练得到的小模型不仅模型参数量比大模型小，而且模型性能与大模型相近。基于训练好的小模型得到文本分类模型。由于小模型的模型参数已经较优，只需要微调文本分类模型的模型参数，文本分类模型即可用于处理文本分类任务，从而有效节省了文本分类模型的训练样本，节约资源，节约了文本分类模型的训练时间，提高了文本分类模型的训练效率。

在一个具体的实施例中，如图10所示，提供一种基于语言模型的语言识别方法的架构示意图，具体来说：

教师网络模型和学生网络模型均包括嵌入层（Embedding Layer）、变换层（Transformer Layer）和输出层（也可称为预测层，Prediction Layer）。输出层也就是分类层，输出层可以在进行具体的NLP任务中再添加。教师网络模型的变换层层数大于学生网络模型的变换层层数。变换层包括自注意力网络和隐藏网络。教师网络模型的变换层中隐藏网络维度大于学生网络模型的变换层中隐藏网络维度。通过知识蒸馏将教师网络模型压缩为学生网络模型。知识蒸馏包括嵌入层的知识蒸馏和变换层的知识蒸馏。变换层的知识蒸馏采用隔层蒸馏方法。将训练语句对应的训练词向量分别输入至教师网络模型和学生网络模型中，得到学生网络模型的各个网络层输出的特征矩阵和教师网络模型对应网络层输出的特征矩阵。获取学生网络模型的嵌入层输出的特征矩阵，获取教师网络模型的嵌入层输出的特征矩阵，根据学生网络模型的嵌入层输出的特征矩阵和教师网络模型的嵌入层输出的特征矩阵进行相似计算，得到嵌入层对应的相似度。获取学生网络模型的变换层输出的特征矩阵，获取教师网络模型对应变换层输出的特征矩阵，根据学生网络模型的变换层输出的特征矩阵和教师网络模型对应变换层输出的特征矩阵进行相似计算，得到变换层对应的相似度。基于嵌入层对应的相似度和变换层对应的相似度得到目标相似度，基于目标相似度调整学生网络模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的学生网络模型。

本申请还提供一种应用场景，该应用场景应用上述的基于语言模型的语言识别方法。具体地，该基于语言模型的语言识别方法在该应用场景的应用如下：

1、获取训练语句对应的训练词向量。

2、将BERT Base作为学生网络模型，将BERT Large作为教师网络模型。将训练词向量分别输入到待训练的学生网络模型和已训练的教师网络模型中，得到学生网络模型的嵌入层输出的特征矩阵、学生网络模型的第1层至第12层Transformer层输出的特征矩阵，得到教师网络模型的嵌入层输出的特征矩阵、教师网络模型的第2、4、6、8、10、12、14、16、18、20、22、24层Transformer层输出的特征矩阵。其中， Transformer层的知识蒸馏采用隔2层的蒸馏方式，即学生网络模型的第1层Transformer层对应教师网络模型的第2层Transformer层，学生网络模型的第2层Transformer层对应教师网络模型的第4层Transformer层，……，学生网络模型的第12层Transformer层对应教师网络模型的第24层Transformer层。Transformer层的知识蒸馏包括自注意力网络的知识蒸馏和隐藏网络的知识蒸馏。Transformer层输出的特征矩阵包括Transformer层中自注意力网络输出的各个自注意力头对应的自注意力特征矩阵和自注意力值特征矩阵，Transformer层中隐藏网络输出的特征矩阵。

3、根据学生网络模型的嵌入层输出的特征矩阵和教师网络模型的嵌入层输出的特征矩阵进行相似度计算，得到嵌入层对应的相似度。根据学生网络模型的Transformer层输出的特征矩阵和教师网络模型对应的Transformer层输出的特征矩阵进行相似计算，得到各层Transformer层对应的相似度。具体地，根据学生网络模型的第1层Transformer层自注意力网络输出的各个自注意力头对应的自注意力特征矩阵和教师网络模型的第2层Transformer层自注意力网络输出的各个自注意力头对应的自注意力特征矩阵，通过KL散度计算得到第一自注意力网络损失。根据学生网络模型的第1层Transformer层自注意力网络输出的各个自注意力头对应的自注意力值特征矩阵和教师网络模型的第2层Transformer层自注意力网络输出的各个自注意力头对应的自注意力值特征矩阵，通过KL散度计算得到第二自注意力网络损失。第一自注意力网络损失和第二自注意力网络损失相加得到目标自注意力网络损失。根据学生网络模型的第1层Transformer层隐藏网络输出的特征矩阵和教师网络模型的第2层Transformer层隐藏网络输出的特征矩阵进行相似计算，得到隐藏网络损失。目标自注意力网络损失和隐藏网络损失相加得到1层Transformer层对应的相似度。以此类推，可以得到12层Transformer层对应的相似度。将12层Transformer层对应的相似度和嵌入层对应的相似度相加得到目标相似度。

4、基于目标相似度调整学生网络模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的学生网络模型（BERT Base），即将教师网络模型（BERT Large）通过知识蒸馏压缩为学生网络模型（BERT Base）。

5、将已训练的学生网络模型（BERT Base）作为教师网络模型，将BERT Tiny作为学生网络模型，重复上述步骤1-4，得到已训练的学生网络模型（BERT Tiny），即将教师网络模型（BERT Base）通过知识蒸馏压缩为学生网络模型（BERT Tiny）。

6、在BERT Tiny的输出层之后添加分类层，得到文本分类模型。基于不同的NLP任务可以训练得到不同的文本分类模型。当文本分类模型应用于医疗领域的搜索意图识别时，可以获取医疗文本和医疗文本对应的类别对文本分类模型进行有监督训练，得到已训练的文本分类模型。如图11所示，为用户通过健康问答应用程序搜索“发烧该如何处理”的搜索结果的页面示意图。用户在搜索栏中输入“发烧该如何处理”进行搜索。用户终端获取搜索语句“发烧该如何处理”并发送至服务器。服务器将搜索语句“发烧该如何处理”输入至文本分类模型，得到搜索语句“发烧该如何处理”对应的类别，服务器获取该类别对应的多个文档，将各个文档作为搜集结果返回给用户终端。用户终端将搜索结果进行展示。

在一个具体的实施例中，通过实验测试基于上述实施例中的基于语言模型的语言识别方法训练得到的用于医疗意图识别的BERT Tiny的模型性能。分别统计用于医疗意图识别的BERT Tiny（学生网络模型）的模型性能，以及用于医疗意图识别的BERT Base（教师网络模型）的模型性能。经过数据对比，如下表1所示，

表1医疗意图识别任务测试对照表

其中，F1是对准确率和召回率进行加权得到。

如表1所示，BERT Tiny基本上保持与Bert Base相同的模型性能，同时BERT Tiny的推理速度相比Bert Base提升了10倍，BERT Tiny的模型参数量相比Bert Base减少了10倍。也就是，经过知识蒸馏压缩得到的轻量级BERT Tiny在医疗意图识别的相关业务数据集上的模型性能与大模型Bert Base基本接近，但是BERT Tiny具有更少的内存占用和更快的推理速度，这使得BERT Tiny得以在应用在实际的生产业务环境中。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种基于语言模型的语言识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：向量获取模块1202、特征矩阵输出模块1204、相似度计算模块1206和语言识别模块1208，其中：

向量获取模块1202，用于获取训练语句对应的训练词向量；

特征矩阵输出模块1204，用于将训练词向量分别输入到待训练的第一模型和已训练的第二模型中，得到第一模型的各个第一网络层输出的特征矩阵，以及第二模型中的各个第二网络层输出的特征矩阵；第一网络层与第二网络层一一对应，第一模型的网络层层数小于第二模型的网络层层数；

相似度计算模块1206，用于将各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度；

语言识别模块1208，用于根据目标相似度调整第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型，并通过第一模型进行语言识别。

在一个实施例中，第一模型和第二模型均包括多层变换层，各层变换层均包括自注意力网络和隐藏网络；相似度计算模块还用于基于第一模型的变换层中自注意力网络输出的特征矩阵和第二模型对应的变换层中自注意力网络输出的特征矩阵，计算得到目标自注意力网络损失；基于第一模型的变换层中隐藏网络输出的特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵，计算得到隐藏网络损失；根据目标自注意力网络损失和所述隐藏网络损失得到变换层对应的相似度。

在一个实施例中，自注意力网络包括多个自注意力头，各个自注意力头均包括查询矩阵、键值矩阵和值矩阵，特征矩阵输出模块还用于通过自注意力网络中各个自注意力头中的查询矩阵、键值矩阵和值矩阵分别对自注意力网络的输入矩阵提取特征，得到各个自注意力头对应的特征矩阵集合；各个特征矩阵集合均包括查询特征矩阵、键值特征矩阵和值特征矩阵；将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行融合，得到各个特征矩阵集合对应的自注意力特征矩阵；将同一特征矩阵集合中的值特征矩阵进行自身融合，得到各个特征矩阵集合对应的自注意力值特征矩阵；自注意力网络输出的特征矩阵包括所述自注意力特征矩阵和自注意力值特征矩阵。

在一个实施例中，相似度计算模块还用于以自注意力头为单位，根据第一模型的变换层中自注意力网络输出的自注意力特征矩阵和所述第二模型对应的变换层中自注意力网络输出的自注意力特征矩阵进行散度计算，得到各个第一自注意力网络损失；以自注意力头为单位，根据第一模型的变换层中自注意力网络输出的自注意力值特征矩阵和第二模型对应的变换层中自注意力网络输出的自注意力值特征矩阵进行散度计算，得到各个第二自注意力网络损失；基于各个第一自注意力网络损失和各个第二自注意力网络损失得到目标自注意力网络损失。

在一个实施例中，相似度计算模块还用于将第一模型的变换层中隐藏网络输出的特征矩阵进行维度转换得到第一目标特征矩阵；第一目标特征矩阵的维度和所述第二模型对应的变换层中隐藏网络输出的特征矩阵的维度相同；计算第一目标特征矩阵和第二模型对应的变换层中隐藏网络输出的特征矩阵之间的距离，得到隐藏网络损失。

在一个实施例中，第一模型和第二模型还包括嵌入层；相似度计算模块还用于将第一模型的嵌入层输出的特征矩阵进行维度转换得到第二目标特征矩阵；第二目标特征矩阵的维度和第二模型对应的嵌入层输出的特征矩阵的维度相同；计算第二目标特征矩阵和第二模型对应的嵌入层输出的特征矩阵之间的距离，得到嵌入层对应的相似度。

在一个实施例中，相似度计算模块还用于基于变换层对应的相似度和嵌入层对应的相似度得到目标相似度。

在一个实施例中，基于语言模型的语言识别装置还包括：

文本分类模型训练模块，用于在已训练的第一模型的输出层之后添加分类层，得到待训练的文本分类模型；获取待训练的文本分类模型的训练样本，训练样本包括训练文本和训练文本对应的标签信息；将训练文本作为文本分类模型的输入，得到输出层输出的特征矩阵，从输出层输出的特征矩阵中获取目标矩阵行对应的子特征矩阵，通过分类层对子特征矩阵进行分类计算得到训练文本对应的预测分类结果；基于训练文本对应的预测分类结果和训练文本对应的标签信息调整文本分类模型的模型参数，直到满足收敛条件，得到已训练的文本分类模型。

在一个实施例中，基于语言模型的语言识别装置还包括：

分类结果确定模型，用于获取待分类文本；将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果。

在一个实施例中，如图13所示，提供了一种文本分类装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：文本获取模块1302和分类结果获取模块1304，其中：

文本获取模块1302，用于获取待分类文本；

分类结果获取模块1304，用于将待分类文本输入到已训练的文本分类模型中，得到待分类文本对应的目标分类结果；文本分类模型是在已训练的第一模型的输出层之后添加分类层得到；已训练的第一模型的模型参数是以训练语句对应的训练词向量作为待训练的第一模型和已训练的第二模型的输入，将待训练的第一模型中各个第一网络层输出的特征矩阵和第二模型中与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于各个相似度得到目标相似度，根据目标相似度调整得到。

关于基于语言模型的语言识别装置和文本分类装置的具体限定可以参见上文中对于基于语言模型的语言识别方法和文本分类方法的限定，在此不再赘述。上述基于语言模型的语言识别装置和文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练语句、训练词向量、训练样本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语言模型的语言识别方法和文本分类方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种基于语言模型的语言识别方法和文本分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14、15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于语言模型的语言识别方法，其特征在于，所述方法包括：

获取训练语句对应的训练词向量；

将所述训练词向量分别输入到待训练的第一模型和已训练的第二模型中，得到所述第一模型的各个第一网络层输出的特征矩阵，以及所述第二模型的各个第二网络层输出的特征矩阵；所述第一网络层与所述第二网络层一一对应，所述第一模型的网络层层数小于所述第二模型的网络层层数，所述第一模型和第二模型均包括多层变换层，各层变换层均包括自注意力网络和隐藏网络，所述自注意力网络包括多个自注意力头，各个自注意力头均包括查询矩阵、键值矩阵和值矩阵；

将所述各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于所述各个相似度得到目标相似度；所述相似度包括变换层对应的相似度，所述变换层对应的相似度是根据目标自注意力网络损失和隐藏网络损失计算得到，所述目标自注意力网络损失是基于所述第一模型的变换层中自注意力网络输出的特征矩阵和所述第二模型对应的变换层中自注意力网络输出的特征矩阵计算得到，所述隐藏网络损失是基于所述第一模型的变换层中隐藏网络输出的特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵计算得到，所述自注意力网络输出的特征矩阵包括各个自注意力头对应的自注意力特征矩阵和自注意力值特征矩阵，所述自注意力特征矩阵是通过自注意力网络中各个自注意力头中的查询矩阵、键值矩阵和值矩阵分别对所述自注意力网络的输入矩阵提取特征，得到各个自注意力头对应的特征矩阵集合，各个特征矩阵集合均包括查询特征矩阵、键值特征矩阵和值特征矩阵，将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行融合得到的，所述自注意力值特征矩阵是将同一特征矩阵集合中的值特征矩阵进行自身融合得到的；

根据所述目标相似度调整所述第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型，并通过所述第一模型进行语言识别。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一模型的变换层中自注意力网络输出的特征矩阵和所述第二模型对应的变换层中自注意力网络输出的特征矩阵，计算得到目标自注意力网络损失，包括：

以自注意力头为单位，根据所述第一模型的变换层中自注意力网络输出的自注意力特征矩阵和所述第二模型对应的变换层中自注意力网络输出的自注意力特征矩阵进行散度计算，得到各个第一自注意力网络损失；

以自注意力头为单位，根据所述第一模型的变换层中自注意力网络输出的自注意力值特征矩阵和所述第二模型对应的变换层中自注意力网络输出的自注意力值特征矩阵进行散度计算，得到各个第二自注意力网络损失；

基于所述各个第一自注意力网络损失和各个第二自注意力网络损失得到所述目标自注意力网络损失。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一模型的变换层中隐藏网络输出的特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵，计算得到隐藏网络损失，包括：

将第一模型的变换层中隐藏网络输出的特征矩阵进行维度转换得到第一目标特征矩阵；所述第一目标特征矩阵的维度和所述第二模型对应的变换层中隐藏网络输出的特征矩阵的维度相同；

计算所述第一目标特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵之间的距离，得到所述隐藏网络损失。

4.根据权利要求1所述的方法，其特征在于，所述第一模型和第二模型还包括嵌入层；所述将所述各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，包括：

将第一模型的嵌入层输出的特征矩阵进行维度转换得到第二目标特征矩阵；所述第二目标特征矩阵的维度和所述第二模型对应的嵌入层输出的特征矩阵的维度相同；

计算所述第二目标特征矩阵和所述第二模型对应的嵌入层输出的特征矩阵之间的距离，得到所述嵌入层对应的相似度。

5.根据权利要求4所述的方法，其特征在于，基于所述各个相似度得到目标相似度，包括：

基于所述变换层对应的相似度和所述嵌入层对应的相似度得到目标相似度。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述已训练的第一模型的输出层之后添加分类层，得到待训练的文本分类模型；

获取待训练的文本分类模型的训练样本，所述训练样本包括训练文本和训练文本对应的标签信息；

将所述训练文本作为所述文本分类模型的输入，得到所述输出层输出的特征矩阵，从所述输出层输出的特征矩阵中获取目标矩阵行对应的子特征矩阵，通过所述分类层对所述子特征矩阵进行分类计算得到训练文本对应的预测分类结果；

基于所述训练文本对应的预测分类结果和所述训练文本对应的标签信息调整所述文本分类模型的模型参数，直到满足收敛条件，得到已训练的文本分类模型。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取待分类文本；

将所述待分类文本输入到已训练的文本分类模型中，得到所述待分类文本对应的目标分类结果。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

计算所述第一模型的网络层层数和所述第二模型的网络层层数的比值；

根据所述比值确定所述第二模型的网络层中与第一网络层对应的第二网络层。

9.根据权利要求1所述的方法，其特征在于，所述获取训练语句对应的训练词向量，包括：

获取训练语句；

对所述训练语句进行分词处理，得到多个训练词语；

获取各个训练词语对应的词向量，得到所述训练语句对应的训练词向量。

10.一种文本分类方法，其特征在于，所述方法包括：

获取待分类文本；

将所述待分类文本输入到已训练的文本分类模型中，得到所述待分类文本对应的目标分类结果；所述文本分类模型是在已训练的第一模型的输出层之后添加分类层得到；所述已训练的第一模型的模型参数是以训练语句对应的训练词向量作为待训练的第一模型和已训练的第二模型的输入，将所述待训练的第一模型中各个第一网络层输出的特征矩阵和所述第二模型中与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于所述各个相似度得到目标相似度，根据目标相似度调整得到，所述第一模型和第二模型均包括多层变换层，各层变换层均包括自注意力网络和隐藏网络，所述自注意力网络包括多个自注意力头，各个自注意力头均包括查询矩阵、键值矩阵和值矩阵，所述相似度包括变换层对应的相似度，所述变换层对应的相似度是根据目标自注意力网络损失和隐藏网络损失计算得到，所述目标自注意力网络损失是基于所述第一模型的变换层中自注意力网络输出的特征矩阵和所述第二模型对应的变换层中自注意力网络输出的特征矩阵计算得到，所述隐藏网络损失是基于所述第一模型的变换层中隐藏网络输出的特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵计算得到，所述自注意力网络输出的特征矩阵包括各个自注意力头对应的自注意力特征矩阵和自注意力值特征矩阵，所述自注意力特征矩阵是通过自注意力网络中各个自注意力头中的查询矩阵、键值矩阵和值矩阵分别对所述自注意力网络的输入矩阵提取特征，得到各个自注意力头对应的特征矩阵集合，各个特征矩阵集合均包括查询特征矩阵、键值特征矩阵和值特征矩阵，将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行融合得到的，所述自注意力值特征矩阵是将同一特征矩阵集合中的值特征矩阵进行自身融合得到的。

11.一种基于语言模型的语言识别装置，其特征在于，所述装置包括：

向量获取模块，用于获取训练语句对应的训练词向量；

特征矩阵输出模块，用于将所述训练词向量分别输入到待训练的第一模型和已训练的第二模型中，得到所述第一模型的各个第一网络层输出的特征矩阵，以及所述第二模型中分别与所述各个第一网络层对应的各个第二网络层输出的特征矩阵；所述第一网络层与所述第二网络层一一对应，所述第一模型的网络层层数小于所述第二模型的网络层层数，所述第一模型和第二模型包括自注意力网络，所述第一模型和第二模型均包括多层变换层，各层变换层均包括自注意力网络和隐藏网络，所述自注意力网络包括多个自注意力头，各个自注意力头均包括查询矩阵、键值矩阵和值矩阵；

相似度计算模块，用于将所述各个第一网络层输出的特征矩阵与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于所述各个相似度得到目标相似度；所述相似度包括变换层对应的相似度，所述变换层对应的相似度是根据目标自注意力网络损失和隐藏网络损失计算得到，所述目标自注意力网络损失是基于所述第一模型的变换层中自注意力网络输出的特征矩阵和所述第二模型对应的变换层中自注意力网络输出的特征矩阵计算得到，所述隐藏网络损失是基于所述第一模型的变换层中隐藏网络输出的特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵计算得到，所述自注意力网络输出的特征矩阵包括各个自注意力头对应的自注意力特征矩阵和自注意力值特征矩阵，所述自注意力特征矩阵是通过自注意力网络中各个自注意力头中的查询矩阵、键值矩阵和值矩阵分别对所述自注意力网络的输入矩阵提取特征，得到各个自注意力头对应的特征矩阵集合，各个特征矩阵集合均包括查询特征矩阵、键值特征矩阵和值特征矩阵，将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行融合得到的，所述自注意力值特征矩阵是将同一特征矩阵集合中的值特征矩阵进行自身融合得到的；

语言识别模块，用于根据所述目标相似度调整所述第一模型的模型参数，直到更新后的目标相似度满足收敛条件，得到已训练的第一模型，并通过所述第一模型进行语言识别。

12.根据权利要求11所述的装置，其特征在于，所述相似度计算模块还用于以自注意力头为单位，根据所述第一模型的变换层中自注意力网络输出的自注意力特征矩阵和所述第二模型对应的变换层中自注意力网络输出的自注意力特征矩阵进行散度计算，得到各个第一自注意力网络损失；以自注意力头为单位，根据所述第一模型的变换层中自注意力网络输出的自注意力值特征矩阵和所述第二模型对应的变换层中自注意力网络输出的自注意力值特征矩阵进行散度计算，得到各个第二自注意力网络损失；基于所述各个第一自注意力网络损失和各个第二自注意力网络损失得到所述目标自注意力网络损失。

13.一种文本分类装置，其特征在于，所述装置包括：

文本获取模块，用于获取待分类文本；

分类结果获取模块，用于将所述待分类文本输入到已训练的文本分类模型中，得到所述待分类文本对应的目标分类结果；所述文本分类模型是在已训练的第一模型的输出层之后添加分类层得到；所述已训练的第一模型的模型参数是以训练语句对应的训练词向量作为待训练的第一模型和已训练的第二模型的输入，将所述待训练的第一模型中各个第一网络层输出的特征矩阵和所述第二模型中与各个第一网络层所对应的第二网络层输出的特征矩阵进行相似计算，得到各个相似度，基于所述各个相似度得到目标相似度，根据目标相似度调整得到，所述第一模型和第二模型均包括多层变换层，各层变换层均包括自注意力网络和隐藏网络，所述自注意力网络包括多个自注意力头，各个自注意力头均包括查询矩阵、键值矩阵和值矩阵，所述相似度包括变换层对应的相似度，所述变换层对应的相似度是根据目标自注意力网络损失和隐藏网络损失计算得到，所述目标自注意力网络损失是基于所述第一模型的变换层中自注意力网络输出的特征矩阵和所述第二模型对应的变换层中自注意力网络输出的特征矩阵计算得到，所述隐藏网络损失是基于所述第一模型的变换层中隐藏网络输出的特征矩阵和所述第二模型对应的变换层中隐藏网络输出的特征矩阵计算得到，所述自注意力网络输出的特征矩阵包括各个自注意力头对应的自注意力特征矩阵和自注意力值特征矩阵，所述自注意力特征矩阵是通过自注意力网络中各个自注意力头中的查询矩阵、键值矩阵和值矩阵分别对所述自注意力网络的输入矩阵提取特征，得到各个自注意力头对应的特征矩阵集合，各个特征矩阵集合均包括查询特征矩阵、键值特征矩阵和值特征矩阵，将同一特征矩阵集合中的查询特征矩阵和键值特征矩阵进行融合得到的，所述自注意力值特征矩阵是将同一特征矩阵集合中的值特征矩阵进行自身融合得到的。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。