WO2022121251A1

WO2022121251A1 - 文本处理模型训练方法、装置、计算机设备和存储介质

Info

Publication number: WO2022121251A1
Application number: PCT/CN2021/096582
Authority: WO
Inventors: 吴天博; 王健宗; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-11
Filing date: 2021-05-28
Publication date: 2022-06-16
Also published as: CN112528637A; CN112528637B

Abstract

一种文本处理模型训练方法，涉及人工智能技术领域，包括：获取第一待训练文本样本集（202）；基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型（204）；获取第二待训练文本样本集以及预训练的语言模型（206）；基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据（208）；根据编码数据执行模型训练得到文本处理模型（210）。

Description

文本处理模型训练方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2020年12月11日提交中国专利局，申请号为2020114479642，申请名称为“文本处理模型训练方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种文本处理模型训练方法、装置、计算机设备和存储介质。

背景技术

中文纠错是自然语言处理中的一个基础任务，它常常影响着上游任务的准确性，在可获得的廉价文本数据中，常常包含着各种各样的中文错误，但是对于博大精深的中文而言，改变几个字可能语义也会发生天翻地覆的变化，因此中文纠错常常作为底层模块为上游任务提供较高质量的文本。

然而，发明人意识到传统技术中的Bert作为目前主流的预训练语言模型，其MLM预训练任务由于其mask机制会引入15％-10％的噪声，所以Bert具有一定的检错能力，但是由于只有15％-10％的噪声引入，因此Bert在做文本检错常常表现得无力，使得获取高质量的文本数据较为困难。

发明内容

根据本申请公开的各种实施例，提供一种文本处理模型训练方法、装置、计算机设备和存储介质。

一种文本处理模型训练方法，包括：

获取第一待训练文本样本集；

基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；

获取第二待训练文本样本集以及预训练的语言模型；

基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据；及

根据编码数据执行模型训练得到文本处理模型。

一种文本数据获取装置，包括：

第一训练样本集获取模块，用于获取第一待训练文本样本集；

词向量训练模块，用于基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；

第二训练样本集获取模块，用于获取第二待训练文本样本集以及预训练的语言模型；

编码数据提取模块，用于基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据；及

模型训练模块，用于根据编码数据执行模型训练得到文本处理模型。

一种文本数据获取方法，方法包括：

获取待处理文本数据；及

将待处理文本数据输入至预先训练的文本处理模型中，以根据文本处理模型中的模型参数对待处理文本数据进行数据处理得到目标文本数据；文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且词向量编码数据是基于预训练的词向量模型得到，语言编码数据是基于预训练的语言模型得到。

一种文本数据获取装置，装置包括：

获取模块，用于获取待处理文本数据；及

处理模块，用于将待处理文本数据输入至预先训练的文本处理模型中，以根据文本处理模型中的模型参数对待处理文本数据进行数据处理得到目标文本数据；文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且词向量编码数据是基于预训练的词向量模型得到，语言编码数据是基于预训练的语言模型得到。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取第一待训练文本样本集；

获取第二待训练文本样本集以及预训练的语言模型；

根据编码数据执行模型训练得到文本处理模型。

计算机可读指令计算机可读指令一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取第一待训练文本样本集；

获取第二待训练文本样本集以及预训练的语言模型；

根据编码数据执行模型训练得到文本处理模型。

计算机可读指令计算机可读指令

上述文本数据获取方法，获取待处理文本数据；将待处理文本数据输入至预先训练的文本处理模型中，根据文本处理模型中的模型参数对待处理文本数据进行数据处理得到目标文本数据；文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且词向量编码数据是基于预训练的词向量模型得到，语言编码数据是基于预训练的语言模型得到。通过训练训练不同输入法对应的词向量模型，并基于不同输入法对应的词向量模型以及语言模型综合进行文本数据的处理，使得在文本处理的过程中考虑到了更多的文本信息，进而提高了对文本数据的处理能力，进而使得获取高质量的文本数据成为了可能。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中文本处理模型训练方法的应用环境图。

图2为根据一个或多个实施例中文本处理模型训练方法的流程示意图。

图3为根据一个或多个实施例中提供的一种文本处理模型的结构图。

图4为根据一个或多个实施例中文本处理模型训练装置的结构框图。

图5为根据一个或多个实施例中文本数据获取方法的流程示意图。

图6为根据一个或多个实施例中文本数据获取装置的结构框图。

图7为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本数据获取方法，可以应用于如图1所示的应用环境中。终端102通过网络与服务器104进行通信。服务器104获取终端102上传的第一待训练文本样本集；基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；获取第二待训练文本样本集以及预训练的语言模型；基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据；根据编码数据执行模型训练得到文本处理模型。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种文本处理模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取第一待训练文本样本集。

其中，第一训练文本样本集中包括多个文本数据，具体可以是包括多个文本句子。需要说明的是，第一训练文本样本集中的文本数据可能包括需要进行纠错处理的文本数据，也就是说，第一训练文本样本集中可能包括错误的文本信息。具体地，第一训练文本样本集的来源包括中文***、历史电话销售记录、网上爬取的新闻、百度问答等数据，在此不做限制。

步骤204，基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型。

输入法具体包括拼音输入法以及五笔输入法，分别对应为利用不同的编码算法对文本进行标识，如拼音输入法是一种利用拼音编码算法对文本进行标识，五笔输入法是一种利用五笔编码算法对文本进行标识。并且，需要说明的是，对于同一个文本内容而言，基于不同的编码算法(拼音编码算法以及五笔编码算法)可以具有不同的编码内容，如“字”的拼音对应为“zi”五笔对应为“PBF”。故而，基于不同的编码方法，可以分别训练不同输入法对应的词向量模型。

具体地，不同输入法对应的词向量模型包括拼音词向量模型以及五笔词向量模型，并且拼音词向量模型是基于拼音编码数据进行训练得到，五笔词向量模型是基于五笔编码数据进行训练得到。故而，由于不同输入法对应的词向量模型是基于不同的编码数据进行训练得到，故而不同输入法对应的词向量模型是同不同维度表征文本数据的，并且通过不同维度表征文本数据使得文本数据的表征更加精准、可靠。具体地，基于输入法的不同，词向量模型包括拼音词向量模型以及五笔词向量模型。并且对于同一个文本而言，可以同时利用拼音词向量模型获取对应的拼音编码数据，利用五笔词向量模型获取对应的五笔编码数据。

步骤206，获取第二待训练文本样本集以及预训练的语言模型。

具体地，服务器获取第二待训练文本样本集，其中第二待训练文本样本集与第一待训练文本样本集可以是相同或者不同的样本集，在此不作限制。

其中，语言模型是具有语言预测能力的模型，具体可以是Bert(Bidirectional Encoder Representation from Transformers)语言模型。具体地，Bert模型的训练任务分别有2个，MLM(masked language model)和NSP(next sentence prediction)，MLM任务是预测对应位置处的文本内容，NSP的任务是要判断前后两句话不是连续的。

步骤208，基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据。

由于语言模型、五笔词向量模型以及拼音词向量模型是分别在不同的维度对同一个文本数据进行信息表达，故而基于不同的模型可以得到同一个文本数据的至少三种不同的表达方式。通过对第二训练样本集进行不同的维度表达得到的编码数据的信息量更加丰富，故而基于编码数据执行模型训练时得到的文本处理模型的文本处理准确性更高。

步骤210，根据编码数据执行模型训练得到文本处理模型。

其中，文本处理模型是用于对待处理文本数据进行纠错处理的模型，用于将待处理文本数据处理为精度较高的文本数据。在具体业务中，可以根据精度较高的文本数据作为训练数据，进行模型训练，进而提高模型训练的精度。

上述文本处理模型训练方法、装置、计算机设备和存储介质，获取第一待训练文本样本集；基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；获取第二待训练文本样本集以及预训练的语言模型；基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据；根据编码数据执行模型训练得到文本处理模型。基于训练样本集首先训练得到不同输入法对应的词向量模型，然后基于训练好的词向量模型以及语言模型再次执行模型训练得到文本处理模型，保证在训练文本处理模型的过程中能够综合更多维度的文本信息，得到的文本处理模型的精度更高，预测准确率更高。并且利用训练得到的文本处理模型可以用于对输入的待处理文本数据进行处理，使得在文本处理的过程中考虑到了更多的文本信息，进而提高了对文本数据的处理能力，进而使得获取高质量的文本数据成为了可能。

在其中一个实施例中，基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型，包括：将第一待训练文本样本集转换为对应的拼音编码向量，根据预配置的滑动窗口依次遍历拼音编码向量，并将遍历到的拼音编码向量作为当前待处理拼音向量，基于当前拼音模型参数对应的当前词向量模型在当前待处理拼音向量中预测预设位置处的拼音编码向量，并根据预测的拼音编码向量以及真实的拼音编码向量确定目标拼音模型参数，根据确定的目标拼音模型参数得到拼音词向量模型；将第一待训练文本样本集转换为对应的五笔编码向量，根据预配置的滑动窗口依次遍历五笔编码向量，并将遍历到的五笔编码向量作为当前待处理五笔向量，基于当前五笔模型参数对应的当前词向量模型在当前待处理五笔向量中预测预设位置处的五笔编码向量，并根据预测的五笔编码向量以及真实的五笔编码向量确定目标五笔模型参数，根据确定的目标五笔模型参数得到五笔词向量模型。

具体地，服务器获取第一待训练文本样本集，将第一待训练文本样本集转换为对应的拼音编码向量，根据拼音编码向量进行词向量模型训练得到拼音词向量模型，将第一待训练文本样本集转换为对应的五笔编码向量，根据五笔编码向量进行词向量模型训练得到五笔词向量模型。

在其中一个具体的实施例中，服务器获取第一训练文本样本集，并将第一训练文本样本集中的每一个文本转换为对应的拼音数据得到拼音编码向量，将得到的拼音编码向量作为训练拼音词向量模型的输入数据，进而得到训练好的拼音词向量模型。以及，服务器获取第一训练文本样本集，并将第一训练文本样本集中的每一个文本转换为对应的五笔数据得到五笔编码向量，将得到的五笔编码向量作为训练五笔词向量模型的输入数据，进而得到训练好的五笔词向量模型。具体地，词向量编码模型的训练方式可以是基于Bert语言模型的训练方式，也可以是基于词向量如word2vec的训练方式，在此不作限制。

具体地，基于词向量如word2vec的训练方式执行词向量模型的训练方式，包括：将第一训练文本样本集对应的文字转换为五笔编码向量，并设置预定义的滑动窗口，如可以设定滑动窗口的大小为5，然后服务器基于滑动窗口对应的大小为单位步长，依次遍历文本数据对应的五笔编码向量，并将当前遍历到的五笔编码向量作为当前待处理五笔编码向量，并在当前待处理五笔编码向量中执行数据预测步骤。具体可以是在每次循环过程中，在当前五笔模型参数对应的当前五笔词向量模型中，使用前后各两个文字的五笔编码向量来预测中间位置处的文字的五笔编码向量，并将预测得到的五笔编码向量与实际的五笔编码向量进行比对，以根据比对结果对当前五笔词向量模型参数进行调整得到目标五笔词向量模型参数，最终根据目标五笔词向量模型参数得到目标的五笔词向量模型，同理，可以得到拼音词向量模型。

上述实施例中，通过利用不同的输入表示法将训练样本集进行分别表示，进而能够实现在多个维度表达同一个文本数据，使得模型能够获取同一个文本数据的多维度信息，进而为训练模型提供了更多的数据信息，以提高模型训练的精度，并且，不同输入法对应的模型可以基于词向量的方式进行训练，词向量的训练方式成本交底，效率较高，进一步都提高了模型训练的效率。

在一个实施例中，如图5所示，提供了一种文本数据获取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤502，获取待处理文本数据。

其中，待处理文本数据是需要进行纠错处理的文本数据，也就是说，待处理文本数据中可能包括错误的文本信息。在一个具体的实施例中，待处理文本数据可以作为模型训练的训练样本集，故而当待处理文本数据中包括错误文本信息时，利用包括错误信息的待处理文本数据进行模型训练时会对模型训练的精度造成很大的影响，故而，需要对待处理文本数据进行数据处理，以实现对包括的错误数据进行去除或者进行纠错处理。

具体地，待处理文本数据的来源包括中文***、历史电话销售记录、网上爬取的新闻、百度问答等数据，在此不做限制。

步骤504，将待处理文本数据输入至预先训练的文本处理模型中，根据文本处理模型中的模型参数对待处理文本数据进行数据处理得到目标文本数据；文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且词向量编码数据是基于预训练的词向量模型得到，语言编码数据是基于预训练的语言模型得到。

目标文本数据是对待处理文本数据进行数据纠错处理后得到的数据，也就是说目标文本数据的数据精度较高，可以作为模型训练时的训练样本集。输入法具体包括拼音输入法以及五笔输入法，分别对应为利用不同的编码算法对文本进行标识，如拼音输入法是一种利用拼音编码算法对文本进行标识，五笔输入法是一种利用五笔编码算法对文本进行标识。并且，需要说明的是，对于同一个文本内容而言，基于不同的编码算法(拼音编码算法以及五笔编码算法)可以具有不同的编码内容，如“字”的拼音对应为“zi”五笔对应为“PBF”。故而，基于不同的编码方法，可以分别训练不同输入法对应的词向量模型。

具体地，基于输入法的不同，词向量模型包括拼音词向量模型以及五笔词向量模型。并且对于同一个文本而言，可以同时利用拼音词向量模型获取对应的拼音编码数据，利用五笔词向量模型获取对应的五笔编码数据。

基于单独利用语言模型进行文本处理，如在语言模型中的检错模块中只使用了基于文本的token embedding特征，难以很好地解决在具体的落地应用中遇到的同音不同字和字形相近偏旁不同的问题，尤其是对于自动语音识别技术(ASR)对应的语音识别场景，发音是个非常重要的纠错线索。在本申请中通过增加不同输入法对应的词向量模型(如拼音和五笔)与语言模型共同配合进行对待处理文本数据的处理，实现了给与模型更多的文本参考信息，进而实现了提高了文本处理模型对待处理文本数据的处理能力。

在具体的业务场景中，中文纠错是自然语言处理中的一个基础任务，它常常影响着上游任务的准确性，在可获得的廉价文本数据中，常常包含着各种各样的中文错误，简单的有由于用户输入法导致的拼音错误以及五笔错误。而在ASR识别中，会出现一些同音词的替换，比如逆境被ASR识别为泥金，这样虽然发声一致，但是文本意思却发生了天翻地覆的变化，也可能或多或少引入一些噪声，比如你好变成了你你好。这样的噪声文本送到深度学习模型中，其实会大大影响模型的准确率，毕竟对于博大精深的中文而言，改变几个字可能语义也会发生天翻地覆的变化。因此中文纠错常常作为底层模块为上游任务提供较高质量的文本。故而，本申请的目的之一在于实现对待处理文本数据中的错误数据进行纠错处理，以保证获取准确率较高的目标文本数据，并将目标文本数据作为训练样本集进行模型的训练。

本申请创造性引入了不同输入法对应的词向量模型，为模型带来更多可参考的信息，进而提高了对待处理文本数据的处理能力，使得获取精度更高的目标数据成为了可能。

在其中一个实施例中，基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据，包括：基于预训练的五笔词向量模型从第二待训练文本样本集中提取五笔编码数据；基于预训练的拼音词向量模型从第二待训练文本样本集中提取拼音编码数据；获取预训练的语言模型，并基于语言模型从第二训练样本集中提取多维语言编码数据；根据编码数据执行模型训练得到文本处理模型，包括：将五笔编码数据、拼音编码数据以及多维编码数据作为输入数据，并根据输入数据进行模型训练得到文本处理模型。

具体地，文本处理模型是基于训练好的词向量模型以及语言模型共同进行训练得到的。也就是说，在具体训练过程中，首先基于训练样本集训练得到拼音词向量模型以及五笔词向量模型，以及获取预训练的语言模型，然后基于训练好的拼音词向量模型、五笔词向量模型以及语言模型再次进行模型训练得到最终的文本处理模型。换言之，在本申请中至少包括两层的模型训练过程，第一层是基于输入法的词向量模型的训练，另一层是基于第一层训练得到的基于输入法的词向量模型以及语言模型再次进行模型训练得到的文本处理模型。

具体地，服务器获取第二待训练文本样本集，其中第二待训练文本样本集与第一待训练文本样本集可以是相同或者不同的样本集，在此不作限制。然后将第二待训练文本样本集输入至训练好的词向量模型中，分别得到拼音编码数据以及五笔编码数据，以及将第二待训练文本样本集输入至训练好的语言模型中，得到多维语言编码数据。然后将得到的拼音编码数据、五笔编码数据以及多维语言编码数据再次作为输入数据进行模型的训练，进而得到文本处理模型。在此过程中，在训练文本处理模型的过程中，输入数据的来源包括多个模型，具体包括不同输入法对应的词向量模型以及预训练的精度较高的语言模型，进而使得训练文本处理模型的过程中数据的来源更加精准，信息更加丰富，进而使得模型的训练精度更高。

在其中一个具体地实施例中，多维语言编码数据中包括词向量编码数据(token embedding)、分类编码数据(type embedding)以及位置编码数据(position embedding)中的一种或者多种。具体地，语言模型中的Bert embedding layer有三个输入记为多维语言编码数据，多维语言编码数据可以从多方面表达文本信息。具体地，多维语言编码数据分别对应为token-embedding、segment-embedding和position-embedding。具体地，Token-embedding是用于将单词转换为固定维的向量表示形式，在Bert-base中每个单词都表示为一个768维的向量。Segment-embedding是用于Bert在解决双句分类任务(如判断两段文本在语义上是否相似)时是直接把这两段文本拼接起来输入到模型中，那么模型是如何区分这两段文本呢，答案就是通过segment-embedding。对于两个句子，第一个句子的segment-embedding部分全是0，第二个句子的segment-embedding部分全是1。BERT使用transformer编码器，通过self-attention机制学习句子的表征，self-attention不关注token的位置信息，所以为了能让transformer学习到token的位置信息，在输入时增加了position-embedding。

并且，在训练文本处理模型的过程中，通过引入五笔和拼音信息来进行信息增强。并且为了进一步提高模型训练的效率，词向量模型如五笔词向量模型以及拼音词向量模型中的五笔embedding以及拼音embedding使用word2vec。通过使用word2vec可以减少数据量，进而实现了提高模型训练的效率。

在其中一个实施例中，将五笔编码数据、拼音编码数据以及多维语言编码数据作为输入数据，并根据输入数据进行模型训练得到文本处理模型，包括：将五笔编码数据、拼音编码数据以及多维语言编码数据进行拼接处理得到拼接编码数据；基于语言模型对拼接编码数据进行预测处理得到每一个位置处对应的预测概率；根据预测概率的大小确定对应位置处的初始预测文本；基于初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始模型参数进行调整得到目标模型参数，并根据目标模型参数确定文本处理模型。

具体地，服务器将获取到的五笔编码数据、拼音编码数据以及多维语言数据进行拼接处理得到拼接编码数据，并将拼接编码数据输入至预测模块中，得到每一个位置处对应的预测概率。并且提取预测概率大于预设阈值的数据作为初始预测数据，如可以将预测概率排名在前5的数据作为初始预测数据。

在其中一个实施例中，根据预测概率的大小确定对应位置处的初始预测文本，包括：获取预测概率值大于预设值的预测文本；基于同音原则以及拼音原则从预测文本中提取初始预测文本，初始预测文本存储至区块链节点中。

参考图3，图3为一个实施例中提供的一种文本处理模型的结构图。具体地，在文本处理模型的纠错模块中，本申请不是将token embedding加入到纠错模块的最后一层进行分类输出，而是通过纠错模块直接输出并利用拼音特征对输出加以约束。具体地，本申请充分利用语言模型训练的特点进行文本的检错，目前的语言模型基本都是给定左边的词以及右边的词然后预测当前位置，也存在给定中心词预测左右两边的词，通过这种训练，模型可以学到一个词与哪些词邻近以及邻近的概率，使用拼音训练也是如此。举例来说，中国熊猫的正确拼音是“zhong guo xiong mao”，错误拼音是“zhong guo xun mao”，那么如果训练拼音词向量模型的数据质量较高，那么“mao”拼音前面是“xiong”的概率要高于 “xun”，同理“guo”后面跟“xiong”的概率要高于“xun”，这样可以看到只要拼音词向量模型的训练数据质量较高，那么在检错模块中在预测“mao”前面的“xun”时，“xiong”的概率要远高“xun”，这样起到了检错的作用。故而，在一些实施例中，还可以通过在模型训练过程中冷冻拼音词向量模型的原因，以通过冷冻处理使得正确的拼音词向量不会受较低质量数据的影响。

继续参考图3，具体地，纠错部分使用的Bert模型，它会对每个字都进行softmax输出，如果输出结果跟输入的不一样，说明该字需要修正。举例来说，针对熏这个错别字，bert模型的softmax输出结果最高分的5个为熊、寻、大、好、勋。此时希望进一步根据拼音进行筛选，根据前面拼音embedding接dense的输出结果，该位置的拼音预测为xiong，基于此对bert结果进行过滤，去掉其他拼音，最终只保留下“熊”，其他位置同理。

也就是说，利用拼音预测的结果在纠错模块做预测结果的筛选，除了对预测结果的Top5做同音词的筛选外，还添加拼音预测的结果做筛选。比如中国熏猫，对于熏该错别字而言，假设预测结果的Top5为熊、寻、大、好、勋，如果只做同音词的筛选，那么经过“xun”筛选，将会过滤掉概率最高的熊，导致纠错失败，但是如果熏经拼音预测的结果为“xiong”，这样经过“xiong”和“xun”的过滤就会得到熊、寻、勋，然后取概率最大的熊，进而纠错成功。

需要强调的是，为进一步保证上述初始预测文本的私密和安全性，上述初始预测文本还可以存储于一区块链的节点中。

上述实施例中，通过拼音Embedding以及双向GRU+Dense做词表筛选可以实现动态筛选，而不仅仅是固定的同音筛选。具体来讲就是对后面Bert纠错结果的筛选使用了拼音模型的结果，而不是原始的输入拼音，进而提高了纠错的准确性，以得到准确率较高的文本数据。

在其中一个实施例中，文本处理模型的模型参数包括拼音模型参数以及五笔模型参数；基于初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始模型参数进行调整得到目标模型参数，并根据目标模型参数确定文本处理模型，包括：基于初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始五笔参数进行调整得到目标五笔模型参数；根据拼音模型参数以及目标五笔模型参数确定文本处理模型。

具体地，在训练文本处理模型的过程中，拼音embedding是固定不可变的，五笔embedding是固定可变的。其中，可变是指参数可变，即五笔embedding参与到训练过程中反向传播的参数更新，拼音embedding固定不变。也就是训练过程中不会更新。

在其中一个实施例中，词向量模型是基于word2vector训练得到，语言模型是基于Bert模型训练得到。

虽然Bert语言模型很强，但是做拼音Bert的成本很高，而且由于不能保证预训练文本的质量，即便做了拼音Bert也只能做下信息增强，不适合用于拼音检错上，所以模型选择在拼音Embedding的训练数据质量上下功夫，选用较为轻小的word2vector语言模型而放弃Bert，同时也认为对于word2vec，由于预训练过程和下游的检错相关，所以其检错能力也不会相比Bert差很多。五笔的向量跟拼音向量一样，都是通过Word2Vector的方法训练得到的。

具体地，word2vector的训练方法包括：将所有文字转换为五笔编码，设置滑动窗口为5，即每次使用前后各个2字的编码来预测中间的那个字的编码。

上述实施例中，在检错模块中引入高质量文本的五笔Embedding和拼音Embedding进行信息增强，可以显著提高原始Soft-mask检错网络的能力。而通过冷冻拼音Embedding，可以保证该Embedding不引入当前错误文本的拼音信息，从而实现纠错的能力。其次在纠错模块中对Top5做同音筛选可以有效控制文本的输出，而利用拼音Embedding+双向GRU+Dense层预测的正确拼音可以对结果实现动态的筛选，这样也能降低同音筛选过滤掉正确词的概率。

整体来讲本申请中的方案突出了语音特征的重要性，弥补了只是用语言模型对于ASR语音识别纠错场景的不足。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图4所示，提供了一种文本处理模型训练装置，包括：

第一训练样本集获取模块402，用于获取第一待训练文本样本集。

词向量训练模块404，用于基于第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型。

第二训练样本集获取模块406，用于获取第二待训练文本样本集以及预训练的语言模型。

编码数据提取模块408，用于基于语言模型、五笔词向量模型以及拼音词向量模型分别提取第二待训练文本样本集对应的编码数据。

模型训练模块410，用于根据编码数据执行模型训练得到文本处理模型。

在其中一个实施例中，编码数据提取模块408还用于将第一待训练文本样本集转换为对应的拼音编码向量，根据预配置的滑动窗口依次遍历拼音编码向量，并将遍历到的拼音编码向量作为当前待处理拼音向量，基于当前拼音模型参数对应的当前词向量模型在当前待处理拼音向量中预测预设位置处的拼音编码向量，并根据预测的拼音编码向量以及真实的拼音编码向量确定目标拼音模型参数，根据确定的目标拼音模型参数得到拼音词向量模型；将第一待训练文本样本集转换为对应的五笔编码向量，根据预配置的滑动窗口依次遍历五笔编码向量，并将遍历到的五笔编码向量作为当前待处理五笔向量，基于当前五笔模型参数对应的当前词向量模型在当前待处理五笔向量中预测预设位置处的五笔编码向量，并根据预测的五笔编码向量以及真实的五笔编码向量确定目标五笔模型参数，根据确定的目标五笔模型参数得到五笔词向量模型。

在其中一个实施例中，编码数据提取模块408还用于基于预训练的五笔词向量模型从第二待训练文本样本集中提取五笔编码数据；基于预训练的拼音词向量模型从第二待训练文本样本集中提取拼音编码数据；获取预训练的语言模型，并基于语言模型从第二训练样本集中提取多维语言编码数据；模型训练模块410还用于将五笔编码数据、拼音编码数据以及多维语言编码数据作为输入数据，并根据输入数据进行模型训练得到文本处理模型。

在其中一个实施例中，模型训练模块410还用于将五笔编码数据、拼音编码数据以及多维编码数据进行拼接处理得到拼接编码数据；基于语言模型对拼接编码数据进行预测处理得到每一个位置处对应的预测概率；根据预测概率的大小确定对应位置处的初始预测文本；基于初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始模型参数进行调整得到目标模型参数，并根据目标模型参数确定文本处理模型。

在其中一个实施例中，模型训练模块410还用于获取预测概率值大于预设值的预测文本；基于同音原则以及拼音原则从预测文本中提取初始预测文本，初始预测文本存储至区块链节点中。

在其中一个实施例中，模型训练模块410还用于基于初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始五笔参数进行调整得到目标五笔模型参数；根据拼音模型参数以及目标五笔模型参数确定文本处理模型。

在其中一个实施例中，如图6所示，提供了一种文本数据获取装置，包括：

获取模块602，用于获取待处理文本数据。

处理模块604，用于将待处理文本数据输入至预先训练的文本处理模型中，以根据文本处理模型中的模型参数对待处理文本数据进行数据处理得到目标文本数据；文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且词向量编码数据是基于预训练的词向量模型得到，语言编码数据是基于预训练的语言模型得到。

关于文本数据获取装置以及文本处理模型训练装置的具体限定可以参见上文中对于文本数据获取方法以及文本处理模型训练方法的限定，在此不再赘述。上述文本数据获取装置以及文本处理模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文本数据获取方法以及文本处理模型训练方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行上述任意一个实施例中的方法所涉及的步骤。

一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任意一个实施例中的方法所涉及的步骤。

其中，该计算机可读存储介质可以是非易失性，也可以是易失性的。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该存储介质可以为易失性的或非易失性计算机可读存储介质，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种文本处理模型训练方法，其中，所述文本处理模型训练方法包括：

获取第一待训练文本样本集；

基于所述第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；

获取第二待训练文本样本集以及预训练的语言模型；

基于所述语言模型、所述五笔词向量模型以及所述拼音词向量模型分别提取所述第二待训练文本样本集对应的编码数据；及

根据所述编码数据执行模型训练得到文本处理模型。
根据权利要求1所述的文本处理模型训练方法，其中，所述基于所述第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型，包括：

将所述第一待训练文本样本集转换为对应的拼音编码向量，根据预配置的滑动窗口依次遍历所述拼音编码向量，并将遍历到的所述拼音编码向量作为当前待处理拼音向量，基于当前拼音模型参数对应的当前词向量模型在所述当前待处理拼音向量中预测预设位置处的拼音编码向量，并根据预测的所述拼音编码向量以及真实的所述拼音编码向量确定目标拼音模型参数，根据确定的所述目标拼音模型参数得到拼音词向量模型；及

将所述第一待训练文本样本集转换为对应的五笔编码向量，根据预配置的滑动窗口依次遍历所述五笔编码向量，并将遍历到的所述五笔编码向量作为当前待处理五笔向量，基于当前五笔模型参数对应的当前词向量模型在所述当前待处理五笔向量中预测预设位置处的五笔编码向量，并根据预测的所述五笔编码向量以及真实的五笔编码向量确定目标五笔模型参数，根据确定的所述目标五笔模型参数得到五笔词向量模型。
根据权利要求1所述的文本处理模型训练方法，其中，所述基于所述语言模型、所述五笔词向量模型以及所述拼音词向量模型分别提取所述第二待训练文本样本集对应的编码数据，包括：

基于预训练的所述五笔词向量模型从所述第二待训练文本样本集中提取五笔编码数据；

基于预训练的所述拼音词向量模型从所述第二待训练文本样本集中提取拼音编码数据；

获取预训练的语言模型，并基于所述语言模型从所述第二训练样本集中提取多维语言编码数据；及

所述根据所述编码数据执行模型训练得到文本处理模型，包括：

将所述五笔编码数据、所述拼音编码数据以及所述多维语言编码数据作为输入数据，并根据所述输入数据进行模型训练得到文本处理模型。
根据权利要求3所述的文本处理模型训练方法，其中，所述将所述五笔编码数据、所述拼音编码数据以及所述多维语言编码数据作为输入数据，并根据所述输入数据进行模型训练得到文本处理模型，包括：

将所述五笔编码数据、所述拼音编码数据以及所述多维编码数据进行拼接处理得到拼接编码数据；

基于所述语言模型对所述拼接编码数据进行预测处理得到每一个位置处对应的预测概率；

根据所述预测概率的大小确定对应位置处的初始预测文本；及

基于所述初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始模型参数进行调整得到目标模型参数，并根据所述目标模型参数确定文本处理模型。
根据权利要求4所述的文本处理模型训练方法，其中，所述根据所述预测概率的大小确定对应位置处的初始预测文本，包括：

获取预测概率值大于预设值的预测文本；及

基于同音原则以及拼音原则从所述预测文本中提取初始预测文本，所述初始预测文本存储至区块链节点中。
根据权利要求4所述的文本处理模型训练方法，其中，所述文本处理模型的模型参数包括拼音模型参数以及五笔模型参数；所述基于所述初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始模型参数进行调整得到目标模型参数，并根据所述目标模型参数确定文本处理模型，包括：

基于所述初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始五笔参数进行调整得到目标五笔模型参数；及

根据所述拼音模型参数以及所述目标五笔模型参数确定文本处理模型。
一种文本数据获取方法，其中，所述文本数据获取方法包括：

获取待处理文本数据；及

将所述待处理文本数据输入至预先训练的文本处理模型中，以根据所述文本处理模型中的模型参数对所述待处理文本数据进行数据处理得到目标文本数据；所述文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且所述词向量编码数据是基于预训练的词向量模型得到，所述语言编码数据是基于预训练的语言模型得到。
一种文本处理模型训练装置，其中，所述文本处理模型训练装置包括：

第一训练样本集获取模块，用于获取第一待训练文本样本集；

词向量训练模块，用于基于所述第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；

第二训练样本集获取模块，用于获取第二待训练文本样本集以及预训练的语言模型；

编码数据提取模块，用于基于所述语言模型、所述五笔词向量模型以及所述拼音词向量模型分别提取所述第二待训练文本样本集对应的编码数据；及

模型训练模块，用于根据所述编码数据执行模型训练得到文本处理模型。
一种文本数据获取装置，其中，所述文本数据获取装置包括：

获取模块，用于获取待处理文本数据；及

处理模块，用于将所述待处理文本数据输入至预先训练的文本处理模型中，以根据所述文本处理模型中的模型参数对所述待处理文本数据进行数据处理得到目标文本数据；所述文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且所述词向量编码数据是基于预训练的词向量模型得到，所述语言编码数据是基于预训练的语言模型得到。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取第一待训练文本样本集；

基于所述第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；

获取第二待训练文本样本集以及预训练的语言模型；

基于所述语言模型、所述五笔词向量模型以及所述拼音词向量模型分别提取所述第二待训练文本样本集对应的编码数据；及

根据所述编码数据执行模型训练得到文本处理模型。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机可读指令时所实现的所述基于所述第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型，包括：

将所述第一待训练文本样本集转换为对应的拼音编码向量，根据预配置的滑动窗口依次遍历所述拼音编码向量，并将遍历到的所述拼音编码向量作为当前待处理拼音向量，基于当前拼音模型参数对应的当前词向量模型在所述当前待处理拼音向量中预测预设位置处的拼音编码向量，并根据预测的所述拼音编码向量以及真实的所述拼音编码向量确定目标拼音模型参数，根据确定的所述目标拼音模型参数得到拼音词向量模型；及

将所述第一待训练文本样本集转换为对应的五笔编码向量，根据预配置的滑动窗口依次遍历所述五笔编码向量，并将遍历到的所述五笔编码向量作为当前待处理五笔向量，基于当前五笔模型参数对应的当前词向量模型在所述当前待处理五笔向量中预测预设位置处的五笔编码向量，并根据预测的所述五笔编码向量以及真实的五笔编码向量确定目标五笔模型参数，根据确定的所述目标五笔模型参数得到五笔词向量模型。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机可读指令时所实现的所述基于所述语言模型、所述五笔词向量模型以及所述拼音词向量模型分别提取所述第二待训练文本样本集对应的编码数据，包括：

基于预训练的所述五笔词向量模型从所述第二待训练文本样本集中提取五笔编码数据；

基于预训练的所述拼音词向量模型从所述第二待训练文本样本集中提取拼音编码数据；

获取预训练的语言模型，并基于所述语言模型从所述第二训练样本集中提取多维语言编码数据；及

所述根据所述编码数据执行模型训练得到文本处理模型，包括：

将所述五笔编码数据、所述拼音编码数据以及所述多维语言编码数据作为输入数据，并根据所述输入数据进行模型训练得到文本处理模型。
根据权利要求12所述的计算机设备，其中，所述处理器执行所述计算机可读指令时所实现的所述将所述五笔编码数据、所述拼音编码数据以及所述多维语言编码数据作为输入数据，并根据所述输入数据进行模型训练得到文本处理模型，包括：

将所述五笔编码数据、所述拼音编码数据以及所述多维编码数据进行拼接处理得到拼接编码数据；

基于所述语言模型对所述拼接编码数据进行预测处理得到每一个位置处对应的预测概率；

根据所述预测概率的大小确定对应位置处的初始预测文本；及

基于所述初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始模型参数进行调整得到目标模型参数，并根据所述目标模型参数确定文本处理模型。
根据权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时所实现的所述根据所述预测概率的大小确定对应位置处的初始预测文本，包括：

获取预测概率值大于预设值的预测文本；及

基于同音原则以及拼音原则从所述预测文本中提取初始预测文本，所述初始预测文本存储至区块链节点中。
根据权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时所涉及的所述文本处理模型的模型参数包括拼音模型参数以及五笔模型参数；所述处理器执行所述计算机可读指令时所实现的所述基于所述初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始模型参数进行调整得到目标模型参数，并根据所述目标模型参数确定文本处理模型，包括：

基于所述初始预测文本与真实标签文本之间的差异对初始文本处理模型的初始五笔参数进行调整得到目标五笔模型参数；及

根据所述拼音模型参数以及所述目标五笔模型参数确定文本处理模型。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理文本数据；及

将所述待处理文本数据输入至预先训练的文本处理模型中，以根据所述文本处理模型中的模型参数对所述待处理文本数据进行数据处理得到目标文本数据；所述文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且所述词向量编码数据是基于预训练的词向量模型得到，所述语言编码数据是基于预训练的语言模型得到。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取第一待训练文本样本集；

基于所述第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型；

获取第二待训练文本样本集以及预训练的语言模型；

基于所述语言模型、所述五笔词向量模型以及所述拼音词向量模型分别提取所述第二待训练文本样本集对应的编码数据；及

根据所述编码数据执行模型训练得到文本处理模型。
根据权利要求17所述的存储介质，其中，所述计算机可读指令被所述处理器执行时所实现的所述基于所述第一待训练文本样本集分别执行模型训练得到不同输入法对应的五笔词向量模型以及拼音词向量模型，包括：

将所述第一待训练文本样本集转换为对应的拼音编码向量，根据预配置的滑动窗口依次遍历所述拼音编码向量，并将遍历到的所述拼音编码向量作为当前待处理拼音向量，基于当前拼音模型参数对应的当前词向量模型在所述当前待处理拼音向量中预测预设位置处的拼音编码向量，并根据预测的所述拼音编码向量以及真实的所述拼音编码向量确定目标拼音模型参数，根据确定的所述目标拼音模型参数得到拼音词向量模型；及

将所述第一待训练文本样本集转换为对应的五笔编码向量，根据预配置的滑动窗口依次遍历所述五笔编码向量，并将遍历到的所述五笔编码向量作为当前待处理五笔向量，基于当前五笔模型参数对应的当前词向量模型在所述当前待处理五笔向量中预测预设位置处的五笔编码向量，并根据预测的所述五笔编码向量以及真实的五笔编码向量确定目标五笔模型参数，根据确定的所述目标五笔模型参数得到五笔词向量模型。
根据权利要求17所述的存储介质，其中，所述计算机可读指令被所述处理器执行时所实现的所述基于所述语言模型、所述五笔词向量模型以及所述拼音词向量模型分别提取所述第二待训练文本样本集对应的编码数据，包括：

基于预训练的所述五笔词向量模型从所述第二待训练文本样本集中提取五笔编码数据；

基于预训练的所述拼音词向量模型从所述第二待训练文本样本集中提取拼音编码数据；

获取预训练的语言模型，并基于所述语言模型从所述第二训练样本集中提取多维语言编码数据；及

所述根据所述编码数据执行模型训练得到文本处理模型，包括：

将所述五笔编码数据、所述拼音编码数据以及所述多维语言编码数据作为输入数据，并根据所述输入数据进行模型训练得到文本处理模型。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理文本数据；及

将所述待处理文本数据输入至预先训练的文本处理模型中，以根据所述文本处理模型中的模型参数对所述待处理文本数据进行数据处理得到目标文本数据；所述文本处理模型是基于不同输入法对应的词向量编码数据以及语言编码数据作为输入数据进行训练得到，且所述词向量编码数据是基于预训练的词向量模型得到，所述语言编码数据是基于预训练的语言模型得到。