CN112329447B

CN112329447B - 中文纠错模型的训练方法、中文纠错方法及装置

Info

Publication number: CN112329447B
Application number: CN202011180074.XA
Authority: CN
Inventors: 张睦
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2024-03-26
Anticipated expiration: 2040-10-29
Also published as: CN112329447A

Abstract

本发明实施例提供一种中文纠错模型的训练方法、中文纠错方法及装置，所述训练方法包括：基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；基于第一训练数据集和第二训练数据集对第一预训练模型进行精调，得到中文纠错模型；第一训练数据集包括多个样本四元组，样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；第二训练数据集包括多个相似样本四元组，相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。本发明实施例提供的中文纠错模型的训练方法、中文纠错方法及装置，提高了训练数据的生成效率和丰富性，使得训练出来的中文纠错模型纠错效果较好。

Description

中文纠错模型的训练方法、中文纠错方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种中文纠错模型的训练方法、中文纠错方法及装置。

背景技术

中文纠错是自然语言处理中一项非常重要的课题，纠错模型将文本潜在的语法错误自动找出并给予纠正，并保持纠正后的语义不变，纠错模型不但可以提升文本的质量，还可以使程序中的下游模块更加易于处理文本。

然而，纠错模型的构建面临着一些挑战，当前纠错模型的构建往往参考了机器翻译的训练方法。机器翻译模型的输入是一种语言的原文句子，输出则是另一种语言且语义保持的译文句子；类似地，语法纠错模型的输入是语法可能错误的句子，输出则是语法正确且语义保持不变的句子。不仅如此，机器翻译模型往往需要大量的双语平行语料，语法纠错模型的构建中也需要许多包括语法可能错误的句子以及语法正确的句子的平行语料对作为训练样本，而获取这些数据往往需要高昂的人工打标签的成本费用。因此，如何在平行语料较为稀缺的情况下训练出效果较好的模型，是智能纠错的第一个挑战。

此外，现有技术中对于智能纠错的方法主要集中在英文语言的研究方向上，英文的语法错误主要包括介词，定冠词，单词拼写错误，动词(例如，时态、第三人称加s等)，名词单复数，英文符号等方面。而英文和中文的语法错误有着很大的差别，中文语法错误主要集中在错别字的误用，因为拼音输入法和五笔输入法会分别导致相同或相似音(例如，联连链等)和偏旁部首字形相似(例如，桅姽脆诡跪等)的字和词的使用错误。因此，如何根据中文语言的特殊性构建纠错模型是第二个需要解决的问题。

发明内容

本发明实施例提供一种中文纠错模型的训练方法、中文纠错方法及装置，用以解决现有技术中人为标记成本高、纠错模型对中文的适应性较差的缺陷。

本发明实施例提供一种中文纠错模型的训练方法，包括：

基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；

基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调，得到中文纠错模型；

所述第一训练数据集包括多个样本四元组，所述样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；所述第二训练数据集包括多个相似样本四元组，所述相似样本四元组是基于任一中文语料中的相似字对所述任一中文语料中与其对应的字进行替换得到的。

根据本发明一个实施例的中文纠错模型的训练方法，所述基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调，得到中文纠错模型，包括：

基于所述第二训练数据集对所述第一预训练模型进行精调，得到第二预训练模型；

基于第三训练数据集对所述第二预训练模型进行精调，得到所述中文纠错模型，所述第三训练数据集是基于所述第一训练数据和所述第二训练数据确定的。

根据本发明一个实施例的中文纠错模型的训练方法，所述第一训练数据集包括错误样本四元组，所述错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组；所述错误样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到的。

根据本发明一个实施例的中文纠错模型的训练方法，所述对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑，包括：

对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换和调序中的至少一项进行编辑；

和/或，

对所述任一中文语料对应的图片序列中的若干个图片的像素值随机进行更改和/或替换。

根据本发明一个实施例的中文纠错模型的训练方法，所述中文纠错模型包括三个编码器和一个解码器，所述三个编码器分别用于对拼音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片特征向量进行编码，所述解码器用于对拼音特征编码、笔画特征编码和图片特征编码进行解码，并生成中文纠正结果。

本发明实施例提供一种中文纠错方法，包括：

确定待纠错的文本；

将所述文本输入至中文纠错模型，得到所述中文纠错模型输出的所述文本的中文纠正结果；

其中，所述中文纠错模型是基于上述任一实施例提供的训练方法训练得到的。

本发明实施例提供还一种中文纠错模型的训练装置，包括：

预训练单元，用于基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；

精调单元，用于基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调，得到中文纠错模型；

本发明实施例提供还一种中文纠错装置，包括：

文本确定单元，用于确定待纠错的文本；

中文纠错单元，用于将所述文本输入至中文纠错模型，得到所述中文纠错模型输出的所述文本的中文纠正结果；

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述中文纠错模型的训练方法或中文纠错方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述中文纠错模型的训练方法或中文纠错方法的步骤。

本发明实施例提供的一种中文纠错模型的训练方法、中文纠错方法及装置，基于包括多个样本四元组的第一训练数据集对初始模型进行预训练，得到第一预训练模型，并结合包括多个相似样本四元组的第二训练数据集对第一预训练模型进行精调，得到中文纠错模型，节省了人工标记带来的成本，提高了训练数据的生成效率，大量扩充了训练数据，提高了训练数据的丰富性，使得训练出来的中文纠错模型具有较好的纠错效果，而且有效地解决了中文的同音字、音近字和形近字的纠错。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的中文纠错模型的训练方法的流程示意图；

图2为本发明实施例提供的中文纠错方法的流程示意图；

图3为本发明实施例提供的中文纠错模型的训练装置的结构示意图；

图4为本发明实施例提供的中文纠错装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的中文纠错模型的训练方法的流程示意图，如图1所示，该方法包括：

步骤110，基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；

步骤120，基于第一训练数据集和第二训练数据集对第一预训练模型进行精调，得到中文纠错模型；

第一训练数据集包括多个样本四元组，样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；第二训练数据集包括多个相似样本四元组，相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。

具体地，为获取中文纠错模型的训练数据，首先收集大量中文语料，例如可以从中文***或新闻等网络资源中得到大量中文语料，构建中文语料库，将中文语料库中任一中文语料以语料四元组的形式进行表示，语料四元组包括该中文语料及其对应的拼音序列、笔画序列以及图片序列。其中，拼音序列为该中文语料中各个汉字的拼音组成的序列，笔画序列为该中文语料中各个汉字的笔画组成的序列，图片序列为该中文语料中各个汉字对应的图片组成的序列。

随即，基于各个中文语料分别对应的语料四元组，可以生成多个样本四元组，组成第一训练数据集，此处，可以将任一中文语料对应的语料四元组直接作为样本四元组，也可以将对任一中文语料对应的语料四元组中的一种或多种元素进行编辑得到的四元组作为样本四元组。样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成，需要说明的是，相较于语料四元组，样本四元组中四个元素并不是一一对应的关系。

通过将任一中文语料以四元组的形式表示，对该中文语料对应的语料四元组中的任意一个或多个元素进行编辑，即可得到对应该中文语料的大量样本四元组，无需进行人工标记，节省了人工标记带来的成本，提高了训练数据的生成效率，而且大量扩充了训练数据，提高了训练数据的丰富性，使得训练出来的中文纠错模型具有较好的纠错效果。

此外，对于任一中文语料对应的语料四元组，还可以基于该中文语料中的相似字，将该相似字替换该中文语料中与其对应的字，并将该中文语料以及替换后的中文语料对应的拼音序列、笔画序列和图片序列组成的四元组，作为该中文语料的相似样本四元组。基于各个中文语料分别对应的多个相似样本四元组，组成第二训练数据集。其中，相似字可以为中文语料中汉字发音相同或相似，或字形相似的汉字。

例如，中文语料为“选了一张比较隐蔽的桌子坐了下来”，“避” 与“蔽”发音相同，将“蔽”替换为“避”，则替换后的中文语料为 “选了一张比较隐避的桌子坐了下来”，并基于替换后的中文语料生成新的四元组，其形式为(替换后的语料的拼音序列，替换后的语料的笔画序列，替换后的语料的图片序列，原始中文语料)。此处，可以从任一中文语料中随机选取一个或多个汉字进行相似字的替换，使得基于一个中文语料可以生成多个相似样本四元组。

在得到第一训练数据集和第二训练数据集之后，将第一训练数据集输入至初始模型，对初始模型进行预训练，得到第一预训练模型，其中，初始模型可以包括三个Transformer编码器和单个Transformer解码器，初始模型中三个编码器分别处理拼音序列、笔画序列和图片序列。通过第一训练数据集对初始模型的预训练，初始模型能够基于拼音序列、笔画序列和图片序列生成中文语料。

然后，结合第一训练数据集和第二训练数据集对预训练得到的第一预训练模型进行精调，得到中文纠错模型。由于第二训练数据集包括多个相似样本四元组，而相似样本四元组是基于包含同音字、音近字或形近字等错别字的语料生成的，即第二训练数据集与实际待纠错的中文文本是类似的，通过结合第一训练数据集和第二训练数据集对第一预训练模型进行精调，第一预训练模型可以针对性对中文语法的错误进行学习，有效地解决了中文的同音字、音近字和形近字的纠错。

本发明实施例提供的方法，基于包括多个样本四元组的第一训练数据集对初始模型进行预训练，得到第一预训练模型，并结合包括多个相似样本四元组的第二训练数据集对第一预训练模型进行精调，得到中文纠错模型，节省了人工标记带来的成本，提高了训练数据的生成效率，大量扩充了训练数据，提高了训练数据的丰富性，使得训练出来的中文纠错模型具有较好的纠错效果，而且有效地解决了中文的同音字、音近字和形近字的纠错。

基于上述实施例，该方法中，在得到中文语料库之后，还可以对中文语料库中的每一中文语料进行预处理，预处理的方法包括以下步骤：

基于预设的规则将任一中文语料中各个汉字、连续的数字或英文字母以及标点符号分别作为单独的词例进行划分，并统计其中所有非汉字的词例的出现的个数，从中选取出预设数量个非汉字词例进行保留，例如，可以将前100个非汉字词例进行保留，并将其他的非汉字词例替换为特殊符号。表1示例了中文语料的预处理过程，如表1所示，通过预处理将中文语料中的标点符号以及连续的英文字母替换为特殊符号￥NONHAN￥。

表1

由于中文纠错模型用于对中文进行纠错，无需处理英文字母和标点符号，通过对中文语料进行预处理，将中文语料中的非汉字词例替换为特殊符号，去除了中文语料中无关的信息，减小了中文纠错模型的计算量，提高模型处理的效率。

对于任一中文语料的图片序列，可以将各个汉字以及预设数量个非汉字词例表示为预设尺寸的黑白图片，例如16×16的白底黑字的图片，将特殊符号表示为预设尺寸的全白图片。表2示例了经过预处理之后的中文语料对应的语料四元组。

表2

基于上述任一实施例，步骤120包括：

基于第二训练数据集对第一预训练模型进行精调，得到第二预训练模型；

基于第三训练数据集对第二预训练模型进行精调，得到中文纠错模型，第三训练数据集是基于第一训练数据和第二训练数据确定的。

具体地，第一预训练模型的精调过程可以包括两个过程，首先基于第二训练数据集对第一预训练模型进行精调，得到第二预训练模型；然后基于第一训练数据集和第二训练数据集，确定第三训练数据集，并基于第三训练数据集对第二预训练模型进行精调，得到中文纠错模型。此处，可以按照预设的比例将第一训练数据集和第二训练数据集进行混合，将混合得到的数据集作为第三训练数据集，例如，随机抽取第一训练数据集中50％的样本四元组，以及第二训练数据集中50％的相似样本四元组，将两者混合得到的四元组集合作为第三训练数据集。

基于第一训练数据集对初始模型进行一次预训练，得到第一预训练模型，并结合第一训练数据集和第二训练数据集对第一预训练模型进行两次精调，得到的中文纠错模型既可以对中文语法本身的知识进行学习，也可以有效地解决了中文的同音字、音近字和形近字的纠错，使得训练得到的中文纠错模型具有较好的纠错效果。

基于上述任一实施例，该方法中，第一训练数据集包括错误样本四元组，错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组；错误样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到的。

具体地，第一训练数据集包括多个错误样本四元组和多个正确样本四元组，其中，正确样本四元组为任一中文语料及其对应的拼音序列、笔画序列和图片序列组成的四元组，错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组。其中，错误拼音序列、错误笔画序列和错误图片序列分别为与对应中文语料的拼音序列、笔画序列和图片序列不同的序列。

在得到任一中文语料对应的语料四元组之后，对该语料四元组中拼音序列、笔画序列和图片序列中的一种或多种进行编辑，可以得到对应该中文语料的多个错误样本四元组。对多个中文语料进行上述操作，可以得到大量错误样本四元组，将大量正确样本四元组和大量错误样本四元组组合得到第一训练样本数据集。

需要说明的是，在构建第一训练数据集中，错误样本四元组包含的错误的元素越多，其在第一训练数据集中所占的比例越小，例如，若构建包含100个数据的第一训练数据集，可以选取10个包含两个错误元素的错误样本四元组，选取5个包含三个错误元素的错误样本四元组。

可选地，在得到中文语料库之后，可以将中文语料库中的所有中文语料按照预设的比例进行分配，选取一部分中文语料用于构建第一训练数据集，另一部分中文语料用于构建第二训练数据集，例如选取 80％的中文语料用于构建第一训练数据集，20％的中文语料用于构建第二训练数据集。

基于上述任一实施例，所述对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑，包括：

和/或，

具体地，为获取错误样本四元组，可以基于任一中文语料对应的语料四元组，对该语料四元组中拼音序列或笔画序列进行编辑，其中，编辑方式可以为删除、替换和调序中的一种或多种；也可以从该语料四元组中的图片序列中选取若干个图片，并对选取的若干个图片的像素值随机进行更改和/或替换。

例如，从用于构建第一训练数据集的中文语料中选取10％的第一中文语料，将任一第一中文语料的语料四元组中的拼音序列进行编辑，例如从拼音序列中随机选取一个片段进行删除、替换或调序，并保持笔画序列和图片序列不变，得到对应该第一中文语料的多个错误样本四元组，其形式为(错误拼音序列，正确笔画序列，正确图片序列，第一中文语料)。

从用于构建第一训练数据集的中文语料中选取10％的第二中文语料，将任一第二中文语料的语料四元组中的笔画序列进行编辑，例如从笔画序列中随机选取一个片段进行删除、替换或调序，并保持拼音序列和图片序列不变，得到对应该第二中文语料的多个错误样本四元组，其形式为(正确拼音序列，错误笔画序列，正确图片序列，第二中文语料)。

从用于构建第一训练数据集的中文语料中选取10％的第三中文语料，将任一第三中文语料的语料四元组中的图片序列进行编辑，例如从图片序列中随机选取一张图片，并对该图片的像素值进行随机替换或更改，并保持拼音序列和笔画序列不变，得到对应该第三中文语料的多个错误样本四元组，其形式为(正确拼音序列，正确笔画序列，错误图片序列，第三中文语料)。

在此基础上，将用于构建第一训练数据集的中文语料中剩余的 70％的第四中文语料对应的语料四元组，作为多个正确样本四元组，其形式为(正确拼音序列，正确笔画序列，正确图片序列，第四中文语料)。综合上述步骤得到的多个错误样本四元组和多个正确样本四元组，构建第一训练数据集。

基于上述任一实施例，该方法中，中文纠错模型包括三个编码器和一个解码器，三个编码器分别用于对拼音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片特征向量进行编码，解码器用于对拼音特征编码、笔画特征编码和图片特征编码进行解码，并生成中文纠正结果。

具体地，训练得到的中文纠错模型包括三个编码器和一个解码器，其中，编码器可以为Transformer编码器，解码器可以为Transformer 解码器。将待纠错的文本输入至中文纠错模型，由中文纠错模型中的三个编码器分别对该文本的拼音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片特征向量进行编码，得到该文本的拼音特征编码、笔画特征编码和图片特征编码，通过解码器对拼音特征编码、笔画特征编码和图片特征编码进行解码，并输出该文本的中文纠正结果。

此处，中文纠错模块还包括拼音向量层、笔画向量层和图片向量层，拼音向量层、笔画向量层和图片向量层分别用于对拼音序列、笔画序列和图片序列进行向量表示，输出拼音向量、笔画向量和图片向量。其中，拼音向量层和笔画向量层可以是基于Skip-Gram模型构建的，图片向量层可以是ResNet模型构建的，可选地，Skip-Gram模型中词向量的维度可以为300，上下文窗口可以为5。

基于上述任一实施例，图2为本发明实施例提供的中文纠错方法的流程示意图，如图2所示，该中文纠错方法包括：

步骤210，确定待纠错的文本；

步骤220，将文本输入至中文纠错模型，得到中文纠错模型输出的文本的中文纠正结果；

其中，中文纠错模型是基于上述任一实施例提供的的训练方法训练得到的。

具体地，待纠错的文本即需要进行语法错误检测和语法错误纠正的文本，此处的文本可以是用户直接输入的文本，也可以是对用户输入的图像进行OCR(OpticalCharacter Recognition，光学字符识别) 得到的文本，还可以是对用户输入的语音进行语音识别得到的文本，本发明实施例对此不作具体限定。

在得到待纠错的文本之后，将待纠错的文本输入至中文纠错模型，由中文纠错模型对输入的文本进行语法错误检测和语法错误纠正，并输出该文本中的中文纠正结果。

其中，中文纠错模型是基于上述任一实施例提供的的训练方法训练得到的，中文纠错模型的训练过程参见前述实施例，本发明实施例在此不再赘述。

基于上述任一实施例，图3为本发明实施例提供的中文纠错模型的训练装置的结构示意图，如图3所示，该训练装置包括：

预训练单元310，用于基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；

精调单元320，用于基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调，得到中文纠错模型；

基于上述任一实施例，精调单元320用于：

基于上述任一实施例，所述第一训练数据集包括错误样本四元组，所述错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组；所述错误样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到的。

和/或，

基于上述任一实施例，所述中文纠错模型包括三个编码器和一个解码器，所述三个编码器分别用于对拼音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片特征向量进行编码，所述解码器用于对拼音特征编码、笔画特征编码和图片特征编码进行解码，并生成中文纠正结果。

基于上述任一实施例，图4为本发明实施例提供的中文纠错装置的结构示意图，如图4所示，该中文纠错装置包括：

文本确定单元410，用于确定待纠错的文本；

中文纠错单元420，用于将所述文本输入至中文纠错模型，得到所述中文纠错模型输出的所述文本的中文纠正结果；

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行如下方法：基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；基于第一训练数据集和第二训练数据集对第一预训练模型进行精调，得到中文纠错模型；第一训练数据集包括多个样本四元组，样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；第二训练数据集包括多个相似样本四元组，相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。

此外，处理器510可以调用存储器530中的逻辑指令，以执行如下方法：确定待纠错的文本；将文本输入至中文纠错模型，得到中文纠错模型输出的文本的中文纠正结果；其中，中文纠错模型是基于上述任一实施例提供的的训练方法训练得到的。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；基于第一训练数据集和第二训练数据集对第一预训练模型进行精调，得到中文纠错模型；第一训练数据集包括多个样本四元组，样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；第二训练数据集包括多个相似样本四元组，相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：确定待纠错的文本；将文本输入至中文纠错模型，得到中文纠错模型输出的文本的中文纠正结果；其中，中文纠错模型是基于上述任一实施例提供的的训练方法训练得到的。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；基于第一训练数据集和第二训练数据集对第一预训练模型进行精调，得到中文纠错模型；第一训练数据集包括多个样本四元组，样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；第二训练数据集包括多个相似样本四元组，相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待纠错的文本；将文本输入至中文纠错模型，得到中文纠错模型输出的文本的中文纠正结果；其中，中文纠错模型是基于上述任一实施例提供的的训练方法训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中文纠错模型的训练方法，其特征在于，包括：

所述第一训练数据集包括多个样本四元组，所述样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；所述第二训练数据集包括多个相似样本四元组，所述相似样本四元组是基于任一中文语料中的相似字对所述任一中文语料中与其对应的字进行替换得到的，所述任一中文语料中的相似字包括所述任一中文语料中发音相同的汉字、发音相似的汉字、字形相似的汉字中的至少一种；

所述基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调，得到中文纠错模型，包括：

2.根据权利要求1所述的中文纠错模型的训练方法，其特征在于，所述第一训练数据集包括错误样本四元组，所述错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组；所述错误样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到的。

3.根据权利要求2所述的中文纠错模型的训练方法，其特征在于，所述对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑，包括：

和/或，

4.根据权利要求1所述的中文纠错模型的训练方法，其特征在于，所述中文纠错模型包括三个编码器和一个解码器，所述三个编码器分别用于对拼音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片特征向量进行编码，所述解码器用于对拼音特征编码、笔画特征编码和图片特征编码进行解码，并生成中文纠正结果。

5.一种中文纠错方法，其特征在于，包括：

确定待纠错的文本；

其中，所述中文纠错模型是基于权利要求1-4任一项所述的训练方法训练得到的。

6.一种中文纠错模型的训练装置，其特征在于，包括：

所述精调单元具体用于：

7.一种中文纠错装置，其特征在于，包括：

文本确定单元，用于确定待纠错的文本；

其中，所述中文纠错模型是基于权利要求1至4任一项所述的训练方法训练得到的。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的中文纠错模型的训练方法或如权利要求5所述的中文纠错方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述的中文纠错模型的训练方法或如权利要求5所述的中文纠错方法的步骤。