CN112329447B - 中文纠错模型的训练方法、中文纠错方法及装置 - Google Patents
中文纠错模型的训练方法、中文纠错方法及装置 Download PDFInfo
- Publication number
- CN112329447B CN112329447B CN202011180074.XA CN202011180074A CN112329447B CN 112329447 B CN112329447 B CN 112329447B CN 202011180074 A CN202011180074 A CN 202011180074A CN 112329447 B CN112329447 B CN 112329447B
- Authority
- CN
- China
- Prior art keywords
- chinese
- training
- training data
- error correction
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 251
- 238000012937 correction Methods 0.000 title claims abstract description 152
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000013598 vector Substances 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 239000000463 material Substances 0.000 description 16
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供一种中文纠错模型的训练方法、中文纠错方法及装置,所述训练方法包括:基于第一训练数据集对初始模型进行预训练,得到第一预训练模型;基于第一训练数据集和第二训练数据集对第一预训练模型进行精调,得到中文纠错模型;第一训练数据集包括多个样本四元组,样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;第二训练数据集包括多个相似样本四元组,相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。本发明实施例提供的中文纠错模型的训练方法、中文纠错方法及装置,提高了训练数据的生成效率和丰富性,使得训练出来的中文纠错模型纠错效果较好。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种中文纠错模型 的训练方法、中文纠错方法及装置。
背景技术
中文纠错是自然语言处理中一项非常重要的课题,纠错模型将文 本潜在的语法错误自动找出并给予纠正,并保持纠正后的语义不变, 纠错模型不但可以提升文本的质量,还可以使程序中的下游模块更加 易于处理文本。
然而,纠错模型的构建面临着一些挑战,当前纠错模型的构建往 往参考了机器翻译的训练方法。机器翻译模型的输入是一种语言的原 文句子,输出则是另一种语言且语义保持的译文句子;类似地,语法 纠错模型的输入是语法可能错误的句子,输出则是语法正确且语义保 持不变的句子。不仅如此,机器翻译模型往往需要大量的双语平行语料,语法纠错模型的构建中也需要许多包括语法可能错误的句子以及 语法正确的句子的平行语料对作为训练样本,而获取这些数据往往需 要高昂的人工打标签的成本费用。因此,如何在平行语料较为稀缺的 情况下训练出效果较好的模型,是智能纠错的第一个挑战。
此外,现有技术中对于智能纠错的方法主要集中在英文语言的研 究方向上,英文的语法错误主要包括介词,定冠词,单词拼写错误, 动词(例如,时态、第三人称加s等),名词单复数,英文符号等方 面。而英文和中文的语法错误有着很大的差别,中文语法错误主要集 中在错别字的误用,因为拼音输入法和五笔输入法会分别导致相同或相似音(例如,联连链等)和偏旁部首字形相似(例如,桅姽脆诡跪 等)的字和词的使用错误。因此,如何根据中文语言的特殊性构建纠 错模型是第二个需要解决的问题。
发明内容
本发明实施例提供一种中文纠错模型的训练方法、中文纠错方法 及装置,用以解决现有技术中人为标记成本高、纠错模型对中文的适 应性较差的缺陷。
本发明实施例提供一种中文纠错模型的训练方法,包括:
基于第一训练数据集对初始模型进行预训练,得到第一预训练模 型;
基于所述第一训练数据集和第二训练数据集对所述第一预训练 模型进行精调,得到中文纠错模型;
所述第一训练数据集包括多个样本四元组,所述样本四元组是由 中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述 第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基 于任一中文语料中的相似字对所述任一中文语料中与其对应的字进 行替换得到的。
根据本发明一个实施例的中文纠错模型的训练方法,所述基于所 述第一训练数据集和第二训练数据集对所述第一预训练模型进行精 调,得到中文纠错模型,包括:
基于所述第二训练数据集对所述第一预训练模型进行精调,得到 第二预训练模型;
基于第三训练数据集对所述第二预训练模型进行精调,得到所述 中文纠错模型,所述第三训练数据集是基于所述第一训练数据和所述 第二训练数据确定的。
根据本发明一个实施例的中文纠错模型的训练方法,所述第一训 练数据集包括错误样本四元组,所述错误样本四元组为包括错误拼音 序列、错误笔画序列和错误图片序列中至少一种的四元组;所述错误 样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片 序列中的至少一种进行编辑得到的。
根据本发明一个实施例的中文纠错模型的训练方法,所述对任一 中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编 辑,包括:
对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换 和调序中的至少一项进行编辑;
和/或,
对所述任一中文语料对应的图片序列中的若干个图片的像素值 随机进行更改和/或替换。
根据本发明一个实施例的中文纠错模型的训练方法,所述中文纠 错模型包括三个编码器和一个解码器,所述三个编码器分别用于对拼 音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片 特征向量进行编码,所述解码器用于对拼音特征编码、笔画特征编码 和图片特征编码进行解码,并生成中文纠正结果。
本发明实施例提供一种中文纠错方法,包括:
确定待纠错的文本;
将所述文本输入至中文纠错模型,得到所述中文纠错模型输出的 所述文本的中文纠正结果;
其中,所述中文纠错模型是基于上述任一实施例提供的训练方法 训练得到的。
本发明实施例提供还一种中文纠错模型的训练装置,包括:
预训练单元,用于基于第一训练数据集对初始模型进行预训练, 得到第一预训练模型;
精调单元,用于基于所述第一训练数据集和第二训练数据集对所 述第一预训练模型进行精调,得到中文纠错模型;
所述第一训练数据集包括多个样本四元组,所述样本四元组是由 中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述 第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基 于任一中文语料中的相似字对所述任一中文语料中与其对应的字进 行替换得到的。
本发明实施例提供还一种中文纠错装置,包括:
文本确定单元,用于确定待纠错的文本;
中文纠错单元,用于将所述文本输入至中文纠错模型,得到所述 中文纠错模型输出的所述文本的中文纠正结果;
其中,所述中文纠错模型是基于上述任一实施例提供的训练方法 训练得到的。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储 在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述 程序时实现如上述任一种所述中文纠错模型的训练方法或中文纠错 方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储 有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述 中文纠错模型的训练方法或中文纠错方法的步骤。
本发明实施例提供的一种中文纠错模型的训练方法、中文纠错方 法及装置,基于包括多个样本四元组的第一训练数据集对初始模型进 行预训练,得到第一预训练模型,并结合包括多个相似样本四元组的第二训练数据集对第一预训练模型进行精调,得到中文纠错模型,节 省了人工标记带来的成本,提高了训练数据的生成效率,大量扩充了 训练数据,提高了训练数据的丰富性,使得训练出来的中文纠错模型 具有较好的纠错效果,而且有效地解决了中文的同音字、音近字和形 近字的纠错。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显 而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图获得其他的附图。
图1为本发明实施例提供的中文纠错模型的训练方法的流程示 意图;
图2为本发明实施例提供的中文纠错方法的流程示意图;
图3为本发明实施例提供的中文纠错模型的训练装置的结构示 意图;
图4为本发明实施例提供的中文纠错装置的结构示意图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结 合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的中文纠错模型的训练方法的流程示 意图,如图1所示,该方法包括:
步骤110,基于第一训练数据集对初始模型进行预训练,得到第 一预训练模型;
步骤120,基于第一训练数据集和第二训练数据集对第一预训练 模型进行精调,得到中文纠错模型;
第一训练数据集包括多个样本四元组,样本四元组是由中文语料、 拼音序列、笔画序列以及图片序列四个元素组成的;第二训练数据集 包括多个相似样本四元组,相似样本四元组是基于任一中文语料中的 相似字对该中文语料中与其对应的字进行替换得到的。
具体地,为获取中文纠错模型的训练数据,首先收集大量中文语 料,例如可以从中文***或新闻等网络资源中得到大量中文语料, 构建中文语料库,将中文语料库中任一中文语料以语料四元组的形式 进行表示,语料四元组包括该中文语料及其对应的拼音序列、笔画序 列以及图片序列。其中,拼音序列为该中文语料中各个汉字的拼音组成的序列,笔画序列为该中文语料中各个汉字的笔画组成的序列,图 片序列为该中文语料中各个汉字对应的图片组成的序列。
随即,基于各个中文语料分别对应的语料四元组,可以生成多个 样本四元组,组成第一训练数据集,此处,可以将任一中文语料对应 的语料四元组直接作为样本四元组,也可以将对任一中文语料对应的 语料四元组中的一种或多种元素进行编辑得到的四元组作为样本四 元组。样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成,需要说明的是,相较于语料四元组,样本四元组中四 个元素并不是一一对应的关系。
通过将任一中文语料以四元组的形式表示,对该中文语料对应的 语料四元组中的任意一个或多个元素进行编辑,即可得到对应该中文 语料的大量样本四元组,无需进行人工标记,节省了人工标记带来的 成本,提高了训练数据的生成效率,而且大量扩充了训练数据,提高 了训练数据的丰富性,使得训练出来的中文纠错模型具有较好的纠错效果。
此外,对于任一中文语料对应的语料四元组,还可以基于该中文 语料中的相似字,将该相似字替换该中文语料中与其对应的字,并将 该中文语料以及替换后的中文语料对应的拼音序列、笔画序列和图片 序列组成的四元组,作为该中文语料的相似样本四元组。基于各个中 文语料分别对应的多个相似样本四元组,组成第二训练数据集。其中, 相似字可以为中文语料中汉字发音相同或相似,或字形相似的汉字。
例如,中文语料为“选了一张比较隐蔽的桌子坐了下来”,“避” 与“蔽”发音相同,将“蔽”替换为“避”,则替换后的中文语料为 “选了一张比较隐避的桌子坐了下来”,并基于替换后的中文语料生 成新的四元组,其形式为(替换后的语料的拼音序列,替换后的语料的笔画序列,替换后的语料的图片序列,原始中文语料)。此处,可 以从任一中文语料中随机选取一个或多个汉字进行相似字的替换,使 得基于一个中文语料可以生成多个相似样本四元组。
在得到第一训练数据集和第二训练数据集之后,将第一训练数据 集输入至初始模型,对初始模型进行预训练,得到第一预训练模型, 其中,初始模型可以包括三个Transformer编码器和单个Transformer解码器,初始模型中三个编码器分别处理拼音序列、笔画序列和图片 序列。通过第一训练数据集对初始模型的预训练,初始模型能够基于拼音序列、笔画序列和图片序列生成中文语料。
然后,结合第一训练数据集和第二训练数据集对预训练得到的第 一预训练模型进行精调,得到中文纠错模型。由于第二训练数据集包 括多个相似样本四元组,而相似样本四元组是基于包含同音字、音近 字或形近字等错别字的语料生成的,即第二训练数据集与实际待纠错 的中文文本是类似的,通过结合第一训练数据集和第二训练数据集对第一预训练模型进行精调,第一预训练模型可以针对性对中文语法的 错误进行学习,有效地解决了中文的同音字、音近字和形近字的纠错。
本发明实施例提供的方法,基于包括多个样本四元组的第一训练 数据集对初始模型进行预训练,得到第一预训练模型,并结合包括多 个相似样本四元组的第二训练数据集对第一预训练模型进行精调,得 到中文纠错模型,节省了人工标记带来的成本,提高了训练数据的生成效率,大量扩充了训练数据,提高了训练数据的丰富性,使得训练 出来的中文纠错模型具有较好的纠错效果,而且有效地解决了中文的 同音字、音近字和形近字的纠错。
基于上述实施例,该方法中,在得到中文语料库之后,还可以对 中文语料库中的每一中文语料进行预处理,预处理的方法包括以下步 骤:
基于预设的规则将任一中文语料中各个汉字、连续的数字或英文 字母以及标点符号分别作为单独的词例进行划分,并统计其中所有非 汉字的词例的出现的个数,从中选取出预设数量个非汉字词例进行保 留,例如,可以将前100个非汉字词例进行保留,并将其他的非汉字词例替换为特殊符号。表1示例了中文语料的预处理过程,如表1所 示,通过预处理将中文语料中的标点符号以及连续的英文字母替换为特殊符号¥NONHAN¥。
表1
由于中文纠错模型用于对中文进行纠错,无需处理英文字母和标 点符号,通过对中文语料进行预处理,将中文语料中的非汉字词例替 换为特殊符号,去除了中文语料中无关的信息,减小了中文纠错模型 的计算量,提高模型处理的效率。
对于任一中文语料的图片序列,可以将各个汉字以及预设数量个 非汉字词例表示为预设尺寸的黑白图片,例如16×16的白底黑字的 图片,将特殊符号表示为预设尺寸的全白图片。表2示例了经过预处 理之后的中文语料对应的语料四元组。
表2
基于上述任一实施例,步骤120包括:
基于第二训练数据集对第一预训练模型进行精调,得到第二预训 练模型;
基于第三训练数据集对第二预训练模型进行精调,得到中文纠错 模型,第三训练数据集是基于第一训练数据和第二训练数据确定的。
具体地,第一预训练模型的精调过程可以包括两个过程,首先基 于第二训练数据集对第一预训练模型进行精调,得到第二预训练模型; 然后基于第一训练数据集和第二训练数据集,确定第三训练数据集, 并基于第三训练数据集对第二预训练模型进行精调,得到中文纠错模 型。此处,可以按照预设的比例将第一训练数据集和第二训练数据集进行混合,将混合得到的数据集作为第三训练数据集,例如,随机抽 取第一训练数据集中50%的样本四元组,以及第二训练数据集中50% 的相似样本四元组,将两者混合得到的四元组集合作为第三训练数据 集。
基于第一训练数据集对初始模型进行一次预训练,得到第一预训 练模型,并结合第一训练数据集和第二训练数据集对第一预训练模型 进行两次精调,得到的中文纠错模型既可以对中文语法本身的知识进 行学习,也可以有效地解决了中文的同音字、音近字和形近字的纠错, 使得训练得到的中文纠错模型具有较好的纠错效果。
基于上述任一实施例,该方法中,第一训练数据集包括错误样本 四元组,错误样本四元组为包括错误拼音序列、错误笔画序列和错误 图片序列中至少一种的四元组;错误样本四元组是通过对任一中文语 料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到 的。
具体地,第一训练数据集包括多个错误样本四元组和多个正确样 本四元组,其中,正确样本四元组为任一中文语料及其对应的拼音序 列、笔画序列和图片序列组成的四元组,错误样本四元组为包括错误 拼音序列、错误笔画序列和错误图片序列中至少一种的四元组。其中, 错误拼音序列、错误笔画序列和错误图片序列分别为与对应中文语料的拼音序列、笔画序列和图片序列不同的序列。
在得到任一中文语料对应的语料四元组之后,对该语料四元组中 拼音序列、笔画序列和图片序列中的一种或多种进行编辑,可以得到 对应该中文语料的多个错误样本四元组。对多个中文语料进行上述操 作,可以得到大量错误样本四元组,将大量正确样本四元组和大量错 误样本四元组组合得到第一训练样本数据集。
需要说明的是,在构建第一训练数据集中,错误样本四元组包含 的错误的元素越多,其在第一训练数据集中所占的比例越小,例如, 若构建包含100个数据的第一训练数据集,可以选取10个包含两个错误元素的错误样本四元组,选取5个包含三个错误元素的错误样本 四元组。
可选地,在得到中文语料库之后,可以将中文语料库中的所有中 文语料按照预设的比例进行分配,选取一部分中文语料用于构建第一 训练数据集,另一部分中文语料用于构建第二训练数据集,例如选取 80%的中文语料用于构建第一训练数据集,20%的中文语料用于构建 第二训练数据集。
基于上述任一实施例,所述对任一中文语料对应的拼音序列、笔 画序列和图片序列中的至少一种进行编辑,包括:
对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换 和调序中的至少一项进行编辑;
和/或,
对所述任一中文语料对应的图片序列中的若干个图片的像素值 随机进行更改和/或替换。
具体地,为获取错误样本四元组,可以基于任一中文语料对应的 语料四元组,对该语料四元组中拼音序列或笔画序列进行编辑,其中, 编辑方式可以为删除、替换和调序中的一种或多种;也可以从该语料 四元组中的图片序列中选取若干个图片,并对选取的若干个图片的像 素值随机进行更改和/或替换。
例如,从用于构建第一训练数据集的中文语料中选取10%的第一 中文语料,将任一第一中文语料的语料四元组中的拼音序列进行编辑, 例如从拼音序列中随机选取一个片段进行删除、替换或调序,并保持 笔画序列和图片序列不变,得到对应该第一中文语料的多个错误样本 四元组,其形式为(错误拼音序列,正确笔画序列,正确图片序列,第一中文语料)。
从用于构建第一训练数据集的中文语料中选取10%的第二中文 语料,将任一第二中文语料的语料四元组中的笔画序列进行编辑,例 如从笔画序列中随机选取一个片段进行删除、替换或调序,并保持拼 音序列和图片序列不变,得到对应该第二中文语料的多个错误样本四 元组,其形式为(正确拼音序列,错误笔画序列,正确图片序列,第二中文语料)。
从用于构建第一训练数据集的中文语料中选取10%的第三中文 语料,将任一第三中文语料的语料四元组中的图片序列进行编辑,例 如从图片序列中随机选取一张图片,并对该图片的像素值进行随机替 换或更改,并保持拼音序列和笔画序列不变,得到对应该第三中文语 料的多个错误样本四元组,其形式为(正确拼音序列,正确笔画序列,错误图片序列,第三中文语料)。
在此基础上,将用于构建第一训练数据集的中文语料中剩余的 70%的第四中文语料对应的语料四元组,作为多个正确样本四元组, 其形式为(正确拼音序列,正确笔画序列,正确图片序列,第四中文 语料)。综合上述步骤得到的多个错误样本四元组和多个正确样本四 元组,构建第一训练数据集。
基于上述任一实施例,该方法中,中文纠错模型包括三个编码器 和一个解码器,三个编码器分别用于对拼音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片特征向量进行编码,解码器 用于对拼音特征编码、笔画特征编码和图片特征编码进行解码,并生 成中文纠正结果。
具体地,训练得到的中文纠错模型包括三个编码器和一个解码器, 其中,编码器可以为Transformer编码器,解码器可以为Transformer 解码器。将待纠错的文本输入至中文纠错模型,由中文纠错模型中的 三个编码器分别对该文本的拼音序列的拼音特征向量、笔画序列的笔 画特征向量和图片序列的图片特征向量进行编码,得到该文本的拼音 特征编码、笔画特征编码和图片特征编码,通过解码器对拼音特征编码、笔画特征编码和图片特征编码进行解码,并输出该文本的中文纠 正结果。
此处,中文纠错模块还包括拼音向量层、笔画向量层和图片向量 层,拼音向量层、笔画向量层和图片向量层分别用于对拼音序列、笔 画序列和图片序列进行向量表示,输出拼音向量、笔画向量和图片向 量。其中,拼音向量层和笔画向量层可以是基于Skip-Gram模型构建 的,图片向量层可以是ResNet模型构建的,可选地,Skip-Gram模型 中词向量的维度可以为300,上下文窗口可以为5。
基于上述任一实施例,图2为本发明实施例提供的中文纠错方法 的流程示意图,如图2所示,该中文纠错方法包括:
步骤210,确定待纠错的文本;
步骤220,将文本输入至中文纠错模型,得到中文纠错模型输出 的文本的中文纠正结果;
其中,中文纠错模型是基于上述任一实施例提供的的训练方法训 练得到的。
具体地,待纠错的文本即需要进行语法错误检测和语法错误纠正 的文本,此处的文本可以是用户直接输入的文本,也可以是对用户输 入的图像进行OCR(OpticalCharacter Recognition,光学字符识别) 得到的文本,还可以是对用户输入的语音进行语音识别得到的文本, 本发明实施例对此不作具体限定。
在得到待纠错的文本之后,将待纠错的文本输入至中文纠错模型, 由中文纠错模型对输入的文本进行语法错误检测和语法错误纠正,并 输出该文本中的中文纠正结果。
其中,中文纠错模型是基于上述任一实施例提供的的训练方法训 练得到的,中文纠错模型的训练过程参见前述实施例,本发明实施例 在此不再赘述。
基于上述任一实施例,图3为本发明实施例提供的中文纠错模型 的训练装置的结构示意图,如图3所示,该训练装置包括:
预训练单元310,用于基于第一训练数据集对初始模型进行预训 练,得到第一预训练模型;
精调单元320,用于基于所述第一训练数据集和第二训练数据集 对所述第一预训练模型进行精调,得到中文纠错模型;
所述第一训练数据集包括多个样本四元组,所述样本四元组是由 中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述 第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基 于任一中文语料中的相似字对所述任一中文语料中与其对应的字进 行替换得到的。
基于上述任一实施例,精调单元320用于:
基于所述第二训练数据集对所述第一预训练模型进行精调,得到 第二预训练模型;
基于第三训练数据集对所述第二预训练模型进行精调,得到所述 中文纠错模型,所述第三训练数据集是基于所述第一训练数据和所述 第二训练数据确定的。
基于上述任一实施例,所述第一训练数据集包括错误样本四元组, 所述错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片 序列中至少一种的四元组;所述错误样本四元组是通过对任一中文语 料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到 的。
基于上述任一实施例,所述对任一中文语料对应的拼音序列、笔 画序列和图片序列中的至少一种进行编辑,包括:
对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换 和调序中的至少一项进行编辑;
和/或,
对所述任一中文语料对应的图片序列中的若干个图片的像素值 随机进行更改和/或替换。
基于上述任一实施例,所述中文纠错模型包括三个编码器和一个 解码器,所述三个编码器分别用于对拼音序列的拼音特征向量、笔画 序列的笔画特征向量和图片序列的图片特征向量进行编码,所述解码 器用于对拼音特征编码、笔画特征编码和图片特征编码进行解码,并生成中文纠正结果。
基于上述任一实施例,图4为本发明实施例提供的中文纠错装置 的结构示意图,如图4所示,该中文纠错装置包括:
文本确定单元410,用于确定待纠错的文本;
中文纠错单元420,用于将所述文本输入至中文纠错模型,得到 所述中文纠错模型输出的所述文本的中文纠正结果;
其中,中文纠错模型是基于上述任一实施例提供的的训练方法训 练得到的。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电 子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510, 通信接口520,存储器530通过通信总线540完成相互间的通信。处 理器510可以调用存储器530中的逻辑指令,以执行如下方法:基于 第一训练数据集对初始模型进行预训练,得到第一预训练模型;基于 第一训练数据集和第二训练数据集对第一预训练模型进行精调,得到 中文纠错模型;第一训练数据集包括多个样本四元组,样本四元组是 由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;第二训练数据集包括多个相似样本四元组,相似样本四元组是基于任一 中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。
此外,处理器510可以调用存储器530中的逻辑指令,以执行如 下方法:确定待纠错的文本;将文本输入至中文纠错模型,得到中文 纠错模型输出的文本的中文纠正结果;其中,中文纠错模型是基于上 述任一实施例提供的的训练方法训练得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品 包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机 程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执 行上述各方法实施例所提供的方法,例如包括:基于第一训练数据集 对初始模型进行预训练,得到第一预训练模型;基于第一训练数据集和第二训练数据集对第一预训练模型进行精调,得到中文纠错模型; 第一训练数据集包括多个样本四元组,样本四元组是由中文语料、拼 音序列、笔画序列以及图片序列四个元素组成的;第二训练数据集包 括多个相似样本四元组,相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品 包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机 程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执 行上述各方法实施例所提供的方法,例如包括:确定待纠错的文本; 将文本输入至中文纠错模型,得到中文纠错模型输出的文本的中文纠正结果;其中,中文纠错模型是基于上述任一实施例提供的的训练方 法训练得到的。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储 有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施 例提供的方法,例如包括:基于第一训练数据集对初始模型进行预训 练,得到第一预训练模型;基于第一训练数据集和第二训练数据集对第一预训练模型进行精调,得到中文纠错模型;第一训练数据集包括 多个样本四元组,样本四元组是由中文语料、拼音序列、笔画序列以 及图片序列四个元素组成的;第二训练数据集包括多个相似样本四元 组,相似样本四元组是基于任一中文语料中的相似字对该中文语料中 与其对应的字进行替换得到的。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储 有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施 例提供的方法,例如包括:确定待纠错的文本;将文本输入至中文纠 错模型,得到中文纠错模型输出的文本的中文纠正结果;其中,中文 纠错模型是基于上述任一实施例提供的的训练方法训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所 述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。
Claims (9)
1.一种中文纠错模型的训练方法,其特征在于,包括:
基于第一训练数据集对初始模型进行预训练,得到第一预训练模型;
基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调,得到中文纠错模型;
所述第一训练数据集包括多个样本四元组,所述样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基于任一中文语料中的相似字对所述任一中文语料中与其对应的字进行替换得到的,所述任一中文语料中的相似字包括所述任一中文语料中发音相同的汉字、发音相似的汉字、字形相似的汉字中的至少一种;
所述基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调,得到中文纠错模型,包括:
基于所述第二训练数据集对所述第一预训练模型进行精调,得到第二预训练模型;
基于第三训练数据集对所述第二预训练模型进行精调,得到所述中文纠错模型,所述第三训练数据集是基于所述第一训练数据和所述第二训练数据确定的。
2.根据权利要求1所述的中文纠错模型的训练方法,其特征在于,所述第一训练数据集包括错误样本四元组,所述错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组;所述错误样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到的。
3.根据权利要求2所述的中文纠错模型的训练方法,其特征在于,所述对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑,包括:
对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换和调序中的至少一项进行编辑;
和/或,
对所述任一中文语料对应的图片序列中的若干个图片的像素值随机进行更改和/或替换。
4.根据权利要求1所述的中文纠错模型的训练方法,其特征在于,所述中文纠错模型包括三个编码器和一个解码器,所述三个编码器分别用于对拼音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片特征向量进行编码,所述解码器用于对拼音特征编码、笔画特征编码和图片特征编码进行解码,并生成中文纠正结果。
5.一种中文纠错方法,其特征在于,包括:
确定待纠错的文本;
将所述文本输入至中文纠错模型,得到所述中文纠错模型输出的所述文本的中文纠正结果;
其中,所述中文纠错模型是基于权利要求1-4任一项所述的训练方法训练得到的。
6.一种中文纠错模型的训练装置,其特征在于,包括:
预训练单元,用于基于第一训练数据集对初始模型进行预训练,得到第一预训练模型;
精调单元,用于基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调,得到中文纠错模型;
所述第一训练数据集包括多个样本四元组,所述样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基于任一中文语料中的相似字对所述任一中文语料中与其对应的字进行替换得到的,所述任一中文语料中的相似字包括所述任一中文语料中发音相同的汉字、发音相似的汉字、字形相似的汉字中的至少一种;
所述精调单元具体用于:
基于所述第二训练数据集对所述第一预训练模型进行精调,得到第二预训练模型;
基于第三训练数据集对所述第二预训练模型进行精调,得到所述中文纠错模型,所述第三训练数据集是基于所述第一训练数据和所述第二训练数据确定的。
7.一种中文纠错装置,其特征在于,包括:
文本确定单元,用于确定待纠错的文本;
中文纠错单元,用于将所述文本输入至中文纠错模型,得到所述中文纠错模型输出的所述文本的中文纠正结果;
其中,所述中文纠错模型是基于权利要求1至4任一项所述的训练方法训练得到的。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的中文纠错模型的训练方法或如权利要求5所述的中文纠错方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述的中文纠错模型的训练方法或如权利要求5所述的中文纠错方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011180074.XA CN112329447B (zh) | 2020-10-29 | 2020-10-29 | 中文纠错模型的训练方法、中文纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011180074.XA CN112329447B (zh) | 2020-10-29 | 2020-10-29 | 中文纠错模型的训练方法、中文纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329447A CN112329447A (zh) | 2021-02-05 |
CN112329447B true CN112329447B (zh) | 2024-03-26 |
Family
ID=74297832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011180074.XA Active CN112329447B (zh) | 2020-10-29 | 2020-10-29 | 中文纠错模型的训练方法、中文纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329447B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560451B (zh) * | 2021-02-20 | 2021-05-14 | 京华信息科技股份有限公司 | 一种自动生成训练数据的错别字校对方法及装置 |
CN113408535B (zh) * | 2021-05-25 | 2023-09-26 | 浙江大学 | 一种基于中文字符级特征和语言模型的ocr纠错方法 |
CN113435180A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN113642316B (zh) * | 2021-07-28 | 2023-11-28 | 平安国际智慧城市科技股份有限公司 | 中文文本纠错方法、装置、电子设备及存储介质 |
CN116227468B (zh) * | 2023-01-06 | 2023-10-31 | 杭州健海科技有限公司 | 基于拼音转写翻译的语音识别模型纠错训练方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874174A (zh) * | 2018-05-29 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种文本纠错方法、装置以及相关设备 |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110232191A (zh) * | 2019-06-17 | 2019-09-13 | ***科技(杭州)有限公司 | 自动文本查错方法 |
CN111310447A (zh) * | 2020-03-18 | 2020-06-19 | 科大讯飞股份有限公司 | 语法纠错方法、装置、电子设备和存储介质 |
CN111523306A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和*** |
CN111639495A (zh) * | 2020-04-28 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 平行语料生成方法、装置、设备及存储介质 |
CN111767731A (zh) * | 2020-07-09 | 2020-10-13 | 北京猿力未来科技有限公司 | 语法纠错模型的训练方法及装置、语法纠错方法及装置 |
-
2020
- 2020-10-29 CN CN202011180074.XA patent/CN112329447B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874174A (zh) * | 2018-05-29 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种文本纠错方法、装置以及相关设备 |
CN111523306A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和*** |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110232191A (zh) * | 2019-06-17 | 2019-09-13 | ***科技(杭州)有限公司 | 自动文本查错方法 |
CN111310447A (zh) * | 2020-03-18 | 2020-06-19 | 科大讯飞股份有限公司 | 语法纠错方法、装置、电子设备和存储介质 |
CN111639495A (zh) * | 2020-04-28 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 平行语料生成方法、装置、设备及存储介质 |
CN111767731A (zh) * | 2020-07-09 | 2020-10-13 | 北京猿力未来科技有限公司 | 语法纠错模型的训练方法及装置、语法纠错方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112329447A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329447B (zh) | 中文纠错模型的训练方法、中文纠错方法及装置 | |
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN101133411B (zh) | 非罗马字符的容错罗马化输入方法 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及*** | |
CN101002198A (zh) | 用于非罗马字符和字的拼写校正***和方法 | |
CN113408535B (zh) | 一种基于中文字符级特征和语言模型的ocr纠错方法 | |
CN112287696B (zh) | 译文后编辑方法、装置、电子设备和存储介质 | |
CN111061861A (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN111581367A (zh) | 一种题目录入的方法和*** | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、***、设备及介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
Tymoshenko et al. | Real-Time Ukrainian Text Recognition and Voicing. | |
Kesiman et al. | A model for posttransliteration suggestion for balinese palm leaf manuscript with text generation and lstm model | |
CN116909435A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts | |
KR100897718B1 (ko) | 구어체 문장의 오류 교정 장치 및 방법 | |
CN112016281B (zh) | 错误医疗文本的生成方法、装置及存储介质 | |
CN114861628A (zh) | 训练机器翻译模型的***、方法、电子设备及存储介质 | |
CN115905500B (zh) | 问答对数据的生成方法及装置 | |
CN112232347B (zh) | 基于概率矩阵的字符识别方法、装置、设备及存储介质 | |
CN109241496B (zh) | 注音*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |