CN114781377A

CN114781377A - 非对齐文本的纠错模型、训练及纠错方法

Info

Publication number: CN114781377A
Application number: CN202210696857.6A
Authority: CN
Inventors: 许程冲; 赵文博; 肖清
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-07-22
Anticipated expiration: 2042-06-20
Also published as: CN114781377B

Abstract

本发明提供非对齐文本的纠错模型、训练及纠错方法，模型包括：编码器模型和解码器模型；编码器模型的预处理模块、编码词嵌入模块将所述第一文本向量E输出至编码层；编码层得到文本特征向量并将所述文本特征向量输出所述解码器模型的解码层；解码器模型的音素提取模块、解码词嵌入模块、第一解码多头注意力计算模块将若干个第二音素向量输出至解码层；解码层融合若干个第二音素向量得到音素特征向量，结合文本特征向量以及音素特征向量进行解码得到解码特征向量，并将解码特征向量作为对原始文本纠错后的文本。对文本纠错的各个处理过程在端对端模型的训练过程中得到修正和优化，避免误差积累的问题，有效提高纠错准确率。

Description

非对齐文本的纠错模型、训练及纠错方法

技术领域

本发明涉及文本纠错领域，更具体地，涉及非对齐文本的纠错模型、训练及纠错方法。

背景技术

自动语音识别（Automatic Speech Recognition，ASR）是自然语言处理中智能语音的一项基础任务，该技术能够广泛应用于智能客服、智能外呼等场景。在自动语音识别任务中，经常出现语音识别结果不够准确的情况，例如识别得到的文本出现错字、多字、少字等错误。其中，解决错字问题的任务被称为对齐文本纠错，同时解决错字、多字、少字问题的任务被称为非对齐文本纠错。非对齐文本纠错可应用于拼写纠偏、语音识别优化等任务，提升相应的文本准确率。

对于下游的自然语言处理业务而言，自动语音识别结果的纠错是一项关键的任务。而现有的文本纠错方案一般采用管道式处理，即分为三个顺序步骤：错误检测、候选召回、候选排序。错误检测是指检测定位文本中出现错误的点位，候选召回是指召回错误点位的正确候选词，候选排序是指需通过排序算法对召回的候选词进行打分排序，选择分数最高/顺序最前的一项与错误点位的词/字进行替换。现有的方案中会通过三个独立的模型分别实现三个步骤，但管道式处理的方式必然导致下游模型会强依赖上游模型的结果，则当某一模型出现误差时，该误差会在下游模型中不断累积，从而使最终结果出现较大误差。假设每个模型的模型准确率为

，最终的纠错准确率为

，如果

准确率都是90%，最终的准确率只有73%。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供非对齐文本的纠错模型、训练及纠错方法，用于解决传统的文本纠错方案中容易出现误差累积，从而导致最终结果出现较大误差的问题。

本发明采用的技术方案包括：

第一方面，本发明提供一种非对齐文本纠错模型，包括：编码器模型和解码器模型；所述编码器模型包括预处理模块、编码词嵌入模块，以及至少一层编码层；所述解码器模型包括音素提取模块、解码词嵌入模块，第一解码多头注意力计算模块，以及至少一层解码层；所述预处理模块用于将外部输入的原始文本S _o进行预处理及编码，得到初始文本向量V ₀并输出至所述编码词嵌入模块；所述编码词嵌入模块用于将所述初始文本向量V ₀转换为指定维度的第一文本向量E，并将所述第一文本向量E输出至所述编码层；所述编码层用于对所述第一文本向量E进行编码得到文本特征向量M，并将所述文本特征向量M作为第一文本向量E输出至下一编码层，或直接将所述文本特征向量M输出所述解码器模型的解码层；所述音素提取模块用于将外部输入的原始文本S _o进行音素信息的提取，并对所提取的音素信息进行编码，得到若干个初始音素向量V并将其输出至解码词嵌入模块；所述解码词嵌入模块用于分别将若干个所述初始音素向量V转换为指定维度的第一音素向量e，并将若干个所述第一音素向量e输出至所述解码多头注意力计算模块；所述第一解码多头注意力计算模块用于分别对若干个所述第一音素向量e进行多头自注意力计算，得到若干个第二音素向量A并将其输出至所述解码层；所述解码层用于融合若干个第二音素向量A得到音素特征向量V _p，结合所述文本特征向量M以及所述音素特征向量V _p进行解码得到解码特征向量V _d，并将所述解码特征向量V _d作为其中一个第二音素向量A输出至下一解码层，或直接将所述解码特征向量V _d作为对所述原始文本S _o纠错后的文本。

本发明提供的非对齐文本纠错模型由编码器模型和解码器模型组成，该模型的纠错流程无人工干预，输入的为原始待纠错的文本，最后经过解码层输出的为原始文本纠错后的文本，由于整体模型已经囊括了纠错过程的预处理、编码和解码过程，保证了对文本的纠错不会存在误差积累的问题。同时，在纠错过程中，解码层将编码层编码得到的文本特征与解码器模型中编码得到的音素特征进行融合性解码，得到解码特征向量作为原始文本纠错后的文本，纠错过程通过融合文本的文本特征和音素特征，使解码器能够兼顾文本的语义特征和发音特征的纠错。

进一步，所述编码层包括编码多头注意力计算模块、第一编码归一化模块、编码前向传播模块和第二编码归一化模块；所述编码多头注意力计算模块用于对所述第一文本向量E进行多头自注意力计算，得到第二文本向量a并将其输出至第一编码归一化模块；所述第一编码归一化模块用于对所述第二文本向量a进行归一化处理，得到第三文本向量V _a并将其输出至编码前向传播模块；所述编码前向传播模块用于对所述第三文本向量V _a进行前向传播处理，得到第四文本向量V _f并将其传输至第二编码归一化模块；所述第二编码归一化模块用于对所述第四文本向量V _f进行归一化处理，得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层，或直接将所述文本特征向量M输出至所述解码层。

在编码层中，利用多头注意力机制、归一化处理以及前向传播处理，有效提取原始文本的文本特征向量，且可以通过多层编码层的重复处理，得到更加精准的文本特征向量。

进一步，所述解码层包括向量融合模块、第二解码多头注意力计算模块、第一解码归一化模块、解码前向传播模块和第二解码归一化模块；所述向量融合模块用于融合若干个第二音素向量A，得到音素特征向量V _p并将其输出至第二解码多头注意力计算模块；所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V _p进行多头自注意力计算，得到融合注意力向量N并将其输出至所述第一解码归一化模块；所述第一解码归一化模块用于对所述融合注意力向量N进行归一化处理，得到第一解码向量V _A并将其输出至解码前向传播模块；所述解码前向传播模块用于对所述第一解码向量V _A进行前向传播处理，得到第二解码向量V _F并将其传输至第二解码归一化模块；所述第二解码归一化模块用于对所述第二解码向量V _F进行归一化处理，得到解码特征向量V _d并将其作为其中一个第二音素向量A输出至下一层解码层，或直接将所述解码特征向量V _d作为对所述原始文本S _o纠错后的文本。

在解码层中，同样利用多头注意力机制有效提出原始文本的若干个第二音素向量后，先对若干个第二音素向量进行融合得到音素特征向量，再利用多头注意力机制将音素特征向量与文本特征向量进行融合得到融合注意力向量，该融合注意力向量既包含了文本的文本特征，也包含了文本的音素特征，以使解码层在纠错过程中兼顾到文本的两种特征，最后通过归一化和前向传播处理，从兼顾文本两种特征的融合注意力向量中得到解码特征向量，且可以通过多层解码器的重复处理，得到更加精准的解码特征向量，作为纠错后的文本。

进一步，所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V _p进行多头自注意力计算，得到融合注意力向量N并将其输出至所述第一解码归一化模块，具体包括：所述第二解码多头注意力计算模块用于根据式子

结合所述文本特征向量M和所述音素特征向量V _p进行多头自注意力计算，得到融合注意力向量N并将其输出至所述第一解码归一化模块；其中，所述K ₁和V ₁为所述文本特征向量M的线性变换，具体根据式子

和

对所述文本特征向量M进行线性变换，所述W _k和W _v为所述非对齐文本纠错模型的训练参数；所述Q ₃为音素特征向量V _p的线性变换，具体根据式子

对音素特征向量V _p进行线性变换，W _p为所述非对齐文本纠错模型的训练参数。d ₁为K ₁的维度；所述

为所述K ₁的转置矩阵。

在解码层中，利用多头注意力机制得到融合注意力向量时，多头注意力机制中的K和V为文本特征向量的线性变换，由于要结合音素特征向量的特征，因此多头注意力机制中的Q为音素特征向量的线性变换，其中，线性变换计算中的训练参数均为该非对齐文本纠错模型在训练过程中调整至最优的神经网络训练参数。

进一步，所述音素信息包括拼音声母信息和拼音韵母信息；若干个初始音素向量V包括声母初始音素向量V _i和韵母初始音素向量V _f；相应地，若干个第一音素向量e包括第一声母音素向量e _i和第一韵母音素向量e _f；相应地，若干个第二音素向量A包括第二声母音素向量A _i和第二韵母音素向量A _f。

音素信息能够表征文本的发音特征，因此音素信息取文本各个字的拼音声母信息和拼音韵母信息作为文本发音特征的基础信息，并通过解码器模型中的各个模块以及解码层将拼音声母信息和拼音韵母信息进一步编码为音素向量，并与文本特征向量进行融合。

进一步，所述向量融合模块用于融合若干个第二音素向量A，得到音素特征向量V _p并将其输出至第二解码多头注意力计算模块，具体包括：所述向量融合模块用于根据

融合若干个第二音素向量A，得到音素特征向量V _p并将其输出至第二解码多头注意力计算模块；其中，所述W _i和所述W _f为所述非对齐文本纠错模型的训练参数。

进一步，所述编码多头注意力计算模块和所述第一编码归一化模块之间，以及所述编码前向传播模块和所述第二编码归一化模块之间均利用残差网络连接。所述第二解码多头注意力和所述第一解码归一化模块之间，以及所述解码前向传播模块和第二解码归一化模块之间均利用残差网络连接。

利用残差网络连接多头注意力计算模块与归一化模块，以及前向传播模块与归一化模块，能够提高非对齐文本纠错模型的泛化能力。

第二方面，本发明提供一种非对齐文本纠错模型的训练方法，包括：构造训练数据集，随机删除、替换和/或重复所述训练数据集中各个样本的内容，得到预处理后的训练数据集；初始化由编码器和解码器组成的神经网络模型，并将所述训练数据集分批次输入所述神经网络模型进行训练，直至所述神经网络的损失函数的函数值不再明显降低，得到上述的非对齐文本纠错模型。

第三方面，本发明提供一种非对齐文本的纠错方法，包括：将待处理的原始文本输入上述的非对齐文本纠错模型，以使所述非对齐文本纠错模型对所述待处理的原始文本进行纠错，并输出所述待处理的原始文本的纠错后的文本。

与现有技术相比，本发明的有益效果为：

本发明提供的非对齐文本纠错模型包含了解码器模型和编码器模型，整体模型的输入为原始文本，输出为纠错后的文本，对原始文本的所有纠错过程包含在纠错模型中，保证了对文本的各个处理过程能够在端对端模型的训练过程中得到修正和优化，避免传统管道式处理中误差积累的问题。且本发明提供的模型利用多层编码层和解码层的叠加以获得更加精准有效的特征，综合考虑原始文本的语义特征以及发音特征对原始文本进行纠错，有效提高纠错准确率。

附图说明

图1为本发明实施例1中非对齐文本纠错模型的模块组成示意图。

图2本发明实施例1中编码层和解码层的模块组成示意图。

图3为本发明实施例1中解码器模型200中音素提取模块210的具体数据传输示意图。

图4为本发明实施例2中训练方法的步骤S210~S230的流程示意图。

图5为本发明实施例2、3中训练过程和推理阶段的流程示意图。

图6为本发明实施例3中纠错方法的步骤S310的流程示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

本实施例提供一种非对齐文本纠错模型，为一种端对端的纠错模型，以编码器-解码器的结构构建，由于将文本纠错的全过程都囊括在端对端的神经网络模型中，避免了传统管道式的文本纠错模型存在误差积累的问题。

如图1所示，所述非对齐文本纠错模型包括编码器模型100以及解码器模型200。

其中，编码器模型100包括预处理模块110、编码词嵌入模块120，以及至少一层编码层130。

在本实施例中，编码器模型100是基于Transformer结构（Transformer是指网络结构完全由注意力机制组成）的变种模型实现的，例如有BERT模型（Bidirectional EncoderRepresentation from Transformers，双向Transformer编码器）、DistillBert模型、RoBERTa模型等等。

预处理模块110用于将外部输入的原始文本S _o进行预处理及编码，得到初始文本向量V ₀并输出至编码词嵌入模块120。

原始文本S _o是指未经过纠错处理的待纠错的文本，预处理一般指将外部输入的原始文本S _o处理为可以兼容编码器模型100处理的数据类型或长度等等的操作，在本实施例中，预处理具体是指将原始文本S _o进行切词，即将其切分为词组，也可以称为文本序列。在预处理后，对每个文本序列根据词表进行编码，以将文本这一种非结构化的信息转换为结构化的信息，也就是将各个文本序列转换为对应的向量，再由各个序列的向量组成初始文本向量V ₀输入至编码器模型100的其他模块。更具体地，编码的方式采用独热编码（One-HotEncoding），独热编码是指使用N位状态寄存器来对N个状态进行编码。

编码词嵌入模块120用于将初始文本向量V ₀转换为指定维度的第一文本向量E，并将第一文本向量E输出至所述编码层。

词嵌入是指把一个维数为所有词数量的高维空间嵌入到一个维数更低的连续向量空间中，每个单词或词组被映射为实数域上的向量。编码词嵌入模块120将初始文本向量V ₀转换为指定维度的第一文本向量E，第一文本向量E维度比初始文本向量V ₀更低。

编码层130用于对第一文本向量E进行编码得到文本特征向量M，并将文本特征向量M作为第一文本向量E输出至下一编码层，或直接将文本特征向量M输出至解码器模型200。

在具体的实施方式中，编码层130的数量为若干层，则每一个编码层130在对第一文本向量E编码完成得到文本特征向量M后，将其作为下一个编码层130的输入，由下一个编码层130继续基于上一编码层130得到的文本特征向量M进行编码得到新的文本特征向量M，经过多层编码层130的重复编码处理，能够得到更加精准的文本特征向量M，以有效表征原始文本S _o在文本层面上的特征。

具体地，如图2所示，编码层130包括编码多头注意力计算模块131、第一编码归一化模块132、编码前向传播模块133和第二编码归一化模块134。

编码多头注意力计算模块131用于对第一文本向量E进行多头自注意力计算，得到第二文本向量a并将其输出至第一编码归一化模块。

多头自注意力计算是指将初始向量输入多个并列的基于注意力机制的计算模块。编码多头注意力计算模块131由若干个并列的注意力计算模块组合并联而成。

具体地，编码多头注意力计算模块131中的每一个注意力计算模块均根据式子

对第一文本向量E进行注意力计算，每个注意力计算模块单独计算结果，最后将各个注意力计算模块的结果拼接得到第二文本向量a。

其中，K ₁和V ₁为文本特征向量M的线性变换，具体根据式子

和

对文本特征向量M进行线性变换，W _k和W _v为所述非对齐文本纠错模型的训练参数。Q ₁为文本特征向量M的线性变换，具体根据式子

对文本特征向量M进行线性变换，W _q为非对齐文本纠错模型的训练参数。d ₁为K ₁的维度；

为所述K ₁的转置矩阵。

第一编码归一化模块132用于对第二文本向量a进行归一化处理，得到第三文本向量V _a并将其输出至编码前向传播模块133。

归一化处理又称数据标准化，归一化处理是将需要处理的数据限制在一定的范围内，将有量纲的数据转化为无量纲数据，在本实施例中，归一化处理有利于第三文本向量V _a在后续的解码过程中与音素向量进行融合，且能够消除坏数据所带来的不良影响。

在优选的实施方式中，编码多头注意力计算模块131与第一编码归一化模块132之间通过残差网络连接，以提高本实施例提供的非对齐文本纠错模型的泛化能力。

编码前向传播模块134用于对第三文本向量V _a进行前向传播处理，得到第四文本向量V _f并将其传输至第二编码归一化模块135。

前向传播处理是指在神经网络中，信息从上一个神经元直接流转到下一个神经元，直到输出，在本实施例中，前向传播处理可以通过一层全连接层实现。

第二编码归一化模块135用于对第四文本向量V _f进行归一化处理，得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层，或直接将文本特征向量M输出至解码器模块200。

在优选的实施方式中，编码前向传播模块134与第二编码归一化模块135之间通过残差网络连接，以提高本实施例提供的非对齐文本纠错模型的泛化能力。

在本实施例中，如图2所示，解码器模型200包括音素提取模块210、解码词嵌入模块220、第一解码多头注意力计算模块320，以及至少一层解码层240。

音素提取模块210用于将外部输入的原始文本S _o进行音素信息的提取，并对所提取的音素信息进行编码，得到若干个初始音素向量V并将其输出至解码词嵌入模块220。

音素信息是指能够表示原始文本S _o发音的信息，例如可以是该原始文本S _o的拼音、音标等任何适用于表示该原始文本S _o发音的发音符号。

在本实施例中，音素信息具体是指每一个原始文本S _o中每个字的拼音声母信息和拼音韵母信息，则音素提取模块210首先将原始文本S _o的每个字转换为拼音，生成拼音序列

，如文本S _o“再见”对应生成的拼音序列P _o为“zaijian”。如图3所示，音素提取模块210将拼音序列P _o拆分为拼音声母序列P _i和拼音韵母序列P _f，以前述例子为例，拼音序列P _o“zaijian”的拼音声母序列P _i为“z j”，拼音韵母序列P _f为“aiian”。音素提取模块将所提取到的拼音声母序列P _i和拼音韵母序列P _f分别进行编码，得到声母初始音素向量V _i和韵母初始音素向量V _f，作为初始音素向量V输入解码词嵌入模块220。

解码词嵌入模块220用于分别将若干个初始音素向量V转换为指定维度的第一音素向量e，并将若干个第一音素向量e输出至第一解码多头注意力计算模块230。

第一解码多头注意力计算模块230用于分别对若干个第一音素向量e进行多头自注意力计算，得到若干个第二音素向量A并将其输出至解码层。

第一解码多头注意力计算模块230由若干个注意力计算模块组合并联而成。

第一解码多头注意力计算模块230中的每一个注意力计算模块均根据式子

对每个第一音素向量e，即分别对第一声母音素向量e _i和第一韵母音素向量e _f进行注意力计算，每个注意力计算模块单独计算注意力结果，最后将各个注意力计算模块的结果拼接得到第一声母音素向量e _i对应的第二声母音素向量A _i，以及韵母初始音素向量V _f对应的第二韵母音素向量A _f。

其中，K ₂和V ₂为第一声母音素向量e _i或第一韵母音素向量e _f的线性变换，具体根据式子

和

对第一声母音素向量e _i进行线性变换，或根据

和

对第一韵母音素向量e _f进行线性变换，W _k和W _v为非对齐文本纠错模型的训练参数。Q ₂为第一声母音素向量e _i或韵母初始音素向量V _f的线性变换，具体根据式子

对第一声母音素向量e _i进行线性变换，或根据式子

对第一韵母音素向量e _f进行线性变换，W _q为非对齐文本纠错模型的训练参数。d ₂为K ₂的维度；

为K ₂的转置矩阵。

解码层240用于融合若干个第二音素向量A，也就是第二声母音素向量A _i和第二韵母音素向量A _f得到音素特征向量V _p，结合文本特征向量M以及音素特征向量V _p进行解码得到解码特征向量V _d，并将解码特征向量V _d作为其中一个第二音素向量A输出至下一解码层，或直接将解码特征向量V _d作为对原始文本S _o纠错后的文本。

在具体的实施方式中，解码层240的数量为若干层，则每一个解码层240在将若干个第二音素向量A融合得到音素特征向量V _p后，结合文本特征向量M以及音素特征向量V _p进行解码得到解码特征向量V _d，将其作为下一个解码层240的输入，由下一个解码层240继续基于上一解码层240得到的解码特征向量V _d进行编码得到新的解码特征向量V _d，经过多层解码层240的重复编码处理，能够得到更加精准的解码特征向量V _d，作为对原始文本S _o纠错后的文本。

在具体的实施方式中，如图2所示，解码层240包括向量融合模块241、第二解码多头注意力计算模块242、第一解码归一化模块243、解码前向传播模块244和第二解码归一化模块245。

向量融合模块241用于融合第二声母音素向量A _i和第二韵母音素向量A _f，得到音素特征向量V _p并将其输出至第二解码多头注意力计算模块242。

具体地，向量融合模块241根据式子

融合第二声母音素向量A _i和第二韵母音素向量A _f，其中，W _i和W _f为非对齐文本纠错模型的训练参数。

第二解码多头注意力计算模块242用于结合文本特征向量M和音素特征向量V _p进行多头自注意力计算，得到融合注意力向量N并将其输出至所述第一解码归一化模块243。

第二解码多头注意力计算模块242由若干个注意力计算模块组合并联而成。

第二解码多头注意力计算模块242中的每一个注意力计算模块均根据式子

对结合文本特征向量M和音素特征向量V _p进行注意力计算，每个注意力计算模块单独计算注意力结果，最后将各个注意力计算模块的结果拼接得到融合注意力向量N。

和

对文本特征向量M进行线性变换,W _k和W _v为所述非对齐文本纠错模型的训练参数。Q ₃为音素特征向量V _p的线性变换，具体根据式子

对音素特征向量V _p进行线性变换，W _q为所述非对齐文本纠错模型的训练参数。d ₁为K ₁的维度；

为所述K ₁的转置矩阵。

第一解码归一化模块243用于对融合注意力向量N进行归一化处理，得到第一解码向量V _A并将其输出至解码前向传播模块244。

解码前向传播模块244用于对第一解码向量V _A进行前向传播处理，得到第二解码向量V _F并将其传输至第二解码归一化模块。

在本实施例中，前向传播处理可以通过一层全连接层实现。

第二解码归一化模块用于对第二解码向量V _F进行归一化处理，得到解码特征向量V _d并将其作为其中一个第二音素向量A输出至下一层解码层，或直接将解码特征向量V _d作为对所述原始文本S _o纠错后的文本。

在具体的实施方式，当将解码特征向量V _d并将其作为其中一个第二音素向量A输出至下一层解码层时，下一层解码层240的向量融合模块241在融合第二声母音素向量A _i和第二韵母音素向量A _f时，同时融合上一层输出的解码特征向量V _d，具体可根据式子

对三个向量进行融合。

本实施例提供的非对齐文本纠错模型包含了解码器模型和编码器模型，在该模型的训练过程中，能够同时更新整体模型的各项神经网络参数，该模型的输入为原始文本，输出为纠错后的文本，对原始文本的音素提取、音素编码、语言编码、特征合并以及解码过程都被囊括在纠错模型中，保证了对文本的各个处理过程能够在端对端模型的训练过程中得到修正和优化，确保了在使用训练好的纠错模型对短句进行纠错时的准确性，不存在管道式处理中误差积累的问题。同时，本实施例提供的非对齐文本纠错模型利用多层编码层和解码层的叠加以获得更加精准有效的特征，且在解码层的处理过程中，融合了编码器模型生成对应原始文本的文本特征向量，以及解码器模型对应原始文本生成的音素向量，即综合考虑原始文本的语义特征以及发音特征对原始文本进行纠错，有效提高纠错准确率。

实施例2

基于与实施例1相同的构思，本实施例提供一种非对齐文本纠错模型的训练方法，结合图4、5所示，包括以下步骤：

S210、构造训练数据集；

在本步骤中，构造训练数据集的具体过程是获取若干个原始文本以及原始文本对应的纠错后的文本，每一组原始文本及其对应的纠错后的文本形成一个句子对，构成一个样本。在构造好训练数据集后，可根据预设的比例将训练数据集切分为训练集、验证集和测试集，其中训练集用于训练非对齐文本纠错模型，验证集和测试集用于在模型训练完成后对其进行验证和测试。预设的比例可以取8:1:1，也可以根据实际实施场景作适当调整。

S220、随机删除、替换和/或重复所述训练数据集中各个样本的内容，得到预处理后的训练数据集；

在本步骤中，随机删除、替换和/或重复所述训练数据集中各个样本的内容，有助于纠错模型识别各种类型的文本，提高纠错模型的泛化能力。

删除、替换、重复文本样本内容3个操作可以根据实际情况选择性执行。

具体地，随机删除的过程为：样本中的每个字，以一定的概率p ₀随机删除，删除的字数不超过总句长的30%，该比例可以根据实际情况而定；随机替换的过程为：样本中的每个字，以一定的概率p ₁随机替换成谐音字或近音字，替换的字数不超过总句长的30%，该比例可以根据实际情况而定；随机重复的过程为：文本样本中的每个字，以一定的概率p ₂随机重复并***当前位置，重复的字数不超过总句长的30%，该比例可以根据实际情况而定。

S230、初始化由编码器和解码器组成的神经网络模型，并将训练集分批次输入神经网络模型进行训练，直至神经网络的损失函数的函数值不再降低，得到实施例1所述的非对齐文本纠错模型。

在本步骤中，神经网络在训练过程中需训练更新的参数为实施例1所述的W _f、W _i、W _k、W _v、W _q、W _p六个神经网络参数。

在具体的实施方式中，纠错模型在训练过程中可以使用每个字符的交叉熵作为损失函数，依次计算输出序列与目标序列的每个位置的损失，并相加得到最终的损失。同时，以Adam（Adaptive Momentum Estimation）优化算法作为训练优化器，并配合使用学习率预热、衰减策略来更新模型参数，直至神经网络的损失函数的函数值不再明显降低。

实施例3

基于与实施例1相同的构思，本实施例提供一种非对齐文本的纠错方法，结合图5、6所示，包括以下步骤：

S310、将待处理的原始文本输入实施例1所述的非对齐文本纠错模型，以使该非对齐文本纠错模型对待处理的原始文本进行纠错，并输出待处理的原始文本的纠错后的文本。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种非对齐文本纠错模型，其特征在于，包括：编码器模型和解码器模型；

所述编码器模型包括预处理模块、编码词嵌入模块，以及至少一层编码层；

所述解码器模型包括音素提取模块、解码词嵌入模块、第一解码多头注意力计算模块，以及至少一层解码层；

所述预处理模块用于将外部输入的原始文本S _o进行预处理及编码，得到初始文本向量V _o并输出至所述编码词嵌入模块；

所述编码词嵌入模块用于将所述初始文本向量V _o转换为指定维度的第一文本向量E，并将所述第一文本向量E输出至所述编码层；

所述编码层用于对所述第一文本向量E进行编码得到文本特征向量M，并将所述文本特征向量M作为第一文本向量E输出至下一编码层，或直接将所述文本特征向量M输出所述解码器模型的解码层；

所述音素提取模块用于将外部输入的原始文本S _o进行音素信息的提取，并对所提取的音素信息进行编码，得到若干个初始音素向量V并将其输出至解码词嵌入模块；

所述解码词嵌入模块用于分别将若干个所述初始音素向量V转换为指定维度的第一音素向量e，并将若干个所述第一音素向量e输出至所述第一解码多头注意力计算模块；

所述第一解码多头注意力计算模块用于分别对若干个所述第一音素向量e进行多头自注意力计算，得到若干个第二音素向量A并将其输出至所述解码层；

所述解码层用于融合若干个第二音素向量A得到音素特征向量V _p结合所述文本特征向量M以及所述音素特征向量V _p进行解码得到解码特征向量V _d，并将所述解码特征向量V _d作为其中一个第二音素向量A输出至下一解码层，或直接将所述解码特征向量V _d作为对所述原始文本S _o纠错后的文本。

2.根据权利要求1所述的非对齐文本纠错模型，其特征在于，

所述编码层包括编码多头注意力计算模块、第一编码归一化模块、编码前向传播模块和第二编码归一化模块；

所述编码多头注意力计算模块用于对所述第一文本向量E进行多头自注意力计算，得到第二文本向量a并将其输出至第一编码归一化模块；

所述第一编码归一化模块用于对所述第二文本向量a进行归一化处理，得到第三文本向量V _a并将其输出至编码前向传播模块；

所述编码前向传播模块用于对所述第三文本向量V _a进行前向传播处理，得到第四文本向量V _f并将其传输至第二编码归一化模块；

所述第二编码归一化模块用于对所述第四文本向量V _f进行归一化处理，得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层，或直接将所述文本特征向量M输出至所述解码层。

3.根据权利要求1所述的非对齐文本纠错模型，其特征在于，

所述解码层包括向量融合模块、第二解码多头注意力计算模块、第一解码归一化模块、解码前向传播模块和第二解码归一化模块；

所述向量融合模块用于融合若干个第二音素向量A，得到音素特征向量V _p并将其输出至第二解码多头注意力计算模块；

所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V _p进行多头自注意力计算，得到融合注意力向量N并将其输出至所述第一解码归一化模块；

所述第一解码归一化模块用于对所述融合注意力向量N进行归一化处理，得到第一解码向量V _A并将其输出至解码前向传播模块；

所述解码前向传播模块用于对所述第一解码向量V _A进行前向传播处理，得到第二解码向量V _F并将其传输至第二解码归一化模块；

所述第二解码归一化模块用于对所述第二解码向量V _F进行归一化处理，得到解码特征向量V _d并将其作为其中一个第二音素向量A输出至下一层解码层，或直接将所述解码特征向量V _d作为对所述原始文本S _o纠错后的文本。

4.根据权利要求3所述的非对齐文本纠错模型，其特征在于，

所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V _p进行多头自注意力计算，得到融合注意力向量N并将其输出至所述第一解码归一化模块，具体包括：

所述第二解码多头注意力计算模块用于根据式子

和

对音素特征向量V _p进行线性变换，W _q为所述非对齐文本纠错模型的训练参数；d ₁为K ₁的维度；

为所述K ₁的转置矩阵。

5.根据权利要求3所述的非对齐文本纠错模型，其特征在于，

所述音素信息包括拼音声母信息和拼音韵母信息；

若干个初始音素向量V包括声母初始音素向量V _i和韵母初始音素向量V _f；

相应地，若干个第一音素向量e包括第一声母音素向量e _i和第一韵母音素向量e _f；

相应地，若干个第二音素向量A包括第二声母音素向量A _i和第二韵母音素向量A _f。

6.根据权利要求5所述的非对齐文本纠错模型，其特征在于，

所述向量融合模块用于根据

7.根据权利要求2所述的非对齐文本纠错模型，其特征在于，

所述编码多头注意力计算模块和所述第一编码归一化模块之间，以及所述编码前向传播模块和所述第二编码归一化模块之间均利用残差网络连接。

8.根据权利要求3~6任一项所述的非对齐文本纠错模型，其特征在于，

所述第二解码多头注意力和所述第一解码归一化模块之间，以及所述解码前向传播模块和第二解码归一化模块之间均利用残差网络连接。

9.一种非对齐文本纠错模型的训练方法，其特征在于，包括：

构造训练数据集，随机删除、替换和/或重复所述训练数据集中各个样本的内容，得到预处理后的训练数据集；

初始化由编码器和解码器组成的神经网络模型，并将所述训练数据集分批次输入所述神经网络模型进行训练，直至所述神经网络的损失函数的函数值不再明显降低，得到权利要求1~8任一项所述的非对齐文本纠错模型。

10.一种非对齐文本的纠错方法，其特征在于，包括：

将待处理的原始文本输入权利要求1~8任一项所述的非对齐文本纠错模型，以使所述非对齐文本纠错模型对所述待处理的原始文本进行纠错，并输出所述待处理的原始文本的纠错后的文本。