CN114781377A - 非对齐文本的纠错模型、训练及纠错方法 - Google Patents

非对齐文本的纠错模型、训练及纠错方法 Download PDF

Info

Publication number
CN114781377A
CN114781377A CN202210696857.6A CN202210696857A CN114781377A CN 114781377 A CN114781377 A CN 114781377A CN 202210696857 A CN202210696857 A CN 202210696857A CN 114781377 A CN114781377 A CN 114781377A
Authority
CN
China
Prior art keywords
text
vector
decoding
module
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210696857.6A
Other languages
English (en)
Other versions
CN114781377B (zh
Inventor
许程冲
赵文博
肖清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Guangdong Industrial Internet Co Ltd
Original Assignee
China Unicom Guangdong Industrial Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Guangdong Industrial Internet Co Ltd filed Critical China Unicom Guangdong Industrial Internet Co Ltd
Priority to CN202210696857.6A priority Critical patent/CN114781377B/zh
Publication of CN114781377A publication Critical patent/CN114781377A/zh
Application granted granted Critical
Publication of CN114781377B publication Critical patent/CN114781377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供非对齐文本的纠错模型、训练及纠错方法,模型包括:编码器模型和解码器模型;编码器模型的预处理模块、编码词嵌入模块将所述第一文本向量E输出至编码层;编码层得到文本特征向量并将所述文本特征向量输出所述解码器模型的解码层;解码器模型的音素提取模块、解码词嵌入模块、第一解码多头注意力计算模块将若干个第二音素向量输出至解码层;解码层融合若干个第二音素向量得到音素特征向量,结合文本特征向量以及音素特征向量进行解码得到解码特征向量,并将解码特征向量作为对原始文本纠错后的文本。对文本纠错的各个处理过程在端对端模型的训练过程中得到修正和优化,避免误差积累的问题,有效提高纠错准确率。

Description

非对齐文本的纠错模型、训练及纠错方法
技术领域
本发明涉及文本纠错领域,更具体地,涉及非对齐文本的纠错模型、训练及纠错方法。
背景技术
自动语音识别(Automatic Speech Recognition,ASR)是自然语言处理中智能语音的一项基础任务,该技术能够广泛应用于智能客服、智能外呼等场景。在自动语音识别任务中,经常出现语音识别结果不够准确的情况,例如识别得到的文本出现错字、多字、少字等错误。其中,解决错字问题的任务被称为对齐文本纠错,同时解决错字、多字、少字问题的任务被称为非对齐文本纠错。非对齐文本纠错可应用于拼写纠偏、语音识别优化等任务,提升相应的文本准确率。
对于下游的自然语言处理业务而言,自动语音识别结果的纠错是一项关键的任务。而现有的文本纠错方案一般采用管道式处理,即分为三个顺序步骤:错误检测、候选召回、候选排序。错误检测是指检测定位文本中出现错误的点位,候选召回是指召回错误点位的正确候选词,候选排序是指需通过排序算法对召回的候选词进行打分排序,选择分数最高/顺序最前的一项与错误点位的词/字进行替换。现有的方案中会通过三个独立的模型分别实现三个步骤,但管道式处理的方式必然导致下游模型会强依赖上游模型的结果,则当某一模型出现误差时,该误差会在下游模型中不断累积,从而使最终结果出现较大误差。假设每个模型的模型准确率为
Figure 149270DEST_PATH_IMAGE001
,最终的纠错准确率为
Figure 56046DEST_PATH_IMAGE002
,如果
Figure 211084DEST_PATH_IMAGE003
准确率都是90%,最终的准确率只有73%。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供非对齐文本的纠错模型、训练及纠错方法,用于解决传统的文本纠错方案中容易出现误差累积,从而导致最终结果出现较大误差的问题。
本发明采用的技术方案包括:
第一方面,本发明提供一种非对齐文本纠错模型,包括:编码器模型和解码器模型;所述编码器模型包括预处理模块、编码词嵌入模块,以及至少一层编码层;所述解码器模型包括音素提取模块、解码词嵌入模块,第一解码多头注意力计算模块,以及至少一层解码层;所述预处理模块用于将外部输入的原始文本S o 进行预处理及编码,得到初始文本向量V 0 并输出至所述编码词嵌入模块;所述编码词嵌入模块用于将所述初始文本向量V 0 转换为指定维度的第一文本向量E,并将所述第一文本向量E输出至所述编码层;所述编码层用于对所述第一文本向量E进行编码得到文本特征向量M,并将所述文本特征向量M作为第一文本向量E输出至下一编码层,或直接将所述文本特征向量M输出所述解码器模型的解码层;所述音素提取模块用于将外部输入的原始文本S o 进行音素信息的提取,并对所提取的音素信息进行编码,得到若干个初始音素向量V并将其输出至解码词嵌入模块;所述解码词嵌入模块用于分别将若干个所述初始音素向量V转换为指定维度的第一音素向量e,并将若干个所述第一音素向量e输出至所述解码多头注意力计算模块;所述第一解码多头注意力计算模块用于分别对若干个所述第一音素向量e进行多头自注意力计算,得到若干个第二音素向量A并将其输出至所述解码层;所述解码层用于融合若干个第二音素向量A得到音素特征向量V p ,结合所述文本特征向量M以及所述音素特征向量V p 进行解码得到解码特征向量V d ,并将所述解码特征向量V d 作为其中一个第二音素向量A输出至下一解码层,或直接将所述解码特征向量V d 作为对所述原始文本S o 纠错后的文本。
本发明提供的非对齐文本纠错模型由编码器模型和解码器模型组成,该模型的纠错流程无人工干预,输入的为原始待纠错的文本,最后经过解码层输出的为原始文本纠错后的文本,由于整体模型已经囊括了纠错过程的预处理、编码和解码过程,保证了对文本的纠错不会存在误差积累的问题。同时,在纠错过程中,解码层将编码层编码得到的文本特征与解码器模型中编码得到的音素特征进行融合性解码,得到解码特征向量作为原始文本纠错后的文本,纠错过程通过融合文本的文本特征和音素特征,使解码器能够兼顾文本的语义特征和发音特征的纠错。
进一步,所述编码层包括编码多头注意力计算模块、第一编码归一化模块、编码前向传播模块和第二编码归一化模块;所述编码多头注意力计算模块用于对所述第一文本向量E进行多头自注意力计算,得到第二文本向量a并将其输出至第一编码归一化模块;所述第一编码归一化模块用于对所述第二文本向量a进行归一化处理,得到第三文本向量V a 并将其输出至编码前向传播模块;所述编码前向传播模块用于对所述第三文本向量V a 进行前向传播处理,得到第四文本向量V f 并将其传输至第二编码归一化模块;所述第二编码归一化模块用于对所述第四文本向量V f 进行归一化处理,得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层,或直接将所述文本特征向量M输出至所述解码层。
在编码层中,利用多头注意力机制、归一化处理以及前向传播处理,有效提取原始文本的文本特征向量,且可以通过多层编码层的重复处理,得到更加精准的文本特征向量。
进一步,所述解码层包括向量融合模块、第二解码多头注意力计算模块、第一解码归一化模块、解码前向传播模块和第二解码归一化模块;所述向量融合模块用于融合若干个第二音素向量A,得到音素特征向量V p 并将其输出至第二解码多头注意力计算模块;所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V p 进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块;所述第一解码归一化模块用于对所述融合注意力向量N进行归一化处理,得到第一解码向量V A 并将其输出至解码前向传播模块;所述解码前向传播模块用于对所述第一解码向量V A 进行前向传播处理,得到第二解码向量V F 并将其传输至第二解码归一化模块;所述第二解码归一化模块用于对所述第二解码向量V F 进行归一化处理,得到解码特征向量V d 并将其作为其中一个第二音素向量A输出至下一层解码层,或直接将所述解码特征向量V d 作为对所述原始文本S o 纠错后的文本。
在解码层中,同样利用多头注意力机制有效提出原始文本的若干个第二音素向量后,先对若干个第二音素向量进行融合得到音素特征向量,再利用多头注意力机制将音素特征向量与文本特征向量进行融合得到融合注意力向量,该融合注意力向量既包含了文本的文本特征,也包含了文本的音素特征,以使解码层在纠错过程中兼顾到文本的两种特征,最后通过归一化和前向传播处理,从兼顾文本两种特征的融合注意力向量中得到解码特征向量,且可以通过多层解码器的重复处理,得到更加精准的解码特征向量,作为纠错后的文本。
进一步,所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V p 进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块,具体包括:所述第二解码多头注意力计算模块用于根据式子
Figure 886916DEST_PATH_IMAGE004
结合所述文本特征向量M和所述音素特征向量V p 进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块;其中,所述K 1 V 1 为所述文本特征向量M的线性变换,具体根据式子
Figure 967742DEST_PATH_IMAGE005
Figure 158552DEST_PATH_IMAGE006
对所述文本特征向量M进行线性变换,所述W k W v 为所述非对齐文本纠错模型的训练参数;所述Q 3 为音素特征向量V p 的线性变换,具体根据式子
Figure 851702DEST_PATH_IMAGE007
对音素特征向量V p 进行线性变换,W p 为所述非对齐文本纠错模型的训练参数。d 1 K 1 的维度;所述
Figure 382040DEST_PATH_IMAGE008
为所述K 1 的转置矩阵。
在解码层中,利用多头注意力机制得到融合注意力向量时,多头注意力机制中的K和V为文本特征向量的线性变换,由于要结合音素特征向量的特征,因此多头注意力机制中的Q为音素特征向量的线性变换,其中,线性变换计算中的训练参数均为该非对齐文本纠错模型在训练过程中调整至最优的神经网络训练参数。
进一步,所述音素信息包括拼音声母信息和拼音韵母信息;若干个初始音素向量V包括声母初始音素向量V i 和韵母初始音素向量V f ;相应地,若干个第一音素向量e包括第一声母音素向量e i 和第一韵母音素向量e f ;相应地,若干个第二音素向量A包括第二声母音素向量A i 和第二韵母音素向量A f
音素信息能够表征文本的发音特征,因此音素信息取文本各个字的拼音声母信息和拼音韵母信息作为文本发音特征的基础信息,并通过解码器模型中的各个模块以及解码层将拼音声母信息和拼音韵母信息进一步编码为音素向量,并与文本特征向量进行融合。
进一步,所述向量融合模块用于融合若干个第二音素向量A,得到音素特征向量V p 并将其输出至第二解码多头注意力计算模块,具体包括:所述向量融合模块用于根据
Figure 135233DEST_PATH_IMAGE009
融合若干个第二音素向量A,得到音素特征向量V p 并将其输出至第二解码多头注意力计算模块;其中,所述W i 和所述W f 为所述非对齐文本纠错模型的训练参数。
进一步,所述编码多头注意力计算模块和所述第一编码归一化模块之间,以及所述编码前向传播模块和所述第二编码归一化模块之间均利用残差网络连接。所述第二解码多头注意力和所述第一解码归一化模块之间,以及所述解码前向传播模块和第二解码归一化模块之间均利用残差网络连接。
利用残差网络连接多头注意力计算模块与归一化模块,以及前向传播模块与归一化模块,能够提高非对齐文本纠错模型的泛化能力。
第二方面,本发明提供一种非对齐文本纠错模型的训练方法,包括:构造训练数据集,随机删除、替换和/或重复所述训练数据集中各个样本的内容,得到预处理后的训练数据集;初始化由编码器和解码器组成的神经网络模型,并将所述训练数据集分批次输入所述神经网络模型进行训练,直至所述神经网络的损失函数的函数值不再明显降低,得到上述的非对齐文本纠错模型。
第三方面,本发明提供一种非对齐文本的纠错方法,包括:将待处理的原始文本输入上述的非对齐文本纠错模型,以使所述非对齐文本纠错模型对所述待处理的原始文本进行纠错,并输出所述待处理的原始文本的纠错后的文本。
与现有技术相比,本发明的有益效果为:
本发明提供的非对齐文本纠错模型包含了解码器模型和编码器模型,整体模型的输入为原始文本,输出为纠错后的文本,对原始文本的所有纠错过程包含在纠错模型中,保证了对文本的各个处理过程能够在端对端模型的训练过程中得到修正和优化,避免传统管道式处理中误差积累的问题。且本发明提供的模型利用多层编码层和解码层的叠加以获得更加精准有效的特征,综合考虑原始文本的语义特征以及发音特征对原始文本进行纠错,有效提高纠错准确率。
附图说明
图1为本发明实施例1中非对齐文本纠错模型的模块组成示意图。
图2本发明实施例1中编码层和解码层的模块组成示意图。
图3为本发明实施例1中解码器模型200中音素提取模块210的具体数据传输示意图。
图4为本发明实施例2中训练方法的步骤S210~S230的流程示意图。
图5为本发明实施例2、3中训练过程和推理阶段的流程示意图。
图6为本发明实施例3中纠错方法的步骤S310的流程示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
本实施例提供一种非对齐文本纠错模型,为一种端对端的纠错模型,以编码器-解码器的结构构建,由于将文本纠错的全过程都囊括在端对端的神经网络模型中,避免了传统管道式的文本纠错模型存在误差积累的问题。
如图1所示,所述非对齐文本纠错模型包括编码器模型100以及解码器模型200。
其中,编码器模型100包括预处理模块110、编码词嵌入模块120,以及至少一层编码层130。
在本实施例中,编码器模型100是基于Transformer结构(Transformer是指网络结构完全由注意力机制组成)的变种模型实现的,例如有BERT模型(Bidirectional EncoderRepresentation from Transformers,双向Transformer编码器)、DistillBert模型、RoBERTa模型等等。
预处理模块110用于将外部输入的原始文本S o 进行预处理及编码,得到初始文本向量V 0 并输出至编码词嵌入模块120。
原始文本S o 是指未经过纠错处理的待纠错的文本,预处理一般指将外部输入的原始文本S o 处理为可以兼容编码器模型100处理的数据类型或长度等等的操作,在本实施例中,预处理具体是指将原始文本S o 进行切词,即将其切分为词组,也可以称为文本序列。在预处理后,对每个文本序列根据词表进行编码,以将文本这一种非结构化的信息转换为结构化的信息,也就是将各个文本序列转换为对应的向量,再由各个序列的向量组成初始文本向量V 0 输入至编码器模型100的其他模块。更具体地,编码的方式采用独热编码(One-HotEncoding),独热编码是指使用N位状态寄存器来对N个状态进行编码。
编码词嵌入模块120用于将初始文本向量V 0 转换为指定维度的第一文本向量E,并将第一文本向量E输出至所述编码层。
词嵌入是指把一个维数为所有词数量的高维空间嵌入到一个维数更低的连续向量空间中,每个单词或词组被映射为实数域上的向量。编码词嵌入模块120将初始文本向量V 0 转换为指定维度的第一文本向量E,第一文本向量E维度比初始文本向量V 0 更低。
编码层130用于对第一文本向量E进行编码得到文本特征向量M,并将文本特征向量M作为第一文本向量E输出至下一编码层,或直接将文本特征向量M输出至解码器模型200。
在具体的实施方式中,编码层130的数量为若干层,则每一个编码层130在对第一文本向量E编码完成得到文本特征向量M后,将其作为下一个编码层130的输入,由下一个编码层130继续基于上一编码层130得到的文本特征向量M进行编码得到新的文本特征向量M,经过多层编码层130的重复编码处理,能够得到更加精准的文本特征向量M,以有效表征原始文本S o 在文本层面上的特征。
具体地,如图2所示,编码层130包括编码多头注意力计算模块131、第一编码归一化模块132、编码前向传播模块133和第二编码归一化模块134。
编码多头注意力计算模块131用于对第一文本向量E进行多头自注意力计算,得到第二文本向量a并将其输出至第一编码归一化模块。
多头自注意力计算是指将初始向量输入多个并列的基于注意力机制的计算模块。编码多头注意力计算模块131由若干个并列的注意力计算模块组合并联而成。
具体地,编码多头注意力计算模块131中的每一个注意力计算模块均根据式子
Figure 751022DEST_PATH_IMAGE010
对第一文本向量E进行注意力计算,每个注意力计算模块单独计算结果,最后将各个注意力计算模块的结果拼接得到第二文本向量a
其中,K 1 V 1 为文本特征向量M的线性变换,具体根据式子
Figure 247862DEST_PATH_IMAGE011
Figure 695024DEST_PATH_IMAGE012
对文本特征向量M进行线性变换,W k W v 为所述非对齐文本纠错模型的训练参数。Q 1 为文本特征向量M的线性变换,具体根据式子
Figure 353538DEST_PATH_IMAGE013
对文本特征向量M进行线性变换,W q 为非对齐文本纠错模型的训练参数。d 1 K 1 的维度;
Figure 722203DEST_PATH_IMAGE014
为所述K 1 的转置矩阵。
第一编码归一化模块132用于对第二文本向量a进行归一化处理,得到第三文本向量V a 并将其输出至编码前向传播模块133。
归一化处理又称数据标准化,归一化处理是将需要处理的数据限制在一定的范围内,将有量纲的数据转化为无量纲数据,在本实施例中,归一化处理有利于第三文本向量V a 在后续的解码过程中与音素向量进行融合,且能够消除坏数据所带来的不良影响。
在优选的实施方式中,编码多头注意力计算模块131与第一编码归一化模块132之间通过残差网络连接,以提高本实施例提供的非对齐文本纠错模型的泛化能力。
编码前向传播模块134用于对第三文本向量V a 进行前向传播处理,得到第四文本向量V f 并将其传输至第二编码归一化模块135。
前向传播处理是指在神经网络中,信息从上一个神经元直接流转到下一个神经元,直到输出,在本实施例中,前向传播处理可以通过一层全连接层实现。
第二编码归一化模块135用于对第四文本向量V f 进行归一化处理,得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层,或直接将文本特征向量M输出至解码器模块200。
在优选的实施方式中,编码前向传播模块134与第二编码归一化模块135之间通过残差网络连接,以提高本实施例提供的非对齐文本纠错模型的泛化能力。
在本实施例中,如图2所示,解码器模型200包括音素提取模块210、解码词嵌入模块220、第一解码多头注意力计算模块320,以及至少一层解码层240。
音素提取模块210用于将外部输入的原始文本S o 进行音素信息的提取,并对所提取的音素信息进行编码,得到若干个初始音素向量V并将其输出至解码词嵌入模块220。
音素信息是指能够表示原始文本S o 发音的信息,例如可以是该原始文本S o 的拼音、音标等任何适用于表示该原始文本S o 发音的发音符号。
在本实施例中,音素信息具体是指每一个原始文本S o 中每个字的拼音声母信息和拼音韵母信息,则音素提取模块210首先将原始文本S o 的每个字转换为拼音,生成拼音序列
Figure 981322DEST_PATH_IMAGE016
,如文本S o “再见”对应生成的拼音序列P o 为“zaijian”。如图3所示,音素提取模块210将拼音序列P o 拆分为拼音声母序列P i 和拼音韵母序列P f ,以前述例子为例,拼音序列P o “zaijian”的拼音声母序列P i 为“z j”,拼音韵母序列P f 为“aiian”。音素提取模块将所提取到的拼音声母序列P i 和拼音韵母序列P f 分别进行编码,得到声母初始音素向量V i 和韵母初始音素向量V f ,作为初始音素向量V输入解码词嵌入模块220。
解码词嵌入模块220用于分别将若干个初始音素向量V转换为指定维度的第一音素向量e,并将若干个第一音素向量e输出至第一解码多头注意力计算模块230。
第一解码多头注意力计算模块230用于分别对若干个第一音素向量e进行多头自注意力计算,得到若干个第二音素向量A并将其输出至解码层。
第一解码多头注意力计算模块230由若干个注意力计算模块组合并联而成。
第一解码多头注意力计算模块230中的每一个注意力计算模块均根据式子
Figure 751832DEST_PATH_IMAGE017
对每个第一音素向量e,即分别对第一声母音素向量e i 和第一韵母音素向量e f 进行注意力计算,每个注意力计算模块单独计算注意力结果,最后将各个注意力计算模块的结果拼接得到第一声母音素向量e i 对应的第二声母音素向量A i ,以及韵母初始音素向量V f 对应的第二韵母音素向量A f
其中,K 2 V 2 为第一声母音素向量e i 或第一韵母音素向量e f 的线性变换,具体根据式子
Figure 581247DEST_PATH_IMAGE018
Figure 233946DEST_PATH_IMAGE019
对第一声母音素向量e i 进行线性变换,或根据
Figure 72589DEST_PATH_IMAGE020
Figure 166447DEST_PATH_IMAGE021
对第一韵母音素向量e f 进行线性变换,W k W v 为非对齐文本纠错模型的训练参数。Q 2 为第一声母音素向量e i 或韵母初始音素向量V f 的线性变换,具体根据式子
Figure 432343DEST_PATH_IMAGE022
对第一声母音素向量e i 进行线性变换,或根据式子
Figure 306758DEST_PATH_IMAGE023
对第一韵母音素向量e f 进行线性变换,W q 为非对齐文本纠错模型的训练参数。d 2 K 2 的维度;
Figure 949092DEST_PATH_IMAGE024
K 2 的转置矩阵。
解码层240用于融合若干个第二音素向量A,也就是第二声母音素向量A i 和第二韵母音素向量A f 得到音素特征向量V p ,结合文本特征向量M以及音素特征向量V p 进行解码得到解码特征向量V d ,并将解码特征向量V d 作为其中一个第二音素向量A输出至下一解码层,或直接将解码特征向量V d 作为对原始文本S o 纠错后的文本。
在具体的实施方式中,解码层240的数量为若干层,则每一个解码层240在将若干个第二音素向量A融合得到音素特征向量V p 后,结合文本特征向量M以及音素特征向量V p 进行解码得到解码特征向量V d ,将其作为下一个解码层240的输入,由下一个解码层240继续基于上一解码层240得到的解码特征向量V d 进行编码得到新的解码特征向量V d ,经过多层解码层240的重复编码处理,能够得到更加精准的解码特征向量V d ,作为对原始文本S o 纠错后的文本。
在具体的实施方式中,如图2所示,解码层240包括向量融合模块241、第二解码多头注意力计算模块242、第一解码归一化模块243、解码前向传播模块244和第二解码归一化模块245。
向量融合模块241用于融合第二声母音素向量A i 和第二韵母音素向量A f ,得到音素特征向量V p 并将其输出至第二解码多头注意力计算模块242。
具体地,向量融合模块241根据式子
Figure 163036DEST_PATH_IMAGE025
融合第二声母音素向量A i 和第二韵母音素向量A f ,其中,W i W f 为非对齐文本纠错模型的训练参数。
第二解码多头注意力计算模块242用于结合文本特征向量M和音素特征向量V p 进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块243。
第二解码多头注意力计算模块242由若干个注意力计算模块组合并联而成。
第二解码多头注意力计算模块242中的每一个注意力计算模块均根据式子
Figure 98368DEST_PATH_IMAGE026
对结合文本特征向量M和音素特征向量V p 进行注意力计算,每个注意力计算模块单独计算注意力结果,最后将各个注意力计算模块的结果拼接得到融合注意力向量N
其中,K 1 V 1 为文本特征向量M的线性变换,具体根据式子
Figure 663342DEST_PATH_IMAGE027
Figure 640525DEST_PATH_IMAGE028
对文本特征向量M进行线性变换,W k W v 为所述非对齐文本纠错模型的训练参数。Q 3 为音素特征向量V p 的线性变换,具体根据式子
Figure 708975DEST_PATH_IMAGE029
对音素特征向量V p 进行线性变换,W q 为所述非对齐文本纠错模型的训练参数。d 1 K 1 的维度;
Figure 316674DEST_PATH_IMAGE014
为所述K 1 的转置矩阵。
第一解码归一化模块243用于对融合注意力向量N进行归一化处理,得到第一解码向量V A 并将其输出至解码前向传播模块244。
解码前向传播模块244用于对第一解码向量V A 进行前向传播处理,得到第二解码向量V F 并将其传输至第二解码归一化模块。
在本实施例中,前向传播处理可以通过一层全连接层实现。
第二解码归一化模块用于对第二解码向量V F 进行归一化处理,得到解码特征向量V d 并将其作为其中一个第二音素向量A输出至下一层解码层,或直接将解码特征向量V d 作为对所述原始文本S o 纠错后的文本。
在具体的实施方式,当将解码特征向量V d 并将其作为其中一个第二音素向量A输出至下一层解码层时,下一层解码层240的向量融合模块241在融合第二声母音素向量A i 和第二韵母音素向量A f 时,同时融合上一层输出的解码特征向量V d ,具体可根据式子
Figure 368944DEST_PATH_IMAGE030
对三个向量进行融合。
本实施例提供的非对齐文本纠错模型包含了解码器模型和编码器模型,在该模型的训练过程中,能够同时更新整体模型的各项神经网络参数,该模型的输入为原始文本,输出为纠错后的文本,对原始文本的音素提取、音素编码、语言编码、特征合并以及解码过程都被囊括在纠错模型中,保证了对文本的各个处理过程能够在端对端模型的训练过程中得到修正和优化,确保了在使用训练好的纠错模型对短句进行纠错时的准确性,不存在管道式处理中误差积累的问题。同时,本实施例提供的非对齐文本纠错模型利用多层编码层和解码层的叠加以获得更加精准有效的特征,且在解码层的处理过程中,融合了编码器模型生成对应原始文本的文本特征向量,以及解码器模型对应原始文本生成的音素向量,即综合考虑原始文本的语义特征以及发音特征对原始文本进行纠错,有效提高纠错准确率。
实施例2
基于与实施例1相同的构思,本实施例提供一种非对齐文本纠错模型的训练方法,结合图4、5所示,包括以下步骤:
S210、构造训练数据集;
在本步骤中,构造训练数据集的具体过程是获取若干个原始文本以及原始文本对应的纠错后的文本,每一组原始文本及其对应的纠错后的文本形成一个句子对,构成一个样本。在构造好训练数据集后,可根据预设的比例将训练数据集切分为训练集、验证集和测试集,其中训练集用于训练非对齐文本纠错模型,验证集和测试集用于在模型训练完成后对其进行验证和测试。预设的比例可以取8:1:1,也可以根据实际实施场景作适当调整。
S220、随机删除、替换和/或重复所述训练数据集中各个样本的内容,得到预处理后的训练数据集;
在本步骤中,随机删除、替换和/或重复所述训练数据集中各个样本的内容,有助于纠错模型识别各种类型的文本,提高纠错模型的泛化能力。
删除、替换、重复文本样本内容3个操作可以根据实际情况选择性执行。
具体地,随机删除的过程为:样本中的每个字,以一定的概率p 0 随机删除,删除的字数不超过总句长的30%,该比例可以根据实际情况而定;随机替换的过程为:样本中的每个字,以一定的概率p 1 随机替换成谐音字或近音字,替换的字数不超过总句长的30%,该比例可以根据实际情况而定;随机重复的过程为:文本样本中的每个字,以一定的概率p 2 随机重复并***当前位置,重复的字数不超过总句长的30%,该比例可以根据实际情况而定。
S230、初始化由编码器和解码器组成的神经网络模型,并将训练集分批次输入神经网络模型进行训练,直至神经网络的损失函数的函数值不再降低,得到实施例1所述的非对齐文本纠错模型。
在本步骤中,神经网络在训练过程中需训练更新的参数为实施例1所述的W f W i W k W v W q W p 六个神经网络参数。
在具体的实施方式中,纠错模型在训练过程中可以使用每个字符的交叉熵作为损失函数,依次计算输出序列与目标序列的每个位置的损失,并相加得到最终的损失。同时,以Adam(Adaptive Momentum Estimation)优化算法作为训练优化器,并配合使用学习率预热、衰减策略来更新模型参数,直至神经网络的损失函数的函数值不再明显降低。
实施例3
基于与实施例1相同的构思,本实施例提供一种非对齐文本的纠错方法,结合图5、6所示,包括以下步骤:
S310、将待处理的原始文本输入实施例1所述的非对齐文本纠错模型,以使该非对齐文本纠错模型对待处理的原始文本进行纠错,并输出待处理的原始文本的纠错后的文本。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种非对齐文本纠错模型,其特征在于,包括:编码器模型和解码器模型;
所述编码器模型包括预处理模块、编码词嵌入模块,以及至少一层编码层;
所述解码器模型包括音素提取模块、解码词嵌入模块、第一解码多头注意力计算模块,以及至少一层解码层;
所述预处理模块用于将外部输入的原始文本S o 进行预处理及编码,得到初始文本向量V o 并输出至所述编码词嵌入模块;
所述编码词嵌入模块用于将所述初始文本向量V o 转换为指定维度的第一文本向量E,并将所述第一文本向量E输出至所述编码层;
所述编码层用于对所述第一文本向量E进行编码得到文本特征向量M,并将所述文本特征向量M作为第一文本向量E输出至下一编码层,或直接将所述文本特征向量M输出所述解码器模型的解码层;
所述音素提取模块用于将外部输入的原始文本S o 进行音素信息的提取,并对所提取的音素信息进行编码,得到若干个初始音素向量V并将其输出至解码词嵌入模块;
所述解码词嵌入模块用于分别将若干个所述初始音素向量V转换为指定维度的第一音素向量e,并将若干个所述第一音素向量e输出至所述第一解码多头注意力计算模块;
所述第一解码多头注意力计算模块用于分别对若干个所述第一音素向量e进行多头自注意力计算,得到若干个第二音素向量A并将其输出至所述解码层;
所述解码层用于融合若干个第二音素向量A得到音素特征向量V p 结合所述文本特征向量M以及所述音素特征向量V p 进行解码得到解码特征向量V d ,并将所述解码特征向量V d 作为其中一个第二音素向量A输出至下一解码层,或直接将所述解码特征向量V d 作为对所述原始文本S o 纠错后的文本。
2.根据权利要求1所述的非对齐文本纠错模型,其特征在于,
所述编码层包括编码多头注意力计算模块、第一编码归一化模块、编码前向传播模块和第二编码归一化模块;
所述编码多头注意力计算模块用于对所述第一文本向量E进行多头自注意力计算,得到第二文本向量a并将其输出至第一编码归一化模块;
所述第一编码归一化模块用于对所述第二文本向量a进行归一化处理,得到第三文本向量V a 并将其输出至编码前向传播模块;
所述编码前向传播模块用于对所述第三文本向量V a 进行前向传播处理,得到第四文本向量V f 并将其传输至第二编码归一化模块;
所述第二编码归一化模块用于对所述第四文本向量V f 进行归一化处理,得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层,或直接将所述文本特征向量M输出至所述解码层。
3.根据权利要求1所述的非对齐文本纠错模型,其特征在于,
所述解码层包括向量融合模块、第二解码多头注意力计算模块、第一解码归一化模块、解码前向传播模块和第二解码归一化模块;
所述向量融合模块用于融合若干个第二音素向量A,得到音素特征向量V p 并将其输出至第二解码多头注意力计算模块;
所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V p 进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块;
所述第一解码归一化模块用于对所述融合注意力向量N进行归一化处理,得到第一解码向量V A 并将其输出至解码前向传播模块;
所述解码前向传播模块用于对所述第一解码向量V A 进行前向传播处理,得到第二解码向量V F 并将其传输至第二解码归一化模块;
所述第二解码归一化模块用于对所述第二解码向量V F 进行归一化处理,得到解码特征向量V d 并将其作为其中一个第二音素向量A输出至下一层解码层,或直接将所述解码特征向量V d 作为对所述原始文本S o 纠错后的文本。
4.根据权利要求3所述的非对齐文本纠错模型,其特征在于,
所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V p 进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块,具体包括:
所述第二解码多头注意力计算模块用于根据式子
Figure 528646DEST_PATH_IMAGE001
结合所述文本特征向量M和所述音素特征向量V p 进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块;其中,所述K 1 V 1 为所述文本特征向量M的线性变换,具体根据式子
Figure 495465DEST_PATH_IMAGE002
Figure 735953DEST_PATH_IMAGE003
对所述文本特征向量M进行线性变换,所述W k W v 为所述非对齐文本纠错模型的训练参数;所述Q 3 为音素特征向量V p 的线性变换,具体根据式子
Figure 155433DEST_PATH_IMAGE004
对音素特征向量V p 进行线性变换,W q 为所述非对齐文本纠错模型的训练参数;d 1 K 1 的维度;
Figure 241201DEST_PATH_IMAGE005
为所述K 1 的转置矩阵。
5.根据权利要求3所述的非对齐文本纠错模型,其特征在于,
所述音素信息包括拼音声母信息和拼音韵母信息;
若干个初始音素向量V包括声母初始音素向量V i 和韵母初始音素向量V f
相应地,若干个第一音素向量e包括第一声母音素向量e i 和第一韵母音素向量e f
相应地,若干个第二音素向量A包括第二声母音素向量A i 和第二韵母音素向量A f
6.根据权利要求5所述的非对齐文本纠错模型,其特征在于,
所述向量融合模块用于根据
Figure 62526DEST_PATH_IMAGE006
融合若干个第二音素向量A,得到音素特征向量V p 并将其输出至第二解码多头注意力计算模块;其中,所述W i 和所述W f 为所述非对齐文本纠错模型的训练参数。
7.根据权利要求2所述的非对齐文本纠错模型,其特征在于,
所述编码多头注意力计算模块和所述第一编码归一化模块之间,以及所述编码前向传播模块和所述第二编码归一化模块之间均利用残差网络连接。
8.根据权利要求3~6任一项所述的非对齐文本纠错模型,其特征在于,
所述第二解码多头注意力和所述第一解码归一化模块之间,以及所述解码前向传播模块和第二解码归一化模块之间均利用残差网络连接。
9.一种非对齐文本纠错模型的训练方法,其特征在于,包括:
构造训练数据集,随机删除、替换和/或重复所述训练数据集中各个样本的内容,得到预处理后的训练数据集;
初始化由编码器和解码器组成的神经网络模型,并将所述训练数据集分批次输入所述神经网络模型进行训练,直至所述神经网络的损失函数的函数值不再明显降低,得到权利要求1~8任一项所述的非对齐文本纠错模型。
10.一种非对齐文本的纠错方法,其特征在于,包括:
将待处理的原始文本输入权利要求1~8任一项所述的非对齐文本纠错模型,以使所述非对齐文本纠错模型对所述待处理的原始文本进行纠错,并输出所述待处理的原始文本的纠错后的文本。
CN202210696857.6A 2022-06-20 2022-06-20 非对齐文本的纠错模型、训练及纠错方法 Active CN114781377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210696857.6A CN114781377B (zh) 2022-06-20 2022-06-20 非对齐文本的纠错模型、训练及纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210696857.6A CN114781377B (zh) 2022-06-20 2022-06-20 非对齐文本的纠错模型、训练及纠错方法

Publications (2)

Publication Number Publication Date
CN114781377A true CN114781377A (zh) 2022-07-22
CN114781377B CN114781377B (zh) 2022-09-09

Family

ID=82420349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210696857.6A Active CN114781377B (zh) 2022-06-20 2022-06-20 非对齐文本的纠错模型、训练及纠错方法

Country Status (1)

Country Link
CN (1) CN114781377B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665675A (zh) * 2023-07-25 2023-08-29 上海蜜度信息技术有限公司 语音转写方法、***、电子设备和存储介质
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297833A (zh) * 2020-02-21 2021-08-24 华为技术有限公司 文本纠错方法、装置、终端设备及计算机存储介质
CN113409757A (zh) * 2020-12-23 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的音频生成方法、装置、设备及存储介质
US20220051654A1 (en) * 2020-08-13 2022-02-17 Google Llc Two-Level Speech Prosody Transfer
CN114373480A (zh) * 2021-12-17 2022-04-19 腾讯音乐娱乐科技(深圳)有限公司 语音对齐网络的训练方法、语音对齐方法及电子设备
CN114444479A (zh) * 2022-04-11 2022-05-06 南京云问网络技术有限公司 一种端到端中文语音文本纠错方法、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297833A (zh) * 2020-02-21 2021-08-24 华为技术有限公司 文本纠错方法、装置、终端设备及计算机存储介质
US20220051654A1 (en) * 2020-08-13 2022-02-17 Google Llc Two-Level Speech Prosody Transfer
CN113409757A (zh) * 2020-12-23 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的音频生成方法、装置、设备及存储介质
CN114373480A (zh) * 2021-12-17 2022-04-19 腾讯音乐娱乐科技(深圳)有限公司 语音对齐网络的训练方法、语音对齐方法及电子设备
CN114444479A (zh) * 2022-04-11 2022-05-06 南京云问网络技术有限公司 一种端到端中文语音文本纠错方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL POVEY ET AL.: "A Time-Restricted Self-Attention Layer for ASR", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
龙星延 等: "结合瓶颈特征的注意力声学模型", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665675A (zh) * 2023-07-25 2023-08-29 上海蜜度信息技术有限公司 语音转写方法、***、电子设备和存储介质
CN116665675B (zh) * 2023-07-25 2023-12-12 上海蜜度信息技术有限公司 语音转写方法、***、电子设备和存储介质
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN116991874B (zh) * 2023-09-26 2024-03-01 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备

Also Published As

Publication number Publication date
CN114781377B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN114444479B (zh) 一种端到端中文语音文本纠错方法、装置和存储介质
CN114781377B (zh) 非对齐文本的纠错模型、训练及纠错方法
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN109522403B (zh) 一种基于融合编码的摘要文本生成方法
CN110765772A (zh) 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN113569562B (zh) 一种降低端到端语音翻译跨模态跨语言障碍的方法及***
CN111563166A (zh) 一种针对数学问题分类的预训练模型方法
CN111783477B (zh) 一种语音翻译方法及***
CN113283244A (zh) 一种基于预训练模型的招投标数据命名实体识别方法
CN115935957B (zh) 一种基于句法分析的句子语法纠错方法及***
CN113327595B (zh) 发音偏误检测方法、装置及存储介质
US20240135089A1 (en) Text error correction method, system, device, and storage medium
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN112349288A (zh) 基于拼音约束联合学习的汉语语音识别方法
CN117437909B (zh) 基于热词特征向量自注意力机制的语音识别模型构建方法
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN116562275B (zh) 一种结合实体属性图的自动文本摘要方法
CN115223549A (zh) 一种越南语语音识别语料构建方法
CN115270771A (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN114239548A (zh) 一种融合依存句法和指针生成网络的三元组抽取方法
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN115034236A (zh) 一种基于知识蒸馏的中英机器翻译方法
CN114912441A (zh) 文本纠错模型生成方法、纠错方法、***、设备和介质
CN114005434A (zh) 端到端语音的置信度计算方法、装置、服务器和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant