CN114255744A - 一种在线的端到端自动语音识别方法 - Google Patents

一种在线的端到端自动语音识别方法 Download PDF

Info

Publication number
CN114255744A
CN114255744A CN202111531205.9A CN202111531205A CN114255744A CN 114255744 A CN114255744 A CN 114255744A CN 202111531205 A CN202111531205 A CN 202111531205A CN 114255744 A CN114255744 A CN 114255744A
Authority
CN
China
Prior art keywords
encoder
ctc
decoder
aed
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111531205.9A
Other languages
English (en)
Inventor
宋虎
王建华
高明
尹青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Original Assignee
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong New Generation Information Industry Technology Research Institute Co Ltd filed Critical Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority to CN202111531205.9A priority Critical patent/CN114255744A/zh
Publication of CN114255744A publication Critical patent/CN114255744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种在线的端到端自动语音识别方法,属于语音识别技术领域,用联合CTC/注意力结构,并使用基于块的注意力机制,使编码器流式地工作,以及动态块技术来获得不定长的未来上下文信息;该方法的实现包括:首先提取音频序列的FBank特征并基于动态块技术对序列进行分块,使用基于conformer的编码器获得基于块的注意力,对序列块进行编码;然后,CTC解码器将编码器的输出作为输入,使用前缀波束搜索进行第一路的解码,获得数个候选;AED解码器将CTC的候选输出进行重新评分,进行第二路的解码,以获得最终推理结果。本发明能够保证精度和低延迟的条件下,将端到端模型产品化并部署到端侧。

Description

一种在线的端到端自动语音识别方法
技术领域
本发明涉及语音识别技术领域,具体地说是一种在线的端到端自动语音识别方法。
背景技术
随着人工智能技术的飞速发展,自动语音识别已经进入工业、通信、家庭服务、消费电子产品等多个领域。目前,自动语音识别主要用于会议字幕、手机输入法、智能助手语音交互和各种后台数据转录等场景中。自动语音识别技术主要分为流式任务和非流式任务两种。流式任务着眼于识别的实时性,主要的解决方案有CTC、RNN-T和一些基于注意力机制的变体。而非流式任务的主要解决方案主要是基于注意力机制的编码解码(AED)模型,其解码思路为自回归的解码方式,包括LAS、Transformer和Conformer等。
自动语音识别(ASR)的准确性自深度神经网络出现后得到了显著提升。基于DNN的混合模型使用DNN代替传统的GMM模型,同时保留了声学模型、语言模型、词汇模型等。最近,自动语音识别领域出现了从基于DNN的混合模型到端到端模型的趋势,端到端模型在单一模型内直接将输入的语言序列转换为输出符号序列,而且摒弃了传统混合模型中的各种模型(如前所述)。端到端模型有几个主要的优点:首先,端到端模型使用一个损失函数对整个网络进行优化,而传统混合模型对网络中的每个部分进行单独优化,无法保证全局最优;其次,端到端加密模型直接输出字符或单词,大大简化了语音识别管道设计;第三,由于ASR使用单一网络,因此端到端模型比传统的混合模型更紧凑。因此,端到端模型可以以较高的准确率和较低的延迟部署在设备上。但是,由于传统的混合模型经历了数十年的优化用以解决实际需求(比如流式、适应能力、延迟等),因此,基于DNN的混合模型仍然大量应用于商用自动语音识别***中。当前,端到端模型亟待解决的问题是,如何在保证精度和低延迟的条件下,成功地产品化并部署到端侧。
发明内容
本发明的技术任务是针对以上不足之处,提供一种在线的端到端自动语音识别方法及***,能够保证精度和低延迟的条件下,将端到端模型产品化并部署到端侧。
本发明解决其技术问题所采用的技术方案是:
一种在线的端到端自动语音识别方法,采用联合CTC/注意力结构,并使用基于块的注意力机制,使编码器流式地工作,以及动态块技术来获得不定长的未来上下文信息,这样模型的延迟主要与块的长度和右侧序列的长度有关;
该方法的实现包括:
首先提取音频序列的FBank特征并基于动态块技术对序列进行分块,使用基于conformer的编码器获得基于块的注意力,对序列块进行编码;
然后,CTC解码器将编码器的输出作为输入,使用前缀波束搜索进行第一路的解码,获得数个候选;
AED解码器将CTC的候选输出进行重新评分,进行第二路的解码,以获得最终推理结果;
另外,通过一个额外编码器对编码器的输出进行进一步编码,为第二路AED解码器产生更好的输入。
进一步的,本方法通过两路模型实现,其中,
第一路使用CTC编码器产生n个最佳候选,第二路首先使用一个额外编码器对动态块编码器的输出进行进一步的编码,然后使用基于注意力的编码-解码模型AED确定最终的输出;
该两路模型包括四部分:动态块编码器、CTC解码器、额外编码器和AED解码器,
动态块编码器使用动态块技术来获得流式的输出,由一系列的Conformer块堆叠而成的,在动态块编码器的顶端,使用因果卷积来配合动态块技术;
CTC解码器使用前缀波束搜索来产生n个最佳候选,它由线性层和softmax层组成的,使用CTC损失函数作为训练目标;
额外编码器用于使动态块编码器的输出更适合于第二路的AED解码器,由一系列的transformer组成的;
AED解码器对第一路CTC解码器产生的n个最佳候选进行rescoring,输出最终结果,也是由一系列的transformer组成的。
优选的,所述动态块编码器的工作过程如下,
1)、首先,把输入语音序列提取log-mel filterbank能量特征,并按输入时间顺序分割为一个个块,记作xi=(xi 1,…,xi T),其中T表示语音块的长度,i表示块的序列;
采用chunk-wise自注意力,将当前序列块之前Nl帧的输入作为历史上下文信息,将当前块之后Nr帧的输入作为未来上下文信息,设当前块的长度为chunksize,则最终动态块编码器的感受野为Nl+chunksize+Nr
采用WeNet中的动态块技术,训练中对不同批次的序列块长度进行随机选择,公式如下:
Figure BDA0003411533740000031
其中,lmax表示最大语音长度,U表示服从均匀分布,Nr表示当前序列块之后输入的帧,x为某一随机数;
由于采用了动态块技术,模型捕捉到了不同长度的信息,因此可以充分学习如何在不同长度的未来上下文可见时进行准确的预测;这样,整个编码器的延迟主要与chunksize和Nr有关;
2)、动态块编码器逐块地处理输入,使用conformer捕捉上下文信息,并采用因果卷积代替conformer中的普通卷积;
3)、为了控制编码器的延迟,编码器的顶部放置一个一维卷积层,卷积核尺寸为Nr+1,这样,整个编码器的延迟主要与chunksize和Nr有关;其中,未来上下文信息引入的延迟为40×(Nr+1),40表示下采样率为4,帧移为10ms。
优选的,输入语音序列提取log-mel filterbank能量特征的特征维数为512。
优选的,对于动态块编码器输出的编码进行解码,其过程如下:
在训练时,联合损失函数如式(2)所示:
L=αLAED+(1-α)LCTC (2)
其中,LCTC表示CTC解码器的损失,LAED表示AED解码器的损失,α是超参数,用来平衡AED损失和CTC损失的重要性;
解码阶段,采用在线联合解码方法,如式(3)所示:
Figure BDA0003411533740000032
其中,PAED、PT-CTC分别表示AED和CTC解码器输出对于假设Y的概率,Plm表示语言模型的概率。
进一步的,CTC解码器流式地输出n个最佳候选,记作y=(y1,…,ys),其中s表示标签序列的长度包含一个线性层和log softmax层;
这里采用标准的CTC解码器结构,但是采用截断CTC前缀概率,计算公式如式(4)所示:
Figure BDA0003411533740000041
该公式是CTC前缀搜索的近似,但是该公式移除了CTC前缀概率的全局依赖性,因此,可以更有效地进行在线解码。
优选的,AED解码器的工作过程如下:
如上所述,采用了一个额外的编码器对编码器的输出进行进一步编码,额外编码器采用了简单的两层conformer,为第二路AED解码器产生更好的输入,记为e1,...,eT
AED解码器的结构,是在标准的decoder基础上,使用MTA模块替换多头注意力模块,前馈层和掩膜多头注意力模块不变;
与MoChA类似,MTA模块的输出概率如式(5)所示:
Figure BDA0003411533740000042
进一步的,所述MTA模块还可以实现高效的并行计算,如式(6)所示:
MTA(Q,K,V)=(Pe cumprod(1-P))VWv (6)
其中,P表示概率矩阵,W是训练参数,cumprod(·)表示累积连乘,e表示点乘。
本发明还要求保护一种在线的端到端自动语音识别装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述的在线的端到端自动语音识别方法。
本发明还要求保护计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行执行上述的在线的端到端自动语音识别方法。
本发明的一种在线的端到端自动语音识别方法与现有技术相比,具有以下有益效果:
本方法采用了联合CTC/注意力结构,使用了基于块的注意力机制,使编码器流式地工作,并使用了动态块技术来获得不定长的未来上下文信息,因此,模型的延迟主要与块的长度和右侧序列的长度有关。能够保证精度和低延迟的条件下,成功地产品化并部署到端侧。
附图说明
图1是本发明实施例提供的在线的端到端自动语音识别方法的两路模型结构示图;
图2是本发明实施例提供的动态块编码器的工作流程示图;
图3是本发明实施例提供的AED解码器的工作流程示图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明实施例提供了一种在线的端到端自动语音识别方法,采用联合CTC/注意力结构,并使用基于块的注意力机制,使编码器流式地工作,使用动态块技术来获得不定长的未来上下文信息,这样模型的延迟主要与块的长度和右侧序列的长度有关;
首先提取音频序列的FBank特征并基于动态块技术对序列进行分块,使用基于conformer的编码器获得基于块的注意力,对序列块进行编码;
然后,CTC解码器将编码器的输出作为输入,使用前缀波束搜索进行第一路的解码,获得数个候选;
AED解码器将CTC的候选输出进行重新评分,进行第二路的解码,以获得最终推理结果;
此外,通过一个额外编码器对编码器的输出进行进一步编码,为第二路AED解码器产生更好的输入。
如图1所示,本方法通过两路模型实现,其中,
第一路使用CTC编码器产生n个最佳候选,第二路首先使用一个额外编码器对动态块编码器的输出进行进一步的编码,然后使用基于注意力的编码-解码模型AED确定最终的输出。
该两路模型包括四部分:动态块编码器、CTC解码器、额外编码器和AED解码器。
1、动态块编码器使用动态块技术来获得流式的输出,由一系列的Conformer块堆叠而成的,在动态块编码器的顶端,使用因果卷积来配合动态块技术;
CTC解码器使用前缀波束搜索(prefix beam search)来产生n个最佳候选,它由线性层和softmax层组成的,使用CTC损失函数作为训练目标;
额外编码器用于使动态块编码器的输出更适合于第二路的AED解码器,由一系列的transformer组成的;
AED解码器对第一路CTC解码器产生的n个最佳候选进行rescoring,输出最终结果,也是由一系列的transformer组成的。
如图2所示,所述动态块编码器的工作过程如下,
1)、首先,把输入语音序列提取log-mel filterbank能量特征(特征维数512),并按输入时间顺序分割为一个个块,记作xi=(xi 1,...,xi T),其中T表示语音块的长度,i表示块的序列。
采用chunk-wise自注意力,将当前序列块之前Nl帧的输入作为历史上下文信息,将当前块之后Nr帧的输入作为未来上下文信息,设当前块的长度为chunksize,则最终动态块编码器的感受野为Nl+chunksize+Nr
此外,采用WeNet中的动态块技术,训练中对不同批次的序列块长度进行随机选择,公式如式(1)所示:
Figure BDA0003411533740000061
其中,lmax表示最大语音长度,U表示服从均匀分布,Nr表示当前序列块之后输入的帧,x为某一随机数。
由于采用了动态块技术,模型捕捉到了不同长度的信息,因此可以充分学习如何在不同长度的未来上下文可见时进行准确的预测。这样,整个编码器的延迟主要与chunksize和Nr有关。
2)、动态块编码器逐块地处理输入,使用conformer捕捉上下文信息,但是由于conformer中的卷积才做会破坏基于块的注意力,因此采用因果卷积代替conformer中的普通卷积;
3)、为了控制编码器的延迟,编码器的顶部放置一个一维卷积层,卷积核尺寸为Nr+1,这样,整个编码器的延迟主要与chunksize和Nr有关。其中,未来上下文信息引入的延迟为40×(Nr+1),40表示下采样率为4,帧移为10ms。
2、对于动态块编码器输出的编码进行解码,其过程如下:
在训练时,联合损失函数如式(2)所示:
L=αLAED+(1-α)LCTC (2)
其中,LCTC表示CTC解码器的损失,LAED表示AED解码器的损失,α是超参数,用来平衡AED损失和CTC损失的重要性。
解码阶段,采用在线联合解码方法,如式(3)所示:
Figure BDA0003411533740000071
其中,PAED、PT-CTC分别表示AED和CTC解码器输出对于假设Y的概率,Plm表示语言模型的概率。
2.1、CTC解码器:
CTC解码器流式地输出n个最佳候选,记作y=(y1,...,ys),其中s表示标签序列的长度包含一个线性层和log softmax层;
这里采用标准的CTC解码器结构,但是采用截断CTC(T-CTC)前缀概率,计算公式如式(4)所示:
Figure BDA0003411533740000072
该公式是CTC前缀搜索的近似,但是该公式移除了CTC前缀概率的全局依赖性,因此,可以更有效地进行在线解码。
2.2、AED解码器:
如上所述,采用了一个额外的编码器对编码器的输出进行进一步编码,额外编码器采用了简单的两层conformer,为第二路AED解码器产生更好的输入,记为e1,...,eT
AED解码器的结构如图3所示,与标准的decoder相比,使用MTA模块替换多头注意力模块,前馈层和掩膜多头注意力模块不变;
与MoChA类似,MTA模块的输出概率如式(5)所示:
Figure BDA0003411533740000073
此外,所述MTA模块还可以实现高效的并行计算,如式(6)所示:
MTA(Q,K,V)=(Pe cumprod(1-P))VWv (6)
其中,P表示概率矩阵,W是训练参数,cumprod(·)表示累积连乘,e表示点乘。
本发明实施例还提供了一种在线的端到端自动语音识别装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行本发明上述实施例中所述的在线的端到端自动语音识别方法。
本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行本发明上述实施例中所述的在线的端到端自动语音识别方法。具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种在线的端到端自动语音识别方法,其特征在于采用联合CTC/注意力结构,并使用基于块的注意力机制,使编码器流式地工作,以及动态块技术来获得不定长的未来上下文信息;该方法的实现包括:
首先提取音频序列的FBank特征并基于动态块技术对序列进行分块,使用基于conformer的编码器获得基于块的注意力,对序列块进行编码;
然后,CTC解码器将编码器的输出作为输入,使用前缀波束搜索进行第一路的解码,获得数个候选;
AED解码器将CTC的候选输出进行重新评分,进行第二路的解码,以获得最终推理结果;
另外,通过一个额外编码器对编码器的输出进行进一步编码,为第二路AED解码器产生更好的输入。
2.根据权利要求1所述的一种在线的端到端自动语音识别方法,其特征在于本方法通过两路模型实现,其中,
第一路使用CTC编码器产生n个最佳候选,第二路首先使用一个额外编码器对动态块编码器的输出进行进一步的编码,然后使用基于注意力的编码-解码模型AED确定最终的输出;
该两路模型包括四部分:动态块编码器、CTC解码器、额外编码器和AED解码器,
动态块编码器使用动态块技术来获得流式的输出,由一系列的Conformer块堆叠而成的,在动态块编码器的顶端,使用因果卷积来配合动态块技术;
CTC解码器使用前缀波束搜索来产生n个最佳候选,它由线性层和softmax层组成的,使用CTC损失函数作为训练目标;
额外编码器用于使动态块编码器的输出更适合于第二路的AED解码器,由一系列的transformer组成的;
AED解码器对第一路CTC解码器产生的n个最佳候选进行rescoring,输出最终结果,也是由一系列的transformer组成的。
3.根据权利要求2所述的一种在线的端到端自动语音识别方法,其特征在于所述动态块编码器的工作过程如下,
1)、首先,把输入语音序列提取log-mel filterbank能量特征,并按输入时间顺序分割为一个个块,记作xi=(xi 1,...,xi T),其中T表示语音块的长度,i表示块的序列;
采用chunk-wise自注意力,将当前序列块之前Nl帧的输入作为历史上下文信息,将当前块之后Nr帧的输入作为未来上下文信息,设当前块的长度为chunksize,则最终动态块编码器的感受野为Nl+chunksize+Nr
采用WeNet中的动态块技术,训练中对不同批次的序列块长度进行随机选择,公式如下:
Figure FDA0003411533730000021
其中,lmax表示最大语音长度,U表示服从均匀分布,Nr表示当前序列块之后输入的帧,x为某一随机数;
由于采用了动态块技术,模型捕捉到了不同长度的信息,因此可以充分学习如何在不同长度的未来上下文可见时进行准确的预测;这样,整个编码器的延迟主要与chunksize和Nr有关;
2)、动态块编码器逐块地处理输入,使用conformer捕捉上下文信息,并采用因果卷积代替conformer中的普通卷积;
3)、为了控制编码器的延迟,编码器的顶部放置一个一维卷积层,卷积核尺寸为Nr+1,这样,整个编码器的延迟主要与chunksize和Nr有关;其中,未来上下文信息引入的延迟为40×(Nr+1),40表示下采样率为4,帧移为10ms。
4.根据权利要求3所述的一种在线的端到端自动语音识别方法,其特征在于输入语音序列提取log-mel filterbank能量特征的特征维数为512。
5.根据权利要求1-4任一所述的一种在线的端到端自动语音识别方法,其特征在于对于动态块编码器输出的编码进行解码,其过程如下:
在训练时,联合损失函数如式(2)所示:
L=αLAED+(1-α)LCTC (2)
其中,LCTC表示CTC解码器的损失,LAED表示AED解码器的损失,α是超参数,用来平衡AED损失和CTC损失的重要性;
解码阶段,采用在线联合解码方法,如式(3)所示:
Figure FDA0003411533730000022
其中,PAED、PT-CTC分别表示AED和CTC解码器输出对于假设Y的概率,Plm表示语言模型的概率。
6.根据权利要求5所述的一种在线的端到端自动语音识别方法,其特征在于,CTC解码器流式地输出n个最佳候选,记作y=(y1,...,ys),其中s表示标签序列的长度包含一个线性层和log softmax层;
这里采用标准的CTC解码器结构,但是采用截断CTC前缀概率,计算公式如式(4)所示:
Figure FDA0003411533730000031
该公式是CTC前缀搜索的近似,但是该公式移除了CTC前缀概率的全局依赖性,因此,可以更有效地进行在线解码。
7.根据权利要求6所述的一种在线的端到端自动语音识别方法,其特征在于,AED解码器的工作过程如下:
如上所述,采用了一个额外的编码器对编码器的输出进行进一步编码,额外编码器采用了简单的两层conformer,为第二路AED解码器产生更好的输入,记为e1,...,eT
AED解码器的结构,是在标准的decoder基础上,使用MTA模块替换多头注意力模块,前馈层和掩膜多头注意力模块不变;
与MoChA类似,MTA模块的输出概率如式(5)所示:
Figure FDA0003411533730000032
8.根据权利要求7所述的一种在线的端到端自动语音识别方法,其特征在于所述MTA模块还可以实现高效的并行计算,如式(6)所示:
MTA(Q,K,V)=(Pe cumprod(1-P))VWv (6)
其中,P表示概率矩阵,W是训练参数,cumprod(·)表示累积连乘,e表示点乘。
9.一种在线的端到端自动语音识别装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至8任一所述的方法。
10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至8任一所述的方法。
CN202111531205.9A 2021-12-15 2021-12-15 一种在线的端到端自动语音识别方法 Pending CN114255744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111531205.9A CN114255744A (zh) 2021-12-15 2021-12-15 一种在线的端到端自动语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111531205.9A CN114255744A (zh) 2021-12-15 2021-12-15 一种在线的端到端自动语音识别方法

Publications (1)

Publication Number Publication Date
CN114255744A true CN114255744A (zh) 2022-03-29

Family

ID=80792307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111531205.9A Pending CN114255744A (zh) 2021-12-15 2021-12-15 一种在线的端到端自动语音识别方法

Country Status (1)

Country Link
CN (1) CN114255744A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631379A (zh) * 2023-07-20 2023-08-22 中邮消费金融有限公司 语音识别方法、装置、设备及存储介质
CN117275484A (zh) * 2023-11-17 2023-12-22 深圳市友杰智新科技有限公司 命令词识别方法、装置、设备和介质
CN117558265A (zh) * 2024-01-12 2024-02-13 联通(广东)产业互联网有限公司 方言流式语音识别方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631379A (zh) * 2023-07-20 2023-08-22 中邮消费金融有限公司 语音识别方法、装置、设备及存储介质
CN116631379B (zh) * 2023-07-20 2023-09-26 中邮消费金融有限公司 语音识别方法、装置、设备及存储介质
CN117275484A (zh) * 2023-11-17 2023-12-22 深圳市友杰智新科技有限公司 命令词识别方法、装置、设备和介质
CN117275484B (zh) * 2023-11-17 2024-02-20 深圳市友杰智新科技有限公司 命令词识别方法、装置、设备和介质
CN117558265A (zh) * 2024-01-12 2024-02-13 联通(广东)产业互联网有限公司 方言流式语音识别方法、装置、电子设备及存储介质
CN117558265B (zh) * 2024-01-12 2024-04-19 联通(广东)产业互联网有限公司 方言流式语音识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN114255744A (zh) 一种在线的端到端自动语音识别方法
CN111862953B (zh) 语音识别模型的训练方法、语音识别方法及装置
CN106683677B (zh) 语音识别方法及装置
CN112037798A (zh) 基于触发式非自回归模型的语音识别方法及***
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及***
US11315548B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
CN113257248B (zh) 一种流式和非流式混合语音识别***及流式语音识别方法
CN111613215B (zh) 一种语音识别的方法及其装置
CN111783477B (zh) 一种语音翻译方法及***
CN111710326A (zh) 英文语音的合成方法及***、电子设备及存储介质
CN113241075A (zh) 一种基于残差高斯自注意力的Transformer端到端语音识别方法
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN115293132B (zh) 虚拟场景的对话处理方法、装置、电子设备及存储介质
Xiao et al. A Initial Attempt on Task-Specific Adaptation for Deep Neural Network-based Large Vocabulary Continuous Speech Recognition.
Ragni et al. Multi-language neural network language models
Chen et al. Speech bert embedding for improving prosody in neural tts
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN115019785A (zh) 流式语音识别方法、装置、电子设备及存储介质
CN115273830A (zh) 流式语音识别及模型训练的方法、装置及设备
KR101905827B1 (ko) 연속어 음성 인식 장치 및 방법
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN117496960A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
CN117012177A (zh) 语音合成方法、电子设备和存储介质
CN116312502A (zh) 基于顺序采样分块机制的端到端流式语音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination