CN113077785B - 一种端到端的多语言连续语音流语音内容识别方法及*** - Google Patents
一种端到端的多语言连续语音流语音内容识别方法及*** Download PDFInfo
- Publication number
- CN113077785B CN113077785B CN201911300918.7A CN201911300918A CN113077785B CN 113077785 B CN113077785 B CN 113077785B CN 201911300918 A CN201911300918 A CN 201911300918A CN 113077785 B CN113077785 B CN 113077785B
- Authority
- CN
- China
- Prior art keywords
- language
- vector
- speech
- level
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 121
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims description 30
- 230000007774 longterm Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明属于网络通信技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法,该方法包括:将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,提取语句级别语种状态后验概率分布向量;将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
Description
技术领域
本发明属于网络通信和语音识别技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法及***。
背景技术
目前,端到端识别框架已广泛应用于自动语音识别任务。由于端到端框架在构建语音识别***的过程中不依赖于发音词典,因此在构建新语言的语音识别***以及多语言语音识别***的过程中更加灵活。不仅如此,端到端语音识别模型可以对声学特征序列和文本建模单元序列之间的映射关系进行直接建模。相比于基于声学建模和语言建模的传统语音识别***,端到端框架将声学建模和语言学建模过程进行统一,有效地降低了语音识别***构建的复杂性。
在多语言语音识别***的构建过程,虽然端到端框架可以降低语音识别***构建的复杂性,但也给多语言语音识别带来了新问题。多语言端到端框架将多种语言的建模单元在一个统一的框架下进行建模,由于不同语言间发音机制以及语法规则存在较大差异,相比于单语言语音识别***来说,将多种语言进行联合建模会不可避免地在使得多语言建模单元相互混淆。现有的语音内容识别方法存在无法有效提升多语言语音识别***的语种区分性的问题。
发明内容
本发明的目的在于,为解决现有的语音识别方法存在上述缺陷,本发明提出了一种端到端的多语言连续语音流语音内容识别方法及***,具体涉及一种基于多注意力机制的端到端多语言的语音识别方法,该方法将语种分类信息引入到端到端建模过程中,并结合多注意训练机制有效提升多语言语音识别***的性能。
为了实现上述目的,本发明还提供了一种端到端的多语言连续语音流语音内容识别方法,该方法包括:
将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,输出语句级别语种状态后验概率分布向量;
将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
作为上述技术方案的改进之一,所述方法还包括:根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
作为上述技术方案的改进之一,所述方法还包括:基于深度神经网络的段级别语种分类模型的训练步骤,具体包括:
提取训练集的多语言连续语音流的帧级别的语音频谱特征,将所述帧级别语音频谱特征输入至该段级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级统计向量;
所述均值向量为:
所述方差向量为:
所述段级统计向量:
hsegment=Append(μ,σ) (6)
其中,hj为当前隐含层在j时刻的输出向量;T为长时统计周期;μ为长时统计的均值向量;σ为长时统计的方差向量;hsegment为段级统计向量;其中,所述段级统计向量是将均值向量和方差向量拼接在一起,其维度为hj维度的2倍;Append(μ,σ)表示将μ和σ进行拼接构成高维向量;
将段级统计向量hsegment作为下一隐含层的输入,根据段级别语种标签,通过误差计算和反向梯度回传过程训练,获得训练好的段级别语种分类模型,完成该段级别语种分类模型的建立。
作为上述技术方案的改进之一,所述多语言语音识别模型包括:编码网络、多个注意力机制模块和解码网络;其中,根据待识别的语言种类数目,设置对应数目的注意力机制模块;
根据待识别的语音频谱特征中包含的语言种类数目,设置对应数目的注意力机制模块。
作为上述技术方案的改进之一,所述注意力机制模块的训练步骤具体包括:
将语音特征的状态序列henc输入至对应的注意力机制模块,输出对应的输出状态序列;
根据公式(2),获得对应的输出序列:
el t,i=wTtanh(Wlhenc+Vlhdec i+Ul(Fl*al t,i-1)+bl) (2)
其中,l表示多语言的语言种类标号;el t,i表示第t帧待识别的语音频谱特征的注意力机制模块的输出状态;wT,Wl,Vl,Ul分别表示第一变换矩阵、第二变换矩阵、第三变换矩阵和第四变换矩阵;bl表示偏置向量;tanh()表示非线性激活函数;Fl表示卷积函数;表示第t帧编码网络的输出状态;hdec i表示解码网络的第i个输出建模单元的隐含层状态;al t,i-1为第l个语言种类的注意力权重向量在第i-1个输出建模单元的第t帧对应的权重值;
根据该对应的输出状态序列,获得对应的语言种类的注意力权重向量;
具体地,根据公式(3),获得对应的语言种类的注意力权重向量:
其中,al t,i表示第l个语言种类的注意力权重向量在第i个输出建模单元的第t帧对应的权重值;el t′,i为第t′帧待识别的语音频谱特征在第i个输出建模单元对应的注意力机制模块的输出状态;1≤t′≤T为语音特征序列的对应帧。
作为上述技术方案的改进之一,所述将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果;具体为:
将每一种语言种类的待识别的语音频谱特征输入至编码网络,输出对应的语音特征的状态序列;
根据公式(1),获得对应的语音特征的状态序列henc:
henc=Encoder(x) (1)
其中,为语音特征的状态序列,即编码网络的隐层状态输出序列;x=(x1,x2,...,xt,...,xT)为待识别的语音频谱特征序列,即输入特征;其中,T为输入特征序列的总帧数;Encoder()为基于卷积神经网络/双向长短时记忆网络的编码网络的计算函数;
将该对应的语音特征状态序列与对应的语言种类的注意力权重向量进行加权求和,获得对应的注意力上下文内容向量;
具体地,根据公式(4),获得对应的注意力上下文内容向量;
其中,cl i表示对应的注意力上下文内容向量,即第l个语言种类对编码网络加权求和得到的注意力上下文内容向量;
在多注意力机制条件下,通过语种状态分布向量Vl与对应的注意力上下文内容向量进行加权求和,得到最终的注意力上下文内容向量:
其中,Vl为语种状态分布向量,即Vl=(wl 1,wl 2,...,wl n,...,wl N);N为待识别的多语言的语言种类数目;
将所述最终的注意力上下文内容向量输入至解码网络,获得该语言种类的语音识别结果。
本发明还提供了一种端到端的多语言连续语音流语音内容识别***,所述***包括:提取模块和语音识别模块;
所述提取模块,用于将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量;
所述语音识别模块,将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
作为上述技术方案的改进之一,所述***还包括:语音结果获取模块,用于根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
本发明与现有技术相比的有益效果是:
本发明的方法是基于多注意力机制的端到端多语言语音识别方法,该方法在基于注意力机制的端到端框架下为每种语言构建特定的注意力机制模块,该注意力机制模块对特定语言的输入频谱特征序列与输出标注序列的映射关系进行语言特定建模。此外通过将语种分类信息引入到端到端建模过程中,对多注意力机制模块的输出信息进行加权,从而可以有效提升多语言语音识别***的语种区分性。
附图说明
图1是本发明的一种端到端的多语言连续语音流语音内容识别方法的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种端到端的多语言连续语音流语音内容识别方法,该方法包括:
将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量Vl,获得对应语言种类的语种分类结果;其中,对应语言种类的语种分类结果为语句级别语种状态后验概率分布向量Vl;待识别的语音频谱特征是通过对多语言连续语音流进行傅里叶变换得到的频域表示,多语言连续语音流是指语音流中只包含一种语言信息的语音流,但是语音流的语言种类未知的情况。
具体地,基于待识别的语音频谱特征序列输入到所述段级别语种分类模型,通过神经网络前向计算,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量Vl,获得对应语言种类的语种分类结果。
其中,所述基于深度神经网络的段级别语种分类模型的建立具体包括:
提取训练集的多语言连续语音流的帧级别的语音频谱特征,将所述帧级别语音频谱特征输入至该段级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级统计向量;
所述均值向量为:
所述方差向量为:
所述段级统计向量:
hsegment=Append(μ,σ) (6)
其中,hj为当前隐含层j时刻的输出向量;T为长时统计周期;μ为长时统计的均值向量;σ为长时统计的方差向量;hsegment为段级统计向量;其中,所述段级统计向量是将均值向量和方差向量拼接在一起,其维度为hj维度的2倍;Append(μ,σ)表示将μ和σ进行拼接构成高维向量;
将段级统计向量hsegment作为下一隐含层的输入,根据段级别语种标签,通过误差计算和反向梯度回传过程训练,获得训练好的段级别语种分类模型,完成该段级别语种分类模型的建立。其中,所述语种标签为带有语言种类的标签。
将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
其中,如图1所示,所述多语言语音识别模型包括:编码网络、多个注意力机制模块(注意力机制模块1,注意力机制模块2,…,注意力机制模块N)和解码网络。其中,根据待识别的语言种类数目,设置对应数目的注意力机制模块;
具体地,根据待识别的语音频谱特征中包含的语言种类数目,设置对应数目的注意力机制模块;
将每一种语言种类的待识别的语音频谱特征输入至编码网络,输出对应的语音特征的状态序列;
具体地,根据公式(1),获得对应的语音特征的状态序列henc:
henc=Encoder(x) (1)
其中,henc=(henc 1,henc 2,...,henc t,...,henc T)为语音特征的状态序列,即编码网络的隐层状态输出序列;x=(x1,x2,...,xt,...,xT)为待识别的语音频谱特征序列,即输入特征;其中,T为输入特征序列的总帧数;Encoder()为基于卷积神经网络/双向长短时记忆网络(CNN/BLSTM)的编码网络的计算函数。
将对应的语音特征的状态序列henc输入至对应的注意力机制模块,输出对应的输出状态序列;
具体地,根据公式(2),获得对应的输出序列:
el t,i=wTtanh(Wlhenc+Vlhdec i+Ul(Fl*al t,i-1)+bl) (2)
其中,l表示多语言的语言种类标号;el t,i表示第t帧待识别的语音频谱特征的注意力机制模块的输出状态;wT,Wl,Vl,Ul分别表示第一变换矩阵、第二变换矩阵、第三变换矩阵和第四变换矩阵;bl表示偏置向量;tanh()表示非线性激活函数;Fl表示卷积函数;henc t表示第t帧编码网络的输出状态;hdec i表示解码网络的第i个输出建模单元的隐含层状态;al t,i-1为第l个语言种类的注意力权重向量在第i-1个输出建模单元的第t帧对应的权重值;
根据该对应的输出状态序列,获得对应的语言种类的注意力权重向量;
具体地,根据公式(3),获得对应的语言种类的注意力权重向量:
其中,al t,i表示表示第l个语言种类的注意力权重向量在第i个输出建模单元的第t帧对应的权重值;el t′,i为第t′帧待识别的语音频谱特征在第i个输出建模单元对应的注意力机制模块的输出状态;1≤t′≤T为语音特征序列的对应帧;
将该对应的语音特征状态序列与对应的语言种类的注意力权重向量进行加权求和,获得对应的注意力上下文内容向量;
具体地,根据公式(4),获得对应的注意力上下文内容向量;
其中,cl i表示对应的注意力上下文内容向量,即第l个语言种类对编码网络加权求和得到的注意力上下文内容向量;
在多注意力机制条件下,通过语种状态分布向量Vl与对应的注意力上下文内容向量进行加权求和,得到最终的注意力上下文内容向量:
其中,Vl为语种状态分布向量,即Vl=(wl 1,wl 2,...,wl n,...,wl N);N为待识别的多语言的语言种类数目;
将所述最终的注意力上下文内容向量输入至解码网络,获得该语言种类的语音识别结果。
所述方法还包括:将该语言种类的语种分类结果,结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
具体地,为了预测解码网络的第i个输出建模单元yi的概率,所述的输出建模单元为图1所示的语种-1输出建模单元,…,语种-N输出建模单元,需要首先预测解码网络的第i个输出建模单元的解码网络隐含层状态hdec i,其中,解码网络的输入为第i-1个输出建模单元和注意力上下文内容向量ci,如公式(6)所示,最终结合softmax函数可以由解码网络的第i个输出建模单元的解码网络隐含层状态hdec i预测解码网络的第i个输出建模单元yi的概率p(yi|y1:i-1,x),如公式(7)所示:
hi dec=Decoder(yi-1,ci) (6)
p(yi|y1:i-1,x)=soft max(hi dec) (7)
其中,x表示输入的待识别的语音频谱特征序列;yi-1为解码网络的第i-1个输出建模单元;ci为最终的注意力上下文内容向量;y1:i-1为解码网络的第1个输出到第i-1个输出的历史信息;p(yi|y1:i-1,x)为解码网络的第i个输出建模单元yi的预测概率;soft max(hi dec)为对解码网络隐含层状态hdec i取softmax函数;yi表示解码网络的第i个输出建模单元;Decoder()表示基于长短时记忆网络(LSTM)的解码网络;
通预测概率p(yi|y1:i-1,x),可以得到第i次建模单元预测过程中预测概率最大的建模单元yi,通过结合第1次预测的结果到第I次预测的结果,可以得到最终的语音识别结果y=(y1,y2,...,yi,...,yI)。
对于不同语言来说,输入特征序列和输出建模单元序列的时间步长映射是不一致的,因此通过这种方式可以使得多种语言之间在编码网络和解码网络进行模型信息共享的同时还可以根据特定语言的特性对注意力模块进行优化。
本发明还提供了一种端到端的多语言连续语音流语音内容识别***,该***基于上述方法来实现,该***包括:
提取模块,用于将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量Vl;
语音识别模块,将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量Vl输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
所述***还包括:语音结果获取模块,用于根据语句级别语种状态后验概率分布向量Vl,获得对应语言种类的语种分类结果,将该语言种类的语种分类结果,结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
基于本发明的基于多注意力机制的多语言语音识别***的合理性和有效性已经在实际***上得到了验证,结果见表1:
表1多语言端到端识别模型的识别结果(词错误率%)
本发明的方法通过使用他加禄语、宿雾语、托克皮辛语和海地克里奥尔语构建多语言端到端语音识别***。其中,他加禄语和宿雾语是在菲律宾不同地区使用的菲律宾语,而托克皮辛语和海地克里奥尔语是两种不同的克里奥尔语。这四种语言的共同特征是它们的标注文本都是拉丁字母以及拉丁字母的变体。
因此,基于这四种语言的多语言联合建模可以有效地共享信息并提高多语言语音识别***的性能。从表1可知,相比于单语言端到端识别模型以及不包含多注意力机制模块的多语言端到端识别***来说,本发明的方法通过将语种信息融合到多语言识别方法中,并结合多注意力机制模块,在四种语言上有效将多语言识别模型的词错误率从平均62.6%降低到60.3%。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种端到端的多语言连续语音流语音内容识别方法,其特征在于,该方法包括:
将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,输出语句级别语种状态后验概率分布向量;
将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于深度神经网络的段级别语种分类模型的训练步骤,具体包括:
提取训练集的多语言连续语音流的帧级别的语音频谱特征,将所述帧级别语音频谱特征输入至该段级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级统计向量;
所述均值向量为:
所述方差向量为:
所述段级统计向量:
hsegment=Append(μ,σ) (6)
其中,hj为当前隐含层在j时刻的输出向量;T为长时统计周期;μ为长时统计的均值向量;σ为长时统计的方差向量;hsegment为段级统计向量;其中,所述段级统计向量是将均值向量和方差向量拼接在一起,其维度为hj维度的2倍;Append(μ,σ)表示将μ和σ进行拼接构成高维向量;
将段级统计向量hsegment作为下一隐含层的输入,根据段级别语种标签,通过误差计算和反向梯度回传过程训练,获得训练好的段级别语种分类模型,完成该段级别语种分类模型的建立。
4.根据权利要求1所述的方法,其特征在于,所述多语言语音识别模型包括:编码网络、多个注意力机制模块和解码网络;其中,根据待识别的语言种类数目,设置对应数目的注意力机制模块;
根据待识别的语音频谱特征中包含的语言种类数目,设置对应数目的注意力机制模块。
5.根据权利要求4所述的方法,其特征在于,所述注意力机制模块的训练步骤具体包括:
将语音特征的状态序列henc输入至对应的注意力机制模块,输出对应的输出状态序列;
根据公式(2),获得对应的输出序列:
el t,i=wTtanh(Wlhenc+Vlhdec i+Ul(Fl*al t,i-1)+bl) (2)
其中,l表示多语言的语言种类标号;el t,i表示第t帧待识别的语音频谱特征的注意力机制模块的输出状态;wT,Wl,Vl,Ul分别表示第一变换矩阵、第二变换矩阵、第三变换矩阵和第四变换矩阵;bl表示偏置向量;tanh()表示非线性激活函数;Fl表示卷积函数;表示第t帧编码网络的输出状态;hdec i表示解码网络的第i个输出建模单元的隐含层状态;al t,i-1为第l个语言种类的注意力权重向量在第i-1个输出建模单元的第t帧对应的权重值;
根据该对应的输出状态序列,获得对应的语言种类的注意力权重向量;
具体地,根据公式(3),获得对应的语言种类的注意力权重向量:
其中,al t,i表示第l个语言种类的注意力权重向量在第i个输出建模单元的第t帧对应的权重值;el t′,i为第t′帧待识别的语音频谱特征在第i个输出建模单元对应的注意力机制模块的输出状态;1≤t′≤T为语音特征序列的对应帧。
6.根据权利要求1所述的方法,其特征在于,所述将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果;具体为:
将每一种语言种类的待识别的语音频谱特征输入至编码网络,输出对应的语音特征的状态序列;
根据公式(1),获得对应的语音特征的状态序列henc:
henc=Encoder(x) (1)
其中,为语音特征的状态序列,即编码网络的隐层状态输出序列;x=(x1,x2,...,xt,...,xT)为待识别的语音频谱特征序列,即输入特征;其中,T为输入特征序列的总帧数;Encoder()为基于卷积神经网络/双向长短时记忆网络的编码网络的计算函数;
将该对应的语音特征状态序列与对应的语言种类的注意力权重向量进行加权求和,获得对应的注意力上下文内容向量;
具体地,根据公式(4),获得对应的注意力上下文内容向量;
其中,cl i表示对应的注意力上下文内容向量,即第l个语言种类对编码网络加权求和得到的注意力上下文内容向量;
在多注意力机制条件下,通过语种状态分布向量Vl与对应的注意力上下文内容向量进行加权求和,得到最终的注意力上下文内容向量:
其中,Vl为语种状态分布向量,即Vl=(wl 1,wl 2,...,wl n,...,wl N);N为待识别的多语言的语言种类数目;
将所述最终的注意力上下文内容向量输入至解码网络,获得该语言种类的语音识别结果。
7.一种端到端的多语言连续语音流语音内容识别***,其特征在于,所述***包括:提取模块和语音识别模块;
所述提取模块,用于将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量;
所述语音识别模块,将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
8.根据权利要求7所述的***,其特征在于,所述***还包括:语音结果获取模块,用于根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-6中任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911300918.7A CN113077785B (zh) | 2019-12-17 | 2019-12-17 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911300918.7A CN113077785B (zh) | 2019-12-17 | 2019-12-17 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113077785A CN113077785A (zh) | 2021-07-06 |
CN113077785B true CN113077785B (zh) | 2022-07-12 |
Family
ID=76608263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911300918.7A Active CN113077785B (zh) | 2019-12-17 | 2019-12-17 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077785B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746866B (zh) * | 2024-02-19 | 2024-05-07 | 上海蜜度科技股份有限公司 | 多语种语音转换文本方法、***、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109523993A (zh) * | 2018-11-02 | 2019-03-26 | 成都三零凯天通信实业有限公司 | 一种基于cnn与gru融合深度神经网络的语音语种分类方法 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
-
2019
- 2019-12-17 CN CN201911300918.7A patent/CN113077785B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109523993A (zh) * | 2018-11-02 | 2019-03-26 | 成都三零凯天通信实业有限公司 | 一种基于cnn与gru融合深度神经网络的语音语种分类方法 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
Non-Patent Citations (3)
Title |
---|
戴礼荣等.基于深度学习的语音识别技术现状与展望.《数据采集与处理》.2017,(第02期), * |
苗晓晓等.应用于短时语音语种识别的时长扩展方法.《清华大学学报(自然科学版)》.2018,(第03期), * |
金马等.基于卷积神经网络的语种识别***.《数据采集与处理》.2019,(第02期), * |
Also Published As
Publication number | Publication date |
---|---|
CN113077785A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647207B (zh) | 自然语言修正方法、***、设备及存储介质 | |
Toshniwal et al. | Multitask learning with low-level auxiliary tasks for encoder-decoder based speech recognition | |
CN111199727B (zh) | 语音识别模型训练方法、***、移动终端及存储介质 | |
CN108804611B (zh) | 一种基于自我评论序列学习的对话回复生成方法及*** | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN113657399A (zh) | 文字识别模型的训练方法、文字识别方法及装置 | |
Mangal et al. | LSTM vs. GRU vs. Bidirectional RNN for script generation | |
CN110569505B (zh) | 一种文本输入方法及装置 | |
CN112308080A (zh) | 面向指向性视觉理解和分割的图像描述预测方法 | |
CN111738006A (zh) | 基于商品评论命名实体识别的问题生成方法 | |
CN113539273B (zh) | 一种语音识别方法、装置、计算机设备和存储介质 | |
WO2020108545A1 (zh) | 语句处理方法、语句解码方法、装置、存储介质及设备 | |
CN115630651B (zh) | 文本生成方法和文本生成模型的训练方法、装置 | |
CN115841119B (zh) | 一种基于图结构的情绪原因提取方法 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN113077785B (zh) | 一种端到端的多语言连续语音流语音内容识别方法及*** | |
CN114528387A (zh) | 基于对话流自举的深度学习对话策略模型构建方法和*** | |
CN112183062A (zh) | 一种基于交替解码的口语理解方法、电子设备和存储介质 | |
CN116312539A (zh) | 基于大模型的中文对话轮次纠正方法及*** | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN113936641B (zh) | 一种可定制的中英混合语音识别端到端*** | |
CN115906854A (zh) | 一种基于多级对抗的跨语言命名实体识别模型训练方法 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |