CN110930982A - 一种多口音声学模型及多口音语音识别方法 - Google Patents

一种多口音声学模型及多口音语音识别方法 Download PDF

Info

Publication number
CN110930982A
CN110930982A CN201911050896.3A CN201911050896A CN110930982A CN 110930982 A CN110930982 A CN 110930982A CN 201911050896 A CN201911050896 A CN 201911050896A CN 110930982 A CN110930982 A CN 110930982A
Authority
CN
China
Prior art keywords
accent
data
acoustic model
control unit
blstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911050896.3A
Other languages
English (en)
Inventor
计哲
黄远
高圣翔
沈亮
林格平
徐艳云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Information Engineering of CAS
Priority to CN201911050896.3A priority Critical patent/CN110930982A/zh
Publication of CN110930982A publication Critical patent/CN110930982A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种多口音声学模型和多口音语音识别方法,所述多口音声学模型包括多个BLSTM层、多个Softmax输出层和一个门控单元,多个BLSTM层依次串接后与每一个Softmax输出层串接,门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间。本发明对传统的普通话声学模型构造进行改进,针对需要识别的多种口音数据的类别数量,将传统的普通话声学模型中的Softmax输出层复制多份,每一个Softmax输出层为口音特定输出层,将输出层设计为口音特定的形式,即每种口音独享其对应的输出层;而门控单元对神经网络的BLSTM层的输出进行一种口音特定的调节,以使该模型更好地适用于多种口音。

Description

一种多口音声学模型及多口音语音识别方法
技术领域
本发明属于语音识别技术领域,尤其涉及一种多口音声学模型及多口音语音识别方法。
背景技术
针对普通话构建的基于使用神经网络与隐马尔科夫混合模型的普通话声学模型的语音识别***在标准普通话语音的语音识别上已经可以达到比较令人满意的效果,但这种普通话声学模型在应用于带有口音的语音识别任务上时性能会明显下降,这种性能下降主要是由于基于普通话构建的普通话声学模型无法对带口音的语音数据进行准确的音素状态分类。因此,在处理带有口音的语音的语音识别任务时,需要构建专用的声学模型。
一种语言的口音主要有两个来源,一是由母语为其他语言的说话人发音产生的,二是由母语为该语言某种方言的说话人发音产生的。在汉语中,后者是口音的主要来源。汉语大致可以划分成七大方言,即官话方言,吴方言、湘方言、客家方言、闽方言、粤方言、赣方言。此外,在一个比较复杂的大方言区内,有时可以再划分成许多的小方言区,市县级别的方言可以称之为地方方言,例如广州话、青岛话、唐山话等。因而,由不同方言所派生出的口音种类也是十分繁杂的,这就导致了在语音识别的实际应用中通常需要处理的是多口音语音识别问题。
在实际的生产环境中,大量的普通话语音数据较容易获取,而带口音的语音数据由于标注的复杂性以及高昂的人工成本往往面临数据稀疏的问题。为了充分利用有限的数据来达到语音识别***的最优性能,通常的做法是先使用大数据量的普通话语音数据训练一个鲁棒的普通话声学模型,然后针对单个口音使用其对应的数据进行自适应得到特定口音声学模型,这种方法被称为口音特定声学模型的自适应。然而,这种方法需要对每个目标口音都进行单独的自适应训练,并且需要找到其最优的配置参数,最终会得到多个声学模型,得到的多个特定口音声学模型在训练复杂度和存储空间上的代价是很大的。
多口音声学模型的自适应,即直接使用多口音语音数据利用传统方法对普通话声学模型进行优化可以解决这个问题,但传统的多口音声学模型自适应方法得到的多口音声学模型性能通常差于口音特定声学模型自适应方法。
发明内容
为克服上述现有的无法对多种口音识别以及识别率低的问题或者至少部分地解决上述问题,本发明实施例提供一种多口音声学模型和多口音语音识别方法。
根据本发明的一个方面,提供一种多口音声学模型,包括多个双向长短期记忆网络BLSTM(Bidirectional Long Short-Term Memory)层、多个Softmax输出层和一个门控单元,所述多个BLSTM层依次串接后与每一个Softmax输出层串接,所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间;
其中,所述Softmax输出层的数量与口音数据的类别数量相等,每一个Softmax输出层与口音数据的类别一一对应。
在上述技术方案的基础上,本发明还可以作出如下改进。
优选的,所述门控单元为加法型门控单元或者点乘型门控单元。
根据本发明的另一个方面,提供一种多口音语音识别方法,包括:
提取待识别口音数据的声学特征;
将所述声学特征输入训练后的多口音声学模型中,输出所述待识别口音数据的三音素状态的后验概率;
根据所述待识别口音数据的三音素状态的后验概率,得到所述待识别口音数据的文本序列。
优选的,通过如下方式对所述多口音声学模型进行训练:
提取包括多种类别的口音数据的口音数据训练集中的每一条口音数据的声学特征和口音类别标签;
基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练。
优选的,所述基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练包括:
将每一条口音数据的所述声学特征输入所述多口音声学模型的第一BLSTM层,依次经过多个BLSTM层,将所述门控单元前的BLSTM层的第一输出向量和当前口音数据的口音类别标签同时输入所述门控单元;
经过所述门控单元的特定运算后的第二输出向量作为所述门控单元后的BLSTM层的输入,并由与当前口音数据对应的Softmax输出层输出当前口音数据的三音素状态的后验概率。
优选的,当所述门控单元为加法型门控单元时,所述门控单元的特定运算为:
g(hi,va)=hi+Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
优选的,当所述门控单元为点乘型门控单元时,所述门控单元的特定运算为:
g(hi,va)=hi·Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
优选的,采用每一个口音数据类别的独热码作为每一个口音数据的类别标签。
优选的,采用小批量随机梯度下降方法对所述多口音声学模型进行训练。
本发明的有益效果为:
对传统的普通话声学模型构造进行改进,针对需要识别的多种口音数据的类别数量,将传统的普通话声学模型中的Softmax输出层复制多份,每一个Softmax输出层为口音特定输出层,将输出层设计为口音特定的形式,即每种口音独享其对应的输出层;而门控单元对神经网络的BLSTM层的输出进行一种口音特定的调节,以使该模型更好地适用于多种口音。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为传统的普通话声学模型架构图;
图2为本发明实施例的多口音声学模型架构图;
图3为本发明实施例的采用图2中多口音声学模型进行多口音语音识别的方法流程图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
参见图2,提供了一种多口音声学模型,用于对多种类别的口音数据进行识别,该多口音声学模型包括多个BLSTM层、多个Softmax输出层和一个门控单元,所述多个BLSTM层依次串接后与每一个Softmax输出层串接,所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间;其中,所述Softmax输出层的数量与口音数据的类别数量相等,每一个Softmax输出层与口音数据的类别一一对应。
可以理解的是,参见图1,为传统的标准普通话声学模型的架构图,通常,传统的普通话声学模型采用深度模型,主要包括多个BLSTM层和一个Softmax输出层,多个BLSTM层依次串接后再串接Softmax输出层,基于标准普通话语音训练集,对普通话声学模型进行训练。训练后的普通话声学模型可用于对普通话进行识别。
传统的普通话声学模型仅能够对标准的普通话进行识别,对于地域性口音的语音数据是无法识别或者识别精度非常低。本发明实施例提供了一种改进的多口音声学模型,能够对多种口音的语音数据进行精准识别。
参见图2,为本发明实施例提供的多口音声学模型,多口音声学模型是在普通话声学模型的网络架构上进行改进的。将普通声学模型中的Softmax输出层复制n份,n为该多口音声学模型可以识别的口音类别的数量,每一种口音数据对应一个Softmax输出层;以及在神经网络中的多个BLSTM层的其中任意两个相邻的BLSTM层之间添加一个门控单元。
本发明实施例提出了在使用大数据量的普通话语音数据训练得到的鲁棒普通话声学模型的基础上利用迁移学习方法进行优化,具体实现上结合了基于BLSTM层的多任务分类模型和基于口音信息的门控机制,其中,口音特定输出层(与每一种口音数据对应的Softmax输出层)是基于多任务分类模型将神经网络的BLSTM层在多个口音的语音识别任务中共享,而将Softmax输出层设计为口音特定的形式,即每种口音独享其对应的Softmax输出层;而门控机制是指利用一种门控单元对神经网络的隐藏层输出进行一种口音特定的调节,以使该模型更好地适用于多种口音。
可以理解的是,本发明实施例中在普通声学模型的多个BLSTM层中间设置门控单元,需要说明的是,门控单元可以设置于其中任意两个相邻的BLSTM层之间,在本发明实施例中,门控单元设置于所有相邻的BLSTM层之间,通过实验证明,这样的多口音声学模型对多口音语音数据的识别准确率会更高。
在上述实施例的基础上,本发明实施例中,所述门控单元为加法型门控单元或者点乘型门控单元。门控单元的类型可根据带有口音的语音数据量大小和普通话声学模型的性能确定。门控单元具体的实现方式为:第i层的输出向量hi与口音类别标签向量va共同送入门控单元,在门控单元经过了特定的运算后,变换后的向量g(hi,va)作为输入传入第(i+1)层,其中,门控单元位于第i个BLSTM层和第(i+1)个BLSTM层之间。
参见图3,提供了一种多口音语音识别方法,该方法基于上述各实施例提供的多口音声学模型来进行多口音语音识别。该方法包括:
提取待识别口音数据的声学特征;
将所述声学特征输入训练后的多口音声学模型中,输出所述待识别口音数据的三音素状态的后验概率;
根据所述待识别口音数据的三音素状态的后验概率,得到所述待识别口音数据的文本序列。
可以理解的是,本发明实施例基于上述实施例提供的多口音声学模型对多口音语音数据进行识别。在对多口音语音数据进行识别的过程中,将提取的待识别语音数据的声学特征输入训练后的多口音声学模型中,输出该待识别口音数据的三音素状态的后验概率。将待识别口音数据的三音素状态的后验概率联合语言模型、发音词典通过解码器得到识别出的文本序列,实现对待识别口音数据的识别过程。
在上述实施例的基础上,本发明实施例中,通过如下方式对所述多口音声学模型进行训练:
提取包括多种类别的口音数据的口音数据训练集中的每一条口音数据的声学特征和口音类别标签;
基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练。
在上述各实施例的基础上,本发明实施例中,所述基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练包括:
将每一条口音数据的所述声学特征输入所述多口音声学模型的第一BLSTM层,依次经过多个BLSTM层,将所述门控单元前的BLSTM层的第一输出向量和当前口音数据的口音类别标签同时输入所述门控单元;
经过所述门控单元的特定运算后的第二输出向量作为所述门控单元后的BLSTM层的输入,并由与当前口音数据对应的Softmax输出层输出当前口音数据的三音素状态的后验概率。
需要理解的是,多口音声学模型是在具有充足数据的普通话语音训练集训练得到的性能鲁棒的普通话声学模型基础上进行的。口音特定输出层及门控单元在模型的初始化阶段被添加到普通话声学模型之上,之后再使用随机梯度下降方法对更改后的网络(即本发明实施例)进行优化。
在实际应用中,特定口音的语音识别***通常是根据地域进行部署的,因此针对地域性的口音问题,可将一个地域内采集到的语音数据划分为同一种口音,并使用采集到的口音数据构建语音识别声学模型。
需要说明的是,传统的普通话声学模型通常采用神经网络与隐马尔科夫模型混合架构,其中神经网络部分使用多层双向长短期记忆网络(BLSTM)构建,神经网络部分的输出目标为上下文相关的音素的状态值的后验概率。
本发明实施例提供的多口音声学模型是在传统的普通话声学模型基础上进行改进得到的。得到改进后的多口音声学模型后,需要对多口音声学模型进行训练,在对多口音声学模型进行训练的过程中,按地域采集带有口音的语音数据并进行数据标注(即标注口音类别标签),构建多口音语音训练集,训练集中应包含目标的多个口音数据,原则上不同类别的语音数据数量应保持大致相等,并针对每条语音保存代表其口音类别的独热码(即采用每一个口音数据类别的独热码作为每一个口音数据的类别标签)。使用该训练集对得到的多口音声学模型进行训练。在训练过程中,先将多口音数据打乱,并使用小批量随机梯度下降以保证多个口音是同时进行学习的。当一个口音数据样本送入多口音声学模型时,只有其对应的Softmax输出层及共享隐藏层(多个BLSTM层)会被更新,而其他的Softmax输出层则保持不变。训练过程中,应使用与普通话声学模型训练时使用的学习率相比较小的学习率来保证对普通话声学模型的有效利用,即改进后的多口音声学模型对普通话语音数据也具有较好的识别率。
在上述各实施例的基础上,本发明实施例中,当门控单元为加法型门控单元时,门控单元的特定运算为:
g(hi,va)=hi+Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
当门控单元为点乘型门控单元时,所述门控单元的特定运算为:
g(hi,va)=hi·Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
其中,具体的门控单元选择可根据确定带有口音的训练语音数据量大小和普通话声学模型的性能确定,本发明实施例不做限定。
对于训练后的多口音声学模型,针对每种口音,将口音数据的声学特征输入训练后的多口音声学模型中,将多口音声学模型中神经网络对应的口音特定输出层(Softmax输出层)输出的因素状态的后验后验概率联合针对特定任务构建的语言模型、发音词典通过解码器得到识别出的文本序列,完成对待识别口音的识别。
下面将本发明实施例提供的多口音声学模型与传统的多种声学模型进行对比,表1中示出了不同声学模型的识别错误率。
表1
Figure BDA0002255306390000091
基于本发明实施例构建的多口音声学模型的合理性和有效性已经在实际中得到了验证,各个地域口音的语音识别的词错误率见表1。该表中是利用7000小时普通话语音数据训练普通话声学模型,利用四个地域的口音语音数据(每个地域20小时)进行多口音声学模型构建得到的结果,每个口音的测试集数据量为两小时,所有语音数据均为实际场景中的客服通话语音数据。
使用本发明实施例构建的多口音声学模型相对普通话声学模型(基线模型)词错误率平均相对下降了9.8%,且相对于传统多口音声学模型和特定口音声学模型都有一定程度的性能提升,说明本发明实施例的多口音声学模型是一种高效率且高性能的多口音语音识别声学模型。
本发明实施例提供的一种多口音声学模型及多口音语音识别方法,对传统的普通话声学模型构造进行改进,针对需要识别的多种口音数据的类别数量,将传统的普通话声学模型中的Softmax输出层复制多份,每一个Softmax输出层为口音特定输出层,将输出层设计为口音特定的形式,即每种口音独享其对应的输出层;而门控单元对神经网络的BLSTM层的输出进行一种口音特定的调节,即利用迁移学习方法,采用基于共享隐藏层(即针对多个Softmax输出层,共用BLSTM层)的多任务分类模型和基于口音信息的门控机制,在性能鲁棒的普通话声学模型的基础上,同时向多个目标口音,使用多口音混合数据进行优化得到一个多口音声学模型,在节省时间和成本的同时得到在多目标口音上性能鲁棒的多口音声学模型。
本发明实施例提供的多口音声学模型相比于传统的多种特定口音声学模型,传统的每一种特定口音声学模型在训练时,需要大量的特定口音数据,对训练集口音数据的获取存在很大难度,而在对本发明实施例提供的多口音声学模型进行训练时,对于每一种口音数据的训练数据量无需太多,为多种口音数据的混合训练,因此,本发明实施例提供的多口音声学模型能够在一定程度上解决数据稀疏的问题。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种多口音声学模型,用于对多种类别的口音数据进行识别,其特征在于,包括多个双向长短期记忆网络BLSTM层、多个Softmax输出层和一个门控单元,所述多个BLSTM层依次串接后与每一个Softmax输出层串接,所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间;
其中,所述Softmax输出层的数量与口音数据的类别数量相等,每一个Softmax输出层与口音数据的类别一一对应。
2.根据权利要求1所述的多口音声学模型,其特征在于,所述门控单元为加法型门控单元或者点乘型门控单元。
3.一种多口音语音识别方法,其特征在于,包括:
提取待识别口音数据的声学特征;
将所述声学特征输入训练后的权利要求1所述的多口音声学模型中,输出所述待识别口音数据的三音素状态的后验概率;
根据所述待识别口音数据的三音素状态的后验概率,得到所述待识别口音数据的文本序列。
4.根据权利要求3所述的多口音语音识别方法,其特征在于,通过如下方式对所述多口音声学模型进行训练:
提取包括多种类别的口音数据的口音数据训练集中的每一条口音数据的声学特征和口音类别标签;
基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练。
5.根据权利要求4所述的多口音语音识别方法,其特征在于,所述基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练包括:
将每一条口音数据的所述声学特征输入所述多口音声学模型的第一BLSTM层,依次经过多个BLSTM层,将所述门控单元前的BLSTM层的第一输出向量和当前口音数据的口音类别标签同时输入所述门控单元;
经过所述门控单元的特定运算后的第二输出向量作为所述门控单元后的BLSTM层的输入,并由与当前口音数据对应的Softmax输出层输出当前口音数据的三音素状态的后验概率。
6.根据权利要求5所述的多口音语音识别方法,其特征在于,
当所述门控单元为加法型门控单元时,所述门控单元的特定运算为:
g(hi,va)=hi+Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
7.根据权利要求5所述的多口音语音识别方法,其特征在于,
当所述门控单元为点乘型门控单元时,所述门控单元的特定运算为:
g(hi,va)=hi·Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
8.根据权利要求4-7任一项所述的多口音语音识别方法,其特征在于,采用每一个口音数据类别的独热码作为每一个口音数据的类别标签。
9.根据权利要求5所述的多口音语音识别方法,其特征在于,采用小批量随机梯度下降方法对所述多口音声学模型进行训练。
CN201911050896.3A 2019-10-31 2019-10-31 一种多口音声学模型及多口音语音识别方法 Pending CN110930982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911050896.3A CN110930982A (zh) 2019-10-31 2019-10-31 一种多口音声学模型及多口音语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911050896.3A CN110930982A (zh) 2019-10-31 2019-10-31 一种多口音声学模型及多口音语音识别方法

Publications (1)

Publication Number Publication Date
CN110930982A true CN110930982A (zh) 2020-03-27

Family

ID=69849958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911050896.3A Pending CN110930982A (zh) 2019-10-31 2019-10-31 一种多口音声学模型及多口音语音识别方法

Country Status (1)

Country Link
CN (1) CN110930982A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508501A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及***
CN112885351A (zh) * 2021-04-30 2021-06-01 浙江非线数联科技股份有限公司 一种基于迁移学习的方言语音识别方法及装置
CN113593534A (zh) * 2021-05-28 2021-11-02 思必驰科技股份有限公司 针对多口音语音识别的方法和装置
CN113593524A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音识别声学模型训练、口音识别方法、装置和存储介质
CN113593525A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音分类模型训练和口音分类方法、装置和存储介质
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置
US11776323B2 (en) 2022-02-15 2023-10-03 Ford Global Technologies, Llc Biometric task network

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及***
CN106875942A (zh) * 2016-12-28 2017-06-20 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
US20180053500A1 (en) * 2016-08-22 2018-02-22 Google Inc. Multi-accent speech recognition
US20190088251A1 (en) * 2017-09-18 2019-03-21 Samsung Electronics Co., Ltd. Speech signal recognition system and method
CN109829058A (zh) * 2019-01-17 2019-05-31 西北大学 一种基于多任务学习提高方言识别准确率的分类识别方法
US20200160836A1 (en) * 2018-11-21 2020-05-21 Google Llc Multi-dialect and multilingual speech recognition
CN112992119A (zh) * 2021-01-14 2021-06-18 安徽大学 基于深度神经网络的口音分类方法及其模型

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及***
US20180053500A1 (en) * 2016-08-22 2018-02-22 Google Inc. Multi-accent speech recognition
CN106875942A (zh) * 2016-12-28 2017-06-20 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
US20190088251A1 (en) * 2017-09-18 2019-03-21 Samsung Electronics Co., Ltd. Speech signal recognition system and method
US20200160836A1 (en) * 2018-11-21 2020-05-21 Google Llc Multi-dialect and multilingual speech recognition
CN109829058A (zh) * 2019-01-17 2019-05-31 西北大学 一种基于多任务学习提高方言识别准确率的分类识别方法
CN112992119A (zh) * 2021-01-14 2021-06-18 安徽大学 基于深度神经网络的口音分类方法及其模型

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HAN ZHU 等: "Multi-Accent Adaptation based on Gate Mechanism", 《INTERSPEECH 2019》, pages 744 - 748 *
HAN ZHU,等: "Multi-Accent Adaptation based on Gate Mechanism", 《HTTPS://ARXIV.ORG/ABS/2011.02774》 *
JIANGYAN YI,等: "Improving BLSTM RNN based Mandarin speech recognition using accent dependent bottleneck features", 《2016 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)》 *
XUESONG YANG,等: "Joint Modeling of Accents and Acoustics for Multi-Accent Speech Recognition", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 》 *
周刚: "藏语拉萨方言语音识别的研究", 《中国优秀硕士学位论文全文数据库》 *
李德毅 等: "《人工智能与机器人先进技术丛书 智能摘要与深度学习》", 北京理工大学出版社, pages: 103 - 104 *
遥遥子YY: "从0开始学习kaldi决策树绑定+三音素", pages 103 - 104, Retrieved from the Internet <URL:https://blog.csdn.net/qq_37591044/article/details/102395480> *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508501A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及***
CN111508501B (zh) * 2020-07-02 2020-09-29 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及***
CN113593524A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音识别声学模型训练、口音识别方法、装置和存储介质
CN113593525A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音分类模型训练和口音分类方法、装置和存储介质
CN112885351A (zh) * 2021-04-30 2021-06-01 浙江非线数联科技股份有限公司 一种基于迁移学习的方言语音识别方法及装置
CN112885351B (zh) * 2021-04-30 2021-07-23 浙江非线数联科技股份有限公司 一种基于迁移学习的方言语音识别方法及装置
CN113593534A (zh) * 2021-05-28 2021-11-02 思必驰科技股份有限公司 针对多口音语音识别的方法和装置
CN113593534B (zh) * 2021-05-28 2023-07-14 思必驰科技股份有限公司 针对多口音语音识别的方法和装置
US11776323B2 (en) 2022-02-15 2023-10-03 Ford Global Technologies, Llc Biometric task network
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置

Similar Documents

Publication Publication Date Title
CN110930982A (zh) 一种多口音声学模型及多口音语音识别方法
EP3966816B1 (en) Large-scale multilingual speech recognition with a streaming end-to-end model
US8126717B1 (en) System and method for predicting prosodic parameters
CN110459208B (zh) 一种基于知识迁移的序列到序列语音识别模型训练方法
JP2004279701A (ja) 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置
Masumura et al. Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models
JP2023544336A (ja) 多言語発話認識フレームワークのためのシステム及び方法
US20220310080A1 (en) Multi-Task Learning for End-To-End Automated Speech Recognition Confidence and Deletion Estimation
JP2022512233A (ja) 多言語スタイル依存音声言語処理のためのニューラル調整コード
CN115039170A (zh) 端到端语音识别中的专有名词识别
CN112700778A (zh) 语音识别方法和语音识别设备
CN116303966A (zh) 基于提示学习的对话行为识别***
US11990117B2 (en) Using speech recognition to improve cross-language speech synthesis
WO2023023434A1 (en) Improving speech recognition with speech synthesis-based model adaption
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
Hu et al. The USTC system for blizzard challenge 2017
KR20220128401A (ko) 어텐션-기반 조인트 음향 및 텍스트 온-디바이스 E2E(End-To-End) 모델
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
Razavi et al. An HMM-based formalism for automatic subword unit derivation and pronunciation generation
Wu et al. Factored recurrent neural network language model in TED lecture transcription
WO2022086640A1 (en) Fast emit low-latency streaming asr with sequence-level emission regularization
Zhang et al. Zero-shot multi-speaker accent TTS with limited accent data
Farooq et al. Learning cross-lingual mappings for data augmentation to improve low-resource speech recognition
Wang et al. Speech-and-text transformer: Exploiting unpaired text for end-to-end speech recognition
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination