CN110895932A - 基于语言种类和语音内容协同分类的多语言语音识别方法 - Google Patents
基于语言种类和语音内容协同分类的多语言语音识别方法 Download PDFInfo
- Publication number
- CN110895932A CN110895932A CN201810974049.5A CN201810974049A CN110895932A CN 110895932 A CN110895932 A CN 110895932A CN 201810974049 A CN201810974049 A CN 201810974049A CN 110895932 A CN110895932 A CN 110895932A
- Authority
- CN
- China
- Prior art keywords
- language
- model
- classification
- output
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 238000013145 classification model Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;步骤3)将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。
Description
技术领域
本发明涉及多语言语音识别领域,特别涉及基于语言种类和语音内容协同分类的多语言语音识别方法。
背景技术
目前自动语音识别技术已经非常成熟了,在有些语音识别机构的技术研究下,自动语音识别***的识别精度已经可以达到94.5%,可以说已经可以达到人类的听觉感知能力了。但是这种性能优良的自动语音识别***仅局限于几个使用广泛的语言,比如英语、法语等。世界上有超过五千种语言被世界各地的人们使用,然而在这五千种语言中只有十种语言被广泛的使用,它们分别是:汉语、英语、俄语、西班牙语、印度语、***语、葡萄牙语、孟加拉语、德语和日语。其他的语言,由于使用人数较少,所以很难收集它们的语音数据,相应的语音数据标注工作也相当难实施,因此相应的语音识别任务不得不面对数据稀疏的问题。
自动语音识别任务通常受制于有限的语音数据的规模,因此使用跨语言数据来提高特定语言的语音识别性能一直是近年来的热门研究领域。由于发音的相似性,不同的语言可能会有相同的声学特性,因此多种语言可以共享数据特征或者模型参数。我们可以使用一个多任务共享模型来同时训练多种语言的声学模型参数,其中多个语言的识别任务共享同一个隐含层网络,针对不同的语言再对特定的语言的输出层网络做优化。
特定语言输出层网络的优化过程中,可以利用语种信息来对特定语言输出层网络做模型自适应,传统的方法是已知语种分类信息,将语种相关向量直接送到多语言语音内容识别声学模型。这种方法在模型训练和测试阶段都需要有语种相关信息的先验知识,需要大量人工标注工作,语音内容识别的性能不高。
发明内容
本发明的目的在于克服上述技术缺陷,构建了一种新的语言种类和语音内容协同分类的声学模型,在识别多种语言的语音内容的同时,该模型可以自动判定输入数据所属的语言种类,生成相应语言的语种特征向量,同时通过语种相关信息对特定语言输出层网络的辅助训练可以提升特定语言的识别性能。
为实现上述目的,本发明提出了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:
步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;
步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;在解码阶段,解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;
步骤3)将若干个候选词序列输入语言模型得到语言模型得分,将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)为每个多语言训练数据生成对应的语音内容文本标注和语种分类标签;由此构建多语言训练集,
步骤1-2)构建多语言语音内容识别模型,该模型的输入层为语音的声学特征向量,隐含层为层数为n1的多语言共享隐含层,该隐含层分别与m个语言门连接,m为语种类型的数量,每个语言门的输出通过对应的语言输出层输出音素分类结果;
步骤1-3)构建语种分类模型,该模型的输入层与为音频的声学特征向量,隐含层的层数为n2,通过对语音的声学特征向量做非线性变换,输出语言种类分类结果;输出层节点数为语种类型的数量m,
步骤1-4)基于多语言语音内容识别模型和语种分类模型建立语言种类和语音内容协同分类声学模型;将语种分类模型的中间隐层的向量通过隐层连接传递到多语言语音内容识别模型,与多语言共享隐含层输出的向量共同输入非线性变换构成的m个语言门;
步骤1-5)通过步骤1-1)构建的多语言训练集,联合训练语种分类模型和多语言语音内容识别模型的参数,得到训练好的语言种类和语音内容协同分类声学模型。
其中,h是多语言共享隐含层输出的向量,v是语种分类模型的中间隐层输出的向量,gi(h,v)是第i个语言门的激活函数,gi(h,v)的计算公式为:
gi(h,v)=σ(Wi(h+Uiv+bi)
其中,Wi和Ui为第i个第一权重变换矩阵和第i个第二权重变换矩阵,bi是第i个偏置向量,σ(·)为非线性激活函数。
作为上述方法的一种改进,所述步骤1-5)的训练语种分类模型和多语言语音内容识别模型的参数包括:多语言共享的隐含层参数、矩阵Wi、Ui和bi,i=1,2…m以及m个语言输出层参数。
作为上述方法的一种改进,所述步骤1-5)具体包括:
步骤1-5-1)所述多语言共享的隐含层参数由多语言训练数据共同更新训练:在前向计算过程中,多种语言训练数据通过共享的网络参数以及语言输出层对输入的声学特征向量进行非线性变换,在m个语言输出层均有概率输出;
步骤1-5-2)在计算误差损失函数过程中,特定语言的输入特征只在对应的语言输出层计算误差损失函数值,其它的语言输出层计算的误差损失函数值为零;
步骤1-5-3)在误差反向回传过程中,每个语言输出层只针对特定语言的数据进行模型参数更新;由于多语言共享的隐含层同时连接m个语言输出层,共享的隐含层网络参数由m个语言输出层回传误差共同更新;
步骤1-5-4)反复执行步骤1-5-1)-步骤1-5-3),直至所有的模型参数收敛。
本发明的优势在于:
1、本发明的基于语言种类和语音内容协同分类的多语言语音识别方法,通过将语种分类模型的语种分类信息传递到多语言语音内容识别模型中,使得多语言语音内容识别模型能够利用语种分类信息对特定语种的音素分类做自适应训练;
2、本发明的方法解决了多语言语音识别中的特定语言自适应问题,在特定语言的语音内容识别任务中取得了较好的识别性能,同时也能够得到较为实用的语言种类分类结果,实现了语音内容和语言种类协同识别;
3、本发明的方法通过语种分类模型可以自动判定输入数据的语种分类,节省了大量的人工标注工作,同时提高了语音内容识别的性能。
附图说明
图1为本发明的语言种类和语音内容协同分类声学模型的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供了基于语言种类语音内容协同分类的多语言语音识别***,该***包括:信号处理及特征提取模块、发音词典、语言模型、解码器以及语言种类和语音内容协同分类声学模型;其中,语言种类和语音内容协同分类声学模型包括:多语言语音内容识别模型和语种分类模型;本***通过将语种分类模型的语种分类信息传递到多语言语音内容识别模型中,使得多语言语音内容识别模型能够利用语种分类信息对特定语种的音素分类做自适应训练。
所述信号处理及特征提取模块,用于对待识别的音频信号进行增强,将所述待识别的音频信号从时域转化到频域,并提取声学特征;
所述语言种类和语音内容协同分类声学模型,用于以提取的声学特征为输入,生成和输出声学模型得分;该模型包括:多语言语音内容识别模型和语种分类模型;所述多语言语音内容识别模型包括:多语言共享隐含层和特定语言输出层;所述多语言共享隐含层的模型参数通过多种语言的数据进行联合更新训练,使得隐含层可以学习到多种语言共有的声学特征信息;所述特定语言的输出层的模型参数只根据特定语言的数据进行更新训练,针对特定语言的声学特性进行优化,所述特定语言的输出层输出节点根据特定语言的音素聚类信息进行分类;所述语种分类模型,利用多语言数据对模型参数进行更新训练,将输入特征向量通过多个隐含层的非线性变换分类为特定的语言种类。
语言模型,用于学习并估计文本训练语料中词之间的转移概率,输出所述待识别的音频信号对应的候选词序列的语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列生成多条候选词序列,结合所述声学模型得分和所述语言模型得分作为总体分数,将总体分数最高的词序列作为识别结果。
此外,本发明还提供了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:
步骤1)建立和训练语言种类和语音内容协同分类声学模型;所述语言种类和语音内容协同分类声学模型包括:多语言语音内容识别模型和语种分类模型;具体包括:
步骤1-1)构建多语言训练集,为多语言训练集的训练数据生成对应的语音内容文本标注和语种分类标签;
通过多语言训练数据进行强制数据对齐,为每一种语言生成训练数据对应音素特征向量的均值和方差统计量,根据所述音素统计量为每一种语言构建音素聚类问题集,根据所述音素统计量和音素问题集构建音素聚类决策树;
步骤1-2)建立多语言语音内容识别模型,该模型的输入层为音频的声学特征,隐含层为层数为3的多语言共享隐含层,隐含层分别与m个语言门结构连接,m为语种类型的数量,根据特定语言音素聚类决策树的叶子节点状态,在多语言共享隐含层的基础上为每个语种生成特定语言输出层;每个语言门结构的输出通过对应的特定语言输出层输出特定的音素分类结果。
步骤1-3)建立语种分类模型,该模型的输入层与多语言语音内容识别模型的输入层相同,为音频的声学特征,隐含层为层数为3的隐含层,通过对音频的声学特征做非线性变换,输出语言种类分类结果;根据语种分类标签的语种数量确定输出层节点数;其输出层节点数为语种类型的数量m,
步骤1-4)基于多语言语音内容识别模型和语种分类模型建立语言种类和语音内容协同分类声学模型;如图1所示,将语种分类模型的第二隐含层向量信息通过隐层连接传递到多语言语音内容识别模型,与多语言共享隐含层输出的向量共同输入非线性变换构成的3个特定语言门结构;辅助多语言语音内容识别模型的特定语言的输出层针对特定语言做自适应训练。
特定语言门结构的输出的计算公式为:
其中,h是多语言语音内容识别模型的隐含层输出的向量,v是语种分类模型的中间隐层输出向量,gi(h,v)是第i个特定语言门激活函数,在本实施例中i=1,2,3,m=3;gi(h,v)的计算公式为:
gi(h,v)=σ(Wi(h+Uiv+bi)
其中,Wi和Ui为第i个第一权重变换矩阵和第i个第二权重变换矩阵,bi是第i个偏置向量,σ(·)为非线性激活函数。
所述语种分类模型的中间隐层向量v首先通过矩阵变换,将特征维度映射到与多语言语音内容识别模型的隐含层向量h相同的维度;然后将维度变换后的语种分类模型的中间隐层向量与多语言语音内容识别模型的隐含层向量进行加和,加和后的信息再通过线性矩阵变换以及非线性激活函数变换得到3个语言门激活函数,每个语言门的激活函数与语音内容识别模型的隐含层向量h进行卷积,卷积的结果分别输出到3个特定语言输出层:第一语言输出层,第二语言输出层和第三语言输出层。
语言门是用于对语音内容识别分支的参数做自适应训练。相当于在隐层加入一部分额外的特征信息(也就是向量v),该部分信息在多语言语音内容识别模型分支起到的作用和输入特征起到的作用类似,只是作为一部分补充特征,由于特征v先通过了一个语种分类分支,所以特征向量v为语种分类相关的信息。
在语音内容分类分支在训练阶段不需要根据语种类型选择输出,而是多个语种输出层都有输出,在计算误差反向回传的过程中需要用到分类标签,除了正确的输出层有标签以外,其他的输出层标签都为0,所以非正确输出层的计算误差为0。
步骤1-5)通过步骤1-1)构建的多语言训练集,联合训练语种分类模型和多语言语音内容识别模型,得到训练好的语言种类和语音内容协同分类声学模型。
多语言共享的隐含层网络参数由多语言数据共同更新训练;在多语言共享的神经网络前向计算过程中,多种语言数据通过共享的网络参数对输入的多语言特征向量进行非线性变换;在多语言共享的神经网络反向误差回传过程中,共享的神经网络模型参数由多种语言的输出层回传误差共同更新;特定语言的输出层网络只根据特定语言的输出行模型参数更新。
具体包括:
步骤1-5-1)所述多语言共享的隐含层参数由多语言训练数据共同更新训练:在前向计算过程中,多种语言训练数据通过共享的网络参数以及语言输出层对输入的声学特征向量进行非线性变换,在m个语言输出层均有概率输出;
步骤1-5-2)在计算误差损失函数过程中,特定语言的输入特征只在对应的语言输出层计算误差损失函数值,其它的语言输出层计算的误差损失函数值为零;
步骤1-5-3)在误差反向回传过程中,每个语言输出层只针对特定语言的数据进行模型参数更新;由于多语言共享的隐含层同时连接m个语言输出层,共享的隐含层网络参数由m个语言输出层回传误差共同更新;
步骤1-5-4)反复执行步骤1-5-1)-步骤1-5-3),直至所有的模型参数收敛。
步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;在解码阶段,解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;
步骤3)将若干个候选词序列输入语言模型得到语言模型得分,将候选词序列的声学模型得分和语言模型得分进行结合得到总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。
基于本发明的语音识别***的合理性和有效性已经在实际***上得到了验证,结果见表1:
表1
本发明的方法通过将多种语言的数据进行声学模型联合训练,同时利用语种信息对特定语种的输出层做自适应训练,在三种语言的测试集上得到了平均相对百分之6的性能提升,验证了本发明的基于语言种类和语音内容协同分类的多语言语音识别方法具有较好的语音识别结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:
步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;
步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;在解码阶段,解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;
步骤3)将若干个候选词序列输入语言模型得到语言模型得分,将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。
2.根据权利要求1所述的基于语言种类和语音内容协同分类的多语言语音识别方法,其特征在于,所述步骤1)具体包括:
步骤1-1)为每个多语言训练数据生成对应的语音内容文本标注和语种分类标签;由此构建多语言训练集,
步骤1-2)构建多语言语音内容识别模型,该模型的输入层为语音的声学特征向量,隐含层为层数为n1的多语言共享隐含层,该隐含层分别与m个语言门连接,m为语种类型的数量,每个语言门的输出通过对应的语言输出层输出音素分类结果;
步骤1-3)构建语种分类模型,该模型的输入层与为音频的声学特征向量,隐含层的层数为n2,通过对语音的声学特征向量做非线性变换,输出语言种类分类结果;输出层节点数为语种类型的数量m,
步骤1-4)基于多语言语音内容识别模型和语种分类模型建立语言种类和语音内容协同分类声学模型;将语种分类模型的中间隐层的向量通过隐层连接传递到多语言语音内容识别模型,与多语言共享隐含层输出的向量共同输入非线性变换构成的m个语言门;
步骤1-5)通过步骤1-1)构建的多语言训练集,联合训练语种分类模型和多语言语音内容识别模型的参数,得到训练好的语言种类和语音内容协同分类声学模型。
4.根据权利要求3所述的基于语言种类和语音内容协同分类的多语言语音识别方法,其特征在于,所述步骤1-5)的训练语种分类模型和多语言语音内容识别模型的参数包括:多语言共享的隐含层参数、语种分类模型的隐含层参数、矩阵Wi、Ui和bi,i=1,2…m以及m个语言输出层参数。
5.根据权利要求4所述的基于语言种类和语音内容协同分类的多语言语音识别方法,其特征在于,所述步骤1-5)具体包括:
步骤1-5-1)所述多语言共享的隐含层参数由多语言训练数据共同更新训练:在前向计算过程中,多种语言训练数据通过共享的网络参数以及语言输出层对输入的声学特征向量进行非线性变换,在m个语言输出层均有概率输出;
步骤1-5-2)在计算误差损失函数过程中,特定语言的输入特征只在对应的语言输出层计算误差损失函数值,其它的语言输出层计算的误差损失函数值为零;
步骤1-5-3)在误差反向回传过程中,每个语言输出层只针对特定语言的数据进行模型参数更新;由于多语言共享的隐含层同时连接m个语言输出层,共享的隐含层网络参数由m个语言输出层回传误差共同更新;
步骤1-5-4)反复执行步骤1-5-1)-步骤1-5-3),直至所有的模型参数收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974049.5A CN110895932B (zh) | 2018-08-24 | 2018-08-24 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974049.5A CN110895932B (zh) | 2018-08-24 | 2018-08-24 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110895932A true CN110895932A (zh) | 2020-03-20 |
CN110895932B CN110895932B (zh) | 2022-05-03 |
Family
ID=69785270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810974049.5A Active CN110895932B (zh) | 2018-08-24 | 2018-08-24 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110895932B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613204A (zh) * | 2020-04-29 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种快速响应的神经语音合成***及其方法 |
CN111986650A (zh) * | 2020-08-07 | 2020-11-24 | 云知声智能科技股份有限公司 | 借助语种识别辅助语音评测的方法及*** |
CN112185348A (zh) * | 2020-10-19 | 2021-01-05 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
CN112270923A (zh) * | 2020-10-22 | 2021-01-26 | 江苏峰鑫网络科技有限公司 | 一种基于神经网络的语义识别*** |
CN112435656A (zh) * | 2020-12-11 | 2021-03-02 | 平安科技(深圳)有限公司 | 模型训练方法、语音识别方法、装置、设备及存储介质 |
CN112652311A (zh) * | 2020-12-01 | 2021-04-13 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113077781A (zh) * | 2021-06-04 | 2021-07-06 | 北京世纪好未来教育科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113539238A (zh) * | 2020-03-31 | 2021-10-22 | 中国科学院声学研究所 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
CN113744717A (zh) * | 2020-05-15 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 一种语种识别方法及装置 |
CN114078468A (zh) * | 2022-01-19 | 2022-02-22 | 广州小鹏汽车科技有限公司 | 语音的多语种识别方法、装置、终端和存储介质 |
WO2022057759A1 (zh) * | 2020-09-21 | 2022-03-24 | 华为技术有限公司 | 一种语音转换的方法及相关设备 |
CN114398468A (zh) * | 2021-12-09 | 2022-04-26 | 广东外语外贸大学 | 一种多语种识别方法和*** |
CN114420111A (zh) * | 2022-03-31 | 2022-04-29 | 成都启英泰伦科技有限公司 | 一种基于一维假设的语音向量距离计算方法 |
CN114596845A (zh) * | 2022-04-13 | 2022-06-07 | 马上消费金融股份有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN115394288A (zh) * | 2022-10-28 | 2022-11-25 | 成都爱维译科技有限公司 | 民航多语种无线电陆空通话的语种识别方法及*** |
CN117540829A (zh) * | 2023-10-18 | 2024-02-09 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种知识共享的大语言模型协同优化方法和*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
KR20140059545A (ko) * | 2012-11-08 | 2014-05-16 | 한국전자통신연구원 | 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及*** |
US20140257805A1 (en) * | 2013-03-11 | 2014-09-11 | Microsoft Corporation | Multilingual deep neural network |
CN104575495A (zh) * | 2013-10-21 | 2015-04-29 | 中国科学院声学研究所 | 一种采用总变化量因子的语种识别方法及*** |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及*** |
-
2018
- 2018-08-24 CN CN201810974049.5A patent/CN110895932B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140059545A (ko) * | 2012-11-08 | 2014-05-16 | 한국전자통신연구원 | 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치 |
US20140257805A1 (en) * | 2013-03-11 | 2014-09-11 | Microsoft Corporation | Multilingual deep neural network |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN104575495A (zh) * | 2013-10-21 | 2015-04-29 | 中国科学院声学研究所 | 一种采用总变化量因子的语种识别方法及*** |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及*** |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及*** |
Non-Patent Citations (5)
Title |
---|
CAESAR: "Integrating language identification to improve multilingual speech recognition", 《EPFL SCIENTIFIC PUBLICATIONS》 * |
J.-T. HUANG: "Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers", 《SPEECH AND SIGNAL PROCESSING》 * |
S. TONG: "An Investigation of Deep Neural Networks for Multilingual Speech", 《INTERSPEECH 2017》 * |
姚海涛: "面向多语言的语音识别声学模型建模方法研究", 《声学技术》 * |
龙艳花: "多语种混合语音识别关键技术研发与应用", 《科技成果》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539238B (zh) * | 2020-03-31 | 2023-12-08 | 中国科学院声学研究所 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
CN113539238A (zh) * | 2020-03-31 | 2021-10-22 | 中国科学院声学研究所 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
CN111613204A (zh) * | 2020-04-29 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种快速响应的神经语音合成***及其方法 |
CN111613204B (zh) * | 2020-04-29 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种快速响应的神经语音合成***及其方法 |
CN113744717A (zh) * | 2020-05-15 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 一种语种识别方法及装置 |
CN111986650A (zh) * | 2020-08-07 | 2020-11-24 | 云知声智能科技股份有限公司 | 借助语种识别辅助语音评测的方法及*** |
CN111986650B (zh) * | 2020-08-07 | 2024-02-27 | 云知声智能科技股份有限公司 | 借助语种识别辅助语音评测的方法及*** |
WO2022057759A1 (zh) * | 2020-09-21 | 2022-03-24 | 华为技术有限公司 | 一种语音转换的方法及相关设备 |
CN112185348A (zh) * | 2020-10-19 | 2021-01-05 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
CN112185348B (zh) * | 2020-10-19 | 2024-05-03 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
WO2021179701A1 (zh) * | 2020-10-19 | 2021-09-16 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
CN112270923A (zh) * | 2020-10-22 | 2021-01-26 | 江苏峰鑫网络科技有限公司 | 一种基于神经网络的语义识别*** |
CN112652311B (zh) * | 2020-12-01 | 2021-09-03 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
US11893977B2 (en) | 2020-12-01 | 2024-02-06 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for recognizing Chinese-English mixed speech, electronic device, and storage medium |
CN112652311A (zh) * | 2020-12-01 | 2021-04-13 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
CN112435656B (zh) * | 2020-12-11 | 2024-03-01 | 平安科技(深圳)有限公司 | 模型训练方法、语音识别方法、装置、设备及存储介质 |
CN112435656A (zh) * | 2020-12-11 | 2021-03-02 | 平安科技(深圳)有限公司 | 模型训练方法、语音识别方法、装置、设备及存储介质 |
CN113053367B (zh) * | 2021-04-16 | 2023-10-10 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113077781B (zh) * | 2021-06-04 | 2021-09-07 | 北京世纪好未来教育科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113077781A (zh) * | 2021-06-04 | 2021-07-06 | 北京世纪好未来教育科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN114398468A (zh) * | 2021-12-09 | 2022-04-26 | 广东外语外贸大学 | 一种多语种识别方法和*** |
CN114078468B (zh) * | 2022-01-19 | 2022-05-13 | 广州小鹏汽车科技有限公司 | 语音的多语种识别方法、装置、终端和存储介质 |
WO2023138286A1 (zh) * | 2022-01-19 | 2023-07-27 | 广州小鹏汽车科技有限公司 | 语音的多语种识别方法、装置、终端和存储介质 |
CN114078468A (zh) * | 2022-01-19 | 2022-02-22 | 广州小鹏汽车科技有限公司 | 语音的多语种识别方法、装置、终端和存储介质 |
CN114420111B (zh) * | 2022-03-31 | 2022-06-17 | 成都启英泰伦科技有限公司 | 一种基于一维假设的语音向量距离计算方法 |
CN114420111A (zh) * | 2022-03-31 | 2022-04-29 | 成都启英泰伦科技有限公司 | 一种基于一维假设的语音向量距离计算方法 |
CN114596845A (zh) * | 2022-04-13 | 2022-06-07 | 马上消费金融股份有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN115394288B (zh) * | 2022-10-28 | 2023-01-24 | 成都爱维译科技有限公司 | 民航多语种无线电陆空通话的语种识别方法及*** |
CN115394288A (zh) * | 2022-10-28 | 2022-11-25 | 成都爱维译科技有限公司 | 民航多语种无线电陆空通话的语种识别方法及*** |
CN117540829A (zh) * | 2023-10-18 | 2024-02-09 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种知识共享的大语言模型协同优化方法和*** |
CN117540829B (zh) * | 2023-10-18 | 2024-05-17 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种知识共享的大语言模型协同优化方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN110895932B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110895932B (zh) | 基于语言种类和语音内容协同分类的多语言语音识别方法 | |
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、***、设备及介质 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN110070855B (zh) | 一种基于迁移神经网络声学模型的语音识别***及方法 | |
CN107704456B (zh) | 识别控制方法以及识别控制装置 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
CN111984766A (zh) | 缺失语义补全方法及装置 | |
CN111402861A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
US20200211417A1 (en) | Two-language free dialogue system and method for language learning | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和***及设备 | |
CN112767925B (zh) | 语音信息识别方法及装置 | |
Jiang et al. | Towards robust mispronunciation detection and diagnosis for L2 English learners with accent-modulating methods | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN111160027A (zh) | 基于语义注意力的循环神经网络事件时序关系识别方法 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
KR101079869B1 (ko) | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 | |
CN113326702A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
Ren et al. | Semface: Pre-training encoder and decoder with a semantic interface for neural machine translation | |
CN115935959A (zh) | 一种低资源黏着语序列标注的方法 | |
CN115455167A (zh) | 一种基于知识引导的地理考题生成方法和装置 | |
Mounika et al. | Automatic correction of speech recognized mathematical equations using encoder-decoder attention model | |
CN113314108B (zh) | 语音数据的处理方法、装置、设备、存储介质和程序产品 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |