CN106875942B - 基于口音瓶颈特征的声学模型自适应方法 - Google Patents
基于口音瓶颈特征的声学模型自适应方法 Download PDFInfo
- Publication number
- CN106875942B CN106875942B CN201611232996.4A CN201611232996A CN106875942B CN 106875942 B CN106875942 B CN 106875942B CN 201611232996 A CN201611232996 A CN 201611232996A CN 106875942 B CN106875942 B CN 106875942B
- Authority
- CN
- China
- Prior art keywords
- accent
- deep
- acoustic model
- neural network
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000001419 dependent effect Effects 0.000 claims abstract description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 description 10
- 230000007787 long-term memory Effects 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。
背景技术
迄今为止,语音识别技术已经成为人机交互的重要入口,使用该技术的用户人数日益增长。由于这些用户来自五湖四海,口音千差万别,因而通用的语音识别声学模型很难适用于所有用户。因此,需要针对不同口音的用户,个性化定制相应的声学模型。目前,提取声纹特征的技术已经在说话人领域得到了广泛的应用,而说话人的声纹特征与说话人的口音有着千丝万缕的联系。虽然此前已经有不少学者通过提取声纹特征的技术来提取口音特征,然而这种技术并不能高层次地表征口音特征,而如何高层次地表征口音特征对个性化定制声学模型至关重要。
因此,本领域需要一种新的方法来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供了一种基于口音瓶颈特征的声学模型自适应方法。该方法包括下列步骤:
S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;
S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;
S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;
S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。
优选地,在步骤S1中,获取所述声纹拼接特征的步骤包括:
S11、从口音音频数据中提取声学特征;
S12、利用所述声学特征提取说话人的声纹特征向量;
S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。
优选地,在步骤S1中,所述第一神经网络是深度前馈神经网络模型,以所述多个所述口音音频数据的声纹拼接特征对所述深度前馈神经网络模型进行训练,得到深度口音瓶颈网络。
优选地,步骤S2进一步包括:
S21、利用所述深度口音瓶颈网络模型提取所述口音音频数据的口音瓶颈特征;
S22、融合所述口音瓶颈特征与所述声学特征,得到所述口音音频数据的口音拼接特征。
优选地,步骤S21进一步包括:将所述口音音频数据的声纹拼接特征作为所述深度口音瓶颈网络模型的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征。
优选地,在步骤S3中,所述第二神经网络是深度双向长短时记忆循环神经网络,以多个所述口音拼接特征对所述深度双向长短时记忆循环神经网络进行训练,得到口音独立的深度双向长短时记忆循环神经网络的声学模型;
将所述口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型。
优选地,在步骤S4中,利用所述口音拼接特征对所述口音独立的基线声学模型的输出层的参数进行调整,生产口音依赖的声学模型。
优选地,在步骤S4中,对所述口音独立的基线声学模型的最后一个输出层的参数进行调整。
优选地,采用后向传播算法对所述口音独立的基线声学模型的输出层的参数进行调整。
通过采用本发明的基于口音瓶颈特征的声学模型自适应方法,具有以下有益效果:
(1)采用深度口音瓶颈网络提取的口音拼接特征具有更抽象,更通用的表达,能准确获取口音的高层次表征。
(2)利用口音拼接特征去对口音独立的基线声学模型的输出层进行自适应,每一种口音都有对应的输出层,共享隐层参数,能减少模型的存储空间。
(3)通过本发明的基于口音瓶颈特征的声学模型自适应方法,提高了带口音语音识别的准确率。
附图说明
图1是本发明的基于口音瓶颈特征的声学模型自适应方法的流程图;
图2是本发明实施例的整体流程图;
图3是本发明实施例的生成声纹拼接特征的流程图;
图4是本发明实施例的生成口音拼接特征的流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参照图1,图1示出了本发明的基于口音瓶颈特征的声学模型自适应方法的流程图。本发明的方法包括以下步骤:
S1、基于第一神经网络模型,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络;
S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;
S3、基于第二神经网络模型,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;
S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。
图2示出了2是本发明实施例的整体流程图。下面参照图2对本发明的方法进行详细说明。
在步骤S1中,获取所述声纹拼接特征的步骤包括:
S11、从口音音频数据中提取声学特征。具体地,该步骤中主要采用梅尔频谱特征或者梅尔倒谱特征。以梅尔倒谱特征为例,梅尔倒谱特征的静态参数可以为13维,对其做一阶差分和二阶差分,最终参数的维度为39维,然后利用这39维的特征做后续处理。
S12、利用所述声学特征提取说话人的声纹特征向量。具体地,利用该声学特征训练高斯混合模型-通用背景模型,进而利用该高斯混合模型-通用背景模型从所述声学特征中来提取每个人的声纹特征向量,且该声纹特征向量的维度为80维。
S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。如图3所示,在生产声纹拼接特征的过程中,将S11中提取的声学特征与S12中提取的声纹特征向量融合。具体地,将每个人的声纹特征向量拼接到每帧的声学特征上,从而生成声纹拼接特征。
在步骤S1中,第一神经网络可以是深度前馈神经网络模型,以生成的声纹拼接特征对该深度前馈神经网络模型进行训练,得到深度口音瓶颈网络。在本实施例中,该深度口音瓶颈网络的最后一个隐层节点为60,比其他隐层节点数少,其他隐层节点可为1024或者2048。在本实施例中,该深度前馈神经网络模型的训练准则为交叉熵,训练方法为后向传播算法。深度前馈神经网络模型的激活函数可以为双弯曲激活函数或者双曲线正切激活函数,该网络的损失函数为交叉熵,其属于本领域已知技术,在此不再详细描述。
在步骤S2中,获取口音拼接特征的步骤包括:
S21、利用所述深度口音瓶颈网络提取所述口音音频数据的口音瓶颈特征;
S22、融合所述口音瓶颈特征与所述声学特征,得到所述口音音频数据的口音拼接特征。
具体而言,将步骤S1中得到的深度口音瓶颈网络视为一个特征提取器,以步骤S13中生成的声纹拼接特征作为所述深度口音瓶颈网络的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征。在本实施例中,该口音瓶颈特征为60维。如图4所示,在生产口音拼接特征的过程中,在帧级别将S21提取的口音瓶颈特征与S11提取的声学特征进行融合,从而生成口音拼接特征。
在步骤S3中,第二神经网络可以是深度双向长短时记忆循环神经网络,以步骤S2中得到的口音拼接特征对该深度双向长短时记忆循环神经网络进行训练,即将S2中得到的口音拼接特征输入该深度双向长短时记忆循环神经网络,其输出层的标签为声韵母。得到口音独立的深度双向长短时记忆循环神经网络的声学模型,并将该口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型。在本实施例中,深度双向长短时记忆循环神经网络的训练准则为联结时序分类函数,训练方法为后向传播算法。深度双向长短时记忆循环神经网络既能记忆输入特征的历史信息,又能预测输入特征的未来知识,其采用三个控制门来实现记忆和预测的功能,这三个控制门分别为输入门,遗忘门和输出门。深度双向长短时记忆循环神经网络属于本领域已知技术,在此不再进行详细描述。
在步骤S4中,利用步骤S2中得到的口音拼接特征对步骤S3中得到的口音独立的基线声学模型的输出层(一般为最后一个输出层)的参数进行微调,生产口音依赖的声学模型。具体地,将每种口音对应的口音拼接特征作为该口音独立的基线声学模型的输入,每种口音对应一个口音依赖的输出层,隐层为所以口音共享。进一步,采用后向传播算法对口音独立的基线声学模型进行参数微调。由于口音独立的基线声学模型是基于双向的长短时记忆神经网络模型,隐层最后生成的口音依赖的声学模型也是基于深度双向长短时记忆循环神经网络模型,其输出层的标签为声韵母,其结合发音词典和语言模型即可识别出音频数据对应的文本。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (6)
1.一种基于口音瓶颈特征的声学模型自适应方法,其特征在于,所述方法包括下列步骤:
S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;
S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;
S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;
S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型;
其中,步骤S2进一步包括:
S21、利用所述深度口音瓶颈网络模型提取所述口音音频数据的口音瓶颈特征;
S22、融合所述口音瓶颈特征与声学特征,得到所述口音音频数据的口音拼接特征;
其中,将所述口音音频数据的声纹拼接特征作为所述深度口音瓶颈网络模型的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征;
其中,在步骤S3中,所述第二深度神经网络是深度双向长短时记忆循环神经网络,
以多个所述口音拼接特征对所述深度双向长短时记忆循环神经网络进行训练,得到口音独立的深度双向长短时记忆循环神经网络的声学模型;
将所述口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型;
其中,所述深度双向长短时记忆循环神经网络的输出层的标签为声韵母,所述深度双向长短时记忆循环神经网络的训练准则为联结时序分类函数。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,获取所述声纹拼接特征的步骤包括:
S11、从口音音频数据中提取声学特征;
S12、利用所述声学特征提取说话人的声纹特征向量;
S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。
3.根据权利要求2所述的方法,其特征在于,在步骤S1中,所述第一深度神经网络是深度前馈神经网络,以所述多个所述口音音频数据的声纹拼接特征对所述深度前馈神经网络进行训练,得到深度口音瓶颈网络。
4.根据权利要求1所述的方法,其特征在于,在步骤S4中,利用所述口音拼接特征对所述口音独立的基线声学模型的输出层的参数进行调整,生成口音依赖的声学模型。
5.根据权利要求4所述的方法,其特征在于,在步骤S4中,对所述口音独立的基线声学模型的最后一个输出层的参数进行调整。
6.根据权利要求4或5所述的方法,其特征在于,采用后向传播算法对所述口音独立的基线声学模型的输出层的参数进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611232996.4A CN106875942B (zh) | 2016-12-28 | 2016-12-28 | 基于口音瓶颈特征的声学模型自适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611232996.4A CN106875942B (zh) | 2016-12-28 | 2016-12-28 | 基于口音瓶颈特征的声学模型自适应方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106875942A CN106875942A (zh) | 2017-06-20 |
CN106875942B true CN106875942B (zh) | 2021-01-22 |
Family
ID=59164199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611232996.4A Active CN106875942B (zh) | 2016-12-28 | 2016-12-28 | 基于口音瓶颈特征的声学模型自适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106875942B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
CN108447490B (zh) * | 2018-02-12 | 2020-08-18 | 阿里巴巴集团控股有限公司 | 基于记忆性瓶颈特征的声纹识别的方法及装置 |
CN108538285B (zh) * | 2018-03-05 | 2021-05-04 | 清华大学 | 一种基于多任务神经网络的多样例关键词检测方法 |
CN108682416B (zh) * | 2018-04-11 | 2021-01-01 | 深圳市卓翼科技股份有限公司 | 本地自适应语音训练方法和*** |
CN108682417B (zh) * | 2018-05-14 | 2020-05-19 | 中国科学院自动化研究所 | 语音识别中的小数据语音声学建模方法 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109147763B (zh) * | 2018-07-10 | 2020-08-11 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
WO2020014890A1 (zh) * | 2018-07-18 | 2020-01-23 | 深圳魔耳智能声学科技有限公司 | 基于口音的语音识别处理方法、电子设备和存储介质 |
CN110890085B (zh) * | 2018-09-10 | 2023-09-12 | 阿里巴巴集团控股有限公司 | 声音识别方法和*** |
CN109887497B (zh) * | 2019-04-12 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
CN111833847B (zh) * | 2019-04-15 | 2023-07-25 | 北京百度网讯科技有限公司 | 语音处理模型训练方法和装置 |
CN110033760B (zh) * | 2019-04-15 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
CN110570858A (zh) * | 2019-09-19 | 2019-12-13 | 芋头科技(杭州)有限公司 | 语音唤醒方法、装置、智能音箱和计算机可读存储介质 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN111370025A (zh) * | 2020-02-25 | 2020-07-03 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
CN111508501B (zh) * | 2020-07-02 | 2020-09-29 | 成都晓多科技有限公司 | 一种电话机器人中带口音的语音识别方法及*** |
CN112992126B (zh) * | 2021-04-22 | 2022-02-25 | 北京远鉴信息技术有限公司 | 语音真伪的验证方法、装置、电子设备及可读存储介质 |
-
2016
- 2016-12-28 CN CN201611232996.4A patent/CN106875942B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106875942A (zh) | 2017-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106875942B (zh) | 基于口音瓶颈特征的声学模型自适应方法 | |
EP3857543B1 (en) | Conversational agent pipeline trained on synthetic data | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及*** | |
Ghai et al. | Literature review on automatic speech recognition | |
Arora et al. | Automatic speech recognition: a review | |
US11741942B2 (en) | Text-to-speech synthesis system and method | |
WO2020123315A1 (en) | Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping | |
KR102607373B1 (ko) | 음성감성 인식 장치 및 방법 | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
Gulzar et al. | A systematic analysis of automatic speech recognition: an overview | |
Hasija et al. | Out domain data augmentation on Punjabi children speech recognition using Tacotron | |
Baby et al. | Deep Learning Techniques in Tandem with Signal Processing Cues for Phonetic Segmentation for Text to Speech Synthesis in Indian Languages. | |
Mandal et al. | Shruti-II: A vernacular speech recognition system in Bengali and an application for visually impaired community | |
EP2867890A1 (en) | Meta-data inputs to front end processing for automatic speech recognition | |
Kumar et al. | Automatic spontaneous speech recognition for Punjabi language interview speech corpus | |
Fauziya et al. | A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling | |
Li et al. | Deep neural networks for syllable based acoustic modeling in Chinese speech recognition | |
Pantazoglou et al. | Implementation of the generic greek model for cmu sphinx speech recognition toolkit | |
Abraham et al. | Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition. | |
Wisesty et al. | Feature extraction analysis on Indonesian speech recognition system | |
Rahmatullah et al. | Performance Evaluation of Indonesian Language Forced Alignment Using Montreal Forced Aligner | |
El Ouahabi et al. | Amazigh speech recognition using triphone modeling and clustering tree decision | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
Coto-Jiménez et al. | Speech Synthesis Based on Hidden Markov Models and Deep Learning. | |
Syiem et al. | Deep neural network-based phoneme classification of standard Khasi dialect in continuous speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |