CN106875942B - 基于口音瓶颈特征的声学模型自适应方法 - Google Patents

基于口音瓶颈特征的声学模型自适应方法 Download PDF

Info

Publication number
CN106875942B
CN106875942B CN201611232996.4A CN201611232996A CN106875942B CN 106875942 B CN106875942 B CN 106875942B CN 201611232996 A CN201611232996 A CN 201611232996A CN 106875942 B CN106875942 B CN 106875942B
Authority
CN
China
Prior art keywords
accent
deep
acoustic model
neural network
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611232996.4A
Other languages
English (en)
Other versions
CN106875942A (zh
Inventor
陶建华
易江燕
温正棋
倪浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201611232996.4A priority Critical patent/CN106875942B/zh
Publication of CN106875942A publication Critical patent/CN106875942A/zh
Application granted granted Critical
Publication of CN106875942B publication Critical patent/CN106875942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。

Description

基于口音瓶颈特征的声学模型自适应方法
技术领域
本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。
背景技术
迄今为止,语音识别技术已经成为人机交互的重要入口,使用该技术的用户人数日益增长。由于这些用户来自五湖四海,口音千差万别,因而通用的语音识别声学模型很难适用于所有用户。因此,需要针对不同口音的用户,个性化定制相应的声学模型。目前,提取声纹特征的技术已经在说话人领域得到了广泛的应用,而说话人的声纹特征与说话人的口音有着千丝万缕的联系。虽然此前已经有不少学者通过提取声纹特征的技术来提取口音特征,然而这种技术并不能高层次地表征口音特征,而如何高层次地表征口音特征对个性化定制声学模型至关重要。
因此,本领域需要一种新的方法来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供了一种基于口音瓶颈特征的声学模型自适应方法。该方法包括下列步骤:
S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;
S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;
S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;
S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。
优选地,在步骤S1中,获取所述声纹拼接特征的步骤包括:
S11、从口音音频数据中提取声学特征;
S12、利用所述声学特征提取说话人的声纹特征向量;
S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。
优选地,在步骤S1中,所述第一神经网络是深度前馈神经网络模型,以所述多个所述口音音频数据的声纹拼接特征对所述深度前馈神经网络模型进行训练,得到深度口音瓶颈网络。
优选地,步骤S2进一步包括:
S21、利用所述深度口音瓶颈网络模型提取所述口音音频数据的口音瓶颈特征;
S22、融合所述口音瓶颈特征与所述声学特征,得到所述口音音频数据的口音拼接特征。
优选地,步骤S21进一步包括:将所述口音音频数据的声纹拼接特征作为所述深度口音瓶颈网络模型的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征。
优选地,在步骤S3中,所述第二神经网络是深度双向长短时记忆循环神经网络,以多个所述口音拼接特征对所述深度双向长短时记忆循环神经网络进行训练,得到口音独立的深度双向长短时记忆循环神经网络的声学模型;
将所述口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型。
优选地,在步骤S4中,利用所述口音拼接特征对所述口音独立的基线声学模型的输出层的参数进行调整,生产口音依赖的声学模型。
优选地,在步骤S4中,对所述口音独立的基线声学模型的最后一个输出层的参数进行调整。
优选地,采用后向传播算法对所述口音独立的基线声学模型的输出层的参数进行调整。
通过采用本发明的基于口音瓶颈特征的声学模型自适应方法,具有以下有益效果:
(1)采用深度口音瓶颈网络提取的口音拼接特征具有更抽象,更通用的表达,能准确获取口音的高层次表征。
(2)利用口音拼接特征去对口音独立的基线声学模型的输出层进行自适应,每一种口音都有对应的输出层,共享隐层参数,能减少模型的存储空间。
(3)通过本发明的基于口音瓶颈特征的声学模型自适应方法,提高了带口音语音识别的准确率。
附图说明
图1是本发明的基于口音瓶颈特征的声学模型自适应方法的流程图;
图2是本发明实施例的整体流程图;
图3是本发明实施例的生成声纹拼接特征的流程图;
图4是本发明实施例的生成口音拼接特征的流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参照图1,图1示出了本发明的基于口音瓶颈特征的声学模型自适应方法的流程图。本发明的方法包括以下步骤:
S1、基于第一神经网络模型,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络;
S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;
S3、基于第二神经网络模型,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;
S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。
图2示出了2是本发明实施例的整体流程图。下面参照图2对本发明的方法进行详细说明。
在步骤S1中,获取所述声纹拼接特征的步骤包括:
S11、从口音音频数据中提取声学特征。具体地,该步骤中主要采用梅尔频谱特征或者梅尔倒谱特征。以梅尔倒谱特征为例,梅尔倒谱特征的静态参数可以为13维,对其做一阶差分和二阶差分,最终参数的维度为39维,然后利用这39维的特征做后续处理。
S12、利用所述声学特征提取说话人的声纹特征向量。具体地,利用该声学特征训练高斯混合模型-通用背景模型,进而利用该高斯混合模型-通用背景模型从所述声学特征中来提取每个人的声纹特征向量,且该声纹特征向量的维度为80维。
S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。如图3所示,在生产声纹拼接特征的过程中,将S11中提取的声学特征与S12中提取的声纹特征向量融合。具体地,将每个人的声纹特征向量拼接到每帧的声学特征上,从而生成声纹拼接特征。
在步骤S1中,第一神经网络可以是深度前馈神经网络模型,以生成的声纹拼接特征对该深度前馈神经网络模型进行训练,得到深度口音瓶颈网络。在本实施例中,该深度口音瓶颈网络的最后一个隐层节点为60,比其他隐层节点数少,其他隐层节点可为1024或者2048。在本实施例中,该深度前馈神经网络模型的训练准则为交叉熵,训练方法为后向传播算法。深度前馈神经网络模型的激活函数可以为双弯曲激活函数或者双曲线正切激活函数,该网络的损失函数为交叉熵,其属于本领域已知技术,在此不再详细描述。
在步骤S2中,获取口音拼接特征的步骤包括:
S21、利用所述深度口音瓶颈网络提取所述口音音频数据的口音瓶颈特征;
S22、融合所述口音瓶颈特征与所述声学特征,得到所述口音音频数据的口音拼接特征。
具体而言,将步骤S1中得到的深度口音瓶颈网络视为一个特征提取器,以步骤S13中生成的声纹拼接特征作为所述深度口音瓶颈网络的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征。在本实施例中,该口音瓶颈特征为60维。如图4所示,在生产口音拼接特征的过程中,在帧级别将S21提取的口音瓶颈特征与S11提取的声学特征进行融合,从而生成口音拼接特征。
在步骤S3中,第二神经网络可以是深度双向长短时记忆循环神经网络,以步骤S2中得到的口音拼接特征对该深度双向长短时记忆循环神经网络进行训练,即将S2中得到的口音拼接特征输入该深度双向长短时记忆循环神经网络,其输出层的标签为声韵母。得到口音独立的深度双向长短时记忆循环神经网络的声学模型,并将该口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型。在本实施例中,深度双向长短时记忆循环神经网络的训练准则为联结时序分类函数,训练方法为后向传播算法。深度双向长短时记忆循环神经网络既能记忆输入特征的历史信息,又能预测输入特征的未来知识,其采用三个控制门来实现记忆和预测的功能,这三个控制门分别为输入门,遗忘门和输出门。深度双向长短时记忆循环神经网络属于本领域已知技术,在此不再进行详细描述。
在步骤S4中,利用步骤S2中得到的口音拼接特征对步骤S3中得到的口音独立的基线声学模型的输出层(一般为最后一个输出层)的参数进行微调,生产口音依赖的声学模型。具体地,将每种口音对应的口音拼接特征作为该口音独立的基线声学模型的输入,每种口音对应一个口音依赖的输出层,隐层为所以口音共享。进一步,采用后向传播算法对口音独立的基线声学模型进行参数微调。由于口音独立的基线声学模型是基于双向的长短时记忆神经网络模型,隐层最后生成的口音依赖的声学模型也是基于深度双向长短时记忆循环神经网络模型,其输出层的标签为声韵母,其结合发音词典和语言模型即可识别出音频数据对应的文本。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (6)

1.一种基于口音瓶颈特征的声学模型自适应方法,其特征在于,所述方法包括下列步骤:
S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;
S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;
S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;
S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型;
其中,步骤S2进一步包括:
S21、利用所述深度口音瓶颈网络模型提取所述口音音频数据的口音瓶颈特征;
S22、融合所述口音瓶颈特征与声学特征,得到所述口音音频数据的口音拼接特征;
其中,将所述口音音频数据的声纹拼接特征作为所述深度口音瓶颈网络模型的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征;
其中,在步骤S3中,所述第二深度神经网络是深度双向长短时记忆循环神经网络,
以多个所述口音拼接特征对所述深度双向长短时记忆循环神经网络进行训练,得到口音独立的深度双向长短时记忆循环神经网络的声学模型;
将所述口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型;
其中,所述深度双向长短时记忆循环神经网络的输出层的标签为声韵母,所述深度双向长短时记忆循环神经网络的训练准则为联结时序分类函数。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,获取所述声纹拼接特征的步骤包括:
S11、从口音音频数据中提取声学特征;
S12、利用所述声学特征提取说话人的声纹特征向量;
S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。
3.根据权利要求2所述的方法,其特征在于,在步骤S1中,所述第一深度神经网络是深度前馈神经网络,以所述多个所述口音音频数据的声纹拼接特征对所述深度前馈神经网络进行训练,得到深度口音瓶颈网络。
4.根据权利要求1所述的方法,其特征在于,在步骤S4中,利用所述口音拼接特征对所述口音独立的基线声学模型的输出层的参数进行调整,生成口音依赖的声学模型。
5.根据权利要求4所述的方法,其特征在于,在步骤S4中,对所述口音独立的基线声学模型的最后一个输出层的参数进行调整。
6.根据权利要求4或5所述的方法,其特征在于,采用后向传播算法对所述口音独立的基线声学模型的输出层的参数进行调整。
CN201611232996.4A 2016-12-28 2016-12-28 基于口音瓶颈特征的声学模型自适应方法 Active CN106875942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611232996.4A CN106875942B (zh) 2016-12-28 2016-12-28 基于口音瓶颈特征的声学模型自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611232996.4A CN106875942B (zh) 2016-12-28 2016-12-28 基于口音瓶颈特征的声学模型自适应方法

Publications (2)

Publication Number Publication Date
CN106875942A CN106875942A (zh) 2017-06-20
CN106875942B true CN106875942B (zh) 2021-01-22

Family

ID=59164199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611232996.4A Active CN106875942B (zh) 2016-12-28 2016-12-28 基于口音瓶颈特征的声学模型自适应方法

Country Status (1)

Country Link
CN (1) CN106875942B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN108447490B (zh) * 2018-02-12 2020-08-18 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108538285B (zh) * 2018-03-05 2021-05-04 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN108682416B (zh) * 2018-04-11 2021-01-01 深圳市卓翼科技股份有限公司 本地自适应语音训练方法和***
CN108682417B (zh) * 2018-05-14 2020-05-19 中国科学院自动化研究所 语音识别中的小数据语音声学建模方法
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109147763B (zh) * 2018-07-10 2020-08-11 深圳市感动智能科技有限公司 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
WO2020014890A1 (zh) * 2018-07-18 2020-01-23 深圳魔耳智能声学科技有限公司 基于口音的语音识别处理方法、电子设备和存储介质
CN110890085B (zh) * 2018-09-10 2023-09-12 阿里巴巴集团控股有限公司 声音识别方法和***
CN109887497B (zh) * 2019-04-12 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN111833847B (zh) * 2019-04-15 2023-07-25 北京百度网讯科技有限公司 语音处理模型训练方法和装置
CN110033760B (zh) * 2019-04-15 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110570858A (zh) * 2019-09-19 2019-12-13 芋头科技(杭州)有限公司 语音唤醒方法、装置、智能音箱和计算机可读存储介质
CN110930982A (zh) * 2019-10-31 2020-03-27 国家计算机网络与信息安全管理中心 一种多口音声学模型及多口音语音识别方法
CN111370025A (zh) * 2020-02-25 2020-07-03 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
CN111508501B (zh) * 2020-07-02 2020-09-29 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及***
CN112992126B (zh) * 2021-04-22 2022-02-25 北京远鉴信息技术有限公司 语音真伪的验证方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN106875942A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106875942B (zh) 基于口音瓶颈特征的声学模型自适应方法
EP3857543B1 (en) Conversational agent pipeline trained on synthetic data
CN107195296B (zh) 一种语音识别方法、装置、终端及***
Ghai et al. Literature review on automatic speech recognition
Arora et al. Automatic speech recognition: a review
US11741942B2 (en) Text-to-speech synthesis system and method
WO2020123315A1 (en) Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping
KR102607373B1 (ko) 음성감성 인식 장치 및 방법
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
Hasija et al. Out domain data augmentation on Punjabi children speech recognition using Tacotron
Baby et al. Deep Learning Techniques in Tandem with Signal Processing Cues for Phonetic Segmentation for Text to Speech Synthesis in Indian Languages.
Mandal et al. Shruti-II: A vernacular speech recognition system in Bengali and an application for visually impaired community
EP2867890A1 (en) Meta-data inputs to front end processing for automatic speech recognition
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
Li et al. Deep neural networks for syllable based acoustic modeling in Chinese speech recognition
Pantazoglou et al. Implementation of the generic greek model for cmu sphinx speech recognition toolkit
Abraham et al. Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition.
Wisesty et al. Feature extraction analysis on Indonesian speech recognition system
Rahmatullah et al. Performance Evaluation of Indonesian Language Forced Alignment Using Montreal Forced Aligner
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
Coto-Jiménez et al. Speech Synthesis Based on Hidden Markov Models and Deep Learning.
Syiem et al. Deep neural network-based phoneme classification of standard Khasi dialect in continuous speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant