CN111986661A - 复杂环境下基于语音增强的深度神经网络语音识别方法 - Google Patents

复杂环境下基于语音增强的深度神经网络语音识别方法 Download PDF

Info

Publication number
CN111986661A
CN111986661A CN202010880777.7A CN202010880777A CN111986661A CN 111986661 A CN111986661 A CN 111986661A CN 202010880777 A CN202010880777 A CN 202010880777A CN 111986661 A CN111986661 A CN 111986661A
Authority
CN
China
Prior art keywords
voice
speech
signal
frame
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010880777.7A
Other languages
English (en)
Other versions
CN111986661B (zh
Inventor
王兰美
梁涛
朱衍波
廖桂生
王桂宝
孙长征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Shaanxi University of Technology
Original Assignee
Xidian University
Shaanxi University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Shaanxi University of Technology filed Critical Xidian University
Priority to CN202010880777.7A priority Critical patent/CN111986661B/zh
Publication of CN111986661A publication Critical patent/CN111986661A/zh
Application granted granted Critical
Publication of CN111986661B publication Critical patent/CN111986661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

复杂环境下基于语音增强的深度神经网络语音识别方法,以深度学习神经网络以及语音增强为技术背景搭建模型。首先搭建复杂语音环境数据集,在语音识别前端语音信号预处理阶段对各类待识别复杂语音条件下的语音信号进行语音增强;然后建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;并建立中文汉语词典文件;然后搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而实现复杂环境下中文语音的精准识别。很好地解决了现有语音识别算法对噪音因素敏感、对语音质量要求高、应用场景单一的问题。

Description

复杂环境下基于语音增强的深度神经网络语音识别方法
技术领域
本发明属于语音识别领域,尤其涉及一种复杂环境下基于语音增强的深度神经网络语音识别方法。
背景技术
近年来,科技创新屡破难关,经济繁荣社会进步,人们在解决吃、穿、住、行基本问题后,对构建美好生活提出了更多需求。这一美好愿景,促使QQ、微信等集生活、工作、娱乐于一身的虚拟社交软件大量涌现。虚拟社交软件给人们的生活,工作,交流沟通带来了极大便利,尤其是各大社交软件中的语音识别功能。语音识别,使得人们可以摆脱键盘、鼠标等传统交互方式的束缚,从而使用最自然的交流方式—语音交流来传递信息。同时,语音识别也逐渐在工业、通信、家电、家庭服务、医疗、电子消费产品等各个领域获得了广泛的应用。
现如今大部分的社交软件在无背景噪音以及无干扰声源的纯净语音条件下语音识别准确率已经达到极高水平。当待识别语音信号包含噪音、干扰以及存在混响时,现有的语音识别***的准确率便大幅下降。这一转变,主要是现有的语音识别***,在语音识别前端的语音信号预处理阶段以及搭建声学模型阶段,并未考虑去噪和干扰抑制问题。
现有的中文语音识别算法,对语音信号质量要求苛刻,算法鲁棒性差,当语音质量较差或音频污损严重,便会导致语音识别失败。仅在纯净的理想的语音条件下获得小范围应用,为了提高语音识别在现实生活环境中的应用,针对现有算法的不足,本发明提出复杂环境下基于语音增强的深度神经网络语音识别方法。该方法以深度学习神经网络以及语音增强为技术背景。首先,在语音识别前端对各类待识别复杂语音条件下的语音信号进行语音增强;建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;建立中文汉语词典文件;搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而建立一个性能良好的复杂语音环境下的语音识别***。
鉴于语音识别技术在实际生活中的应用,本发明提出的复杂环境语音识别技术是包括纯净语音条件、高斯白噪音环境、背景噪音或干扰声源以及混响环境四类综合语音环境下的语音识别技术。本发明方法识别准确率高,模型泛化能力强,同时对各类环境因素具有很好的鲁棒性。
发明内容
本发明的目的是提供一种复杂环境下基于语音增强的深度神经网络语音识别方法。
为了实现上述目的,本发明采取如下的技术解决方案:
复杂环境下基于语音增强的深度神经网络语音识别方法,以深度学习神经网络以及语音增强为技术背景搭建模型,具体的语音识别技术方案流程图见附图说明图1。首先搭建复杂语音环境数据集,在语音识别前端语音信号预处理阶段对待识别复杂语音条件下的语音信号进行语音增强;然后建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;并建立中文汉语词典文件;最后搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而实现复杂环境下中文语音的精准识别。很好地解决了现有语音识别算法对噪音敏感、对语音质量要求高、应用场景单一的问题。复杂环境下基于语音增强的深度神经网络语音识别方法步骤如下:
步骤一、复杂环境下语音数据集的建立及处理。在该部分收集纯净环境语音、高斯白噪音环境语音、存在背景噪音或干扰声源环境语音以及混响环境下的语音共同组成语音识别***的语音数据集C。然后,将语音数据集C中各环境下的语音数据分别分成训练集和测试集。分配比例为训练集语音条数:测试集语音条数=5:1。将各环境下的训练集和测试集分别汇总并打乱分布,形成训练集X和测试集T。训练集X中的第i条语音表示为xi;测试集T中第j条语音表示为tj。同时对训练集X中的每一条语音,编辑一个.txt格式的标签文档,标签文档的内容包括该条语音的名字以及对应的正确汉语拼音序列。训练集语音标签文档的部分展示图见附图说明图2。
步骤二、对建立的语音训练集X和测试集T进行语音增强,得到增强后的语音训练集
Figure BDA0002654055760000031
和测试集
Figure BDA0002654055760000032
增强后的语音训练集
Figure BDA0002654055760000033
中的第i条语音表示为
Figure BDA0002654055760000034
测试集
Figure BDA0002654055760000035
中第j条语音表示为
Figure BDA0002654055760000036
以语音训练集中第i条语音xi的语音增强为例,具体的语音增强步骤如下,对待增强的语音信号xi,用matlab软件内置的语音处理audioread函数对xi进行读取处理,得到语音信号的采样率fs以及包含语音信息的矩阵xi(n),xi(n)为n时刻的语音采样值;然后对xi(n)进行预加重处理得yi(n);再对yi(n)加汉明窗进行分帧操作,得到语音信号的各个帧的信息yi,r(n),其中yi,r(n)表示进行预加重增强后第i条语音信号的第r帧的语音信息矩阵;再对yi,r(n)进行FFT变换得到第i个语音信号第r帧的短时信号频谱
Figure BDA0002654055760000037
然后用伽马通权重函数Hl按频带对
Figure BDA0002654055760000038
进行处理得第i个语音信号第r帧第l个频带上的功率Pi,r,l(r,l),其中l的取值为0,...,39;依次按照如上步骤求取第r帧的各个频带的功率;再进行降噪去混响处理以及谱整合得
Figure BDA0002654055760000039
由此,已经求得增强后第i个语音信号第r帧的短时信号频谱,对其它帧的语音信号同样依次做如上的处理,得到各个帧的短时信号频谱,再通过IFFT变换在时域上进行语音信号帧合成得到增强之后的语音信号
Figure BDA0002654055760000041
Figure BDA0002654055760000042
放入增强后的语音训练集
Figure BDA0002654055760000043
中。具体的语音数据增强流程框架图见附图说明图3。
步骤三、搭建语音识别声学模型。本专利搭建的语音识别声学模型采用CNN+CTC进行建模,输入层为步骤二增强后的训练集
Figure BDA0002654055760000044
中的语音信号
Figure BDA0002654055760000045
采用MFCC特征提取算法处理训练集语音信号
Figure BDA0002654055760000046
得到200维的特征值序列,隐藏层采用卷积层和池化层交替重复连接,并且引入Dropout层,防止过拟合,其中卷积层卷积核尺寸为3,池化窗口大小为2,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,采用CTC的loss函数作为损失函数实现连接性时序多输出,输出为1423维的特征值正好对应步骤四搭建的中文汉语词典dict.txt文档中的1423个常用汉语拼音。具体语音识别声学模型网络框架图见附图说明图4。其中声学模型中卷积层、池化层、Dropout层以及全连接层的具体参数均已在图4中标出。
步骤四、搭建语音识别的2-gram语言模型以及词典。语言模型的搭建包括语言文本数据集的建立、2-gram语言模型搭建、中文汉语词典的搜集建立。语言文本数据集形式上表现为一个电子版.txt文件,内容为报纸、中学课文、著名小说。对于词典来说,一种语言的词典都是稳定不变的,对于本发明中的汉语文字词典来说,词典表现为一个dict.txt文件,其中标明了日常生活中常用的1423个汉语拼音对应的汉字,同时考虑汉语的一音多字情况。本发明搭建的词典部分展示图见附图说明图5。
步骤五、用建立的语言文本数据集对搭建的2-gram语言模型进行训练,得到语言模型的单词出现次数表以及状态转移表。对语言模型的具体训练方式如下:首先循环获取语言文本数据集中的文本内容并统计单个单词出现得次数,以及二个单词一起出现得次数,最后汇总得到单个单词出现次数表以及二个单词状态转移表。具体的语言模型训练框图见附图说明图6。
步骤六、用训练好的语言模型和建立的词典以及增强后的语音训练集
Figure BDA0002654055760000051
对搭建的声学模型进行学习训练。得到声学模型的权重文件以及其它参数配置文件。具体的声学模型训练流程如下:初始化声学网络模型的各处权值;依次导入语音训练集
Figure BDA0002654055760000052
中的语音进行训练,对任意的语音信号
Figure BDA0002654055760000053
首先经MFCC特征提取算法处理,得语音信号200维的特征值序列然后按照附图说明图7所列,将语音信号的200维特征值序列依次经过各个卷积层、池化层、Dropout层、全连接层处理,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,得语音信号的1423维声学特征;得到特征值后再在语言模型以及词典的作用下对1423维声学特征值进行解码并输出识别的语音信号
Figure BDA0002654055760000054
的汉语拼音序列;将声学模型识别出的汉语拼音序列与训练集
Figure BDA0002654055760000055
Figure BDA0002654055760000056
的汉语拼音标签序列进行对比计算误差并反向传播更新声学模型各处的权值,损失函数采用CTC的loss函数,并Adam算法进行优化。设置训练的batchsize=16,迭代次数epoch=50,每训练500条语音,保存一次权重文件,依次按照如上步骤处理训练集
Figure BDA0002654055760000057
的每一条语音,直至声学模型损失收敛,声学模型便训练完毕。保存声学模型的权重文件和各项配置文件。具体的语音识别声学模型训练框图见附图说明图7。
步骤七、用训练好的基于语音增强的中文语音识别***对测试集
Figure BDA0002654055760000058
的语音进行识别,统计语音识别准确率并与传统算法进行性能对比分析。具体的语音识别测试***流程框架图见附图说明图8。本专利的语音识别准确率以及与传统算法的性能比较部分展示图见图9、图10。
发明优点
复杂环境下基于语音增强的深度神经网络语音识别方法,很好地解决了现有语音识别算法对噪音等复杂环境因素敏感、对语音质量要求高、语音识别应用场景单一的问题。同时,本发明提出的语音识别方法采用神经网络深度学习技术,进行声学建模,使得本发明搭建的模型迁移学习能力强,语音增强方法的引入也使本发明的语音识别***在复杂环境因素干扰方面具有强大的鲁棒性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明描述中需要使用的附图做简单介绍,以便更好地了解本发明的发明内容。
图1为本发明的语音识别技术方案具体流程图;
图2为本发明的语音识别训练集语音标签部分展示图;
图3为本发明的语音识别语音增强流程框架图;
图4为本发明的语音识别声学模型网络框架图;
图5为本发明搭建的词典部分展示图;
图6为本发明的语言模型训练流程图;
图7为本发明声学模型的训练图;
图8为本发明语音识别测试***的流程框图;
图9为本发明的语音识别算法与传统算法在噪音环境下的效果对比展示图;
图10为本发明的语音识别算法与传统算法在混响环境下的效果对比展示图;
具体实施方式
复杂环境下基于语音增强的深度神经网络语音识别方法具体实施步骤如下:
步骤一、复杂环境下语音数据集的建立以及处理。在该部分收集纯净环境语音、高斯白噪音环境语音、存在背景噪音或干扰声源环境语音以及混响环境下的语音共同组成语音识别***的语音数据集C。然后,将语音数据集C中各环境下的语音数据分别分成训练集和测试集。分配比例为训练集语音条数:测试集语音条数=5:1。将各环境下的训练集和测试集分别汇总并打乱分布,形成训练集X和测试集T。训练集X中的第i条语音表示为xi;测试集T中第j条语音表示为tj。同时对训练集X中的每一条语音,编辑一个.txt格式的标签文档,标签文档的内容包括该条语音的名字以及对应的正确汉语拼音序列。训练集语音标签文档的部分展示图见附图说明图2。
具体收集方法分别如下:首先对于纯净条件的语音收集,在理想实验室条件下进行多人录制,以中文报纸、小说、学生课文为素材,单条语音录制时长10秒以内,共录制3000条纯净语音素材;对于高斯白噪音环境以及混响环境下的语音收集,采用Adobe Audition软件来进行合成,具体是采用录制的纯净语音和高斯白噪声进行合成,混响则直接采用软件自带的混响环境重新合成语音。其中高斯白噪音环境下的语音和混响环境下的语音各录制3000条;最后对于存在背景噪音或干扰声源的语音,采用实地录制为主,在工厂、餐厅等比较嘈杂的地方由多人进行实地录制,共录制语音3000条。同时,以上收集到的所有语音文件格式为.wav格式。将收集到语音进行分类,分类方式如下:将每一类语音环境中2500条语音作为语音识别***的训练集,剩下的500条作为测试集。总结即语音识别训练集X共10000条,测试集T共2000条,将训练集与测试集分别打乱分布,避免训练出来的模型出现过拟合。
步骤二、对建立的语音训练集X和测试集T进行语音增强,得到增强后的语音训练集
Figure BDA0002654055760000071
和测试集
Figure BDA0002654055760000072
增强后的语音训练集
Figure BDA0002654055760000073
中的第i条语音表示为
Figure BDA0002654055760000074
测试集
Figure BDA0002654055760000075
中第j条语音表示为
Figure BDA0002654055760000076
以语音训练集中第i条语音xi的语音增强为例,具体的语音增强步骤如下,对待增强的语音信号xi,用matlab软件内置的语音处理audioread函数对xi进行读取处理,得到语音信号的采样率fs以及包含语音信息的矩阵xi(n),xi(n)为n时刻的语音采样值;然后对xi(n)进行预加重处理得yi(n);再对yi(n)加汉明窗进行分帧操作,得到语音信号的各个帧的信息yi,r(n),其中yi,r(n)表示进行预加重增强后第i条语音信号的第r帧的语音信息矩阵;再对yi,r(n)进行FFT变换得到第i个语音信号第r帧的短时信号频谱
Figure BDA0002654055760000081
然后用伽马通权重函数Hl按频带对
Figure BDA0002654055760000082
进行处理得第i个语音信号第r帧第l个频带上的功率Pi,r,l(r,l),其中l的取值为0,...,39;依次按照如上步骤求取第r帧的各个频带的功率;再进行降噪去混响处理以及谱整合得
Figure BDA0002654055760000083
由此,已经求得增强后第i个语音信号第r帧的短时信号频谱,对其它帧的语音信号同样依次做如上的处理,得到各个帧的短时信号频谱,再通过IFFT变换在时域上进行语音信号帧合成得到增强之后的语音信号
Figure BDA0002654055760000084
Figure BDA0002654055760000085
放入增强后的语音训练集
Figure BDA0002654055760000086
中。具体的语音数据增强流程框架图见附图说明图3。
语音增强每一步操作具体如下详述:
(一)语音信号预加重
对训练集X中第i个语音信号矩阵xi(n)进行预加重得到yi(n),其中yi(n)=xi(n)-αxi(n-1),α为一个常量在本专利中α=0.98;xi(n-1)为对训练集中的第i个语音的n-1时刻的采样矩阵。
(二)加窗分帧
采用汉明窗w(n)对预加重之后的语音信号yi(n)进行加窗分帧,将连续的语音信号分割成一帧一帧的离散信号yi,r(n);
其中
Figure BDA0002654055760000087
汉明窗函数,N为窗长,专利中取帧长为50ms,帧移为10ms。预加重后的语音信号yi(n)加窗分帧处理可得到每一帧语音信号矩阵信息yi,r(n)。yi,r(n)表示进行预加重、加窗分帧后第i条语音信号的第r帧的语音信息矩阵。
(三)FFT变换
将第i条语音信号的第r帧的语音信息矩阵yi,r(n)作FFT变换,将其从时域变换到频域,得到第i个语音信号第r帧的短时信号频谱
Figure BDA0002654055760000091
(四)求语音信号的功率Pi,r,l(r,l)
将每一帧的短时信号频谱
Figure BDA0002654055760000092
用伽马通权重函数进行处理求取语音信号每一帧每一个频带的功率;
Figure BDA0002654055760000093
Pi,r,l(r,l)表示语音信号yi(n)第r帧第l个频带上的功率,k是一个虚拟变量表示离散频率的索引,ωk是离散频率,
Figure BDA0002654055760000094
由于在FFT变换的时候采用50ms的帧长以及语音信号的采样率为16kHz,因此N=1024;Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱,是matlab软件语音处理内置函数,函数的输入参数为频带l;
Figure BDA0002654055760000095
表示第r帧语音信号的短时频谱,L=40是所有通道的总数。
(五)语音信号降噪去混响处理
求得语音信号功率Pi,r,l(r,l)后,进行降噪去混响处理,具体步骤为:
(1)求取第r帧第l个频带的低通功率Mi,r,l[r,l],具体求解公式如下:
Mi,r,l[r,l]=λMi,r,l[r-1,l]+(1-λ)Pi,r,l[r,l]
Mi,r,l[r-1,l]表示第r-1帧第l个频带的低通功率;λ表示遗忘因子,因低通滤波器的带宽而变,本专利中λ=0.4。
(2)去除信号中缓慢变化的成分以及功率下降沿包络,对语音信号的功率Pi,r,l[r,l]进行处理得到增强后的第r帧第l个频带的功率
Figure BDA0002654055760000096
其中
Figure BDA0002654055760000097
中c0为一个常数因子,本专利取c0=0.01。
(3)按步骤(1),(2)依次对信号的每一帧每一个频带进行增强处理。
(六)谱整合
求得语音信号每一帧每一个频带上增强后功率
Figure BDA0002654055760000101
进行语音信号谱整合,可得到增强之后语音信号各帧的短时信号频谱,谱整合的公式如下:
Figure BDA0002654055760000102
上式中μi,r[r,k]表示第r帧第k个索引处的谱权重系数;
Figure BDA0002654055760000103
为未增强的第i个语音信号第r帧的短时信号频谱,
Figure BDA0002654055760000104
为增强后的第i个语音信号第r帧的短时信号频谱。
其中μi,r[r,k]的求解公式如下:
Figure BDA0002654055760000105
μi,r[r,k]=μi,r[r,N-k],N/2≤k≤N-1
公式中的Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱;ωi,r,l[r,l]为第i个语音信号第r帧第l个频带的权重系数,权重系数是增强之后的频域与信号的原始频域的比值,求解公式如下:
Figure BDA0002654055760000106
求得谱整合后的第i个语音信号的第r帧的增强后的短时信号频谱,按如上操作依次对各帧进行处理求得第i个语音信号各帧的增强后的短时信号频谱。对各帧增强后的语音信号
Figure BDA0002654055760000107
进行IFFT变换得到时域各帧的语音信号并且在时域进行帧拼接得到增强后的语音信号
Figure BDA0002654055760000108
IFFT变换以及语音信号时域帧拼接操作如下:
Figure BDA0002654055760000111
Figure BDA0002654055760000112
g为总帧数
上式中,
Figure BDA0002654055760000113
为增强后的语音信号矩阵;
Figure BDA0002654055760000114
表示第r帧增强后的语音信号矩阵;g为语音信号的总帧数,这个值因语音信号的时长而变。得到增强后n时刻语音信号的采样矩阵
Figure BDA0002654055760000115
再用matlab软件内置的语音处理audioread函数按照语音信号的采样率fs=16Khz对
Figure BDA0002654055760000116
进行写入处理,得到增强后的语音信号
Figure BDA0002654055760000117
至此,对语音训练集中一条语音的增强处理完毕,接下依次按照如上步骤处理训练集X和测试集T。并将增强后的训练集语音保存在
Figure BDA0002654055760000118
集中,增强后的测试集保存在
Figure BDA0002654055760000119
集中。
步骤三、搭建语音识别声学模型。本专利搭建的语音识别声学模型采用CNN+CTC进行建模,输入层为步骤二增强后的训练集
Figure BDA00026540557600001110
中语音信号
Figure BDA00026540557600001111
的200维的特征值序列,采用MFCC特征提取算法提取特征值序列;同时隐藏层采用卷积层和池化层交替重复连接,并且引入Dropout层,防止过拟合,其中卷积层卷积核尺寸为3,池化窗口大小为2,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,采用CTC的loss函数作为损失函数实现连接性时序多输出,输出为1423维的特征值正好对应步骤四搭建的中文汉语词典dict.txt文档中的1423个常用汉语拼音。具体语音识别声学模型网络框架图见附图说明图4。其中声学模型中卷积层、池化层、Dropout层以及全连接层的具体参数均已在图4中标出。
步骤四、搭建语音识别语言模型。语言模型搭建包括语言文本数据集的建立、2-gram语言模型设计、中文汉语词典的搜集。
(一)语言文本数据库的建立
首先,建立训练语言模型所需要的文本数据集。语言文本数据集形式上表现为一个电子版.txt文件,内容为报纸、中学课文、著名小说。收集报纸、中学课文、著名小说的电子版.txt文件建立语言文本数据库,注意语言文本数据库中文本数据的选取一定要具有代表性,能够反映出日常生活中的汉语用语习惯。
(二)2-gram语言模型搭建
本专利采用按词本身进行划分的语言模型训练方法2-gram算法搭建语言模型。其中2-gram中的2表示考虑当前词出现的概率只与其前2个词有关。2就是词序列记忆长度的约束数量。2-gram算法具体公式可以表示为:
Figure BDA0002654055760000121
上式中W表示一段文字序列,w1,w2,...,wq分别表示文字序列里面的每一个单词,q表示文字序列的长度;S(W)表示这一段文字序列符合语言学习惯的概率。d表示第d单词。
(三)汉语词典建立
搭建语音识别***语言模型词典。对于词典来说,一种语言的词典都是稳定不变的,对于本发明中的汉语文字词典来说,词典表现为一个dict.txt文件,其中标明了日常生活中常用的1423个汉语拼音对应的汉字,同时考虑汉语的一音多字情况。本发明搭建的词典部分展示图见附图说明图5。
步骤五、用建立的语言文本数据集对搭建的2-gram语言模型进行训练,得到语言模型的单词出现次数表以及状态转移表。具体的语言模型训练框图见附图说明图6。对语言模型的具体训练方式如下:
(1)循环获取语言文本数据集中的文本内容并统计单个单词出现得次数,汇总得到单个单词出现次数表。
(2)循环获取语言文本数据集中二个单词一起出现得次数,汇总得到二个单词状态转移表。
步骤六、用训练好的语言模型和建立的词典以及增强后的语音训练集
Figure BDA0002654055760000122
对搭建的声学模型进行学习训练。得到声学模型的权重文件以及其它参数配置文件。具体的声学模型训练流程如下:
(1)初始化声学网络模型的各处权值;
(2)依次导入语音训练集
Figure BDA0002654055760000131
中的语音进行训练,对任意的语音信号
Figure BDA0002654055760000132
首先经MFCC特征提取算法处理,得语音信号200维的特征值序列然后按照附图说明图7所列,将语音信号的200维特征值序列依次经过各个卷积层、池化层、Dropout层、全连接层处理,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,得语音信号的1423维声学特征;
(3)得到特征值后再在语言模型以及词典的作用下对1423维声学特征值进行解码并输出识别的语音信号
Figure BDA0002654055760000133
的汉语拼音序列;
(4)将声学模型识别出的汉语拼音序列与训练集
Figure BDA0002654055760000134
中第i条语音
Figure BDA0002654055760000135
的汉语拼音标签序列进行对比计算误差并反向传播更新声学模型各处的权值,损失函数采用CTC的loss函数,并Adam算法进行优化。设置训练的batchsize=16,迭代次数epoch=50,每训练500条语音,保存一次权重文件;CTC的损失函数如下:
Figure BDA0002654055760000136
上式中
Figure BDA0002654055760000137
表示训练集训练后产生的总损失,e表示输入语音即进行语音增强后训练集
Figure BDA0002654055760000138
中的语音信号
Figure BDA0002654055760000139
z为输出的汉字序列,F(z|e)表示输入为e,输出序列为z的概率。
(5)依次按照如上步骤训练语音识别的声学模型,直至声学模型损失收敛,声学模型便训练完毕。保存声学模型的权重文件和各项配置文件。具体的语音识别声学模型训练图见附图说明图7。
步骤七、用训练好的基于语音增强的中文语音识别***对测试集
Figure BDA00026540557600001310
的语音进行识别,统计语音识别准确率并与传统算法进行性能对比分析。具体的语音识别测试***流程框架图见附图说明图8。本专利的语音识别准确率以及与传统算法的在噪音环境下的性能比较部分展示图见附图说明图9;本专利的语音识别准确率以及与传统算法的在混响环境下的性能比较部分展示图见附图说明图10。
具体实行方式如下:
(1)用传统的语音识别***,对建立的复杂环境语音数据库的2000个未增强的语音测试集T进行语音识别测试,统计其语音识别的准确率。并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10。
(2)用本发明的基于语音增强的语音识别***,对建立的语音数据库的2000个增强后的语音测试集
Figure BDA0002654055760000141
进行语音识别测试,统计本发明方法的语音识别准确率。并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10。
(3)最后对本发明提出的基于语音增强的语音识别***进行性能分析。
统计完成后发现,本发明提出的基于语音增强的语音识别算法对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音的识别准确率大幅提升,性能提升大约在30%左右;与传统的语音识别算法相比,本发明算法识别准确率也大大提升,尤其是对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音识别,传统算法表现很差,而本发明算法表现优异,性能很好。取部分噪音环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图9。取部分混响环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图10。
由此看见,本发明的复杂环境下基于语音增强的深度神经网络语音识别方法,很好地解决了现有语音识别算法对噪音环境敏感、对语音质量要求高、可应用场景单一的问题,实现了复杂语音环境下的语音识别。
在上述各步骤中出现的符号i表示训练集和测试集中第i个进行语音增强处理的语音信号,i=1,2,...,12000;符号r表示语音信号的第r帧,r=1,2,3,...,g;g表示语音信号分帧之后的总帧数,g的取值因处理的语音时长而变;符号l表示语音信号的第l个频带,l=0,1,2,...,39;k是一个虚拟变量表示离散频率的索引,k=0,1,2,...,1023。
以上所述,仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施例展示如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
发明优点
本发明以深度学习神经网络以及语音增强为技术背景搭建模型。首先搭建复杂语音环境数据集,在语音识别前端语音信号预处理阶段对各类待识别复杂语音条件下的语音信号进行语音增强;然后建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;并建立中文汉语词典文件;然后搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而实现复杂环境下中文语音的精准识别。很好地解决了现有语音识别算法对噪音因素敏感、对语音质量要求高、应用场景单一的问题。

Claims (1)

1.复杂环境下基于语音增强的深度神经网络语音识别方法具体实施步骤如下:
步骤一、复杂环境下语音数据集的建立以及处理;在该部分收集纯净环境语音、高斯白噪音环境语音、存在背景噪音或干扰声源环境语音以及混响环境下的语音共同组成语音识别***的语音数据集C;然后,将语音数据集C中各环境下的语音数据分别分成训练集和测试集;分配比例为训练集语音条数:测试集语音条数=5:1;将各环境下的训练集和测试集分别汇总并打乱分布,形成训练集X和测试集T;训练集X中的第i条语音表示为xi;测试集T中第j条语音表示为tj;同时对训练集X中的每一条语音,编辑一个.txt格式的标签文档,标签文档的内容包括该条语音的名字以及对应的正确汉语拼音序列;训练集语音标签文档的部分展示图见附图说明图2;
具体收集方法分别如下:首先对于纯净条件的语音收集,在理想实验室条件下进行多人录制,以中文报纸、小说、学生课文为素材,单条语音录制时长10秒以内,共录制3000条纯净语音素材;对于高斯白噪音环境以及混响环境下的语音收集,采用Adobe Audition软件来进行合成,具体是采用录制的纯净语音和高斯白噪声进行合成,混响则直接采用软件自带的混响环境重新合成语音;其中高斯白噪音环境下的语音和混响环境下的语音各录制3000条;最后对于存在背景噪音或干扰声源的语音,采用实地录制为主,在工厂、餐厅等比较嘈杂的地方由多人进行实地录制,共录制语音3000条;同时,以上收集到的所有语音文件格式为.wav格式;将收集到语音进行分类,分类方式如下:将每一类语音环境中2500条语音作为语音识别***的训练集,剩下的500条作为测试集;总结即语音识别训练集X共10000条,测试集T共2000条,将训练集与测试集分别打乱分布,避免训练出来的模型出现过拟合;
步骤二、对建立的语音训练集X和测试集T进行语音增强,得到增强后的语音训练集
Figure FDA0002654055750000021
和测试集
Figure FDA0002654055750000022
增强后的语音训练集
Figure FDA0002654055750000023
中的第i条语音表示为
Figure FDA0002654055750000024
测试集
Figure FDA0002654055750000025
中第j条语音表示为
Figure FDA0002654055750000026
以语音训练集中第i条语音xi的语音增强为例,具体的语音增强步骤如下,对待增强的语音信号xi,用matlab软件内置的语音处理audioread函数对xi进行读取处理,得到语音信号的采样率fs以及包含语音信息的矩阵xi(n),xi(n)为n时刻的语音采样值;然后对xi(n)进行预加重处理得yi(n);再对yi(n)加汉明窗进行分帧操作,得到语音信号的各个帧的信息yi,r(n),其中yi,r(n)表示进行预加重增强后第i条语音信号的第r帧的语音信息矩阵;再对yi,r(n)进行FFT变换得到第i个语音信号第r帧的短时信号频谱
Figure FDA0002654055750000027
然后用伽马通权重函数Hl按频带对
Figure FDA0002654055750000028
进行处理得第i个语音信号第r帧第l个频带上的功率Pi,r,l(r,l),其中l的取值为0,...,39;依次按照如上步骤求取第r帧的各个频带的功率;再进行降噪去混响处理以及谱整合得
Figure FDA0002654055750000029
由此,已经求得增强后第i个语音信号第r帧的短时信号频谱,对其它帧的语音信号同样依次做如上的处理,得到各个帧的短时信号频谱,再通过IFFT变换在时域上进行语音信号帧合成得到增强之后的语音信号
Figure FDA00026540557500000210
Figure FDA00026540557500000211
放入增强后的语音训练集
Figure FDA00026540557500000212
中;具体的语音数据增强流程框架图见附图说明图3;
语音增强每一步操作具体如下详述:
(一)语音信号预加重
对训练集X中第i个语音信号矩阵xi(n)进行预加重得到yi(n),其中yi(n)=xi(n)-αxi(n-1),α为一个常量在本专利中α=0.98;xi(n-1)为对训练集中的第i个语音的n-1时刻的采样矩阵;
(二)加窗分帧
采用汉明窗w(n)对预加重之后的语音信号yi(n)进行加窗分帧,将连续的语音信号分割成一帧一帧的离散信号yi,r(n);
其中
Figure FDA0002654055750000031
汉明窗函数,N为窗长,专利中取帧长为50ms,帧移为10ms;预加重后的语音信号yi(n)加窗分帧处理可得到每一帧语音信号矩阵信息yi,r(n);yi,r(n)表示进行预加重、加窗分帧后第i条语音信号的第r帧的语音信息矩阵;
(三)FFT变换
将第i条语音信号的第r帧的语音信息矩阵yi,r(n)作FFT变换,将其从时域变换到频域,得到第i个语音信号第r帧的短时信号频谱
Figure FDA0002654055750000032
(四)求语音信号的功率Pi,r,l(r,l)
将每一帧的短时信号频谱
Figure FDA0002654055750000033
用伽马通权重函数进行处理求取语音信号每一帧每一个频带的功率;
Figure FDA0002654055750000034
Pi,r,l(r,l)表示语音信号yi(n)第r帧第l个频带上的功率,k是一个虚拟变量表示离散频率的索引,ωk是离散频率,
Figure FDA0002654055750000035
由于在FFT变换的时候采用50ms的帧长以及语音信号的采样率为16kHz,因此N=1024;Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱,是matlab软件语音处理内置函数,函数的输入参数为频带l;
Figure FDA0002654055750000036
表示第r帧语音信号的短时频谱,L=40是所有通道的总数;
(五)语音信号降噪去混响处理
求得语音信号功率Pi,r,l(r,l)后,进行降噪去混响处理,具体步骤为:
(1)求取第r帧第l个频带的低通功率Mi,r,l[r,l],具体求解公式如下:
Mi,r,l[r,l]=λMi,r,l[r-1,l]+(1-λ)Pi,r,l[r,l]
Mi,r,l[r-1,l]表示第r-1帧第l个频带的低通功率;λ表示遗忘因子,因低通滤波器的带宽而变,本专利中λ=0.4;
(2)去除信号中缓慢变化的成分以及功率下降沿包络,对语音信号的功率Pi,r,l[r,l]进行处理得到增强后的第r帧第l个频带的功率
Figure FDA0002654055750000041
其中
Figure FDA0002654055750000042
中c0为一个常数因子,本专利取c0=0.01;
(3)按步骤(1),(2)依次对信号的每一帧每一个频带进行增强处理;
(六)谱整合
求得语音信号每一帧每一个频带上增强后功率
Figure FDA0002654055750000043
进行语音信号谱整合,可得到增强之后语音信号各帧的短时信号频谱,谱整合的公式如下:
Figure FDA0002654055750000044
上式中μi,r[r,k]表示第r帧第k个索引处的谱权重系数;
Figure FDA0002654055750000045
为未增强的第i个语音信号第r帧的短时信号频谱,
Figure FDA0002654055750000046
为增强后的第i个语音信号第r帧的短时信号频谱;
其中μi,r[r,k]的求解公式如下:
Figure FDA0002654055750000047
μi,r[r,k]=μi,r[r,N-k],N/2≤k≤N-1
公式中的Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱;ωi,r,l[r,l]为第i个语音信号第r帧第l个频带的权重系数,权重系数是增强之后的频域与信号的原始频域的比值,求解公式如下:
Figure FDA0002654055750000051
求得谱整合后的第i个语音信号的第r帧的增强后的短时信号频谱,按如上操作依次对各帧进行处理求得第i个语音信号各帧的增强后的短时信号频谱;对各帧增强后的语音信号
Figure FDA0002654055750000052
进行IFFT变换得到时域各帧的语音信号并且在时域进行帧拼接得到增强后的语音信号
Figure FDA0002654055750000053
IFFT变换以及语音信号时域帧拼接操作如下:
Figure FDA0002654055750000054
Figure FDA0002654055750000055
g为总帧数
上式中,
Figure FDA0002654055750000056
为增强后的语音信号矩阵;
Figure FDA0002654055750000057
表示第r帧增强后的语音信号矩阵;g为语音信号的总帧数,这个值因语音信号的时长而变;得到增强后n时刻语音信号的采样矩阵
Figure FDA0002654055750000058
再用matlab软件内置的语音处理audioread函数按照语音信号的采样率fs=16Khz对
Figure FDA0002654055750000059
进行写入处理,得到增强后的语音信号
Figure FDA00026540557500000510
至此,对语音训练集中一条语音的增强处理完毕,接下依次按照如上步骤处理训练集X和测试集T;并将增强后的训练集语音保存在
Figure FDA00026540557500000511
集中,增强后的测试集保存在
Figure FDA00026540557500000512
集中;
步骤三、搭建语音识别声学模型;本专利搭建的语音识别声学模型采用CNN+CTC进行建模,输入层为步骤二增强后的训练集
Figure FDA00026540557500000513
中语音信号
Figure FDA00026540557500000514
的200维的特征值序列,采用MFCC特征提取算法提取特征值序列;同时隐藏层采用卷积层和池化层交替重复连接,并且引入Dropout层,防止过拟合,其中卷积层卷积核尺寸为3,池化窗口大小为2,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,采用CTC的loss函数作为损失函数实现连接性时序多输出,输出为1423维的特征值正好对应步骤四搭建的中文汉语词典dict.txt文档中的1423个常用汉语拼音;具体语音识别声学模型网络框架图见附图说明图4;其中声学模型中卷积层、池化层、Dropout层以及全连接层的具体参数均已在图4中标出;
步骤四、搭建语音识别语言模型;语言模型搭建包括语言文本数据集的建立、2-gram语言模型设计、中文汉语词典的搜集;
(一)语言文本数据库的建立
首先,建立训练语言模型所需要的文本数据集;语言文本数据集形式上表现为一个电子版.txt文件,内容为报纸、中学课文、著名小说;收集报纸、中学课文、著名小说的电子版.txt文件建立语言文本数据库,注意语言文本数据库中文本数据的选取一定要具有代表性,能够反映出日常生活中的汉语用语习惯;
(二)2-gram语言模型搭建
本专利采用按词本身进行划分的语言模型训练方法2-gram算法搭建语言模型;其中2-gram中的2表示考虑当前词出现的概率只与其前2个词有关;2就是词序列记忆长度的约束数量;2-gram算法具体公式可以表示为:
Figure FDA0002654055750000061
上式中W表示一段文字序列,w1,w2,...,wq分别表示文字序列里面的每一个单词,q表示文字序列的长度;S(W)表示这一段文字序列符合语言学习惯的概率;d表示第d单词;
(三)汉语词典建立
搭建语音识别***语言模型词典;对于词典来说,一种语言的词典都是稳定不变的,对于本发明中的汉语文字词典来说,词典表现为一个dict.txt文件,其中标明了日常生活中常用的1423个汉语拼音对应的汉字,同时考虑汉语的一音多字情况,本发明搭建的词典的部分展示图见附图说明图5;
步骤五、用建立的语言文本数据集对搭建的2-gram语言模型进行训练,得到语言模型的单词出现次数表以及状态转移表;具体的语言模型训练框图见附图说明图6;对语言模型的具体训练方式如下:
(1)循环获取语言文本数据集中的文本内容并统计单个单词出现得次数,汇总得到单个单词出现次数表;
(2)循环获取语言文本数据集中二个单词一起出现得次数,汇总得到二个单词状态转移表;
步骤六、用训练好的语言模型和建立的词典以及增强后的语音训练集
Figure FDA0002654055750000071
对搭建的声学模型进行学习训练;得到声学模型的权重文件以及其它参数配置文件,具体的声学模型训练流程如下:
(1)初始化声学网络模型的各处权值;
(2)依次导入语音训练集
Figure FDA0002654055750000072
中的语音进行训练,对任意的语音信号
Figure FDA0002654055750000073
首先经MFCC特征提取算法处理,得语音信号200维的特征值序列然后按照附图说明图7所列,将语音信号的200维特征值序列依次经过各个卷积层、池化层、Dropout层、全连接层处理,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,得语音信号的1423维声学特征;
(3)得到特征值后再在语言模型以及词典的作用下对1423维声学特征值进行解码并输出识别的语音信号
Figure FDA0002654055750000074
的汉语拼音序列;
(4)将声学模型识别出的汉语拼音序列与训练集
Figure FDA0002654055750000075
中第i条语音
Figure FDA0002654055750000076
的汉语拼音标签序列进行对比计算误差并反向传播更新声学模型各处的权值,损失函数采用CTC的loss函数,并Adam算法进行优化,设置训练的batchsize=16,迭代次数epoch=50,每训练500条语音,保存一次权重文件;CTC的损失函数如下:
Figure FDA0002654055750000081
上式中
Figure FDA0002654055750000082
表示训练集训练后产生的总损失,e表示输入语音即进行语音增强后训练集
Figure FDA0002654055750000083
中的语音信号
Figure FDA0002654055750000084
z为输出的汉字序列,F(z|e)表示输入为e,输出序列为z的概率;
(5)依次按照如上步骤训练语音识别的声学模型,直至声学模型损失收敛,声学模型便训练完毕;保存声学模型的权重文件和各项配置文件,具体的语音识别声学模型训练图见附图说明图7;
步骤七、用训练好的基于语音增强的中文语音识别***对测试集
Figure FDA0002654055750000085
的语音进行识别,统计语音识别准确率并与传统算法进行性能对比分析;具体的语音识别测试***流程框架图见附图说明图8;本专利的语音识别准确率以及与传统算法的在噪音环境下的性能比较部分展示图见附图说明图9;本专利的语音识别准确率以及与传统算法的在混响环境下的性能比较部分展示图见附图说明图10;
具体实行方式如下:
(1)用传统的语音识别***,对建立的复杂环境语音数据库的2000个未增强的语音测试集T进行语音识别测试,统计其语音识别的准确率;并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10;
(2)用本发明的基于语音增强的语音识别***,对建立的语音数据库的2000个增强后的语音测试集
Figure FDA0002654055750000086
进行语音识别测试,统计本发明方法的语音识别准确率;并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10;
(3)最后对本发明提出的基于语音增强的语音识别***进行性能分析;
统计完成后发现,本发明提出的基于语音增强的语音识别算法对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音的识别准确率大幅提升,性能提升大约在30%左右;与传统的语音识别算法相比,本发明算法识别准确率也大大提升,尤其是对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音识别,传统算法表现很差,而本发明算法表现优异,性能很好,取部分噪音环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图9;取部分混响环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图10;
由此看见,本发明的复杂环境下基于语音增强的深度神经网络语音识别方法,很好地解决了现有语音识别算法对噪音环境敏感、对语音质量要求高、可应用场景单一的问题,实现了复杂语音环境下的语音识别;
在上述各步骤中出现的符号i表示训练集和测试集中第i个进行语音增强处理的语音信号,i=1,2,...,12000;符号r表示语音信号的第r帧,r=1,2,3,...,g;g表示语音信号分帧之后的总帧数,g的取值因处理的语音时长而变;符号l表示语音信号的第l个频带,l=0,1,2,...,39;k是一个虚拟变量表示离散频率的索引,k=0,1,2,...,1023。
CN202010880777.7A 2020-08-28 2020-08-28 复杂环境下基于语音增强的深度神经网络语音识别方法 Active CN111986661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010880777.7A CN111986661B (zh) 2020-08-28 2020-08-28 复杂环境下基于语音增强的深度神经网络语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010880777.7A CN111986661B (zh) 2020-08-28 2020-08-28 复杂环境下基于语音增强的深度神经网络语音识别方法

Publications (2)

Publication Number Publication Date
CN111986661A true CN111986661A (zh) 2020-11-24
CN111986661B CN111986661B (zh) 2024-02-09

Family

ID=73440031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010880777.7A Active CN111986661B (zh) 2020-08-28 2020-08-28 复杂环境下基于语音增强的深度神经网络语音识别方法

Country Status (1)

Country Link
CN (1) CN111986661B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633175A (zh) * 2020-12-24 2021-04-09 哈尔滨理工大学 复杂环境下基于多尺度卷积神经网络单音符实时识别算法
CN112786051A (zh) * 2020-12-28 2021-05-11 出门问问(苏州)信息科技有限公司 一种语音数据的识别方法及装置
CN113257262A (zh) * 2021-05-11 2021-08-13 广东电网有限责任公司清远供电局 一种语音信号处理方法、装置、设备及存储介质
CN113808581A (zh) * 2021-08-17 2021-12-17 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN114444609A (zh) * 2022-02-08 2022-05-06 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN116580708A (zh) * 2023-05-30 2023-08-11 中国人民解放军61623部队 一种智能语音处理方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160240190A1 (en) * 2015-02-12 2016-08-18 Electronics And Telecommunications Research Institute Apparatus and method for large vocabulary continuous speech recognition
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
KR20190032868A (ko) * 2017-09-20 2019-03-28 현대자동차주식회사 음성인식 방법 및 그 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160240190A1 (en) * 2015-02-12 2016-08-18 Electronics And Telecommunications Research Institute Apparatus and method for large vocabulary continuous speech recognition
KR20190032868A (ko) * 2017-09-20 2019-03-28 현대자동차주식회사 음성인식 방법 및 그 장치
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘粤成;刘卓;潘文豪;蔡典仑;韦政松;: "一种基于CNN/CTC的端到端普通话语音识别方法", 现代信息科技, no. 05 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633175A (zh) * 2020-12-24 2021-04-09 哈尔滨理工大学 复杂环境下基于多尺度卷积神经网络单音符实时识别算法
CN112786051A (zh) * 2020-12-28 2021-05-11 出门问问(苏州)信息科技有限公司 一种语音数据的识别方法及装置
CN112786051B (zh) * 2020-12-28 2023-08-01 问问智能信息科技有限公司 一种语音数据的识别方法及装置
CN113257262A (zh) * 2021-05-11 2021-08-13 广东电网有限责任公司清远供电局 一种语音信号处理方法、装置、设备及存储介质
CN113808581A (zh) * 2021-08-17 2021-12-17 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN113808581B (zh) * 2021-08-17 2024-03-12 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN114444609A (zh) * 2022-02-08 2022-05-06 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN116580708A (zh) * 2023-05-30 2023-08-11 中国人民解放军61623部队 一种智能语音处理方法和***

Also Published As

Publication number Publication date
CN111986661B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN111986661A (zh) 复杂环境下基于语音增强的深度神经网络语音识别方法
CN112017644B (zh) 一种声音变换***、方法及应用
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
JPH04329598A (ja) 音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法   
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及***
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
CN115602165B (zh) 基于金融***的数字员工智能***
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及***
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN109452932A (zh) 一种基于声音的体质辨识方法及设备
CN112185363A (zh) 音频处理方法及装置
Almekhlafi et al. A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
Li et al. Intelligibility enhancement via normal-to-lombard speech conversion with long short-term memory network and bayesian Gaussian mixture model
CN114882888A (zh) 基于变分自编码和对抗生成网络的声纹识别方法及***
CN114550675A (zh) 一种基于CNN--Bi-LSTM网络的钢琴转录方法
CN111009252A (zh) 一种embedding编解码器的语音增强***及方法
Dua et al. A review on Gujarati language based automatic speech recognition (ASR) systems
CN114863939B (zh) 一种基于声音的大熊猫属性识别方法及***
Agrawal et al. Robust raw waveform speech recognition using relevance weighted representations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant