CN111986661A - 复杂环境下基于语音增强的深度神经网络语音识别方法 - Google Patents
复杂环境下基于语音增强的深度神经网络语音识别方法 Download PDFInfo
- Publication number
- CN111986661A CN111986661A CN202010880777.7A CN202010880777A CN111986661A CN 111986661 A CN111986661 A CN 111986661A CN 202010880777 A CN202010880777 A CN 202010880777A CN 111986661 A CN111986661 A CN 111986661A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- signal
- frame
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 118
- 238000012360 testing method Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 45
- 238000001228 spectrum Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 37
- 238000010586 diagram Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 11
- 230000010354 integration Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000004907 flux Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 125000004432 carbon atom Chemical group C* 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000037433 frameshift Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
复杂环境下基于语音增强的深度神经网络语音识别方法,以深度学习神经网络以及语音增强为技术背景搭建模型。首先搭建复杂语音环境数据集,在语音识别前端语音信号预处理阶段对各类待识别复杂语音条件下的语音信号进行语音增强;然后建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;并建立中文汉语词典文件;然后搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而实现复杂环境下中文语音的精准识别。很好地解决了现有语音识别算法对噪音因素敏感、对语音质量要求高、应用场景单一的问题。
Description
技术领域
本发明属于语音识别领域,尤其涉及一种复杂环境下基于语音增强的深度神经网络语音识别方法。
背景技术
近年来,科技创新屡破难关,经济繁荣社会进步,人们在解决吃、穿、住、行基本问题后,对构建美好生活提出了更多需求。这一美好愿景,促使QQ、微信等集生活、工作、娱乐于一身的虚拟社交软件大量涌现。虚拟社交软件给人们的生活,工作,交流沟通带来了极大便利,尤其是各大社交软件中的语音识别功能。语音识别,使得人们可以摆脱键盘、鼠标等传统交互方式的束缚,从而使用最自然的交流方式—语音交流来传递信息。同时,语音识别也逐渐在工业、通信、家电、家庭服务、医疗、电子消费产品等各个领域获得了广泛的应用。
现如今大部分的社交软件在无背景噪音以及无干扰声源的纯净语音条件下语音识别准确率已经达到极高水平。当待识别语音信号包含噪音、干扰以及存在混响时,现有的语音识别***的准确率便大幅下降。这一转变,主要是现有的语音识别***,在语音识别前端的语音信号预处理阶段以及搭建声学模型阶段,并未考虑去噪和干扰抑制问题。
现有的中文语音识别算法,对语音信号质量要求苛刻,算法鲁棒性差,当语音质量较差或音频污损严重,便会导致语音识别失败。仅在纯净的理想的语音条件下获得小范围应用,为了提高语音识别在现实生活环境中的应用,针对现有算法的不足,本发明提出复杂环境下基于语音增强的深度神经网络语音识别方法。该方法以深度学习神经网络以及语音增强为技术背景。首先,在语音识别前端对各类待识别复杂语音条件下的语音信号进行语音增强;建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;建立中文汉语词典文件;搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而建立一个性能良好的复杂语音环境下的语音识别***。
鉴于语音识别技术在实际生活中的应用,本发明提出的复杂环境语音识别技术是包括纯净语音条件、高斯白噪音环境、背景噪音或干扰声源以及混响环境四类综合语音环境下的语音识别技术。本发明方法识别准确率高,模型泛化能力强,同时对各类环境因素具有很好的鲁棒性。
发明内容
本发明的目的是提供一种复杂环境下基于语音增强的深度神经网络语音识别方法。
为了实现上述目的,本发明采取如下的技术解决方案:
复杂环境下基于语音增强的深度神经网络语音识别方法,以深度学习神经网络以及语音增强为技术背景搭建模型,具体的语音识别技术方案流程图见附图说明图1。首先搭建复杂语音环境数据集,在语音识别前端语音信号预处理阶段对待识别复杂语音条件下的语音信号进行语音增强;然后建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;并建立中文汉语词典文件;最后搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而实现复杂环境下中文语音的精准识别。很好地解决了现有语音识别算法对噪音敏感、对语音质量要求高、应用场景单一的问题。复杂环境下基于语音增强的深度神经网络语音识别方法步骤如下:
步骤一、复杂环境下语音数据集的建立及处理。在该部分收集纯净环境语音、高斯白噪音环境语音、存在背景噪音或干扰声源环境语音以及混响环境下的语音共同组成语音识别***的语音数据集C。然后,将语音数据集C中各环境下的语音数据分别分成训练集和测试集。分配比例为训练集语音条数:测试集语音条数=5:1。将各环境下的训练集和测试集分别汇总并打乱分布,形成训练集X和测试集T。训练集X中的第i条语音表示为xi;测试集T中第j条语音表示为tj。同时对训练集X中的每一条语音,编辑一个.txt格式的标签文档,标签文档的内容包括该条语音的名字以及对应的正确汉语拼音序列。训练集语音标签文档的部分展示图见附图说明图2。
步骤二、对建立的语音训练集X和测试集T进行语音增强,得到增强后的语音训练集和测试集增强后的语音训练集中的第i条语音表示为测试集中第j条语音表示为以语音训练集中第i条语音xi的语音增强为例,具体的语音增强步骤如下,对待增强的语音信号xi,用matlab软件内置的语音处理audioread函数对xi进行读取处理,得到语音信号的采样率fs以及包含语音信息的矩阵xi(n),xi(n)为n时刻的语音采样值;然后对xi(n)进行预加重处理得yi(n);再对yi(n)加汉明窗进行分帧操作,得到语音信号的各个帧的信息yi,r(n),其中yi,r(n)表示进行预加重增强后第i条语音信号的第r帧的语音信息矩阵;再对yi,r(n)进行FFT变换得到第i个语音信号第r帧的短时信号频谱然后用伽马通权重函数Hl按频带对进行处理得第i个语音信号第r帧第l个频带上的功率Pi,r,l(r,l),其中l的取值为0,...,39;依次按照如上步骤求取第r帧的各个频带的功率;再进行降噪去混响处理以及谱整合得由此,已经求得增强后第i个语音信号第r帧的短时信号频谱,对其它帧的语音信号同样依次做如上的处理,得到各个帧的短时信号频谱,再通过IFFT变换在时域上进行语音信号帧合成得到增强之后的语音信号将放入增强后的语音训练集中。具体的语音数据增强流程框架图见附图说明图3。
步骤三、搭建语音识别声学模型。本专利搭建的语音识别声学模型采用CNN+CTC进行建模,输入层为步骤二增强后的训练集中的语音信号采用MFCC特征提取算法处理训练集语音信号得到200维的特征值序列,隐藏层采用卷积层和池化层交替重复连接,并且引入Dropout层,防止过拟合,其中卷积层卷积核尺寸为3,池化窗口大小为2,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,采用CTC的loss函数作为损失函数实现连接性时序多输出,输出为1423维的特征值正好对应步骤四搭建的中文汉语词典dict.txt文档中的1423个常用汉语拼音。具体语音识别声学模型网络框架图见附图说明图4。其中声学模型中卷积层、池化层、Dropout层以及全连接层的具体参数均已在图4中标出。
步骤四、搭建语音识别的2-gram语言模型以及词典。语言模型的搭建包括语言文本数据集的建立、2-gram语言模型搭建、中文汉语词典的搜集建立。语言文本数据集形式上表现为一个电子版.txt文件,内容为报纸、中学课文、著名小说。对于词典来说,一种语言的词典都是稳定不变的,对于本发明中的汉语文字词典来说,词典表现为一个dict.txt文件,其中标明了日常生活中常用的1423个汉语拼音对应的汉字,同时考虑汉语的一音多字情况。本发明搭建的词典部分展示图见附图说明图5。
步骤五、用建立的语言文本数据集对搭建的2-gram语言模型进行训练,得到语言模型的单词出现次数表以及状态转移表。对语言模型的具体训练方式如下:首先循环获取语言文本数据集中的文本内容并统计单个单词出现得次数,以及二个单词一起出现得次数,最后汇总得到单个单词出现次数表以及二个单词状态转移表。具体的语言模型训练框图见附图说明图6。
步骤六、用训练好的语言模型和建立的词典以及增强后的语音训练集对搭建的声学模型进行学习训练。得到声学模型的权重文件以及其它参数配置文件。具体的声学模型训练流程如下:初始化声学网络模型的各处权值;依次导入语音训练集中的语音进行训练,对任意的语音信号首先经MFCC特征提取算法处理,得语音信号200维的特征值序列然后按照附图说明图7所列,将语音信号的200维特征值序列依次经过各个卷积层、池化层、Dropout层、全连接层处理,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,得语音信号的1423维声学特征;得到特征值后再在语言模型以及词典的作用下对1423维声学特征值进行解码并输出识别的语音信号的汉语拼音序列;将声学模型识别出的汉语拼音序列与训练集中的汉语拼音标签序列进行对比计算误差并反向传播更新声学模型各处的权值,损失函数采用CTC的loss函数,并Adam算法进行优化。设置训练的batchsize=16,迭代次数epoch=50,每训练500条语音,保存一次权重文件,依次按照如上步骤处理训练集的每一条语音,直至声学模型损失收敛,声学模型便训练完毕。保存声学模型的权重文件和各项配置文件。具体的语音识别声学模型训练框图见附图说明图7。
步骤七、用训练好的基于语音增强的中文语音识别***对测试集的语音进行识别,统计语音识别准确率并与传统算法进行性能对比分析。具体的语音识别测试***流程框架图见附图说明图8。本专利的语音识别准确率以及与传统算法的性能比较部分展示图见图9、图10。
发明优点
复杂环境下基于语音增强的深度神经网络语音识别方法,很好地解决了现有语音识别算法对噪音等复杂环境因素敏感、对语音质量要求高、语音识别应用场景单一的问题。同时,本发明提出的语音识别方法采用神经网络深度学习技术,进行声学建模,使得本发明搭建的模型迁移学习能力强,语音增强方法的引入也使本发明的语音识别***在复杂环境因素干扰方面具有强大的鲁棒性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明描述中需要使用的附图做简单介绍,以便更好地了解本发明的发明内容。
图1为本发明的语音识别技术方案具体流程图;
图2为本发明的语音识别训练集语音标签部分展示图;
图3为本发明的语音识别语音增强流程框架图;
图4为本发明的语音识别声学模型网络框架图;
图5为本发明搭建的词典部分展示图;
图6为本发明的语言模型训练流程图;
图7为本发明声学模型的训练图;
图8为本发明语音识别测试***的流程框图;
图9为本发明的语音识别算法与传统算法在噪音环境下的效果对比展示图;
图10为本发明的语音识别算法与传统算法在混响环境下的效果对比展示图;
具体实施方式
复杂环境下基于语音增强的深度神经网络语音识别方法具体实施步骤如下:
步骤一、复杂环境下语音数据集的建立以及处理。在该部分收集纯净环境语音、高斯白噪音环境语音、存在背景噪音或干扰声源环境语音以及混响环境下的语音共同组成语音识别***的语音数据集C。然后,将语音数据集C中各环境下的语音数据分别分成训练集和测试集。分配比例为训练集语音条数:测试集语音条数=5:1。将各环境下的训练集和测试集分别汇总并打乱分布,形成训练集X和测试集T。训练集X中的第i条语音表示为xi;测试集T中第j条语音表示为tj。同时对训练集X中的每一条语音,编辑一个.txt格式的标签文档,标签文档的内容包括该条语音的名字以及对应的正确汉语拼音序列。训练集语音标签文档的部分展示图见附图说明图2。
具体收集方法分别如下:首先对于纯净条件的语音收集,在理想实验室条件下进行多人录制,以中文报纸、小说、学生课文为素材,单条语音录制时长10秒以内,共录制3000条纯净语音素材;对于高斯白噪音环境以及混响环境下的语音收集,采用Adobe Audition软件来进行合成,具体是采用录制的纯净语音和高斯白噪声进行合成,混响则直接采用软件自带的混响环境重新合成语音。其中高斯白噪音环境下的语音和混响环境下的语音各录制3000条;最后对于存在背景噪音或干扰声源的语音,采用实地录制为主,在工厂、餐厅等比较嘈杂的地方由多人进行实地录制,共录制语音3000条。同时,以上收集到的所有语音文件格式为.wav格式。将收集到语音进行分类,分类方式如下:将每一类语音环境中2500条语音作为语音识别***的训练集,剩下的500条作为测试集。总结即语音识别训练集X共10000条,测试集T共2000条,将训练集与测试集分别打乱分布,避免训练出来的模型出现过拟合。
步骤二、对建立的语音训练集X和测试集T进行语音增强,得到增强后的语音训练集和测试集增强后的语音训练集中的第i条语音表示为测试集中第j条语音表示为以语音训练集中第i条语音xi的语音增强为例,具体的语音增强步骤如下,对待增强的语音信号xi,用matlab软件内置的语音处理audioread函数对xi进行读取处理,得到语音信号的采样率fs以及包含语音信息的矩阵xi(n),xi(n)为n时刻的语音采样值;然后对xi(n)进行预加重处理得yi(n);再对yi(n)加汉明窗进行分帧操作,得到语音信号的各个帧的信息yi,r(n),其中yi,r(n)表示进行预加重增强后第i条语音信号的第r帧的语音信息矩阵;再对yi,r(n)进行FFT变换得到第i个语音信号第r帧的短时信号频谱然后用伽马通权重函数Hl按频带对进行处理得第i个语音信号第r帧第l个频带上的功率Pi,r,l(r,l),其中l的取值为0,...,39;依次按照如上步骤求取第r帧的各个频带的功率;再进行降噪去混响处理以及谱整合得由此,已经求得增强后第i个语音信号第r帧的短时信号频谱,对其它帧的语音信号同样依次做如上的处理,得到各个帧的短时信号频谱,再通过IFFT变换在时域上进行语音信号帧合成得到增强之后的语音信号将放入增强后的语音训练集中。具体的语音数据增强流程框架图见附图说明图3。
语音增强每一步操作具体如下详述:
(一)语音信号预加重
对训练集X中第i个语音信号矩阵xi(n)进行预加重得到yi(n),其中yi(n)=xi(n)-αxi(n-1),α为一个常量在本专利中α=0.98;xi(n-1)为对训练集中的第i个语音的n-1时刻的采样矩阵。
(二)加窗分帧
采用汉明窗w(n)对预加重之后的语音信号yi(n)进行加窗分帧,将连续的语音信号分割成一帧一帧的离散信号yi,r(n);
其中汉明窗函数,N为窗长,专利中取帧长为50ms,帧移为10ms。预加重后的语音信号yi(n)加窗分帧处理可得到每一帧语音信号矩阵信息yi,r(n)。yi,r(n)表示进行预加重、加窗分帧后第i条语音信号的第r帧的语音信息矩阵。
(三)FFT变换
(四)求语音信号的功率Pi,r,l(r,l)
将每一帧的短时信号频谱用伽马通权重函数进行处理求取语音信号每一帧每一个频带的功率;Pi,r,l(r,l)表示语音信号yi(n)第r帧第l个频带上的功率,k是一个虚拟变量表示离散频率的索引,ωk是离散频率,由于在FFT变换的时候采用50ms的帧长以及语音信号的采样率为16kHz,因此N=1024;Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱,是matlab软件语音处理内置函数,函数的输入参数为频带l;表示第r帧语音信号的短时频谱,L=40是所有通道的总数。
(五)语音信号降噪去混响处理
求得语音信号功率Pi,r,l(r,l)后,进行降噪去混响处理,具体步骤为:
(1)求取第r帧第l个频带的低通功率Mi,r,l[r,l],具体求解公式如下:
Mi,r,l[r,l]=λMi,r,l[r-1,l]+(1-λ)Pi,r,l[r,l]
Mi,r,l[r-1,l]表示第r-1帧第l个频带的低通功率;λ表示遗忘因子,因低通滤波器的带宽而变,本专利中λ=0.4。
(3)按步骤(1),(2)依次对信号的每一帧每一个频带进行增强处理。
(六)谱整合
其中μi,r[r,k]的求解公式如下:
μi,r[r,k]=μi,r[r,N-k],N/2≤k≤N-1
公式中的Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱;ωi,r,l[r,l]为第i个语音信号第r帧第l个频带的权重系数,权重系数是增强之后的频域与信号的原始频域的比值,求解公式如下:
求得谱整合后的第i个语音信号的第r帧的增强后的短时信号频谱,按如上操作依次对各帧进行处理求得第i个语音信号各帧的增强后的短时信号频谱。对各帧增强后的语音信号进行IFFT变换得到时域各帧的语音信号并且在时域进行帧拼接得到增强后的语音信号IFFT变换以及语音信号时域帧拼接操作如下:
上式中,为增强后的语音信号矩阵;表示第r帧增强后的语音信号矩阵;g为语音信号的总帧数,这个值因语音信号的时长而变。得到增强后n时刻语音信号的采样矩阵再用matlab软件内置的语音处理audioread函数按照语音信号的采样率fs=16Khz对进行写入处理,得到增强后的语音信号
步骤三、搭建语音识别声学模型。本专利搭建的语音识别声学模型采用CNN+CTC进行建模,输入层为步骤二增强后的训练集中语音信号的200维的特征值序列,采用MFCC特征提取算法提取特征值序列;同时隐藏层采用卷积层和池化层交替重复连接,并且引入Dropout层,防止过拟合,其中卷积层卷积核尺寸为3,池化窗口大小为2,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,采用CTC的loss函数作为损失函数实现连接性时序多输出,输出为1423维的特征值正好对应步骤四搭建的中文汉语词典dict.txt文档中的1423个常用汉语拼音。具体语音识别声学模型网络框架图见附图说明图4。其中声学模型中卷积层、池化层、Dropout层以及全连接层的具体参数均已在图4中标出。
步骤四、搭建语音识别语言模型。语言模型搭建包括语言文本数据集的建立、2-gram语言模型设计、中文汉语词典的搜集。
(一)语言文本数据库的建立
首先,建立训练语言模型所需要的文本数据集。语言文本数据集形式上表现为一个电子版.txt文件,内容为报纸、中学课文、著名小说。收集报纸、中学课文、著名小说的电子版.txt文件建立语言文本数据库,注意语言文本数据库中文本数据的选取一定要具有代表性,能够反映出日常生活中的汉语用语习惯。
(二)2-gram语言模型搭建
本专利采用按词本身进行划分的语言模型训练方法2-gram算法搭建语言模型。其中2-gram中的2表示考虑当前词出现的概率只与其前2个词有关。2就是词序列记忆长度的约束数量。2-gram算法具体公式可以表示为:
上式中W表示一段文字序列,w1,w2,...,wq分别表示文字序列里面的每一个单词,q表示文字序列的长度;S(W)表示这一段文字序列符合语言学习惯的概率。d表示第d单词。
(三)汉语词典建立
搭建语音识别***语言模型词典。对于词典来说,一种语言的词典都是稳定不变的,对于本发明中的汉语文字词典来说,词典表现为一个dict.txt文件,其中标明了日常生活中常用的1423个汉语拼音对应的汉字,同时考虑汉语的一音多字情况。本发明搭建的词典部分展示图见附图说明图5。
步骤五、用建立的语言文本数据集对搭建的2-gram语言模型进行训练,得到语言模型的单词出现次数表以及状态转移表。具体的语言模型训练框图见附图说明图6。对语言模型的具体训练方式如下:
(1)循环获取语言文本数据集中的文本内容并统计单个单词出现得次数,汇总得到单个单词出现次数表。
(2)循环获取语言文本数据集中二个单词一起出现得次数,汇总得到二个单词状态转移表。
(1)初始化声学网络模型的各处权值;
(2)依次导入语音训练集中的语音进行训练,对任意的语音信号首先经MFCC特征提取算法处理,得语音信号200维的特征值序列然后按照附图说明图7所列,将语音信号的200维特征值序列依次经过各个卷积层、池化层、Dropout层、全连接层处理,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,得语音信号的1423维声学特征;
(4)将声学模型识别出的汉语拼音序列与训练集中第i条语音的汉语拼音标签序列进行对比计算误差并反向传播更新声学模型各处的权值,损失函数采用CTC的loss函数,并Adam算法进行优化。设置训练的batchsize=16,迭代次数epoch=50,每训练500条语音,保存一次权重文件;CTC的损失函数如下:
(5)依次按照如上步骤训练语音识别的声学模型,直至声学模型损失收敛,声学模型便训练完毕。保存声学模型的权重文件和各项配置文件。具体的语音识别声学模型训练图见附图说明图7。
步骤七、用训练好的基于语音增强的中文语音识别***对测试集的语音进行识别,统计语音识别准确率并与传统算法进行性能对比分析。具体的语音识别测试***流程框架图见附图说明图8。本专利的语音识别准确率以及与传统算法的在噪音环境下的性能比较部分展示图见附图说明图9;本专利的语音识别准确率以及与传统算法的在混响环境下的性能比较部分展示图见附图说明图10。
具体实行方式如下:
(1)用传统的语音识别***,对建立的复杂环境语音数据库的2000个未增强的语音测试集T进行语音识别测试,统计其语音识别的准确率。并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10。
(2)用本发明的基于语音增强的语音识别***,对建立的语音数据库的2000个增强后的语音测试集进行语音识别测试,统计本发明方法的语音识别准确率。并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10。
(3)最后对本发明提出的基于语音增强的语音识别***进行性能分析。
统计完成后发现,本发明提出的基于语音增强的语音识别算法对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音的识别准确率大幅提升,性能提升大约在30%左右;与传统的语音识别算法相比,本发明算法识别准确率也大大提升,尤其是对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音识别,传统算法表现很差,而本发明算法表现优异,性能很好。取部分噪音环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图9。取部分混响环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图10。
由此看见,本发明的复杂环境下基于语音增强的深度神经网络语音识别方法,很好地解决了现有语音识别算法对噪音环境敏感、对语音质量要求高、可应用场景单一的问题,实现了复杂语音环境下的语音识别。
在上述各步骤中出现的符号i表示训练集和测试集中第i个进行语音增强处理的语音信号,i=1,2,...,12000;符号r表示语音信号的第r帧,r=1,2,3,...,g;g表示语音信号分帧之后的总帧数,g的取值因处理的语音时长而变;符号l表示语音信号的第l个频带,l=0,1,2,...,39;k是一个虚拟变量表示离散频率的索引,k=0,1,2,...,1023。
以上所述,仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施例展示如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
发明优点
本发明以深度学习神经网络以及语音增强为技术背景搭建模型。首先搭建复杂语音环境数据集,在语音识别前端语音信号预处理阶段对各类待识别复杂语音条件下的语音信号进行语音增强;然后建立语言文本数据集,搭建语言模型,用算法对语言模型进行训练;并建立中文汉语词典文件;然后搭建神经网络声学模型,并用增强后语音训练集,借助语言模型和词典对声学模型进行训练,得到声学模型权重文件,从而实现复杂环境下中文语音的精准识别。很好地解决了现有语音识别算法对噪音因素敏感、对语音质量要求高、应用场景单一的问题。
Claims (1)
1.复杂环境下基于语音增强的深度神经网络语音识别方法具体实施步骤如下:
步骤一、复杂环境下语音数据集的建立以及处理;在该部分收集纯净环境语音、高斯白噪音环境语音、存在背景噪音或干扰声源环境语音以及混响环境下的语音共同组成语音识别***的语音数据集C;然后,将语音数据集C中各环境下的语音数据分别分成训练集和测试集;分配比例为训练集语音条数:测试集语音条数=5:1;将各环境下的训练集和测试集分别汇总并打乱分布,形成训练集X和测试集T;训练集X中的第i条语音表示为xi;测试集T中第j条语音表示为tj;同时对训练集X中的每一条语音,编辑一个.txt格式的标签文档,标签文档的内容包括该条语音的名字以及对应的正确汉语拼音序列;训练集语音标签文档的部分展示图见附图说明图2;
具体收集方法分别如下:首先对于纯净条件的语音收集,在理想实验室条件下进行多人录制,以中文报纸、小说、学生课文为素材,单条语音录制时长10秒以内,共录制3000条纯净语音素材;对于高斯白噪音环境以及混响环境下的语音收集,采用Adobe Audition软件来进行合成,具体是采用录制的纯净语音和高斯白噪声进行合成,混响则直接采用软件自带的混响环境重新合成语音;其中高斯白噪音环境下的语音和混响环境下的语音各录制3000条;最后对于存在背景噪音或干扰声源的语音,采用实地录制为主,在工厂、餐厅等比较嘈杂的地方由多人进行实地录制,共录制语音3000条;同时,以上收集到的所有语音文件格式为.wav格式;将收集到语音进行分类,分类方式如下:将每一类语音环境中2500条语音作为语音识别***的训练集,剩下的500条作为测试集;总结即语音识别训练集X共10000条,测试集T共2000条,将训练集与测试集分别打乱分布,避免训练出来的模型出现过拟合;
步骤二、对建立的语音训练集X和测试集T进行语音增强,得到增强后的语音训练集和测试集增强后的语音训练集中的第i条语音表示为测试集中第j条语音表示为以语音训练集中第i条语音xi的语音增强为例,具体的语音增强步骤如下,对待增强的语音信号xi,用matlab软件内置的语音处理audioread函数对xi进行读取处理,得到语音信号的采样率fs以及包含语音信息的矩阵xi(n),xi(n)为n时刻的语音采样值;然后对xi(n)进行预加重处理得yi(n);再对yi(n)加汉明窗进行分帧操作,得到语音信号的各个帧的信息yi,r(n),其中yi,r(n)表示进行预加重增强后第i条语音信号的第r帧的语音信息矩阵;再对yi,r(n)进行FFT变换得到第i个语音信号第r帧的短时信号频谱然后用伽马通权重函数Hl按频带对进行处理得第i个语音信号第r帧第l个频带上的功率Pi,r,l(r,l),其中l的取值为0,...,39;依次按照如上步骤求取第r帧的各个频带的功率;再进行降噪去混响处理以及谱整合得由此,已经求得增强后第i个语音信号第r帧的短时信号频谱,对其它帧的语音信号同样依次做如上的处理,得到各个帧的短时信号频谱,再通过IFFT变换在时域上进行语音信号帧合成得到增强之后的语音信号将放入增强后的语音训练集中;具体的语音数据增强流程框架图见附图说明图3;
语音增强每一步操作具体如下详述:
(一)语音信号预加重
对训练集X中第i个语音信号矩阵xi(n)进行预加重得到yi(n),其中yi(n)=xi(n)-αxi(n-1),α为一个常量在本专利中α=0.98;xi(n-1)为对训练集中的第i个语音的n-1时刻的采样矩阵;
(二)加窗分帧
采用汉明窗w(n)对预加重之后的语音信号yi(n)进行加窗分帧,将连续的语音信号分割成一帧一帧的离散信号yi,r(n);
其中汉明窗函数,N为窗长,专利中取帧长为50ms,帧移为10ms;预加重后的语音信号yi(n)加窗分帧处理可得到每一帧语音信号矩阵信息yi,r(n);yi,r(n)表示进行预加重、加窗分帧后第i条语音信号的第r帧的语音信息矩阵;
(三)FFT变换
(四)求语音信号的功率Pi,r,l(r,l)
将每一帧的短时信号频谱用伽马通权重函数进行处理求取语音信号每一帧每一个频带的功率;Pi,r,l(r,l)表示语音信号yi(n)第r帧第l个频带上的功率,k是一个虚拟变量表示离散频率的索引,ωk是离散频率,由于在FFT变换的时候采用50ms的帧长以及语音信号的采样率为16kHz,因此N=1024;Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱,是matlab软件语音处理内置函数,函数的输入参数为频带l;表示第r帧语音信号的短时频谱,L=40是所有通道的总数;
(五)语音信号降噪去混响处理
求得语音信号功率Pi,r,l(r,l)后,进行降噪去混响处理,具体步骤为:
(1)求取第r帧第l个频带的低通功率Mi,r,l[r,l],具体求解公式如下:
Mi,r,l[r,l]=λMi,r,l[r-1,l]+(1-λ)Pi,r,l[r,l]
Mi,r,l[r-1,l]表示第r-1帧第l个频带的低通功率;λ表示遗忘因子,因低通滤波器的带宽而变,本专利中λ=0.4;
(3)按步骤(1),(2)依次对信号的每一帧每一个频带进行增强处理;
(六)谱整合
其中μi,r[r,k]的求解公式如下:
μi,r[r,k]=μi,r[r,N-k],N/2≤k≤N-1
公式中的Hl表示是在频率索引k处计算得到的第l个频带的伽马通滤波器组的频谱;ωi,r,l[r,l]为第i个语音信号第r帧第l个频带的权重系数,权重系数是增强之后的频域与信号的原始频域的比值,求解公式如下:
求得谱整合后的第i个语音信号的第r帧的增强后的短时信号频谱,按如上操作依次对各帧进行处理求得第i个语音信号各帧的增强后的短时信号频谱;对各帧增强后的语音信号进行IFFT变换得到时域各帧的语音信号并且在时域进行帧拼接得到增强后的语音信号IFFT变换以及语音信号时域帧拼接操作如下:
上式中,为增强后的语音信号矩阵;表示第r帧增强后的语音信号矩阵;g为语音信号的总帧数,这个值因语音信号的时长而变;得到增强后n时刻语音信号的采样矩阵再用matlab软件内置的语音处理audioread函数按照语音信号的采样率fs=16Khz对进行写入处理,得到增强后的语音信号
步骤三、搭建语音识别声学模型;本专利搭建的语音识别声学模型采用CNN+CTC进行建模,输入层为步骤二增强后的训练集中语音信号的200维的特征值序列,采用MFCC特征提取算法提取特征值序列;同时隐藏层采用卷积层和池化层交替重复连接,并且引入Dropout层,防止过拟合,其中卷积层卷积核尺寸为3,池化窗口大小为2,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,采用CTC的loss函数作为损失函数实现连接性时序多输出,输出为1423维的特征值正好对应步骤四搭建的中文汉语词典dict.txt文档中的1423个常用汉语拼音;具体语音识别声学模型网络框架图见附图说明图4;其中声学模型中卷积层、池化层、Dropout层以及全连接层的具体参数均已在图4中标出;
步骤四、搭建语音识别语言模型;语言模型搭建包括语言文本数据集的建立、2-gram语言模型设计、中文汉语词典的搜集;
(一)语言文本数据库的建立
首先,建立训练语言模型所需要的文本数据集;语言文本数据集形式上表现为一个电子版.txt文件,内容为报纸、中学课文、著名小说;收集报纸、中学课文、著名小说的电子版.txt文件建立语言文本数据库,注意语言文本数据库中文本数据的选取一定要具有代表性,能够反映出日常生活中的汉语用语习惯;
(二)2-gram语言模型搭建
本专利采用按词本身进行划分的语言模型训练方法2-gram算法搭建语言模型;其中2-gram中的2表示考虑当前词出现的概率只与其前2个词有关;2就是词序列记忆长度的约束数量;2-gram算法具体公式可以表示为:
上式中W表示一段文字序列,w1,w2,...,wq分别表示文字序列里面的每一个单词,q表示文字序列的长度;S(W)表示这一段文字序列符合语言学习惯的概率;d表示第d单词;
(三)汉语词典建立
搭建语音识别***语言模型词典;对于词典来说,一种语言的词典都是稳定不变的,对于本发明中的汉语文字词典来说,词典表现为一个dict.txt文件,其中标明了日常生活中常用的1423个汉语拼音对应的汉字,同时考虑汉语的一音多字情况,本发明搭建的词典的部分展示图见附图说明图5;
步骤五、用建立的语言文本数据集对搭建的2-gram语言模型进行训练,得到语言模型的单词出现次数表以及状态转移表;具体的语言模型训练框图见附图说明图6;对语言模型的具体训练方式如下:
(1)循环获取语言文本数据集中的文本内容并统计单个单词出现得次数,汇总得到单个单词出现次数表;
(2)循环获取语言文本数据集中二个单词一起出现得次数,汇总得到二个单词状态转移表;
(1)初始化声学网络模型的各处权值;
(2)依次导入语音训练集中的语音进行训练,对任意的语音信号首先经MFCC特征提取算法处理,得语音信号200维的特征值序列然后按照附图说明图7所列,将语音信号的200维特征值序列依次经过各个卷积层、池化层、Dropout层、全连接层处理,最后输出层采用1423个神经元的全连接层进行输出,并用softmax函数进行激活,得语音信号的1423维声学特征;
(4)将声学模型识别出的汉语拼音序列与训练集中第i条语音的汉语拼音标签序列进行对比计算误差并反向传播更新声学模型各处的权值,损失函数采用CTC的loss函数,并Adam算法进行优化,设置训练的batchsize=16,迭代次数epoch=50,每训练500条语音,保存一次权重文件;CTC的损失函数如下:
(5)依次按照如上步骤训练语音识别的声学模型,直至声学模型损失收敛,声学模型便训练完毕;保存声学模型的权重文件和各项配置文件,具体的语音识别声学模型训练图见附图说明图7;
步骤七、用训练好的基于语音增强的中文语音识别***对测试集的语音进行识别,统计语音识别准确率并与传统算法进行性能对比分析;具体的语音识别测试***流程框架图见附图说明图8;本专利的语音识别准确率以及与传统算法的在噪音环境下的性能比较部分展示图见附图说明图9;本专利的语音识别准确率以及与传统算法的在混响环境下的性能比较部分展示图见附图说明图10;
具体实行方式如下:
(1)用传统的语音识别***,对建立的复杂环境语音数据库的2000个未增强的语音测试集T进行语音识别测试,统计其语音识别的准确率;并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10;
(2)用本发明的基于语音增强的语音识别***,对建立的语音数据库的2000个增强后的语音测试集进行语音识别测试,统计本发明方法的语音识别准确率;并于附图说明列举出具有代表性的语音识别结果图见附图说明图9、图10;
(3)最后对本发明提出的基于语音增强的语音识别***进行性能分析;
统计完成后发现,本发明提出的基于语音增强的语音识别算法对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音的识别准确率大幅提升,性能提升大约在30%左右;与传统的语音识别算法相比,本发明算法识别准确率也大大提升,尤其是对高斯白噪音环境、存在背景噪音或干扰声源环境以及混响环境下的语音识别,传统算法表现很差,而本发明算法表现优异,性能很好,取部分噪音环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图9;取部分混响环境下本发明语音识别算法和传统语音识别算法识别效果对比图展示见附图说明图10;
由此看见,本发明的复杂环境下基于语音增强的深度神经网络语音识别方法,很好地解决了现有语音识别算法对噪音环境敏感、对语音质量要求高、可应用场景单一的问题,实现了复杂语音环境下的语音识别;
在上述各步骤中出现的符号i表示训练集和测试集中第i个进行语音增强处理的语音信号,i=1,2,...,12000;符号r表示语音信号的第r帧,r=1,2,3,...,g;g表示语音信号分帧之后的总帧数,g的取值因处理的语音时长而变;符号l表示语音信号的第l个频带,l=0,1,2,...,39;k是一个虚拟变量表示离散频率的索引,k=0,1,2,...,1023。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010880777.7A CN111986661B (zh) | 2020-08-28 | 2020-08-28 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010880777.7A CN111986661B (zh) | 2020-08-28 | 2020-08-28 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986661A true CN111986661A (zh) | 2020-11-24 |
CN111986661B CN111986661B (zh) | 2024-02-09 |
Family
ID=73440031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010880777.7A Active CN111986661B (zh) | 2020-08-28 | 2020-08-28 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986661B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633175A (zh) * | 2020-12-24 | 2021-04-09 | 哈尔滨理工大学 | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 |
CN112786051A (zh) * | 2020-12-28 | 2021-05-11 | 出门问问(苏州)信息科技有限公司 | 一种语音数据的识别方法及装置 |
CN113257262A (zh) * | 2021-05-11 | 2021-08-13 | 广东电网有限责任公司清远供电局 | 一种语音信号处理方法、装置、设备及存储介质 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
CN114444609A (zh) * | 2022-02-08 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN116580708A (zh) * | 2023-05-30 | 2023-08-11 | 中国人民解放军61623部队 | 一种智能语音处理方法和*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160240190A1 (en) * | 2015-02-12 | 2016-08-18 | Electronics And Telecommunications Research Institute | Apparatus and method for large vocabulary continuous speech recognition |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
KR20190032868A (ko) * | 2017-09-20 | 2019-03-28 | 현대자동차주식회사 | 음성인식 방법 및 그 장치 |
-
2020
- 2020-08-28 CN CN202010880777.7A patent/CN111986661B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160240190A1 (en) * | 2015-02-12 | 2016-08-18 | Electronics And Telecommunications Research Institute | Apparatus and method for large vocabulary continuous speech recognition |
KR20190032868A (ko) * | 2017-09-20 | 2019-03-28 | 현대자동차주식회사 | 음성인식 방법 및 그 장치 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
Non-Patent Citations (1)
Title |
---|
潘粤成;刘卓;潘文豪;蔡典仑;韦政松;: "一种基于CNN/CTC的端到端普通话语音识别方法", 现代信息科技, no. 05 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633175A (zh) * | 2020-12-24 | 2021-04-09 | 哈尔滨理工大学 | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 |
CN112786051A (zh) * | 2020-12-28 | 2021-05-11 | 出门问问(苏州)信息科技有限公司 | 一种语音数据的识别方法及装置 |
CN112786051B (zh) * | 2020-12-28 | 2023-08-01 | 问问智能信息科技有限公司 | 一种语音数据的识别方法及装置 |
CN113257262A (zh) * | 2021-05-11 | 2021-08-13 | 广东电网有限责任公司清远供电局 | 一种语音信号处理方法、装置、设备及存储介质 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
CN113808581B (zh) * | 2021-08-17 | 2024-03-12 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
CN114444609A (zh) * | 2022-02-08 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN116580708A (zh) * | 2023-05-30 | 2023-08-11 | 中国人民解放军61623部队 | 一种智能语音处理方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN111986661B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986661A (zh) | 复杂环境下基于语音增强的深度神经网络语音识别方法 | |
CN112017644B (zh) | 一种声音变换***、方法及应用 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
JPH04329598A (ja) | 音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法 | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及*** | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN115602165B (zh) | 基于金融***的数字员工智能*** | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及*** | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN109452932A (zh) | 一种基于声音的体质辨识方法及设备 | |
CN112185363A (zh) | 音频处理方法及装置 | |
Almekhlafi et al. | A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
Li et al. | Intelligibility enhancement via normal-to-lombard speech conversion with long short-term memory network and bayesian Gaussian mixture model | |
CN114882888A (zh) | 基于变分自编码和对抗生成网络的声纹识别方法及*** | |
CN114550675A (zh) | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 | |
CN111009252A (zh) | 一种embedding编解码器的语音增强***及方法 | |
Dua et al. | A review on Gujarati language based automatic speech recognition (ASR) systems | |
CN114863939B (zh) | 一种基于声音的大熊猫属性识别方法及*** | |
Agrawal et al. | Robust raw waveform speech recognition using relevance weighted representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |