CN111091817A - 一种基于窗口输入的双向回馈神经网络的语音识别方法 - Google Patents
一种基于窗口输入的双向回馈神经网络的语音识别方法 Download PDFInfo
- Publication number
- CN111091817A CN111091817A CN201811242398.4A CN201811242398A CN111091817A CN 111091817 A CN111091817 A CN 111091817A CN 201811242398 A CN201811242398 A CN 201811242398A CN 111091817 A CN111091817 A CN 111091817A
- Authority
- CN
- China
- Prior art keywords
- lstm
- input
- blstm
- layer
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 42
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 7
- 239000000835 fiber Substances 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM‑E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM‑E,通过BLSTM‑E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM‑E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。
Description
技术领域
本发明属于语音识别领域,具体涉及一种基于窗口输入的双向回馈神经网络的语音识别方法。
背景技术
语言是人类特有的功能,是人与人之间交流、传递信息最简便、最有效的工具。人们对于计算机语音的研究主要有以下几个方面:语音编码、语音合成、语音识别、语音增强、说话人识别等。在这些研究当中,语音识别是其中极其重要一环。经过几十年的发展,语音识别技术已经渗透入我们生活的方方面面,应用范围涵盖了智能家居、智能手机助手以及国防安全等领域。
语音识别技术主要包括声学模型、语言模型以及解码器三个大的方面。现阶段回馈神经网络(RNN)是最主流的声学模型技术之一。RNN是一种以连接权重和节点来模拟人脑中神经元工作的技术,可以视作一种分类器,结构主要包括输入层,隐含层和输出层,相邻层的节点之间有带权重的全连接,输出层的节点数量由目标类别数量所决定,数据从输入层进入网络,经由一系列的权重计算和非线性激活函数,最终到达输出层,得到该数据被分为每一类的概率值。在语音识别领域中,主流RNN结构的输入为语音特征,输出为音素状态。由于RNN具有很强的非线性表达能力,能够对输入的语音特征进行更好的转换表达,以用于输出层的分类,同时,数据量越大,RNN的层数越多,参数量越大,训练所得到的神经网络分类能力越好,最终的识别准确率越高。RNN能够建模动态时间信息,但是不够稳定,在实际的应用中我们一般采用长短时记忆网络(long short-term memory,LSTM)作为基本的回馈神经网络单元。为了取得更好的效果,一般采用双向LSTM(BLSTM)。如图1所示,BLSTM通过前后向两个方向的建模,取得了比单向LSTM更好的识别效果。
标准的LSTM公式如下:
gt=tanh(Wxgxt+Wygyt-1+bg) (1)
it=σ(Wxixt+Wyiyt-1+Wcict-1+bi) (2)
ft=σ(Wxfxt+Wyfyt-1+Wcfct-1+bf) (3)
ct=it⊙gt+ft⊙ct-1 (4)
ot=σ(Wxoxt+Wyoyt-1+Wcoct+bo) (5)
yt=ot⊙tanh(ct) (6)
其中,xt是输入信息,yt是输出信息,ct是记忆信息单元,gt是临时记忆单元,yt-1是历史(回馈)输出信息,ct-1是历史(回馈)记忆信息,it是输入门,ft是遗忘门,ot是输出门,W*是全连接矩阵,b*是神经网路计算的偏置向量,⊙是点乘操作符号,σ为Sigmoid非线性函数。
但是目前BLSTM存在的问题是,每一次LSTM的输入采用的是前一层当前时刻的输出。独立帧输入的信息量只局限于当前时刻,限制了本层LSTM的判决精度。如何给LSTM的输入提供一个更广的输入时域窗,进而提升判决准确度仍然是个开放问题。
发明内容
本发明的目的在于克服上述技术缺陷,提供了一种基于窗口输入的双向回馈神经网络模型的语音识别方法。
本发明的技术方案为:
一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:
步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM-E;
步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM-E,通过BLSTM-E的前向计算,计算出每个语音帧的后验概率;
步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)建立基于窗口输入的双向回馈神经网络BLSTM-E作为声学模型
所述基于窗口输入的双向回馈神经网络BLSTM-E的每层的输入都是一个经过扩展的时间窗口域;该网络的第0层是输入语音特征层;第一层是双向LSTM,包括前向LSTM以及反向LSTM,每个方向的LSTM都是依赖于前后多帧范围内的输入进行判决;第二层为全联接FC模块,该层将同一时刻的前向LSTM以及反向LSTM的输出进行降维;第三层为双向LSTM;第五层为全联接FC模块,其结果进行输出;
步骤1-2)基于训练数据对基于窗口输入的双向回馈神经网络BLSTM-E进行训练,得到训练好的基于窗口输入的双向回馈神经网络BLSTM-E。
作为上述方法的一种改进,所述步骤2)具体包括:
其中,LSTMf是前向LSTM运算;LSTMb是反向LSTM运算;
第二层全连接FC模块的输入维度是前向和反向LSTM输出向量维度的和,输出维度是输入维度的一半;
步骤2-7)基于窗口输入的双向回馈神经网络BLSTM-E的输出作为该语音帧的后验概率。
作为上述方法的一种改进,所述点加权-块相加神经网络ESBN的具体的操作如下:
其中,N2是未来时间窗大小;N1是历史时间窗大小;scale是权重,scale具体的计算公式见下:
其中,output dim是输出向量的维度,input dim是输出向量的维度;yt是整个ESBN网络的输出;xt34是整个ESBN网络的输入;a4是权重向量。
本发明的优势在于:
1、本发明提出的基于BLSTM-E声学模型的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果;
2、本发明的BLSTM-E中的ESBN模型,能够以很小的计算负担实现BLSTM-E对时域窗扩展的功能,保证了基于BLSTM-E的语音识别***在取得更高的识别精度同时,参数量以及计算量都保持在一个合理范围;
3、本发明的语音识别方法能够对现有的多种语音识别***进行扩展,有较高的扩展性。
附图说明
图1为现有技术的双向回馈神经网络的结构图;
图2为本发明的基于窗口输入的双向回馈神经网络的结构图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
语音识别主要包括特征提取、声学模型、语言模型以及解码器四大模块。
特征提取中,梅尔频率倒谱系数(MFCC)是最为常用的语音特征,梅尔频率是基于人耳听觉特征提取出来的。MFCC主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成。特征提取的目的是将时域上没有鉴别性的特征进行域的转换,转换到专门设计的语音特征域,便于后端***的鉴别判决。
声学模型负责对语音信号的声学层面的信息进行建模,是语音识别***的核心模块。声学模型是把语音转化为声学表示的输出,即找到给定的语音源于某个声学符号的概率。最常用的声学建模方式是隐马尔科夫模型(HMM)。在HMM下,状态是隐变量,语音是观测值,状态之间的跳转符合马尔科夫假设。其中,状态转移概率密度多采用几何分布建模,而拟合隐变量到观测值的观测概率的模型常用高斯混合模型(GMM)。基于深度学习的发展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型被应用到观测概率的建模中,并取得了非常好的效果。其中目前工业界应用最为广泛的声学模型为LSTM以及BLSTM。
如图2所示,本发明的声学模型为基于窗口输入的双向回馈神经网络BLSTM-E,该网络的每层的输入都是一个经过扩展的时间窗口域;该网络的第0层是输入语音特征层;第一层是双向LSTM,包括前向LSTM以及反向LSTM,每个方向的LSTM都是依赖于前后多帧范围内的输入进行判决;第二层为全联接FC模块,该层将同一时刻的前向LSTM以及反向LSTM的输出进行降维;第三层为双向
LSTM;第五层为全联接FC模块,其结果进行输出。
语言模型负责对语音所携带的语义层面的信息进行建模,解码器负责结合声学模型和语言模型的得分进行总体判决。语言模型对语言的统计规律进行建模,通过对大量的文本进行统计得到。在***实施时,语言模型知识一般会融入到解码的过程当中。常用的语言模型包括n-gram以及基于神经网络的语言模型。
本发明提出了基于BLSTM-E的语音识别***采用BLSTM-E作为声学模型模块。BLSTM-E的结构图如图1所示。相比于基于BLSTM声学模型的语音识别***,BLSTM-E语音识别***将BLSTM声学模块替换为BLSTM-E声学模块,BLSTM-E通过将输入帧改为输入窗,显著地提升了识别判决精度。
BLSTM-E声学模型的处理过程为:
其中,LSTMf是前向LSTM运算;LSTMb是反向LSTM运算;
第二层全连接FC模块的输入维度是前向和反向LSTM输出向量维度的和,输出维度是输入维度的一半;
步骤7)根据基于窗口输入的双向回馈神经网络BLSTM-E的输出,计算声学模型的得分。
本发明提出了一种参数集约型时间窗信息采集操作:点加权-块相加神经网络(element-wise scale block-sum network,ESBN)。具体的操作如下:
其中N2是未来时间窗,N1是历史时间窗。ESBN相比于传统的全连接矩阵优势在于:ESBN是对角矩阵,相比于全连接矩阵极大的压缩了参数量。ESBN另一个重要的操作是∑,将不同时刻的特征进行按点相加。Scale的计算如下:
这种参数集约型神经网络在提供更广的判决信息的同时,保持了双向回馈神经网络的模型规模。取得了模型精度以及模型参数之间很好的平衡,既提升了模型的识别精度,又保证了模型的紧凑。
基于传统的独立帧输入的双向回馈神经网络,以BLSTM为例,我们一般采用3层BLSTM结构堆叠成一个深度BLSTM网络。每一层BLSTM都包含一个前向LSTM以及一个反向LSTM。其中每个方向的LSTM我们都采用(1024-1024)配置。1024代表的是LSTM的记忆单元的维度(前向和反向均为1024)。每层BLSTM的输出是将前向LSTM以及反向LSTM的输出进行拼接之后的向量。对于(1024-1024)这个配置来说,每层的BLSTM的输出维度为2048维。
基于带窗扩展的双向回馈神经网络,以BLSTM-E为例,我们也采用3层的堆叠结构。每层BLSTM-E也都包含一个前向LSTM-E以及一个反向LSTM-E网络。每个LSTM-E的输出和LSTM保持一致,是1024维。依据公式9,我们会用一个DNN对上一层的LSTM-E的输出进行降维。例如我们可以进行一个2048到512的降维。之后依据公式10以及公式11,用ESBN网络对降维过后的进行点加权以及块相加操作,完成对历史窗口信息的搜集。
实验结果
为了验证最终提出的扩展窗双向回馈神经网络的效果,以BLSTM为基础开展了一系列的实验。实验平台采用显卡Nvidia Tesla K80,核心频率562MHZ,显存2*12GB,主机配备128GB内存,CPU采用Intel(R)Xeon(R)CPU [email protected]。实验的语料库是1000小时的中文电话交谈语音识别任务,训练准则为帧级别交叉熵准则。评价指标是词错误率(word error rate,WER),WER越低代表识别的准确率越高。模型的识别结果在两个测试集上进行了测试,分别为Test1与Test2,Test1为5小时,Test2为8小时。
本发明测试了两种BLSTM-E的配置:分别为BLSTM-E1以及BLSTM-E2。BLSTM-E1是N2以N1均为3的情况,这种配置下,每个LSTM除了当前帧之外还可以在前后各3帧的范围内的信息进行搜集。BLSTM-E2下,对于前向LSTM,N2为6,N1为3;对于反向LSTM,N2为3,N1为6。BLSTM-E2相比BLSTM-E1的优势在于,BLSTM-E2的前向网络可以看到更多未来信息;BLSTM-E2的反向网络可以看到更多的历史。更广的信息量一般代表着更准确的决策结果。
表1:1000小时中文电话交谈任务词错误率
声学模型 | 参数量 | Test1(WER%) | Test2(WER%) |
BLSTM | 33.8M | 24.83 | 20.77 |
BLSTM-E1 | 26.4M | 24.13 | 20.04 |
BLSTM-E2 | 26.5M | 23.93 | 19.93 |
从表1可以看出,BLSTM-E的参数量普遍比BLSTM要小。这是因为BLSTM-E的中间DNN起到了维度压缩的作用。从Test1以及Test2上的识别结果可以看出,BLSTM-E比BLSTM取得了稳定显著地提升。同时对比BLSTM-E2以及BLSTM-E1我们可以看出,更广的时间窗能够进一步提升判决的准确率。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:
步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM-E;
步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM-E,通过BLSTM-E的前向计算,计算出每个语音帧的后验概率;
步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。
2.根据权利要求1所述的基于窗口输入的双向回馈神经网络的语音识别方法,其特征在于,所述步骤1)具体包括:
步骤1-1)建立基于窗口输入的双向回馈神经网络BLSTM-E作为声学模型
所述基于窗口输入的双向回馈神经网络BLSTM-E的每层的输入都是一个经过扩展的时间窗口域;该网络的第0层是输入语音特征层;第一层是双向LSTM,包括前向LSTM以及反向LSTM,每个方向的LSTM都是依赖于前后多帧范围内的输入进行判决;第二层为全联接FC模块,该层将同一时刻的前向LSTM以及反向LSTM的输出进行降维;第三层为双向LSTM;第五层为全联接FC模块,其结果进行输出;
步骤1-2)基于训练数据对基于窗口输入的双向回馈神经网络BLSTM-E进行训练,得到训练好的基于窗口输入的双向回馈神经网络BLSTM-E。
3.根据权利要求2所述的基于窗口输入的双向回馈神经网络的语音识别方法,其特征在于,所述步骤2)具体包括:
其中,LSTMf是前向LSTM运算;LSTMb是反向LSTM运算;
第二层全连接FC模块的输入维度是前向和反向LSTM输出向量维度的和,输出维度是输入维度的一半;
步骤2-7)基于窗口输入的双向回馈神经网络BLSTM-E的输出作为该语音帧的后验概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811242398.4A CN111091817B (zh) | 2018-10-24 | 2018-10-24 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811242398.4A CN111091817B (zh) | 2018-10-24 | 2018-10-24 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091817A true CN111091817A (zh) | 2020-05-01 |
CN111091817B CN111091817B (zh) | 2022-10-11 |
Family
ID=70391949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811242398.4A Active CN111091817B (zh) | 2018-10-24 | 2018-10-24 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091817B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217367A1 (en) * | 2015-01-27 | 2016-07-28 | Google Inc. | Sub-matrix input for neural network layers |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
US20170132496A1 (en) * | 2015-11-05 | 2017-05-11 | Microsoft Technology Licensing, Llc | Hardware-efficient deep convolutional neural networks |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
US20180190268A1 (en) * | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
-
2018
- 2018-10-24 CN CN201811242398.4A patent/CN111091817B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217367A1 (en) * | 2015-01-27 | 2016-07-28 | Google Inc. | Sub-matrix input for neural network layers |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
US20170132496A1 (en) * | 2015-11-05 | 2017-05-11 | Microsoft Technology Licensing, Llc | Hardware-efficient deep convolutional neural networks |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
US20180190268A1 (en) * | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
Non-Patent Citations (3)
Title |
---|
ALEX GRAVES ET.AL: "Hybrid speech recognition with deep bidirectional LSTM", 《2013 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING (ASRU)》 * |
HASIM SAK EL.AL: "Long short-term memory recurrent neural network architectures for large scale acoustic modeling", 《PROCEEDINGS OF INTERSPEECH》 * |
陈凯: "深度学习模型的高效训练算法研究", 《中国博士学位论文全文数据库信息科技集》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111091817B (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222623B2 (en) | Speech keyword recognition method and apparatus, computer-readable storage medium, and computer device | |
US11030998B2 (en) | Acoustic model training method, speech recognition method, apparatus, device and medium | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN102800316B (zh) | 基于神经网络的声纹识别***的最优码本设计方法 | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN109754790B (zh) | 一种基于混合声学模型的语音识别***及方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别*** | |
Fang et al. | Channel adversarial training for cross-channel text-independent speaker recognition | |
Hong et al. | Statistics pooling time delay neural network based on x-vector for speaker verification | |
CN104538036A (zh) | 一种基于语义细胞混合模型的说话人识别方法 | |
Adya et al. | Hybrid transformer/ctc networks for hardware efficient voice triggering | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Huang et al. | Speech emotion recognition using autoencoder bottleneck features and LSTM | |
Jing et al. | Speaker recognition based on principal component analysis of LPCC and MFCC | |
Janbakhshi et al. | Automatic dysarthric speech detection exploiting pairwise distance-based convolutional neural networks | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
CN108831486B (zh) | 基于dnn与gmm模型的说话人识别方法 | |
CN111091817B (zh) | 一种基于窗口输入的双向回馈神经网络的语音识别方法 | |
CN112035700B (zh) | 一种基于cnn的语音深度哈希学习方法及*** | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Li et al. | Voice activity detection using a local-global attention model | |
Monteiro et al. | On the performance of time-pooling strategies for end-to-end spoken language identification | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |