CN110970031A - 语音识别***及方法 - Google Patents
语音识别***及方法 Download PDFInfo
- Publication number
- CN110970031A CN110970031A CN201911291781.3A CN201911291781A CN110970031A CN 110970031 A CN110970031 A CN 110970031A CN 201911291781 A CN201911291781 A CN 201911291781A CN 110970031 A CN110970031 A CN 110970031A
- Authority
- CN
- China
- Prior art keywords
- word
- hidden state
- lstm
- recognized
- word lattice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 42
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 26
- 230000002441 reversible effect Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 61
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 15
- 238000011156 evaluation Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000013077 scoring method Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种语音识别***,包括:词格生成模块,配置为根据待识别语句确定相应的待识别词格;双向LSTM编码器,配置为按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态,按照待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态,并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息;单向LSTM解码器,配置为基于双向LSTM编码器的最后时刻的隐藏状态进行初始化,并根据初始化之后的单向LSTM解码器的隐藏状态和双向LSTM编码器的隐藏状态确定概率分布。本发明的语音识别***可以以端到端的方式从单词词格中搜索最佳路径,从而解决了搜索空间有限以及训练与评估之间不一致的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音识别***及方法。
背景技术
近年来,从个人助理到智能扬声器,基于自动语音识别的应用取得了巨大的进展。这些应用程序的质量在很大程度上依赖于基础语音识别***产生的1-best假设的准确性。一个自动语音识别***通常由三个组件组成从而识别语音信号:声学模型,发音和语言模型。***的性能可能受很多因素的影响,例如多说话者的识别,训练语料库的缺乏或存在环境噪音。因此,1-best假设常常含有识别错误。
为了解决这个问题,两趟解码策略被广泛采用来提高识别的准确性。其中,第一趟的模型通过输出多个假设来展示其搜索空间的一部分,这些假设可以用词格的紧凑形式表示。随后,在第二趟解码中,使用更复杂的模型进行n-best重打分或词格重打分。
在n-best重排序方法中,语音识别***从生成的词格计算出n条最佳路径,并形成一个句子列表用以重排序。目前最流行的n-best重排序模型是循环神经网络语言模型。其中,基于长短时记忆的循环神经网络语言模型由于解决了梯度消失问题而得到了广泛的应用。神经网络语言模型计算给定的n-best列表中每个句子的分数。然后,这些语言模型分数与附加到每个假设的语音识别分数进行插值,从而对n个最佳假设进行重排序。
在词格重排序方法中,一个预先训练的语言模型,通过前向-后向算法对词格进行解码。除了提高语音识别性能之外,重排序词格比重排序n-best列表速度快很多。
此外,n-best列表只包含词格中所有可能假设的一小部分,这个问题可以被表述为有限搜索空间问题。对于n-best重打分中出现的问题,一个可行的解决方案是增加句子列表的大小。然而,即使对一个较大的n,n-best列表也只能覆盖整个词格中相对小的一部分,因为大多数假设仅在几个单词位置上有所不同。而且,时间开销随着n的增加而增加,这对于实时应用中是不利的,实际使用中,n设置为50到1000。
此外,神经网络语言模型是以预测下一个单词的目标来训练的,不适合在n-best列表或词格中寻找最佳路径的任务。例如,在训练中模型仅见到正面的句例,从而在评估中很难区分不同的相似的假设。
发明内容
本发明实施例提供一种语音识别***及方法,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音识别***,包括:
词格生成模块,配置为根据待识别语句确定相应的待识别词格;
双向LSTM编码器,配置为按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态,按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态,并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息;
单向LSTM解码器,配置为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化,并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。
第二方面,本发明实施例提供一种语音识别方法,应用于语音识别***,所述语音识别***包括词格生成模块、双向LSTM编码器和单向LSTM解码器,所述方法包括:
词格生成模块根据待识别语句确定相应的待识别词格;
双向LSTM编码器按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态,按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态,并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息;
单向LSTM解码器基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化,并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语音识别方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项语音识别方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语音识别方法。
本发明实施例的有益效果在于:提出了一种新颖的L2S模型,该模型可以以端到端的方式从单词点阵词格中搜索最佳路径,从而解决了搜索空间有限以及训练与评估之间不一致的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音识别***的一实施例的示意图;
图2为本发明的双向LSTM编码器的一实施例的结构图;
图3为为本发明的单向LSTM编码器的一实施例的结构图;
图4为本发明所采用的注意力机制的一实施例的示意图
图5为本发明的语音识别方法的一实施例的流程图;
图6a为本发明中的ASR输出词格的示意图;
图6b为本发明中的预处理后的词格示意图;
图7为本发明中的在不同波束尺寸和不同插值速率λ下获得的平均词错误率示意图;
图8为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本发明中,“模块”、“装置”、“***”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地***、分布式***中另一元件交互的,和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。
如背景技术部分所述为了提高自动语音识别的准确性,两趟解码策略被广泛采用。第一趟模型生成紧凑的词格,第二趟模型对生成的词格执行重打分。目前,最流行的重打分方法是基于长短时记忆语言模型的n-best重打分和词格重打分。然而,这些方法遇到搜索空间有限或训练与评估之间不一致的问题。在本文本发明中,我们采用一个端到端模型来解决这些问题,该模型能够从词格中准确地提取最佳假设。我们的模型由双向LatticeLSTM编码器和随后的注意力LSTM解码器组成。该模型以词格为输入,在给定的词格空间中生成单个最佳假设。当与长短时记忆语言模型结合使用时,在同等的解码时间内,与n-best重打分和词格重打分方法相比,该模型的WER相对降低了9.7%和7.5%。
如图1所示,本发明的实施例提供一种语音识别***,包括:词格生成模块10、双向LSTM编码器20和单向LSTM解码器30,其中,
词格生成模块10,配置为根据待识别语句确定相应的待识别词格;
示例性地,所述待识别词格包括多个节点,节点之间的连线上配置有前向概率和后向概率,每个节点上配置有边缘概率。本发明中的词格生成模块可以是基于背景技术部分所述的两趟解码策略中的第一趟解码策略得到。
双向LSTM编码器20,配置为按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态,按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态,并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息;
如图2所示,为本发明的双向LSTM编码器的一实施例的结构图,该实施例中以对“that’s way too early(那太早了)”的识别为例。
单向LSTM解码器30,配置为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化,并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。
如图3所示,为本发明的单向LSTM编码器的一实施例的结构图,该实施例中以对“that’s way too early(那太早了)”的识别为例。
本发明提出了一种新颖的L2S模型,该模型可以以端到端的方式从单词点阵词格中搜索最佳路径,从而解决了搜索空间有限以及训练与评估之间不一致的问题。
在一些实施例中,所述前向隐藏状态包括隐藏向量和单元向量;
所述按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态包括:
按所述待识别词格的正向拓扑顺序扫描词语标签,并为每个词语生成隐藏状态;
在时间步骤i,确定wi的之前的词语并表示为集合Pi;
所述隐藏向量和所述单元向量分别由以下公式确定为:
在一些实施例中,还包括:基于所述后向概率对所述隐藏向量和所述单元向量更新如下:
其中,Sh,Sc是所述单向LSTM解码器的softmax层的参数向量。
在一些实施例中,所述为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化包括:
所述单向LSTM解码器的隐藏状态初始化为:
s0=hN,n0=cN
hN和cN是所述双向LSTM编码器的最终时刻的所述隐藏向量和所述单元向量;
在时间步骤j,给定所述单向LSTM解码器的隐藏状态sj-1,nj-1和第j个目标词语的嵌入yj,所述单向LSTM解码器的隐藏状态被更新为:
sj,nj=LSTM(yj,sj-1,nj-1).。
在一些实施例中,所述并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布包括:
采用注意力机制(如图4所示,为本发明所采用的注意力机制的一实施例的示意图),将{hi}N 1汇总为固定大小的上下文向量:
qj=ΣNi=1aijhi
其中,aij度量所述双向LSTM编码器的隐藏向量hi和所述单向LSTM解码器的隐藏状态sj匹配的程度:
其中,Wa,Ua和va是所述单向LSTM解码器参数;
基于所述隐藏状态sj和所述上下文向量qj概率分布如下:
oj=tanh(Wc[sj;qj]+bc)
Pj=softmax(Wooj+bo).。
在一些实施例中,还包括:基于所述边缘概率对rij更新如下:
其中,Sa是缩放参数向量,用于将所述边缘概率映射到与va具有相同维度的向量。
如图5所示,本发明实施例提供一种语音识别方法,应用于语音识别***,所述语音识别***包括词格生成模块、双向LSTM编码器和单向LSTM解码器,所述方法包括:
S1、词格生成模块根据待识别语句确定相应的待识别词格;示例性地,所述待识别词格包括多个节点,节点之间的连线上配置有前向概率和后向概率,每个节点上配置有边缘概率。
S2、双向LSTM编码器按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态,按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态,并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息;
S3、单向LSTM解码器基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化,并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。
在一些实施例中,所述前向隐藏状态包括隐藏向量和单元向量;
所述按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态包括:
按所述待识别词格的正向拓扑顺序扫描词语标签,并为每个词语生成隐藏状态;
在时间步骤i,确定wi的之前的词语并表示为集合Pi;
所述隐藏向量和所述单元向量分别由以下公式确定为:
在一些实施例中,还包括:基于所述后向概率对所述隐藏向量和所述单元向量更新如下:
其中,Sh,Sc是所述单向LSTM解码器的softmax层的参数向量。
在一些实施例中,所述为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化包括:
所述单向LSTM解码器的隐藏状态初始化为:
s0=hN,n0=cN
hN和cN是所述双向LSTM编码器的最终时刻的所述隐藏向量和所述单元向量;
在时间步骤j,给定所述单向LSTM解码器的隐藏状态sj-1,nj-1和第j个目标词语的嵌入yj,所述单向LSTM解码器的隐藏状态被更新为:
sj,nj=LSTM(yj,sj-1,nj-1).。
在一些实施例中,所述并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布包括:
采用注意力机制,将{hi}N 1汇总为固定大小的上下文向量:
qj=∑N i=1aijhi
其中,aij度量所述双向LSTM编码器的隐藏向量hi和所述单向LSTM解码器的隐藏状态sj匹配的程度:
其中,Wa,Ua和va是所述单向LSTM解码器参数;
基于所述隐藏状态sj和所述上下文向量qj概率分布如下:
oj=tanh(Wc[sj;qj]+bc)
Pj=softmax(Wooj+bo).。
在一些实施例中,还包括:基于所述边缘概率对rij更新如下:
其中,Sa是缩放参数向量,用于将所述边缘概率映射到与va具有相同维度的向量。
本发明所达到的以上的有益效果以及所取得的成绩也得到的实际实验的验证,以下将对发明人所进行的实验进行详细的说明。
1.引言
在两趟解码算法中,普遍的做法是预训练一个语言模型,用语言模型与声学模型的分数插值对假设重排序。
此外,端到端语音识别***将传统语音识别***所有组件融合为一个统一的模型。然而,传统的两趟解码***由于拥有更鲁棒的性能,依然是业界的主流。端到端语音识别模型也可受益于两趟解码策略。在第一趟中,通过合并beam搜索输出的节点来构建词格。由于生成的词格具有较小的理论字错误率,重新解码词格将产生更少的识别错误。
如上所示,从词格中提取最佳假设是端到端ASR***中的关键任务,这是本发明的重点。我们提出了一种新颖的L2S模型(Lattice To Sequence,格到序列模型),该模型可以以端到端的方式从词格中搜索最佳路径,从而解决了搜索空间有限以及训练与评估之间不一致的问题。该模型由双向词格(Lattice)编码器网络和具有注意力机制的解码器组成。在训练阶段,编码器为每个词格节点计算隐藏向量,解码器将其用于生成语音转录。在评估中,我们结合了前向-后向算法以在给定的词格空间中生成。实验是在著名的Swb-Fisher语料库上进行的。与传统的N-best重打分方法和词格重打分方法相比,可以获得一致的性能提升。L2S模型与以前的方法相比是高效的。
2.词格
词格是多个备选词序列的紧凑表示,可有效编码上游***的歧义。子序列在不同的假设之间共享,从而可以在单个词格中表示指数数量的带权假设。先前的工作表明,将词格合并到神经网络的训练中可以提高任务性能。示例包括编码多个分词,多义表示和ASR输出。
图6a和图6b的示例是“that’s way too early”的词格。图6b所示为预处理后的词格,包含前向/边缘/后向概率分数,其中边缘概率分数配置于节点上,前向/后向概率分数配置于节点之间的连线上(后向概率分数配置与括号中)。
如图6a所示,显示了Kaldi工具包生成的示例输出,语音识别***中的词格通常表示为有向无环图,其中边上标有单词和权重。
如图6b所示为处理后的词格示意图,经过线图算法的处理,单词标签放在节点上,而权重保留在边上,这保证每个词对应于编码网络中的一个隐藏状态。我们添加了两个特殊标记BOS和EOS来表示句子的开头和结尾。每个节点还按拓扑顺序分配了一个数字,以使子节点位于其所有父节点之后。
原始词词格的每条边都与n-gram语言模型得分和声学得分相关联,可以通过声学比例因子进行组合。通常以前向归一化的方式给出词格分数,即,每个节点在所有出度上的概率之和为1。我们可以进一步得出词格图中的边缘/后向概率分数。对于边ei,j∈E,假定前向得分为fi,j,并将节点i的前驱集合表示为Pi。然后,我们可以使用正向算法在每个节点上计算边缘得分m0=1和mi=∑k∈Pi mkfk,i(i>0)。后向概率分数的计算公式为:bi,j=mifi,j/mj在每个边缘上。图6b中说明了所有三种类型的分数。
3.神经词格到序列模型
我们提出了一个针对词格搜索问题的端到端模型。采用双向Lattice LSTM对给定的词格进行编码,计算每个格节点的上下文表示。注意力LSTM解码器用于根据编码器的输出生成假设。在训练中,该模型以词格为输入并输出参考假设。在评估时,该模型可以以自回归的方式生成预测的句子或使用前向-后向算法在给定格空间的约束下生成预测假设。以下给出了详细的模型结构以及训练和评估程序。
3.1、编码器
给定xt,ht-1,ct-1作为输入,LSTM在每个时间步基于以下公式产生隐藏向量ht和单元格向量ct:
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct),
其中,W为权重矩阵参数,b为偏置。
基本的LSTM适用于以线性顺序给出单词的任务,例如语言建模。但是,词格图中的每个单词可能存在多个在先单词。在本发明中,我们利用双向Lattice LSTM编码器对这种依赖性进行建模。
前向LSTM(即,双向Lattice LSTM编码器中的前向编码部分)按词格(待识别语句的待识别词格)的拓扑顺序扫描词格的单词标签,并为每个单词生成隐藏状态。在时间步骤i,首先确定wi的所有前身(示例性地,是wi的所有前驱节点,指的是lattice图中wi的所有父节点),并将集合表示为Pi。先前时间步的隐藏向量和单元向量被汇总为:
其中,Sh,Sc是用于带温度参数的softmax的参数向量,从而导致较软的概率分布。
后向LSTM(即,双向Lattice LSTM编码器中的后向编码部分)可以按词格的相反的拓扑顺序以类似方式计算。最后,我们将两个LSTM的隐藏向量连接起来,形成wi的上下文表示。
3.2、解码器
解码器是前向LSTM,可在每个时间步输出符号,以注意力机制产生的上下文向量为条件。解码器隐藏状态由最终的编码器隐藏状态初始化,即s0=hN,n0=cN。在时间步骤j,给定先前的解码器的隐藏状态sj-1,nj-1和第j个目标字的嵌入yj,隐藏向量和单元向量被更新为:
sj,nj=LSTM(yj,sj-1,nj-1).
通过注意机制,可以将编码器的表示向量{hi}N 1汇总为固定大小的上下文向量,该向量的计算公式为qj=∑Ni=1aijhi。aij度量源隐藏向量hi和解码器状态sj匹配的程度:
其中,Wa,Ua和va是模型参数。我们还可以将边缘词格分数纳入a的生成。因此,具有较高词格分数的单词比具有较低分数的单词具有更高的被注意力层选择的可能性。rij的计算被替换为:
在此,Sa是缩放参数向量,它将边缘得分映射到与va具有相同维度的向量。
我们使用一个简单的线性层来结合来自隐藏向量sj和上下文向量qj的信息得到oj。oj被馈入softmax层以计算预测分布Pj:
oj=tanh(Wc[sj;qj]+bc)
Pj=softmax(Wooj+bo).
其中,bc和Wc都是同一个线性层的参数,bo和Wo是另一个线性层的参数,下标c和o用来区别这是不同的两层。
3.3、训练和解码
我们通过为所提出的L2S模型提供词格对及其相应的参考假设来进行训练。使用训练好的L2S模型,在评估阶段,我们可以以自回归方式生成转录。但是,如果我们在解码阶段不对转录施加任何限制,则生成的假设可能容易出错。一种更好的方法是在给定的基于格的搜索空间中提取单个最佳假设。在本发明中,我们采用基数剪枝的自适应前-后向算法。从bos节点开始,将按照拓扑顺序处理词格节点。对于每个节点,保留部分假设列表。每个候选假设都存储从bos节点到当前节点的隐藏状态和累积分数。该算法通过后继节点上的单词扩展隐藏状态并进行评分。最后,可以在eos节点中获得词格的最佳评分假设。对于每个部分假设s,我们将得分计算为:
score(s)=(1-λ)·L2S(s)+λ·(LSTM(s)+s.acoustic).
当λ=1时,该算法将缩减为原始词格重打分方法。当λ=0时,仅基于L2S分数对假设进行排名。在其他情况下,将L2S模型和LSTM语言模型产生的分数组合起来进行估计。为了降低计算成本,每个节点仅保留k个最佳假设。
4.实验
4.1、资料说明
实验是在300小时的SWBD和2000小时的Swb-Fisher语料库上进行的。我们遵循EESEN SWBD配方来构建基于电话的基准CTC ASR***。在SWBD 300小时语音上训练了隐藏层为320的5层BLSTM声学模型,在Swb-Fisher 2000小时成绩单上训练了3-gram语言模型。所有词格都是通过基于WFST的方法生成的。
表1.训练语料库和两个测试集不同部分的格统计量。#发送和长度表示参考假设的总数和平均长度。节点和边指的是单词点阵的节点和边的平均数。
通过从原始的Switchboard和Fisher转录中随机选择来准备验证和测试集,分别产生6731和5000个句子。使用的词汇量为31K。我们在eval2000和rt03集上评估我们的模型。用6.0的波束大小剪枝词格。数据的详细信息在表1中给出。eval2000语料库中最大的词词格包含1015个节点,它们具有1.9e17的可能路径,这对于N-best重打分方法来说仍然很困难。
4.2、实验设定
我们提出的L2S模型包含两个双向Lattice LSTM层,每个编码器方向的大小为256。字嵌入大小也设置为256。解码器包含两个LSTM层,每个LSTM层具有256个神经元。投影层用于将编码器输出从512维映射到256维。我们将编码器的输入嵌入,解码器的输入嵌入和解码器的输出嵌入联系在一起,因为它们包含相同的词汇。我们每批次训练4096个令牌。Adam学习器用于训练,前三个时期的学习率是e-3,后两个时期的学习率是e-4。辍学率设置为0.15。基线LSTMLM具有与L2S解码器相同的结构,并且也采用权重绑定。LSTMLM训练了10轮,批大小为256。
4.3、实验结果
在表2中,我们比较了我们提出的L2S模型与具有不同解码策略的3-gram LM和LSTMLM的准确性和时间影响。1表的第一行显示了统计Trigram模型和声学模型。高WER展示了必须结合第二遍解码策略(例如N-best重打分)的必要性。
表2.使用Trigram LM,LSTMLM,L2S模型和用LSTMLM分数解码的L2S模型获得的各种困惑度(PPL),WER[%]和计时结果的比较。“第一趟”是指ASR第一趟解码的1-best输出。
对于LSTMLM,我们测试了N-best重打分和词格重打分方法。第2至5行的结果表明,通过对N个最佳假设进行核对,LSTMLM稳定地降低了ASR基线的WER结果。根据1000个最佳清单进行排序得出的最低WER为21.2。但是,当N大于500时,推断会带来较大的延迟。大多数时间都花在从单词点阵生成N个最佳列表上。用k=1(第6行)对词格进行评分与对100个最佳列表进行评分具有相似的性能,同时将工作时间减少了五倍。增加每个词格节点保持的候选假设数(k)可产生更好的WER(第7-8行)。
L2S模型的结果从第9行到第12行列出。测试集的困惑度仅为2.3,这意味着我们的模型不是很困惑,就好像它必须在测试中每个单词的2.3种可能性中进行独立均匀的选择,与LSTMLM(PPL为54.0)不同。以自回归方式生成目标假设(第9行)所产生的WER与重打分100个最佳列表的结果相当。该模型有机会输出不在格中的语义相似的单词,可以使用前向后向算法来缓解这种情况。第10行的平均WER为20.4,大大优于所有基线模型。但是,较大的k值会影响精度。由于我们的模型经过训练可以区分给定词格中的替代序列,并且能实现只有2.3的PPL,因此与普通LSTMLM相比,它在每个单词预测时都具有更高的确定性。结果表明,L2S模型允许进行贪婪的词格搜索,这是提高运行时效率的理想属性。
我们还研究了L2S分数和LSTMLM分数在词格计分中的组合。如第13行所示,WER结果从21.6下降到19.5,与50最佳打分相比,解码时间更短。为了验证性能增益是否来自简单的集成技术,我们还对两个LSTMLM的集成进行了词格计分。当k=1时,平均WER为21.3。结果表明,L2S模型和LSTMLM具有互补的能力,我们提出的模型可以结合LSTMLM的能力以进行精确预测。图7显示了在不同波束尺寸和不同插值系数λ下获得的平均WER(%)。最佳值大约为0.4。
表3.词格分数影响的消融。m/f/b分别指边缘/前向/后向得分。
我们进行消融分析以研究词格分数的影响。在这里,我们将k=1的前向后算法作为解码策略。表3表明我们的模型在推理中利用了声学得分和图表得分。第3行显示,在不使用前向/后向归一化评分的情况下,模型性能会急剧下降,因为具有多个相互矛盾的前驱词格节点可能会导致较差的上下文表示。将边缘得分纳入注意机制可进一步提高WER。
5.结论与未来工作
在本发明中介绍了一种用于第二趟解码的端到端词到序列模型。我们的模型解决了搜索空间有限以及LSTM语言模型评分方法中训练与评估之间不一致的问题。实验结果表明,与N-best重打分和词格重打分相比,我们的方法可实现0.8%和0.6%的绝对WER降低。提出的模型能够利用LSTM语言模型估计来进一步降低WER。我们的框架可以轻松地适应其他需要从给定词格中提取1-best路径的研究领域,例如,机器翻译和端到端ASR***。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语音识别方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语音识别方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行语音识别方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现语音识别方法。
图8是本申请另一实施例提供的执行语音识别方法的电子设备的硬件结构示意图,如图8所示,该设备包括:
一个或多个处理器810以及存储器820,图8中以一个处理器810为例。
执行语音识别方法的设备还可以包括:输入装置830和输出装置840。
处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器820作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的语音识别方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音识别方法。
存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别装置的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置830可接收输入的数字或字符信息,以及产生与语音识别装置的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器820中,当被所述一个或者多个处理器810执行时,执行上述任意方法实施例中的语音识别方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语音识别***,包括:
词格生成模块,配置为根据待识别语句确定相应的待识别词格;
双向LSTM编码器,配置为按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态,按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态,并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息;
单向LSTM解码器,配置为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化,并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。
2.根据权利要求1所述的***,其中,所述待识别词格包括多个节点,节点之间的连线上配置有前向概率和后向概率,每个节点上配置有边缘概率。
5.根据权利要求4所述的***,其中,所述基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化包括:
所述单向LSTM解码器的隐藏状态初始化为:
s0=hN,n0=cN
hN和cN是所述双向LSTM编码器的最终时刻的所述隐藏向量和所述单元向量;
在时间步骤j,给定所述单向LSTM解码器的隐藏状态sj-1,nj-1和第j个目标词语的嵌入yj,所述单向LSTM解码器的隐藏状态被更新为:
sj,nj=LSTM(yj,sj-1,nj-1).。
8.一种语音识别方法,应用于语音识别***,所述语音识别***包括词格生成模块、双向LSTM编码器和单向LSTM解码器,所述方法包括:
词格生成模块根据待识别语句确定相应的待识别词格;
双向LSTM编码器按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态,按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态,并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息;
单向LSTM解码器基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化,并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291781.3A CN110970031B (zh) | 2019-12-16 | 2019-12-16 | 语音识别***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291781.3A CN110970031B (zh) | 2019-12-16 | 2019-12-16 | 语音识别***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110970031A true CN110970031A (zh) | 2020-04-07 |
CN110970031B CN110970031B (zh) | 2022-06-24 |
Family
ID=70034613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911291781.3A Active CN110970031B (zh) | 2019-12-16 | 2019-12-16 | 语音识别***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110970031B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681646A (zh) * | 2020-07-17 | 2020-09-18 | 成都三零凯天通信实业有限公司 | 端到端架构的通用场景中文普通话语音识别方法 |
CN112466282A (zh) * | 2020-10-22 | 2021-03-09 | 北京仿真中心 | 一种面向航天专业领域的语音识别***和方法 |
CN112863489A (zh) * | 2021-04-26 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及介质 |
CN112951213A (zh) * | 2021-02-09 | 2021-06-11 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、***及设备 |
CN113516973A (zh) * | 2021-09-13 | 2021-10-19 | 珠海亿智电子科技有限公司 | 基于双向上下文的非自回归语音识别网络、方法及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1138386A (zh) * | 1993-12-22 | 1996-12-18 | 夸尔柯姆股份有限公司 | 分布式话音识别*** |
US20050149326A1 (en) * | 2004-01-05 | 2005-07-07 | Kabushiki Kaisha Toshiba | Speech recognition system and technique |
US20160365089A1 (en) * | 2013-07-30 | 2016-12-15 | Verint Systems Ltd. | System and method of automated evaluation of transcription quality |
CN107464559A (zh) * | 2017-07-11 | 2017-12-12 | 中国科学院自动化研究所 | 基于汉语韵律结构和重音的联合预测模型构建方法及*** |
CN110288980A (zh) * | 2019-06-17 | 2019-09-27 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
CN110556100A (zh) * | 2019-09-10 | 2019-12-10 | 苏州思必驰信息科技有限公司 | 端到端语音识别模型的训练方法及*** |
CN111480197A (zh) * | 2017-12-15 | 2020-07-31 | 三菱电机株式会社 | 语音识别*** |
CN111816164A (zh) * | 2019-04-05 | 2020-10-23 | 三星电子株式会社 | 用于语音识别的方法及设备 |
-
2019
- 2019-12-16 CN CN201911291781.3A patent/CN110970031B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1138386A (zh) * | 1993-12-22 | 1996-12-18 | 夸尔柯姆股份有限公司 | 分布式话音识别*** |
US20050149326A1 (en) * | 2004-01-05 | 2005-07-07 | Kabushiki Kaisha Toshiba | Speech recognition system and technique |
US20160365089A1 (en) * | 2013-07-30 | 2016-12-15 | Verint Systems Ltd. | System and method of automated evaluation of transcription quality |
CN107464559A (zh) * | 2017-07-11 | 2017-12-12 | 中国科学院自动化研究所 | 基于汉语韵律结构和重音的联合预测模型构建方法及*** |
CN111480197A (zh) * | 2017-12-15 | 2020-07-31 | 三菱电机株式会社 | 语音识别*** |
CN111816164A (zh) * | 2019-04-05 | 2020-10-23 | 三星电子株式会社 | 用于语音识别的方法及设备 |
CN110288980A (zh) * | 2019-06-17 | 2019-09-27 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
CN110556100A (zh) * | 2019-09-10 | 2019-12-10 | 苏州思必驰信息科技有限公司 | 端到端语音识别模型的训练方法及*** |
Non-Patent Citations (4)
Title |
---|
JINSONG SU 等: ""Lattice-Based Neural Network Encoders for Neural Machine Translation"", 《HTTPS://ARXIV.ORG/ABS/1609.07730》 * |
V. GOEL 等: ""Segmental minimum Bayes-risk decoding for automatic speech recognition"", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
周盼: ""基于深层神经网络的语音识别声学建模研究"", 《中国博士学位论文全文数据库(信息科技辑)》 * |
马娆 等: ""Neural Lattice Search for Speech Recognition"", 《ICASSP 2020》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681646A (zh) * | 2020-07-17 | 2020-09-18 | 成都三零凯天通信实业有限公司 | 端到端架构的通用场景中文普通话语音识别方法 |
CN112466282A (zh) * | 2020-10-22 | 2021-03-09 | 北京仿真中心 | 一种面向航天专业领域的语音识别***和方法 |
CN112466282B (zh) * | 2020-10-22 | 2023-11-28 | 北京仿真中心 | 一种面向航天专业领域的语音识别***和方法 |
CN112951213A (zh) * | 2021-02-09 | 2021-06-11 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、***及设备 |
CN112951213B (zh) * | 2021-02-09 | 2022-05-24 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、***及设备 |
CN112863489A (zh) * | 2021-04-26 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及介质 |
CN112863489B (zh) * | 2021-04-26 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及介质 |
WO2022227935A1 (zh) * | 2021-04-26 | 2022-11-03 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备、存储介质及程序产品 |
CN113516973A (zh) * | 2021-09-13 | 2021-10-19 | 珠海亿智电子科技有限公司 | 基于双向上下文的非自回归语音识别网络、方法及设备 |
CN113516973B (zh) * | 2021-09-13 | 2021-11-16 | 珠海亿智电子科技有限公司 | 基于双向上下文的非自回归语音识别网络、方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110970031B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110970031B (zh) | 语音识别***及方法 | |
US11776531B2 (en) | Encoder-decoder models for sequence to sequence mapping | |
CN110603583B (zh) | 语音识别***和用于语音识别的方法 | |
CN108417210B (zh) | 一种词嵌入语言模型训练方法、词语识别方法及*** | |
KR102380833B1 (ko) | 음성 인식 방법 및 음성 인식 장치 | |
US10176802B1 (en) | Lattice encoding using recurrent neural networks | |
KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
CN106683677B (zh) | 语音识别方法及装置 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
CN111402895B (zh) | 语音处理、语音评测方法、装置、计算机设备和存储介质 | |
JP5088701B2 (ja) | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム | |
KR101120765B1 (ko) | 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법 | |
CN111480197A (zh) | 语音识别*** | |
US10714076B2 (en) | Initialization of CTC speech recognition with standard HMM | |
CN108108428B (zh) | 一种构建语言模型的方法、输入法及*** | |
CN114787914A (zh) | 用异步解码器流式传输端到端语音识别的***和方法 | |
US8849668B2 (en) | Speech recognition apparatus and method | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
CN113574595A (zh) | 用于具有触发注意力的端到端语音识别的***和方法 | |
CN109559749B (zh) | 用于语音识别***的联合解码方法及*** | |
US20040019483A1 (en) | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和*** | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和*** | |
JP6300394B2 (ja) | 誤り修正モデル学習装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |