CN111916058A

CN111916058A - 一种基于增量词图重打分的语音识别方法及***

Info

Publication number: CN111916058A
Application number: CN202010588022.XA
Authority: CN
Inventors: 范建存; 马一航
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-11-10

Abstract

本发明公开了一种基于增量词图重打分的语音识别方法及***，获取待识别的语音信号并提取声学特征；由训练好的声学模型计算声学特征对应的似然概率；解码器构建对应的解码网络，从解码网络中获取状态级别的词图并通过更新词图确定化得到词级别的词图；对剩余解码网络的状态级别词图进行确定化，并和已得到的词级别词图合并生成一遍解码词图；将一遍解码词图和小语料训练得到的重打分语言模型通过有限状态转录机合并算法得到目标词图；获取目标词图的最优代价路径词图，继而得到对应的词序列，将之作为最终的识别结果。本发明降低了普通解码器解码结束后确定化的计算量，加快解码速度；降低特定场景下语音识别的词错误率提高准确度。

Description

一种基于增量词图重打分的语音识别方法及***

技术领域

本发明属于语音识别技术领域，具体涉及一种基于增量词图重打分的语音识别方法及***。

背景技术

近年来，随着人工智能行业的迅速发展，语音识别技术得到了越来越多学术界和工业界的关注。作为语音交互领域的前端技术，语音识别发挥着至关重要的作用。它被广泛地应用于诸多人机交互***中，例如智能客服***，聊天机器人，个人智能助理以及智能家居等。

目前传统的语音识别技术主要是基于HMM-DNN框架搭建起来的，这样建模的优势是可以通过相对较少的数据训练得到一个准确率还不错的语音识别***。解码器是语音识别***中极其重要的组件，其作用是串联声学模型、发音词典以及语言模型对输入的语音特征进行处理构建解码网络从而获取一系列状态序列及其对应的词图，然后从中挑选最佳状态序列对应的词序列输出最终识别结果。

现有方法中，为了保证一遍解码的识别准确率，需要使用一个较大的beam搜索宽度，会使最终词图偏大导致识别速度仍然不够快。有代替较大beam搜索宽度一步解码的方法虽然解码速度在较低WERs下大约有2-3倍的提升，但是可能会因为beam值过小导致两步解码之间存在较大的差异影响其最终使用。利用GPU并行计算的方法成本较高，在工业化场景下这种解码器的大范围使用仍然有待商榷。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于增量词图重打分的语音识别方法及***，解码过程中，先为部分音频进行确定化生成词级别的词图，然后处理剩余音频的时候，在前面词图的基础上生成新的词级别词图，在不影响一遍解码语音识别准确率的前提下，大大提高词图生成的速度，减少实时流解码场景中长话语结束后的延迟，为中间结果的输出提供便利，之后通过小样本语料训练的高级语言模型对一遍解码结果进行重打分，实现特定场景下的自学习，从而降低词错误率提高语音识别的准确度。

本发明采用以下技术方案：

一种基于增量词图重打分的语音识别方法，包括以下步骤：

S1、获取待识别的语音信号并通过预处理进行声学特征提取；

S2、由训练好的声学模型计算声学特征对应的似然概率；

S3、解码器通过训练好的解码图和步骤S2计算得到的声学信息构建对应的解码网络，从解码网络中获取状态级别的词图并通过更新词图确定化得到词级别的词图；

S4、解码结束后，对剩余解码网络的状态级别词图进行确定化，并和已得到的词级别词图合并生成一遍解码词图；

S5、将一遍解码词图和小语料训练得到的重打分语言模型通过有限状态转录机合并算法得到目标词图；

S6、获取目标词图的最优代价路径词图，继而得到该词图最优状态序列对应的词序列，将之作为最终的识别结果。

具体的，步骤S1中，对语音信号进行添加高斯白噪声，预加重，加窗等预处理工作；对预处理后的语音信号做快速傅里叶变换将时域信号转化为频域信号并获得功率谱；和一组三角滤波器点乘求梅尔能量得到对应维度的声学特征。

具体的，步骤S2中，使用步骤S1计算得到的声学特征作为声学模型的输入，将中心帧的前后多帧语音特征一起输入声学模型，经过神经网络计算后得到中心语音帧对应的每一个发音单元的声学后验概率。

具体的，步骤S3中，解码器通过维特比动态规划算法搜索解码图，结合步骤S2计算得到的声学代价以及解码图中的图代价构建解码网络，通过设置阈值剪枝路径约束网格大小；然后从解码网络中获取状态级别的词图并通过更新词图确定化得到新的词级别词图。

进一步的，具体步骤如下：

S301、从解码网络的状态序列中获取F的状态级别词图，包括状态编号以及转移边；

S302、对F的第一部分进行确定化操作，第一部分的最后一帧是重复确定化状态，为重复确定化状态的转移边添加终止状态即构成了有限状态接收机A；对A进行确定化得到a，从原图中把输入标签相同的跳转合并，逐步加入初始为空的新图中；

S303、处理第二部分，第二部分的第一帧为第一部分的最后一帧，即重复确定化状态；取重复确定化状态的最后一个状态做为初始状态构建有限状态接收机B，B复用有限状态接收机A对重复确定化状态的处理结果；通过状态和弧边标签的映射表找到重复确定化状态的弧边标签；由弧边标签映射到第一部分确定化后重复确定化状态的状态编号；将新的状态编号和重复确定化状态一一对应，依次添加后面帧的状态编号和转移边，得到第二部分有限状态接受机B，对B进行确定化得到b；

S304、将a和b合并在一起构成有限状态接收机C，C中的状态正常情况下由以下两部分组成：a中所有转移边不是弧边标签的状态；b中除了第一个外的所有状态；接收机C中的弧边包含b中除初始状态出弧的所有弧边，以及a中所有以非重复确定化状态起始和结束的弧边；如果a的初始状态不是重复确定化状态，设为有限状态接收机C的初始状态，否则使用b的初始状态作为所述接收机C的初始状态；最后通过移除C中的空标签得到最终结果G，即实现了增量词图生成。

更进一步的，本发明的特点还在于，步骤S302具体为：

S3021、建立一个新的空图，把原图的初始状态和相应的初始权重加入新图，并新建一个队列，把状态放入队列中；

S3022、从队列头部取出一个状态p，遍历状态p引出的所有跳转的输入标签，对每种输入标签x，在新图中加入新状态及对应的跳转，新跳转的输入标签为x，权重是原图中x对应的所有跳转的⊕运算，将原图中的若干跳转合并为一个跳转；

S3023、把步骤S3024的新状态加入队列；

S3024、回到步骤S3023继续处理队列，直到队列为空，将确定化后的结果称之为a。

具体的，步骤S4中，解码结束后得到增量生成的词级别词图；然后对解码网络对应的最后一部分状态级别词图进行确定化；最后将两部分词级别词图进行合并生成目标词图，完成最后一部分的增量词图生成。

具体的，步骤S5中，将一遍解码词图和小语料训练得到的重打分语言模型通过有限状态转录机合并算法得到目标词图；通过基于蒙特卡洛法的重要性采样训练长短时记忆神经网络语言模型；记一遍解码词图为T₁，LSTM-RNN语言模型转化成的G.fst为T₂，T₁和T₂基于广度优先搜索合并算法生成目标词图T。

具体的，步骤S6中，获取目标词图的最优代价路径词图；将词级别词图转化为状态级别词图得到最优状态序列；最后通过回溯寻找最优前驱节点的方式获得对应的最优词序列作为最终的识别结果。

本发明的另一技术方案是，一种基于增量词图重打分的语音识别***，根据所述的方法，包括：

信号获取及检测模块，用于得到待识别的语音信号并进行检测，保留有效的语音信号；

预处理模块，用于对有效的语音信号进行预处理；

特征提取模块，对预处理后的语音信号进行特征提取得到声学特征序列；

增量解码模块，通过解码器结合解码图和声学模型对声学特征序列进行解码构建解码网络，并增量生成词级别词图；

词图生成模块，用于生成解码网络最后一部分状态序列对应的词级别词图，并和增量解码模块的词级别词图合并得到一遍解码词图；

重打分模块，通过特定场景语料训练的语言模型对一遍解码词图进行重打分进而生成目标词图；

识别模块，从目标词图中获取最终的识别结果。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于增量词图重打分的语音识别方法及***，语音识别过程中需要对从解码网络中获取的状态级别词图做确定化工作，以确保每一个状态都不存在输入标签相同的两条转移弧边从而可以精简词图的尺寸，并且因为输入标签的唯一性可以加快生成最优代价路径词图的速度。然而，普通解码器只能从解码网络中第一帧语音信号对应的状态序列开始确定化，这样当长话语结束后确定化操作会带来可感知的延迟，通过将确定化操作分步在整个解码过程中完成，大大降低解码结束后确定化部分的计算量，可以在解码中得到词级别的词图，在此基础上动态生成中间识别结果，并通过小语料新训练高计算量语言模型，对一遍解码词图通过合并算法进行加权求和计算增大其权重，提高了特定场景下的识别准确率，实现在不同领域语音识别的自适应。

进一步的，对于步骤S1中的语音信号，首先通过语音活动检测(Voice ActivityDetection，VAD)过滤一部分长静音帧，保留有效的语音信号实现降噪的效果。接着对有效的语音块进行预处理、特征提取后得到对应维度的声学特征，可以将8k采样率一帧25ms的200个样本点提取为经过Mel滤波器的40维Fbank特征，大大降低语音信号的维度。

进一步的，使用步骤S1计算得到的语音特征作为声学模型的输入，一般一次计算多帧的声学概率矩阵，将多帧语音信号数据块拼接上它的上下文信息一起输入声学模型，降低声学后验概率矩阵计算的次数，提高解码速度。

进一步的，使用基于beam词图剪枝的维特比动态规划算法构建解码网络，所有超过beam阈值的路径都会被剪枝掉，在获取状态级别词图前会再次进行状态剪枝精简解码网络从而加快增量词图生成的速度。

进一步的，对状态级别词图进行确定化，使每个状态节点上的任意输入序列都只对应唯一的跳转，可以大大减少在图中匹配序列的计算量，确定化后词图的冗余度要比确定化前低得多。

进一步的，解码结束后对词图进行确定化是传统解码器产生高延迟的原因，这里增量词图生成解码器只需对最后一小块未确定化的状态级别词图进行确定化，快速生成识别结果。

进一步的，对步骤S4生成的一遍解码词图进行重打分，通过特定场景小样本语料训练语言模型，可以是传统的N-gram语言模型，也可以是基于长短时记忆的循环神经网络语言模型，提高训练语料场景下语音识别的准确度，降低词错误率。

进一步的，获取最佳词序列作为最终的识别结果后，通过加标点服务得到最终的输出。

一种基于增量词图重打分的语音识别***，在对解码网络确定化前又进行了一遍剪枝，解码网络生成中比非增量就小，因此加快网络生成速度，提高了实时率。经过增量词图生成后的一遍解码词图是最优词图，和重打分语言模型进行合并的时候会消耗较少的时间，降低语音结束后延迟。通过对一遍解码词图进行后处理，可以实现对任意场景下语音识别结果的微调提高其识别准确度，实现在较低成本下的精度提升及定制化广泛应。

综上所述，本发明在解码过程中增量生成词级别词图为输出中间结果提供便利；降低普通解码器解码结束后确定化的计算量，加快解码速度；降低特定场景下语音识别的词错误率提高准确度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为发明提供的一种语音识别方法的流程图；

图2为本发明提供的增量词图生成方法示意图；

图3为本发明提供的增量词图确定化数据块大小流程图；

图4为本发明提供的增量词图重复确定化状态处理流程图；

图5为本发明***的具体模块流程示意图；

图6为本发明方法与普通解码器在实时率方面的性能对比图；

图7为本发明方法与普通解码器在延时方面的性能对比图；

图8为本发明方法与普通解码器在特定场景下词错误率方面的性能对比图。

具体实施方式

首先对本发明涉及的方法和术语进行说明。

1)有限状态接收机(FSA)：加权有限状态转录机(WFST)由一组状态和状态间的有向跳转构成，其中每个跳转上保存了三种信息，即输入标签、输出标签和权重,以“input_label:output_label/weight”格式记录，本发明中提及的解码网络就是一个WFST。FSA可以看做FST的简化，它的每个跳转只有输入标签。

2)状态级别词图：一种有向无环图，它的转移边上有输入标签，输出标签和权重值。其中输入标签为对齐信息，输出标签为词结果。

3)词级别词图：也叫压缩词图，由状态级别词图确定化后得到，和状态级别词图不同的是它的对齐信息由输入标签存储改为权重存储。

4)确定化：有限状态转录机中的经典算法，其作用是确保转录机中任一状态出发的所有转移边上不存在相同的输入标签，保证输入标签序列的唯一性。

5)声学特征：由语音信号经过预处理和傅里叶变换后得到的频域信息再经过加工处理得到，本发明实验中使用的声学特征为滤波器组(Filter Bank，FBank)特征。

6)声学模型：对发音相关的信息进行建模并基于声学特征进行迭代训练得到，声学模型的主要作用是获取输入声学特征序列和发音单元序列之间的匹配度，通常以概率表示。本发明实验中使用的是基于隐马尔可夫-深度神经网络(HMM-DNN)的声学模型。

7)语言模型：用于建模待识别语言中词与词之间的关联性，本发明实验中一遍解码中使用的是基于概率统计的3元文法(3-gram)语言模型。重打分语言模型使用对连续空间有更好建模效果的长短时记忆(Long Short-Term Memory，LSTM)循环神经网络语言模型，通过语言模型可以计算得到每一个词序列W＝{w1，w2，···，wn}出现的概率。

8)维特比算法：是一种基于动态规划思想求解解码网络中最优路径的算法。在语音识别的解码过程中，通常将维特比算法结合一定的阈值约束来构建相应的解码网络。

请参阅图1，本发明一种基于增量词图重打分的语音识别方法，包括以下步骤：

S101、对语音信号做预处理工作，首先对每一帧样本点都加一个随机高斯值，然后减去该帧样本点的平均值移除直流分量，接着将每一帧样本点的值减去上一帧值乘以0.97进行预加重，最后和一个大小为帧长的窗函数进行点乘得到更平稳的语音信号。

S102、进行声学特征提取，首先得到一个扩充为2的n次幂大小长度的滤波器组对象，然后对预处理后的语音信号进行快速傅里叶变换将时域信号转换为频域信号得到频谱样本点，接着将频谱样本点的实部乘以实部加上虚部乘以虚部得到其功率谱，最后取功率谱一半加一的样本点和依照Mel刻度分布的三角滤波器组进行卷积得到FBank声学特征。

S2、由训练好的声学模型计算声学特征对应的似然概率；

使用步骤S1计算得到的声学特征作为声学模型的输入，为了考虑每一帧特征的声学上下文信息，将中心帧的前后多帧语音特征一起输入声学模型，假设前面13帧后面9帧一共23帧声学特征一起输入时延神经网络(Time-Delay Neural Network，TDNN)，经过神经网络第一层映射为7帧的声学特征，后面三层隐藏层通过子采样将7帧声学特征映射为一帧，最后通过softmax归一化操作得到每一帧语音信号经过三音素聚类后5696个发音结果的声学概率矩阵。

S3、解码器通过训练好的解码图和步骤S2计算得到的声学信息构建对应的解码网络，从解码网络中获取状态级别的词图并通过更新词图确定化，增量生成词级别的词图；

解码是逐帧进行的，t时刻可以到达的状态由t-1时刻出发，每一帧生成的状态由转移边相链接，通过基于动态规划的Viterbi算法并设置容差估计值约束网格大小构成了一个包含所有识别结果的有向无环图，即为解码网络。

本发明提出将解码网络对应的状态级别词图分成多个连续的块进行确定化，这些连续块对应词图中的顺序帧状态序列范围。把这些顺序帧的状态序列分别确定化后以某种方式将它们连接在一起，就可以实现增量词图生成。方法是在连续块的分解点引入特殊符号，即弧边标签，拥有弧边标签的状态序列被称为重复确定化状态。增量词图生成的具体步骤为：

请参阅图2，把解码网络的确定化分成很多块来进行，每次处理相邻的两部分(F)，两部分重合的那一帧状态序列即为重复确定化状态，由转移边上的弧边标签唯一标识。

S301、解码得到第一部分状态，获取每个状态的状态编号以及转移边构成F的第一部分状态级别词图，即第一个数据块；

S302、对F的第一部分状态级别词图进行确定化操作，它的最后一帧是重复确定化状态，为重复确定化状态的转移边添加终止状态即构成了有限状态接收机A。对A进行确定化的主要思路是不断从原图中把输入标签相同的跳转合并，逐步加入初始为空的新图中，具体为：

S3021、建立一个新的空图，把原图的初始状态和相应的初始权重加入新图，并新建一个队列，把这些状态放入队列中。

S3022、从队列头部取出一个状态p，遍历状态p引出的所有跳转的输入标签。对每种输入标签x，在新图中加入新状态及对应的跳转，新跳转的输入标签为x，权重是原图中x对应的所有跳转的⊕运算。此步骤将原图中的若干跳转合并为一个跳转。

S3023、把步骤S3024的新状态加入队列。

S3024、回到步骤S3023继续处理队列，直到队列为空。

将确定化后的结果称之为a，由弧边标签唯一标识的状态序列的状态编号可能已经改变。

S303、需要考虑如何获得F的第二部分新的数据块。请参阅图3，实验中以确定化最小块大小阈值和确定化最大延迟阈值两个参数进行限制，前者定义了每个块中帧数的最小值；后者决定了需要解码多少新的帧数才能继续对新的块进行确定化。当新解码的帧数超过了最大延迟阈值时，挑选最小块帧阈值到最大延迟阈值间拥有最少状态数的那一帧，即为新块的最后一帧。从最后一帧前溯到已经确定化词图中的最后一帧即为新的数据块，它的第一帧即为第一部分的最后一帧，即重复确定化状态。取重复确定化状态的最后一个状态做为初始状态构建有限状态接收机B，B需要复用有限状态接收机A对重复确定化状态的处理结果；

请参阅图4，增量词图生成的核心是对重复确定化状态进行处理从而让新块可以复用前面的确定化结果。首先通过状态和弧边标签的映射表找到重复确定化状态的弧边标签；由弧边标签映射到第一部分确定化后重复确定化状态的状态编号；更新状态节点和状态编号映射表将新的状态编号和重复确定化状态一一对应，依次添加后面帧的状态编号和转移边，即可得到第二部分有限状态接受机B，对B执行步骤S3021、S3022、S3023、S3024进行确定化得到b；

S304、将a和b合并在一起构成有限状态接收机C，C中的状态正常情况下由以下两部分组成：a中所有转移边不是弧边标签的状态；b中除了第一个外的所有状态。

接收机C中的弧边包含b中除了初始状态出弧的所有弧边，以及a中所有以非重复确定化状态起始和结束的弧边；如果a的初始状态不是重复确定化状态，那么就把它设为有限状态接收机C的初始状态，否则我们使用b的初始状态作为所述接收机C的初始状态；

最后通过移除C中的空标签得到最终结果G，即实现了增量词图生成。

S305、将步骤S304生成的G作为第一部分重复步骤S303、S304，直到生成最后一帧声学特征的状态并对最后一帧进行状态剪枝。

S4、步骤S3解码结束后，对最后剩余解码网络的状态级别词图进行确定化，并和已得到的词级别词图合并生成一遍解码词图；

S401、解码结束后得到增量生成的词级别词图；

S402、对解码网络对应的最后一部分状态级别词图进行确定化；

S403、将两部分词级别词图进行合并生成目标词图，完成了最后一部分的增量词图生成。

S501、通过基于蒙特卡洛法的重要性采样训练长短时记忆神经网络语言模型(LSTM-RNNLM)；

S502、记一遍解码词图为T₁，LSTM-RNN语言模型转化成的G.fst为T₂，T₁和T₂基于广度优先搜索合并算法生成目标词图T的步骤如下：

S5021、记T₁和T₂跳转的集合分别为E₁和E₂。

S5022、遍历T₁和T₂所有的跳转e₁属于E₁和e₂属于E₂，在遍历过程中，如果某e₁的输出标签o[e₁]和e₂的输入标签i[e₂]相同，那么就把e₁、e₂的来源状态对(p[e₁],p[e₂])和目标状态对(n[e₁],n[e₂])分别作为T的两个状态，并在T中加入一条从状态(p[e₁],p[e₂])指向(n[e₁],n[e₂])的跳转，其输入标签为i[e₁]、输出标签为o[e₂]、权重为e₁和e₂权重的加权求和运算。

S5023、重复S5022步骤，直到把所有满足o[e₁]＝i[e₂]的e₁、e₂处理完毕，设定起始状态和结束状态及其权重后，就得到了T₁和T₂的复合结果T。

S6、获取上述目标词图的最优代价路径词图，继而得到该词图最优状态序列对应的词序列，将之作为最终的识别结果。

S601、通过动态规划的思想确定每一个状态节点的最优前驱节点获取上述目标词图的最优代价路径词图；

S602、将词级别词图中权重信息里的转移ID取出替换输入标签转化为状态级别词图得到最优状态序列；

S603、通过最优状态序列得到弧边上输出标签不为0的词标签，依据单词符号表找到这些词标签对应的汉字，依次输出即可实现语音由音频到汉字的识别过程。

请参阅图3，本发明提供了一种基于增量词图重打分的语音识别***，包括：

信号获取及检测模块，用于得到待识别的语音信号并对其进行检测，保留有效的语言信号；

预处理模块，用于对有效的语音信号进行预处理；

预处理模块包括：第一处理模块，对目标词图的每一帧状态进行拓扑排序，保证其拓扑有序性。第二处理模块，通过动态规划的思想，遍历整个词图确定每一个状态节点的最优前驱节点，并得到最佳终止状态的状态ID；第三处理模块，通过该状态ID依次回溯得到最佳路径上的所有状态ID，由此得到连接这些状态ID的弧边，共同构成包含最优状态序列的压缩词图。

增量解码模块，通过解码器结合解码图和声学模型对声学特征进行解码构建解码网络，并增量生成词级别词图；

增量解码模块包括：第一确定模块，由基于时延神经网络的chain声学模型得到每帧特征对应所有发音单元的声学观测概率；第二确定模块，由解码图中的3-gram语言模型根据声学特征序列确定可能出现的目标词序列的概率，即图代价；第三确定模块，解码器结合声学概率和解码图中的图代价，根据维特比动态规划算法构建解码网络；第四确定模块，根据解码网络获得状态级别词图，对其进行确定化增量地生成词级别词图。

词图生成模块，用于生成解码网络最后一部分状态序列对应的词级别词图，并和上一个模块的词级别词图合并得到第一遍解码词图；

重打分模块，通过特定场景语料训练的较小语言模型对一遍解码词图进行重打分进而生成目标词图；

重打分模块包括：合并模块，将一遍解码词图中的图代价加上重打分语言模型分数乘以0.2根据合并算法生成新的词图；剪枝模块，将新词图中权重过大的转移边指向一个特定的状态ID，接着将指向特定状态ID的转移边删除并且将入弧为空的状态ID也删除。

识别模块，从目标词图中获取最终的识别结果。

识别模块包括：处理模块，对目标词图通过动态规划算法得到一条只包含最优代价状态序列的压缩词图；转化模块，将该压缩词图转化为输入标签为转移ID，输出标签为词ID，权重为图代价的状态级别词图；生成模块，依次获取该状态级别词图弧边上词ID映射的对应词序列即为最终的识别结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例在多个真实场景测试集下将增量词图重打分语音识别方法和主流解码方法进行了对比工作，采用的数据集是电话场景下采集的真实对话数据，其内容涵盖多个行业，平均每个数据集的时长在2h左右。实验过程中增量词图重打分方法的参数配置要比主流解码器多三个参数，即确定化最大延迟阈值参数和确定化最小块大小参数，以及传递进来重打分语言模型转换成的有限状态转录机。

本发明参考的指标主要是语音识别的实时率(Real-Time factor,RTF)，词错误率(Word Error Rate,WER)以及解码结束后最后一帧状态剪枝和词图确定化带来的延迟。实时率的计算公式为Real_time_factor＝total_time_taken_/total_audio_，即音频总的解码时长除以该音频的总时长。三个指标的目的主要是为了验证本发明中增量词图重打分方法所带来的解码速度提升，识别准确率增大以及延迟的减少。如表1和表2所示，对比了传统解码器的确定化方法(DCG)和本发明增量词图重打分方法(ADCG)的解码实时率和延迟情况。

表1

结合表1以及图4可以看到，在解码实时率(RTF)方面增量词图重打分方法的性能远优于主流的基于确定化的方法，实时率有近25％的下降，大大提高了解码速度。

表2

延迟参数在实时率的基础上更加准确的反应了增量词图生成的性能，因为它主要考虑解码结束后重打分的延迟还包含重打分所消耗的时间变化。结合表2以及图5，增量确定化解码器7，该方法比传统解码器延迟平均减少为25％，充分展示了本发明方法的优越性。

最后结合表3，图6、图7和图8，针对特定场景下测试集的识别结果计算词错误率，基于LSTM结构循环神经网络语言模型的增量词图重打分方法，比传统语音识别方法的识别准确率提高了近3.14％，在这些场景下得到比行业内大厂语音识别略优的准确度。

表3

综上所述，本发明一种基于增量词图重打分的语音识别方法及***，通过大量实验，展示了优于传统语音识别方法的性能，加快了解码速度，降低了延迟并提高了特定场景下的识别准确率，从实验证明了增量词图重打分的优越性。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于增量词图重打分的语音识别方法，其特征在于，包括以下步骤：

S2、由训练好的声学模型计算声学特征对应的似然概率；

2.根据权利要求1所述的基于增量词图重打分的语音识别方法，其特征在于，步骤S1中，对语音信号进行添加高斯白噪声，预加重，加窗等预处理工作；对预处理后的语音信号做快速傅里叶变换将时域信号转化为频域信号并获得功率谱；和一组三角滤波器点乘求梅尔能量得到对应维度的声学特征。

3.根据权利要求1所述的基于增量词图重打分的语音识别方法，其特征在于，步骤S2中，使用步骤S1计算得到的声学特征作为声学模型的输入，将中心帧的前后多帧语音特征一起输入声学模型，经过神经网络计算后得到中心语音帧对应的每一个发音单元的声学后验概率。

4.根据权利要求1所述的基于增量词图重打分的语音识别方法，其特征在于，步骤S3中，解码器通过维特比动态规划算法搜索解码图，结合步骤S2计算得到的声学代价以及解码图中的图代价构建解码网络，通过设置阈值剪枝路径约束网格大小；然后从解码网络中获取状态级别的词图并通过更新词图确定化得到新的词级别词图。

5.根据权利要求4所述的基于增量词图重打分的语音识别方法，其特征在于，具体步骤如下：

6.根据权利要求5所述的基于增量词图重打分的语音识别方法，其特征在于，步骤S302具体为：

S3023、把步骤S3024的新状态加入队列；

7.根据权利要求1所述的基于增量词图重打分的语音识别方法，其特征在于，步骤S4中，解码结束后得到增量生成的词级别词图；然后对解码网络对应的最后一部分状态级别词图进行确定化；最后将两部分词级别词图进行合并生成目标词图，完成最后一部分的增量词图生成。

8.根据权利要求1所述的基于增量词图重打分的语音识别方法，其特征在于，步骤S5中，将一遍解码词图和小语料训练得到的重打分语言模型通过有限状态转录机合并算法得到目标词图；通过基于蒙特卡洛法的重要性采样训练长短时记忆神经网络语言模型；记一遍解码词图为T₁，LSTM-RNN语言模型转化成的G.fst为T₂，T₁和T₂基于广度优先搜索合并算法生成目标词图T。

9.根据权利要求1所述的基于增量词图重打分的语音识别方法，其特征在于，步骤S6中，获取目标词图的最优代价路径词图；将词级别词图转化为状态级别词图得到最优状态序列；最后通过回溯寻找最优前驱节点的方式获得对应的最优词序列作为最终的识别结果。

10.一种基于增量词图重打分的语音识别***，其特征在于，根据权利要求1所述的方法，包括：

预处理模块，用于对有效的语音信号进行预处理；

识别模块，从目标词图中获取最终的识别结果。