CN115294974A

CN115294974A - 一种语音识别方法、装置、设备和存储介质

Info

Publication number: CN115294974A
Application number: CN202210753629.8A
Authority: CN
Inventors: 雪巍; 彭毅; 范璐
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-11-04
Also published as: WO2024001662A1

Abstract

本发明实施例公开了一种语音识别方法、装置、设备和存储介质，该方法包括：根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分和所述待识别语音对应的第二候选词；确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度；确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度；根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。上述技术方案，不增加成本的前提下，提升了语音识别的精确度。

Description

一种语音识别方法、装置、设备和存储介质

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及一种语音识别方法、装置、设备和存储介质。

背景技术

语音识别已经在智能客服、智能家居、车载助手等领域得到了广泛应用。语音识别***通常会受到环境或电话信道的噪声干扰影响，容易导致语音识别错误。例如，当噪声和语音片段时间不重合时，会产生语音识别***错误；当语音片段被噪声破坏时，会产生删除或修改错误。语音识别错误为后续语音交互带来了巨大挑战。

现有技术中，可以通过前端降噪模块处理待识别语音，以降低噪声对待识别语音特征的影响，进而基于语音识别模块对处理后的待识别语音进行识别，确定语音识别结果。

在实现本发明的过程中，发明人发现现有技术中至少存在以下技术问题：

需要对前端降噪模块和语音识别模块进行适配，增加了语音识别成本。

发明内容

本发明提供一种语音识别方法、装置、设备和存储介质，以实现降低语音识别的成本。

第一方面，本发明实施例提供了一种语音识别方法，包括：

根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分和所述待识别语音对应的第二候选词；

确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度；

确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度；

根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。

第二方面，本发明实施例还提供了一种语音识别装置，包括：

解码模块，用于根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分和所述待识别语音对应的第二候选词；

解码置信度确定模块，用于确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度；

噪声置信度确定模块，用于确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度；

执行模块，用于根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任一所述的语音识别方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的语音识别方法。

上述发明中的实施例具有如下优点或有益效果：

本发明实施例提供一种语音识别方法，包括：根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分和所述待识别语音对应的第二候选词；确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度；确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度；根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。上述技术方案，首先可以根据解码待识别语音得到的第一候选词确定待识别语音的解码输出得分，为确定综合置信度提供数据基础，根据第一候选词确定待识别语音对应的第二候选词，并在确定各第二候选词的解码特征后，根据各解码特征确定待识别语音更加精确的解码置信度，其次可以根据待识别语音所包含各语音帧的噪声置信度确定待识别语音的更加精确的帧级别的噪声置信度，进一步可以根据待识别语音的解码置信度、噪声置信度和解码输出得分确定待识别语音的综合置信度，结合待识别语音的片段级别的解码置信度、帧级别的噪声置信度和前述确定的解码输出得分确定更为精确的待识别语音的综合置信度，上述过程无需重新对解码待识别语音所采用的语音识别模型进行特定优化或者重新训练，得到了更为精确的待识别语音的综合置信度，因此，确定的语音识别结果也更加精确。实现不增加成本的前提下，提升语音识别的精确度。

附图说明

图1为本发明实施例提供的语音识别模块的示意图；

图2为本发明实施例提供的一种语音识别方法的流程图，；

图3为本发明实施例提供的一种语音识别方法中解码待识别语音得到的包含第一候选词的第一词图；

图4为本发明实施例提供的另一种语音识别方法的流程图；

图5为本发明实施例提供的另一种语音识别方法中第二预设网络模型的示意图；

图6为本发明实施例提供的一种语音识别***的示意图；

图7为本发明实施例提供的一种语音识别装置的结构示意图；

图8为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的语音识别模块的示意图，如图1所示，语音识别模块100可以包括语言模型110和声学模型120，语音识别模块100可以采用解码算法在识别过程中通过维特比搜索，得到最优序列，生成语音对应的解码输出，即语音对应的词图。由于噪声对语音的感染，容易导致语音识别错误。因此，本发明实施例提出了一种语音识别方法，在不增加成本的前提下，提升语音识别的精确度，降低语音识别的错误率。

下面将结合图1所述的语音识别模块以及实施例对本发明实施例提出的语音识别方法进行详细的描述。

图2为本发明实施例提供的一种语音识别方法的流程图，本发明实施例可适用于需要在不增加成本的前提下，提升语音识别精确度的情况。该方法可以由语音识别装置来执行，该装置可以由软件和/或硬件的方式来实现。如图2所述，该方法具体包括以下步骤：

步骤210、根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分和所述待识别语音对应的第二候选词。

如图1所示的包含有语言模型和声学模型的语音识别模块，可以用于对待语音进行解码，生成语音对应的第一候选词。因此，可以将待识别语音输入如图1所示的语音识别模块，以使语音识别模块对待识别语音进行解码，得到待识别语音对应的第一候选词。由于噪声的干扰，基于语音识别模块解码待识别语音得到的第一候选词错误率较高，需要进一步确定待识别语音是否包含语音。

待识别语音对应的第一候选词可以基于第一词图进行表示，第一词图是解码待识别语音的过程中各第一候选词和时间等信息的压缩表示，节点表示状态，节点括号中的数值表示该状态对应的时刻。从第一词图中初始状态到终止状态有不同的候选路径，候选路径上的数值表示第一候选词的打分，即第一候选词的后验概率。从第一词图中可以确定各候选路径的得分以及各候选路径中每个第一候选词的时间信息。图3为本发明实施例提供的一种语音识别方法中解码待识别语音得到的包含第一候选词的第一词图，如图3所示，例如，初始状态0到终止状态4，“北京”、“背景”、“动员”、“运动”、“***”和“会”为第一候选词，“北京”的后验概率为0.5、“背景”的后验概率为0.5、“动员”的后验概率为0.5、“运动”的后验概率为0.4、“***”的后验概率为0.2、“会”的后验概率为0.4，“冬奥会”所在边的两个端点值分别为6和20，表明6s-20s这个时间段对应的语音内容为“冬奥会”。

具体地，在基于语音识别模块解码待识别语音得到第一候选词后，一方面，首先可以确定各第一候选词的解码输出得分，并对各第一候选词的解码输出得分进行排序，其次可以对最大的三个解码输出得分进行归一化处理，进而可以将处理结果确定为待识别语音的解码输出得分；另一方面，还可以确定待识别语音对应的第二候选词，具体可以在第一词图上做以编辑距离为准则，基于最小贝叶斯风险的二次解码，得到待识别语音对应的第二候选词。

本发明实施例中，在基于语音识别模块对待识别语音进行解码得到第一候选词后，可以根据第一候选词确定待识别语音的解码输出得分，还可以对包含有各第一候选词的第一词图进行二次解码，得到第二候选词，第二候选词可以用于确定待识别语音的解码置信度，为确定待识别语音的解码置信度提供数据基础。

步骤220、确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度。

其中，解码特征包括第二候选词的置信度得分、词类别、概率分布、词长度和词图深度。

具体地，在确定各第二候选词的后验概率后，对各第二候选词的后验概率进行归一化处理，得到各第二候选词的置信度得分，第二候选词的置信度得分为第二候选词的一维特征。确定待识别语音的领域后，确定该领域内词的分类，且分类数量为N+1，将各第二候选词映射到任一N+1类，以基于N+1维特征表示第二候选词的词类别，第二候选词的词类别第二候选词的N+1维特征。根据第二候选词在待识别语音对应的所有第二候选词中的出现次数与待识别语音对应的第二候选词总量，确定第二候选词的概率分布，第二候选词的概率分布为第二候选词的一维特征。可以根据第二候选词包含音素的数量，确定第二候选词的词长度，第二候选词的词长度为第二候选词的一维特征。在包含有第二候选词的第二词图中，根据第二候选词对应时间段内所有节点的出边个数和时间段长度，确定第二候选词的词图深度，第二候选词的词图深度为第二候选词的一维特征。

因此，可以确定第二候选词的解码特征为N+5维特征，将各第二候选词对应的N+5维解码特征分别输入预先训练好的解码置信度模型中，得到各第二候选词的解码置信度，进而可以确定各第二候选词的解码置信度的算术平均值，将该算术平均值确定为待识别语音的解码置信度。

待识别语音的解码置信度反映了语音识别结果的可靠程度，一般而言，待识别语音的解码置信度的取值范围为0-1，越接近1表示语音识别结果越可靠。

本发明实施例中，在基于包含有第一候选词的第一词图进行二次解码得到包含有第二候选词的第二词图之后，可以根据第二词图确定各第二候选词的解码特征，并根据解码特征确定第二候选词的解码置信度，进而可以根据各第二候选词的解码置信度确定待识别语音的解码置信度，待识别语音的解码置信度可以表明语音识别结果的可靠程度，为确定语音识别结果提供数据基础。

步骤230、确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度。

在待识别语音的噪声置信度之前，可以对待识别语音进行分帧，得到语音帧。其中，每帧语音帧的帧长为25毫秒，帧移为10毫秒。

具体地，首先可以提取各语音帧的梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients，MFCC)，将语音帧的MFCC输入预先训练好的噪声置信度模型中，得到该语音帧包含语音的概率p(t)，以及该语音帧不包含语音的概率为1-p(t)，进而确定该语音帧的噪声置信度为1-p(t)。在确定待识别语音所包含各语音帧的噪声置信度后，确定最大噪声置信度、最小噪声置信度、噪声置信度均值和噪声置信度方差，并将待识别语音所包含各语音帧的噪声置信度中的最大噪声置信度和最小噪声置信度，以及噪声置信度均值和噪声置信度方差确定为待识别语音的噪声置信度。

本发明实施例中，基于待识别语音所包含各语音帧的帧级别的噪声置信度可以确定待识别语音的片段级别的噪声置信度。

步骤240、根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。

具体地，将待识别语音的解码置信度、噪声置信度和解码输出得分作为待识别语音的识别特征输入预先训练好的识别模型中，得到的输出结果为待识别语音的综合置信度。该综合置信度融合了待识别语音的片段级别的解码置信度、根据帧级别的噪声置信度确定的待识别语音的片段级别的噪声置信度以及待识别语音的解码输出得分。根据综合置信度可以确定是否为有效识别结果以及是否包含语音的语音识别结果。

本发明实施例中，根据综合置信度可以确定待识别语音包含语音的概率和不包含语音的概率，进而根据待识别语音包含语音的概率确定语音识别结果。有效解决噪声导致的语音识别***错误问题，无需重新对语音识别模块进行特定优化和重新训练，从而可以适配不同语音识别模块。

本发明实施例提供的一种语音识别方法，包括：根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分和所述待识别语音对应的第二候选词；确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度；确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度；根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。上述技术方案，首先可以根据解码待识别语音得到的第一候选词确定待识别语音的解码输出得分，为确定综合置信度提供数据基础，根据第一候选词确定待识别语音对应的第二候选词，并在确定各第二候选词的解码特征后，根据各解码特征确定待识别语音更加精确的解码置信度，其次可以根据待识别语音所包含各语音帧的噪声置信度确定待识别语音的更加精确的帧级别的噪声置信度，进一步可以根据待识别语音的解码置信度、噪声置信度和解码输出得分确定待识别语音的综合置信度，结合待识别语音的片段级别的解码置信度、帧级别的噪声置信度和前述确定的解码输出得分确定更为精确的待识别语音的综合置信度，上述过程无需重新对解码待识别语音所采用的语音识别模型进行特定优化或者重新训练，得到了更为精确的待识别语音的综合置信度，因此，确定的语音识别结果也更加精确。实现不增加成本的前提下，提升语音识别的精确度。

图4为本发明实施例提供的另一种语音识别方法的流程图，本发明实施例可适用于需要在不增加成本的前提下，提升语音识别精确度的情况。本发明实施例与上述各实施例相同或相应的术语的解释在此不再赘述。参见图4，本发明实施例提供的语音识别方法包括：

步骤410、根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分。

一种实施方式中，步骤410具体可以包括：

基于由语言模型和声学模型构成的语音识别模块对所述待识别语音进行一次解码，得到所述第一候选词；确定各所述第一候选词的语言得分和声学得分，根据各所述第一候选词的语言得分和声学得分确定所述待识别语音的所述解码输出得分。

具体地，包含语言模型和声学模型的语音识别模块可以用于对待识别语音进行一次解码，一次解码可以得到待识别语音对应的第一候选词，进而可以确定各第一候选词的语言得分和声学得分，融合语言得分和声学得分后，得到各第一候选词的解码输出得分。确定各第一候选词的解码输出得分后，可以对各第一候选词的解码输出得分进行排序，并对最大的三个解码输出得分进行归一化处理，将处理结果确定为待识别语音的解码输出得分。

本发明实施例中，在基于语音识别模块对待识别语音进行解码得到第一候选词后，可以根据第一候选词确定待识别语音的解码输出得分，为确定待识别语音的综合置信度提供数据基础。

步骤420、根据解码待识别语音得到的第一候选词，确定所述待识别语音对应的第二候选词。

一种实施方式中，步骤420具体可以包括：

基于由语言模型和声学模型构成的语音识别模块对所述待识别语音进行一次解码，得到包含有所述第一候选词的第一词图；在所述第一词图上，以编辑距离为准则，基于最小贝叶斯风险进行二次解码，得到所述待识别语音对应的所述第二候选词以及各所述第二候选词的后验概率。

具体地，包含语言模型和声学模型的语音识别模块对待识别语音进行一次解码得到待识别语音对应的第一候选词后，还可以根据第一候选词确定第一词图，并在第一词图上做以编辑距离为准则，基于最小贝叶斯风险的二次解码，得到待识别语音对应的第二候选词。

在第一词图上进行二次解码的过程如下，1)从第一词图中任选一条从初始状态到终止状态的候选路径；2)以该候选路径为基准，计算该候选路径和整个第一词图的编辑距离(编辑距离可以为把一个文本变成另一个文本的最小***、删除、替换次数)，通过编辑距离，得到该候选路径中每个第一候选词对应时间段的所有第一候选词的后验概率；3)选择每个时刻概率最高的词，得到新的词序列，即第二候选词；4)若第二候选词和2)中候选路径对应的第一候选词不同，则返回执行2)，否则，确定二次解码结束，将包含有各第二候选词的词序列确定为二次解码结果。另外，包含有各第二候选词的词序列中每个第二候选词所在时间段都有该时间段所有第二候选词的后验概率。

本发明实施例中，在基于语音识别模块对待识别语音进行解码得到第一候选词后，可以根据第一候选词确定待识别语音的第二候选词，为确定待识别语音的解码置信度提供数据基础。

步骤430、确定各所述第二候选词的解码特征。

其中，所述解码特征包括所述第二候选词的置信度得分、词类别、概率分布、词长度和词图深度。

一种实施方式中，步骤430具体可以包括：

对各所述第二候选词的后验概率进行归一化处理，得到各所述第二候选词的置信度得分；根据各所述第二候选词的类别信息，确定各所述第二候选词的词类别；根据各所述第二候选词在所述待识别语音对应的所有第二候选词中的出现次数，确定各所述第二候选词的概率分布；根据各所述第二候选词包含音素的数量，确定各所述第二候选词的词长度；在对所述第一候选词进行二次解码得到的第二词图中，根据各所述第二候选词对应时间段内所有节点的出边个数和时间段长度，确定各所述第二候选词的所述词图深度。

具体地，在第一词图上进行二次解码得到第二候选词时，可以生成包含有个第二候选词的第二词图，第二词图同样包含有各第二候选词的后验概率，因此，对各第二候选词的后验概率进行归一化处理后，得到各第二候选词的置信度得分，第二候选词的置信度得分可以确定为第二候选词的一维特征。词类别可以表明第二候选词的类别信息，首先可以确定待识别语音的领域以及该领域内词的分类，并根据各类词的词频对该领域内词的类别进行排序，将前N类的词分别单独作为一类，共N类，将其他类的词统一作为一个特殊的类，因此，可以将领域内词的分为N+1类，各第二候选词均可映射到任一N+1类，因此，可以基于N+1维特征表示第二候选词的词类别。例如，将待识别语音领域内的词分为N+1＝3+1＝4类时，可以确定第二候选词的词类别为：(1,0,0,0)、(0,1,0,0)、(0,0,1,0)或者(0,0,0,1)。概率分布可以表明第二候选词在待识别语音对应的所有第二候选词中的出现次数，因此可以根据第二候选词在待识别语音对应的所有第二候选词中的出现次数与待识别语音对应的第二候选词总量，确定第二候选词的概率分布，即第二候选词的unigram概率，第二候选词的概率分布可以确定为第二候选词的一维特征。词长度可以表明第二候选词包含的音素个数，因此可以根据第二候选词包含音素的数量，确定第二候选词的词长度，第二候选词的词长度可以确定为第二候选词的一维特征。词图深度可以表明第二候选词对应时间段的平均词图深度，因此可以在包含有第二候选词的第二词图中，根据第二候选词对应时间段内所有节点的出边个数和时间段长度，确定第二候选词的词图深度，即平均lattice深度，第二候选词的词图深度可以确定为第二候选词的一维特征。

因此，可以确定第二候选词的解码特征为N+5维特征，如前所述，N+1＝3+1＝4时，可以确定第二候选词的解码特征为八维特征。

本发明实施例中，可以确定二次解码得到的各第二候选词N+5维解码特征，第二候选词的解码特征用于确定待识别语音的解码置信度，为确定待识别语音的解码置信度提供数据基础。

步骤440、根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度。

一种实施方式中，步骤440具体可以包括：

将各所述第二候选词的解码特征分别输入预先训练好的解码置信度模型中，得到各所述第二候选词的解码置信度；根据各所述第二候选词的解码置信度确定所述待识别语音的解码置信度。

在将各所述第二候选词的解码特征分别输入预先训练好的解码置信度模型之前，还包括：

基于深度神经网络和交叉熵函数构建第一预设网络模型，并将标注后包含噪音和有效语音的语音数据对应的第二候选词的N+5维解码特征以及语音数据的标注信息作为第一训练数据，对第一预设网络模型进行网络训练，并计算第一损失函数；基于反向传播算法进行网络优化，直至第一损失函数收敛，得到解码置信度模型。

其中，第一损失函数可以为交叉熵函数。

具体地，基于深度神经网络和交叉熵函数构建第一预设网络模型后，对含有噪音和有效语音的语音数据进行标注，将噪音标注为0，有效语音标注为1，将标注后包含噪音和有效语音的语音数据确定为第一训练语音集。基于语音识别模块对第一训练语音集所包含的各训练语音进行一次解码得到训练语音对应的第一训练候选词后，进一步对其进行二次解码得到训练语音对应的第二训练候选词，基于前述步骤430的方式确定各第二训练候选词的N+5维解码特征。将训练语音集所包含的各训练语音对应的各第二候选词的N+5维解码特征以及该训练语音的标注信息作为训练数据，对第一预设网络模型进行网络训练，并根据第一预设网络模型输出的表示第二候选词的置信度打分的sigmoid激活函数值和该训练语音的标注信息计算交叉熵函数；基于反向传播算法进行网络优化，直至交叉熵函数收敛，得到解码置信度模型。

进而可以将各第二候选词的解码特征分别输入解码置信度模型中，得到的输出结果为各第二候选词的解码置信度，确定待识别语音对应的各第二候选词的解码置信度的算术平均值，并将该算术平均值确定为待识别语音的解码置信度。

本发明实施例中，基于解码置信度模型可以确定待识别语音对应的各第二候选词的解码置信度，进而可以根据各第二候选词的解码置信度确定待识别语音的解码置信度，待识别语音的解码置信度可以表明语音识别结果的可靠程度，为确定语音识别结果提供数据基础。

步骤450、确定所述待识别语音所包含各语音帧的噪声置信度。

一种实施方式中，步骤450具体可以包括：

对所述待识别语音进行分帧，得到所述待识别语音所包含的语音帧；确定各所述语音帧的梅尔倒谱系数，并将各所述语音帧的梅尔倒谱系数分别输入预先训练好的噪声置信度模型中，得到各所述语音帧的噪声置信度。

在将各所述语音帧的梅尔倒谱系数分别输入预先训练好的噪声置信度模型之前，还包括：

基于门控循环单元(Gate Recurrent Unit，GRU)构建第二预设网络模型，并将包含纯净噪声和纯净语音的训练语音构成的第二训练语音集中各训练语音对应的帧训练语音的梅尔倒谱系数以及各帧训练语音的标注信息作为第二训练数据，对第二预设网络模型进行网络训练，并计算第二损失函数；基于随机梯度下降迭代第二预设网络模型的权重，直至第二损失函数收敛，得到噪声置信度模型。

其中，第二损失函数也可以为交叉熵函数。

图5为本发明实施例提供的另一种语音识别方法中第二预设网络模型的示意图，如图5所示，第二预设网络模型包括第一全连接层(fully connected layers，FC)、第一GRU、第二GRU、第三GRU和第二FC。

具体地，基于GRU构建第二预设网络模型后，收集纯净噪声和纯净语音，随机将纯净噪声以预设信噪比添加至纯净语音得到训练语音，将预设数量的训练语音确定为第二训练语音集，以25毫秒的帧长、10毫秒的帧移对第二训练语音集所包含的各训练语音进行分帧，得到训练语音对应的帧训练语音，对于各帧训练语音，当音素为非静音时，将其标注为1，否则，将其标注为0。进而，将第二训练语音集中各训练语音对应的帧训练语音的梅尔倒谱系数以及各帧训练语音的标注信息作为第二训练数据，对第二预设网络模型进行网络训练。具体而言，可以将L帧帧训练语音的梅尔倒谱系数作为训练序列，输入第二预设网络模型，各帧训练语音对应的输出结果为维度为2的向量，其中一维表示当前帧包含语音的概率，另一维表示当前帧不包含语音的概率。将L帧帧训练语音的标注信息作为目标序列，对第二预设网络模型进行网络训练，并计算交叉熵函数；基于随机梯度下降迭代第二预设网络模型的权重，直至第二损失函数收敛，得到噪声置信度模型。

进而可以以25毫秒的帧长、10毫秒的帧移对待识别语音进行分帧，得到待识别语音所包含的语音帧，确定各语音帧的梅尔倒谱系数，并将语音帧的梅尔倒谱系数输入噪声置信度模型中，得到的输出结果为语音帧包含语音的概率p(t)，不包含语音的概率为1-p(t)，进而确定语音帧的噪声置信度为1-p(t)。

本发明实施例中，基于噪声置信度模型可以确定待识别语音所包含各语音帧的噪声置信度，各语音帧的噪声置信度用于确定待识别语音的噪声置信度，待识别语音的噪声置信度进一步可以用于确定待识别语音的综合置信度，为确定语音识别结果提供数据基础。

步骤460、根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度。

一种实施方式中，步骤460具体可以包括：

根据所述待识别语音所包含的各所述语音帧的噪声置信度中的最大噪声置信度、最小噪声置信度、噪声置信度均值和噪声置信度方差，确定所述待识别语音的噪声置信度。

具体地，在确定待识别语音所包含各语音帧的噪声置信度后，可以对各帧语音的噪声置信度进行排序，计算均值和方差，将待识别语音所包含各语音帧的噪声置信度中的最大噪声置信度、最小噪声置信度、噪声置信度均值和噪声置信度方差确定为待识别语音的噪声置信度。

步骤470、根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度。

一种实施方式中，步骤470具体可以包括：

将所述待识别语音的解码置信度、噪声置信度和解码输出得分输入预先训练好的语音识别模型中，得到所述待识别语音的综合置信度。

在将所述待识别语音的解码置信度、噪声置信度和解码输出得分输入预先训练好的语音识别模型之前，还包括：

基于逻辑回归器构建第三预设网络模型，并将包含噪声的语音构建的第三训练语音集中各训练语音对应的解码置信度、噪声置信度、解码输出得分以及各训练语音的标注信息作为第三训练数据，对第三预设网络模型进行网络训练，并计算第三损失函数；基于反向传播算法进行网络优化，直至第三损失函数收敛，得到语音识别模型。

进而可以将待识别语音的解码置信度、噪声置信度和解码输出得分输入语音识别模型中，得到的输出结果为待识别语音的综合置信度。

本发明实施例中，融合待识别语音的片段级别解码置信度、帧级别噪声置信度以及解码输出得分输入，以确定待识别语音的综合置信度。

步骤480、根据所述综合置信度确定语音识别结果。

其中，综合置信度包括待识别语音包含语音的概率和待识别语音不包含语音的概率。

一种实施方式中，步骤480具体可以包括：

如果所述待识别语音包含语音的概率大于或者等于第一预设阈值，则确定所述语音识别结果为所述待识别语音包含语音；如果所述待识别语音包含语音的概率大于或者等于第二预设阈值，且小于所述第一预设阈值，则确定所述语音识别结果为所述待识别语音不包含语音；如果所述待识别语音包含语音的概率小于所述第二预设阈值，则确定语音识别错误，或者优化所述待识别语音得到优化语音，并基于所述优化语音重新进行语音识别。

其中，第一预设阈值大于第二预设阈值，且第一预设阈值和第二预设阈值均小于1。

具体地，基于语音识别模型确定待识别语音的综合置信度后，首先可以比较待识别语音包含语音的概率和第二预设阈值。

一方面，如果待识别语音包含语音的概率大于或者等于第二预设阈值，则可以根据该待识别语音包含语音的概率确定语音识别结果，即可以采用语音识别模块的解码结果。进而继续比较待识别语音包含语音的概率和第一预设阈值，如果待识别语音包含语音的概率大于或者等于第一预设阈值，则确定语音识别结果为待识别语音包含语音；如果待识别语音包含语音的概率小于第一预设阈值，则确定语音识别结果为待识别语音不包含语音。

另一方面，如果待识别语音包含语音的概率小于第二预设阈值，则无法根据该待识别语音包含语音的概率确定语音识别结果，可以不采用语音识别模块对于待识别语音的解码结果，进而可以确定语音识别错误，或者，可以优化待识别语音得到优化语音，并基于优化语音重新进行语音识别。

一种实施方式中，优化所述待识别语音得到优化语音，包括：

将所述待识别语音中噪声置信度大于预设置信度的所述语音帧置为静音，得到所述优化语音。

具体地，比较待识别语音所包含各语音帧的噪声置信度和预设置信度，如果任一语音帧的噪声置信度大于预设置信度，则将该语音帧的噪声置信度置为0，实现对待识别语音的优化，得到优化语音。将待识别语音所包含各语音帧噪声置信度大于预设置信度的语音帧置为静音，实现对待识别语音的降噪，进而基于降噪得到的优化语音继续进行语音识别，可以提升语音识别的精确度。

本发明实施例中，可以根据综合置信度确定待识别语音包含语音或者不包含语音，还可以不采用语音识别模块对于待识别语音的解码结果，进而确定语音识别错误，或者，对待识别语音进行降噪以优化待识别语音得到优化语音后，继续基于语音识别模块对优化语音进行解码，以语音识别结果。

本发明实施例提供的语音识别方法包括：根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分；根据解码待识别语音得到的第一候选词，确定所述待识别语音对应的第二候选词；确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度；确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度；根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。上述技术方案，首先可以根据解码待识别语音得到的第一候选词确定待识别语音的解码输出得分，为确定综合置信度提供数据基础，根据第一候选词确定待识别语音对应的第二候选词，并在确定各第二候选词的解码特征后，根据各解码特征确定待识别语音更加精确的解码置信度，其次可以根据待识别语音所包含各语音帧的噪声置信度确定待识别语音的更加精确的帧级别的噪声置信度，进一步可以根据待识别语音的解码置信度、噪声置信度和解码输出得分确定待识别语音的综合置信度，结合待识别语音的片段级别的解码置信度、帧级别的噪声置信度和前述确定的解码输出得分确定更为精确的待识别语音的综合置信度，上述过程无需重新对解码待识别语音所采用的语音识别模型进行特定优化或者重新训练，得到了更为精确的待识别语音的综合置信度，因此，确定的语音识别结果也更加精确。实现不增加成本的前提下，提升语音识别的精确度。

另外，在根据综合置信度确定不采用语音识别模块对于待识别语音的解码结果后，可以确定语音识别错误，或者，可以对待识别语音进行降噪以优化待识别语音得到优化语音后，继续基于语音识别模块对优化语音进行解码，以得到语音识别结果。

图6为本发明实施例提供的一种语音识别***的示意图，如图6所示，该语音识别***可以包括，语音识别模块100、解码置信度模块200、噪声置信度模块300、结果确定模块400和处理模块500，其中，语音识别模块100，用于对待识别语音进行一次解码，以确定待识别语音的第一候选词，以及包含第一候选词的第一词图；解码置信度模块200，用于根据第一候选词确定待识别语音的解码输出得分和待识别语音对应的第二候选词，并在确定各第二候选词的解码特征后，根据各第二候选词的解码特征确定待识别语音的解码置信度；噪声置信度模块300，用于确定待识别语音所包含各语音帧的噪声置信度，并根据各语音帧的噪声置信度确定待识别语音的噪声置信度；结果确定模块400，用于根据待识别语音的解码置信度、噪声置信度和解码输出得分，确定待识别语音的综合置信度；处理模块500，用于根据综合置信度确定语音识别结果，具体用于在确定待识别语音包含语音的概率大于或者等于第一预设阈值时，确定语音识别结果为待识别语音包含语音；在确定待识别语音包含语音的概率大于或者等于第二预设阈值，且小于第一预设阈值时，确定语音识别结果为待识别语音不包含语音；在确定待识别语音包含语音的概率小于第二预设阈值时，确定语音识别错误，或者，优化待识别语音得到优化语音，并基于优化语音重新进行语音识别。

本发明实施例所提供的语音识别***可执行本发明任意实施例所提供的语音识别方法，具备执行语音识别方法相应的功能模块和有益效果。

图7为本发明实施例提供的一种语音识别装置的结构示意图。该装置与上述各实施例的语音识别方法属于同一个发明构思，在语音识别装置的实施例中未详尽描述的细节内容，可以参考上述语音识别方法的实施例。

该语音识别装置的具体结构如图7所示，包括：

解码模块710，用于根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分和所述待识别语音对应的第二候选词；

解码置信度确定模块720，用于确定各所述第二候选词的解码特征，并根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度；

噪声置信度确定模块730，用于确定所述待识别语音所包含各语音帧的噪声置信度，并根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度；

执行模块740，用于根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，并根据所述综合置信度确定语音识别结果。

在上述实施例的基础上，解码模块710，具体用于：

基于由语言模型和声学模型构成的语音识别模块对所述待识别语音进行一次解码，得到包含有所述第一候选词的第一词图；

确定各所述第一候选词的语言得分和声学得分，根据各所述第一候选词的语言得分和声学得分确定所述待识别语音的所述解码输出得分；

在所述第一词图上，以编辑距离为准则，基于最小贝叶斯风险进行二次解码，得到所述待识别语音对应的所述第二候选词以及各所述第二候选词的后验概率。

在上述实施例的基础上，其所述解码特征包括所述第二候选词的置信度得分、词类别、概率分布、词长度和词图深度，相应地，解码置信度确定模块720，具体用于：

对各所述第二候选词的后验概率进行归一化处理，得到各所述第二候选词的置信度得分；根据各所述第二候选词的类别信息，确定各所述第二候选词的词类别；根据各所述第二候选词在所述待识别语音对应的所有第二候选词中的出现次数，确定各所述第二候选词的概率分布；根据各所述第二候选词包含音素的数量，确定各所述第二候选词的词长度；在对所述第一候选词进行二次解码得到的第二词图中，根据各所述第二候选词对应时间段内所有节点的出边个数和时间段长度，确定各所述第二候选词的所述词图深度；

将各所述第二候选词的解码特征分别输入预先训练好的解码置信度模型中，得到各所述第二候选词的解码置信度；

根据各所述第二候选词的解码置信度确定所述待识别语音的解码置信度。

在上述实施例的基础上，噪声置信度确定模块730，具体用于：

对所述待识别语音进行分帧，得到所述待识别语音所包含的语音帧；

确定各所述语音帧的梅尔倒谱系数，并将各所述语音帧的梅尔倒谱系数分别输入预先训练好的噪声置信度模型中，得到各所述语音帧的噪声置信度；

在上述实施例的基础上，执行模块740，具体用于：

将所述待识别语音的解码置信度、噪声置信度和解码输出得分输入预先训练好的语音识别模型中，得到所述待识别语音的综合置信度；

根据所述综合置信度确定语音识别结果。

一种实施方式中，所述综合置信度包括所述待识别语音包含语音的概率，相应地，根据所述综合置信度确定语音识别结果，包括：

如果所述待识别语音包含语音的概率大于或者等于第一预设阈值，则确定所述语音识别结果为所述待识别语音包含语音；

如果所述待识别语音包含语音的概率大于或者等于第二预设阈值，且小于所述第一预设阈值，则确定所述语音识别结果为所述待识别语音不包含语音；

如果所述待识别语音包含语音的概率小于所述第二预设阈值，则确定语音识别错误，或者优化所述待识别语音得到优化语音，并基于所述优化语音重新进行语音识别。

进一步地，优化所述待识别语音得到优化语音，包括：

本发明实施例所提供的语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行语音识别方法相应的功能模块和有益效果。

值得注意的是，上述语音识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图8为本发明实施例提供的一种计算机设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性计算机设备8的框图。图8显示的计算机设备8仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备8以通用计算计算机设备的形式表现。计算机设备8的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机设备8典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备8访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备8可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。***存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如***存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备8也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备8交互的设备通信，和/或与使得该计算机设备8能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备8还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器20通过总线18与计算机设备8的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机设备8使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及页面显示，例如实现本发实施例所提供的语音识别方法，该方法包括：

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的语音识别方法的技术方案。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现例如本发实施例所提供的语音识别方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

另外，本发明技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，根据解码待识别语音得到的第一候选词，确定所述待识别语音的解码输出得分，包括：

基于由语言模型和声学模型构成的语音识别模块对所述待识别语音进行一次解码，得到所述第一候选词；

确定各所述第一候选词的语言得分和声学得分，根据各所述第一候选词的语言得分和声学得分确定所述待识别语音的所述解码输出得分。

3.根据权利要求1所述的语音识别方法，其特征在于，根据解码待识别语音得到的第一候选词，确定所述待识别语音对应的第二候选词，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述解码特征包括所述第二候选词的置信度得分、词类别、概率分布、词长度和词图深度，相应地，确定各所述第二候选词的解码特征，包括：

对各所述第二候选词的后验概率进行归一化处理，得到各所述第二候选词的置信度得分；

根据各所述第二候选词的类别信息，确定各所述第二候选词的词类别；

根据各所述第二候选词在所述待识别语音对应的所有第二候选词中的出现次数，确定各所述第二候选词的概率分布；

根据各所述第二候选词包含音素的数量，确定各所述第二候选词的词长度；

在对所述第一候选词进行二次解码得到的第二词图中，根据各所述第二候选词对应时间段内所有节点的出边个数和时间段长度，确定各所述第二候选词的所述词图深度。

5.根据权利要求1所述的语音识别方法，其特征在于，根据各所述第二候选词的解码特征确定所述待识别语音的解码置信度，包括：

6.根据权利要求1所述的语音识别方法，其特征在于，确定所述待识别语音所包含各语音帧的噪声置信度，包括：

确定各所述语音帧的梅尔倒谱系数，并将各所述语音帧的梅尔倒谱系数分别输入预先训练好的噪声置信度模型中，得到各所述语音帧的噪声置信度。

7.根据权利要求1所述的语音识别方法，其特征在于，根据各所述语音帧的噪声置信度确定所述待识别语音的噪声置信度，包括：

8.根据权利要求1所述的语音识别方法，其特征在于，根据所述待识别语音的解码置信度、噪声置信度和解码输出得分，确定所述待识别语音的综合置信度，包括：

9.根据权利要求1所述的语音识别方法，其特征在于，所述综合置信度包括所述待识别语音包含语音的概率，相应地，根据所述综合置信度确定语音识别结果，包括：

如果所述待识别语音包含语音的概率小于所述第二预设阈值，则确定语音识别错误，或者，优化所述待识别语音得到优化语音，并基于所述优化语音重新进行语音识别。

10.根据权利要求9所述的语音识别方法，其特征在于，优化所述待识别语音得到优化语音，包括：

11.一种语音识别装置，其特征在于，包括：

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的语音识别方法。

13.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的语音识别方法。