CN113889083A

CN113889083A - 语音识别方法及装置、存储介质、电子设备

Info

Publication number: CN113889083A
Application number: CN202111293807.5A
Authority: CN
Inventors: 邓迪; 刘永福; 熊清亮
Original assignee: Guangzhou Boguan Information Technology Co Ltd
Current assignee: Guangzhou Boguan Information Technology Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-01-04
Anticipated expiration: 2041-11-03
Also published as: CN113889083B

Abstract

本公开属于人工智能技术领域，涉及一种语音识别方法及装置、存储介质、电子设备。该方法包括：获取待识别语音数据的待匹配音素候选集；利用标准音素候选集对待匹配音素候选集进行匹配处理得到音素匹配结果，其中，标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到；确定与音素匹配结果对应的音素匹配算子，并利用音素匹配算子对音素匹配结果进行口令匹配识别得到待识别语音数据的语音识别结果。本公开避免了语音识别过程中对大量样本进行训练带来的资源消耗问题和时间成本问题，满足了语音识别场景中快速迭代的要求，降低了用户的语音输入要求，优化了用户在使用该语音识别方法的场景下的娱乐体验。

Description

语音识别方法及装置、存储介质、电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语音识别方法与语音识别装置、计算机可读存储介质及电子设备。

背景技术

语音作为语言的声学表现，是人类交流信息最自然、最有效和最方便的手段之一。近年来，随着人工智能技术的发展，语音识别技术也取得了巨大的进展。因此，人们在输入语音的时候除了明确语言的输入之外，还会输入例如咒语等不明确语言。

通常，语音识别技术可以直接搭建对应的语音识别***，使其输出与样本音频对应的文字符号。但是，这种语音识别方式无法对咒语等不明确语言进行口令识别，并且，如果直接使用语言识别***匹配口令，需要大量样本对一个口令进行学习，更不用提在口令较多的情况下会造成极大的资源消耗，也使得口令的添加速度变慢，语音识别效果不佳。

鉴于此，本领域亟需开发一种新的语音识别方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种语音识别方法、语音识别装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的语音识别效果不佳的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种语音识别方法，所述方法包括：

获取待识别语音数据的待匹配音素候选集；

利用标准音素候选集对所述待匹配音素候选集进行匹配处理得到音素匹配结果，其中，所述标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到；

确定与所述音素匹配结果对应的音素匹配算子，并利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的语音识别结果。

在本发明的一种示例性实施例中，所述对预先获取的口令语音数据进行音素预测处理，包括：

若所述口令语音数据有多个，对多个所述口令语音数据进行音素预测处理得到多个单帧音素以及所述多个单帧音素的多个概率分布；

对所述多个概率分布进行概率分布计算得到分布计算结果，并利用所述分布计算结果在所述多个单帧音素中确定标准音素候选集。

在本发明的一种示例性实施例中，所述对所述多个概率分布进行概率分布计算得到分布计算结果，包括：

获取所述多个单帧音素的多个序列长度，并对所述多个序列长度进行比较得到长度比较结果；

按照所述长度比较结果从所述多个单帧音素中确定目标单帧音素，并对与所述目标单帧音素对应的多个概率分布进行概率分布计算得到分布计算结果。

在本发明的一种示例性实施例中，所述对多个所述口令语音数据进行音素预测处理得到多个单帧音素以及所述多个单帧音素的多个概率分布，包括：

对所述口令语音数据进行多重提取处理得到语音数据特征，并对所述语音数据特征进行特征卷积处理得到卷积音频特征；

对所述卷积音频特征进行特征融合处理得到高阶音频特征，并对所述高阶音频特征进行特征线性化得到多个单帧音素以及所述多个单帧音素的多个概率分布。

在本发明的一种示例性实施例中，所述对所述语音数据特征进行特征卷积处理得到卷积音频特征，包括：

对所述语音数据特征进行特征变换处理得到高维语音特征；

对所述高维语音特征进行降采样处理得到卷积音频特征。

在本发明的一种示例性实施例中，所述对所述高阶音频特征进行特征线性化得到多个单帧音素以及所述多个单帧音素的多个概率分布，包括：

对所述高阶音频特征进行特征线性化得到多个概率分布，并对所述多个概率分布进行分布损失计算得到分布损失值；

获取与所述分布损失值对应的损失阈值，并对所述分布损失值和所述损失阈值进行损失更新判断得到损失更新结果；

若所述损失更新结果为所述分布损失值小于所述损失阈值，对所述多个概率分布进行音素提取处理得到多个单帧音素。

在本发明的一种示例性实施例中，所述对所述多个概率分布进行音素提取处理得到多个单帧音素，包括：

对所述多个概率分布进行音素提取处理得到多个初始音素，并对所述多个初始音素进行静音符判定得到静音判定结果；

根据所述静音判定结果对所述多个初始音素进行静音剔除处理得到多个单帧音素。

在本发明的一种示例性实施例中，所述利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的语音识别结果，包括：

利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的初始识别结果；

获取所述标准音素候选集的实际顺序、标准顺序和序列长度，并利用所述实际顺序、所述标准顺序和所述序列长度对所述初始识别结果进行容错匹配处理得到所述待识别语音数据的语音识别结果。

在本发明的一种示例性实施例中，所述利用所述实际顺序、所述标准顺序和所述序列长度对所述初始识别结果进行容错匹配处理得到所述待识别语音数据的语音识别结果，包括：

对所述实际顺序的标准音素候选集和所述标准顺序的标准音素候选集进行顺序距离计算得到误差距离；

确定与所述误差距离和所述序列长度对应的容错匹配算子，并获取与所述容错匹配算子对应的容错阈值；

对所述容错匹配算子和所述容错阈值进行算子比较得到所述待识别语音数据的语音识别结果。

在本发明的一种示例性实施例中，所述获取待识别语音数据的待匹配音素候选集，包括：

获取待识别语音数据的多个待识别音素，并获取与所述待识别语音数据对应的口令语音数据的标准音素候选集中的音素个数；

按照所述音素个数在所述多个待识别音素中确定多个有声音素，并对所述多个有声音素进行静音判定处理得到识别判定结果；

根据所述识别判定结果对所述多个有声音素进行剔除补充处理得到待匹配音素候选集。

根据本发明实施例的第二个方面，提供一种语音识别装置，包括：

数据获取模块，被配置为获取待识别语音数据的待匹配音素候选集；

顺序匹配模块，被配置为利用所述标准音素候选集对所述待匹配音素候选集进行匹配处理得到音素匹配结果，其中，所述标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到；

语音识别模块，被配置为确定与所述音素匹配结果对应的音素匹配算子，并利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的语音识别结果。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中的语音识别方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的语音识别方法。

由上述技术方案可知，本公开示例性实施例中的语音识别方法、语音识别装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，通过音素预测处理得到标准音素候选集作为识别待识别语音数据的数据标准，避免了以往语音识别过程中对大量样本进行训练带来的资源消耗问题和时间成本问题，为短时间得到语音识别结果提供了数据基础和支持，也满足了语音识别场景中快速迭代的要求。进一步的，利用音素匹配算子对音素匹配结果进行口令匹配识别得到对应的语音识别结果，提升了语音识别的准确度和泛化性，也降低了用户的语音输入要求，丰富了用户语音输入的可能性，优化了用户的语音识别体验，也进一步优化了用户在使用该语音识别方法的游戏、动漫或其他场景下的娱乐体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种语音识别方法的流程示意图；

图2示意性示出本公开示例性实施例中获取待匹配音素候选集的方法的流程示意图；

图3示意性示出本公开示例性实施例中音素预测处理的方法的流程示意图；

图4示意性示出本公开示例性实施例中进一步进行音频预测处理的方法的流程示意图；

图5示意性示出本公开示例性实施例中特征卷积处理的方法的流程示意图；

图6示意性示出本公开示例性实施例中特征线性化的方法的流程示意图；

图7示意性示出本公开示例性实施例中音素提取处理的方法的流程示意图；

图8示意性示出本公开示例性实施例中概率分布计算的方法的流程示意图；

图9示意性示出本公开示例性实施例中口令匹配处理的方法的流程示意图；

图10示意性示出本公开示例性实施例中容错匹配处理的方法的流程示意图；

图11示意性示出本公开示例性实施例中应用场景下实现音素预测处理的语音识别模型的流程示意图；

图12示意性示出本公开示例性实施例中应用场景下语音识别模型的结构示意图；

图13示意性示出本公开示例性实施例中应用场景下得到标准候选集的方法的流程示意图；

图14示意性示出本公开示例性实施例中应用场景下口令匹配识别的方法的流程示意图；

图15示意性示出本公开示例性实施例中一种语音识别装置的结构示意图；

图16示意性示出本公开示例性实施例中一种用于实现语音识别方法的电子设备；

图17示意性示出本公开示例性实施例中一种用于实现语音识别方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

针对相关技术中存在的问题，本公开提出了一种语音识别方法。图1示出了语音识别方法的流程图，如图1所示，语音识别方法至少包括以下步骤：

步骤S110.获取待识别语音数据的待匹配音素候选集。

步骤S120.利用标准音素候选集对待匹配音素候选集进行匹配处理得到音素匹配结果，其中，标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到。

步骤S130.确定与音素匹配结果对应的音素匹配算子，并利用音素匹配算子对音素匹配结果进行口令匹配识别得到待识别语音数据的语音识别结果。

在本公开的示例性实施例中，相较于相关技术中训练一条口令需要投入大量样本进行学习，而训练多条口令时投入样本成倍增加的缺点，通过音素预测处理得到的标准音素候选集能够作为识别待识别语音数据的统一数据标准，避免了以往语音识别过程中对大量样本进行训练带来的资源消耗问题和时间成本问题，为短时间得到语音识别结果提供了数据基础和支持，也满足了语音识别场景中快速迭代的要求。进一步的，利用音素匹配算子对音素匹配结果进行口令匹配识别得到对应的语音识别结果，提升了语音识别的准确度和泛化性，也降低了用户的语音输入要求，丰富了用户语音输入的可能性，优化了用户的语音识别体验，也进一步优化了用户在使用该语音识别方法的游戏、动漫或其他场景下的娱乐体验。

下面对语音识别方法的各个步骤进行详细说明。

在步骤S110中，获取待识别语音数据的待匹配音素候选集。

在本公开的示例性实施例中，待识别语音数据可以是用户在游戏或者语音场景中输入的语音数据。例如，游戏或者动漫场景下的咒语或者口令等。

对应的，待匹配音素候选集可以是表征待识别语音数据的有声音素集合。该待匹配音素候选集可以与表征口令语音数据的标准音素候选集进行匹配，以通过标准音素候选集对待识别语音数据进行语音识别。

图2示出了获取待匹配音素候选集的方法的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，获取待识别语音数据的多个待识别音素，并获取与待识别语音数据对应的口令语音数据的标准音素候选集中的音素个数。

具体的，可以首先对待识别语音数据进行多重提取处理得到对应的数据特征，然后对数据特征进行特征卷积处理得到对应的卷积特征。进一步的，对卷积特征进行特征融合处理得到对应的高阶特征，再对该高阶特征进行特征线性化得到对应的音素概率分布，以根据音素概率分布确定出多个待识别音素。

在特征卷积处理的过程中，可以首先对卷积特征进行特征变换处理得到对应的高维特征，再对高维特征进行降采样处理得到卷积特征。

再一步的，在得到待识别音素之后，可以获取到对应的口令语音数据的标准音素候选集中的音素个数。一般的，该音素个数可以为5个，也可以为3个，本示例性实施例对此不做特殊限定。

在步骤S220中，按照音素个数在多个待识别音素中确定多个有声音素，并对多个有声音素进行静音判定处理得到识别判定结果。

在得到音素个数之后，可以按照待识别音素对应的音素概率分布情况从中选择与音素个数相同的待识别音素作为有声音素。一般的，可以根据音素概率分布情况从中选择与音素个数相同的概率最大的待识别音素作为有声音素。

但是，目前对该有声音素是否有静音符的情况并不确定，亦即不确定该有声音素是否在有发声的情况下得到的。因此，可以对有声音素进行静音判定处理。

具体的，静音判定处理可以是判断有声音素的通道值是否为零。当有声音素的通道值为零时，表明该有声音素为静音符；当有声音素的通道值不为零时，表征该有声音素不为静音符。以此得到多个有声音素对应的识别判定结果。

在步骤S230中，根据识别判定结果对多个有声音素进行剔除补充处理得到待匹配音素候选集。

在得到识别判定结果之后，可以对多个有声音素中的静音符首先进行剔除处理。那么，剔除静音符后的多个有声音素此时不满足音素个数的要求，因此，可以进一步按照音素概率分布的情况继续按顺序添加待识别音素作为有声音素，以得到待匹配音素候选集。

在本示例性实施例中，通过对待识别语音数据进行静音判定处理和剔除补充处理可以得到对应的待匹配音素候选集，从待识别语音数据的自身的角度为语音识别提供了数据基础，同时待识别语音数据的处理以标准音素候选集为依据，能够降低语音识别过程中带来的资源消耗和依赖情况，为能够低资源依赖的语音识别提供了功能入口。

在步骤S120中，利用标准音素候选集对待匹配音素候选集进行匹配处理得到音素匹配结果，其中，标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到。

在本公开的示例性实施例中，还可以获取到与待识别语音数据对应的口令语音数据。该口令语音数据可以表征用户录制的口令内容。并且，每个口令的录制次数为N。一般的，可以设置N≥3，也可以根据实际情况设置其他次数要求，本示例性实施例对此不做特殊限定。

在得到口令语音数据之后，可以对口令语音数据进行音素预测处理。

在可选的实施例中，图3示出了音素预测处理的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，若口令语音数据有多个，对多个口令语音数据进行音素预测处理得到多个单帧音素以及多个单帧音素的多个概率分布。

当用户录制多次口令时，可以得到多个口令语音数据。

在可选的实施例中，图4示出了进一步进行音频预测处理的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，对口令语音数据进行多重提取处理得到语音数据特征，并对语音数据特征进行特征卷积处理得到卷积音频特征。

具体的，对口令语音数据进行多重提取处理可以是首先提取口令语音数据的音频波形数据，然后再提取音频波形数据的FBank特征作为语音数据特征。

其中，提取口令语音数据的音频波形数据可以是通过读口令语音数据的振幅的方式得到。

FBank特征提取要在预处理之后进行，此时口令语音数据已经分帧，需要逐帧提取FBank特征。

首先，分帧之后得到的仍然是时域信号，为了提取FBank特征，可以需要将时域信号转换为频域信号，并且可以利用傅里叶变换可以将信号从时域转到频域。傅里叶变换完成后得到的是频域信号，每个频带范围的能量大小不一，不同音素的能量谱不一样。因此，可以进一步计算能量谱。再计算出能量谱之后，继续进行Mel(梅尔)滤波，以对进行Mel滤波后的数据进行取Log(对数)计算得到对应的FBank特征作为语音数据特征。

继而，在得到语音数据特征之后，可以对该语音数据特征进行特征卷积处理得到卷积音频特征。

在可选的实施例中，图5示出了特征卷积处理的方法的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤S510中，对语音数据特征进行特征变换处理得到高维语音特征。

具体的，当语音数据特征为80维时，对语音数据特征的特征变换处理可以是对语音数据特征的维度变换处理，将语音数据特征变换为512维的高维语音特征。该高维语音特征中包括该语音数据特征的周边信息等其他信息。

在步骤S520中，对高维语音特征进行降采样处理得到卷积音频特征。

具体的，当高维语音特征的长度为100时，对高维语音的降采样处理可以是对高维语音特征的长度进行减半的处理，以将高维语音特征处理成长度为25，亦即1/4序列长度的卷积音频特征。因此，通过降采样处理对高维语音特征进行减半处理的过程可以进行多次，例如两次，本示例性实施例对此不做特殊限定。

在本示例性实施例中，通过对语音数据的特征变换处理和降采样处理能够得到对应的卷积音频特征，变换和处理方式同时进行，处理方式精准及时，为后续的口令语音数据处理流程提供了数据基础。

在步骤S420中，对卷积音频特征进行特征融合处理得到高阶音频特征，并对高阶音频特征进行特征线性化得到多个单帧音素以及多个单帧音素的多个概率分布。

在得到卷积音频特征之后，可以进一步对该卷积音频特征进行特征融合处理得到高阶音频特征。

具体的，该特征融合处理可以是通过Bi-LSTM(Bi-directional Long Short-TermMemory，双向长短期记忆网络模型)实现的，也可以是通过其他方式实现的，本示例性实施例对此不做特殊限定。

通过特征融合处理得到的高阶音频特征能够包括时间序列上下文信息。并且，还可以从例如512维的卷积音频特征处理成1024维的高阶音频特征。

在可选的实施例中，图6示出了特征线性化的方法的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤S610中，对高阶音频特征进行特征线性化得到多个概率分布，并对多个概率分布进行分布损失计算得到分布损失值。

具体的，通过线性层可以实现对高阶音频特征的特征线性化处理，也可以通过其他处理方式实现，本示例性实施例对此不做特殊限定。

在对高阶音频特征进行特征线性化处理之后可以得到多个概率分布。该概率分布即为多个口令语音数据落入不同音素的概率分布。当音素有100个时，该概率分布即为1000维的。

进一步的，还可以计算多个概率分布的CTC(Connectionist TemporalClassification)loss作为分布损失值。

CTCloss即为求一条路径的概率，但是如果是多对一的问题，可以把这些路径的概率求和。这就是一个输入样本的损失函数。再进一步的，如果是一个batch(批，或组)一个batch来训练的话，那么就需要对多个样本的损失求和。其实本质上是最大似然的思想。

在步骤S620中，获取与分布损失值对应的损失阈值，并对分布损失值和损失阈值进行损失更新判断得到损失更新结果。

针对分布损失值，还可以设置一损失阈值，以作为是否训练结束或完成的判断标准。损失阈值可以根据实际情况设置，本示例性实施例对此不做特殊限定。

进一步的，对分布损失值和损失阈值进行比较实现损失更新判断，以得到对应的损失更新结果。该损失更新结果可以包括分布损失值大于或等于损失阈值，或者是分布损失值小于损失阈值。

在步骤S630中，若损失更新结果为分布损失值小于损失阈值，对多个概率分布进行音素提取处理得到多个单帧音素。

当损失更新结果为分布损失值小于损失阈值时，表明口令语音数据的音素预测处理方式已经训练结束或完成，因此可以投入实际预测使用中。

那么，可以根据多个概率分布的情况进行音素提取处理得到多个单帧音素。

在可选的实施例中，图7示出了音素提取处理的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，对多个概率分布进行音素提取处理得到多个初始音素，并对多个初始音素进行静音符判定得到静音判定结果。

根据多个概率分布表征的音素概率情况可以提取到多个初始音素。但是，可能会出现初始音素为静音符，亦即表征无发音的情况，因此可以对多个初始音素进行静音符判定。

具体的，静音符判定可以是判断初始音素的通道值是否为零。当初始音素的通道值为零时，表明该初始音素为静音符；当初始音素的通道值不为零时，表征该初始音素不为静音符。

在步骤S720中，根据静音判定结果对多个初始音素进行静音剔除处理得到多个单帧音素。

在得到多个初始音素对应的静音判定结果之后，可以将多个初始音素中为静音符的初始音素进行静音剔除处理，以得到多个单帧音素。该单帧音素均表征有发声的情况。

在本示例性实施例中，通过特征卷积处理、分布损失计算和静音符判定等一系列对语音数据特征的处理流程，能够得到多个单帧音素和对应的概率分布情况，为确定口令语音数据构成的标准音素候选集提供了数据支持，进一步保证了待识别语音数据的语音识别准确性和实时性。

在步骤S320中，对多个概率分布进行概率分布计算得到分布计算结果，并利用分布计算结果在多个单帧音素中确定标准音素候选集。

在可选的实施例中，图8示出了概率分布计算的方法的流程示意图，如图8所示，该方法至少包括以下步骤：在步骤S810中，获取多个单帧音素的多个序列长度，并对多个序列长度进行比较得到长度比较结果。

该多个序列长度可以是相同口令的多个单帧音素按照时刻位排列得到的。

由于相同口令的序列长度原则上应该是相同的，因此可以对多个序列长度进行比较，得到多个序列长度是否相同的长度比较结果。

在步骤S820中，按照长度比较结果从多个单帧音素中确定目标单帧音素，并对与目标单帧音素对应的多个概率分布进行概率分布计算得到分布计算结果。

当长度比较结果为多个序列长度相同时，可以确定多个单帧音素共同作为目标单帧音素；当长度比较结果为多个序列长度不同时，可以根据多个序列长度选择最大长度对应的单帧音素为目标单帧音素。

进一步的，可以对目标单帧音素对应的概率分布进行概率分布计算得到分布计算结果。

具体的，概率分布计算可以是对目标单帧音素对应的概率分布进行加和求平均的计算方式得到分布计算结果。

在本示例性实施例中，通过概率分布计算可以得到分布计算结果，以进一步根据分布计算结果从多个单帧音素中确定出标准音素候选集。

一般的，可以对分布计算结果进行比较，从中选择概率分布计算出的概率值最大的5个对应的单帧音素构成标准音素候选集。并且，也可以根据实际情况选择其他数值的单帧音素构成标准音素候选集，本示例性实施例对此不做特殊限定。

在得到待识别语音数据的待匹配音素候选集和口令语音数据对应的标准音素候选集之后，可以对待匹配音素候选集和标准音素候选集进行匹配处理。

具体的，利用待匹配音素候选集中的每一个音素顺次去匹配标准音素候选集中的每一个音素。

举例而言，若待匹配音素候选集的音素构成为{A₁，A₂，A₃，A₄，A₅}，标准音素候选集的单帧音素构成为{B₁，B₂，B₃，B₄，B₅}。那么，首先去除待匹配音素候选集中的A₁音素，去依次匹配标准音素候选集中的B₁音素。当A₁音素与B₁音素不同时，A₁音素可以继续匹配标准音素候选集中的B₂音素，直至匹配到相同的音素。若A₁音素在标准音素候选集中匹配不到相同的音素时，可以继续使用待匹配音素候选集中的A₂音素在标准音素候选集中进行音素匹配。

当待匹配音素候选集与标准音素候选集有交集时，可以将匹配到的音素个数c加1，以得到音素匹配结果。

在步骤S130中，确定与音素匹配结果对应的音素匹配算子，并利用音素匹配算子对音素匹配结果进行口令匹配识别得到待识别语音数据的语音识别结果。

在本公开的示例性实施例中，得到音素匹配结果之后，可以确定与该音素匹配结果对应的音素匹配算子。

举例而言，该音素匹配算子可以是(c/待匹配音素候选集的长度≥阈值1)and(c/标准音素候选集的长度≥阈值2)，也可以有其他音素匹配算子，本示例性实施例对此不做特殊限定。

在可选的实施例中，图9示出了口令匹配处理的方法的流程示意图，如图9所示，该方法至少包括以下步骤：在步骤S910中，利用音素匹配算子对音素匹配结果进行口令匹配识别得到待识别语音数据的初始识别结果。

当音素匹配算子为(c/待匹配音素候选集的长度≥阈值1)and(c/标准音素候选集的长度≥阈值2)时，可以取阈值1为0.7，阈值2也为0.7，并带入音素匹配结果，即匹配到的音素个数c判断时候满足音素匹配算子的条件。

当音素匹配结果满足音素匹配算子的条件时，可以确定初始识别结果为初步确定待识别语音数据与口令语音数据匹配。当音素匹配结果不满足音素匹配算子的条件时，可以直接确定待识别语音数据与口令语音数据不匹配，并结束待识别语音数据与该口令语音数据的匹配过程。

在步骤S920中，获取标准音素候选集的实际顺序、标准顺序和序列长度，并利用实际顺序、标准顺序和序列长度对初始识别结果进行容错匹配处理得到待识别语音数据的语音识别结果。

当初始识别结果为初步确定待识别语音数据与口令语音数据匹配时，可以进一步获取到标准音素候选集的实际顺序和标准顺序，以及标准音素候选集的序列长度L进行容错匹配处理。

其中，标准音素候选集的标准顺序可以是{B₁，B₂，B₃，B₄，B₅}，但是，出现差错的标准音素候选集的实际顺序可能是{B₂，B₁，B₃，B₄，B₅}，并且，该标准音素候选集的序列长度为5。

在可选的实施例中，图10示出了容错匹配处理的方法的流程示意图，如图10所示，该方法至少包括以下步骤：在步骤S1010中，对实际顺序的标准音素候选集和标准顺序的标准音素候选集进行顺序距离计算得到误差距离。

具体的，顺序距离计算的方式可以是计算实际顺序的标准音素候选集和标准顺序的标准音素候选集的Levenshtein(莱文斯坦)距离ld作为误差距离，也可以是计算其他距离作为误差距离，本示例性实施例对此不做特殊限定。

其中，Levenshtein距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。

在步骤S1020中，确定与误差距离和序列长度对应的容错匹配算子，并获取与容错匹配算子对应的容错阈值。

在得到误差距离之后，可以进一步确定误差距离和序列长度的容错匹配算子。

举例而言，该容错匹配算子可以是对误差距离ld和序列长度L进行除法计算，亦即ld/L，也可以是其他容错匹配算子，本示例性实施例对此不做特殊限定。

针对该容错匹配算子，还可以预先设置一容错阈值。一般的，该容错阈值可以是0.5，也可以是其他数值，本示例性实施例对此不做特殊限定。

在步骤S1030中，对容错匹配算子和容错阈值进行算子比较得到待识别语音数据的语音识别结果。

在得到容错匹配算子和容错阈值之后，可以对容错匹配算子和容错阈值进行算子比较得到待识别语音数据的语音识别结果。

其中，算子比较结果可以是比较容错匹配算子与容错阈值之间的大小。当容错匹配算子大于容错阈值时，确定待识别语音数据的语音识别结果为待识别语音数据与口令语音数据匹配；当容错匹配算子小于或等于容错阈值时，确定待识别语音数据的语音识别结果为待识别语音数据与口令语音数据不匹配。

在本示例性实施例中，通过容错匹配算子的设置能够在一合理且允许的范围内确定待识别语音数据的语音识别结果，为待识别语音数据的语音识别提供了一定的容错度，进一步保证语音识别结果的泛化性和准确性，同时也降低了用户的语音输入要求，优化了用户的语音识别体验。

下面结合一应用场景对本公开实施例中语音识别方法做出详细说明。

图11示出了应用场景下实现音素预测处理的语音识别模型的流程示意图，如图11所示，在步骤S1110中，利用开源ASR训练集训练声学模型。

ASR(Automatic Speech Recognition，自动语音识别)是一种将人的语音转换为文本的技术。

语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别***只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。

因此，可以利用公开的ASR语料数据对语音识别模型进行训练。

图12示出了应用场景下语音识别模型的结构示意图，如图12所示，在模块1210中，可以实现待识别语音数据或口令语音数据的多重提取处理得到对应的语音数据特征。

其中，在模块1211中，可以提取待识别语音数据或口令语音数据的音频波形数据(Wave data)，在模块1212中，可以进一步提取与待识别语音数据或口令语音数据对应的音频波形数据的FBank特征作为语音数据特征。

模块1220为声学模型卷积层模块。在该声学模型卷积层模块1220中，声学模型卷积层模块包括9个CONV-LAYER层，亦即卷积层，还可以包括9个GELU层，亦即激活层，再可以包括9个batchnormld层，亦即ld的bathchnorm层。

声学模型卷积层模块1220可以实现对语音数据特征的特征变换处理和降采样处理过程得到1/4序列长度的卷积音频特征。

模块1230为声学模型Bi-LSTM模块。声学模型Bi-LSTM模块1230为双向LSTM模块，可以实现对卷积音频特征进行特征融合处理得到高阶音频特征的效果。

模块1240为线性层。线性层1240为phonetic symbol sequence层，可以实现对高阶音频特征进行特征线性化处理。

当该语音识别模型处于训练步骤时，模块1250可以针对特征线性化得到的多个概率分布计算对应的CTCloss，以根据分布损失值进行梯度更新。

当语音识别模型处于预测步骤时，模块1260可以确定出多个对应音素。一般的，可以输出概率分布排在前3的音素。并且，还可以对这些音素进行静音符识别，以将单个或者连续的静音符进行剔除。

图13示出了应用场景下得到标准候选集的方法的流程示意图，如图13所示，在步骤S1310中，收集口令对应人录音频，每个口令N条。

获取到与待识别语音数据对应的口令语音数据。该口令语音数据可以是用户录制的与该待识别语音数据对应的口令。并且，每个口令的录制次数为N。一般的，可以设置N≥3，也可以根据实际情况设置其他次数要求，本示例性实施例对此不做特殊限定。

在步骤S1320中，音频过声学模型，得到不同的音频序列概率分布，对相同口令的概率分布进行求平均。

若口令语音数据有多个，对多个口令语音数据进行音素预测处理得到多个单帧音素以及多个单帧音素的多个概率分布。

当用户录制多次口令时，可以得到多个口令语音数据。

对口令语音数据进行多重提取处理得到语音数据特征，并对语音数据特征进行特征卷积处理得到卷积音频特征。

首先，分帧之后得到的仍然是时域信号，为了提取FBank特征，可以需要将时域信号转换为频域信号，并且可以利用傅里叶变换可以将信号从时域转到频域。傅里叶变换完成后得到的是频域信号，每个频带范围的能量大小不一，不同音素的能量谱不一样。因此，可以进一步计算能量谱。再计算出能量谱之后，继续进行Mel(梅尔)滤波，以对进行Mel滤波后的数据进行取Log计算得到对应的FBank特征作为语音数据特征。

对语音数据特征进行特征变换处理得到高维语音特征。

对高维语音特征进行降采样处理得到卷积音频特征。

对卷积音频特征进行特征融合处理得到高阶音频特征，并对高阶音频特征进行特征线性化得到多个单帧音素以及多个单帧音素的多个概率分布。

具体的，该特征融合处理可以是通过Bi-LSTM实现的，也可以是通过其他方式实现的，本示例性实施例对此不做特殊限定。

对高阶音频特征进行特征线性化得到多个概率分布，并对多个概率分布进行分布损失计算得到分布损失值。

进一步的，还可以计算多个概率分布的CTCloss作为分布损失值。

获取与分布损失值对应的损失阈值，并对分布损失值和损失阈值进行损失更新判断得到损失更新结果。

若损失更新结果为分布损失值小于损失阈值，对多个概率分布进行音素提取处理得到多个单帧音素。

对多个概率分布进行音素提取处理得到多个初始音素，并对多个初始音素进行静音符判定得到静音判定结果。

根据静音判定结果对多个初始音素进行静音剔除处理得到多个单帧音素。

对多个概率分布进行概率分布计算得到分布计算结果，并利用分布计算结果在多个单帧音素中确定标准音素候选集。

获取多个单帧音素的多个序列长度，并对多个序列长度进行比较得到长度比较结果。

按照长度比较结果从多个单帧音素中确定目标单帧音素，并对与目标单帧音素对应的多个概率分布进行概率分布计算得到分布计算结果。

在步骤S1330中，保存口令对应的序列概率分布top5的音素。

图14示出了应用场景下口令匹配识别的方法的流程示意图，如图14所示，在步骤S1410中，预测音频过声学模型得到音素序列概率分布top5的音素。

预测音频即为待识别语音数据。待识别语音数据可以是用户在游戏或者语音场景中输入的语音数据。

获取待识别语音数据的多个待识别音素，并获取与待识别语音数据对应的口令语音数据的标准音素候选集中的音素个数。

再一步的，在得到待识别音素之后，可以获取到对应的口令语音数据的标准音素候选集中的音素个数。一般的，该音素个数可以为5个。

按照音素个数在多个待识别音素中确定多个有声音素，并对多个有声音素进行静音判定处理得到识别判定结果。

根据识别判定结果对多个有声音素进行剔除补充处理得到待匹配音素候选集。

在步骤S1420中，预测音频过声学模型得到音素概率分布。

该音素概率分布可以在高阶特征进行特征线性化时得到。

在步骤S1430中，计算算子1值，判断是否大于阈值1，若否，判定返回判定不匹配，若时，则返回判定匹配。

首先，在得到待识别语音数据的待匹配音素候选集和口令语音数据对应的标准音素候选集之后，可以对待匹配音素候选集和标准音素候选集进行匹配处理。

然后，得到音素匹配结果之后，可以确定与该音素匹配结果对应的音素匹配算子。

利用音素匹配算子对音素匹配结果进行口令匹配识别得到待识别语音数据的初始识别结果。

在步骤S1440中，计算算子2值，判断是否大于阈值2，若否，判定返回判定不匹配，若是，则返回判定匹配。

其中，标准音素候选集的标准顺序可以是{1,2,3,4,5，…，N}，但是，出现差错的标准音素候选集的实际顺序可能是{1,3,2,4,5，…，N}，并且，该标准音素候选集的序列长度为N。

对实际顺序的标准音素候选集和标准顺序的标准音素候选集进行顺序距离计算得到误差距离。

确定与误差距离和序列长度对应的容错匹配算子，并获取与容错匹配算子对应的容错阈值。

对容错匹配算子和容错阈值进行算子比较得到待识别语音数据的语音识别结果。

在本公开的示例性实施例中的语音识别方法，相较于相关技术中训练一条口令需要投入大量样本进行学习，而训练多条口令时投入样本成倍增加的缺点，通过音素预测处理得到的标准音素候选集能够作为识别待识别语音数据的统一数据标准，避免了以往语音识别过程中对大量样本进行训练带来的资源消耗问题和时间成本问题，为短时间得到语音识别结果提供了数据基础和支持，也满足了语音识别场景中快速迭代的要求。进一步的，利用音素匹配算子对音素匹配结果进行口令匹配识别得到对应的语音识别结果，提升了语音识别的准确度和泛化性，也降低了用户的语音输入要求，丰富了用户语音输入的可能性，优化了用户的语音识别体验，也进一步优化了用户在使用该语音识别方法的游戏、动漫或其他场景下的娱乐体验。

此外，在本公开的示例性实施例中，还提供一种语音识别装置。图15示出了语音识别装置的结构示意图，如图15所示，语音识别装置1500可以包括：数据获取模块1510、顺序匹配模块1520和语音识别模块1530。其中：

数据获取模块1510，被配置为获取待识别语音数据的待匹配音素候选集；顺序匹配模块1520，被配置为利用标准音素候选集对待匹配音素候选集进行匹配处理得到音素匹配结果，其中，标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到；语音识别模块1530，被配置为确定与音素匹配结果对应的音素匹配算子，并利用音素匹配算子对音素匹配结果进行口令匹配识别得到待识别语音数据的语音识别结果。

对所述语音数据特征进行特征变换处理得到高维语音特征；

对所述高维语音特征进行降采样处理得到卷积音频特征。

上述语音识别装置1500的具体细节已经在对应的语音识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了语音识别装置1500的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图16来描述根据本发明的这种实施例的电子设备1600。图16显示的电子设备1600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图16所示，电子设备1600以通用计算设备的形式表现。电子设备1600的组件可以包括但不限于：上述至少一个处理单元1610、上述至少一个存储单元1620、连接不同***组件(包括存储单元1620和处理单元1610)的总线1630、显示单元1640。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1610执行，使得所述处理单元1610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1621和/或高速缓存存储单元1622，还可以进一步包括只读存储单元(ROM)1623。

存储单元1620还可以包括具有一组(至少一个)程序模块1625的程序/实用工具1624，这样的程序模块1625包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1600也可以与一个或多个外部设备1800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1600交互的设备通信，和/或与使得该电子设备1600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1650进行。并且，电子设备1600还可以通过网络适配器1660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1660通过总线1630与电子设备1600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图17所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音数据的待匹配音素候选集；

2.根据权利要求1所述的语音识别方法，其特征在于，所述对预先获取的口令语音数据进行音素预测处理，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述对所述多个概率分布进行概率分布计算得到分布计算结果，包括：

4.根据权利要求2所述的语音识别方法，其特征在于，所述对多个所述口令语音数据进行音素预测处理得到多个单帧音素以及所述多个单帧音素的多个概率分布，包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述对所述语音数据特征进行特征卷积处理得到卷积音频特征，包括：

对所述语音数据特征进行特征变换处理得到高维语音特征；

对所述高维语音特征进行降采样处理得到卷积音频特征。

6.根据权利要求4所述的语音识别方法，其特征在于，所述对所述高阶音频特征进行特征线性化得到多个单帧音素以及所述多个单帧音素的多个概率分布，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，所述对所述多个概率分布进行音素提取处理得到多个单帧音素，包括：

8.根据权利要求1所述的语音识别方法，其特征在于，所述利用所述音素匹配算子对所述音素匹配结果进行口令匹配识别得到所述待识别语音数据的语音识别结果，包括：

9.根据权利要求8所述的语音识别方法，其特征在于，所述利用所述实际顺序、所述标准顺序和所述序列长度对所述初始识别结果进行容错匹配处理得到所述待识别语音数据的语音识别结果，包括：

10.根据权利要求1所述的语音识别方法，其特征在于，所述获取待识别语音数据的待匹配音素候选集，包括：

11.一种语音识别装置，其特征在于，包括：

顺序匹配模块，被配置为利用标准音素候选集对所述待匹配音素候选集进行匹配处理得到音素匹配结果，其中，所述标准音素候选集为通过对预先获取的口令数据进行音素预测处理得到；

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10中任意一项所述的语音识别方法。

13.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-10中任意一项所述的语音识别方法。