CN112185346B

CN112185346B - 多语种语音关键词检测、模型生成方法及电子设备

Info

Publication number: CN112185346B
Application number: CN202011026187.4A
Authority: CN
Inventors: 左祥; 江之源; 姚宇行; 刘译璟; 苏萌; 高体伟
Original assignee: Beijing Percent Technology Group Co ltd
Current assignee: Beijing Percent Technology Group Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-11-11
Anticipated expiration: 2040-09-25
Also published as: CN112185346A

Abstract

本申请公开了一种多语种语音关键词检测、关键词模型生成方法及电子设备、计算机可读存储介质，关键词模型生成方法包括：获取多个对应不同语种的关键词文本；将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列；基于不同语种的音素与目标语种的音素的映射关系，将所述语种对应的音素序列转换为所述目标语种的音素序列；根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型。本申请实可以提高多语种语音关键词的检测效率。

Description

多语种语音关键词检测、模型生成方法及电子设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种多语种音频关键词检测方法、关键词模型生成方法及电子设备、计算机可读存储介质。

背景技术

多语种语音关键词检测任务中，一个难点在于多语种混杂现象，比如一句话中出现多个语种。语种识别往往需要足够时长的音频，比如5-10秒。而一句话中多语种混杂的现象的持续时长有可能会比较短。例如某些英文名的持续时长可能只有不到1秒的时间，而语种识别无法处理这么短的时长。另外，这种技术方案，需要事先训练语种识别模型以及关键词模型。而这两种模型都需要事先准备好大量的训练音频，语种数量越多，获取训练音频的成本也就越大，特别对很多小语种来说，获取训练数据的难度往往非常大。

如何提高多语种语音关键词的检测效率，是本申请所要解决的技术问题。

发明内容

本申请实施例的目的是提供一种多语种语音关键词检测方法、关键词模型生成方法及电子设备、计算机可读存储介质，用以解决多语种语音关键词检测效率低的问题。

为了解决上述技术问题，本说明书是这样实现的：

第一方面，提供了一种关键词模型生成方法，包括：获取多个对应不同语种的关键词文本；将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列；基于不同语种的音素与目标语种的音素的映射关系，将所述语种对应的音素序列转换为所述目标语种的音素序列；根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型。

可选的，所述语种对应的音素序列中的同一个音素对应所述目标语种的音素序列中的至少一个音素。

可选的，在所述同一个音素对应所述目标语种的音素序列中的多个不同的音素时，所述多个不同的音素分别具有对应的权重，所述权重表示所述同一个音素被表示成所述多个不同的音素中的每个音素的概率。

可选的，根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型，包括：

根据所述目标语种中的所述多个不同的音素，分别对应所述同一个音素生成多个不同的关键词模型，以生成所述多个对应不同语种的关键词文本对应的关键词模型。

第二方面，提供了一种多语种语音关键词检测方法，包括：接收待检测语音；对所述待检测语音进行分段处理得到多个音频片段：将每个音频片段转换为对应的音频特征；将所述音频特征输入根据第一方面所述的关键词模型进行计算，以得到对应音频片段的关键词概率；根据所述关键词概率检测所述音频片段中的关键词。

可选的，将每个音频片段转换为对应的音频特征，包括：确定所述音频片段的音频帧的数量；将所述音频片段的每个音频帧转换为一组对应维数的音频特征值；根据所述音频帧的数量和所述维数确定所述音频片段对应的音频特征矩阵。

可选的，将所述音频特征输入所述关键词模型进行计算，以得到对应音频片段的关键词概率，包括：基于所述关键词模型对应的目标语种关键词的音素和所述音频片段的音频帧，形成一个包括多个节点状态的网络，其中每个音素和对应的一个音频帧形成一个节点状态；将每个音频帧对应的音频特征作为参数，利用预定算法计算每个节点状态的后验概率；确定所述多个节点状态中后验概率的最大值，以作为所述音频片段的关键词概率。

可选的，在所述关键词模型对应的目标语种关键词的音素包括与所述待检测语音对应语种的同一个音素对应的多个不同音素时，利用预定算法计算每个节点状态的后验概率，还包括：根据所述多个不同音素对应所述同一个音素的权重，分别对所述音素对应的节点状态的后验概率进行加权计算，以得到所述节点状态的后验概率。

第三方面，提供了一种电子设备，包括处理器和与所述存储器电连接的处理器，所述存储器存储有可在所述处理器运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面或第二方面所述的方法的步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所述的方法的步骤。

在本申请实施例中，通过获取多个对应不同语种的关键词文本，将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列，基于不同语种的音素与目标语种的音素的映射关系，将所述语种对应的音素序列转换为所述目标语种的音素序列，根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型，能够准确识别多语种语音的关键词，并减少关键词模型生成所需的训练音频，提高多语种语音关键词检测的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的关键词模型生成方法的流程示意图。

图2是本申请实施例的关键词模型生成框架示意图。

图3是本申请实施例的关键词模型示例图。

图4是本申请实施例的多语种语音关键词检测方法的流程示意图。

图5是本申请实施例的关键词概率计算的示意图。

图6是本申请实施例的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本申请中附图编号仅用于区分方案中的各个步骤，不用于限定各个步骤的执行顺序，具体执行顺序以说明书中描述为准。

为了解决现有技术中存在的问题，本申请实施例提供一种关键词模型生成方法，图1是本申请实施例的关键词模型生成方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤102：获取多个对应不同语种的关键词文本；

步骤104：将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列；

步骤106：基于不同语种的音素与目标语种的音素的映射关系，将所述语种对应的音素序列转换为所述目标语种的音素序列；

步骤108：根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型。

关键词文本包括用于生成关键词模型的待识别关键词的文字，这里的关键词文本可以是多种语言的，比如俄语，英语，***语等。以英语为例，英文的关键词文本例如为″ATTACK″。

在步骤104中，将每个关键词文本对应转换为其对应语种的音素序列，例如图2中步骤104所示，利用多语种发音字典204，可以得知不同语种的关键词所包括的每个字母或文字的音素。

比如哈萨克语关键词

转换成对应的哈萨克语音素序列″avtorgha″，中文关键词″袭击″，转换成对应的中文音素序列″xiji″。在这里，一个事先准备好的多语种发音字典被用在音素转换步骤中。

在步骤106中，将不同语种的关键词文本对应转换的音素序列，再转换成通用语种的音素，通用语种是指各种不同的语种都在该步骤中转换为一个公共通用的语种，通用语种通常选择国际通用语言，例如中文，英文等等。通用语种应用范围广，应用频率高。比如选定了中文作为通用的目标语种的话，则在步骤106中将所有语种的关键词音素，都转换成中文的音素。在这里，需要用到一个音素映射列表，包括任务中所有语种的音素和相对应的目标语种音素的映射关系。如图2所示，通过音素映射列表206，可以实现步骤106的目标语种音素转换，将不同语种对应的音素序列转换为目标语种的音素序列。

由于不同语种之间发音差异的原因，这种映射关系可能是一对多的。比如同一个英文音素，在不同的发音上下文中有可能对应多个中文音素。可选的，语种对应的音素序列中的同一个音素对应所述目标语种的音素序列中的至少一个音素。在所述同一个音素对应所述目标语种的音素序列中的多个不同的音素时，所述多个不同的音素分别具有对应的权重，所述权重表示所述同一个音素被表示成所述多个不同的音素中的每个音素的概率。

音素映射列表的一个例子如表1所示，表1显示了哈萨克语与中文的音素映射关系。

例如，由于哈萨克语和中文发音上的差异，哈萨克语音素″v″和″gh″可以被复数个中文音素所表示。如表1所示，哈萨克语音素″v″可以被中文音素″b″和″p″表示，哈萨克语音素″gh″可以被中文音素″f″、″h″、″i″和″a″表示。其中同一个音素对应的其他语种的多个不同的音素时，这些不同的音素各具有对应的权重，权重之和为1。权重表示该音素对应被表示成相应的中文音素的概率，概率越大，则该音素＝被表示成对应的中文音素的几率也就越高。例如，哈萨克语音素″v″被中文音素″b″表示的概率为0.7，被中文音素和″p″表示的概率为0.3，也即表示哈萨克语音素″v″被表示为中文音素″b″的几率越高。概率可以通过经验获得，也可以通过数据统计的方法获得。

表1

在步骤108中，基于转换后的目标语种音素序列生成对应的关键词模型。每个关键词文本都会生成其文本语种对应的目标语种音素，进而生成对应的目标语种关键词模型。多个关键词文本则会生成多个对应目标语种的关键词模型，这些关键词模型可以合并起来，形成一个关键词模型网络，以用于后续的多语种语音关键词检测。

可选的，根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型，包括：根据所述目标语种中的所述多个不同的音素，分别对应所述同一个音素生成多个不同的关键词模型，以生成所述多个对应不同语种的关键词文本对应的关键词模型。

本申请的关键词模型生成方法，通过将多个对应不同语种的关键词转换成通用的目标语种的关键词音频对应的音素序列，然后基于该音素序列构建目标关键词模型。本申请通过通用的目标关键词模型可以对各种小语种在内的不同的语种，生成统一通用的关键词模型，可以减少关键词模型生成所需的训练音频，降低音频训练的成本。

图3显示了一个关键词模型的例子，图3所示的关键词模型对应的哈萨克语关键词文本为

其对应的哈萨克语音素序列为″avtorgha″，并根据表1的映射关系及权重值，转换为目标语种中文音素序列后生成的关键词模型。从图3中可以看到，有几个音素有多个对应关系。

关键词模型生成的时候，需要一个事先训练好的、目标语种的通用声学模型208，例如以中文作为通用语种，则需要实现训练好一个中文声学模型。在一个实施例中，通用声学模型208可以是基于HMM-DNN(隐马尔可夫模型-深度神经网络)架构的，或者基于HMM-LSTM(隐马尔可夫模型-长短期记忆网络)架构的传统声学模型。以中文代替小语种的音素，从而根据小语种发音对应中文的发音，通过通用声学模型208可以提供对应关系的发声。

在生成上述关键词模型之后，为解决现有技术中存在的问题，本申请实施例提供一种多语种语音关键词检测方法，如图4所示，包括以下步骤：

步骤302：接收待检测语音；

步骤304：对所述待检测语音进行分段处理得到多个音频片段：

步骤306：将每个音频片段转换为对应的音频特征；

步骤308：将所述音频特征输入关键词模型进行计算，以得到对应音频片段的关键词概率；

步骤310：根据所述关键词概率检测所述音频片段中的关键词。

在步骤302中，接收的待检测音频可以是多语种混杂的音频，作为输入的待检测语音。

在步骤304中，经过分段处理和端点检测，把音频中的静音的部分拿掉不处理，并输出固定长度音频片段，将解码的音频片段单元固定下来，易于后续的检测处理。输出的固定长度的音频片段，例如为500毫秒，一个音频片段包括多个音频帧。

在步骤304之后，可以对音频片段进行预先信号处理，常见的信号处理包括噪声抑制，回声消除，去混响，语音增强等，经过信号处理后的音频会更加清晰，有利于后续的检测处理。

在步骤306中，对经过处理的音频片段进行特征提取模块，将音频信号变换为音频特征。可选的，将每个音频片段转换为对应的音频特征，包括：确定所述音频片段的音频帧的数量；将所述音频片段的每个音频帧转换为一组对应维数的音频特征值；根据所述音频帧的数量和所述维数确定所述音频片段对应的音频特征矩阵。

以音频片段为500毫秒为例，若1帧音频帧为50毫秒，则1个音频片段包括10帧，本申请支持不同种类的常见音频特征，比如mfcc、fbank、plp格式等。若转换为mfcc特征，每帧对应为一组13维的数字，则该音频片段对应转换的特征矩阵为10×13二维矩阵。

在步骤308中，将音频特征以矩阵的形式输入根据本申请上述实施例的关键词模型生成方法生成的关键词模型中，以计算每个音频片段的关键词概率。针对每一个音频片段的音频特征，可以通过预定算法计算关键词的概率，例如可以通过一种基于维特比(Viterbi)的传统方法实现。

下面结合图5的示例给出说明，为了简化说明，该例子中用于检测多语种音频片段的关键词模型只对应一个关键词″ATTACK″，即关键词模型是基于英文关键词文本″ATTACK″生成的目标语种关键词模型。该关键词一共有6个音素，输入的待检测多语种音频片段为11帧，即包括11个音频帧。

6个音素和11个音频帧组成一个6×11的二维矩阵，每个音素和对应的一个音频帧形成一个隐马尔可夫模型(Hidden Markov Mode，HMM)节点状态。在Viterbi算法中，各个节点状态首先根据时间轴展开，形成一个状态网络。然后，将每个节点状态对应的音频帧的音频特征作为参赛，利用Viterbi算法在该状态网络中计算每一个节点状态的后验概率P(S|O)。P(S|O)的计算基于HMM的概率计算公式，在这里不再赘述。然后在最终节点状态(图5右下角的节点状态)进行回溯，找出后验概率最大的路径，即确定状态网络中各个节点状态中的后验概率最大值，该路径对应的后验概率就是该音频片段对应检测的最终关键词概率。

如上文所述，关键词模型对应的目标语种关键词的音素可能包括与待检测语音对应语种的同一个音素对应的多个不同音素，因此在所述关键词模型对应的目标语种关键词的音素包括与所述待检测语音对应语种的同一个音素对应的多个不同音素时，利用预定算法计算每个节点状态的后验概率，还包括：根据所述多个不同音素对应所述同一个音素的权重，分别对所述音素对应的节点状态的后验概率进行加权计算，以得到所述节点状态的后验概率。

例如对图3所示为哈萨克语关键词

对应的中文音素序列所生成的关键词模型。其中音素″p″和″b″，″f″、″h″、″i″和″a″有多个对应关系。因此，在步骤308计算关键词概率的时候，需要使用权重对每个节点状态上的得分进行加权。其中加权使用的权重，根据音素映射列表中的权重得到。多个对应关系分别展开并组合，对应8种关键词模型，将每个节点状态对应每种关键词模型的后验概率乘以权重，并将8次加权的结果加起来进行归一化，即得到该节点状态对应的最终后验概率。

在步骤310中，可选的，根据所述关键词概率检测所述音频片段中的关键词，包括：将所述关键词概率与预定阈值进行比较；在所述关键词概率大于所述预定阈值时，确定所述音频片段中包括关键词。否则，则不包括。

如果有多个关键词模型，则该音频片段可以通过该多个关键词模型检测后得到对应的关键词概率，从中选择最大的关键词概率。再与预定阈值进行比较，如果大于预定阈值，则识别该音频片段中存在与该最大关键词概率的关键词模型匹配的关键词。如果最大值都不大于预定阈值，则表示该音频片段中没有识别出关键词。

本申请的多语种关键词检测的方法，通过将多个对应不同语种的关键词转换成通用的目标语种的关键词音频对应的音素序列。然后基于该音素序列构建目标关键词模型。最后基于该目标关键词模型进行关键词检测。本申请通过通用的目标关键词模型可以对各种小语种在内的不同的语种，生成统一通用的关键词模型，可以在多语种混杂的句子中准确的检测到关键词。

此外，由于本申请不需要语种识别模型和对应该语种识别模型的关键词模型，因此不需要大量的训练音频，也不需要针对小语种获取训练数据来训练语种识别模型，克服了现有技术需要大量训练音频带来的高成本问题，以及小语种获取训练数据难度大的问题。而且，由于不需要训练语种识别模型，可以避免语种识别无法处理短时长音频的问题。因此，本申请的多语种语音关键词检测方法能够准确识别多语种语音的关键词，并减少关键词模型生成所需的训练音频，提高多语种语音关键词检测的效率。

可选的，本申请实施例还提供一种电子设备，如图6所示，电子设备2000包括存储器2200和与所述存储器2200电连接的处理器2400，所述存储器2200存储有可在所述处理器2400运行的计算机程序，所述计算机程序被所述处理器2400执行时实现上述任意一种关键词模型生成方法和多语种语音关键词检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一种方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种关键词模型生成方法，其特征在于，包括：

获取多个对应不同语种的关键词文本；

将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列；

基于不同语种的音素与目标语种的音素的映射关系，将所述语种对应的音素序列转换为所述目标语种的音素序列；

根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型；

其中，所述语种对应的音素序列中的同一个音素对应所述目标语种的音素序列中的至少一个音素；

在所述同一个音素对应所述目标语种的音素序列中的多个不同的音素时，所述多个不同的音素分别具有对应的权重，所述权重表示所述同一个音素被表示成所述多个不同的音素中的每个音素的概率。

2.如权利要求1所述的方法，其特征在于，根据转换后的目标语种的音素序列，生成所述多个对应不同语种的关键词文本对应的关键词模型，包括：

3.一种多语种语音关键词检测方法，其特征在于，包括：

接收待检测语音；

对所述待检测语音进行分段处理得到多个音频片段：

将每个音频片段转换为对应的音频特征；

将所述音频特征输入根据权利要求1或2所述的关键词模型进行计算，以得到对应音频片段的关键词概率；

根据所述关键词概率检测所述音频片段中的关键词。

4.如权利要求3所述的方法，其特征在于，将每个音频片段转换为对应的音频特征，包括：

确定所述音频片段的音频帧的数量；

将所述音频片段的每个音频帧转换为一组对应维数的音频特征值；

根据所述音频帧的数量和所述维数确定所述音频片段对应的音频特征矩阵。

5.如权利要求4所述的方法，其特征在于，将所述音频特征输入所述关键词模型进行计算，以得到对应音频片段的关键词概率，包括：

基于所述关键词模型对应的目标语种关键词的音素和所述音频片段的音频帧，形成一个包括多个节点状态的网络，其中每个音素和对应的一个音频帧形成一个节点状态；

将每个音频帧对应的音频特征作为参数，利用预定算法计算每个节点状态的后验概率；

确定所述多个节点状态中后验概率的最大值，以作为所述音频片段的关键词概率。

6.如权利要求5所述的方法，其特征在于，在所述关键词模型对应的目标语种关键词的音素包括与所述待检测语音对应语种的同一个音素对应的多个不同音素时，利用预定算法计算每个节点状态的后验概率，还包括：

根据所述多个不同音素对应所述同一个音素的权重，分别对所述音素对应的节点状态的后验概率进行加权计算，以得到所述节点状态的后验概率。

7.一种电子设备，其特征在于，包括：存储器和与所述存储器电连接的处理器，所述存储器存储有可在所述处理器运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。