CN114822535A

CN114822535A - 语音关键词识别方法、装置、介质及设备

Info

Publication number: CN114822535A
Application number: CN202210411887.8A
Authority: CN
Inventors: 周智; 鄢戈; 仇健乐; 于欣; 蒋寿美
Original assignee: Time Intelligence Technology Shanghai Co ltd
Current assignee: Time Intelligence Technology Shanghai Co ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-29

Abstract

本发明提供了一种语音关键词识别方法、装置、介质及设备，该方法包括：获取当前帧信号的频域幅度谱；进行噪声估计，以得到当前帧信号的噪声功率谱；根据当前帧信号的噪声功率谱以及上一帧信号的噪声功率谱，估算当前帧信号的初始后验信噪比；根据当前帧信号的初始后验信噪比和上一帧信号的后验信噪比，估算当前帧信号的初始先验信噪比；根据当前帧信号的初始后验信噪比、初始先验信噪比，计算得到当前帧信号的目标语音存在概率；根据目标语音存在概率，对当前帧信号是否存在语音进行判定，当判定结果为当前帧信号存在语音时，将当前帧信号输入预设解码图进行识别，得到识别结果。该方法用以改善在嘈杂环境下语音关键词误识别率高的问题。

Description

语音关键词识别方法、装置、介质及设备

技术领域

本发明涉及人工智能领域，尤其涉及一种语音关键词识别方法、装置、介质及设备。

背景技术

随着人工智能技术的高速发展以及计算硬件性能的突飞猛进，智能语音人机交互也慢慢走进了千家万户，呈现出高速发展态势。其中人机交互又可以分为连续语音识别与关键词识别两种工作模式。关键词识别方法普遍是通过构造解码网络来实现，该解码网络中包含多组与预设的关键词对应的音素序列。目前解决将噪音识别为命令词的方法是计算识别结果的置信度，当置信度大于预设的阈值时表示识别正确，当置信度小于该阈值时表示没有识别到命令词。但是在嘈杂环境下，提取出来的句子开始部分和句子结尾部分往往会出现偏差，导致最终将纯噪音段识别成语音，最终解码失败，关键词也识别失败，使得在嘈杂环境下语音关键词误识别率偏高。

因此，亟需一种新的语音识别方案，以改善上述问题。

发明内容

本发明的目的在于提供一种语音关键词识别方法、装置、介质及设备，用以改善在嘈杂环境下语音关键词误识别率高的问题。

第一方面，本发明实施例提供一种语音关键词识别方法，该方法包括：从接收到的语音信号中获取当前帧信号的频域幅度谱；对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱；根据所述当前帧信号的噪声功率谱以及上一帧信号的噪声功率谱，估算所述当前帧信号的初始后验信噪比；根据所述当前帧信号的初始后验信噪比和上一帧信号的后验信噪比，估算所述当前帧信号的初始先验信噪比；根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的目标语音存在概率；根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果；当所述判定结果为所述当前帧信号存在语音时，将当前帧信号输入预设解码图进行识别，得到识别结果。

本发明实施例提供的语音关键词识别方法的有益效果在于：通过对语音信号进行分帧，对每帧信号中的噪声进行噪声估计，继而计算得到当前帧信号的目标语音存在概率，结合目标语音存在概率以及解码图的解码策略，避免将纯噪音段识别成语音，提高在嘈杂环境下语音关键词识别率。

在一种可能的实施方式中，根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的语音存在概率，包括：

根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的初始语音存在概率；对所述当前帧信号的初始语音存在概率和上一帧信号的语音存在概率进行平滑处理，得到所述当前帧信号的中间语音存在概率；将所述全带划分为多个子带，以及将所述当前帧信号的中间语音存在概率在每个子带上做均值处理，求得各个子带上的对数自然概率；计算所述各个子带上的对数自然概率的均值，得到帧信号的目标语音存在概率。该实施方式可以提高目标语音存在概率的准确度。

在一种可能的实施方式中，根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果，包括：当所述目标语音存在概率大于设定阈值时，得到所述当前帧信号存在语音的判定结果；当所述目标语音存在概率小于或等于所述设定阈值时，得到所述当前帧信号不存在语音的判定结果。该方案可以用于提高低信噪比环境下的关键词识别率。

在一种可能的实施方式中，对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱，包括：根据上一帧信号的噪声功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的噪声功率谱。该方法可以避免将静音段识别成语音，或将语音段识别成静音。

在一种可能的实施方式中，所述预设解码图为HCLG解码图。

第二方面，本发明实施例还提供一种语音关键词识别装置，该装置包括执行上述第一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

第三方面，本发明实施例提供一种终端设备，包括处理器和存储器。其中，存储器用于存储一个或多个计算机程序；当存储器存储的一个或多个计算机程序被处理器执行时，使得该终端设备能够实现上述第二方面的任意一种可能的设计的方法。

第四方面，本发明实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

第五方面，本发明实施例还提供一种包含计算机程序产品，当所述计算机程序产品在终端上运行时，使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

关于上述第二方面至第五方面的有益效果可以参见上述第一方面的描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种通信场景架构示意图；

图2为本发明实施例提供的一种语音关键词识别方法流程示意图；

图3为本发明实施例提供的一种语音关键词识别装置结构示意图；

图4为本发明实施例提供的一种设备结构示意图。

具体实施方式

实际应用中，不同场景中的声频段也是存在差异的。例如，开车时的背景噪音通常为低频噪音；白噪音基本为全频段噪音；汽车喇叭的噪音则为高频噪音。因此，本发明对语音信号进行分帧，对每帧信号中的噪声进行噪声估计，继而计算得到当前帧信号的目标语音存在概率，结合目标语音存在概率以及解码图的解码策略，避免将纯噪音段识别成语音，提高在嘈杂环境下语音关键词识别率。

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。其中，在本发明实施例的描述中，以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接，除非另外说明。“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本发明实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

本申请提供的语音关键词识别方法，可应用于计算机设备中，计算机设备可以为终端或服务器。可以理解的是，本申请提供的语音关键词识别方法还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。

以本申请提供的语音关键词识别方法还可以应用于包括终端和服务器的***为例，本申请提供的语音关键词识别方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。终端102将采集的语音信号上传至服务器104，服务器104在获取语音信号，提取语音信号的声学特征信息，分析目标语音存在概率，当所述判定结果为所述当前帧信号存在语音时，将声学特征信息输入至解码图，通过解码图对声学特征信息进行解码，得到识别结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音关键词识别方法，以该方法应用于服务器104为例进行说明，该方法包括以下步骤：

S201，从接收到的语音信号中获取当前帧信号的频域幅度谱。

S202，对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱。

该步骤中，可选地，服务器104可以根据上一帧信号的噪声功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的噪声功率谱。

S203，根据所述当前帧信号的噪声功率谱以及上一帧信号的噪声功率谱，估算所述当前帧信号的初始后验信噪比。

S204，根据所述当前帧信号的初始后验信噪比和上一帧信号的后验信噪比，估算所述当前帧信号的初始先验信噪比。

S205，根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的目标语音存在概率。

该步骤，可选地，服务器104可以根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的初始语音存在概率；对所述当前帧信号的初始语音存在概率和上一帧信号的语音存在概率进行平滑处理，得到所述当前帧信号的中间语音存在概率；将所述全带划分为多个子带，以及将所述当前帧信号的中间语音存在概率在子带上做均值处理，求得各个子带上的对数自然概率；计算所述各个子带上的对数自然概率的均值，得到帧信号的目标语音存在概率。

S206，根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果。

具体来说，当所述目标语音存在概率大于设定阈值时，服务器104得到所述当前帧信号存在语音的判定结果；当所述目标语音存在概率小于或等于所述设定阈值时，服务器104得到所述当前帧信号不存在语音的判定结果。

S207，当所述判定结果为所述当前帧信号存在语音时，将当前帧信号输入预设解码图进行识别，得到识别结果。

该步骤中，对当前帧信号进行解码目的是得到当前帧信号对应的词条，即将语音信号转化为文本信息。在实际实现过程中，可依据预设解码图对语音信号进行解码。预设解码图可以为任意包含语音与文本之间转化关系的解码图，如HCLG解码图、HCTLG解码图。一种可能的情况下，HCLG解码图由四部分构成，H代表声学模型，它的输入是隐马尔科夫的状态号，输出是三音素状态；C表示的是音素的上下文相关信息，它的输入是三音素状态，输出是单音素状态；L表示发音词典信息，输入是单音素，输出是词语；G是语言模型，输入、输出均为词语；这四个部分组合在一起构成了一个输入是隐马尔科夫状态，输出是词语的加权状态转换器(Weighted Finite-State Transducers，WFST)网络。WFST能够将一个序列映射到另一个序列。

另一种可能的情况下，HCTLG解码图由五个部分组成，H代表声学模型，它的输入是隐马尔科夫的状态号，输出是三音素状态；C表示的是音素的上下文相关信息，它的输入是三音素状态，输出是单音素状态；T代表音素的模糊音转换和音调转换，它的输入是单音素输出也是单音素，L表示发音词典信息，输入是单音素，输出是词语；G是语言模型，输入、输出均为词，这五个部分一起构成了一个输入是音素，输出是词语的WFST网络。

本实施例以对“今天天气怎么样”为例，可知语音信号“今天天气怎么样”中“天气”这一词语出错可能性非常小，而“今天”、“怎么样”这两个词语出错可能性较大，因此通过上述语音识别，按照每帧信号的目标语音存在概率可将“今天”、“怎么样”这两个词语确定为当前帧信号存在语音，与上一帧信号的语音存在概率做平滑处理，得到最终平滑的语音存在概率，最后将当前帧的目标语音存在概率在子带上做均值处理，继而求得各个子带上的对数自然概率，最终当前帧的语音存在概率为子带对数自然概率的均值。通过阈值法最终得到当前帧是否存在语音的判定，继而HCLG解码图通过上述得到的语音存在是否的结论，直接将连续的语音段分割成句子形式，提高最终关键词的识别率。

综上所述，本发明通过对语音信号进行分帧，对每帧信号中的噪声进行噪声估计，继而计算得到当前帧信号的目标语音存在概率，结合目标语音存在概率以及解码图的解码策略，避免将纯噪音段识别成语音，提高在嘈杂环境下语音关键词识别率。

在本申请的一些实施例中，本发明实施例还公开了一种语音关键词识别装置，如图3所示，该装置用于实现以上各个方法实施例中记载的方法，其包括：获取单元301，用于从接收到的语音信号中获取当前帧信号的频域幅度谱；噪声估计单元302，用于对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱。计算单元303，用于根据所述当前帧信号的噪声功率谱以及上一帧信号的噪声功率谱，估算所述当前帧信号的初始后验信噪比；根据所述当前帧信号的初始后验信噪比和上一帧信号的后验信噪比，估算所述当前帧信号的初始先验信噪比；根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的目标语音存在概率；根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果。语音识别单元304，用于当所述判定结果为所述当前帧信号存在语音时，将当前帧信号输入预设解码图进行识别，得到识别结果。

上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在本申请的另一些实施例中，本发明实施例公开了一种服务器，如图4所示，该服务器可以包括：一个或多个处理器401；存储器402；显示器403；一个或多个应用程序(未示出)；以及一个或多个计算机程序404，上述各器件可以通过一个或多个通信总线405连接。其中该一个或多个计算机程序404被存储在上述存储器402中并被配置为被该一个或多个处理器401执行，该一个或多个计算机程序404包括指令，上述指令可以用于执行如图2及相应实施例中的各个步骤。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何在本发明实施例揭露的技术范围内的变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音关键词识别方法，其特征在于，所述方法包括：

从接收到的语音信号中获取当前帧信号的频域幅度谱；

对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱；

根据所述当前帧信号的噪声功率谱以及上一帧信号的噪声功率谱，估算所述当前帧信号的初始后验信噪比；

根据所述当前帧信号的初始后验信噪比和上一帧信号的后验信噪比，估算所述当前帧信号的初始先验信噪比；

根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的目标语音存在概率；

根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果；

当所述判定结果为所述当前帧信号存在语音时，将当前帧信号输入预设解码图进行识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的语音存在概率，包括：

根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的初始语音存在概率；

对所述当前帧信号的初始语音存在概率和上一帧信号的语音存在概率进行平滑处理，得到所述当前帧信号的中间语音存在概率；

将所述全带划分为多个子带，以及将所述当前帧信号的中间语音存在概率在子带上做均值处理，求得各个子带上的对数自然概率；

计算所述各个子带上的对数自然概率的均值，得到帧信号的目标语音存在概率。

3.根据权利要求2所述的方法，其特征在于，根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果，包括：

当所述目标语音存在概率大于设定阈值时，得到所述当前帧信号存在语音的判定结果；

当所述目标语音存在概率小于或等于所述设定阈值时，得到所述当前帧信号不存在语音的判定结果。

4.根据权利要求1所述的方法，其特征在于，对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱，包括：

根据上一帧信号的噪声功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的噪声功率谱。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述预设解码图为HCLG解码图。

6.一种语音关键词识别装置，其特征在于，所述装置包括：

获取单元，用于从接收到的语音信号中获取当前帧信号的频域幅度谱；

噪声估计单元，用于对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱；

计算单元，用于根据所述当前帧信号的噪声功率谱以及上一帧信号的噪声功率谱，估算所述当前帧信号的初始后验信噪比；根据所述当前帧信号的初始后验信噪比和上一帧信号的后验信噪比，估算所述当前帧信号的初始先验信噪比；根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的目标语音存在概率；根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果；

语音识别单元，用于当所述判定结果为所述当前帧信号存在语音时，将当前帧信号输入预设解码图进行识别，得到识别结果。

7.根据权利要求6所述的装置，其特征在于，所述计算单元根据所述当前帧信号的初始后验信噪比、所述初始先验信噪比，计算得到所述当前帧信号的语音存在概率，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述语音识别单元根据所述目标语音存在概率，对所述当前帧信号是否存在语音进行判定，得到判定结果，包括：

9.根据权利要求6所述的装置，其特征在于，所述噪声估计单元对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱，包括：

10.根据权利要求6至9任一项所述的装置，其特征在于，所述预设解码图为HCLG解码图。

11.一种终端设备，其特征在于，包括：处理器及存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。