CN112151015B

CN112151015B - 关键词检测方法、装置、电子设备以及存储介质

Info

Publication number: CN112151015B
Application number: CN202010915963.XA
Authority: CN
Inventors: 吕志强; 黄申
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2024-03-12
Anticipated expiration: 2040-09-03
Also published as: CN112151015A

Abstract

本申请公开了一种关键词检测方法、装置、电子设备以及存储介质，包括：对待识别语音进行特征提取，得到语音特征；根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测，得到唤醒词检测结果；当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时，则基于所述待识别语音的语音状态对所述语音特征进行分割；基于分割后语音特征、所述预设声学模型以及预设关键词，对所述待识别语音中的关键词进行检测，得到关键词检测结果；将所述唤醒词检测结果以及关键词检测结果进行融合，得到所述待识别语音的关键词识别结果，该方案在提高关键词检测效率的同时，还可以保证关键词检测的准确性。

Description

关键词检测方法、装置、电子设备以及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种关键词检测方法、装置、电子设备以及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值，在实际应用中，将人工智能技术应用于关键词检测中，通过机器的推理与决策的功能可以获得与语音信息对应的文本信息，为用户带来了极大的便利。

然而，目前关键词检测往往不能满足用户的需求，关键词检测的过程中经常出现延迟以及误识别等问题。

发明内容

本申请提供一种关键词检测方法、装置、电子设备以及存储介质，在提高关键词检测效率的同时，还可以保证关键词检测的准确性。

本申请提供了一种关键词检测方法，包括：

对待识别语音进行特征提取，得到语音特征；

根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测，得到唤醒词检测结果；

当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时，则基于所述待识别语音的语音状态对所述语音特征进行分割；

基于分割后语音特征、所述预设声学模型以及预设关键词，对所述待识别语音中的关键词进行检测，得到关键词检测结果；

将所述唤醒词检测结果以及关键词检测结果进行融合，得到所述待识别语音的关键词识别结果。

相应的，本申请还提供了一种关键词检测装置，包括：

提取模块，用于对待识别语音进行特征提取，得到语音特征；

第一检测模块，用于根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测，得到唤醒词检测结果；

分割模块，用于当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时，则基于所述待识别语音的语音状态对所述语音特征进行分割；

第二检测模块，用于基于分割后语音特征、所述预设声学模型以及预设关键词，对所述待识别语音中的关键词进行检测，得到关键词检测结果；

融合模块，用于将所述唤醒词检测结果以及关键词检测结果进行融合，得到所述待识别语音的关键词识别结果。

可选的，在本申请的一些实施例中，所述第二检测模块包括：

第一获取单元，用于根据所述预设声学模型，获取所述待识别语音中待识别词的音素信息；

检测单元，用于基于所述音素信息、分割后语音特征以及预设关键词对所述待识别语音中的关键词进行检测，得到关键词检测结果。

可选的，在本申请的一些实施例中，所述检测单元包括：

转译子单元，用于根据分割后语音特征对所述待识别语音进行文本转译，得到所述待识别语音的语音文本；

确定子单元，用于从所述语音文本中确定与所述音素信息对应的待识别词；

选择子单元，用于在确定的待识别词中选择与预设关键词匹配的待识别词，得到目标关键词集合。

可选的，在本申请的一些实施例中，所述选择子单元具体用于：

计算确定的待识别词与预设关键词之间的关键词相似度；

将关键词相似度大于预设值的待识别词确定为目标关键词，得到目标关键词集合。

可选的，在本申请的一些实施例中，所述转译子单元具体用于：

根据所述音素信息生成各分割后语音特征对应的音素序列；

利用预设语言模型对所述音素序列进行识别，得到所述待识别语音的语音文本。

可选的，在本申请的一些实施例中，所述第一检测模块包括：

第二获取单元，用于获取预设声学模型以及预设音素库；

识别单元，用于采用所述预设声学模型对所述语音特征进行识别，得到所述待识别语音中每个待识别词对应的音素信息；

选择单元，用于从预设音素库中选择与所述音素信息匹配的音素，得到目标音素；

生成单元，用于基于得到的目标音素，生成唤醒词集合。

可选的，在本申请的一些实施例中，所述选择单元具体用于：

从所述音素信息中提取所述待识别语音中每个待识别词对应的待识别音素；

计算提取的待识别音素与预设音素库每个候选音素之间的相似度，得到音素相似度；

将音素相似度大于预设音素相似度的候选音素，得到目标音素。

可选的，在本申请的一些实施例中，所述分割模块具体用于：

采集所述待识别语音中每一帧的语音帧信息，所述语音帧信息包括采集的语音帧以及所述语音帧对应的时间戳；

检测所述待识别语音中每一帧所处的语音状态；

将语音状态为激活状态的语音帧确定为目标语音帧；

根据确定的目标语音帧及其对应的时间戳，对所述语音特征进行分割。

本申请在对待识别语音进行特征提取，得到语音特征后，根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当所述唤醒词检测结果指示所述待识别语音中包含唤醒词时，则基于所述待识别语音的语音状态对所述语音特征进行分割，然后，基于分割后语音特征、所述预设声学模型以及预设关键词，对所述待识别语音中的关键词进行检测，得到关键词检测结果，最后，将所述唤醒词检测结果以及关键词检测结果进行融合，得到所述待识别语音的关键词识别结果，因此，本申请可以在提高关键词检测效率的同时，保证关键词检测的准确性。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请提供的关键词检测方法的场景示意图；

图1b是本申请提供的关键词检测方法的流程示意图；

图2a是本申请提供的关键词检测方法的另一流程示意图；

图2b是本申请提供的关键词检测***的流程图；

图2c是本申请提供的关键词检测方法中的神经网络训练方法；

图3是本申请提供的关键词检测装置的结构示意图；

图4是本申请提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供一种关键词检测方法、装置、电子设备和存储介质。

其中，该关键词检测装置具体可以集成在服务器中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，请参阅图1a，本申请提供一种关键词检测***，该关键词检测***包括用户10、终端20以及服务器30，终端20在接收到用户10通过终端20的麦克风输入的待识别语音后，将待识别语音传输至服务器30，服务器30对待识别语音进行特征提取，得到语音特征，然后，服务器30根据预设声学模型以及语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，服务器30则基于待识别语音的语音状态对语音特征进行分割，接着，服务器30基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，最后，服务器30将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果。

本申请提供的关键词检测方法，在对待识别语音进行关键词检测时，利用了唤醒词的音素信息，所以，可以提高识别待识别语音中的关键词的效率，同时，采用两级分别识别待识别语音中不同类的词(关键词和唤醒词)，即，在提高关键词检测效率的同时，保证关键词检测的准确性。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种关键词检测方法，包括：对待识别语音进行特征提取，得到语音特征，根据语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，则基于待识别语音的语音状态对语音特征进行分割，基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果。

请参阅图1b，图1b为本申请提供的关键词检测方法的流程示意图。该关键词检测方法的具体流程可以如下：

101、对待识别语音进行特征提取，得到语音特征。

例如，具体的，可以通过终端设备(如手机或笔记本电脑)的麦克风采集到待识别语音，也可以利用有线或无线通信方式，从网络数据库中下载待识别语音，还可以通过访问本地数据库，以获取到待识别语音，具体根据实际情况进行选择，在获取到待识别语音后，可以采用深度学习网络提取待识别语音的特征。

102、根据预设声学模型以及语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果。

需要说明的是，在本申请中，唤醒词可以为单字或单词，其中，唤醒词检测结果包括检测到的唤醒词、以及唤醒词的音素信息，语音中最小的基本单位是音素，音素是人类能区别一个单词和另一个单词的基础。音素构成音节，音节又构成不同的词和短语。音素又分为元音和辅音；元音，又称母音，是音素的一种，与辅音相对。元音是在发音过程中由气流通过口腔而不受阻碍发出的音。不同的元音是由口腔不同的形状造成的(元音和共振峰关系密切)；气流在口腔或咽头受到阻碍而形成的音叫做辅音，又叫子音，不同的辅音是由发音部位和发音方法的不同造成的，清音和浊音的概念在文献中涉及较多，严格来讲，很多特征的提取都需要区分清音和浊音，当气流通过声门时,如果声道中某处面积很小，气流高速冲过此处时产生湍流，当气流速度与横截面积之比大于某个临界速度便产生摩擦音，即清音。简单来说，发清音时声带不振动，因此清音没有周期性。清音由空气摩擦产生，在分析研究时等效为噪声，在语音学中，将发音时声带振动的产生音称为浊音。辅音有清有浊，而多数语言中的元音均为浊音。浊音具有周期性。

例如，可以利用预设声学模型和预设音素库对待识别语音中的唤醒词进行检测，具体的，利用预设声学模型对语音特征进行处理，得到待识别语音中的每个待识别词对应的音素信息，然后，再从预设音素库中选择与音素信息匹配的音素，以得到唤醒词检测结果，即，可选的，在一些实施例中，步骤“根据语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果”，具体可以包括：

(11)获取预设声学模型以及预设音素库；

(12)采用预设声学模型对语音特征进行识别，得到待识别语音中每个待识别词对应的音素信息；

(13)从预设音素库中选择与音素信息匹配的音素，得到目标音素；

(14)基于得到的目标音素，生成唤醒词集合。

其中，该声学模型是预先构建的，并且，该声学模型可以通过长短期记忆网络(Long Short-Term Memory，LSTM)和连接时序分类(Connectionist TemporalClassification，CTC)进行联合训练得到的，传统的声学模型训练，对于每一帧的数据，需要知道对应的标签才能进行有效的训练，在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代，来确保对齐更准确，因此，整个训练的过程相当耗时，与传统的声学模型训练相比，采用CTC作为损失函数的声学模型训练，是一种完全端到端的声学模型训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注，并且CTC直接输出序列预测的概率，不需要外部的后处理，而LSTM是一种时间循环神经网络，是为了解决一般的。循环神经网络(Recurrent Neural Network,RNN)存在的长期依赖问题而专门设计出来的神经网络，由于在LSTM中做了一些特殊的处理，因此，采用LSTM和CTC联合训练的方式不会出现梯度消失或者梯度***的问题。

其中，步骤“从预设音素库中选择与音素信息匹配的音素，得到目标音素”，具体可以包括：

(21)从音素信息中提取待识别语音中每个待识别词对应的待识别音素；

(22)计算提取的待识别音素与预设音素库中每个音素之间的相似度，得到音素相似度；

(23)将音素相似度大于预设音素相似度的音素确定为目标音素。

需要说明的是，预设音素相似度可以根据实际需求进行设置，比如可以设置为60％、80％或者90％。

103、当唤醒词检测结果指示待识别语音中包含唤醒词时，基于待识别语音的语音状态对语音特征进行分割。

在本申请中，为了提高后续关键词检测的效率，将关键词检测的方案与环形词检测的方案进行级联，当唤醒词检测结果指示待识别语音中包含唤醒词时，则可以进行关键词检测。

其中，需要说明的，在关键词检测的过程中，经常存在实际语音因背景噪声的干扰而与训练失配的情况，实际这也是造成关键词检测***鲁棒性差的一个根本原因(另一个主要的是无法处理非预期的输入)，从而导致检测错误，性能下降。哪怕是两段内容上是完全一致的语音信号，可能由于语速不一样，所以语音信号的时间也不相同，音素之间的时间间隙也就不一样，对于时变而非平稳的语音信号来说，其特征就完全不相同了。有音素之间的间隙，也有静音和语音本身的间隙，如果环境是安静的环境，没有太多背景噪声，此时关键词检测***的主要错误来源于端点检测技术不精确，因此，为了提高后续关键词检测的准确性，在本申请中，可以利用语音活动检测技术(Voice Activity Detection,VAD)对语音特征进行分割，这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点，因为语音中含有很长的静音，也就是把静音和实际语音分离开来，因为是语音数据的原始处理，所以VAD是语音信号处理过程的关键技术之一，其中，语音状态包括激活状态(存在语音的状态)和静默状态(不存在语音的状态)。

例如，可以确定语音信息中每个语音帧所处的语音状态，然后，根据处于激活状态的语音帧对语音特征进行分割，即，可选的，在一些实施例中，步骤“基于待识别语音的语音状态对语音特征进行分割”，具体可以包括：

(31)采集待识别语音中每一帧的语音帧信息；

(32)检测待识别语音中每一帧所处的语音状态；

(33)将语音状态为激活状态的语音帧确定为目标语音帧；

(34)根据确定的目标语音帧及其对应的时间戳，对语音特征进行分割。

语音帧信息包括采集的语音帧以及语音帧对应的时间戳，比如，采集到待识别语音的100帧语音帧，其在时间上连续，其中，第10帧～第20帧语音帧处于激活状态，第25帧～第28帧语音帧处于激活状态、以及第59帧～第79帧语音帧处于激活状态，则将语音状态为激活状态的语音帧确定为目标语音帧，然后，基于目标语音帧对应的时间戳，对语音特征进行分割，得到第10帧～第20帧语音帧对应的语音特征、第25帧～第28帧语音帧对应的语音特征、第59帧～第79帧语音帧对应的语音特征以及其他处于静默状态的语音帧对应的语音特征。

为了实现唤醒词检测方案与关键词检测方案之间的级联，具体的，可以将特征提取与声学建模部分与唤醒模块的进行合并，实现这两部分计算任务的复用，需要说明的是，关键词检测的声学模型通常采用区分性训练目标函数，而唤醒词检测的声学模型通常使用交叉熵(Cross Entropy)目标函数，二者在训练目标上可能存在微小的差别，为了实现本申请的级联方案，可以使用以下三种策略进行模型部分的复用，如图2c所示，在图2c中，(a)方案和(b方案)均只使用一种训练目标函数训练模型，以实现唤醒词检测和关键词检测这两个任务间的复用，(c)方案仅在最后一层映射层采用两种不同目标函数，这样既可以维持两种任务各自的训练优势，又可以最大限度共享模型部分的计算，使用该技术方案进行唤醒结果二次确认后，能够在复杂的直播游戏场景下仅适用少量训练数据即可将关键词检测F1结果从64％提升到73％，在召回率不变的情况下，精准度提升22％。在性能提升的同时，整体业务上实时率大致估算降低17％。

104、基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果。

在本申请中，关键词检测方案复用了唤醒词检测方案的声学模型部分，即，在唤醒词检测方案的基础上增加了分割语音特征的部分以及关键词检测的部分，其所采用的依然是唤醒词检测方案时所产生的音素信息，具体的，在一些实施例中，可以根据声学模型，获取待识别语音中待识别词的音素信息，然后，基于音素信息、分割后语音特征以及预设关键词对待识别语音中的关键词进行检测，得到关键词检测结果。

进一步的，为了将人的语言转化为机器所能识别的语言，因此，可以基于分割后语音特征对待识别语音进行文本转译，然后，在转译结果的基础上进行关键词检测，即，可选的，在一些实施例中，步骤“基于音素信息、分割后语音特征以及预设关键词对待识别语音中的关键词进行检测，得到关键词检测结果”，具体可以包括：

(41)根据分割后语音特征对待识别语音进行文本转译，得到待识别语音的语音文本；

(42)从语音文本中确定与音素信息对应的待识别词；

(43)在确定的待识别词中选择与预设关键词匹配的待识别词，得到目标关键词集合。

需要说明的是，若直接根据语音特征对待识别语音进行文本转译，所得到的语音文本必定包含了噪声对应的文本，因此，在本申请中，基于分割后语音特征对待识别语音进行文本转译可以提高对待识别语音转译的准确性，从而提高后续关键词检测的准确性。

其中，可以利用语言模型对待识别语音进行文本转译，语言模型是许多***的基本部分，它试图解决机器翻译和语言识别等自然语言处理任务，其中，语言模型可以是N-gram模型，采用计数统计的方式，在离散空间下表示语言的分布；也可以是神经网络模型，神经网络语言模型采用分布式的方式表示词，即通常所说的词向量，将词映射到连续的空间内，有效地解决了数据稀疏问题。并且神经网络具有很强的模式识别能力。

具体的，可以获取预设语言模型，利用预设语言模型对音素序列进行识别，得到待识别语音的语音文本，即，可选的，在一些实施例中，步骤“根据分割后语音特征对待识别语音进行文本转译，得到待识别语音的语音文本”，具体可以包括：

(51)根据音素信息生成各分割后语音特征对应的音素序列；

(52)利用预设语言模型对音素序列进行识别，得到待识别语音的语音文本。

其中，该语言模型是预先构建具体的，具体可通过对大量文本信息进行训练，得到单个字或者词相互关联的概率，在利用语言模型待识别语音中的第二类关键词进行识别的流程中，首先，可以利用预设语言模型对分割后对应的音素序列进行识别，进而得到分割后语音特征对应的语音文本，实现对分割后语音特征的文本转译

在得到语音文本后，可以根据预设关键词对语音文本中的关键词进行识别，得到关键词集合，具体的，可以对语音文本进行分词，以便后续从语音文本选择与预设关键词匹配的待识别词，得到目标关键词集合，其中，分词技术属于自然语言理解技术的范畴，是语义理解的首要环节，它是能将语句中的词语正确切分开的一种技术。它是文本分类、信息检索、机器翻译以及文本的语音输入输出等领域的基础。而由于中文本身的复杂性及其书写习惯，使中文分词技术成为了分词技术中的难点。其中，分词方法可以包括基于词典的方法、基于统计的方法和基于规则的方法，其中，基于词典的方法这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功；按照扫描方向的不同,该分词方法可以分为正向匹配和逆向匹配；按照长度的不同，可以分为最大匹配和最小匹配；而目前基于统计的分词算法有很多种，较为常见的算法是：基于互信息的概率统计算法以及基于组合度的汉语分词决策算法等等。

进一步的，可以计算确定的待识别词与预设关键词之间的关键词相似度，然后，将关键词相似度大于预设值的待识别词确定为目标关键词，得到目标关键词集合。

105、将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果。

其中，本申请将关键词检测方案级联至唤醒词检测方案后，在唤醒词检测方案中，可以通过降低唤醒词检测阈值提高一级检测(唤醒词检测)的召回率，在后续对唤醒词检测结果以及关键词检测结果进行融合中，提高唤醒词检测阈值，以生成待识别语音的关键词识别结果，比如，首先，从预设音素库中选择与音素信息匹配的音素，得到目标音素，然后，基于得到的目标音素，生成唤醒词集合，在此过程中可以设置匹配值(唤醒词检测阈值)为60％，当预设音素库的音素信息与之间的匹配值大于60％，则认为两者匹配，在后续融合方案中再做进一步筛选，比如，将匹配值设置80％，即，从唤醒词集合中选择匹配值大于80％的唤醒词，并将选择的唤醒词添加至关键词检测结果对应的关键词集合中，得到待识别语音的关键词识别结果。

本申请在对待识别语音进行特征提取，得到语音特征后，根据语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，则基于待识别语音的语音状态对语音特征进行分割，然后，调用在对待识别语音进行唤醒词检测时所对应的声学模型，接着，基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，最后，将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果，本申请提供的关键词检测方法，在对待识别语音进行关键词检测时，利用了唤醒词的音素信息，所以，可以提高识别待识别语音中的关键词的效率，同时，采用两级分别识别待识别语音中不同类的词(关键词和唤醒词)，即，在提高关键词检测效率的同时，保证关键词检测的准确性。

根据实施例所述的方法，以下将举例进一步详细说明。

在本实施例中将以该关键词检测装置具体集成在服务器中为例进行说明。

请参阅图2a，一种关键词检测方法，具体流程可以如下：

201、服务器对待识别语音进行特征提取，得到语音特征。

例如，具体的，服务器可以接收终端设备(如手机或笔记本电脑)的麦克风采集到待识别语音，服务器也可以利用有线或无线通信方式，从网络数据库中下载待识别语音，服务器还可以通过访问本地数据库，以获取到待识别语音，具体根据实际情况进行选择，服务器在获取到待识别语音后，可以采用深度学习网络提取待识别语音的特征。

202、服务器根据语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果。

其中，唤醒词检测结果包括检测到的唤醒词、以及唤醒词的音素信息，服务器利用预设声学模型对语音特征进行处理，得到待识别语音中的每个待识别词对应的音素信息，然后，再从预设音素库中选择与音素信息匹配的音素，以得到唤醒词检测结果。

203、当唤醒词检测结果指示待识别语音中包含唤醒词时，服务器基于待识别语音的语音状态对语音特征进行分割。

在本申请中，为了提高后续关键词检测的效率，将关键词检测的方案与环形词检测的方案进行级联，当唤醒词检测结果指示待识别语音中包含唤醒词时，则可以进行关键词检测，例如，服务器可以确定语音信息中每个语音帧所处的语音状态，然后，服务器根据处于激活状态的语音帧对语音特征进行分割，进一步的，服务器可以采集待识别语音中每一帧的语音帧信息，然后，服务器可以检测待识别语音中每一帧所处的语音状态，接着，服务器可以将语音状态为激活状态的语音帧确定为目标语音帧，最后，服务器可以根据确定的目标语音帧及其对应的时间戳，对语音特征进行分割。

204、服务器基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果。

例如，具体的，服务器可以根据声学模型，获取待识别语音中待识别词的音素信息，然后，基于音素信息、分割后语音特征以及预设关键词对待识别语音中的关键词进行检测，得到关键词检测结果。

205、服务器将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果。

其中，本申请将关键词检测方案级联至唤醒词检测方案后，在唤醒词检测方案中，可以通过降低唤醒词检测阈值提高一级检测(唤醒词检测)的召回率，在后续对唤醒词检测结果以及关键词检测结果进行融合中，提高唤醒词检测阈值，以生成待识别语音的关键词识别结果。

为了便于进一步理解本申请的关键词检测方案，本申请提供一种关键词检测***，请参阅图2b，如图所示为关键词检测***的流程图，其中，该关键词检测***包括唤醒词检测模块、关键词检测模块以及词融合模块，其中，唤醒词检测模块包括特征提取单元、声学识别单元以及解码单元，关键词检测模块包括分割单元和解码单元，其中，在唤醒词检测任务中，特征提取单元在对待识别语音进行特征提取后，将语音特征发送至声学识别单元，声学识别单元学习语音特征与音素信息之间的映射关系，然后，唤醒词检测模块中的解码单元用于识别唤醒词的发音序列，以得到唤醒词集合；此外，分割单元基于待识别语音的语音状态对语音特征进行分割，然后，关键词检测模块中的解码单元根据分割后语音特征、音素信息以及预设关键词，对待识别语音中的关键词进行识别，得到关键词集合，最后，词融合模块融合唤醒词集合和关键词集合，得到待识别语音的关键词识别结果。

本申请的服务器在对待识别语音进行特征提取，得到语音特征后，服务器根据语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，服务器则基于待识别语音的语音状态对语音特征进行分割，然后，服务器调用在对待识别语音进行唤醒词检测时所对应的声学模型，接着，服务器基于分割后语音特征、声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，最后，服务器将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果，本申请提供的服务器对待识别语音进行关键词检测时，利用了唤醒词的音素信息，所以，可以提高识别待识别语音中的关键词的效率，同时，采用两级分别识别待识别语音中不同类的词(关键词和唤醒词)，即，在提高关键词检测效率的同时，保证关键词检测的准确性。

为便于更好的实施本申请的关键词检测方法，本申请还提供一种基于上述关键词检测装置(简称识别装置)。其中名词的含义与上述关键词检测方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请提供的关键词检测装置的结构示意图，其中该识别装置可以包括提取模块301、第一检测模块302、分割模块303、第二检测模块304以及融合模块305，具体可以如下：

提取模块301，用于对待识别语音进行特征提取，得到语音特征。

例如，提取模块301可以采用深度学习网络提取待识别语音的特征。

第一检测模块302，用于根据预设声学模型以及语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果。

其中，唤醒词检测结果包括检测到的唤醒词、以及唤醒词的音素信息，第一检测模块302利用预设声学模型对语音特征进行处理，得到待识别语音中的每个待识别词对应的音素信息，然后，再从预设音素库中选择与音素信息匹配的音素，以得到唤醒词检测结果。

可选的，在一些实施例中，第一检测模块302具体可以包括：

第二获取单元，用于获取预设声学模型以及预设音素库；

识别单元，用于采用预设声学模型对所述语音特征进行识别，得到待识别语音中每个待识别词对应的音素信息；

选择单元，用于从预设音素库中选择与音素信息匹配的音素，得到目标音素；

生成单元，用于基于得到的目标音素，生成唤醒词集合。

可选的，在一些实施例中，选择单元具体可以用于：从音素信息中提取待识别语音中每个待识别词对应的待识别音素，计算提取的待识别音素与预设音素库每个候选音素之间的相似度，得到音素相似度，将音素相似度大于预设音素相似度的候选音素，得到目标音素。

分割模块303，用于当唤醒词检测结果指示待识别语音中包含唤醒词时，则基于待识别语音的语音状态对语音特征进行分割。

在本申请中，为了提高后续关键词检测的效率，将关键词检测的方案与环形词检测的方案进行级联，当唤醒词检测结果指示待识别语音中包含唤醒词时，则可以进行关键词检测，例如，分割模块303可以确定语音信息中每个语音帧所处的语音状态，然后，分割模块303根据处于激活状态的语音帧对语音特征进行分割，进一步的，分割模块303可以采集待识别语音中每一帧的语音帧信息，然后，分割模块303可以检测待识别语音中每一帧所处的语音状态，接着，分割模块303可以将语音状态为激活状态的语音帧确定为目标语音帧，最后，分割模块303可以根据确定的目标语音帧及其对应的时间戳，对语音特征进行分割，即，可选的，在一些实施例中，分割模块303具体可以用于：采集待识别语音中每一帧的语音帧信息，检测待识别语音中每一帧所处的语音状态，将语音状态为激活状态的语音帧确定为目标语音帧，根据确定的目标语音帧及其对应的时间戳，对所述语音特征进行分割。

其中，语音帧信息包括采集的语音帧以及语音帧对应的时间戳。

第二检测模块304，用于基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果。

例如，具体的，第二检测模块305可以根据预设声学模型，获取待识别语音中待识别词的音素信息，然后，第二检测模块305基于音素信息、分割后语音特征以及预设关键词对待识别语音中的关键词进行检测，得到关键词检测结果。

即，可选的，在一些实施例中，第二检测模块305具体可以包括：

第一获取单元，用于根据预设声学模型，获取待识别语音中待识别词的音素信息；

检测单元，用于基于音素信息、分割后语音特征以及预设关键词对待识别语音中的关键词进行检测，得到关键词检测结果。

可选的，在一些实施例中，检测单元具体可以包括：

转译子单元，用于根据分割后语音特征对待识别语音进行文本转译，得到识别语音的语音文本；

确定子单元，用于从语音文本中确定与音素信息对应的待识别词；

可选的，在一些实施例中，选择子单元具体可以用于：计算确定的待识别词与预设关键词之间的关键词相似度，将关键词相似度大于预设值的待识别词确定为目标关键词，得到目标关键词集合。

可选的，在一些实施例中，转译子单元具体可以用于：根据音素信息生成各分割后语音特征对应的音素序列，利用预设语言模型对音素序列进行识别，得到待识别语音的语音文本。

融合模块305，用于将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果。

本申请的提取模块301在对待识别语音进行特征提取，得到语音特征后，第一检测模块302根据语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，分割模块303则基于待识别语音的语音状态对语音特征进行分割，然后，第二检测模块304基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，最后，融合模块305将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果，本申请提供的关键词检测装置在对待识别语音进行关键词检测时，利用了唤醒词的音素信息，所以，可以提高识别待识别语音中的关键词的效率，同时，采用两级分别识别待识别语音中不同类的词(关键词和唤醒词)，即，在提高关键词检测效率的同时，保证关键词检测的准确性。

此外，本申请还提供一种电子设备，如图4所示，其示出了本申请所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监测。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

对待识别语音进行特征提取，得到语音特征，根据预设声学模型以及语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，则基于待识别语音的语音状态对语音特征进行分割，基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本申请在对待识别语音进行特征提取，得到语音特征后，根据预设声学模型以及语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，则基于待识别语音的语音状态对语音特征进行分割，然后，基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，最后，将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果，本申请提供的关键词检测方法，在对待识别语音进行关键词检测时，利用了唤醒词的音素信息，所以，可以提高识别待识别语音中的关键词的效率，同时，采用两级分别识别待识别语音中不同类的词(关键词和唤醒词)，即，在提高关键词检测效率的同时，保证关键词检测的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请所提供的任一种关键词检测方法中的步骤。例如，该指令可以执行如下步骤：

对待识别语音进行特征提取，得到语音特征，根据语音特征对待识别语音中的唤醒词进行检测，得到唤醒词检测结果，当唤醒词检测结果指示待识别语音中包含唤醒词时，则基于待识别语音的语音状态对语音特征进行分割，基于分割后语音特征、预设声学模型以及预设关键词，对待识别语音中的关键词进行检测，得到关键词检测结果，将唤醒词检测结果以及关键词检测结果进行融合，得到待识别语音的关键词识别结果。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请所提供的任一种关键词检测方法中的步骤，因此，可以实现本申请所提供的任一种关键词检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

以上对本申请所提供的一种关键词检测方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种关键词识别方法，其特征在于，包括：

对待识别语音进行特征提取，得到语音特征；

所述根据预设声学模型以及所述语音特征对所述待识别语音中的唤醒词进行检测，得到唤醒词检测结果，包括：获取预设声学模型以及预设音素库；采用所述预设声学模型对所述语音特征进行识别，得到所述待识别语音中每个待识别词对应的音素信息；设置一匹配值，从预设音素库中选择与所述音素信息匹配的音素，得到目标音素；基于得到的目标音素，生成唤醒词集合；

基于所述预设声学模型得到的所述待识别语音中待识别词的音素信息、分割后语音特征以及预设关键词，对所述待识别语音中的关键词进行检测，得到关键词检测结果；其中，在构建所述预设声学模型时，将特征提取与关键词检测模块的声学建模部分与唤醒检测模块的进行合并，以将所述关键词检测模块与唤醒检测模块进行复用，训练时在最后一层映射层采用两种不同目标函数进行训练，其中，所述关键词检测模块对应区分性函数，所述唤醒词检测模块对应交叉熵函数；

设置另一匹配值，从所述唤醒词集合中选择唤醒词，所述另一匹配值比得到所述目标音素时设置的匹配值大，将选择的唤醒词添加至关键词检测结果中，添加后的关键词检测结果即为所述待识别语音的关键词识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述预设声学模型得到的所述待识别语音中待识别词的音素信息、分割后语音特征以及预设关键词，对所述待识别语音中的关键词进行检测，得到关键词检测结果，包括：

根据分割后语音特征对所述待识别语音进行文本转译，得到所述待识别语音的语音文本；

从所述语音文本中确定与所述音素信息对应的待识别词；

在确定的待识别词中选择与预设关键词匹配的待识别词，得到目标关键词集合。

3.根据权利要求2所述的方法，其特征在于，所述在确定的待识别词中选择与预设关键词匹配的待识别词，得到目标关键词集合，包括：

计算确定的待识别词与预设关键词之间的关键词相似度；

4.根据权利要求2所述的方法，其特征在于，所述根据分割后语音特征对所述待识别语音进行文本转译，得到所述待识别语音的语音文本，包括：

根据所述音素信息生成各分割后语音特征对应的音素序列；

5.根据权利要求1所述的方法，其特征在于，所述从预设音素库中选择与所述音素信息匹配的音素，得到目标音素，包括：

计算提取的待识别音素与预设音素库中每个音素之间的相似度，得到音素相似度；

将音素相似度大于预设音素相似度的音素确定为目标音素。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述待识别语音的语音状态对所述语音特征进行分割，包括：

检测所述待识别语音中每一帧所处的语音状态；

将语音状态为激活状态的语音帧确定为目标语音帧；

7.一种关键词检测装置，其特征在于，包括：

所述第一检测模块，具体用于获取预设声学模型以及预设音素库；采用所述预设声学模型对所述语音特征进行识别，得到所述待识别语音中每个待识别词对应的音素信息；设置一匹配值，从预设音素库中选择与所述音素信息匹配的音素，得到目标音素；基于得到的目标音素，生成唤醒词集合；

调用模块，用于调用在对所述待识别语音进行唤醒词检测时所对应的声学模型；

第二检测模块，用于基于所述预设声学模块得到的所述待识别语音中待识别词的音素信息、分割后语音特征以及预设关键词，对所述待识别语音中的关键词进行检测，得到关键词检测结果；

其中，在构建所述预设声学模型时，将特征提取与关键词检测模块的声学建模部分与唤醒检测模块的进行合并，以将所述关键词检测模块与唤醒检测模块进行复用，训练时在最后一层映射层采用两种不同目标函数进行训练，其中，所述关键词检测模块对应区分性函数，所述唤醒词检测模块对应交叉熵函数；

融合模块，用于设置另一匹配值，从所述唤醒词集合中选择唤醒词，所述另一匹配值比得到所述目标音素时设置的匹配值大，将选择的唤醒词添加至关键词检测结果中，添加后的关键词检测结果即为所述待识别语音的关键词识别结果。

8.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-6任一项所述关键词检测方法的步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述关键词检测方法的步骤。