CN113593546B

CN113593546B - 终端设备唤醒方法和装置、存储介质及电子装置

Info

Publication number: CN113593546B
Application number: CN202110714965.7A
Authority: CN
Inventors: 葛路奇; 张卓博; 朱文博
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2023-09-15
Anticipated expiration: 2041-06-25
Also published as: CN113593546A

Abstract

本发明公开了一种终端设备唤醒方法和装置、存储介质及电子装置，其中，上述方法包括：获取待识别的音频数据；在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；在音频识别结果达到唤醒条件的情况下，将终端设备调整为唤醒状态。采用上述技术方案，解决了现有技术中终端设备的唤醒性能差的问题。

Description

终端设备唤醒方法和装置、存储介质及电子装置

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种终端设备唤醒方法和装置、存储介质及电子装置。

背景技术

在终端设备语音交互领域，终端设备一般处于待机状态，如果需要与终端设备进行交互，第一步是先将终端设备唤醒，目标集成于终端的唤醒算法，当录入噪音或者用户的其他非唤醒语音导致设备误唤醒，给用户的正常生活带来许多不便。

针对上述问题，现有技术中一般会采用二次校验的方式进行辅助校准，以降低误唤醒，但用于第二次唤醒校验的模型一般都是精度更高的大模型，不好部署于终端，一般都存放于云端，由于网络传输、云端计算等，会增加唤醒响应时间，造成了设备的唤醒性能差的问题。

针对相关技术，终端设备的唤醒性能差的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种终端设备唤醒方法和装置、存储介质及电子装置，以至少解决在终端设备的唤醒过程中，唤醒性能差的问题。

根据本发明实施例的一方面，提供一种终端设备唤醒方法，包括：获取待识别的音频数据；在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；在音频识别结果达到唤醒条件的情况下，将终端设备调整为唤醒状态。

可选地，上述在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果之后，还包括：在用于指示上述音频数据中携带有唤醒信息的音频识别结果的数量大于第一阈值的情况下，确定上述音频识别结果达到唤醒条件。

可选地，上述在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果包括：将上述至少两个唤醒模型中的每个唤醒模型分别作为当前唤醒模型，并执行以下操作：在上述当前唤醒模型中提取上述音频数据在当前维度下的音频特征；对上述当前维度下的音频特征进行唤醒识别；在从上述当前维度下的音频特征中识别出唤醒关键词的情况下，确定上述音频识别结果中携带有上述唤醒信息。

可选地，上述在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果之后，还包括：将上述音频数据依次输入上述至少两个唤醒模型的每个唤醒模型中，得到上述音频识别结果，其中，在上述至少两个唤醒模型中相邻的两个唤醒模型中，第一唤醒模型的输出结果与上述音频数据将同时输入第二唤醒模型中，上述第一唤醒模型位于上述第二唤醒模型之前。

可选地，上述在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果包括：在最后一个唤醒模型的输出结果指示上述音频数据中携带有唤醒关键词的情况下，确定上述音频识别结果达到上述唤醒条件。

可选地，在上述获取待识别的音频数据之前，还包括：获取多个样本音频数据；利用上述多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到上述至少两个唤醒模型。

可选地，上述利用上述多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到上述至少两个唤醒模型包括：遍历至少两个初始化唤醒模型执行以下操作，直至达到收敛条件：确定待训练的当前初始化唤醒模型；在上述当前初始化唤醒模型并非首个初始化唤醒模型的情况下，获取在上述当前初始化唤醒模型之前的上一个初始化唤醒模型训练后得到的参考训练结果；利用参考训练结果及多个样本音频数据，对当前初始化唤醒模型进行训练，得到当前训练结果；在上述当前初始化唤醒模型为首个初始化唤醒模型的情况下，利用上述多个样本音频数据对上述当前初始化唤醒模型进行训练，得到当前训练结果；在上述当前训练结果并未达到上述收敛条件的情况下，将在上述当前初始化唤醒模型之后的下一个初始化唤醒模型，确定为上述当前初始化唤醒模型。

可选地，上述利用上述多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到上述至少两个唤醒模型包括：在上述至少两个初始化唤醒模型包括两个初始化唤醒模型的情况下，将上述多个样本音频数据中的部分音频数据作为训练集输入第一初始化唤醒模型进行训练，并将上述多个样本音频数据中的剩余音频数据作为测试集输入上述第一初始化唤醒模型进行预测，得到预测结果；将上述第一初始化唤醒模型的预测结果及上述多个样本音频数据进行拼接，得到拼接数据；将上述拼接数据输入第二初始化唤醒模型进行训练，直至达到收敛条件，其中，在达到上述收敛条件时，得到上述至少两个唤醒模型。

根据本发明实施例的另一方面，提供一种终端设备唤醒装置，包括：获取单元，用于获取待识别的音频数据；提取单元，用于在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从上述音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与上述唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；调整单元，用于在上述音频识别结果达到唤醒条件的情况下，将上述终端设备调整为唤醒状态。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行广告展示方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述广告展示方法。

通过本发明实施例，获取待识别的音频数据；在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；在音频识别结果达到唤醒条件的情况下，将终端设备调整为唤醒状态。也就是说，通过在终端设备部署至少两个唤醒模型，分别提取不同维度下的音频特征，进而得到每个唤醒模型对应的音频识别结果。然后基于得到的音频识别结果判断是否达到终端设备的唤醒条件，在达到唤醒条件的情况下，将终端设备的状态调整为唤醒状态。也即通过上述至少一个唤醒模型，对音频数据进行不同维度下的特征提取及音频识别，解决了单一模型进行唤醒识别过程中出现的唤醒性能差的问题。进而提升了音频识别结果的可靠性，提高了终端设备的唤醒性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示例性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的终端设备唤醒方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的终端设备唤醒方法的流程图；

图3是根据本发明实施例的一种可选的终端设备唤醒方法的示意图(一)；

图4是根据本发明实施例的一种可选的终端设备唤醒方法的示意图(二)；

图5是相关技术中终端设备唤醒方法的示意图(一)；

图6是相关技术中终端设备唤醒方法的示意图(二)；

图7是根据本发明实施例的一种可选的唤醒模型的训练方法的流程图；

图8根据本发明实施例的另一种可选的唤醒模型的训练方法的流程图；

图9根据本发明实施例的又一种可选的唤醒模型的训练方法的示意图；

图10是根据本发明实施例的终端设备唤醒装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种终端设备唤醒方法，可选地，作为一种可选的实施方式，上述终端设备唤醒方法可以但不限于用于如图1所示的硬件环境中的终端设备唤醒***中，其中，该终端设备唤醒***可以包括但不限于终端设备102、网络104、服务器106及数据库108。终端设备102中运行有使用目标用户账号登陆的目标客户端(如图1所示该目标客户端以音频识别客户端为例。上述终端设备102中包括人机交互屏幕、处理器及存储器。人机交互屏幕用于显示处于运行状态下的终端设备的唤醒场景(如终端设备为等待状态还是唤醒状态)；还用于提供人机交互接口以接收用于实现终端设备唤醒的人机交互操作。处理器用于相应上述人机交互操作生成交互指令，并将该交互指令发送给服务器。存储器用于存储显示界面中包括的各目标广告对应的功能页面信息。

此外，服务器106中包括处理引擎，处理引擎用户对数据库108执行存储或读取操作，如存储上述终端设备的状态及对应的唤醒模型的功能信息，以完成本实施例中提供的终端设备唤醒过程。

具体过程如以下步骤：如步骤S102，获取待识别的音频数据，并在终端设备内配置至少两个唤醒模型的情况下，执行步骤S104。在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征。在音频识别结果达到唤醒条件的情况下，将终端设备调整为唤醒状态，如步骤S106。然后执行步骤S108-S110，将与唤醒模型对应的音频识别结果通过网络104发送给服务器106，服务器106将上述与唤醒模型对应的音频识别结果存储到数据库108中。

上述图1所示界面及流程步骤为示例，上述步骤也可以在处理能力较强的独立的一个硬件设备中执行看，本申请实施例对此不作限定。

需要说明的是，在本实施例中，在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，分别从音频数据中提取不同维度下的音频特征并进行唤醒识别，得到与每个唤醒模型对应的音频识别结果。在音频识别结果达到唤醒条件时，将终端设备调整为唤醒状态。也就是说，在不同唤醒模型中提取音频数据在不同维度下的音频特征，并对不同维度下的音频特征进行唤醒识别，基于不同唤醒识别结果对音频数据进行联合决策。当决策结果达到终端设备的唤醒条件时，将终端设备调整为唤醒状态，而在决策结果未达到终端设备的唤醒条件时，则终端设备的状态仍为等待状态。避免了单一唤醒模型的音频识别结果的局限性，提高了唤醒识别结果的可靠性，进而克服了相关技术中终端设备的唤醒性能差的问题。

可选地，在本实施例中，上述终端设备可以是支持运行目标应用的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标应用可以是视频应用、即时通信应用、浏览器应用、教育应用等支持运行目标任务，并显示目标任务中的任务场景的终端应用。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

为了解决在终端设备的唤醒过程中出现的唤醒性能差的问题，在本实施例中提供了一种终端设备的唤醒方法，图2是根据本发明实施例的终端设备的唤醒方法的流程图，该流程包括如下步骤：

步骤S202，获取待识别的音频数据；

步骤S204，在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；

步骤S206，在音频识别结果达到唤醒条件的情况下，将终端设备调整为唤醒状态。

在上述步骤S202中，待识别的音频数据可以包括但不限于以下方式：直接获取用户语音作为音频数据；将用户语音提前存储在语音播放设备中，从提前存储的多条语音数据中选择一条进行播放，那么所播放的语音即为音频数据。

进一步地，基于步骤S202中确定的音频数据，利用配置在终端设备上的多个唤醒模型对音频数据进行特征提取，可以理解的是，不同类型的唤醒模型具有不同的精细度，所提取到的音频特征也就各不相同。基于不同维度下的音频特征进行唤醒识别，也就得到与每个唤醒模型分别对应的不同音频识别结果。避免了单一唤醒模型得到的音频识别结果的局限性，提高了音频识别过程的可靠性。

在上述步骤S206中，对音频识别结果是否达到唤醒条件的判别方式包括但不限于以下至少之一：

分别计算每个唤醒模型对应的音频识别结果中所包含的唤醒关键词与唤醒条件中的预设唤醒词之间的相似度，再将多个相似度进行加权求和得到总相似度，如果总相似度达到设定阈值，则达到唤醒条件；

分别计算每个唤醒模型对应的音频识别结果中所包含的唤醒关键词与唤醒条件中的预设唤醒词之间的相似度，当达到设定阈值的唤醒模型的数量与唤醒模型总数量之间的比例超过二分之一时，则达到唤醒条件。

需要说明的是，上述不同类型的唤醒模型均配置在同一终端设备上，基于每个唤醒模型得到的音频识别结果也可以快速地传输到终端设备的数据处理模块中，节约了数据传输时间，提升了终端设备的唤醒效率，进而提高唤醒性能。

在本实施例中，通过在终端设备部署不同类型的唤醒模型，根据多个模型的音频识别结果联合决策是否唤醒终端设备，提高了终端设备的唤醒率，降低了误唤醒频次，从而达到了提高终端设备的唤醒性能的效果。

在一个可选的实施例中，上述步骤S204之后，还包括：

在用于指示音频数据中携带有唤醒信息的音频识别结果的数量大于第一阈值的情况下，确定音频识别结果达到唤醒条件。

具体地，如图3所示，假设终端设备中的唤醒模块中有3个不同类型的模型A、模型B和模型C，分别将语音信号输入到模型A、模型B和模型C中，并得到与每个模型对应的3个语音识别结果。在3个语音识别结果中的2个指示语音信号中携带有唤醒信息的情况下，则确定经过3个模型识别后的结果达到唤醒条件。

作为一种可选的实施方案，上述至少两个唤醒模型对语音信号分别进行唤醒识别，得到与各唤醒模型对应的语音识别结果的实现方式如下：

将至少两个唤醒模型中的每个唤醒模型分别作为当前唤醒模型，并执行以下操作：

在当前唤醒模型中提取音频数据在当前维度下的音频特征；

对当前维度下的音频特征进行唤醒识别；

在从当前维度下的音频特征中识别出唤醒关键词的情况下，确定音频识别结果中携带有所述唤醒信息。

如图3所示，将训练数据输入到终端设备中的唤醒模型A，通过唤醒模型A提取第一维度下的语音特征，将第一维度下的语音特征与唤醒模块中的语音信号进行特征对比，得到训练结果R1，如步骤S304。在训练结果R1达到设定条件RR的情况下，确定经过唤醒模型A语音识别后的结果为：语音信号中携带有唤醒信息。在训练结果R1未达到设定条件RR的情况下，确定经过唤醒模型A语音识别后的结果为：语音信号中未携带唤醒信息。其中，训练结果可以包括但不限于为识别率，设定条件可以包括但不限于为识别率阈值。

同样地，将训练数据输入到终端设备中的唤醒模型B，通过唤醒模型B提取第二维度下的语音特征，将第二维度下的语音特征与唤醒模块中的语音信号进行特征对比，得到训练结果R2，如步骤S304。在训练结果R2达到设定条件RR的情况下，确定经过唤醒模型B语音识别后的结果为：语音信号中携带有唤醒信息。在训练结果R2未达到设定条件RR的情况下，确定经过唤醒模型B语音识别后的结果为：语音信号中未携带唤醒信息。其中，训练结果可以包括但不限于为识别率，设定条件可以包括但不限于为识别率阈值。

将训练数据输入到终端设备中的唤醒模型C，通过唤醒模型C提取第三维度下的语音特征，将第三维度下的语音特征与唤醒模块中的语音信号进行特征对比，得到训练结果C2，如步骤S304。在训练结果C2达到设定条件RR的情况下，确定经过唤醒模型C语音识别后的结果为：语音信号中携带有唤醒信息。在训练结果R3未达到设定条件RR的情况下，确定经过唤醒模型C语音识别后的结果为：语音信号中未携带唤醒信息。其中，训练结果可以包括但不限于为识别率，设定条件可以包括但不限于为识别率阈值。

在唤醒模型A和唤醒模型B的识别结果均为语音信号中携带有唤醒信息、唤醒模型C的识别结果为语音信号中未携带唤醒信息的情况下，记录指示语音信号中携带有唤醒信息的识别结果的数量为2，指示语音信号中未携带唤醒信息的识别结果的数量为1，因为2＞1，所以确定终端设备的语音识别结果为达到唤醒条件，如步骤S308。

也就是说，通过采用“少数服从多数”的原则，设定第一阈值，在经过唤醒模型A、唤醒模型B和唤醒模型C语音识别后的结果中，指示携带有唤醒信息的识别结果的数量为2，大于设定的第一阈值1，则确定语音识别结果达到唤醒条件。

需要说明的是，本实施中的唤醒模型A、唤醒模型B和唤醒模型C的获取方式和类型可以包括但不限于以下方式之一：通过集成学习得到的简单模型、经过某种训练后达到一定分类效果的精细模型。并且，用于语音识别的模型数量不作限定。

采用上述技术方案，通过多个不同结构的模型对同一组语音信号进行识别，然后对识别结果采用投票的方式(少数服从多数的原则)，共同决策是否唤醒终端设备。这种采用不同模型进行语音识别，并且多个模型联合决策的方式使得最终的识别结果更加合理，同时也提升了终端设备的唤醒率。

作为一种可选的实施例，如图4所示，上述在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果之后，还包括：

将音频数据依次输入至少两个唤醒模型的每个唤醒模型中，得到音频识别结果，其中，在至少两个唤醒模型中相邻的两个唤醒模型中，第一唤醒模型的输出结果与音频数据将同时输入第二唤醒模型中，第一唤醒模型位于第二唤醒模型之前。

如图4所示，在终端设备的唤醒模块中有两个相邻的唤醒模型A和唤醒模型B，先将音频数据A输入到唤醒模型A中，通过唤醒模型A对音频数据中的音频特征进行映射处理，将不同类别的音频特征进行区分。然后得到与音频数据中的多种音频特征对应的多个特征集合。可以理解的是，上述多个特征集合分布在数据库空间的各个子区域内，也即在整个数据库空间内呈现为依次分布的多个隐层数据。

将上述隐层数据中的倒数第二层与音频数据合并，合并后的数据作为唤醒模型B的输入，再次进行音频识别，得到的识别结果作为最终的输出。可以理解的是，由于唤醒模型B的输入数据中包含经模型训练A第一次映射处理后的音频特征，该部分第一次映射处理的音频特征再次通过唤醒模型B的第二次映射处理后，就可以将不同类别的数据进行更好地区分，进而得到更好的分类效果。

可以理解的是，上述唤醒模型A与唤醒模型B为相邻的两个模型，并且唤醒模型A位于唤醒模型B之前，将唤醒模型A处理后的部分输出(倒数第二层)传输给唤醒模型B，通过唤醒模型B对音频数据进行第二次判定，将唤醒模型B的输出作为最终的判定结果。也就是说，通过多个串联模型中互为相邻的模型之间，前一个模型的部分输出作为相邻的后一个模型的输入，对音频数据依次判定，进而得到分类效果更好的识别结果。

需要说明的是，上述唤醒模型A的是利用训练数据训练得到的一个较为精细的模型，此处对唤醒模型A的类型不作限定，例如：深度神经网络模型(Deep Neural Network，简称DNN)、卷积神经网络模型(Convolutional Neural Network，简称CNN)。上述唤醒模型B为简单的线性分类器，此处对唤醒模型B的具体类型也不作限定。

进一步地，在如图5所示的相关技术中，通过步骤S502，获取语音信号，并对语音信号进行处理；然后将处理后的语音信号输入唤醒模块，同时将经过唤醒模型A处理后的训练结果输入唤醒模块，如步骤S504-S506。通过唤醒模块判别是否达到唤醒条件，在达到唤醒条件的情况下，设备响应。

也就是说，终端设备的唤醒方案是在终端的信号处理之后部署唤醒模块，并由一个唤醒模型A来判断语音信号中是否包含唤醒信息，在判断结果为语音信号中包含有唤醒信息的情况下，则确定达到唤醒条件，设备响应，调整设备状态为唤醒状态。

可以理解的是，由于每个模型的精细程度不同，所存在的模型缺陷也不同，如果仅通过上述图1中的一个唤醒模型A对语音信号进行识别，可能会出现误唤醒，或者在某些场景下某类语音数据容易发生误唤醒且不易改进，影响用户体验。为了满足业务需求，降低误唤醒，会在云端部署一个复杂的精细的模型用来对音频做二次校验，具体过程如下：

如图6所示，通过步骤S602，获取语音信号，并对语音信号进行处理；然后将处理后的语音信号输入唤醒模块，同时将经过唤醒模型A处理后的训练结果输入唤醒模块，如步骤S604-S606。在唤醒模块处于唤醒状态的情况下，将唤醒结果上述给云端进行二次校验，并将校验结果返回给唤醒模块，如步骤S608-S610。通过唤醒模块判别是否达到唤醒条件，在达到唤醒条件的情况下，设备响应。

也就是说，在设备内的唤醒模型A对语音信号的唤醒结果中携带有唤醒信息的情况下，唤醒模型A将该唤醒结果传输给唤醒模块。当唤醒模块检测到唤醒结果时，将终端模块唤醒后的音频上传至云端进行分类(也即云端校验)，再将唤醒分类结果(校验结果)返回给终端。若返回结果为满足唤醒条件，则设备响应，调整设备为唤醒状态；若返回结果为不满足唤醒条件，则设备无响应。

需要留意的是，相关技术中使用云端唤醒校验的方式由于需要在终端唤醒之后将音频打包传送到云端，再由云端唤醒进行分类，之后将结果返回给终端，这样将增加唤醒响应时间(数据传输、云端计算)。如果遇到网络波动，响应时间将延长最大等待时间。由于云端唤醒是对终端唤醒模块唤醒后的音频进行校验，同时云端唤醒也需要在唤醒率和误唤醒之间博弈，调整参数，在尽量不漏唤醒词的情况下过滤误唤醒，总体的唤醒率是小于等于终端单一唤醒的唤醒率，小于终端单一唤醒的误唤醒频次，即会有一定程度的降低唤醒率。因此，采用终端+云端多个模型的二次校验方式的唤醒方式无法平衡唤醒率和误唤醒频次，也就造成了终端设备的唤醒性能差的问题。

而上述本发明实施例正是针对相关技术中的技术问题提出的改进，具体是通过在终端设备内配置至少两个唤醒模型，在多个串联模型中互为相邻的模型之间，前一个模型的部分输出作为相邻的后一个模型的输入，对音频数据依次判定，进而得到分类效果更好的分类结果。同时避免了云端的二次校验，降低了唤醒响应时间消耗，在不降低唤醒率的情况下降低了误唤醒频次，提高了终端设备的唤醒性能。

作为一种可选的实施例，上述第一唤醒模型的输出结果与音频数据将同时输入第二唤醒模型中之后，还包括：

在最后一个唤醒模型的输出结果指示所述音频数据中携带有唤醒关键词的情况下，确定所述音频识别结果达到所述唤醒条件。

也即多个相邻的唤醒模型依次对音频数据进行识别，每个唤醒模型均可得到一个输出结果，该输出结果中可能包含有指示音频数据中携带有唤醒关键词，也可能包含有指示音频数据中未携带有唤醒关键词。那么判断音频识别结果是否达到唤醒条件的依据为：当最后一个唤醒模型的输出结果中包含有指示音频数据中携带有唤醒关键词的情况下，确定达到唤醒条件。

通过上述判定过程，利用多个模型对音频数据依次进行不同维度下的唤醒识别，在此过程中，越靠后的唤醒模型对音频数据的分类效果越好，其输出结果的可靠性也就越高。因此，利用最后一个唤醒模型的输出结果来判定是否达到唤醒条件的方式，可以得到更优的分类效果，进而降低误唤醒频次，提高终端设备的唤醒率。

作为一种可选的实施方案，在上述步骤S202之前，还包括：

获取多个样本音频数据；

利用多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到至少两个唤醒模型。

具体地，如图7所示，利用多个样本音频数据，对两个初始化唤醒模型进行训练的流程包括：

S702，使用多个样本音频数据作为训练样本，将训练集按照比例划分成测试集和验证集；

S704，采用交叉验证法对训练测试集进行划分和验证，将训练测试集中的一部分作为测试集，剩余的部分作为训练集；

S706，使用训练集和测试集训练初始化唤醒模型；

S708，使用投票法进行投票得到预测结果，使用验证集计算得到唤醒模型的准确率；

S710，根据计算所得准确率来选择最优的唤醒模型。

在上述步骤S702中，对训练集进行划分的比例不作限定，例如可以是按照1:5的比例进行划分，也可以按照1:6的比例进行划分。

在上述步骤S704中，交叉验证法可以包括但不限于是十折交叉验证法，也就是将训练测试集中的十分之一作为测试集，剩余的十分之九作为训练集。然后利用该交叉验证法得到的测试集和训练集对初始化唤醒模型进行训练，得到训练结果，按照投票法对训练结果进行预测，最后使用验证集计算得到唤醒模型的准确率。

可以理解的是，采用神经网络模型对数据集进行训练的关键在于对权重参数的不停迭代更新，而上述使用验证集计算唤醒模型的准确率，指的就是通过两次迭代之间的权值变化，判断该变化(两次权值之间的误差)是否小于设定阈值，在两次迭代之间的权值变化小于设定阈值的情况下，就停止训练，得到满足分类效果的唤醒模型。

作为一种可选的实施方案，通过上述训练步骤，对至少两个初始化唤醒模型进行训练，得到至少两个唤醒模型的具体过程包括：

遍历至少两个初始化唤醒模型执行以下操作，直至达到收敛条件：

确定待训练的当前初始化唤醒模型；

在当前初始化唤醒模型并非首个初始化唤醒模型的情况下，获取在当前初始化唤醒模型之前的上一个初始化唤醒模型训练后得到的参考训练结果；

利用参考训练结果及多个样本音频数据，对当前初始化唤醒模型进行训练，得到当前训练结果；

在当前初始化唤醒模型为首个初始化唤醒模型的情况下，利用多个样本音频数据对上述当前初始化唤醒模型进行训练，得到当前训练结果；

在当前训练结果并未达到收敛条件的情况下，将在当前初始化唤醒模型之后的下一个初始化唤醒模型，作为上述当前初始化唤醒模型。

如图8所示，在本实施例中，通过步骤S802，确定当前初始化唤醒模型，然后将待识别的音频数据依次输入不同的初始化唤醒模型，并且每个初始化唤醒模型的输出将在下一个初始化唤醒模型中迭代计算，直到训练结果达到收敛条件的情况下，将最后一个初始化唤醒模型作为唤醒模型。

在上述迭代计算开始之前，首先需要根据步骤S804确定待训练的当前初始化唤醒模型是否为第一个初始化唤醒模型，其目的在于始终保证上一个初始化唤醒模型的训练结果能够作为输入，在当前初始化唤醒模型上进行迭代计算，以得到分类效果逐步提升的训练结果。

在步骤S806-S812中，在当前的初始化唤醒模型不是首个初始化唤醒模型的情况下，将当前的初始化唤醒模型之前的上一个初始化唤醒模型的训练结果作为参考训练结果，再将参考训练结果和多个样本音频数据一起输入到当前初始化唤醒模型进行训练，得到当前训练结果。并对当前训练结果进行判断，在当前训练结果达到收敛条件的情况下，则停止训练；在当前训练结果未达到收敛条件的情况下，则执行步骤S806，继续进行迭代计算。

需要说明的是，上述收敛条件可以包括但不限于两次迭代之间的权值变化小于预先设定的阈值时，则停止训练。

通过上述多个串联模型的训练过程，将待识别的音频数据依次输入不同的初始化唤醒模型，直到训练结果达到收敛条件的情况下，得到满足条件的唤醒模型。也就是说，通过多个模型的不同训练过程，可以有效避免音频数据中的漏唤醒，提高了终端设备的唤醒率。同时将多个唤醒模型的训练结果进行迭代计算，提高了对音频数据的识别率，进而降低终端设备的误唤醒率，实现提高终端设备唤醒性能的技术效果。

作为一种可选的实施例，对至少两个初始化唤醒模型进行训练，得到至少两个唤醒模型的具体过程还包括：

在至少两个初始化唤醒模型包括两个初始化唤醒模型的情况下，将多个样本音频数据中的部分音频数据作为训练集输入第一初始化唤醒模型进行训练，并将多个样本音频数据中的剩余音频数据作为测试集输入上述第一初始化唤醒模型进行预测，得到预测结果；

将第一初始化唤醒模型的预测结果及多个样本音频数据进行拼接，得到拼接数据；将拼接数据输入第二初始化唤醒模型进行训练，直至达到收敛条件，其中，在达到收敛条件时，得到上述至少两个唤醒模型。

具体地，如图9所示，采用stack学习方法，使用一或多个结构简单的从不同维度学习数据的模型，假设使用一个B模型，交叉验证的方式将训练数据分成N份进行N次训练，每次训练其中N-1份作为训练集给到B训练，1份作为测试集给到B预测，如图9中(a)所示。

如图9中(b)所示，将模型B的N次预测结果与原训练数据拼起来送入模型A进行训练。解码时数据先由B获得预测结果，再将预测结果与原训练数据作为A的输入值得到训练结果A。

需要说明的是，通过上述过程得到的训练结果A和训练结果B均需要达到收敛条件时，才能停止训练过程，得到满足条件的唤醒模型A和唤醒模型B。其中，收敛条件和上述实施例中出现的收敛条件相一致，此处不再赘述。

通过上述两个模型采用交叉验证的训练方式，将其中一个模型的部分预测结果输入到另外一个模型中，得到满足收敛条件的两个唤醒模型，通过采用多个模型的联合决策，提高对音频数据的识别率，进而提高终端设备的唤醒性能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

在本实施例中还提供了一种终端设备的唤醒装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图10是根据本发明实施例的终端设备的唤醒装置的结构框图，该装置包括：

第一获取单元1002，用于获取待识别的音频数据；

唤醒单元1004，用于在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；

调整单元1006，用于在音频识别结果达到唤醒条件的情况下，将终端设备调整为唤醒状态。

可选地，在上述实施例中的唤醒单元1004之后，还包括：

确定单元，用于在用于指示音频数据中携带有唤醒信息的音频识别结果的数量大于第一阈值的情况下，确定音频识别结果达到唤醒条件。

可选地，在上述实施例中的唤醒单元1004，还包括：

将上述至少两个唤醒模型中的每个唤醒模型分别作为当前唤醒模型，并执行以下模块中的操作：

提取模块，用于在当前唤醒模型中提取音频数据在当前维度下的音频特征；

第一唤醒模块，用于对当前维度下的音频特征进行唤醒识别；

第一确定模块，用于在从当前维度下的音频特征中识别出唤醒关键词的情况下，确定音频识别结果中携带有唤醒信息。

可选地，在上述实施例中的唤醒单元1004之后，还包括：

输入模块，用于将音频数据依次输入至少两个唤醒模型的每个唤醒模型中，得到音频识别结果，其中，在至少两个唤醒模型中相邻的两个唤醒模型中，第一唤醒模型的输出结果与音频数据将同时输入第二唤醒模型中，第一唤醒模型位于第二唤醒模型之前。

可选地，在上述实施例中的唤醒单元1004之后，还包括：

第一确定子模块，用于在最后一个唤醒模型的输出结果指示音频数据中携带有唤醒关键词的情况下，确定音频识别结果达到唤醒条件。

可选地，在上述第一获取单元之前，还包括：

第二获取单元，用于获取多个样本音频数据；

第一训练单元，用于利用多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到至少两个唤醒模型。

可选地，上述第一训练单元，包括：

遍历模块，用于遍历至少两个初始化唤醒模型执行以下操作，直至达到收敛条件：

第二确定模块，用于确定待训练的当前初始化唤醒模型；

第一训练模块，用于在当前初始化唤醒模型并非首个初始化唤醒模型的情况下，获取在当前初始化唤醒模型之前的上一个初始化唤醒模型训练后得到的参考训练结果；利用参考训练结果及多个样本音频数据，对当前初始化唤醒模型进行训练，得到当前训练结果；

第二训练模块，用于在当前初始化唤醒模型为首个初始化唤醒模型的情况下，利用多个样本音频数据对当前初始化唤醒模型进行训练，得到当前训练结果；

第三确定模块，用于在当前训练结果并未达到收敛条件的情况下，将在当前初始化唤醒模型之后的下一个初始化唤醒模型，确定为当前初始化唤醒模型。

可选地，上述第一训练单元，还包括：

预测模块，用于在至少两个初始化唤醒模型包括两个初始化唤醒模型的情况下，将多个样本音频数据中的部分音频数据作为训练集输入第一初始化唤醒模型进行训练，并将上述多个样本音频数据中的剩余音频数据作为测试集输入上述第一初始化唤醒模型进行预测，得到预测结果；

拼接模块，用于将第一初始化唤醒模型的预测结果及多个样本音频数据进行拼接，得到拼接数据；

第三训练模块，用于将拼接数据输入第二初始化唤醒模型进行训练，直至达到收敛条件，其中，在达到收敛条件时，得到至少两个唤醒模型。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待识别的音频数据；

S2，在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；

S3，在音频识别结果达到唤醒条件的情况下，将终端设备调整为唤醒状态。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待识别的音频数据；

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种终端设备唤醒方法，其特征在于，包括：

获取待识别的音频数据；

在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从所述音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与所述唤醒模型对应的音频识别结果，每个唤醒模型用于提取一种维度下的音频特征，包括：将所述音频数据依次输入所述至少两个唤醒模型的每个唤醒模型中，得到所述音频识别结果，其中，在所述至少两个唤醒模型中相邻的两个唤醒模型中，第一唤醒模型的输出结果与所述音频数据将同时输入第二唤醒模型中，所述第一唤醒模型位于所述第二唤醒模型之前；通过所述第一唤醒模型对所述音频数据中的音频特征进行第一次映射处理，得到第一次映射处理的音频特征，通过所述第二唤醒模型对所述第一次映射处理的音频特征进行映射处理；

在所述音频识别结果达到唤醒条件的情况下，将所述终端设备调整为唤醒状态，包括：在最后一个唤醒模型的输出结果指示所述音频数据中携带有唤醒关键词的情况下，确定所述音频识别结果达到所述唤醒条件。

2.根据权利要求1所述的方法，其特征在于，在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从所述音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与所述唤醒模型对应的音频识别结果之后，还包括：

在用于指示所述音频数据中携带有唤醒信息的所述音频识别结果的数量大于第一阈值的情况下，确定所述音频识别结果达到所述唤醒条件。

3.根据权利要求2所述的方法，其特征在于，在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从所述音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与所述唤醒模型对应的音频识别结果包括：

将所述至少两个唤醒模型中的每个唤醒模型分别作为当前唤醒模型，并执行以下操作：

在所述当前唤醒模型中提取所述音频数据在当前维度下的音频特征；

对所述当前维度下的音频特征进行唤醒识别；

在从所述当前维度下的音频特征中识别出唤醒关键词的情况下，确定所述音频识别结果中携带有所述唤醒信息。

4.根据权利要求1所述的方法，其特征在于，在所述获取待识别的音频数据之前，还包括：

获取多个样本音频数据；

利用所述多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到所述至少两个唤醒模型。

5.根据权利要求4所述的方法，其特征在于，利用所述多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到所述至少两个唤醒模型包括：

遍历所述至少两个初始化唤醒模型执行以下操作，直至达到收敛条件：

确定待训练的当前初始化唤醒模型；

在所述当前初始化唤醒模型并非首个初始化唤醒模型的情况下，获取在所述当前初始化唤醒模型之前的上一个初始化唤醒模型训练后得到的参考训练结果；利用所述参考训练结果及所述多个样本音频数据，对所述当前初始化唤醒模型进行训练，得到当前训练结果；

在所述当前初始化唤醒模型为首个初始化唤醒模型的情况下，利用所述多个样本音频数据对所述当前初始化唤醒模型进行训练，得到当前训练结果；

在所述当前训练结果并未达到所述收敛条件的情况下，将在所述当前初始化唤醒模型之后的下一个初始化唤醒模型，确定为所述当前初始化唤醒模型。

6.根据权利要求4所述的方法，其特征在于，利用所述多个样本音频数据对至少两个初始化唤醒模型进行训练，以得到所述至少两个唤醒模型包括：

在所述至少两个初始化唤醒模型包括两个初始化唤醒模型的情况下，将所述多个样本音频数据中的部分音频数据作为训练集输入第一初始化唤醒模型进行训练，并将所述多个样本音频数据中的剩余音频数据作为测试集输入所述第一初始化唤醒模型进行预测，得到预测结果；

将所述第一初始化唤醒模型的预测结果及所述多个样本音频数据进行拼接，得到拼接数据；

将所述拼接数据输入第二初始化唤醒模型进行训练，直至达到收敛条件，其中，在达到所述收敛条件时，得到所述至少两个唤醒模型。

7.一种终端设备唤醒装置，其特征在于，包括：

获取单元，用户获取待识别的音频数据；

提取单元，用于在终端设备内配置的至少两个唤醒模型的每个唤醒模型中，基于各自从所述音频数据中提取的不同维度下的音频特征分别进行唤醒识别，得到与所述唤醒模型对应的音频识别结果，其中，每个唤醒模型用于提取一种维度下的音频特征；

调整单元，用于在所述音频识别结果达到唤醒条件的情况下，将所述终端设备调整为唤醒状态；

所述提取单元还用于将所述音频数据依次输入所述至少两个唤醒模型的每个唤醒模型中，得到所述音频识别结果，其中，在所述至少两个唤醒模型中相邻的两个唤醒模型中，第一唤醒模型的输出结果与所述音频数据将同时输入第二唤醒模型中，所述第一唤醒模型位于所述第二唤醒模型之前；通过所述第一唤醒模型对所述音频数据中的音频特征进行第一次映射处理，得到第一次映射处理的音频特征，通过所述第二唤醒模型对所述第一次映射处理的音频特征进行映射处理；

所述调整单元还用于在最后一个唤醒模型的输出结果指示所述音频数据中携带有唤醒关键词的情况下，确定所述音频识别结果达到所述唤醒条件。

8.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至6任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。