CN112634897B

CN112634897B - 设备唤醒方法、装置和存储介质及电子装置

Info

Publication number: CN112634897B
Application number: CN202011635662.8A
Authority: CN
Inventors: 赵培; 苏腾荣; 张卓博; 朱文博; 葛路奇
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-10-28
Anticipated expiration: 2040-12-31
Also published as: CN112634897A

Abstract

本发明公开了一种设备唤醒方法、装置和存储介质及电子装置。其中，该方法包括：获取目标音频信号，其中，目标音频信号为目标设备在目标时间区间内采集到的音频信号，在目标时间区间内所述目标设备的使用频率小于等于目标阈值；在目标音频信号中携带有唤醒关键词的情况下，将目标音频信号确定为候选音频信号，其中，唤醒关键词用于启动目标设备进入语音交互状态；将候选音频信号发送服务器，以使服务器对候选音频信号中的候选唤醒词进行识别校验；在服务器返回的识别校验结果指示唤醒关键词已通过校验的情况下，确定唤醒目标设备，并控制目标设备进入语音交互状态。本发明解决了设备唤醒准确性较低的技术问题。

Description

设备唤醒方法、装置和存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种设备唤醒方法、装置和存储介质及电子装置。

背景技术

随着智能语音应用技术的不断成熟，越来越多的家用设备应用了智能语音技术，语音交互的需求与使用场景不断增多。特别是在居家场所，人们越来越习惯于通过语音来下达指令，同时获取相应信息，因为语音交流本身就是人类交流的方式，这样释放了双手，并延伸了交流的距离，让人与智能家电的交互更加自然。

但在日常使用过程中，智能终端并不能完全准确的判断出用户的指令，以唤醒智能终端为例，当使用者发出“小优小优”的唤醒词时，智能终端会切换到唤醒模式，并对使用者进行相应的应答，但是这个过程会出现误判，即：把用户其他的语音或背景音当成唤醒词，或者对真正唤醒词没能做出唤醒反应。这些都会对用户的使用产生不好的体验，尤其是在夜间时段，智能设备的误唤醒，往往会打扰到使用者的休息，甚至惊吓到使用者。即，现有技术存在设备唤醒准确性较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种设备唤醒方法、装置和存储介质及电子装置，以至少解决设备唤醒准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种设备唤醒方法，包括：获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；在上述目标音频信号中携带有唤醒关键词的情况下，将上述目标音频信号确定为候选音频信号，其中，上述唤醒关键词用于启动上述目标设备进入语音交互状态；将上述候选音频信号发送服务器，以使上述服务器对上述候选音频信号中的上述候选唤醒词进行识别校验；在上述服务器返回的识别校验结果指示上述唤醒关键词已通过校验的情况下，确定唤醒上述目标设备，并控制上述目标设备进入上述语音交互状态。

根据本发明实施例的另一方面，还提供了一种设备唤醒装置，包括：第一获取单元，用于获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；第一确定单元，用于在上述目标音频信号中携带有唤醒关键词的情况下，将上述目标音频信号确定为候选音频信号，其中，上述唤醒关键词用于启动上述目标设备进入语音交互状态；发送单元，用于将上述候选音频信号发送服务器，以使上述服务器对上述候选音频信号中的上述候选唤醒词进行识别校验；第二确定单元，用于在上述服务器返回的识别校验结果指示上述唤醒关键词已通过校验的情况下，确定唤醒上述目标设备，并控制上述目标设备进入上述语音交互状态。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述设备唤醒方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的设备唤醒方法。

在本发明实施例中，获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；在上述目标音频信号中携带有唤醒关键词的情况下，将上述目标音频信号确定为候选音频信号，其中，上述唤醒关键词用于启动上述目标设备进入语音交互状态；将上述候选音频信号发送服务器，以使上述服务器对上述候选音频信号中的上述候选唤醒词进行识别校验；在上述服务器返回的识别校验结果指示上述唤醒关键词已通过校验的情况下，确定唤醒上述目标设备，并控制上述目标设备进入上述语音交互状态，利用在原有一次音频校验是否为唤醒词的基础上，再通过服务器对是否包括唤醒词进行二次音频校验，进而达到了准确唤醒设备的技术目的，从而实现了提高设备唤醒的准确性的技术效果，进而解决了设备唤醒准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的设备唤醒方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的设备唤醒方法的流程图的示意图；

图3是根据本发明实施例的一种可选的设备唤醒方法的示意图；

图4是根据本发明实施例的另一种可选的设备唤醒方法的示意图；

图5是根据本发明实施例的另一种可选的设备唤醒方法的示意图；

图6是根据本发明实施例的另一种可选的设备唤醒方法的示意图；

图7是根据本发明实施例的一种可选的设备唤醒装置的示意图；

图8是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种设备唤醒方法，可选地，作为一种可选的实施方式，上述设备唤醒方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102、网络110及服务器112，其中，该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。可选的，用户设备102可以但不限于为目标设备1024，其中，目标设备1024可以但不限于为物联网中的智能家居设备，可以但不限于通过目标设备1024采集目标范围内的音频信号，例如采集位于目标设备1024的目标范围内的目标对象1022发出的目标音频信号，并基于目标音频信号指示目标设备1024生成应答音频以及与目标音频信号对应的目标指令，目标指令用于指示目标设备1024执行目标事件。

具体过程可如下步骤：

步骤S102，用户设备102采集到由目标对象1022触发的目标音频信号，并由目标设备1024执行第一次识别检验，以检验目标音频信号是否包括与唤醒关键词对应的音频信号，其中，目标对象1022位于目标设备1024的音频采集范围内；

步骤S104-S106，用户设备102通过网络110将目标音频信号发送给服务器112；

步骤S108，由服务器通过处理引擎116执行第二次识别校验，并生成识别校验结果，以及将识别校验结果存储在数据库114中；

步骤S110-S112，服务器112通过网络110将识别校验结果发送给用户设备102，用户设备102中的处理器106根据识别校验结果以指示目标设备1024应答和/或执行对应的指令事件，并将指令事件的执行结果显示在显示器108中，以及将识别校验结果以及执行结果存储在存储器104中。

可选地，作为一种可选的实施方式，如图2所示，设备唤醒方法包括：

S202，获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；

S204，在目标音频信号中携带有唤醒关键词的情况下，将目标音频信号确定为候选音频信号，其中，唤醒关键词用于启动目标设备进入语音交互状态；

S206，将候选音频信号发送服务器，以使服务器对候选音频信号中的候选唤醒词进行识别校验；

S208，在服务器返回的识别校验结果指示唤醒关键词已通过校验的情况下，确定唤醒目标设备，并控制目标设备进入语音交互状态。

可选的，在本实施例中，设备唤醒方法可以但不限于应用在物联网场景下唤醒处于节电休眠状态的智能家居设备，其中，处于节电休眠状态的智能家居设备可以但不限于会保留语音信号接收通道为激活状态，语音信号接收通道会实时接收周围的声音信号，并把信号流输入到唤醒模型模块，由唤醒模型对信号进行阈值判断是否为人声，如果判断是人声，就进行语音激活检测(vad)、噪声抑制、回声消除、增益控制等一系列预处理，最后由上述唤醒模型模块型判断是否语音为唤醒词，并以此判断是否进行唤醒程序。由于智能终端设备产品的配置有限，无法烧录比较大的、精细的唤醒模型模块，于是唤醒模型模块会对语音信号是否为唤醒词有一定几率的误判，最后导致智能终端设备会发生非使用者意愿唤醒的情况，即：误唤醒现象。但利用上述设备唤醒方法，在由原唤醒模型模块执行的第一次识别校验的基础上，再由服务器执行第二次识别校验，因服务器可以拥有识别精度更高的唤醒模型模块，弥补了唤醒词的误判，提高了设备的唤醒准确性。

可选的，在本实施例中，目标时间区间可以但不限于免打扰时间区间、夜间时间区间、工作时间区间等***模式区间，也可以由用户灵活设置，在此仅为示例，并不做限制。因目标时间区间对设备唤醒的响应时长的要求较小，或者说用户在该目标时间区间内可以接受用于唤醒设备较长的时间，例如用户在夜间时间区间对设备的唤醒频次较低，且对唤醒设备的响应效率的容忍度较高，进而即使唤醒设备的响应时长较长，也不会极大地降低用户的体验，但用户在夜间时间区间对误唤醒现象的发生，容忍度还是比较低的，如果真的发生误唤醒现象且打扰到用户的修改，那么会极大地降低用户的体验。概括而言，在目标时间区间内，用户对唤醒设备的响应效率的容忍度较高，或在目标时间区间内，用户对误唤醒现象的发生容忍度较低。

可选的，在本实施例中，唤醒关键词可以但不限于唤醒设备，以指示设备进入语音交互状态，例如在唤醒关键词为“小A”的情况下，在目标设备检测到携带有“小A”的音频信号的情况下，则启动目标设备的语音交互状态，并进一步基于检测到的音频信号，执行对应的指令事件。可选的，唤醒关键词还可以但不限于包括以下至少之一：音频、音色、音调等。例如由用户B触发的音频信号，即使该音频信号包括“小A”，但音频、音色或音调与唤醒关键词不匹配，只有在检测到由用户A触发的音频信号“小A”，才能视为与唤醒关键词匹配。

可选的，在本实施例中，目标设备将目标音频信号确定为候选音频信号可以但不限于通过目标设备中的离线唤醒模型对目标音频信号执行的第一次识别校验，其中，因目标设备配置有限，往往无法烧录比较大的、精细离线唤醒模型，因此，离线唤醒模型对唤醒关键词的识别校验还是存在较大误差率的。

可选的，在本实施例中，在将存在较大误差率的候选音频信号发送至服务器，以使服务器对该候选音频信号执行第二次识别校验，其中，因服务器不存在配置局限的问题，可以配置有更加精细的模型以识别校验，大大提高了对唤醒关键词的识别校验准确性、

需要说明的是，获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；在目标音频信号中携带有唤醒关键词的情况下，将目标音频信号确定为候选音频信号，其中，唤醒关键词用于启动目标设备进入语音交互状态；将候选音频信号发送服务器，以使服务器对候选音频信号中的候选唤醒词进行识别校验；在服务器返回的识别校验结果指示唤醒关键词已通过校验的情况下，确定唤醒目标设备，并控制目标设备进入语音交互状态。

进一步举例说明，可选的设备唤醒方法的应用场景例如图3所示，包括目标对象302、目标设备304以及服务器306，目标设备304采集到目标对象302的一段连续/不连续的初始音频信号；由目标设备304执行第一次识别校验，以校验采集到的初始音频信号中是否包括唤醒关键词，在音频信号中包括唤醒关键词的情况下，目标设备304将初始音频信号处理成候选音频信号，并将该候选音频信号通过网络发送至服务器306；由服务器306执行第二次识别检验，以校验。候选音频信号中是否包括唤醒关键词。

通过本申请提供的实施例，获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；在目标音频信号中携带有唤醒关键词的情况下，将目标音频信号确定为候选音频信号，其中，唤醒关键词用于启动目标设备进入语音交互状态；将候选音频信号发送服务器，以使服务器对候选音频信号中的候选唤醒词进行识别校验；在服务器返回的识别校验结果指示唤醒关键词已通过校验的情况下，确定唤醒目标设备，并控制目标设备进入语音交互状态，利用在原有一次音频校验是否为唤醒词的基础上，再通过服务器对是否包括唤醒词进行二次音频校验，进而达到了准确唤醒设备的技术目的，从而实现了提高设备唤醒的准确性的技术效果。

作为一种可选的方案，在获取目标音频信号之后，还包括：

S1，将目标音频信号输入离线唤醒模型，其中，离线唤醒模型用于识别唤醒关键词；

S2，获取离线唤醒模型输出的第一识别结果，其中，第一识别结果用于指示目标音频信号中是否携带有唤醒关键词；

S3，在所述第一识别结果指示所述目标音频信号携带有所述唤醒关键词的情况下，将所述目标音频信号确定为所述候选音频信号。

可选的，在本实施例中，在将目标音频信号输入离线唤醒模型之前，可以但不限于先判断目标设备是否处于非语音交互状态(例如休眠状态、节点状态等)，进而在目标设备处于非语音交互状态的情况下，再将目标音频信号输入目标设备的离线唤醒模型中。

可选的，在本实施例中，处于非语音交互状态的目标设备会保留语音信号接收通道为激活状态，语音信号接收通道会实时接收周围的声音信号，并把信号流输入到离线唤醒模型，由离线唤醒模型对信号进行阈值判断是否为人声，如果判断是人声，就进行vad、噪声抑制、回声消除、增益控制等一系列预处理，最后由离线唤醒模型判断采集到的声音信号是否包括唤醒关键词词，并以此判断是否进行下一步的发送程序(例如将处理好的声音信号发送服务器)。

可选的，在本实施例中，基于第一识别结果处理目标音频信号，以获得候选音频信号可以但不限于将识别率大于等于预设阈值的唤醒关键词的(一段或一部分)音频信号，打包整理为候选音频信号，其中，即使离线唤醒模型对音频信号包括唤醒关键词的识别准确性较低，但离线唤醒模型对音频信号不包括唤醒关键词的识别准确性却不低，进而可将离线唤醒模型对音频信号作一个初步筛选，以提高后续校验识别的效率。

需要说明的是，将目标音频信号输入离线唤醒模型，其中，离线唤醒模型用于识别唤醒关键词；获取离线唤醒模型输出的第一识别结果，其中，第一识别结果用于指示目标音频信号中是否携带有唤醒关键词；在所述第一识别结果指示所述目标音频信号携带有所述唤醒关键词的情况下，将所述目标音频信号确定为所述候选音频信号。

通过本申请提供的实施例，将目标音频信号输入离线唤醒模型，其中，离线唤醒模型用于识别唤醒关键词；获取离线唤醒模型输出的第一识别结果，其中，第一识别结果用于指示目标音频信号中是否携带有唤醒关键词；在所述第一识别结果指示所述目标音频信号携带有所述唤醒关键词的情况下，将所述目标音频信号确定为所述候选音频信号，达到了初步筛选音频信号的目的，实现了提高整体音频识别校验的效率的效果。

作为一种可选的方案，在确定唤醒目标设备之后，还包括：

S1，播放与唤醒关键词对应的应答音频；或，

S1，在目标音频信号中还携带有执行关键词的情况下，播放应答音频，并执行与执行关键词对应的目标事件。

可选的，在本实施例中，应答音频可以但不限于为固定的音频信号，例如“在呢”。也可以但不限于为灵活设置的音频信号，例如设置有多个唤醒关键词，进而也可以设置与唤醒关键词对应的应答音频，例如与唤醒关键词“小A”对应的应答音频“小A在呢”。

可选的，在本实施例中，为了进一步提高设备的唤醒准确性，在识别到唤醒关键词的情况下，可以但不限于先不播放对应的应答音频，而是再识别执行关键词，并在识别到执行关键词的情况下，才播放对应的应答音频。

进一步举例说明，可选的基于图3所示场景，继续例如图4所示，假设唤醒关键词包括“小A”，执行关键词包括“把空调打开”，目标设备304采集到目标对象302发起的目标音频信号402，进一步，目标音频信号402依次通过目标设备304以及服务器306的识别校验，确定目标音频信号402包括唤醒关键词“小A”，进而启动目标设备304进入语音交互状态，但并不播放与该唤醒关键词对应的应答音频，原因在于并未在目标音频信号402中识别校验出执行关键词。

进一步举例说明，可选的基于图4所示场景，继续例如图5所示，假设当前目标设备304已开启语音交互状态，并在此基础上，目标设备304采集到目标对象302发起的下一时刻音频信号502(即目标音频信号402的采集时刻的下一时刻采集到的音频信号)，且由目标设备304，或由目标设备304以及服务器306识别校验下一时刻音频信号502中包括执行关键词，进而指示目标设备304执行与执行关键词对应的目标事件，例如目标设备304为智能空调，进而启动目标设备304进入工作状态。可选的，目标音频信号402与下一时刻音频信号502的采集间隔时长小于等于预设时长，该预设时长也可以但不限于为目标设备304的语音交互状态的开启持续时长，或者说，在启动目标设备304的语音交互状态的时长达到上述预设时长的情况下，关闭目标设备304的语音交互状态。

需要说明的是，播放与唤醒关键词对应的应答音频；或，在目标音频信号中还携带有执行关键词的情况下，播放应答音频，并执行与执行关键词对应的目标事件。

通过本申请提供的实施例，播放与唤醒关键词对应的应答音频；或，在目标音频信号中还携带有执行关键词的情况下，播放应答音频，并执行与执行关键词对应的目标事件，达到了降低设备运行的指示误差率的目的，实现了提高设备运行的指示准确性的效果。

作为一种可选的方案，在确定唤醒目标设备之前，还包括：

S1，将候选音频信号输入服务器的第一校验模型，其中，第一校验模型为利用多个样本音频数据进行训练后得到的用于识别唤醒关键词的神经网络模型；

S2，获取第一校验模型的第二识别结果，其中，第二识别结果用于指示候选音频信号中是否携带有唤醒关键词；

S3，基于第二识别结果确定识别校验结果。

可选的，在本实施中，第一校验模型可以但不限于为云端(服务器)调用的自动语音识别技术(ASR)模型，其中，ASR模型中可以但不限于包括多个子网络模型，例如词网络模型、字发音网络模型、半音节网络模型、音素网络模型、音色网络模型、音频网络模型等。

需要说明的是，目前的语音智能终端唤醒的方案，主要是在语音智能终端本身进行策略判断的，即离线唤醒模型在判断出是唤醒词后，语音智能终端会根据判别结果进行设备激活，对设备使用者进行应答，并沟通云端，为后续语音交互做准备。通常的语音智能设备在真正产品化时，会面临比技术研发环境更为苛刻的情况，因此，一个产品化的设备解决方案通常在识别效果和场景约束之间做出平衡，这就导致有限配置下，不能烧录比较精细的模型(通常模型越精细，模型就越大，所需配置越高)，会导致一定几率的误唤醒，这种误唤醒在夜间会对使用者造成比较大的困扰；

可选的，在本实施中，利用服务器的高精度的第一校验模型对疑似唤醒词进行二次判断策略，降低误唤醒率，其中，由于服务器的配置可理解为限制较小，进而就运行在服务器端烧录出更精细的模型作为第一校验模型，相比于离线唤醒模型，第一校验模型的配置更高、识别结果也更精细。

需要说明的是，将候选音频信号输入服务器的第一校验模型，其中，第一校验模型为利用多个样本音频数据进行训练后得到的用于识别唤醒关键词的神经网络模型；获取第一校验模型的第二识别结果，其中，第二识别结果用于指示候选音频信号中是否携带有唤醒关键词；基于第二识别结果确定识别校验结果。

通过本申请提供的实施例，将候选音频信号输入服务器的第一校验模型，其中，第一校验模型为利用多个样本音频数据进行训练后得到的用于识别唤醒关键词的神经网络模型；获取第一校验模型的第二识别结果，其中，第二识别结果用于指示候选音频信号中是否携带有唤醒关键词；基于第二识别结果确定识别校验结果，达到了利用较为精准的模型以识别校验唤醒关键词的目的，实现了提高唤醒关键词的识别校验准确性的效果。

作为一种可选的方案，在获取目标音频信号之前，还包括：

S1，获取多个样本音频数据；

S2，对每个样本音频数据中的音频数据的类型进行标记，得到标记后的多个样本音频数据，其中，每个标记后的样本音频数据中包括标记的热音标识和同音标识，热音标识用于标记记录次数大于等于热度阈值的音频数据，同音标识用于标记发音相似度大于等于音素阈值的音频数据；

S3，将标记后的多个样本音频数据输入初始第一校验模型，以训练得到第一校验模型。

可选的，在本实施例中，上述多个样本音频数据可以但不限于通过声纹识别将目标音频信号转换为电信号，进而以电信号的特征为依据确定上述音频数据的类型并进一步标记。训练得到第一校验模型可以但不限于基于CTC算法，其中CTC算法是针对一个输入序列到一个输出序列的结果的，换而言之CTC算法只针对预测输出的序列是否和真实的序列接近或相同，而不会针对预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。

可选的，在本实施例中，可以但不限于通过热词词表获取并标记记录次数大于等于热度阈值的音频数据，以及通过相似音词表获取并标记发音相似度大于等于音素阈值的音频数据，其中，热词词表中可以但不限于存储有多个次数大于等于热度阈值的音频数据，相似音词表中存储有多组发音相似度大于等于音素阈值的音频数据。

需要说明的是，获取多个样本音频数据；对每个样本音频数据中的音频数据的类型进行标记，得到标记后的多个样本音频数据，其中，每个标记后的样本音频数据中包括标记的热音标识和同音标识，热音标识用于标记记录次数大于等于热度阈值的音频数据，同音标识用于标记发音相似度大于等于音素阈值的音频数据；将标记后的多个样本音频数据输入初始第一校验模型，以训练得到第一校验模型。可选的，训练得到第一校验模型通过热词列表加音素泛化两层机制对采集到的音频信号进行识别校验。

通过本申请提供的实施例，获取多个样本音频数据；对每个样本音频数据中的音频数据的类型进行标记，得到标记后的多个样本音频数据，其中，每个标记后的样本音频数据中包括标记的热音标识和同音标识，热音标识用于标记记录次数大于等于热度阈值的音频数据，同音标识用于标记发音相似度大于等于音素阈值的音频数据；将标记后的多个样本音频数据输入初始第一校验模型，以训练得到第一校验模型，达到了可通过识别不同类型音频标识以确定唤醒关键词位置的目的，实现了提高模型精准度的效果。

作为一种可选的方案，将标记后的多个样本音频数据输入初始第一校验模型，以训练得到第一校验模型，包括：

S1，重复执行以下步骤，直至得到第一校验模型：

S2，从标记后的多个样本音频数据中确定出当前样本音频数据，并确定当前第一校验模型，其中，当前样本音频数据中包括标记的当前热音标识和当前同音标识；

S3，通过当前第一校验模型输出当前识别结果，其中，当前识别结果用于指示当前样本音频数据中是否包括唤醒关键词；

S4，在当前识别结果未达到识别收敛条件的情况下，获取下一个样本音频数据作为当前样本音频数据；

S5，在当前识别结果达到识别收敛条件的情况下，确定当前第一校验模型为第一校验模型。

需要说明的是，重复执行以下步骤，直至得到第一校验模型：从标记后的多个样本音频数据中确定出当前样本音频数据，并确定当前第一校验模型，其中，当前样本音频数据中包括标记的当前热音标识和当前同音标识；通过当前第一校验模型输出当前识别结果，其中，当前识别结果用于指示当前样本音频数据中是否包括唤醒关键词；在当前识别结果未达到识别收敛条件的情况下，获取下一个样本音频数据作为当前样本音频数据；在当前识别结果达到识别收敛条件的情况下，确定当前第一校验模型为第一校验模型。可选的，重复步骤停止的条件可以但不限于是第一校验模型的误差率低于预设阈值。

通过本申请提供的实施例，重复执行以下步骤，直至得到第一校验模型：从标记后的多个样本音频数据中确定出当前样本音频数据，并确定当前第一校验模型，其中，当前样本音频数据中包括标记的当前热音标识和当前同音标识；通过当前第一校验模型输出当前识别结果，其中，当前识别结果用于指示当前样本音频数据中是否包括唤醒关键词；在当前识别结果未达到识别收敛条件的情况下，获取下一个样本音频数据作为当前样本音频数据；在当前识别结果达到识别收敛条件的情况下，确定当前第一校验模型为第一校验模型，达到了高效地获取训练好的第一校验模型的目的，实现了提高第一校验模型的获取效率的效果。

作为一种可选的方案，在将标记后的多个样本音频数据输入初始第一校验模型，以训练得到第一校验模型之后，包括：

将训练好的第一校验模型进行压缩，以获得压缩后的第一校验模型。

可选的，在本实施例中，针对设备唤醒方法的反馈延迟较长的情况，利用唤醒关键词词比较单一的情况，对第一校验模型进行压缩，进而提升实时率，从而降低整体反馈时间。

可选的，在本实施例中，在获得训练好的第一校验模型之后，还可以将压缩后的第一校验模型作为第二校验模型，并将标记后的多个样本音频数据输入初始的第二校验模型，以训练得到第二校验模型，使得以压缩的形式克服高精度带来的多余反馈时长，并以二次训练的方式，在提升实时率、降低整体反馈时间的同时，还保留了一定的精度。

需要说明的是，将训练好的第一校验模型进行压缩，以获得初始第二校验模型；将标记后的多个样本音频数据输入初始第二校验模型，以训练得到第二校验模型。

通过本申请提供的实施例，将训练好的第一校验模型进行压缩，以获得初始第二校验模型；将标记后的多个样本音频数据输入初始第二校验模型，以训练得到第二校验模型，达到了提升实时率的目的，实现了降低整体反馈时间的效果。

作为一种可选的方案，为方便理解，以处于夜间模式的智能终端的唤醒场景图6为例说明，具体步骤如下：

步骤S602，采集到一段初始音频信号；

步骤S604，智能终端判断当前是否处于夜间模式，若否，则执行步骤606，若是，则执行步骤608；

步骤S606，由智能终端设备识别校验初始音频信号；

步骤S608，智能终端设备对初始音频信号执行第一次识别校验；

步骤S610，判断初始音频信号是否包括唤醒关键词，若否，则执行步骤S602，若是，则执行步骤S612；

步骤S612，智能终端设备基于第一次识别校验，将初始音频信号处理为候选音频信号，并发送至服务器；

步骤S614，服务器对候选音频信号执行第二次识别校验；

步骤S616，判断候选音频信号是否包括唤醒关键词，若否，则执行步骤S602，若否，则执行步骤S618；

步骤S618，启动智能终端设备开启语音交互状态。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述设备唤醒方法的设备唤醒装置。如图7所示，该装置包括：

第一获取单元702，用于获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；

第一确定单元704，用于在目标音频信号中携带有唤醒关键词的情况下，将目标音频信号确定为候选音频信号，其中，唤醒关键词用于启动目标设备进入语音交互状态；

发送单元706，用于将候选音频信号发送服务器，以使服务器对候选音频信号中的候选唤醒词进行识别校验；

第二确定单元708，用于在服务器返回的识别校验结果指示唤醒关键词已通过校验的情况下，确定唤醒目标设备，并控制目标设备进入语音交互状态。

可选的，在本实施例中，设备唤醒装置可以但不限于应用在物联网场景下唤醒处于节电休眠状态的智能家居设备，其中，处于节电休眠状态的智能家居设备可以但不限于会保留语音信号接收通道为激活状态，语音信号接收通道会实时接收周围的声音信号，并把信号流输入到唤醒模型模块，由唤醒模型对信号进行阈值判断是否为人声，如果判断是人声，就进行语音激活检测(vad)、噪声抑制、回声消除、增益控制等一系列预处理，最后由上述唤醒模型模块型判断是否语音为唤醒词，并以此判断是否进行唤醒程序。由于智能终端设备产品的配置有限，无法烧录比较大的、精细的唤醒模型模块，于是唤醒模型模块会对语音信号是否为唤醒词有一定几率的误判，最后导致智能终端设备会发生非使用者意愿唤醒的情况，即：误唤醒现象。但利用上述设备唤醒装置，在由原唤醒模型模块执行的第一次识别校验的基础上，再由服务器执行第二次识别校验，因服务器可以拥有识别精度更高的唤醒模型模块，弥补了唤醒词的误判，提高了设备的唤醒准确性。

具体实施例可以参考上述设备唤醒装置中所示示例，本示例中在此不再赘述。

作为一种可选的方案，还包括：

第一输入单元，用于在获取目标音频信号之后，将目标音频信号输入离线唤醒模型，其中，离线唤醒模型用于识别唤醒关键词；

第二获取单元，用于在获取目标音频信号之后，获取离线唤醒模型输出的第一识别结果，其中，第一识别结果用于指示目标音频信号中是否携带有唤醒关键词；

处理单元，用于在获取目标音频信号之后，在所述第一识别结果指示所述目标音频信号携带有所述唤醒关键词的情况下，将所述目标音频信号确定为所述候选音频信号。

具体实施例可以参考上述设备唤醒方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，还包括：

第一播放单元，用于在确定唤醒目标设备之后，播放与唤醒关键词对应的应答音频；或，

第二播放单元，用于在确定唤醒目标设备之后，在目标音频信号中还携带有执行关键词的情况下，播放应答音频，并执行与执行关键词对应的目标事件。

作为一种可选的方案，还包括：

第二输入单元，用于在确定唤醒目标设备之前，将候选音频信号输入服务器的第一校验模型，其中，第一校验模型为利用多个样本音频数据进行训练后得到的用于识别唤醒关键词的神经网络模型；

第三获取单元，用于在确定唤醒目标设备之前，获取第一校验模型的第二识别结果，其中，第二识别结果用于指示候选音频信号中是否携带有唤醒关键词；

第三确定单元，用于基于第二识别结果确定识别校验结果。

作为一种可选的方案，还包括：

第四获取单元，用于在获取目标音频信号之前，获取多个样本音频数据；

标记单元，用于在获取目标音频信号之前，对每个样本音频数据中的音频数据的类型进行标记，得到标记后的多个样本音频数据，其中，每个标记后的样本音频数据中包括标记的热音标识和同音标识，热音标识用于标记记录次数大于等于热度阈值的音频数据，同音标识用于标记发音相似度大于等于音素阈值的音频数据；

第三输入单元，用于在获取目标音频信号之前，将标记后的多个样本音频数据输入初始第一校验模型，以训练得到第一校验模型。

作为一种可选的方案，第三输入单元，包括：

重复模块，用于重复执行以下步骤，直至得到第一校验模型：

确定模块，用于从标记后的多个样本音频数据中确定出当前样本音频数据，并确定当前第一校验模型，其中，当前样本音频数据中包括标记的当前热音标识和当前同音标识；

输出模块，用于通过当前第一校验模型输出当前识别结果，其中，当前识别结果用于指示当前样本音频数据中是否包括唤醒关键词；

获取模块，用于在当前识别结果未达到识别收敛条件的情况下，获取下一个样本音频数据作为当前样本音频数据；

确定模块，用于在当前识别结果达到识别收敛条件的情况下，确定当前第一校验模型为第一校验模型。

作为一种可选的方案，包括：

第五获取单元，用于将训练好的所述第一校验模型进行压缩，以获得压缩后的所述第一校验模型。

根据本发明实施例的又一个方面，还提供了一种用于实施上述设备唤醒方法的电子装置，如图8所示，该电子装置包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；

S2，在目标音频信号中携带有唤醒关键词的情况下，将目标音频信号确定为候选音频信号，其中，唤醒关键词用于启动目标设备进入语音交互状态；

S3，将候选音频信号发送服务器，以使服务器对候选音频信号中的候选唤醒词进行识别校验；

S4，在服务器返回的识别校验结果指示唤醒关键词已通过校验的情况下，确定唤醒目标设备，并控制目标设备进入语音交互状态。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等)，或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的设备唤醒方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的设备唤醒方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于存储目标音频信号、候选音频信号以及语音交互状态等信息。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述设备唤醒装置中的第一获取单元702、第一确定单元704、发送单元706及第二确定单元708。此外，还可以包括但不限于上述设备唤醒装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器808，用于显示上述目标音频信号、候选音频信号以及语音交互状态等信息；和连接总线810，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种设备唤醒方法，其特征在于，包括：

获取目标音频信号，其中，所述目标音频信号为目标设备在目标时间区间内采集到的音频信号，在所述目标时间区间内所述目标设备的使用频率小于等于目标阈值；

在所述目标音频信号中携带有唤醒关键词的情况下，将所述目标音频信号确定为候选音频信号，其中，所述唤醒关键词用于启动所述目标设备进入语音交互状态；

将所述候选音频信号发送服务器，以使所述服务器对所述候选音频信号中的所述候选唤醒词进行识别校验；

在所述服务器返回的识别校验结果指示所述唤醒关键词已通过校验的情况下，确定唤醒所述目标设备，并控制所述目标设备进入所述语音交互状态；

在所述获取目标音频信号之后，还包括：

将所述目标音频信号输入离线唤醒模型，其中，所述离线唤醒模型用于识别所述唤醒关键词；

获取所述离线唤醒模型输出的第一识别结果，其中，所述第一识别结果用于指示所述目标音频信号中是否携带有所述唤醒关键词；

在所述第一识别结果指示所述目标音频信号携带有所述唤醒关键词的情况下，将所述目标音频信号确定为所述候选音频信号；

在将目标音频信号输入离线唤醒模型之前，先判断目标设备是否处于非语音交互状态，进而在目标设备处于非语音交互状态的情况下，再将目标音频信号输入目标设备的离线唤醒模型中。

2.根据权利要求1所述的方法，其特征在于，在确定唤醒所述目标设备之后，还包括：

播放与所述唤醒关键词对应的应答音频；或，

在所述目标音频信号中还携带有执行关键词的情况下，播放所述应答音频，并执行与所述执行关键词对应的目标事件。

3.根据权利要求1所述的方法，其特征在于，在所述确定唤醒所述目标设备之前，还包括：

将所述候选音频信号输入所述服务器的第一校验模型，其中，所述第一校验模型为利用多个样本音频数据进行训练后得到的用于识别所述唤醒关键词的神经网络模型；

获取所述第一校验模型的第二识别结果，其中，所述第二识别结果用于指示所述候选音频信号中是否携带有所述唤醒关键词；

基于所述第二识别结果确定所述识别校验结果。

4.根据权利要求3所述的方法，其特征在于，在所述获取目标音频信号之前，还包括：

获取所述多个样本音频数据；

对每个所述样本音频数据中的音频数据的类型进行标记，得到标记后的所述多个样本音频数据，其中，每个标记后的样本音频数据中包括标记的热音标识和同音标识，所述热音标识用于标记记录次数大于等于热度阈值的音频数据，所述同音标识用于标记发音相似度大于等于音素阈值的音频数据；

将标记后的所述多个样本音频数据输入初始第一校验模型，以训练得到所述第一校验模型。

5.根据权利要求4所述的方法，其特征在于，所述将标记后的所述多个样本音频数据输入初始第一校验模型，以训练得到所述第一校验模型，包括：

重复执行以下步骤，直至得到所述第一校验模型：

从标记后的所述多个样本音频数据中确定出当前样本音频数据，并确定当前第一校验模型，其中，所述当前样本音频数据中包括标记的当前热音标识和当前同音标识；

通过所述当前第一校验模型输出当前识别结果，其中，所述当前识别结果用于指示所述当前样本音频数据中是否包括所述唤醒关键词；

在所述当前识别结果未达到识别收敛条件的情况下，获取下一个样本音频数据作为所述当前样本音频数据；

在所述当前识别结果达到所述识别收敛条件的情况下，确定所述当前第一校验模型为所述第一校验模型。

6.根据权利要求4所述的方法，其特征在于，在所述将标记后的所述多个样本音频数据输入初始第一校验模型，以训练得到所述第一校验模型之后，包括：

将训练好的所述第一校验模型进行压缩，以获得压缩后的所述第一校验模型。

7.一种设备唤醒装置，其特征在于，包括：

在当前时间位于目标时间区间的情况下，获取目标对象在所述当前时间触发的目标音频信号，其中，在所述目标时间区间内目标设备的使用频率小于等于目标阈值；

所述装置还包括：

处理单元，用于在获取目标音频信号之后，在所述第一识别结果指示所述目标音频信号携带有所述唤醒关键词的情况下，将所述目标音频信号确定为所述候选音频信号；

其中，在将目标音频信号输入离线唤醒模型之前，先判断目标设备是否处于非语音交互状态，进而在目标设备处于非语音交互状态的情况下，再将目标音频信号输入目标设备的离线唤醒模型中。

8.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。