WO2020102991A1

WO2020102991A1 - 唤醒设备的方法、装置、存储介质及电子设备

Info

Publication number: WO2020102991A1
Application number: PCT/CN2018/116493
Authority: WO
Inventors: 陈岩
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-05-28
Also published as: CN112740321A

Abstract

本实施例提供一种唤醒设备的方法。该方法包括：获取语音信息；通过数字信号处理器，对语音信息进行第一次唤醒词识别和第一次声纹识别；若第一次唤醒词识别和第一次声纹识别均验证通过，则通过应用处理器，对语音信息进行第二次唤醒词识别和第二次声纹识别；若第二次唤醒词识别和第二次声纹识别均验证通过，则唤醒电子设备。

Description

唤醒设备的方法、装置、存储介质及电子设备

技术领域

本申请属于电子设备技术领域，尤其涉及一种唤醒设备的方法、装置、存储介质及电子设备。

背景技术

随着电子设备的智能化程度越来越高，相关技术中可以利用唤醒词识别和声纹识别技术来唤醒电子设备，其中唤醒词识别是检测用户语音中是否包含用于唤醒电子设备的预设词汇。比如，在对用户语音进行的唤醒词识别和声纹识别均验证通过后，电子设备可以点亮显示屏并对该显示屏进行解锁。然而，相关技术在利用唤醒词识别和声纹识别来唤醒电子设备时容易对电子设备的功耗造成浪费。

发明内容

本申请实施例提供一种唤醒设备的方法、装置、存储介质及电子设备，可以减少电子设备的功耗浪费。

第一方面，本实施例提供一种唤醒设备的方法，包括：

获取语音信息；

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别；

若所述第一次唤醒词识别和所述第一次声纹识别均验证通过，则通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别；

若所述第二次唤醒词识别和所述第二次声纹识别均验证通过，则唤醒所述电子设备。

第二方面，本实施例提供一种唤醒设备的装置，包括：

获取模块，用于获取语音信息；

第一识别模块，用于通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别；

第二识别模块，用于若所述第一次唤醒词识别和所述第一次声纹识别均验证通过，则通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别；

唤醒模块，用于若所述第二次唤醒词识别和所述第二次声纹识别均验证通过，则唤醒所述电子设备。

第三方面，本实施例提供一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上执行时，使得所述计算机执行本实施例提供的唤醒设备的方法。

第四方面，本实施例提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行：

获取语音信息；

本实施例中，电子设备可以在对获取到的用户的语音信息进行第一次唤醒词识别的同时，对该语音信息进行第一次声纹识别。只有在该第一次唤醒词识别和第一次声纹识别均验证通过时，才会触发电子设备再次进行唤醒词识别和声纹识别，并在第二次唤醒词识别和声纹识别均验证通过时才执行唤醒操作。若第一次声纹识别未通过，则电子设备不会进行第二次的唤醒词识别和声纹识别，从而有效避免相关技术中非机主用户说出唤醒词而通过第一次唤醒词识别时触发电子设备进行第二次唤醒词识别和声纹识别所造成的功耗浪费。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的唤醒设备的方法的流程示意图。

图2是本申请实施例提供的唤醒设备的方法的另一流程示意图。

图3至图6是本申请实施例提供的唤醒设备的方法的场景示意图。

图7是本申请实施例提供的唤醒设备的装置的结构示意图。

图8是本申请实施例提供的电子设备的结构示意图。

图9是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

可以理解的是，本申请实施例的执行主体可以是诸如智能手机或平板电脑等的电子设备。

请参阅图1，图1是本申请实施例提供的唤醒设备的方法的流程示意图，流程可以包括：

在101中，获取语音信息。

例如，相关技术在唤醒电子设备时会先对获取到的语音进行唤醒词识别，以检测该语音是否包含机主预设的唤醒词。若该语音中包含预设的唤醒词，则电子设备会再进行一次唤醒词识别并进行声纹识别。如果通过声纹识别检测到当前用户为机主，并且通过第二次唤醒词识别再次确定该语音中包含预设的唤醒词，那么电子设备会被唤醒，即电子设备会亮屏并解锁。但是，如果非机主用户知晓了预设的唤醒词，并向电子设备说出了该唤醒词，那么电子设备同样会进行声纹识别和第二次唤醒词识别。但由于当前用户是非机主用户，因此电子设备不会被唤醒。也就是说，事实上电子设备进行声纹识别和第二次唤醒词识别是多余的，这就对电子设备的功耗造成了浪费。

在本申请实施例的101中，比如，电子设备可以先获取当前用户说出的语音信息A。

在102中，通过电子设备的数字信号处理器，对语音信息进行第一次唤醒词识别和第一次声纹识别。

比如，在获取到当前用户的语音信息A后，电子设备可以通过其数字信号处理器(Digital Signal Processor，DSP)对该语音信息A进行第一次唤醒词识别和第一次声纹识别。

需要说明的是，数字信号处理器是一个处理信号的微处理器，它是语音编码器和调制解调器的核心部件。数字信号处理器具有体积小、功率消耗少、运算速度快的优点。

唤醒词识别是指电子设备检测某段语音中是否包含用于唤醒本电子设备的预设词汇内容。例如，机主预设的用于唤醒电子设备的唤醒词为“小欧醒过来”。那么，当获取到用户语音后，电子设备可以先将该用户语音转换为文字，并检测转换后得到的文字中是否包含“小欧醒过来”这一唤醒词，即电子设备可以检测该用户语音中是否包含“小欧醒过来”这一唤醒词。若该用户语音中包含“小欧醒过来”这一唤醒词，则电子设备可以确定唤醒词识别验证通过。若该用户语音中不包含“小欧醒过来”这一唤醒词，则电子设备可以确定唤醒词识别验证不通过。

声纹识别是一种通过声音判别说话人身份的生物识别技术。比如，电子设备中预存了机主的声纹特征信息，那么在获取到当前用户的语音信息后，电子设备可以从中提取当前用户的声纹特征信息。之后，电子设备可以将当前用户的声纹特征信息与预存的机主的声纹特征信息进行匹配。若二者匹配成功，则电子设备可以确定当前用户为机主，即声纹识别验证通过。若二者不匹配，则电子设备可以确定当前用户不是机主，即声纹识别验证不通过。

在对101中获取到的语音信息A进行第一次唤醒词识别和第一次声纹识别后，电子设备可以检测该第一次唤醒词识别和第一次声纹识别是否均验证通过。

若第一次唤醒词识别和第一次声纹识别均验证通过，则进入103中。例如，电子设备检测到当前用户说出的语音中包含“小欧醒过来”这一预设的唤醒词，并且电子设备通过第一次声纹识别确定出该当前用户为机主，在这种情况下，可以进入103中。

若第一次唤醒词识别和第一次声纹识别并未全部验证通过，则电子设备可以执行其它操作。例如，当第一次声纹识别未验证通过时，电子设备可以执行其它操作，而不会触发进行第二次唤醒词识别和第二次声纹识别的操作。

在103中，若第一次唤醒词识别和第一次声纹识别均验证通过，则通过电子设备的应用处理器，对语音信息进行第二次唤醒词识别和第二次声纹识别。

比如，电子设备通过数字信号处理器对当前用户的语音信息A进行的第一次唤醒词识别和第一次声纹识别均验证通过，那么可以触发电子设备利用其应用处理器(Application Processor，AP)对该当前用户的语音信息A进行第二次唤醒词识别和第二次声纹识别。

需要说明的是，第二次唤醒词识别同样是检测当前用户的语音信息A中是否包含预设的唤醒词。例如，第二次唤醒词识别同样是检测当前用户的语音信息A中是否包含机主预设的唤醒词“小欧醒过来”。第二次声纹识别同样是检测当前用户是否为机主。此外，由于应用处理器能够获得的资源和运算能够相对于数字信号处理器更强，因此应用处理器的识别结果会更准确。应用处理器的功耗也大于数字信号处理器。

在对101中获取到的语音信息A进行第二次唤醒词识别和第二次声纹识别后，电子设备可以检测该第二次唤醒词识别和第二次声纹识别是否均验证通过。

若第二次唤醒词识别和第二次声纹识别均验证通过，则进入104中。例如，电子设备检测到当前用户说出的语音中确实是包含“小欧醒过来”这一预设的唤醒词，并且电子设备通过第二次声纹识别确定出该当前用户确实是机主，在这种情况下，可以进入104中。

若第二次唤醒词识别和第二次声纹识别并未全部验证通过，则电子设备可以执行其它操作。

在104中，若第二次唤醒词识别和第二次声纹识别均验证通过，则唤醒电子设备。

比如，电子设备通过应用处理器对当前用户的语音信息A进行的第二次唤醒词识别和第二次声纹识别均验证通过，那么电子设备可以执行唤醒操作。例如，电子设备可以点亮显示屏并解锁显示屏等。

可以理解的是，本实施例中，电子设备可以在对获取到的用户的语音信息进行第一次唤醒词识别的同时，对该语音信息进行第一次声纹识别。只有在该第一次唤醒词识别和第一次声纹识别均验证通过时，才会触发电子设备再次进行唤醒词识别和声纹识别，并在第二次唤醒词识别和声纹识别均验证通过时才执行唤醒操作。若第一次声纹识别未通过，则电子设备不会进行第二次的唤醒词识别和声纹识别，从而有效避免相关技术中非机主用户说出唤醒词而通过第一次唤醒词识别时触发电子设备进行第二次唤醒词识别和声纹识别所造成的功耗浪费。

请参阅图2，图2为本申请实施例提供的唤醒设备的方法的另一流程示意图，流程可以包括：

在201中，电子设备获取周围环境的声音信号。

比如，电子设备可以通过其麦克风采集周围环境的声音信号。

在202中，通过数字信号处理器，电子设备对声音信号进行语音活动检测，其中，当进行语音活动检测时，该数字信号处理器处于预设低频模式。

比如，在采集到周围环境的声音信号后，电子设备可以通过其数字信号处理器DSP对该声音信号进行语音活动检测(Voice Activity Detection，VAD)。其中，当进行语音活动检测时，电子设备的数字信号处理器可以处于预设的低频模式。

需要说明的是，语音活动检测是为了从声音信号里区分出语音信号和背景噪声信号。也就是说，本实施例中，语音活动检测主要是为了检测声音信号中是否存在用户的声音(语音)。

在本实施例中，电子设备的数字信号处理器具有两种工作模式，分别为预设的低频模式和高频模式。其中，当处于低频模式时，数字信号处理器的时钟频率较低，数字信号处理器每秒执行的指令数较少，处理能力较低，相应的其功耗也较低。当处于高频模式时，数字信号处理器的时钟频率较高，数字信号处理器每秒执行的指令数较多，处理能力较强，相应的其功耗也较高一些。

在本实施例中，电子设备可以控制数字信号处理器在预设的低频模式下进行语音活动检测。

在一种实施方式中，电子设备可以使用能量加模型的算法来对采集到的周围环境的声音信号进行语音活动检测。

在203中，根据语音活动检测，电子设备判断声音信号中是否存在用户声音。

比如，在对采集到的声音信号进行语音活动检测的过程中，电子设备可以根据该语音活动检测判断采集到的声音信号中是否存在用户声音。

如果通过语音活动检测判断出采集到的声音信号中存在用户声音，那么进入204中。

如果通过语音活动检测判断出采集到的声音信号中不存在用户声音，而仅有背景噪声，那么电子设备可以执行其它操作。

在204中，若存在用户声音，则电子设备获取用户的语音信息。

比如，电子设备通过语音活动检测判断出周围的声音信号中存在用户声音，此时电子设备可以从该用户声音中获取对应的语音信息。例如，电子设备获取到用户的语音信息A。

在205中，通过数字信号处理器，电子设备对语音信息进行第一次唤醒词识别和第一次声纹识别，其中，当进行第一次唤醒词识别和第一次声纹识别时，该数字信号处理器处于预设高频模式。

比如，在获取到用户的语音信息A后，电子设备可以控制其数字信号处理器进入预设的高频模式，并在处于该高频模式时，由该数字信号处理器对语音信息A进行唤醒词识别和声纹识别。即，电子设备对语音信息A进行第一次唤醒词识别和第一次声纹识别。

需要说明的是，例如，机主预设的用于唤醒电子设备的唤醒词为“小欧醒过来”。那么，当获取到用户语音信息A后，电子设备可以先将该用户语音信息A转换为文字，并检测转换后得到的文字中是否包含“小欧醒过来”这一唤醒词，即电子设备可以检测该用户语音中是否包含“小欧醒过来”这一唤醒词。若该用户语音中包含“小欧醒过来”这一唤醒词，则电子设备可以确定唤醒词识别验证通过。若该用户语音中不包含“小欧醒过来”这一唤醒词，则电子设备可以确定唤醒词识别验证不通过。

声纹识别用于确定当前用户是否为机主。在进行声纹识别时，电子设备可以将当前用户的声纹特征信息与预存的机主的声纹特征信息进行匹配。若二者匹配成功，则电子设备可以确定当前用户为机主。若二者不匹配，则电子设备可以确定当前用户不是机主。

若第一次唤醒词识别和第一次声纹识别均验证通过，则进入206中。例如，电子设备检测到当前用户说出的语音中包含“小欧醒过来”这一预设的唤醒词，并且电子设备通过第一次声纹识别确定出该当前用户为机主，在这种情况下，可以进入206中。

若第一次唤醒词识别和第一次声纹识别并未全部验证通过，则电子设备可以执行其它操作。例如，当第一次声纹识别未验证通过时，即电子设备通过声纹识别检测出当前用户不是机主，那么电子设备可以执行其它操作，而不会触发进行第二次唤醒词识别和第二次声纹识别的操作。

在206中，若第一次唤醒词识别和第一次声纹识别均验证通过，则电子设备通过应用处理器对语音信息进行第二次唤醒词识别和第二次声纹识别。

比如，电子设备通过数字信号处理器对当前用户的语音信息A进行的唤醒词识别和声纹识别均验证通过，那么可以触发电子设备利用其应用处理器(Application Processor，AP)对该当前用户的语音信息A再次进行唤醒词识别和声纹识别，即电子设备可以对当前用户的语音信息A进行第二次唤醒词识别和第二次声纹识别。

需要说明的是，第二次唤醒词识别同样是检测当前用户的语音信息A中是否包含预设的唤醒词。例如，第二次唤醒词识别同样是检测当前用户的语音信息A中是否包含机主预设的唤醒词“小欧醒过来”。第二次声纹识别同样是检测当前用户是否为机主。由于应用处理器的运算能力比数字信号处理器更强，因此通过应用处理器对当前用户的语音信息A进行的唤醒词识别和声纹识别的结果会比数字信号处理器进行唤醒词识别和声纹识别的结果更加准确，从而起到进一步确认当前用户的语音信息A中是否包含预设的唤醒词以及进一步确认当前用户是否为机主的效果。此外，应用处理器能够获得的资源和运算能够相对于数字信号处理器更强，应用处理器的功耗也大于数字信号处理器。

在对204中获取到的语音信息A进行第二次唤醒词识别和第二次声纹识别后，电子设备可以检测该第二次唤醒词识别和第二次声纹识别是否均验证通过。

若第二次唤醒词识别和第二次声纹识别均验证通过，则进入207中。例如，电子设备检测到当前用户说出的语音中确实是包含“小欧醒过来”这一预设的唤醒词，并且电子设备通过第二次声纹识别确定出该当前用户确实是机主，在这种情况下，可以进入207中。

在207中，若第二次唤醒词识别和第二次声纹识别均验证通过，则电子设备执行唤醒操作。

比如，电子设备通过应用处理器对当前用户的语音信息A进行的第二次唤醒词识别和第二次声纹识别均验证通过，那么可以唤醒电子设备，即电子设备可以执行唤醒操作。例如，电子设备可以点亮显示屏并解锁显示屏等。

在一种实施方式中，本实施例的流程205中电子设备通过数字信号处理器对语音信息进行第一次唤醒词识别和第一次声纹识别，可以包括：

通过数字信号处理器，电子设备对语音信息进行第一次唤醒词识别和第一次声纹识别，其中，数字信号处理器使用第一模型进行该第一次唤醒词识别和第一次声纹识别。

而流程206中电子设备通过应用处理器对语音信息进行第二次唤醒词识别和第二次声纹识别，可以包括：通过应用处理器，电子设备对语音信息进行第二次唤醒词识别和第二次声纹识别，其中，应用处理器使用第二模型进行该第二次唤醒词识别和第二次声纹识别。

其中，第一模型使用的参数数量小于第二模型使用的参数数量，以使第一模型的运行功耗小于第二模型的运行功耗。

比如，本实施例中可以使用第一模型和第二模型来对当前用户的语音信息A进行唤醒词识别和声纹识别。其中，第一模型使用到的参数数量小于第二模型使用到的参数数量，以使第一模型的运行功耗小于第二模型的运行功耗。例如，第一模型对当前用户的语音信息A进行唤醒词识别和声纹识别时使用到3个参数，分别为A、B、C。第二模型对当前用户的语音信息A进行唤醒词识别和声纹识别时使用到6个参数，分别为A、B、C、D、E、F。可以理解的是，本实施例中，第一模型和第二模型均可以对当前用户的语音信息A进行唤醒词识别和声纹识别。不过由于第二模型使用的参数更多，因此相对于第一模型的识别结果，第二模型进行唤醒词识别和声纹识别的识别结果会更加准确。

在本实施例中，由于数字信号处理器能够使用的资源有限，因此在对当前用户的语音信息A进行第一次唤醒词识别和第一次声纹识别时，电子设备可以使用第一模型来进行该第一次唤醒词识别和第一次声纹识别。而由于应用处理器能够使用的资源较多，因此在对当前用户的语音信息A进行第二次唤醒词识别和第二次声纹识别时，电子设备可以使用第二模型来进行该第二次唤醒词识别和第二次声纹识别，从而通过第二模型的识别结果来进一步确认当前用户的语音信息A中是否包含预设的唤醒词，以及进一步确认当前用户是否为机主。

在一种实施方式中，本实施例的流程205中通过数字信号处理器，电子设备对语音信息进行第一次唤醒词识别和第一次声纹识别，可以包括：

通过数字信号处理器，电子设备使用高斯混合模型对语音信息进行第一次唤醒词识别和第一次声纹识别。

比如，在通过数字信号处理器对当前用户的语音信息A进行唤醒词识别和声纹识别时，电子设备可以使用高斯混合模型来对该语音信息A进行唤醒词识别和声纹识别。

当然，其它实施方式中，电子设备也可以使用其它算法模型来对当前用户的语音信息A进行第一次唤醒词识别和第一次声纹识别，本实施例对此不做具体限定。

在一种实施方式中，本实施例的流程206中通过应用处理器，电子设备对语音信息进行第二次唤醒词识别和第二次声纹识别，可以包括：

通过应用处理器，电子设备使用深度神经网络算法模型对所述语音信息进行第二次唤醒词识别和第二次声纹识别。

比如，在通过应用处理器对当前用户的语音信息A进行唤醒词识别和声纹识别时，电子设备可以使用深度神经网络(Deep Neural Network，DNN)算法模型来对该语音信息A进行唤醒词识别和声纹识别。

当然，其它实施方式中，电子设备也可以使用其它算法模型来对当前用户的语音信息A进行第二次唤醒词识别和第二次声纹识别，本实施例对此不做具体限定。

可以理解的是，本实施例中，电子设备可以先对采集到的周围环境的声音信号进行语音活动检测，以检测该声音信号中是否包含用户声音。其中，语音活动检测是在数字信号处理器处于低频模式下进行的。因此，本实施例可以极低的功耗进行语音活动检测。

若通过语音活动检测判断出周围环境的声音信号中包含用户声音，那么电子设备可以控制数字信号处理器进入高频模式，并对用户语音进行第一次唤醒词识别和第一次声纹识别。只有在该第一次唤醒词识别和第一次声纹识别均验证通过时，电子设备才会触发应用处理器进行第二次唤醒词识别和第二次声纹识别，由于应用处理器的功耗一般是数字信号处理器功耗50倍至100倍，因此本实施例通过在数字信号处理器侧确定出当前用户为机主并且说出唤醒词时才触发应用处理器进行语音识别和声纹识别，这可以有效避免相关技术中仅在应用处理器侧进行声纹识别时带来的功耗浪费。

此外，由于本实施例唤醒词识别和声纹识别均进行了二次验证，因此可以降低误唤醒电子设备的情况发生，提高用户唤醒电子设备的体验。

请参阅图3至图6，图3至图6为本申请实施例提供的唤醒设备的方法的场景示意图。

比如，电子设备的机主为甲。如图3所示，电子设备提示机主说出用作唤醒词的语音。例如，机主用户甲说出了“小欧醒过来”的语音，那么电子设备可以通过其麦克风采集到该语音。之后，电子设备可以对该语音进行语音识别和声纹识别，从而得到用于唤醒本电子设备的唤醒词“小欧醒过来”，以及机主用户甲的声纹特征。

在息屏且锁屏状态下，电子设备可以通过其麦克风采集周围环境的声音信号。在采集到声音信号后，电子设备可以控制其数字信号处理器进入预设的低频模式，并通过低频模式下的数字信号处理器对采集到的声音信号进行语音活动检测，以检测该声音信号中是否包含用户声音。

例如，如图4所示，当前用户对着电子设备说出了一段语音“小欧醒过来”(语音B)。电子设备的麦克风在采集到这段语音B后，通过低频模式下的数字信号处理器对语音B进行了语音活动检测，并检测出其中包含用户声音。

若通过语音活动检测判断出采集到的声音信号中包含用户声音，则电子设备可以从该声音信号中获取当前用户的语音信息。之后，电子设备可以控制其数字信号处理器进入预设的高频模式，并在高频模式下对获取到的当前用户的语音信息进行唤醒词识别和声纹识别。即，电子设备对当前用户的语音信息进行第一次唤醒词识别和第一次声纹识别。

例如，电子设备可以通过高频模式下的数字信号处理器对当前用户的语音B进行第一次唤醒词识别，以检测该语音B是否为预设的唤醒词“小欧醒过来”。并且，电子设备可以从当前用户的语音B中提取当前用户的声纹特征，并将当前用户的声纹特征与预设的机主用户甲的声纹特征进行匹配，以检测当前用户是否为机主用户甲。

若第一次唤醒词识别和第一次声纹识别均验证通过，则电子设备可以通过其应用处理器对当前用户的语音信息再次进行唤醒词识别和声纹识别。即，电子设备对当前用户的语音信息进行第二次唤醒词识别和第二次声纹识别。其中，第二次唤醒词识别同样是检测当前用户的语音信息中是否包含预设的唤醒词。第二次声纹识别同样是检测当前用户是否为机主用户甲。

若第二次唤醒词识别和第二次声纹识别也都验证通过，则电子设备可以执行唤醒操作，例如电子设备可以点亮屏显示屏并进行解锁。

例如，电子设备通过第一次声纹识别检测到当前用户是机主用户甲，并通过第一次唤醒词识别检测到语音B为预设的唤醒词“小欧醒过来”。并且，电子设备通过第二次声纹识别进一步确认了当前用户为机主用户甲，并通过第二次唤醒词识别进一步确认了语音B确实为预设的唤醒词“小欧醒过来”。在这种情况下，电子设备可以点亮显示屏并对显示屏进行解锁。

上述流程的示意图可以如图5所示。

如果第一次唤醒词识别和第一次声纹识别并未均验证通过，则电子设备可以执行其它操作，而不会进行第二次声纹识别和第二次唤醒词识别。

例如，如图6所示，非机主用户乙对着电子设备说出了包含唤醒词的语音C“小欧醒过来”。但是，在对用户乙说出的语音C进行第一次声纹识别时，由于用户乙不是机主用户甲，因此第一次声纹识别无法验证通过。那么，电子设备不会对语音C进行第二次唤醒词识别和第二次声纹识别。

而在相关技术中，由于电子设备仅会在进行第二次唤醒词识别时才会进行声纹识别，而不会在进行第一次唤醒词识别时进行声纹识别。因此，虽然语音C是用户乙说得，但是由于电子设备在进行第一次唤醒词识别时不会进行声纹识别，因此电子设备在检测到语音C中包含唤醒词“小欧醒过来”之后就会触发对语音C进行第二次唤醒词识别和声纹识别。在进行声纹识别时，电子设备会检测到当前用户不是机主用户甲，因此电子设备不会执行唤醒操作。因此，相关技术中，电子设备进行的第二次唤醒词识别以及声纹识别事实上造成了电子设备功耗的浪费。

请参阅图7，图7为本申请实施例提供的唤醒设备的装置的结构示意图。唤醒设备的装置300可以包括：获取模块301，第一识别模块302，第二识别模块303，唤醒模块304。

获取模块301，用于获取语音信息。

第一识别模块302，用于通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别。

第二识别模块303，用于若所述第一次唤醒词识别和所述第一次声纹识别均验证通过，则通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别。

唤醒模块304，用于若所述第二次唤醒词识别和所述第二次声纹识别均验证通过，则唤醒所述电子设备。

在一种实施方式中，获取模块301可以用于：

获取周围环境的声音信号，并对所述声音信号进行语音活动检测；

根据所述语音活动检测，判断所述声音信号中是否存在用户声音；

若存在用户声音，则获取语音信息。

在一种实施方式中，获取模块301可以用于：

通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测。

在一种实施方式中，所述获取模块301可以用于：

通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测，其中，当进行所述语音活动检测时，所述数字信号处理器处于预设低频模式。

在一种实施方式中，第一识别模块302可以用于：

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，当进行所述第一次唤醒词识别和第一次声纹识别时，所述数字信号处理器处于预设高频模式。

在一种实施方式中，第一识别模块302可以用于：通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，所述数字信号处理器使用第一模型进行所述第一次唤醒词识别和第一次声纹识别；

第二识别模块303可以用于：通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别，其中，所述应用处理器使用第二模型进行所述第二次唤醒词识别和第二次声纹识别。

其中，所述第一模型使用的参数数量小于所述第二模型使用的参数数量，以使所述第一模型的运行功耗小于所述第二模型的运行功耗。

在一种实施方式中，第一识别模块302可以用于：通过电子设备的数字信号处理器，使用高斯混合模型对所述语音信息进行第一次唤醒词识别和第一次声纹识别。

在一种实施方式中，第二识别模块303可以用于：通过所述电子设备的应用处理器，使用深度神经网络算法模型对所述语音信息进行第二次唤醒词识别和第二次声纹识别。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的唤醒设备的方法中的流程。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本实施例提供的唤醒设备的方法中的流程。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图8，图8为本申请实施例提供的电子设备的结构示意图。

该电子设备400可以包括显示屏401、存储器402、处理器403、麦克风404等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

显示屏401可以用于显示诸如图像、文字等信息。

存储器402可用于存储应用程序和数据。存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序，从而执行各种功能应用以及数据处理。

处理器403是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的应用程序，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

麦克风404可以用于采集用户的语音信息。

在本实施例中，电子设备中的处理器403会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器402中，并由处理器403来运行存储在存储器402中的应用程序，从而执行：

获取语音信息；通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别；若所述第一次唤醒词识别和所述第一次声纹识别均验证通过，则通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别；若所述第二次唤醒词识别和所述第二次声纹识别均验证通过，则唤醒所述电子设备。

请参阅图9，电子设备500可以包括显示屏501、存储器502、处理器503、麦克风504、扬声器505、电池506等部件。

显示屏501可以用于显示诸如图像、文字等信息。

存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器503通过运行存储在存储器502的应用程序，从而执行各种功能应用以及数据处理。

处理器503是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器502内的应用程序，以及调用存储在存储器502内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

输入单元504可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

输出单元505可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。输出单元可包括显示面板。

在本实施例中，电子设备中的处理器503会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中，并由处理器503来运行存储在存储器502中的应用程序，从而执行：

在一种实施方式中，在所述获取语音信息之前，处理器503还可以执行：获取周围环境的声音信号，并对所述声音信号进行语音活动检测；根据所述语音活动检测，判断所述声音信号中是否存在用户声音。

那么，处理器503在执行所述获取语音信息时，可以执行：若存在用户声音，则获取语音信息。

在一种实施方式中，处理器503在执行所述对所述声音信号进行语音活动检测时，可以执行：通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测。

在一种实施方式中，处理器503在执行所述通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测时，可以执行：通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测，其中，当进行所述语音活动检测时，所述数字信号处理器处于预设低频模式。

在一种实施方式中，处理器503在执行所述通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别时，可以执行：通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，当进行所述第一次唤醒词识别和第一次声纹识别时，所述数字信号处理器处于预设高频模式。

在一种实施方式中，处理器503在执行所述通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别时，可以执行：通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，所述数字信号处理器使用第一模型进行所述第一次唤醒词识别和第一次声纹识别。

那么，处理器503在执行所述通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别时，可以执行：通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别，其中，所述应用处理器使用第二模型进行所述第二次唤醒词识别和第二次声纹识别。其中，所述第一模型使用的参数数量小于所述第二模型使用的参数数量，以使所述第一模型的运行功耗小于所述第二模型的运行功耗。

在一种实施方式中，处理器503在执行所述通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别时，可以执行：通过电子设备的数字信号处理器，使用高斯混合模型对所述语音信息进行第一次唤醒词识别和第一次声纹识别。

在一种实施方式中，处理器503在执行所述通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别时，可以执行：通过所述电子设备的应用处理器，使用深度神经网络算法模型对所述语音信息进行第二次唤醒词识别和第二次声纹识别。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对唤醒设备的方法的详细描述，此处不再赘述。

本申请实施例提供的所述唤醒设备的装置与上文实施例中的唤醒设备的方法属于同一构思，在所述唤醒设备的装置上可以运行所述唤醒设备的方法实施例中提供的任一方法，其具体实现过程详见所述唤醒设备的方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述唤醒设备的方法而言，本领域普通技术人员可以理解实现本申请实施例所述唤醒设备的方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述唤醒设备的方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述唤醒设备的装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种唤醒设备的方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种唤醒设备的方法，其中，包括：

获取语音信息；

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别；

若所述第一次唤醒词识别和所述第一次声纹识别均验证通过，则通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别；

若所述第二次唤醒词识别和所述第二次声纹识别均验证通过，则唤醒所述电子设备。
根据权利要求1所述的唤醒设备的方法，其中，在所述获取语音信息之前，还包括：

获取周围环境的声音信号，并对所述声音信号进行语音活动检测；

根据所述语音活动检测，判断所述声音信号中是否存在用户声音；

所述获取语音信息，包括：若存在用户声音，则获取语音信息。
根据权利要求2所述的唤醒设备的方法，其中，所述对所述声音信号进行语音活动检测，包括：

通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测。
根据权利要求3所述的唤醒设备的方法，其中，所述通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测，包括：

通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测，其中，当进行所述语音活动检测时，所述数字信号处理器处于预设低频模式。
根据权利要求4所述的唤醒设备的方法，其中，所述通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，包括：

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，当进行所述第一次唤醒词识别和第一次声纹识别时，所述数字信号处理器处于预设高频模式。
根据权利要求1所述的唤醒设备的方法，其中，所述通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，包括：

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，所述数字信号处理器使用第一模型进行所述第一次唤醒词识别和第一次声纹识别；

所述通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别，包括：通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别，其中，所述应用处理器使用第二模型进行所述第二次唤醒词识别和第二次声纹识别；

其中，所述第一模型使用的参数数量小于所述第二模型使用的参数数量，以使所述第一模型的运行功耗小于所述第二模型的运行功耗。
根据权利要求1所述的唤醒设备的方法，其中，所述通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，包括：

通过电子设备的数字信号处理器，使用高斯混合模型对所述语音信息进行第一次唤醒词识别和第一次声纹识别。
根据权利要求1所述的唤醒设备的方法，其中，所述通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别，包括：

通过所述电子设备的应用处理器，使用深度神经网络算法模型对所述语音信息进行第二次唤醒词识别和第二次声纹识别。
一种唤醒设备的装置，其中，包括：

获取模块，用于获取语音信息；

第一识别模块，用于通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别；

第二识别模块，用于若所述第一次唤醒词识别和所述第一次声纹识别均验证通过，则通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别；

唤醒模块，用于若所述第二次唤醒词识别和所述第二次声纹识别均验证通过，则唤醒所述电子设备。
根据权利要求9所述的唤醒设备的装置，其中，所述获取模块还用于：

获取周围环境的声音信号，并对所述声音信号进行语音活动检测；

根据所述语音活动检测，判断所述声音信号中是否存在用户声音；

若存在用户声音，则获取语音信息。
根据权利要求10所述的唤醒设备的装置，其中，所述获取模块用于：

通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测。
一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至8中任一项所述的方法。
一种电子设备，包括存储器，处理器，其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行：

获取语音信息；

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别；

若所述第一次唤醒词识别和所述第一次声纹识别均验证通过，则通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别；

若所述第二次唤醒词识别和所述第二次声纹识别均验证通过，则唤醒所述电子设备。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

获取周围环境的声音信号，并对所述声音信号进行语音活动检测；

根据所述语音活动检测，判断所述声音信号中是否存在用户声音；

若存在用户声音，则获取语音信息。
根据权利要求14所述的电子设备，其中，所述处理器用于执行：

通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测。
根据权利要求15所述的电子设备，其中，所述处理器用于执行：

通过所述电子设备的数字信号处理器，对所述声音信号进行语音活动检测，其中，当进行所述语音活动检测时，所述数字信号处理器处于预设低频模式。
根据权利要求16所述的电子设备，其中，所述处理器用于执行：

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，当进行所述第一次唤醒词识别和第一次声纹识别时，所述数字信号处理器处于预设高频模式。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

通过电子设备的数字信号处理器，对所述语音信息进行第一次唤醒词识别和第一次声纹识别，其中，所述数字信号处理器使用第一模型进行所述第一次唤醒词识别和第一次声纹识别；

通过所述电子设备的应用处理器，对所述语音信息进行第二次唤醒词识别和第二次声纹识别，其中，所述应用处理器使用第二模型进行所述第二次唤醒词识别和第二次声纹识别；

其中，所述第一模型使用的参数数量小于所述第二模型使用的参数数量，以使所述第一模型的运行功耗小于所述第二模型的运行功耗。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

通过电子设备的数字信号处理器，使用高斯混合模型对所述语音信息进行第一次唤醒词识别和第一次声纹识别。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

通过所述电子设备的应用处理器，使用深度神经网络算法模型对所述语音信息进行第二次唤醒词识别和第二次声纹识别。