WO2023202442A1

WO2023202442A1 - 唤醒设备的方法、电子设备和存储介质

Info

Publication number: WO2023202442A1
Application number: PCT/CN2023/087805
Authority: WO
Inventors: 方策; 郭峰; 覃尧钧; 陈一丹; 张时
Original assignee: 华为技术有限公司
Priority date: 2022-04-18
Filing date: 2023-04-12
Publication date: 2023-10-26
Also published as: CN116959438A

Abstract

本申请实施例涉及终端技术领域，提供一种唤醒设备的方法、电子设备和存储介质。唤醒设备的方法，包括：在确定接收的音频信号包括唤醒词时，对音频信号进行机器音识别和/或声纹识别，得到识别结果；识别结果用于指示唤醒电子设备、不唤醒电子设备或者不确定是否唤醒电子设备；若识别结果指示不确定是否唤醒电子设备，则向用户输出提示信息；提示信息用于引导用户唤醒电子设备。当电子设备不确定是否被唤醒时，通过向用户输出提示信息，与用户进行人机交互，使得用户可以进一步确认是否唤醒电子设备，提高了电子设备被唤醒的正确率。

Description

唤醒设备的方法、电子设备和存储介质

本申请要求于2022年04月18日提交国家知识产权局、申请号为202210403454.8、申请名称为“唤醒设备的方法、电子设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及终端技术领域，尤其涉及一种唤醒设备的方法、电子设备和存储介质。

背景技术

随着电子技术和终端技术的发展，电子设备的类型越来越多，功能越来越强大，人机交互的效果越来越好。很多电子设备在不工作时可以进入休眠状态，通过用户的唤醒，可以进入工作状态。

通常，用户说出唤醒词用于唤醒电子设备。相应的，电子设备接收用户输入的音频信号，解析出唤醒词后，可以唤醒设备。

但是，由于机器音干扰或环境噪声干扰等因素，电子设备可能被误唤醒或者不能被成功唤醒，降低了电子设备被唤醒的正确率。

发明内容

本申请实施例提供一种唤醒设备的方法、电子设备和存储介质，提高了电子设备被唤醒的正确率。

第一方面，提供了一种唤醒设备的方法，包括：在确定接收的音频信号包括唤醒词时，对音频信号进行机器音识别和/或声纹识别，得到识别结果；识别结果用于指示唤醒电子设备、不唤醒电子设备或者不确定是否唤醒电子设备；若识别结果指示不确定是否唤醒电子设备，则向用户输出提示信息；提示信息用于引导用户唤醒电子设备。

第一方面提供的唤醒设备的方法，通过对音频信号进行机器音识别和/或声纹识别，提高了确定用户身份的准确性，避免了设备的误唤醒。而且，当不确定是否唤醒电子设备时，通过向用户输出提示信息，与用户进行人机交互，使得用户进一步确认是否唤醒电子设备，从而避免了电子设备被误唤醒或者无法成功唤醒，提高了电子设备被唤醒的正确率。

一种可能的实现方式中，提示信息用于引导用户与电子设备进行语音交互，以确定是否唤醒电子设备；或者，提示信息用于引导用户在目标设备上的拍摄设备的拍摄范围内执行预设动作，以确定是否唤醒电子设备；或者，提示信息用于引导用户在目标设备显示的目标界面中进行操作，以确定是否唤醒电子设备；或者，提示信息用于引导用户对目标设备上的目标物理按键进行操作，以确定是否唤醒电子设备。

通过该实现方式，电子设备和用户之间的交互可以采用多种形式，提高了用户进一步确认是否唤醒电子设备的灵活性。

一种可能的实现方式中，目标设备为电子设备，或者为与电子设备通信的第一设备。

可见，可以通过电子设备与用户完成人机交互，确认是否唤醒电子设备，或者，通过第一设备与用户完成人机交互，确认是否唤醒电子设备。人机交互方式更加灵活。

一种可能的实现方式中，电子设备和第一设备的用户账号相同。

通过该实现方式，电子设备和第一设备的用户账号相同，电子设备更容易发现第一设备，从而可以通过第一设备完成与用户之间的交互，进一步确认是否唤醒电子设备。

一种可能的实现方式中，向用户输出提示信息，包括：向用户输出语音提示信息；或者，向用户显示目标界面，目标界面包括提示信息。

通过该实现方式，电子设备直接输出提示信息，电子设备通过第一设备可以实现与用户之间的交互。

一种可能的实现方式中，向用户输出提示信息，包括：与第一设备传输指示信息，指示信息用于指示第一设备向用户输出提示信息。

通过该实现方式，第一设备提示信息，通过第一设备可以实现与用户之间的交互。

一种可能的实现方式中，第一设备包括手机和/或手表。

一种可能的实现方式中，对音频信号进行机器音识别和/或声纹识别，得到识别结果，包括：对音频信号进行机器音识别和声纹识别；若确定音频信号是机器音，则识别结果指示不唤醒电子设备；若确定音频信号不是机器音，且声纹识别成功，则识别结果指示唤醒电子设备；若确定音频信号不是机器音，且声纹识别失败，则识别结果指示不确定是否唤醒电子设备。

通过该实现方式，对音频信号进行机器音识别和声纹识别，提高了确定用户身份的准确性。识别结果指示了三种结果：唤醒电子设备、不唤醒电子设备，或者，不确定是否唤醒电子设备。通过增加不确定是否唤醒电子设备的判定结果，后续可以进一步确认是否唤醒电子设备，从而提高了唤醒电子设备的正确率。

一种可能的实现方式中，对音频信号进行机器音识别和声纹识别，包括：对音频信号进行机器音识别；若确定音频信号不是机器音，则对音频信号进行声纹识别。

在该实现方式中，先进行机器音识别，如果确定不是机器音，再进行声纹识别，提高了处理效率。

一种可能的实现方式中，对音频信号进行机器音识别和声纹识别，包括：将音频信号输入声纹鉴伪模型，得到第一结果和音频信号的声纹特征信息；第一结果用于指示音频信号是否为机器音；若第一结果指示音频信号不是机器音，则根据音频信号的声纹特征信息和声纹模板库对音频信号进行声纹识别。

在该实现方式中，通过声纹鉴伪模型实现机器音识别和声纹识别，利用神经网络模型的参数共享实现机器音识别和声纹识别之间的耦合。

一种可能的实现方式中，对音频信号进行机器音识别和/或声纹识别，得到识别结果，包括：对音频信号进行机器音识别；若确定音频信号是机器音，则识别结果指示不唤醒电子设备；若确定音频信号不是机器音，则识别结果指示唤醒电子设备；若不确定音频信号是否为机器音，则识别结果指示不确定是否唤醒电子设备。

通过该实现方式，实现了对音频信号进行机器音识别，确定是否唤醒电子设备。

一种可能的实现方式中，对音频信号进行机器音识别和/或声纹识别，得到识别结果，包括：对音频信号进行声纹识别；若确定声纹识别成功，则识别结果指示唤醒电子设备；若确定声纹识别失败，则识别结果指示不确定是否唤醒电子设备。

通过该实现方式，实现了对音频信号进行声纹识别，确定是否唤醒电子设备。

一种可能的实现方式中，方法还包括：获取用户根据提示信息输入的响应信息；根据响应信息确定是否唤醒电子设备。

一种可能的实现方式中，提示信息用于引导用户在电子设备上的拍摄设备的拍摄范围内执行预设动作，获取用户根据提示信息输入的响应信息之前，还包括：启动电子设备上的拍摄设备。

一种可能的实现方式中，电子设备存储有声纹模板库，方法还包括：若根据响应信息确定唤醒电子设备，则根据音频信号更新声纹模板库。

通过该实现方式，如果电子设备通过和用户交互，根据用户输入的响应信息确定唤醒电子设备，说明音频信号可以唤醒电子设备。因此，根据音频信号更新声纹模板库，提高了后续声纹识别成功的概率，提高了唤醒电子设备的正确率。

第二方面，提供了一种唤醒设备的装置，包括：鉴伪模块，用于在确定接收的音频信号包括唤醒词时，对音频信号进行机器音识别和/或声纹识别，得到识别结果；识别结果用于指示唤醒电子设备、不唤醒电子设备或者不确定是否唤醒电子设备；输出模块，用于若识别结果指示不确定是否唤醒电子设备，则向用户输出提示信息；提示信息用于引导用户唤醒电子设备。

一种可能的实现方式中，输出模块用于：向用户输出语音提示信息；或者，向用户显示目标界面，目标界面包括提示信息。

一种可能的实现方式中，还包括传输模块，用于：与第一设备传输指示信息，指示信息用于指示第一设备向用户输出提示信息。

一种可能的实现方式中，第一设备包括手机和/或手表。

一种可能的实现方式中，鉴伪模块用于：对音频信号进行机器音识别和声纹识别；若确定音频信号是机器音，则识别结果指示不唤醒电子设备；若确定音频信号不是机器音，且声纹识别成功，则识别结果指示唤醒电子设备；若确定音频信号不是机器音，且声纹识别失败，则识别结果指示不确定是否唤醒电子设备。

一种可能的实现方式中，鉴伪模块用于：对音频信号进行机器音识别；若确定音频信号不是机器音，则对音频信号进行声纹识别。

一种可能的实现方式中，鉴伪模块用于：将音频信号输入声纹鉴伪模型，得到第一结果和音频信号的声纹特征信息；第一结果用于指示音频信号是否为机器音；若第一结果指示音频信号不是机器音，则根据音频信号的声纹特征信息和声纹模板库对音频信号进行声纹识别。

一种可能的实现方式中，鉴伪模块用于：对音频信号进行机器音识别；若确定音频信号是机器音，则识别结果指示不唤醒电子设备；若确定音频信号不是机器音，则识别结果指示唤醒电子设备；若不确定音频信号是否为机器音，则识别结果指示不确定是否唤醒电子设备。

一种可能的实现方式中，鉴伪模块用于：对音频信号进行声纹识别；若确定声纹识别成功，则识别结果指示唤醒电子设备；若确定声纹识别失败，则识别结果指示不确定是否唤醒电子设备。

一种可能的实现方式中，还包括确认模块，确认模块用于：获取用户根据提示信息输入的响应信息；根据响应信息确定是否唤醒电子设备。

一种可能的实现方式中，提示信息用于引导用户在电子设备上的拍摄设备的拍摄范围内执行预设动作，确认模块还用于：在获取用户根据提示信息输入的响应信息之前，启动电子设备上的拍摄设备。

一种可能的实现方式中，电子设备存储有声纹模板库，还包括更新模块，更新模块用于：若根据响应信息确定唤醒电子设备，则根据音频信号更新声纹模板库。

一种可能的实现方式中，还包括唤醒词模块，唤醒词模块用于：获取音频信号，确定音频信号是否包括唤醒词。

第三方面，提供一种电子设备，包括处理器，处理器用于与存储器耦合，并读取存储器中的指令并根据指令使得电子设备执行第一方面提供的方法。

第四方面，提供一种程序，该程序在被处理器执行时用于执行第一方面提供的方法。

第五方面，提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机或处理器上运行时，实现第一方面提供的方法。

第六方面，提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得该设备实施第一方面提供的方法。

附图说明

图1A～图1D为本申请实施例提供的唤醒电子设备的一组应用场景示意图；

图2为本申请实施例提供的电子设备的一种结构示意图；

图3为本申请实施例提供的电子设备的另一种结构示意图；

图4为本申请实施例提供的唤醒设备的方法的一种流程图；

图5为本申请实施例提供的声纹鉴伪模型的一种结构示意图；

图6A～图6G为本申请实施例提供的输出提示信息的一组应用场景示意图；

图7为本申请实施例提供的唤醒设备的装置的一种结构示意图；

图8为本申请实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面结合附图描述本申请实施例。

本申请实施例提供的唤醒设备的方法，适用于电子设备被用户唤醒的场景。本申请实施例对电子设备的名称和类型不做限定。例如，电子设备也可以称为物联网(internet of things，IOT)设备、终端、移动终端、终端设备、智能设备或用户设备等。目前，一些电子设备的举例为：智能音箱、智能家电、手机等。

为了方便说明，本申请实施例以电子设备为音箱作为示例。

示例性的，图1A～图1D为本申请实施例提供的唤醒电子设备的一组应用场景示意图，但图1A～图1D并不对应用场景形成限定。

在一个示例中，如图1A所示，用户可以说出音箱的唤醒词，用于唤醒音箱。相应的，音箱接收用户输入的音频信号，对音频信号进行解析。当解析出唤醒词后，可以唤醒音箱。其中，唤醒词为预先设置的用于唤醒电子设备的信息，本申请实施例对唤醒词的名称和具体内容不做限定。例如，唤醒词也可以称为关键词。

在另一个示例中，如图1B所示，电视正在播放节目，画面中的人物说出了唤醒词或者带有唤醒词的语句。音箱接收音频信号，对音频信号进行解析。在该场景中，没有用户要唤醒音箱。但是，音箱接收音频信号后可能解析出唤醒词，造成音箱的误唤醒。

在又一个示例中，如图1C所示，手机对用户说出的唤醒词进行录音。后续，手机在音箱附近播放用户的录音。相应的，音箱接收音频信号，对音频信号进行解析。在该场景中，用户没有唤醒音箱。但是，音箱接收音频信号后会解析出唤醒词，可能造成音箱的误唤醒。

在又一个示例中，如图1D所示，音箱所在环境的噪音较大，并且用户距离音箱较远。用户可以说出音箱的唤醒词，用于唤醒音箱。相应的，音箱接收音频信号，对音频信号进行解析。在该场景中，环境中的噪音对用户的声音形成了干扰，可能造成无法唤醒音箱。

相关技术中，电子设备可以对输入的音频信号进行声纹识别，避免设备被误唤醒。声纹，是指携带言语信息的声波频谱，具有特定性和稳定性。声纹识别，是生物识别技术的一种，可以通过声音判别说话人的身份。在一种实现方式中，如图2所示，电子设备可以包括唤醒词模块21和声纹识别模块22。

唤醒设备的方法可以包括：

唤醒词模块21，用于获取音频信号，确定音频信号是否包括唤醒词。如果音频信号包括唤醒词，则控制电子设备进入唤醒激活状态，并获取音频信号的声纹特征信息。

声纹识别模块22，用于根据音频信号的声纹特征信息对音频信号进行声纹识别。如果声纹识别成功，则唤醒设备；如果声纹识别失败，则不唤醒设备。

其中，本申请实施例对电子设备进行声纹识别的实现方式不做限定，可以采用现有的声纹识别技术。可选的，一种实现方式为：建立并存储声纹模板库，声纹模板库中包括至少一个声纹模板信息；将音频信号的声纹特征信息和至少一个声纹模板信息进行匹配，得到至少一个匹配值；将至少一个匹配值中取值最大的目标匹配值和预设匹配值进行比较；如果目标匹配值大于预设匹配值，则确定声纹识别成功；如果目标匹配值小于预设匹配值，则确定声纹识别失败。当目标匹配值等于预设匹配值时，可以确定声纹识别成功，或者确定声纹识别失败。通常，用户需要提前向电子设备注册声纹信息，确保声纹识别可以成功。可选的，另一种实现方式为：采用预先训练的声纹识别模型对音频信号进行声纹识别。

采用图2所示的实现方式，通过对音频信号进行声纹识别，提高了确定用户身份的准确性，在一些场景中避免了设备的误唤醒。例如，在图1B所示的场景中，音箱对电视播放的音频信号进行声纹识别，声纹识别会失败，音箱不会被唤醒。但是，在一些场景中电子设备依然可能被误唤醒或者不能被唤醒。例如，在图1C所示的场景中，如果利用手机播放用户说出唤醒词的录音注册音箱，声纹模板库中包括该录音对应的声纹模板信息。后续，当手机播放用户说出唤醒词的录音时，音箱对手机播放的音频信号进行声纹识别，声纹识别会成功，导致音箱被误唤醒。又例如，在图1D所示的场景中，环境中的噪音对用户的声音形成了干扰，音箱对用户输入的音频信号进行声纹识别，声纹识别可能会失败，导致音箱不能被成功唤醒。

本申请实施例提供一种唤醒设备的方法，如图3所示，电子设备可以包括：唤醒词模块21和鉴伪模块31。唤醒词模块21可以参见图2中的描述，此处不再赘述。鉴伪模块31，用于对音频信号进行机器音识别和/或声纹识别，得到识别结果。识别结果用于指示唤醒电子设备、不唤醒电子设备或者不确定是否唤醒电子设备。如果识别结果指示唤醒电子设备，则唤醒电子设备；如果识别结果指示不唤醒电子设备，则不唤醒电子设备；如果识别结果指示不确定是否唤醒电子设备，则向用户输出提示信息，以便用户进一步确认是否唤醒电子设备。

本申请实施例提供的唤醒设备的方法，通过对音频信号进行机器音识别和/或声纹识别，提高了确定用户身份的准确性，避免了设备的误唤醒。而且，当不确定是否唤醒电子设备时，通过向用户输出提示信息，与用户进行人机交互，使得用户进一步确认是否唤醒电子设备，从而避免了电子设备被误唤醒或者无法成功唤醒，提高了电子设备被唤醒的正确率。

下面通过具体的实施例对本申请的技术方案进行详细说明。下面的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图4为本申请实施例提供的唤醒设备的方法的一种流程图。本实施例提供的唤醒设备的方法，执行主体可以为电子设备。如图4所示，本实施例提供的唤醒设备的方法，可以包括：

S401、接收音频信号。

S402、对音频信号进行前处理。

可选的，前处理可以包括但不限于下列中的至少一项：降噪处理、滤波处理、去混响处理、参量均衡调节处理、音量调节处理或者增益处理。

S403、确定音频信号是否包括唤醒词。

如果音频信号包括唤醒词，则控制电子设备进入唤醒激活状态，后续执行S404。

如果音频信号不包括唤醒词，则结束处理。

S404、对音频信号进行机器音识别和/或声纹识别，得到识别结果。

其中，识别结果用于指示唤醒电子设备、不唤醒电子设备或者不确定是否唤醒电子设备。根据不同的识别结果执行S405～S407中的一项。

具体的，机器音识别用于确定音频信号是否为机器音，或者确定音频信号是否为人声。机器音也可以称为机器声、机械音、电子音等，本申请实施例对具体的名称和形成的原因不做限定。例如，通过设备播放包括唤醒词的语音形成机器音，或者，由于环境噪声或者设备的背景噪声形成的机器音。声纹识别可以确定用户的身份。通过对音频信号进行机器音识别和/或声纹识别，提高了确定用户身份的准确性。识别结果指示了三种结果：唤醒电子设备、不唤醒电子设备，或者，不确定是否唤醒电子设备。通过增加不确定是否唤醒电子设备的判定结果，后续可以进一步确认是否唤醒电子设备，从而提高了唤醒电子设备的正确率。

可选的，在第一种实现方式中，对音频信号进行机器音识别和/或声纹识别，可以包括：

对音频信号进行机器音识别。

在该实现方式中，只对音频信号进行机器音识别。机器音识别的结果可以包括两种情况。

第一种情况，机器音识别的结果包括两类：确定音频信号是机器音，或者，确定音频信号不是机器音。

如果确定音频信号是机器音，则识别结果指示不唤醒电子设备，避免电子设备的误唤醒。

如果确定音频信号不是机器音，则识别结果指示唤醒电子设备或者指示不确定是否唤醒电子设备。考虑到机器音识别的准确性，当确定音频信号不是机器音时，识别结果可以指示为不确定是否唤醒电子设备，后续可以进一步确认是否唤醒电子设备，提高唤醒电子设备的正确率。

第二种情况，机器音识别的结果包括三类：确定音频信号是机器音、确定音频信号不是机器音，或者，不确定音频信号是否为机器音。

如果确定音频信号是机器音，则识别结果指示不唤醒电子设备。

如果确定音频信号不是机器音，则识别结果指示唤醒电子设备。

如果不确定音频信号是否为机器音，则识别结果指示不确定是否唤醒电子设备。后续，可以进一步确认是否唤醒电子设备，提高唤醒电子设备的正确率。

可选的，在第二种实现方式中，对音频信号进行机器音识别和/或声纹识别，可以包括：

对音频信号进行声纹识别。

在该实现方式中，只对音频信号进行声纹识别。声纹识别的结果可以包括两类：声纹识别成功，或者，声纹识别失败。

如果确定声纹识别成功，则识别结果指示唤醒电子设备。

如果确定声纹识别失败，则识别结果指示不确定是否唤醒电子设备。后续，可以进一步确认是否唤醒电子设备，提高唤醒电子设备的正确率。

可选的，在第三种实现方式中，对音频信号进行机器音识别和/或声纹识别，可以包括：

对音频信号进行机器音识别和声纹识别。

在该实现方式中，对音频信号进行机器音识别和声纹识别。下面对机器音识别和声纹识别的结果进行说明。

第一种情况，机器音识别的结果包括两类：确定音频信号是机器音，或者，确定音频信号不是机器音。声纹识别的结果包括两类：声纹识别成功，或者，声纹识别失败。

如果确定音频信号不是机器音，且声纹识别成功，则识别结果指示唤醒电子设备。

如果确定音频信号不是机器音，且声纹识别失败，则识别结果指示不确定是否唤醒电子设备。后续，可以进一步确认是否唤醒电子设备，提高唤醒电子设备的正确率。

第二种情况，机器音识别的结果包括三类：确定音频信号是机器音、确定音频信号不是机器音，或者，不确定音频信号是否为机器音。声纹识别的结果包括两类：声纹识别成功，或者，声纹识别失败。

如果确定音频信号不是机器音，且声纹识别失败，则识别结果指示不确定是否唤醒电子设备。

如果不确定音频信号是否为机器音，且声纹识别成功，则识别结果指示唤醒电子设备。

如果不确定音频信号是否为机器音，且声纹识别失败，则识别结果指示不确定是否唤醒电子设备。

可选的，对音频信号进行机器音识别和声纹识别，在一种实现方式中，可以分别对音频信号进行机器音识别和声纹识别，机器音识别和声纹识别是独立的、非耦合的。本实施例对机器音识别和声纹识别的执行顺序不做限定。机器音识别和声纹识别可以依次进行，也可以同时进行。例如，先对音频信号进行机器音识别；若确定音频信号不是机器音，再对音频信号进行声纹识别。再例如，先对音频信号进行声纹识别，再对音频信号进行机器音识别。

可选的，对音频信号进行机器音识别和声纹识别，在另一种实现方式中，机器音识别和声纹识别之间可以相互关联，采用耦合的方式。通常，机器音识别和声纹识别需要获取音频信号的声学特征，利用神经网络模型的参数共享实现机器音识别和声纹识别之间的耦合。

可选的，对音频信号进行机器音识别和声纹识别，可以包括：

将音频信号输入声纹鉴伪模型，得到第一结果和音频信号的声纹特征信息。其中，鉴伪模型是以音频信号的声学特征作为输入，以第一结果和音频信号的声纹特征信息作为输出训练得到的网络模型。第一结果用于指示音频信号是否为机器音。

若第一结果指示音频信号不是机器音，则根据音频信号的声纹特征信息和声纹模板库对音频信号进行声纹识别。

其中，声纹鉴伪模型为预先训练的网络模型。示例性的，图5为本申请实施例提供的声纹鉴伪模型的一种结构示意图。如图5所示，声纹鉴伪模型的输入为音频信号的声学特征，输出为第一结果和音频信号的声纹特征信息。音频信号的声学特征是可以反映音频信号特性的物理量。例如，可以是预设维度的Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)。可选的，预设维度可以为39维。图5所示的声纹鉴伪模型可以理解为包括三个部分，分别是：左侧的声纹识别模型、右侧的语音鉴伪模型，以及，位于下方的声纹识别模型和语音鉴伪模型共享的公共部分。其中，声纹识别模型用于输出音频信号的声纹特征信息，语音鉴伪模型用于输出第一结果，指示音频信号是否为机器音。

公共部分可以包括至少两个时延神经网络(Time Delay Neural Network，TDNN)模块。TDNN模块也即x-vector框架中的时延神经网络层。x-vector是声纹识别领域主流的模型框架，可以接受任意长度的输入特征，映射为固定长度的特征表达。

对于左侧的声纹识别模型，与右侧的语音鉴伪模型共享TDNN模块后，继续经过相同结构但非共享的TDNN层，完成音频信号的帧级别的特征提取。接着，帧级别特征提取层的输出经过统计池化层，完成音频信号从帧级别到句子级别的特征映射。接着，统计池化层的输出输入到句级别特征提取层。其中，句级别特征提取层均由深度神经网络(Deep Neural Networks，DNN)构成，本实施例对DNN层的个数不做限定。最后，提取倒数第二个DNN层的输出作为音频信号的声纹特征信息。

对于右侧的语音鉴伪模型，与左侧的声纹识别模型共享TDNN模块后，继续经过相同结构但非共享的TDNN层，完成音频信号的帧级别的特征提取。接着，帧级别特征提取层的输出经过统计池化层，完成音频信号从帧级别到句子级别的特征映射。接着，统计池化层的输出输入到句级别特征提取层，完成特征提取，并在鉴伪语音判别层进行是否是机器音的判别，输出第一结果。

可见，本实施例提供的声纹鉴伪模型，声纹识别和机器音识别共享部分隐藏层，通过联合训练的方式控制两个模型的学习，最终使得模型收敛，达到同时提取音频信号的声纹信息和判断音频信号是否为机器音的两个能力。

S405、若识别结果指示唤醒电子设备，则唤醒电子设备。

S406、若识别结果指示不唤醒电子设备，则不唤醒电子设备。

S407、若识别结果指示不确定是否唤醒电子设备，则向用户输出提示信息，提示信息用于引导用户唤醒电子设备。

其中，提示信息可以为下列中的任意一种形式：音频、视频、文字、动画或显示界面。

通过向用户输出提示信息，实现与用户之间的人机交互，引导用户确认是否唤醒电子设备，从而进一步确认了电子设备是否被唤醒，避免了电子设备被误唤醒或者无法成功唤醒，提高了唤醒电子设备的正确率。

可选的，向用户输出提示信息，可以为电子设备直接向用户输出提示信息。实现了电子设备和用户之间的直接交互。

可选的，向用户输出提示信息，可以包括：与第一设备传输指示信息，指示信息用于指示第一设备向用户输出提示信息。在该实现方式中，电子设备与第一设备之间可以通信，传输指示信息，第一设备根据指示信息向用户输出提示信息。电子设备通过第一设备可以实现与用户之间的交互。

其中，本实施例对第一设备的类型和名称不做限定。例如，第一设备可以为可穿戴设备、手机、智能大屏等，可穿戴设备可以为智能手表。

可选的，电子设备和第一设备的用户账号相同。比如，电子设备为音箱，第一设备为与音箱具有相同用户账号的手机。由于电子设备和第一设备的用户账号相同，电子设备更容易发现第一设备，从而可以通过第一设备完成与用户之间的交互，进一步确认是否唤醒电子设备。

下面结合图1A～图1D，对音箱采用本实施例提供的唤醒设备的方法的效果进行说明。假设，音箱对音频信号进行机器音识别和声纹识别。

在图1A所示的场景中，音箱接收用户输入的音频信号，可以确定音频信号不是机器音，并且声纹识别成功，识别结果指示唤醒电子设备，音箱被唤醒。

在图1B所示的场景中，音箱接收电视播放的音频信号，可以确定音频信号是机器音，识别结果指示不唤醒电子设备，避免了音箱被误唤醒。

在图1C所示的场景中，手机播放用户说出唤醒词的录音。音箱接收音频信号，可以确定音频信号是机器音，识别结果指示不唤醒电子设备，避免了音箱被误唤醒。

在图1D所示的场景中，音箱接收用户输入的音频信号。假设，音箱确定音频信号不是机器音，但是声纹识别失败，那么识别结果指示不确定是否唤醒电子设备，音箱向用户输出提示信息，引导用户确认是否唤醒音箱，从而提高了音箱被唤醒的正确率。

可见，本实施例提供的唤醒设备的方法，通过对音频信号进行机器音识别和/或声纹识别，提高了确定用户身份的准确性，避免了设备的误唤醒。而且，当不确定是否唤醒电子设备时，通过向用户输出提示信息，与用户进行人机交互，使得用户进一步确认是否唤醒电子设备，从而避免了电子设备被误唤醒或者无法成功唤醒，提高了电子设备被唤醒的正确率。

可选的，本实施例提供的唤醒设备的方法，还可以包括：

S408、获取用户根据提示信息输入的响应信息。

S409、根据响应信息确定是否唤醒电子设备。

其中，响应信息可以为下列中的任意一种形式：音频、视频、用户在显示屏上进行的触控操作、用户对设备上的部件进行的操作，或者用户的肢体操作，例如，预设的手势。

可见，通过电子设备与用户之间的人机交互，用户通过响应信息确认是否唤醒电子设备，从而，电子设备根据响应信息最终确定是否被唤醒，提高了电子设备被唤醒的正确率。

可选的，若电子设备存储有声纹模板库，本实施例提供的唤醒设备的方法，还可以包括：

若根据响应信息确定唤醒电子设备，则根据音频信号更新声纹模板库。

具体的，如果电子设备通过和用户交互，根据用户输入的响应信息确定唤醒电子设备，说明音频信号是用于唤醒电子设备的。因此，根据音频信号更新声纹模板库，在声纹模板库中增加或者更新音频信号对应的声纹模板信息。这样，用户后续通过语音唤醒电子设备时，电子设备可以根据更新的声纹模板库对音频信号进行声纹识别，提高了声纹识别成功的概率，从而提高了唤醒电子设备的正确率。

而且，采用本实施例提供的唤醒设备的方法，不需要用户提前向电子设备注册声纹信息，简化了用户注册声纹的过程。

下面具体说明。电子设备中声纹模板库没有用户A的声纹模板信息。比如，电子设备出厂后首次使用，或者，用户A从没有唤醒过电子设备。当用户A唤醒电子设备时，电子设备接收用户A输入的音频信号。假设，电子设备对音频信号进行机器音识别和声纹识别，确定音频信号不是机器音，并且声纹识别失败。此时，电子设备向用户A输出提示信息，以便用户A进一步确认是否唤醒电子设备。用户A根据提示信息向电子设备输入响应信息，电子设备根据响应信息确定唤醒电子设备，并且根据用户A输入的音频信号更新声纹模板库，在声纹模板库中增加用户A的声纹模板信息。这样就完成了用户A声纹信息的注册，不需要用户A提前向电子设备注册声纹信息。相似的，假设，电子设备只对音频信号进行声纹识别，对用户A输入的音频信号会声纹识别失败。电子设备根据响应信息确定唤醒电子设备，可以根据用户A输入的音频信号更新声纹模板库。

下面，对S407中，提示信息的实现方式、电子设备向用户输出提示信息的实现方式进行说明。

可选的，提示信息用于引导用户与电子设备进行语音交互，以确定是否唤醒电子设备；或者，提示信息用于引导用户在目标设备上的拍摄设备的拍摄范围内执行预设动作，以确定是否唤醒电子设备；或者，提示信息用于引导用户在目标设备显示的目标界面中进行操作，以确定是否唤醒电子设备；或者，提示信息用于引导用户对目标设备上的目标物理按键进行操作，以确定是否唤醒电子设备。其中，目标设备可以为电子设备，或者为与电子设备通信的第一设备。

具体的，电子设备和用户之间的交互可以采用多种形式。例如，进行语音交互，或者，用户执行预设操作或预设肢体动作。其中，本实施例对语音交互的内容、目标界面中的内容、目标界面的布局、目标物理按键不做限定。例如，电子设备为音箱，目标设备为电子设备，目标物理按键可以为音箱上的播放键、暂停键、上一首按键、下一首按键或者音量键。又例如，电子设备为音箱，目标设备为和音箱具有相同用户账号的手机，目标物理按键可以为手机上的音量键。

通过多种形式的电子设备和用户之间的交互，提高了用户进一步确认是否唤醒电子设备的灵活性。

电子设备或者第一设备可以向用户输出提示信息。以电子设备为执行主体为例，可选的，电子设备向用户输出提示信息，可以包括：

向用户输出语音提示信息。或者，

向用户显示目标界面，目标界面包括提示信息。

可选的，如果提示信息用于引导用户在电子设备上的拍摄设备的拍摄范围内执行预设动作，获取用户根据提示信息输入的响应信息之前，还可以包括：

启动电子设备上的拍摄设备。

下面，结合图6A～图6G举例说明，但图6A～图6G并不对提示信息以及向用户输出提示信息的实现方式形成限定。电子设备为音箱，第一设备为手机，唤醒词为XXX。

可选的，在一个示例中，提示信息为音频，音箱向用户输出提示信息，响应信息也为音频，音箱和用户进行语音交互。例如，如图6A所示，音箱输出音频“请您再说一次XXX”。相应的，用户确认唤醒音箱，说出唤醒词“XXX”，以确认唤醒音箱。又例如，如图6B所示，音箱输出音频“请问你是在叫我吗”。相应的，用户确认不唤醒音箱，可以说出“不是”或者不应答，以确认没有唤醒音箱。

可选的，在另一个示例中，音箱显示目标界面，目标界面中包括提示信息，提示信息用于引导用户与电子设备进行语音交互。例如，如图6C所示，音箱显示目标界面51，目标界面51中包括文字“请您再说一次XXX”。相应的，用户确认唤醒音箱，说出唤醒词“XXX”，以确认唤醒音箱。

可选的，在又一个示例中，提示信息为音频，音箱向用户输出提示信息，响应信息为预设的用户动作。如图6D所示，音箱上具有摄像头52。音箱输出音频“如果您在叫我，请您抬起右侧手臂”。相应的，用户确认唤醒音箱，可以对着音箱上的摄像头52抬起右侧手臂。音箱的摄像头52捕捉到用户抬起右侧手臂的动作，可以确定唤醒音箱。又例如，音箱输出音频还可以为“如果您在叫我，请您对我眨眨眼睛”。

可选的，在又一个示例中，音箱显示目标界面，目标界面中包括提示信息，提示信息用于引导用户在目标界面中进行操作。如图6E所示，音箱显示目标界面53，目标界面53中包括文字“唤醒音箱”、“是”按钮和“否”按钮。假设，用户确认不是唤醒音箱，可以点击“否”按钮，以确认不唤醒音箱。

可选的，在又一个示例中，手机显示目标界面，目标界面中包括提示信息，提示信息用于引导用户在目标界面中进行操作。如图6F所示，音箱识别到同一区域内具有相同用户账号的手机，音箱向手机传输指示信息，以指示手机向用户输出提示信息。手机根据指示信息显示目标界面54，目标界面54中包括文字“唤醒音箱”、“是”按钮和“否”按钮。假设，用户确认唤醒音箱，可以点击“是”按钮，以确认唤醒音箱。相应的，手机获取用户根据提示信息输入的响应信息，并将响应信息传输给音箱。音箱根据响应信息确定唤醒音箱。

可选的，在又一个示例中，提示信息为音频，音箱向用户输出提示信息，用于引导用户对电子设备上的目标物理按键进行操作。如图6G所示，音箱输出音频“如果您在叫我，请您按一下暂停键”。相应的，用户确认唤醒音箱，可以按压音箱上的暂停键。

可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个模块中。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。需要说明的是，本申请实施例中模块的名称是示意性的，实际实现时对模块的名称不做限定。

示例性的，图7为本申请实施例提供的唤醒设备的装置的一种结构示意图。可选的，唤醒设备的装置可以应用于电子设备。如图7所示，本实施例提供的唤醒设备的装置，可以包括：

鉴伪模块31，用于在确定接收的音频信号包括唤醒词时，对所述音频信号进行机器音识别和/或声纹识别，得到识别结果；所述识别结果用于指示唤醒电子设备、不唤醒电子设备或者不确定是否唤醒电子设备；

输出模块71，用于若所述识别结果指示不确定是否唤醒电子设备，则向用户输出提示信息；所述提示信息用于引导用户唤醒电子设备。

可选的，所述提示信息用于引导所述用户与所述电子设备进行语音交互，以确定是否唤醒所述电子设备；或者，

所述提示信息用于引导所述用户在目标设备上的拍摄设备的拍摄范围内执行预设动作，以确定是否唤醒所述电子设备；或者，

所述提示信息用于引导所述用户在所述目标设备显示的目标界面中进行操作，以确定是否唤醒所述电子设备；或者，

所述提示信息用于引导所述用户对所述目标设备上的目标物理按键进行操作，以确定是否唤醒所述电子设备。

可选的，所述目标设备为所述电子设备，或者为与所述电子设备通信的第一设备。

可选的，所述电子设备和所述第一设备的用户账号相同。

可选的，输出模块71用于：

向所述用户输出语音提示信息；或者，

向所述用户显示目标界面，所述目标界面包括所述提示信息。

可选的，还包括传输模块，用于：

与第一设备传输指示信息，所述指示信息用于指示所述第一设备向所述用户输出所述提示信息。

可选的，所述第一设备包括手机和/或手表。

可选的，鉴伪模块31用于：

对所述音频信号进行机器音识别和声纹识别；

若确定所述音频信号是机器音，则所述识别结果指示不唤醒电子设备；

若确定所述音频信号不是机器音，且声纹识别成功，则所述识别结果指示唤醒电子设备；

若确定所述音频信号不是机器音，且声纹识别失败，则所述识别结果指示不确定是否唤醒电子设备。

可选的，鉴伪模块31用于：

对所述音频信号进行机器音识别；

若确定所述音频信号不是机器音，则对所述音频信号进行声纹识别。

可选的，鉴伪模块31用于：

将所述音频信号输入声纹鉴伪模型，得到第一结果和所述音频信号的声纹特征信息；所述第一结果用于指示所述音频信号是否为机器音；

若所述第一结果指示所述音频信号不是机器音，则根据所述音频信号的声纹特征信息和声纹模板库对所述音频信号进行声纹识别。

可选的，鉴伪模块31用于：

对所述音频信号进行机器音识别；

若确定所述音频信号不是机器音，则所述识别结果指示唤醒电子设备；

若不确定所述音频信号是否为机器音，则所述识别结果指示不确定是否唤醒电子设备。

可选的，鉴伪模块31用于：

对所述音频信号进行声纹识别；

若确定声纹识别成功，则所述识别结果指示唤醒电子设备；

若确定声纹识别失败，则所述识别结果指示不确定是否唤醒电子设备。

可选的，还包括确认模块，所述确认模块用于：

获取所述用户根据所述提示信息输入的响应信息；

根据所述响应信息确定是否唤醒所述电子设备。

可选的，所述提示信息用于引导所述用户在所述电子设备上的拍摄设备的拍摄范围内执行预设动作，所述确认模块还用于：

在获取所述用户根据所述提示信息输入的响应信息之前，启动所述电子设备上的所述拍摄设备。

可选的，所述电子设备存储有声纹模板库，还包括更新模块，所述更新模块用于：

若根据所述响应信息确定唤醒所述电子设备，则根据所述音频信号更新所述声纹模板库。

可选的，还包括唤醒词模块21，所述唤醒词模块21用于：

获取音频信号，确定音频信号是否包括唤醒词。

本实施例提供的唤醒设备的装置，用于执行本申请方法实施例提供的唤醒设备的方法，技术原理和技术效果相似，此处不再赘述。

请参考图8，其示出了本申请实施例提供的电子设备的另一种结构。电子设备包括：处理器801、接收器802、发射器803、存储器804和总线805。处理器801包括一个或者多个处理核心，处理器801通过运行软件程序以及模块，从而执行各种功能的应用以及信息处理。存储器804可用于存储至少一个程序指令，处理器801用于执行至少一个程序指令，以实现上述实施例的技术方案。接收器802和发射器803可以实现为一个通信组件，该通信组件可以是一块基带芯片。存储器804通过总线805和处理器801相连。其实现原理和技术效果与上述方法相关实施例类似，此处不再赘述。

本领域技术人员可以理解，为了便于说明，图8仅示出了一个存储器和处理器。在实际的电子设备中，可以存在多个处理器和存储器。存储器也可以称为存储介质或者存储设备等，本申请实施例对此不做限制。

在本申请实施例中，处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

在本申请实施例中，存储器可以是非易失性存储器，比如硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SS)等，还可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，不限于此。

本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。本申请各实施例提供的方法中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DWD)、或者半导体介质(例如，SSD)等。

本申请实施例提供一种计算机程序产品，当所述计算机程序产品在设备运行时，使得所述设备执行上述实施例中的技术方案。其实现原理和技术效果与上述相关实施例类似，此处不再赘述。

本申请实施例提供一种计算机可读存储介质，其上存储有程序指令，所述程序指令被设备执行时，使得所述设备执行上述实施例的技术方案。其实现原理和技术效果与上述相关实施例类似，此处不再赘述。

综上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种唤醒设备的方法，其特征在于，包括：

在确定接收的音频信号包括唤醒词时，对所述音频信号进行机器音识别和/或声纹识别，得到识别结果；所述识别结果用于指示唤醒电子设备、不唤醒电子设备或者不确定是否唤醒电子设备；

若所述识别结果指示不确定是否唤醒电子设备，则向用户输出提示信息；所述提示信息用于引导用户唤醒电子设备。
根据权利要求1所述的方法，其特征在于，

所述提示信息用于引导所述用户与所述电子设备进行语音交互，以确定是否唤醒所述电子设备；或者，

所述提示信息用于引导所述用户在目标设备上的拍摄设备的拍摄范围内执行预设动作，以确定是否唤醒所述电子设备；或者，

所述提示信息用于引导所述用户在所述目标设备显示的目标界面中进行操作，以确定是否唤醒所述电子设备；或者，

所述提示信息用于引导所述用户对所述目标设备上的目标物理按键进行操作，以确定是否唤醒所述电子设备。
根据权利要求2所述的方法，其特征在于，所述目标设备为所述电子设备，或者为与所述电子设备通信的第一设备。
根据权利要求3所述的方法，其特征在于，所述电子设备和所述第一设备的用户账号相同。
根据权利要求1所述的方法，其特征在于，所述向用户输出提示信息，包括：

向所述用户输出语音提示信息；或者，

向所述用户显示目标界面，所述目标界面包括所述提示信息。
根据权利要求1所述的方法，其特征在于，所述向用户输出提示信息，包括：

与第一设备传输指示信息，所述指示信息用于指示所述第一设备向所述用户输出所述提示信息。
根据权利要求3、4或6所述的方法，其特征在于，所述第一设备包括手机和/或手表。
根据权利要求1-7中任一项所述的方法，其特征在于，所述对所述音频信号进行机器音识别和/或声纹识别，得到识别结果，包括：

对所述音频信号进行机器音识别和声纹识别；

若确定所述音频信号是机器音，则所述识别结果指示不唤醒电子设备；

若确定所述音频信号不是机器音，且声纹识别成功，则所述识别结果指示唤醒电子设备；

若确定所述音频信号不是机器音，且声纹识别失败，则所述识别结果指示不确定是否唤醒电子设备。
根据权利要求8所述的方法，其特征在于，所述对所述音频信号进行机器音识别和声纹识别，包括：

对所述音频信号进行机器音识别；

若确定所述音频信号不是机器音，则对所述音频信号进行声纹识别。
根据权利要求8所述的方法，其特征在于，所述对所述音频信号进行机器音识别和声纹识别，包括：

将所述音频信号输入声纹鉴伪模型，得到第一结果和所述音频信号的声纹特征信息；所述第一结果用于指示所述音频信号是否为机器音；

若所述第一结果指示所述音频信号不是机器音，则根据所述音频信号的声纹特征信息和声纹模板库对所述音频信号进行声纹识别。
根据权利要求1-7中任一项所述的方法，其特征在于，所述对所述音频信号进行机器音识别和/或声纹识别，得到识别结果，包括：

对所述音频信号进行机器音识别；

若确定所述音频信号是机器音，则所述识别结果指示不唤醒电子设备；

若确定所述音频信号不是机器音，则所述识别结果指示唤醒电子设备；

若不确定所述音频信号是否为机器音，则所述识别结果指示不确定是否唤醒电子设备。
根据权利要求1-7中任一项所述的方法，其特征在于，所述对所述音频信号进行机器音识别和/或声纹识别，得到识别结果，包括：

对所述音频信号进行声纹识别；

若确定声纹识别成功，则所述识别结果指示唤醒电子设备；

若确定声纹识别失败，则所述识别结果指示不确定是否唤醒电子设备。
根据权利要求1-12中任一项所述的方法，其特征在于，所述方法还包括：

获取所述用户根据所述提示信息输入的响应信息；

根据所述响应信息确定是否唤醒所述电子设备。
根据权利要求13所述的方法，其特征在于，所述提示信息用于引导所述用户在所述电子设备上的拍摄设备的拍摄范围内执行预设动作，所述获取所述用户根据所述提示信息输入的响应信息之前，还包括：

启动所述电子设备上的所述拍摄设备。
根据权利要求13所述的方法，其特征在于，所述电子设备存储有声纹模板库，所述方法还包括：

若根据所述响应信息确定唤醒所述电子设备，则根据所述音频信号更新所述声纹模板库。
一种电子设备，其特征在于，包括处理器，所述处理器用于与存储器耦合，并读取存储器中的指令并根据所述指令使得所述电子设备执行如权利要求1-15中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在设备上运行时，使得所述设备执行如权利要求1-15中任一项所述的方法。