CN111475206A

CN111475206A - 用于唤醒可穿戴设备的方法及装置

Info

Publication number: CN111475206A
Application number: CN201910007365.XA
Authority: CN
Inventors: 赵志昊; 贺悦; 肖冰; 徐驰
Original assignee: Unikom Beijing Technology Co ltd
Current assignee: Unikom Beijing Technology Co ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2020-07-31
Anticipated expiration: 2039-01-04
Also published as: CN111475206B; EP3890342A1; US20220084529A1; EP3890342A4; WO2020140840A1

Abstract

本发明公开涉及用于唤醒可穿戴设备的方法及装置。该方法包括：基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者；基于所述声音信号，利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话；以及在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。该方法及装置利用该方法及装置能够在佩戴者与可穿戴设备的正常交互过程中唤醒可穿戴设备，从而能够实现自然的唤醒过程，提高可穿戴设备的用户体验。

Description

用于唤醒可穿戴设备的方法及装置

技术领域

本公开涉及电子设备领域，具体地，涉及用于唤醒可穿戴设备的方法及装置。

背景技术

随着科技的发展，可穿戴设备正逐步在人们的生活中占据重要的地位。考虑到功耗以及电池续航等问题，可穿戴设备通常不会一直处于正常工作状态。在用户需要使用时，可以通过一定手段将可穿戴设备唤醒至正常工作状态。

现有技术中，唤醒可穿戴设备的方式(例如有唤醒词方法)都不够自然。利用唤醒词来唤醒可穿戴设备时，由用户说出某个特定唤醒词，可穿戴设备监听到唤醒词后进行相应的语音处理，从而唤醒可穿戴设备。现有技术中唤醒可穿戴设备的方式过于机械，不能达到自然流畅的体验效果。因此，亟需一种能够实现自然唤醒可穿戴设备的唤醒方法。

发明内容

鉴于上述，本公开提供了一种用于唤醒可穿戴设备的方法及装置，利用该方法及装置能够在佩戴者与可穿戴设备的正常交互过程中唤醒可穿戴设备，从而能够实现自然的唤醒过程，提高可穿戴设备的用户体验。

根据本公开的一个方面，提供了一种用于唤醒可穿戴设备的方法，包括：基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者；基于所述声音信号，利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话；以及在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

可选地，在一个示例中，基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者可以包括：获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息；以及基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者。

可选地，在一个示例中，获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息可以包括：获取所述佩戴者在所述声音信号被检测到且所述声音信号达到第一阈值时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息。

可选地，在一个示例中，所述生物特征信息可以包括所述佩戴者的肌肉肌电信号，基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者可以包括：在所获取到的所述肌肉肌电信号不低于预定肌电阈值时，确定所述声音信号来自于所述佩戴者。

可选地，在一个示例中，所述生物特征信息可以包括所述佩戴者的面部肌肉运动信息，基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者包括：在所述佩戴者的面部肌肉运动信息表明所述佩戴者的与发声相关的面部肌肉发生运动时，确定所述声音信号来自于所述佩戴者。

可选地，在一个示例中，获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息可以包括：获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像；以及基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

可选地，在一个示例中，获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的生物特征信息可以包括：获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息；基于所述面部结构信息建立所述佩戴者的面部3D模型；以及基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

可选地，在一个示例中，所述生物特征信息包括所述佩戴者的与发声相关的肌肉震动信息，以及基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者可以包括：在所述与发声相关的肌肉震动信息表明所述佩戴者的与发声有关的肌肉存在震动时，确定所述声音信号来自于所述佩戴者。

可选地，在一个示例中，基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者可以包括：识别所检测到的声音信号的声纹信息；基于所述佩戴者的声纹特征和所识别的声纹信息，确定所述声音信号是否来自于所述佩戴者。

可选地，在一个示例中，所述声音信号可以为骨传导声音信号，所述骨传导声音信号是利用贴附在所述佩戴者的头部或颈部的骨传导声音检测装置检测得到的，基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者可以包括：在所述骨传导声音信号不低于预定声音阈值时，确定所述声音信号为来自于可穿戴设备的佩戴者的声音信号。

根据本公开的另一方面，还提供一种用于唤醒可穿戴设备的方法，包括：获取可穿戴设备的佩戴者的与发声相关的生物特征信息；当所述生物特征信息表明所述佩戴者发声时，检测在所述佩戴者发声过程中的声音信号；基于所述声音信号，利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话；以及当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

可选地，在一个示例中，所述生物特征信息可以包括以下中的至少一者：所述佩戴者的肌肉肌电信号；所述佩戴者的面部肌肉运动信息；以及所述佩戴者的骨传导声音信号。

根据本公开的另一方面，还提供一种用于唤醒可穿戴设备的装置，包括：声音来源确定单元，被配置为基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者；声音信号分类单元，被配置为基于所述声音信号，利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话；以及设备唤醒单元，被配置为在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

可选地，在一个示例中，所述声音来源确定单元可以包括：生物特征信息获取模块，被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息；以及声音信号来源确定模块，被配置为基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者。

可选地，在一个示例中，所述生物特征信息获取模块可以被配置为：获取所述佩戴者在所述声音信号被检测到且所述声音信号达到第一阈值时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息。

可选地，在一个示例中，生物特征信息获取模块可以包括：肌肉肌电检测子模块，被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的肌肉肌电信号，所述声音信号来源确定模块被配置为：在所获取到的所述肌肉肌电信号不低于预定肌电阈值时，确定所述声音信号来自于所述佩戴者。

可选地，在一个示例中，所述生物特征信息包括所述佩戴者的面部肌肉运动信息，所述声音信号来源确定模块可以被配置为：在所述佩戴者的面部肌肉运动信息表明所述佩戴者的与发声相关的面部肌肉发生运动时，确定所述声音信号来自于所述佩戴者。

可选地，在一个示例中，所述生物特征信息获取模块可以包括：面部图像获取子模块，被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像；以及肌肉运动信息识别子模块，被配置为基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

可选地，在一个示例中，所述生物特征信息获取模块可以包括：面部结构信息获取子模块，被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息；面部3D模型建立子模块，被配置为基于所述面部结构信息建立所述佩戴者的面部3D模型；以及肌肉运动信息识别子模块，被配置为基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

可选地，在一个示例中，所述生物特征信息包括所述佩戴者的与发声相关的肌肉震动信息，所述声音信号来源确定模块可以被配置为：在所述与发声相关的肌肉震动信息表明所述佩戴者的与发声有关的肌肉存在震动时，确定所述声音信号来自于所述佩戴者。

可选地，在一个示例中，所述声音来源确定单元可以包括：声纹信息识别模块，被配置为识别所检测到的声音信号的声纹信息；声音信号来源确定模块，被配置为基于所述佩戴者的声纹特征和所识别的声纹信息，确定所述声音信号是否来自于所述佩戴者。

可选地，在一个示例中，所述装置还包括：声音检测单元，被配置为检测声音信号。

可选地，在一个示例中，所述声音信号可以为骨传导声音信号，声音检测单元可以包括：骨传导声音检测单元，被配置为当所述佩戴者佩戴所述可穿戴设备时，能够贴附在所述佩戴者的头部或颈部，以检测骨传导声音信号。声音信号来源确定模块，被配置为：在所述骨传导声音信号不低于预定声音阈值时，确定所述声音信号为来自于可穿戴设备的佩戴者的声音信号。

根据本公开的另一方面，还提供一种用于唤醒可穿戴设备的装置，包括：生物特征信息获取单元，被配置为获取可穿戴设备的佩戴者的与发声相关的生物特征信息；声音检测单元，被配置为当所述生物特征信息表明所述佩戴者发声时，检测在所述佩戴者发声过程中的声音信号；声音信号分类单元，被配置为基于所述声音信号，利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话；以及设备唤醒单元，被配置为当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

可选地，在一个示例中，所述生物特征信息获取单元可以包括以下中的至少一者：肌肉肌电检测模块，被配置为检测所述佩戴者的肌肉肌电信号；肌肉运动检测模块，被配置为检测所述佩戴者的面部肌肉运动信息；以及骨传导声音检测模块，被配置为所述佩戴者的骨传导声音信号。

根据本公开的另一方面，还提供计算设备，包括：至少一个处理器；以及存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求如上所述的方法。

根据本公开的另一方面，还提供非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的方法。

利用本公开的方法及装置，通过在检测到的声音信号来自于佩戴者且该声音信号属于人机交互语音时唤醒可穿戴设备，不需要用户特意做出唤醒操作，而是在用户与可穿戴设备的正常交互过程中唤醒可穿戴设备，从而能够自然地实现唤醒，进而能够带给用户自然流畅的体验。

利用本公开的装置和***，通过基于声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息来确定声音信号是否来自于佩戴者，由于生物特征信息能够准确反应出佩戴者是否进行了发声动作，因而能够准确识别出所检测到的声音信号是否是佩戴者发出的。

利用本公开的装置和***，基于声音信号被检测到且声音信号达到第一阈值时的时间点起向后或向前预定时间段内的生物特征信息来确定声音信号是否来自于佩戴者，能够避免环境噪音的干扰，从而避免对声音的来源的误判。

利用本公开的装置和***，可以基于佩戴者的与发声相关的肌肉运动信息、面部肌肉震动信息等生物特征信息来确定声产时信号是否来自于佩戴者，从而提供了多种可用于自然地唤醒可穿戴设备的实现方式。

利用本公开的装置和***，通过从所检测到的声音信号中识别声纹信息并基于所识别出的声纹信息和佩戴者的声纹特征来确定声音信号是否来自于佩戴者，由于佩戴者的声纹特征是独一无二的，因而能够准确判断出声音信号的来源。

利用本公开的装置和***，利用骨传导检测装置获取的骨传导声音信号来判断声音信号是否来自于佩戴者，能够在准确地确定声音信号的来源的前替下，不仅提供了容易实现的唤醒方案，而且不需要配置额外的检测硬件，节省了硬件成本。

附图说明

通过参照下面的附图，可以实现对于本公开内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开的实施例，但并不构成对本公开的实施例的限制。在附图中：

图1是根据本公开的一个实施例的用于唤醒可穿戴设备的方法的流程图；

图2是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的一个示例的流程图；

图3是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图；

图4是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图；

图5和图6是根据本公开的实施例的用于唤醒可穿戴设备的方法中的面部肌肉运动信息获取过程的示例的流程图；

图7是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图；

图8是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图；

图9是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图；

图10是根据本公开的一个实施例的用于唤醒可穿戴设备的装置的结构框图；

图11是图10所示的用于唤醒可穿戴设备的装置中的声音来源确定单元的一个示例的结构框图；

图12和图13是图10的唤醒可穿戴设备的装置中的生物特征信息获取模块的示例的结构框图；

图14是图10所示的的用于唤醒可穿戴设备的装置中的声音来源确定单元的另一示例的结构框图；

图15是根据本公开的另一实施例的用于唤醒可穿戴设备的装置的结构框图；

图16是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备的结构框图；以及

图17是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备的结构框图

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

现在结合附图来描述本公开的用于实现用于唤醒可穿戴设备的方法及装置。

图1是根据本公开的一个实施例的用于唤醒可穿戴设备的方法的流程图。

如图1所示，在块102，检测声音信号，并在块104判断是否检测到了声音信号。对于本公开的方法，块102至块104的过程并不是必要要素，该过程也可以是独立于本公开的方法而执行的过程。

在检测到声音信号时，在块106，基于所检测到的声音信号，确定声音信号是否来自于可穿戴设备的佩戴者。所检测到的声音信号可能是可穿戴设备的佩戴者发出的，也可能是可穿戴设备所处环境中的环境噪音或其他人发生的声音。在该实施例中，仅在所检测到的声音信号来自于可穿戴设备时，允许唤醒可穿戴设备，以避免可穿戴设备被错误唤醒。

在一个示例中，在检测到声音信号时，可以识别声音信号中的声纹信息，进而根据声纹信息和佩戴者的声纹特征来确定所检测到的声音信号是否来自于可穿戴设备的佩戴者。例如，可以采集声音信号样本来训练声纹识别模型，在佩戴者使用可穿戴设备之前，可以由佩戴者多次录入自己的声音。当佩戴者的声音被录入后，录入的声音用来再次训练已训练过的声纹识别模型，从而对佩戴者的声音进行特征提取。当佩戴者使用可穿戴设备时，声纹识别模型可以基于所提取的佩戴者的声纹特征来识别所检测到的声音信号是否来自于佩戴者。例如，声纹识别模型可以识别检测到的声音信号与佩戴者的声纹特征的相似度，当相似度不低于某一阈值时确定该声音信号来自于佩戴者。

当确定所检测到声音信号来自于可穿戴设备的佩戴者时，在块108，基于所检测到声音信号，利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话。可以通过确定所检测的声音信号是否属于人机交互对话来确定该声音信号是否属于佩戴者与可穿戴设备之间的对话。

当人与机器之间进行人机交互时，讲话的节奏、响度、音调、用词、句式、泛音强度等特征通常与人与人对话时不同。因而可以采集包括人与人对话的语音数据样本和人机交互对话的语音数据样本，进而利用这些语音数据样本来训练语音分类模型。当检测到声音信号时，可以将声音信号输入经过训练的语音分类模型，以对该声音信号进行分类预测。在一个示例中，语音分类模型可以输出所检测到的声音信号属于人机交互对话的概率。此时，可以在语音分类模型所输出的概率不低于预定概率阈值时，确定该声音信号为佩戴者与可穿戴设备之间的对话。

在声音信号来自于佩戴者且声音信号属于佩戴者与可穿戴设备之间的对话时，在块110，唤醒可穿戴设备。由此，能够在佩戴者向可穿戴设备发出任意语音指令时，自然地唤醒可穿戴设备。佩戴者在使用可穿戴设备时不需要特地进行唤醒操作，从而能为佩戴者带来自然流畅的使用体验。

图2是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的一个示例的流程图。

如图2所示，在块202，获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息。在一个示例中，可以在所检测到的声音信号达到第一阈值时，获取该时间点向前或向后预定时间段内的生物特征信息。例如，可以获取在检测声音信号的过程中的生物特征信息，并存储在数据库中。当所检测到的声音信号达到第一阈值时，获取在声音信号达到第一阈值的时间点之前预定时间段的生物特征信息。还可以在声音信号达到第一阈值时，检测从该时间点起向后预定时间段的生物特征信息。由此，能够获取在检测声音信号过程中的佩戴者的生物特征信息。

然后，在块204，基于生物特征信息确定声音信号是否来自于佩戴者。当佩戴者讲话时，佩戴者的面部、喉咙等部位的生物特征将会发生变化，因而可以基于与发声相关的生物特征信息的变化来识别在检测声音信号的过程中佩戴者有没有发声，当生物特征信息表明在检测声音信号的过程中佩戴者发声时，可以确定声音信号来自于佩戴者。

生物特征信息例如可以是肌肉肌电信号、面部肌肉运动信息、肌肉震动信息等。以下参考图3-图6，说明基于所获取到的生物特征信息来确定佩戴者是否发声，进而确定声音来源的示例。

图3是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图。

如图3所示，在块302，获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的肌肉肌电信号。例如可以利用肌电检测装置来检测佩戴者的面部、头皮或颈部等部位的肌肉肌电信号。肌肉肌电信号可以利用肌电检查(EMG)装置来获取。

在获取到肌肉肌电信号时，在块304，判断所获取的肌肉肌电信号是否不低于预定肌电阈值。

当所获取的肌肉肌电信号不低于肌电阈值时，在块306，确定声音信号来自于佩戴者。当佩戴者发出声音时，这些相关的肌肉肌电信号会出现峰值波动。因而可以在所获取到的肌肉肌电信号不低于肌电阈值时，确定在检测到声音信号时佩戴者正在讲话，此时可确定声音信号来自于佩戴者。

图4是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图。

如图4所示，在块402，获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的面部肌肉运动信息。面部肌肉运动信息可以利用图5和图6所示的示例来获取。

在图5所示的示例中，在块502，获取在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的面部图像。例如，可以利用设置于佩戴者前额处的单目RGB摄像头，来获取面部图像。

在块504，基于面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。例如，可以通过检测面部图像中的面部、嘴部是否有运动。在一个示例中，可以将人讲话时的面部图像和未讲话时的面部图像作为训练样本来训练图像分类模型，然后利用训练过的图像分类模型来对所获取的面部图像进行预测分类，从而通过识别面部肌肉信息来识别佩戴者是否进行了讲话动作。

在图6所示的示例中，在块602，获取在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的面部结构信息。例如，面部结构信息可以是面部ToF(飞行时间)信息、面部超声波扫描信息、面部结构光信息等。可以利用设置于佩戴者前额处的ToF 3D模块、超声波传感器、结构光扫描模块、双目RGB摄像头等装置来获取面部结构信息。

在块604，基于面部结构信息建立所述佩戴者的面部3D模型。

在获得面部3D模型之后，在块606，基于面部3D模型检测佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

在通过上述方式获取到肌肉运动信息之后，在块404，基于面部肌肉运动信息确定佩戴者的面部肌肉是否发生运动。例如，可以基于面部3D模型来检测佩戴者的嘴部肌肉是否发生运动。

当佩戴者的面部肌肉发生运动时，说明在检测到声音信号时佩戴者进行了讲话动作，因而可以在块406，确定声音信号来自于佩戴者。例如，当佩戴者的嘴部或脸部发生运动时，可以确定佩戴者进行了讲话动作，由此可确定在检测声音信号时佩戴者进行了讲话，因而可以确定声音信号来自于佩戴者。

图7是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图。

如图7所示，在块702，获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的肌肉震动信息。肌肉震动信息可以利用贴附在与发声相关的肌肉上的运动传感器(例如，惯性测量单元(IMU))来检测。

然后在块704，基于肌肉震动信息确定佩戴者的与发声相关的面部肌肉是否发生震动。

当确定面部肌肉发生了震动时，在块706，确定声音信号来自于可穿戴设备的佩戴者。当佩戴者讲话时，面部肌肉会产生震动，因而可以在面部肌肉发生震动时，确定佩戴者的面部存在讲话动作，进而基于此确定声音信号来自于可穿戴设备。

图8是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图。

如图8所示，在块802，利用贴附在佩戴者的头部或颈部的骨传导声音检测装置检测骨传导声音信号。骨传导声音检测装置例如可以是骨传导麦克风。骨传导麦克风可以贴附于头部或颈部的任意位置，以检测骨传导声音。

然后在块804，确定骨传导声音信号是否不低于预定声音阈值。

当骨传导声音信号不低于预定声音阈值时，在块806，确定声音信号来自于佩戴者。当人发声时，声音能够通过头部或颈部的骨头进行传导，利用骨传导声音检测装置检测声音信号时，来自佩戴者自身的骨传导声音信号比来自于除佩戴者自身之外的环境的声音信号要强。因而可以在骨传导声音信号不低于预定声音阈值时，确定所检测到的声音信号来自于佩戴者。预定声音阈值可以通过实验获取以验值，还可以由佩戴者调整。

在确定声音信号来自于佩戴者时，可以在块810确定声音信号是否属于人机交互对话。当该声音信号来源于佩戴者且属于人机交互对话时，在块812，唤醒可穿戴设备。

图9是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图。

如图9所示，在块902，获取可穿戴设备的佩戴者的与发声相关的生物特征信息。生物特征信息可以是如上所述的与发声相关的肌肉肌电信号、面部肌肉运动信息、骨传导声音信号等中的任意一种或多种。

在块904，根据生物特征信息确定佩戴者是否发声。确定佩戴者是否发声的过程例如可以通过参照上述图3-图8所描述的发声确定过程来进行。例如，可以利用贴附于佩戴者头部或颈部的骨传导麦克风来检测骨传导声音信号，当骨传导声音信号达到预定声音阈值时，确定佩戴者正在发声。

当生物特征信息表明佩戴者发声时，在块906，检测在佩戴者发声过程中的声音信号。例如，可以利用肌肉肌电检测装置来检测佩戴者面部肌肉的肌肉肌电信号，当肌肉肌电信号不低于预定肌电阈值时，确定佩戴者正在发声，可以在肌肉肌电信号达到该预定肌电阈值时开始检测声音信号。再例如，可以利用贴附在与发声相关的肌肉上的运动传感器(例如，惯性测量单元(IMU))来检测与发声相关的肌肉是否发生震动，当发生震动时可以确定此时佩戴者正在发声，此时可以开始检测声音信号。在一个示例中，还可以通过如上参照图4-6所描述的方法来获取佩戴者的面部肌肉动动信息，当面部肌肉运动信息表示佩戴者正在发声时，开始检测声音信号。

然后，在块908，基于声音信号，利用语音分类模型来确定声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话。可以利用包括人与人对话的语音数据样本和人机交互对话的语音数据样本来训练语音分类模型，从而利用该语音分类模型来对所检测到的声音信号进行分类。

当在佩戴者发声过程中检测到的声音信号属于佩戴者与可穿戴设备之间的对话时，在块910，唤醒可穿戴设备。

图10是根据本公开的一个实施例的用于唤醒可穿戴设备的装置(下称可穿戴设备唤醒装置)1000的结构框图。如图10所示，可穿戴设备唤醒装置1000包括声音检测单元1010、声音来源确定单元1020、声音信号分类单元1030和设备唤醒单元1040。

声音检测单元1010被配置为检测声音信号。声音来源确定单元1020被配置为基于所检测到的声音信号，确定声音信号是否来自于可穿戴设备的佩戴者。声音信号分类单元1030被配置为基于所检测到的声音信号，利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话。在声音信号来自于佩戴者且声音信号属于佩戴者与可穿戴设备之间的对话时，设备唤醒单元1040被配置为唤醒可穿戴设备。

需要说明的是，虽然图10中示出了声音检测单元，但应当理解的是，本公开的可穿戴设备唤醒装置可以不包括声音检测单元。声音检测单元也可以是独立于可穿戴设备唤醒装置的元素。

在一个示例中，声音信号可以为骨传导声音信号，声音检测单元1010可以是骨传导声音检测单元。骨传导声音检测单元被配置为当佩戴者佩戴所述可穿戴设备时，能够贴附在所述佩戴者的头部或颈部，以检测骨传导声音信号。例如，在可穿戴设备唤醒装置应用于可穿戴设备时，骨传导声音检测装置可以是能够戴在佩戴者的耳部的骨传导麦克风，骨传导声音检测装置所检测到的声音信号可以通过有经或无线的方式发送至声音来源确定单元和声音信号分类单元。再例如，骨传导声音检测装置可以被设计成悬挂在可穿戴设备上，在佩戴者使用可穿戴设备时可以将其贴附在靠近头部骨骼或颈部骨骼的任意位置。在该示例中，声音信号来源确定模块可以在骨传导声音信号不低于预定声音阈值时，确定声音信号为来自于可穿戴设备的佩戴者的声音信号。

图11是根据本公开的一个实施例的可穿戴设备唤醒装置1000中的声音来源确定单元1020的一个示例的结构框图。如图11所示，声音来源确定单元1020包括生物特征信息获取模块1021和声音来源确定模块1022。

生物特征信息获取模块1021被配置为获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息。生物特征信息获取模块1021还可以被配置为获取佩戴者在声音信号被检测到且声音信号达到第一阈值时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息。生物特征信息可以是与发声相关的肌肉肌电信号、面部结构信息、面部肌肉运动信息、面部肌肉震动信息等。

在获取到佩戴者的生物特征信息之后，声音信号来源确定模块1022可以基于生物特征信息确定声音信号是否来自于佩戴者。在一个示例中，生物特征信息可以包括佩戴者的与发声相关的肌肉震动信息。在该示例中，生物特征信息获取模块1021可以包括肌肉震动信息获取子模块，以用于检测与发声相关的肌肉震动信息。此时，声音信号来源确定模块1022可以被配置为在与发声相关的肌肉震动信息表明佩戴者的与发声有关的肌肉存在震动时，确定声音信号来自于佩戴者。

在一个示例中，生物特征信息获取模块1021可以包括肌肉肌电检测子模块。肌肉肌电检测子模块被配置为获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的肌肉肌电信号。在该示例中，声音来源确定模块被配置为在所获取到的肌肉肌电信号不低于预定肌电阈值时，确定声音信号来自于佩戴者。

在一个示例中，生物特征信息包括佩戴者的面部肌肉运动信息。在该示例中，声音信号来源确定模块可以被配置为在佩戴者的面部肌肉运动信息表明佩戴者的与发声相关的面部肌肉发生运动时，确定声音信号来自于佩戴者。肌肉运动信息可以基于面部图像或面部3D模型来检测。

图12和图13是图11所示的实施例中的可穿戴设备唤醒装置1000中的生物特征信息获取模块的示例的结构框图。

如12所示，生物特征信息获取模块1021可以包括：面部图像获取子模块10211和肌肉运动信息识别子模块10212。面部图像获取子模块10211被配置为获取在声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像。肌肉运动信息识别子模块10212被配置为基于面部图像识别佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

如图13所示，所述生物特征信息获取模块可以包括面部结构信息获取子模块10214、面部3D模型建立子模块10215和肌肉运动信息识别子模块10216。面部结构信息获取子模块10213被配置为获取在声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息。然后，面部3D模型建立子模块10214基于面部结构信息建立佩戴者的面部3D模型。在建立面部3D模型之后，肌肉运动信息识别子模块10216可以基于面部3D模型检测佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

图14是图10所示的可穿戴设备唤醒装置1000中的声音来源确定单元1020的另一示例的结构框图。如图13所示，声音来源确定单元可以包括声纹信息识别模块1023和声音来源确定模块1024。声纹信息识别模块1023被配置为识别所检测到的声音信号的声纹信息。声音来源确定模块1024被配置为基于佩戴者的声纹特征和所识别的声纹信息，确定声音信号是否来自于佩戴者。

图15是根据本公开的另一实施例的可穿戴设备唤醒装置1500的结构框图。如图15所示，可穿戴设备唤醒装置1500包括生物特征信息获取单元1510、声音检测单元1520、声音信号分类单元1530以及设备唤醒单元1540。

生物特征信息获取单元1510被配置为获取可穿戴设备的佩戴者的与发声相关的生物特征信息。当生物特征信息表明佩戴者正在进行发声动作时，声音检测单元1520检测在佩戴者进行发声动作过程中的声音信号。声音信号分类单元1530被配置为基于声音信号，利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话。在佩戴者发声过程中检测到的声音信号属于佩戴者与可穿戴设备之间的对话时，设备唤醒单元1540唤醒可穿戴设备。

在一个示例中，生物特征信息获取单元1510可以包括肌肉肌电检测模块、肌肉运动检测模块和骨传导声音检测模块中的至少一者。肌肉肌电检测模块被配置为检测佩戴者的肌肉肌电信号。肌肉运动检测模块被配置为检测佩戴者的面部肌肉运动信息。骨传导声音检测模块被配置为检测佩戴者的骨传导声音信号。

以上参考图1-15说明了本公开的用于唤醒可穿戴设备的方法及装置。需要说明的是，以上对方法实施例的细节说明同样适用于装置实施例。本公开的识别终端设备上显示的应用程序控件的装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。在本公开中，识别终端设备上显示的应用程序控件的装置例如可以利用计算设备实现。

图16是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备1600的结构框图。根据一个实施例，计算设备1600可以包括至少一个处理器1610，该至少一个处理器1610执行在计算机可读存储介质(即，存储器1620)中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器1620中存储计算机可执行指令，其当执行时使得至少一个处理器1610：基于所检测到的声音信号，确定声音信号是否来自于可穿戴设备的佩戴者；基于声音信号，利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话；以及在声音信号来自于佩戴者且声音信号属于佩戴者与可穿戴设备之间的对话时，唤醒可穿戴设备。

应该理解，在存储器1620中存储的计算机可执行指令当执行时使得至少一个处理器1610进行本公开的各个实施例中以上结合图1-8、10-14描述的各种操作和功能。

图17是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备1700的结构框图。根据一个实施例，计算设备1700可以包括至少一个处理器1710，该至少一个处理器1710执行在计算机可读存储介质(即，存储器1720)中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器1720中存储计算机可执行指令，其当执行时使得至少一个处理器1710：获取可穿戴设备的佩戴者的与发声相关的生物特征信息；当生物特征信息表明所述佩戴者发声时，检测在佩戴者发声过程中的声音信号；基于声音信号，利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话；以及当在佩戴者发声过程中检测到的声音信号属于佩戴者与可穿戴设备之间的对话时，唤醒可穿戴设备。

应该理解，在存储器1720中存储的计算机可执行指令当执行时使得至少一个处理器1710进行本公开的各个实施例中以上结合图9和15描述的各种操作和功能。

根据一个实施例，提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本公开的各个实施例中以上结合图1-8、10-14描述的各种操作和功能。在一个示例中，非暂时性机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本公开的各个实施例中以上结合图9和图15描述的各种操作和功能。

具体地，可以提供配有可读存储介质的***或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

需要说明的是，上述各流程和各***结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本公开的实施例的可选实施方式，但是，本公开的实施例并不限于上述实施方式中的具体细节，在本公开的实施例的技术构思范围内，可以对本公开的实施例的技术方案进行多种简单变型，这些简单变型均属于本公开的实施例的保护范围。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于唤醒可穿戴设备的方法，包括：

基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者；

基于所述声音信号，利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话；以及

在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

2.如权利要求1所述的方法，其中，基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者包括：

获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息；以及

基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者。

3.如权利要求2所述的方法，其中，获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息包括：

获取所述佩戴者在所述声音信号被检测到且所述声音信号达到第一阈值时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息。

4.如权利要求2或3所述的方法，其中，所述生物特征信息包括所述佩戴者的肌肉肌电信号，以及

基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者包括：

在所获取到的所述肌肉肌电信号不低于预定肌电阈值时，确定所述声音信号来自于所述佩戴者。

5.如权利要求2或3所述的方法，其中，所述生物特征信息包括所述佩戴者的面部肌肉运动信息，以及

在所述佩戴者的面部肌肉运动信息表明所述佩戴者的与发声相关的面部肌肉发生运动时，确定所述声音信号来自于所述佩戴者。

6.如权利要求5所述的方法，其中，获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息包括：

获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像；以及

基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

7.如权利要求5所述的方法，其中，获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息包括：

获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息；

基于所述面部结构信息建立所述佩戴者的面部3D模型；以及

基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

8.如权利要求2或3所述的方法，其中，所述生物特征信息包括所述佩戴者的与发声相关的肌肉震动信息，以及

在所述与发声相关的肌肉震动信息表明所述佩戴者的与发声有关的肌肉存在震动时，确定所述声音信号来自于所述佩戴者。

9.如权利要求1所述的方法，其中，基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者包括：

识别所检测到的声音信号的声纹信息；

基于所述佩戴者的声纹特征和所识别的声纹信息，确定所述声音信号是否来自于所述佩戴者。

10.如权利要求1所述的方法，其中，所述声音信号为骨传导声音信号，所述骨传导声音信号是利用贴附在所述佩戴者的头部或颈部的骨传导声音检测装置检测得到的，基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者包括：

在所述骨传导声音信号不低于预定声音阈值时，确定所述声音信号为来自于可穿戴设备的佩戴者的声音信号。

11.一种用于唤醒可穿戴设备的方法，包括：

获取可穿戴设备的佩戴者的与发声相关的生物特征信息；

当所述生物特征信息表明所述佩戴者发声时，检测在所述佩戴者发声过程中的声音信号；

当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

12.如权利要求11所述的方法，其中，所述生物特征信息包括以下中的至少一者：

所述佩戴者的肌肉肌电信号；

所述佩戴者的面部肌肉运动信息；以及

所述佩戴者的骨传导声音信号。

13.一种用于唤醒可穿戴设备的装置，包括：

声音来源确定单元，被配置为基于所检测到的声音信号，确定所述声音信号是否来自于可穿戴设备的佩戴者；

声音信号分类单元，被配置为基于所述声音信号，利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话；以及

设备唤醒单元，被配置为在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

14.如权利要求13所述的装置，其中，所述声音来源确定单元包括：

生物特征信息获取模块，被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息；以及

声音信号来源确定模块，被配置为基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者。

15.如权利要求14所述的装置，其中，所述生物特征信息获取模块被配置为：

16.如权利要求14或15所述的装置，其中，生物特征信息获取模块包括：

肌肉肌电检测子模块，被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的肌肉肌电信号，其中，

所述声音信号来源确定模块被配置为：在所获取到的所述肌肉肌电信号不低于预定肌电阈值时，确定所述声音信号来自于所述佩戴者。

17.如权利要求14或15所述的装置，其中，所述生物特征信息包括所述佩戴者的面部肌肉运动信息，所述声音信号来源确定模块被配置为：

18.如权利要求17所述的装置，其中，所述生物特征信息获取模块包括：

面部图像获取子模块，被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像；以及

肌肉运动信息识别子模块，被配置为基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

19.如权利要求17所述的装置，其中，所述生物特征信息获取模块包括：

面部结构信息获取子模块，被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息；

面部3D模型建立子模块，被配置为基于所述面部结构信息建立所述佩戴者的面部3D模型；以及

肌肉运动信息识别子模块，被配置为基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。

20.如权利要求14或15所述的装置，其中，所述生物特征信息包括所述佩戴者的与发声相关的肌肉震动信息，所述声音信号来源确定模块被配置为：

21.如权利要求13所述的装置，其中，所述声音来源确定单元包括：

声纹信息识别模块，被配置为识别所检测到的声音信号的声纹信息；

声音信号来源确定模块，被配置为基于所述佩戴者的声纹特征和所识别的声纹信息，确定所述声音信号是否来自于所述佩戴者。

22.如权利要求13所述的装置，其中，所述装置还包括：

声音检测单元，被配置为检测声音信号。

23.如权利要求22所述的装置，其中，所述声音信号为骨传导声音信号，所述声音检测单元包括：

骨传导声音检测单元，被配置为当所述佩戴者佩戴所述可穿戴设备时，能够贴附在所述佩戴者的头部或颈部，以检测骨传导声音信号，

声音信号来源确定模块，被配置为：

24.一种用于唤醒可穿戴设备的装置，包括：

生物特征信息获取单元，被配置为获取可穿戴设备的佩戴者的与发声相关的生物特征信息；

声音检测单元，被配置为当所述生物特征信息表明所述佩戴者发声时，检测在所述佩戴者发声过程中的声音信号；

设备唤醒单元，被配置为当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时，唤醒所述可穿戴设备。

25.如权利要求24所述的装置，其中，所述生物特征信息获取单元包括以下中的至少一者：

肌肉肌电检测模块，被配置为检测所述佩戴者的肌肉肌电信号；

肌肉运动检测模块，被配置为检测所述佩戴者的面部肌肉运动信息；以及

骨传导声音检测模块，被配置为所述佩戴者的骨传导声音信号。

26.一种计算设备，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到10中任一所述的方法。

27.一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到10中任一所述的方法。

28.一种计算设备，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求11或12所述的方法。

29.一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求11或12所述的方法。