CN113724699B

CN113724699B - 设备唤醒识别模型训练方法、设备唤醒控制方法及装置

Info

Publication number: CN113724699B
Application number: CN202111098729.3A
Authority: CN
Inventors: 徐驰; 吴克艰; 马晓辉
Original assignee: Unikom Beijing Technology Co ltd
Current assignee: Unikom Beijing Technology Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2024-06-25
Anticipated expiration: 2041-09-18
Also published as: CN113724699A

Abstract

本申请的实施例提供设备唤醒识别模型训练方法、设备唤醒控制方法及装置。在进行设备唤醒识别模型训练时，使用语音识别模型对经由声音采集装置采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点。根据所确定的语义信号的语义信号起点和语义信号终点对经由IMU装置采集的IMU信号进行标签标注。然后，使用经过标签标注后的IMU信号训练设备唤醒识别模型。在进行设备唤醒控制时，将经由IMU装置采集的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒头戴式设备，以及在识别为需要唤醒头戴式设备时，控制头戴式设备的设备唤醒装置来唤醒头戴式设备。

Description

设备唤醒识别模型训练方法、设备唤醒控制方法及装置

技术领域

本申请的实施例涉及头戴式设备领域，具体地，涉及一种用于训练头戴式设备的设备唤醒识别模型的方法及装置、头戴式设备的设备唤醒控制方法及装置以及头戴式设备。

背景技术

为了降低头戴式设备的功耗，头戴式设备在不工作时处于休眠状态，仅仅在需要头戴式设备处于工作状态时才唤醒头戴式设备。如何避免在不需要唤醒头戴式设备时唤醒头戴式设备成为亟待解决的问题。

发明内容

鉴于上述问题，本申请的实施例提供一种用于训练头戴式设备的设备唤醒识别模型的方法及装置、头戴式设备的设备唤醒控制方法及装置以及头戴式设备。利用该设备唤醒控制方案，可以避免在不需要唤醒头戴式设备时唤醒头戴式设备，从而提升头戴式设备的唤醒准确性。

根据本申请的实施例的一个方面，提供一种用于训练头戴式设备的设备唤醒识别模型的方法，包括：使用语音识别模型对经由所述头戴式设备的声音采集装置采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点；根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注，所述IMU信号包括时序序列信号；以及使用经过标签标注后的IMU信号作为训练样本来训练所述头戴式设备的设备唤醒识别模型。

可选地，在上述方面的一个示例中，根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注可以包括：如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则将该IMU信号标注为正样本；以及如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的时间区间之外，则将该IMU信号标注为负样本。

可选地，在上述方面的一个示例中，如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则将该IMU信号标注为正样本可以包括：如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且该语义信号是由用户在佩戴所述头戴式设备时发出，则将该IMU信号标注为正样本，以及如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且该语义信号不是用户在佩戴所述头戴式设备时发出，则将该IMU信号标注为负样本。

可选地，在上述方面的一个示例中，所述方法还可以包括对所确定的语义信号进行声纹识别。相应地，根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注可以包括：根据所确定的语义信号的语义信号起点和语义信号终点以及各个语义语句的声纹识别结果，对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注。

可选地，在上述方面的一个示例中，所述方法还可以包括：使用语义识别模型对所确定出的语义信号进行语义识别，以确定所述语义信号是否包含预设关键词。相应地，根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注可以包括：根据所确定的语义信号的语义信号起点和语义信号终点以及语义识别结果，对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注，其中，如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且所述语义识别结果包含所述预设关键词，则将该IMU信号标注为正样本，如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且所述语义识别结果不包含所述预设关键词，则将该IMU信号标注为正样本；以及如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的时间区间之外，则将该IMU信号标注为负样本。

可选地，在上述方面的一个示例中，所述头戴式设备包括头戴式眼镜，以及所述IMU装置设置在所述头戴式眼镜中的第一眼镜结构中，所述第一眼镜结构与人体直接接触。

可选地，在上述方面的一个示例中，所述第一眼镜结构包括所述头戴式眼镜的镜腿或鼻托。

根据本申请的实施例的另一方面，提供一种头戴式设备的设备唤醒控制方法，包括：获取经由所述头戴式设备的IMU装置采集的IMU信号；将所获取的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒所述头戴式设备，所述设备唤醒识别模型按照如上所述的方法训练出；以及在识别为需要唤醒所述头戴式设备时，控制所述头戴式设备的设备唤醒装置来唤醒所述头戴式设备。

可选地，在上述方面的一个示例中，所述方法还可以包括：在所述设备唤醒识别装置识别为需要唤醒所述头戴式设备时，向所述头戴式设备的唤醒显示装置发送用于指示设备唤醒的通知消息。

根据本申请的实施例的另一方面，提供一种用于训练头戴式设备的设备唤醒识别模型的装置，包括：语音识别单元，被配置为使用语音识别模型对经由所述头戴式设备的声音采集装置采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点；标签标注单元，被配置为根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注，所述IMU信号包括时序序列信号；以及模型训练单元，被配置为使用经过标签标注后的IMU信号作为训练样本来训练所述头戴式设备的设备唤醒识别模型。

根据本申请的实施例的另一方面，提供一种头戴式设备的设备唤醒控制装置，包括：信号获取单元，被配置为获取经由所述头戴式设备的IMU装置采集的IMU信号；设备唤醒识别单元，被配置为将所获取的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒所述头戴式设备，所述设备唤醒识别模型按照如上所述的方法训练出；以及唤醒控制单元，被配置为在所述设备唤醒识别装置识别为需要唤醒所述头戴式设备时，控制所述头戴式设备的设备唤醒装置来唤醒所述头戴式设备。

根据本申请的实施例的另一方面，提供一种头戴式设备，包括：IMU装置，被配置为获取IMU信号；声音采集装置，被配置为采集语音信号；如上所述的设备唤醒控制装置；以及设备唤醒装置，被配置为响应于所述设备唤醒识别装置识别为需要唤醒所述头戴式设备，唤醒所述头戴式设备。

可选地，在上述方面的一个示例中，所述头戴式设备还可以包括：如上所述的用于训练头戴式设备的设备唤醒识别模型的装置。

根据本申请的实施例的另一方面，提供一种用于训练头戴式设备的设备唤醒识别模型的装置，包括：至少一个处理器；存储器；以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序以实现如上所述的用于训练头戴式设备的设备唤醒识别模型的方法。

根据本申请的实施例的另一方面，提供一种头戴式设备的设备唤醒控制装置，包括：至少一个处理器；存储器；以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序以实现如上所述的头戴式设备的设备唤醒控制方法。

根据本申请的实施例的另一方面，提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于训练头戴式设备的设备唤醒识别模型的方法或者头戴式设备的设备唤醒控制方法。

根据本申请的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的用于训练头戴式设备的设备唤醒识别模型的方法或者头戴式设备的设备唤醒控制方法。

附图说明

通过参照下面的附图，可以实现对于本申请的实施例内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。附图是用来提供对本申请的实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请的实施例，但并不构成对本申请的实施例的限制。

图1示出了根据本申请的实施例的头戴式设备的示例结构示意图。

图2示出了根据本申请的实施例的头戴式设备的麦克风部署位置的示例示意图。

图3示出了根据本申请的实施例的用于训练头戴式设备的设备唤醒识别模型的方法的流程图。

图4示出了根据本申请的实施例的IMU信号标签标注过程的一个示例的流程图。

图5示出了根据本申请的实施例的IMU信号标签标注过程的另一示例的流程图。

图6示出了根据本申请的实施例的IMU信号标签标注过程的另一示例的流程图。

图7示出了根据本申请的实施例的头戴式设备的设备唤醒控制方法的流程图。

图8示出了根据本申请的实施例的用于训练头戴式设备的设备唤醒识别模型的装置的示例框架图。

图9示出了根据本申请的实施例的头戴式设备的设备唤醒控制装置的示例结构示意图。

图10示出了根据本申请的实施例的基于计算机***实现的设备唤醒识别模型训练装置的示例硬件结构图。

图11示出了根据本申请的实施例的基于计算机***实现的设备唤醒控制装置的示例硬件结构图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本申请的实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

下面将参照附图描述根据本申请的实施例的头戴式设备、头戴式设备的设备唤醒识别模型的模型训练方法和模型训练装置以及头戴式设备的设备唤醒控制方法及设备唤醒控制装置。

图1示出了根据本申请的实施例的头戴式设备100的示例结构示意图。

如图1所示，头戴式设备100可以包括IMU(Inertial Measurement Unit，惯性测量单元)装置110、声音采集装置120、设备唤醒识别模型训练装置130、设备唤醒控制装置150和设备唤醒装置160。需要说明的是，除了上述组件之外，头戴式设备100还包括头戴式设备的常规组成组件，例如光学模组结构等。在本说明书中，头戴式设备的示例可以包括但不限于头戴式VR设备、头戴式MR设备、头戴式MR设备等。在一个示例中，头戴式设备可以包括头戴式眼镜、头戴式摄像机等。

IMU装置110设置在头戴式设备的第一设备结构中，该第一设备结构可与佩戴用户的人体直接接触。例如，在头戴式设备为头戴式眼镜的示例中，IMU装置110可以设置在头戴式眼镜中可与佩戴用户的人体直接接触的第一眼镜结构中，第一眼镜结构例如可以包括头戴式眼镜的镜腿或鼻托。由于设置在头戴式设备100中的IMU装置110与佩戴用户的人体直接接触，在佩戴用户戴上头戴式设备进行运动或说话时会引发人体震动，IMU装置110可以采集上述人体震动。IMU装置110在头戴式设备中的部署位置可以使得IMU装置110所采集的佩戴用户运动或说话时所产生的震动信号更强。

IMU装置110被配置为以给定的采样频率获取IMU信号。所获取的IMU信号可以包括时序序列信号。换言之，IMU信号为离散信号，并且每个IMU信号的信号起点和信号终点分别具有时间戳信息。所获取的各个IMU信号之间具有基于时间戳信息确定的时间先后顺序。在一个示例中，头戴式设备所使用的IMU装置110的采样频率可以为1000Hz，该采样频率可以覆盖人类语音的频率(85～255HZ)，从而IMU装置110的采样信号可以与人说话的声音信号重叠，从而IMU装置110可以采集人说话所产生的声音信号。

设备唤醒控制装置150可以与IMU装置110可通信地连接。例如，设备唤醒控制装置150可以与IMU装置110按照无线通信或者有线通信的方式连接。设备唤醒控制装置150被配置为获取IMU装置110所采集的IMU信号，并且可以分析IMU信号来识别是否需要唤醒头戴式设备。例如，设备唤醒控制装置150可以通过分析IMU信号来判断佩戴用户是否发出声音信号，在判断为佩戴用户在佩戴头戴式设备时发出声音信号时，认为该佩戴用户很可能希望与头戴式设备进行交互，由此判断为需要唤醒头戴式设备。在设备唤醒控制装置150判断为需要唤醒头戴式设备时，设备唤醒控制装置150控制头戴式设备的设备唤醒装置160来唤醒头戴式设备。该方式不需要通过例如麦克风的声音采集装置采集佩戴用户是否发出声音信号，因此，头戴式设备在被唤醒之前无需开启声音采集装置，从而可以降低头戴式设备的功耗。

设备唤醒装置160可以与设备唤醒控制装置150可通信地连接。响应于设备唤醒控制装置150判断为需要唤醒头戴式设备，设备唤醒装置160唤醒头戴式设备。设备唤醒装置160可以采用本领域中的任何合适的唤醒方式来唤醒头戴式设备，这里没有具体地限定。

为了确保设备唤醒控制装置150的设备唤醒识别结果的准确性，可以为设备唤醒控制装置150提供设备唤醒识别模型。设备唤醒识别模型可以部署在设备唤醒控制装置150中，也可以部署在设备唤醒控制装置150的外部。例如，存储在头戴式设备100的设备唤醒识别模型库中，或者存储在头戴式设备外部的设备唤醒识别模型库中。

设备唤醒识别模型可以预先利用IMU装置110采集的历史IMU信号训练出。IMU装置110所采集的历史IMU信号经过标签标注后作为设备唤醒识别模型的训练样本来训练设备唤醒模型。经过标签标注后的IMU信号可以包括正样本和负样本。这里，作为正样本的IMU信号对应的设备唤醒识别结果为“唤醒设备”，以及作为负样本的IMU信号对应的设备唤醒识别结果为“不唤醒设备”。

在进行模型训练之前，IMU装置110可以在头戴式设备的各种使用场景下采集IMU信号作为设备唤醒识别模型的训练样本。头戴式设备的使用场景的示例可以包括但不限于：头戴式设备静止放置在桌面上且用户说话/不说话，用户手持头戴式设备完成各种常见运动动作且用户说话/不说话，用户佩戴头戴式设备完成各种常见运动动作且用户说话/不说话，用户佩戴头戴式设备完成各种常见动作/面部动作且用户不说话等等。常见运动动作的示例包括但不限于：身体保持不动，行走，跑步，转体，前后左右移动，晃头，深蹲，跳跃等等。

在采集到各种使用场景下的IMU信号后，需要将所采集到的IMU信号标注为正样本或负样本。例如，在用户正常佩戴头戴式设备且在进行各种常见运动动作时说话的使用场景下所采集的IMU信号为正样本。在头戴式设备静止放置在桌面时说话与不说话的使用场景下所采集的IMU信号为负样本。在用户正常佩戴头戴式设备不说话且完成各种常见运动动作的使用场景下所采集的IMU信号为负样本。在用户正常佩戴头戴式设备做面部动作但不说话且完成各种常见运动动作的使用场景下所采集的IMU信号为负样本。在用户手持头戴式设备并完成各种常见运动动作时说话/不说话的使用场景下所采集的IMU信号为负样本。通过上述方式得到的样本可以覆盖头戴式设备使用的各种场景，因此通过上述训练样本训练出的设备唤醒识别模型可以准确地识别出头戴式设备在各种使用场景下的唤醒情况。

在一个示例中，可以采用人工标注方式来对所采集的IMU信号进行标签标注。然而，由于IMU信号是离散的时序序列信号，从而采用人工标注方式进行标签标注的标注效率和标注准确率都不高。

为了提升标签标注的标注效果和标注准确率，在头戴式设备100中设置声音采集装置120。声音采集装置120用于与IMU装置同步地采集语音信号。例如，声音采集装置120采集头戴式设备的周围环境中的语音信号。声音采集装置120的示例可以包括但不限于麦克风等。在一个示例中，声音采集装置120可以部署在头戴式设备100中适合捕获声音信号的设备结构中。图2示出了头戴式眼镜的下视图。如图2所示，声音采集装置120可以包括一对麦克风，该对麦克风分别部署在头戴式眼镜的镜框的左侧框架部分和右侧框架部分中。声音采集装置120所采集的语音信号可以被使用来辅助IMU信号的标签标注处理。

要说明的是，在采集训练样本时，头戴式设备100中的IMU装置110和声音采集装置120需要同时启动，IMU装置110采集IMU信号，以及声音采集装置120采集头戴式设备的设备环境中的音频信号。由于佩戴用户之外的人员发出的语音信号对IMU装置所采集的IMU信号的干扰较小，但是对声音采集装置120所采集的语音信号的干扰较大，因此在训练样本的采集过程中，佩戴用户通常需要在封闭安静环境中进行训练样本采集。

在如上通过IMU装置110和声音采集装置120获取IMU信号和语音信号后，使用语音信号来对IMU装置110所采集的IMU信号进行自动标签标注。然后，使用经过自动标签标注后的IMU信号来训练设备唤醒识别模型。

图3示出了根据本申请的实施例的用于训练头戴式设备的设备唤醒识别模型的方法300的流程图。

如图3所示，在步骤310，使用语音识别模型对经由头戴式设备100的声音采集装置120采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点。这里，语音识别模型可以采用本领域的各种合适的语音识别模型，只要该语音识别模型能够识别出人体发出的语音信号即可。通过上述语音识别处理，可以从声音采集装置120采集的各个语音信号中识别出语义信号，由此丢弃各个语音信号中的非语义信号。在本说明书中，术语“语义信号”可以指代人体所发出的声音信号，或者指代人体所发出的具有语义含义的声音信号。

在步骤320，根据所确定的语义信号的语义信号起点和语义信号终点对经由头戴式设备100的IMU装置110采集的IMU信号(例如，上述历史IMU信号)进行标签标注。针对IMU信号的标签标注过程将在下面参照附图详细描述。

在步骤330，在如上对所采集的IMU信号进行自动标签标注后，使用经过标签标注后的IMU信号作为训练样本来训练头戴式设备的设备唤醒识别模型。在本说明书中，设备唤醒识别模型可以采用各种适合的机器学习模型。在一个示例中，识别唤醒识别模型可以采用循环神经网络(RNN，Recurrent Neural Network)-连接时序分类(CTC，Connectionisttemporal classification)模型。换言之，这里可以将RNN模型和CTC模型配合使用，其中，CTC模型连接在RNN模型之后。

可以理解的是，人可能不会一直说话，可能是断断续续的说话，因此经由头戴式设备的声音采集装置采集的各个语音信号通常包括真实语音信号部分和没有语音的静默部分，因此使用直接采集到的语音信号训练模型会降低模型识别的准确率。这里，对于经由头戴式设备的声音采集装置采集的各个语音信号可以进行语义识别，从而可以确定出语义信号起点和语义信号终点，根据语义信号起点和语义信号终点，为所对应的IMU信号分别进行“说话”和“未说话”标签，得到训练样本，从而可以提升IMU信号标签标注的准确率，由此提升所训练出的设备唤醒识别模型的模型识别准确率，从而提升头戴式设备的设备唤醒准确率。

图4示出了根据本申请的实施例的IMU信号标签标注过程400的一个示例的流程图。

如图4所示，针对经由IMU装置110采集到的各个IMU信号(步骤410)，利用同步获取的语音信号来进行自动标签标注。

具体地，在步骤420，对于各个IMU信号，判断该IMU信号的信号起点的时间戳和/或信号终点的时间戳是否位于一个语义信号的语义信号起点和语义信号终点(这里的语义信号起点和语义信号终点为相邻的时间点)所限定的“说话”时间区间内。

如果步骤420的判断结果示出该IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的“说话”时间区间之外，则在步骤430，将该IMU信号标注为负样本。可以理解的是，通过基于IMU信号的信号起点和/或信号终点的时间戳以及语义信号的语义信号起点和语义信号终点的时间戳来进行样本标签标注，从而可以实现标签标注自动化执行，并且提升标签标注的准确性。

如果步骤420的判断结果示出该IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则在步骤440，可以继续判断该语义信号是否是在用户佩戴头戴式设备时发出。

如果步骤440的判断结果示出该语义信号不是在用户佩戴头戴式设备时发出，则在步骤450，可以将该IMU信号标注为负样本。

如果步骤440的判断结果示出该语义信号是在用户佩戴头戴式设备时发出，则在步骤460，可以将该IMU信号标注为正样本。可以理解的是，通过基于IMU信号的信号起点和/或信号终点的时间戳、语义信号的语义信号起点和语义信号终点的时间戳以及头戴式设备的用户佩戴装置来进行样本标签标注，从而可以进一步提升标签标注的准确性。

要说明的是，图4中示出的仅仅是IMU信号标签标注过程的一个实现示例，在另一示例中，在步骤420的判断结果示出该IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内时，也可以不进行步骤440的判断，而是将该IMU信号标注为正样本。

图5示出了根据本申请的实施例的IMU信号标签标注过程500的另一示例的流程图。

如图5所示，在步骤510，对所确定的语义信号进行声纹识别，以确定该语义信号是否是由目标用户发出。换言之，通过对所确定的语义信号进行声纹识别，以确定该语义信号的声纹信息是否与目标用户的声纹信息一致。如果声纹信息一致，则认为该语义信号由目标用户发出。这里，目标用户可以包括一个或多个用户。

在如上完成声纹识别后，根据所确定的语义信号的语义信号起点和语义信号终点以及各个语义语句的声纹识别结果，对经由头戴式设备100的IMU装置110采集的IMU信号进行标签标注。

具体地，在步骤520，对于各个IMU信号，判断该IMU信号的信号起点的时间戳和/或信号终点的时间戳是否位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内。

如果步骤520的判断结果示出该IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的时间区间之外，则在步骤530，将该IMU信号标注为负样本。

如果步骤520的判断结果示出该IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则在步骤540，判断该语义信号是否由目标用户发出。

如果步骤540的判断结果示出该语义信号不是由目标用户发出，则在步骤550，将该IMU信号标注为负样本。如果步骤540的判断结果示出该语义信号由目标用户发出，则在步骤560，将该IMU信号标注为正样本。

可以理解的是，通过将与历史IMU信号同步获取的语音信号与语音信号的声纹识别结果结合使用来对历史IMU信号进行自动标签标注，可以使得可以仅仅在预先设定的特定用户发出声音时才会唤醒头戴式设备，从而可以进一步降低头戴式设备的错误唤醒率，同时防止非目标用户发出声音信号时唤醒头戴式设备，由此提升头戴式设备的使用安全性。

要说明的是，图5示出的IMU信号标签标注过程可以与图4示出的IMU信号标签标注过程组合使用。例如，可以将图5中的声纹识别步骤以及基于声音识别结果的判断过程加入图4示出的示例中。具体地，在步骤440的判断结果示出该语义信号是在用户佩戴头戴式设备时发出后，执行图5中的基于声音识别结果的判断过程。

图6示出了根据本申请的实施例的IMU信号标签标注过程600的另一示例的流程图。

如图6所示，在步骤610，使用语义识别模型对所确定出的语义信号进行语义识别，以确定语义信号是否包含预设关键词。例如，假定预设关键词为“打开设备”，则使用语义识别模型对各个语义信号进行语义识别，以确定语义信号是否包含“打开设备”。

在如上完成语义识别后，根据所确定的语义信号的语义信号起点和语义信号终点以及语义识别结果，对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注。

具体地，在步骤620，对于各个IMU信号，判断该IMU信号的信号起点的时间戳和/或信号终点的时间戳是否位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内。

如果步骤620的判断结果示出该IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的时间区间之外，则在步骤630，将该IMU信号标注为负样本。

如果步骤620的判断结果示出该IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则在步骤640，判断该语义信号是否包含预设关键词。

如果步骤640的判断结果示出该语义信号不包含预设关键词，则在步骤650，将该IMU信号标注为负样本。

如果步骤640的判断结果示出该语义信号包含预设关键词，则在步骤660，将该IMU信号标注为正样本。

在如上训练出设备唤醒识别模型后，可以使用所训练出的设备唤醒识别模型来进行设备唤醒控制。

可以理解的是，通过将与历史IMU信号同步获取的语音信号与语音信号的语义识别结果结合使用来对历史IMU信号进行自动标签标注，可以使得可以仅仅在用户发出特定语音信号时才会唤醒头戴式设备，从而可以防止用户在未发出用于指示唤醒头戴式设备的语音信号时唤醒头戴式设备，由此进一步降低头戴式设备的错误唤醒率。

图7示出了根据本申请的实施例的头戴式设备的设备唤醒控制方法700的流程图。该设备唤醒控制方法由设备唤醒控制装置150执行。

如图7所示，在步骤710，获取经由头戴式设备100的IMU装置110采集的IMU信号。

在步骤720，将所获取的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒头戴式设备。设备唤醒识别模型可以部署在设备唤醒控制装置150中，也可以部署在设备唤醒控制装置150的外部，例如，存储在头戴式设备100的设备唤醒识别模型库中，或者存储在头戴式设备外部的设备唤醒识别模型库中。

在步骤730，在识别为需要唤醒头戴式设备时，控制头戴式设备的设备唤醒装置来唤醒头戴式设备。

本申请的上述实施例提供的头戴式设备唤醒控制方法，通过将IMU装置部署在头戴式眼镜与人体直接接触的眼镜结构中，可以使得所采集到的IMU信号具有更强的信号强度，从而能够利用通过上述各实施例训练得到的设备唤醒识别模型对IMU信号进行分析，以便于更加准确地识别出由于佩戴用户说话所造成的震动，进而唤醒头戴式设备。

图8示出了根据本申请的实施例的用于训练头戴式设备的设备唤醒识别模型的装置(下文中称为“设备唤醒识别模型训练装置”)800的示例框架图。如图7所示，设备唤醒识别模型训练装置800包括语音识别单元810、标签标注单元820和模型训练单元830。

语音识别单元810被配置为使用语音识别模型对经由头戴式设备的声音采集装置采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点。

标签标注单元820被配置为根据所确定的语义信号的语义信号起点和语义信号终点对经由头戴式设备的IMU装置采集的IMU信号进行标签标注。

模型训练单元830被配置为使用经过标签标注后的IMU信号作为训练样本来训练头戴式设备的设备唤醒识别模型。

在一个示例中，如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则标签标注单元820将该IMU信号标注为正样本。如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的时间区间之外，则标签标注单元720将该IMU信号标注为负样本。

在另一示例中，如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且同步获取的语音信号由用户在佩戴所述头戴式设备时发出，则标签标注单元820将该IMU信号标注为正样本。如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且同步获取的语音信号不是用户在佩戴所述头戴式设备时发出，则标签标注单元820将该IMU信号标注为负样本。如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的时间区间之外，则标签标注单元720将该IMU信号标注为负样本。

在另一示例中，设备唤醒识别模型训练装置800还可以包括声纹识别单元(未示出)。声纹识别单元被配置为对所确定的语义语句进行声纹识别。然后，标签标注单元820根据所确定的语义信号的语义信号起点和语义信号终点以及各个语义语句的声纹识别结果，对经由头戴式设备100的IMU装置110采集的IMU信号进行标签标注。标签标注单元820的标签标注过程可以参考上面参照图5描述的标签标注过程。

在另一示例中，设备唤醒识别模型训练装置800还可以包括语义识别单元(未示出)。所述语义识别单元被配置为使用语义识别模型对所确定出的语义信号进行语义识别，以确定所述语义信号是否包含预设关键词。然后，标签标注单元820根据所确定的语义信号的语义信号起点和语义信号终点以及语义识别结果，对经由戴式设备100的IMU装置110采集的IMU信号进行标签标注。标签标注单元820的标签标注过程可以参考上面参照图6描述的标签标注过程。

图9示出了根据本申请的实施例的头戴式设备的设备唤醒控制装置900的示例结构示意图。如图9所示，设备唤醒控制装置900包括信号获取单元910、设备唤醒设备单元920和唤醒控制单元930。

信号获取单元910被配置为获取经由头戴式设备100的IMU装置110采集的IMU信号。

设备唤醒识别单元920被配置为将所获取的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒头戴式设备。

唤醒控制单元930被配置为在设备唤醒识别单元920识别为需要唤醒头戴式设备时，控制头戴式设备的设备唤醒装置来唤醒头戴式设备。

此外，可选地，设备唤醒控制装置900还可以包括通知单元(未示出)。相应地，头戴式设备还包括唤醒显示装置。在设备唤醒识别单元识别为需要唤醒头戴式设备时，所述通知单元向头戴式设备的唤醒显示装置发送用于指示设备唤醒的通知消息。

如上参照图1到图9，对根据本申请的实施例的头戴式设备、应用于头戴式设备的设备唤醒识别模型训练方法及设备唤醒识别模型训练装置、应用于头戴式设备的设备唤醒控制方法及设备唤醒控制装置的实施例进行了描述。在以上对方法实施例的描述中所提及的细节，同样适用于本申请的装置的实施例。上面的设备唤醒识别模型训练装置和设备唤醒控制装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图10示出了根据本申请的实施例的基于计算机***实现的设备唤醒识别模型训练装置1000的示例硬件结构图。如图10所示，设备唤醒识别模型训练装置1000可以包括至少一个处理器910、存储器(例如非易失性存储器)1020、内存1030和通信接口1040，并且至少一个处理器1010、存储器1020、内存1030和通信接口1040经由总线1060连接在一起。至少一个处理器1010执行在存储器中存储或编码的计算机程序(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机程序，在计算机程序被执行时使得至少一个处理器1010：使用语音识别模型对经由头戴式设备的声音采集装置采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点；根据所确定的语义信号的语义信号起点和语义信号终点对经由头戴式设备的IMU装置采集的IMU信号进行标签标注，所述IMU信号包括时序序列信号；以及使用经过标签标注后的IMU信号作为训练样本来训练头戴式设备的设备唤醒识别模型。

应该理解，在存储器中存储的计算机程序被执行时，使得至少一个处理器1010执行本申请的各个实施例中以上结合图1-图6以及图8描述的各种操作和功能。

图11示出了根据本申请的实施例的基于计算机***实现的设备唤醒控制装置1100的示例硬件结构图。如图11所示，设备唤醒控制装置1100可以包括至少一个处理器1110、存储器(例如非易失性存储器)1120、内存1130和通信接口1140，并且至少一个处理器1110、存储器1120、内存1130和通信接口1140经由总线1160连接在一起。至少一个处理器1010执行在存储器中存储或编码的计算机程序(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机程序，在计算机程序被执行时使得至少一个处理器1110：获取经由头戴式设备的IMU装置采集的IMU信号；将所获取的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒头戴式设备；以及在识别为需要唤醒所述头戴式设备时，控制头戴式设备的设备唤醒装置来唤醒头戴式设备。

应该理解，在存储器中存储的计算机程序被执行时，使得至少一个处理器1110执行本申请的各个实施例中以上结合图7以及图9描述的各种操作和功能。

根据一个实施例，提供了一种比如计算机可读介质的程序产品。计算机可读介质可以具有计算机程序(即，上述以软件形式实现的元素)，该计算机程序被处理器执行时，使得处理器执行本申请的各个实施例中以上结合图1-图9描述的各种操作和功能。具体地，可以提供配有计算机可读存储介质的***或者装置，在该计算机可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机或处理器读出并执行存储在该计算机可读存储介质中的计算机程序。

在这种情况下，从计算机可读介质读取的计算机程序代码本身可实现上述实施例中任何一项实施例的功能，因此计算机可读程序代码和存储计算机可读程序代码的计算机可读存储介质构成了本发明的一部分。

计算机可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

根据一个实施例，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序当被处理器执行时，使得处理器执行本申请的各个实施例中以上结合图1-图9描述的各种操作和功能。

本领域技术人员应当理解，上面说明书的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各***结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于训练头戴式设备的设备唤醒识别模型的方法，包括：

使用语音识别模型对经由所述头戴式设备的声音采集装置采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点，所述语义信号包括人体所发出的具有语义含义的声音信号；

根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注，所述IMU信号包括时序序列信号；以及

使用经过标签标注后的IMU信号作为训练样本来训练所述头戴式设备的设备唤醒识别模型，

其中，所述方法还包括：

使用语义识别模型对所确定出的语义信号进行语义识别，以确定所述语义信号是否包含预设关键词，

根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注包括：

根据所确定的语义信号的语义信号起点和语义信号终点以及语义识别结果，对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注。

2.如权利要求1所述的方法，其中，根据所确定的语义信号的语义信号起点和语义信号终点对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注包括：

如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则将该IMU信号标注为正样本；以及

如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于所有语义信号的语义信号起点和语义信号终点所限定的时间区间之外，则将该IMU信号标注为负样本。

3.如权利要求2所述的方法，其中，如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内，则将该IMU信号标注为正样本包括：

如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且该语义信号是由用户在佩戴所述头戴式设备时发出，则将该IMU信号标注为正样本，以及

如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且该语义信号不是用户在佩戴所述头戴式设备时发出，则将该IMU信号标注为负样本。

4.如权利要求1所述的方法，还包括：

对所确定的语义信号进行声纹识别，

根据所确定的语义信号的语义信号起点和语义信号终点以及各个语义语句的声纹识别结果，对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注。

5.如权利要求1所述的方法，其中，如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且所述语义识别结果包含所述预设关键词，则将该IMU信号标注为正样本，

如果IMU信号的信号起点的时间戳和/或信号终点的时间戳位于一个语义信号的语义信号起点和语义信号终点所限定的时间区间内且所述语义识别结果不包含所述预设关键词，则将该IMU信号标注为负样本；以及

6.如权利要求1所述的方法，其中，所述头戴式设备包括头戴式眼镜，以及所述IMU装置设置在所述头戴式眼镜中的第一眼镜结构中，所述第一眼镜结构与人体直接接触。

7.如权利要求6所述的方法，其中，所述第一眼镜结构包括所述头戴式眼镜的镜腿或鼻托。

8.一种头戴式设备的设备唤醒控制方法，包括：

获取经由所述头戴式设备的IMU装置采集的IMU信号；

将所获取的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒所述头戴式设备，所述设备唤醒识别模型按照如权利要求1到7中任一所述的方法训练出；以及

在识别为需要唤醒所述头戴式设备时，控制所述头戴式设备的设备唤醒装置来唤醒所述头戴式设备。

9.如权利要求8所述的方法，还包括：

在识别为需要唤醒所述头戴式设备时，向所述头戴式设备的唤醒显示装置发送用于指示设备唤醒的通知消息。

10.一种用于训练头戴式设备的设备唤醒识别模型的装置，包括：

语音识别单元，被配置为使用语音识别模型对经由所述头戴式设备的声音采集装置采集的各个语音信号进行语音识别，以确定各个语音信号中的语义信号的语义信号起点和语义信号终点，所述语义信号包括人体所发出的具有语义含义的声音信号；

语义识别单元，被配置为使用语义识别模型对所确定出的语义信号进行语义识别，以确定所述语义信号是否包含预设关键词；

标签标注单元，被配置为根据所确定的语义信号的语义信号起点和语义信号终点以及语义识别结果，对经由所述头戴式设备的IMU装置采集的IMU信号进行标签标注，所述IMU信号包括时序序列信号；以及

模型训练单元，被配置为使用经过标签标注后的IMU信号作为训练样本来训练所述头戴式设备的设备唤醒识别模型。

11.一种头戴式设备的设备唤醒控制装置，包括：

信号获取单元，被配置为获取经由所述头戴式设备的IMU装置采集的IMU信号；

设备唤醒识别单元，被配置为将所获取的IMU信号提供给设备唤醒识别模型来识别是否需要唤醒所述头戴式设备，所述设备唤醒识别模型按照如权利要求1到7中任一所述的方法训练出；以及

唤醒控制单元，被配置为在识别为需要唤醒所述头戴式设备时，控制所述头戴式设备的设备唤醒装置来唤醒所述头戴式设备。

12.一种头戴式设备，包括：

IMU装置，被配置为获取IMU信号；

声音采集装置，被配置为采集语音信号；

如权利要求11所述的设备唤醒控制装置；以及

设备唤醒装置，被配置为响应于所述设备唤醒识别装置识别为需要唤醒所述头戴式设备，唤醒所述头戴式设备。

13.如权利要求12所述的头戴式设备，还包括：

如权利要求10所述的用于训练头戴式设备的设备唤醒识别模型的装置。

14.一种用于训练头戴式设备的设备唤醒识别模型的装置，包括：

至少一个处理器；

存储器；以及

存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序以实现如权利要求1到7中任一所述的方法。

15.一种头戴式设备的设备唤醒控制装置，包括：

至少一个处理器；

存储器；以及

存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序以实现如权利要求8或9所述的方法。

16.一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1到9中任一所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1到9中任一所述的方法。