CN110910887A

CN110910887A - 语音唤醒方法和装置

Info

Publication number: CN110910887A
Application number: CN201911394715.9A
Authority: CN
Inventors: 孙尔伟
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-03-24
Anticipated expiration: 2039-12-30
Also published as: CN110910887B

Abstract

本发明公开语音唤醒方法和装置，其中，方法包括：对获取的音频数据进行VAD检测以判断是否有语音信号输入；响应于VAD检测为有语音信号输入，对所输入的语音信号进行唤醒词检测以判断语音信号中是否包含预设唤醒词；若语音信号中不包含预设唤醒词，开启图像识别获取当前时刻用户的人脸的连续数据；基于人脸的连续数据判断用户是否具有对话意图；若判断用户具有对话意图，则执行唤醒。本申请实施例的方案通过在不能通过语音进行唤醒时，获取用户的人脸的连续数据，再根据该人脸的连续数据判断是否具有对话意图，如果有则可以唤醒设备，从而可以根据用户意图决定是否唤醒，而不只是依赖唤醒词，更加人性化，用户体验更好。

Description

语音唤醒方法和装置

技术领域

本发明属于语音唤醒技术领域，尤其涉及语音唤醒方法和装置。

背景技术

相关技术中，目前大部分设备都能实现语音交互。语音交互也是智能设备必备的技能，可以使得人机交互更人性化，对话更智能。相关技术中，唤醒是语音交互过程中的一个重要环节。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：目前大部分智能设备使用的语音交互，都需要根据设定好的唤醒词进行唤醒然后再对话，这使得交互较为麻烦和不友好。

发明内容

本发明实施例提供一种语音唤醒方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音唤醒方法，包括：对获取的音频数据进行VAD检测以判断是否有语音信号输入；响应于VAD检测为有语音信号输入，对所输入的语音信号进行唤醒词检测以判断所述语音信号中是否包含预设唤醒词；若所述语音信号中不包含预设唤醒词，开启图像识别获取当前时刻用户的人脸的连续数据；基于所述人脸的连续数据判断所述用户是否具有对话意图；若判断所述用户具有对话意图，则执行唤醒。

第二方面，本发明实施例提供一种语音唤醒装置，包括：检测模块，配置为对获取的音频数据进行VAD检测以判断是否有语音信号输入；唤醒判断模块，配置为响应于VAD检测为有语音信号输入，对所输入的语音信号进行唤醒词检测以判断所述语音信号中是否包含预设唤醒词；图像识别模块，配置为若所述语音信号中不包含预设唤醒词，开启图像识别获取当前时刻用户的人脸的连续数据；意图判断模块，配置为基于所述人脸的连续数据判断所述用户是否具有对话意图；以及唤醒执行模块，配置为若判断所述用户具有对话意图，则执行唤醒。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音唤醒方法的步骤。

本申请的方法和装置提供的方案通过在不能通过语音进行唤醒时，获取用户的人脸的连续数据，再根据该人脸的连续数据判断是否具有对话意图，如果有则可以唤醒设备，从而可以根据用户意图决定是否唤醒，而不只是依赖唤醒词，更加人性化，用户体验更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音唤醒方法的流程图；

图2为本发明一实施例提供的另一种语音唤醒方法的流程图；

图3为本发明一实施例提供的又一种语音唤醒方法的流程图；

图4为本发明一实施例提供的一种语音唤醒***的一个具体实施例的流程示意图；

图5为本发明一实施例提供的一种语音唤醒装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音唤醒方法一实施例的流程图，本实施例的语音唤醒方法可以适用于具备语音唤醒功能的智能语音设备，例如智能语音手机、智能音箱、智能语音机器人、智能语音玩具等，本申请在此没有限制。

如图1所示，在步骤101中，对获取的音频数据进行VAD检测以判断是否有语音信号输入；

在步骤102中，响应于VAD检测为有语音信号输入，对所输入的语音信号进行唤醒词检测以判断所述语音信号中是否包含预设唤醒词；

在步骤103中，若所述语音信号中不包含预设唤醒词，开启图像识别获取当前时刻用户的人脸的连续数据；

在步骤104中，基于所述人脸的连续数据判断所述用户是否具有对话意图；

在步骤105中，若判断所述用户具有对话意图，则执行唤醒。

在本实施例中，对于步骤101，语音唤醒装置对获取用户的音频数据进行VAD检测来判断是否有用户的语音信号输入；

然后，对于步骤102，如果VAD的检测结果为有语音信号输入，则对用户所输入的语音信号进行唤醒词检测用以判断用户的语音信号中是否包含预设的设备唤醒词；

之后，对于步骤103，若设备检测到用户的语音信号中不包含预设唤醒词，设备就会开启图像识别来获取当前时刻用户的人脸的连续数据；然后，对于步骤104，设备基于所述人脸的连续数据判断所述用户是否具有对话意图；最后，对于步骤105，设备若判断所述用户具有对话意图，则执行实审的唤醒。

例如，用户走到一台智能电视前进行讲话，然后智能电视就会获取用户的音频数据，再进行VAD检测用户的音频数据是否包含唤醒词，如果在不包含唤醒词的情况下，智能电视则会后台开启图像识别来确定用户是否有对话意图，例如，用户有没有注视着智能电视等处理结果，如果智能电视判定用户有对话意图则直接唤醒设备。

本申请实施例的方案通过在不能通过语音进行唤醒时，获取用户的人脸的连续数据，再根据该人脸的连续数据判断是否具有对话意图，如果有则可以唤醒设备，从而可以根据用户的真实意图决定是否唤醒，而不只是依赖唤醒词来决定是否唤醒，对于用户忘记或者根本没有唤醒词的概念的场景更加友好，更加人性化，用户体验更好。

进一步参考图2，其示出了本申请的语音唤醒方法另一实施例的流程图。其中，本实施例的流程图主要是针对流程图图1中步骤104“基于所述人脸的连续数据判断所述用户是否具有对话意图”之后的步骤进一步限定的步骤的流程图。

如图2所示，在步骤201中，若判断所述用户不具有对话意图，基于所述语音信号和所述人脸的连续数据确定所述用户的画像；

在步骤202中，基于所述画像确定针对所述用户的推荐信息；

在步骤203中，将所述推荐信息反馈给所述用户。

在本实施例中，对于步骤201，语音唤醒装置若判断所述用户不具有对话意图，基于所述语音信号和所述人脸的连续数据确定所述用户的画像，例如，在商场或者超市门口的智能机器人，收集用户的语音信号和人脸的连续数据来确定用户的画像，画像包括性别、年龄、兴趣爱好等信息；

之后，对于步骤202，设备基于所述画像确定针对所述用户的推荐信息，例如，上述智能机器人基于收集用户的语音信息中“某某牌的衣服”和路人画像来生成推荐信息如“您好，某某品牌在二楼的扶梯口前方哦，祝您购物愉快”等推荐信息，或者例如“您好，请问有什么可以帮助您”的打招呼的推荐信息等，本申请在此没有限制。

最后，对于步骤203，设备将所述推荐信息反馈给所述用户，例如，上述智能机器人把生成的推荐信息来反馈给用户后，用户也可以和智能机器人仔细语音交互询问等。

在一些可选的实施例中，在对获取的音频数据进行VAD检测以判断是否有语音信号输入之后，上述方法还包括：响应于VAD检测在某一预设时间内未检测到语音信号，开启图像识别获取当前时刻的图像的连续数据。从而可以在长时间没有检测到语音信号时，主动地去获取图像数据，从而可以开启后续的启发式对话，主动地去和用户对话，对那些不了解情况或者不懂得使用该语音设备的用户更加友好。

进一步参考图3，其示出了本申请本申请的语音唤醒方法又一实施例的流程图。本实施例的流程图主要是针对“响应于VAD检测在某一预设时间内未检测到语音信号，开启图像识别获取当前时刻的图像的连续数据”之后的步骤进一步限定的步骤的流程图。

如图3所示，在步骤301中，基于所述图像的连续数据判断是否为动态图像数据，其中，所述动态图像数据中包含至少一个用户；

在步骤302中，若判断为动态图像数据，基于所述动态图像数据确定所述至少一个用户的画像；

在步骤303中，基于所述画像确定针对所述至少一个用户的推荐信息；

在步骤304中，将所述推荐信息反馈给所述至少一个用户。

在本实施例中，对于步骤301，语音唤醒装置基于收集图像的连续数据判断是否为动态图像数据，例如，在商场中，智能机器人对路过自己的用户进行连续拍照缓存，然后，根据缓存的连续图像数据来判断是否为动态图像数据，其中，所述动态图像数据中包含至少一个用户；

然后，对于步骤302，设备若判断为动态图像数据，基于所述动态图像数据确定所述至少一个用户的画像；例如，上述智能机器人基于动态图像数据来确定至少一个用户的性别、年龄、兴趣爱好等信息；

之后，对于步骤303，语音唤醒装置基于所述画像确定针对所述至少一个用户的推荐信息；例如，上述智能机器人基于收集用户和朋友的聊天语音信息中“一会我们去吃点什么”和用户画像来生成推荐信息如“您好，我们商场的五楼有很多餐饮店哦，例如想吃本地特色可以去某某店，想吃自助餐可以去某某店”等推荐信息；

最后，对于步骤304，语音唤醒装置将所述推荐信息反馈给所述至少一个用户。例如，上述智能机器人把生成的推荐信息来反馈用户后，路人也可以停下来和智能机器人仔细询问等。

本实施例的方法通过在获取了连续的用户图像之后，当包含用户动态时，主动向用户发起启发式会话，可以帮助一些不了解如何使用或者根本不知道语音设备存在的用户借助语音设备去获取相关信息，用户体验更好。

在一些可选的实施例中，上述推荐信息包括打招呼、闲聊和提醒。从而可以通过打招呼、闲聊或者提醒的方式主动地与用户开启对话，更好地模拟真人对话场景，用户易于接受，用户体验更好。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

本申请实施例所采用的技术方案是，在原有的定制的唤醒词基础上，新增全景图像识别的结合，采用唤醒词与图像识别的联合，以带来更好的体验。

一种机器人唤醒及启发式对话的方法与装置,包括语音的唤醒模块/识别模块和语音合成模块及图像识别模块，启发式对话模块，***初始化后唤醒模块处于休眠状态，根据VAD检测结果来检测是否有语音信号输入,在根据语音输入是否为预设的唤醒词来进行唤醒及对话,但如果检测的音频信号不是预设的唤醒词时,则开启全景图像识别模块，根据图像识别的人脸的连续数据来获得是否为对话意图，从而唤醒设备，进行对话的检测。与此同时，如果输入的没有对话意图的时候，则把数据输入给启发式对话模块。

一种机器人唤醒及启发式对话的方法与装置包括启发式对话模块,集合声纹和人脸数据进行数据库比对，例如人脸的结果，男或者女，亦或者是预存在数据库中的结果进行启发式的对话，包括打招呼，闲聊，提醒等。

本发明的工作原理是：

1、VAD检测，***初始化后，VAD检测到信号后再去检测唤醒；

2、检测唤醒词后根据结果进入对话；

3、未检测到唤醒词时根据全景摄像头输入至人脸识别模块进行检测，根据检测结果送至启发式对话模块处理；

4、同时长时间未检测到声音时，进行定时的摄像头数据处理,在检测到图像动态时候同时输入至启发式对话模块进行处理；

5、启发式对话模块融合对个数据(例如声纹，人脸等)进行综合分析后进行对话。

请参考图5，其示出了本发明一实施例提供的一种语音唤醒装置的框图。

如图5所示，语音唤醒装置500，包括检测模块510、唤醒判断模块520、图像识别模块530、意图判断模块540以及唤醒执行模块550。

其中，检测模块510，配置为对获取的音频数据进行VAD检测以判断是否有语音信号输入；唤醒判断模块520，配置为响应于VAD检测为有语音信号输入，对所输入的语音信号进行唤醒词检测以判断所述语音信号中是否包含预设唤醒词；图像识别模块530，配置为若所述语音信号中不包含预设唤醒词，开启图像识别获取当前时刻用户的人脸的连续数据；意图判断模块540，配置为基于所述人脸的连续数据判断所述用户是否具有对话意图；以及唤醒执行模块550，配置为若判断所述用户具有对话意图，则执行唤醒。

在一些可选的实施例中，语音唤醒装置500，还包括：画像模块(图中未示出)，配置为若判断所述用户不具有对话意图，基于所述语音信号和所述人脸的连续数据确定所述用户的画像；推荐模块(图中未示出)，配置为基于所述画像确定针对所述用户的推荐信息；以及反馈模块(图中未示出)，配置为将所述推荐信息反馈给所述用户。

在一些可选的实施例中，上述图像识别模块530还配置为：响应于VAD检测在某一预设时间内未检测到语音信号，开启图像识别获取当前时刻的图像的连续数据。

应当理解，图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音唤醒方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

对获取的音频数据进行VAD检测以判断是否有语音信号输入；

响应于VAD检测为有语音信号输入，对所输入的语音信号进行唤醒词检测以判断所述语音信号中是否包含预设唤醒词；

若所述语音信号中不包含预设唤醒词，开启图像识别获取当前时刻用户的人脸的连续数据；

基于所述人脸的连续数据判断所述用户是否具有对话意图；

若判断所述用户具有对话意图，则执行唤醒。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音识别方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。语音识别方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别方法。输入装置630可接收输入的数字或字符信息，以及产生与语音识别装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音唤醒装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

对获取的音频数据进行VAD检测以判断是否有语音信号输入；

基于所述人脸的连续数据判断所述用户是否具有对话意图；

若判断所述用户具有对话意图，则执行唤醒。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音唤醒方法，包括：

对获取的音频数据进行VAD检测以判断是否有语音信号输入；

基于所述人脸的连续数据判断所述用户是否具有对话意图；

若判断所述用户具有对话意图，则执行唤醒。

2.根据权利要求1所述的方法，其中，在基于所述人脸的连续数据判断所述用户是否具有对话意图之后，所述方法还包括：

若判断所述用户不具有对话意图，基于所述语音信号和所述人脸的连续数据确定所述用户的画像；

基于所述画像确定针对所述用户的推荐信息；

将所述推荐信息反馈给所述用户。

3.根据权利要求1所述的方法，其中，在对获取的音频数据进行VAD检测以判断是否有语音信号输入之后，所述方法还包括：

响应于VAD检测在某一预设时间内未检测到语音信号，开启图像识别获取当前时刻的图像的连续数据。

4.根据权利要求3所述的方法，其中，所述方法还包括：

基于所述图像的连续数据判断是否为动态图像数据，其中，所述动态图像数据中包含至少一个用户；

若判断为动态图像数据，基于所述动态图像数据确定所述至少一个用户的画像；

基于所述画像确定针对所述至少一个用户的推荐信息；

将所述推荐信息反馈给所述至少一个用户。

5.根据权利要求2或4所述的方法，其中，所述推荐信息包括打招呼、闲聊和提醒。

6.一种语音唤醒装置，包括：

检测模块，配置为对获取的音频数据进行VAD检测以判断是否有语音信号输入；

唤醒判断模块，配置为响应于VAD检测为有语音信号输入，对所输入的语音信号进行唤醒词检测以判断所述语音信号中是否包含预设唤醒词；

图像识别模块，配置为若所述语音信号中不包含预设唤醒词，开启图像识别获取当前时刻用户的人脸的连续数据；

意图判断模块，配置为基于所述人脸的连续数据判断所述用户是否具有对话意图；

唤醒执行模块，配置为若判断所述用户具有对话意图，则执行唤醒。

7.根据权利要求6所述的装置，其中，所述装置还包括：

画像模块，配置为若判断所述用户不具有对话意图，基于所述语音信号和所述人脸的连续数据确定所述用户的画像；

推荐模块，配置为基于所述画像确定针对所述用户的推荐信息；

反馈模块，配置为将所述推荐信息反馈给所述用户。

8.根据权利要求6所述的装置，其中，所述图像识别模块还配置为：响应于VAD检测在某一预设时间内未检测到语音信号，开启图像识别获取当前时刻的图像的连续数据。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。