CN111383635A

CN111383635A - 根据基于视觉的机制启用智能显示设备的语音命令的方法及***

Info

Publication number: CN111383635A
Application number: CN201910406054.0A
Authority: CN
Inventors: 姚旭晨
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-12-28
Filing date: 2019-05-16
Publication date: 2020-07-07
Also published as: JP2020109463A; US20200211542A1; US11151993B2; KR20200083155A; KR102323232B1

Abstract

提供了根据基于视觉的机制启用智能显示设备的语音命令的方法及***。从与智能显示设备相关联的光捕获设备接收图像。根据存在于所述图像中的面部，对是否启用与智能显示设备相关联的记录设备的语音识别进行确定。响应于根据存在于图像中的面部确定启用与智能显示设备相关联的记录设备的语音识别，启用与智能显示设备相关联的记录设备的语音识别。

Description

根据基于视觉的机制启用智能显示设备的语音命令的方法及 ***

技术领域

本发明的实施例一般涉及智能显示设备。更具体地，本发明的实施例涉及根据基于视觉的机制启用智能显示设备的语音命令。

背景技术

智能显示设备(如谷歌家居(Google Home)智能显示器或亚马逊回声显示(AmazonEcho Show)等)可以是语音助手智能音箱，该音箱包括集成的显示器或触摸屏显示器以向用户呈现信息。通过来自智能显示设备的用户的语音命令或者通过经由触摸屏显示器的命令的物理输入，向智能设备提供命令和指令。然后，基于接收到的命令，智能显示设备的显示器可以经由显示器向用户呈现信息。

发明内容

根据本发明实施例，提供了一种基于特征控制智能显示设备的计算机实施的方法，所述方法包括：从与所述智能显示设备相关联的光捕获设备接收图像；根据存在于所述图像中的面部，确定是否启用与所述智能显示设备相关联的记录设备的语音识别；以及响应于根据存在于所述图像中的所述面部确定启用与所述智能显示设备相关联的所述记录设备的所述语音识别，启用与所述智能显示设备相关联的所述记录设备的所述语音识别。

根据本发明另一实施例，提供了一种非暂时性机器可读介质，所述非暂时性机器可读介质中存储有指令，所述指令在由处理器执行时使得所述处理器执行操作，所述操作包括：从与智能显示设备相关联的光捕获设备接收图像；根据存在于所述图像中的面部，确定是否启用与所述智能显示设备相关联的记录设备的语音识别；以及响应于根据存在于所述图像中的所述面部确定启用与所述智能显示设备相关联的所述记录设备的所述语音识别，启用与所述智能显示设备相关联的所述记录设备的所述语音识别。

根据本发明又一实施例，提供了一种***，所述***包括：处理器；以及存储器，所述存储器联接至所述处理器并且用于存储指令，所述指令在由所述处理器执行时使得所述处理器执行操作，所述操作包括：从与智能显示设备相关联的光捕获设备接收图像；根据存在于所述图像中的面部，确定是否启用与所述智能显示设备相关联的记录设备的语音识别；以及响应于根据存在于所述图像中的所述面部确定启用与所述智能显示设备相关联的所述记录设备的所述语音识别，启用与所述智能显示设备相关联的所述记录设备的所述语音识别

附图说明

本发明的实施例在附图的各图中以举例而非限制的方式示出，附图中的相似的附图标记指示相似的元件。

图1是示出根据一个实施例的智能显示设备的显示器控制器的示例的框图。

图2是根据实施例的提供给算法控制模块以确定是否启用智能显示设备的记录设备的特征的示例的图示。

图3是示出根据一个实施例的生成智能显示设备的局部模型的过程的流程图。

图4是示出根据一个实施例的根据存在于图像中的面部确定启用智能显示设备的记录设备的过程的流程图。

图5是示出根据一个实施例的数据处理***的框图。

具体实施方式

将参考以下所讨论的细节来描述本发明的各种实施例和方面，附图将示出所述各种实施例。下列描述和附图是对本发明的说明，而不应当解释为限制本发明。描述了许多特定细节以提供对本发明各种实施例的全面理解。然而，在某些情况下，并未描述众所周知的或常规的细节以提供对本发明的实施例的简洁讨论。

本说明书中对“一个实施例”或“实施例”的提及意味着结合该实施例所描述的特定特征、结构或特性可以包括在本发明的至少一个实施例中。短语“在一个实施例中”在本说明书中各个地方的出现不必全部指同一实施例。

因此，本发明的实施例提供了根据基于视觉的机制启用智能显示设备的语音命令的智能显示设备。正常情况下，使用所谓的唤醒词启用智能显示设备。对于向智能显示设备提供语音命令的用户，用户需要先陈述启用智能显示设备的唤醒词，接着则是所期望的命令。例如，用户如果想要智能显示设备显示天气，则可以说：“Alexa，今天天气怎么样？”一旦识别唤醒词(例如Alexa)，智能显示设备就可以基于用户的命令启用并执行任务(例如，查看天气并将天气呈现给用户)。

然而，对于向智能显示设备提供多个命令的用户，用户需要在每个单独的命令之前都使用唤醒词。这样的过程较为繁琐，并且可能导致不良的用户体验。此外，用户可能忘记在每个命令之前使用唤醒词，从而需要用户向智能显示设备重复命令。

本发明的***和方法的实施例通过根据基于视觉的机制确定是否启用智能显示设备的记录设备，提供了该任务的解决方案。智能显示设备可以包括光捕获设备(如相机)，光捕获设备可以捕获智能显示设备的周围环境的一个或多个图像。例如，相机可以捕获视频，该视频包括智能显示设备前方环境的一系列图像。光捕获设备将图像提供给智能显示设备的记录控制器。

记录控制器确定面部从光捕获设备接收的图像中是否存在面部。存在于由光捕获设备接收的图像中的面部可以指示用户正在使用智能显示设备。在实施例中，记录控制器可以确定图像的附加特征(如存在于图像中的面部的深度和存在于图像中的面部的视线方向)。根据存在于图像中的面部，记录控制器可以确定是否启用智能显示设备的记录设备。例如，记录控制器可以通过记录设备启用语音识别。语音识别一经启用，记录设备就可以接收来自用户的语音命令，该语音命令被提供给智能显示设备，用于语音分析(例如，语音识别)以及基于语音命令的任务的后续执行。

因此，通过利用由智能显示设备捕获的图像内面部的存在，智能显示设备的记录控制器可以智能地确定何时启用智能显示设备的语音识别。通过智能地确定何时启用语音识别，用户不再需要在向智能显示设备提供语音命令之前使用唤醒词，从而改善了用户体验。此外，智能地启用/停用智能显示设备的语音识别可以防止在用户不在场时启用语音识别，从而减少了智能显示设备的耗电量。

图1是示出根据一个实施例的智能显示设备100的显示器控制器的示例的框图。参考图1，智能显示设备100包括(但不限于)可操作地联接至光捕获设备105和记录设备150的记录控制器110。记录控制器110可以以软件、硬件或其组合实施。例如，记录控制器110的至少一些部件可以加载至存储器(例如，如动态RAM(DRAM)等的随机存取存储器(RAM))，并由智能显示设备100(未示出)的一个或多个处理器(例如，如中央处理单元(CPU)或通用处理单元(GPU)等的微处理器)的处理逻辑执行。

光捕获设备105可以配置为将入射光捕获为图像，并将与捕获的光对应的信号发送至记录控制器110。在实施例中，光捕获设备105可以是可操作地联接至记录控制器110的相机。在实施例中，光捕获设备105可以是单个相机。在一些实施例中，光捕获设备105可以是多个相机。

记录控制器110可以包括面部检测模块115。面部检测模块115可以配置为识别存在于图像中的一个或多个面部。在实施例中，面部检测模块115可以输出图像内的面部的轮廓框以及轮廓框与图像中的面部相对应的置信度。在一些实施例中，基于存储在智能显示设备100上的局部模型130，面部检测模块115可以确定图像中存在面部。例如，面部检测模块115可以将存在于图像中的所谓面部与局部模型130进行比较，以确定存在于图像中的面部是否实际上是用户的面部。在实施例中，局部模型130可以与先前已经由智能显示设备100登记和训练的用户的图像相对应，如将在下面的图3中进一步详细描述的。

在一些实施例中，面部检测模块115可以配置为识别一组用户中的特定的用户。该组用户中的每个用户都可以提供将在局部模型130中使用的一个或多个图像，以随后识别图像中的每个用户。例如，当用户A存在于图像中时，面部检测模块115可以通过概率分类任务来识别用户A存在于图像中。

记录控制器110还可以包括深度计算模块120。深度计算模块120可以配置为确定图像中面部的深度。面部的深度可以与面部与智能显示设备100的光捕获设备105之间的距离相对应。在一些实施例中，深度计算模块120可以利用多个相机来确定存在于图像中的面部的深度。例如，可以将由第一相机捕获的第一图像与由第二相机同时捕获的第二图像进行比较，以确定图像内面部的深度。在包括单个相机的实施例中，深度计算模块120可以通过确定由物体占据的图像的部分近似地计算物体到相机的距离。例如，如果人物的面部占据图像的80％，则深度计算模块120可以近似地计算出人物离相机很近。

记录控制器110可以包括视线检测模块125。视线检测模块125可以配置为检测图像中的面部是否正在注视光捕获设备105或智能显示设备100。在实施例中，视线检测模块125可以利用一个或多个算法来检测面部的眼睛在图像内的位置。然后，视线检测模块125可以确定面部的眼睛是否正在朝着光捕获设备105或智能显示设备100的方向看。

在实施例中，面部检测模块115、深度计算模块120和/或视线检测模块125可以并行操作。在一些实施例中，面部检测模块115、深度计算模块120和/或视线检测模块125可以按顺序操作。例如，面部检测模块115可以向深度计算模块120提供数据，而深度计算模块120可以向视线检测模块125提供数据。

记录设备150可以配置为捕获传入的声音(如语音命令)。在实施例中，记录设备150可以是可操作地联接至记录控制器110的麦克风。在实施例中，记录设备150可以是单个麦克风。在一些实施例中，记录设备150可以是多个麦克风。例如，记录设备150可以是包括以线形、三角形、方形或圆形布局排列的2到8个麦克风的麦克风阵列。

记录控制器110还可以包括算法控制模块135。算法控制模块135可以从面部检测模块115、深度计算模块120和/或视线检测模块125接收数据。算法控制模块135可以配置为基于所接收的数据确定是否启用或停用智能显示设备100的记录设备150。在实施例中，算法控制模块135可以利用机器学***台)接收机器学习模型。算法控制模块135可以利用的机器学习模型的示例包括(但不限于)线性模型、非线性模型、浅层模型和深层模型。一旦算法控制模块135确定记录设备150将被启用/停用，记录控制器110就可以通过向记录设备150发送信号基于上述确定启用记录设备150。

图2是根据实施例的提供给算法控制模块以确定是否启用智能显示设备的记录设备的特征的示例的图示200。如前所述，可以将与从光捕获设备接收的一个或多个图像相关联的特征提供给算法控制模块135。算法控制模块135可以将接收的特征用作机器学习模型的输入，机器学习模型可以确定是否启用智能显示设备的记录设备150。每个特征都可以影响机器学习模型对是否启用记录设备150的确定。

在框210，如前所述，记录控制器可以确定面部是否存在于图像中。算法控制模块135可以利用图像中面部的存在来确定是否启用记录设备150。例如，如果面部存在于图像中，则算法控制模块135确定启用记录设备150的概率可能增加。

在框215，记录控制器可以确定图像中面部的深度。算法控制模块135可以利用图像中面部的深度来确定是否启用记录设备150。在实施例中，如果从图像中的面部到智能显示设备的距离低于阈值距离，则算法控制模块135确定启用记录设备150的概率可能增加。例如，如果用户的面部在距离智能显示设备的2英尺的阈值距离内，其指示该用户很可能正在使用智能显示设备，则算法控制模块135确定启用记录设备150的概率可能增加。在一些实施例中，如果从图像中用户的面部到智能显示设备的距离超过阈值距离，则算法控制模块135确定启用记录设备150的概率可能降低。例如，如果用户的面部到智能显示设备的距离大于20英尺的阈值，则该用户可能并不在使用智能显示设备。因此，算法控制模块135确定启用记录设备150的概率可能降低。

在框220，记录控制器可以确定图像中面部的视线方向。算法控制模块135可以利用图像中面部的视线方向来确定是否启用记录设备150。例如，如果图像中用户的面部的视线方向是朝向智能显示设备的方向，其指示用户可能正在使用智能显示设备，则算法控制模块135确定启用记录设备150的概率可能增加。然而，如果图像中用户的面部的视线方向不是朝向智能显示设备的方向，其指示人物不太可能正在使用智能显示设备，则算法控制模块135确定启用记录设备150的概率可能降低。

应当注意，尽管图示200包括用于确定是否启用记录设备150的、在框210、框215和框220处的特征，但是在实施例中可以利用更多或更少的特征来确定是否启用记录设备150。

图3是示出根据一个实施例的生成智能显示设备的局部模型的过程300的流程图。过程300可以由处理逻辑执行，处理逻辑可以包括软件、硬件或其组合。例如，过程300的一个或多个操作可以由图1的记录控制器110执行。

参考图3，在操作305中，处理逻辑从光捕获设备接收图像。用户的面部可能存在于接收的图像中。在操作310中，处理逻辑识别存储在智能显示设备上的一个或多个局部模型。局部模型可以对应于如先前在图1描述的局部模型130。

在操作315中，处理逻辑确定在操作305处接收的图像是否包括新面部。处理逻辑可以将接收图像中的面部与一个或多个局部模型进行比较，以确定图像是否包括新面部。例如，如果存在于接收图像中的面部不与上述局部模型之一对应，则该图像可能包括尚未在智能设备登记的新面部。如果图像不包括新面部，则过程300可以返回至操作305，并且可以接收后续的图像。

如果图像包括新面部，则在操作320中，处理逻辑接收智能显示设备的安全凭证。例如，处理逻辑可以提示智能显示设备的用户输入智能显示设备的用户名和密码或智能显示设备的任何其他类型的安全凭证。安全凭证一经接收，智能显示设备就可以将新用户登记为智能显示设备的用户。登记新用户可以包括向新用户分配用户名、向新用户分配权限、向新用户分配首选项等。

在一些实施例中，如果用户不能向智能显示设备提供安全凭证，则用户也许能够以访客模式使用智能显示设备。当以访客模式进行操作时，与登记用户相比，该用户可能具有更低级别的权限。例如，当以访客模式进行操作时，用户也许能够访问天气或新闻，但可能无法访问存储在智能显示设备上的个人信息或者无法进行购买。

在操作325中，处理逻辑确定是否将在智能显示设备上登记另一个用户。处理逻辑可以通过提供提示(如语音提示或在智能显示设备的显示器上的提示)询问用户是否要登记另一个用户来确定是否要登记另一个用户。如果要登记另一个用户，则过程300返回至操作305，并且对另一个用户重复过程300。

如果没有其他用户要在智能显示设备上登记，则在操作330中，新用户的局部模型由智能显示设备的处理逻辑来训练。在一些实施例中，可以将图像提供给远程服务器(如基于云的平台)，并且远程服务器可以训练新用户的局部模型，并将训练的局部模型发送至智能显示设备。在将图像提供给远程服务器之前，智能显示设备可以获取用户的许可，以将图像提供给远程服务器，用于生成和训练局部模型。然后，训练的局部模型可以由智能显示***使用，如先前在图1所描述的。

图4是示出根据一个实施例的根据存在于图像中的面部确定启用智能显示设备的记录设备的过程400的流程图。过程400可以由处理逻辑执行，处理逻辑可以包括软件、硬件或其组合。例如，过程400可以由图1的记录控制器110执行。参考图4，在操作401中，处理逻辑从与智能显示设备相关联的光捕获设备接收图像。在操作402中，根据存在于图像中的面部，处理逻辑确定是否启用与智能显示设备相关联的记录设备。在操作403中，响应于根据存在于图像中的面部确定启用记录设备，处理逻辑启用与智能显示设备相关联的记录设备的语音识别。语音识别一经启用，记录设备就可以从用户接收语音命令，该语音命令可以发送到处理逻辑，用于语音分析(例如语音识别)以及基于语音命令的任务的后续执行。

在实施例中，处理逻辑可以从光捕获设备接收一个或多个后续图像。一旦接收到后续图像，处理逻辑就可以确定面部是否存在于后续图像中。如果面部不存在于后续图像中，则处理逻辑可以停用记录设备。例如，如果用户的面部不再存在于后续图像中，则用户可能不再使用智能显示设备。因此，处理逻辑可以确定停用记录设备。

图5是示出可以与本发明的一个实施例一起使用的数据处理***的示例的框图。例如，***1500可以表示以上所述的执行上述过程或方法中的任何一个的任意数据处理***(例如，以上所述的客户端设备或服务器，或以上所述的图1中的智能显示设备100等)。

***1500可以包括许多不同的部件。这些部件可以实施为集成电路(IC)、集成电路的部分、分立电子设备或适用于电路板(如计算机***的主板或***卡)的其它模块，或者实施为以其它方式并入计算机***的机架内的部件。

还应注意，***1500旨在示出计算机***的许多部件的高阶视图。然而，应当理解的是，某些实施方式中可以具有附加的部件，此外，其它实施方式中可以具有所示部件的不同布置。***1500可以表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏设备、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外，虽然仅示出了单个机器或***，但是术语“机器”或“***”还应当被理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或***的任何集合。

在一个实施例中，***1500包括通过总线或互连件1510连接的处理器1501、存储器1503以及设备1505至1508。处理器1501可以表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可以表示一个或多个通用处理器(如微处理器、中央处理单元(CPU)等)。更具体地，处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器，诸如，专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、网络处理器、通信处理器、加密处理器、协处理器、嵌入式处理器、或者能够处理指令的任何其它类型的逻辑。

处理器1501(其可以是低功率多核处理器套接口，诸如超低电压处理器)可以充当用于与所述***的各种部件通信的主处理单元和中央集线器。这种处理器可以实施为片上***(SoC)。处理器1501配置为执行用于执行本文所讨论的操作和步骤的指令。***1500还可以包括与可选的图形子***1504通信的图形接口，图形子***1504可以包括显示器控制器、图形处理器和/或显示设备。

处理器1501可以与存储器1503通信，存储器1503在一个实施例中可以经由多个存储器设备实施以提供给定量的***存储。存储器1503可以包括一个或多个易失性存储(或存储器)设备，诸如，随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或者其它类型的存储设备。存储器1503可以存储包括由处理器1501或任何其它设备执行的指令序列的信息。例如，各种操作***、设备驱动程序、固件(例如，输入输出基本***或BIOS)和/或应用的可执行代码和/或数据可以加载到存储器1503中并由处理器1501执行。操作***可以是任何类型的操作***，例如，来自

公司的

操作***、来自苹果公司的Mac

来自

公司的

LINUX、UNIX，或者其它实时或嵌入式操作***(如VxWorks)。

***1500还可以包括I/O设备，诸如设备1505至1508，包括网络接口设备1505、可选的输入设备1506，以及其它可选的I/O设备1507。网络接口设备1505可以包括无线收发器和/或网络接口卡(NIC)。所述无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如，全球定位***(GPS)收发器)或其它射频(RF)收发器或者它们的组合。NIC可以是以太网卡。

输入设备1506可以包括鼠标、触摸板、触敏屏幕(其可以与显示设备1504集成在一起)、指针设备(如手写笔)和/或键盘(例如，物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如，输入设备1506可以包括联接至触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可以使用多种触敏技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种，以及其它接近传感器阵列或用于确定与触摸屏接触的一个或多个点的其它元件来检测其接触和移动或间断。

I/O设备1507可以包括音频设备。音频设备可以包括扬声器和/或麦克风，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和/或电话功能。其它I/O设备1507还可以包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如PCI-PCI桥)、传感器(例如，诸如加速度计、陀螺仪、磁强计、光传感器、罗盘、接近传感器等的运动传感器)或者它们的组合。设备1507还可以包括成像处理子***(例如相机)，成像处理子***可以包括用于促进相机功能(如记录照片和视频片段)的光学传感器，诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可以经由传感器集线器(未示出)联接至互连件1510，而如键盘或热传感器的其它设备可以根据***1500的具体配置或设计由嵌入式控制器(未示出)控制。

为了提供对如数据、应用、一个或多个操作***等信息的永久性存储，大容量存储器(未示出)也可以联接至处理器1501。在各种实施例中，为了实现更薄且更轻的***设计并且改进***响应性，这种大容量存储器可以经由固态设备(SSD)来实施。然而，在其它实施例中，大容量存储器可以主要使用硬盘驱动器(HDD)来实施，其中较小量的SSD存储器充当SSD高速缓存以在断电事件期间实现上下文状态以及其它此类信息的非易失性存储，从而使得在***活动重新启用时能够实现快速通电。另外，闪存设备可以例如经由串行***接口(SPI)联接至处理器1501。这种闪存设备可以提供***软件的非易失性存储，***软件包括***的基本输入/输出软件(BIOS)以及其它固件。

存储设备1508可以包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质)，其上存储有体现本文所述的任何一种或多种方法或功能的一个或多个指令集或软件(例如，模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可以表示上述部件中的任何一个(例如，以上描述的记录控制器110)。处理模块/单元/逻辑1528还可以在其由数据处理***1500、存储器1503和处理器1501执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内，数据处理***1500、存储器1503和处理器1501也构成机器可访问的存储介质。处理模块/单元/逻辑1528还可以通过网络经由网络接口设备1505进行传输或接收。

计算机可读存储介质1509也可以用来永久性地存储以上描述的一些软件功能。虽然在示例性实施例中示出计算机可读存储介质1509为单个介质，但是术语“计算机可读存储介质”应当被认为包括存储一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码指令集的任何介质，指令集用于由机器执行并且使得机器执行本发明的任何一种或多种方法。因此，术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质，或者任何其它非暂时性机器可读介质。

本文所述的处理模块/单元/逻辑1528、部件以及其它特征可以实施为分立硬件部件或集成在硬件部件(如ASICS、FPGA、DSP或类似设备)的功能中。此外，处理模块/单元/逻辑1528可以实施为硬件设备内的固件或功能电路。此外，处理模块/单元/逻辑1528可以以硬件设备和软件部件的任何组合来实施。

应注意，虽然***1500被示出为具有数据处理***的各种部件，但是并不旨在表示使部件互连的任何特定架构或方式，因为此类细节和本发明的实施例没有密切关系。还应当认识到，具有更少部件或可能具有更多部件的网络计算机、手持计算机、移动电话、服务器和/或其它数据处理***也可以与本发明的实施例一起使用。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式，以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中，算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而，应当牢记，所有这些和类似的术语均旨在与适当的物理量关联，并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出，否则应当了解，在整个说明书中，利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机***或类似电子计算设备的动作和处理，计算机***或电子计算设备操控计算机***的寄存器和存储器内的表示为物理(电子)量的数据，并将数据变换成计算机***存储器或寄存器或者其它此类信息存储、传输或显示设备内类似地表示为物理量的其它数据。

图中所示的技术可以使用在一个或多个电子设备上存储和执行的代码和数据来实施。此类电子设备使用计算机可读介质(例如，非暂时性计算机可读存储介质(如磁盘、光盘、随机存取存储器、只读存储器、快闪存储器设备、相变存储器)和暂时性计算机可读传输介质(如电子、光学、声学或其他形式的传播信号，诸如载波、红外信号、数字信号))存储和传达(在内部地和/或通过网络与其他电子设备)代码和数据。

前述图中所描绘的过程或方法可以由处理逻辑来执行，处理逻辑包括硬件(例如，电路、专用逻辑等)、固件、软件(例如，体现在非暂时性计算机可读介质上)或其组合。尽管过程或方法在上文是依据一些顺序操作来描述的，但是应当了解，所描述的操作中的一些可以按不同的顺序执行。此外，一些操作可以并行地执行而不是顺序地执行。

在以上的说明书中，已经参考本发明的具体示例性实施例对本发明的实施例进行了描述。将显而易见的是，在不脱离所附权利要求书中阐述的本发明的更宽泛精神和范围的情况下，可以对本发明作出各种修改。因此，应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims

1.一种基于特征控制智能显示设备的计算机实施的方法，所述方法包括：

从与所述智能显示设备相关联的光捕获设备接收图像；

根据存在于所述图像中的面部，确定是否启用与所述智能显示设备相关联的记录设备的语音识别；以及

响应于根据存在于所述图像中的所述面部确定启用与所述智能显示设备相关联的所述记录设备的所述语音识别，启用与所述智能显示设备相关联的所述记录设备的所述语音识别。

2.根据权利要求1所述的方法，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：利用机器学习模型来分析所述图像。

3.根据权利要求1所述的方法，所述方法还包括：

从与所述智能显示设备相关联的所述光捕获设备接收第二图像；

确定所述面部是否存在于所述第二图像中；以及

响应于确定所述面部不存在于所述第二图像中，停用与所述智能显示设备相关联的所述记录设备的所述语音识别。

4.根据权利要求1所述的方法，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：

确定从所述图像中的所述面部到所述智能显示设备的距离。

5.根据权利要求1所述的方法，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：

确定所述图像中的所述面部相对于所述智能显示设备的视线方向。

6.根据权利要求1所述的方法，所述方法还包括：

识别与所述面部相关联的用户。

7.根据权利要求6所述的方法，其中，识别与所述面部相关联的所述用户是根据存在于所述图像中的所述面部与存在于局部模型中的用户的面部的比较而执行的。

8.一种非暂时性机器可读介质，所述非暂时性机器可读介质中存储有指令，所述指令在由处理器执行时使得所述处理器执行操作，所述操作包括：

从与智能显示设备相关联的光捕获设备接收图像；

9.根据权利要求8所述的非暂时性机器可读介质，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：利用机器学习模型来分析所述图像。

10.根据权利要求8所述的非暂时性机器可读介质，所述操作还包括：

确定所述面部是否存在于所述第二图像中；以及

11.根据权利要求8所述的非暂时性机器可读介质，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：

确定从所述图像中的所述面部到所述智能显示设备的距离。

12.根据权利要求8所述的非暂时性机器可读介质，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：

13.根据权利要求8所述的非暂时性机器可读介质，所述操作还包括：

识别与所述面部相关联的用户。

14.根据权利要求13所述的非暂时性机器可读介质，其中，识别与所述面部相关联的所述用户是根据存在于所述图像中的所述面部与存在于局部模型中的用户的面部的比较而执行的。

15.一种***，包括：

处理器；以及

存储器，所述存储器联接至所述处理器并且用于存储指令，所述指令在由所述处理器执行时使得所述处理器执行操作，所述操作包括：

从与智能显示设备相关联的光捕获设备接收图像；

16.根据权利要求15所述的***，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：利用机器学习模型来分析所述图像。

17.根据权利要求15所述的***，所述操作还包括：

确定所述面部是否存在于所述第二图像中；以及

18.根据权利要求15所述的***，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：

确定从所述图像中的所述面部到所述智能显示设备的距离。

19.根据权利要求15所述的***，其中，确定是否启用与所述智能显示设备相关联的所述记录设备的所述语音识别包括：

20.根据权利要求15所述的***，其中，所述操作还包括：

识别与所述面部相关联的用户。