CN112236739B

CN112236739B - 基于检测到的嘴运动和/或凝视的适配自动助理

Info

Publication number: CN112236739B
Application number: CN201880094290.7A
Authority: CN
Inventors: 肯尼斯·米克斯特; 元·袁; 图安·恩古耶
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2024-05-17
Anticipated expiration: 2038-05-04
Also published as: JP7487276B2; JP2023014167A; JP2021521497A; US20200342223A1; EP4343499A2; JP7471279B2; KR20230173211A; EP4343499A3; KR102677096B1; KR20230121930A; EP3859494B1; US20230229229A1; EP3859494A1; EP3596584B1; CN112236739A; EP3596584A1; US11614794B2; KR20210002722A; WO2019212569A1

Abstract

基于检测下述来适配自动助理：用户嘴的运动；和/或将用户的凝视定向在提供自动助理的自动助理接口(图形和/或可听)的助理设备。嘴运动和/或定向凝视的检测可以基于对来自诸如被合并在助理设备中的相机的与助理设备相关联的一个或多个视觉组件的视觉数据的处理。被检测到的嘴运动可以是指示(嘴所属于的)用户讲话的运动。

Description

基于检测到的嘴运动和/或凝视的适配自动助理

背景技术

人类可以参与与在本文中称为“自动助理”(也称为“数字代理”、“交互式个人助理”、“智能个人助理”、“助理应用”、“谈话代理”等)的交互式软件应用的人机对话。例如，人类(其在他们与自动助理交互时可以被称为“用户”)可以使用口头自然语言输入(即，话语)和/或通过提供文本(例如，键入的)自然语言输入来向自动助理提供命令和/或请求，该口头自然语言输入在一些情况下可以被转换成文本然后处理。自动助理通过提供响应用户接口输出来对请求做出响应，该响应用户接口输出能够包括可听的用户接口输出和/或视觉的用户接口输出。

发明内容

促进与自动助理交互的许多客户端设备——如在本文中也称为“助理设备”——使得用户能够参与与自动助理的无接触交互。例如，助理设备常常包括麦克风，这些麦克风允许用户提供声音话语来调用自动助理和/或以其它方式与之交互。本文描述的助理设备能够附加地或替换地并入一个或多个视觉组件(例如，相机、光检测和测距(LIDAR)组件、雷达组件等)，并且/或者与一个或多个视觉组件通信，以促进与自动助理的无接触交互。

本文公开的实施方式涉及基于检测下述来适配自动助理：(1)用户嘴的运动(在本文中也称为“嘴运动”)；和/或(2)用户的凝视被定向在助理设备(在本文中也称为“定向凝视”)，其中该助理设备提供自动助理的自动助理接口(图形和/或可听)。嘴运动和/或定向凝视的检测可以基于对来自与助理设备相关联的一个或多个视觉组件的视觉数据的处理，所述视觉组件诸如被合并在助理设备中的相机，或者与客户端设备分离(但与客户端设备通信)的相机。被检测到的嘴运动可以是指示(嘴所属于的)用户讲话的运动。这与由于用户转动他的/她的头部，向左/向右迈步等而可能发生的用户的嘴的运动对比。如将在下面所解释的，本文描述的实施方式可以提供被用于实现自动助理的计算资源和通信的效率。例如，如从下面的讨论中将显而易见的，实施方式的各方面可以产生对通过数据网络的通信的更多选择性的发起以及通过网络的数据业务中的对应减少。因为在发起与远程***的任何联系之前已滤出来自客户端设备的一些潜在通信，所以例如来自于客户端设备的网络通信的更具选择性的发起可能会进一步导致更有效地利用与其发起通信的远程***处的计算资源。对远程***上的数据网络和计算资源的使用的效率改善能够在由网络中的传送器和接收器对电力的使用方面以及在远程***处的存储器操作和处理使用方面导致显著节省。也可以在客户端设备处体验到对应效果，如下面所描述的。这些效果特别地随着时间和自动助理的进行操作的推移，允许在网络中并在整个计算装置(包括运行助理的设备和***)中体验到显著附加容量。此附加容量无论是否是助理相关的都能够被用于数据网络中的进一步通信，而无需例如通过附加或更新的基础设施以及计算装置中的附加计算操作来扩展网络能力。其它技术改善将从以下讨论中明显。

作为一个示例，可以响应于检测到用户嘴运动(可选地在阈值持续时间内)、检测到用户的凝视被定向在助理设备(可选地相同或不同阈值持续时间内)以及可选地用户的嘴运动和定向凝视同时发生或者在彼此的阈值时间接近内(例如，在0.5秒内、在1.0秒或其它阈值时间接近内)发生来适配自动助理。。例如，可以响应于检测到具有至少0.3秒持续时间的嘴运动，并且响应于检测到具有至少0.5秒持续时间并且与嘴运动同时发生或在嘴运动的0.5秒内发生的定向凝视而适配自动助理。

在一些实施方式中，可以响应于单独检测到嘴运动和定向凝视而适配自动助理。在一些其它实施方式中，响应于检测到嘴运动和定向凝视，并且检测到一个或多个其它条件的发生而适配自动助理。一个或多个其它条件的发生能够包括例如：基于音频数据，检测在时间上接近所检测到的嘴运动和定向凝视的话音活动(例如，任何话音活动、提供嘴运动和定向凝视的用户的话音活动、授权用户的话音活动、包括口头调用短语的话音活动)；基于视觉数据，检测用户的与所检测到的嘴运动和定向凝视同时发生或者在时间上接近所检测到的嘴运动和定向凝视的手势(例如，“挥手”、“竖起大拇指”、“举手击掌”)；基于音频数据和/或视觉数据，检测到用户是授权用户；和/或检测其它条件。

在本文公开的一些实施方式中，响应于检测到嘴运动和定向凝视而发生的自动助理的适配可以包括由助理设备进行的用户接口输出的渲染的适配。在那些实施方式中的一些中，对用户接口输出的渲染的适配包括减小由助理设备渲染的可听用户接口输出的音量，和/或中止通过助理设备在视觉上渲染的可听用户接口输出和/或视频输出。

作为一个示例，假设在用户开始讲出定向到自动助理的话语时检测到用户的嘴运动，并且假定检测到与检测到的嘴运动同时发生的用户的定向凝视。进一步假设在检测嘴运动和定向凝视之前和期间，助理设备正在渲染可听和/或视觉内容。例如，助理设备的自动助理客户端可能导致歌曲的可听渲染和歌曲视频的视觉渲染。响应于检测到嘴运动和定向凝视，自动助理客户端可以使歌曲的可听渲染的音量减小(同时仍以减小的音量继续进行可听渲染以及视频的视觉渲染)。减小音量可以改善捕获讲出的话语的音频数据的处理性能，诸如经由助理设备的一个或多个麦克风捕获的音频数据。例如，由于减小音量可以改善音频数据的语音到文本处理，由于减小音量可以改善基于音频数据的话音活动检测(VAD)，由于减小音量可以改善基于音频数据的说话人分割(speaker diarization)等等。改善的音频数据处理可以增加自动助理正确解释口头话语并以适当方式做出响应的概率。这可以导致改善的用户助理交互和/或减轻不适当的自动助理响应的风险，不适当的自动助理响应可能导致用户重复口头话语(并因此需要在处理重复的口头话语并生成和渲染另一响应时要消耗计算资源)。

作为以上示例的变体，代替减小音量，适配可以包括中止歌曲(以及可选地视频)的可听渲染。作为上述示例的又一变体，该适配可以最初包括减小歌曲的可听渲染的音量，并且该适配可以进一步包括响应于一个或多个其他条件的发生而随后中止歌曲的可听渲染。例如，音量的减小可以响应于独自检测到嘴运动和定向凝视而发生，并且基于音频数据的处理，中止可以响应于对话语活动的发生的稍后检测而发生。

在一些实施方式中，由助理设备进行的用户接口输出的渲染的适配可以附加地或替代地包括人类可感知的提示的渲染。可以在进一步适配自动助理之前可选地提供人类可感知的提示的渲染，并且可以(直接或间接)指示即将发生进一步的适配。例如，可以响应于最初检测到嘴运动和定向凝视而发生人类可感知的提示的渲染，并且可以响应于检测到继续的嘴运动和/或继续的定向凝视而发生进一步的适配。继续该示例，进一步的适配可以包括由客户端设备将由客户端设备的一个或多个传感器组件生成的某些传感器数据传送到一个或多个远程自动助理组件(然而在进一步适配之前没有传送来自传感器组件的传感器数据)。某些传感器数据可以包括例如在检测到嘴运动和定向凝视之后捕获的视觉和/或音频数据和/或在执行嘴运动期间和/或定向凝视期间捕获到的缓冲的视觉和/或音频数据。通过提供人类可感知的提示，可以警告用户即将发生的进一步的适配，并为用户提供防止进一步适配的机会。例如，在进一步的适配取决于用户的继续的定向凝视的情况下，用户可以转移他/她的凝视以防止进一步适配(例如，如果用户不打算与自动助理交互并导致传感器数据被传送)。以这种方式，可以防止进一步的适配以及由进一步的适配产生的网络和/或计算资源的利用。可以提供各种人类可感知的提示，诸如可听见的“叮”声、可听见的“口语输出”(例如，“Looks like you're talking to the Assistant,look away if youdon't want to(看起来您正在与助理交谈，如果您不想则看向别处)”)、助理设备显示屏上的视觉符号、助理设备的发光二极管的照明等。

在一些实施方式中，由助理设备进行的用户接口输出的渲染的适配可以附加地或替代地包括为与所检测到的嘴运动和定向凝视相对应的用户定制渲染内容。定制渲染的内容可以包括确定用户相对于助理设备的距离，以及以基于该距离的方式渲染内容。例如，可以基于与检测到的嘴运动和定向凝视相对应的用户距离的音量来渲染可听内容。而且，例如，可以以基于与所检测到的嘴运动和定向凝视相对应的用户的距离的大小来渲染视觉内容。作为又一个示例，可以基于距离来生成内容。例如，当距离相对靠近客户端设备时，可以生成更详细的内容，而当距离相对远离客户端设备时，可以生成较不详细的内容。作为一个特定实例，响应于“what’s the weather(天气是什么)”的口头话语，可以在相对较近的距离处生成一日天气预报，而可以在相对较远的距离处生成三日天气预报。可以响应于该用户对应于所检测到的嘴运动和定向凝视(这可以指示该用户与自动助理口头接涉)来确定该用户的距离。这在视觉数据中捕获多个用户(在多个距离处)的情况下是有用的，因为为与检测到的嘴运动和定向凝视相对应的用户的距离定制渲染的内容能够为活跃参与与自动助理的对话的用户定制渲染的内容。

在本文公开的一些实施方式中，并且如在上面所提及的，响应于检测到嘴运动和定向凝视而发生的自动助理的适配可以附加地和/或可替代地包括诸如音频数据和/或视觉数据的处理的传感器数据的处理的适配。

在那些实施方式中的一些中，适配可以包括响应于检测到嘴运动和定向凝视对某些传感器数据(例如，音频数据、视频、图像等)的某些处理的发起(然而之前并且没有执行某些处理)。例如，在检测到嘴运动和定向凝视之前，自动助理可以仅对某些传感器数据(诸如音频数据、视频/图像数据等)执行有限(或不执行)处理。例如，在进行此类检测之前，自动助理可以在监视显式调用短语时本地处理音频数据，但是在本地处理之后将“丢弃”数据，而不会导致音频数据被实现自动助理的一个或多个其他组件(例如，处理用户输入并生成适当响应的远程服务器设备)处理。然而，响应于检测到嘴运动和定向凝视(以及可选地一个或多个其他条件的发生)，可以由附加组件来处理这样的数据。以这些和其他方式，响应于检测到嘴运动和定向凝视，仅通过传送和/或执行某些传感器数据的某些处理，可以减少处理和/或网络资源。

在本文描述的一些附加的或可替代的实施方式中，传感器数据的处理的适配可以包括基于检测到嘴运动和定向凝视的用户的所确定的位置来适配本地和/或远程处理。用户的位置可以相对于客户端设备，并且可以例如基于被确定为与用户相对应的视觉数据的部分来确定。基于用户的位置的音频数据的处理可以包括，例如，隔离音频数据的与口头话语相对应的部分和/或从音频数据中去除背景噪声。这样的处理可以在隔离音频数据的部分和/或从音频数据中去除背景噪声时依赖于所确定的位置和波束成形和/或其他技术。这可以改善在具有显著大的背景噪音、多个扬声器同时讲话等环境中对音频数据的处理。

在一些实施方式中，在监视嘴运动和监视被定向到客户端设备的凝视中，在本地存储在客户端上的经训练的机器学习模型(例如，神经网络模型)设备被客户端设备用来至少选择性地处理来自客户端设备的视觉组件的视觉数据的至少一部分(例如，来自客户端设备的相机的图像帧)。例如，响应于检测到一个或多个用户的存在，客户端设备可以在至少持续时间(例如，至少阈值持续时间和/或直到不再检测到存在)内利用本地存储的机器学习模型在监测嘴运动和定向凝视时处理视觉数据的至少部分。客户端设备可以使用专用的存在传感器(例如，被动红外传感器(PIR))、使用视觉数据和单独的机器学习模型(例如，仅针对人类存在检测而训练的单独的机器学习模型)和/或使用音频数据和单独的机器学习模型(例如，使用VAD机器学习模型的VAD)来检测一个或多个用户的存在。在其中在监视嘴运动和/或定向凝视中对视觉数据的处理取决于首先检测到一个或多个用户的存在的实施方式中，可以通过在监视嘴运动和/或定向凝视中的视觉数据的不连续处理来节省电力资源。而是，在那些实施方式中，仅响应于经由一种或多种较低功率消耗技术检测到在助理设备的环境中一个或多个用户的存在时才发生在监视嘴运动和/或定向凝视中的视觉数据的处理。

在将本地机器学习模型用于监视嘴运动和定向凝视的一些实施方式中，至少一个嘴运动机器学习模型用于监视嘴运动，并且单独的凝视机器学习模型用于监视定向凝视。在那些实施方式的一些版本中，可以利用一个或多个“上游”模型(例如，对象检测和分类模型)来检测可能是面部、可能是眼睛、可能是嘴等的视觉数据(例如，图像)的部分——以及使用相应的机器学习模型来处理那些部分。例如，可以使用上游模型检测图像的面部和/或眼睛部分，并使用凝视机器学习模型进行处理。此外，例如，可以使用上游模型检测图像的面部和/或嘴部分，并且使用嘴运动机器学习模型进行处理。作为又一示例，可以使用上游模型来检测图像的人类部分，并且可以使用凝视检测机器学习模型和嘴运动机器学习模型两者来进行处理。

在一些实施方式中，可以利用面部匹配、眼睛匹配、话音匹配和/或其他技术来识别与嘴运动和/或定向凝视相关联的特定用户简档针对特定用户简档定制的由客户端设备的自动助理应用所渲染的内容。定制内容的渲染可以是响应于检测到嘴运动和定向凝视的自动助理的全部或部分适配。可选地，仅在已经检测到嘴运动和定向凝视之后才发生特定用户简档的识别。在一些实施方式中，并且如在上面所提及的，为了适配自动助理，还可能需要一个或多个附加条件的发生——其中附加条件是除了凝视和/或嘴运动检测之外。例如，在一些实施方式中，附加条件可以包括识别提供嘴运动和定向凝视的用户与被授权给客户端设备的用户简档相关联(例如，使用面部匹配、话音匹配和/或其他技术)。

在一些实施方式中，可以在检测嘴运动和/或凝视时较少地滤出/忽略/加权视频/图像的某些部分。例如，可以忽略在视频/图像中捕获的电视，以防止由于电视渲染的人(例如，气象员)而导致的错误检测。例如，响应于检测到针对该部分的多个帧上该部分中的某个显示频率(即，与电视刷新率匹配)等，可以基于单独的对象检测/分类机器学习模型来确定图像的一部分对应于电视。在此描述的嘴运动和/或定向凝视检测技术中可以忽略这样的部分，以防止从电视或其他视频显示设备检测到嘴运动和/或定向凝视。作为另一个示例，可以忽略相框。这些和其他技术可以减轻自动助理的假阳性适配，这可以节省在假阳性适配中否则将消耗的各种计算和/或网络资源。而且，在各种实施方式中，一旦检测到TV、相框等的位置，就可以可选地在多个帧上继续忽略(例如，在间歇性地验证的同时，直到检测到客户端设备或对象的运动等)。这也可以节省各种计算资源。

提供以上描述作为本文公开的各种实施方式的概述。这些各种实施方式以及附加实施方式在本文中更详细地描述。

在一些实施方式中，提供一种由客户端设备的一个或多个处理器执行的方法，其促进一个或多个用户与自动助理之间的无接触的交互。该方法包括接收基于来自客户端设备的一个或多个相机的输出的图像帧的流。该方法进一步包括使用本地存储在客户端设备上的至少一个经训练的机器学习模型来处理流的图像帧以监视针对下述两者的发生：朝客户端设备的一个或多个相机定向的用户的凝视以及用户的嘴运动。该方法进一步包括基于监视来检测以下两者的发生：用户的凝视和用户的嘴运动。该方法进一步包括：响应于检测到用户的凝视和用户的嘴运动两者的发生，执行下述中的一者或者两者：适配客户端设备的用户接口输出的渲染；以及适配客户端设备进行的音频数据处理。

本文描述的技术的这些和其他实施方式可以包括下述特征中的一个或多个。

在一些实施方式中，响应于检测到用户的凝视和用户的嘴运动两者的发生，执行客户端设备的用户接口输出的适配渲染。在那些实施方式中的一些中，客户端设备的用户接口输出的适配渲染包括：减小由客户端设备渲染的可听用户接口输出的音量。在那些实施方式的一些版本中，该方法进一步包括，执行在时间上与用户的嘴运动相一致的音频数据的话音活动检测；和基于在时间上对应于用户的嘴运动的音频数据的话音活动检测来确定话音活动的发生。在那些版本中，减小由客户端设备渲染的可听用户接口输出的音量是进一步响应于确定话音活动的发生，并且基于话音活动的发生是针对在时间上对应于用户的嘴运动的音频数据。

在其中响应于检测到用户的凝视和用户的嘴运动两者而执行适配客户端设备的用户接口输出的渲染的一些实施方式中，适配用户接口输出的渲染包括中止客户端设备渲染的可听用户接口输出的渲染。在那些实施方式中的一些中，该方法进一步包括，执行在时间上与用户的嘴运动相一致的音频数据的话音活动检测，以及基于在时间上对应于用户的嘴运动的音频数据的话音活动检测来确定话音活动的发生。在那些实施方式中，中止由客户端设备渲染的可听用户接口输出的渲染是进一步响应于确定话音活动的发生，并且基于话音活动的发生是针对在时间上对应于用户的嘴运动的音频数据。

在一些实施方式中：适配客户端设备的用户接口输出的渲染包括渲染人类可感知的提示；响应于检测到用户的凝视和用户的嘴运动两者的发生执行适配由客户端设备进行的音频数据处理；适配由客户端设备进行的音频数据处理包括在客户端设备处发起本地自动语音辨识；以及发起本地自动语音辨识是进一步响应于检测到在渲染提示以后用户的凝视继续朝向客户端设备的一个或多个相机定向。

在一些实施方式中：适配客户端设备的用户接口输出的渲染包括渲染人类可感知的提示；响应于检测到用户的凝视和用户的嘴运动两者的发生执行适配由客户端设备进行的音频数据处理；适配由客户端设备进行的音频数据处理包括，发起经由客户端设备的一个或多个麦克风捕获到的音频数据到与自动助理相关联的远程服务器的传输；和发起向远程服务器的音频数据的传输是进一步响应于在渲染提示以后检测到用户的凝视继续被朝向客户端设备的一个或多个相机定向。

在一些实施方式中，响应于检测到用户的凝视和用户的嘴运动两者的发生执行适配由客户端设备进行的音频数据处理。在那些实施方式中的一些中，适配由客户端设备进行的音频数据处理包括发起经由客户端设备的一个或多个麦克风捕获到的音频数据到与自动助理相关联的远程服务器的传输。在那些实施方式的一些版本中，该方法进一步包括：对包括在音频数据中或在音频数据之前、在时间上与用户的嘴运动相一致的某些音频数据执行话音活动分析；并基于对在时间对应于用户的嘴运动的某些音频数据的话音活动分析确定话音活动的发生。在那些版本中，发起音频数据的传输进一步响应于确定话音活动的发生，并基于话音活动的发生是针对在时间上对应于用户的嘴运动的音频数据。

在其中响应于检测到用户的凝视和用户的嘴运动两者的发生来执行适配由客户端设备进行的音频数据处理的一些实施方式中，适配音频数据处理包括：基于一个或多个图像帧，确定用户相对于客户端设备的位置；和在处理经由客户端设备的一个或多个麦克风捕获的音频数据时使用用户的位置。在那些实施方式的一些版本中，在处理经由客户端设备的一个或多个麦克风捕获的音频数据时使用用户的位置包括在隔离对应于用户的口头话语的音频数据的部分时使用该位置。在那些实施方式的一些附加或可替代版本中，在处理经由客户端设备的一个或多个麦克风捕获的音频数据时使用用户的位置包括在从音频数据中去除背景噪声时使用该位置。

在一些实施方式中，使用本地存储在客户端设备上的至少一个经训练的机器学习模型来处理流的图像帧以监视用户的凝视和用户的嘴运动的发生包括：使用第一经训练的机器学习模型来监视用户凝视的发生；和使用第二经训练的机器学习模型来监视用户的嘴运动。

在一些实施方式中，该方法进一步包括：基于来自存在传感器的信号，检测到在客户端设备的环境中存在人类；和响应于检测到环境中存在人类，使一个或多个相机提供图像帧的流。

在一些实施方式中，提供一种客户端设备，并且该客户端设备包括至少一个视觉组件、至少一个麦克风、一个或多个处理器以及与一个或多个处理器可操作地耦合的存储器。存储器存储指令，所述指令响应于一个或多个处理器执行指令，使一个或多个处理器执行下述操作：接收基于来自客户端设备的视觉组件的输出的视觉数据流；使用本地存储在客户端设备上的至少一个经训练的机器学习模型来处理流的视觉数据以监视下述两者的发生：用户的凝视被朝向客户端设备的视觉组件定向，和用户的嘴运动；基于监视，检测下述两者的发生：用户的凝视和用户的嘴运动；以及响应于检测到用户的凝视和用户的嘴运动两者的发生：适配客户端设备的用户接口输出的渲染。

在一些实施方式中，提供了一种***，该***包括至少一个视觉组件、一个或多个麦克风以及一个或多个处理器，该处理器接收基于来自视觉组件的输出的视觉数据流。处理器中的一个或多个被配置成：使用至少一个经训练的机器学习模型来处理流的视觉数据来监视下述两者的发生：被朝向视觉组件定向的用户的凝视，和用户的嘴运动；基于监视，检测下述两者的发生：用户的凝视和用户的嘴运动；并且响应于检测到用户的凝视和用户的嘴运动两者的发生，执行下述两者：适配客户端设备的用户接口输出的渲染；和适配经由一个或多个麦克风捕获到的音频数据的处理。

另外，一些实施方式包括一个或多个计算设备的一个或多个处理器，其中一个或多个处理器可操作以执行存储在相关联的存储器中的指令，并且其中所述指令被配置成使执行前述方法中的任何一个。一些实施方式还包括一个或多个非暂时性计算机可读存储介质，其存储可由一个或多个处理器执行以执行任何前述方法的计算机指令。

应该领会，在本文中更详细地描述的前面的构思和附加构思的所有组合都被设想为是本文公开的主题的一部分。例如，在本公开结尾处出现的要求保护的主题的所有组合都被设想为是本文公开的主题的一部分。

附图说明

图1是可以在其中实现本文公开的实施方式的示例环境的框图。

图2A和图2B描绘根据各种实施方式的演示本公开的各个方面的示例过程流程。

图3描绘助理设备以及提供定向凝视和讲话(从而引起嘴运动)的用户的示例，并且也描绘当用户正在提供定向凝视并且讲话时由助理设备的相机捕获的图像。

图4A描绘图示根据本文公开的实施方式的示例方法的流程图。

图4B、图4C、图4D以及图4E均描绘图示图4A的示例方法的某些框的特定示例的流程图。

图5图示计算设备的示例架构。

具体实施方式

图1图示可以在其中实现本文公开的技术的示例环境。该示例环境包括一个或多个客户端计算设备106。每个客户端设备106可以执行自动助理客户端110的相应实例。能够在一个或多个计算***(统称为“云”计算***)上实现一个或多个基于云的自动助理组件130，所述一个或多个基于云的自动助理组件130经由通常在114处指示的一个或多个局域网和/或广域网(例如，因特网)通信地耦合到客户端设备106。能够例如经由高性能服务器的集群实现基于云的自动助理组件130。

在各种实施方式中，自动助理客户端110的实例通过其与一个或多个基于云的自动助理组件130的交互，可以形成从用户的角度看似乎为用户可以利用其参与人机交互(例如，口头交互、基于手势的交互和/或基于触摸的交互)的自动助理120的逻辑实例。这样的自动助理120的一个实例在图1中用虚线描绘。因此应理解，与在客户端设备106上执行的自动助理客户端110接涉的每个用户实际上可以与他或她自己的自动助理120的逻辑实例接涉。为了简洁和简单起见，如在本文中使用的作为“服务”特定用户的术语“自动助理”将是指在由用户操作的客户端设备106上执行的自动助理客户端110和可选地一个或多个基于云的自动助理组件130(其可以在多个自动助理客户端110之间共享)的组合。也应该理解，在一些实施方式中，不管用户是否实际上由自动助理120的那个特定实例“服务”，自动助理120都可以对来自任何用户的请求做出响应。

一个或多个客户端设备106可以包括例如以下各项的一个或多个：台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如，车载通信***、车载娱乐***、车载导航***)、独立交互式扬声器(其在一些情况下可以包括视觉传感器)、诸如智能电视(或配备有具有自动助理能力的联网加密狗的标准电视)的智能电器和/或用户的包括计算设备的可穿戴装置(例如，用户的具有计算设备的手表、用户的具有计算设备的眼镜、虚拟或增强现实计算设备)。可以提供附加和/或替代客户端计算设备。如先前所指出的，一些客户端设备106可以采取助理设备的形式，这些助理设备被主要设计来促进用户与自动助理120(例如，具有扬声器和显示器的独立交互式设备)之间的交互。

客户端设备106能够被配备有具有一个或多个视场的一个或多个视觉组件107。视觉组件107可以采取各种形式，诸如专题相机、立体相机、LIDAR组件、雷达组件等。一个或多个视觉组件107可以例如由视觉捕获模块114用于捕获客户端设备106部署在其中的环境的视觉帧(例如，图像帧(静止图像或视频))。这些视觉帧然后可以例如由适配引擎115的凝视和嘴模块116至少选择性地分析，以监视以下各项的发生：由视觉帧捕获的用户的嘴运动(例如，指示用户讲话的嘴的运动)和/或来自用户的定向凝视(例如，朝向客户端设备106定向的凝视)。凝视和嘴模块116能够在监视嘴运动和/或定向凝视的发生时利用一个或多个经训练的机器学习模型117。

响应于检测到嘴运动和定向凝视(并且可选地响应于由其它条件模块118检测到一个或多个其它条件)，适配引擎115可以适配自动助理120的一个或多个方面，诸如自动助理客户端110的各方面和/或基于云的自动助理组件130的各方面。这种适配可以包括例如适配用户接口输出(例如，可听的和/或视觉的)，其由客户端设备106渲染并由自动助理客户端110控制。这种适配可以附加地或可替代地包括例如适配通过客户端设备106(例如，通过自动助理客户端的一个或多个组件)和/或通过一个或多个基于云的自动助理组件130的传感器数据处理。

作为一个适配传感器数据处理的非限制性示例，在检测嘴运动和定向凝视之前，能够处理和/或仅在客户端设备106处在本地暂时缓冲在客户端设备106处捕获的视觉数据和/或音频数据(即，而不用传输到基于云的自动助理组件130)。然而，响应于检测到嘴运动和定向凝视，能够通过使音频数据和/或视觉数据(例如，最近缓冲的数据和/或在检测之后接收到的数据)传输到基于云的自动助理组件130以进一步处理来适配这样的处理。例如，对嘴运动和定向凝视的检测能够消除用户讲出显式调用短语(例如，“OK Assistant(好的助理)”)以便使用户的口头话语由自动助理120完全处理以及使响应内容由自动助理120生成并渲染给用户的需要。

例如，不是用户需要讲出“OK Assistant,What’s today’s forecast(好的助理，今天的预报怎样)”来获得今天的预报，而是用户能替换地：看着客户端设备106，并且仅在看着客户端设备106期间或在时间上接近看着客户端设备106时(例如，在看着客户端设备106之前和/或之后的时间阈值内)讲出“What’s today’s forecast(今天的预报怎样)”。与口头话语“What’s today’s forecast”相对应的数据(例如，捕获口头话语的音频数据或其文本或语义转换)能够由客户端设备106响应于检测到嘴运动(通过讲出“What’s today’sweather forecast(今天的天气预报怎样)”的全部或者部分引起的)和定向凝视并且响应于在嘴运动和定向凝视期间和/或在时间上接近嘴运动和定向凝视时接收到口头话语而传送到基于云的自动助理组件130。

在另一示例中，不是用户需要讲出“OK Assistant,turn up the heat(好的助理，调高供暖)”以经由连接恒温器增加他/她家的温度，而是用户能替换地：看着客户端设备106，并且仅在看着客户端设备106期间或在时间上接近看着客户端设备106时(例如，在看着客户端设备106之前和/或之后的时间阈值内)讲出“turn up the heat(调高供暖)”。与口头话语“turn up the heat”相对应的数据(例如，捕获口头话语的音频数据或其文本或其它语义转换)能够由客户端设备106响应于检测到嘴运动(通过讲出“turn up the heat”的全部或者部分引起的)和定向凝视并且响应于在嘴运动和定向凝视期间和/或在时间上接近嘴运动和定向凝视时接收到口头话语而传送到基于云的自动助理组件130。

在另一示例中，不是用户需要讲出“OK Assistant,open the garage door(好的助理，打开车库门)”以打开他/她的车库，而是用户能替换地：看着客户端设备106，并且仅在看着客户端设备106期间或在时间上接近看着客户端设备106时(例如，在看着客户端设备106之前和/或之后的时间阈值内)讲出“open the garage door(打开车库门)”。与口头话语“open the garage door”相对应的数据(例如，捕获口头话语的音频数据或其文本或其它语义数据)能够由客户端设备106响应于检测到嘴运动(通过讲出“open the garagedoor”的全部或者部分引起的)和定向凝视并且响应于在嘴运动和定向凝视期间和/或在时间上接近嘴运动和定向凝视时接收到口头话语而传送到基于云的自动助理组件130。

在一些实施方式中，由客户端设备106对数据的传输可能进一步取决于其它条件模块118确定一个或多个附加条件的发生。例如，数据的传输能够进一步基于由其它条件模块118执行的对音频数据的本地话音活动检测处理指示在音频数据中存在话音活动。另外，例如，数据的传输能够附加地或替换地进一步基于由其它条件模块118确定音频数据对应于提供了手势和定向凝视的用户。例如，能够基于视觉数据确定用户(相对于客户端设备106)的方向，并且数据的传输能够进一步基于由其它条件模块118确定音频数据中的口头话语来自相同方向(例如，使用波束成形和/或其它技术)。另外，例如，能够基于视觉数据(例如，使用面部辨识)来确定用户的用户简档，并且数据的传输能够进一步基于由其它条件模块118确定音频数据中的口头话语具有与用户简档匹配的话音特性。作为又一个示例，数据的传输能够附加地或替换地进一步基于由其它条件模块118基于视觉数据确定用户的手势(例如，一个或者多个候选调用手势中的任意一个)与用户的嘴运动和/或定向凝视同时发生，或者以所检测到的嘴运动和/或定向凝视的阈值时间量发生。其它条件模块118能够在确定存在其它条件时可选地利用一个或多个其它机器学习模型119。在本文中提供凝视和嘴模块116及其它条件模块118的实施方式的附加描述(例如，参考图2A-2B)。此外，本文提供了基于检测到的嘴运动和/或凝视来适配自动助理的实施方式的附加描述(例如，参考图4B-4D)。

客户端计算设备106和操作基于云的自动助理组件130的计算设备中的每一个均可以包括用于存储数据和软件应用的一个或多个存储器、用于访问数据并执行应用的一个或多个处理器以及促进通过网络通信的其它组件。由客户端计算设备106和/或由自动助理120执行的操作可以跨多个计算机***分布。可以将自动助理120实现为例如在一个或多个位置中通过网络彼此耦合的一个或多个计算机上运行的计算机程序。

如以上所指出的，在各种实施方式中，客户端计算设备106可以操作自动助理客户端110。在那些各种实施方式中的一些中，自动助理客户端110可以包括语音捕获模块112、前述视觉捕获模块114和适配引擎115，该适配引擎115能够包括凝视和嘴模块116以及可选地其它条件模块118。在其它实施方式中，语音捕获模块112、视觉捕获模块114和/或适配引擎115的一个或多个方面可以例如通过一个或多个基于云的自动助理组件130与自动助理客户端110分开地实现。

在各种实施方式中，可以使用硬件和软件的任何组合来实现的语音捕获模块112可以与诸如麦克风109或其它压力传感器的硬件对接以捕获用户的口头话语的音频记录。如将在下面描述的，可以出于各种目的对此音频记录执行各种类型的处理。在各种实施方式中，可以使用硬件或软件的任何组合来实现的视觉捕获模块114可以被配置成与视觉组件107对接以捕获与视觉传感器107的可选地适配的视场相对应的一个或多个视觉帧(例如，数字图像)。

如先前所提及的，语音捕获模块112可以被配置成例如经由麦克风109捕获用户的语音。附加地或替换地，在一些实施方式中，语音捕获模块112可以被进一步配置成例如使用语音至文本(“STT”)处理技术来将捕获到的音频转换为文本和/或其它表示或嵌入。然而，因为客户端设备106可能在计算资源(例如，处理器周期、存储器、电池等)方面相对地受约束，所以客户端设备106本地的语音捕获模块112可以被配置成将有限数目的不同的口头短语——诸如调用自动助理120的短语——转换为文本(或其它形式，诸如较低维数嵌入)。可以向基于云的自动助理组件130发送其它语音输入，该基于云的自动助理组件可以包括基于云的STT模块132。

基于云的TTS模块131可以被配置成利用云的实际上无限的资源来将文本数据(例如，由自动助理120制定的自然语言响应)转换成计算机生成的语音输出。在一些实施方式中，TTS模块131可以将计算机生成的语音输出提供给客户端设备106以例如使用一个或多个扬声器来直接输出。在其它实施方式中，可以将由自动助理120生成的文本数据(例如，自然语言响应)提供给客户端设备106，并且客户端设备106的本地TTS模块然后可以将文本数据转换成在本地输出的计算机生成的语音。

基于云的STT模块132可以被配置成利用云的实际上无限的资源来将由语音捕获模块112捕获的音频数据转换成文本，然后可以将该文本提供给自然语言理解模块135。在一些实施方式中，基于云的STT模块132可以将语音的音频记录转换为一个或多个音素，然后将一个或多个音素转换为文本。附加地或替换地，在一些实施方式中，STT模块132可以采用状态解码图。在一些实施方式中，STT模块132可以生成用户的话语的多个候选文本解释，并且利用一种或多种技术来从候选中选择给定解释。

自动助理120(特别是基于云的自动助理组件130)可以包括意图理解模块135、前述TTS模块131、前述STT模块132以及在本文中更详细地描述的其它组件。在一些实施方式中，可以在与自动助理120分开的组件中省略、组合和/或实现自动助理120的模块中的一个或多个和/或模块。在一些实施方式中，可以至少部分地在客户端设备106上(例如，与基于云的实施方式相结合地或把基于云的实施方式排除在外)实现自动助理120的组件中的一个或多个，诸如意图理解模块135、TTS模块131、STT模块132等。

在一些实施方式中，自动助理120生成各种内容以经由客户端设备106可听见地和/或图式地渲染给用户。例如，自动助理120可以生成诸如天气预报、每日排程等的内容，并且能够使得像本文所描述的那样响应于检测到来自用户的嘴运动和/或定向凝视而渲染内容。另外，例如，自动助理120可以响应于经由客户端设备106提供的用户的自由形式自然语言输入、响应于用户的经由来自客户端设备的视觉组件107的视觉数据检测到的手势等而生成内容。如本文所使用的，自由形式输入是由用户制定并且不局限于被呈现供由用户选择的选项组的输入。自由格式输入可以是例如键入输入和/或口头输入。

意图理解模块135的自然语言处理器133处理由用户经由客户端设备106生成的自然语言输入并且可以生成有注释的输出(例如，以文本形式)以供由自动助理120的一个或多个其它组件使用。例如，自然语言处理器133可以处理由用户经由客户端设备106的一个或多个用户接口输入设备生成的自然语言自由格式输入。所生成的有注释的输出包括自然语言输入的一个或多个注释和自然语言输入的词项中的一个或多个(例如，全部)。

在一些实施方式中，自然语言处理器133被配置成识别并注释自然语言输入中的各种类型的语法信息。例如，自然语言处理器133可以包括词法模块，该词法模块可以将各个单词分成词素并且/或者例如利用其类而注释词素。自然语言处理器133也可以包括被配置成利用其语法角色而注释词项的词性标记器。另外，例如，在一些实施方式中自然语言处理器133可以附加地和/或可选地包括被配置成确定自然语言输入中的词项之间的句法关系的依赖性解析器(未描绘)。

在一些实施方式中，自然语言处理器133可以附加地和/或可选地包括实体标记器(未描绘)，该实体标记器被配置成注释一个或多个片段中的实体指涉，诸如对人们(包括例如文学角色、名人、公众人物等)、组织、位置(真实的和虚构的)等的指涉。在一些实施方式中，关于实体的数据可以被存储在一个或多个数据库中，诸如在知识图(未描绘)中，并且自然语言处理器133的实体标记器能够在实体标记中利用此类数据库。

在一些实施方式中，自然语言处理器133可以附加地和/或替换地包括被配置成基于一个或多个上下文提示分组或“聚类”对同一实体的指涉的共指消解器(未描绘)。例如，可以利用共指消解器来将“I liked Hypothetical Cafélast time we ate there(我喜欢上次我们在那里用餐的假想咖啡馆)”中的词项“there(在那里)”消解为“HypotheticalCafé(假想咖啡馆)”。

在一些实施方式中，自然语言处理器133的一个或多个组件可以依靠来自自然语言处理器133的一个或多个其它组件的注释。例如，在一些实施方式中所述及的实体标记器可以在注释对特定实体的所有提及时依靠来自共指消解器和/或依赖性解析器的注释。另外，例如，在一些实施方式中共指消解器可以在聚类对同一实体的指涉时依靠来自依赖性解析器的注释。在一些实施方式中，在处理特定自然语言输入时，自然语言处理器133的一个或多个组件可以使用相关在先输入和/或在特定自然语言输入外的其它相关数据来确定一个或多个注释。

意图理解模块135也可以包括被配置成确定参与与自动助理120的交互的用户的意图的意图匹配器134。虽然在图1中与自然语言处理器133分开地描绘，但是在其它实施方式中，意图匹配器134可以是自然语言处理器133(或更一般地，包括自然语言处理器133的流水线)的成一体部分。在一些实施方式中，自然语言处理器133和意图匹配器134可以共同地形成前述意图理解模块135。

意图匹配器134可以使用各种技术来例如基于来自自然语言处理器133的输出(其可以包括自然语言输入的注释和词项)、基于客户端设备106的触敏显示器处的用户触摸输入和/或基于在视觉数据中检测到的手势和/或其它视觉提示确定用户的意图。在一些实施方式中，意图匹配器134可以能够访问一个或多个数据库(未描绘)，该一个或多个数据库包括例如语法及响应动作(或更一般地，意图)、视觉提示和响应动作和/或触摸输入与响应动作之间的多个映射。例如，映射中包括的语法可以随着时间的推移而被选择和/或学习，并且可以表示用户的常见意图。例如，可以将一个语法“play<artist>(播放<艺术家>)”映射到调用使得在由用户操作的客户端设备106上<artist>的音乐被播放的响应动作的意图。另一语法“[weather|forecast]today(今日[天气|预报])”可以能够与诸如“what’s theweather today(今日天气怎样)”和“what’s the forecast for today？(今日预报怎样？)”的用户查询匹配。作为另一示例，视觉提示到动作映射能够包括适用于多个用户(例如，所有用户)的“一般”映射和/或用户特定映射。视觉提示到动作映射的一些示例包括针对手势的映射。例如，能够将“挥手”手势映射到使定制内容(针对提供手势的用户定制的)被渲染给用户的动作，能够将“竖起大拇指”手势映射到“播放音乐”动作；并且能够将“举手击掌”手势映射到要执行的自动助理动作的“例程”，诸如打开智能咖啡机、打开某些智能灯和可听地渲染新闻摘要。

除了语法之外或代替语法，在一些实施方式中，意图匹配器134可以单独或与一个或多个语法、视觉提示和/或触摸输入相结合地采用一个或多个经训练的机器学习模型。这些经训练的机器学习模型也可以被存储在一个或多个数据库中并且可以被训练来识别意图，例如，通过将指示用户的话语和/或任何检测到的用户提供的视觉提示的数据嵌入到降维空间中，然后确定哪些其它嵌入(以及因此，意图)是最接近的，例如，使用诸如欧几里德距离、余弦相似度等的技术。

如以上“play<artist>”示例语法中所看到的，一些语法具有能够用槽值(或“参数”)填充的槽(例如，<artist>)。可以以各种方式确定槽值。常常用户将前摄地提供槽值。例如，对于语法“Order me a<topping>pizza(为我订购<浇头>披萨)”，用户可能很可能讲出短语“Order me a sausage pizza(为我订购香肠披萨)”，在此情况下槽<topping>被自动地填充。附加地或替换地，如果用户调用包括要用槽值填充的槽的语法，而用户没有前摄地提供槽值，则自动助理120可以从用户索求那些槽值(例如，“what type of crust doyou want on your pizza？(在你的披萨上你想要什么类型的外皮？)”。在一些实施方式中，可以用基于视觉提示的槽值填充槽，该视觉提示基于由视觉组件107捕获的视觉数据而检测到。例如，用户能在向客户端设备106的视觉组件107举起三只手指的同时发出像“Orderme this many cat bowls(为我订购这么大的猫碗)”的一些事情。或者，用户能在握住特定电影DVD盒的同时发出像“Find me more movies like this(为我查找更多像这样的电影)”的一些事情。

在一些实施方式中，自动助理120可以促进(或“安排”)用户与代理之间的事务，这可以是接收输入并提供响应输出的独立软件进程。一些代理可以采取第三方应用的形式，这些第三方应用可以或可以不在与操作例如基于云的自动助理组件130的计算***分开的计算***上操作。可以由意图匹配器134识别的一种用户意图是接涉第三方应用。例如，自动助理120可以提供对到披萨递送服务的应用编程接口(“API”)的访问。用户可以调用自动助理120并且提供诸如“I’d like to order a pizza(我想订购比萨)”的命令。意图匹配器134可以将此命令映射到触发自动助理120与第三方披萨递送服务接涉的语法。第三方比萨递送服务可以给自动助理120提供需要被填充的槽的最小列表以便完成比萨递送订单。自动助理120可以生成并(经由客户端设备106)向用户提供索求槽的参数的自然语言输出。

履行模块138可以被配置成接收由意图匹配器134输出的预测/估计意图以及关联的槽值(无论是由用户前摄地提供还是从用户索求的)并且履行(或“消解”)意图。在各种实施方式中，对用户的意图的履行(或“解析”)可以使各种履行信息(也称为“响应”信息或数据)例如由履行模块138生成/获得。

因为能够以各种方式履行意图，所以履行信息可以采取各种形式。假设用户请求纯信息，诸如“Where were the outdoor shots of‘The Shining’filmed？(‘闪灵’的室外镜头是在哪里拍摄的？)”。用户的意图可以例如由意图匹配器135确定为搜索查询。可以将搜索查询的意图和内容提供给履行模块138，该履行模块像图1中所描绘的那样可以与被配置成搜索文档的语料库和/或其它数据源(例如，知识图等)以得到响应信息的一个或多个搜索模块150通信。履行模块138可以向搜索模块150提供指示搜索查询的数据(例如，查询的文本、降维嵌入等)。搜索模块150可以提供响应信息，诸如GPS坐标或其它更显式的信息，诸如“Timberline Lodge,Mt.Hood,Oregon(俄勒冈州胡德山的山林小屋酒店)”。此响应信息可以形成由履行模块138生成的履行信息的一部分。

附加地或替换地，履行模块138可以被配置成例如从意图理解模块135接收用户的意图以及由用户提供或者使用其它手段(例如，用户的GPS坐标、用户偏好等)确定的任何槽值并且触发响应动作。响应动作可以包括例如订购商品/服务、启动定时器、设定提醒、发起电话呼叫、播放媒体、发送消息、发起多个动作的例程等。在一些此类实施方式中，履行信息可以包括与履行、确认响应(其在一些情况下可以选自预先确定的响应)等相关联的槽值。

附加地或替换地，履行模块138可以被配置成推理用户的意图(例如，基于一天中的时间、过去交互等)并且获得针对那些意图的响应信息。例如，履行模块138能够被配置成获得用户的每日日历摘要、针对用户的天气预报和/或针对用户的其它内容。履行模块138能够进一步使这种内容被“推送”以供图式地和/或可听地渲染给用户。例如，这种内容的渲染可以是响应于适配引擎115检测到嘴运动和定向凝视的发生而发生的适配。

自然语言生成器136可以被配置成基于从各种源获得的数据生成和/或选择自然语言输出(例如，被设计成模仿人类语音的单词/短语)。在一些实施方式中，自然语言生成器136可以被配置成接收与意图的履行相关联的履行信息作为输入，并且基于履行信息生成自然语言输出。附加地或替换地，自然语言生成器136可以从诸如第三方应用的其它源接收信息，该其它源可以用来为用户组创自然语言输出。

现在参考图2A和图2B，描绘了凝视和嘴模块116如何能够检测特定嘴运动和/或定向凝视并且适配引擎115如何能够适配自动助理作为响应的各种示例。

最初转向图2A，视觉捕获模块114向凝视和嘴模块116提供视觉帧。在一些实施方式中，视觉捕获模块114向凝视和嘴模块116提供视觉帧的实时流。在那些实施方式中的一些中，视觉捕获模块114响应于来自单独的存在传感器105的信号指示人类与客户端设备106一起存在于环境中而开始提供视觉帧。例如，存在传感器105可以是PIR传感器并且能够响应于检测到人类存在而向视觉捕获模块114提供信号。除非检测到人类存在，否则视觉捕获模块114可以避免向凝视和嘴模块116提供任何视觉帧。在视觉捕获模块114仅向凝视和嘴模块116选择性地提供视觉帧的其它实施方式中，能够利用附加和/或替代提示来发起这种提供。例如，能够基于来自语音捕获模块112的音频数据、基于由一个或多个其它组件对视觉帧的分析和/或其它信号来检测人类存在。

凝视和嘴模块116使用一个或多个机器学习模型117来处理视觉帧以监视定向凝视和嘴运动两者的发生。当检测到定向凝视和嘴运动两者时，凝视和嘴模块116向适配引擎115提供检测到凝视和嘴运动的指示。

在图2A中，也将视觉帧和/或音频数据(由语音捕获模块112提供的)提供给其它条件模块118。其它条件模块118可选地使用一个或多个其它机器学习模型119来处理所提供的数据，以监视一个或多个其它条件的发生。例如，其它条件可以是基于音频数据检测任何话音活动；检测口头调用短语在音频数据中的存在；基于音频数据检测来自用户的方向或位置的话音活动；基于视觉帧和/或音频数据检测用户是授权用户；基于视觉帧检测用户(其提供嘴运动和定向凝视)的手势；等。当检测到其它条件时，其它条件模块118将其它条件的发生的指示提供给适配引擎115。

当适配引擎115接收到定向凝视和嘴运动的指示以及其他条件在时间上接近的指示时，适配引擎115使自动助理120进行适配101。例如，适配101可以包括适配客户端设备106的用户接口输出的渲染和/或适配通过客户端设备106的音频数据处理。

在一些实施方式中，并且如关于图2B更详细地描述的，凝视和嘴模块116能够将一个或多个第一机器学习模型117用于检测定向凝视，并且将一个或多个第二机器学习模型117用于检测嘴运动。在一些其它实施方式中，凝视和嘴模块116能够利用端到端机器学习模型，该端到端机器学习模型接受视觉帧(或其特征)作为输入并且能够被利用来生成(基于通过模型对输入的处理)指示是否已发生嘴运动和定向凝视的输出。这样的机器学习模型可以是例如神经网络模型，诸如包括一个或多个记忆层(例如，长短期记忆(LSTM)层)的递归神经网络(RNN)模型。这样的RNN模型的训练能够基于训练示例，这些训练示例包括视觉帧的序列(例如，视频)作为训练示例输入以及序列是否包括嘴运动和定向凝视两者的指示作为训练示例输出。例如，训练示例输出可以包括一个或多个值，每个值指示是否存在嘴运动和定向凝视。例如，训练示例输出可以包括值的序列，所述序列的值中的每一个针对视觉帧中的对应一个。

图2B图示嘴运动和凝视检测模块116包括在监视嘴运动的发生时利用嘴机器学习模型117A的嘴模块116A并且包括在监视定向凝视的发生时利用凝视机器学习模型117B的凝视模块116B的示例。为了简单在图2B中未图示其它条件模块118，但是也能够可选地以如关于图2A所描述的类似方式与嘴模块116A和凝视模块116B相结合地利用其它条件模块118。

在图2B中，视觉捕获模块114向检测和分类模块116C提供视觉帧。检测和分类模块116C利用对象检测和分类机器学习模型117C以对每个视觉帧的各个区域进行分类。例如，检测和分类模块116C可以对与人类相对应的每个视觉帧的人类区域(如果有的话)进行分类，并且针对每个视觉帧将这样的人类区域的指示提供给嘴模块116A和凝视模块116B。而且，例如，检测和分类模块116C可以针对每个视觉帧将对应于面部区域的每个视觉帧的区域(如果有的话)分类到嘴模块116A和凝视模块116B。同样，例如，检测和分类模块116C可以对每个视觉帧的与人类的眼睛区域相对应的区域(如果有的话)进行分类，并将针对每个视觉帧的这样的区域的指示提供给凝视模块116B。作为又一示例，检测和分类模块116C可以对每个视觉帧的与人类的嘴区域相对应的区域(如果有的话)进行分类，并且将针对每个视觉帧的这些区域的指示提供到嘴模块116A。

在一些实施方式中，嘴模块116A可以利用所提供的区域来仅处理每个视觉帧的对应部分。例如，嘴模块116A可以“裁切”视觉帧并调整其大小以仅处理那些包括人类区域或面部区域或嘴区域的部分。在那些实施方式中的一些中，可以基于被“裁切”的视觉帧来训练嘴机器学习模型117A，并且调整大小可以是到符合这样的模型的输入维数的大小。在一些附加的或者可替代的实施方式中，嘴模块116A可以利用提供的区域来一起跳过某些视觉帧的处理(例如，被指示为不包括人类和/或面部区域的那些)。在又其它的实施方式中，嘴模块116A可以利用所提供的区域作为注意力机制(例如，作为向嘴机器学习模型117A的单独的注意力输入)，以集中每个视觉帧的处理。

同样，在一些实施方式中，凝视模块116B可以利用所提供的区域来仅处理每个视觉帧的对应部分。例如，凝视模块116B可以“裁切”视觉帧并调整视觉帧的大小以仅处理那些包括人类区域、或者面部区域或者眼睛区域的部分。在那些实施方式中的一些中，可以基于“裁切”的视觉帧来训练凝视机器学习模型117B，并且调整大小可以是到符合这种模型的输入维数的大小。在一些附加的或可替代的实施方式中，凝视模块116B可以利用提供的区域来一起跳过对某些视觉帧的处理(例如，被指示为不包括人类和/或面部区域的那些)。在又其他实施方式中，凝视模块116B可以利用所提供的区域作为注意力机制(例如，作为对凝视机器学习模型117B的单独的注意力输入)，以集中每个视觉帧的处理。

在一些实施方式中，检测和分类模型116C可以向其他条件模块118(为简单起见，在图2B中未描绘)附加地或可替代地提供某些区域的指示，以供其他条件模块118使用。例如，当手势的检测是用于适配自动助理的附加条件时，其他条件模块118可以在利用对应的手势机器学习模型来检测手势中使用身体区域。

在一些实施方式中，检测和分类模型116C可以向嘴模块116A和凝视模块116B附加或可替代地提供被分类作为TV或其他视频显示源的区域的指示。在那些实施方式中的一些中，模块116A和116B可以从经处理的视觉帧中裁切出那些区域，将注意力集中在那些区域之外，和/或以其他方式在检测中忽略那些区域，或者使检测将基于这样的区域的机会变小。以这些和其他方式，可以减轻自动助理的假阳性适配。

如在上面所提及的，嘴模块116A可以使用一个或多个嘴机器学习模型117A来检测嘴运动。这种机器学习模型可以是例如神经网络模型，诸如包括一个或多个存储层的RNN模型。可以基于训练示例来训练这种RNN模型，该训练示例包括视觉帧的序列(例如，视频)作为训练示例输入以及序列是否包括一个或多个特定嘴运动的指示作为训练示例输出。例如，训练示例输出可以是单个值，该单个值指示是否存在指示对应的用户正在讲话的任何嘴运动。例如，当不存在嘴运动时，单个值可以是“0”，而在存在指示用户正在讲话的嘴运动时其可以是“1”。例如，训练示例输出可以包括一个或多个值，每个值指示是否存在指示对应的用户正在讲话的任何嘴运动。例如，训练示例输出可以包括值的序列，其中该系列的值中的每个值针对视觉帧中的对应一个(例如，当要训练的模型是序列到序列模型时)。该值可以是例如当不存在嘴运动时为“0”，而在存在指示用户正在讲话的嘴运动时其为“1”。作为另一示例，训练示例输出可以包括用于视觉帧的序列的单个值，其中该单值指示是否存在指示对应的用户正在讲话的任何嘴运动。

在那些和/或其他实施方式中的一些中，仅当以至少阈值概率和/或在至少阈值持续时间内检测到嘴运动时，嘴模块116A才确定嘴运动。例如，可以使用序列到序列的RNN模型来处理图像帧流，并且处理每个帧可以产生正发生嘴运动的对应概率(由于网络的递归性质，其可以基于先前的帧)。只有图像帧序列的至少X％(与阈值持续时间相对应)具有满足阈值的相应概率，嘴运动模块才能确定存在嘴运动。例如，假设X％为60％，概率阈值为0.6，并且阈值持续时间为0.25秒。进一步假设5个图像帧对应于0.5秒。如果处理图像帧以产生[0.75，0.85，0.5，0.7，0.9]的概率，则可以检测到嘴运动，因为80％的帧指示嘴运动的概率大于0.7。可以利用附加的和/或可替代的机器学习模型和/或技术来检测嘴运动。

凝视模块116A能够将一个或多个凝视机器学习模型117A用于检测定向凝视。这样的机器学习模型可以是例如神经网络模型，诸如卷积神经网络(CNN)模型。这样的CNN模型的训练能够基于训练示例，这些训练示例包括视觉帧(例如，图像)作为训练示例输入和图像是否包括定向凝视的指示作为训练示例输出。例如，训练示例输出可以是指示是否存在定向凝视的单个值。例如，该单个值在不存在定向凝视时可以为“0”，在存在直接定向在捕获图像的传感器或定向在捕获图像的传感器的5度内的凝视时为“1”，或者在存在定向在捕获图像的传感器的5-10度内的凝视时为“0.75”等。

在那些和/或其它实施方式中的一些中，凝视模块116B仅在以至少阈值概率和/或在至少阈值持续时间内检测到定向凝视时才确定定向凝视。例如，能够使用CNN模型来处理图像帧的流，并且处理每个帧能够产生帧包括定向凝视的对应概率。凝视模块只有在图像帧的序列的至少X％(其对应于阈值持续时间)具有满足阈值的对应概率时才能够确定存在定向凝视。例如，假定X％是60％，概率阈值是0.7，并且阈值持续时间是0.5秒。进一步假定10个图像帧对应于0.5秒。如果图像帧被处理以生成[0.75,0.85,0.5,0.4,0.9,0.95,0.85,0.89,0.6,0.85]的概率，则能够检测到定向凝视，因为70％的帧以大于0.7的概率指示定向凝视。以这些和其它方式，即使当用户短暂地转移他/她的凝视方向时，也能够检测到定向凝视。能够利用附加和/或替代机器学习模型(例如，RNN模型)和/或技术来检测以至少阈值持续时间发生的定向凝视。

图3描绘图1的客户端设备106和视觉组件107的示例。在图3中，示例客户端设备被表示为106A，并且进一步包括扬声器和显示器。在图3中，示例视觉组件被表示为107A并且是相机。图3还描绘正在讲话(未描绘)并且提供定向到相机107A的凝视的用户301。图3还描绘当用户正在讲话并提供定向凝视时由相机107A捕获到的示例图像360。可以看到，用户以及在用户后方的电视被捕获在图像360中(并且因此在图3的透视图中不可见)。

在图像360中，提供了边界框362并且该边界框362表示图像的能够被确定(例如，由图2B的检测和分类模块116C)以对应于面部的区域。在一些实施方式中，基于该部分被指示为与面部相对应，在客户端设备106A上操作的凝视和嘴运动模块能够在监视定向凝视和嘴运动时仅处理图像的该部分(或者将注意力集中在该部分上)。尽管在图3中描绘了仅单个图像，但是在各种实施方式中定向凝视检测和/或嘴运动检测能够基于如本文所描述的图像的序列。

在图像360中，也提供了边界框363并且该边界框363表示图像的能够被确定为与视频显示器相对应并且可能产生视觉提示的假阳性的区域。例如，电视可能渲染示出一个或多个人在交谈、对着相机看等的视频，其中的任一个均可能被误解为发生嘴运动和/或定向凝视。在一些实施方式中，图2B的检测和分类模块116C能够确定这样的区域(例如，基于检测TV分类)并且/或者能够基于对图像360和在前图像的分析确定这样的区域以确定该区域具有与视频显示器的显示频率相对应的显示频率(例如，约60Hz、120Hz和/或其它典型的视频显示器频率)。在一些实施方式中，嘴运动模块和/或凝视模块能够从处理的视觉帧中裁切该区域，将注意力集中在该区域之外，和/或以其它方式在检测中忽视该区域或者减少检测将基于此类区域的机会。以这些和其它方式，能够减轻对自动助理的假阳性适配。

图4A是图示根据本文公开的实施方式的示例方法400的流程图。图4B、图4C、图4D以及图4E是图示图4A的框410的实施方式的不同示例。为了方便，参考执行操作的***描述图4A-图4D的流程图的操作。此***可以包括各种计算机***的各种组件，诸如实现自动助理120的计算***(例如，客户端设备和/或远程计算***)的一个或多个组件。此外，虽然以特定次序示出方法400的操作，但是这不意在为限制性的。一个或多个操作可以被重新排序、省略或添加。

在框402处，***接收基于来自视觉组件的输出的视觉数据。在一些实施方式中，视觉组件能够与包括助理客户端的客户端设备集成在一起。在一些实施方式中，视觉组件能够与客户端设备分开，但是与客户端设备通信。例如，视觉组件能够包括与包括助理客户端的客户端设备进行有线和/或无线通信的独立智能相机。

在框404处，***使用至少一个机器学习模型来处理视觉数据，以监视以下两者的发生：嘴运动和定向凝视。

在框406处，***基于框404的监视来确定是否已检测到嘴运动和定向凝视两者。如果否，则***往回进行到框402，接收附加视觉数据，并且执行框404和406的另一迭代。在一些实施方式中，***基于检测到嘴运动和定向凝视同时发生或者在彼此的阈值时间接近内发生来确定已检测到嘴运动和定向凝视两者。在一些附加或替代实施方式中，***基于检测到嘴运动具有至少阈值持续时间并且/或者定向凝视具有至少阈值持续时间(其可以是与可选地用于嘴运动持续时间的阈值持续时间相同或不同的阈值持续时间)来确定已检测到嘴运动和定向凝视两者。如在本文所描述的，***可以在执行框406时利用一个或者多个机器学习模型。

如果在框406的迭代时，***基于框404的监视确定已检测到嘴运动和凝视两者，则***可选地进行到框408(或者，当不包括框408时，直接进行到框410)。

在可选框408处，***确定是否满足一个或多个其它条件。如果否，则***往回进行到框402，接收附加视觉数据，并且执行框404、406和408的另一迭代。如果是这样的话，则***进行到框410。***能够使用在框402处接收到的视觉数据、音频数据和/或其它传感器或非传感器数据来确定是否满足一个或多个其它条件。***能够考虑各种其它条件，诸如本文显式地描述的条件。

在框410处，***适配自动助理。该***可以以各种方式适配自动助理，诸如下面关于图4B-4D描述的那些中的一个或者多个。

现在转到图4B-4D，图示图4A的框410的实施方式的各种示例。最初转向4B，响应于图4A的框404和406处的“是”确定，执行框410的示例的初始迭代410B1。在迭代410B1处，***在提供用于远程处理的传感器数据(例如，视觉数据和/或音频数据)之前提供可听和/或视觉提示。提示的渲染可以(直接或间接)指示音频数据和/或视觉数据的远程处理将要发生。可以渲染各种人类可感知的提示，诸如辅助设备的可听的“叮”声和/或发光二极管的照明。

在迭代410B1之后，执行框402、404和406(图4A)的进一步迭代，如图4B中所指示的，在框404和406处做出进一步的“是”确定。进一步的“是”确定指示用户已经继续讲话并将他/她的视线定向在客户端设备。响应于进一步的“是”确定，执行框410的示例的附加迭代410B2。在迭代410B2处，***将音频数据和/或视觉数据传送到远程组件以进行远程处理。如果还没有进行进一步的“是”确定，则将不会发生迭代410B2的进一步适配。例如，如果用户转移他/她的视线和/或停止讲话，则将做出“否”的确定，并且防止迭代410B2的进一步适配。

现在转向图4C，响应于图4A的框404和406处的“是”确定，执行框410的示例410C1。在框410C1处，当在框404和406处做出“是”确定时，***减小正在渲染的可听输出的音量。在一些实施方式中，还执行框410的进一步的示例框410C2和可选的410C3。在框410C2处，***发起音频数据的某些处理。可以响应于图4A的框404和406处的“是”确定来执行框410C2并且其可以包括缓冲和/或流传输的音频数据的某些处理。某些处理可以包括例如话音活动检测、调用短语检测和/或其他处理。在框410C3处，如果图410C2的某些处理满足一个或多个条件，则***中止可听输出。例如，如果图410C2指示在经处理的音频数据中存在用户的口头话语，和/或如果处理指示存在口头话语并且口头话语源自与嘴运动和定向凝视相对应的用户方向，则***可以中止可听处理。

现在转向图4D，响应于图4A的框404和406处的“是”确定，执行框410的示例410D1。在框410D1处，当在框404和406做出“是”确定时，***中止正在渲染的可听输出。在一些实施方式中，还执行框410的又一示例框410D2。在框410D2处，***发起音频数据的某些处理。可以响应于图4A的框404和406处的“是”确定来执行框410D2并且其可以包括缓冲和/或正在流传输的音频数据的某些处理。特定处理可以包括例如话音活动检测、调用短语检测、音频数据到远程组件的传输以进行进一步处理和/或其他处理。

现在转向图4E，响应于图4A的框404和406处的“是”确定，执行框410的示例410E。在框410E处，响应于在框404和406做出“是”确定，***在处理音频数据时使用已确定的用户的位置。在一些实施方式中，还执行框410的另一示例框410D2。用户的位置可以相对于客户端设备，并且可以例如由***基于被确定为与用户相对应的视觉数据的部分来确定。可以基于用户与检测到的嘴运动和定向凝视相对应(这可以指示用户正在尝试与***进行可听交互)来确定用户的位置并将用户的位置用于处理中。基于用户的位置的对音频数据的处理可以包括，例如，隔离音频数据中的对应于口头话语的部分和/或从音频数据中去除背景噪声。在隔离音频数据的部分和/或从音频数据中去除背景噪声时，这种处理可以依赖于确定的位置和波束成形和/或其他技术。

尽管分离地图示图4A至图4E，注意在各种实施方式中，可以响应于检测到嘴运动和定向凝视的发生而执多个行图4A至图4E的示例框。作为一个示例，响应于在图4A的框404和406处的“是”确定，能够执行图4C的框410C1和410C2，并且框410C2能够包括图4E的框410E的处理。作为另一示例，响应于在图4A的框404和406处的初始“是”确定，能够执行图4B的框410B1，响应于附加的“是”确定框410B2能够被执行，并且远程组件能够执行图4E的框410E的处理。

在本文中描述了响应于检测到嘴运动和定向凝视两者而适配自动助理的各种示例。然而，在各种实施方式中能够响应于可选地与诸如本文描述的那些条件的一个或多个其它条件相结合地检测到以下各项中的仅一个而适配自动助理：嘴运动和定向凝视。例如，在那些各种实施方式中的一些中，能够响应于检测到用户的具有至少具有阈值持续时间的定向凝视以及诸如用户的手势的同时发生的其它条件而适配自动助理。另外，例如，在那些各种实施方式中的一些中，能够响应于检测到用户的嘴运动以及诸如用户的手势和/或检测到的话音活动的同时发生和/或在时间上接近的其它条件而适配自动助理。

图5是可以可选地用于执行本文描述的技术的一个或多个方面的示例计算设备510的框图。在一些实施方式中，客户端计算设备、用户控制的资源模块130和/或其它组件中的一个或多个可以包括示例计算设备510的一个或多个组件。

计算设备510通常包括经由总线子***512与许多***设备进行通信的至少一个处理器514。这些***设备可以包括存储子***524(包括例如存储器子***525和文件存储子***526)、用户接口输出设备520、用户接口输入设备522和网络接口子***516。输入和输出设备允许用户与计算设备510交互。网络接口子***516提供到外部网络的接口并且耦合到其它计算设备中的对应接口设备。

用户接口输入设备522可以包括键盘、诸如鼠标、轨迹球、触摸板或图形平板的指点设备、扫描仪、并入到显示器中的触摸屏、诸如话音辨识***的音频输入设备、麦克风和/或其它类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入到计算设备510中或输入到通信网络上的所有可能类型的设备和方式。

用户接口输出设备520可以包括显示子***、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子***可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可见图像的某种其它机制。显示子***也可以诸如经由音频输出设备提供非视觉显示。通常，术语“输出设备”的使用旨在包括将信息从计算设备510输出到用户或输出到另一机器或计算设备的所有可能类型的设备和方式。

存储子***524存储提供本文描述的模块中的一些或全部的功能性的编程和数据构造。例如，存储子***524可以包括执行图4A-图4D的方法的所选方面以及实现图1、图2A-2B和图3中描绘的各种组件的逻辑。

这些软件模块通常由处理器514单独或与其它处理器相结合地执行。存储子***524中使用的存储器525能够包括许多存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530和其中存储有固定指令的只读存储器(ROM)532。文件存储子***526能够为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实现某些实施方式的功能性的模块可以由文件存储子***526存储在存储子***524中，或者存储在处理器514可访问的其它机器中。

总线子***512提供了用于让计算设备510的各种组件和子***按预期彼此通信的机制。尽管总线子***512被示意性地示出为单个总线，但是总线子***的替代实施方式可以使用多个总线。

计算设备510可以具有各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其它数据处理***或计算设备。由于计算机和网络的不断变化的性质，图5中描绘的计算设备510的描述仅旨在作为用于图示一些实施方式的目的的具体示例。计算设备510的许多其它配置可能具有比图5中描绘的计算设备更多或更少的组件。

在本文描述的***收集或以其它方式监视关于用户的个人信息或者可以利用个人和/或受监视信息的情形下，可以给用户提供控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。另外，某些数据可以在它被存储或使用之前被以一种或多种方式处理，使得个人可识别的信息被去除。例如，可以处理用户的身份，使得对于该用户不能确定个人可识别的信息，或者可以在获得地理位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定地理位置。因此，用户可以控制信息如何关于用户被收集和/或使用。例如，在一些实施方式中，用户可以选择退出在监视嘴运动和/或定向凝视时使用视觉组件107和/或使用来自视觉组件107的视觉数据的助理设备。

Claims

1.一种由客户端设备的一个或多个处理器实现的方法，所述方法促进在一个或多个用户与自动助理之间的无接触交互，所述方法包括：

接收基于来自所述客户端设备的一个或多个相机的输出的图像帧的流；

使用本地存储在所述客户端设备上的至少一个经训练的机器学习模型来处理所述流的图像帧以监视下述两者的发生：

朝向所述客户端设备的所述一个或多个相机定向的用户的凝视；以及

所述用户的嘴运动；

基于所述监视来检测下述两者的发生：

所述用户的凝视，和

所述用户的嘴运动；以及

响应于检测到所述用户的凝视和所述用户的嘴运动两者的发生，执行下述中的一者或两者：

适配所述客户端设备的用户接口输出的渲染；以及

适配由所述客户端设备进行的音频数据处理。

2.根据权利要求1所述的方法，其中，适配所述客户端设备的用户接口输出的渲染是响应于检测到所述用户的凝视和所述用户的嘴运动两者的发生而被执行的。

3.根据权利要求2所述的方法，其中，适配所述客户端设备的用户接口输出的渲染包括：

减小由所述客户端设备渲染的可听用户接口输出的音量。

4.根据权利要求3所述的方法，进一步包括：

执行在时间上与所述用户的嘴运动相对应的音频数据的话音活动检测；

基于在时间上与所述用户的嘴运动相对应的所述音频数据的话音活动检测来确定话音活动的发生；

其中，减小由所述客户端设备渲染的所述可听用户接口输出的音量是进一步响应于确定所述话音活动的发生，并且基于所述话音活动的发生是针对在时间上与所述用户的嘴运动相对应的所述音频数据。

5.根据权利要求2所述的方法，其中，适配所述客户端设备的用户接口输出的渲染包括：

中止所述客户端设备渲染的可听用户接口输出的所述渲染。

6.根据权利要求5所述的方法，进一步包括：

基于在时间上与所述用户的嘴运动相对应的所述音频数据的所述话音活动检测来确定话音活动的发生；

其中，中止由所述客户端设备渲染的所述可听用户接口输出的渲染是进一步响应于确定所述话音活动的发生，并且基于所述话音活动的发生是针对在时间上与所述用户的嘴运动相对应的所述音频数据。

7.根据任意前述权利要求所述的方法，

其中，适配所述客户端设备的用户接口输出的渲染包括渲染人类可感知的提示；

其中，适配由所述客户端设备进行的音频数据处理是响应于检测到所述用户的凝视和所述用户的嘴运动两者的发生而被执行的；

其中，适配由所述客户端设备进行的所述音频数据处理包括在所述客户端设备处发起本地自动语音辨识，或者发起经由所述客户端设备的一个或多个麦克风捕获到的音频数据到与所述自动助理相关联的远程服务器的传输；并且

其中，发起所述本地自动语音辨识或者发起音频数据到所述远程服务器的所述传输是进一步响应于检测到在所述提示的所述渲染以后所述用户的凝视继续朝向所述客户端设备的一个或多个相机定向。

8.根据权利要求1所述的方法，其中，适配由所述客户端设备进行的音频数据处理是响应于检测到所述用户的凝视和所述用户的嘴运动两者的发生而被执行的。

9.根据权利要求8所述的方法，其中，适配由所述客户端设备进行的所述音频数据处理包括发起经由所述客户端设备的一个或多个麦克风捕获到的音频数据到与所述自动助理相关联的远程服务器的传输。

10.根据权利要求9所述的方法，进一步包括：

执行对在时间上与所述用户的嘴运动相对应的某个音频数据的话音活动分析，所述某个音频数据被包括在所述音频数据中或在所述音频数据之前；和

基于对在时间上与所述用户的嘴运动相对应的某个音频数据的所述话音活动分析来确定话音活动的发生；

其中，发起所述音频数据的传输是进一步响应于确定所述话音活动的发生，并基于所述话音活动的发生是针对在时间上与所述用户的嘴运动相对应的音频数据。

11.根据权利要求8所述的方法，其中，响应于检测到所述用户的凝视和所述用户的嘴运动两者的发生而适配由所述客户端设备进行的所述音频数据处理包括：

基于所述图像帧中的一个或多个图像帧，确定所述用户相对于所述客户端设备的位置；

在处理经由所述客户端设备的一个或多个麦克风捕获到的音频数据时使用所述用户的所述位置。

12.根据权利要求11所述的方法，其中，在处理经由所述客户端设备的一个或多个麦克风捕获到的音频数据时使用所述用户的所述位置包括在隔离与所述用户的口头话语相对应的所述音频数据的部分时使用所述位置。

13.根据权利要求11所述的方法，其中，在处理经由所述客户端设备的一个或多个麦克风捕获到的音频数据时使用所述用户的所述位置包括在从所述音频数据中去除背景噪声时使用所述位置。

14.根据任意前述权利要求所述的方法，其中，使用本地存储在所述客户端设备上的至少一个经训练的机器学习模型来处理所述流的图像帧以监视所述用户的凝视和所述用户的嘴运动两者的发生包括：

使用第一经训练的机器学习模型来监视所述用户的凝视的发生；和

使用第二经训练的机器学习模型来监视所述用户的嘴运动。

15.根据任意前述权利要求所述的方法，进一步包括：

基于来自存在传感器的信号来检测在所述客户端设备的环境中存在人类；和

响应于检测到在所述环境中存在人类，使所述一个或多个相机提供所述图像帧的流。

16.一种客户端设备，包括：

至少一个视觉组件；

至少一个麦克风；

一个或多个处理器；

存储器，所述存储器与所述一个或多个处理器可操作地耦合，其中所述存储器存储指令，所述指令响应于所述处理器中的一个或多个执行所述指令而使所述处理器中的一个或多个执行下述操作：

接收基于来自所述客户端设备的所述视觉组件的输出的视觉数据的流；

使用本地存储在所述客户端设备上的至少一个经训练的机器学习模型来处理所述流的视觉数据以监视下述两者的发生：

被朝向所述客户端设备的所述视觉组件定向的用户的凝视，和

所述用户的嘴运动；

基于所述监视来检测下述两者的发生：

所述用户的凝视，和

所述用户的嘴运动；以及

响应于检测到所述用户的凝视和所述用户的嘴运动两者的发生：

适配所述客户端设备的用户接口输出的渲染。

17.一种用于适配自动助理的***，包括：

至少一个视觉组件；

一个或多个麦克风；

一个或多个处理器，所述一个或多个处理器接收基于来自所述视觉组件的输出的视觉数据的流，其中所述处理器中的一个或多个被配置成：

使用至少一个经训练的机器学习模型来处理所述流的视觉数据以监视下述两者的发生：

被朝向所述视觉组件定向的用户的凝视，和

所述用户的嘴运动；

基于所述监视来检测下述两者的发生：

所述用户的凝视，和

所述用户的嘴运动；以及

响应于检测到所述用户的凝视和所述用户的嘴运动两者的发生，执行下述两者：

适配客户端设备的用户接口输出的渲染；和

适配经由所述一个或多个麦克风捕获到的音频数据的处理。

18.一种包括指令的计算机程序产品，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至15中的任一项所述的方法。

19.一种包括指令的计算机可读存储介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至15中的任一项所述的方法。

20.一种用于适配自动助理的***，所述***包括用于执行根据权利要求1至15中的任一项所述的方法的一个或多个处理器。