CN110785735B

CN110785735B - 用于语音命令情景的装置和方法

Info

Publication number: CN110785735B
Application number: CN201880041859.3A
Authority: CN
Inventors: 西亚兰·罗奇福德; 菲利普·哈司高; 李晓光; 金贾尔·巴弗萨
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-07-11
Filing date: 2018-07-10
Publication date: 2024-06-14
Anticipated expiration: 2038-07-10
Also published as: EP3616050A4; EP3616050A1; US20190019508A1; EP3616050B1; CN110785735A; WO2019013517A1; US10366691B2

Abstract

提供了一种用于移动钱包汇款的方法、电子设备和非暂时性计算机可读介质。该方法包括在显示器上显示包括对象的内容。该方法还包括确定显示器上的眼睛焦点的区域，并将眼睛焦点的区域与对象相关联。该方法额外地包括接收口语表达的命令并基于检测到的唇部运动的集合来得出命令。该方法还包括从与眼睛焦点相关联的对象、接收到的口语表达的命令或推导出的命令中的至少一者来提取情景信息。该方法还包括基于口语表达的命令与推导出的命令的调和以及提取出的情景信息来确定期望的命令。然后该方法执行所确定的期望的命令。

Description

用于语音命令情景的装置和方法

技术领域

本公开总体上涉及控制电子设备。更具体地，本公开涉及通过语音识别、唇部读取、眼睛焦点和情景信息的组合来控制电子设备。

背景技术

为了遵循更自然的方法，正在不断改进与计算设备进行交互并控制计算设备的方法。诸如个人计算机、智能电话、平板电脑、头戴式显示器等的计算设备利用显示屏幕上的图形用户界面(GUI)来方便用户进行控制。诸如文本、图像和视频的对象被显示在屏幕上，并且用户可以采用诸如键盘、鼠标、触摸板的各种设备来控制计算设备。许多GUI还可以包括触敏屏幕，由此当用户用手指或手写笔触摸显示屏幕时，GUI接收输入。此外，计算设备还可通过语音输入提供交互。

发明内容

技术问题

用于与计算设备进行交互并控制计算设备的许多此类方法通常需要用户物理地触摸屏幕或利用诸如键盘或鼠标之类的工具来提供快速且精确的输入。

问题的解决方案

本公开提供了用于语音命令情景的装置和方法的实施例。

在第一实施例中，提供了用于控制头戴式显示器的方法。该方法包括在显示器上显示包括对象的内容。该方法还确定显示器上的眼睛焦点的区域，并将眼睛焦点的区域与对象相关联。该方法还包括接收口语表达的命令。该方法还基于检测到的唇部运动的集合来推导出命令。该方法还包括从与眼睛焦点相关联的对象、接收到的口语表达的命令或推导出的命令中的至少一者来提取情景信息。该方法还基于口语表达的命令与推导出的命令的调和(reconciliation)以及提取出的情景信息来确定期望的命令。该方法还执行所确定的期望的命令。

在第二实施例中，提供了一种电子设备。至少一个处理器连接到显示器、通信接口和存储器，并且被配置为在显示器上显示包括对象的内容。该至少一个处理器还被配置为确定显示器上的眼睛焦点的区域，并将眼睛焦点的区域与对象相关联。该至少一个处理器还被配置为接收口语表达的命令并基于检测到的唇部运动的集合来推导出命令。该至少一个处理器还被配置为从与眼睛焦点相关联的对象、接收到的口语表达的命令或推导出的命令中的至少一者来提取情景信息。该至少一个处理器还被配置为基于口语表达的命令与推导出的命令的调和以及提取出的情景信息来确定期望的命令，并且执行所确定的期望的命令。

在第三实施例中，提供了包含计算机程序的非暂时性计算机可读介质。该计算机程序包括程序代码，该程序代码在被执行时使得至少一个处理器：接收请求以在显示器上显示包括对象的内容；确定显示器上的眼睛焦点的区域，并且将眼睛焦点的区域与对象相关联；接收口语表达的命令；基于检测到的唇部运动的集合推导出命令；从与眼睛焦点相关联的对象、接收到的口语表达的命令或推导出的命令中的至少一者中提取情景信息；基于口语表达的命令与推导出的命令的调和以及提取出的情景信息来确定期望的命令；以及执行所确定的期望的命令。

根据以下附图、说明书和权利要求书，其他技术特征对于本领域技术人员而言是显而易见的。

在下面描述本发明的实施方式之前，阐明整个专利文件中使用的某些词语和短语的定义可能是有利的。术语“耦接”及其派生词是指两个或更多个元件之间的任何直接或间接通信，无论这些元件是否彼此物理接触。术语“发送”、“接收”和“通信”及其派生词涵盖直接和间接通信。术语“包括”和“包含”及其派生词是指包括但不限于。术语“或”是包含性的，意味着和/或。短语“与...相关联”及其派生词表示包括、包含在其中、与之互连、包含、包含在其中、连接到或与……连接、耦接到或与……耦接、与……通信、与……合作、交织、并置、邻近、受其约束、或具有、具有……的特性、具有某种关系或与之具有关系等。术语“控制器”是指控制至少一个操作的任何设备、***或其一部分。这样的控制器可以以硬件或硬件和软件和/或固件的组合来实现。与任何特定控制器相关联的功能可以是本地或远程地集中式的或分布式的。短语“至少一个”当与项目列表一起使用时，意味着可以使用一个或更多个所列项目的不同组合，并且可能只需要列表中的一个项目。例如，“A、B、C中的至少一个”包括以下组合中的任何一个：A、B、C；A和B；A和C；B和C；以及A和B和C。

此外，下面描述的各种功能可以由一个或更多个计算机程序实现或支持，每个计算机程序由计算机可读程序代码形成并包含在计算机可读介质中。术语“应用”和“程序”是指适用于在合适的计算机可读程序代码中实现的一个或更多个计算机程序、软件组件、指令集、过程、函数、对象、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任何类型的计算机代码，包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质，例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的存储器。“非暂时性”计算机可读介质不包括传输瞬时电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可永久存储数据的介质以及可存储数据并随后覆盖的介质，例如可重写的光盘或可擦除的存储设备。

在整个专利文件中提供了其他某些词语和短语的定义。本领域普通技术人员应当理解的是，在很多情况下(即使不是大多数情况下)，这样的定义适用于如此定义的词语和短语的先前以及将来的使用。

附图说明

为了更加完整地理解本公开及其优点，现在参考以下结合附图进行的描述，在附图中相同的附图标记代表相同的部件：

图1示出了根据本公开的实施例的示例通信***；

图2示出了根据本公开的实施例的示例电子设备；

图3示出了根据本公开的实施例的示例框图；

图4A示出了根据本公开的实施例的头戴式显示器的示例外部视图；

图4B示出了根据本公开的实施例的由用户佩戴的头戴式显示器的示例轮廓视图；

图5A示出了根据本公开的实施例的头戴式显示器的示例外部视图；

图5B示出了根据本公开的实施例的由用户佩戴的头戴式显示器的示例轮廓视图；

图6A示出了根据本公开的实施例的头戴式显示器的示例内部视图；

图6B示出了根据本公开的实施例的眼睛焦点检测的示例实施方式；

图7示出了根据本公开的实施例的基于情景信息确定要执行的操作的示例方法。

具体实施方式

下面讨论的图1至图7以及在本专利文件中用来描述本公开原理的各种实施例仅仅是示例性的，不应以被解释为以任何方式限制本公开范围。本领域技术人员将理解的是，可以在任何适当布置的***或设备中实施本公开的原理。

根据本公开的实施例，提供了用于控制计算设备并与计算设备交互的各种方法。图形用户界面通过使用户能够定位和选择屏幕上的对象，从而允许用户与计算设备进行交互。常见的交互包括例如用户可以物理地移动鼠标、在键盘上键入、触摸触摸屏等的物理操作。在某些情况下，例如当用户佩戴头戴式显示器时，利用各种物理交互方式(例如触摸触摸屏)是不可行的。例如，当显示器在封闭的空间内并且放置在靠近用户眼睛的用户面前时，用户将无法触摸屏幕。此外，在某些情况下，使用附件设备(例如，键盘、鼠标、触摸板或遥控器)会很麻烦，因为用户无法看见该设备或不希望握持遥控器。例如，头戴式显示器可能遮挡了用户看见附件的视线，从而妨碍了用户向电子设备准确地提供输入。类似地，如果用户正在头戴式显示器上观看电影，则在某些情况下，用户希望在观看电影期间不握持遥控器。本公开的实施例还允许与电子设备交互的额外方法。

根据本公开的实施例，情景语音命令是利用控制电子设备和与电子设备交互的补充方法的过程。情景语音命令包括与用户的眼睛焦点相关联的自然语言处理。情景语音命令还可以包括唇部读取，以进一步提高语音命令的准确性。

本公开的实施例利用眼睛跟踪、唇部读取或二者并结合诸如语音识别的自然语言处理来合并额外信息，以提供对给出的语音命令的改进和准确的理解。自然语言处理识别用户说出的词语，并将说出的词语与特定动作相关联。例如，当用户说出“增大音量”时，电子设备可以识别该命令并随后增大音量。眼睛跟踪涉及在用户观看显示器时跟踪用户的眼睛焦点(或注视)。眼睛跟踪可以识别显示器上用户感兴趣的区域。例如，当用户注视屏幕的特定区域(例如菜单图标)时，电子设备可以打开菜单而无需用户手动选择图标。唇部读取可以跟踪用户唇部的运动，并推导出与用户的语音命令类似的命令。当接收到的命令是有歧义的、不清楚的、含糊不清的、听不见的等时，唇部读取可以补充自然语言处理。此外，如果用户在不发出声音的情况下提供了听不见的命令(例如唇语)，则唇部读取可以代替自然语言处理。

根据本公开的实施例，情景语音命令通过向电子设备提供对用户说出的特定命令的更准确的理解来改善对电子设备的用户控制。例如，情景信息包括关于用户在显示器中具体观看的内容的信息。用户观看的内容的情景可以显著改善对模糊命令的自然语言处理。唇部读取的添加可以使用户仅凭移动其嘴部来静默地提供命令。当用户提供命令时，唇部读取也可以通过忽略无关的声音来改进自然语言处理。例如，在某些情况下，例如当用户处于噪声很大的环境中时，自然语言处理无法识别口语表达的命令。另外，自然语言处理可以结合语音识别来识别出说话者是用户，并且关注用户的词语，以防止外部噪声被误识别为是用户发出的语音。

本文所使用的情景语音命令不限于个人用途。也就是说，可以在各种位置和例如在商业、工业、教育和政府等行业中结合并使用这种实施方式。

本公开的实施例提供了可能不同地变化情景语音命令的情况。本领域技术人员将理解的是，可以在没有下面描述的一些具体细节的情况下实践本公开的实施例，并且的确将看到可以实践多种其他变型和实施例。

图1示出了根据本公开的示例***100。图1所示的***100的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用***100的其他实施例。

如图1所示，***100包括使***100中各个组件之间进行通信的网络102。例如，网络102可以在网络地址之间传送互联网协议(IP)数据包、帧中继帧、异步传输模式(ATM)信元或其他信息。网络102包括一个或更多个局域网(LAN)、城域网(MAN)、广域网(WAN)、诸如因特网的全球网络的全部或一部分、或者一个或更多个位置处的任何其他通信***。

网络102使各种服务器104与各种客户端设备106-116之间通信。服务器104可以表示一个或更多个服务器。每个服务器104包括可以为一个或更多个客户端设备106-116提供计算服务的任何合适的计算或处理设备。每个服务器104可以例如包括一个或更多个处理设备、一个或更多个存储指令和数据的存储器、以及一个或更多个促进通过网络102进行通信的网络接口。

每个客户端设备106-116表示通过网络102与至少一个服务器或其他客户端设备进行交互的任何合适的计算或处理设备。在该示例中，客户端设备106-116包括台式计算机106、移动电话机或移动手机108(诸如智能电话机)、个人数字助理(PDA)110、膝上型计算机112、平板计算机114和头戴式显示器(HMD)116。然而，***100中可以使用任何其他或额外的客户端设备。

在***100的各个实施例中，客户端设备106-116与网络102直接或间接地通信。例如，一个或更多个客户端设备106-116可以通过诸如蜂窝基站或eNodeB(eNB)的一个或更多个基站(未示出)与网络102通信。此外，一个或更多个客户端设备106-116可以通过诸如电气和电子工程师协会通信标准802.11(“IEEE 802.11”)无线接入点的一个或更多个无线接入点(未示出)与网络102通信。注意的是，这些仅用于说明，并且每个客户端设备可以直接地与网络102通信或通过任何合适的中间设备或网络间接地与网络102通信。例如，HMD 116可以直接或间接地与服务器104通信。再例如，HMD 116可以在不访问网络102的情况下通过有线连接与台式计算机106通信。

在某些实施例中，HMD 116安全且有效地向诸如服务器104或任何其他客户端设备106-114的另一设备发送信息。HMD 116能够跟踪用户的眼睛运动、跟踪用户的唇部运动、在显示器上显示内容、或其组合。例如，HMD 116可以包括多个相机传感器或运动传感器，以记录和跟踪用户的各种运动。在某些实施例中，跟踪相机能够以规则的预定时间间隔来跟踪用户的唇部或眼睛，例如，通过每五毫秒拍摄的图像捕获唇部或眼睛的位置。在某些实施例中，跟踪相机能够通过检测运动来以不规则的时间间隔跟踪用户的唇部或眼睛。需要注意的是，列出的时间仅是示例性的，并且可以利用其他时段。

尽管图1示出了***100的一个示例，但是可以对图1进行各种改变。例如，***100可以以任何合适的布置包括任何数量的每个组件。通常来说，计算和通信***具有各种配置，并且图1不将本公开的范围限制为任何特定的配置。尽管图1示出了可以使用在该专利文件中公开的各种特征的一个操作环境，但是这些特征可以在任何其他合适的***中使用。

图2示出了根据本公开的实施例的电子设备。图2所示的电子设备200的实施例仅用于说明，并且在不脱离本公开的范围的情况下可以使用其他实施例。电子设备200可以具有多种配置，并且图2不将本公开的范围限制为电子设备的任何特定实施方式。在某些实施例中，图1的客户端设备104-116中的一个或更多个客户端设备可以包括与电子设备200相同或相似的配置。

在某些实施例中，电子设备200是移动通信设备，诸如例如头戴式显示器(图1的HMD 116)。在某些实施例中，电子设备200是用户站、用户设备、无线终端、智能手机(例如或类似于图1的移动手机108)、移动设备(例如或类似于图1的PDA 110、膝上型计算机112或平板计算机114中的一种或更多种)、台式计算机(例如或类似于图1的台式计算机106)、平板电脑(例如或类似于图1的平板计算机114)。在某些实施例中，电子设备200是可与数据传输应用一起使用的移动通信设备，用于诸如捕获唇部运动和显示器上内容的眼睛焦点跟踪。电子设备200可以表示下面参考图3更详细讨论的一个或更多个跟踪***或一个或更多个图像处理设备。在某些实施例中，电子设备200可以提供所说出的词语的查找表。在某些实施例中，电子设备200可以通过各种计算机视觉(CV)处理或人工智能(AI)处理或二者来提供对象识别。

如图2所示，电子设备200包括天线205、通信单元210、发送(TX)处理电路215、麦克风220、以及接收(RX)处理电路225。在某些实施例中，通信单元210是通用通信接口，并且可以包括例如RF收发器、蓝牙收发器或WI-FI收发器、ZIGBEE、红外等。在本文中，无线通信接口210可以被称为“收发器”。电子设备200还包括扬声器230、处理器240、输入/输出(I/O)接口245、输入250、显示器255、存储器260、传感器265、唇部运动检测器270、以及眼睛焦点检测器275。存储器260包括操作***(OS)261、一个或更多个应用262以及唇部运动和眼睛焦点数据263。存储器260可以包括包含学习的词语和命令的语音识别字典。

通信单元210从天线205接收来自网络102(例如Wi-Fi、蓝牙、蜂窝、5G、LTE、LTE-A、WiMAX或任何其他类型的无线网络)的接入点(例如基站、WI-FI路由器、蓝牙设备)的传入的RF信号(例如蓝牙信号或Wi-Fi信号)。通信单元210将传入的RF信号下变频以生成中频或基带信号。中频或基带信号被发送到RX处理电路225，该RX处理电路225通过对基带或中频信号进行滤波、解码或数字化或其组合来生成处理后的基带信号。RX处理电路225将处理后的基带信号信号发送到扬声器230(例如用于语音数据)或发送到处理器240以进行进一步处理(例如用于web浏览数据或图像处理或用于这两者)。

TX处理电路215从麦克风220接收模拟或数字语音数据，或者从处理器240接收其他传出的基带数据。传出的基带数据可以包括Web数据、电子邮件或交互式视频游戏数据。TX处理电路215对传出的基带数据进行编码、复用、数字化或其组合，以生成处理后的基带或中频信号。通信单元210从TX处理电路215接收传出的处理后的基带或中频信号，并将该基带或中频信号上变频为通过天线205发送的RF信号。

处理器240可以包括一个或更多个处理器或其他处理设备，并执行存储在存储器260中的OS 261，以便控制电子设备200的整体操作。例如，处理器240可以根据公知的原理控制通信单元210、RX处理电路225和TX处理电路215的正向信道信号的接收和反向信道信号的发送。处理器240还能够控制唇部运动检测器270或眼睛焦点检测器275或这两者。处理器240还能够执行驻留在存储器260中的其他应用262，例如用于图像处理的一个或更多个应用。处理器240可以以任何适当的布置包括任何适当数量和类型的处理器或其他设备。例如，处理器240能够进行自然语言处理、语音识别处理、对象识别处理等。在一些实施例中，处理器240包括至少一个微处理器或微控制器。处理器240的示例类型包括微处理器、微控制器、数字信号处理器、现场可编程门阵列、专用集成电路、以及离散电路。

处理器240还能够执行驻留在存储器260中的其他过程和程序，例如通过提供语音和图像捕获和处理来接收、存储和实时指示的操作。处理器240可以根据执行过程的需要将数据移入或移出存储器260。在一些实施例中，处理器240被配置为基于OS 261或响应于从eNB或运营商接收到的信号来执行多个应用262。

处理器240还连接到I/O接口245，该I/O接口245向电子设备200提供连接到诸如客户端设备106-116之类的其他设备的能力。I/O接口245是这些附件与处理器240之间的通信路径。

处理器240还连接到输入250和显示器255。电子设备200的操作者可以使用输入250将数据或输入或其组合输入到电子设备200中。输入250可以是键盘、触摸屏、鼠标、轨迹球或其他能够用作用户界面以允许用户与电子设备200交互的设备。例如，输入250可以包括触摸面板、(数字)笔传感器、键或超声波输入设备。触摸面板可以例如通过电容方案、压敏方案、红外方案或超声波方案中的至少一种方案来识别触摸输入。在电容方案中，输入250能够识别触摸或接近。通过向处理器240提供额外的输入，输入250可以与传感器265、相机或麦克风(例如或类似于麦克风220)相关联。在某些实施例中，传感器265包括惯性传感器(例如，加速度计、陀螺仪和磁力计)、光学传感器、运动传感器、相机、压力传感器、心率传感器、高度计、以及呼吸传感器(例如麦克风220)等。输入250可以与唇部运动检测器270和眼睛焦点检测器275相关联。输入250可以包括一个或更多个用于眼睛和唇部运动检测的相机和用于接收可听见的语音命令的麦克风(类似于麦克风220)。输入250还可以包括控制电路。

显示器255可以是液晶显示器、发光二极管(LED)显示器、有机LED(OLED)、有源矩阵OLED(AMOLED)或其他能够呈现例如来自网站、视频、游戏和图像等的文本和图形的显示器。显示器255的大小可以设置成适合在HMD内。显示器255可以是单个显示屏幕或用于立体显示的多个显示屏幕。在某些实施例中，显示器255是平视显示器(HUD)。

存储器260连接至处理器240。存储器260的一部分可以包括随机存取存储器(RAM)，并且存储器260的另一部分可以包括闪存或其他只读存储器(ROM)。

存储器260可以包括永久性存储器(未示出)，该永久性存储器表示能够存储和促进信息(例如数据、程序代码或临时或永久的其他合适信息)的检索的任何结构。存储器260可以包含例如只读存储器、硬盘驱动器、闪存或光盘的支持数据的长期存储的一个或更多个组件或设备。存储器260还可以包含从唇部运动检测器270、眼睛焦点检测器275或一个或更多个图像捕获设备(例如传感器265)接收的唇部运动和眼睛焦点数据263。唇部运动和眼睛焦点数据263可以包含与每个图像中的对象相关联的跟踪点。唇部运动和眼睛焦点数据263可以包括语音识别训练数据、或学习到的词语的查找表或二者。

电子设备200还包括一个或更多个传感器265，其能够计量物理量或检测电子设备200的激活状态并将计量或检测到的信息转换为电信号。在某些实施例中，传感器265包括惯性传感器(例如，加速度计、陀螺仪和磁力计)、光学传感器、运动传感器、相机、压力传感器、心率传感器、高度计以及呼吸传感器(例如麦克风220)等。例如，传感器265可以包括一个或更多个(例如在耳机或电子设备200上的)用于触摸输入的按钮、相机、手势传感器、陀螺仪或陀螺仪传感器、气压传感器、磁性传感器或磁力计、加速度传感器或加速度计、握持传感器、接近传感器、颜色传感器、生物物理传感器、温度/湿度传感器、照度传感器、紫外线(UV)传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外(IR)传感器、超声传感器、虹膜传感器、指纹传感器等。传感器265还可以包括用于控制其中至少一个传感器的控制电路。传感器265可以用于确定电子设备200的方向和面对的方向以及地理位置。这些传感器265中的任何一个可以设置在电子设备200内，设置在被配置为保持电子设备200的耳机内，或者设置在耳机和电子设备200二者内(例如，在电子设备200包括耳机的实施例中)。

唇部运动检测器270被用作电子设备200的多模式接口。唇部运动检测器270包括例如相机的一个或更多个传感器，以检测和监视用户的嘴部和唇部。唇部运动检测器270可以利用基于图像的唇部和嘴部***。唇部运动检测器270监视用户的脸部的下部以检测移动、捕获移动、记录移动或其组合。唇部运动检测器270还可以跟踪用户的舌头的运动。在某些实施例中，唇部运动检测器270然后基于用户的嘴部的形状确定词语和短语。例如，唇部运动图像信号的数据可以被保存在唇部运动和眼睛焦点数据263中。处理器240还可以执行自然线性处理。处理器240可以基于自然语言处理来分析唇部的运动并且将特定的运动模式与用户说出的话相关联。唇部运动检测器270的自然语言处理和图像处理的组合通过与特定词语和短语相关联的特定运动，不断提高了从用户的唇部运动中推导出的含义的准确性。

眼睛焦点检测器275监视、跟踪和测量眼睛的位置，以识别眼睛在观看的位置。眼睛焦点检测器275可以利用基于视频的眼睛***。例如，当观察者注视某种刺激物(例如GUI)时，相机聚焦在一只或两只眼睛上并记录每只眼睛的运动。在某些实施例中，利用相机和IR或近红外光源(例如非准直光)的眼睛焦点检测器275可以检测从角膜或眼睛的另一部分反射的光。眼睛焦点检测器275然后可以推导出瞳孔的中心、光源和光的反射之间的矢量。然后，矢量可以指示用户正在观看的位置。眼睛跟踪技术可以包括与眼睛的光路同轴放置的光源，或者光源偏移的光源。

尽管图2示出了电子设备200的一个示例，但是可以对图2进行各种改变。例如，图2中的各种组件可以被组合、进一步细分或省略，并且可以根据特定需要添加附加组件。作为特定示例，处理器240可以被划分为多个处理器(例如，一个或更多个中央处理单元(CPU)、一个或更多个图形处理单元(GPU))，其中一个用于自然语言处理，一个用于语音识别处理。另外，尽管图2示出了被配置为移动电话机、平板电脑或智能手机的电子设备200，但是电子设备200可以被配置为用作其他类型的移动或固定设备。

图3示出了根据本公开的实施例的示例环境架构300的框图。图3示出了根据本公开的实施例的高层架构。图3所示的环境架构300的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用其他实施例。

图3示出了环境架构300的实施例，其中，头戴式显示器310与控制单元320相关联。头戴式显示器310可以被配置为类似于图1的一个或更多个客户端设备106-116中的任何一个，并且可以包括类似于图2的电子设备200的内部组件。控制单元320可以被包括为头戴式显示器310或独立设备的一部分。在某些实施例中，当控制单元320是独立设备时，控制单元320可以被配置为类似于图1的例如服务器104的一个或更多个客户端设备104-116中的任何一个，并且可以包括类似的图2的电子设备200的内部组件的内部组件。

在某些实施例中，控制单元320和头戴式显示器310可以通过类似于图1的网络102的网络互连。在某些实施例中，网络表示由一个或更多个网络互连的计算机的“云”，其中网络是利用集群计算机和组件在被访问时用作一个无缝资源池的计算***。在某些实施例中，网络与一个或更多个AI***连接，以辅助检测和确定情景语音命令。在某些实施例中，网络可以连接到诸如数据库的信息存储库，该信息存储库包含查找表并且包含与各种语音命令、唇部运动和用于基于用户的焦点执行各种命令的处理组件有关的信息。

头戴式显示器310是可以通过诸如显示器312之类的GUI来显示诸如文本、图像和视频之类的内容的电子设备。在某些实施例中，头戴式显示器310被佩戴在用户的头部或类似于图1的HMD 116的头盔的一部分上。在某些实施例中，头戴式显示器310是类似于图1的任何客户端设备106-116的诸如移动电话机108、平板计算机114的电子设备。头戴式显示器310可以显示虚拟现实(VR)、增强现实(AR)或混合现实(MR)或它们的组合。头戴式显示器310包括显示器312、嘴部相机314、眼睛相机316、麦克风318、以及振动传感器319。头戴式显示器310还可以包括扬声器、触觉反馈和其他反馈技术。

显示器312类似于图2的显示器255。在某些实施例中，显示器312是单个显示器。在某些实施例中，通过为每只眼睛装备单个显示器，显示器312是立体显示器的两个显示器。在某些实施例中，显示器312是例如可***的透明显示器，从而允许用户透视头戴式显示器310。

嘴部相机314类似于图2的唇部运动检测器270或传感器265。在某些实施例中，嘴部相机314是安置成捕获用户的嘴部的运动的单个相机。例如，嘴部相机314可以在头戴式显示器310的外表面上。嘴部相机314可以包括与彩色相机相似的捕获传感器，诸如红绿蓝(RBG)传感器、IR传感器(IR)、UV传感器、超声波传感器等。在某些实施例中，嘴部相机314是包括可以捕获RGB图像和IR图像这两者的单个传感器的相机。在某些实施例中，嘴部相机314包括两个或更多个相机。例如，一个相机可以在吊臂上以捕获特定角度的嘴部，而另一个相机安置在头戴式显示器310的底侧。在某些实施例中，嘴部相机314连续监视用户的嘴部是否运动。一旦检测到运动，该运动就被发送到控制单元320的唇部运动处理器322。

眼睛相机316类似于图2的眼睛焦点运动检测器275或传感器265。在某些实施例中，眼睛相机316是检测用户的眼睛焦点的单个相机和装置。例如，眼睛相机316可以被放置在头戴式显示器310的内表面上以观察用户的眼睛。在某些实施例中，眼睛相机316可以具有两个或更多个相机。例如，第一相机仅跟踪用户的右眼，第二相机仅跟踪用户的左眼。

麦克风318类似于图2的麦克风220。麦克风318接收诸如语音数据的声波，并将声波转换成电信号。从麦克风318接收的语音数据可以与自然语言处理器325相关联，以解释由用户命令的一个或更多个动作。麦克风318可以是类似于动态麦克风、电容式麦克风、压电式麦克风等的麦克风。

头戴式显示器310可以包括振动传感器319。振动传感器319可以类似于图2的传感器265。在某些实施例中，振动传感器319与嘴部相机314相关联，以在用户讲话时检测关于面部运动的附加信息。振动传感器319还可以检测用户是否在头戴式显示器310上轻击作为输入手势。在某些实施例中，从头戴式显示器310省略了振动传感器319。

控制单元320可以是连接到头戴式显示器310的独立设备，或者可以是头戴式显示器310的一部分。控制单元320包括唇部运动处理器322、眼睛焦点处理器324、自然语言处理器325、信息存储库326和情景分析器328。在某些实施例中，输入到控制单元320内的各个元件的时间是带有时间戳的。

唇部运动处理器322可以与嘴部相机314通信，并且可以类似于图2的唇部运动检测器270。唇部运动处理器322可以跟踪唇部、嘴部、舌头或其组合的运动。唇部运动处理器322基于用户的嘴部的形状和运动来推导出词语和短语。例如，嘴部相机314监视并检测用户的嘴部的运动。此后，唇部运动处理器322基于用户的嘴部的运动来推导出由用户给出的命令。因为该命令是基于用户的嘴部、唇部和舌头的运动而得出的，所以唇部运动处理器322生成的命令也被称为推导出的命令。推导出的命令可以类似于唇部读取。

眼睛焦点处理器324可以与眼睛相机316通信，并且可以类似于图2的眼睛焦点检测器275。眼睛焦点处理器324可以通过眼睛相机316跟踪用户的眼睛的运动，并将该运动与显示屏幕上的特定项目相关联。例如，当用户的眼睛停留在特定对象上时，用户聚焦在显示器312上的该特定对象上。在某些实施例中，眼睛焦点处理器324与显示器312相关联。例如，眼睛焦点处理器324可以解析在显示器312上显示的内容(例如，图像或视频)，以推导出所显示的内容的各种对象。因此，基于用户的眼睛的位置，眼睛焦点处理器324可以推断用户正在注视的焦点、对象或位置。例如，眼睛焦点处理器324可以确定眼睛聚焦在显示器上的坐标，并且解析在显示器312上显示的图像或视频以识别在所确定的坐标处或该坐标周围的对象。眼睛焦点处理器324可以解析在显示器312上显示的图像或视频，以识别(i)文本、(ii)图标、(iii)滑动控制器(诸如滚动机构)、(iv)超链接、(v)图像或视频中的人、(vi)地标、(vii)物体(object)等。眼睛焦点处理器324可以从显示器上的单个点来推断用户正在聚焦的对象。例如，如果用户正在聚焦显示器312上的单个区域，则眼睛焦点处理器324可以对单个聚焦点进行扩展以包括显示器312上显示的整个人、物体等。

自然语言处理器325允许用户通过声音和语音与头戴式显示器310交互。自然语言处理器325可以包括用于将用户的语音转换为可执行指令的自然语言处理器。自然语言处理器325允许用户通过与设备对话来控制头戴式显示器310。例如，用户可以说出命令，并且自然语言处理器325可以对声波进行推导并执行给出的命令。在某些实施例中，自然语言处理器325利用诸如语音生物识别之类的语音识别来基于用户的语音模式来识别用户，以便减少、过滤或消除不是用户发起的命令。

在某些实施例中，唇部运动处理器322与自然语言处理器325相关联，以将用户的嘴部的运动与说出的词语相匹配。例如，通过使嘴部的运动与说出的词语相协调，提高了自然语言处理器325的准确性。再例如，用户也可能无法听见地说出命令，并且即使当没有通过自然语言处理器325检测到语音命令时，唇部运动处理器322也能够推导出要执行的动作。在另一示例中，如果自然语言处理器325由于广泛的环境、周围或外部噪声而不能从用户那里推导出命令，则唇部运动处理器322可以确定用户是否讲话并推导出与其相关联的命令。

信息存储库326可以类似于图2的存储器260。在某些实施例中，信息存储库326可以类似于图2的唇部运动和眼睛焦点数据263。信息存储库326可以存储由图2的传感器265、嘴部相机314和眼睛相机316收集的数据。信息存储库326中存储的数据包括各种地理位置、从嘴部相机314和眼睛相机316捕获的视频和图片、以及能够在显示器312上显示的游戏、图像和视频。存储在信息存储库326中的数据可以包括各种学习到的命令。在某些实施例中，信息存储库326保持显示器312上最近聚焦的区域的日志以及位于眼睛焦点坐标处或附近的对象。例如，信息存储库可以基于时间戳的时间来保持眼睛焦点坐标。因此，如果用户提供命令，并且对象不再显示在显示器312上(例如各个图像帧连续变化的电影)，则情景分析器328可以查看图像片段的日志，并确定发出命令的主题。情景分析器328可以利用计算机视觉或对象识别、AI或其组合来识别眼睛焦点的主题。在某些实施例中，信息存储库326包括循环缓存区，该循环缓存区在时间阈值期间识别并存储用户的眼睛焦点的坐标。因此，如果在显示器312上描绘的内容在用户的命令的开始和结束之间改变，则信息存储库326的循环缓存区可以由情景分析器328检查并且用户注视的主题被分析以执行命令。类似地，如果显示器312上描绘的内容在用户命令开始之前改变，则信息存储库326的循环缓存区可以由情景分析器328检查，并且用户注视的主题被分析以执行命令。

情景分析器328通过将自然语言处理器325与从唇部运动处理器322和眼睛焦点处理器324生成的数据互连来执行情景分析，以确定期望的命令并按照用户的意图执行命令。在某些实施例中，情景分析器328仅确定命令的意图并将该命令传递给其他应用以执行该命令。在某些实施例中，情景分析器328确定意图并执行所确定的命令。情景分析器328基于用户正在观看的内容，结合口头表达的语音命令和唇部运动或其组合来确定要执行的各种动作。例如，情景分析器328能够通过利用用户正在观看的情景、或基于用户的唇部运动或这两者而确定在给出模糊的语音命令时执行的操作。也就是说，情景分析器328推导出用户正在观察或用户说出的主题的情景含义或其组合。情景分析器328可以通过用户正在观看的对象、用户说的话、或者用户的嘴部的运动或其组合来识别情景信息。

基于用户的眼睛焦点或唇部运动，可以结合语音命令或作为语音命令的替换来推导出补充情景信息。眼睛焦点可以通过减少或消除对诸如键盘、鼠标或遥控器之类的外部设备的使用来提高用户输入的选择过程的速度，并且通过检测头戴式显示器310的运动的运动传感器来减少用户输入。基于附加的情景信息，头戴式显示器310能够提供对用户命令的增强理解。用户的唇部运动生成推导出的命令，该推导出的命令可以用于确认接收到的语音命令。在某些实施例中，情景分析器328能够从用户的眼睛焦点或用户的唇部运动或其组合的情景中提取相关信息。

在某些实施例中，情景分析器328通过一个或更多个传感器(诸如，嘴部相机314、眼睛相机316、麦克风318或振动传感器319或其组合)来检测用户的命令。此后，为了解释给出的命令，情景分析器328执行(用于确认说话者的身份)语音识别、(通过自然语言处理器325的)自然语言处理、词语解析或从用户的唇部运动(通过唇部运动处理器322)推导出命令或其组合。为了确定对显示器312上显示的哪个部分或对象来应用命令，情景分析器328还可以通过眼睛焦点处理器324获得眼睛跟踪数据，以确定与显示器312上的其余内容有关的用户的眼睛焦点。

可以通过计算机视觉或AI来分析显示在显示器312上的眼睛焦点的对象，以识别用户的眼睛焦点的人或物体。如果该命令与识别人或物体有关，则情景分析器328可以将人或物体的身份传达给用户。情景分析器328可以覆盖人或物体的名称、提供音频标识、或者结合音频标识突出显示人或物体，或其组合。情景分析器328还能够提供补充信息，例如提供将提供关于所识别的物体或人的附加信息的源(例如，在线数据库、网站等)。

当执行语音命令时，情景分析器328利用眼睛焦点。当情景分析器328接收到可以以多种不同方式解释的语音命令、接收到难以理解的语音命令或检测到静默命令或其组合时，情景分析器328基于例如唇部运动处理器322、眼睛焦点处理器324或自然语言处理器325或其组合的辅助信息来调整原始命令。

如果显示了多个应用，则情景分析器328基于用户的眼睛焦点以及用于关闭应用的通用命令来识别要关闭的特定应用。也就是说，根据“关闭该应用”的命令，情景分析器328可以基于用户的眼睛焦点来识别特定应用，并关闭该应用。从而为歧义或模糊的命令提供场景。类似地，情景分析器328可以通过将语音命令与由唇部运动处理器322确定的推导出的命令进行比较来确认语音命令。

情景分析器328利用眼睛焦点来执行语音命令，例如识别要打开的特定应用。例如，根据“打开该应用”的命令，情景分析器328可以基于用户的眼睛焦点来识别特定应用的图标，并打开该应用。从而为提供歧义或模糊的命令提供场景。类似地，情景分析器328可以通过将语音命令与由唇部运动处理器322确定的推导出的命令进行比较来确认语音命令。

如果用户提供模糊的命令，则情景分析器328在忽略眼睛焦点的同时利用口语表达的命令。例如，如果在短时间的音频内容内给出了模糊的命令，则情景分析器328可以忽略眼睛焦点，并基于从音频内容推导出的情景来执行动作。在某些实施例中，情景分析器328从其他源(例如用户正在体验的内容)推导出情景。如果内容是电影或音乐，则情景分析器328可以识别类型。此后，情景分析器328提供适当的响应以保持用户观看的内容的气氛。例如，如果用户正在观看动作电影，则情景分析器328可以提供响应来减少对显示器312上显示的内容的任何干扰。再例如，如果用户正在观看恐怖电影，则情景分析器328可以通过在显示器上代替说话而提供一系列字幕来提供响应，以通过减少通过扬声器说出的响应来保持悬念水平。

情景分析器328利用眼睛焦点来执行非特定的语音命令，例如执行缩放或滚动功能。例如，在接收到“增加”的命令时，情景分析器328可以基于用户的眼睛焦点来识别并放大特定应用。类似地，在接收到“减小”的命令时，情景分析器328可以基于用户的眼睛焦点来识别并缩小特定应用。再例如，在接收到“向上滚动”或“向下滚动”的非特定命令时，情景分析器328基于用户的眼睛焦点来识别特定应用以执行向上、向下滚动动作。本示例提供给出的命令的情景。类似地，情景分析器328可以通过将“增加”、“减小”、“向上滚动”或“向下滚动”的语音命令与由唇部运动处理器322确定的推导出的命令进行比较来确认语音命令。

情景分析器328利用眼睛焦点来执行语音命令，例如激活某些控制按钮或对象。例如，在接收到“点击”、“进入”、“激活”等命令时，情景分析器328可以识别特定的图标、菜单按钮，并执行功能，从而为歧义或模糊的命令提供情景。类似地，情景分析器328可以通过将“点击”、“进入”或“激活”等的语音命令与由唇部运动处理器322确定的推导出的命令进行比较来确认语音命令。

情景分析器328利用眼睛焦点来执行语音命令以打开应用，然后执行与之相关联的各种功能。例如，当用户的眼睛焦点在电子邮件应用的图标上时，情景分析器328可以利用眼睛焦点来执行“打开该应用”的命令。此后，情景分析器328可以基于随后的语音命令和眼睛焦点情景来打开电子邮件应用，接着打开新电子邮件并口述消息。类似地，情景分析器328可以基于唇部运动处理器322确定的推导出的命令来确认语音命令。然后，用户可以开始口述电子邮件的内容。在某些实施例中，如果词语识别低于给出的词语的设定置信度，则在显示器312上显示可能的替换词语的列表。然后，情景分析器328可以基于眼睛对特定词语的聚焦来选择正确的词语。在某些实施例中，如果词语识别小于给出的词语的设定置信度，则情景分析器328可以通过唇部运动处理器322来利用推导出的词语。在某些实施例中，如果自然语言处理器325提供了情景分析器328确定不适当的词语，则情景分析器328通过唇部运动处理器322来使用推导出的词语。例如，如果用户是唇部运动处理器322推导出用户说“the sky is blue”而自然语言处理器325识别出用户说“the sky is glue”，则情景分析器328可以基于在给定实例中确定词语“blue”是比“glue”更合适的结果来使用推导出的命令而不是口语表达的命令。在某些实施例中，如果命令***了错误的词语，则用户可以关注特定词语，并且在显示器312上显示可能的替换词语的列表。然后，情景分析器328可以基于眼睛对特定词语的关注来选择正确的词语。此示例简化了用户界面，并最大程度地减少了口述字符时的错误。

再例如，用户可以在显示器312上提供与所识别出的对象、应用或个人有关的后续命令，或提供与感兴趣对象有关的单独命令。例如，在情景分析器328向用户提供初始响应之后，用户可以结合另一个命令来响应后续问题，该后续问题接收或拒绝附加服务。

在某些实施例中，情景分析器328与外语教育应用相关联。外语应用可以在听觉上说出词语，并向用户显示各种对象。用户必须注视与所说出词语相对应的对象。本示例将眼睛焦点用作用户界面技术。

通常来说，(通过眼睛焦点处理器324)确定显示器上的眼睛焦点、(通过自然语言处理器325)推导出语音命令和(通过唇部运动处理器322)推导出的命令都彼此相关联，使情景分析器328基于接收到的输入来确定要执行的各种动作。在某些实施例中，希望眼睛焦点、语音命令或推导出的命令不相关。

例如，用户可以手动停用语音命令功能，例如当用户在佩戴和操作头戴式显示器310的同时与另一个人进行对话时。用户可以发出诸如“语音关闭”之类的命令来禁用语音命令。因此，情景分析器328和自然语言处理器325都将不执行任何接收到的用户输入语音命令。当用户准备好重新使用语音命令时，用户可以说出简单的命令，例如“语音打开”。在某些实施例中，显示器312改变颜色、色调或显示指示语音命令状态的图标。如果显示器312是立体显示器，则可以改变一个或两个显示器的外观以指示唇部运动处理器322、眼睛焦点处理器324、自然语言处理器325或情景分析器328或其组合的状态。在某些实施例中，禁用和启用语音命令的命令是可定制的。在某些实施例中，禁用和启用语音命令的命令还基于用户的唇部运动来禁用和启用用于推导出命令的唇部运动处理器322。

再例如，用户可以通过唇部运动处理器322手动停用所推导出的命令功能。用户可以发出禁用和启用唇部运动功能的命令。在某些实施例中，显示器312改变颜色、色调或显示指示唇部运动处理器322的状态的图标，用于基于用户的唇部运动来推导出命令。如果显示器312是立体显示器，则可以改变一个或两个显示器的外观以指示环境架构300的一个或更多个元件的状态。当唇部运动被禁用时，情景分析器328被阻止使用唇部运动处理器322来推导命令。在某些实施例中，通过用户的唇部运动来禁用和启用推导出的命令，还基于用户的唇部运动来禁用和启用用于推导出命令的自然语言处理器325。

在另一示例中，用户可以在佩戴和操作头戴式显示器310时手动停用眼睛焦点功能。用户可以发出与用户的眼睛焦点无关的语音命令。用户可以发出诸如“跟踪关闭”之类的命令来禁用眼睛焦点。用户可以发出诸如“跟踪开启”之类的命令来重新启用眼睛焦点。当眼睛焦点被禁用时，情景分析器328和自然语言处理器325被阻止利用用户的眼睛焦点作为语音命令的输入。例如，如果用户正在观看电影并且接收电子邮件，则如果用户发出命令“不跟踪，删除”，则情景分析器328将恢复默认设置并删除电子邮件，而不是删除视频。在某些实施例中，显示器312改变颜色、色调或显示指示眼睛焦点状态的图标。如果显示器312是立体显示器，则可以改变一个或两个显示器的外观以指示环境架构300的一个或更多个元件的状态。在某些实施例中，禁用和启用眼睛焦点的命令是可定制的。

在某些实施例中，情景分析器328在没有明确的用户命令的情况下确定是否排除与用户的与语音命令有关的眼睛焦点以及推导出的命令。情景分析器328可以基于附加情景来确定用户的意图，并且要么不采取行动，要么采取期望的行动。在某些实施例中，情景分析器328在用户发出命令时分析环境声音。

当佩戴和操作头戴式显示器310的用户响应于听到头戴式显示器310外部的声音突然说出“怎么回事”时，情景分析器328可以在用户发出命令时分析环境声音以推导出命令时间附近的情景信息。如果情景分析器328确定该命令是对外部噪声的响应，则情景分析器328可以不理会用户的命令，无论该命令是口语表达的命令还是推导出的命令。

再例如，情景分析器328可以确定用户正在与另一个人进行对话，并且不理会眼睛焦点和用户的命令。再例如，如果用户在佩戴和操作头戴式显示器310的同时正在与另一个人说话，则情景分析器328可以识别出用户正在通话并且任何口语表达的命令与头戴式显示器310的操作无关。在某些实施例中，头戴式显示器310包括额外的外部传感器，例如包括使情景分析器328能够检测到另一个人的面向外部的相机。在某些实施例中，麦克风318检测其他人对用户的响应。因此，情景分析器328能够识别出用户正在对话中并且任何口语表达的命令与头戴式显示器310的操作无关，然后在对话发生时忽略或禁用语音命令。

再例如，情景分析器328可以通过唇部运动处理器322接收推导出的命令。如果推导出的命令是歧义的或不合理的，如果是通过与头戴式显示器310相关联的扬声器(例如扬声器230)播放的或者通过麦克风318检测到的歌曲，则情景分析器328可以确定用户是否正在假唱。此后，情景分析器328可以忽略任何推导出的命令。

再例如，当用户注视显示器312上描绘的对象时，当用户提供模糊或歧义的命令时，情景分析器328可以确定用户的意图。情景分析器328可以确定给出的命令不适用于用户注视的对象。例如，如果用户正在玩游戏，并在注视游戏中的某个元素的同时说出“购买50”。情景分析器328可以确定该元素不是为其购买了多个单位的物品。然后，情景分析器328能够利用情景来确定用户的意图。如果用户缺乏购买物品所需的游戏积分，则“购买50”命令还可以发起购买游戏中的五十积分，以允许用户购买物品。

再例如，当用户注视显示器312上显示的对象时，当用户提供模糊或歧义的命令时，情景分析器328可以基于先前接收的相似命令确定用户的意图。情景分析器328可以分析先前的命令以检测当前命令与先前的命令之间的相似性。在找到两个命令之间的相似性之后，情景分析器328可以执行相同的动作。

再例如，当用户注视显示器312上显示的对象时，当用户提供模糊或歧义的命令时，情景分析器328可以基于先前的眼睛焦点坐标来确定用户的意图。情景分析器328可以对关于显示器312上显示的过去内容的命令做出响应。例如，如果用户询问“刚离开的人是谁？”，则情景分析器328能够跟踪到先前的帧，以识别人或物体。在某些实施例中，信息存储库326维护图像片段的最近聚焦区域的日志。可以通过信息存储库326或循环缓存区来维护日志。因此，当给出与过去的帧有关的命令时，情景分析器328可以访问信息存储库326内的日志并使用计算机视觉、对象识别或AI等来识别物体或人，以确定命令的主题。响应于接收到与当前未在显示器312上显示的内容有关的命令，情景分析器328检查图像片段的最近聚焦区域的日志。例如，当用户通过头戴式显示器310观看电影时，聚焦于不在这一帧中的角色。然后，用户发出命令“那个演员是谁”、“刚离开屏幕的人是谁”、“他乘坐的是哪种汽车”、“我刚刚看到的是哪种汽车”等。然后，情景分析器328检查与图像片段耦合的最近眼睛焦点位置的日志。情景分析器328然后可以实现循环缓存区来在最后的帧中搜索用户的眼睛焦点，以识别与命令有关的对象。情景分析器328还可以利用图像识别、面部识别或二者。在某些实施例中，在用户观看电影时，在后台连续进行图像识别、面部识别或二者并且对对象进行分类。因此，如果在用户命令的开始和结束之间在显示器312上显示的内容改变或者用户的眼睛焦点改变，则情景分析器328可以基于用户的先前眼睛焦点来确定用户的意图。

在某些实施例中，通过唇部运动处理器322推导出的命令通过自然语言处理器325补充或替换口语表达的命令。在某些实施例中，情景分析器328能够从用户的唇部运动的情景中提取相关信息。基于唇部运动的附加情景信息，情景分析器328提供对从用户接收到的命令的增强理解。

例如，情景分析器328可以利用用户的唇部运动来确认给出的语音命令。这使得自然语言处理器325具有更高的准确率。例如，如果在头戴式显示器310上观看电影时用户说“那个演员是谁？”，则情景分析器328可以确认通过唇部运动处理器322推导出的短语和通过自然语言处理器325所捕获的短语之间的匹配。在某些实施例中，情景分析器328要求通过唇部运动处理器322识别的短语和通过自然语言处理器325识别的短语在指定阈值内匹配。

在某些实施例中，如果两个识别的短语在阈值内不匹配，则情景分析器328可以提示用户再次说出该短语。在某些实施例中，如果两个识别出的短语在阈值内不匹配，则情景分析器328可以执行通过唇部运动处理器322推导出的命令。例如，情景分析器328可以确定环境噪声水平超过阈值，并且因此忽略语音命令。在某些实施例中，如果两个识别出的短语在阈值内不匹配，则情景分析器328可以执行通过自然语言处理器325推导出的命令。例如，情景分析器328可以确定从唇部运动处理器322推导出的短语与用户的意图不一致。如果唇部运动处理器322推导出不连贯的短语，则情景分析器328可以忽略唇部运动。如果唇部运动处理器322推导出与显示器312上显示的内容无关的短语，则情景分析器328可以忽略唇部运动。例如，如果唇部运动处理器322在用户观看电影时推导出短语“打开”，而自然语言处理器325识别出命令“暂停”，则由于“打开”命令在这种情况下是有歧义的，所以情景分析器328将暂停该电影。相反，如果唇部运动处理器322在用户正在阅读电子邮件时推导出短语“打开”，并且自然语言处理器325识别出命令“暂停”，则由于在这种情况下该“暂停”命令有歧义，则情景分析器328将基于眼睛焦点打开电子邮件。

在某些实施例中，情景分析器328确定用户执行或发出了听不见的命令，例如静默命令。例如，用户可以简单地通过移动其嘴部发出命令，以形成词语而无需发出声音。即使没有发出口语表达的命令，情景分析器328也可以执行由唇部运动处理器322推导出的命令。

在某些实施例中，通过额外显示器与额外用户共享显示器312上显示的内容和通过眼睛焦点处理器324确定的眼睛焦点数据。例如，如果用户是电话会议的演示者，则用户可以将他或她的眼睛焦点分享给电话会议的参与者，以便参考特定的图或信息。在该示例中，演示者佩戴头戴式显示器310，并且听众在诸如监视器的显示器上观看演示。这使观众可以欣赏演示过程中演示者关注的对象。再例如，没有眼睛追踪能力的电话会议的参与者可以通过自然语言处理器325发出命令，例如引用该演讲者的焦点的“首字母缩略词是什么意思”。该命令可以针对情景分析器328，而不是电话会议的演示者。情景分析器328可以基于对呈现文档的情景分析向参与者提供答案，或者访问互联网以研究首字母缩略词，或者执行以上这两者以用于推导出所讨论的首字母缩略词的含义。

图4A示出了根据本公开的实施例的头戴式显示器的示例外部视图。图4B示出了根据本公开的实施例的用户佩戴的图4A的头戴式显示器405的示例轮廓视图。如图4A所示，头戴式显示器405、头带410可以是如图4B所示的相同元件或相似元件。图4A还示出了头带415，而图4B示出了头带416。图4A所示的环境400A和图4B的环境400B的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用其他实施例。

图4A示出了一实施例，其中头戴式显示器405可以被配置为类似于图1的一个或更多个客户端设备106-114中的任何一个，并且可以包括类似于图2的电子设备200和图3的头戴式显示器310的内部组件。在某些实施例中，头戴式显示器405还被配置为包括图3的控制单元320。头戴式显示器405包括头带410和415(以及图4B的头带416)、朝着用户的嘴部向下聚焦的唇部跟踪传感器420以及麦克风422。

头带410示出了两条带，这两条带水平地缠绕在头上以将头戴式显示器405固定在用户的面部上。例如，头带410围绕用户头部的右侧和左侧缠绕。头带410可以固定到头带415(和图4B的头带416)以进一步固定头戴式显示器405。头带410可以通过带扣、按扣、VELCRO、其他类似的紧固机构来固定。

头带415(和图4B的头带416)示出了缠绕在用户的头部顶部上以将头戴式显示器405进一步固定到用户面部的带。头带415(和图4B的头带416)可以通过诸如带扣、按扣、VELCRO、钩、扣等紧固件来固定。头带410可以固定到头带415(和图4B的头带416)以进一步固定头戴式显示器405。在某些实施例中，省略了头带415(和图4B的头带416)。

唇部跟踪传感器420固定到头戴式显示器405，并安置成捕获用户唇部的各种运动。唇部跟踪传感器420被配置为类似于图2的唇部运动检测器270，并且可以包括图3的嘴部相机314。在某些实施例中，唇部跟踪传感器420是能够跟踪唇部运动的图像传感器。图3的情景分析器328能够基于唇部运动更准确地理解用户给出的命令。例如，唇部跟踪传感器420捕获用户的唇部运动，以允许图3的情景分析器328识别由用户的唇部和嘴部的运动形成的词语。在某些实施例中，唇部跟踪传感器420基于解释用户的唇部、面部和舌头的运动来理解语音。

唇部跟踪传感器420可以包括麦克风422。麦克风422可以类似于图2的麦克风220和图3的麦克风318。即使环境400A示出了固定在唇部跟踪传感器420上的麦克风422，麦克风422也可以固定在任何位置并与头戴式显示器405相关联以捕获用户说出的词语。

图4B示出了扬声器430。扬声器430表示安置在用户的耳朵上或附近的扬声器。在某些实施例中，扬声器430是用户一只耳朵的单个扬声器。在某些实施例中，扬声器430是安置在用户的每只耳朵上的一对扬声器。扬声器430将电信号转换为向用户的耳朵投射的可听声波。

图5A示出了根据本公开的实施例的头戴式显示器505的示例外部视图。图5B示出了根据本公开的实施例的如图5A所示的用户佩戴的头戴式显示器的示例轮廓视图。如图5A所示的头戴式显示器505、头带510、唇部跟踪传感器520和吊臂525与图5B所示的元件相同或相似。图5A还示出了头带515，而图5B示出了头带516。图5A所示的环境500A和图5B的环境500B的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用其他实施例。

图5A示出了一实施例，该实施例示出了头戴式显示器505可以被配置为类似于图1的一个或更多个客户端设备106-114中的任何一个，并且可以包括类似于图2的电子设备200的内部组件、图3的头戴式显示器310以及图4A和图4B的头戴式显示器405。在某些实施例中，头戴式显示器505还被配置为包括图3的控制单元320。头戴式显示器505包括头带510和头带515(以及图5B的头带516)、通过吊臂525连接的唇部跟踪传感器520以及麦克风522。

头带510示出了两条带，这两条带水平地缠绕在头部以将头戴式显示器505固定在用户的面部上。例如，头带510围绕用户头部的右侧和左侧缠绕。头带510可以固定到头带515(和图5B的头带516)以进一步固定头戴式显示器505。头带510可以通过诸如带扣、按扣、VELCRO、钩、扣等紧固件来固定。

头带515(和图5B的头带516)示出了缠绕在用户的头部顶部上以将头戴式显示器505固定到用户面部的带。头带515(和图5B的头带516)可以通过带扣、按扣、VELCRO等来固定。头带510可以固定到头带515(和图5B的头带516)以进一步固定头戴式显示器505。在某些实施例中，省略了头带515(和图5B的头带516)。

唇部跟踪传感器520通过吊臂525固定在头戴式显示器505上，并安置成捕获用户唇部的各种运动。唇部跟踪传感器520被配置为类似于图2的唇部运动检测器270，并且可以包括图3的嘴部相机314。在某些实施例中，唇部跟踪传感器520是能够跟踪唇部运动的图像传感器。图3的情景分析器328能够基于唇部运动更准确地理解用户给出的命令。例如，唇部跟踪传感器520捕获用户的唇部运动，以允许图3的情景分析器328识别由用户的唇部和嘴部的运动形成的词语。在某些实施例中，唇部跟踪传感器520基于解释用户的唇部、面部和舌头的运动来理解语音。

吊臂525是从头戴式显示器505延伸的延伸元件，其用于向唇部跟踪传感器520提供经由用户面部的正面捕获用户的嘴部的能力。在某些实施例中，吊臂525是可调节的。吊臂525可以安置唇部跟踪传感器520以捕获用户的嘴部、唇部和舌头的运动，以使图3的情景分析器328能够准确地推导出用户说出的词语。

唇部跟踪传感器520可以包括麦克风522。麦克风522类似于图2的麦克风220和图3的麦克风318。即使环境500A示出了固定在唇部跟踪传感器520上的麦克风522，麦克风522也可以被固定到吊臂525或头戴式显示器505，以捕获用户说出的词语。

图5B示出了扬声器530。扬声器530表示安置在用户的耳朵上或附近的扬声器。在某些实施例中，扬声器530是用户一只耳朵的单个扬声器。在某些实施例中，扬声器530是安置在用户的每只耳朵上的一对扬声器。扬声器530将电信号转换为向用户的耳朵投射的可听声波。

图6A示出了根据本公开的实施例的头戴式显示器的示例内部视图。图6A示出了图4A的头戴式显示器405的内部视图。如图4A和5A所示的头戴式显示器405、头带410和510、头带415和515、唇部跟踪传感器420和麦克风422与如图6A所示的头戴式显示器605、头带610、头带615、唇部跟踪传感器620和麦克风622相同或相似。上面参考图4A、图4B、图5A和图5B详细描述了与头带610和头带615相关的描述。图6A所示的环境600A的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用其他实施例。

图6A示出了一实施例，该实施例示出了头戴式显示器605可以被配置为类似于图1的一个或更多个客户端设备106-114中的任何一个，并且可以包括类似于图2的电子设备200的内部组件和图3的头戴式显示器310。在某些实施例中，头戴式显示器605还被配置为包括图3的控制单元320。头戴式显示器605包括头带610和头带615、朝向用户的嘴部向下聚焦的唇部跟踪传感器620、麦克风422、显示器630A和630B、以及眼睛相机635A和635B。

唇部跟踪传感器620固定在头戴式显示器605上，并安置成捕获用户唇部的各种运动。唇部跟踪传感器620被配置为类似于图2的唇部运动检测器270，并且可以包括图3的嘴部相机314。在某些实施例中，唇部跟踪传感器620是能够跟踪唇部运动的图像传感器。图3的情景分析器328能够基于唇部运动更准确地理解用户给出的命令。例如，唇部跟踪传感器620捕获用户的唇部运动，以允许图3的情景分析器328识别由用户的唇部和嘴部的运动形成的词语。在某些实施例中，唇部跟踪传感器620基于解释用户的唇部、面部和舌头的运动来理解语音。

麦克风622类似于图2的麦克风220和图3的麦克风318。即使环境600A示出了固定在唇部跟踪传感器620上的麦克风622，麦克风622也可以固定在任何位置并与头戴式显示器605相关联以捕获用户说出的词语。

显示器630A和显示器630B示出了示例立体用户界面。显示器630A示出了为用户的左眼指定的显示屏幕。显示器630A是安置在头戴式显示器605内的向内显示器。显示器630A被配置为类似于图2的显示器255和图3的显示器312。在头戴式显示器605内的显示器630A可以是任何尺寸和形状。显示器630A能够显示图像、视频、文本、诸如可选择的图标的用户界面、或其组合。在某些实施例中，显示器630A是透明的以允许用户透视显示器，并且提供叠加在用户视觉上的增强现实。在某些实施例中，显示器630A可以是弯曲的，为用户提供更大的视野。

显示器630B类似于显示器630A。显示器630B示出了为用户的右眼指定的显示器。显示器630B是安置在头戴式显示器605内的向内显示器。显示器630B被配置为类似于图2的显示器255和图3的显示器312。在头戴式显示器605内的显示器630B可以是任何尺寸和形状。显示器630B能够显示图像、视频、文本、诸如可选择的图标的用户界面、或其组合。在某些实施例中，显示器630B是透明的以允许用户透视显示器，并且提供叠加在用户视觉上的增强现实。在某些实施例中，显示器630B可以是弯曲的，为用户提供更大的视野。

在某些实施例中，显示器630A和显示器630B是单个显示器。在某些实施例中，显示器630A和显示器630B是立体显示器。在某些实施例中，显示器630A和显示器630B各自显示不同的内容。例如，通过显示不同的图像，用户可以在同时观看两个图像时体验深度感知。

眼睛相机635A示出了被配置为指定用于用户的左眼的捕获用户的眼睛的相机，并且该相机与显示器630A相关联。眼睛相机635A与图2的眼睛焦点检测器275和图3的眼睛相机316相关联。眼睛相机635A能够捕获用户的眼睛的运动。在某些实施例中，当眼睛聚焦在头戴式显示器605内的显示器630A上显示的内容时，眼睛相机635A发射IR或近红外光源以捕获用户的眼睛的运动。基于所捕获的眼睛的运动，图2的焦点检测器275或图3的眼睛焦点处理器324或这两者能够推导出显示器630A上的眼睛所聚焦的区域，并且基于在显示器630A上显示的内容识别和确定眼镜所聚焦的对象。例如，眼睛相机635A捕获眼睛相对于显示器630A的位置，并且眼睛焦点处理器324基于显示器630A上显示的内容来确定眼睛所聚焦的对象。

眼睛相机635B类似于眼睛相机635A。眼睛相机635B示出了被配置为指定用于用户的右眼的捕获用户的眼睛的相机，并且该相机与显示器630B相关联。眼睛相机635B与图2的眼睛焦点检测器275和图3的眼睛相机316相关联。眼睛相机635B能够捕获用户的眼睛的运动。在某些实施例中，当眼睛聚焦在头戴式显示器605内的显示器630B上显示的内容时，眼睛相机635B发射IR或近红外光源以捕获用户的眼睛的运动。基于所捕获的眼睛的运动，图2的眼睛焦点检测器275或图3的眼睛焦点处理器324或这两者能够推导出显示器630B上的眼睛所聚焦的区域，并且基于在显示器630B上显示的内容来识别眼睛所聚焦的对象。例如，眼睛相机635B捕获眼睛相对于显示器630B的位置，并且眼睛焦点处理器324基于显示器630B上显示的内容来确定眼睛所聚焦的对象。

在某些实施例中，眼睛相机635A和眼睛相机635B可以是单个相机。例如，单个眼睛相机可能能够同时捕获和跟踪两只眼睛的眼睛运动。在某些实施例中，因为仅跟踪了一只眼睛，所以省略了眼睛相机635A或眼睛相机635B。

图6B示出了根据本公开的实施例的示例实现眼睛焦点检测。图6B示出了实现眼睛焦点检测的图6A的头戴式显示器605。图6B所示的环境600B中描绘的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用其他实施例。

眼睛相机635A在显示器630A上推导出用户的眼睛焦点的区域作为位置640A。位置640A基于用户的焦点而移动。如环境600B中所示，用户的眼睛焦点在显示器630A上显示的人的眼睛上。在某些实施例中，当用户的眼睛焦点改变时，位置640A连续地显示在显示器630A上。在某些实施例中，位置640A没有出现在用户界面上。图3的眼睛焦点处理器324和情景分析器328可以利用位置640A以从用户的一个或更多个命令中推导出情景。例如，如果用户发出命令“告诉我这个演员的名字”，则因为短语“这个演员”缺少情景，因此***无法提供响应。通过结合用户的眼睛焦点，情景分析器328可以将通用术语“这个演员”解释为位置640A。情景分析器328可以推导出在显示器630A上显示的内容以及用户正在观看的对象(例如位置640A)。情景分析器328然后可以提取显示器的包括位置640A的部分，执行面部识别、互联网搜索等，以识别该演员。然后，情景分析器328可以在位置640A处识别眼睛焦点的演员，并向用户提供响应。

类似地，眼睛相机635B将显示器630B上的眼睛焦点的区域推导为位置640B。位置640B基于用户的焦点而移动。如环境600B中所示，用户的眼睛焦点在显示器630B上显示的人的眼睛附近。在某些实施例中，当用户的眼睛焦点在整个显示器630B上移动时，位置640B连续地显示在显示器630B上。在某些实施例中，位置640B没有出现在显示器630B上。在某些实施例中，位置640A显示在显示器630A上，而显示器630B不显示用户的眼睛焦点，反之亦然。图3的眼睛焦点处理器324和情景分析器328可以利用位置640B从用户的一个或更多个命令中推导出情景。例如，如果用户发出命令“告诉我这个演员的名字”，则情景分析器328可以将通用术语“这个演员”解释为位置640B，即用户的眼睛焦点。然后，情景分析器328可以在位置640A和640B处识别眼睛焦点的演员，并向用户提供响应。位置640A和640B不需要分别与显示器630A和630B上的相同位置匹配。

图7示出了根据本公开的实施例的基于情景信息确定要执行的操作的示例方法。尽管过程700描绘了一系列顺序的步骤，但是除非明确地陈述，否则不应该从该顺序得出关于执行的特定次序、步骤或其部分串行而不是并行地或以重叠方式的执行，或描绘的步骤单独地而没有发生***或中间步骤的执行的推论。为了便于说明，针对图2的电子设备200和图3的环境架构300描述了基于情景信息确定要执行的操作的方法。然而，过程700可以与任何其他合适的***一起使用。

在框710，情景分析器328确定眼睛焦点的对象。在某些实施例中，情景分析器328识别在显示器上显示的各个对象。在某些实施例中，情景分析器328确定与显示器有关的眼睛位置。此后，情景分析器328可以识别眼睛焦点的对象。

在某些实施例中，可以在信息存储库中跟踪并保持眼睛的焦点。例如，如果眼睛焦点的对象在显示器上移动或完全离开显示器，则情景分析器328可以在提取情景信息时在稍后的分析中结合该对象。例如，如果用户正在观看电影并且汽车驶入和驶出显示器，则用户可以主张询问刚刚显示的汽车类型的命令。此后，情景分析器328可以利用所跟踪的眼睛焦点来确定问题是针对不再显示的对象的，并仍然提供响应。

在框712中，情景分析器328基于用户的唇部运动来推导出命令。在某些实施例中，情景分析器328基于分析唇部运动的模式来提取命令。例如，当形成特定词语时，用户的嘴部以特定的方式移动。因此，情景分析器328可以通过分析用户的唇部、舌头、嘴部、面部的运动(例如振动)或其组合来推导出用户说出的词语。

在框714，情景分析器328接收口语表达的命令。在某些实施例中，可以通过自然语言处理来接收口语表达的命令以解释用户的命令。通过自然语言处理，情景分析器328可以理解从用户接收的命令。在某些实施例中，为了确认说话者的身份，情景分析器328可以对接收到的口语表达的命令执行语音识别处理。例如，如果命令与用户识别生物特征不匹配，则情景分析器328可以忽略该命令。

在框716，情景分析器328从与用户的眼睛焦点、接收到的口语表达的命令、推导出的命令或其组合相关联的对象中提取情景信息。在某些实施例中，情景分析器328分析接收到的输入以提取可以为给出的命令提供情景的信息。情景分析器328可以保持与给定的命令有关的眼睛焦点的对象的日志。

在框718，情景分析器328确定期望的命令。例如，如果用户向命令提供通用术语，例如“打开此”、“那是谁”、“在此处放大”，则情景分析器328可以将眼睛焦点的对象与通用术语相关联，以确定期望的命令。再例如，如果情景分析器328无法理解口语表达的命令，则情景分析器328可以将推导出的命令替换为口语表达的命令。再例如，如果情景分析器328接收到歧义的命令，例如用户正在假唱或正在与他人交谈，则情景分析器328可以确定没有命令的意图。

在框720，情景分析器328执行期望的命令。例如，情景分析器328可以查找用户提出的问题。再例如，情景分析器328可以执行用户请求的功能。或者，如果情景分析器328确定没有命令的意图，则情景分析器328不执行任何动作。在某些实施例中，情景分析器328通知另一设备或***执行期望的功能。例如，情景分析器328可以指导网络浏览器搜索特定项目。

在本公开的实施例中，提供了包含计算机程序的非暂时性计算机可读介质。该计算机程序包括程序代码，该程序代码在被执行时使得至少一个处理器：接收请求以在显示器上显示包括对象的内容；确定显示器上的眼睛焦点的区域，并且将眼睛焦点的区域与对象相关联；接收口语表达的命令；基于检测到的唇部运动的集合推导出命令；从与眼睛焦点相关联的对象、接收到的口语表达的命令或推导出的命令中的至少一者中提取情景信息；基于口语表达的命令与推导出的命令的调以及提取出的情景信息来确定期望的命令；以及执行所确定的期望的命令。

该计算机程序还包括程序代码，该程序代码在由电子设备的至少一个处理器执行时，使得至少一个处理器：跟踪眼睛焦点的与显示器上的位置有关的位置；以及在显示器上保持与显示器有关的所跟踪的眼睛焦点的日志以及与所跟踪的眼睛焦点邻近的显示内容。

该计算机程序还包括程序代码，该程序代码在由电子设备的至少一个处理器执行时，使得至少一个处理器：响应于接收到命令，确定在显示器上显示的与眼睛焦点相关的内容已经改变，其中该命令是口语表达的命令或推导出的命令中的至少一者；以及搜索所跟踪的眼睛焦点的日志，以发现与接收到的命令相关联的对象和提取与对象相关联的情景信息，其中该对象与接收到的命令相关联。

该计算机程序还包括程序代码，该程序代码在由电子设备的至少一个处理器执行时，使得至少一个处理器：确定口语表达的命令和推导出的命令的调和低于阈值，在接收到口语表达的命令的时间或检测到唇部运动的时间中的至少一个时间附近，识别与眼睛焦点相关联的至少一个显示的对象；确定口语表达的命令或推导出的命令是否与显示器上显示的至少一个识别出的对象有关；在确定推导出的命令与显示器上显示的至少一个识别出的对象无关的情况下，基于提取出的眼睛焦点和口语表达的命令的情景信息来确定期望的命令；以及在确定口语表达的命令与显示器上显示的至少一个识别出的对象无关的情况下，基于提取出的眼睛焦点和推导出的命令的情景信息来确定期望的命令。

该计算机程序还包括程序代码，该程序代码在由电子设备的至少一个处理器执行时，使得至少一个处理器：识别口语表达的命令或非口语表达的命令的歧义术语；用从与所述眼睛焦点相关联的对象中提取出的情景信息替换识别出的歧义术语。

该计算机程序还包括程序代码，该程序代码在由电子设备的至少一个处理器执行时，使得至少一个处理器：确定口语表达的命令和推导出的命令的调和低于阈值，识别口语表达的命令或推导出的命令中至少一者中的歧义部分；确定一个或更多个替换命令以澄清与口语表达的命令或非口语表达的命令中的至少一者相关联的识别出的歧义部分；在显示器上显示一个或更多个替换命令；识别一个或更多个显示的替换命令中的一个显示的替换命令上的眼睛焦点；以及用针对眼睛焦点的命令来替换命令的歧义部分，以得出期望的命令。

尽管附图示出了用户设备的不同示例，但是可以对附图进行各种改变。例如，用户设备可以以任何合适的布置包括任何数量的每个组件。通常来说，附图不将本公开的范围限制为任何特定配置。此外，尽管附图示出了可以使用在该专利文件中公开的各种用户设备特征的操作环境，但是这些特征可以在任何其他合适的***中使用。

本申请中的任何描述均不应理解为暗示任何特定元件、步骤或功能是必须包含在权利要求范围内的必要元件。专利主题的范围仅由权利要求书限定。申请人将权利要求中的使用其他任何术语，包括但不限于“机构”、“模块”、“设备”、“单元”、“组件”、“元件”、“部件”、“装置”、“机器”、“***”、“处理器”或“控制器”理解为是指相关领域技术人员已知的结构。

尽管已经利用示例实施例描述了本公开，但可以向本领域技术人员建议各种改变和修改。本公开旨在涵盖落入所附权利要求的范围内的这些改变和修改。

Claims

1.一种用于控制头戴式显示器的多输入方法，所述头戴式显示器包括显示器、眼睛焦点检测器和唇部运动检测器，所述多输入方法包括：

在所述显示器上显示包括多个对象的内容；

利用所述眼睛焦点检测器确定所述显示器上的用户的眼睛焦点的位置；

在所述显示器上的所述多个对象中识别出位于所述用户的眼睛焦点的位置处或周围的第一对象；

接收口语表达的命令；

利用所述唇部运动检测器检测所述用户的唇部运动的集合；

基于检测到的唇部运动的集合来推导出命令；

从所述第一对象、接收到的口语表达的命令或推导出的命令中提取情景信息；

基于所述接收到的口语表达的命令与所述推导出的命令是否在阈值内匹配以及提取出的情景信息，确定期望的命令；以及

执行与所确定的期望的命令相对应的操作。

2.根据权利要求1所述的多输入方法，其中，识别所述第一对象包括：

跟踪所述眼睛焦点的与所述显示器上的位置有关的位置；以及

在所述显示器上保持与所述显示器有关的所跟踪的所述眼睛焦点的位置的日志以及在每一个所跟踪的所述眼睛焦点的位置附近的对象。

3.根据权利要求2所述的多输入方法，所述多输入方法还包括：

搜索所跟踪的所述眼睛焦点的位置的日志，以确定与所述接收到的口语表达的命令相关联的所述第一对象。

4.根据权利要求1所述的多输入方法，其中，所述第一对象是在所述显示器上显示的这样的对象，该对象与在接收到所述口语表达的命令的时间或检测到所述唇部运动的集合的时间中的至少一个时间附近的所述用户的眼睛焦点的位置相关联，

所述多输入方法还包括：

确定所述口语表达的命令和所述推导出的命令在所述阈值内不匹配，

确定所述口语表达的命令和所述推导出的命令之一是否与所述第一对象有关；

在确定所述推导出的命令与所述第一对象无关的情况下，基于所述第一对象和所述口语表达的命令利用提取出的情景信息来确定所述期望的命令；以及

在确定所述口语表达的命令与所述第一对象无关的情况下，基于所述第一对象和所述推导出的命令利用提取出的情景信息来确定所述期望的命令。

5.根据权利要求1所述的多输入方法，其中，确定所述期望的命令包括：

识别所述口语表达的命令的歧义术语；以及

用从与所述用户的眼睛焦点的位置相关联的对象中提取出的情景信息替换识别出的歧义术语。

6.根据权利要求1所述的多输入方法，所述多输入方法还包括：

识别所述口语表达的命令或所述推导出的命令中的至少一者的歧义部分；

确定一个或更多个替换命令，以澄清所述口语表达的命令或所述推导出的命令中的被识别为歧义的部分；

在所述显示器上显示所述一个或更多个替换命令；

识别所述一个或更多个显示的替换命令中的一个显示的替换命令上的所述用户的眼睛焦点的另外的位置；以及

基于所述用户的眼睛焦点的所述另外的位置，用所述替换命令来替换所述口语表达的命令或所述推导出的命令的歧义部分，以推导出所述期望的命令。

7.根据权利要求6所述的多输入方法，其中，接收到的口语表达的命令是听不见的，并且其中，基于所述推导出的命令和提取出的情景信息来确定所述期望的命令。

8.一种非暂时性计算机可读记录介质，其上记录有指令，所述指令在由处理器执行时使电子设备执行权利要求1至7中任一项的方法。

9.一种电子设备，所述电子设备包括：

显示器；

收发器；

存储器；

眼睛焦点检测器，所述眼睛焦点检测器被配置为检测所述显示器上的用户的眼睛焦点的位置；

唇部运动检测器，所述唇部运动检测器被配置为检测唇部运动的集合；以及

至少一个处理器，所述至少一个处理器与所述显示器、所述收发器和所述存储器连接，

其中，所述存储器存储指令，所述指令在由所述至少一个处理器执行时，使所述电子设备：

在所述显示器上显示包括多个对象的内容；

接收检测到的所述用户的眼睛焦点的位置；

接收口语表达的命令；

接收检测到的唇部运动的集合；

基于检测到的唇部运动的集合来推导出命令；

执行与所确定的期望的命令相对应的操作。

10.根据权利要求9所述的电子设备，其中，所述指令在由所述至少一个处理器执行时，使所述电子设备：

11.根据权利要求10所述的电子设备，其中，所述指令在由所述至少一个处理器执行时，使所述电子设备：

12.根据权利要求9所述的电子设备，其中，所述第一对象是在所述显示器上显示的这样的对象，该对象与在接收到所述口语表达的命令的时间或检测到所述唇部运动的集合的时间中的至少一个时间附近的所述用户的眼睛焦点的位置相关联，

其中，所述指令在由所述至少一个处理器执行时，使所述电子设备：

13.根据权利要求9所述的电子设备，其中，所述指令在由所述至少一个处理器执行时，使所述电子设备：

识别所述口语表达的命令的歧义术语；以及

14.根据权利要求9所述的电子设备，其中，所述指令在由所述至少一个处理器执行时，使所述电子设备：

在所述显示器上显示所述一个或更多个替换命令；

15.根据权利要求14所述的电子设备，其中，接收到的口语表达的命令是听不见的，并且其中，所述指令在由所述至少一个处理器执行时，使所述电子设备基于所述推导出的命令和提取出的情景信息来确定所述期望的命令。