CN107077847A

CN107077847A - 关键短语用户识别的增强

Info

Publication number: CN107077847A
Application number: CN201580059714.2A
Authority: CN
Inventors: A·W·洛维特
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-11-03
Filing date: 2015-11-02
Publication date: 2017-08-18
Anticipated expiration: 2035-11-02
Also published as: WO2016073321A1; US20160125879A1; KR102611751B1; US10262655B2; US11270695B2; EP3216024A1; JP2017536568A; CN107077847B; KR20220123153A; KR102541718B1; KR20170080672A; US20190237076A1

Abstract

提供了经由语音来增强用户识别的示例。一个示例方法包括：在计算设备上，经由包括声学传感器的一个或多个传感器来监视使用环境；经由来自声学传感器的数据来检测关键短语的表达；以及，基于来自声学传感器的所选数据并且还基于在与来自声学传感器的所选数据不同的时间收集的其他环境传感器数据，确定该关键短语由标识的用户说过的概率。该方法进一步包括，如果该概率满足或超过阈值概率，则在该计算设备上执行动作。

Description

关键短语用户识别的增强

背景

计算***可利用各种用户标识方法来允许对诸如用户账户信息、计算***上的文件、(诸)电子邮件账户、(诸)银行账户等个性化和/或机密信息进行访问。例如，用户可输入用户名称和口令来启动使用会话，并在该使用会话期间执行的动作可被假定为源自该用户。其他方法可涉及使用诸如说话者识别之类的生物测定方法，其涉及根据人的话音特性来标识该人。

概述

提供了经由语音来增强用户识别的示例。一个示例方法包括，在计算设备上，经由包括声学传感器在内的一个或多个传感器来监视使用环境，经由来自所述声学传感器的数据来检测关键短语的表达，以及基于来自所述声学传感器的所选的数据，并且还基于在与来自所述声学传感器的所选的数据不同的时间收集的其他环境传感器数据来确定所述关键短语由标识的用户说过的概率。该方法进一步包括，如果该概率满足或超过阈值概率，则在计算设备上执行动作。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。

附图简述

图1A和1B示出用于经由关键短语分析的用户识别的示例使用环境。

图2示出了解说用于经由关键短语检测来增强用户识别的示例方法的流程图。

图3示出了示例计算***的框图。

详细描述

本文中公开了涉及经由利用在语音输入中标识出的关键短语的话音标识的用户识别。语音输入可表现为特定单词、单词群组、声音(例如，笑声、咔哒声、或其他声学声音)(也被称为关键短语)接着为命令的形式。由此，将关键短语用于说话者标识可允许说话者被标识出并且计算***功能经由相同的表达被调用，这可提供直观和高效的用户体验。

然而，关键短语可能相对较短，诸如仅几个单词或甚至单个单词。由于关键短语所跨越的话音数据历时很小，存在错误拒绝和/或错误标识的风险。由此，公开的示例涉及用在与关键短语的表达不同的一个或多个时间处收集的环境上下文信息来增强基于关键短语的说话者识别。例如，执行话音标识的计算***可在关键短语的表达之前和/或之后收集附加声学数据。附加声学数据可被分析以确定通过话音标识所标识出的说话者在关键短语被表达之前或之后是否也在说话(或不在说话)。如果分析指示说话者在关键短语的表达之前或之后在说话，则可确定更有可能所标识的说话者确实说了关键短语。将理解，可通过感测设备检测到并可指示表达关键短语的人的身份的任何环境信息都可被利用。示例包括但不限于声学数据、图像数据(诸如，红外图像数据、可见图像数据、深度图像数据等)、位置数据、运动数据和嗅觉数据。

图1A示出了其中计算***可基于关键短语检测和环境上下文信息来执行用户识别的示例使用环境100。使用环境100在图1中被解说为办公环境，诸如会议室外面的走廊，其中计算***102显示空会议室安排。将理解所解说的使用环境是出于示例的目的被呈现的，而不旨在构成限制，并且所公开的示例可在任何其他合适的使用环境中被使用。

计算***102包括显示设备104和一个或多个传感器106。传感器106可包括用于感测数据以增强说话者识别过程的任何合适的传感器。作为非限制示例，传感器106可包括一个或多个声学传感器(例如，话筒或话筒阵列)和一个或多个图像传感器(例如，可见光相机、深度相机、红外相机等)。此外，使用环境100可包括位于计算***102远程的附加传感器。作为非限制示例，使用环境100可包括被配置成感测可用电子方式读取的标签(诸如RFID门禁卡)的邻近度的邻近度传感器(诸如RFID传感器114)。计算***102还可与具有附加传感器的一个或多个外部设备进行无线通信。例如，计算***102可与用户108和/或用户110的移动设备进行无线通信以获得GPS数据、运动数据和专用于该移动设备的其他数据。

计算***102还可通过网络111与其他计算***进行通信，诸如与包括用户账户信息(例如，雇员信息)的服务器112进行通信。这样的用户账户信息可包括标识每一用户的信息，诸如每一所识别的用户的话音模式数据、图像识别数据(例如，彩色图像、深度图像、红外图像等等)，以及其他标识信息(诸如，门禁卡信息)。以下结合图3来呈现关于计算***102的附加信息。

计算***102可被配置成响应于用户话音输入而执行各种动作。例如，如图1A所示，第一用户108可例如通过执行包括关键短语和命令的语音输入来请求使计算***安排第一用户和第二用户之间的会面。作为特定示例，第一用户108可说关键短语“HeyAssistant(嗨，助手)”，接着是命令“please book a meeting for today at 3pm for meand John for one hour(请为我和John预订今天下午3点达一个小时的会面”。计算***102可根据由传感器106接收的声学数据来检测关键短语，并使用该关键短语来识别作出命令的说话者的身份以确定要为谁订房间。例如，上下文环境数据可被用于将“John”标识为第二用户110。

然而，如以上所解释的，鉴于关键短语的简短性，计算***单单使用关键短语数据可能难以准确地标识出关键短语的说话者。这可增加假肯定或假否定标识的风险。因此，为了增加所确定的说话者的身份是正确的概率，计算***102可使用在关键短语的表达之前和/或之后收集的环境上下文数据来增强关键短语说话者标识。这样的环境数据可经由传感器106和/或经由***102外部的一个或多个计算***的传感器来收集。例如，传感器106所聚集的声学数据可被用于确定在关键短语的表达之前和/或之后在传感器106附近说话的人的身份。这可在关键短语被说时提供关于环境中的用户的身份的信息，并可由此增加关键短语是被那些人之一说的概率。作为另一示例，由传感器106聚集的图像数据可获得计算***102可用的图像信息以确定在关键短语的表达之前和/或之后出现在使用环境中的任何用户的身份。作为进一步示例，用户位置数据(例如，经由来自用户的移动设备的GPS传感器数据、经由RFID门禁卡等确定的)可被用于增强说话者标识过程。

环境上下文数据可被用于按任何合适的方式来增强关键短语说话者标识。例如，计算***102可使用环境上下文数据作为概率确定的输入。作为更具体的示例，传感器106所聚集的声学数据可被计算***102用来检测第一用户108在关键短语的表达之前和/或之后在说话(例如，第一用户108可能在表达关键短语之前已请求在显示设备104上查看天气报告)，这可增加第一用户108表达了关键短语的概率。在另一示例中，计算***102的图像传感器可检测到当关键短语被检测到时，第一用户108和第二用户110存在于使用环境100中，并且当关键短语被表达时，第二用户110仅路过计算***102(例如，图像信息可指示第二用户110在表达了关键短语后离开了该使用环境)。由此，相比于该数据不被考虑的情况，第二用户110表达关键短语的概率更低。

图2示出了描绘用于增强关键短语检测的方法200的示例的流程图。方法200可以由计算设备(诸如，图1的计算***102)来执行。在202，方法200包括用包括声学传感器的一个或多个传感器来监视使用环境。如上所述，任何合适的传感器可被使用，诸如位于计算设备上的传感器和/或位于计算设备远程的传感器。除了声学传感器以外，其他传感器的示例包括但不限于图像传感器、位置传感器和运动传感器。在一个示例中，一个或多个传感器可持续监视使用环境，而不管用户的存在、用户和计算设备之间的交互等。在其他示例中，一个或多个传感器可按较低功率模式操作，直到活动被检测到，并且随后在检测到某种触发活动(例如，运动和/或人在图像数据中的存在、人类话音在声学数据中的存在、经由邻近度传感器对最接近的人的检测等)之际，按较高功率模式获得环境上下文数据。由一个或多个传感器收集的环境上下文信息可被存储在计算设备的存储器设备本地和/或被发送给远程设备。

在204，方法200包括根据所选的声学传感器数据来检测关键短语的表达。如以上所解释的，关键短语可被计算设备用于从一组可能的用户中标识某用户。此外，在一些示例中，关键短语的表达可后随有被配置成调用要由计算设备执行的动作的命令，其中该动作与标识的用户有关。将理解，关键短语可使用任何合适的语音分析流水线来检测。

在206继续，方法200包括如208所指示的基于来自声学传感器的数据来确定关键短语被标识出的用户表达的概率。在一些示例中，计算设备可能能够单独地基于关键短语来标识用户。然而，如果计算设备无法单独地基于关键短语来标识用户，或者如果较高概率标识被期望，则对收集到的数据的附加分析可被执行。由此，该概率还可基于在不同时间收集到的其他环境传感器数据来确定，如210处所指示的。

如以上参考图1描述的，其他环境传感器数据可包括在关键短语被表达之前和/或之后收集的声学数据。例如，计算设备可持续收集声学数据并将声学数据存储在缓冲器中。当关键短语被检测到时，计算设备可分析存储的声学数据，以得到与关键短语被标识的用户表达的概率有关的信息。这样的信息可包括但不限于在检测到关键短语的表达之前和/或之后的时间窗内(例如在几分钟内)，标识的用户是否在说话。

作为更具体的示例，计算设备可分析附加声学数据以确定计算设备已标识为可能表达关键短语的用户在该关键短语被表达之前或之后是否也在说话。如果该分析指示标识的用户在关键短语的表达之前或之后正在说话，则计算设备可增加该关键短语被标识的用户说的概率，而如果该分析指示标识的用户在关键短语的表达之前或之后不在说话，则计算设备可减小该关键短语由标识的用户说过的概率。

其他环境传感器数据还可包括在检测到关键短语的表达之前和/或之后收集到的图像数据。例如，图像信息可指示标识的用户在说关键短语之前和/之后是否在与计算设备相同的房间中。同样，其他环境传感器数据可包括从在计算设备远程的传感器处收集到的位置数据。例如，标识的用户可具有便携式计算设备，该便携式计算设备具有与该计算设备通信的位置传感器(例如，GPS)，并且位置数据可指示在关键短语被检测到之前或之后标识的用户位于哪里。这样的位置信息还可包括来自邻近度传感器的RFID数据或其他邻近度数据、标识的用户的日历信息(例如，标识的用户被排定在与计算设备相同的房间中吗)、和/或与位置有关的任何其他合适的数据。

作为更具体的示例，计算设备可基于用户的日历信息确定在关键短语的表达被检测到的时间期间用户是否被排定在给定使用环境(诸如，会议室)中。如果用户被排定在该使用环境中，则计算环境可增加关键短语由该用户说过的概率。另一方面，如果那个用户的日历信息指示该用户不被排定在该使用环境中，则计算设备可降低关键短语由那个用户说过的概率。

在一些实现中，环境数据可被分析以检测可被用作概率确定的附加输入的用户行为模式。例如，在声学数据被分析以确定在关键短语的表达之前用户是否正在说话的情况下，话音数据的分析可被用于确定标识的用户趋于说很多还是说很少。该信息可随后被用作概率确定的输入，使得关于用户在关键短语表达之前和/或之后是否说话了的信息可基于用户趋于多久说一次话来加权。可被用于对用户是否表达了关键短语的概率进行加权的进一步行为模式和/或环境数据可包括用户所在的环境。例如，用户可趋于在他或她的办公室比在会议室中说得更多，在会议室比在公园说得更多等等。在一个更具体的示例中，用户行为模式可由计算设备基于通过环境感测检测到的先前用户行为(例如，根据以上所述的由传感器收集到的数据)来确定。用户行为模式可包括用户趋于有多频繁地说话的测量，并且计算设备可基于标识的用户有多频繁地说话的测量来调整概率。例如，如果用户具有相对较低的平均频率他或她趋于说话，则该概率可被减小。

继续图2，方法200包括在212，将标识的用户表达了关键短语的确定的概率与阈值概率进行比较。阈值概率可以是指示标识的用户实际上表达了关键短语的期望置信水平的任何合适的阈值。在一些示例中，阈值概率可以是数字值(例如，0.95或95％)，而在其他示例中，阈值概率可以是所有可能的标识用户的排名(例如，如果该概率指示标识的用户具有所有可能用户的最高概率，则该概率可满足或超过该阈值)。将理解，不同的阈值可适用于不同类型的访问限制。例如，较高的阈值可适用于基于说话者标识授权对银行信息(banking information)的访问，而不是用于基于说话者标识来用特定用户简档发起视频游戏。

如果该概率满足或超过阈值概率，则方法200包括在214在计算设备上执行动作。动作可包括认证标识的用户，以便允许标识的用户访问计算设备和/或经由该计算设备访问个性化信息。此外，在一些示例中，关键短语的表达可后随有使计算设备执行特定动作(诸如安排会面)的命令。在这样的情况下，响应于该概率满足或超出阈值而执行的动作可包括执行标识的用户所命令的动作。

另一方面，如果该概率不满足或没有超出阈值概率，则方法200包括不执行该动作，如216处所指示的。然而，在一些示例中，不止一个用户可被标识为可能表达关键短语。由此，在218，方法200包括确定其他用户是否已被标识为可能表达关键短语。如果没有其他用户已被标识出，方法200可结束。如果有其他可能用户已被标识出，方法可循环回到206以确定一个或多个附加标识用户的概率。

如上所述的关键短语表达和标识用户概率的检测被描述为在关键短语正被定向到的计算设备上执行。然而，在一些示例中，环境传感器数据(包括声学传感器数据)可被发送到远程设备，且关键短语检测和用户标识由远程设备执行。原始设备可随后将标识的用户的指示发送给计算设备。

尽管如上所述的关键短语说话者识别利用声学数据，但将理解，关键短语检测可包括替换或附加的模态，诸如视觉模态。为了执行基于音频的标识，音频流的模版匹配可被执行，或者音频流的分析和与用户的模型的比较或与“并非该用户”的比较可被执行。该分析和概率确定可例如在计算设备本地执行，或者可在服务器远程执行。在一些示例中，输入音频流可在执行关键短语检测之前被调整(例如，噪声抑制或回音消除)。

在一个示例中，计算设备可持续地为收集的音频输入存储存储器的缓存，其中存储器在本地、在云中或在第二设备上。该设备可检测表达关键短语的用户。该设备可随后确定说了关键短语的用户，随后浏览历史，并确定该用户之前(在某个时间窗口中)是否在说话。如果如此，则用户说了关键短语的概率被增加。如果不是这样，则该概率被降低。这也可对历史中的其他用户执行，例如如果在(说话者标识***的)历史中存在三个用户，则检测到三个用户的概率全部都会增加，因为更有可能是这些用户中的任一者继续在讲话。在历史缓冲器中的位置(或在时间上与关键短语的接近度)也可被用来调整概率。

在以上示例中，用户讲话的概率可由在历史中用户的嘴巴在移动的视觉线索来增强。在一个示例中，用户既在历史中讲了话并且还讲了关键短语的联合概率由每一用户增强。例如，计算设备可将用户遍历该历史都在讲话并且讲了关键短语取为最高确定概率，随后在下一轮使用该概率来遍历整个音频流增强该用户的概率。这可继续，直到选择了清楚的赢家或者已经过了特定迭代次数。

在另一示例中，计算设备可位于会面正发生的房间中。计算设备检测关键短语，并随后分析音频历史以确定标识的用户是否正在该房间中讲话。如果不是这样，则计算设备可降低该用户已表达了该关键短语的概率。然而，关于该用户的元信息可指示用户很少讲话，并且因此该用户的概率可不被调整或者可被调整较小的量。学习该信息的能力可被实时(使用计算设备)或离线完成，并被存储为关于该会面、用户或场景的附加元数据。在其中可能用户是加入内部会面的外部方的场景下，机器学习可指示外部用户更有可能讲了很多话还是讲了很少话。该信息随后被馈送到说话者标识确定中以调整外部用户是否可能在讲话。同样，元信息可(基于用户的日历)指示用户应当在房间中，并且概率可被相应地调整。在一示例中，房间中的相机可标识或确认用户不在房间中，由此降低用户的概率或将用户完全从考虑中移除。

在又一示例，计算设备可检测关键短语，并且在确认用户正在讲话时，传感器历史可被用于更新用户的模型。例如，用户可能正(例如经由计算设备)与位于远程的用户讲话，并且用户可能说了关键短语。历史缓冲器随后具有关于用户何时在讲话的信息(通过音频和视觉线索)。这随后被拉出历史，并被用于更新用户的说话者标识模型。这在其中用户感冒了或者由于某种原因其话音不同了的情况下可能是有帮助的。该示例还可用于动态地标识新用户，或者可在用户改变了话筒时被使用，因为这可被实现来创建新模型或增强可在新设备上使用的当前话筒。

在另一示例中，计算设备可位于会议房间中记录会议。计算设备可仅包括音频传感器(并因此可不包括图像或其他传感器)。整个会议可被记录和离线处理。由于设备不知道谁在房间中，它可使用大说话者模型设置来分析记录。在查找关键短语时，设备可考虑用户的模型多久一次被评估为正确的在讲话的人。在一示例中，用户的模型可以是最高概率。然而，对前五分钟和下五分钟的分析可揭示该用户没有再次讲话。该***可随后降低那个用户针对那个关键短语的概率。该设备可随后分析前五分钟和将来的五分钟，并确定第二高概率用户在那个时间窗口内确实讲话了。该设备可随后以高可能性确定与最高概率用户相反，第二高概率用户可能在房间里。

计算设备可使用机器学习来确定在该环境中用户说了关键短语但在表达关键短语之前或之后没有说任何其他话的可能性，使得该设备在评估谁在关键短语期间讲话时可仅评估在关键短语之前和之后可能说话的那些用户。

在一些实施例中，本文中描述的方法和过程可以与一个或多个计算设备的计算***绑定。具体而言，这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。

图3示意性地示出了可执行上述方法和过程中的一个或多个的计算***300的非限制性实施例。以简化形式示出了计算***300。计算***300可采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其他计算设备。计算***102可以是计算***300的非限制示例。

计算***300包括逻辑机302和存储机304。计算***300可任选地包括显示子***306、输入子***308、通信子***314和/或在图3中未示出的其他组件。

逻辑机302包括被配置成执行指令的一个或多个物理设备。例如，逻辑机可被配置成执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其他逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个组件的状态、实现技术效果、或以其他方式得到期望结果。

逻辑机可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换，逻辑机可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核，且在其上执行的指令可被配置为串行、并行和/或分布式处理。逻辑机的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置成进行协同处理。逻辑机的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

存储机304包括被配置成保持可由逻辑机执行以实现此处所述的方法和过程的指令的一个或多个物理设备。在实现这些方法和过程时，可以变换存储机304的状态(例如，保存不同的数据)。

存储机304可以包括可移动和/或内置设备。存储机304可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。存储机304可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，存储机304包括一个或多个物理设备。然而，本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。

逻辑机302和存储机304的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上***(SOC)以及复杂可编程逻辑器件(CPLD)。

显示子***306可用于呈现由存储机302所保持的数据的视觉表示。此视觉表示可采取图形用户界面(GUI)的形式。由于本文所描述的方法和过程改变了由存储机保持的数据，并由此变换了存储机的状态，因此同样可以转变显示子***306的状态以视觉地表示底层数据的改变。显示子***306可包括使用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑机302和/或存储器机304组合在共享封装中，或者此类显示设备可以是***显示设备。

输入子***308可包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中，输入子***可以包括所选择的自然用户输入(NUI)部件或与其对接。这样的部件可以是集成式的或者是外设，并且输入动作的转换和/或处理可以在板上或板下处理。示例NUI部件可包括用于语音和/或话音识别的话筒310；诸如红外、色彩、立体显示和/或深度相机之类的用于机器视觉和/或姿势识别的图像传感器312；用于运动检测和/或意图识别的头部***、眼睛***、加速计和/或陀螺仪；以及用于评估脑部活动的电场感测部件。

通信子***314可以被配置成将计算***300与一个或多个其它计算设备可通信地耦合。通信子***314可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子***可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，通信子***可允许计算***300经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其他设备接收消息。

另一示例包括经由包括声学传感器的一个或多个传感器来监视使用环境；经由来自声学传感器的所选数据来检测关键短语的表达；基于来自声学传感器的所选数据并且还基于在与来自声学传感器的所选数据不同的时间收集的其他环境传感器数据，确定关键短语由标识的用户说过的概率；以及，如果该概率满足或超过阈值概率，则在计算设备上执行一动作。附加地或替换地，这样的示例可包括其中其他环境传感器数据包括声学传感器数据。在这样的示例中，其他环境传感器数据可附加地或替换地包括图像数据。这样的示例可附加地或替换地包括基于图像数据标识使用环境中的一个或多个人，并且其中确定概率包括至少部分地基于使用环境中的一个或多个人的确定的身份来确定该概率。在这样的示例中，其他环境传感器数据可附加地或替换地包括位置数据。在这样的示例中，位置数据可附加地或替换地包括来自邻近度传感器的邻近度数据。在这样的示例中，位置数据可附加地或替换地包括标识的用户的日历信息。这样的示例可附加地或替换地包括检测用户行为模式，并且其中确定概率包括至少部分地基于用户行为模式来确定概率。在这样的示例中，用户行为模式信息可附加地或替换地包括关于标识的用户多久说一次话的信息。以上描述的示例中的任何一个或全部可按任何合适的方式被组合在各实现中。

计算***的另一示例包括至少包括声学传感器的一个或多个传感器；逻辑机；以及存储机，所述存储机保持能由逻辑机执行来进行以下的指令：经由包括所述声学传感器的一个或多个传感器来监视使用环境；经由来自所述声学传感器的所选数据来检测关键短语的表达；基于来自声学传感器的所选数据并且还基于在与来自所述声学传感器的所选数据不同的时间收集的其他环境传感器数据，确定关键短语由标识的用户说过的概率；以及，如果所述概率满足或超过阈值概率，则在所述计算***上执行动作。在这样的示例中，其他环境传感器数据可附加地或替换地包括图像数据，并且其中所述指令可进一步被执行以基于所述图像数据标识所述使用环境中的一个或多个人，并至少部分地基于所述使用环境中的所述一个或多个人的确定的身份来确定所述概率。在这样的示例中，所述其他环境传感器数据可附加地或替换地包括位置数据，所述位置数据包括来自邻近度传感器的邻近度数据和标识的用户的日历信息中的一者或多者。在这样的示例中，所述指令可附加地或替换地被执行以基于所述日历信息来确定在关键短语的表达被检测到的时间期间标识的用户是否被排定在所述使用环境中，并且如果标识的用户被排定在所述使用环境中，则增加所述关键短语由标识的用户说过的概率。在这样的示例中，所述指令可附加地或替换地被执行以基于经由环境感测检测到的先前用户行为来检测用户行为模式，所述用户行为模式包括关于标识的用户说话有多频繁的信息，以及基于标识的用户说话的平均频率来确定所述概率。在这样的示例中，在来自声学传感器的所选数据不同的时间收集到的其他环境传感器数据可包括在关键短语的表达之前和/或之后收集的附加声学数据。在这样的示例中，所述指令附加地或替换地可被执行以确定关键短语由标识的用户说过的概率，分析该附加声学数据以确定标识的用户在关键短语被表达之前或之后是否也在说话，以及在标识的用户在关键短语被表达之前或之后也在说话的情况下，则增加关键短语由标识的用户说过的概率。在这样的示例中，所述指令附加地或替换地可被执行以在该分析指示标识的用户在关键短语的表达之前或之后不在说话的情况下，降低关键短语由标识的用户说过的概率。以上描述的示例中的任何一个或全部可按任何合适的方式被组合在各实现中。

另一示例提供一种计算***，包括：包括声学传感器的一个或多个传感器；处理器，所述处理器被配置成执行计算机可读指令；以及，包括存储在其上的指令的存储设备，所述指令可由所述处理器执行以：经由包括所述声学传感器的所述一个或多个传感器来监视使用环境；经由来自声学传感器的所选数据来检测后随有命令的关键短语的表达，所述关键短语被配置成标识用户，所述命令被配置成调用与所述用户相关的计算***动作；如果表达所述关键短语的用户的身份是基于来自所述声学传感器的所选数据来确定的，则在所述计算***上为标识的用户执行动作；如果表达所述关键短语的用户的身份不是基于来自所述声学传感器的所选数据来确定的，则基于在与来自所述声学传感器的所选数据不同的时间收集的其他环境传感器数据来确定所述关键短语由一个或多个可能用户表达的概率；以及，如果所述概率满足或超过所述一个或多个其他可能用户中的所选用户的阈值概率，则在所述计算***上为所选用户执行动作。在这样的示例中，所述指令可附加地或替换地被执行以基于经由环境感测检测到的先前用户行为来检测用户行为模式，并且其中确定所述概率包括至少部分地基于所述用户行为模式来确定所述概率。在这样的示例中，可被执行以检测所述用户行为模式的指令可包括可被执行以检测关于标识的用户多久说一次话的信息。以上描述的示例中的任何一个或全部可按任何合适的方式被组合在各实现中。

将会理解，本文描述的配置和/或方式本质是示例性的，这些具体实施例或本文示例不应被视为限制性的，因为许多变体是可能的。本文描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

本公开的主题包括各种过程、***和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其他特征、功能、动作、和/或特性、以及其任何和全部等效物。

Claims

1.在计算设备上，一种方法包括：

通过从包括声学传感器的一个或多个传感器接收数据来监视使用环境；

经由来自所述声学传感器的所选数据来检测关键短语的表达；

基于来自所述声学传感器的所选数据并且还基于在与来自所述声学传感器的所选数据不同的时间收集的其他环境传感器数据来确定所述关键短语由标识的用户说过的概率；以及

如果该概率满足或超过阈值概率，则在该计算设备上执行动作。

2.如权利要求1所述的方法，其特征在于，所述其他环境传感器数据包括声学传感器数据。

3.如权利要求1所述的方法，其特征在于，所述其他环境传感器数据包括图像数据。

4.如权利要求3所述的方法，其特征在于，进一步包括基于图像数据标识所述使用环境中的一个或多个人，并其中确定所述概率包括至少部分地基于所述使用环境中的所述一个或多个人的确定的身份来确定所述概率。

5.如权利要求1所述的方法，其特征在于，所述其他环境传感器数据包括位置数据。

6.如权利要求5所述的方法，其特征在于，所述位置数据包括来自邻近度传感器的邻近度数据。

7.如权利要求5所述的方法，其特征在于，所述位置数据包括标识的用户的日历信息。

8.如权利要求1所述的方法，其特征在于，进一步包括检测用户行为模式，并且其中确定概率包括至少部分地基于用户行为模式来确定概率。

9.如权利要求8所述的方法，其特征在于，所述用户行为模式包括关于标识的用户有多久说一次话的信息。

10.一种计算***，包括：

至少包括声学传感器的一个或多个传感器；

逻辑机；以及

存储机，所述存储机保持能够由所述逻辑机执行以进行下述步骤的指令：

经由包括所述声学传感器的所述一个或多个传感器来监视使用环境；

如果所述概率满足或超过阈值概率，则在所述计算设备上执行动作。

11.如权利要求10所述的计算***，其特征在于，所述其他环境传感器数据包括位置数据，所述位置数据包括来自邻近度传感器的邻近度数据以及标识的用户的日历信息中一者或多者。

12.如权利要求11所述的计算***，其特征在于，所述指令还可被执行以基于所述日历信息来确定在关键短语的表达被检测到的时间期间标识的用户是否被排定在所述使用环境中，并且如果标识的用户被排定在所述使用环境中，则增加所述关键短语由标识的用户说过的概率。

13.如权利要求10所述的计算***，其特征在于，所述指令还可被执行以基于经由环境感测检测到的先前用户行为来检测用户行为模式，所述用户行为模式包括关于标识的用户说话有多频繁的信息，以及基于标识的用户说话的平均频率来确定所述概率。

14.如权利要求10所述的计算***，其特征在于，在来自所述声学传感器的所选数据不同的时间收集到的所述其他环境传感器数据包括在所述关键短语的表达之前和/或之后收集的附加声学数据。

15.如权利要求14所述的计算***，其特征在于，为了确定所述关键短语由标识的用户说过的概率，所述指令还可被执行以分析所述附加数据以确定标识的用户在所述关键短语被表达之前或之后是否也在说话，

在标识的用户在所述关键短语被表达之前或之后也在说话的情况下，增加所述关键短语由标识的用户说过的概率，以及

在所述分析指示标识的用户在所述关键短语的表达之前或之后不在说话的情况下，减小所述关键短语由标识的用户说过的概率。