CN107430870A

CN107430870A - 低功率语音命令检测器

Info

Publication number: CN107430870A
Application number: CN201680014560.XA
Authority: CN
Inventors: H·伯耶松; M·亚伯拉罕森
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-12
Filing date: 2016-01-07
Publication date: 2017-12-01
Also published as: WO2016142791A1; US20160267908A1; EP3268964A1; US9685156B2

Abstract

低功率语音命令检测方法使用音频监测装置以捕获声音。所捕获的声音在多个步骤中被分析以确定它是否满足关于声级、语音内容和可识别语音命令的多个标准。对于每个步骤，处理更加复杂且功率要求很高。第一步和后续步骤之间的阈值用于选通进一步的处理。基于分析结果动态地调节此阈值，以避免不必要的处理并提高***性能。

Description

低功率语音命令检测器

相关申请数据

本申请要求2015年3月12日提交的美国非临时申请No.14/656,079的优先权，其全部内容通过引用并入本文。

技术领域

本公开的技术总体涉及电子设备，并且更具体地，涉及用于在使功耗最小化的同时检测语音命令的装置和方法。

背景技术

诸如手机、相机、音乐播放器、笔记本等的电子设备越来越受欢迎。例如，移动电话除了提供与他人通信的手段之外，还提供了许多其它功能，例如文本消息、电子邮件、相机功能、执行应用程序的能力等。

诸如移动电话的电子设备的流行特征是它们识别话语并且基于所识别的话语执行动作的能力。优选地，这种话语识别功能总是被启用，不断地监听语音命令。然而，这种方法的问题在于，用于确定和解释语音命令的常规方法是非常耗电的。这导致了通常禁用话语识别功能的解决方案，并且当需要语音控制时，用户手动地启用话语识别功能。例如，通过启动应用程序(例如，GoogleNow)或按下按钮(例如，Sony Smartband Talk)。

对于计算密集且优选地作为云服务(例如，GoogleNow)执行的更智能的***(NLU，自然语言理解)，通常具有第一选通，该第一选通具有在不启用全部功能的情况下可以被检测的“关键字”。其示例包括谷歌即时服务中的“OK Google”。然而，即使关键字识别也消耗大量功率，因此并不总是被启用。

发明内容

根据本公开的设备和方法提供了低功率话语识别，其不需要来自用户的用于启用话语识别功能的活动输入。更具体地，可以连续启用(总是开启)的第以确定声音是否可以是话语。如果确定声音可能是话语，则能够启用第二阶段和可能的第三阶段来进一步分析检测到的声音以确定在声音中是否包括语音命令。

在第一阶段，在不对声音进行任何分析的情况下，丢弃低于动态设置的阈值级别的声音。与监测声级相关联的处理功率相对较低，从而消耗最小的电力。此外，通过根据本发明的新颖方面动态地设置阈值，可以在消耗最小功率的同时提高精度。如果声级超过动态设置的阈值，则启用第二阶段以确定声音是否包含话语还是仅是环境噪声。第二阶段可能比第一阶段更消耗功率，但是与第三阶段相比消耗功率较少。包括实际话语解释的第三阶段需要相对于第一阶段和第二阶段的更高的计算功率的量，并且可以本地或远程地(例如，作为云服务执行)执行。

当接收解释结果时，移动设备中的几个参数被更新，以便更好地区分第二处理步骤和第三处理步骤以及如何对从电池的其各自的功率耗尽的第二处理步骤和第三处理步骤执行未来的检测。

根据本发明的一个方面，一种电子设备，该电子设备包括：音频模块，所述音频模块用于捕获环境声音；语音命令检测模块，所述语音命令检测模块用于确定由用户提供的语音命令，所述语音命令检测模块被配置为：针对话语或环境噪声的存在，分析由所述音频模块捕获的声音超过第一声音阈值级别，以及基于对所捕获的声音的分析动态地调节所述第一声音阈值级别。

根据本发明的一个方面，一种用于检测语音命令的方法，该方法包括以下步骤：使用音频模块来捕获声音；针对在所捕获的声音中话语或环境噪声的存在，分析由所述音频模块捕获的声音超过第一声音阈值级别；以及基于对所捕获的声音的分析来动态地调节所述第一声音阈值级别。

为了实现前述和相关目的，该装置和方法包括以下在说明书中全面描述请求在权利要求中具体指出的特征，详细阐述的以下描述和附图示出了实施方式，这些实施方式是指示性的，但是，可以适当地采用本发明的原理的各种方式中的几种方式。

尽管在各附图/实施方式中描述和示出了各种特征，但是将理解，给定附图或实施方式的特征可以用在本发明的一个或多个其它附图或实施方式中。

附图说明

图1是示出根据本公开的可以实现低功率话语识别功能的***的示意图。

图2是根据本公开的实现低功率话语识别的电子设备的模块的示意性框图。

图3是示出根据本公开的实现低功率话语识别的示例性步骤的流程图。

图4是示出根据本公开的用于检测字词的可变阈值的触发序列。

图5是示出根据本公开的电子设备的模块以及各个模块的相对功率的框图。

具体实施方式

现在将参照附图描述实施方式，其中相同的附图标记始终用于表示相同的元件。将理解，这些数字不一定按比例。另外，关于一个实施方式描述和/或示出的特征可以在一个或多个其它实施方式中和/或与其它实施方式的特征组合或代替其它实施方式的特征以相同的方式或以类似的方式使用。

下面结合附图描述的是用于提供低功率话语识别的装置和方法的各种实施方式。虽然根据本公开的实施方式总体涉及电子设备领域，但是为了清楚和简单，在本说明书中概述的大多数实施方式在移动电话的背景下来描述。然而，应当理解，在移动电话的背景下描述的特征也可应用于其它电子设备。因此，本文档中描述的技术可以应用于能够进行声音检测或语音控制的任何类型的合适的电子设备，其示例包括移动电话、媒体播放器、游戏设备、计算机、寻呼机、通信器、电子记事簿、个人数字助理(PDA)、智能电话、便携式通信装置等。

根据本公开，话语识别功能可以在使功率最小化的同时持续为活动的。例如，第一步总是活动的，其中第一步是功率非常高效的。当接收到的音频很可能是话语命令时，启用后续步骤以确定所接收的音频中是否存在字词，并且确定这些字词是否与关键字对应。此外，自适应算法调节用于检测声音和/或话语的检测阈值，所述调节例如是基于检测到的音频的字词识别命中率/未命中率、和/或当检测到字词命中时的信噪比。下文将参照图3-图5来描述关于话语识别方法的其它细节。

首先参照图1和图2，示出了电子设备10。在一个实施方式中，电子设备10包括低功率话语识别功能12的被配置为持续地监测周围环境并且在消耗最小功率的同时将语音命令与环境噪声区分开来的至少一部分。在另一实施方式中，电子设备10可以与服务器14可操作地通信，服务器14包括低功率话语识别功能12的用于处理由电子设备收集的环境声音数据的至少一部分12a(低功率话语识别功能12的其余部分将在电子设备10中执行)。

下文将更详细地描述低功率话语识别功能12的其它细节和操作。低功率话语识别功能12可以至少部分地实现为驻留在电子设备10和/或服务器14中的并由电子设备10和/或服务器14执行的可执行代码。在一个实施方式中，低功率话语识别功能12可以是存储在计算机或机器可读介质上的一个或更多个程序。低功率话语识别功能12可以是独立的软件应用或形成执行与电子设备10相关的附加任务的软件应用的一部分。

通过下面的描述，描述了在消耗最小功率的同时持续地监测语音命令的示例性技术。将理解的是，通过对示例性技术的描述，描述了可以通过执行软件部分地执行的步骤。所描述的步骤是本领域普通技术人员可以编写代码以实现所描述的功能的基础。这样，为了简洁起见，省略了计算机程序列表。然而，所描述的步骤可以被认为是将对应的设备配置为执行的方法。此外，尽管低功率话语识别功能12可以根据实施方式在软件中实现，但是该功能也可以通过专用硬件或固件、或者硬件、固件和/或软件的一些组合来执行。

电子设备10可以包括显示器20。显示器20向用户显示使得用户能够利用电子设备10的各种特征的诸如操作状态、时间、电话号码、联系人信息、各种菜单等的信息。显示器20还可以用于可视地显示由电子设备10接收的和/或从电子设备10的存储器22中检索出的内容。显示器20可以用于向用户呈现图像、视频和其它图形，诸如照片、移动电视内容、互联网页面和与游戏相关联的视频。

键盘24提供各种用户输入操作。例如，键盘24可以包括允许输入字母数字信息(例如，电话号码、电话列表、联系人信息、笔记、文本等)的字母数字键、特殊功能键(例如，呼叫发送和应答键、多媒体播放控制键、相机快门按钮等)、导航和选择键或指示设备等。键或键状功能也可以被实现为与显示器20相关联的触摸屏。另外，显示器20和键盘24可以彼此结合地使用以实现软键功能。

电子设备10包括使得电子设备10能够与另一设备建立通信的通信电路。通信可以包括呼叫、数据传输等。呼叫可以采取任何合适的形式，例如但不限于，语音呼叫和视频呼叫。呼叫可以通过蜂窝电路交换网络进行，或者可以是网络电话(VoIP)呼叫的形式，该网络电话(VoIP)呼叫建立在蜂窝网络的分组交换能力上或另选分组交换网络(例如，通常被称为WiFi的IEEE 802.11或通常被称为WiMAX的与IEEE 802.16兼容的网络)上。数据传输可以包括但不限于接收流传输内容(例如，流传输音频、流传输视频等)、接收数据馈送(例如，推送的数据、播客、真正简易聚合(RSS)数据馈送)、下载和/或上传数据(例如，图像文件、视频文件、音频文件、铃声、互联网内容等)、接收或发送消息(例如，文本消息、即时消息、电子邮件消息、多媒体消息)等。该数据可以由电子设备10处理，包括将数据存储在存储器22中、执行允许用户与数据交互的应用、显示与数据相关联的视频和/或图像内容、输出与数据相关联的音频声音等。

在示例性实施方式中，通信电路可以包括联接到无线电电路28的天线26。无线电电路28包括用于经由天线26发送和接收信号的射频发送器和射频接收器。

无线电电路28可以被配置为在移动通信***30(图1)中操作。用于与移动无线电网络和/或广播网络交互的无线电电路28包括但不限于全球移动通信***(GSM)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用分组无线电服务(GPRS)、WiFi、蓝牙、WiMAX、手持数字视频广播(DVB-H)、综合业务数字广播(ISDB)、高速分组接入(HSPA)等以及这些标准的高级版本或任何其它合适的标准。将理解的是，电子设备10能够使用一个以上的标准进行通信。因此，天线26和无线电电路28可以表示一个或一个以上的无线电收发器。

***30可以包括通信网络32，该通信网络32具有用于管理由电子设备10设置并发往电子设备10的呼叫以及向电子设备10发送数据并从电子设备10接收数据且执行任何其它支持功能的服务器14(或多个服务器)。服务器14经由传输介质与电子设备10通信。传输介质可以是任何合适的设备或组件，例如包括通信基站(例如，蜂窝业务塔或“小区”塔)、无线接入点、卫星等。网络32可以支持多个电子设备10、16和其它类型的终端用户设备的通信活动。将理解的是，服务器14可以被配置为用于执行服务器功能的典型计算机***，并且可以包括被配置为执行包含体现服务器14的功能的逻辑指令的软件的处理器、以及用于存储这样的软件和相关数据库的存储器。在另选布置中，电子设备10可以与另一电子设备10(例如，另一移动电话或计算机)直接进行无线通信，并且没有中间网络。如所指出的，服务器14可以存储和执行低功率语音识别功能12。在另一实施方式中，电子设备10、16的通信活动可以由与执行低功率语音识别功能12的服务器14不同的服务器来管理。

电子设备10可以包括主控制电路34，该主控制电路34被配置为执行电子设备10的功能和操作的总体控制。控制电路34可以包括处理设备36，诸如中央处理单元(CPU)、微控制器或微处理器。处理设备36执行存储在控制电路34内的存储器(未示出)中和/或在诸如存储器22的单独的存储器中的代码，以便执行电子设备10的操作。例如，处理设备36可以执行实现低功率话语识别功能12的代码。存储器22可以例如是缓冲器、闪存、硬盘驱动器、可拆卸介质、易失性存储器、非易失性存储器、随机存取存储器(RAM)或其它合适的设备中的一种。在典型的布置中，存储器22可以包括用于长期数据存储的非易失性存储器和用作控制电路34的***存储器的易失性存储器。存储器22可以通过数据总线与控制电路34交换数据。也可以存在存储器22和控制电路34之间的附带的控制线和地址总线。

电子设备10还包括用于处理由无线电电路28发送和从无线电电路28接收的音频信号的声音信号处理电路38。联接到声音处理电路38的是使用户能够经由电子设备10听到声音和说话的扬声器40和麦克风42。在一个实施方式中，麦克风42包括单个麦克风，而在另一实施方式中，麦克风包括多个麦克风，例如位于电子设备10的前侧上的第一麦克风(或第一麦克风阵列)和位于电子设备10的后侧上的第二麦克风(或第二麦克风阵列)。无线电电路28和声音处理电路38各自联接到控制电路34，以便执行整体操作。音频数据可以从控制电路34被传送到声音信号处理电路38，以便向用户重放。音频数据可以例如包括来自存储器22所存储的并由控制电路34检索到的音频文件的音频数据，或者从移动无线电服务接收的诸如语音通信或流传输音频数据形式的音频数据。声音处理电路38可以包括任何合适的缓冲器、解码器、放大器等。

显示器20可以通过视频处理电路44联接到控制电路34，视频处理电路44将视频数据转换成用于驱动显示器20的视频信号。视频处理电路44可以包括任何合适的缓冲器、解码器、视频数据处理器等。视频数据可以由控制电路34产生，从存储在存储器22中的视频文件中检索到，从由无线电电路28接收的或通过任何其它合适的方法获得的输入视频数据流中获得。

电子设备10还可以包括一个或更多个输入/输出(I/O)接口46。I/O接口46可以是典型的移动电话I/O接口的形式，并且可以包括一个或更多电连接器。I/O接口46可以形成用于经由线缆将电子设备10连接到另一设备(例如，计算机)或附件(例如，个人免提(PHF)设备)的一个或更多个数据端口。此外，可以通过I/O接口46接收操作电力，并且可以通过I/O接口46接收对电子设备10内的电源单元(PSU)48的电池充电的电力。在没有外部电源的情况下，PSU 48可以提供电力以操作电子设备10。

电子设备10还可以包括各种其它部件。例如，***时钟50可以为诸如控制电路34和存储器22的部件计时。可以存在摄像头52以拍摄数字图片和/或动画。可以将与图片和/或动画相对应的图像和/或视频文件存储在存储器22中。在确定电子设备10的位置时可以涉及诸如全球定位***(GPS)接收器、伽利略卫星***接收器等的位置数据接收器54。诸如红外收发器和/或RF收发器(例如，蓝牙芯片组)的本地无线接口56可用于建立与诸如附件(例如，PHF设备)的附近设备、另一移动无线电终端、计算机或另一设备的通信。

再来参照图3，示出了实现在消耗最小功率的同时利用电子设备检测语音命令的示例性方法的逻辑操作。例如，可以通过执行低功率话语识别功能12的实施方式来执行示例性方法。因此，图3的流程图可以被认为是描绘由电子设备10、16中的一个执行的方法的步骤。虽然图3示出了执行功能逻辑块的特定顺序，但是执行块的顺序可以相对于所示的顺序而改变。此外，可以同时或部分同时地执行连续示出的两个或更多个块。也可以省略某些块。

在一个实施方式中，可以仅用便携式电子设备(例如，移动电话和膝上型计算机)来实现语音命令检测。在另一实施方式中，可以仅用某些类型的便携式电子设备(例如，移动电话)来实现语音命令检测。在又一实施方式中，可以使用便携式电子设备和相对固定的电子设备(例如，台式计算机、服务器等)两者来进行语音命令检测。

不管设备类型如何，用于语音命令的低功率检测的逻辑流程可以在块62中开始，在块62中，音频监测设备(例如，麦克风42或其它声音输入装置)捕获环境声音。优选地，采用数字音频捕获方法，但是应当理解，在不脱离本发明的范围的情况下，可以实现其它方法(例如，模拟捕获方法等)。

根据本公开，持续地实现环境声音的捕获，而不需要用户启用或禁用捕获功能。由于根据本公开的新颖方法的低功率性质，使功率最小化，因此相对于常规语音命令检测方法，“始终是活动的”特征对电池寿命的影响明显较小。虽然在优选实施方式中，声音捕获总是活动的(总是开启)，但在某些情况下，用户可能希望禁用该特征。在这方面，如果需要，可以提供配置设置以禁用连续捕获。另选地或另外地，可以自动启用和禁用声音捕获。例如，电子设备可以被配置为情境感知，使得电子设备知晓或可以检测口头命令的可能性非常低并因此禁用声音捕获的情况，并且确定何时口头命令的可能性非常高，由此启用声音捕获。这种情境感知例如可以包括在设备内的传感器或设备外的传感器连同一天中的时间一起可以确定用户何时睡觉的方法。

接下来，在步骤64中，将捕获的声音与声音阈值级别(也称为第一声音阈值级别)进行比较，以确定所捕获的声音是环境噪声还是可能包含话语。在这方面，确定所捕获的声音是否超过声音阈值级别。声音阈值级别可以与声音的振幅(强度)对应，并且可以例如以分贝来表示。如下面将更详细地描述的，声音阈值级别被动态地设置，并且可以根据预定标准来增大或减小。

如果在步骤64，所捕获的声音信号不大于声音阈值级别，则可以判定所捕获的声音仅仅是环境噪声，因此该方法返回到步骤62并重复。如本文所使用的，环境噪声被定义为电子设备10的环境中不是命令形式的用户话语的任何声音。这种环境噪声可以包括与人群相关联的声音(例如，随意的谈话、脚步声等)、音乐、汽车声音(例如，引擎噪音，喇叭等)、火车声音(例如，靠近或离开车站的列车等)、公告、或电子设备10的一般环境中的任何其它非用户命令声音。

注意，在阈值更新之后，一个人讲话可以被认为是噪音。例如，如果用户坐在火车上，并且用户旁边的某人正在与其他人通电话，则该算法可以初始地触发列车噪声之上的语音能量。在处理了几个命令并且命中率减小之后，将调整级别，使得即使这样的输入也被忽略。

继续参照步骤64，如果所捕获的声音信号大于声音阈值级别，则在步骤66和68，进一步分析该信号以确定在所捕获的声音中是否存在话语。例如，在一个实施方式中，可以对所捕获的声音信号执行滤波和/或频率分析。例如，可以通过(例如去除低频或高频声音但允许其余信号通过的带阻滤波器)去除与环境噪声相对应的频率和声能来对所捕获的声音信号进行滤波。

在另一实施方式中，使用从两个不同的麦克风或麦克风阵列(例如，位于电子设备10的前侧上的麦克风(或麦克风阵列))和位于电子设备10的后侧上的麦克风(或麦克风)阵列)获得的声音样本执行所捕获的声音信号的分析。然后将从第一麦克风(或第一麦克风阵列)获得的捕获声音信号与从第二麦克风(或第二麦克风阵列)获得的捕获声音信号进行比较，以便确定声音信号是否包括用户话语或仅是环境噪声。更具体地，如果两个捕获的声音信号表现出基本相同的声压和相位(各个参数之间的差小于对应的第一预定阈值)，则可以判定所捕获的声音信号将不是有效的命令，因此不需要进一步处理。如将理解的，可以基于电子设备的预期应用来调整第一预定阈值。在一个实施方式中，第一预定阈值为20％的差异，在另一实施方式中，第一预定阈值为10％的差异。然而，如果从麦克风中的一个获得的所捕获的声音信号表现出与从另一个麦克风获得的声音信号基本不同的声压和/或相位(各个参数之间的差超过第二预定阈值)，则可以判定所捕获的声音信号包括用户话语。同样，第二预定阈值的值可以是应用特定的。在一个实施方式中，第二预定阈值为10％的差异，在另一实施方式中，第二预定阈值为20％的差异。

如果在步骤68处理的声音信号被确定基本上为环境噪声，则该方法移动到块70，在块70中声音阈值增加了预定的值以使这样的环境噪声的捕获最小化。例如，当捕获的声音中的噪声分量超过所捕获的声音的预定百分比时，可以判定所捕获的声音包括环境噪声。在一个实施方式中，预定百分比是50％，在另一实施方式中，预定百分比是75％。将理解的是，预定百分比的值可以是应用特定的。除了提高声音阈值级别之外，还将可选的调节极限阈值级别(也称为第二声音阈值级别)增加与声音阈值级别的增加对应的量。如在下面的图4的讨论中将是显而易见的可以使用调节极限阈值级别来确定声音阈值级别何时被适当地设置。

在一个实施方式中，当声音信号的字词命中率超过第一预定阈值并且声音信号超过声音阈值级别时，声音阈值级别和调节极限阈值级别增加。声音阈值级别和调节极限阈值级别可以彼此成比例地增加(和减少)。优选地，比例关系是一对一的关系。在一个实施方式中，用于增加声音阈值级别的预定值和调节极限阈值级别基于在电子设备10的固件内设置的固定值。在另一实施方式中，预定值是用户可调谐的。例如，电子设备10的配置菜单可以包括与声音阈值级别调节对应的用户可调节增益值。用户可以调节增益值以提供最佳性能。在又一实施方式中，可以基于环境噪声、学习过程、频率分析等中的一个或更多个，在电子设备10和/或服务器14内计算预定值和/或增益值。

例如，可以基于当前阈值级别的百分比(例如，5％、10％、20％等)来增加声音阈值级别和调节极限阈值级别，或者其可以是加到当前阈值级别的预定值(例如，0.5dB、1dB等)。在一个实施方式中，基于字词命中率增加声音阈值级别和调节极限阈值级别。例如，如果捕获声音的字词命中率低，则这表明***正在捕获仅是环境噪声的明显声音。可以基于字词命中率来计算校正值并将校正值应用于声音阈值级别和调节极限阈值级别。在另一实施方式中，基于在捕获的声音中检测到的环境噪声的级别来增加声音阈值级别和调节极限阈值级别。例如，如果捕获的声音是从拥挤的/嘈杂的环境中获得的，则环境噪声可能会超过声音阈值级别很大的量。为了防止***检测到这种相对“大声”噪声，声音阈值级别和调节极限阈值级别可以增加与环境噪声的级别(音量)对应的量。

一旦已经调节了声音阈值级别和调节极限阈值级别，则该方法返回到步骤62并且重复。

如果确定所捕获的声音可能包括话语，则该方法返回到块72，然后该方法移动到步骤74，在步骤74中进一步进行处理以从捕获的音频中提取字词。从音频数据中提取字词是本领域公知的。因此，本文将不描述关于这种字词提取的细节。

一旦从捕获的声音提取出字词，则在步骤76，分析检测到的字词以确定它们是否包含关键字。关键字可以是与电子设备可执行的预定命令相关联的任何字词。关键字的非限制性示例包括“查找”、“搜索”、“呼叫”、“显示”、“播放”等。为了确定检测到的字词是否包含关键字，可以将每个检测到的字词与存储在数据库或其它存储装置中的字词进行比较。例如，如果发现检测到的字词被存储在关键字数据库中和/或在数据库中被识别为关键字，则可以判定检测到的字词是关键字。

移动到步骤78，如果没有标识关键字，则该方法移动到上述步骤70。然而，如果识别出关键字，则该方法移动到步骤80，并且电子设备基于该关键字执行命令(例如，发起呼叫、播放视频、打开电子邮件等)。

接下来在步骤82，重新评估声音阈值级别和调节极限阈值级别，以确定是否应该减小声音阈值级别和调节极限阈值级别。在一个实施方式中，当所捕获的声音超过声音阈值级别(包括或者可能包括话语)并且小于调节极限阈值级别时，可以减小声音阈值级别和调节极限阈值级别。在另一实施方式中，如果字词命中率相对低(例如，小于预定阈值级别)，则这可以指示声音阈值级别被设置得太高并且需要减小。类似地，如果字词命中之间的时段相对高(例如，大于预定的阈值级别)，则这也可以指示声音阈值级别被设置得太高。

如果确定声音阈值级别和调节极限阈值级别被设置得太高，则在块82，可以减小相应的阈值级别。阈值级别可以以与关于增加阈值级别所描述的类似方式减小。例如，可以基于在电子设备10的固件内设置的固定值(例如，当前阈值的固定百分比、固定差量等)、用户可调节增益、计算(所述计算是基于环境噪声、学习过程、频率分析、字词命中率等中的一个或更多个在电子设备10内执行的和/或由服务器14执行的)来减小声音阈值级别和调节极限阈值级别。

当在步骤82处理声音阈值级别和调节极限阈值级别时，该方法返回到步骤62并重复。

现在参照图4，用图形示出阈值级别的动态调节。更具体地，示出在一段时间内接收的麦克风信号90。最初，接收的麦克风信号90小于声音阈值级别92，因此不采取任何动作。该“空闲”时段与在图3中在步骤62和64之间可能发生的循环对应。

在第一区域94处，接收到的麦克风信号90超过声音阈值级别92并且小于调节极限阈值级别96，但是在初始分析时，没有发现接收信号90包含话语。因此，声音阈值级别92和调节极限阈值级别96增加预定值。虽然该示例示出了在每个检测事件之后进行调节，但是应当理解，可以暂停调节直到发生预定数量的事件为止。声音阈值级别的调节与图3中的步骤64、68和70对应。增加阈值的目的是使假触发最小化，由此节省功率。在区域98，麦克风信号90再次超过声音阈值级别92并且小于调节极限阈值级别96，但是在进一步分析后再一次发现没有包括话语，因此声音阈值级别92和调节极限阈值级别96再次增加预定的值(以使假触发最小化)。

在区域100处，麦克风信号90超过声音阈值级别92，并且刚好低于调节极限阈值级别96。在分析时，区域100中的信号90被认为包含话语，并且可以执行对信号的进一步分析以确定信号是否包括与关键字对应的字词。此外，由于信号96超过声音阈值级别，所以认为信号96包括话语但是没有超过调节极限阈值级别96，假如话语分析检测到有效命令，则减小声音阈值级别92和调节极限阈值级别96。在区域102，被认为包括话语的接收到的麦克风信号90超过了声音阈值级别92和调节极限阈值级别96两者。因此，如果话语包含有效的命令，则级别被适当地设置，且目前不必进行进一步调节。区域100和102处的阈值级别的调节与图3中的步骤68、74、76、78、80和82对应。如果区域100和102处的信号不包含有效命令，则应该将该信号解释为噪声，并且如果声音阈值级别92和调节极限阈值级别96未达到预定的最大值，则可以执行声音阈值级别92和调节极限阈值级别96的进一步增加。

如果在没有接收到超过声音阈值级别92和调节极限级别96两者的麦克风信号90的情况下经过了预定时段104，则将声音阈值级别92和调节极限阈值级别96减小预定值。减小各级别的目的是解决声音阈值级别92和/或调节极限阈值级别96被设置得太高并且因此没有检测到有效话语的可能情况。

参照图5，提供了示出根据本公开的可在语音命令检测器中使用的各种模块及它们的相对功耗等级的框图。更具体地，麦克风42可操作地联接到声能检测器模块110。除了从麦克风接收声音信号之外，声能检测器模块110还执行声音和调节极限阈值级别的动态阈值分割。声能检测器模块110可操作地联接到话语和噪声检测器模块112，该话语和噪声检测器模块112被配置为基于由声能检测模块110提供的动态声音和话语阈值来分析由麦克风42提供的信号。话语或噪声检测器模块112可操作地联接到关键字检测器模块114，该关键字检测器模块114确定是否有任何检测到的话语包括关键字。关键字检测器模块114将任何检测到的关键字提供给命令处理自然语言模块116，该命令处理自然语言模块116执行与任何检测到的关键字(直接或间接地)对应的命令。如图5所示，声能检测器模块的相对功率消耗水平显著低于速度或噪声检测器模块112的相对功率消耗水平，该速度或噪声检测器模块112进而具有明显小于关键字检测器模块114的相对功耗。注意，所示的数字仅是示例性的，并且根据具体应用可以存在其它相对功耗关系。

因此，根据本公开的装置和方法在没有经受明显功率耗尽的情况下，使得语音识别功能能够持续是活动的。

虽然已经示出和描述了某些实施方式，但是应当理解，本领域技术人员在阅读和理解本说明书之后将想到落入随附权利要求范围内的修改和变型。

Claims

1.一种电子设备，该电子设备包括：

音频模块，所述音频模块用于捕获环境声音；

语音命令检测模块，所述语音命令检测模块用于确定由用户提供的语音命令，所述语音命令检测模块被配置为：

针对话语或环境噪声的存在，分析由所述音频模块捕获的声音超过第一声音阈值级别，以及

基于对所捕获的声音的分析动态地调节所述第一声音阈值级别。

2.根据权利要求1所述的设备，其中，所述语音命令检测模块被配置为，当由第一麦克风捕获的声音的声压级和相位中的至少一个与由第二麦克风捕获的声音的声压级和相位之间的差异小于对应的第一预定阈值时，判定所捕获的声音是环境噪声。

3.根据权利要求1至2中的任一项所述的设备，其中，所述音频模块包括设置在所述电子设备的一个位置处的第一麦克风和设置在所述电子设备的不同位置处的第二麦克风，并且其中，所述语音命令检测模块被配置为将由所述第一麦克风捕获的声音的声压级和相位中的至少一个与由所述第二麦克风捕获的声音的声压级和相位中的对应的至少一个进行比较，并且当由所述第一麦克风捕获的声音的声压级和相位中的所述至少一个与由所述第二麦克风捕获的声音的声压级和相位中的所述对应的至少一个之间的差异超过对应的第二预定阈值时，判定所捕获的声音是用户话语。

4.根据权利要求1至3中的任一项所述的设备，其中，所述语音检测模块被配置为：

当所捕获的声音中的至少一个被确定为环境噪声，或者所捕获的声音的字词命中率低于第一预定命中率阈值时，增加所述第一声音阈值级别；以及

当所捕获的声音包括具有超过第二预定命中率阈值的字词命中的话语或经过了预定时段时，减小所述第一声音阈值级别。

5.根据权利要求1至4中的任一项所述的设备，其中，所述语音检测模块被配置为：

当所捕获的声音超过所述第一声音阈值级别并且所捕获的声音中的噪声百分比超过总共捕获的声音的预定百分比时，增加所述第一声音阈值级别；以及

当满足以下中的至少一项时，减小所述第一声音阈值级别：i)经过了预定时段或ii)所捕获的声音包括话语并且小于所述第二声音阈值级别，其中，所述第二声音阈值级别大于所述第一声音阈值级别。

6.根据权利要求5所述的设备，其中，语音检测模块被配置为当所捕获的声音包括话语并且超过所述第二声音阈值级别时，保持所述第一声音阈值级别和所述第二声音阈值级别。

7.根据权利要求1至6中的任一项所述的设备，其中，所述语音检测模块被配置为在话语识别方法中使用所捕获的声音以确定话语的存在。

8.根据权利要求7所述的设备，其中，所述语音检测模块被配置为分析所述话语以确定所述话语是否包括命令关键字。

9.根据权利要求1至8中的任一项所述的设备，其中，所述语音检测模块被配置为与针对所述第一声音阈值级别进行的调节成比例地调节所述第二声音阈值级别。

10.一种用于检测语音命令的方法，该方法包括以下步骤：

使用音频模块来捕获声音；

针对在所捕获的声音中话语或环境噪声的存在，分析由音频监测设备所捕获的声音超过第一声音阈值级别；以及

基于对所捕获的声音的分析来动态地调节所述第一声音阈值级别。

11.根据权利要求10所述的方法，其中，动态地调节所述第一声音阈值级别的步骤包括以下步骤：

当所捕获的声音包括具有超过第二预定命中率阈值的字词命中的话语或者经过了预定时段时，减小所述第一声音阈值级别。

12.根据权利要求10所述的方法，其中，动态地调节所述第一声音阈值级别的步骤包括以下步骤：

当满足以下中的至少一项时，减小所述第一声音阈值级别：i)经过了预定时段或ii)所捕获的声音包括话语并且小于第二声音阈值级别，其中，所述第二声音阈值级别大于所述第一声音阈值级别。

13.根据权利要求12所述的方法，该方法还包括以下步骤：当所捕获的声音包括话语并且超过所述第二声音阈值级别时，保持所述第一声音阈值级别和所述第二声音阈值级别。

14.根据权利要求10至13中任一项所述的方法，其中，分析所捕获的声音的步骤包括以下步骤：在话语识别方法中使用所捕获的声音以确定话语的存在。

15.根据权利要求14所述的方法，该方法还包括以下步骤：分析所述话语以确定所述话语是否包括命令关键字。

16.根据权利要求10至15所述的方法，该方法还包括以下步骤：当由第一麦克风捕获的声音的声压级和相位中的至少一个与由第二麦克风捕获的声音的声压级和相位中的对应的至少一个之间的差异小于对应的第一预定值时，判定所捕获的声音是环境噪声。

17.根据权利要求10至16中的任一项所述的方法，其中，所述音频模块包括设置在所述电子设备的一个位置处的第一麦克风和设置在所述电子设备的不同位置处的第二麦克风，并且其中，分析所捕获的声音的步骤包括：将由所述第一麦克风捕获的声音的声压级和相位中的至少一个与由所述第二麦克风捕获的声音的声压级和相位中的对应的至少一个进行比较，并且当由所述第一麦克风捕获的声音的声压级和相位中的所述至少一个与由所述第二麦克风捕获的声音的声压级和相位中的对应的至少一个之间的差异大于对应的第二预定阈值时，判定所捕获的声音是用户话语。

18.根据权利要求10至17中的任一项所述的方法，该方法还包括以下步骤：与针对所述第一声音阈值级别进行的调节成比例地调节所述第二声音阈值级别。

19.根据权利要求10至18中的任一项所述的方法，其中，所述方法是持续活动的。