CN110832578A

CN110832578A - 可定制唤醒语音命令

Info

Publication number: CN110832578A
Application number: CN201880040797.4A
Authority: CN
Inventors: 王冬岩; 顾海松
Original assignee: Midea Group Co Ltd
Current assignee: Midea Group Co Ltd
Priority date: 2017-07-24
Filing date: 2018-06-06
Publication date: 2020-02-21
Anticipated expiration: 2038-06-06
Also published as: JP2020525850A; KR102293063B1; CN110832578B; EP3619707B1; EP3619707A1; US20190027138A1; EP3619707A4; JP6887031B2; US10504511B2; WO2019019812A1; KR20200012928A

Abstract

语音命令模块用于在包含多个家庭设备的居住环境中执行语音命令。语音命令模块包括语音识别模块和命令逻辑。语音识别模块从用户接收话语，以及将话语转换成来自预定命令词汇的命令，词汇包括用于将新唤醒话语定义为对应于唤醒命令的定制命令。命令逻辑执行命令。当接收定制命令时，命令逻辑改变语音命令模块，以便其现在当检测到新唤醒话语时执行唤醒命令。

Description

可定制唤醒语音命令

背景

技术领域

本公开大体涉及语音控制装置。

背景技术

基于语音的用户接口变得越来越普遍。基于语音的用户接口允许在人类和装置之间经由语音命令的自然沟通。使用语音命令的一个挑战在于，装置必须确定所检测到的语音是否为用于装置的语音命令。传统上，在给出语音命令之前，用户首先启用装置以接收语音命令。例如，用户按按钮或者点击图标，以触发装置使装置准备接收语音命令。然而，使用死板的非语音交互阻碍了用户体验。备选地，装置必须一直准备接收语音命令，这不是高效的。

发明内容

通过提供定制唤醒话语的功能，本公开克服了现有技术的限制。

在一个实施中，语音命令模块用于在包含多个家庭设备的居住环境中执行语音命令。语音命令模块包括语音识别模块和命令逻辑。语音识别模块从用户接收话语，以及将话语转换成来自预定命令词汇的命令，词汇包括用于定义对应于唤醒命令的新唤醒话语的定制命令。命令逻辑执行命令。当接收定制命令时，命令逻辑改变语音命令模块，以便其现在当检测到新唤醒话语时执行唤醒命令。语音命令模块还可以包括意图识别模块。意图识别模块识别用户的意图，以及基于识别的意图生成命令。命令触发家庭设备和/或命令中枢，以适当地响应于所识别的意图。家庭设备和/或命令中枢能够如用户已经发布命令那样响应。

其他方面包括部件、装置、***、改进、方法、过程、应用、计算机可读媒介和与上述中的任一点有关的其他技术。

附图说明

本公开的实施例具有其他优点和特征，当结合附图时，这些其他优点和特征将更容易从下文中的具体实施方式和所附权利要求显而易见，在所述附图中：

图1示出根据一个实施例语音控制居住环境的示例。

图2示出根据一个实施例配置可定制唤醒命令的示例过程。

图3示出根据一个实施例，使用如本文中所述定制的唤醒话语激活语音控制家庭设备。

图4是根据一个实施例，示出用作在图1中示出的实体中的一个或多个的示例家庭设备的高级(high-level)框图。

附图仅出于说明目的描绘各种实施例。本领域技术人员将容易从如下讨论认识到，在不脱离本文中所描述的原理的情况下，可以采用在本文中示出的结构和方法的替代实施例。

具体实施方式

附图和如下说明书仅以举例说明的方式涉及优选实施例。从如下讨论应当注意到，本文中公开的结构和方法的替代实施例将容易被认作在不脱离主张权利的原理的情况下可以采用的可行替代。

唤醒话语是用于触发装置以使装置准备执行命令的独特的单词或者短语。唤醒话语对应于唤醒命令。例如，用户说出唤醒话语连同另一语音命令，且装置通过唤醒(即，执行唤醒命令)并执行语音命令作为响应。通常，具体装置配置(例如，硬编码)有预定唤醒话语，以触发装置以使装置唤醒。这是因为，使用预定唤醒命令能够防止装置不可预见地响应。然而，因为这一点，用户不能选择用户特有的唤醒话语。如在下文中进一步描述地，本文中所描述的实施例允许用户定制唤醒话语。

图1示出根据一个实施例的语音控制居住环境的示例。在所示示例中，个人102说出“Gort，打开微波炉，高火60秒”以指示命令中枢104打开微波炉110。唤醒话语“Gort”已经通过个人102定制，且激活命令中枢104以处理个人的语音输入，以及响应于个人的语音命令。在检测到语音“Gort”之后，命令中枢104解释语音输入，识别命令“打开微波炉”，且通过打开微波炉110响应于命令。“命令中枢”在本文中也称为“中枢”。

中枢104不一直处于激活状态中。在低功率模式中(也称为待机模式或休眠模式)，中枢104的一个或多个模块和其他家庭设备处于关闭(off)状态。作为一个示例，在低功率模式中，除了检测唤醒话语和/或识别用户的意图，中枢104不能解释语音输入或者响应于命令。如本文中所述的，处于激活状态指的是中枢104处于将语音输入转换成来自命令词汇的命令以及然后执行命令的状态。当响应于命令，例如，在该示例中的“高火60秒”的命令时，中枢104可以要求来自用户的额外输入。

在图示示例中，中枢104通过家庭设备网络连接到其他家庭设备。其他家庭设备的示例包括照明设备105、电视106和其他音频/视频和娱乐装置、电动门窗用品107、用电家具或陈设、恒温器和其他环境控制器和暖通空调设备、冰箱109、微波炉110和其他厨房设备、浴室设备和家用机器人装置。在该示例中，中枢104与装置中的一个或多个分离，且能够经由网络(未示出)通信地联接到装置中的一个或多个。网络可以是使用多种技术实施的无线或者有线网络。

命令中枢104包括麦克风140、语音命令模块150、扬声器160。语音命令模块150包括唤醒检测模块152、语音识别模块154、命令逻辑156、命令存储器158、意图识别模块162和意图存储器164，所有这些都在下文中进一步描述。命令中枢104还可以包括一个或多个传感器(未示出)，诸如运动传感器、摄像机、CO₂传感器、指纹扫描器和/或阅读器、虹膜扫描器和/或阅读器等。传感器能够与命令中枢104分离，且通过家庭设备网络连接到命令中枢104。

麦克风140接收诸如用户的语音输入的音频输入，且将所接收的音频输入转换成电信号。用户对中枢104讲话，且麦克风140采集用户的话语。在休眠模式中，麦克风140仍然打开，且采集中枢104周围的声音。所采集的声音被缓存一定的时间段。中枢104还可以包括用于从用户接收输入的其他输入部件，诸如按钮、键盘、触屏、触摸屏、运动传感器或摄像机。

唤醒检测模块152识别唤醒话语。唤醒检测模块152采用语音或短语识别技术来解释语音输入，以检测唤醒话语。例如，唤醒检测模块152可以采用表征唤醒话语的模型。在一些实施例中，模型是基于声谱图。在其他实施例中，模型是表征由用户说出的一系列单音的单音模型。可以使用用户的唤醒话语的话语开发模型。此外，模型可以基于通用模型，该通用模型由用户使用诸如唤醒话语的话语的训练数据进行训练。唤醒检测模块152参考模型分析用户的语音输入，以检测用户是否已经说出唤醒话语。当唤醒检测模块152检测到唤醒话语时，唤醒检测模块152触发命令中枢104，以通过打开在低功率模式中关闭的一个或者多个模块而离开低功率模式。

在一些实施例中，唤醒检测模块152核实用户身份。命令中枢104仅响应于授权用户。也就是说，当身份未知的用户已经说出被授权用户用于激活中枢104的唤醒话语时，命令中枢104也不响应于该身份未知的用户。作为一个示例，对于具体的唤醒命令，仅当一个或者几个授权用户说出唤醒话语时，命令中枢104才响应。在其他实施例中，命令中枢104响应于说出特定唤醒话语的任何人。

唤醒检测模块152例如使用语音输入的特点核实用户的身份。作为一个示例，唤醒检测模块152确定通过麦克风输出的音频信号的声纹，以及比较所确定的声纹与和授权用户关联的声纹，以核实用户的身份。声纹包括表征个人的语音和话语的特点的特征。特征能够是瞬态特征或声谱特征。声学特征(例如，音调、频率、或语气)和/或讲话模式(例如，强调或者省略特定单音或者音节、在单音或者音节之间的停顿时间等)是示例特征。唤醒检测模块152使用诸如频率估测、隐马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表征、向量量化和决策树的技术确定和比较声纹。

在一些实施例中，唤醒检测模块152位于居住环境的地区中，且确定个人102是否位于该地区中或者接近该地区。如果个人102在该地区中，则唤醒检测模块152唤醒中枢104。在一些实施例中，唤醒检测模块152唤醒也在该地区中的家庭设备的组。地区对应于物理区域，且包括物理上位于该物理区域中的装置。在图示示例中，房子100被分成对应于厨房、卧室和客厅的三个地区120、122和124。厨房地区120包括冰箱109和微波炉110。客厅地区122包括电动窗上用品107。卧室地区124包括灯105和电视106。唤醒检测模块152确定个人102相对于命令中枢104的位置，且比较该位置与物理区域，以确定个人102是否在特定地区中。唤醒检测模块152可以使用诸如波束成形技术和/或飞行时间技术的多种技术来确定个人的位置。

在用户做出一些动作之前，意图识别模块162识别用户的意图以做出这些动作。如本文中所述地，用户的意图是用户很可能在预定时间段内做出的动作。例如，如果用户意图定制唤醒话语，则在用户请求定制唤醒话语之前，意图识别模块162识别用户的意图。作为另一示例，如果用户意图与命令中枢104交互，则在用户指示命令中枢104唤醒之前，意图识别模块162识别用户的意图。作为又一示例，如果用户很可能意图调整温度，则在用户调整温度之前，意图识别模块162识别用户的意图。

用户的意图能够使用从各种传感器接收的数据来确定，其中，各种传感器被包括在语音命令模块150中或者联接到语音命令模块150。意图识别模块162分析数据以确定用户的意图。在一些实施例中，数据被分析以检测事件，且用户的意图能够从所检测到的事件确定。在一些实施例中，用户的意图可以通过使用意图与事件的关联和/或与从传感器接收的数据的关联来确定。事件可以通过使用事件与从传感器接收的数据的关联来确定。关联包括可应用于全部用户的一般关联以及可应用于一个或多个特定用户的用户特有关联。用户的身份能够从传感器接收的数据确定。用户的身份能够从由摄像机采集的图像或视频，例如通过使用图像或者面部识别技术，来确定。用户的身份也能够从其如上文中所描述的声纹确定。用户的身份也能够从其指纹和/或虹膜确定。关联被存储在意图存储器164中。用户特有关联与用户一起存储。

例如，当检测到用户要伸手按按钮以配置新唤醒话语时，意图识别模块162确定用户很可能配置新唤醒话语。诸如摄像机和/或运动传感器的输出的数据被用于识别用户的意图。作为另一示例，当检测到用户已经进入一个空的房子时，意图识别模块162确定用户很可能与命令中枢104交互。诸如在入口处的摄像机、靠近门的运动传感器和/或麦克风的输出的数据被用于识别用户的意图。作为又一示例，当特定用户停留在房间中达15分钟时，意图识别模块162识别到用户很可能意图调整在房间中的温度和光照。诸如在房间中的运动传感器、CO₂传感器、麦克风和/或摄像机的输出的数据能够用于确定用户的身份和用户的意图。作为又一示例，当特定用户接近诸如空调的家庭设备时，意图识别模块162确定用户很可能与空调交互。诸如与空调在同一房间中的摄像机、CO₂传感器、麦克风和/或摄像机的输出的数据能够用于确定用户的身份和用户的意图。

意图识别模块162基于所确定的意图生成命令。命令触发命令中枢104和/或家庭设备，以对应于预期动作做出响应。如果用户做出了预期动作，则将生成命令。相应地，在用户确实做出预期的动作之前，命令中枢104和/或家庭设备就像用户已经做出了预期动作那样做出响应。命令也能够通过跟用户确认所确定的意图来触发命令中枢104和/或家庭设备作出响应。例如，如果用户很可能配置新唤醒话语，则意图识别模块162生成命令以触发命令中枢104，以询问用户是否想去配置新唤醒话语。作为另一示例，如果用户很可能想要与命令中枢104交互，则意图识别模块162生成唤醒命令。因此，如果用户说出命令而没有说出唤醒话语，则命令中枢104将响应于用户。作为又一示例，如果用户很可能要调整温度，则意图识别模块162生成命令，以根据用户的偏好调整温度。作为又一另外的示例，如果用户很可能想要与空调交互，则意图识别模块162生成命令以展示用户接口，该用户接口给用户展示相关选项，使得用户不需要手动触发空调做出响应。

语音识别模块154解释用户的话语以识别命令。其通常将话语转换成来自预定命令词汇的命令。在一个实施中，语音识别模块154识别在用户的话语中的单词，以便识别命令。命令存储器158存储话语和命令之间的关联。语音识别模块154可以采用大词汇量语音识别技术以解释用户的话语。与仅识别特定唤醒命令的唤醒检测模块152相比较，语音识别模块154执行更多的计算密集型操作。在一些实施例中，当装置在休眠模式中时，语音识别模块154关闭，且语音识别模块154仅当中枢104被激活时识别命令。由于唤醒命令可以在命令之前或者之后出现，所以当命令中枢104从休眠模式激活时，语音识别模块154处理先前缓存的用户的话语以及目前正在采集的用户的话语。在一些实施例中，语音识别模块154的功能可以完全或者部分通过云端服务提供。中枢104将用户的话语提供至提供云端服务的一个或多个服务器用于处理。

命令逻辑156从语音识别模块154和/或意图识别模块162接收命令以及执行命令。可能的命令中的一个是将新唤醒话语定义为唤醒命令的定制命令。默认唤醒话语可以是“计算机”，且现在用户想要将话语换成“Gort”。命令逻辑156执行用于用户的定制命令。当用户请求定制用于中枢104的唤醒话语时，用户说出定制命令，之后说出对应于唤醒命令的新唤醒话语。命令中枢104采集用户的话语。在一些实施例中，命令逻辑156从用户的话语识别新唤醒话语，且将新唤醒话语的表征存储在命令存储器158中用于未来的唤醒检测。

唤醒话语能够以不同方式定制。例如，不同的用户能够将命令中枢104配置成针对用户使用不同的唤醒话语。在一些实施例中，命令逻辑156将所识别的唤醒话语仅与执行设置以使用该唤醒话语的那些用户关联。例如，埃德蒙和哈里两人都使用“Gort”作为触发唤醒命令的话语，而迈克尔使用“Dolores”来触发唤醒命令。命令逻辑156将唤醒话语“Gort”与埃德蒙和哈里关联，而将唤醒话语“Dolores”与迈克尔关联。通过用户的独特的用户ID标识用户。备选地，命令中枢104可以配置成全部用户使用相同的(多个)唤醒话语。例如，如果迈克尔最近配置了中枢，则对于所有用户，唤醒话语可以是“Dolores”。备选地，“Gort”和“Dolores”两者都可以被检测为唤醒话语。

命令逻辑156可以产生表征唤醒命令的话语的模型，其被唤醒检测模块152用于识别唤醒命令。命令逻辑156可以获得表征唤醒话语的模型，该模型使用例如来自云端服务的训练数据离线训练。在一些实施例中，模型包括表征用户的唤醒命令话语的话语模型。唤醒话语模型包括表征用户的唤醒命令话语的特点的特征，诸如单音、单音序列、语音距离、音素、在音素之间的过渡、双音、三音和音节等。特征还可以包括如在下文中进一步描述的表征用户的语音的特点的特征。命令逻辑156可以使用用户的额外唤醒命令话语和/或更新训练数据更新模型。模型与用户关联且被存储在命令存储器158中。

在一些实施例中，命令逻辑156进一步开发用于用户的声纹。当用户讲话时，命令逻辑156产生用于用户的声纹。例如，命令逻辑156指令用户自由讲话(文本无关)或根据指派讲话(文本依赖)，以采集用户的语音和话语的特点。在一些实施中，在已经为用户创建声纹之后，命令逻辑156进一步使用当用户与命令中枢104交互时可用的额外样本更新声纹。

在一些实施中，命令逻辑156评估新唤醒话语是否很可能导致混乱。如果命令中枢104很可能无意被唤醒或者不太可能如用户所期望地唤醒，则唤醒话语很可能导致混乱。例如，被经常使用的、听起来与其他单词类似或者已经被用于表征不同命令的唤醒语音很可能导致混乱。在一个方法中，命令逻辑156基于诸如预定使用、使用频率或者语音相似程度的一个或者多个因素计算分数，以评估混乱的可能性。

通过查阅现有的命令能够确定预定使用。例如，如果“Gort”已经被编码为用于打开微波炉的命令，则将其用作用于命令中枢104的唤醒话语很可能导致混乱。能够从英语或其他语言的语料库或者从监测特定用户的使用确定使用频率。通过比较包括单词的部分音节的发音的单词发音与包括部分发音的其他单词的发音，能够确定语音相似程度。如果唤醒话语很可能导致混乱，则命令逻辑156警告用户，且在设置以使用唤醒话语之前与用户确认。可选地，如果唤醒话语很可能导致混乱，则命令逻辑156提示用户选择不同的唤醒话语。当用户请求更新唤醒话语时，命令逻辑156更新存储在命令存储器158中的唤醒话语。更新唤醒话语的过程与如上文所描述的创建唤醒话语的过程类似。

在一些实施例中，命令逻辑156检查所输入的单词是否是诋毁单词或者其他违禁单词，且提示用户使用不同的唤醒话语作为替代。

在一些实施例中，特定的命令中枢与特定唤醒话语关联。命令逻辑156将特定用户的唤醒话语存储在命令存储器158中。在一些实施例中，对于特定的命令中枢，不同的用户能够配置成使用不同的唤醒话语。命令逻辑156将唤醒话语与对应用户关联，且将唤醒话语和关联存储在命令存储器158中。

在一些实施例中，用户配置使得装置组被相同的唤醒命令激活。用户使用如上文所描述的过程配置装置组中的一个装置。在一些实施例中，命令逻辑156将唤醒命令与装置组关联。当中枢104本身唤醒时，中枢104触发以唤醒装置组中的其它装置，其中，可以通过例如发送唤醒信号其他装置来触发以唤醒其它装置。在一些实施例中，命令逻辑156将唤醒话语分配给装置组。装置组可以在同一地区中。用户能够配置成使唤醒组中的一个装置来唤醒组中的全部装置。当用户使组更新成包括新装置或移除现有的装置时，命令逻辑156将唤醒话语扩展至新装置或从被移除的装置移除唤醒话语配置。

返回图1，扬声器160输出声音至用户，从而指示诸如警告、警报、确认、指令等的不同意义。因此，用户经由语音与语音控制中枢104交互。命令中枢104可包括诸如显示器或振动元件的额外或替代输出接口。

在图示示例中，语音命令模块150在是独立装置的命令中枢104中实施。语音命令模块150及其部件还可以在移动装置(例如，智能手机、平板电脑或便携式电脑)、台式机或虚拟助理中实施。其还可以与诸如上文中描述的那些家庭设备集成或者被实施为诸如上文中描述的那些家庭设备。

图2示出根据一个实施例配置可定制唤醒命令的示例过程。埃德蒙102请求202设置或改变用于命令中枢104的唤醒话语。取决于装置的能力和配置，用户能够请求以多种方式设置唤醒话语。例如，用户发布语音命令“配置唤醒命令”，按按钮，或者点击在用户的手机上显示的“配置唤醒命令”。中枢104从埃德蒙102接收204请求。在一些实施例中，中枢104初始处于准备用于配置唤醒命令的状态中。例如，中枢104检查其是否连接到云端服务200，且如果没有，则识别用户的身份是否是已知的，且如果用户是未知的，则为用户指定用户1D等。中枢104发送206响应至埃德蒙，以指示中枢104准备好配置唤醒命令。响应能够是声音、光指示、振动、视觉显示和取决于中枢104的配置的其他形式。埃德蒙102说208“Gort”。在一些实施中，中枢104指导用户重复唤醒话语若干次。

中枢104接收210是埃德蒙的话语的语音输入。装置将所接收的语音输入发送212至云端服务200。如在下文中进一步描述地，云端服务200处理所接收的语音输入。在该示例中，云端服务200例如通过使用大词汇量语音识别技术识别214(多个)单词(例如，“Gort”)。云端服务200可以使用诸如隐马尔可夫模型、深度前馈神经网络或其他大词汇量语音识别模型的技术，以识别用户所讲的一个或者多个单词。云端服务200检查216任何单词是否已经被识别。

对于已经识别的单词，云端服务200计算218混乱的可能性，混乱反映命令中枢104被不可预见地激活或者不能被用户根据期望激活的可能性。如果唤醒话语已经被编码用于在其他命令中使用，或者在日常会话中经常使用，则使用该唤醒话语很可能不可预见地激活命令中枢104。如果唤醒话语听起来类似于其他单词，则使用该唤醒话语很可能导致命令中枢104不根据期望激活。云端服务200比较220所计算的可能性与阈值，以确定用户的选择是否很可能导致混乱。如果该选择被确定为不太可能导致混乱，则云端服务200创建222表征该单词的用户话语的模型。模型可以是通用型，且使用诸如通过大量的说话者的唤醒命令话语的训练数据开发。模型可以表征特定用户的话语。云端服务200为命令中枢104提供224识别的话语和模型。命令中枢104存储226话语和模型。命令中枢104使用该模型用于唤醒话语的识别。在一些实施中，云端服务200仅提供模型至命令中枢104。中枢104将确认发送228给用户102，指示唤醒命令已经被成功配置。确认能够是声音、光指示、振动、视觉显示以及取决于中枢104的配置的其他形式。

在一些实施中，云端服务200将所识别的话语与用户以及与命令中枢104关联，并且存储该关联。云端服务200进一步存储为用户创建的模型。

如果云端服务200确定没有单词被识别，或者所识别的单词使得单词很可能导致混乱的可能性超过阈值，则云端服务200将警告发送230至命令中枢104。在其他实施中，即使云端服务200确定没有单词被识别，云端服务200也基于用户的语音输入创建话语模型222。中枢104将警告发送232至埃德蒙102，指示配置不成功。

在该示例中，云端服务200识别单词，且确定单词是否被识别，计算混乱的可能性，且确定单词是否很可能导致混乱，以及创建表征单词和/或单词的话语的模型。这些操作中的一个或多个能够被命令中枢104执行。

图3示出根据一个实施例，使用如本文中所述定制的唤醒话语激活命令中枢104的示例过程。对于涉及图3的讨论，命令中枢104初始处于休眠模式中，且没有准备好执行语音命令。用户说出302一些话语。中枢104处于低功率模式中，但是其检测在周围环境中的声音。中枢104接收304语音输入。语音输入被缓存。中枢104确定306用户102是否是授权用户。例如，中枢104使用接收到的语音输入来确定声纹，并将用户的声纹与授权使用中枢104的用户的声纹进行匹配。当识别出匹配时，中枢104确定该用户是授权用户。如果用户不是授权用户，则中枢104继续监测周围环境中的声音输入。在一些实施例中，中枢104基于用户的身份识别唤醒命令。中枢104查询对应于用户的唤醒话语。

如果用户102是授权用户，则中枢104确定308用户的语音输入是否包括唤醒话语。可以使用一种或多种语音识别技术来执行唤醒命令识别。在低功率模式的一些实施例中，命令中枢104被配置为仅识别由被授权使用中枢104的用户配置的一个或多个唤醒话语。例如，命令中枢104使用表征唤醒命令的唤醒话语和/或用户话语的一个或多个模型来识别唤醒话语，模型诸如隐马尔可夫、高斯混合模型，大词典和/或自然语言处理算法。如果没有唤醒话语被识别，则命令中枢继续监测在周围环境中的声音输入。

如果识别到用于用户102的唤醒命令，则命令中枢104从低功率模式唤醒310，使得其被激活。命令中枢104可以指示用户102，命令中枢104已经被激活。在检测到唤醒命令之后，命令中枢104可以接收312通过用户102说出的额外语音输入。命令中枢104将语音输入发送314到云端服务200，用于一个或多个命令的识别。所发送的语音输入包括用户102说出唤醒命令的一定时间段内说出的语音输入。例如，用户102说出“现在什么时间，Gort？我的下一个约会是几点？”，语音输入“现在什么时间”被发送到云端服务200以进行分析，因为其是在说出唤醒命令“Gort”的一定时间段内说出的。中枢104将语音输入“现在什么时间”和“我的下一个约会是几点”发送到云端服务200以进行分析。

云端服务200识别316来自所接收的语音输入的命令。云端服务200采用能够解释用户的语音输入的诸如声学模型或者语言模型的语音识别技术或者自然语言处理技术。继续上一个示例，云端服务200从语音输入“现在什么时间”和“我的下一个约会是几点”识别出命令“时间”和“日历”。云端服务200将识别的(多个)命令发送318至中枢104。中枢104执行320所接收的命令。中枢104向用户102发送322指示所请求的结果或确认的响应。例如，中枢104将当前时间和日历中的下一个事件返回给用户102。如果没有命令被识别或者中枢104不能执行所识别的命令，则中枢104相应地警告用户。

图4是高级框图，其示出用于实施在图1中示出的部件的示例装置400。装置400包括芯片/芯片组404，该芯片/芯片组404包括至少一个处理器402、内存控制中枢420和输入/输出(I/O)控制中枢422。内存406联接到内存控制中枢420。存储装置408、I/O接口414和网络适配器416被联接到I/O控制中枢422。装置400的其他实施例具有不同架构。

存储装置408是非-瞬态计算机可读存储媒介，诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储装置。内存406保持被处理器402使用的指令和数据。I/O接口414能够支持诸如麦克风、触屏接口、鼠标、轨迹球或其他类型的点击设备、键盘或其一些组合的装置，且用于输入数据到装置400内。在一些实施例中，装置400可以配置为经由来自用户的手势(gestures)从I/O接口414接收输入(例如，命令)。I/O接口也能够支持输出，诸如显示器和扬声器。网络适配器416将装置400联接至一个或多个计算机网络。

装置400适于执行用于提供本文中所描述的功能的计算机程序模块。如在本文中使用地，术语“模块”指的是用于提供规定功能的计算机程序逻辑。因此，模块能够在硬件、固件和/或软件中实施。在一个实施例中，程序模块被存储在存储装置408上，加载到内存406内且通过处理器402执行。

被图1的实体使用的装置400的类型能够取决于实施例和实体所要求的处理功率而不同。例如，云端服务能够在单个装置400或在通过诸如服务器群的网络彼此通信的多个电脑400中运行。电脑400可以不包括上文中描述的部件中的一些。

虽然已经示出和描述了本公开的特定实施例和应用，但是应当理解实施例不受限于本文中公开的精确的构造和部件，且在不脱离本公开的精神和范围的情况下，在本文中公开的本公开的方法和设备的布置、操作和细节中可以做出各种修改、改变和变型。例如，语音命令模块150可以各自在单个家庭设备中单独实施，而不是在中心命令中枢104中。作为另一示例，唤醒检测模块152可以被实施为总语音识别模块154和命令逻辑156的部分，而不是作为独立的部件。

上述描述中的一些部分在算法过程和操作方面描述了实施例。这些算法描述和表示被数据处理领域中的技术人员常用于将他们的工作的基本内容有效地传达给本领域中的其他技术人员。虽然在功能、计算或者逻辑方面描述了这些操作，但是这些操作应当被理解为通过包括用于被处理器或等价电路执行的指令、微指令等的计算机程序实施。此外，在不失一般性的情况下，有时将功能操作的这些布置称为模块也是方便的。所描述的操作及其相关的模块可以用软件、固件、硬件或其任何组合来体现。

如在本文中使用地，对于“一个实施例”或“实施例”的任意引用意味着结合实施例描述的特定元件、特征、结构、或特点被包括在至少一个实施例中。在说明书中各处出现的短语“在一个实施例中”不一定全部指的是同一实施例。

如在本文中使用地，术语“包括”、“包含”、“具有”或其任意其他变型预期涵盖非排外性的包含。例如，包括一系列元件的过程、方法、物品或设备不必仅限于那些元件，而是可以包括未明确列出的或此类过程、方法、物品或设备固有的其他元件。此外，除非明确指出相反的意思，否则“或”是指包含性的“或”而不是排他性的“或”。例如，条件A或B通过如下中的任一项满足：A为真(或者存在)且B为假(或不存在)、A为假(或不存在)且B为真(或存在)，以及A和B都为真(或存在)。

此外，“一个”或“一种”的使用用于描述在本文中的实施例的元件和部件。这仅仅出于方便而做，且给出本公开的一般意义。该描述应当被理解为包括一个或者至少一个，且除非显而易见地另有含义，否则单数也包括复数。

Claims

1.一种用于在包括多个家庭设备的居住环境中执行语音命令的语音命令模块，其特征在于，所述语音命令模块包括：

语音识别模块，所述语音识别模块从用户接收话语且将所述话语转换成来自预定命令词汇的命令，所述词汇包括用于定义对应于唤醒命令的新唤醒话语的定制命令；以及，

命令逻辑，所述命令逻辑从所述语音识别模块接收所述命令，并为所述一个或多个家庭设备执行所述命令，其中：当接收到所述定制命令时，所述命令逻辑将所述语音命令模块改变成在检测到所述新唤醒话语时执行所述唤醒命令。

2.根据权利要求1所述的语音命令模块，其特征在于，还包括：

意图识别模块，所述意图识别模块用于从所述一个或多个传感器接收数据，以及用于通过所接收的数据识别用户的意图，所述用户的意图对应于用户很可能做出的动作。

3.根据权利要求2所述的语音命令模块，其特征在于，所述意图识别模块还配置成生成对应于所述用户的意图的命令，所述命令导致至少一个家庭设备做出对应于所述动作的响应。

4.根据权利要求1所述的语音命令模块，其特征在于，所述意图识别模块基于事件与意图的关联识别所述用户的意图，所述事件通过所接收的数据确定。

5.根据权利要求1所述的语音命令模块，其特征在于，所述一个或多个家庭设备包括暖通空调设备、照明设备、电动门窗用品、用电家具或陈设、环境控制器、厨房设备、浴室设备和家用机器人装置中的至少一者。

6.根据权利要求1所述的语音命令模块，其特征在于，所述语音命令模块被实施为家庭设备的部分，所述命令逻辑执行用于所述家庭设备的命令，并且，所述唤醒命令唤醒所述家庭设备。

7.根据权利要求1所述的语音命令模块，其特征在于，所述语音命令模块被实施为用于家庭设备网络的中枢的部分，所述命令逻辑执行用于在所述家庭设备网络上的一个或多个家庭设备的命令，并且，所述唤醒命令唤醒所述中枢。

8.根据权利要求1所述的语音命令模块，其特征在于，所述语音识别模块和/或所述命令逻辑的至少一部分是以云端为基础的。

9.根据权利要求1所述的语音命令模块，其特征在于，所述语音命令模块能够将来自不同用户的不同唤醒话语转换成相同的唤醒命令。

10.根据权利要求1所述的语音命令模块，其特征在于，所述语音命令模块能够将不同的唤醒话语转换成用于不同家庭设备的唤醒命令。

11.根据权利要求1所述的语音命令模块，其特征在于，所述唤醒命令唤醒一组家庭设备。

12.根据权利要求11所述的语音命令模块，其特征在于，所述唤醒命令被自动扩展以唤醒被增加到所述家庭设备的组中的新家庭设备。

13.根据权利要求1所述的语音命令模块，其特征在于，执行所述唤醒命令唤醒所述语音识别模块和所述命令逻辑。

14.根据权利要求1所述的语音命令模块，其特征在于，在执行任何其他命令之前，直接执行所述唤醒命令。

15.根据权利要求1所述的语音命令模块，其特征在于，还包括：

与所述语音识别模块分离的唤醒检测模块，所述唤醒检测模块当检测到唤醒话语时执行所述唤醒命令，其中：

当接收所述定制命令时，所述命令逻辑将所述唤醒检测模块改变成当检测到所述新唤醒话语时执行所述唤醒命令。

16.根据权利要求15所述的语音命令模块，其特征在于：

当所述语音命令模块处于休眠模式中时，所述语音识别模块和命令逻辑休眠，但是所述唤醒检测模块处于唤醒状态；以及，

当检测到所述唤醒话语时，所述唤醒检测模块唤醒所述语音识别模块和命令逻辑。

17.根据权利要求1所述的语音命令模块，其特征在于，当检测到唤醒话语时，所述语音识别模块和命令逻辑执行所述唤醒命令，以及，当接收所述定制命令时，所述命令逻辑改变所述语音识别模块以将所述新唤醒话语转换成所述唤醒命令。

18.根据权利要求17所述的语音命令模块，其特征在于：

当所述语音命令模块处于休眠模式中时，所述语音识别模块和命令逻辑除了检测所述唤醒命令之外都在休眠中。

19.根据权利要求1所述的语音命令模块，其特征在于，当接收到所述定制命令时，所述命令逻辑：

接收所述新唤醒话语；以及，

处理所述新唤醒话语以识别表征所述新唤醒话语的特点的一个或多个特征，其中，基于检测所述一个或多个特征检测所述新唤醒话语。

20.根据权利要求19所述的语音命令模块，其特征在于，所述命令逻辑还：

基于所述一个或多个特征创建所述新唤醒话语的模型，所述模型用于检测所述新唤醒话语。

21.根据权利要求19所述的语音命令模块，其特征在于：

所述语音识别模块包括第一级和第二级，所述第一级将所接收的话语转换成单音序列，所述第二级将单音序列转换成命令；

其中，当接收到所述定制命令时，所述命令逻辑改变所述语音识别模块，以当检测用于所述新唤醒话语的单音序列时识别所述唤醒命令。

22.根据权利要求19所述的语音命令模块，其特征在于：

所述语音识别模块包括第一级和第二级，所述第一级将所接收的话语转换成声谱图，所述第二级将声谱图转换成命令；

其中，当接收到所述定制命令时，所述命令逻辑改变所述语音识别模块，以当检测到用于所述新唤醒话语的声谱图时识别所述唤醒命令。

23.一种家庭设备网络，应用于居住环境中，其特征在于，包括：

经由所述家庭设备网络连接的多个家庭设备；以及，

用于执行用于所述家庭设备的语音命令的语音命令模块，所述语音命令模块包括：

语音识别模块，所述语音识别模块从用户接收话语且将所述话语转换成来自预定命令词汇的命令，所述词汇包括用于将新唤醒话语定义为对应于唤醒命令的定制命令；以及，

命令逻辑，其从所述语音识别模块接收所述命令，且为所述一个或多个家庭设备执行所述命令，其中：在接收所述定制命令时，所述命令逻辑将所述语音命令模块改变成当检测到所述新唤醒话语时执行所述唤醒命令。