CN110214351A

CN110214351A - 记录的媒体热词触发抑制

Info

Publication number: CN110214351A
Application number: CN201880008785.3A
Authority: CN
Inventors: R.A.加西亚
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-06-05
Filing date: 2018-03-13
Publication date: 2019-09-06
Anticipated expiration: 2038-03-13
Also published as: KR20190103308A; JP2020190752A; CN116597836A; EP3430618A1; US20180350356A1; JP2020511682A; WO2018226283A1; US20220139387A1; US20200035232A1; US10395650B2; EP3723083A1; US11244674B2; KR102296238B1; EP3430618B1; EP4220629A1; US11798543B2; JP6750125B2; EP3723083B1; JP7461416B2; JP2022136197A

Abstract

公开了用于当检测到记录的媒体中的热词时抑制热词触发的方法、***和装置，包括在计算机存储介质上编码的计算机程序。在一方面，一种方法包括由计算设备接收与媒体内容项的回放相对应的音频的动作。这些动作还包括由计算设备确定音频包括预定义热词的话语，以及确定音频包括音频水印。这些动作还包括由计算设备分析音频水印。这些动作还包括基于对音频水印进行分析，由计算设备确定是否对随预定义热词之后的音频部分执行语音识别。

Description

记录的媒体热词触发抑制

技术领域

本说明书一般涉及自动语音识别。

背景技术

支持语音的住所或其他环境——也就是用户在其中仅需要出声地讲出查询或命令并且基于计算机的***将处理并应答该查询和/或致使命令得以执行的住所或其他环境——的现实正在到来。支持语音的环境(例如，住所、工作场所、学校等)能够使用分布在该环境的各个房间或区域各处的被连接的麦克风设备的网络来实施。通过这样的麦克风的网络，用户有能力从基本上该环境中的任何地方口头查询***而无需在他/她的前方或者甚至在其附近具有计算机或其他设备。例如，当在厨房中烹饪时，用户可以询问***“三杯是多少毫升？”，并且作为响应而从***接收到回答，例如，以合成语音输出的形式的回答。可替换地，用户可以询问***诸如“离我最近的加油站什么时候关门”，或者在准备离开房子时询问“我今天应当穿外套吗？”。

此外，用户可以询问***的查询和/或发出命令，该查询或命令涉及用户的个人信息。例如，用户可以询问***“我与John何时会面？”或者命令***“当我回家时提醒我给John打电话。”

发明内容

对于支持语音的***，用户与***交互的方式被设计为主要(如果不是专门地)凭借语音输入来进行。因此，可能拾取周围环境中所发出的包括并非指向***的那些话语在内的所有话语的***必须以某些方式来辨别任何给定的话语何时是指向该***而不是例如指向出现在该环境中的个人。一种实现该目的的方式是使用热词(hotword)，该热词通过环境中的用户间的协定被预留作为预定词语，其被讲出以唤起***的注意。在示例环境中，用来唤起***的注意的热词是词语“OK computer”(OK计算机)。因此，每次词语“OKcomputer”被讲出时，其就被麦克风所拾取，传达至***，该***执行语音识别技术或使用音频特征和神经网络来确定热词是否被讲出，并且如果是，则等待随后的命令或查询。因此，指向***的话语采用[热词][查询]([HOTWORD][QUERY])的一般形式，其中本示例中的“热词”是“OK computer”并且“查询”能够是任何问题、命令、声明、或者能够由***单独或者经由网络与服务器结合来进行语音识别、解析、以及按照其实施动作的其他请求。

除了检测热词之外，计算设备可以被配置为检测嵌入在热词的音频中的音频水印。音频水印可以是人类听不见的高频水印，或者是听起来类似于背景噪声或静态的水印。计算设备可以被配置为根据音频水印不同地响应热词。例如，可以创建媒体内容的一部分，其中包括一个演员说：“OK computer，给我去火车站的方向”。为了防止播放媒体内容的电视机附近范围内的任何计算设备提供去火车站的方向，媒体内容的创建者可以包括与热词重叠的音频水印。检测媒体内容的音频的计算设备可以提取音频水印并将音频水印与音频水印数据库进行比较。音频水印数据库可以包括计算设备应该何时对随热词和该特定音频水印之后的音频执行语音识别的规则，以及对于其他音频水印的附加规则。应当理解，本文描述的方法和***中的至少一些可以使计算设备能够选择性地确定何时响应通过计算设备附近的扬声器输出的口头话语。

用于媒体内容的音频水印的规则可以包括计算设备在进一步处理来自媒体内容的音频之前应该满足的条件。示例规则可以是：如果计算设备当前没有提供方向、移动速度不超过每小时10英里、是智能扬声器、以及位于用户住所处，则计算设备应该作出响应。规则的另一示例可以是：只有当计算设备在与媒体内容的所有者或创建者相关联的场所内并且水印指示话语具有高优先级时，计算设备才应该响应。如果计算设备满足这些规则，则计算设备可以对随热词之后的部分执行语音识别。如果转录是“给我去火车站的方向”，则计算设备可以显示或可听地提供去火车站的方向。如果计算设备不满足规则，则计算设备不对随热词之后的音频部分执行语音识别，并且不响应于音频执行进一步的动作。

在一些实施方式中，音频水印可以编码数据，这可以消除计算设备将音频水印与音频水印数据库进行比较的需要。编码的数据可以包括计算设备应该何时执行语音识别的规则、标识符、动作或任何其他类似数据。在一些实施方式中，计算设备可以结合音频水印数据库使用编码的数据来确定是否对随热词之后的音频执行语音识别。

根据本申请中描述的主题的创新方面，一种用于当检测到记录的媒体中的热词时抑制热词触发的方法包括以下动作：由计算设备接收与媒体内容项的回放相对应的音频；由计算设备确定音频包括预定义热词的话语以及确定音频包括音频水印；由计算设备分析音频水印；以及基于对音频水印进行分析，由计算设备确定是否对随预定义热词之后的音频部分执行语音识别。

这些和其他实施方式可以各自可选地包括一个或多个以下特征。分析音频水印的动作包括将音频水印与一个或多个音频水印进行比较。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于将音频水印与一个或多个音频水印进行比较。音频水印是与媒体内容项的回放相对应的音频的听不见的部分。这些动作还包括：基于对音频水印进行分析，标识与媒体内容项的回放相对应的音频源。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于与媒体内容项的回放相对应的音频源。这些动作还包括：基于对音频水印进行分析，标识与媒体内容项的回放相对应的音频源；以及更新日志文件以指示与媒体内容项回放相对应的音频源。

音频水印包括在包括预定义热词的话语的音频部分中。这些动作还包括确定附加计算设备的类型。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于附加计算设备的类型。由计算设备确定是否对随预定义热词之后的音频部分执行语音识别的动作包括确定对随预定义热词之后的音频部分执行语音识别。这些动作还包括由自动语音识别器生成随预定义热词之后的音频转录；以及执行与随预定义热词之后的音频转录相对应的动作。由计算设备确定是否对随预定义热词之后的音频部分执行语音识别的动作包括确定不对随预定义热词之后的音频部分执行语音识别。这些动作还包括抑制对应于与媒体内容项的回放相对应的音频的动作。

这些动作还包括确定附加计算设备的位置。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于附加计算设备的位置。这些动作还包括确定附加计算设备的用户设置。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于附加计算设备的用户设置。由计算设备确定音频包括预定义热词的话语以及确定音频包括音频水印的动作包括确定音频包括预定义热词的话语；以及基于确定音频包括预定义热词的话语，确定音频包括音频水印。由计算设备确定音频包括预定义热词的话语以及确定音频包括音频水印的动作包括确定音频包括预定义热词的话语；以及在确定音频包括预定义热词的话语之后，确定音频包括音频水印。

分析音频水印的动作包括提取编码在音频水印中的数据。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于编码在音频水印中的数据。这些动作还包括：基于对音频水印进行分析，标识与媒体内容项的回放相对应的音频的媒体内容的类型；以及更新日志文件以指示与媒体内容项的回放相对应的音频的媒体内容的类型。这些动作还包括：基于对音频水印进行分析，标识与媒体内容项的回放相对应的音频的媒体内容的类型。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于与媒体内容项的回放相对应的音频的媒体内容的类型。这些动作还包括：基于对音频水印进行分析，由计算设备确定是否对随预定义热词之后的音频部分执行自然语言处理。

该方面的其他实施例包括相应***、装置和记录在计算机存储设备上的计算机程序，每个被配置为执行这些方法的操作。

可以实施本说明书中描述的主题的特定实施例，以便实现一个或多个以下优点。计算设备可以响应仅包括特定音频水印的热词，从而节省计算设备的电池电量和处理能力。在接收到带有音频水印的热词时，可以用较少的计算设备执行搜索查询来保持网络带宽。另外，音频水印可以被用来使用户的计算设备在用户可能无法听到它(如果它是例如经由位于用户附近的扬声器输出的信息)的情形下向用户传达信息(例如，对口头询问的响应或某种警告)。这样的用户可以包括那些有听力障碍的人或者那些经由连接到他们的音频设备的个人扬声器(例如，头戴式耳机)收听其他音频的人。例如，特定音频水印可以被计算设备理解为指示高优先级，在这种情况下，计算设备可以对经由主音频接收的查询作出响应。

本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了用于当检测到记录的媒体中的热词时抑制热词触发的示例***。

图2是用于当检测到记录的媒体中的热词时抑制热词触发的示例过程的流程图。

图3是计算设备和移动计算设备的示例。

不同附图中相同的参考标号和名称表示相同的元件。

具体实施方式

图1示出了用于当检测到记录的媒体中的热词时抑制热词触发的示例***100。简而言之，如下文更详细描述的，计算设备102和104接收从音频源106(例如，电视机)输出的音频108。音频108包括预定义热词的话语和音频水印。计算设备102和104都处理音频108，并确定音频108包括预定义热词。计算设备102和104标识音频水印。基于音频水印和计算设备102和104的上下文或特性，计算设备102和104中的每一个可以对音频执行语音识别。

在图1所示的示例中，音频源106正在播放与鸡块世界(Nugget World)相关联的媒体内容。在媒体内容期间，媒体内容中的演员说出话语108“OK computer，鸡块中有什么？”。话语108包括热词110“Ok computer”和查询112“鸡块中有什么？”。音频源106通过扬声器输出话语108。附近任何带有麦克风的计算设备都能够检测话语108。

话语108的音频包括可听部分114和音频水印116。媒体内容的创建者可以添加音频水印116，以确保特定计算设备正确地响应话语108。在一些实施方式中，音频水印116可以包括高于或低于人类听觉范围的音频频率。例如，音频水印116可以包括大于20kHz或小于20Hz的频率。在一些实施方式中，音频水印116可以包括在人类听觉范围内但因为其声音类似于噪声所以人类检测不到的音频。例如，音频水印116可以包括8至10kHz之间的频率模式。不同频带的强度对于人来说可能是察觉不到的，但是可以被计算设备检测到。如音频108的频域表示118所示，包括在比可听部分114更高的频率范围内的音频水印116。

计算设备102和104可以是能够通过麦克风接收音频的任何类型的设备。例如，计算设备102和104可以是台式计算机、膝上型计算机、平板计算机、可穿戴计算机、蜂窝电话、智能电话、音乐播放器、电子书阅读器、导航***、智能扬声器和家庭助理、无线(例如，蓝牙)耳机、助听器、智能手表、智能眼镜、活动***或任何其他合适的计算设备。如图1所示，计算设备102是智能电话，并且计算设备104是台式计算机。音频源106可以是任何音频源，诸如，例如，电视机、收音机、音乐播放器、台式计算机、膝上型计算机、平板计算机、可穿戴计算机、蜂窝电话或智能电话。如图1所示，音频源106是电视机。

计算设备102和104各自通过麦克风接收音频。关于计算设备102，麦克风可以是音频子***120的一部分。音频子***120可以包括缓冲器、滤波器、模数转换器，每个都被设计成初始地处理通过麦克风接收的音频。缓冲器可以存储通过麦克风接收并由音频子***120处理的当前音频。例如，缓冲器存储前五秒的音频数据。类似地，计算设备104的麦克风可以是音频子***122的一部分。音频子***122可以包括缓冲器、滤波器、模数转换器，每个都被设计成初始地处理通过麦克风接收的音频。缓冲器可以存储通过麦克风接收并由音频子***122处理的当前音频。例如，缓冲器存储前三秒的音频数据。

计算设备102和104各自分别包括热词器124和126。热词器124和126各自被配置为标识通过麦克风接收的和/或存储在缓冲器中的音频中的热词。在一些实施方式中，热词器124和126可以在计算设备102和104通电的任何时候都是活动的。热词器124连续分析存储在缓冲器中的音频数据。热词器124计算反映缓冲器中的当前音频数据包括热词的可能性的热词置信度得分。为了计算热词置信度得分，热词器124可以从音频数据中提取音频特征，诸如滤波器组能量(filterbank energy)或梅尔频率倒谱系数(mel-frequencycepstral coefficient)。热词器124可以使用分类窗口来处理这些音频特征，诸如通过使用支持向量机或神经网络进行处理。在一些实施方式中，热词器124不执行语音识别来确定热词置信度得分。如果热词置信度得分满足热词置信度得分阈值，则热词器124确定音频包括热词。例如，如果热词置信度得分为0.8并且热词置信度得分阈值为0.7，则热词器124确定对应于话语108的音频包括热词110。热词器126在功能上类似于热词器124。

计算设备102和104各自分别包括音频水印标识器128和130。音频水印标识器128和130各自被配置为处理通过麦克风接收的和/或存储在缓冲器中的音频，并标识包括在音频中的音频水印。音频水印标识器128和130可以各自被配置为检测扩频和心理声学整形(psychacoustic shaping)类型的水印。这些类型的水印可以位于与对应音频的频带重叠的频带中。人类可能会将这些类型的水印视为噪声。音频水印标识器128和130也可以各自被配置为检测高频水印。这些类型的水印可以位于对应音频的频带之上的频带中。高频水印的频带可能高于人类听觉的阈值。音频水印标识器128和130也可以各自被配置为检测低频水印。这些类型的水印可以位于对应音频的频带之下的频带中。低频水印的频带可能低于人类听觉的阈值。在一些实施方式中，音频水印标识器128和130响应于相应的热词器124和126检测到热词来处理音频。

音频水印标识器128和130可以各自被配置为分离音频水印和主音频。主音频可以是添加音频水印的音频部分。例如，主音频可以包括可听部分114，该可听部分114包括与“OK computer，鸡块中有什么？”相对应但没有水印116的音频。音频水印标识器128将通过计算设备102的麦克风接收到的音频118分离成主音频132和音频水印134。类似地，音频水印标识器130将通过计算设备104的麦克风接收到的音频118分离成主音频136和音频水印138。在一些实施方式中，音频水印和主音频可以在时域中重叠。

在一些实施方式中，音频水印标识器128和130可以分别处理音频水印134和138，以标识音频水印的对应比特流。例如，音频水印标识器128可以处理音频水印134，并确定音频水印134对应于比特流0101101110101。音频水印标识器130可以对音频水印138进行类似的处理。

音频水印比较器140和144各自将相应的音频水印134和138分别与音频水印142和146进行比较。例如，音频水印比较器140可以将水印134的频率模式或比特流与音频水印142进行比较。音频水印比较器140可以确定音频水印134匹配鸡块世界的音频水印。音频水印比较器144可以做出类似的确定。

音频水印142和146可以包含各种实体嵌入包含热词的媒体内容的音频或其他分布式或广播音频中的音频水印。鸡块世界可以在音频108中包括水印，以确保只有特定设备对热词作出响应，对音频执行语音识别，并执行查询112。鸡块世界可以提供音频水印116以包括在音频水印142和146中，以及对于设备何时应该响应带有音频水印116的热词的指令。例如，鸡块世界可以在音频水印142和146中包括对于位于鸡块世界餐馆中的具有鸡块世界用户标识符的任何设备的指令，以对带有音频水印116的热词作出响应。在一些实施方式中，音频水印142和146存储在计算设备102和104上，并且定期更新，例如，每天一次。在一些实施方式中，音频水印142或146、音频水印标识器128和130和/或音频水印比较器140和144可以位于远程服务器上。在这种情况下，计算设备102或104可以通过网络与远程服务器通信。

计算设备102提取音频水印134并将音频水印134与鸡块世界水印相匹配。基于音频水印142中对于鸡块世界水印的指令，计算设备102可以对主音频132执行语音识别，并执行包括在对应转录中的任何查询或命令。指令可以包括计算设备102要遵循以确定是否执行语音识别的一组规则。

计算设备102包括位置检测器156。位置检测器156可以生成反映计算设备位置的地理位置数据。位置检测器156可以使用任何地理定位技术，例如，全球定位***(GlobalPosition System，GPS)、三角测量和/或任何其他类似的定位技术。在一些实施方式中，位置检测器156可以访问指示各种感兴趣点的位置的地图或位置数据。位置检测器156可以进一步标识计算设备所在的兴趣点。例如，位置检测器156可以确定计算设备102位于鸡块世界处。

计算设备102包括设备标识符158。设备标识符158包括标识计算设备102的设备类型的设备身份160。设备身份160可以是台式计算机、膝上型计算机、平板计算机、可穿戴计算机、蜂窝电话、智能电话、音乐播放器、电子书阅读器、导航***、智能扬声器和家庭助理或任何其他合适的计算设备。例如，计算设备102的设备身份160是电话。

计算设备102包括用户标识符162。用户标识符162包括标识计算设备102的用户的用户身份164。用户身份164可以是电子邮件地址、电话号码或任何其他类似类型的唯一用户标识符。例如，计算设备102的用户身份164是[email protected]。用户标识符162可以由用户154输入。

计算设备102包括用户设置152。用户设置152可以由用户154提供，并且可以包括对于计算设备102应该如何响应热词的附加规则。例如，用户设置152可以包括计算设备102不响应包括音频水印的任何热词，除非计算设备102在住所时接收到包括音频水印的热词的规则。作为另一示例，用户设置152可以包括计算设备102不响应包括与特定实体(例如，媒体内容的所有者或创建者)(诸如鸡肉世界)相对应的音频水印的热词的规则。在一些实施方式中，用户154可以同意允许计算设备102对带有特定实体的水印的热词作出响应。

在图1所示的示例中，语音识别器166保持非活动，如语音识别器状态168所示。计算设备102基于将存储在音频水印中的与音频水印134相对应的指令应用于设备位置、用户设置152、设备身份160和用户身份164，将语音识别器状态168设置为非活动。例如，与音频水印134相对应的指令可以是如果用户身份164是鸡块世界标识符并且设备位于鸡块世界餐馆，则将语音识别器状态168设置为活动的。对于计算设备102，用户身份164不是鸡块世界标识符。因此，语音识别器状态168是非活动的。

在一些实施方式中，计算设备102的用户界面生成器148可以向计算设备的显示器提供图形界面的数据。图形界面可以指示在计算设备执行过程或动作时、之前或之后的计算设备102的过程或动作。例如，用户界面生成器148可以显示指示计算设备102正在处理接收到的音频、计算设备102正在标识音频水印134、语音识别器状态168和/或所标识的音频水印134的任何属性或规则的界面。

在一些实施方式中，用户界面生成器148可以生成指示语音识别器状态168是非活动的界面。该界面还可以包括用户可选选项来覆盖(override)语音识别器状态168。例如，用户154可以选择将语音识别器状态168设置为活动的选项。在听到查询112“鸡块中有什么”后，用户154可能会好奇并请求计算设备102处理查询112并提供输出。

在一些实施方式中，计算设备102可以包括音频水印日志170。音频水印日志170可以包括指示计算设备102已经接收到每个音频水印的次数的数据。例如，每当计算设备102接收并标识音频水印134时，计算设备102可以在音频水印日志170中存储指示音频水印134的接收的数据。数据可以包括时间戳、设备位置、任何相关用户设置、用户标识符和任何其他类似信息。在一些实施方式中，计算设备102可以将音频水印日志170的数据提供给服务器上的聚合音频水印日志，该聚合音频水印日志组合来自接收音频水印的不同计算设备的音频水印日志。聚合音频水印日志可以包括对于接收计算设备的用户身份、设备标识符和存储在音频水印日志170中的数据。在一些实施方式中，聚合音频水印日志和音频水印日志170中的数据可以同步。在这种情况下，音频水印日志170可以包括来自不同设备的附加日志数据以及标识不同设备、不同用户、位置信息、时间戳数据和其他相关信息的数据。

在一些实施方式中，用于特定音频水印的指令可以包括与存储在音频水印日志170中的数据相关的指令。指令可以涉及用特定音频水印标记的热词应该激活语音识别器的特定次数。例如，指令可以指示在24小时内，音频水印116应该只激活语音识别器166一次。

在一些实施方式中，音频设备106上的媒体内容的创建者可以访问聚合音频水印日志，以标识与热词110和对应音频水印116每次激活语音识别器相关的细节。在一些实施方式中，用户可以通过设备上的用户设置指示计算设备不将音频水印日志上传到聚合音频水印日志。

计算设备104以与处理音频水印134的计算设备102类似的方式处理音频水印138。具体地，计算设备104提取音频水印138并将音频水印138与鸡块世界水印相匹配。基于音频水印146中对于鸡块世界水印的指令，计算设备102可以对主音频136执行语音识别，并执行包括在对应转录中的任何查询或命令。指令可以包括计算设备104要遵循以确定是否执行语音识别的一组规则。

计算设备104包括位置检测器176。位置检测器176可以生成反映计算设备位置的地理位置数据。位置检测器176可以使用任何地理定位技术，例如，GPS、三角测量和/或任何其他类似的定位技术。在一些实施方式中，位置检测器176可以访问指示各种感兴趣点的位置的地图或位置数据。位置检测器176可以进一步标识计算设备104所在的兴趣点。例如，位置检测器176可以确定计算设备104位于鸡块世界处。

计算设备104包括设备标识符178。设备标识符178包括标识计算设备104的设备类型的设备身份180。设备身份180可以是台式计算机、膝上型计算机、平板计算机、可穿戴计算机、蜂窝电话、智能电话、音乐播放器、电子书阅读器、导航***、智能扬声器和家庭助理或任何其他合适的计算设备。例如，计算设备104的设备身份180是台式计算机。

计算设备104包括用户标识符182。用户标识符182包括标识计算设备104的用户的用户身份184。用户身份184可以是电子邮件地址、电话号码或任何其他类似类型的唯一用户标识符。例如，计算设备108的用户身份184是[email protected]。用户标识符182可以由用户输入。

计算设备104包括用户设置186。用户设置186可以由用户提供，并且可以包括对于计算设备104应该如何响应热词的附加规则。例如，用户设置186可以包括计算设备104不响应包括音频水印的任何热词除非计算设备104位于鸡块世界餐馆的规则。作为另一示例，用户设置186可以包括计算设备104不响应除了那些标记有来自鸡块世界的音频水印的热词之外的任何热词的规则。作为另一示例，用户设置186可以指示计算设备104在鸡块世界的开放时间之外不响应带有任何类型的音频水印的任何热词。

在图1所示的示例中，语音识别器172是活动的，如语音识别器状态174所示。计算设备104基于将存储在音频水印中的与音频水印138相对应的指令应用于设备位置、用户设置186、设备身份180和用户身份184，将语音识别器状态174设置为活动的。例如，与音频水印134相对应的指令可以是如果用户身份184是鸡块世界标识符并且设备位于鸡块世界餐馆，则将语音识别器状态174设置为活动的。对于计算设备104，用户身份184是鸡块世界标识符，并且位置在鸡块世界处。因此，语音识别器状态174是活动的。

语音识别器172对主音频136执行语音识别。语音识别器172生成转录“鸡块中有什么”。如果转录对应于查询，则计算设备104可以向搜索引擎提供转录。如果转录对应于命令，则计算设备可以执行命令。在图1的示例中，计算设备104向搜索引擎提供主音频136的转录。搜索引擎返回结果，并且计算设备104可以通过扬声器输出结果，扬声器可以是例如计算设备的扬声器，或者连接到计算设备的个人扬声器，诸如头戴式耳机(headphone)、耳机(earphone)、耳塞式耳机(earbud)等。经由个人扬声器输出结果可能是有用的，例如对于如果信息作为主音频的一部分输出，则当用户将无法听到该信息时，使信息被提供给用户是有用的。例如，在鸡块世界的示例中，计算设备104可以输出音频190“鸡块包含鸡肉”。在一些实施方式中，用户界面生成器150可以在计算设备104的显示器上显示搜索结果。这对于如果信息作为主音频的一部分输出或者经由与计算设备相关联的扬声器输出，则使信息被提供给可能无法听到信息的诸如听力受损的用户是尤其有用的。

在一些实施方式中，用户界面生成器150可以提供附加界面。图形界面可以指示在计算设备104执行过程或动作时、之前或之后的计算设备104的过程或动作。例如，用户界面生成器150可以显示指示计算设备104正在处理接收到的音频、计算设备104正在标识音频水印138、语音识别器状态174和/或所标识的音频水印138的任何属性或规则的界面。

在一些实施方式中，用户界面生成器150可以生成指示语音识别器状态174是活动的界面。该界面还可以包括用户可选选项来覆盖语音识别器状态174。例如，用户可以选择设置语音识别器状态174的选项来抑制与转录相关的任何动作。在一些实施方式中，用户界面生成器150可以生成基于最近接收到的覆盖和计算设备104的当前属性来更新用户设置186的界面。用户界面生成器148还可以在接收到覆盖命令后提供类似的界面。

在一些实施方式中，计算设备104可以包括音频水印日志188。音频水印日志188可以基于由计算设备104接收的音频水印来存储类似于音频水印日志170的数据。音频水印日志188可以以类似于音频水印日志170的方式与聚合音频水印日志交互。

在一些实施方式中，计算设备102和104可以不依赖存储在音频水印142和146中的规则，而分别对主音频134和138执行语音识别。音频水印142和146可以包括与部分基于转录执行主音频的动作相关的规则。

图2示出了用于当检测到记录的媒体中的热词时抑制热词触发的示例过程200。通常，过程200基于包括热词和水印的音频对与媒体内容相对应的音频执行语音识别。过程200将被描述为由包括一个或多个计算机(例如，图1所示的计算设备102或104)的计算机***来执行。

***接收与媒体内容项的回放相对应的音频(210)。在一些实施方式中，音频可以通过***的麦克风来接收。音频可以对应于在电视机或收音机上播放的媒体内容的音频。

***确定音频包括预定义热词的话语和音频水印(220)。在一些实施方式中，音频水印是音频的听不见的部分。例如，音频水印可以位于高于或低于人类听觉的频带的频带中。在一些实施方式中，音频水印是可听的，但是听起来类似于噪声。在一些实施方式中，音频水印与预定义热词的音频重叠。在一些实施方式中，***确定音频包括预定义热词。响应于该确定，***处理音频以确定音频是否包括音频水印。

***将音频水印与一个或多个音频水印进行比较(230)。在一些实施方式中，***可以将音频水印与音频水印数据库进行比较。数据库可以存储在***上或不同的计算设备上。***可以在时域和/或频域中比较音频水印的数字表示或音频水印的模拟表示。***可以标识匹配音频水印，并根据数据库中对于所标识的音频水印指定的规则来处理音频。在一些实施方式中，***可以标识音频水印的源或所有者。例如，源或所有者可能是实体鸡块世界。***可以更新日志文件，以指示***接收到带有鸡块世界音频水印的热词。

***基于将音频水印与一个或多个音频水印进行比较，确定是否对随预定义热词之后的音频部分执行语音识别(240)。基于数据库中对于所标识的音频水印指定的规则、音频水印的源以及***的上下文，***确定是否对随预定义热词之后的音频执行语音识别。***的上下文可以基于***类型、***位置和任何用户设置的任意组合。例如，该规则可以指定位于用户住所处的移动电话在从用户居住的公寓的管理公司接收到带有特定水印的热词时应该对音频执行语音识别。在一些实施方式中，***基于音频水印与一个或多个水印的比较或者基于对音频水印进行分析来确定是否对随预定义热词之后的音频部分执行自然语言处理。该***可以除语音识别之外或者代替语音识别而执行自然语言处理。

在***确定执行语音识别的情况下，***生成随热词之后的音频转录。***执行转录中包括的命令，诸如为公寓楼会议添加日程表约会，或者向搜索引擎提交查询。***可以通过***的扬声器、或者在***的显示器上、或者两者输出搜索结果。

在***确定不执行语音识别的情况下，***可以保持睡眠模式、待机模式或低能耗模式。***在处理音频时可以处于睡眠模式、待机模式或低能耗模式，并且，如果***不对音频执行语音识别，则可以保持睡眠模式、待机模式或低能耗模式。在一些实施方式中，在计算设备102接收音频118时，用户154可能正在使用计算设备102。例如，用户154可能正在听音乐或观看照片应用。在这种情况下，热词和音频水印处理可以在背景中发生，并且用户的活动可以是不间断的。在一些实施方式中，音频可以不包括音频水印。在这种情况下，***可以在热词以后对音频执行语音识别，并执行音频中包括的任何命令或查询。

在一些实施方式中，***可以确定音频的媒体内容的类型。***可以将音频水印与包括在音频水印数据库中的音频水印进行比较。***可以标识音频水印数据库中的匹配的音频水印，并且匹配的音频水印可以标识对于该特定音频水印的媒体内容的类型。***可以将规则应用于所标识的类型的媒体内容。例如，音频水印数据库可以指示音频水印包括在销售媒体、定向媒体、商业媒体、政治媒体或任何其他类型的媒体中。在这种情况下，***可以遵循媒体类型的一般规则。例如，规则可能是仅当***位于住所处时才执行商业媒体的语音识别。规则也可以是特定于接收到的音频水印的规则。在一些实施方式中，***还可以在音频水印日志中记录媒体内容的类型。

在一些实施方式中，***可以分析音频水印。***可以分析音频水印来代替比较音频水印与音频水印数据库，或者与比较音频水印与音频水印数据库相结合。音频水印可以编码动作、标识符、规则或任何其他类似的数据。***可以解码音频水印并根据解码的音频水印处理音频。音频水印可以被编码为报头和有效载荷。***可以标识报头，该报头可以是所有或几乎所有音频水印所共有的，或者可以标识特定的音频水印组。有效载荷可以在报头之后并编码动作、标识符、规则或其他类似数据。

***可以应用编码在音频水印中的规则。例如，规则可以是如果***是位于与存储在***中的用户标识符相对应的位置的智能扬声器，则***对随热词之后的音频部分执行语音识别。在这种情况下，***可能不需要访问音频水印数据库。在一些实施方式中，***可以将编码在音频水印中的规则添加到音频水印数据库中。

***可以结合音频水印数据库使用编码在音频水印中的数据。例如，编码在音频水印中的数据可以指示音频是政治媒体内容。***可以访问对应于音频水印的规则，并且该规则指定当***位于用户住所中时，***对包括政治媒体内容水印或商业媒体内容水印的音频执行语音识别。在这种情况下，音频水印可以包括报头或***可以用来标识音频水印数据库中对应音频水印的其他部分。有效载荷可以编码媒体内容的类型或其他数据，诸如动作、标识符或规则。

图3示出了可以用于实施这里描述的技术的计算设备300和移动计算设备350的示例。计算设备300意图表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型主机和其他合适的计算机。移动计算设备350意图表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话、无线(例如，蓝牙)耳机、助听器、智能手表、智能眼镜、活动***和其他类似的计算设备。这里所示的组件、它们的连接和关系以及它们的功能仅是示例，而不是意味着作为限制。

计算设备300包括处理器302、存储器304、存储设备306、连接到存储器304和多个高速扩展端口310的高速接口308、以及连接到低速扩展端口314和存储设备306的低速接口312。处理器302、存储器304、存储设备306、高速接口308、高速扩展端口310和低速接口312中的每一个都使用各种总线互连，并且可以安装在公共主板上或者以其他适当的方式安装。处理器302可以对用于在计算设备300内执行的指令进行处理，该指令包括存储在存储器304中或存储设备306上以显示用于外部输入/输出设备(诸如耦合到高速接口308的显示器316)上的GUI的图形信息的指令。在其他实施方式中，可以视情况使用多个处理器和/或多个总线，连同多个存储器以及多种类型的存储器。并且，可以连接多个计算设备，其中每个设备提供必要操作的一部分(例如，作为服务器组、刀片服务器群组、或者多处理器***)。

存储器304存储计算设备300内的信息。在一些实施方式中，存储器304是一个或多个易失性存储器单元。在一些实施方式中，存储器304是一个或多个非易失性存储器单元。存储器304还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备306能够提供用于计算设备300的大型存储。在一些实施方式中，存储设备306可以是计算机可读介质或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储器设备、或者设备阵列，包括在存储区域网络或其他配置中的设备。指令可以被存储在信息载体中。该指令当被一个或多个处理设备(例如处理器302)执行时执行诸如以上所描述的那些的一种或多种方法。该指令还可以由诸如计算机或机器可读介质的一个或多个存储设备(例如，存储器304、存储设备306、或者处理器302上的存储器)来存储。

高速接口308对计算设备300的带宽密集型操作进行管理，而低速控制器312对较低带宽密集型操作进行管理。这样的功能分配仅是示例性的。在一些实施方式中，高速接口308耦合到存储器304、显示器316(例如，通过图形处理器或加速器来耦合)，并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口310。在该实施方式中，低速接口312耦合到存储设备306和低速扩展端口314。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口314可以耦合到诸如键盘、指示设备、扫描仪、麦克风、扬声器的一个或多个输入/输出设备，或者例如通过网络适配器耦合到诸如交换机或路由器的联网设备。

如图所示，可以以多种不同形式来实施计算设备300。例如，计算设备300可以被实施为标准服务器320，或者多次被实施在这样的服务器的群组中。另外，计算设备300可以在诸如膝上型计算机322的个人计算机中实施。计算设备300也可以被实施为机架式服务器***324的一部分。可替换地，来自计算设备300的组件可以与诸如移动计算设备350的移动设备(未示出)中的其他组件进行组合。这样的设备中的每一个可以包含计算设备300和移动计算设备350中的一个或多个，并且整个***可以由相互通信的多个计算设备组成。

移动计算设备350包括处理器352、存储器364、诸如支持触摸的显示器354的输入/输出设备、通信接口366和收发器368，以及其他组件。移动计算设备350还可以提供有存储设备，诸如微驱动器或其他设备，以提供额外的存储。处理器352、存储器364、显示器354、通信接口366和收发器368中的每一个都使用各种总线互连，并且几个组件可以安装在公共主板上或者以其他适当的方式安装。

处理器352可以执行移动计算设备350内的指令，包括存储在存储器364中的指令。处理器352可以被实施为包括单独的和多个模拟和数字处理器的芯片的芯片组。例如，处理器352可以提供对移动计算设备350的其他组件的协调，诸如对用户接口、移动计算设备350所运行的应用、以及移动计算设备350所进行的无线通信的控制。

处理器352可以通过耦合到显示器354的控制接口358和显示接口356与用户进行通信。例如，显示器354可以是TFT(Thin-Film-Transistor Liquid Crystal Display，薄膜晶体管液晶显示器)显示器或OLED(Organic Light Emitting Diode，有机发光二极管)显示器或者其他适当的显示技术。显示接口356可以包括用于驱动显示器354以向用户呈现图形和其他信息的适当电路。控制接口358可以接收来自用户的命令并且对该命令进行转换以用于向处理器352提交。另外，可以提供与处理器352通信的外部接口362，以便使得移动计算设备350能够与其他设备进行近区域通信。例如，以太接口363在一些实施方式中可以提供有线通信，或者在其他实施方式中提供无线通信，并且还可以使用多个接口。

存储器364存储移动计算设备350内的信息。存储器364可以被实施为一个或多个计算机可读介质或媒体、一个或多个易失性存储器单元、或者一个或多个非易失性存储器单元。也可以提供扩展存储器374并通过扩展接口372连接至设备350，例如，该扩展接口可以包括SIMM(Single In Line Memory Module，单列直插内存模块)卡接口。扩展存储器374可以为移动计算设备350提供额外的存储空间，或者还可以存储用于移动计算设备350的应用和其他信息。具体地，扩展存储器374可以包括指令以执行或补充以上所描述的过程，并且还可以包括安全信息。因此，例如，扩展存储器374可以作为移动计算设备350的安全模块来提供，并且可以被编程有许可对移动计算设备350进行安全使用的指令。另外，安全应用连同附加信息可以经由SIMM卡来提供，诸如以不可非法侵入的方式在SIMM卡上设置标识信息。

如以下所讨论的，例如，存储器可以包括闪存和/或NVRAM存储器(non-volatilerandom access memory，非易失性随机存取存储器)。在一些实施方式中，指令被存储在信息载体中。该指令当被一个或多个处理设备(例如，处理器352)执行时，执行诸如以上所描述的那些方法中的一种或多种方法。该指令还能够被诸如一个或多个计算机可读或机器可读介质的一个或多个存储设备(例如，存储器364、扩展存储器374、或者处理器352上的存储器)所存储。在一些实施方式中，例如，该指令能够通过收发器368或外部接口362来以传播信号的方式被接收。

在必要的情况下，移动计算设备350可以通过通信接口366来无线地通信，该通信接口366可以包括数字信号处理电路。通信接口366可以提供在各种模式或协议下的通信，诸如GSM语音通话(Global System for Mobile communication，全球移动通信***)、SMS(Short Message Service，短消息服务)、EMS(Enhanced Messaging Service，增强型消息服务)、或MMS消息(Multimedia Messaging Service，多媒体消息服务)、CDMA(codedivision multiple access，码分多址)、TDMA(time division multiple access，时分多址)、PDC(Personal Digital Cellular，个人数字蜂窝)、WCDMA(Wideband Code DivisionMultiple Access，宽带码分多址)、CDMA2000、或GPRS(General Packet Radio Service，通用分组无线电服务)、以及其他。例如，这样的通信可以通过收发器368使用射频来发生。另外，诸如使用蓝牙、WiFi、或其他这样的收发器(未示出)可以发生短距离通信。另外，GPS(全球定位***)接收器模块370可以向移动计算设备350提供附加的导航相关和位置相关的无线数据，该无线数据可由在移动计算设备350上运行的应用视情况使用。

移动计算设备350还可以使用音频编解码器360可听地通信，该音频编解码器360可以从用户接收口头信息并将其转换成可用的数字信息。音频编解码器360同样可以诸如通过扬声器为用户生成可听声音，例如，在移动计算设备350的手机中。这种声音可以包括来自语音电话呼叫的声音，可以包括记录的声音(例如，语音消息、音乐文件等)并且还可以包括由在移动计算设备350上运行的应用生成的声音。

如图所示，移动计算设备350可以以多种不同的形式来实施。例如，移动计算设备350可以被实施为蜂窝电话380。移动计算设备350也可以被实施为智能电话382、个人数字助理或其他类似移动设备的一部分。

这里所描述的***和技术的各种实施方式可以以数字电子电路、集成电路、专门设计的ASIC(application specific integrated circuit，专用集成电路)、计算机硬件、固件、软件、和/或以上的组合来实现。这些各种实施方式可以包括一个或多个计算机程序中的实施方式，该计算机程序可以在包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备的可编程***上执行和/或解释，该可编程处理器是专用或通用的，被耦合以从存储***接收数据和指令以及向存储***发送数据和指令。

这些计算机程序(也被称作程序、软件、软件应用、或代码)包括用于可编程处理器的机器指令，并且可以以高级程序语言和/或面向对象的编程语言、和/或汇编/机器语言来实施。如本文所使用的，术语机器可读介质和计算机可读介质是指被用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(Programmable Logic Device，PLD))，包括接收作为机器可读信号的机器指令的机器可读介质。术语机器可读信号是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里所描述的***和技术可在具有下述的计算机上实施：用于向用户显示信息的显示设备(例如，CRT(cathode ray tube，阴极射线管)或LCD(liquid crystal display，液晶显示器)监视器)，以及用户通过其可以向计算机提供输入的键盘和指示设备(例如，鼠标或轨迹球)。还可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以为任何形式的感官反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以以任何形式来接收来自用户的输入，该形式包括声音、语音、或触觉输入。

这里所描述的***和技术可以以计算***来实施，该计算***包括：后端组件(例如，作为数据服务器)，或者包括中间组件(例如，应用服务器)，或者包括前端组件(例如，具有用户通过其可以与这里所描述的***和技术的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机)，或者这样的后端、中间件、或前端组件的任何组合。该***的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(local area network，LAN)、广域网(wide area network，WAN)、和互联网。

计算***能够包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系借助在各自计算机上运行并且彼此具有客户端—服务器关系的计算机程序产生。

虽然上文中已经详细描述了一些实施方式，但是其他修改也是可能的。例如，虽然客户端应用被描述为访问(多个)委托，但是在其他实施方式中，(多个)委托可以被一个或多个处理器所实施的其他应用(诸如在一个或多个服务器上运行的应用)所采用。另外，在图中所描绘的逻辑流不需要所示出的特定顺序或连续顺序来实现所期望的结果。另外，可以提供其他动作，或者可以从所描述的流中消除动作，并且可以向所描述的***添加其他组件或者从其去除其他组件。因此，其他实施方式在以下的权利要求书的范围之内。

Claims

1.一种计算机实施的方法，包括：

由计算设备接收与媒体内容项的回放相对应的音频；

由所述计算设备确定所述音频包括预定义热词的话语以及确定所述音频包括音频水印；

由所述计算设备分析所述音频水印；以及

基于对所述音频水印进行分析，由所述计算设备确定是否对随所述预定义热词之后的音频部分执行语音识别。

2.根据权利要求1所述的方法，其中：

分析所述音频水印包括将所述音频水印与一个或多个音频水印进行比较，以及

确定是否对随所述预定义热词之后的音频部分执行语音识别还基于将所述音频水印与一个或多个音频水印进行比较。

3.根据权利要求1或权利要求2所述的方法，其中，所述音频水印是与媒体内容项的回放相对应的音频的听不见的部分。

4.根据前述权利要求中任一项所述的方法，包括：

基于对所述音频水印进行分析，标识与媒体内容项的回放相对应的音频源，

其中，确定是否对随所述预定义热词之后的音频部分执行语音识别还基于与媒体内容项的回放相对应的音频源。

5.根据前述权利要求中任一项所述的方法，包括：

基于对所述音频水印进行分析，标识与媒体内容项的回放相对应的音频源；以及

更新日志文件以指示与媒体内容项的回放相对应的音频源。

6.根据前述权利要求中任一项所述的方法，其中，所述音频水印被包括在包括所述预定义热词的话语的音频部分中。

7.根据前述权利要求中任一项所述的方法，包括：

确定附加计算设备的类型，

其中，确定是否对随所述预定义热词之后的音频部分执行语音识别还基于所述附加计算设备的类型。

8.根据前述权利要求中任一项所述的方法，其中：

由所述计算设备确定是否对随所述预定义热词之后的音频部分执行语音识别包括确定对随所述预定义热词之后的音频部分执行语音识别，以及

所述方法还包括：

由自动语音识别器生成随所述预定义热词之后的音频转录；以及

执行对应于随所述预定义热词之后的音频转录的动作。

9.根据权利要求1至7中任一项所述的方法，其中：

由所述计算设备确定是否对随所述预定义热词之后的音频部分执行语音识别包括确定不对随所述预定义热词之后的音频部分执行语音识别，以及

所述方法还包括：

抑制对应于与媒体内容项的回放相对应的音频的动作。

10.根据前述权利要求中任一项所述的方法，包括：

确定附加计算设备的位置，

其中，确定是否对随所述预定义热词之后的音频部分执行语音识别还基于所述附加计算设备的位置。

11.根据前述权利要求中任一项所述的方法，包括：

确定附加计算设备的用户设置，

其中，确定是否对随所述预定义热词之后的音频部分执行语音识别还基于所述附加计算设备的用户设置。

12.根据前述权利要求中任一项所述的方法，其中，由所述计算设备确定所述音频包括预定义热词的话语以及确定所述音频包括音频水印包括：

确定所述音频包括预定义热词的话语；以及

基于确定所述音频包括预定义热词的话语，确定所述音频包括所述音频水印。

13.根据权利要求1至12中任一项所述的方法，其中，由所述计算设备确定所述音频包括预定义热词的话语以及确定所述音频包括音频水印包括：

确定所述音频包括预定义热词的话语；以及

在确定所述音频包括预定义热词的话语之后，确定所述音频包括所述音频水印。

14.根据前述权利要求中任一项所述的方法，其中：

分析所述音频水印包括提取编码在音频水印中的数据，以及

确定是否对随所述预定义热词之后的音频部分执行语音识别还基于所述编码在音频水印中的数据。

15.根据前述权利要求中任一项所述的方法，包括：

基于对所述音频水印进行分析，标识与媒体内容项的回放相对应的音频的媒体内容的类型；以及

更新日志文件以指示与媒体内容项的回放相对应的音频的媒体内容的类型。

16.根据前述权利要求中任一项所述的方法，包括：

基于对所述音频水印进行分析，标识与媒体内容项的回放相对应的音频的媒体内容的类型，

其中，确定是否对随所述预定义热词之后的音频部分执行语音识别还基于与媒体内容项回放相对应的音频的媒体内容的类型。

17.根据前述权利要求中任一项所述的方法，包括：

基于对所述音频水印进行分析，由所述计算设备确定是否对随所述预定义热词之后的音频部分执行自然语言处理。

18.一种***，包括：

一个或多个计算机；以及

一个或多个存储设备，其存储指令，所述指令当由所述一个或多个计算机执行时可操作，使得所述一个或多个计算机执行根据前述权利要求中任一项所述的方法。

19.一种计算机可读指令，其可选地被存储在非暂时性计算机可读介质上，可由一个或多个计算机执行所述指令，在这样执行时，使得所述一个或多个计算机执行根据权利要求1至17中任一项所述的方法。