CN113138743B

CN113138743B - 使用音频水印的关键词组检测

Info

Publication number: CN113138743B
Application number: CN202110376125.4A
Authority: CN
Inventors: R.A.加西亚
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-11-28
Filing date: 2018-08-03
Publication date: 2022-10-14
Anticipated expiration: 2038-08-03
Also published as: US10276175B1; EP3828741A1; US11211076B2; US11727947B2; EP3664091A1; EP3664091B1; US20220093114A1; JP2021071733A; JP2020526781A; CN110692055A; JP7160967B2; EP3529804B1; EP4202737A1; US20200372922A1; JP6883119B2; KR20220027251A; KR102469262B1; EP3828741B1; CN113138743A; KR20190141767A

Abstract

方法、***和装置，包括编码在计算机存储介质上的计算机程序，用于与关键词组一起使用音频水印。该方法中的一种包括：在回放设备的数据处理硬件处从内容提供商接收与音乐内容或视频内容中的一个对应的音频数据流，其中，所述回放设备通过除麦克风之外的无线输入连接从内容提供商接收音频数据流；由数据处理硬件通过如下步骤创建修改的音频数据流：动态地生成对指示源自内容提供商的音频数据流的数据进行编码的多个音频水印；以及将动态地生成的多个音频水印***音频数据流以创建修改的音频数据流；以及由数据处理硬件提供修改的音频数据流以用于通过与所述数据处理硬件通信的扬声器输出。

Description

使用音频水印的关键词组检测

本申请是申请日为2018年8月3日、申请号为201880036483.7、发明名称为“使用音频水印的关键词组检测”的发明专利申请的分案申请。

技术领域

本申请一般地涉及使用音频水印的关键词组检测。

背景技术

自动语音识别是一种在各种不同的设备中使用的技术。这种技术的一个任务是能够使用语音命令唤醒设备并与该设备进行基本的语音交互。例如，在设备处于休眠状态时，可能期望设备识别示意设备应当激活的“热词”。

发明内容

在一些实施方式中，回放设备可以针对热词、关键词或关键词组分析音频流。在检测到热词、关键词或关键词组之后，回放设备将音频水印添加到音频流。侦听设备(其捕获回放设备对音频流的呈现)使用音频水印确定在检测到热词、关键词或关键词组时是否执行动作。当侦听设备确定检测到的热词、关键词或关键词组与音频流中的音频水印关联时，侦听设备确定不响应于检测到的热词、关键词或关键词组执行任何动作，例如，因为检测到的热词、关键词或关键词组是预先记录的话语而不是由侦听设备附近的物理区域中的人说出。当侦听设备确定检测到的热词、关键词或关键词组与音频流中的音频水印不相关联时，侦听设备执行对应的动作，例如，因为检测到的热词、关键词或关键词组可能是由侦听设备附近的物理区域中的人说出的。

总体上，本说明书中描述的主题的一个创新方面可以体现在方法中，该方法包括以下动作：由回放设备接收音频数据流；在由回放设备输出音频数据流之前，通过使用自动语音识别器分析音频数据流的一部分来确定该一部分是否编码特定的关键词组；响应于确定音频数据流的该一部分编码特定的关键词组，修改音频数据流以包括音频水印；和提供修改的音频数据流以供输出。在一些实施方式中，回放设备可以通过以下方式响应于确定音频数据流的该一部分不编码特定的关键词组：基于音频数据流的不编码特定的关键词组的一部分，确定跳过用于包括音频水印的对音频数据流的修改；和在基于音频数据流的不编码特定的关键词组的一部分确定跳过用于包括音频水印的对音频数据流的修改之后，提供音频数据流以供输出。该方面的其他实施例包括对应的计算机***、装置和记录在一个或多个计算机存储设备上的计算机程序，它们均被配置为执行方法的动作。一个或多个计算机的***可以被配置为通过在***上安装软件、固件、硬件或它们的组合来执行特定的操作或动作，该软件、固件、硬件或它们的组合在操作时使***执行动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定的操作或动作，所述指令在由数据处理装置执行时使该装置执行动作。

总体上，本说明书中描述的主题的一个创新方面可以体现在方法中，所述方法包括以下动作：接收音频数据流；在由一个或多个计算机输出音频数据流之前，通过使用自动语音识别器分析音频数据流的一部分来确定该一部分是否编码特定的关键词组；响应于确定音频数据流的该一部分不编码特定的关键词组，基于音频数据流的不编码特定的关键词组的该一部分，确定跳过跳过用于包括音频水印的对音频数据流的修改；和在基于音频数据流的不编码特定的关键词组的该一部分确定跳过用于包括音频水印的对音频数据流的修改之后，提供音频数据流以供输出。该方面的其他实施例包括对应的计算机***、装置和记录在一个或多个计算机存储设备上的计算机程序，它们均被配置为执行方法的动作。一个或多个计算机的***可以被配置为通过在***上安装软件、固件、硬件或它们的组合来执行特定的操作或动作，该软件、固件、硬件或它们的组合在操作时使***执行动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定的操作或动作，所述指令在由数据处理装置执行时使该装置执行动作。

前述实施例和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。修改音频数据流以包括音频水印可以包括：确定接收的音频数据流是否包括特定的关键词组的水印；和响应于确定接收的音频数据流不包括特定的关键词组的水印，修改音频数据流以包括音频水印。修改音频数据流以包括音频水印可以包括：确定接收的音频数据流是否包括特定的关键词组的水印；和响应于确定接收的音频数据流包括特定的关键词组的水印，通过分析编码在水印中的数据来确定特定数据是否被编码在水印中；和响应于确定特定数据不被编码在水印中，修改音频数据流以包括编码特定数据的音频水印。修改音频数据流以包括编码特定数据的音频水印可以包括：修改来自接收的音频数据流的水印以编码特定数据。特定数据可以是特定的关键词组的数据。特定数据可以是音频数据流的源的数据。特定数据可以是关于编码在音频数据流中的内容的数据。

在一些实施方式中，该方法可以包括：在由回放设备输出音频数据流之前，通过使用自动语音识别器分析音频数据流的第二部分来确定第二部分是否编码特定的关键词组的出现；响应于确定音频数据流的第二部分编码特定的关键词组，确定接收的音频数据流是否包括特定的关键组的出现的水印；响应于确定接收的音频数据流包括特定的关键词组的出现的水印，通过分析编码在水印中的数据来确定特定数据是否被编码在水印中；和响应于确定特定数据不被编码在水印中，修改音频数据流以包括编码特定数据的音频水印。该方法可以包括：在由回放设备输出音频数据流之前，通过使用自动语音识别器分析音频数据流第二部分，确定第二部分是否编码特定的关键词组的出现；响应于确定音频数据流的第二部分编码特定的关键词组，确定接收的音频数据流是否包括特定的关键词组的出现的水印；响应于确定接收的音频数据流包括特定的关键词组的出现的水印，确定跳过用于包括音频水印的对音频数据流的修改。

在一些实施方式中，该方法可以包括：与在由回放设备播放音频数据流之前、通过使用自动语音识别器分析音频数据流的一部分来确定该一部分是否编码特定的关键词组同时地接收音频数据流的另一部分。特定的关键词组可以是固定的。该方法可以包括：在由回放设备播放音频数据流之前、通过使用自动语音识别器分析音频数据流的该一部分来确定该一部分是否编码特定的关键词组之前，接收定义特定的关键词组的输入。接收音频数据流可以包括：在提供修改的音频数据流的该一部分供输出之前，通过除麦克风之外的有线或无线输入连接来接收音频数据流。

在一些实施方式中，修改音频数据流以包括音频水印可以包括：修改音频数据流以包括标识音频数据流的源的音频水印。修改音频数据流以包括音频水印可以包括：修改音频数据流以包括音频水印，该音频水印包括指定特定的关键词组被编码在音频数据流的所该一部分中的数据。修改音频数据流以包括音频水印可以包括：修改音频数据流以包括音频水印，该音频水印包括指定关键词组被编码在音频数据流的该一部分中的数据。

本说明书中描述的主题可以在各种实施例中实现，并且可以导致以下优点中的一个或多个。在一些实施方式中，以下描述的***和方法可以向包括热词、关键词或关键词组的音频数据流添加音频水印，以降低侦听设备将基于热词、关键词或关键词组执行动作的可能性。例如，以下描述的***和方法在侦听设备仅应基于物理上在侦听设备附近的人(例如，在最初说出话语时与侦听设备位于同一房间的人)说出的话语触发时，可以使用音频水印来防止侦听设备基于音频数据流中包含的内容而错误地触发(例如，唤醒或执行其他动作)。侦听设备的错误触发导致不必要地消耗计算资源(例如带宽，处理能力等)。这样，通过减少错误触发的发生，还可以减少不必要的计算资源消耗。在一些实施方式中，以下描述的***和方法可以将音频水印添加到音频数据流，以降低侦听设备将基于回放设备所再现的话语执行动作的可能性，而不管话语是预先记录的、实时流式传输的、由回放设备合成地创建的还是这些中的两个或更多个的组合。

本说明书中描述的主题的另一个创新方面可以体现为一种方法，包括：在回放设备的数据处理硬件处从内容提供商接收与音乐内容或视频内容中的一个对应的音频数据流，其中，所述回放设备通过除麦克风之外的无线输入连接从内容提供商接收音频数据流；由数据处理硬件通过如下步骤创建修改的音频数据流：动态地生成对指示源自内容提供商的音频数据流的数据进行编码的多个音频水印；以及将动态地生成的多个音频水印***音频数据流以创建修改的音频数据流；以及由数据处理硬件提供修改的音频数据流以用于通过与所述数据处理硬件通信的扬声器输出。

本说明书中描述的主题的另一个创新方面可以体现为一种回放设备，包括：数据处理硬件；以及与所述数据处理硬件通信并存储指令的存储器硬件，所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行操作，所述操作包括：从内容提供商接收与音乐内容或视频内容中的一个对应的音频数据流，其中，所述回放设备通过除麦克风之外的无线输入连接从内容提供商接收音频数据流；通过如下步骤创建修改的音频数据流：动态地生成对指示源自内容提供商的音频数据流的数据进行编码的多个音频水印；以及将动态地生成的多个音频水印***音频数据流以创建修改的音频数据流；以及提供修改的音频数据流以用于通过与所述数据处理硬件通信的扬声器输出。

本说明书中描述的主题的另一个创新方面可以体现为一种计算机实现的方法，包括：接收音频数据流；通过使用自动语音识别器分析所述音频数据流的一部分来确定所述一部分是否编码特定的关键词组；响应于确定所述音频数据流的所述一部分编码所述特定的关键词组，修改所述音频数据流以包括音频水印，所述音频水印包括指定所述特定的关键词组被编码在所述音频流的所述一部分中的数据；以及提供修改的音频数据流以供输出。

本说明书中描述的主题的另一个创新方面可以体现为一种***，包括：一个或多个计算机和存储可操作的指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时，使所述一个或多个计算机执行操作，所述操作包括：接收音频数据流；通过使用自动语音识别器分析所述音频数据流的一部分来确定所述一部分是否编码特定的关键词组；响应于确定所述音频数据流的所述一部分编码所述特定的关键词组，修改所述音频数据流以包括音频水印，所述音频水印包括指定所述特定的关键词组被编码在所述音频流的所述一部分中的数据；以及提供修改的音频数据流以供输出。

本说明书中描述的主题的一个或多个实施方式的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是在其中回放设备分析音频数据流以确定音频数据流的一部分是否包括热词、关键词或关键词组的示例环境。

图2是用于基于关键词组检测来修改音频数据流的过程的流程图。

图3是可以与本文档中描述的计算机实现的方法结合使用的计算***的框图。

各附图中同样的参考数字和标记指示同样的要素。

具体实施方式

回放设备可以接收音频数据流，例如第三方内容，并且针对关键词组分析音频数据流。回放设备可以使用文本检测器、热词检测器、或这两者来分析音频数据流。当回放设备基于分析确定音频数据流编码热词、关键词或关键词组时，回放设备将音频水印***音频数据流。音频水印可以是编码在音频数据流中的超声信号。然后，回放设备例如使用扬声器可听地呈现修改的音频数据流。音频水印可以向捕获修改的音频数据流的任何侦听设备指示编码的热词、关键词或关键词组是由另一设备而不是在房间(例如，其包括侦听设备)中说话的人类产生的。

在一些实施方式中，回放设备可以包括水印检测器。回放设备可以使用水印检测器来确定所接收的音频数据流是否包括水印。当回放设备确定音频数据流尚未包括水印时，回放设备将音频水印***音频数据流。当回放设备确定所接收的音频数据流包括水印时，回放设备确定是否添加另一水印，例如音频水印。例如，回放设备可以确定包括在接收的音频数据流中的水印标识什么内容。当包括的水印表示除了热词、关键词或关键词组之外的其他内容时，回放设备可以将音频水印添加到音频数据流。当包括的水印表示回放设备正在针对其分析音频数据流的热词、关键词或关键词组时，回放设备可以确定不向接收的音频数据流添加另一水印。

图1是在其中回放设备102分析音频数据流114以确定音频数据流114的一部分是否包括热词、关键词或关键词组的示例环境100。在本文中，术语“关键词组(key phrase)”通常被理解为除了关键词组之外还包括“关键词(keyword)”和“热词(hotword)”。关键词组的一些示例包括唤醒命令、激活命令或执行特定动作(例如，发起电话呼叫或启动应用)的命令。

作为回放设备102的电视可以接收电影的视频流。电视可以使用自动语音识别器106针对视频流分析音频数据流114，并确定音频数据流114是否编码热词。当电视检测到编码在音频中的热词时，电视在音频数据流116中编码与检测到的热词关联的音频水印118。当作为侦听设备124的智能电话位于电视附近(例如，在与电视相同的房间中)时，智能电话可以分析声音，包括电影的音频，以确定声音是否是将会导致智能电话执行特定动作的热词的话语(utterance)。例如，侦听设备124可以在检测到热词时从休眠状态唤醒，例如从低功率使用状态转变为较高功率使用状态。当智能电话检测到关键词的话语时，智能电话确定该话语是否与音频水印关联。例如，当智能电话在电影的音频数据流116中检测到热词时，智能电话还将检测到电视添加到音频数据流116的音频水印118，并且基于检测到热词和音频水印118，确定维持休眠状态、执行与检测到热词和对应的音频水印关联的另一动作、或这两者。其他动作可以包括与音频不包括针对热词的音频水印的情况下的动作不同的任何类型的动作，例如，记录检测或记录在侦听设备的屏幕上呈现的通用资源定位符、或同时记录这两者。当智能电话检测到不与音频水印关联的热词的话语(例如，用户说出的话语)时，智能电话将从休眠状态中唤醒，例如进入更高功率的模式。

回放设备102包括访问用于分析的内容的内容获取(retrieval)模块104。内容获取模块104可以包括有线输入、无线无线电收发装置(wireless radio)，无线电接收器或内容获取模块104用以访问音频数据流114的存储器。例如，当内容获取模块104包括有线输入时，内容获取模块104可以使用线路从有线电视连接或连接到回放设备102的另一设备接收音频数据流114。当内容获取模块104包括无线无线电收发装置时，内容获取模块104可以从例如经由网络无线地连接到回放设备102的设备接收音频数据流114。例如，内容获取模块104可以从另一设备接收音频数据流114作为音频流或音频和视频流，例如直播流、合成创建的流、或这两者。当内容获取模块104包括无线电接收器时，内容获取模块104可以接收音频数据流114作为无线电广播(例如，调幅(AM)或调频(FM)无线电广播)的一部分。当内容获取模块104包括存储器时，内容获取模块104可以访问作为存储在存储器中的音频文件或音频和视频文件(例如存储在存储器中的预先记录的音频或视频文件)的一部分的音频数据流114。存储器可以集成到回放设备102中，例如，硬盘驱动器或闪存驱动器，或者可以是可移动存储单元，例如通用串行总线闪存驱动器或紧凑式盘或数字通用盘。

内容获取模块104将音频数据流114的至少一部分提供给自动语音识别器106(ASR)。可以对自动语音识别器106进行编程(例如在软件时)，或者进行设计(例如在硬件时)或进行编程和设计，以检测编码在音频数据流中的词或词组。自动语音识别器106可以检测特定语言中的特定关键词组，而不能检测特定语言中所有词的出现。

在一些示例中，代替自动语音识别器106或除了自动语音识别器106之外，回放设备102可以使用检测一个或多个热词但不能检测特定语言中的每个词的自动热词检测模块。自动语音识别器106、自动热词检测模块、或这两者都可以由管理员针对特定热词进行预编程。热词可以包括单个词或包括多个词的词组。

在一些示例中，除了回放设备102针对其分析音频数据流的特定热词、关键词、关键词组或这些中的两个或更多个的组合之外，自动语音识别器106可以检测编码在音频数据流中的多个不同词的出现。例如，可以训练自动语音识别器106以检测特定语言中的词，包括热词、关键词或关键词组。

自动语音识别器106可以在接收音频数据流114的至少一部分之前，接收标识自动语音识别器106针对其分析音频数据流114的热词、关键词或关键词组的输入。例如，回放设备102可以接收标识自动语音识别器106将针对其分析音频数据流的关键词组的用户输入。在一些示例中，回放设备102可以从例如智能电话的另一设备接收输入，该输入标识自动语音识别器106将针对其分析音频数据流的关键词组。

自动语音识别器106分析音频数据流114的至少一部分，以确定音频数据流114的一部分是否编码针对其自动语音识别器106被配置为进行检测的热词、关键词或关键词组。例如，当内容获取模块104接收音频数据流114的一部分并将音频数据流114的该一部分提供给自动语音识别器106时，自动语音识别器106针对热词、关键词或关键词组的编码出现分析音频数据流114的该一部分，其中，自动语音识别器106被配置为针对该热词、关键词或关键词组进行检测。当自动语音识别器106确定音频数据流114的一部分是否编码热词、关键词或关键词组时，内容获取模块104可以继续接收音频数据流114的其他部分。

当自动语音识别器106检测到在音频数据流114的一部分中出现热词、关键词或关键词组时，自动语音识别器106向水印编码模块108提供消息。该消息可以标识音频数据流的编码检测到的热词、关键词或关键词组的部分。

响应于消息的接收，水印编码模块108将音频水印118***音频数据流114以创建修改的音频数据流116。当消息标识音频数据流114的编码热词、关键词或关键词组的第一部分120时，水印编码模块108可以将音频水印118***音频数据流114的与第一部分120关联的第二部分122。第二部分122可以是第一部分120的子部分，例如，如图1中所示。第二部分122可以与第一部分120重叠，例如，第二部分122可以包括来自音频数据流114的在第一部分120的开始之前和包括该开始、第一部分120的结束之后和包括该结束、或这两者的数据。第二部分122可以在第一部分120开始之前被包括在音频数据流114中。第二部分122可以与第一部分120相邻，在这两个部分之间没有间隙。第二部分122可以不与第一部分120重叠。在一些实施方式中，第二部分122可以在第一部分120之后。

水印编码模块108可以在修改的音频数据流116中包括音频水印的单个实例。水印编码模块108可以在修改的音频数据流116中包括多个音频水印。多个音频水印中的每一个可以编码相同的数据。在一些示例中，多个音频水印中的一些可以编码不同的数据。

在一些实施方式中，回放设备102可以在音频水印118中编码附加数据。附加数据可以指示回放设备102的类型，例如，电视、立体声接收器或计算机；时间戳，例如，回放设备102何时将音频水印***到音频数据流或回放设备102何时接收音频数据流114；或音频数据流114的源，例如电视台、无线电台、电影名称或播客名称。当确定要执行动作时，侦听设备124可以使用该附加数据。

音频水印可以标识音频数据流的源。例如，音频水印可以指示回放设备102从内容提供商(例如，特定无线电台、电视台、有线电视(cable)提供商或其他特定内容提供商)接收音频数据流。

音频水印可以标识编码在音频数据流114中的特定热词、关键词或关键词组。例如，音频水印可以包括热词、关键词或关键词组的标识符。标识符可以是任何适当类型的标识符。标识符可以是与热词、关键词或关键词组对应的数字值。标识符可以是与热词、关键词或关键词组对应的字母数字值，例如，对应的热词、关键词或关键词组的文本。

在一些实施方式中，音频水印可以包括指定编码在音频数据流114中的热词、关键词或关键词组的数据。例如，该数据可以一般地指定热词、关键词或关键词组被编码在音频数据流114中，而不标识特定的编码的热词、关键词或关键词组。

在水印编码模块108将音频水印118***音频数据流114之后，回放设备102可以提供修改的音频数据流116以进行输出。例如，当音频数据流114是视频文件的一部分时，回放设备102可以使用一个或多个输出设备(例如，显示器110、扬声器112、或这两者)来呈现修改的音频数据流116。例如，回放设备102可以将修改的音频数据流116提供给扬声器112，以使扬声器112呈现修改的音频数据流116。回放设备102可以将对应的视频流提供给显示器110以进行呈现。

扬声器112可以集成到回放设备102中，或者在回放设备102外部并连接到回放设备102。例如，扬声器112可以是回放设备102的一部分。在一些示例中，扬声器112可以使用无线连接(例如，蓝牙或另一无线网络连接)连接到回放设备102。扬声器112可以使用一个或多个线路(例如可选地使用立体声接收器或另一设备)连接到回放设备102。在一些实施方式中，扬声器112可以使用数字音频和视频连接而连接到回放设备102。例如，回放设备102可以是连接到包括扬声器112的电视或接收器的通用串行总线设备。

回放设备102可以将视频流的呈现与修改的音频数据流116同步。例如，回放设备102可以确保扬声器112呈现修改的音频数据流116，同时显示器110同时呈现视频流的对应视频部分。回放设备102可以使用任何适当的方法以将音频水印118并入修改的音频数据流116中，以将对应的视频流的呈现与修改的音频数据流116进行同步，或这两者。

当自动语音识别器106确定音频数据流114的一部分不编码针对其自动语音识别器106被配置为进行检测的热词、关键词或关键词组时，自动语音识别器106确定不向水印编码模块108提供关于音频数据流114的该一部分的消息。在一些示例中，自动语音识别器106确定回放设备102应当提供音频数据流114以供输出而不进行修改。不向水印编码模块108提供所述消息允许回放设备102提供音频数据流114的该一部分以供输出而不进行修改，例如，当音频数据流114的该一部分与编码热词、关键词或关键词组的另一部分不相邻时。

侦听设备124可以捕获音频数据流114、修改的音频数据流116、或这两者的被呈现部分。例如，侦听设备124可以包括麦克风126，该麦克风126捕获包括在回放设备102中的扬声器112对音频数据流的呈现。

侦听设备124将捕获的音频数据流的一部分提供给关键词组检测模块128。关键词组检测模块128可以是自动语音识别器。关键词组检测模块128可以是自动热词检测模块，例如，被编程为仅检测几个特定的热词。在一些示例中，关键词组检测模块128可以被编程为检测多个不同的关键词组。

关键词组检测模块128分析捕获的音频数据流的一部分，以确定捕获的音频数据流的该一部分是否编码针对其关键词组检测模块128被配置为进行检测的热词、关键词或关键词组。当关键词组检测模块128确定捕获的音频数据流的该一部分不编码针对其关键词组检测模块128被配置为进行检测的热词、关键词或关键词组时，关键词组检测模块128可以确定停止分析捕获的音频数据流的该一部分、侦听设备124不应基于捕获的音频数据流的该一部分执行动作、或这两者。例如，侦听设备124可以确定不基于捕获的音频数据流的该一部分来执行动作，因为捕获的音频数据流的该一部分可能是音频数据流114的未修改部分，例如，其不编码任何热词、关键词或关键词组、或可能编码针对其关键词组检测模块128不被配置为进行检测的热词、关键词或关键词组、或这两者。在一些示例中，确定不执行动作可以包括基于对关键词组的检测来确定例如维持休眠状态并且不退出休眠状态。

确定不响应于检测到的关键词组执行动作可以允许侦听设备124节省计算资源，例如电池、处理器周期、存储器或这些中的两个或更多个的组合。例如，如果侦听设备124响应于检测到的关键词组而唤醒或执行动作，则侦听设备124可以激活消耗一个或多个计算资源的附加软件应用、硬件功能、或这两者。在唤醒模式下，侦听设备124可以触发侦听在检测到的关键词组之后说出的附加关键词组的过程，并分析这些附加关键词组以确定它们是否包括用于侦听设备124的命令。通过在检测到关键词组和音频水印时不执行动作(例如，通过维持休眠状态)并且通过不错误地触发，侦听设备124可以节省一个或多个计算资源。

当关键词组检测模块128确定捕获的音频数据流的一部分编码针对其关键词组检测模块128被配置为进行检测的热词、关键词或关键词组，侦听设备124将捕获的音频数据流的该一部分的数据提供给水印检测模块130。关键词组检测模块128可以向水印检测模块130提供消息，该消息指示水印检测模块130应当分析捕获的音频数据流。在一些示例中，关键词组检测模块128可以向侦听设备124中的另一组件提供消息，并且该另一组件可以触发水印检测模块130对捕获的音频数据流进行分析。

响应于消息的接收或由其他组件的触发，水印检测模块130接收捕获的音频数据流中的一些。水印检测模块130可以接收关键词组检测模块128确定为包括针对其关键词组检测模块128被配置为进行检测的热词、关键词或关键词组的一部分。在一些示例中，水印检测模块130可以接收捕获的音频数据流的另一部分，例如，其被包括在音频数据流中在关键词组检测模块128确定为包括热词、关键词或关键词组的一部分附近、与该一部分相邻或重叠。

水印检测模块130分析捕获的音频数据流，以确定捕获的音频数据流是否包括关键词组检测模块128在捕获的音频数据流中检测到的热词、关键词或关键词组的音频水印。当水印检测模块130确定捕获的音频数据流包括热词、关键词或关键词组的音频水印时，侦听设备124基于热词、关键词或关键词组确定不执行动作。例如，侦听设备124可以确定保持在休眠状态、不从低功率使用状态改变为高功率使用状态、或这两者。在一些示例中，当水印检测模块130检测到热词、关键词或关键词组的音频水印时，水印检测模块130可以向侦听设备124提供指示检测到音频水印的消息。侦听设备124可以使用来自水印检测模块130的消息来确定不执行动作，例如，结合从关键词组检测模块128接收的指示检测到热词、关键词或关键词组的消息。侦听设备124可以使用来自水印检测模块130的消息来确定在侦听设备附近的物理区域中的人不太可能说出检测到的热词、关键词或关键词组，并且不执行特定于检测到的热词、关键词或关键词组的动作。

在一些实施方式中，侦听设备124可以基于检测到关键词组和对应的音频水印来执行动作。该动作可以特定于音频水印或特定于关键词组和音频水印的组合，但不仅特定于关键词组。例如，侦听设备124可以基于在修改的音频数据流116中检测到音频水印118或者基于在修改的音频数据流116中检测到音频水印118和关键词组来确定记录数据。侦听设备124可以使用水印118的实际内容来确定动作，例如可以存储来自音频水印的信息，例如内容的原始源、音频水印118、或这两者，以供将来使用。

当水印检测模块130未检测到热词、关键词或关键词组的音频水印时，侦听设备124可以针对检测到的热词、关键词或关键词组执行动作。该动作可以是侦听设备124的激活、从低功率使用状态到高功率使用状态的改变或者特定于检测到的热词、关键词或关键词组的另一动作。

例如，侦听设备124可以从关键词组检测模块128接收消息，该消息指示关键词组检测模块128检测到编码在麦克风126捕获的音频数据流中的热词、关键词或关键词组。侦听设备124可以向水印检测模块130发送激活消息，该激活消息使水印检测模块130针对检测到的热词、关键词或关键词组的音频水印分析音频数据流。当水印检测模块130未检测到热词、关键词或关键词组的音频水印时，水印检测模块130可以向侦听设备124发送指示未检测到音频水印的消息。侦听设备124可以使用来自关键词组检测模块128和水印检测模块130的消息来确定侦听设备附近的物理区域中的人可能会说出检测到的热词、关键词或关键词组，并且执行与检测到的热词、关键词或关键词组对应的动作。

在一些实施方式中，回放设备102可以包括水印检测模块。回放设备102可以使用水印检测模块来确定在音频数据流114中检测到热词、关键词或关键词组时是否向音频数据流114添加音频水印。例如，当自动语音识别器106检测到在音频数据流114的一部分中出现热词、关键词或关键词组时，自动语音识别器106或回放设备102将消息提供给水印检测模块。水印检测模块使用该消息来确定音频数据流114的要分析的一部分。水印检测模块分析音频数据流114的所确定的该一部分，以确定所确定的该一部分是否包括水印，例如，音频水印、视频水印、或这两者。当水印检测模块确定音频数据流114不包括水印时，回放设备102如上所述进行，例如，水印编码模块108将音频水印118***音频数据流以创建修改的音频数据流116。

当水印检测模块确定音频数据流114包括水印时，水印检测模块确定是否应该将检测到的关键词组的音频水印添加到音频数据流114。例如，水印检测模块确定检测到的水印是否与检测到的关键词组对应，例如，检测到的水印是否包括标识检测到的关键词组的数据、检测到的水印的位置是否与音频数据流114中检测到的关键词组的位置对应、或这两者。当检测到的水印的第一位置在距检测到的关键词组的第二位置阈值距离内(例如在时间上)时，第一位置可以与第二位置对应。

当水印检测模块确定检测到的水印不与检测到的关键词组对应时，回放设备102使水印编码模块108向音频数据流114添加音频水印，例如音频水印118，以创建修改的音频数据流116。例如，水印检测模块确定第一位置不在距第二位置的阈值距离内，并且作为响应，水印编码模块108将音频水印118添加到音频数据流114中。

当水印检测模块确定检测到的水印与检测到的关键词组对应但不包括该关键词组的特定数据(例如，音频数据流的源)时，回放设备102可以使水印编码模块108添加音频水印。例如，水印检测模块可以确定水印标识检测到的关键词组的文本、在位置上与音频数据流114中检测到的关键词组的位置对应或者这两者，但是不包括音频数据流的源名称。作为响应，水印检测模块可以确定回放设备102应当将具有源名称的音频水印118***音频数据流114。

当水印检测模块确定回放设备102不应将音频水印***音频数据流114时，回放设备102确定不向水印编码模块108发送关于检测到的关键词组的消息。例如，回放设备102确定不基于检测到的关键词组采取进一步的动作，例如，提供音频数据流114的编码检测到的关键词组的部分以经由扬声器112输出。

回放设备102可以是任何适当类型的设备，其例如从存储器或另一设备接收音频数据流114，并且例如使用扬声器112可听地呈现音频数据流114的至少一部分。回放设备102的一些示例可以包括电视、桌面助理、智能扬声器、智能手表、立体声接收器(例如，用于汽车或家用立体声***)、个人计算机或移动通信设备(例如，智能电话)。在一些示例中，回放设备102可以是服务器。在一些实施方式中，回放设备102可以使用请求音频数据流114的网络浏览器来接收音频数据流114。侦听设备124的一些示例可以包括个人计算机、移动通信设备、个人安全***、物联网设备和其他可以捕获(例如，使用麦克风126)回放设备102呈现的音频数据的设备。

图2是用于基于关键词组检测来修改音频数据流的过程200的流程图。例如，过程200可以由来自环境100的回放设备102使用。

回放设备接收定义特定的热词、关键词或关键词组的输入(202)。例如，回放设备可以接收定义特定的热词、关键词或关键词组的用户输入。用户输入可以是例如经由麦克风接收的语音输入。用户输入可以是例如经由键盘或遥控器接收的文本输入。在一些实施方式中，特定的热词、关键词或关键词组可以由管理员定义，例如，配置包括在回放设备中的自动语音识别器或自动热词检测模块。

在一些实施方式中，回放设备可以从另一设备接收输入。例如，回放设备可以从响应于接收编码热词的音频信号而激活的设备(例如，侦听设备124)接收输入。回放设备可以从其他设备接收输入，以允许回放设备在音频数据流中检测到时动态地确定要针对哪些热词、关键词或关键词组向音频数据流添加音频水印。

在一些实施方式中，特定的热词、关键词或关键词组可以是固定的。例如，回放设备可以具有一个或多个预定的热词、关键词或关键词组的数据。预定的热词、关键词或关键词组可以特定于特定的侦听设备或特定类型的侦听设备，例如，它们全部具有相同的操作***。在未针对接收回放设备输出的音频数据流的特定侦听设备而定制回放设备的情况下，使用固定的热词、关键词或关键词组可以允许回放设备为这些词组添加音频水印。例如，当回放设备向音频数据流添加针对特定于一组不同类型的侦听设备(例如，一组不同操作***)的热词、关键词或关键词组的音频水印时，回放设备可以降低侦听设备基于音频数据流中热词、关键词或关键词组的编码错误地触发的可能性。

在一些示例中，回放设备可以从多个源接收定义关键词组的输入。例如，回放设备可以从第一用户接收定义第一热词的用户输入并从例如由第二用户操作的侦听设备接收定义第二热词或关键词组的第二输入。回放设备可以使用第一热词和第二热词的数据来分析音频数据流，并确定是否向音频数据流添加音频水印。

回放设备接收音频数据流(204)。例如，回放设备从内容提供商接收音频数据流。内容提供商可以是任何适当类型的内容提供商。内容提供商的一些示例包括流媒体提供商、有线电视提供商和音频流提供商。

回放设备可以在提供音频数据流的一部分以供输出之前接收音频数据流。回放设备可以通过除麦克风之外的有线或无线输入连接来接收音频数据流。

回放设备确定音频数据流的一部分是否编码特定的热词、关键词或关键词组(206)。回放设备可以使用任何适当的方法、***、或这两者来确定音频数据流的一部分是否编码特定的热词、关键词或关键词组。例如，回放设备可以使用自动语音识别器来分析音频数据流的该一部分并确定该一部分是否编码热词、关键词或关键词组。

在一些示例中，回放设备可以确定多个热词、关键词、关键词组或者这些中的两个或更多个的组合中的任何一个是否编码在音频数据流中。例如，回放设备可以确定音频数据流的一部分是否编码特定关键词或特定关键词组。

回放设备可以与在由回放设备输出音频数据流之前通过使用自动语音识别器分析音频数据流的该一部分来确定该一部分是否编码特定的热词、关键词或关键词组的同时地接收音频数据流的另一部分。例如，回放设备可以接收音频数据流的第一部分。当回放设备使用自动语音识别器分析音频数据流的第一部分时，回放设备可以同时地接收音频数据流的第二部分。第二部分可以在第一部分之后，而没有音频数据流的任何中间部分。在一些示例中，第二部分可以在第一部分之后，在第一部分和第二部分之间具有音频数据流的中间部分。

当回放设备确定音频数据流的一部分编码特定的热词、关键词或关键词时，回放设备修改音频数据流以包括音频水印(208)。例如，回放设备可以确定音频数据流中要在其中包括音频水印的一部分。所确定的一部分可以是编码热词、关键词或关键词组的部分。所确定的部分可以是音频数据流的不同于编码热词、关键词或关键词组的部分的另一部分。

回放设备可以确定音频水印以包括在音频数据流中。在一些示例中，回放设备可以例如使用音频数据流的数据来动态地生成音频水印。例如，回放设备可以确定音频数据流的源的数据、或确定编码的热词、关键词或关键词组的数据、或这两者，并将所确定的数据包括在音频水印中。在一些实施方式中，回放设备可以从音频水印的数据库中选择音频水印。例如，回放设备可以使用音频数据流的源、或使用编码的热词、关键词或关键词组、或这两者来从数据库中选择音频水印。回放设备可以将选择的音频水印包括在音频数据流中。

回放设备提供修改的音频数据流以供输出(210)。例如，响应于修改音频数据流以包括音频水印，回放设备可以提供修改的音频数据流以供输出。提供修改的音频数据流以供输出可以使包括在回放设备中的扬声器例如可听地呈现修改的音频数据流。

当回放设备确定音频数据流的该一部分不编码特定的热词、关键词或关键词组时，回放设备确定跳过用于包括音频水印的对音频数据流的修改(212)。例如，回放设备确定不基于音频数据流的不编码特定的热词、关键词或关键词组的部分修改音频数据流。回放设备可以确定跳过对音频数据流的在音频数据流的不编码特定的热词、关键词或关键词组的该一部分之前的先前(proceeding)部分的修改。

在一些实施方式中，当回放设备确定修改音频数据流时，回放设备可以确定修改针对其回放设备先前确定跳过对音频数据流的修改的音频数据流的一部分。例如，回放设备可以分析音频数据流的两个不同部分，第一部分和第二部分。回放设备可以确定第一部分不编码热词、关键词或关键词组，并且作为响应，基于第一部分跳过对音频数据流的修改。然后，回放设备可以分析第二部分，所述第二部分作为音频数据流的第一部分之后并与之相邻的音频数据流的一部分。回放设备可以确定音频数据流的第二部分编码特定的热词、关键词或关键词组，并作为响应，修改音频数据流。响应于修改确定，回放设备可以确定将音频水印包括在音频数据流的第一部分中。

回放设备提供音频数据流以供输出(214)。例如，响应于确定跳过修改音频数据流，回放设备可以提供音频数据流或音频数据流的一部分以供输出。回放设备可以将音频数据流提供给扬声器，以使扬声器呈现音频数据流或音频数据流的该一部分。

上述过程200中的步骤顺序仅是示意性的，并且可以以不同的顺序执行基于热词检测修改音频数据流。例如，回放设备可以接收音频数据流的一部分、接收定义特定热词的输入并且然后确定音频数据流的一部分是否编码该特定的热词。

在一些实施方式中，过程200可以包括额外的步骤、更少的步骤或者一些步骤可以分为多个步骤。例如，回放设备可以接收音频数据流、确定音频数据流的一部分是否编码特定的热词，并且如果是，则修改音频数据流以包括音频水印，例如，执行步骤204至208。在执行这些步骤之后，回放设备可以提供修改的音频数据流以供输出。

在一些实施方式中，回放设备可以执行过程200的一个或多个步骤多次。例如，回放设备可以接收音频数据流、确定音频数据流的第一部分编码特定的热词并且修改音频数据流，例如，在第一部分附近的第二部分，该第二部分可能包括第一部分中的至少一些。然后，回放设备可以接收音频数据流的第三部分、确定第二部分不编码特定的热词并且确定跳过对音频数据流的第四部分的修改。可以选择第二部分以允许接收修改的音频数据流的侦听设备使用音频水印来识别特定的热词，并基于音频水印和特定的热词的组合而相应地采取行动。例如，回放设备可以选择第二部分的位置，以允许侦听设备检测音频水印和特定的热词并相应地做出响应，例如，不基于接收到音频水印和特定的热词采取任何动作。由于接收到音频数据流的第二部分中的音频水印，侦听设备可以确定不基于特定的热词执行动作。在一些示例中，第二部分可以是音频数据流的与第一部分相同的部分。在一些示例中，第二部分可以包括音频数据流的在第一部分之前的一部分，并且可以包括第一部分中的一些。可以基于第三部分在音频数据流中的位置来选择音频数据流的第四部分。例如，第四部分可以是音频数据流的与第三部分相同的部分。

在一些实施方式中，回放设备可以在音频数据流中编码音频水印或多个不同的音频水印，直到回放设备确定音频数据流的一部分编码特定的热词、关键词或关键词组。例如，回放设备可以在音频数据流的每一个不包括热词、关键词或关键词组的部分中编码音频水印。这可以允许侦听设备捕获回放设备对音频数据流的呈现，并确定捕获的音频数据流的哪些部分包括音频水印。然后，侦听设备可以利用关键词组检测模块来仅分析捕获的音频数据流的包括音频水印的那些部分，并且作为响应，执行与检测到的关键词组对应的动作。当侦听设备确定捕获的音频数据流的一部分不包括音频水印时，侦听设备可以确定跳过由关键词组检测模块对不包括音频水印的该一部分的分析。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路、在有形地实现的计算机软件或固件、在计算机硬件(包括本说明书中公开的结构以及其结构等效物)或在它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即编码在有形非暂态程序载体上以供数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。替代地或额外地，程序指令可以编码在人工生成的传播的信号(例如，机器生成的电、光或电磁信号，其被生成为编码信息以传输到合适的接收器设备以供数据处理装置执行)上。计算机存储介质可以是机器可读存储装置、机器可读存储基片、随机或顺序存取存储器或它们中一个或多个的组合。

术语“数据处理装置”指数据处理硬件并且涵盖用于处理数据的所有种类的设备、装置和机器，举例来说包括可编程处理器、计算机或多处理器或计算机。所述装置还可以是或者进一步包括特殊目的的逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，所述装置可以可选地包括代码，该代码为计算机程序创建执行环境，例如，构成处理器固件、协议栈、数据库管理***、操作***或它们中一种或多种的组合的代码。

计算机程序(其也被称为或被描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任何编程语言写成，包括编译或解释型语言、陈述性或过程语言，并且可以以任何形式部署计算机语言，包括以独立程序的形式或以模块、组件、子程序或其他适于用在计算环境中的单元。计算机程序可以但不必与文件***中的文件对应。程序可以存储在保持其他程序或数据的文件的一部分(例如，存储在标记语言文件中的一个或多个脚本)中、在专用于所针对的当个文件中或在多个协作的文件(例如，存储一个或多个模块、子程序或代码的一些部分的文件)中。计算机程序可以部署为在一个或多个计算机上执行，这些计算机位于一个站点或分布在多个站点之间并通过通信网络连接。

本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，从而通过对输入数据进行操作并生成输出来实现功能。过程和逻辑流也可以由特殊目的的逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行，并且装置可以被实现为特殊目的的逻辑电路。

适用于执行计算机程序的计算机举例来说包括通用或专用微处理器或这两者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的基本元件是用于完成或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器装置。一般来说，计算机将可以包括用于存储数据的一个或多个大容量存储装置(例如、磁盘、磁光盘或光盘)或可以操作性地联接一个或多个大容量存储装置以从其接收数据或将数据传输到其处或者接收和传输二者。然而，计算机不必具有这样的装置。另外，计算机可以嵌入到另一装置(例如，仅举例几个，移动电话、智能电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收器或便携式存储装置(例如，通用串行总线(USB)快闪驱动器))中。

使用于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、介质和存储设备，举例来说，包括半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由特殊目的的逻辑电路来补充或可以结合到其中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以实现在具有显示装置及键盘和指向装置的计算机上，显示装置例如用于为用户显示信息的LCD(液晶显示器)、OLED(有机发光二极管)或其他监视器，用户可以通过键盘和指向装置向计算机提供输入，指向装置例如为鼠标或轨迹球。也可以使用其他种类的装置来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，通过向由用户使用的装置发送文件和接收来该装置的文件，计算机可以与用户交互；例如，通过响应于从浏览器接收的请求而将网页发送到用户的装置上的浏览器。

本说明书中描述的主题的实施例可以在计算***中实现，该计算***包括后端组件(例如作为数据服务器)或包括中间件组件(例如应用服务器)或包括前端组件(例如具有图形用户界面和浏览器的客户端计算机，用户可通过其与本说明书中描述的主题的实施方式进行交互)，或者一个或多个这样的后端、中间件或前端组件的任意组合。可以通过数字数据通信的任意形式或媒介(例如通信网络)将***的组件互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

图3是可以用于实现本文档中描述的***和方法的计算设备300、350的框图，计算设备300、350作为客户端或作为一个服务器或多个服务器。计算设备300旨在表示各种形式的数字计算机，例如膝上型计算机、台式机、工作站、个人数字助理、智能电话、智能电视、桌面助理、智能扬声器、服务器、刀片服务器、大型机和其他适当的计算机。计算设备350旨在表示各种形式的移动设备，例如个人数字助理、蜂窝电话、智能电话、智能手表、智能电视、智能扬声器、桌面助理、头戴设备和其他类似的计算设备。在本文示出的部件、它们的连接和关系以及它们的功能应当仅是示例性的，而不应当限制在本文档中描述和/或请求保护的实施方式。

计算设备300包括处理器302、存储器304、存储设备306、连接到存储器304和高速扩展端口310的高速接口308以及连接到低速总线314和存储设备306的低速接口312。部件302、304、306、308、310和312中的每一个均利用各种总线互连，并且可安装在共同的模板上或者酌情以其他方式安装。处理器302可以处理用于在计算设备300内执行的指令，包括存储在存储器304中或在存储设备306上的指令以为在外部输入/输出设备(例如联接到高速接口308的显示器316)上的GUI显示图形信息。在其他实施方式中，可酌情与多个存储器或多种类型的存储器使用多个处理器和/或多个总线。另外，可以连接多个计算设备300，其中每个设备提供所需操作的一些部分(例如，作为服务器阵列、刀锋服务器的群组或多处理器***)。

存储器304在计算设备300内存储信息。在一个实施方式中，存储器304是计算机可读介质。在一个实施方式中，存储器304是一个易失性存储器单元或多个单元。在另一实施方式中，存储器304是一个非易失性存储器单元或多个单元。

存储设备306能够为计算设备300提供大容量存储。在一个实施方式中，存储设备306是计算机可读介质。在各种不同实施方式中，存储设备306可为软盘设备、硬盘设备、光盘设备或带设备、闪存式存储器或其他类似固态存储器设备或设备阵列，包括在存储区域网络或其他配置中的设备。在一个实施方式中，计算机程序产品被有形地实施在信息载体中。计算机程序产品包含指令，所述指令在被执行时执行诸如上述方法的一个或多个方法。信息载体是计算机可读或机器可读介质，例如存储器304、存储设备306或处理器302上的存储器。

高速控制器308管理用于计算设备300的带宽密集的操作，而低速控制器312管理较低的带宽密集的操作。这样的职能分配仅是示例性的。在一个实施方式中，高速控制器308联接到存储器304、显示器316(例如，通过图形处理器或加速器)并且联接到高速扩展端口310，高速扩展端口450可接受各种扩展卡(未示出)。在该实施方式中，低速控制器312联接到存储设备306和低速扩展端口314。可包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可联接到一个或多个输入/输出设备，例如键盘、指向设别、扬声器、麦克风、扫描仪或(例如通过网络适配器)联网设备，例如交换机或路由器。

如图中所示，计算设备300可以以许多不同形式来实现。例如，其可以为实现为标准服务器320或成群组的这样的多重服务器。其也可以被实现为机架服务器***324的一部分。此外，其可以实现在个人计算机(例如，膝上型计算机322)中。替代地，来自计算设备300的部件可以与移动设备(例如设备350)中的其他部件(未示出)组合。每个这样的设备可以包含一个或多个计算设备300、350，并且整个***可以由彼此通信的多个计算设备300、350组成。

计算设备350除了其他部件之外尤其包括处理器352、存储器364、输入/输出设备(例如显示器354)、通信接口366和收发器368。设备350还可以设置有存储设备，例如微硬盘(microdrive)或其他设备，以提供附加存储。部件350、352、364、354、366和368中的每一个均利用各种总线互连，并且这些部件中的一些可安装在共同的母板上或者酌情以其他方式安装。

处理器352可以处理指令以在计算设备350内执行，包括存储在存储器364中的指令。处理器还可以包括单独的模拟和数字处理器。处理器可以例如设置为用于设备350的其他部件的协调，例如控制用户接口、设备350所运行的应用和设备350的无线通信。

处理器352可以通过控制接口358和联接到显示器354的显示接口356与用户通信。显示器354可以例如是TFT LCD显示器或OLED显示器或其他适当的显示器技术。显示接口356可以包括用于驱动显示器354以向用户呈现图形和其他信息的适当电路。控制接口358可以接受来自用户的命令并且对命令进行转换以提交给处理器352。此外，可以提供与处理器352通信的外部接口362，以便使得能够进行设备350与其他设备的近区域通信。外部接口362可以设置例如用于有线通信(例如，经由对接过程)或用于无线通信(例如，经由蓝牙或其他这样的技术)。

存储器364在计算设备350内存储信息。在一个实施方式中，存储器364是计算机可读介质。在一个实施方式中，存储器364是一个易失性存储器单元或多个单元。在另一实施方式中，存储器364是一个非易失性存储器单元或多个单元。还可以设置扩展存储器374并将其通过扩展接口372连接到设备350，扩展接口852可以包括例如SIMM卡接口。这样的扩展存储器374可以为设备350提供额外存储空间，或者可以存储用于设备350的应用或其他信息。特别地，扩展存储器374可以包括执行或补充上述过程的指令，并且还可以包括安全信息。这样，例如，扩展存储器374可以被设置为设备350的安全模块，并且可以被编程有允许对设备350进行安全使用的指令。此外，可以通过SIMM卡提供安全应用连同附加信息，例如，以不可破解的方式将识别信息置于SIMM卡上。

存储器可以包括例如快闪存储器和/或MRAM存储器，这在下面进行描述。在一个实施方式中，计算机程序产品被有形地实施在信息载体中。计算机程序产品包含指令，所述指令在被执行时执行诸如上述方法的一个或多个方法。信息载体是计算机可读或机器可读介质，例如存储器364、扩展存储器374或处理器352上的存储器。

设备350可以通过通信接口366无线通信，通信接口866在需要的情况下可以包括数字信号处理电路。通信接口366可以设置成用于在各种模式或协议(例如，在其他模式或协议之外尤其是：GSM语音呼叫、SMS、EMS或MMS消息传输、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS)下进行通信。这样的通信可以例如通过射频收发器368进行。此外，可以进行短程通信，例如使用蓝牙、WiFi或其他收发器(未示出)。此外，GPS接收器模块370可以向设备350提供附加的无线数据，其可以酌情由设备350上运行的应用使用。

设备350还可以使用音频编解码器360进行可听式通信，音频编解码器860可以从用户接收语音信息并将其转换成可使用数字信息。音频编解码器360可以同样为用户生成可听声音，例如通过(例如，设备350中的手持接送话器(handset)中的)扬声器。这样的声音可以包括来自语音电话呼叫的声音，可以包括记录的声音(例如，语音消息，音乐文件等)，并且可以包括由设备350上进行操作的应用生成的声音。

如图中所示，计算设备350可以以许多不同形式来实现。例如，其可以被实现为蜂窝电话380。其还可以被实现为智能电话382、个人数字助理或其他类似移动设备的一部分。

本文描述的***和技术的各种实施方式可以实现在数字电子电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些不同实施方式可以包括实现在一个或多个计算机程序中，计算机程序可以在可编程***上执行和/或解释，可编程***包括至少一个可编程处理器，其可以是专用或通用目的，可编程处理器联接为从存储***、至少一个输入设备以及至少一个输出设备接收数据和指令和向它们发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用、应用、部件或者代码)包括用于可编程处理器的机器指令，并且可以以高级程序化和/或面向对象的程序语言来实现，和/或以汇编/机器语言来实现。在当本文中使用时，术语“机器可读介质”、“计算机可读介质”指任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑器件(PLD))，其用于为可编程处理器提供机器指令和/或数据，包括将机器指令作为机器可读信号接收的机器可读介质。术语“机器可读信号”指用于为可编程处理器提供机器指令和/或数据的任何信号。

尽管本说明书包含许多具体的实现细节，但是这些细节不应当被解释为对可以请求保护的范围进行限制，而应该被解释为特定于特定实施例的特征的描述。在本说明书中在不同实施例的背景中描述的某些特征也可以以组合方式实现在单个实施例中。相反，在单个实施方式的情况下描述的各种特征也可以在多个独立的实施方式中实施或在任何合适的子组合中实施。此外，尽管特征可以如上所述描述为在某些组合中起作用并且最初也这样地请求，但在一些情况下，来自所请求的组合的一个或多个特征可以从组合中排除，并且所请求的组合可以涉及子组合或子组合的变体。

类似地，尽管在附图中以特定顺序描绘了操作，但是这不应当被理解为需要以示出的特定顺序或以相继的顺序来执行这样的操作或者需要执行所有示意的操作来取得合意的结果。在某些情况下，多任务和并行处理可为有利。另外，在上述实施例中对各种***模块和部件的分离不应当被理解为在所有实施例中要求这样的分离，而是应当要理解，所描述的程序部件和***可一般地在单个软件产品中被集成在一起或者被封装成多个软件产品。

已经描述了主题的特定实施例。其他实施例在下述权利要求的范围内。例如，记载在权利要求中的动作可以以不同的顺序执行而仍然取得合意的结果。作为一个示例，附图中描绘的过程不一定需要所示出的特定顺序或者连续顺序来实现期望的结果。在一些情况下，多任务和并行处理可为有利。

Claims

1.一种方法，包括：

在回放设备的数据处理硬件处从内容提供商接收与音乐内容或视频内容中的一个对应的音频数据流，其中，所述回放设备通过除麦克风之外的无线输入连接从内容提供商接收音频数据流；

通过使用自动语音识别器分析所述音频数据流的一部分来确定所述一部分是否编码特定的关键词组；

响应于确定所述音频数据流的所述一部分编码所述特定的关键词组，由数据处理硬件通过如下步骤创建修改的音频数据流：

动态地生成对指示源自内容提供商的音频数据流的数据进行编码的多个音频水印；以及

将动态地生成的多个音频水印***音频数据流以创建修改的音频数据流；以及

由数据处理硬件提供修改的音频数据流以用于通过与所述数据处理硬件通信的扬声器输出，

其中，在提供修改的音频数据流以用于通过扬声器输出之后，侦听设备在响应于经由麦克风检测到关键词组而处于唤醒模式时，被配置为：

经由麦克风捕获修改的音频数据流；以及

使用对指示源自内容提供商的音频数据流的数据进行编码的多个音频水印确定要执行的动作。

2.根据权利要求1所述的方法，其中，所述回放设备：

通过无线输入连接从内容提供商接收视频流中的音频数据流；以及

使用数字音频和视频连接来连接至显示器。

3.根据权利要求2所述的方法，还包括：当提供修改的音频数据流以用于通过扬声器输出时，由数据处理硬件使用数字音频和视频连接提供视频的视频部分以用于由显示器呈现。

4.根据权利要求3所述的方法，其中，所述回放设备使显示器对视频流的视频部分的呈现与用于通过扬声器输出的修改的音频数据流同步。

5.根据权利要求2所述的方法，其中，所述回放设备使用数字音频和视频连接来连接至电视，所述电视包括所述显示器和扬声器。

6.根据权利要求1所述的方法，其中，所述回放设备包括所述扬声器。

7.根据权利要求1所述的方法，其中，所述侦听设备位于与所述扬声器相同的房间中。

8.根据权利要求1所述的方法，其中，修改的音频数据流中的多个音频水印的一部分与其他多个音频水印相比对不同的数据编码。

9.根据权利要求1所述的方法，其中，多个音频水印中的每一个对相同的数据编码。

10.一种回放设备，包括：

数据处理硬件；以及

与所述数据处理硬件通信并存储指令的存储器硬件，所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行操作，所述操作包括：

从内容提供商接收与音乐内容或视频内容中的一个对应的音频数据流，其中，所述回放设备通过除麦克风之外的无线输入连接从内容提供商接收音频数据流；

响应于确定所述音频数据流的所述一部分编码所述特定的关键词组，通过如下步骤创建修改的音频数据流：

提供修改的音频数据流以用于通过与所述数据处理硬件通信的扬声器输出，

经由麦克风捕获修改的音频数据流；以及

11.根据权利要求10所述的回放设备，其中，所述回放设备：

使用数字音频和视频连接来连接至显示器。

12.根据权利要求11所述的回放设备，其中，所述操作还包括：当提供修改的音频数据流以用于通过扬声器输出时，使用数字音频和视频连接提供视频的视频部分以用于由显示器呈现。

13.根据权利要求12所述的回放设备，其中，所述回放设备使显示器对视频流的视频部分的呈现与用于通过扬声器输出的修改的音频数据流同步。

14.根据权利要求11所述的回放设备，其中，所述回放设备使用数字音频和视频连接来连接至电视，所述电视包括所述显示器和扬声器。

15.根据权利要求10所述的回放设备，其中，所述回放设备包括所述扬声器。

16.根据权利要求10所述的回放设备，其中，所述侦听设备位于与所述扬声器相同的房间中。

17.根据权利要求10所述的回放设备，其中，修改的音频数据流中的多个音频水印的一部分与其他多个音频水印相比对不同的数据编码。

18.根据权利要求10所述的回放设备，其中，多个音频水印中的每一个对相同的数据编码。

19.一种计算机实现的方法，包括：

接收音频数据流；

响应于确定所述音频数据流的所述一部分编码所述特定的关键词组，修改所述音频数据流以包括音频水印，所述音频水印包括指定所述特定的关键词组被编码在所述音频数据流的所述一部分中的数据；以及

提供修改的音频数据流以供输出。

20.根据权利要求19所述的方法，其中，修改所述音频数据流以包括音频水印包括：

确定接收的音频数据流是否包括所述特定的关键词组的水印；以及

响应于确定接收的音频数据流不包括所述特定的关键词组的水印，修改音频数据流以包括音频水印。

21.根据权利要求19所述的方法，其中，修改所述音频数据流以包括音频水印包括：

确定接收的音频数据流是否包括所述特定的关键词组的水印；

响应于确定接收的音频数据流包括所述特定的关键词组的水印，通过分析被编码在水印中的数据确定特定数据是否被编码在水印中；以及

响应于确定特定数据不被编码在水印中，修改音频数据流以包括编码特定数据的音频水印。

22.根据权利要求21所述的方法，其中，修改音频数据流以包括编码特定数据的音频水印包括：修改来自接收的音频数据流的水印以编码特定数据。

23.根据权利要求21所述的方法，其中，所述特定数据包括所述特定的关键词组的数据。

24.根据权利要求21所述的方法，其中，所述特定数据包括所述音频数据流的源的数据。

25.根据权利要求21所述的方法，其中，所述特定数据包括关于被编码在所述音频数据流中的内容的数据。

26.根据权利要求19所述的方法，还包括：与通过使用自动语音识别器分析所述音频数据流的一部分来确定所述一部分是否编码特定的关键词组同时地接收所述音频数据流的另一部分。

27.根据权利要求19所述的方法，其中，所述特定的关键词组是固定的。

28.根据权利要求19所述的方法，还包括：在通过使用自动语音识别器分析所述音频数据流的一部分来确定所述一部分是否编码特定的关键词组之前接收定义特定的关键词组的输入。

29.根据权利要求19所述的方法，其中，接收音频数据流包括：在提供修改的音频数据流的所述一部分以供输出之前，通过除麦克风之外的有线或无线输入连接来接收音频数据流。

30.根据权利要求19所述的方法，其中，修改音频数据流以包括音频水印包括：修改音频数据流以包括标识音频数据流的源的音频水印。

31.一种***，包括：

一个或多个计算机和存储可操作的指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时，使所述一个或多个计算机执行操作，所述操作包括：

接收音频数据流；

提供修改的音频数据流以供输出。

32.根据权利要求31所述的***，其中，修改所述音频数据流以包括音频水印包括：

33.根据权利要求31所述的***，其中，修改所述音频数据流以包括音频水印包括：