CN110268469B

CN110268469B - 服务器侧热词

Info

Publication number: CN110268469B
Application number: CN201780086256.0A
Authority: CN
Inventors: A.H.格伦斯坦; P.阿列克西克; J.沙尔克维克; P.J.M.门吉巴
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-02-14
Filing date: 2017-10-30
Publication date: 2023-05-23
Anticipated expiration: 2037-10-30
Also published as: US20210287678A1; US11699443B2; US10706851B2; WO2018151772A1; CN110268469A; EP3559944B1; US11049504B2; US20230343340A1; US20190304465A1; US20180233150A1; US10311876B2; DE202017106606U1; KR20190109532A; JP2020507815A; EP3767623A1; JP6855588B2; KR102332944B1; JP7189248B2; JP2021107927A; CN116504238A

Abstract

一种方法、***，以及设备，包含计算机储存介质上编码的计算机程序，以使用服务器检测热词。方法中的一种包含接收音频信号，音频信号编码一个或多个话语，包含第一话语；确定第一话语的至少一部分是否满足作为关键短语的至少一部分的第一阈值；响应于确定第一话语的至少该部分满足作为关键短语的至少一部分的第一阈值，将音频信号发送到服务器***，服务器***确定第一话语是否满足作为关键短语的第二阈值，第二阈值限制性比第一阈值更高；以及当服务器***确定第一话语满足第二阈值时，接收标记文本数据，标记文本数据表示音频信号中编码的一个或多个话语。

Description

服务器侧热词

背景技术

自动语音识别是一种在移动装置及其他类型的装置中使用的技术。该技术的共同目标的一个任务是能够使用语音命令来唤醒装置，并且具有与装置的基本口语交互。例如，可能期望装置识别“热词”，当装置处于睡眠状态时，热词指示装置应激活。

发明内容

***可以使用两个阈值来确定用户是否说出关键短语。***中包含的客户端装置使用第一、较低阈值来确定用户是否说出与关键短语的一部分相同的词的一部分。例如，当关键短语是“okay ***”时，客户端装置可以使用第一、较低阈值来确定用户是否说出了“okay”或“okay g”或“okay ***”。当客户端装置确定用户说出的词的该部分与关键短语的一部分相同时，客户端装置将词的数据发送到服务器。服务器使用第二、较高阈值来确定用户说出的词是否与关键短语相同。服务器分析整个关键短语，以确定用户是否说出关键短语。当服务器确定词中包含关键短语时，服务器可以解析用户说出的其他词，以生成客户端装置应进行的动作的数据。

在一些实现方式中，客户端装置可以接收编码一个或多个话语的音频信号。话语是(用户说出)一个或多个词的语音化，其对计算机表示单个含义。话语可以是单个词、几个词、句子或甚至多个句子。由此，话语可以包括作为来自文本或语音的给定序列的n个项目(n等于或大于1)的连续序列的n元(n-gram)。项目可以是音素、音节、字母、词或基对(basepair)，作为示例。客户端装置使用第一阈值来确定在音频信号的开始处编码的一个或多个第一话语是否满足作为关键短语的第一阈值。当关键短语包含多个词时，客户端装置可以分析话语的一部分、来自一个或多个第一话语的单个话语或两者。在实践中，确定其是否满足第一阈值的对应于关键短语的话语，将通常由语音项目(诸如至少多个音素、至少多个音节或一个或多个词)构成，以便使关键短语在某种意义上与偶然地和通常频繁地说出的话语(如，单个字母、单个音素等)是独特且可区分的。

当客户端装置确定一个或多个第一话语满足作为关键短语的第一阈值时，客户端装置将音频信号发送到语音识别***(例如，包含在与客户端装置分开的服务器上)，以用于附加的分析。语音识别***接收音频信号。语音识别***分析一个或多个第一话语，以确定一个或多个第一话语是否满足作为关键短语的第二阈值。第二阈值限制性比第一阈值更高，例如，第一阈值比第二阈值较不精确或低于第二阈值。例如，当第一阈值和第二阈值都是可能性时，第一阈值(例如，百分之五十)是比第二阈值(例如，百分之七十五或九十)更低的可能性。为一个或多个第一话语满足作为关键短语的第一阈值或第二阈值，对应的***可以确定一个或多个第一话语是关键短语的可能性大于，或者大于或等于相应的阈值。

语音识别***从客户端装置接收包含一个或多个第一话语的整个音频信号的数据，使得语音识别***可以分析包含在音频信号中的全部数据。整个音频信号可以包含用户在一个或多个第一话语之后说出的多个n元，至少只要n元落入某时间窗口内或以一些其他度量在与一个或多个第一话语相距最大距离内。例如，为降低语音识别***接收包含音频信号的开始处的部分话语的音频信号的数据的可能性，为改善语音识别***的语音识别分析，或两者，当客户端装置确定一个或多个第一话语的至少一部分满足作为关键短语的第一阈值时，语音识别***从客户端装置接收整个音频信号。这可以允许服务器改善音频信号的自动化语音分析，因为与客户端装置相比服务器有更多可用资源，服务器处有比客户端处更大量的语音项目(例如，服务器处的更强健的分析模型)，或两者，由此改善识别。

在一些实现方式中，客户端装置可以分析第一话语之一的前缀或一部分。例如，当关键短语是“Okay Google”时，客户端装置可以确定一个或多个第一话语编码“Okay G”或“Okay”，而不分析全部第二话语，并且作为响应，将音频信号发送到语音识别***。在其他词中，确定其是否满足第一阈值的一个或多个第一话语可以仅由一部分关键短语(例如，关键短语的开始部分)构成。当满足第一阈值时，包括第一话语之后(例如，在第一话语的阈值距离内)的语音项目的“其他话语”或“第二话语”可以与第一话语一起被发送到服务器，以由服务器分析第一话语和第二话语一起的组合是否满足第二阈值，是否存在与关键短语的匹配。

在一些实现方式中，客户端装置可以使用音频信号的数据将关键短语的数据发送到语音识别***。关键短语的数据可以是表示关键短语的文本，或例如客户端装置的标识符，语音识别***可以用其确定关键短语。语音识别***可以使用关键短语的数据来确定包含在音频信号中的一个或多个第一话语是否满足作为关键短语的第二阈值。

总体上，本申请文本中所描述的主题的一个创新方面可以以一种方法实施，该方法包含以下动作：接收音频信号，该音频信号编码包含第一话语的一个或多个话语；确定该第一话语的至少一部分是否满足作为关键短语的至少一部分的第一阈值；响应于确定该第一话语的至少该部分满足作为关键短语的至少一部分的该第一阈值，将该音频信号发送到服务器***，服务器***确定该第一话语是否满足作为该关键短语的第二阈值，该第二阈值限制性比该第一阈值更高；以及当该服务器***确定该第一话语满足该第二阈值时，从该服务器***接收标记文本数据，标记文本数据表示在该音频信号中编码的该一个或多个话语。该方面的其他实施例包含对应的计算机***、设备，以及一个或多个计算机储存装置上记录的计算机程序，其各自配置为进行方法的动作。一个或多个计算机的***可以配置为通过具有安装在***上的在操作中使***进行动作的软件、固件、硬件，或其组合进行特定操作或动作。一个或多个计算机程序可以配置为通过包含当由数据处理设备执行时使设备进行动作的指令进行特定操作或动作。

总体上，本申请文本中所描述的主题的一个创新方面可以在一种方法中实施，该方法包含以下动作：从客户端装置接收编码一个或多个话语的音频信号，包含客户端装置对一个或多个第一话语确定一个或多个第一话语中的至少一部分满足作为关键短语的至少一部分的第一阈值；确定一个或多个第一话语是否满足作为关键短语的至少一部分的第二阈值，第二阈值限制性比第一阈值更高；以及向客户端装置发送确定一个或多个第一话语是否满足作为关键短语的第二阈值的结果。该方面的其他实施例包含对应的计算机***、设备，以及记录在一个或多个计算机储存装置上的计算机程序，其各自配置为进行方法的动作。一个或多个计算机的***可以配置为通过具有在***上安装的在操作中使***进行动作的软件、固件、硬件，或其组合进行特定操作或动作。一个或多个计算机程序可以配置为通过包含指令进行特定操作或动作，当由数据处理设备执行指令时，使设备进行动作。

前述和其他实施例可以各自可选地包含单独或组合的一个或多个以下特征。方法可以包含：在当该服务器***确定该第一话语满足该第二阈值时，从该服务器***接收标记文本数据之后，使用该标记文本数据进行动作，标记文本数据表示在该音频信号中编码的该一个或多个话语。一个或多个话语可以包含两个或更多个话语，该第一话语在来自该两个或更多个话语的其他话语之前被编码在该音频信号中。使用该标记文本数据进行该动作可以包含使用在该音频信号中在该第一话语之后编码的该一个或多个话语的标记文本数据来进行动作。确定该第一话语的至少一部分是否满足作为该关键短语的至少一部分的该第一阈值可以包含确定该第一话语的至少一部分是否满足作为该关键短语的包含两个或更多个词的至少一部分的该第一阈值。

在一些实现方式中，方法可以包含：接收第二音频信号，该第二音频信号编码包含第二话语的一个或多个第二话语；确定该第二话语的至少一部分是否满足作为关键短语的至少一部分的该第一阈值；以及响应于确定该第二话语的至少该部分不满足作为关键短语的至少一部分的该第一阈值，丢弃该第二音频信号。方法可以包含：响应于确定该第二话语的至少该部分不满足作为关键短语的至少一部分的该第一阈值，确定不使用来自该第二音频信号的数据进行动作。确定该第一话语的至少一部分是否满足作为关键短语的该第一阈值可以包含确定该第一话语的至少一部分是否满足作为关键短语的至少一部分的第一可能性。

在一些实现方式中，向该客户端装置发送确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值的结果可以包含响应于确定该一个或多个第一话语不满足作为该关键短语的该第二阈值，向该客户端装置发送指示该关键短语不大可能被包含在该音频信号中的数据。向该客户端装置发送确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值的该结果可以包含，响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值，向该客户端装置发送该音频信号的数据。响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值向该客户端装置发送该音频信号的数据可以包含，向该客户端装置发送标记文本数据，该标记文本数据表示在该音频信号中编码的该一个或多个话语。方法可以包含：分析整个音频信号，以确定该一个或多个话语中的每一个的第一数据。响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值向该客户端装置发送该音频信号的数据可以包含，响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值，向该客户端装置发送该音频信号的第一数据。

在一些实现方式中，确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值可以包含，使用语言模型确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值。语言模型可以限定语音项目(例如，音素、音节，或词)的序列之上的可能性分布，其指示语音项目的序列以由序列指定的顺序发生的可能性。在自动化语音识别中，一个或多个计算机将声音与由语言模型限定的语音项目序列匹配，并且确定语音项目序列的对应的可能性。使用语言模型中的可能性，给定序列中的单独语音项目的上下文(例如，给定语音项目在序列中发生的顺序)，一个或多个计算机可以在声音相似的语音项目(例如，词和短语)之间区分。方法可以包含：在使用语言模型确定一个或多个第一话语是否满足作为关键短语的第二阈值之前，客制化关键短语的语言模型。方法可以包含：接收识别关键短语的文本。客制化关键短语的语言模型可以包含使用识别关键短语的文本来客制化关键短语的语言模型。方法可以包含接收标识符；以及，使用标识符确定关键短语的关键短语数据。客制化关键短语的语言模型可以包含使用关键短语数据客制化关键短语的语言模型。使用语言模型确定一个或多个第一话语是否满足作为关键短语的第二阈值可以包含，使用语言模型和声学模型确定一个或多个第一话语是否满足作为关键短语的第二阈值。声学模型可以限定音素(或另一语音项目)与音素(或对应的其他语音项目)的语音化之间的映射。计算机可以使用声学模型在自动语音识别过程中确定在音频信号中编码的语音项目的语音化与对应的语音项目之间的关系。使用语言模型和声学模型确定一个或多个第一话语是否满足作为关键短语的第二阈值可以包含，将一个或多个第一话语的数据提供到语言模型，以使语言模型生成第一输出；将一个或多个第一话语的数据提供到声学模型，以使声学模型生成第二输出；将第一输出与第二输出组合以生成组合输出；以及，使用组合输出确定一个或多个第一话语是否满足作为关键短语的第二阈值。方法可以包含选择默认关键短语的语言模型。方法可以包含确定是否使用默认关键短语。

本申请文本中所描述的主题可以在特定实施例中实现，并且可以导致一个或多个以下优点。在一些实现方式中，本文档中所描述的***和方法可以用第一、较低阈值降低客户端装置在热词分析期间使用的资源，通过在语音识别***处使用第二、更高限制性阈值改善热词分析的精度，或两者。在一些实现方式中，以下所描述的***和方法可以更精确地解析、分割(或两者)音频信号中的文本，例如，通过将包含关键短语的整个音频信号发送到语音识别***用以分析，可以与音频信号中编码的其他话语分开地更精确地识别音频信号中编码的关键短语。在一些实现方式中，当客户端使用比由语音识别***使用的较高限制性热词分析阈值更低的热词分析阈值，与其他***相比，以下所描述的***和方法可以缩短客户端处理时间，将音频信号更快速发送到语音识别***，或两者。在一些实现方式中，当话语不满足第一、较低阈值时，当客户端装置发送较少的音频信号到服务器***以分析时，以下所描述的***和方法可以减小带宽使用。

以下结合附图和说明书提出了本申请文本中所描述的主题的一个或多个实现方式的细节。主题的其他特征、方面，以及优点将从说明书、附图和权利要求变得清楚。

附图说明

图1是其中客户端装置使用第一阈值分析音频信号且语音识别***使用比第一阈值更高限制性的第二阈值分析音频信号的环境的示例。

图2是确定是否进行动作的过程的流程图。

图3是生成音频信号的标记文本数据的过程的流程图。

图4是可以与本文档中所描述的计算机实现的方法结合使用的计算***的框图。

各附图中相同的附图标记和标号指示相同元件。

具体实施方式

图1是环境100的示例，其中客户端装置102使用第一阈值分析音频信号，并且语音识别***112使用第二阈值分析音频信号，第二阈值限制性比第一阈值更高。客户端装置102使用第一阈值来确定音频信号是否编码关键短语的至少一部分。当客户端装置102确定音频信号满足作为关键短语的第一阈值时，客户端装置102将音频信号发送到语音识别***112，语音识别***112使用第二阈值来确定音频信号是否编码整个关键短语。出于该目的，客户端装置102可以不仅发送已经识别的表示一部分关键短语的音频信号，还将整个音频信号、或音频信号的在表示关键短语的识别的部分之后的位于一定范围内的至少部分发送到语音识别***112。

如果语音识别***112确定音频信号编码整个关键短语，则语音识别***112可以为客户端装置102提供在音频信号中编码的语音识别的话语的标记文本数据，以允许客户端装置102基于音频信号进行动作。由此，标记文本数据可以包括语音识别的话语和“标记”，其可以表示要进行的动作或以其他方式识别在识别的话语内的文本的类别，使得客户端装置102可以识别标记和对应于标记的语音识别的话语。客户端装置102可以使用标记文本数据来确定要进行的动作(例如，要执行的指令)，来在确定是否进行动作时确定分析语音识别的话语的哪些部分，或两者。

客户端装置102包含麦克风104，其捕捉音频信号。例如，客户端装置102可以处于低功率状态(例如，待机)，而麦克风104捕捉音频信号的至少一部分。音频信号的至少一部分可以是整个音频信号，包含在音频信号中的一个或多个第一话语，或音频信号的开始的不同部分。音频信号中编码的话语的一个示例是“ok ***播放一些音乐”。在此示例中，第一话语可以是“ok”或“ok ***”。

随着音频信号被捕捉，麦克风104将音频信号或音频信号中的一些提供到客户端热词检测模块106。例如，随着音频信号被麦克风104捕捉，麦克风104或客户端装置102中的部件的组合可以将音频信号的部分提供到客户端热词检测模块106。

在时间T_A，客户端热词检测模块106确定音频信号是否满足第一阈值108。例如，客户端热词检测模块106可以分析一个或多个第一话语的包含在音频信号的开始处的至少一部分，以确定一个或多个第一话语的部分是否满足作为关键短语的第一阈值108。第一话语的部分可以是“ok”或“ok ***”。关键短语的一个示例可以是“ok ***”。在一些示例中，客户端热词检测模块106配置为检测仅一个关键短语的发生。在一些实现方式中，客户端热词检测模块配置为检测任意多个不同关键短语(例如，十个关键短语)的发生。多个不同关键短语包含客户端热词检测模块106训练的有限数目的不同关键短语。

客户端热词检测模块106可以确定第一话语的至少一部分与关键短语的至少一部分相同的可能性。出于该目的，客户端热词检测模块106可以应用任意已知的自动化语音识别方案，其将第一话语的至少一部分分割为音素或其他语言单元，并且使用声学模型和/或语言模型来获得第一话语是否匹配关键短语或关键短语的一部分的可能性。关键短语的一部分可以是关键短语的开始部分，例如，其包含关键短语的开始处的语音项目。客户端热词检测模块106可以将可能性与第一阈值108比较。当可能性满足第一阈值108时，客户端装置102可以将音频信号发送到语音识别***112(例如，位于一个或多个服务器上)。当可能性不满足第一阈值108时，客户端装置102可以例如基于包含在音频信号中的话语不采取的进一步动作，并且可以丢弃音频信号。

客户端热词检测模块106可以确定关键短语是“ok ***”，并且话语是“ok”，作为音频信号中的第一话语之一，满足作为关键短语的一部分的第一阈值108。在一些示例中，客户端热词检测模块106可以确定来自音频信号的话语“ok ***”满足作为关键短语的一部分(例如，整个关键短语)的第一阈值108。

在一些实现方式中，当客户端热词检测模块106确定第一话语之一或之一的一部分满足作为一部分关键短语的第一阈值108时，客户端热词检测模块106可以确定第一话语的总长度是否匹配关键短语的长度。例如，客户端热词检测模块106可以确定说出一个或多个第一话语的时间匹配说出关键短语的平均时间。平均时间可以是对于客户端装置102的用户或对于多个不同的人，例如，包含客户端装置102的用户。

在一些实现方式中，例如，当仅分析一个或多个第一话语的一部分时，客户端热词检测模块106可以确定包含在第一话语中的第一话语的总长度和n元(例如，词)的总数匹配包含在关键短语中的关键短语的总长度和n元的数目。例如，客户端热词检测模块106可以确定第一话语之间的安静的数目，其指示第一话语的数目。客户端热词检测模块106可以将第一话语的数目，说出的第一话语的长度或两者，与关键短语中的词的总数，说出的关键短语的长度或两者比较。当客户端热词检测模块106确定第一话语的总数和关键短语中的词的总数是相同的，确定说出的第一话语的长度在距说出的关键短语的长度的阈值量内，或两者，则客户端热词检测模块106可以确定音频信号中的第一话语满足作为关键短语的第一阈值108，例如，当第一话语的至少一部分满足作为一部分关键短语的第一阈值108时。

当可能性大于第一阈值108时，第一话语可以满足作为关键短语的第一阈值108。当可能性大于或等于第一阈值108时，第一话语可以满足作为关键短语的第一阈值108。在一些示例中，当可能性小于第一阈值108时，第一话语不满足作为关键短语的第一阈值108。当可能性小于或等于第一阈值108时，第一话语可能不满足作为关键短语的第一阈值108。

响应于确定第一话语的至少一部分满足作为关键短语的至少一部分的第一阈值108，在时间T_B，客户端装置102将音频信号发送到语音识别***112。语音识别***112接收音频信号，并且在时间T_C使用服务器热词检测模块114来确定音频信号是否满足作为关键短语的第二阈值116。例如，语音识别***112使用服务器热词检测模块114来确定音频信号是否满足作为关键短语的第二阈值116。

第二阈值116限制性比第一阈值108更高。例如，与使用第一阈值108的客户端热词检测模块106相比，使用第二阈值116的服务器热词检测模块114不正确地将第一话语确定为表示与关键短语相同的文本(例如，假阳性)的可能性更低。在一些示例中，当阈值为可能性时，第一阈值108具有比第二阈值116更低的数值。

服务器热词检测模块114可以使用语言模型118、声学模型120、或两者，来确定一个或多个第一话语是否满足作为关键短语的第二阈值116。例如，与客户端热词检测模块106相比，语言模型118和声学模型120各自被使用大量的训练数据训练。例如，语言模型118、声学模型120、或两者，可以被使用30000小时的训练数据训练。客户端热词检测模块106可以被使用100小时的训练数据训练。

在一些示例中，服务器热词检测模块114可以创建热词偏置模型，其包含即时的(on fly)语言模型118、声学模型120或两者，以用于分析音频信号。热词偏置模型可以是语言模型与声学模型的组合，语言模型限定语音项目的序列之上的可能性分布，声学模型限定语音项目与语音项目的对应的语音化之间的映射，其特定于几个关键短语或热词。语音识别***112可以为客户端装置102创建热词偏置模型，其特定于客户端装置102对其分析一个或多个第一话语的一个或多个关键短语。

例如，服务器热词检测模块114可以从客户端装置102接收数据，其识别服务器热词检测模块114将分析音频信号以确定客户端装置102是否应唤醒、进行动作、或两者的关键短语。识别关键短语的数据可以是关键短语的文本数据(例如，文本串)，或客户端装置102的标识符，例如，其任意者可以被包含在从客户端装置102接收的分析音频信号的请求中。服务器热词检测模块114可以使用客户端装置102的标识符来存取数据库并确定客户端装置102和音频信号的关键短语。服务器热词检测模块114可以使用确定的客户端装置102的一个或多个关键短语来使用已经储存在语音识别***112的存储器中的现有语言模型118、现有声学模型120、或两者为客户端装置102创建热词偏置模型。

在一些示例中，服务器热词检测模块114可以使用预建的热词偏置模型。例如，服务器热词检测模块114可以使用相同的热词偏置模型分析来自客户端装置102或来自全部用于相同的关键短语的多个不同客户端装置的多个音频信号。

热词偏置模型可以识别一个或多个n元，热词偏置模型对其进行分析。例如，当关键短语是“ok ***”时，热词偏置模型可以生成n元“<S>ok ***”、“<S>ok”或“ok***”中的一个或多个的分数，其中<S>指代句子的开始处的安静。

语言模型118或声学模型120之一或两者可以使用热词偏置模型的n元来确定音频信号是否包含关键短语。例如，语言模型118可以使用n元中的一个或多个来生成分数，分数指示音频信号包含关键短语的可能性。当一个或多个第一话语与关键短语相同时，语言模型118可以使用n元或n元中的一些来提高关键短语被在音频信号中正确地识别的可能性。例如，当关键短语包含两个或更多个词时，语言模型118可以将关键短语(例如，“ok***”)添加到语言模型118，以提高关键短语被识别的可能性，例如，与当语言模型118尚未包含关键短语时相比。

声学模型120可以使用n元中的一个或多个来生成分数，分数指示音频信号包含关键短语的可能性。例如，声学模型120可以对包含关键短语的不同短语生成多个分数，并且选择关键短语的分数作为输出。

服务器热词检测模块114可以接收来自语言模型118和声学模型120的两个分数。服务器热词检测模块114可以将两个分数组合，以确定音频信号的总分数。服务器热词检测模块114可以将总分数与第二阈值116作比较。当总分数满足第二阈值116时，服务器热词检测模块114确定可能编码关键短语的音频信号。当总分数不满足第二阈值116时，服务器热词检测模块114确定音频信号很可能不编码关键短语。

响应于确定音频信号很可能不编码关键短语，语音识别***112可以将消息发送到客户端装置102，消息指示音频信号不大可能编码关键短语。在一些示例中，在确定音频信号很可能不编码关键短语时，语音识别***112可以不向客户端装置102发送消息。

当服务器热词检测模块114确定音频信号很可能编码关键短语时，标记文本生成器122生成音频信号的标记文本。标记文本生成器122可以从语言模型118、声学模型120、或两者接收数据，其指示音频信号中编码的n元。例如，标记文本生成器122可以从声学模型120接收指示很可能被编码在音频信号中的n元的分数的数据，表示被编码在音频信号中的n元的数据，或其他适当数据。

标记文本生成器122使用来自语言模型118、声学模型120、或两者的数据来生成编码在音频信号中的n元的标记。例如，当音频信号编码“ok ***播放一些音乐”时，标记文本生成器122可以生成表示串“<热词偏置>ok ***</热词偏置>播放一些音乐”的数据。由此，标记“<热词偏置>”将第一串“ok ***”识别为热词。标记“</热词偏置>”识别热词的两端，并且指示后面的串很可能包含客户端装置102的指令：a)其已经由自动化语音识别过程识别，以及b)客户端装置102应将其分析以确定客户端装置102是否可以执行对应的指令。

在时间T_D，语音识别***112将音频信号的标记文本提供到客户端装置102。客户端装置102接收标记文本，并且分析标记文本以确定要进行的动作。例如，客户端装置102可以使用包含在文本中的标记，以确定文本的哪部分对应于关键短语(例如，一个或多个第一话语)，以及文本的哪部分对应于客户端装置102要进行的动作。例如，客户端装置102可以使用文本“播放一些音乐”确定打开音乐播放器应用并播放音乐。客户端装置102可以提供用户提示，用户提示请求输入音乐流派、音乐台、艺术家，或另一类型的音乐，以使用音乐播放器应用回放。

在一些实现方式中，客户端装置102可以配置为检测编码在音频信号中的任意的多个不同关键短语。例如，客户端装置102可以接收输入，输入表示用户指定热词，诸如“heyindigo”或“hey gennie”。客户端装置102可以为语音识别***112提供表示用户指定热词的数据。例如，客户端装置102可以使用音频信号发送用户指定热词的文本表示。在一些示例中，客户端装置102可以为语音识别***112提供用户指定热词的数据，语音识别***112将该数据与客户端装置102的标识符(例如，与客户端装置102的用户账户)相关联。

客户端装置102可以具有对于不同物理地理位置的不同关键短语。例如，客户端装置102可以具有对于用户的家的第一关键短语，和对于用户的办公室的第二、不同的关键短语。客户端装置102可以使用一个或多个位置装置110来确定客户端装置102的当前物理地理位置，并且选择对应的关键短语。客户端装置102可以将数据发送到语音识别***112，其具有基于客户端装置102的物理地理位置识别关键短语的音频信号。位置装置110可以包含全球定位***、检测例如无线热点或广播签名的另一装置的无线签名的无线装置或检测蜂巢基站的信息的蜂巢天线中的一个或多个。

在一些示例中，客户端装置102可以将数据发送到语音识别***112，其指示客户端装置102的物理地理位置。例如，客户端热词检测模块106可以配置为用于多个(例如，五个)不同关键短语，其各自开始以相同的n元前缀(例如，“ok”)，并且其中的每一个用于不同的物理地理位置中。例如，客户端装置102可以具有第一位置中的关键短语“ok ***”，以及作为与第一位置不同的位置的第二位置中的“ok indigo”。客户端热词检测模块106可以确定音频信号包含n元前缀，而不需确定多个不同关键短语中的哪个可以被编码在音频信号中。一经由客户端热词检测模块106确定音频信号中的话语满足作为关键短语的第一阈值108，客户端装置102可以将客户端装置102的音频信号和位置数据发送到语音识别***112。语音识别***112接收音频信号和位置数据，并且使用位置数据来确定来自多个不同关键短语的关键短语以用于分析。服务器热词检测模块114使用所确定的关键短语来分析音频信号，并且确定音频信号是否满足作为所确定的关键短语的第二阈值116。

在一些实现方式中，当客户端装置102例如使用麦克风104捕捉音频信号时，客户端装置102处于睡眠(例如，处于低功率模式)。在睡眠模式中，客户端装置102可以不具有完整功能。例如，客户端装置102的一些特征可以被禁用，以降低电池使用。

一经确定第一话语满足作为关键短语的第一阈值108，客户端装置102可以开始唤醒。例如，客户端装置102可以使能一个或多个网络连接性装置、一个或多个位置装置110、或两者，以允许客户端装置102与语音识别***112通信。

当客户端装置102从语音识别***112接收标记文本数据时，客户端装置102离开睡眠模式。例如，客户端装置102使能客户端装置102的更多功能，以使用标记文本确定要进行的动作，以使用标记文本确定进行所确定的动作，或两者。

语音识别***112是实现为一个或多个位置中的一个或多个计算机上的计算机程序的***的示例，其中实现本文档中所描述的***、部件以及技术。客户端装置102可以包含个人计算机、移动通信装置，或可以在网络124上发送和接收数据的另一装置。网络124(诸如局域网络(LAN)、广域网络(WAN)、互联网，或其组合)连接客户端装置102以及语音识别***112。语音识别***112可以使用单个服务器计算机或彼此结合地运行的多个服务器计算机，包含例如布置为云计算服务的远程计算机的集合。

图2是用于确定是否进行动作的过程200的流程图。例如，过程200可以由来自环境100的客户端装置102所用。

客户端装置接收编码一个或多个话语的音频信号，一个或多个话语包含第一话语(202)。客户端装置可以使用任意适当类型的装置来捕捉音频信号。在一些示例中，客户端装置可以接收来自另一装置(例如，智能手表)的音频信号。

客户端装置确定第一话语的至少一部分是否满足作为关键短语的至少一部分的第一阈值(204)。客户端装置可以包含一个或多个关键短语的数据。客户端装置可以确定第一话语的至少一部分是否具有由第一阈值限定的作为关键短语之一的一部分的至少预定的可能性。第一话语的一部分可以包含来自第一话语的一个或多个n元或来自第一话语的另一适当类型的分割。在一些示例中，当关键短语包含两个或更多个词时，该部分可以包含来自两个或更多个第一话语的单个词。在一些示例中，客户端装置可以确定多个第一话语(例如，一个或多个第一话语)是否满足作为关键短语之一的第一阈值。

响应于确定第一话语的至少一部分满足作为关键短语的至少一部分的第一阈值，客户端装置将音频信号发送到服务器***，服务器***确定第一话语是否满足作为关键短语的第二阈值(206)。第二阈值限制性比第一阈值更高。例如，客户端装置可以将音频信号或音频信号的一部分发送到服务器(例如，语音识别***)，以使服务器确定第一话语是否满足作为关键短语的第二阈值。服务器总是分析全部第一话语，以确定第一话语是否满足作为整个关键短语的第二阈值。

在一些实现方式中，客户端装置发送到服务器***的音频信号的该部分可以包含满足第一阈值的第一话语和一个或多个其他话语。例如，客户端装置可以在分析第一话语时继续接收音频信号，使得接收的音频信号的附加部分包含一个或多个其他话语。客户端装置可以将音频信号的包含第一话语和其他话语的部分发送到服务器。

客户端装置确定从服务器***接收的响应数据是否包含标记文本数据，标记文本数据表示编码在音频信号中的一个或多个话语(208)。例如，响应于发送音频信号到服务器，客户端装置可以从服务器接收响应数据。客户端装置可以分析响应数据，以确定响应数据是否包含标记文本数据。

响应于确定响应数据包含表示编码在音频信号中的一个或多个话语的标记文本数据，客户端装置使用标记文本数据进行动作(210)。例如，客户端装置使用数据中的标记来确定要进行的动作。标记可以指示标记的数据的哪个部分和音频信号的相应的部分对应于关键短语的第一话语。标记可以指示标记的数据的哪个部分对应于客户端装置要进行的动作，例如，“播放一些音乐”。

响应于确定第一话语的至少一部分不满足作为关键短语的至少一部分的第一阈值，或响应于确定响应数据不包含标记文本数据，客户端装置确定不使用来自音频信号的数据进行动作(212)。例如，当没有第一话语满足作为关键短语的第一阈值时，客户端装置不使用音频信号进行任何动作。在一些示例中，当客户端装置从服务器接收指示音频信号不编码关键短语的消息(例如，响应数据不包含标记文本数据)时，客户端装置不使用音频信号进行任何动作。

响应于确定第一话语的至少一部分不满足作为关键短语的至少一部分的第一阈值，或响应于确定响应数据不包含标记文本数据，客户端装置丢弃音频信号(214)。例如，当没有第一话语满足作为关键短语的第一阈值时，客户端装置可以丢弃音频信号。在一些示例中，当客户端装置从服务器接收指示音频信号不编码关键短语的消息(例如，响应数据不包含标记文本数据)时，客户端装置可以丢弃音频信号。在一些实现方式中，在发生这些条件之一时，客户端装置可以在预定的持续时间之后丢弃音频信号。

上述的过程200中的步骤顺序仅是说明性的，并且确定是否进行动作可以以不同顺序进行。例如，客户端装置可以丢弃音频信号，并且然后不使用来自音频信号的数据进行动作，或可以同时进行这两步。

在一些实现方式中，过程200可以包含附加步骤、更少步骤，或一些步骤可以被划分为多个步骤。例如，客户端装置可以丢弃音频信号或不使用来自音频信号的数据进行动作，而不是进行两个步骤两者。

图3是用于生成音频信号的标记文本数据的过程300的流程图。例如，过程300可以由来自环境100的语音识别***112使用。

语音识别***从客户端装置接收编码包含一个或多个第一话语的一个或多个话语的音频信号，客户端装置对于一个或多个第一话语确定第一话语的至少一部分满足作为关键短语的至少一部分的第一阈值(302)。语音识别***可以在网络上从客户端装置接收音频信号。客户端装置可能已经作为包含进行以上参考图2描述的步骤202至206的过程的一部分将音频信号发送到语音识别***。

语音识别***客制化关键短语的语言模型(304)。例如，语音识别***可以提高不特定于任何特定关键短语的语言模型将精确地识别编码在音频信号中的关键短语的发生的可能性。在一些示例中，语音识别***可以调整特定于关键短语的语言模型的权重。

在一些实现方式中，语音识别***可以确定是否使用默认关键短语。例如，语音识别***可以确定从客户端装置接收的包含音频信号的是否也包含识别关键短语的数据，例如，关键短语的文本或可以用来在数据库中查找关键短语的标识符。当消息不包含识别关键短语的数据时，语音识别***可以确定使用默认关键短语。例如，语音识别***可以确定客户端装置或对应的用户账户不具有客制化的关键短语，并且使用默认关键短语。

语音识别***基于来自语言模型、声学模型、或两者的输出确定一个或多个第一话语是否满足作为关键短语的第二阈值(306)。例如，语音识别***将音频信号提供到语言模型、声学模型、或两者。语音识别***接收来自语言模型、声学模型、或两者的分数，其各自指示一个或多个第一话语为关键短语的可能性。语音识别***可以将来自语言模型和声学模型的分开的分数组合，以确定音频信号的组合的分数是否满足作为关键短语的第二阈值。

响应于基于来自语言模型、声学模型、或两者的输出确定第一话语满足作为关键短语的第二阈值，语音识别***分析整个音频信号，以确定一个或多个话语中的每一个的数据(308)。例如，声学模型生成输出，其指示词的文本串很可能被编码在音频信号中。标记文本生成器可以将标记应用到文本串，其指示n元的一个或多个属性(例如，词)被包含在文本串中。例如，标记文本生成器可以将识别关键短语、动词(例如，“播放”)、应用(例如，音乐播放器)，或这些中的两个或更多个的组合的标记应用到文本串。

语音识别***向客户端装置发送标记文本数据，标记文本数据表示编码在音频信号中的一个或多个话语，使用一个或多个话语中的每一个的数据生成(310)。语音识别***可以将标记文本数据发送到客户端装置，以使客户端装置使用标记文本数据进行动作。

响应于基于来自语言模型、声学模型、或两者的输出确定第一话语不满足作为关键短语的第二阈值，语音识别***向客户端装置发送数据，其指示关键短语不大可能被编码在音频信号中(312)。例如，语音识别***可以给客户端装置提供消息，消息指示客户端装置不应使用音频信号的数据进行任何动作。

在一些实现方式中，过程300可以包含附加步骤、更少的步骤，或一些步骤可以划分为多个步骤。例如，语音识别***可以不客制化语言模型。在一些示例中，语音识别***可以使用除语言模型、声学模型、或两者之外的数据或***确定第一话语是否满足作为关键短语的第二阈值。

本申请文本中所描述的主题的实施例和功能操作可以实现为数字电子电路、实体实现的计算机软件或固件、计算机硬件(包含本申请文本中所公开的结构和它们的结构等同)，或它们中的一个或多个的组合。本申请文本中所描述的主题的实施例可以实现为一个或多个计算机程序，即，编码在实体非瞬态程序载体上的计算机程序指令的一个或多个模块，用于由数据处理设备执行或控制数据处理设备的操作。替代地或附加地，程序指令可以编码在人工生成的传播信号(例如，机器生成的电、光、或电磁号)上，其被生成以编码信息，以用于传输到适当接收器设备以由数据处理设备执行。计算机储存介质可以是机器可读储存装置、机器可读储存基板、随机或串行存取存储器装置，或它们中的一个或多个的组合。

术语“数据处理设备”是指数据处理硬件并且涵盖用于处理数据的全部种类的设备、装置以及机器，包含例如可编程处理器、计算机，或多个处理器或计算机。设备还可以是或还可以包含专用目的逻辑电路(例如，FPGA(场可编程门阵列))或ASIC(应用专用集成电路)。除硬件之外，设备可以可选地包含为计算机程序创建执行环境的代码(例如，构成处理器固件的代码)、协议堆栈、数据库管理***、操作***，或它们中的一个或多个的组合。

计算机程序(其也可以称为或描述为程序、软件、软件应用、模块、软件模块、脚本，或代码)可以以任意形式的编程语言编写，包含编译语言或解释语言，或说明性(declarative)语言或过程式(procedural)语言，并且其可以采用任意形式部署，包含作为独立程序或作为模块、部件、子例程，或适用于计算环境中的其他单元。计算机程序可以但不需要对应于文件***中的文件。程序可以储存在文件的保留其他程序或数据的一部分中，例如，储存在标记语言文档中的一个或多个脚本，在专用于所讨论的程序的单个文件中，或在多个协调的文件(例如，储存一个或多个模块、子程序或代码的部分的文件)中。计算机程序可以部署为在一个计算机上或在位于一个位置或分布在多个位置且由通信网络互连的多个计算机上执行。

本申请文本中所描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程计算机通过在输入数据上操作并生成输出而执行，以执行功能。过程和逻辑流还可以通过专用目的逻辑电路(例如，FPGA(场可编程门阵列))或ASIC(应用专用集成电路)进行，并且设备还可以实现为专用目的逻辑电路(例如，FPGA(场可编程门阵列))或ASIC(应用专用集成电路)。

适于执行计算机程序的计算机包含例如通用或专用目的微处理器或两者，或任意其他种类的中央处理单元。总体上，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件为用于进行或执行指令的中央处理单元，以及用于储存指令和数据的一个或多个存储器装置。总体上，计算机将还包含用于储存数据的一个或多个大容量储存装置(例如，磁盘、磁光盘，或光盘)或与之可操作地耦接以从之接收或发送数据或两者。然而，计算机不需要具有这样的装置。此外，计算机可以实施为另一装置，例如，移动电话、智能电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收器，或便携储存装置，例如，通用串行总线(USB)闪速驱动器，仅举几例。

适于储存计算机程序指令和数据的计算机可读介质包含全部形式的非易失性存储器、介质和存储器装置，包含例如半导体存储器装置，例如，EPROM，EEPROM，和闪存装置；磁盘，例如，内部盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用目的逻辑电路补充或整合在之中。

为提供与用户的交互，本申请文本所描述的主题的实施例可以实现在计算机上，计算机具有用于向用户显示信息的显示装置(例如，LCD(液晶显示器)，OLED(有机发光二极管)或其他监视器)，以及键盘和指点装置(例如，鼠标或轨迹球)，用户可以通过键盘和指点装置向计算机提供输入。其他种类的装置也可以用于提供与用户的交互；例如，提供给用户的反馈可以为任意形式的感官反馈，例如，视觉反馈、听觉反馈，或触觉反馈；并且来自用户的输入可以以任意形式接收，包含声学、语音，或触觉输入。另外，计算机可以通过与由用户使用的装置往复发送和接收文档而与用户交互；例如，通过响应于从网络浏览器接收的请求而发送网页到用户的装置上的网络浏览器。

本申请文本中所描述的主题的实施例可以实现在计算***中，计算***包含后端部件(例如，作为数据服务器)，或包含中间件部件(例如，应用服务器)，或包含前端部件(例如，具有图形用户界面或网络浏览器的客户端计算，用户可以以本申请文本中所描述的主题的实现方式与之交互)，或一个或多个这样的后端、中间件，或前端部件的任意组合。***的部件可以以数字数据通信的任意形式或媒介(例如，通信网络)互连。通信网络的示例包含局域网络(LAN)和广域网络(WAN)，例如，互联网。

计算***可以包含客户端和服务器。客户端和服务器通常彼此远程，并且典型地通过通信网络交互。客户端和服务器的关系通过在相应的计算机上运行且具有彼此的客户端-服务器关系的计算机程序产生。在一些实施例中，服务器将数据(例如，超文本标记语言(HTML)页面)传输到用户装置(例如，出于显示数据到与充当客户端的用户装置交互的用户并从之接收用户输入的目的)。可以在服务器处从用户装置接收在用户装置处生成的数据(例如，用户交互的结果)。

图4是计算装置400、450的框图，其可以用来作为客户端或者作为一个或多个服务器而实现本文档中所描述的***和方法。计算装置400意图表示各种形式的数字计算机，诸如膝上式计算机、桌面式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型机，以及其他适当计算机。计算装置450意图表示各种形式的移动装置，诸如个人数字助理、蜂巢电话、智能电话、智能手表、头戴装置，以及其他相似计算装置。此处所示的部件、它们的连接和关系，以及它们的功能仅意图为示例性，并且不意图限制本文档中所描述的和/或要求保护的实现方式。

计算装置400包含处理器402、存储器404、储存装置406、连接到存储器404和高速扩展端口410的高速接口408，以及连接到低速总线414和储存装置406的低速接口412。部件402、404、406、408、410和412中的每一个使用各种总线互连，并且可以安装在共同母板上或以其他适当方式安装。处理器402可以处理用于在计算装置400内执行的指令(包含储存在存储器404中或储存装置406上的指令)，以为外部输入/输出装置上的GUI(诸如耦接到高速接口408的显示器416)显示图形信息。在其他实现方式中，可以依需使用多个处理器和/或多个总线，连同多个存储器和多种类型的存储器。此外，多个计算装置400可以与提供必要操作的部分的每个装置(例如，作为服务器库(bank)、一组刀片式服务器，或多处理器***)连接。

存储器404在计算装置400内储存信息。在一种实现方式中，存储器404是计算机可读介质。在一种实现方式中，存储器404是一个或多个易失性存储器单元。在另一种实现方式中，存储器404是一个或多个非易失性存储器单元。

储存装置406能够为计算装置400提供大容量储存。在一种实现方式中，储存装置406是计算机可读介质。在各种不同实现方式中，储存装置406可以是软盘装置、硬盘装置、光盘装置，或磁带装置、闪速存储器或其他相似的固态存储器装置，或装置的阵列，包含在储存局域网络或其他配置中的装置。在一种实现方式中，计算机程序产品实体地实施在信息载体中。计算机程序产品含有指令，当执行指令时，进行一个或多个方法，诸如上述的那些方法。信息载体是计算机或机器可读介质，诸如存储器404、储存装置406，或处理器402上的存储器。

高速控制器408为计算装置400管理带宽密集型操作，而低速控制器412管理带宽较不密集型操作。这样的任务分配仅是示例性的。在一种实现方式中，高速控制器408耦接到存储器404、显示器416(例如，通过图形处理器或加速器)以及高速扩展端口410，高速扩展端口410可以接受各种扩展卡(未示出)。在实现方式中，低速控制器412耦接到储存装置406和低速扩展端口414。可以包含各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦接到一个或多个输入/输出装置，诸如键盘、指点装置、扫描仪，或网络装置(诸如交换机或路由器)。

计算装置400可以实现为若干不同形式，如图所示。例如，其可以实现为标准服务器420，或在一组这样的服务器中实现多次。其还可以实现为机架式服务器***424的一部分。另外，其可以实现在个人计算机(诸如膝上式计算机422)中。替代地，来自计算装置400的部件可以与移动装置(未示出)中的其他部件(诸如装置450)组合部件。这样的装置中的每一个可以含有计算装置400、450中的一个或多个，并且整个***可以由彼此通信的多个计算装置400、450构成。

计算装置450包含处理器452、存储器464、输入/输出装置(诸如显示器454)、通信接口466，以及收发器468，以及其他部件。装置450还可以提供有储存装置(诸如微驱动器或其他装置)，以提供附加储存。部件450、452、464、454、466和468中的每一个使用各种总线互连，并且部件中的若干个可以安装在共同母板上或依需以其他方式安装。

处理器452可以处理用于在计算装置450内执行的指令，包含储存在存储器464中的指令。处理器还可以包含分开的模拟和数字处理器。可以提供处理器，以例如用于协调装置450的其他部件，诸如控制用户界面、由装置450运行的应用，以及通过装置450的无线通信。

处理器452可以通过控制接口458和耦接到显示器454的显示接口456与用户通信。显示器454可以为例如TFT LCD显示器或OLED显示器，或其他适当显示技术。显示界面456可以包括适当电路，以驱动显示器454向用户呈现图形和其他信息。控制界面458可以从用户接收命令并将它们转化以提交到处理器452。另外，可以将外部接口462提供为与处理器452通信，从而使能装置450与其他装置的附近局域通信。可以提供外部接口462，以例如用于有线通信(例如，经由对接过程)或用于无线通信(例如，经由蓝牙或其他这样的技术)。

存储器464在计算装置450内储存信息。在一种实现方式中，存储器464是计算机可读介质。在一种实现方式中，存储器464是一个或多个易失性存储器单元。在另一种实现方式中，存储器464是非一个或多个易失性存储器单元。还可以提供扩展存储器474并通过扩展接口472将其连接到装置450，扩展接口472可以包含例如SIMM卡接口。这样的扩展存储器474可以为装置450提供额外储存空间，或还可以为装置450储存应用或其他信息。具体地，扩展存储器474可以包含指令，以执行或补充上述的过程，并且还可以包含安全信息。从而，例如，扩展存储器474可以提供作为装置450的安全模块，并且可以编程有允许装置450的安全使用的指令。另外，可以经由SIMM卡提供安全应用，连同附加的信息，诸如以不可侵入方式将识别信息置于SIMM卡上。

存储器可以包含例如闪速存储器和/或MRAM存储器，如下所述。在一种实现方式中，计算机程序产品实体地实施在信息载体中。计算机程序产品含有指令，当执行指令时，进行一个或多个方法，诸如上述的那些方法。信息载体是计算机或机器可读介质，诸如存储器464、扩展存储器474，或处理器452上的存储器。

装置450可以通过通信接口466无线通信，通信接口466在必要的情况下可以包含数字信号处理电路。可以提供通信接口466，以在各种模式或协议(诸如GSM语音通话、SMS、EMS，或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000，或GPRS及其他)下通信。这样的通信可以例如通过射频收发器468发生。另外，短距通信可以诸如使用蓝牙、WiFi或其他这样的收发器(未示出)发生。另外，GPS接收器模块470可以向装置450提供附加的无线数据，其可以适当由装置450上运行的应用依需使用。

装置450还可以使用音频编解码器460听觉地通信，音频编解码器460可以从用户接收说出的信息并将其转化为可用数字信息。音频编解码器460同样可以诸如通过扬声器(例如，在装置450的手持听筒(handset)中)为用户生成可听的声音。这样的声音可以包含来自语音电话通话的声音，可以包含记录的声音(例如，语音消息、音乐文件等)，并且还可以包含由装置450上运行的应用生成的声音。

计算装置450可以实现为若干不同形式，如图所示。例如，其可以实现为蜂巢电话480。其还可以实现为智能电话482、个人数字助理或其他相似移动装置的一部分。

此处所描述的***和技术的各种实现方式可以实现为数字电子电路、集成电路、专门设计的ASIC(应用专用集成电路)、计算机硬件、固件、软件，和/或其组合。这些各种实现方式可以包含一个或多个计算机程序中的实现方式，其在包含至少一个可编程处理器的可编程***上可执行和/或可判读，至少一个可编程处理器可以是专用或通用目的的，被耦接以与储存***、至少一个输入装置和至少一个输出装置往复接收和传输数据和指令。

这些计算机程序(已知为程序、软件、软件应用或代码)包含用于可编程处理器的机器指令，并且可以在高级过程式和/或面向对象的编程语言中实现，和/或在汇编/机器语言中实现。如本文中所使用的，术语“机器可读介质”、“计算机可读介质”是指任意计算机程序产品、用于将机器指令和/或数据提供到可编程处理器的设备和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包含接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于将机器指令和/或数据提供到可编程处理器的任意信号。

为提供与用户的交互，此处描述的***和技术可以实现在计算机上，计算机具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，以及键盘和指点装置(例如，鼠标或轨迹球)，用户可以通过键盘和指点装置向计算机提供输入。还可以使用其他种类的装置来提供与用户的交互；例如，对用户提供的反馈可以为任意形式的感官反馈(例如，视觉反馈、听觉反馈，或触觉反馈)；并且来自用户的输入可以被以任意形式接收，包含声学、语音，或触觉输入。

此处所描述的***和技术可以实现在计算***中，计算***包含后端部件(例如，作为数据服务器)，或包含中间件部件(例如，应用服务器)，或包含前端部件(例如，具有图形用户界面或网络浏览器的客户端计算机，用户可以通过其与此处所描述的***和技术的实现方式交互)，或这样的后端、中间件，或前端部件的任意组合。***的部件可以由任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包含局域网络(“LAN”)、广域网络(“WAN”)，以及互联网。

计算***可以包含客户端和服务器。客户端和服务器通常彼此远程，并且典型地通过通信网络交互。客户端和服务器的关系通过在相应的计算机上运行的且具有彼此的客户端-服务器关系的计算机程序产生。

尽管本申请文本含有许多具体实现方式细节，这些不应理解为对可以要求保护的范围的限制，而应理解为可以特定于特定的实施例的特征的描述。本申请文本中在分开的实施例的上下文中所描述的某些特征还可以实现在单个实施例的组合中。相反地，在单个实施例的上下文中描述的各种特征还可以在多个实施例中分开地或以任意适当子组合实现。此外，虽然以上可能将特征描述为在某些组合中动作并甚至初始地如此要求保护，但来自所要求保护的组合中的一个或多个特征可以在一些情况下被从组合删去，并且所要求保护的组合可以涉及子组合或子组合的变体。

相似地，尽管操作在附图中以特定顺序图示，但这不应理解为要求这样的操作以所示的特定顺序或序列顺序进行，或进行全部图示的操作，以实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。此外，上述实施例中的各种***模块和部件的分离不应理解为在全部实施例中要求这样的分离，并且应理解所描述的程序部件和***可以总体上在单个软件产品集成在一起或打包为多个软件产品。

其他实现方式概括在一下示例中：

示例1：一种非瞬态计算机储存介质，编码有指令，当由计算机执行该指令时，使该计算机进行操作，该操作包括：

接收音频信号，该音频信号编码包含第一话语的一个或多个话语；

确定该第一话语的至少一部分是否满足作为关键短语的至少一部分的第一阈值；

响应于确定该第一话语的至少该部分满足作为关键短语的至少一部分的该第一阈值，将该音频信号发送到服务器***，服务器***确定该第一话语是否满足作为该关键短语的第二阈值，该第二阈值限制性比该第一阈值更高；以及

当该服务器***确定该第一话语满足该第二阈值时，从该服务器***接收标记文本数据，标记文本数据表示在该音频信号中编码的该一个或多个话语。

示例2：如示例1所述的计算机储存介质，该操作包括，在当该服务器***确定该第一话语满足该第二阈值时，从该服务器***接收标记文本数据之后，使用该标记文本数据进行动作，标记文本数据表示在该音频信号中编码的该一个或多个话语。

示例3：如示例1或2所述的计算机储存介质，其中：

该一个或多个话语包括两个或更多个话语，该第一话语在来自该两个或更多个话语的其他话语之前被编码在该音频信号中；并且

使用该标记文本数据进行该动作包括使用在该音频信号中在该第一话语之后编码的该一个或多个话语的标记文本数据来进行动作。

示例4：如示例1至3之一所述的计算机储存介质，其中确定该第一话语的至少一部分是否满足作为该关键短语的至少一部分的该第一阈值包括确定该第一话语的至少一部分是否满足作为该关键短语的包含两个或更多个词的至少一部分的该第一阈值。

示例5：如示例1至4之一所述的计算机储存介质，该操作包括：

接收第二音频信号，该第二音频信号编码包含第二话语的一个或多个第二话语；

确定该第二话语的至少一部分是否满足作为关键短语的至少一部分的该第一阈值；以及

响应于确定该第二话语的至少该部分不满足作为关键短语的至少一部分的该第一阈值，丢弃该第二音频信号。

示例6：如示例5所述的计算机储存介质，该操作包括，响应于确定该第二话语的至少该部分不满足作为关键短语的至少一部分的该第一阈值，确定不使用来自该第二音频信号的数据进行动作。

示例7：如示例1至6之一所述的计算机储存介质，其中确定该第一话语的至少一部分是否满足作为关键短语的该第一阈值包括确定该第一话语的至少一部分是否满足作为关键短语的至少一部分的第一可能性。

示例8：一种***，包括一个或多个计算机和一个或多个储存装置，指令储存在该一个或多个储存装置上，当由该一个或多个计算机执行该指令时，该指令可执行为使该一个或多个计算机进行包括以下的操作：

从客户端装置接收音频信号，音频信号编码一个或多个话语，该一个或多个话语包含一个或多个第一话语，该客户端装置对于该一个或多个第一话语确定该一个或多个第一话语的至少一部分满足作为关键短语的至少一部分的第一阈值；

确定该一个或多个第一话语是否满足作为该关键短语的至少一部分的第二阈值，该第二阈值限制性比该第一阈值更高；以及

向该客户端装置发送确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值的结果。

示例9：如示例8所述的***，其中向该客户端装置发送确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值的结果包括，响应于确定该一个或多个第一话语不满足作为该关键短语的该第二阈值，向该客户端装置发送指示该关键短语不大可能被包含在该音频信号中的数据。

示例10：如示例8或9所述的***，其中向该客户端装置发送确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值的该结果包括，响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值，向该客户端装置发送该音频信号的数据。

示例11：如示例8至10之一所述的***，其中响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值向该客户端装置发送该音频信号的数据包括，向该客户端装置发送标记文本数据，该标记文本数据表示在该音频信号中编码的该一个或多个话语。

示例12：如示例8至11所述的***，该操作包括分析整个音频信号，以确定该一个或多个话语中的每一个的第一数据，其中响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值向该客户端装置发送该音频信号的数据包括，响应于确定该一个或多个第一话语满足作为该关键短语的该第二阈值，向该客户端装置发送该音频信号的第一数据。

示例13：如示例8至12之一所述的***，其中确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值包括，使用语言模型确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值。

示例14：如示例8至13之一所述的***，该操作包括，在使用该语言模型确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值之前，客制化用于该关键短语的该语言模型。

示例15：如示例8至14之一该的***，该操作包括接收识别该关键短语的文本，其中客制化用于该关键短语的该语言模型包括使用识别该关键短语的文本来客制化用于该关键短语的该语言模型。

示例16：如示例8至15之一所述的***，该操作包括：

接收标识符；以及

使用该标识符确定该关键短语的关键短语数据，其中客制化用于该关键短语的该语言模型包括使用该关键短语数据来客制化用于该关键短语的该语言模型。

示例17：如示例8至16之一所述的***，其中使用该语言模型确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值包括，使用该语言模型和声学模型确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值。

示例18：如示例8至17之一所述的***，其中使用该语言模型和该声学模型确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值包括：

将该一个或多个第一话语的数据提供到该语言模型，以使该语言模型生成第一输出；

将该一个或多个第一话语的数据提供到该声学模型，以使该声学模型生成第二输出；

组合该第一输出和该第二输出以生成组合输出；以及

使用该组合输出确定该一个或多个第一话语是否满足作为该关键短语的该第二阈值。

示例19：如示例8至18之一所述的***，该操作包括选择用于默认关键短语的该语言模型。

示例20：如示例8至19之一所述的***，该操作包括确定是否使用该默认关键短语。

示例21：一种计算机实现的方法，包括：

响应于确定该第一话语的至少该部分满足作为关键短语的至少一部分的该第一阈值，将该音频信号发送到服务器***，该服务器***确定该第一话语是否满足作为该关键短语的第二阈值，该第二阈值限制性比该第一阈值更高；以及

当该服务器***确定该第一话语满足该第二阈值时，从该服务器***接收标记文本数据，该标记文本数据表示在该音频信号中编码的该一个或多个话语。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中所列举的动作可以以不同顺序进行并仍实现期望的结果。作为一个示例，附图中所绘示的过程不必要求所示的特定顺序，或序列顺序，以实现期望的结果。在一些情况下，多任务和并行处理可以是有利的。

Claims

1.一种非瞬态计算机储存介质，编码有指令，当由计算机执行所述指令时，使所述计算机进行操作，所述操作包括：

从客户端装置接收音频信号，音频信号编码一个或多个话语，所述一个或多个话语包含一个或多个第一话语，所述客户端装置对于所述一个或多个第一话语确定所述一个或多个第一话语的至少一部分满足作为关键短语的至少一部分的第一阈值；

确定所述一个或多个第一话语是否满足作为所述关键短语的至少一部分的第二阈值，所述第二阈值限制性比所述第一阈值更高；以及

向所述客户端装置发送确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值的结果，包括：

响应于确定所述一个或多个第一话语不满足作为所述关键短语的所述第二阈值，向所述客户端装置发送指示所述关键短语不大可能被包含在所述音频信号中的数据，或者

响应于确定所述一个或多个第一话语满足作为所述关键短语的所述第二阈值，向所述客户端装置发送所述音频信号的数据。

2.如权利要求1所述的计算机储存介质，其中响应于确定所述一个或多个第一话语满足作为所述关键短语的所述第二阈值向所述客户端装置发送所述音频信号的数据包括，向所述客户端装置发送标记文本数据，所述标记文本数据表示在所述音频信号中编码的所述一个或多个话语。

3.如权利要求1所述的计算机储存介质，其中：

所述操作包括分析整个音频信号，以确定所述一个或多个话语中的每一个的第一数据，其中响应于确定所述一个或多个第一话语满足作为所述关键短语的所述第二阈值向所述客户端装置发送所述音频信号的数据包括，响应于确定所述一个或多个第一话语满足作为所述关键短语的所述第二阈值，向所述客户端装置发送所述音频信号的第一数据。

4.如权利要求1所述的计算机储存介质，其中确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值包括，使用语言模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值。

5.如权利要求4所述的计算机储存介质，所述操作包括，在使用所述语言模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值之前，客制化用于所述关键短语的所述语言模型。

6.如权利要求5所述的计算机储存介质，所述操作包括接收识别所述关键短语的文本，其中客制化用于所述关键短语的所述语言模型包括使用识别所述关键短语的文本来客制化用于所述关键短语的所述语言模型。

7.如权利要求5所述的计算机储存介质，所述操作包括：

接收标识符；以及

使用所述标识符确定所述关键短语的关键短语数据，其中客制化用于所述关键短语的所述语言模型包括使用所述关键短语数据来客制化用于所述关键短语的所述语言模型。

8.如权利要求4所述的计算机储存介质，其中使用所述语言模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值包括，使用所述语言模型和声学模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值。

9.一种包括一个或多个计算机和一个或多个储存装置的***，指令储存在一个或多个储存装置上，当由所述一个或多个计算机执行所述指令时，使所述一个或多个计算机进行操作，所述操作包括：

10.如权利要求9所述的***，其中响应于确定所述一个或多个第一话语满足作为所述关键短语的所述第二阈值向所述客户端装置发送所述音频信号的数据包括，向所述客户端装置发送标记文本数据，所述标记文本数据表示在所述音频信号中编码的所述一个或多个话语。

11.如权利要求9所述的***，所述操作包括分析整个音频信号，以确定所述一个或多个话语中的每一个的第一数据，其中响应于确定所述一个或多个第一话语满足作为所述关键短语的所述第二阈值向所述客户端装置发送所述音频信号的数据包括，响应于确定所述一个或多个第一话语满足作为所述关键短语的所述第二阈值，向所述客户端装置发送所述音频信号的第一数据。

12.如权利要求9所述的***，其中确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值包括，使用语言模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值。

13.如权利要求12所述的***，所述操作包括，在使用所述语言模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值之前，客制化用于所述关键短语的所述语言模型。

14.如权利要求13所述的***，所述操作包括接收识别所述关键短语的文本，其中客制化用于所述关键短语的所述语言模型包括使用识别所述关键短语的文本来客制化用于所述关键短语的所述语言模型。

15.如权利要求13所述的***，所述操作包括：

接收标识符；以及

16.如权利要求12所述的***，其中使用所述语言模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值包括，使用所述语言模型和声学模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值。

17.如权利要求16所述的***，其中使用所述语言模型和所述声学模型确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值包括：

将所述一个或多个第一话语的数据提供到所述语言模型，以使所述语言模型生成第一输出；

将所述一个或多个第一话语的数据提供到所述声学模型，以使所述声学模型生成第二输出；

组合所述第一输出和所述第二输出以生成组合输出；以及

使用所述组合输出确定所述一个或多个第一话语是否满足作为所述关键短语的所述第二阈值。

18.如权利要求12所述的***，所述操作包括选择用于默认关键短语的所述语言模型。

19.如权利要求18所述的***，所述操作包括确定是否使用所述默认关键短语。

20.一种计算机实现的方法，包括：