CN113141397B

CN113141397B - 分组化音频信号的认证

Info

Publication number: CN113141397B
Application number: CN202110347179.8A
Authority: CN
Inventors: 格拉瓦·布哈亚; 罗伯特·斯特茨
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-08-31
Publication date: 2023-12-19
Anticipated expiration: 2037-08-31
Also published as: KR20180091705A; KR20210078579A; EP3360307B1; GB201802838D0; EP3360307A1; US20180191711A1; EP3557462A1; JP2020144881A; GB202114214D0; US10917404B2; EP3557462B1; KR102269618B1; CN113141397A; US10541997B2; GB2563965A; GB2563965B; DE212017000294U1; US10541998B2; JP6922028B2; JP2019503594A

Abstract

本公开涉及分组化音频信号的认证。本发明总体上涉及一种用于在语音激活的计算机网络环境中认证分组化音频信号的数据处理***。所述数据处理***可以通过例如在跨越网络传输之前禁用恶意传输来提高在一个或多个计算机网络上的听觉数据分组传输的效率和有效性。本发明的解决方案还可以通过禁用可能受所述恶意音频信号传输影响或由所述恶意音频信号传输造成的远程计算机进程来提高计算效率。通过禁用所述恶意音频信号传输，所述***可以通过不跨越所述网络传输携带所述恶意音频信号的所述数据分组来降低带宽利用。

Description

分组化音频信号的认证

分案说明

本申请属于申请日为2017年8月31日的中国发明专利申请201780001665.6的分案申请。

相关申请的交叉引用

本申请要求于2016年12月30日提交的标题为“AUTHENTICATION OF PACKETIZEDAUDIO SIGNALS(分组化音频信号的认证)”的No.15/395,729美国专利申请的权益和优先权，其全部内容以引用的方式并入本文用于所有目的。

背景技术

计算设备之间的网络业务数据的基于分组或其他方式的过度网络传输可能会妨碍计算设备正确处理网络业务数据、完成与网络业务数据相关的操作或及时响应网络业务数据。如果响应的计算设备处于或超过其处理能力，则网络业务数据的过度网络传输还可能使数据路由复杂化或降低响应质量，这可能导致低效率的带宽利用。过度网络传输的一部分可能包含恶意网络传输。

发明内容

本发明总体上涉及在语音激活的计算机网络环境中认证分组化音频信号以减少过度网络传输量。由数据处理***执行的自然语言处理器组件可以接收数据分组。所述数据分组可以包含由客户端计算设备的传感器检测到的输入音频信号。自然语言处理器组件可以解析输入音频信号以识别请求和对应于所述请求的触发关键字。网络安全装置可以分析输入音频信号的一个或多个特性。基于这些特性，网络安全装置可以设置警报条件。网络安全装置可以向数据处理***的内容选择器组件提供警报条件的指示。内容选择器组件可以基于警报条件经由实时内容选择过程来选择内容项。由数据处理***执行的音频信号发生器组件可以生成包括内容项的输出信号。数据处理***的接口可以传输包括由音频信号发生器组件生成的输出信号的数据分组，以使得由客户端计算设备执行的音频驱动器组件驱动客户端计算设备的扬声器来生成对应于输出信号的声波。数据处理***可以接收响应音频信号。响应于由客户端计算设备生成的输出信号来接收响应音频信号。响应音频信号可以包含由网络安全装置分析的特性。基于响应音频信号的特性，网络安全装置可以终止或暂停服务提供者与客户端计算设备之间的通信会话。

根据本发明的一个方面，一种用于在语音激活的计算机网络环境中认证分组化音频信号的***可以包含由数据处理***执行的自然语言处理器组件。所述自然语言处理器可以经由数据处理***的接口接收包含由客户端设备的传感器检测到的输入音频信号的数据分组。所述自然语言处理器组件可以解析输入音频信号以识别请求和对应于所述请求的触发关键字。所述***可以包含数据处理***的直接动作应用编程接口，其可以响应于所述请求而基于所述触发关键字生成第一动作数据结构。所述***还可以包含网络安全装置，其可以将第一动作数据结构与输入音频信号的第一特性进行比较以检测警报条件。所述***可以包含由数据处理***执行的内容选择器组件。所述内容选择器可以接收由自然语言处理器识别的触发关键字和第一警报条件的指示，并且基于触发关键字和指示选择内容项。所述网络安全装置可以接收携带客户端设备与对话应用编程接口之间传输的响应音频信号的数据分组，所述对话应用编程接口与所述客户端设备建立通信会话。所述网络安全装置可以将响应音频信号的第二特性与输入音频信号的第一特性进行比较以检测第二警报条件。所述网络安全装置可以基于第二警报条件向第三方提供者设备传输禁用与客户端设备建立的通信会话的指令。

根据本发明的另一方面，一种用于在语音激活的计算机网络环境中认证分组化音频信号的方法可以包含由被数据处理***执行的自然语言处理器组件接收包含由客户端设备的传感器检测到的输入音频信号的数据分组。所述方法可以包含由自然语言处理器组件解析所述输入音频信号以识别请求和对应于所述请求的触发关键字。所述方法可以包含由数据处理***的直接动作应用编程接口响应于所述请求而基于所述触发关键字生成第一动作数据结构。所述方法可以包含由网络安全装置将所述第一动作数据结构与输入音频信号的第一特性进行比较以检测警报条件。所述方法可以包含由被数据处理***执行的内容选择器组件基于触发关键字和警报条件选择内容项。所述方法可以包含由网络安全装置接收携带客户端设备与对话应用编程接口之间传输的响应音频信号的数据分组，所述对话应用编程接口与客户端设备建立通信会话。所述方法可以包含由网络安全装置将响应音频信号的第二特性与输入音频信号的第一特性进行比较以检测第二警报条件。所述方法可以包含由网络安全装置响应于与内容项的交互而基于第二警报条件向第三方提供者设备传输禁用与客户端设备建立的通信会话的指令。

根据本发明的一个方面，一种用于在语音激活的计算机网络环境中认证分组化音频信号的***可以包含由数据处理***执行的自然语言处理器组件。所述自然语言处理器可以经由数据处理***的接口接收包含由客户端设备的传感器检测到的输入音频信号的数据分组。所述自然语言处理器组件可以解析输入音频信号以识别请求和对应于所述请求的触发关键字。所述***可以包含数据处理***的直接动作应用编程接口，其响应于所述请求而基于所述触发关键字生成第一动作数据结构。所述***还可以包含网络安全装置，其可以将第一动作数据结构与输入音频信号的第一特性进行比较以检测警报条件。所述***可以包含由数据处理***执行的内容选择器组件。所述内容选择器可以接收由自然语言处理器识别的触发关键字和第一警报条件的指示，并且基于触发关键字和指示选择内容项。所述网络安全装置可以接收携带客户端设备与对话应用编程接口之间传输的响应音频信号的数据分组，所述对话应用编程接口与所述客户端设备建立通信会话。所述网络安全装置可以将响应音频信号的第二特性与输入音频信号的第一特性进行比较以检测通过条件。所述网络安全装置可以基于第二警报条件向第三方提供者设备传输继续与客户端设备建立的通信会话的指令。

下面将详细讨论这些和其他方面和实施方式。上述信息和以下详细描述包含各种方面和实施方式的说明性示例，并且提供用于理解所要求保护的方面和实施方式的性质和特征的概述或框架。附图提供了各种方面和实施方式的说明和进一步的理解，并且并入本说明书并构成本说明书的一部分。

附图说明

附图并非按比例绘制。各图中相似的附图标记和标号指示相似的元件。为了清楚起见，并非每一个组件都会在每一个图中标注。在附图中：

图1描绘了在语音激活的基于数据分组(或其他协议)的计算机网络环境中执行分组化音频信号的认证的示例***；

图2示出了图示用于执行分组化音频信号认证的***的示例操作的流程图；

图3示出了使用图1所示的***在语音激活的基于数据分组(或其他协议)的计算机网络环境中认证分组化音频信号的示例方法；以及

图4是示出可以用于实现本文描述和示出的***元件和方法的计算机***的一般架构的框图。

具体实施方式

以下是关于分组化音频信号的认证的方法、装置和***的各种概念和实施方式的更详细的描述。上面介绍并在下面更详细讨论的各种概念可以许多方式中的任何一种来实现。

本发明总体上涉及一种用于在语音激活的计算机网络环境中认证分组化音频信号的数据处理***。所述数据处理***可以通过例如在跨越网络传输之前禁用恶意传输来提高在一个或多个计算机网络上的听觉数据分组传输的效率和有效性。本发明的解决方案还可以通过禁用可能受恶意音频信号传输影响或由恶意音频信号传输造成的远程计算机进程来提高计算效率。通过禁用恶意音频信号传输，所述***可以通过不跨越网络传输携带恶意音频信号的数据分组来降低带宽利用。处理自然说出的音频信号会是计算密集型任务。通过检测可能的恶意音频信号，所述***可以通过使***跳过或暂时跳过对可能的恶意音频信号的处理来减少计算浪费。所述***可以通过在检测到恶意活动时禁用通信会话来减少计算浪费。

本文中描述的***和方法可以包含接收音频输入查询的数据处理***，音频输入查询也可以被称为音频输入信号。数据处理***从音频输入查询中可以识别请求和对应于所述请求的触发关键字。***可以基于音频输入查询生成动作数据结构。***还可以测量音频输入查询的特性。***可以确定音频输入查询的特性是否匹配音频输入查询的预测或预期特性。如果特性与预期特性不匹配，则***可以选择发送回音频输入查询源的内容项。通信会话可以从所述源开始。内容项可以包含可以通过与源相关联的扬声器播放的输出信号。***可以接收对内容项的响应音频信号。所述响应音频信号还可以包含由***进行的与预期特性进行比较的特性。如果响应音频信号的特性与预期特性不匹配，则***可以禁用与源的通信会话，并阻止源发起与第三方服务提供者或内容提供者的通信会话，这节省了网络带宽、降低了处理器利用并且节省了电力。

本发明的解决方案可以通过认证交互来防止不安全的基于音频的用户交互的传输。确保基于音频的用户交互可以防止在用户(或其他)账户下执行恶意进程。防止恶意进程的执行还可以降低网络带宽利用并降低处理器利用或负载。本发明的解决方案可以通过终止未授权的基于音频的用户交互的传输来降低网络带宽利用。

图1描绘了在语音激活的基于数据分组(或其他协议)的计算机网络环境中执行分组化音频信号的认证的示例***100。***100可以包含至少一个数据处理***105。数据处理***105可以包含具有至少一个处理器的至少一个服务器。例如，数据处理***105可以包含位于至少一个数据中心或服务器场中的多个服务器。数据处理***105可以根据音频输入信号确定请求和与所述请求相关联的触发关键字。基于请求和触发关键字，数据处理***105可以确定或选择包括多个序列相关操作的线程，并且可以按照与相关操作的序列不匹配的顺序来选择内容项(并且如本文所述发起其他动作)，例如作为语音激活的通信或计划***的一部分。内容项可以包含一个或多个音频文件，所述音频文件当被呈现时提供音频输出或声波。除了音频内容之外，内容项还可以包含其他内容(例如文本、视频或图像内容)。

数据处理***105可以包含多个逻辑分组的服务器并且有利于分布式计算技术。服务器的逻辑组可以被称为数据中心、服务器场或机器场。服务器也可以在地理上分散。数据中心或机器场可以作为单个实体来管理，或者机器场可以包含多个机器场。每个机器场中的服务器可以是异构的—一个或多个服务器或机器可以根据一种或多种类型的操作***平台来操作。数据处理***105可以包含数据中心中的服务器，其存储在高密度机架***以及相关联的存储***中，并位于例如企业数据中心中。具有以这种方式整合的服务器的数据处理***105可以通过将服务器和高性能存储***定位在本地化高性能网络上来提高***可管理性、数据安全性、***的物理安全性、以及***性能。集中化所有或一些数据处理***105的组件(包含服务器和存储***)并将其与高级***管理工具耦合能更有效地利用服务器资源，从而节省功率和处理需求并降低带宽使用率。

数据处理***105可以包含至少一个自然语言处理器(NLP)组件110、至少一个接口115、至少一个网络安全装置123、至少一个内容选择器组件125、至少一个音频信号发生器组件130、至少一个直接动作应用编程接口(API)135、至少一个会话处理机组件140、至少一个通信API 136以及至少一个数据储存库145。NLP组件110、接口115、网络安全装置123、内容选择器组件125、音频信号发生器组件130、直接动作API 135和会话处理机(handler)组件140均可以包含至少一个处理单元、服务器、虚拟服务器、电路、引擎、代理、装置，或其他逻辑设备，例如被配置为经由至少一个计算机网络165与数据储存库145以及与其他计算设备(例如，客户端计算设备150、内容提供者计算设备155或服务提供者计算设备160)通信的可编程逻辑阵列。网络165可以包含互联网、局域网、广域网、城域网或其他区域网络、内联网、卫星网络等计算机网络、或诸如语音或数据移动电话通信网络的其它计算机网络、及其组合。

会话处理机组件140可以在数据处理***105与客户端计算设备150之间建立通信会话。会话处理机组件140可以基于从计算设备150接收输入音频信号而生成通信会话。会话处理机组件140可以基于一天中的时间、客户端计算设备150的位置、输入音频信号的上下文或者声纹来设置通信会话的初始持续时间。会话处理机组件140可以在会话届满之后终止通信会话。每个通信会话只需要一次认证。例如，数据处理***105可以确定在通信会话期间存在先前的成功认证，并且不需要附加认证直到通信会话届满。

网络165可以包含或构成显示网络，例如，互联网上可用的与内容放置或搜索引擎结果***相关联的或能够包含第三方内容项作为内容项放置宣传活动的一部分的信息资源的子集。网络165可以由数据处理***105用来访问可由客户端计算设备150呈现、输出、呈现或显示的web页面、web站点、域名或统一资源定位符等信息资源。例如，客户端计算设备150的用户可以通过网络165访问由内容提供者计算设备155或服务提供者计算设备160提供的信息或数据。

网络165可以包含例如：点对点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、ATM(异步传输模式)网络、SONET(同步光网络)网络、SDH(同步数字体系)网络、无线网络或有线网络，以及其组合。网络165可以包含诸如红外线信道或卫星频带的无线链路。网络165的拓扑可以包含总线、星形或环形网络拓扑。网络165可以包含使用用于在移动设备之间通信的任何一个或多个协议的移动电话网络，包含高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信***(“GSM”)、通用分组无线电业务(“GPRS”)或通用移动通信***(“UMTS”)。可以经由不同的协议传输不同类型的数据，或者可以经由不同的协议传输相同类型的数据。

客户端计算设备150、内容提供者计算设备155和服务提供者计算设备160各自可以包含至少一个逻辑设备，例如具有处理器的计算设备，以彼此通信或者经由网络165与数据处理***105通信。客户端计算设备150、内容提供者计算设备155和服务提供者计算设备160各自可以包含至少一个服务器、处理器或存储器、或位于至少一个数据中心中的多个计算资源或服务器。客户端计算设备150、内容提供者计算设备155和服务提供者计算设备160各自可以包含至少一个计算设备，例如桌面型计算机、膝上型计算机、平板电脑、个人数字助理、智能电话、便携式计算机、薄客户端计算机、虚拟服务器或其他计算设备。

客户端计算设备150可以包含至少一个传感器151、至少一个变换器152、至少一个音频驱动器153和至少一个扬声器154。传感器151可以包含麦克风或音频输入传感器。传感器151还可以包含GPS传感器、接近传感器、环境光传感器、温度传感器、运动传感器、加速度计或陀螺仪中的至少一个。变换器152可以将音频输入转换成电子信号。音频驱动器153可以包含由客户端计算设备150的一个或多个处理器执行以控制传感器151、变换器152或音频驱动器153以及客户端计算设备150的其他组件来处理音频输入或提供音频输出的脚本或程序。扬声器154可以发送音频输出信号。

客户端计算设备150可以与终端用户相关联，所述终端用户将语音查询作为音频输入(经由传感器151)录入到客户端计算设备150中，并且以计算机生成的语音的形式接收可以从数据处理***105(或内容提供者计算设备155或服务提供者计算设备160)提供到客户端计算设备150、从扬声器154输出的音频输出。计算机生成的语音可以包含来自真人的录音或计算机生成的语言。

内容提供者计算设备155可以提供基于音频的内容项，以供客户端计算设备150显示为音频输出内容项。内容项可以包含提供者品或服务，例如基于语音的消息，声明：“Would you like me to order you a taxi？(您希望我为您预约出租车吗？)”例如，内容提供者计算设备155可以包含存储器以存储可以响应于基于语音的查询而提供的音频内容项。内容提供者计算设备155还可以向数据处理***105提供基于音频的内容项(或其他内容项)，所述内容项可以存储在数据储存库145中。数据处理***105可以选择音频内容项并提供(或指令内容提供者计算设备155提供)所述音频内容项给客户端计算设备150。内容可以包含被生成以认证客户端计算设备150的用户的安全问题。基于音频的内容项可以是仅音频，或者可以与文本、图像或视频数据组合。

服务提供者计算设备160可以包含至少一个服务提供者自然语言处理器(NLP)组件161和至少一个服务提供者接口162。服务提供者NLP组件161(或其他组件，例如服务提供者计算设备160的直接动作API)可以与客户端计算设备150(经由数据处理***105或绕过数据处理***105)接合以在客户端计算设备150与服务提供者计算设备160之间创建基于来回实时语音或音频的对话(例如，会话)。例如，服务提供者接口162可以接收数据消息或提供数据消息到数据处理***105的直接动作API 135。服务提供者计算设备160和内容提供者计算设备155可以与同一实体相关联。例如，内容提供者计算设备155可以为汽车共享服务创建、存储内容项或使内容项对汽车共享服务可用，并且服务提供者计算设备160可以建立与客户端计算设备150的会话以安排配送汽车共享服务的出租车或汽车来搭载客户端计算设备150的终端用户。经由直接动作API 135、NLP组件110或其他组件，数据处理***105也可以建立与客户端计算设备的会话，包含或绕过服务提供者计算设备160，以安排例如配送汽车共享服务的出租车或汽车。

服务提供者设备160、内容提供者设备155和数据处理***105可以包含对话API136。终端用户可以经由语音对话与内容项交互并且经由通信会话与数据处理***105交互。语音对话可以在客户端设备150与对话API 136之间。对话API 136可以由数据处理***105、服务提供者160或内容提供者155执行。数据处理***105可以获得关于当数据处理***执行对话API 136时终端用户直接与内容的交互的附加信息。当服务提供者160或内容提供者155执行对话API 136时，通信会话可以通过数据处理***105路由，或相应实体可以将通信会话的数据分组转发到数据处理***105。当由数据处理***105执行会话API 136时，本文描述的网络安全装置可以终止通信会话。网络安全装置105可以向服务提供者160或内容提供者155发送指令以在服务提供者160或内容提供者155执行对话API 136时终止(或以其他方式禁用)通信会话。

数据储存库145可以包含一个或多个本地或分布式数据库，并且可以包含数据库管理***。数据储存库145可以包含计算机数据存储装置或存储器，并且可以存储一个或多个参数146、一个或多个策略147、内容数据148、或模板149，以及其它数据。参数146、策略147和模板149可以包含诸如关于客户端计算设备150与数据处理***105(或服务提供者计算设备160)之间的基于语音的会话的规则的信息。内容数据148可以包含用于音频输出或相关元数据的内容项，以及可以作为与客户端计算设备150的一个或多个通信会话的一部分的输入音频消息。

数据处理***105可以包含安装在客户端计算设备150处的应用、脚本或程序，例如将输入音频信号传送到数据处理***105的接口115并驱动客户端计算设备的组件来呈现输出音频信号的app。数据处理***105可以接收数据分组或包含或识别音频输入信号的其他信号。例如，数据处理***105可以执行或运行NLP组件110以接收音频输入信号。可以由客户端计算设备的传感器151(例如，麦克风)检测音频输入信号。通过将输入信号与存储的代表性的音频波形集合进行比较并选择最接近的匹配，NLP组件110可以将音频输入信号转换为辨识的文本。代表性的波形可以在大量的输入信号上生成。用户可以提供一些输入信号。一旦音频信号被转换为辨识的文本，NLP组件110就可以将所述文本与例如经由学习阶段与***200可以进行的动作相关联的词相匹配。经由变换器152、音频驱动器153或其他组件，客户端计算设备150可以将音频输入信号提供给数据处理***105(例如，经由网络165)，在那里音频输入信号可以被接收(例如，经由接口115)并被提供至NLP组件110或作为内容数据148存储在数据储存库145中。

NLP组件110可以获得输入音频信号。根据输入音频信号，NLP组件110可以识别至少一个请求或与所述请求对应的至少一个触发关键字。请求可以指示输入音频信号的意义或主题。触发关键字可以指示可能采取的动作类型。例如，NLP组件110可以解析输入音频信号以识别晚上离开家去参加晚餐和电影的至少一个请求。触发关键字可以包含至少一个单词、短语、词根或部分单词、或指示要采取的动作的派生词。例如，来自输入音频信号的触发关键字“go(去)”或“to go to(要去)”可以指示需要交通。在这个示例中，输入音频信号(或所识别的请求)不直接表示交通目的，然而触发关键字指示交通是对由请求指示的至少一个其他动作的辅助动作。

内容选择器组件125可以从数据储存库145获得此信息，其中数据储存库145可以将此信息存储为内容数据148的一部分。内容选择器组件125可以查询数据储存库145以例如从内容数据148选择或以其他方式识别内容项。内容选择器组件125还可以从内容提供者计算设备155中选择内容项。例如，响应于从数据处理***105接收到的查询，内容提供者计算设备155可以将内容项提供到数据处理***105(或其组件)以供客户端计算设备150最终输出。

音频信号发生器组件130可以生成或以其他方式获得包含内容项的输出信号。例如，数据处理***105可以执行音频信号发生器组件以生成或产生对应于内容项的输出信号。数据处理***105的接口115可以经由计算机网络165将包含输出信号的一个或多个数据分组提供或发送到客户端计算设备150。例如，数据处理***105可以将来自数据储存库145或来自音频信号发生器组件130的输出信号提供至客户端计算设备150。数据处理***105还可以经由数据分组传输指令内容提供者计算设备155或服务提供者计算设备160将输出信号提供至客户端计算设备150。可以获取、生成、变换输出信号或将其作为一个或多个数据分组(或其他通信协议)从数据处理***105(或其他计算设备)发送到客户端计算设备150。

内容选择器组件125可以选择用于输入音频信号的动作的内容项作为实时内容选择过程的一部分。例如，可以将内容项提供给客户端计算设备，以直接响应于输入音频信号的对话方式作为音频输出进行传输。识别内容项并将内容项提供给客户端计算设备150的实时内容选择过程可以在从输入音频信号的时间起一分钟或更短的时间内发生并被认为是实时的。

对应于内容项的输出信号，例如，由音频信号发生器组件130获得或生成的经由接口115和计算机网络165传输到客户端计算设备150的输出信号，可以使得客户端计算装置150执行音频驱动器153以驱动扬声器154生成对应于输出信号的声波。所述声波可以包含内容项的文字或对应于内容项的文字。

数据处理***的直接动作API 135可以基于触发关键字生成动作数据结构。直接动作API 135可以执行指定的动作以满足由数据处理***105确定的终端用户的意图。取决于其输入中指定的动作，直接动作API 135可以执行识别满足用户请求所需的参数的代码或对话脚本。动作数据结构可以响应于请求而生成。动作数据结构可以被包含在发送到服务提供者计算设备160或被服务提供者计算设备160接收的消息中。基于由NLP组件110解析的请求，直接动作API 135可以确定应将消息发送到哪个服务提供者计算设备160。例如，如果输入音频信号包含“order a taxi(预订出租车)”，则NLP组件110可以识别触发字“order(预订)”和对出租车的请求。直接动作API 135可以将请求封装成动作数据结构，以作为消息传输到出租车服务的服务提供者计算设备160。所述消息也可以被传递给内容选择器组件125。动作数据结构可以包含用于完成请求的信息。在这个示例中，信息可以包含搭载位置和目的地位置。直接动作API 135可以从储存库145检索模板149以确定在动作数据结构中要包含哪些字段。直接动作API 135可以确定必要的参数并且可以将信息封装成动作数据结构。直接动作API 135可以从储存库145检索内容以获得数据结构的字段的信息。直接动作API 135可以利用该信息填充来自模板的字段以生成数据结构。直接动作API 135还可以利用来自输入音频信号的数据来填充字段。模板149可以针对服务提供者的类别进行标准化或者可以针对特定的服务提供者进行标准化。例如，乘车共享服务提供者可以使用以下标准化模板149来创建数据结构：{client_device_identifier；authentication_credentials；pick_up_location；destination_location；no_passengers；service_level}。接着可以将动作数据结构发送到诸如内容选择器组件125的另一组件或发送到服务提供者计算设备160来完成。

直接动作API 135可以与服务提供者计算设备160(其可以与内容项相关联，例如汽车共享公司)进行通信，以便在电影结束时预订针对电影院位置的出租车或搭乘共享车辆。数据处理***105可以从数据储存库145或者从诸如服务提供者计算设备160或内容提供者计算设备155的其他源获得此位置或时间信息，作为与客户端计算设备150的基于数据分组(或其他协议)的数据消息通信的一部分。可以将此预订的确认(或其它转换)以来自数据处理***105的输出信号的形式，作为音频通信从数据处理***105提供至客户端计算设备150，其驱动客户端计算设备150呈现音频输出，例如“great,you will have a carwaiting for you at 11pm outside the theater(好的，将有车在晚上11点在电影院外等待您)”。数据处理***105可以经由直接动作API 135与服务提供者计算设备160通信以确认汽车的预订。

数据处理***105可以获得对内容项(“would you like a ride home from themovie theater？(您想从电影院乘车回家？)”)的响应(例如“yes please(是的，麻烦了)”)，并且可以将基于分组的数据消息路由到服务提供者NLP组件161(或服务提供者计算设备的其他组件)。这种基于分组的数据消息可以使服务提供者计算设备160产生转换，例如，让汽车接受预订在电影院外等候。这种转换——或确认预订(或线程的任何其他动作的任何其他转换)——可以在完成线程的一个或多个动作之前例如在看完电影之前发生以及在完成线程的一个或多个动作之后例如在晚餐之后发生。

直接动作API 135可以从数据储存库145获得内容数据148(或参数146或策略147)以及在终端用户同意的情况下从客户端计算设备150接收的数据，从而确定位置、时间、用户账户、物流或其他信息，以便从汽车共享服务预约汽车。内容数据148(或参数146或策略147)可包含在动作数据结构中。当包含在动作数据结构中的内容包含用于认证的终端用户数据时，数据可以传递经由散列函数之后再存储在数据储存库145中。使用直接动作API135，数据处理***105还可以与服务提供者计算设备160通信以经由(在此示例中)预约汽车共享接送服务来完成转换。

数据处理***105可以取消与内容项相关的动作。动作的取消可以响应于网络安全装置123产生警报条件。当网络安全装置123预测输入音频信号是恶意的或者并非由客户端计算设备150的授权终端用户提供时，网络安全装置123可以生成警报条件。

数据处理***105可以包含、接口连接或以其他方式与网络安全装置123进行通信。网络安全装置123可以对客户端计算设备150与内容提供者计算设备155之间的信号传输进行认证。信号传输可以是来自客户端计算设备150的音频输入和来自客户端计算设备150的音频响应信号。音频响应信号可以响应于在一个或多个通信会话期间由数据处理***105发送到客户端计算设备150的内容项而生成。网络安全装置123可以经由将动作数据结构与输入音频信号和响应音频信号的一个或多个特性进行比较来认证信号传输。

网络安全装置123可以确定输入音频信号的特性。音频信号的特性可以包含声纹、关键字、检测到的语音数量、音频源的标识以及音频源的位置。例如，网络安全装置123可以测量输入音频信号的频谱分量以生成用于生成输入音频信号的语音的声纹。响应于输入音频信号而生成的声纹可以与由数据处理***105保存的所存储声纹进行比较。保存的声纹可以是认证的声纹，例如，由客户端计算装置150的认证用户在***设置阶段生成的声纹。

网络安全装置123还可以确定输入音频信号的非音频特性。客户端计算设备150可以包含输入音频信号中的非音频信息。非音频信息可以是如由客户端计算设备150确定或指示的位置。非音频信息可以包含客户端计算设备150的标识符。非音频特性或信息还可以包含物理认证设备，例如使用一次性口令设备或指纹读取器的质询-响应。

网络安全装置123可以在输入音频信号的特性与动作数据结构不对应时设置警报条件。例如，网络安全装置123可以检测动作数据结构与输入音频信号的特性之间的不匹配。在一个示例中，输入音频信号可以包含客户端计算设备150的位置。动作数据结构可以包含终端用户的预测位置，例如基于终端用户的智能电话的一般位置的位置。如果网络安全装置123确定客户端计算设备150的位置不在动作数据结构所包含的位置的预定范围内，则网络安全装置123可以设置警报条件。在另一示例中，网络安全装置123可以将输入音频信号的声纹与数据储存库145中存储的且包含在动作数据结构中的终端用户的声纹进行比较。如果两个声纹不匹配，则网络安全装置123可以设置警报条件。

网络安全装置123可以响应于输入音频信号中的请求来确定认证所基于的输入音频信号特性。使用不同特性的认证可以具有不同的计算要求。例如，与比较两个位置相比，比较声纹在计算上可以更加密集。选择不需要调用的计算密集的认证方法可以是在计算上浪费的。网络安全装置123可以经由基于请求选择用于认证的特性来提高数据处理***105的效率。例如，当与输入音频信号相关联的安全风险较低时，网络安全装置123可以使用计算并不密集的特性来选择认证方法。网络安全装置123可以基于完成请求所需的成本来选择特性。例如，当输入音频信号是“order a new laptop computer(订购新的膝上型计算机)”时可以使用声纹特性，但是当输入音频信号是“order a taxi(预订出租车)”时选择位置特性。特性的选择可以基于完成请求所需的时间或计算密集性。消耗更多计算资源的特性可用于认证生成需要更多计算资源才能完成的请求的输入音频信号。例如，输入音频信号是“Ok,I’d like to go to dinner and the movies(Ok，我想去吃饭和看电影”可以包含多个动作和请求，并涉及多个服务提供者160。输入音频信号可以生成搜索可能的电影、搜索可能的餐厅可用性、进行餐厅预约和购买电影票的请求。完成这个输入音频信号相比完成输入音频信号“Ok,what time is it？(Ok，几点？)”在计算上更加密集，并且花费更长的时间。

网络安全装置123还可以基于输入音频信号中包含的请求来设置警报条件。在将动作数据结构发送到服务提供者计算设备160会导致收取客户端计算设备150的终端用户费用的情况下，网络安全装置123可自动设置警报条件。例如，第一输入音频信号“Ok,ordera pizza(是的，订购披萨)”会产生收费，而第二输入音频信号“Ok,what time is it？”则不会产生收费。在这个示例中，网络安全装置123可以在接收到与第一输入音频信号相对应的动作数据结构时自动设置警报条件，而在接收到与第二输入音频信号相对应的动作数据结构时不设置警报条件。

网络安全装置123可以基于确定动作数据结构是针对特定服务提供者设备160而设置警报条件。例如，客户端计算设备150的终端用户可以对数据处理***105可以在没有进一步授权的情况下代表终端用户与哪些服务提供者进行交互设置限制。例如，如果终端用户有孩子，为了防止孩子通过销售玩具的服务提供者购买玩具，终端用户可以设置限制条件，即在没有进一步认证的情况下，动作数据结构不能发送给玩具销售商。当网络安全装置123接收到针对特定服务提供者设备160的动作数据结构时，网络安全装置123可以在数据储存库中查找策略以确定是否应该自动设置警报条件。

网络安全装置123可以向内容选择器组件125发送警报条件的指示。内容选择器组件125可以选择要发送到客户端计算设备150的内容项。内容项可以是对口令短语或附加信息的听觉请求以认证输入音频信号。内容项可以发送到客户端计算设备150，在客户端计算设备150处音频驱动器153经由变换器152将内容项转换成声波。客户端计算设备150的终端用户可以对内容项作出响应。终端用户的响应可以由传感器151数字化并且发送到数据处理***105。NLP组件110可以处理响应音频信号并且向网络安全装置123提供响应。网络安全装置123可以比较响应音频信号的特性与输入音频信号或动作数据结构的特性。例如，内容项可以是对口令短语的请求。NLP组件110可以识别响应音频信号的文本，并将所述文本传递给网络安全装置123。网络安全装置123可以对所述文本运行散列函数。在用相同散列函数散列之后，终端用户的认证口令短语可以被保存在数据储存库145中。网络安全装置123可以将散列文本与保存的散列口令短语进行比较。如果散列文本和散列口令短语相匹配，则网络安全装置123可以认证该输入音频信号。如果散列文本和散列口令短语不匹配，则网络安全装置123可以设置第二警报条件。

网络安全装置123可以终止通信会话。网络安全装置123可以向服务提供者计算设备160发送禁用、暂停或以其他方式终止与客户端计算设备150建立的通信会话的指令。通信会话的终止可以响应于网络安全装置123设置第二警报条件。网络安全装置123可以禁用计算设备经由数据处理***105来与服务提供者计算设备160生成通信会话的能力。例如，如果网络安全装置123响应于输入音频信号“Ok,order a taxi”设置第二警报条件，则网络安全装置123可以禁用在客户端计算设备150与出租车服务提供者设备之间建立通信会话的能力。授权用户可以稍后重新授权出租车服务提供者设备。

图2示出了图示用于执行音频信号认证的***200的示例操作的流程图。***200可以包含上文关于***100描述的一个或多个组件或元件。例如，***200可以包含经由例如网络165与客户端计算设备150和服务提供者计算设备160通信的数据处理***105。

***200的操作可以从客户端计算设备150将输入音频信号201发送到数据处理***105开始。一旦数据处理***105接收到输入音频信号，数据处理***105的NLP组件110就可以将输入音频信号解析成请求和对应于所述请求的触发关键字。可以经由数据处理***105在客户端计算设备150与服务提供者计算设备160之间建立通信会话。

直接动作API 135可以基于请求生成动作数据结构。例如，输入音频信号可能是“Iwant a ride to the movies.(我要乘车去看电影)”。在此示例中，直接动作API 135可以确定请求是针对汽车服务。直接动作API 135可以确定生成输入音频信号的客户端计算设备150的当前位置，并且可以确定最近的电影院的位置。直接动作API 135可以生成动作数据结构，其包含客户端计算设备150的位置作为汽车服务的搭载位置，并且包含最近的电影院的位置作为汽车服务的目的地。动作数据结构还可以包含输入音频信号的一个或多个特性。数据处理***105可以将动作数据结构传送给网络安全装置来确定是否应设置警报条件。

如果网络安全装置检测到警报条件，则数据处理***105可以经由内容选择器组件125选择内容项。数据处理***105可以将内容项202提供给客户端计算设备150。内容项202可以作为数据处理***105与客户端计算设备150之间的通信会话的一部分提供给客户端计算设备150。通信会话可以具有实时人人对话的流程和感觉。例如，内容项可以包含在客户端计算设备150处播放的音频信号。终端用户可以对音频信号作出响应，其可以由传感器151数字化并发送到数据处理***105。内容项可以是发送到客户端计算设备150的安全问题、内容项或其他问题。所述问题可以经由变换器152呈现给生成输入音频信号的终端用户。在一些实施方式中，安全问题可以基于客户端计算设备150与数据处理***105之间的过去的交互。例如，如果在输入音频信号的传输之前，用户经由***200通过提供输入音频信号“Ok,order a pizza”来订购披萨，则安全问题可以包含“what did you order fordinner last night(您昨晚订购的晚餐是什么)”。内容项还可以包含对数据处理***105提供口令的请求。内容项可以包含对与第一计算设备150相关联的第二计算设备150的推送通知。例如，可以将请求确认输入音频信号的推送通知发送到与客户端计算设备150相关联的智能电话。用户可以选择推送通知以确认输入音频信号是真实的。

在客户端计算设备150与数据处理***105之间的通信会话期间，用户可以对内容项做出响应。用户可以口头响应所述内容项。所述响应可以由传感器151数字化并且作为由多个数据分组携带的响应音频信号203发送到数据处理***105。听觉信号还可以包含可以由网络安全装置分析的特性。如果网络安全装置基于响应音频信号的条件确定警报条件持续，则网络安全装置可以向服务提供者计算设备160发送消息204。消息204可以包含服务提供者计算设备160禁用与客户端计算设备150的通信会话的指令。

图3示出了在语音激活的基于数据分组(或其他协议)的计算机网络环境中认证分组化音频信号的示例方法300。方法300可以包含接收包含输入音频信号的数据分组(ACT302)。例如，数据处理***可以执行、启动或调用NLP组件以经由网络从客户端计算设备接收基于分组或其他协议的传输。数据分组可以包含或对应于由传感器检测到的输入音频信号，例如终端用户向智能电话说“Ok,I would like to go to go dinner and then amovie tonight”。

方法300可以包含识别输入音频信号内的请求和触发关键字(ACT304)。例如，NLP组件可以解析输入音频信号以识别请求(例如以上示例中的“dinner(晚餐)”或“movie(电影)”)以及与请求对应或有关的触发关键字“go”、“go to”或“to go to”。

方法300可以包含基于请求生成第一动作数据结构(ACT 306)。直接动作API可以生成数据结构，所述数据结构可被发送并由服务提供者计算设备或内容提供者计算设备处理以满足输入音频信号的请求。例如，继续上述示例，直接动作API可以生成被发送到餐厅预订服务的第一动作数据结构。第一动作数据结构可以执行对位于客户端计算设备的当前位置附近且符合与客户端计算设备的用户相关联的其他要求(例如，客户端计算设备的用户所偏好的美食类型)的餐厅的搜索。直接动作API还可以确定预约的优选的时间。例如，数据处理***可以确定在搜索期间选择的餐厅距离15分钟，而当前时间是下午6点半。数据处理***可以设置优选的预约时间为下午6点45之后的时间。在这个示例中，第一动作数据结构可以包含餐厅名称和优选的预约时间。数据处理***可以将第一动作数据结构发送给服务提供者计算设备或内容提供者计算设备。ACT 306可以包含生成多个动作数据结构。对于上述输入音频信号，可以生成包含电影名称和餐厅名称的第二动作数据结构，并且可以生成包含搭载位置和下客位置的第三动作数据结构。数据处理***可以将第二动作数据结构提供给电影票务预订服务，并将第三动作数据结构提供给汽车预订服务。

方法300还可以包含将第一动作数据结构与输入音频信号的特性进行比较(ACT308)。网络安全装置可以将输入音频信号的特性与第一动作数据结构进行比较，以确定输入音频信号的真实性。确定输入音频信号的真实性可以包含确定生成输入音频信号的人是否被授权生成所述输入音频信号。输入音频信号的特性可以包含声纹、关键字、检测到的语音数量、音频源的标识(例如，输入音频信号起源处的传感器或客户端计算设备的标识)、音频源的位置，或另一客户端计算设备的位置(以及另一客户端计算设备与音频源之间的距离)。例如，可以通过让用户读出段落来在设置阶段生成授权的声纹。在读出段落时，网络安全装置可以基于信号的频率内容、质量、持续时间、强度、动态性和音调来生成声纹。如果网络安全装置确定输入音频信号的特性与第一动作数据结构或其他预期数据不匹配，则网络安全装置可以生成警报条件。例如，当生成“Ok,I would like to go to go dinner andthen a movie tonight,”的动作数据结构时，数据处理***可以生成包含基于用户的智能电话的位置的搭载位置的汽车预约服务的动作数据结构。动作数据结构可以包含该位置。输入音频信号可以由交互式扬声器***生成。交互式扬声器***的位置与输入音频信号一起被发送到数据处理***。在此示例中，如果用户的智能电话的位置与交互式扬声器***的位置不匹配(或者不在交互式扬声器***的预定义距离内)，则用户不在交互式扬声器***附近，并且网络安全装置可以确定用户很可能没有输入音频信号。网络安全装置可以生成警报条件。客户端计算设备150与辅客户端设备(例如，终端用户的智能电话)之间的距离可以被计算为两个设备之间的直线距离、两个设备之间的驾驶距离。距离也可以基于两个设备的位置之间的行进时间。距离可以基于可以指示位置的其他特性，例如IP地址和Wi-Fi网络位置。

方法300可以包含选择内容项(ACT 310)。内容项可以基于触发关键字和警报条件，并且可以经由实时内容选择过程来选择。可以选择内容项来认证输入音频信号。内容项可以是在诸如用户的智能电话的客户端计算设备上显示的通知、在线文档或消息。内容项可以是被发送到客户端计算设备并经由变换器广播给用户的音频信号。内容项可以是安全问题。安全问题可以是预定义的安全问题，例如对口令的请求。安全问题可以动态生成。例如，安全问题可以是基于用户或客户端计算设备的先前历史生成的问题。

方法300可以包含接收携带听觉信号的数据分组(ACT 312)。数据分组可以携带在客户端计算设备与数据处理***的对话API之间传输的听觉信号。对话API可以响应于与内容项的交互而与数据处理***建立通信会话。听觉信号可以包含用户对ACT 310期间发送到客户端计算设备的内容项的响应。例如，内容项可以使得客户端计算设备生成询问“whatis your authorization code？(您的授权码是？)”的音频信号。听觉信号可以包含终端用户对内容项的响应。终端用户对内容项的响应可以是响应音频信号的特性。

方法300还可以包含将响应音频信号的特性与输入音频信号的特性进行比较(ACT314)。响应音频信号可以包含口令短语或其他特性。内容项可以包含对客户端计算设备捕捉响应音频信号的一个或多个特定特性的指令。例如，输入音频信号的特性可以是客户端计算设备的位置。响应音频信号的特性可以不同于输入音频信号的特性。例如，响应音频信号的特性可以是声纹。内容项可以包含对捕捉声纹特性的指令。所述指令可以包含以更高的采样频率捕捉响应音频信号，使得可以针对声纹分析附加频率内容。如果***没有检测到响应音频信号的特性与输入音频信号的特性相匹配，则***可以设置警报条件。例如，如果响应音频信号的特性包含与关联于输入音频信号口令短语不匹配的口令短语，则可以设置警报条件。

如果响应音频信号的特性与输入音频信号的特性匹配(例如，口令短语(或其散列值)匹配)。可以设置通过条件。当设置通过条件时，***可以向第三方发送继续与客户端设备的通信会话的指令。继续通信会话的指令可以认证通信会话预定时间量，使得不需要重新认证通信会话直到预定时间届满。

方法300还可以包含向第三方提供者设备发送禁用通信会话的指令(ACT 316)。禁用通信会话可以阻止消息和动作数据结构发送到服务提供者设备。这可以通过减少不必要的网络业务来提高网络利用。因为服务提供者设备不处理恶意的或错误生成的请求，所以禁用通信会话可以减少计算浪费。

图4是示例计算机***400的框图。计算机***或计算设备400可以包含或用于实现***100或其组件，例如数据处理***105。计算***400包含用于传送信息的总线405或其他通信组件以及耦合到总线405以处理信息的处理器410或处理电路。计算***400还可以包含耦合到总线用于处理信息的一个或多个处理器410或处理电路。计算***400还包含耦合到总线405用于存储信息以及由处理器410执行的指令的主存储器415，例如随机存取存储器(RAM)或其他动态存储设备。主存储器415可以是或包含数据储存库145。主存储器415还可以用于在处理器410执行指令期间存储位置信息、临时变量或其他中间信息。计算***400可进一步包含耦合到总线405用于存储用于处理器410的静态信息和指令的只读存储器(ROM)420或其他静态存储设备。诸如固态设备、磁盘或光盘的存储设备425可以耦合到总线405以永久地存储信息和指示。存储设备425可以包含或者是数据储存库145的一部分。

计算***400可以经由总线405耦合到显示器435，例如液晶显示器或有源矩阵显示器，用于向用户显示信息。输入设备430，例如包含字母数字键和其他键的键盘，可以耦合到总线405，用于向处理器410传送信息和命令选择。输入设备430可以包含触摸屏显示器435。输入设备430还可以包含用于向处理器410传送方向信息和命令选择以及用于控制显示器435上的光标移动的光标控制件，例如鼠标、轨迹球或光标方向键。例如，显示器435可以是数据处理***105、客户端计算设备150或图1的其他组件的一部分。

这里描述的过程、***和方法可以由计算***400响应于处理器410执行包含在主存储器415中的一系列指令来实现。这样的指令可以从诸如存储设备425的另一个计算机可读介质读取到主存储器415中。包含在主存储器415中的一系列指令的执行使得计算***400执行在此描述的说明性过程。还可以采用多处理布置中的一个或多个处理器来执行包含在主存储器415中的指令。可以使用硬连线电路代替软件指令或与软件指令一起结合在此描述的***和方法。这里描述的***和方法不限于硬件电路和软件的任何特定组合。

虽然在图4中已经描述了示例计算***，但包含本说明书中描述的操作的主题可以在其他类型的数字电子电路中或者在计算机软件、固件或硬件中实现，包含本说明书中公开的结构及其结构等同物，或者在上述中的一个或多个的组合中实现。

对于这里讨论的***收集关于用户的个人信息或者可以利用个人信息的情况，可以向用户提供机会来控制程序或特征是否可能收集个人信息(例如，关于用户的社交网络、社交动作或活动、用户的偏好或用户的位置的信息)，或者控制是否或如何接收来自内容服务器或其他数据处理***的可能与用户更相关的内容。另外，某些数据在存储或使用之前可能会以一种或多种方式进行匿名化处理，以便在生成参数时删除个人可识别信息。例如，用户的身份可以被匿名化，使得不能确定用户的个人可识别信息，或者可以在获得位置信息的情况下将用户的地理位置一般化(诸如到城市、邮政编码或州级)，使得不能确定用户的具***置。因此，用户可以控制内容服务器如何收集关于他或她的信息以及使用信息。

本说明书中描述的主题和操作可以在数字电子电路中或者在计算机软件、固件或硬件中实现，包含本说明书中公开的结构及其结构等同物，或者在上述中的一个或多个的组合中实现。本说明书中描述的主题可以被实现为在一个或多个计算机存储介质上编码的用于由数据处理设备执行或控制数据处理设备的操作的一个或多个计算机程序，例如计算机程序指令的一个或多个电路。替代地或另外，程序指令可以编码在人工生成的传播信号上，例如机器生成的电信号、光信号或电磁信号，生成所述信号以对信息进行编码从而传输到合适的接收器装置以由数据处理装置执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基质、随机或串行存取存储器阵列或设备，或者其中的一个或多个的组合，或者可以被包括在其中。虽然计算机存储介质不是传播信号，但是计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个单独的组件或介质(例如，多个CD、磁盘或其他存储设备)或被包括在其中。本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上的数据或从其他源接收的数据执行的操作。

术语“数据处理***”、“计算设备”、“组件”或“数据处理装置”包括用于处理数据的各种装置、设备和机器，例如包含可编程处理器、计算机、片上***、或前述中的多个或组合。装置可以包含专用逻辑电路，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。除了硬件之外，装置还可以包含为所涉及的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理***、操作***、跨平台运行时环境、虚拟机或其中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施，例如Web服务、分布式计算和网格计算基础设施。直接动作API 135、内容选择器组件125、网络安全装置123、或NLP组件110以及其他数据处理***105的组件可以包含或共享一个或多个数据处理装置、***、计算设备或处理器。

计算机程序(也被称为程序、软件、软件应用、app、脚本或代码)可以用任何形式的编程语言编写，包含编译或解释语言、说明性或过程语言，并且可以任何形式部署，包含作为独立程序或作为模块、组件、子程序、对象或适用于计算环境的其他单元。计算机程序可以对应于文件***中的文件。计算机程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调的文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可被部署以在一台计算机上或位于一个站点处或跨多个站点分布并由通信网络互连的多台计算机上执行。

本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器(例如，数据处理***105的组件)来执行，以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流也可以由专用逻辑电路例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)来执行，并且装置也可以实现为所述专用逻辑电路。适合于存储计算机程序指令和数据的设备包含所有形式的非易失性存储器、介质和存储设备，例如包含半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入专用逻辑电路。

这里描述的主题可以在包含后端组件(例如作为数据服务器)或包含中间件组件(例如应用服务器)或包含前端组件(例如具有用户可以通过其与本说明书中所描述的主题的实施方式交互的图形用户接口或web页面浏览器的客户端计算机)或者一个或多个这样的后端、中间件或前端组件的组合的计算***中实现。***的组件可以由数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的示例包含局域网(“LAN”)和广域网(“WAN”)、互联网络(例如因特网)以及对等网络(例如，ad hoc对等网络)。

诸如***100或***400的计算***可以包含客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络(例如，网络165)进行交互。客户端与服务器之间的关系是通过运行在各个计算机上且彼此具有客户端-服务器关系的计算机程序产生的。在一些实施方式中，服务器将数据(例如，表示内容项的数据分组)发送到客户端设备(例如，出于向与客户端设备交互的用户显示数据和从所述用户接收用户输入的目的)。在客户端设备处生成的数据(例如，用户交互的结果)可以在服务器处从客户端设备接收(例如，由数据处理***105从客户端计算设备150或内容提供者计算设备155或服务提供者计算设备160接收)。

尽管在附图中以特定顺序描述了操作，但是这些操作不需要以所示出的特定顺序或以相继顺序执行，并且不需要执行所有示出的操作。这里描述的动作可以不同的顺序执行。

各种***组件的分离不需要在所有实施方式中分离，并且所描述的程序组件可以包含在单个硬件或软件产品中。例如，NLP组件110、内容选择器组件125或网络安全装置123可以是单个组件、app或程序，或具有一个或多个处理电路的逻辑设备，或是数据处理***105的一个或多个服务器的一部分。

现在已经描述了一些说明性的实施方式，显而易见的是，前述内容是说明性而非限制性的，已通过示例的方式呈现。具体地说，虽然本文提出的许多示例涉及方法动作或***元件的特定组合，但这些动作和元件可以其他方式组合以实现相同的目标。结合一个实施方式讨论的动作、元件和特征并非意图排除在其他一个或多个实施方式中的类似作用。

本文中使用的措辞和术语是为了描述的目的，且不应被认为是限制性的。“包含”、“包括”、“具有”、“含有”、“涉及”、“特征在于”、“其特征在于”及其变化形式意在涵盖其后列出的项、其等同物和附加项以及由其后专门列出的项组成的替代实施方式。在一个实施方式中，本文中描述的***和方法包括所描述的元件、动作或组件中的一个、超过一个的每个组合或全部。

本文以单数提及的***和方法的实施方式或元件或动作的任何引用还可以包括含有多个这些元件的实施方式，并且本文的任何实施方式或元件或动作的复数引用也可以包括仅含有单个元件的实施方式。单数形式或复数形式的引用不旨在将当前公开的***或方法、其组件、动作或元件限制为单个或多个配置。对基于任何信息、动作或元件的任何动作或元件的引用可以包含其中动作或元件至少部分地基于任何信息、动作或元件的实施方式。

本文中公开的任何实施方式可以与任何其他实施方式或实施例组合，并且对“实施方式”、“一些实施方式”、“一个实施方式”等的引用不一定是相互排斥的，而是旨在指示结合实施方式描述的特定特征、结构或特性可以包含在至少一个实施方式或实施例中。本文中使用的此类术语不一定都指的是相同的实施方式。任何实施方式可以任何与本文所公开的方面和实施方式一致的方式包含地或排他地与任何其他实施方式组合。

对“或”的引用可以被解释为包含性的，因此使用“或”描述的任何术语可以指示单个、超过一个以及全部所描述术语中的任何一个。例如，对“‘A’和‘B’中的至少一个”的引用可以仅包含“A”、仅包含“B”以及“A”和“B”两者。结合“包括”或其他公开术语使用的此类参考可以包含附加项。

在附图、详细描述或任何权利要求中的技术特征后面附有附图标记的情况下，已经包含附图标记以增加附图、详细描述和权利要求的可理解性。相应地，附图标记和它们的缺失都不会对任何权利要求元素的范围产生任何限制作用。

本文描述的***和方法可以其他特定形式来实施而不脱离其特性。前述实施方式是说明性的而非限制所描述的***和方法。本文中描述的***和方法的范围因此由所附权利要求书而不是前面的描述来指示，并且落入权利要求书的等同物的含义和范围内的改变也包含在其中。

Claims

1.一种在语音激活的计算机网络环境中认证分组化音频信号的***，包括：

数据处理***，所述数据处理***包括至少一个处理器和存储器；

自然语言处理器组件，所述自然语言处理器组件由所述数据处理***执行，用于经由所述数据处理***的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据分组；

所述自然语言处理器组件用于解析所述输入音频信号以识别请求和对应于所述请求的触发关键字；

所述数据处理***的直接动作应用编程接口，用于响应于所述请求而基于所述触发关键字来生成第一动作数据结构；

网络安全装置，用于基于所述输入音频信号的特性和由所述直接动作应用编程接口生成的所述第一动作数据结构来认证由所述客户端设备的传感器检测到的所述输入音频信号；

所述直接动作应用编程接口基于由所述网络安全装置认证的所述输入音频信号来识别账户，并且响应于所述网络安全装置基于所述输入音频信号的所述特性和所述第一动作数据结构来认证所述输入音频信号而向第三方提供者设备传输所述第一动作数据结构，由所述第三方提供者设备进行的所述第一动作数据结构的接收使得所述第三方提供者设备执行所述第一动作数据结构；

接收第二数据分组，所述第二数据分组包括由所述客户端设备的所述传感器检测到的第二输入音频信号；

响应于所述第二输入音频信号的第二特性不与和所述第一动作数据结构相关联的参数匹配而生成警报条件；以及

响应于所述警报条件的生成而向所述第三方提供者设备传输指令以终止与所述第一动作数据结构相关联的通信会话或所述第一动作数据结构的执行。

2.根据权利要求1所述的***，包括：

所述网络安全装置用于基于所述输入音频信号的所述特性来认证所述输入音频信号，所述特性包括至少一个声纹。

3.根据权利要求1所述的***，包括所述网络安全装置用于：

测量所述输入音频信号的频谱分量以识别声纹；

将所述频谱分量与在设置阶段期间生成的存储的声纹进行比较；以及

基于所述频谱分量与所述存储的声纹的所述比较来认证所述输入音频信号。

4.根据权利要求1所述的***，包括所述网络安全装置用于：

基于所述客户端设备的位置来确定所述输入音频信号的所述特性；以及

基于所述客户端设备的所述位置来认证所述输入音频信号。

5.根据权利要求1所述的***，包括所述网络安全装置用于：

利用物理认证设备确定所述输入音频信号的所述特性；以及

基于来自所述物理认证设备的响应来认证所述输入音频信号。

6.根据权利要求1所述的***，包括所述网络安全装置用于：

基于在所述输入音频信号中检测到的语音数量来确定所述输入音频信号的所述特性；以及

基于所述检测到的语音数量来认证所述输入音频信号。

7.根据权利要求1所述的***，包括所述网络安全装置用于：

接收由所述客户端设备的所述传感器检测到的第三输入音频信号；

基于所述第三输入音频信号的特性来检测第二警报条件；以及

响应于所述第二警报条件而阻止基于所述第三输入音频信号的第三动作数据结构的执行。

8.根据权利要求1所述的***，包括所述数据处理***用于：

基于所述第一动作数据结构和由所述网络安全装置认证的所述输入音频信号的所述特性来执行搜索。

9.根据权利要求1所述的***，包括所述数据处理***用于：

基于所述输入音频信号的所述特性来识别所述账户；

识别与所述账户相关联的偏好；以及

基于所述偏好来执行搜索。

10.根据权利要求1所述的***，包括所述数据处理***用于：

基于所述输入音频信号的所述特性来识别所述账户；

识别与所述账户相关联的第一偏好；

基于所述第一偏好来执行第一搜索；

基于由所述客户端设备的所述传感器检测到的第二输入音频信号的所述特性来识别第二账户；

识别与所述第二账户相关联的第二偏好；以及

基于所述第二偏好来执行第二搜索。

11.一种在语音激活的计算机网络环境中认证分组化音频信号的方法，包括：

由执行自然语言处理器组件的、包括至少一个处理器和存储器的数据处理***经由所述数据处理***的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据分组；

由所述自然语言处理器组件解析所述输入音频信号以识别请求和对应于所述请求的触发关键字；

由所述数据处理***的直接动作应用编程接口响应于所述请求而基于所述触发关键字来生成第一动作数据结构；

由网络安全装置基于所述输入音频信号的特性和由所述直接动作应用编程接口生成的所述第一动作数据结构来认证由所述客户端设备的传感器检测到的所述输入音频信号；以及

由所述直接动作应用编程接口基于由所述网络安全装置认证的所述输入音频信号来识别账户；

由所述数据处理***响应于所述网络安全装置基于所述输入音频信号的所述特性和所述第一动作数据结构来认证所述输入音频信号而向第三方提供者设备传输所述第一动作数据结构，由所述第三方提供者设备进行的所述第一动作数据结构的接收使得所述第三方提供者设备执行所述第一动作数据结构；

由所述数据处理***接收第二数据分组，所述第二数据分组包括由所述客户端设备的所述传感器检测到的第二输入音频信号；

由所述数据处理***响应于所述第二输入音频信号的第二特性不与和所述第一动作数据结构相关联的参数匹配而生成警报条件；以及

由所述数据处理***响应于所述警报条件的生成而向所述第三方提供者设备传输指令以终止与所述第一动作数据结构相关联的通信会话或所述第一动作数据结构的执行。

12.根据权利要求11所述的方法，包括：

由所述网络安全装置基于所述输入音频信号的所述特性来认证所述输入音频信号，所述特性包括至少一个声纹。

13.根据权利要求11所述的方法，包括：

测量所述输入音频信号的频谱分量以识别声纹；

14.根据权利要求11所述的方法，包括：

基于所述客户端设备的所述位置来认证所述输入音频信号。

15.根据权利要求11所述的方法，包括：

利用物理认证设备确定所述输入音频信号的所述特性；以及

16.根据权利要求11所述的方法，包括：

基于所述检测到的语音数量来认证所述输入音频信号。

17.根据权利要求11所述的方法，包括：

18.根据权利要求11所述的方法，包括：

19.根据权利要求11所述的方法，包括：

基于所述输入音频信号的所述特性来识别所述账户；

识别与所述账户相关联的偏好；以及

基于所述偏好来执行搜索。

20.根据权利要求11所述的方法，包括：

基于所述输入音频信号的所述特性来识别所述账户；

识别与所述账户相关联的第一偏好；

基于所述第一偏好来执行第一搜索；

识别与所述第二账户相关联的第二偏好；以及

基于所述第二偏好来执行第二搜索。