JP2019503594A

JP2019503594A - パケット化されたオーディオ信号の認証

Info

Publication number: JP2019503594A
Application number: JP2017556917A
Authority: JP
Inventors: ガウラフ・バハヤ; ロバート・ステッツ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-08-31
Publication date: 2019-02-07
Anticipated expiration: 2037-08-31
Also published as: US10917404B2; GB2563965A; KR102269618B1; US10541998B2; JP6922028B2; JP7386829B2; EP3557462A1; US20200137053A1; JP6692832B2; KR102421668B1; KR102137224B1; GB2563965B; KR20200091482A; WO2018125300A1; KR20180091705A; US20180191711A1; DE212017000294U1; JP2021192235A; EP3557462B1; CN108605043B

Abstract

本開示は、音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するためのデータ処理システムに関する。前記データ処理システムは、例えば、前記ネットワークにわたるそれらの送信の前に悪意ある送信を無効にすることにより、１つまたは複数のコンピュータネットワーク上の可聴データパケット送信の前記効率および有効性を高めることができる。本解決策はまた、前記悪意あるオーディオ信号送信により影響を受けまたは使用されうるリモート・コンピュータプロセスを無効にすることで、計算効率を高めることができる。悪意あるオーディオ信号の前記送信を無効にすることで、前記システムは、前記ネットワークにわたって前記悪意あるオーディオ信号を運搬する前記データパケットを送信しないことで帯域幅利用を減らすことができる。

Description

関連出願の相互参照
本願は、発明の名称を「パケット化されたオーディオ信号の認証」とした２０１６年１２月３０日に出願された米国特許出願番号第１５／３９５、７２９号に対する優先権の利益を主張し、本明細書に引用によりすべての目的で全体として取り込まれる。

コンピューティングデバイスの間のパケット・ベースのまたは、ネットワークトラフィックデータの過度なネットワーク送信は、コンピューティングデバイスが当該ネットワークトラフィックデータを正確に処理すること、当該ネットワークトラフィックデータに関連する動作を完了すること、または当該ネットワークトラフィックデータにタイムリーに応答することを不可能としうる。ネットワークトラフィックデータの当該過度なネットワーク送信はまた、応答するコンピューティングデバイスがその処理能力を上回る場合に、データのルーティングを複雑化しまたは当該応答の当該品質を劣化させうる、これは非効率的な帯域幅利用をもたらしうる。当該過度なネットワーク送信の一部は悪意あるネットワーク送信を含むことができる。

本開示は一般に、音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証して過度なネットワーク送信の量を削減することに関する。データ処理システムにより実行される自然言語プロセッサコンポーネントはデータパケットを受信することができる。当該データパケットはクライアントコンピューティングデバイスのセンサにより検出された入力オーディオ信号を含むことができる。当該自然言語プロセッサコンポーネントは当該入力オーディオ信号を解析して、要求および当該要求に対応するトリガキーワードを識別することができる。ネットワークセキュリティ機器は当該入力オーディオ信号の１つまたは複数の特性を分析することができる。当該特性に基づいて、当該ネットワークセキュリティ機器はアラーム条件を設定することができる。当該ネットワークセキュリティ機器は当該アラーム条件の指示を、データ処理システムのコンテンツセレクタコンポーネントに提供することができる。当該コンテンツセレクタコンポーネントは、コンテンツ・アイテムに基づいてリアルタイムコンテンツ選択プロセスを介して、当該アラーム条件を選択することができる。データ処理システムにより実行されるオーディオ信号ジェネレータコンポーネントは、当該コンテンツ・アイテムを含む出力信号を生成することができる。データ処理システムのインタフェースは、当該オーディオ信号ジェネレータコンポーネントにより生成された当該出力信号を含むデータパケットを送信して、当該クライアントコンピューティングデバイスにより実行されるオーディオドライバコンポーネントに、当該クライアントコンピューティングデバイスのスピーカを駆動して当該出力信号に対応する音波を生成させることができる。データ処理システムは応答オーディオ信号を受信することができる。当該応答オーディオ信号は、当該クライアントコンピューティングデバイスにより生成された当該出力信号に応答して受信される。当該応答オーディオ信号は当該ネットワークセキュリティ機器により分析される特性を含むことができる。当該応答オーディオ信号の特性に基づいて、当該ネットワークセキュリティ機器は、サービスプロバイダおよびクライアントコンピューティングデバイスの間の通信セッションを終了または一時停止することができる。
本開示の１態様によれば、音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するためのシステムは、データ処理システムにより実行される自然言語プロセッサコンポーネントを含むことができる。当該自然言語プロセッサは、データ処理システムのインタフェースを介して、クライアントデバイスのセンサにより検出された入力オーディオ信号を含むデータパケットを受信することができる。当該自然言語プロセッサコンポーネントは当該入力オーディオ信号を解析して、要求および当該要求に対応するトリガキーワードを識別することができる。当該システムは、当該トリガキーワードに基づいて、当該要求に応答して第１のアクションデータ構造を生成できるデータ処理システムのダイレクト・アクション・アプリケーション・プログラミング・インタフェースを含むことができる。当該システムはまた、当該第１のアクションデータ構造を当該入力オーディオ信号の第１の特性と比較して、アラーム条件を検出できるネットワークセキュリティ機器を含むことができる。当該システムは、データ処理システムにより実行されるコンテンツセレクタコンポーネントを含むことができる。当該コンテンツセレクタは、当該自然言語プロセッサおよび当該第１のアラーム条件の当該指示により識別された当該トリガキーワードを受信し、当該トリガキーワードおよび当該指示に基づいて、コンテンツ・アイテムを選択することができる。当該ネットワークセキュリティ機器は、当該クライアントデバイスおよび通信セッションを当該クライアントデバイスと確立した会話アプリケーションプログラミングインタフェースの間で送信された応答オーディオ信号データパケットを受信することができる。当該ネットワークセキュリティ機器は、当該応答オーディオ信号の第２の特性を当該入力オーディオ信号の当該第１の特性と比較して、第２のアラーム条件を検出することができる。当該ネットワークセキュリティ機器は、当該第２のアラーム条件に基づいて、当該クライアントデバイスと確立された当該通信セッションを無効にするための命令を、当該サードパーティプロバイダデバイスに送信することができる。
本開示の別の態様によれば、音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するための方法は、データ処理システムにより実行される自然言語プロセッサコンポーネントにより、クライアントデバイスのセンサにより検出された入力オーディオ信号を含むデータパケットを受信するステップを含むことができる。当該方法はまた、当該自然言語プロセッサコンポーネントにより、当該入力オーディオ信号を解析して、要求および当該要求に対応するトリガキーワードを識別するステップを含むことができる。当該方法は、データ処理システムのダイレクト・アクション・アプリケーション・プログラミング・インタフェースにより、当該トリガキーワードに基づいて、当該要求に応答して第１のアクションデータ構造を生成するステップを含むことができる。当該方法は、ネットワークセキュリティ機器により、当該第１のアクションデータ構造を当該入力オーディオ信号の第１の特性と比較して、アラーム条件を検出するステップを含むことができる。当該方法は、データ処理システムにより実行されたコンテンツセレクタコンポーネントにより、当該トリガキーワードおよび当該アラーム条件に基づいてコンテンツ・アイテムを選択するステップを含むことができる。当該方法は、当該ネットワークセキュリティ機器により、当該クライアントデバイスおよび通信セッションを当該クライアントデバイスと確立した会話アプリケーションプログラミングインタフェースの間で送信された応答オーディオ信号を運搬するデータパケットを受信するステップを含むことができる。当該方法は、当該ネットワークセキュリティ機器により、当該応答オーディオ信号の第２の特性を当該入力オーディオ信号の当該第１の特性と比較して、第２のアラーム条件を検出するステップを含むことができる。当該方法は、当該ネットワークセキュリティ機器により、当該第２のアラーム条件に基づいて、当該コンテンツ・アイテムとの当該対話に応答して当該クライアントデバイスと確立された当該通信セッションを無効かする命令を当該サードパーティプロバイダデバイスに送信するステップを含むことができる。

本開示の１態様に従って、音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するためのシステムは、データ処理システムにより実行される自然言語プロセッサコンポーネントを含むことができる。当該自然言語プロセッサは、データ処理システムのインタフェースを介して、クライアントデバイスのセンサにより検出された入力オーディオ信号を含むデータパケットを受信することができる。当該自然言語プロセッサコンポーネントは当該入力オーディオ信号を解析して、要求および当該要求に対応するトリガキーワードを識別することができる。当該システムは、当該トリガキーワードに基づいて、当該要求に応答して第１のアクションデータ構造を生成できるデータ処理システムのダイレクト・アクション・アプリケーション・プログラミング・インタフェースを含むことができる。当該システムはまた、当該第１のアクションデータ構造を当該入力オーディオ信号の第１の特性と比較して、アラーム条件を検出できるネットワークセキュリティ機器を含むことができる。当該システムは、データ処理システムにより実行されるコンテンツセレクタコンポーネントを含むことができる。当該コンテンツセレクタは、当該自然言語プロセッサおよび当該第１のアラーム条件の当該指示により識別された当該トリガキーワードを受信し、当該トリガキーワードおよび当該指示に基づいて、コンテンツ・アイテムを選択することができる。当該ネットワークセキュリティ機器は、当該クライアントデバイスおよび通信セッションを当該クライアントデバイスと確立した会話アプリケーションプログラミングインタフェースの間で送信された応答オーディオ信号データパケットを受信することができる。当該ネットワークセキュリティ機器は、当該応答オーディオ信号の第２の特性を当該入力オーディオ信号の当該第１の特性と比較して、パス条件を検出することができる。当該ネットワークセキュリティ機器は、当該第２のアラーム条件に基づいて、当該クライアントデバイスと確立された当該通信セッションを継続する命令を、当該サードパーティプロバイダデバイスに送信することができる。

これらのおよび他の態様および実装を以下で説明する。以上の情報および以下の詳細な説明は様々な態様および実装の例示的な例を含みクレームした態様および実装の性質と特徴を理解するための概要またはフレームワークを提供する。当該図面は当該様々な態様および実装の例示とさらなる理解を提供し、本明細書に組み込まれ本明細書の一部を構成する。

添付図面は正しい縮尺で描かれていない。当該様々な図面における同じ参照番号および指定は同じ要素を示す。明確さの目的のため、全てのコンポーネントが全ての図面においてラベル付けされていないかもしれない。

音声起動されたデータパケット（または他のプロトコル）ベースのコンピュータネットワーク環境におけるパケット化されたオーディオ信号の認証を実施するための例示的なシステムを示す図である。パケット化されたオーディオ信号の認証を実施するためのシステムの例示的な動作を示す流れ図である。図１に示したシステムを用いて音声起動されたデータパケット（または他のプロトコル）ベースのコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証する例示的な方法を示す図である。本明細書で説明し図示したシステムおよび方法の要素を実装するために使用されうるコンピュータシステムのための汎用アーキテクチャを示すブロック図である。

以下は、パケット化されたオーディオ信号の認証のための方法、装置、およびシステムの実装に関連する様々な概念のより詳細な説明である。上で導入し以下でさらに詳細に説明する様々な概念を任意の多数の方法で実装してもよい。

本開示は一般に、音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するためのデータ処理システムに関する。データ処理システムは、例えば、当該ネットワークにわたるそれらの送信の前に悪意ある送信を無効にすることで、１つまたは複数のコンピュータネットワーク上の可聴データパケット送信の効率および有効性を高めることができる。本解決策はまた、当該悪意あるオーディオ信号送信によりおそらく影響を受けるリモート・コンピュータプロセスを無効にすることで計算効率を高めることができる。悪意あるオーディオ信号の当該送信を無効にすることで、当該システムは、当該ネットワークにわたって当該悪意あるオーディオ信号を運搬する当該データパケットを送信しないことで帯域幅利用を減らすことができる。当該自然に話されたオーディオ信号を処理することは計算集約的なタスクであることができる。おそらく悪意あるオーディオ信号を検出することで、当該システムは、当該システムがおそらく悪意あるオーディオ信号の処理をスキップまたは一時的にスキップすることを可能とすることで、計算の無駄を減らすことができる。当該システムは、当該悪意ある活動が検出されたとき通信セッションを無効にすることで計算の無駄を減らすことができる。

本明細書で説明するシステムおよび方法は、オーディオ入力クエリを受信するデータ処理システムを含むことができる。当該クエリをまた、オーディオ入力信号と称することができる。当該オーディオ入力クエリから、データ処理システムは要求および当該要求に対応するトリガキーワードを識別することができる。当該システムは、当該オーディオ入力クエリに基づいてアクションデータ構造を生成することができる。当該システムはまた、当該オーディオ入力クエリの特性を測定することができる。当該システムは、当該当該オーディオ入力クエリの特性が予測されたまたは期待される当該オーディオ入力クエリの特性にマッチするかどうかを判定することができる。当該特性が期待される特性にマッチしない場合、当該システムは、当該オーディオ入力クエリの当該ソースに送信し戻すコンテンツ・アイテムを選択することができる。通信セッションは当該ソースで開始することができる。当該コンテンツ・アイテムは、当該ソースに関連付けられたスピーカを通じて再生しうる出力信号を含むことができる。当該システムは、当該コンテンツ・アイテムへの応答オーディオ信号を受信することができる。当該応答オーディオ信号はまた、当該システムにより期待される特性と比較される特性を含むことができる。当該応答オーディオ信号の特性が期待される特性にマッチしない場合、当該システムは、当該ソースとの当該通信セッションを無効にし、当該ソースがサードパーティサービスプロバイダまたはコンテンツプロバイダとの通信セッションを開始するのを防止することができ、これはネットワーク帯域幅を節約し、プロセッサ利用を減らし、電気電力を節約する。

本解決策は、当該対話を認証することで、安全でないオーディオベースのユーザ対話の送信を防止することができる。オーディオベースのユーザ対話の安全性を確保することは、悪意あるプロセスが当該ユーザ（または他の）アカウントのもとで実行されることを防止することができる。悪意あるプロセスの実行を防止することはまた、ネットワーク帯域幅利用を減らし、プロセッサ利用または負荷を減らすことができる。本解決策は、認証されていないオーディオベースのユーザ対話の送信を停止することでネットワーク帯域幅利用を減らすことができる。

図１は、音声起動されたデータパケット（または他のプロトコル）ベースのコンピュータネットワーク環境におけるパケット化されたオーディオ信号の認証を実施する例示的なシステム１００を示す。システム１００は少なくとも１つのデータ処理システム１０５を含むことができる。データ処理システム１０５は、少なくとも１つのプロセッサを有する少なくとも１つのサーバを含むことができる。例えば、データ処理システム１０５は、少なくとも１つのデータセンタまたはサーバ・ファームに配置された複数のサーバを含むことができる。データ処理システム１０５は、オーディオ入力信号から要求および当該要求に関連付けられたトリガキーワードを決定することができる。当該要求およびトリガキーワードに基づいてデータ処理システム１０５は、複数のシーケンス−依存動作を含むスレッドを決定または選択することができ、動作のマッチ当該シーケンスに依存しない順序で、例えば音声起動された通信または計画システムの一部としてコンテンツ・アイテム（および本明細書で説明したように他のアクションを開始する）を選択することができる。当該コンテンツ・アイテムは、描画するときにオーディオ出力または音波を提供する１つまたは複数のオーディオファイルを含むことができる。当該コンテンツ・アイテムはオーディオコンテンツに加えて他のコンテンツ（例えば、テキスト、ビデオ、または画像コンテンツ）を含むことができる。

データ処理システム１０５は、複数の、論理的にグループ化されたサーバを含むことができ、分散コンピューティング技術を促進する。サーバの当該論理グループをデータセンタ、サーバ・ファームまたはマシン・ファームと称してもよい。当該サーバは地理的に分散されることができる。データセンタまたはマシン・ファームを単一のエンティティとして管理してもよく、または当該マシン・ファームは複数のマシン・ファームを含むことができる。各マシン・ファーム内の当該サーバはであることができる不均一である。即ち、当該サーバまたはマシンのうち１つまたは複数が１つまたは複数のタイプのオペレーティング・システムプラットフォームに従って動作することができる。データ処理システム１０５は、関連付けられた記憶システムとともに１つまたは複数の高密度ラック・システムに格納され、例えばエンタープライズデータセンタに配置された、データセンタ内のサーバを含むことができる。このように統合されたサーバを有するデータ処理システム１０５は、当該システムのシステム管理可能性、データセキュリティ、当該物理セキュリティ、高性能ネットワーク上にサーバおよび高性能記憶システムを配置することでシステム性能を高めることができる。サーバおよび記憶システムを含むデータ処理システム１０５コンポーネントの全部または一部の集約と、それらを高度なシステム管理ツールと組み合わせることで、サーバリソースのより効率的な利用が可能となる、これは電力および処理要件を節約し帯域幅利用を減らす。

データ処理システム１０５は少なくとも１つの自然言語プロセッサ（ＮＬＰ）コンポーネント１１０、少なくとも１つのインタフェース１１５、少なくとも１つのネットワークセキュリティ機器１２３、少なくとも１つのコンテンツセレクタコンポーネント１２５、少なくとも１つのオーディオ信号ジェネレータコンポーネント１３０、少なくとも１つのダイレクト・アクション・アプリケーション・プログラミング・インタフェース（ＡＰＩ）１３５、少なくとも１つのセッションハンドラコンポーネント１４０、少なくとも１つの通信ＡＰＩ１３６、および少なくとも１つのデータリポジトリ１４５を含むことができる。ＮＬＰコンポーネント１１０、インタフェース１１５、ネットワークセキュリティ機器１２３、コンテンツセレクタコンポーネント１２５、オーディオ信号ジェネレータコンポーネント１３０、ダイレクト・アクションＡＰＩ１３５、およびセッションハンドラコンポーネント１４０はそれぞれ、データリポジトリ１４５とおよび他のコンピューティングデバイス（例えば、クライアントコンピューティングデバイス１５０、コンテンツプロバイダコンピューティングデバイス１５５、またはサービスプロバイダコンピューティングデバイス１６０）と、少なくとも１つのコンピュータネットワーク１６５を介して通信するように構成されたプログラム可能論理アレイのような少なくとも１つの処理ユニット、サーバ、仮想サーバ、回路、エンジン、エージェント、機器、または他の論理デバイスを含むことができる。ネットワーク１６５は、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、メトロポリタン・ネットワーク、または他の領域ネットワーク、イントラネット、衛星ネットワーク、音声またはデータモバイル電話通信ネットワーク、およびその組合せのような他のコンピュータネットワークのようなコンピュータネットワークを含むことができる。

セッションハンドラコンポーネント１４０はデータ処理システム１０５およびクライアントコンピューティングデバイス１５０の間の通信セッションを確立することができる。セッションハンドラコンポーネント１４０は、入力オーディオ信号を当該コンピューティングデバイス１５０から受信することに基づいて当該通信セッションを生成することができる。セッションハンドラコンポーネント１４０は、日時、クライアントコンピューティングデバイス１５０の位置、当該入力オーディオ信号のコンテキスト、または音声プリントに基づいて、当該通信セッションの初期期間を設定することができる。セッションハンドラコンポーネント１４０は当該セッションの期限切れの後に当該通信セッションを終了することができる。認証は通信セッションごとに１回必要であるにすぎない。例えば、データ処理システム１０５は、当該通信セッション中に以前の成功した認証があったと判定でき、当該通信セッションが切れるまで追加の認証を要求としない。

ネットワーク１６５は、コンテンツ配置または検索エンジン結果システムに関連付けられるか、または、サードパーティコンテンツ・アイテムをコンテンツ・アイテム配置キャンペーンの一部として含む権利がある。ディスプレイネットワーク、例えば、インターネット上で利用可能な情報リソースのサブセットを含むかまたは構成することができる。ネットワーク１６５を、クライアントコンピューティングデバイス１５０により提供、出力、描画、または表示できるウェブページ、ウェブサイト、ドメイン名、またはユニフォーム・リソース・ロケータのような情報リソースにアクセスするためにデータ処理システム１０５により使用することができる。例えば、ネットワーク１６５を介してクライアントコンピューティングデバイス１５０のユーザは、コンテンツプロバイダコンピューティングデバイス１５５またはサービスプロバイダコンピューティングデバイス１６０により提供された情報またはデータにアクセスすることができる。

ネットワーク１６５は、例えばポイント・ツー・ポイントネットワーク、ブロードキャストネットワーク、広帯域ネットワーク、ローカル・エリア・ネットワーク、電気通信ネットワーク、データ通信ネットワーク、コンピュータネットワーク、ＡＴＭ（Asynchronous Transfer Mode）ネットワーク、ＳＯＮＥＴ（Synchronous Optical Network）ネットワーク、ＳＤＨ（Synchronous Digital Hierarchy）ネットワーク、ワイヤレスネットワークまたは有線ネットワーク、およびその組合せを含むことができる。ネットワーク１６５は赤外線チャネルまたは衛星帯域のような無線リンクを含むことができる。ネットワーク１６５のトポロジはバス、星形、またはリング・ネットワークトポロジを含んでもよい。ネットワーク１６５は高度携帯電話プロトコル（「ＡＭＰＳ」）、時分割多重アクセス（「ＴＤＭＡ」）、符号分割多重アクセス（「ＣＤＭＡ」）、グローバル・システム・フォー・モバイル・コミュニケーション（「ＧＳＭ」）、汎用パケット無線サービス（「ＧＰＲＳ」）またはユニバーサル・モバイル電気通信システム（「ＵＭＴＳ」）を含む、モバイルデバイスの間で通信するために使用される任意の１つまたは複数のプロトコルを用いた携帯電話ネットワークを含むことができる。様々なタイプのデータが異なるプロトコルを介して送信されてもよい、または同一のタイプのデータが異なるプロトコルを介して送信されてもよい。

クライアントコンピューティングデバイス１５０、コンテンツプロバイダコンピューティングデバイス１５５、およびサービスプロバイダコンピューティングデバイス１６０はそれぞれ、ネットワーク１６５を介して互いにまたはデータ処理システム１０５と通信するためのプロセッサを有するコンピューティングデバイスのような少なくとも１つの論理デバイスを含むことができる。クライアントコンピューティングデバイス１５０、コンテンツプロバイダコンピューティングデバイス１５５、およびサービスプロバイダコンピューティングデバイス１６０はそれぞれ、少なくとも１つのデータセンタに配置された少なくとも１つのサーバ、プロセッサまたはメモリ、または複数の計算リソースまたはサーバを含むことができる。クライアントコンピューティングデバイス１５０、コンテンツプロバイダコンピューティングデバイス１５５、およびサービスプロバイダコンピューティングデバイス１６０はそれぞれ、デスクトップコンピュータ、ラップトップ、タブレット、携帯情報端末、スマートフォン、ポータブルコンピュータ、シン・クライアントコンピュータ、仮想サーバ、または他のコンピューティングデバイスのような少なくとも１つのコンピューティングデバイスを含むことができる。

クライアントコンピューティングデバイス１５０は少なくとも１つのセンサ１５１、少なくとも１つのトランスデューサ１５２、少なくとも１つのオーディオドライバ１５３、および少なくとも１つのスピーカ１５４を含むことができる。センサ１５１はマイクロフォンまたはオーディオ入力センサを含むことができる。センサ１５１はまた、ＧＰＳセンサ、近接性センサ、周辺光センサ、温度センサ、動きセンサ、加速度計、またはジャイロスコープのうち少なくとも１つを含むことができる。トランスデューサ１５２は当該オーディオ入力を電子信号を変換することができる。オーディオドライバ１５３は、オーディオ入力を処理するかまたはオーディオ出力を提供するようにクライアントコンピューティングデバイス１５０の他のコンポーネントのうちセンサ１５１、トランスデューサ１５２またはオーディオドライバ１５３を制御するためにクライアントコンピューティングデバイス１５０の１つまたは複数のプロセッサにより実行されるスクリプトまたはプログラムを含むことができる。スピーカ１５４は当該オーディオ出力信号を送信することができる。

クライアントコンピューティングデバイス１５０を、エンド・ユーザに関連付けることができる。当該エンド・ユーザは、音声クエリをオーディオ入力としてクライアントコンピューティングデバイス１５０に（センサ１５１を介して）入力し、データ処理システム１０５（またはコンテンツプロバイダコンピューティングデバイス１５５またはサービスプロバイダコンピューティングデバイス１６０）からクライアントコンピューティングデバイス１５０に提供できるコンピュータ生成された音声の形でオーディオ出力を受信し、スピーカ１５４から出力する。当該コンピュータ生成された音声は、実際の人またはコンピュータ生成された言語からの記録を含むことができる。

コンテンツプロバイダコンピューティングデバイス１５５は、クライアントコンピューティングデバイス１５０によりオーディオ出力コンテンツ・アイテムとして表示するためのオーディオベースのコンテンツ・アイテムを提供することができる。当該コンテンツ・アイテムは「Would you like me to order you a taxi?」と述べる音声ベースのメッセージのような商品またはサービスの申し出を含むことができる。例えば、コンテンツプロバイダコンピューティングデバイス１５５は、音声ベースのクエリに応答して提供できる一連のオーディオコンテンツ・アイテムを格納するためのメモリを含むことができる。コンテンツプロバイダコンピューティングデバイス１５５はまた、オーディオベースのコンテンツ・アイテム（または他のコンテンツ・アイテム）をデータ処理システム１０５に提供することができる。それらをデータリポジトリ１４５に格納することができる。データ処理システム１０５は当該オーディオコンテンツ・アイテムを選択することができ、（または提供するようにコンテンツプロバイダコンピューティングデバイス１５５に指示する）当該オーディオコンテンツ・アイテムをクライアントコンピューティングデバイス１５０に提供するすることができる。当該コンテンツは、クライアントコンピューティングデバイス１５０のユーザを認証するように生成されたセキュリティ質問を含むことができる。当該オーディオベースのコンテンツ・アイテムは、排他的にオーディオであることができ、または、テキスト、画像、またはビデオデータと組み合わせることができる。

サービスプロバイダコンピューティングデバイス１６０は少なくとも１つのサービスプロバイダ自然言語プロセッサ（ＮＬＰ）コンポーネント１６１および少なくとも１つのサービスプロバイダインタフェース１６２を含むことができる。サービスプロバイダＮＬＰコンポーネント１６１（またはサービスプロバイダコンピューティングデバイス１６０のダイレクト・アクションＡＰＩのような他のコンポーネント）は、クライアントコンピューティングデバイス１５０と（データ処理システム１０５を介してまたはデータ処理システム１０５をバイパスして）協調して、クライアントコンピューティングデバイス１５０およびサービスプロバイダコンピューティングデバイス１６０の間で行き来するリアルタイム音声またはオーディオベースの会話（例えば、セッション）を生成することができる。例えば、サービスプロバイダインタフェース１６２はデータメッセージを受信し、または、データメッセージをデータ処理システム１０５のダイレクト・アクションＡＰＩ１３５に提供することができる。サービスプロバイダコンピューティングデバイス１６０およびコンテンツプロバイダコンピューティングデバイス１５５を同一のエンティティに関連付けることができる。例えば、コンテンツプロバイダコンピューティングデバイス１５５はカーシェア・サービスに対して利用可能なコンテンツ・アイテムを生成、格納、または作成でき、およびサービスプロバイダコンピューティングデバイス１６０は、セッションをクライアントコンピューティングデバイス１５０と確立して、クライアントコンピューティングデバイス１５０の当該エンド・ユーザをピックアップするためのタクシーまたは当該カーシェアサービスの車の配送をアレンジすることができる。データ処理システム１０５、ダイレクト・アクションＡＰＩ１３５、ＮＬＰコンポーネント１１０または他のコンポーネントを介してはまた、サービスプロバイダコンピューティングデバイス１６０を含むかまたはバイパスして、当該クライアントコンピューティングデバイスとの当該セッションを確立し、例えばタクシーまたは当該カーシェアサービスの車の配送をアレンジすることができる。

サービスプロバイダデバイス１６０、コンテンツプロバイダデバイス１５５、およびデータ処理システム１０５はＡＰＩ１３６を含むことができる。エンド・ユーザは、音声会話を介して、コンテンツ・アイテムと対話でき、通信セッションを介してデータ処理システム１０５と対話することができる。当該音声会話はクライアントデバイス１５０および会話ＡＰＩ１３６の間であることができる。会話ＡＰＩ１３６は、データ処理システム１０５、サービスプロバイダ１６０、またはコンテンツプロバイダ１５５により実行されることができる。データ処理システム１０５は、データ処理システムが会話ＡＰＩ１３６を実行するとき、エンド・ユーザの当該コンテンツとの直接的な対話に関する追加の情報を取得することができる。提供されたサービスプロバイダ１６０またはコンテンツプロバイダ１５５が会話ＡＰＩ１３６を実行するとき、当該通信セッションは、データ処理システム１０５を通じてルーティングされることができるか、または、各エンティティは当該通信セッションのデータパケットをデータ処理システム１０５に転送することができる。会話ＡＰＩ１３６がデータ処理システム１０５により実行されたとき、本明細書で説明したネットワーキングセキュリティ機器は当該通信セッションを終了することができる。ネットワーキングセキュリティ機器１０５は、サービスプロバイダ１６０またはコンテンツプロバイダ１５５が会話ＡＰＩ１３６を実行したとき、サービスプロバイダ１６０またはコンテンツプロバイダ１５５が当該通信セッションを停止（または無効に）するための命令を送信することができる。

データリポジトリ１４５は１つまたは複数のローカルまたは分散データベースを含むことができ、データベース管理システムを含むことができる。データリポジトリ１４５はコンピュータデータ記憶またはメモリを含むことができ、他のデータのうち１つまたは複数のパラメータ１４６、１つまたは複数のポリシ１４７、コンテンツデータ１４８、またはテンプレート１４９を格納することができる。パラメータ１４６、ポリシ１４７、およびテンプレート１４９はクライアントコンピューティングデバイス１５０およびデータ処理システム１０５（またはサービスプロバイダコンピューティングデバイス１６０）の間の音声ベースのセッションに関するルールのような情報を含むことができる。コンテンツデータ１４８は、オーディオ出力に対するコンテンツ・アイテムまたは関連付けられたメタデータ、ならびにクライアントコンピューティングデバイス１５０との１つまたは複数の通信セッションの一部であることができる入力オーディオメッセージを含むことができる。

データ処理システム１０５は、入力オーディオ信号をデータ処理システム１０５のインタフェース１１５に通信して、クライアントコンピューティングデバイスのコンポーネントを駆動して、出力オーディオ信号を描画するためのアプリのような、クライアントコンピューティングデバイス１５０にインストールされたアプリケーション、スクリプトまたはプログラムを含むことができる。データ処理システム１０５は、オーディオ入力信号を含むかまたは識別するデータパケットまたは他の信号を受信することができる。例えば、データ処理システム１０５は、ＮＬＰコンポーネント１１０を実行して当該オーディオ入力信号を受信することができる。当該オーディオ入力信号は、当該クライアントコンピューティングデバイスのセンサ１５１（例えば、マイクロフォン）により検出されることができる。ＮＬＰコンポーネント１１０は、当該入力信号を格納された、代表的な組のオーディオ波形に対して比較して最も近いマッチを選択することで、オーディオ入力信号を認識されたテキストに変換することができる。当該代表的な波形を大規模な１組の入力信号にわたって生成することができる。ユーザは当該入力信号の幾つかを提供することができる。当該オーディオ信号が認識されたテキストに変換されると、ＮＬＰコンポーネント１１０は、例えば学習段階を介して、システム２００が生成しうるアクションに関連付けられた単語に当該テキストをマッチすることができる。トランスデューサ１５２、オーディオドライバ１５３、または他のコンポーネントを介して、クライアントコンピューティングデバイス１５０は当該オーディオ入力信号をデータ処理システム１０５（例えば、ネットワーク１６５を介して）に提供することができる。当該オーディオ入力信号は、（例えば、インタフェース１１５により）受信され、ＮＬＰコンポーネント１１０に提供され、または、データリポジトリ１４５にコンテンツデータ１４８として格納されることができる。

ＮＬＰコンポーネント１１０は当該入力オーディオ信号を取得することができる。当該入力オーディオ信号から、ＮＬＰコンポーネント１１０は、少なくとも１つの要求または当該要求に対応する少なくとも１つのトリガキーワードを識別することができる。当該要求は当該入力オーディオ信号の意図または主題を示すことができる。当該トリガキーワードは行われる可能性があるアクションのタイプを示すことができる。例えば、ＮＬＰコンポーネント１１０は当該入力オーディオ信号を解析して、夕方に家を出てディナーおよび映画に参加する少なくとも１つの要求を識別することができる。当該トリガキーワードは、取るべきアクションを示す少なくとも１つの単語、フレーズ、語源または部分語、または派生物を含むことができる。例えば、当該入力オーディオ信号からのトリガキーワード「go」または「to go to」は輸送に対する必要性を示すことができる。本例では、当該入力オーディオ信号（または当該識別された要求）は輸送の意図を直接表現しないが、当該トリガキーワードは、輸送が当該要求により示される少なくとも１つの他のアクションに対する付属的アクションであることを示す。

コンテンツセレクタコンポーネント１２５はこの情報をデータリポジトリ１４５から取得することができる。それをコンテンツデータ１４８の一部として格納することができる。コンテンツセレクタコンポーネント１２５はデータリポジトリ１４５に問い合わせて、当該コンテンツ・アイテムを、例えば、コンテンツデータ１４８から選択または識別することができる。コンテンツセレクタコンポーネント１２５はまた、当該コンテンツ・アイテムをコンテンツプロバイダコンピューティングデバイス１５５から選択することができる。例えばデータ処理システム１０５から受信されたクエリに応答して、コンテンツプロバイダコンピューティングデバイス１５５はコンテンツ・アイテムを、クライアントコンピューティングデバイス１５０による最終出力のために、データ処理システム１０５（またはそのコンポーネント）に提供することができる。

オーディオ信号ジェネレータコンポーネント１３０は、コンテンツ・アイテムを含む出力信号を生成または取得することができる。例えば、データ処理システム１０５はオーディオ信号ジェネレータコンポーネントを実行して、当該コンテンツ・アイテムに対応する出力信号を生成または作成することができる。データ処理システム１０５のインタフェース１１５は、コンピュータネットワーク１６５を介して出力信号を含む１つまたは複数のデータパケットをクライアントコンピューティングデバイス１５０に提供または送信することができる。例えばデータ処理システム１０５は、当該出力信号をデータリポジトリ１４５からまたはオーディオ信号ジェネレータコンポーネント１３０からクライアントコンピューティングデバイス１５０に提供することができる。データ処理システム１０５はまた、データパケット送信を介して、コンテンツプロバイダコンピューティングデバイス１５５またはサービスプロバイダコンピューティングデバイス１６０に、当該出力信号をクライアントコンピューティングデバイス１５０に提供するように指示することができる。当該出力信号を、取得し、生成し、１つまたは複数のデータパケット（または他の通信プロトコル）に変換し、または１つまたは複数のデータパケット（または他の通信プロトコル）としてデータ処理システム１０５（または他のコンピューティングデバイス）からクライアントコンピューティングデバイス１５０に送信することができる。

コンテンツセレクタコンポーネント１２５は、当該入力オーディオ信号のアクションに対してリアルタイムコンテンツ選択プロセスの一部として当該コンテンツ・アイテムを選択することができる。例えば、当該コンテンツ・アイテムを、オーディオ出力として当該入力オーディオ信号への直接応答の会話方式で送信するために、クライアントコンピューティングデバイスに提供することができる。当該コンテンツ・アイテムを識別し当該コンテンツ・アイテムをクライアントコンピューティングデバイス１５０に提供するためのリアルタイムコンテンツ選択プロセスは、当該入力オーディオ信号の時刻から１分以下で発生することができ、リアルタイムと考えることができる。

当該コンテンツ・アイテムに対応する出力信号、例えば、オーディオ信号ジェネレータコンポーネント１３０により取得または生成され、インタフェース１１５およびコンピュータネットワーク１６５を介してクライアントコンピューティングデバイス１５０に送信された出力信号は、クライアントコンピューティングデバイス１５０に、オーディオドライバ１５３を実行してスピーカ１５４を駆動して当該出力信号に対応する音波を生成させることができる。当該音波は当該コンテンツ・アイテムのまたは当該コンテンツ・アイテムに対応する単語を含むことができる。

データ処理システムのダイレクト・アクションＡＰＩ１３５は、当該トリガキーワードに基づいて、アクションデータ構造を生成することができる。ダイレクト・アクションＡＰＩ１３５はデータ処理システム１０５により決定されるものとして、指定されたアクションを実行してエンド・ユーザの意図を満たすことができる。その入力で指定されたアクションに依存して、ダイレクト・アクションＡＰＩ１３５は、ユーザ要求を満たすのに必要なパラメータを識別するコードまたはダイアログスクリプトを実行することができる。当該アクションデータ構造を当該要求に応答して生成することができる。当該アクションデータ構造は、サービスプロバイダコンピューティングデバイス１６０により送受信されるメッセージに含まれることができる。ＮＬＰコンポーネント１１０により解析された要求に基づいて、ダイレクト・アクションＡＰＩ１３５は、サービスプロバイダコンピューティングデバイス１６０のうちどれに当該メッセージを送信すべきであるかを判定することができる。例えば、入力オーディオ信号が「order a taxi」を含む場合、ＮＬＰコンポーネント１１０は、トリガ単語「order」およびタクシーに対する要求を識別することができる。ダイレクト・アクションＡＰＩ１３５は当該要求を、タクシーサービスのサービスプロバイダコンピューティングデバイス１６０へのメッセージとして送信するためのアクションデータ構造へパッケージ化することができる。当該メッセージはまた、コンテンツセレクタコンポーネント１２５に渡すことができる。当該アクションデータ構造は当該要求を完了するための情報を含むことができる。本例では、当該情報はピックアップ位置および宛先位置を含むことができる。ダイレクト・アクションＡＰＩ１３５は、どのフィールドを当該アクションデータ構造に含めるべきかを判定するために、テンプレート１４９をリポジトリ１４５から取り出すことができる。ダイレクト・アクションＡＰＩ１３５は必要なパラメータを決定し、当該情報をアクションデータ構造にパッケージ化することができる。ダイレクト・アクションＡＰＩ１３５はコンテンツをリポジトリ１４５から取り出して、当該データ構造のフィールドに関する情報を取得することができる。ダイレクト・アクションＡＰＩ１３５は、当該テンプレートからのフィールドをその情報で埋めて、当該データ構造を生成することができる。ダイレクト・アクションＡＰＩ１３５はまた、当該フィールドを当該入力オーディオ信号からのデータで埋めることができる。テンプレート１４９を、サービスプロバイダのカテゴリに対して標準化するか、または、特定のサービスプロバイダに対して標準化することができる。例えば、乗車共有サービスプロバイダは以下の標準化されたテンプレート１４９を使用してデータ構造{client_device_identifier; authentication_credentials; pick_up_location; destination_location; no_passengers; service_level}を生成することができる。当該アクションデータ構造は次いで、コンテンツセレクタコンポーネント１２５のような別のコンポーネントまたは満たすべきサービスプロバイダコンピューティングデバイス１６０に送信することができる。

ダイレクト・アクションＡＰＩ１３５は、（カーシェア会社のような、コンテンツ・アイテムに関連付けることができる）サービスプロバイダコンピューティングデバイス１６０と通信して、映画が終了する時刻に映画館の位置に対するタクシーまたは相乗り車をオーダーすることができる。データ処理システム１０５は、クライアントコンピューティングデバイス１５０とのデータパケット（または他のプロトコル）ベースのデータメッセージ通信の一部として、この位置または時刻情報を、データリポジトリ１４５から、またはサービスプロバイダコンピューティングデバイス１６０またはコンテンツプロバイダコンピューティングデバイス１５５のような他のソースから取得することができる。このオーダー（または他の変換）の確認を、クgreat, you will have a car waiting for you at 11 pm outside the theater」のようなオーディオ出力を描画させるデータ処理システム１０５からの出力信号の形で、オーディオ通信としてデータ処理システム１０５からクライアントコンピューティングデバイス１５０に提供することができる。データ処理システム１０５は、ダイレクト・アクションＡＰＩ１３５を介して、サービスプロバイダコンピューティングデバイス１６０と通信して車のオーダーを確認することができる。

データ処理システム１０５は、当該コンテンツ・アイテム（「would you like a ride home from the movie theater?」）に対する応答（例えば、「yes please」）を取得でき、パケット・ベースのデータメッセージをサービスプロバイダＮＬＰコンポーネント１６１（またはサービスプロバイダコンピューティングデバイスの他のコンポーネント）にルーティングすることができる。このパケット・ベースのデータメッセージは、サービスプロバイダコンピューティングデバイス１６０に、変換に影響を及ぼさせる、例えば、映画の映画館の外部で車のピックアップ予約を行わせることができる。この変換または確認された順序（または当該スレッドの任意の他のアクションの任意の他の変換）は、当該スレッドの１つまたは複数のアクションの完了の前に、例えば映画の完了の前に、ならびに当該スレッドの１つまたは複数のアクションの完了に続いて、例えば、ディナーに続いて発生することができる。

ダイレクト・アクションＡＰＩ１３５は、データリポジトリ１４５からのコンテンツデータ１４８（またはパラメータ１４６またはポリシ１４７）、ならびに位置、時間、ユーザアカウント、物流または当該カーシェアサービスから車を予約するための他の情報を決定するためにエンド・ユーザ同意によりクライアントコンピューティングデバイス１５０から受信されたデータを取得することができる。コンテンツデータ１４８（またはパラメータ１４６またはポリシ１４７）はアクションデータ構造に含まれることができる。当該アクションデータ構造に含まれるコンテンツが認証に使用されるエンド・ユーザデータを含むとき、当該データを、データリポジトリ１４５に格納されている前にハッシュ機能に通すことができる。ダイレクト・アクションＡＰＩ１３５を用いて、データ処理システム１０５はまた、サービスプロバイダコンピューティングデバイス１６０と通信して、この例ではカーシェアのピックアップ予約を行うことによって当該変換を完了することができる。

データ処理システム１０５はコンテンツ・アイテムに関連付けられたアクションをキャンセルすることができる。当該アクションのキャンセルはネットワークセキュリティ機器１２３がアラーム条件を生成することに応答することができる。ネットワークセキュリティ機器１２３は、ネットワークセキュリティ機器１２３が、当該入力オーディオ信号が悪意あるまたはクライアントコンピューティングデバイス１５０の認証されたエンド・ユーザにより提供されていないことを予測するとき、アラーム条件を生成することができる。

データ処理システム１０５はインタフェースを含むことができ、またはネットワークセキュリティ機器１２３と通信する。ネットワークセキュリティ機器１２３は、クライアントコンピューティングデバイス１５０およびコンテンツプロバイダコンピューティングデバイス１５５の間の信号送信を認証することができる。当該信号送信は、クライアントコンピューティングデバイス１５０からのオーディオ入力およびクライアントコンピューティングデバイス１５０からのオーディオ応答信号であることができる。当該オーディオ応答信号を、データ処理システム１０５により１つまたは複数の通信セッション中にクライアントコンピューティングデバイス１５０に送信されたコンテンツ・アイテムに応答して生成することができる。ネットワークセキュリティ機器１２３は、アクションデータ構造を当該入力オーディオ信号の１つまたは複数の特性および応答オーディオ信号と比較することにより、当該信号送信を認証することができる。

ネットワークセキュリティ機器１２３は当該入力オーディオ信号の特性を決定することができる。当該オーディオ信号の特性は、音声プリント、キーワード、検出された音声の数、オーディオソースの識別、およびオーディオソースの位置を含むことができる。例えば、ネットワークセキュリティ機器１２３は、当該入力オーディオ信号のスペクトルコンポーネントを測定して、当該入力オーディオ信号を生成するために使用される音声の音声プリントを生成することができる。当該入力オーディオ信号に応答して生成された音声プリントを、データ処理システム１０５により保存された格納された音声プリントに比較することができる。当該保存された音声プリントは、認証された音声プリント、例えば、当該システムのセットアップ段階中にクライアントコンピューティングデバイス１５０の認証されたユーザにより生成された音声プリントであることができる。

ネットワークセキュリティ機器１２３はまた、当該入力オーディオ信号の非オーディオ特性を決定することができる。クライアントコンピューティングデバイス１５０は当該入力オーディオ信号内の非オーディオ情報を含むことができる。当該非オーディオ情報は、クライアントコンピューティングデバイス１５０により決定または示される位置であることができる。当該非オーディオ情報はクライアントコンピューティングデバイス１５０の識別子を含むことができる。非オーディオ特性または情報はまた、ワンタイムパスワードデバイスまたは指紋リーダでのチャレンジ応答のような物理認証デバイスを含むことができる。

ネットワークセキュリティ機器１２３は、当該入力オーディオ信号の特性がアクションデータ構造に対応しないとき、アラーム条件を設定することができる。例えば、ネットワークセキュリティ機器１２３は、当該アクションデータ構造および当該入力オーディオ信号の特性の間のミスマッチを検出することができる。１例では、当該入力オーディオ信号はクライアントコンピューティングデバイス１５０の位置を含むことができる。当該アクションデータ構造は、エンド・ユーザのスマートフォンの一般的な位置に基づく位置のようなエンド・ユーザの予測された位置を含むことができる。ネットワークセキュリティ機器１２３が、クライアントコンピューティングデバイス１５０の位置が当該アクションデータ構造に含まれる当該位置の予め定義された範囲内にないと判定した場合、ネットワークセキュリティ機器１２３はアラーム条件を設定することができる。別の例では、ネットワークセキュリティ機器１２３は、当該入力オーディオ信号の音声プリントを、データリポジトリ１４５に格納され当該アクションデータ構造に含まれるエンド・ユーザの音声プリントと比較することができる。当該２つの音声プリントがマッチしない場合、ネットワークセキュリティ機器１２３はアラーム条件を設定することができる。

ネットワークセキュリティ機器１２３は、どの入力オーディオ信号特性に認証が基づくべきかを入力オーディオ信号内の要求に応答して判定することができる。異なる特性による認証は異なる計算要件を有することができる。例えば、音声プリントを比較するステップは２つの位置を比較することよりも計算的に集約的であることができる。求められていない計算集約的な認証方法を選択するステップは計算的に無駄でありうる。ネットワークセキュリティ機器１２３は、当該要求に基づいて認証に使用される特性を選択することによってデータ処理システム１０５の効率を高めることができる。例えば、当該入力オーディオ信号に関連付けられたセキュリティ・リスクが低いとき、ネットワークセキュリティ機器１２３は、計算集約的でない特性を用いて認証方法を選択することができる。ネットワークセキュリティ機器１２３は、当該要求を完了するために要求されたコストに基づいて当該特性を選択することができる。例えば、当該入力オーディオ信号が「order a new laptop computer」であるとき音声プリント特性を使用できるが、当該入力オーディオ信号が「order a taxi」であるときは位置特性を選択することができる。当該特性の選択は、当該要求を完了するために要求された時刻または計算集約に基づくことができる。より計算的なリソースを消費する特性を、完了するためにより計算的なリソースを必要とする要求を生成する入力オーディオ信号を認証するために使用することができる。例えば、当該入力オーディオ信号は「Ok, I’d like to go to dinner and the movies」であり、は複数のアクションおよび要求を含み、複数のサービスプロバイダ１６０を含むことができる。当該入力オーディオ信号は、可能な映画を検索し、可能なレストランの利用可能を検索し、レストラン予約を行い、および映画チケットを購入する要求を生成することができる。この入力オーディオ信号の完了は、計算的により集約的であり、かつ、入力オーディオ信号「Ok, what time is it?」よりも完了するのに長い時間がかかる

ネットワークセキュリティ機器１２３はまた、入力オーディオ信号に含まれる要求に基づいてアラーム条件を設定することができる。ネットワークセキュリティ機器１２３は、アクションデータ構造のサービスプロバイダコンピューティングデバイス１６０への送信がクライアントコンピューティングデバイス１５０のエンド・ユーザへの金銭的請求をもたらす場合、アラーム条件を自動的に設定することができる。例えば、第１の入力オーディオ信号「Ok, order a pizza」は金銭的請求を生成でき、第２の入力オーディオ信号「Ok, what time is it」は生成しない。本例では、ネットワークセキュリティ機器１２３は、当該第１の入力オーディオ信号に対応するアクションデータ構造を受信した際にアラーム条件を自動的に設定し、当該第２の入力オーディオ信号に対応するアクションデータ構造を受信した際にアラーム条件を設定しないことができる。

ネットワークセキュリティ機器１２３は、当該アクションデータ構造が特定のサービスプロバイダデバイス１６０に対して意図した判定に基づいて、アラーム条件を設定することができる。例えば、クライアントコンピューティングデバイス１５０のエンド・ユーザは、さらなる認証なしにどのサービスプロバイダとデータ処理システム１０５がエンド・ユーザのかわりに対話できるかに関して制限を設定することができる。例えば、エンド・ユーザに子供がいる場合、おもちゃを販売するサービスプロバイダを介しておもちゃを子供が購入するのを防止するために、エンド・ユーザは、アクションデータ構造がさらなる認証なしにおもちゃ販売店へ送信できない制限を設定することができる。ネットワークセキュリティ機器１２３が特定のサービスプロバイダデバイス１６０に対して意図されたアクションデータ構造を受信するとき、ネットワークセキュリティ機器１２３は、アラーム条件が自動的に設定されるべきかどうかを判定するために、データリポジトリ内のポリシーを検索することができる。

ネットワークセキュリティ機器１２３は当該アラーム条件の指示をコンテンツセレクタコンポーネント１２５に送信することができる。コンテンツセレクタコンポーネント１２５はコンテンツ・アイテムを選択して、クライアントコンピューティングデバイス１５０に送信することができる。当該コンテンツ・アイテムは、当該入力オーディオ信号を認証するためのパスフレーズまたは追加の情報に対する可聴要求であることができる。当該コンテンツ・アイテムをクライアントコンピューティングデバイス１５０に送信することができる。オーディオドライバ１５３は、トランスデューサ１５２を介して、当該コンテンツ・アイテムを音波に変換する。クライアントコンピューティングデバイス１５０のエンド・ユーザは当該コンテンツ・アイテムに応答することができる。エンド・ユーザの応答は、センサ１５１によりデジタル化され、データ処理システム１０５に送信されることができる。ＮＬＰコンポーネント１１０は、当該応答オーディオ信号を処理し、当該応答をネットワークセキュリティ機器１２３に提供することができる。ネットワークセキュリティ機器１２３は、当該応答オーディオ信号の特性を当該入力オーディオ信号または当該アクションデータ構造の特性と比較することができる。例えば、当該コンテンツ・アイテムはパスフレーズの要求であることができる。ＮＬＰコンポーネント１１０は、当該応答のテキストオーディオ信号を認識して、当該テキストをネットワークセキュリティ機器１２３に渡すことができる。ネットワークセキュリティ機器１２３はハッシュ関数を当該テキストに実行することができる。同一のハッシュ機能でハッシュされているので、エンド・ユーザの認証されたパスフレーズはデータリポジトリ１４５に保存することができる。ネットワークセキュリティ機器１２３は、当該ハッシュされたテキストを当該保存された、ハッシュされたパスフレーズと比較することができる。当該ハッシュされたテキストおよびハッシュされたパスフレーズがマッチする場合、ネットワークセキュリティ機器１２３は当該入力オーディオ信号を認証することができる。当該ハッシュされたテキストおよび当該ハッシュされたパス段階がマッチしない場合、ネットワークセキュリティ機器１２３は第２のアラーム条件を設定することができる。

ネットワークセキュリティ機器１２３は通信セッションを終了することができる。ネットワークセキュリティ機器１２３は、クライアントコンピューティングデバイス１５０と確立された通信セッションを無効にし、一時停止し、または停止するための命令をサービスプロバイダコンピューティングデバイス１６０に送信することができる。当該通信セッションの終了は、ネットワークセキュリティ機器１２３が第２のアラーム条件を設定することに応答することができる。ネットワークセキュリティ機器１２３は、データ処理システム１０５を介してサービスプロバイダコンピューティングデバイス１６０との通信セッションを生成するための当該コンピューティングデバイスの能力を無効にすることができる。例えば、ネットワークセキュリティ機器１２３が入力オーディオ信号「Ok, order a taxi」に応答して第２のアラーム条件を設定する場合、ネットワークセキュリティ機器１２３は、通信セッションの能力がクライアントコンピューティングデバイス１５０および当該タクシーサービスプロバイダデバイスの間で確立されるのを無効にすることができる。認証されたユーザは、後の時点で当該タクシーサービスプロバイダデバイスを再認証することができる。

図２は、オーディオ信号の認証を実施するためのシステム２００の例示的な動作を示す流れ図を示す。システム２００は、システム１００と関連して上述したコンポーネントまたは要素のうち１つまたは複数を含むことができる。例えば、システム２００は、クライアントコンピューティングデバイス１５０およびサービスプロバイダコンピューティングデバイス１６０と、例えば、ネットワーク１６５を介して通信するデータ処理システム１０５を含むことができる。

システム２００の動作は、クライアントコンピューティングデバイス１５０が入力オーディオ信号２０１をデータ処理システム１０５に送信することで開始することができる。データ処理システム１０５が当該入力オーディオ信号を受信すると、データ処理システム１０５のＮＬＰコンポーネント１１０は、当該入力オーディオ信号を、要求および当該要求に対応するトリガキーワードに解析することができる。通信セッションは、データ処理システム１０５を介してクライアントコンピューティングデバイス１５０およびサービスプロバイダコンピューティングデバイス１６０の間で確立されたであることができる。

ダイレクト・アクションＡＰＩ１３５は当該要求に基づいてアクションデータ構造を生成することができる。例えば、当該入力オーディオ信号は「I want a ride to the movies」であることができる。本例では、ダイレクト・アクションＡＰＩ１３５は当該要求が車サービスに関するものであると判定することができる。ダイレクト・アクションＡＰＩ１３５は、当該入力オーディオ信号を生成した現在のクライアントコンピューティングデバイス１５０の位置を決定でき、最も近い映画の映画館の位置を決定することができる。ダイレクト・アクションＡＰＩ１３５は、クライアントコンピューティングデバイス１５０の位置を車サービスに対するピックアップ位置として含み、最も近い映画の映画館の位置を車サービスの目的地として含む、アクションデータ構造を生成することができる。当該アクションデータ構造はまた当該入力オーディオ信号の１つまたは複数の特性を含むことができる。データ処理システム１０５は、アラーム条件を設定すべきかどうかを判定するために、当該アクションデータ構造をネットワークセキュリティ機器に渡すことができる。

当該ネットワークセキュリティ機器がアラーム条件を検出した場合、データ処理システム１０５は、コンテンツセレクタコンポーネント１２５を介して、コンテンツ・アイテムを選択することができる。データ処理システム１０５はコンテンツ・アイテム２０２をクライアントコンピューティングデバイス１５０に提供することができる。コンテンツ・アイテム２０２を、データ処理システム１０５およびクライアントコンピューティングデバイス１５０の間の通信セッションの一部として、クライアントコンピューティングデバイス１５０に提供することができる。当該通信セッションはリアルタイムな人から人への会話の流れと感覚を有することができる。例えば、当該コンテンツ・アイテムは、クライアントコンピューティングデバイス１５０で再生されるオーディオ信号を含むことができる。エンド・ユーザは当該オーディオ信号に応答することができる。当該オーディオ信号は、センサ１５１によりデジタル化され、データ処理システム１０５に送信されることができる。当該コンテンツ・アイテムは、クライアントコンピューティングデバイス１５０に送信されたセキュリティ質問、コンテンツ・アイテム、または他の質問であることができる。当該質問を、トランスデューサ１５２を介して、当該入力オーディオ信号を生成したエンド・ユーザに提供することができる。幾つかの実装では、当該セキュリティ質問は、クライアントコンピューティングデバイス１５０およびデータ処理システム１０５の間の過去の対話に基づくことができる。例えば、入力オーディオ信号の当該送信の前に、「Ok, order a pizza」の入力オーディオ信号を提供することでユーザがシステム２００を介してピザを注文した場合、当該セキュリティ質問は「what did you order for dinner last night」を含みうる。当該コンテンツ・アイテムはまた、データ処理システム１０５に提供されるパスワードの要求を含むことができる。当該コンテンツ・アイテムは、第１のコンピューティングデバイス１５０に関連付けられた第２のコンピューティングデバイス１５０へのプッシュ通知を含むことができる。例えば、当該入力オーディオ信号の確認を要求するプッシュ通知を、クライアントコンピューティングデバイス１５０に関連付けられたスマートフォンに送信することができる。ユーザは、当該入力オーディオ信号が真正であることを確認するために当該プッシュ通知を選択することができる。

クライアントコンピューティングデバイス１５０およびデータ処理システム１０５の間の通信セッション中に、ユーザはコンテンツ・アイテムに応答することができる。ユーザは口頭で当該コンテンツ・アイテムに応答することができる。当該応答を、センサ１５１によりデジタル化し、複数のデータパケットにより運搬される応答オーディオ信号２０３としてデータ処理システム１０５に送信することができる。当該可聴信号はまた特性を含むことができ、当該特性をネットワークセキュリティ機器により分析することができる。当該ネットワークセキュリティ機器がアラーム条件が継続すると当該応答オーディオ信号の条件に基づいて判定した場合、当該ネットワークセキュリティ機器は、メッセージ２０４をサービスプロバイダコンピューティングデバイス１６０に送信することができる。メッセージ２０４は、サービスプロバイダコンピューティングデバイス１６０がクライアントコンピューティングデバイス１５０との通信セッションを無効にするための命令を含むことができる。

図３は、音声起動されたデータパケット（または他のプロトコル）ベースのコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証する例示的な方法３００を示す。方法３００は入力オーディオ信号を含むデータパケットを受信するステップを含むことができる（動作３０２）。例えば、データ処理システムは、ＮＬＰコンポーネントを実行または起動して、ネットワークを介してパケットまたは他のプロトコルベースの送信をクライアントコンピューティングデバイスから受信することができる。当該データパケットは、エンド・ユーザが「Ok, I would like to go to go dinner and then a movie tonight」をスマートフォンに対して言ったような、当該センサにより検出された入力オーディオ信号を含むことができるかまたはそれに対応することができる。

方法３００は当該入力オーディオ信号内の要求およびトリガキーワードを識別するステップを含むことができる（動作３０４）。例えば、当該ＮＬＰコンポーネントは当該入力オーディオ信号を解析して、（上述の例における「ディナー」または「映画」のような）要求ならびに当該要求に対応または関するトリガキーワード「go」「go to」または「to go to」を識別することができる。

方法３００は当該要求に基づいて第１のアクションデータ構造を生成するステップを含むことができる（動作３０６）。当該ダイレクト・アクションＡＰＩは、当該入力オーディオ信号の当該要求を満たすために当該サービスプロバイダコンピューティングデバイスまたはコンテンツプロバイダコンピューティングデバイスにより送信し処理できるデータ構造を生成することができる。例えば、上の例を続けると、当該ダイレクト・アクションＡＰＩは、レストラン予約サービスに送信された第１のアクションデータ構造を生成することができる。第１のアクションデータ構造は、クライアントコンピューティングデバイスの現在の位置の近くに配置され、当該クライアントのユーザコンピューティングデバイスに関連付けられた他の仕様（例えば、クライアントのユーザコンピューティングデバイスにより好まれる料理タイプ）を満たすレストランの検索を実施することができる。当該ダイレクト・アクションＡＰＩはまた当該予約に対して好適な時刻を決定することができる。例えば、データ処理システムは、当該検索中に選択されたレストランが１５分先であり、現在時刻は午後６：３０であると判定することができる。データ処理システムは、午後６：４５の後の時刻に好適な予約時間を設定することができる。本例では、第１のアクションデータ構造は当該レストラン名前および当該好適な予約時間を含むことができる。データ処理システムは、第１のアクションデータ構造を当該サービスプロバイダコンピューティングデバイスまたは当該コンテンツプロバイダコンピューティングデバイスに送信することができる。動作３０６は複数のアクションデータ構造を生成するステップを含むことができる。上述の入力オーディオ信号に対して、映画タイトルおよびレストラン名前を含む第２のアクションデータ構造を生成でき、ピックアップおよび降車位置を含む第３のアクションデータ構造を生成することができる。データ処理システムは、第２のアクションデータ構造を映画チケット予約サービスに提供し、第３のアクションデータ構造を車予約サービスに提供することができる。

方法３００はまた、第１のアクションデータ構造を当該入力オーディオ信号の特性と比較するステップを含むことができる（動作３０８）。当該ネットワークセキュリティ機器は、当該入力オーディオ信号の特性を第１のアクションデータ構造と比較して、当該入力オーディオ信号の真正性を決定することができる。当該入力オーディオ信号の真正性決定することは、当該入力オーディオ信号を生成した人が入力オーディオ信号を生成するのに認証されたかどうかを判定するステップを含むことができる。当該入力オーディオ信号の特性は、音声プリント、キーワード、検出された音声の数、オーディオソースの識別（例えば、当該入力オーディオ信号が発生した場所からの当該センサまたはクライアントコンピューティングデバイスの識別）、オーディオソースの位置、または別のクライアントコンピューティングデバイスの位置（および当該他のクライアントコンピューティングデバイスおよび当該オーディオソースの間の当該距離）を含むことができる。例えば、認証された音声プリントを、ユーザ発話の一節をもたせることでセットアップ段階中に生成することができる。これらの一節が発話されると、当該ネットワークセキュリティ機器は、当該頻度コンテンツ、品質、期間、集約、動的、および当該信号のピッチに基づいて音声プリントを生成することができる。当該ネットワークセキュリティ機器は、当該ネットワークセキュリティ機器が、当該入力オーディオ信号の特性が第１のアクションデータ構造または他の期待されるデータにマッチしないと判定した場合に、アラーム条件を生成することができる。例えば、「Ok, I would like to go to go dinner and then a movie tonight」に対するアクションデータ構造を生成したとき、データ処理システムは、ユーザのスマートフォンの位置に基づいてピックアップ位置を含む車予約サービスに対するアクションデータ構造を生成することができる。当該アクションデータ構造は当該位置を含むことができる。当該入力オーディオ信号をインタラクティブスピーカシステム生成することができる。当該インタラクティブスピーカシステムの位置は当該入力オーディオ信号とともにデータ処理システムに送信される。本例では、ユーザのスマートフォンの位置が当該インタラクティブスピーカシステムの位置にマッチしない（または当該インタラクティブスピーカシステムの予め定義された距離内にない）場合、ユーザが当該インタラクティブスピーカシステムの近くになく、当該ネットワークセキュリティ機器は、ユーザが当該入力オーディオ信号を生成しなかった可能性が高いと判定することができる。当該ネットワークセキュリティ機器はアラーム条件を生成することができる。クライアントコンピューティングデバイス１５０および二次クライアントデバイス（例えば、エンド・ユーザのスマートフォン）の間の距離を、当該２つのデバイスの間の直線の線形距離、当該２つのデバイスの間の移動距離として計算することができる。当該距離はまた、当該２つのデバイスの位置の間の旅行時間に基づくことができる。当該距離が、ＩＰアドレスおよびＷｉ−Ｆｉネットワーク位置のような位置を示すことができる他の特性に基づいてもよい。

方法３００はコンテンツ・アイテムを選択するステップを含むことができる（動作３１０）。当該コンテンツ・アイテムは、当該トリガキーワードおよび当該アラーム条件に基づくことができ、リアルタイムコンテンツ選択プロセスを介して選択することができる。当該コンテンツ・アイテムを、当該入力オーディオ信号を認証するために選択することができる。当該コンテンツ・アイテムは、ユーザのスマートフォンのようなクライアントコンピューティングデバイスに表示される通知、オンラインドキュメント、またはメッセージであることができる。当該コンテンツ・アイテムは、クライアントコンピューティングデバイスに送信され当該トランスデューサを介してユーザにブロードキャストされたオーディオ信号であることができる。当該コンテンツ・アイテムはセキュリティ質問であることができる。当該セキュリティ質問は、パスワードの要求のような予め定義されたセキュリティ質問であることができる。当該セキュリティ質問は動的に生成されることができる。例えば、当該セキュリティは、ユーザまたはクライアントコンピューティングデバイスの当該過去の履歴に基づいて生成された質問であることができる。

方法３００は可聴信号を運搬するデータパケットを受信するステップを含むことができる（動作３１２）。当該データパケットは、クライアントコンピューティングデバイスおよびデータ処理システムの会話ＡＰＩの間で送信された可聴信号を運搬することができる。会話ＡＰＩは、当該コンテンツ・アイテムとの対話に応答してデータ処理システムとの通信セッションを確立することができる。当該可聴信号は、動作３１０中にクライアントコンピューティングデバイスに送信された当該コンテンツ・アイテムに対するユーザの応答を含むことができる。例えば、当該コンテンツ・アイテムは、クライアントコンピューティングデバイスに、「what is your authorization code?」を尋ねるオーディオ信号を生成させることができる。当該可聴信号は当該コンテンツ・アイテムへのエンド・ユーザ応答を含むことができる。当該コンテンツ・アイテムへのエンド・ユーザ応答は当該応答オーディオ信号の特性であることができる。

方法３００はまた、当該応答オーディオ信号の特性を当該入力オーディオ信号の特性と比較するステップを含むことができる（動作３１４）。当該応答オーディオ信号はパスフレーズまたは他の特性を含むことができる。当該コンテンツ・アイテムは、クライアントコンピューティングデバイスが当該応答オーディオ信号の１つまたは複数の特定の特性をキャプチャするための命令を含むことができる。例えば、当該入力オーディオ信号の特性はクライアントコンピューティングデバイスの位置であることができる。当該応答オーディオ信号の特性は当該入力オーディオ信号の特性と異なることができる。例えば、当該応答オーディオ信号の特性は音声プリントであることができる。当該コンテンツ・アイテムは当該音声プリント特性をキャプチャするための命令を含むことができる。当該命令は、追加の頻度コンテンツを当該音声プリントに対して分析できるように、当該応答オーディオ信号をより高いサンプリング頻度でキャプチャするステップを含むことができる。当該システムが当該応答オーディオ信号の特性および当該入力オーディオ信号の間のマッチを検出しない場合、当該システムはアラーム条件を設定することができる。例えば、当該応答オーディオ信号の特性が、当該入力オーディオ信号に関連付けられたパスフレーズにマッチしないパスフレーズを含む場合、当該アラーム条件を設定することができる。

当該応答オーディオ信号の特性が当該入力オーディオ信号の特性（例えば、当該パスフレーズ（またはそのハッシュ）マッチ）にマッチする場合、パス条件を設定することができる。パス条件が設定されたとき、当該システムは、当該クライアントデバイスとの当該通信セッションを継続するための命令をサードパーティを送信することができる。当該所定の時間の期限切れまで当該通信セッションが再認証される必要がないように、当該通信セッションを継続するための当該命令は所定の時間量に対する当該通信セッションを認証することができる。

方法３００はまた、当該通信セッションを無効にするための命令をサードパーティプロバイダデバイスに送信するステップを含むことができる（動作３１６）。当該通信セッションを無効にすることは、メッセージおよびアクションデータ構造が当該サービスプロバイダデバイスに送信されるのを防止することができる。これは、望まないネットワークトラフィックを減らすことでネットワーク利用を高めることができる。当該通信セッションを無効にすることは、当該サービスプロバイダデバイスが悪意あるかまたは誤って生成された要求を処理しないので、計算の無駄を減らすことができる。

図４は例示的なコンピュータシステム４００のブロック図である。当該コンピュータシステムまたはコンピューティングデバイス４００は、システム１００、またはデータ処理システム１０５のようなそのコンポーネントを含むことができるかまたはそれを実装するために使用される。コンピューティングシステム４００は、情報を通信するためのバス４０５または他の通信コンポーネントおよび情報を処理するためにバス４０５に接続されるプロセッサ４１０または処理回路を含む。コンピューティングシステム４００はまた１つまたは複数のプロセッサ４１０または情報を処理するための当該バスに接続される処理回路を含むことができる。コンピューティングシステム４００はまた、情報、およびプロセッサ４１０により実行される命令を格納するためのバス４０５に接続されたランダム・アクセスメモリ（ＲＡＭ）または他の動的記憶デバイスのようなメイン・メモリ４１５を含む。メイン・メモリ４１５はデータリポジトリ１４５であることができるかまたはそれを含むことができる。メイン・メモリ４１５をまた、プロセッサ４１０による命令の実行中に位置情報、一時的変数、または他の中間情報を格納するために使用することができる。コンピューティングシステム４００はさらに、プロセッサ４１０のための静的情報および命令を格納するためにバス４０５に接続される読取専用メモリ（ＲＯＭ）４２０または他の静的記憶デバイスを含んでもよい。固体状態デバイス、磁気ディスクまたは光ディスクのような記憶デバイス４２５を、永続的に情報および命令を格納するためにバス４０５に接続することができる。記憶デバイス４２５はデータリポジトリ１４５を含むことができるかまたはその一部であることができる。

コンピューティングシステム４００を、情報をユーザに表示するために、バス４０５を介して、液晶ディスプレイ、またはアクティブ行列ディスプレイのようなディスプレイ４３５に接続してもよい。英数字および他のキーを含むキーボードのような入力デバイス４３０を、情報およびコマンド選択をプロセッサ４１０に通信するためにバス４０５に接続してもよい。入力デバイス４３０はタッチ・スクリーンディスプレイ４３５を含むことができる。入力デバイス４３０はまた、方向情報およびコマンド選択をプロセッサ４１０に通信しディスプレイ４３５上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーのようなカーソル・コントロールを含むことができる。ディスプレイ４３５は、例えば、図１のデータ処理システム１０５、クライアントコンピューティングデバイス１５０または他のコンポーネントの一部であることができる。

本明細書で説明したプロセス、システムおよび方法をプロセッサ４１０がメイン・メモリ４１５に含まれる命令の配置を実行したことに応答してコンピューティングシステム４００により実装することができる。かかる命令を、記憶デバイス４２５のような別のコンピュータ可読媒体からメイン・メモリ４１５に読み込むことができる。メイン・メモリ４１５に含まれる命令の配置の実行は、コンピューティングシステム４００に、本明細書で説明した例示的なプロセスを実施させる。マルチプロセッシング配置における１つまたは複数のプロセッサをまた、メイン・メモリ４１５に含まれる命令を実行するために使用することができる。ハードワイヤード回路を、本明細書で説明するシステムおよび方法とともにソフトウェア命令の代わりにまたはそれを組み合わせて使用することができる。本明細書で説明したシステムおよび方法はハードウェア回路およびソフトウェアの任意の特定の組合せに限定されない。

例示的なコンピューティングシステムを図４で説明したが、本明細書で説明した動作を含む当該主題を、本明細書で開示した構造およびそれらの構造的均等物を含む他のタイプのデジタル電子回路で、またはコンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらの１つまたは複数の組合せで実装することができる。

本明細書で説明するシステムがユーザに関する個人情報を収集するか、または個人情報を利用しうる状況に対して、ユーザに、プログラムまたは機能が個人情報（例えば、ユーザのソーシャルネットワーク、ソーシャルアクションまたはアクティビティ、ユーザの嗜好、またはユーザの位置に関する情報）を収集しうるかどうかを制御するか、またはユーザにより関連しうるコンテンツサーバまたは他のデータ処理システムからコンテンツを受信するかどうかまたはその方法を制御するための機会を与えてもよい。さらに、特定のデータはそれが格納または使用される前に１つまたは複数の方法で匿名化してもよく、その結果個人的に識別可能な情報がパラメータを生成するときに除去される。例えば、ユーザのアイデンティティを匿名化してもよく、その結果個人的に識別可能な情報をユーザに対して決定できず、またはユーザの特定の位置を決定できないように、ユーザの地理的位置を位置情報が取得される場所で（例えば都市、郵便番号、または状態レベルに）一般化してもよい。したがって、ユーザは、どのように情報がユーザに関して収集され当該コンテンツサーバにより使用されるかを制御することができる。

当該主題および本明細書で説明した動作を、本明細書で開示した構造およびそれらの構造的均等物を含むデジタル電子回路で、またはコンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらの１つまたは複数の組合せで実装することができる。本明細書で説明した当該主題を、データ処理装置による実行のためにまたは当該装置の動作を制御するために１つまたは複数のコンピュータ記憶媒体で符号化された、１つまたは複数のコンピュータプログラム、例えば、コンピュータプログラム命令の１つまたは複数の回路として実装することができる。代替的にまたは追加として、当該プログラム命令を、人工的に生成された伝播信号、例えば、データ処理装置による実行のために適切な受信器装置に送信するための情報を符号化するために生成されたマシン−生成された電気、光、または電磁気信号で符号化することができる。コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムなまたはシリアル・アクセスメモリ・アレイまたはデバイス、またはそれらの１つまたは複数の組合せであることができ、または、それらに含まれることができる。コンピュータ記憶媒体は伝播信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝播信号で符号化されたコンピュータプログラム命令のソースまたは宛先であることができる。当該コンピュータ記憶媒体はまた、１つまたは複数の別々のコンポーネントまたは媒体（例えば、複数のＣＤ、ディスク、または他の記憶デバイス）であることができ、または、それに含まれることができる。本明細書で説明した動作を、１つまたは複数のコンピュータ可読記憶デバイスに格納されまたは他のソースから受信されたデータに対してデータ処理装置により実施される動作として実装することができる。

「データ処理システム」「コンピューティングデバイス」「コンポーネント」または「データ処理装置」という用語は、例としてプログラム可能プロセッサ、コンピュータ、システム・オン・チップ、または以上のうち複数または組合せを含む、データを処理するための様々な装置、デバイス、およびマシンを包含する。当該装置は、特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラム可能ゲート・アレイ）またはＡＳＩＣ（特殊用途向け集積回路）を含むことができる。当該装置はまた、ハードウェアに加えて、着目するコンピュータプログラムに対する実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコル・スタック、データベース管理システム、オペレーティング・システム、クロス・プラットフォームランタイム環境、仮想マシン、またはそれらの１つまたは複数の組合せを構成するコードを含むことができる。当該装置および実行環境は、ウェブサービス、分散コンピューティングおよびグリッド・コンピューティングインフラのような様々な異なるコンピューティングモデルインフラを実現することができる。ダイレクト・アクションＡＰＩ１３５、コンテンツセレクタコンポーネント１２５、ネットワークセキュリティ機器１２３、またはＮＬＰコンポーネント１１０および他のデータ処理システム１０５コンポーネントは、１つまたは複数のデータ処理装置、システム、コンピューティングデバイス、またはプロセッサを含むかまたは共有ことができる。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、スクリプト、またはコードとしても知られる）を、コンパイル型言語またはインタプリタ型言語、宣言型または手続型言語を含む任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムまたはモジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境で使用するのに適した他のユニットを含む任意の形態で展開することができる。コンピュータコンピュータプログラムはイルシステム内のファイルに対応することができる。コンピュータコンピュータプログラムを、他のプログラムまたはデータを保持するファイル部分（例えば、マークアップ言語ドキュメントに格納された１つまたは複数のスクリプト）に、着目するプログラム専用の単一のファイルに、または複数の協調ファイルに（例えば、１つまたは複数のモジュール、サブプログラム、またはコード部分を格納するファイル）格納することができる。コンピュータコンピュータプログラムを、１つのコンピュータ上でまたは１つのサイトに配置されるかまたは複数のサイトにわたって分散され通信ネットワークにより相互接続された複数のコンピュータ上で実行されるように展開することができる。

本明細書で説明した当該プロセスおよび論理フローを、１つまたは複数のプログラム可能プロセッサが、１つまたは複数のコンピュータプログラム（例えば、データ処理システム１０５のコンポーネント）を実行して、入力データで動作し出力を生成することでアクションを実施することにより、実施することができる。当該プロセスおよび論理フローはまた、特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラム可能ゲート・アレイ）またはＡＳＩＣ（特殊用途向け集積回路）により実施でき、装置をまた特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラム可能ゲート・アレイ）またはＡＳＩＣ（特殊用途向け集積回路）として実装することができる。コンピュータプログラム命令およびデータを格納するのに適したデバイス、例として半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュ・メモリデバイスを含むあらゆる形態の非揮発性メモリ、媒体およびメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたは取外し可能ディスク、磁気光ディスク、およびＣＤＲＯＭおよびＤＶＤ−ＲＯＭディスクを含む。当該プロセッサおよび当該メモリを特殊目的論理回路で補完するかまたはそれに組み込むことができる。

本明細書で説明する主題を、コンピューティングシステムで実装することができるバックエンドコンポーネントを、例えば、データサーバとして含むか、またはミドルウェアコンポーネント、例えば、アプリケーションサーバを含むか、またはフロントエンドコンポーネント、例えば、ユーザがそれを通じて本明細書で説明した当該主題の実装と対話できるグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータ、または１つまたは複数のかかるバックエンド、ミドルウェア、またはフロントエンドコンポーネントの組合せを含む。当該システムの当該コンポーネントはデジタルデータ通信、例えば、通信ネットワークの任意の形態または媒体により相互接続することができる。通信ネットワークの例は、ローカル・エリア・ネットワーク（「ＬＡＮ」）および広帯域ネットワーク（「ＷＡＮ」）、インターネットワーク（例えば、インターネット）、およびピア・ツー・ピアネットワーク（例えば、アドホックピア・ツー・ピアネットワーク）を含む。

システム１００またはシステム４００のような当該コンピューティングシステムはクライアントおよびサーバを含むことができる。コンピュータクライアントおよびサーバは一般に互いから離れており、一般に通信ネットワークを通じて対話する（例えば、ネットワーク１６５）。クライアントおよびサーバの関係は、当該各コンピュータで実行され互いにクライアント−サーバ関係を有するコンピュータプログラムにより生ずる。幾つかの実装では、サーバは、（例えば、データを表示し、ユーザ入力を当該クライアントデバイスと対話するユーザから受信する目的で）データ（例えば、コンテンツ・アイテムを表すデータパケット）をクライアントデバイスに送信する。当該クライアントデバイスで生成されたデータ（例えば、ユーザ対話の結果）は当該クライアントデバイスから当該サーバでから（例えば、受信されたデータ処理システム１０５によりクライアントコンピューティングデバイス１５０またはコンテンツプロバイダコンピューティングデバイス１５５またはサービスプロバイダコンピューティングデバイス１６０から）受信されることができる。

動作を当該図面において特定の順序で説明したが、かかる動作を示した特定の順序でまたは逐次的な順序で実施する必要はなく、全ての図示した動作を実施する必要はない。本明細書で説明した動作を異なる順序で実施することができる。

様々なシステムコンポーネントの分離は全ての実装における分離を要求しないが、当該説明したプログラムコンポーネントを単一のハードウェアまたはソフトウェア製品に含めることができる。例えば、ＮＬＰコンポーネント１１０、コンテンツセレクタコンポーネント１２５、またはネットワークセキュリティ機器１２３は、単一のコンポーネント、アプリ、またはプログラム、または１つまたは複数の処理回路を有する論理デバイス、またはデータ処理システム１０５の１つまたは複数のサーバの一部であることができる。

幾つかの例示的な実装を説明したので、以上は、例示的であり限定的ではなく、例として提示されていることは明らかである。特に、本明細書で提示した例の多くは方法の動作またはシステム要素の特定の組合せを含むが、これらの動作およびこれらの要素を他の方法で組み合わせて同一の目的を実現してもよい。１実装と関連して説明した動作、要素および特徴は他の実装または実装における類似の役割から排除されるものではない。

本明細書で使用したフレーズおよび用語は説明の目的のためであり限定として解釈されるべきではない。「〜を含む」、「〜を備える」、「〜を有する」、「〜を包含する」、「〜が関与する」、「〜により特徴付けられる」、「〜の点で特徴付けられる」、およびその本明細書における変形の使用、は、その後に列挙された項目、その均等物、および追加の項目、ならびに排他的にその後に列挙された項目からなる代替的な実装を含むことを意味する。１実装では、本明細書で説明するシステムおよび方法は当該説明した要素、動作、またはコンポーネントの１つ、複数の各組合せ、または全てから成る。

本明細書で単一形で参照されるシステムおよび方法の実装または要素または動作に対する任意の言及は複数のこれらの要素を含む実装を含んでもよく、本明細書の任意の実装または要素または動作への複数形の任意の参照は単一の要素のみを含む実装を含んでもよい。単一形または複数形における参照は本明細書で開示したシステムまたは方法、それらのコンポーネント、動作、または要素を単一のまたは複数の構成に限定しようとするものではない。任意の情報、動作または要素に基づく任意の動作または要素への参照は当該動作または要素は任意の情報、動作、または要素に少なくとも部分的に基づく実装を含んでもよい。

本明細書で開示した任意の実装を任意の他の実装または実施形態と組み合わせてもよく「実装」、「幾つかの実装」、「１実装」等への言及は必ずしも相互に排他的ではなく、当該実装と関連して説明した特定の特徴、構造、または特性が少なくとも１つの実装または実施形態に含まれてもよいを示すことを意図している。本明細書で使用した用語は必ずしも全て同一の実装を参照しない。任意の実装を、任意の他の実装と、包含的にまたは排他的に、本明細書で開示した態様および実装と一貫する任意の方式で結合してもよい。

「または」に対する言及は、「または」を用いて説明された任意の用語が当該説明した用語のうち１つ、複数、および全ての何れかを示しうるように、包含的として解釈してもよい。例えば、「‘Ａ’および‘Ｂ’のうち少なくとも１つ」への言及は‘Ａ’のみ、‘Ｂ’のみ、ならびに‘Ａ’および‘Ｂ’の両方を含むことができる。「〜を備える」または他のオープンな用語と関連して使用されるかかる言及は追加の項目を含むことができる。

当該図面、詳細な説明または任意の請求項における技術的特徴に参照記号が続く場合、当該参照記号は当該図面、詳細な説明、および特許請求の範囲の明瞭性を高めるために含まれている。したがって、当該参照記号もそれがないことも任意のクレーム要素の範囲に対する限定効果を有さない。

本明細書で説明するシステムおよび方法をその特徴から逸脱せずに他の特定の形態で具体化してもよい。以上の実装は説明したシステムおよび方法の限定ではなく例示的なものである。本明細書で説明するシステムおよび方法の範囲はしたがって以上の説明ではなく添付の特許請求の範囲により示され、添付の特許請求の範囲の均等物の意味と範囲に入る変更がそこに包含される。

１０５データ処理システム
１１０自然言語プロセッサ・コンポーネント
１２３ネットワーク・セキュリティ機器
１２５コンテンツ・セレクタ・コンポーネント
１３０オーディオ信号生成器コンポーネント
１３５ダイレクト・アクションＡＰＩ
１３６会話ＡＰＩ
１４０セッション・ハンドラ
１４５データ・リポジトリ
１４６パラメータ
１４７ポリシ
１４８コンテンツ・データ
１４９テンプレート
１５０クライアント・コンピューティング・デバイス
１５１センサ
１５２トランスデューサ
１５３オーディオ・ドライバ
１５４スピーカ
１５５コンテンツ・プロバイダ・デバイス
１６０サービス・プロバイダ・デバイス
１６１サービス・プロバイダの自然言語プロセッサ・コンポーネント
１６２サービス・プロバイダ・インタフェース
１６５ネットワーク

Claims

音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するためのシステムであって、
前記データ処理システムのインタフェースを介して、クライアントデバイスのセンサにより検出された入力オーディオ信号を含むデータパケットを受信するデータ処理システムにより実行される自然言語プロセッサコンポーネントと、
トリガキーワードに基づいて、要求に応答して第１のアクションデータ構造を生成する、前記データ処理システムのダイレクト・アクション・アプリケーション・プログラミング・インタフェースと、
前記第１のアクションデータ構造を前記入力オーディオ信号の第１の特性と比較して、アラーム条件を検出する、ネットワークセキュリティ機器と、
前記自然言語プロセッサにより識別された前記トリガキーワードおよび前記第１のアラーム条件の指示を受信し、前記トリガキーワードおよび前記指示に基づいて、コンテンツ・アイテムを選択する、前記データ処理システムにより実行されたコンテンツセレクタコンポーネントと、
を備え、
前記自然言語プロセッサコンポーネントは、前記入力オーディオ信号を解析して、前記要求および前記要求に対応する前記トリガキーワードを識別し、
前記ネットワークセキュリティ機器は、
前記クライアントデバイスと、通信セッションを前記クライアントデバイスと確立した会話アプリケーションプログラミングインタフェースとの間で送信された応答オーディオ信号を運搬するデータパケットを受信し、
前記応答オーディオ信号の第２の特性を前記入力オーディオ信号の前記第１の特性と比較して、第２のアラーム条件を検出し、
前記第２のアラーム条件に基づいて、前記クライアントデバイスと確立された前記通信セッションを無効にするための命令を、サードパーティプロバイダデバイスに送信する、
システム。
前記ネットワークセキュリティ機器は、
前記入力オーディオ信号の前記第１の特性を決定し、
可聴信号の前記第２の特性を決定し、
前記第１の特性および前記第２の特性は、音声プリント、キーワード、検出された音声の数、前記クライアントデバイスの識別、および前記入力オーディオ信号のソースの位置のうち少なくとも１つを含む、
請求項１に記載のシステム。
前記第１の特性は前記第２の特性と異なる、請求項１に記載のシステム。
前記ネットワークセキュリティ機器は、
第２のクライアントデバイスの位置を受信し、
前記クライアントデバイスの位置と前記第２のクライアントデバイスの位置の間の距離を決定し、
前記クライアントデバイスの位置と前記第２のクライアントデバイスの位置の間の前記距離に基づいて前記アラーム条件を検出する、
請求項１に記載のシステム。
前記ネットワークセキュリティ機器は、前記クライアントデバイスの位置と前記第２のクライアントデバイスの位置の間の前記距離が所定の閾値を上回ることに基づいて、前記アラーム条件を検出する、請求項４に記載のシステム。
前記コンテンツ・アイテムは前記クライアントデバイスで可聴信号を生成するための命令を含む、請求項１に記載のシステム。
前記可聴信号はセキュリティ質問を含む、請求項６に記載のシステム。
前記ネットワークセキュリティ機器は、前記第１のアラーム条件の検出に応答して前記第１のアクションデータ構造を無効化する、請求項１に記載のシステム。
前記コンテンツセレクタは、前記コンテンツ・アイテム内の前記応答オーディオ信号の前記第２の特性をキャプチャする命令を生成する、請求項１に記載のシステム。
前記ネットワークセキュリティ機器は、前記コンテンツ・アイテムとの対話に応答して、前記クライアントデバイスと確立された前記通信セッションを終了する、請求項１に記載のシステム。
前記ネットワークセキュリティ機器は、前記要求を完了するのに要求された計算リソースの量を決定する、請求項１に記載のシステム。
前記ネットワークセキュリティ機器は計算リソースの前記量が所定の閾値より大きいことに応答して前記アラーム条件を設定する、請求項１１に記載のシステム。
前記自然言語プロセッサコンポーネントは前記応答オーディオ信号を解析してパスフレーズを識別する、請求項１に記載のシステム。
前記ネットワークセキュリティ機器は、前記パスフレーズが格納されたパスフレーズにマッチしないことに基づいて、前記第２のアラーム条件を設定する、請求項１３に記載のシステム。
前記パスフレーズは前記第２の特性である、請求項１３に記載のシステム。
音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するための方法であって、
データ処理システムにより実行される自然言語プロセッサコンポーネントにより、クライアントデバイスのセンサにより検出された入力オーディオ信号を含むデータパケットを受信するステップと、
前記自然言語プロセッサコンポーネントにより、前記入力オーディオ信号を解析して、要求および前記要求に対応するトリガキーワードを識別するステップと、
前記データ処理システムのダイレクト・アクション・アプリケーション・プログラミング・インタフェースにより、前記トリガキーワードに基づいて、前記要求に応答して第１のアクションデータ構造を生成するステップと、
ネットワークセキュリティ機器により、前記第１のアクションデータ構造を前記入力オーディオ信号の第１の特性と比較して、アラーム条件を検出するステップと、
前記データ処理システムにより実行されたコンテンツセレクタコンポーネントにより、前記トリガキーワードおよび前記アラーム条件に基づいてコンテンツ・アイテムを選択するステップと、
前記ネットワークセキュリティ機器により、前記クライアントデバイスと、通信セッションを前記クライアントデバイスと確立した会話アプリケーションプログラミングインタフェースとの間で送信された応答オーディオ信号を運搬するデータパケットを受信するステップと、
前記ネットワークセキュリティ機器により、前記応答オーディオ信号の第２の特性を前記入力オーディオ信号の前記第１の特性と比較して、第２のアラーム条件を検出するステップと、
前記ネットワークセキュリティ機器により、前記第２のアラーム条件に基づいて、前記コンテンツ・アイテムとの対話に応答して前記クライアントデバイスと確立された前記通信セッションを無効かする命令をサードパーティプロバイダデバイスに送信するステップと、
を含む、方法。
前記ネットワークセキュリティ機器により、前記入力オーディオ信号の前記第１の特性を決定するステップと、
前記ネットワークセキュリティ機器により、可聴信号の前記第２の特性を決定するステップであって、前記第１の特性および前記第２の特性は、音声プリント、キーワード、検出された音声の数、前記クライアントデバイスの識別、および前記入力オーディオ信号のソースの位置のうち少なくとも１つを含む、ステップと、
を含む、請求項１６に記載の方法。
前記ネットワークセキュリティ機器により、第２のクライアントデバイスの位置を受信するステップと、
前記ネットワークセキュリティ機器により、前記クライアントデバイスの位置と前記第２のクライアントデバイスの位置の間の距離を決定するステップと、
前記ネットワークセキュリティ機器により、前記クライアントデバイスの位置と前記第２のクライアントデバイスの位置の間の前記距離に基づいて前記アラーム条件を検出するステップと、
を含む、請求項１６に記載の方法。
音声起動されたコンピュータネットワーク環境におけるパケット化されたオーディオ信号を認証するためのシステムであって、
データ処理システムのインタフェースを介して、クライアントデバイスのセンサにより検出された入力オーディオ信号を含むデータパケットを受信する、前記データ処理システムにより実行される自然言語プロセッサコンポーネントと、
トリガキーワードに基づいて、要求に応答して第１のアクションデータ構造を生成する、前記データ処理システムのダイレクト・アクション・アプリケーションプログラミング・インタフェースと、
前記第１のアクションデータ構造を前記入力オーディオ信号の第１の特性と比較して、アラーム条件を検出するネットワークセキュリティ機器と、
前記自然言語プロセッサにより識別された前記トリガキーワードおよび前記第１のアラーム条件の指示を受信し、前記トリガキーワードおよび前記指示に基づいて、コンテンツ・アイテムを選択する、前記データ処理システムにより実行されたコンテンツセレクタコンポーネントと、
を備え、
前記自然言語プロセッサコンポーネントは、前記入力オーディオ信号を解析して、前記要求および前記要求に対応する前記トリガキーワードを識別し、
前記ネットワークセキュリティ機器は、
前記クライアントデバイスと、通信セッションを前記クライアントデバイスと確立した会話アプリケーションプログラミングインタフェースとの間で送信された応答オーディオ信号を運搬するデータパケットを受信し、
前記応答オーディオ信号の第２の特性を前記入力オーディオ信号の前記第１の特性と比較して、パス条件を検出し、
前記パス条件に基づいて、前記クライアントデバイスと確立された前記通信セッションを継続する命令を、サードパーティプロバイダデバイスに送信する、
システム。
前記ネットワークセキュリティ機器は、
前記入力オーディオ信号の前記第１の特性を決定し、
可聴信号の前記第２の特性を決定し、
前記第１の特性および前記第２の特性は、音声プリント、キーワード、検出された音声の数、前記クライアントデバイスの識別、および前記入力オーディオ信号のソースの位置のうち少なくとも１つを含み、前記第２の特性はセキュリティ質問を含む、
請求項１９に記載のシステム。