JP7029434B2

JP7029434B2 - コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末

Info

Publication number: JP7029434B2
Application number: JP2019192798A
Authority: JP
Inventors: カール・スタール
Original assignee: サウンドハウンド，インコーポレイテッド
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2022-03-03
Anticipated expiration: 2039-10-23
Also published as: KR102593857B1; KR20210048429A; CN112699670A; JP2022020681A; EP3812924A1; JP2021068167A; KR20230149795A

Description

本開示は、自然言語の解釈に関し、特に、自然言語の解釈のための文法の管理に関する。

従来、ユーザから入力されたクエリに応じて行動するデジタルアシスタントが利用されている。ユーザは、デジタルアシスタントを利用する場合、スマートフォン等のクライアント端末にクエリを入力する。一般的なデジタルアシスタントの利用では、クライアント端末は、サーバ装置にクエリを送信する。サーバ装置は、クエリについて発話解釈および自然言語解釈を実行することにより、当該クエリの意味を決定する。そして、サーバ装置は、決定された意味に応じたデータベースにおいてクエリに対する応答を検索または生成し、および／もしくは、決定された意味に応じたＡＰＩ（Application Programming Interface）にクエリを送ることによってクエリに対する応答を取得する。サーバ装置は、得られた応答をクライアント端末に送信する。クライアント端末は、応答を出力する。すなわち、クライアント端末は、サーバ装置と通信することによって、デジタルアシスタントの一部として振る舞う。

米国特許出願公開第２００７／０２７６６５１号明細書（特許文献１）の段落［００３７］等には、モバイル端末が自然言語解釈を実行するシステムを開示している。当該システムでは、モバイル端末は、ユーザからの発話を受信すると当該発話について自然言語解釈を試みる。モバイル端末は、当該自然言語解釈に失敗すると、サーバ装置に、当該発話についての自然言語解釈の実行を要求する。

ユーザは、モバイル端末がサーバ装置と通信できない場所（たとえば、トンネルの中）でのデジタルアシスタントの利用を希望する場合がある。モバイル端末がサーバ装置と通信できない状態にある場合であっても、モバイル端末をデジタルアシスタントとして機能させることができるようにすることが必要とされている。

米国特許出願公開第２００７／０２７６６５１号明細書

本開示は、モバイルデバイスがサーバ装置にアクセスできないときにもデジタルアシスタントとして機能できるようにすることにより、従来のシステムの上記課題に対する技術的な解決手段を提供する。

本開示のある局面に従うと、コンピュータによって実行される方法であって、クライアント端末からクエリの入力を受け付けるステップと、文法を利用して、クエリの自然言語解釈を実行するステップと、自然言語解釈の実行の後、クエリへの応答を出力するステップと、クライアント端末へ文法を送信するステップと、を備える、方法が提供される。

方法は、文法をクライアント端末へ送信する前に、クライアント端末が文法を格納していないことを判断するステップをさらに備えていてもよい。クライアント端末へ文法を送信するステップは、クライアント端末が文法を格納していないことを条件として実行されてもよい。

方法は、文法をクライアント端末へ送信する前に、クライアント端末がコンピュータと通信しないオフライン状態で文法を用いた機能を実行するように構成されているかを判断するステップをさらに備えていてもよい。文法をクライアント端末へ送信するステップは、クライアント端末がオフライン状態で文法を用いた機能を実行するように構成されていると判断した場合に実行されてもよい。

文法をクライアント端末へ送信するステップは、文法とともに文法が属するドメインに属する他の文法をクライアント端末へ送信することを含んでもよい。

方法は、クライアント端末からのクエリの自然言語解釈に文法が利用された回数を計数するステップをさらに備えていてもよい。文法をクライアント端末へ送信するステップは、計数された回数が閾値を超えたことを条件として実行されてもよい。

計数することは、文法が属するドメインに属するすべての文法がクエリの自然言語解釈に利用された回数を計数することを含んでもよい。

方法は、入力されたクエリに基づいて、将来のクエリへの応答に必要なデータのタイプを予測するステップと、クライアント端末へタイプのデータを送信するステップと、をさらに備えてもよい。

タイプのデータを送信するステップは、タイプのデータの有効期限を送信することを含んでもよい。

クライアント端末からクエリの入力を受け付けるステップは、クライアント端末から音声の入力を受け付けることを含んでもよい。方法は、クライアント端末のユーザに適合するようにユーザの発話を利用して発話認識モデルを訓練するステップと、訓練された発話認識モデルをクライアント端末へ送信するステップと、をさらに備えてもよい。

本開示の他の局面に従うと、１つ以上のプロセッサを備えるサーバ装置であって、１つ以上のプロセッサによって実行されることにより、上記方法をサーバ装置に実施させるプログラムを格納する記憶装置をさらに備える、サーバ装置が提供される。

本開示のさらに他の局面に従うと、クライアント端末と、クライアント端末から入力されたクエリに対する応答をクライアント端末に送信するサーバ装置と、を備え、サーバ装置は、文法を利用して、クエリの自然言語解釈を実行する１つ以上のプロセッサを含み、１つ以上のプロセッサは、文法をクライアント端末へ送信する、情報処理システムが提供される。

本開示のさらに他の局面に従うと、コンピュータによって実行される方法であって、サーバ装置へ第１のクエリを送信するステップと、サーバ装置から第１のクエリの自然言語解釈に利用された文法を受信するステップと、受信された文法をメモリに格納するステップと、第２のクエリの入力を受け付けるステップと、コンピュータがサーバ装置と接続されていないときに、文法を利用して、第２のクエリの自然言語解釈を実行するステップと、を備える、方法が提供される。

方法は、第３のクエリの入力を受け付けるステップと、コンピュータがサーバ装置と接続されていないときに、第３のクエリの自然言語解釈を実行するステップと、第３のクエリの自然言語解釈が失敗したと判断するステップと、第３のクエリをメモリに格納するステップと、失敗に応じて、コンピュータがサーバ装置と接続されているときに、第３のクエリをサーバ装置へ送信するステップと、をさらに備えてもよい。

方法は、サーバ装置から、第１のクエリに関連するデータを受信するステップと、第１のクエリに関連するデータをメモリに格納するステップと、第１のクエリに関連するデータを利用して、第２のクエリへの応答を取得するステップとをさらに備えてもよい。

第１のクエリに関連するデータは有効期限を表すメタデータを含んでもよい。方法は、有効期限が過ぎた後に第１のクエリに関連するデータをメモリから削除するステップをさらに備えてもよい。

方法は、コンピュータの位置情報を取得するステップをさらに備えてもよい。第２のクエリの自然言語解釈を実行するステップは、位置情報に基づいて、使用される文法をメモリ内の１つ以上の文法から選択することを含んでもよい。

方法は、第２のクエリが入力された時刻を表す時刻情報を取得するステップをさらに備えてもよい。第２のクエリの自然言語解釈を実行するステップは、時刻情報に基づいて、使用される文法をメモリ内の１つ以上の文法から選択することを含んでもよい。

第２のクエリの入力を受け付けるステップは、音声の入力を受け付けることを含んでもよい。方法は、サーバ装置から、コンピュータのユーザに適合するように学習された発話認識モデルを受信するステップと、コンピュータがサーバ装置と接続されていないときに、発話認識モデルを利用して入力された音声の発話認識を実行するステップと、をさらに備えてもよい。

本開示のさらに他の局面に従うと、コンピュータによって実行される方法であって、コンピュータがサーバ装置と接続されているときに、第１のクエリの入力を受け付けるステップと、第１のクエリをサーバ装置へ送信するステップと、サーバ装置から、第１のクエリへの応答を受信するテップと、コンピュータがサーバ装置と接続されていないときに、第２のクエリの入力を受け付けるステップと、第２のクエリを、第２のクエリが入力された時刻を表す時刻情報とともにメモリに格納するステップと、コンピュータがサーバ装置と接続されているときに、メモリ内の第２のクエリを時刻情報とともにサーバ装置へ送信するステップとを備える、方法が提供される。

第２のクエリをメモリに格納することは、第２のクエリとともに第２のクエリの入力を受け付けたときのコンピュータの位置情報をメモリに格納することを含んでもよい。第２のクエリをサーバ装置へ送信することは、位置情報を第２のクエリとともにサーバ装置へ送信することを含んでもよい。

本開示のさらに他の局面に従うと、クライアント端末の１つ以上のプロセッサによって実行されることにより、クライアント端末に上記方法を実施させる、コンピュータプログラムが提供される。

本開示のさらに他の局面に従うと、１つ以上のプロセッサを備えるクライアント端末であって、１つ以上のプロセッサに実行されることによって上記方法をクライアント端末に実施させるプログラムを格納するメモリを備える、クライアント端末が提供される。

クエリ処理システムの概略的な構成を表す図である。クエリ処理システムにおけるクエリの処理の一実現例を表す図である。ユーザ端末を用いたクエリの処理のための局面の具体例を示す図である。ユーザ端末を用いたクエリの処理のための局面の具体例を示す図である。ユーザ端末を用いたクエリの処理のための局面の具体例を示す図である。ユーザ端末を用いたクエリの処理のための局面の具体例を示す図である。ユーザ端末を用いたクエリの処理のための局面の具体例を示す図である。ユーザ端末を用いたクエリの処理のための局面の具体例を示す図である。ユーザ端末を用いたクエリの処理のための局面の具体例を示す図である。サーバのハードウェア構成を表す図である。文法ライブラリのデータ構造を示す図である。ユーザ情報のデータ構造を示す図である。ユーザ端末のハードウェア構成を示す図である。場所情報のデータ構造の一例を示す図である。サーバにおいてクエリへの応答の出力のために実行される処理のフローチャートである。サーバにおいてクエリへの応答の出力のために実行される処理のフローチャートである。ユーザ端末において実行される処理のフローチャートである。ユーザ端末において実行される処理のフローチャートである。

以下に、図面を参照しつつ、情報処理システムの一実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらの説明は繰り返さない。

１．クエリ処理システムの概要
図１は、クエリ処理システムの構成を表す図である。クエリ処理システムは、サーバとユーザ端末とを含む。図１では、サーバは「サーバ１００」として示され、ユーザ端末は利用される場面に従って「ユーザ端末２００Ａ～２００Ｇ」として示される。

図２は、クエリ処理システムにおけるクエリの処理の一実現例を表す図である。図２では、ユーザ端末は、あらゆる種類のユーザ端末が「ユーザ端末２００」として示される。ユーザ端末は、クライアント端末の一例である。

図２においてステップ（１）として示されるように、ユーザ端末２００は、ユーザからのクエリＡの入力に応じて、サーバ１００へクエリＡを送信する。ユーザ端末２００は、クエリＡの入力を、音声としてマイクを介して受けてもよいし、テキストデータとしてキーボードまたはタッチパネルを介して受けてもよいし、物体またはジェスチャーを表す画像または映像としてカメラを介して受けてもよい。

ステップ（２）として示されるように、サーバ１００は、文法Ａを用いて、クエリＡの意味を解釈する。

ステップ（３）として示されるように、サーバ１００は、クエリＡの意味に基づいてクエリＡへの応答を生成し、当該応答をユーザ端末２００へ送信する。

図２のクエリ処理システムでは、ステップ（４）として示されるように、サーバ１００は、さらに、文法Ａをユーザ端末２００へ送信する。すなわち、サーバ１００は、ユーザ端末２００から受信したクエリの解釈に利用された文法を、ユーザ端末２００へ送信する。

ユーザ端末２００は、サーバ１００から受信した文法Ａを当該ユーザ端末２００のメモリに格納する。ユーザ端末２００は、オフラインの間にクエリを入力されると、当該クエリの意味を文法Ａを利用して解釈し（ステップ（１Ｘ））、当該意味に基づいてクエリへの応答を生成し（ステップ（２Ｘ））、当該応答を表示（および／または音声で出力）する（ステップ（３Ｘ））。

２．クエリへの応答の具体例
図３～図９のそれぞれは、ユーザ端末２００を用いたクエリの処理のための局面の具体例を示す図である。

２－１．図３
図３には、ユーザ端末２００の一例として、自動車内で利用されるユーザ端末２００Aが示される。ユーザ端末２００Ａは、たとえば、自動車に取り付けられた情報処理端末である。

ユーザは、ユーザ端末２００Ａに、クエリとして発話「ラジオを点けて！」を入力する。ユーザ端末２００Ａは、サーバ１００に、クエリとして発話「ラジオを点けて！」を送信する。一実現例では、ユーザは、ユーザ端末２００Ａの所与のボタンを押した後、上記クエリを入力してもよい。ユーザ端末２００Ａは、上記ボタンが操作されてから所与の時間内にクエリの入力を受け付け、入力されたクエリをサーバ１００へ送信してもよい。

サーバ１００は、自動車の要素を操作する機能のための文法を利用して、ユーザ端末２００Ａから入力されたクエリの意味を解釈し、当該意味に基づいて当該クエリへの応答を取得する。そして、サーバ１００は、ユーザ端末２００Ａから入力されたクエリへの応答として、ユーザ端末２００Ａに、ラジオをＯＮするための制御信号を送信する。これに応じて、ユーザ端末２００Ａは、当該ユーザ端末２００Ａを搭載する自動車のラジオをＯＮにする。

サーバ１００は、さらに、ユーザ端末２００Ａから入力されたクエリへの応答として、ユーザ端末２００Ａに、音声「ラジオをＯＮにします。」の出力の指示を送信してもよい。ユーザ端末２００Ａは、当該指示の受信に応じて、音声「ラジオをＯＮにします。」を出力してもよい。

２－２．図４
図４には、ユーザ端末２００の一例として、手術室内で利用されるユーザ端末２００Ｂが示される。ユーザ端末２００Ｂは、たとえば、ユーザである医師の頭部に取り付け可能な情報処理端末である。

ユーザは、ユーザ端末２００Ｂに、クエリとして発話「カルテを見せて！」を入力する。ユーザ端末２００Ｂは、サーバ１００に、クエリとして発話「カルテを見せて！」を送信する。一実現例では、ユーザは、クエリの入力のために予め定められたメッセージ（たとえば、「ＯＫ！」など）を言った後、上記クエリを入力してもよい。ユーザ端末２００Ｂは、上記メッセージの入力を起因としてクエリの入力を受け付け、入力されたクエリをサーバ１００へ送信してもよい。

サーバ１００は、手術室においてユーザに情報を提供する機能のための文法を利用して、ユーザ端末２００Ｂから入力されたクエリの意味を解釈し、当該意味に基づいて当該クエリへの応答を生成する。サーバ１００は、サーバ１００内で実行される処理のみに基づいて応答を生成してもよい。代替的にもしくは追加的に、サーバ１００は、外部のサービスプロバイダまたはウェブサイトからデータを取得することにより応答を生成してもよい。そして、サーバ１００は、ユーザ端末２００Ｂから入力されたクエリへの応答として、ユーザ端末２００Ｂに、手術室内の患者のカルテを送信する。これに応じて、ユーザ端末２００Ｂは、当該ユーザ端末２００Ｂが接続されるディスプレイに当該カルテを表示する。サーバ１００は、ディスプレイ（またはディスプレイが接続されるコンピュータ）に直接カルテを送信してもよい。

サーバ１００は、さらに、ユーザ端末２００Ｂから入力されたクエリへの応答として、ユーザ端末２００Ｂに、音声「これが、山田さん（患者名の一例）のカルテです。」の出力の指示を送信してもよい。ユーザ端末２００Ｂは、当該指示の受信に応じて、音声「これが、山田さん（患者名の一例）のカルテです。」を出力してもよい。

２－３．図５
図５には、ユーザ端末２００の一例として、オフィス内で利用されるユーザ端末２００Ｃが示される。ユーザ端末２００Ｃは、たとえばスマートフォンである。

ユーザは、ユーザ端末２００Ｃに、クエリとして発話「Ａ社をチェックして！」を入力する。ユーザ端末２００Ｃは、サーバ１００に、クエリとして発話「Ａ社をチェックして！」を送信する。

サーバ１００は、株価に関する情報を提供する機能のための文法を利用して、ユーザ端末２００Ｃから入力されたクエリの意味を解釈し、当該意味に基づいて当該クエリへの応答を生成する。そして、サーバ１００は、ユーザ端末２００Ｃから入力されたクエリへの応答として、ユーザ端末２００Ｃに、Ａ社の株価を送信する。これに応じて、ユーザ端末２００Ｃは、当該ユーザ端末２００ＣのディスプレイにＡ社の株価を表示し、および／または、当該ユーザ端末２００ＣのスピーカからＡ社の株価を音声で出力する。

２－４．図６
図６には、ユーザ端末２００の一例として、家庭内で利用されるユーザ端末２００Ｄが示される。ユーザ端末２００Ｄは、たとえば、スマートスピーカである。

ユーザは、ユーザ端末２００Ｄに、クエリとして発話「おばあちゃんに電話して！」を入力する。ユーザ端末２００Ｄは、サーバ１００に、クエリとして発話「おばあちゃんに電話して！」を送信する。

サーバ１００は、通話機能のための文法を利用して、ユーザ端末２００Ｄから入力されたクエリの意味を解釈し、当該意味に基づいて当該クエリへの応答を生成する。そして、サーバ１００は、ユーザ端末２００Ｄから入力されたクエリへの応答として、ユーザ端末２００Ｄに、ユーザ端末２００Ｄにおいて「おばあちゃん」として登録されている電話番号に電話をかける指示を送信する。これに応じて、ユーザ端末２００Ｄは、ユーザ端末２００Ｄ内の「おばあちゃん」として登録されている電話番号に電話をかける。

２－５．図７
図７には、ユーザ端末２００の一例として、キッチンで利用されるユーザ端末２００Ｅが示される。ユーザ端末２００Ｅは、たとえばスマートフォンである。

ユーザは、ユーザ端末２００Ｅに、クエリとして発話「ポトフのレシピを教えて！」を入力する。ユーザ端末２００Ｅは、サーバ１００に、クエリとして発話「ポトフのレシピを教えて！」を送信する。

サーバ１００は、調理に関する情報提供機能のための文法を利用して、ユーザ端末２００Ｅから入力されたクエリの意味を解釈し、当該意味に基づいて当該クエリへの応答を生成する。そして、サーバ１００は、ユーザ端末２００Ｅから入力されたクエリへの応答として、ユーザ端末２００Ｅに、ポトフのレシピを送信する。これに応じて、ユーザ端末２００Ｅは、当該ユーザ端末２００Ｅが接続されるディスプレイにポトフのレシピを表示する。または、サーバ１００は、上記クエリへの応答として、ユーザ端末２００Ｅに、ポトフのレシピを提供するウェブサイトのリンクのリストを送信してもよい。この場合、ユーザ端末２００Ｅは、当該リストを表示する。ユーザがリストから１つのリンクを選択したことに応じて、ユーザ端末２００Ｅは、選択されたリンクに接続する。

２－６．図８
図８には、ユーザ端末２００の一例として、テレビの前に座るユーザによって利用されるユーザ端末２００Ｆが示される。ユーザ端末２００Ｆは、たとえば、スマートフォンである。

ユーザは、ユーザ端末２００Ｆに、クエリとして発話「今夜はテレビで何があるかな？」を入力する。ユーザ端末２００Ｆは、サーバ１００に、クエリとして発話「今夜はテレビで何があるかな？」を送信する。

サーバ１００は、テレビ番組に関する情報を提供する機能のための文法を利用して、ユーザ端末２００Ｆから入力されたクエリの意味を解釈し、当該意味に基づいて当該クエリへの応答を生成する。そして、サーバ１００は、ユーザ端末２００Ｆから入力されたクエリへの応答として、ユーザ端末２００Ｆに、クエリが入力された日の夜間のテレビ番組表を送信する。これに応じて、ユーザ端末２００Ｆは、サーバ１００から送信されたテレビ番組表を表示する。

２－７．図９
図９には、ユーザ端末２００の一例として、ユーザ端末２００Ｇが示される。ユーザ端末２００Ｇは、たとえばスマートフォンである。

ユーザは、ユーザ端末２００Ｇに、クエリとして発話「今日の天気は？」を入力する。ユーザ端末２００Ｇは、サーバ１００に、クエリとして、発話「今日の天気は？」とスマートフォン（ユーザ端末２００Ｇ）の位置情報とを送信する。

サーバ１００は、天気に関する情報を提供する機能のための文法を利用して、ユーザ端末２００Ｇから入力されたクエリの意味を解釈し、当該意味に基づいて当該クエリへの応答を生成する。そして、サーバ１００は、ユーザ端末２００Ｇから入力されたクエリへの応答として、ユーザ端末２００Ｇに、ユーザ端末２００Ｇにクエリが入力された場所の、当該クエリが入力された日の天気予報を送信する。これに応じて、ユーザ端末２００Ｇは、サーバ１００から送信された天気予報を表示および／または音声で出力する。

３．ハードウェア構成（サーバ１００）
図１０は、サーバ１００のハードウェア構成を表す図である。

図１０を参照して、サーバ１００は、主要なハードウェア要素として、プロセッシングユニット１１と、メモリ１２と、入出力（Ｉ／Ｏ）インターフェース１４と、ネットワークコントローラ１５と、ストレージ１６とを含む。

プロセッシングユニット１１は、後述するような各種プログラムを実行することで、サーバ１００の実現に必要な処理を実行する演算主体である。プロセッシングユニット１１は、例えば、１または複数のＣＰＵ（Central Processing Unit）および／またはＧＰＵ（Graphics Processing Unit）である。プロセッシングユニット１１は、複数のコアを有するＣＰＵまたはＧＰＵであってもよい。プロセッシングユニット１１は、学習済モデルを生成するための学習処理に適したＮＰＵ（Neural network Processing Unit）であってもよい。

メモリ１２は、プロセッシングユニット１１がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ１２は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）などの揮発性メモリデバイスであってもよい。

プロセッシングユニット１１は、Ｉ／Ｏインターフェース１４を介して接続された機器（キーボード、マウス、等）からのデータの入力を受け付けることができ、また、Ｉ／Ｏインターフェース１４を介して、機器（ディスプレイ、スピーカ、等）にデータを出力し得る。

ネットワークコントローラ１５は、公衆回線および／またはＬＡＮ（Local Area Network）を介して、ユーザ端末２００を含む任意の情報処理装置との間でデータを送受信する。ネットワークコントローラ１５は、たとえばネットワークインターフェースカードであってもよい。サーバ１００は、クエリに対する応答を取得するために、ネットワークコントローラ１５を利用して、外部のＷｅｂＡＰＩ（Application Programming Interface）にリクエストを送信してもよい。ネットワークコントローラ１５は、例えば、イーサネット（登録商標）、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式に対応してもよい。

ストレージ１６は、たとえば、ハードディスクドライブ、または、ＳＳＤ（Solid State Drive）などの不揮発性メモリデバイスであってもよい。ストレージ１６は、プロセッシングユニット１１にて実行される、学習用プログラム１６Ａ、前処理プログラム１６Ｂ、アプリケーションプログラム１６Ｃ、および、ＯＳ（Operating System）１６Ｄを格納する。

プロセッシングユニット１１は、学習用プログラム１６Ａ、前処理プログラム１６Ｂ、アプリケーションプログラム１６Ｃ、および、ＯＳ（オペレーティングシステム）１６Ｄを実行する。実現例では、サーバ１００は異なるユーザから音声データを受信してもよく、それぞれのユーザの音声データを利用して、各ユーザについて学習済モデル１６Ｇを構築してもよい。当該学習済モデル１６Ｇは当該ユーザのユーザ端末２００にダウンロードされて、当該ユーザ端末２００がローカルで当該ユーザの発話の発話認識をできるようにされてもよい。

それに向けて、サーバ１００は、クエリの発話認識に利用される学習済モデル１６Ｇの学習のための学習用プログラム１６Ａを有していても良い。実現例では、学習用プログラム１６Ａは、ニューラルネットワークの構造を有していてもよい。前処理プログラム１６Ｂは、学習済モデル１６Ｇの学習のために各ユーザから入力された音声データを収集及び前処理することにより、各ユーザのための学習用データセット１６Ｈを生成するためのプログラムである。学習済モデル１６Ｇの学習に特定のユーザから収集された音声データのみが利用された場合、学習済モデル１６Ｇは特定のユーザについて個別に学習され得る。アプリケーションプログラム１６Ｃは、クライアント端末２００からのクエリの入力に応じて、クライアント端末２００へ、当該クエリへの応答を送信するためのプログラムである。ＯＳ１６Ｄは、サーバ１００における処理の基本となるソフトウェアプログラムである。

ストレージ１６は、さらに、文法ライブラリ１６Ｅ、ユーザ情報１６Ｆ、学習済モデル１６Ｇ、学習用データセット１６Ｈ、および、音声データ１６Ｘを格納する。

文法ライブラリ１６Ｅは、クエリの意味の解釈に利用される文法に関する情報を格納する。文法ライブラリ１６Ｅのデータ構造は、図１１を参照して後述される。

ユーザ情報１６Ｆは、クエリ処理システムにおいて登録される各ユーザに関する情報を格納する。ユーザ情報１６Ｆのデータ構造は、図１２を参照して後述される。

学習済モデル１６Ｇは、上記のように、クエリの発話認識に利用される。学習用データセット１６Ｈは、学習済モデル１６Ｇの学習に利用されるデータセットである。学習用データセット１６Ｈにおいて、各データセットは、対応する音声を発したユーザ、ユーザが発することを意図した単語またはフレーズを表す音声表記、ユーザの特性（年齢、性別、職業、など）、および／または、ユーザが対応する音声を発した状況（場所、時刻、など）にタグ付けされていてもよい。

４．文法ライブラリ１６Ｅのデータ構成
図１１は、文法ライブラリ１６Ｅのデータ構造を示す図である。

文法ライブラリ１６Ｅは、クエリの意味の解釈に利用される文法と、および、各文法に関連する情報とを格納する。

各文法に関連する情報は、文法を分類するための項目（ドメイン）を含む。図１１には、ドメインＡ～Ｇが示される。図１１のすべてのドメインは複数の文法を含むが、１つの文法のみを含むドメインがあってもよい。

ドメインＡは、文法Ａ１、Ａ２、Ａ３等を含む。文法Ａ１は、「ラジオを点けて」という単語の組み合わせ（「ラジオ」「を」「点けて」）を規定する。文法Ａ２，Ａ３のそれぞれは、「窓を閉めて」「窓を開けて」という単語の組み合わせを規定する。ドメインＡに属する文法は、自動車の要素を操作する機能を実現するために、車内で入力されたクエリの解釈に主に利用される。

ドメインＢは、文法Ｂ１等を含む。文法Ｂ１は、「カルテを見せて」という単語の組み合わせを規定する。ドメインＢに属する文法は、手術室においてユーザに情報を提供する機能を実現するために、手術室で入力されたクエリの解釈に主に利用される。

ドメインＣは、文法Ｃ１等を含む。文法Ｃ１は、会社名を表すスロット（図１１中の<name of company>）、および、「をチェックして」という単語の組み合わせを規定する。ドメインＣに属する文法は、株価に関する情報を提供する機能を実現するために、オフィスで入力されたクエリの解釈に主に利用される。

ドメインＤは、文法Ｄ１，Ｄ２等を含む。文法Ｄ１は、アドレス帳の登録された名前を表すスロット（図１１中の<name>）、および、「に電話をかけて」という単語の組み合わせを規定する。文法Ｄ２は、ミュージシャンの名前を表すスロット（図１１中の<musician>）、「の」という単語、曲のタイトルを表すスロット（図１１中の<title>）、および、「をかかけて」という単語の組み合わせを規定する。ドメインＤに属する文法は、汎用の情報提供機能および通話機能を実現するために、家またはオフィスで入力されるクエリの解釈に主に利用される。

ドメインＥは、文法Ｅ１等を含む。文法Ｅ１は、料理名を表すスロット（図１１中の<dish>）、および、「のレシピを教えて」という単語の組み合わせを規定する。ドメインＥに属する文法は、調理に関する情報提供機能を実現するために、キッチンで入力されたクエリの解釈に主に利用される。

ドメインＦは、文法Ｆ１等を含む。文法Ｆ１は、時間または日付を表すスロット（図１１中の<time>）、および、「はテレビで何があるかな」という単語の組み合わせを規定する。ドメインＦに属する文法は、テレビ番組に関する情報を提供する機能を実現するために、家のテレビの前で入力されたクエリの解釈に主に利用される。

ドメインＧは、文法Ｇ１，Ｇ２等を含む。文法Ｇ１は、「今日の天気を教えて」という単語の組み合わせを規定する。文法Ｇ２は、街の名前を表すスロット（図１１中の<city>）、および、「の今日の天気を教えて」という単語の組み合わせを規定する。ドメインＧに属する文法は、天気に関する情報を提供する機能を実現するために、天気予報を尋ねるユーザが入力したクエリの解釈に主に利用される。

文法ライブラリ１６Ｅの項目「オフライン設定」は、各ドメインに属する文法を利用する機能が、ユーザ端末２００がオフラインである間に利用され得るか否かを規定する。ユーザ端末２００がオフラインである状態の一例は、ユーザ端末２００がＷｉ－Ｆｉネットワークにつながっていないことによってサーバ１００と通信ができない状態である。値「ON」は、ユーザ端末２００がオフラインである間でも当該機能が利用され得ることを表す。値「OFF」は、ユーザ端末２００がオフラインである間は当該機能が利用され得ないことを表す。

文法ライブラリ１６Ｅの項目「予測されるデータタイプ」は、サーバ１００があるユーザ端末からクエリを受信したときに、当該ユーザ端末が将来必要とすることが予測されるデータのタイプを規定する。

たとえば、サーバ１００は、クエリ「ビートルズのイエスタディをかけて！」を入力されると、文法Ｄ２（"＜musician＞の＜title＞"）を利用して当該クエリの意味を解釈する。文法Ｄ２の項目「予測されるデータタイプ」の値は、「＜musician＞の曲のタイトルのリスト」である。

クエリ「ビートルズのイエスタディをかけて！」のうち、「ビートルズ」がスロット＜musician＞に対応し、「イエスタディ」がスロット＜title＞に対応する。一実現例では、サーバ１００は、上記のクエリ「ビートルズのイエスタディをかけて！」を入力されると、さらに、「予測されるデータタイプ」として「ビートルズの曲のタイトルのリスト」を特定してもよい。そして、サーバ１００は、関連データとして、特定されたタイプのデータ、すなわち、ビートルズの曲のタイトルのリストを取得してもよい。サーバ１００は、クエリ「ビートルズのイエスタディをかけて！」を送信してきたユーザ端末に、クエリ「ビートルズのイエスタディをかけて！」への応答に加えて、クエリ「ビートルズのイエスタディをかけて！」の関連データとして、ビートルズの曲のタイトルのリストを送信してもよい。

文法ライブラリ１６Ｅの項目「有効期限」は、関連データに付与される有効期限を規定する。有効期限は、主にユーザ端末２００で利用され、クエリがユーザ端末２００のメモリにおいて維持される期間（日数など）に関連する期間を規定する。

たとえば、図１１では、文法Ｇ１の予測されるデータ「現在地の７日間の天気予報」に対して、有効期限「７日」が規定されている。この場合、サーバ１００は、大阪に位置するユーザ端末２００から１０月１日にクエリ「今日の天気を教えて」を入力されると、当該クエリへの応答として大阪の１０月１日の天気予報を送信し、さらに、関連データとして、１０月２日から１０月８日までの７日間の大阪の天気予報を送信する。当該関連データには、「７日間」の有効期限が付与される。ユーザ端末２００は、１０月１日より後の７日後、すなわち、１０月８日まで、サーバ１００から送信された関連データを保持する。ユーザ端末２００は、ユーザ端末２００がオフラインである間、関連データを利用して、ユーザから入力されたクエリへの応答を出力し得る。有効期限を過ぎると、すなわち、１０月８日を過ぎると、ユーザ端末２００は、関連データを当該ユーザ端末２００から削除する。

文法ライブラリ１６Ｅの項目「カウント（１）」は、各文法がクエリの意味の解釈に利用された回数を表す。項目「カウント（２）」は、各ドメインに属する文法がクエリの意味の解釈に利用された回数の合計を表す。たとえば、文法Ａ１がクエリの意味の解釈に利用されると、文法Ａ１のカウント（１）の値が１カウントアップされ、さらに、ドメインＡのカウント（２）の値が１カウントアップされる。

５．ユーザ情報１６Ｆのデータ構成
図１２は、ユーザ情報１６Ｆのデータ構造を示す図である。ユーザ情報１６Ｆは、「ユーザＩＤ」と、「端末ＩＤ」と、「送信された文法」とを関連付ける。「送信された文法」は、各端末に送信された文法が属するドメインの名称を規定する。

ユーザＩＤは、各ユーザに割り振られた値を規定する。端末ＩＤは、各ユーザ端末２００に割り振られた値を表す。送信済文法は、各ユーザ端末２００に送信された文法が属するドメインを表す。

図１２の例において、端末ＩＤ「ＳＰ０１」は、ユーザＩＤ「０００１」、ならびに、ドメインＡ，Ｃに関連付けられている。このことは、ユーザＩＤ「０００１」を割り当てられたユーザが端末ＩＤ「ＳＰ０１」を割り当てられた端末を用いてサーバ１００に１つ以上のクエリを送信したこと、および、サーバ１００が端末ＩＤ「ＳＰ０１」を割り当てられた端末にドメインＡおよびドメインＣに属する文法を送信したことを意味する。

一実現例では、サーバ１００は、各ユーザ端末２００に、ドメインの一部の文法のみを送信してもよい。この場合、ユーザ情報１６Ｆは、「送信済文法」の値として、各ユーザ端末２００に送信された文法（文法Ａ１、など）を規定してもよい。

６．ハードウェア構成（ユーザ端末２００）
図１３は、ユーザ端末２００のハードウェア構成を示す図である。

図１３を参照して、ユーザ端末２００は、主要なハードウェア要素として、ＣＰＵ２０１と、ディスプレイ２０２と、マイクロフォン２０３と、スピーカ２０４と、ＧＰＳ（Global Positioning System）受信器２０５と、通信インターフェース（Ｉ／Ｆ）２０６と、ストレージ２０７と、メモリ２１０とを含む。

ＣＰＵ２０１は、各種プログラムを実行することで、ユーザ端末２００の実現に必要な処理を実行する演算主体である。

ディスプレイ２０２は、たとえば液晶ディスプレイデバイスであってもよい。ＣＰＵ２０１は、処理の実行結果をディスプレイ２０２に表示してもよい。

マイクロフォン２０３は、音声の入力を受け付け、受け付けられた音声に対応する信号をＣＰＵ２０１によるアクセスのためにストレージ２０７へ出力する。スピーカ２０４は、音声を出力する。ＣＰＵ２０１は、処理の実行結果を音声としてスピーカ２０４から出力してもよい。

ＧＰＳ受信器２０５は、ＧＰＳ衛星からの信号を受信して、ＣＰＵ２０１によるアクセスのためにストレージ２０７へ当該信号を出力する。ＣＰＵ２０１は、ＧＰＳ受信器２０５からの信号に基づいて、ユーザ端末２００の現在位置を特定してもよい。

通信Ｉ／Ｆ２０６は、公衆回線および／またはＬＡＮを介して、サーバ１００を含む任意の情報処理装置との間でデータを送受信する。通信Ｉ／Ｆ２０６は、たとえばモバイルネットワークインターフェースであってもよい。

ストレージ２０７は、たとえば、ハードディスクドライブまたはＳＳＤ（Solid State Drive）などの不揮発性メモリデバイスであってもよい。ストレージ２０７は、アプリケーションプログラム２０７１を格納する。ストレージ２０７は、文法領域２０７２、関連データ領域２０７３、失敗データ領域２０７４、場所情報２０７５、および、学習済モデル２０７６を含む。

アプリケーションプログラム２０７１は、ユーザからのクエリの入力を受け付け、当該クエリへの応答を出力するためのプログラムである。アプリケーションプログラム２０７１は、たとえば、カーナビゲーションプログラムまたはアシスタントプログラムであってもよい。

文法領域２０７２は、サーバ１００から送信された文法を格納するための領域である。関連データ領域２０７３は、サーバ１００から送信された関連データを格納するための領域である。失敗データ領域２０７４は、ユーザ端末２００においてクエリの意味の解釈が実行された場合であって、解釈が失敗した場合に、対象となったクエリを格納するための領域である。

場所情報２０７５は、ユーザ端末２００の場所を表し、クエリの意味の解釈に利用される文法の種類を選択するために利用され得る情報とを格納するための領域である。場所情報２０７５のデータ構造は、図１４を参照して後述される。学習済モデル１６Ｇは、サーバ１００から送信されて、ストレージ２０７に学習済モデル２０７６として格納される。

７．場所情報２０７５のデータ構造
図１４は、場所情報２０７５のデータ構造の一例を示す図である。場所情報２０７５は、場所「自宅」と文法「ドメインＤ，Ｅ，Ｆ，Ｇ」とを関連付け、場所「オフィス」と文法「ドメインＣ」とを関連付けている。

ユーザ端末２００は、図１４に示された情報に基づいて、オフライン時のクエリの意味の解釈において利用する文法を決定してもよい。たとえば、ユーザ端末２００は当該ユーザ端末２００の場所に応じて異なる文法を利用してもよい。

ユーザ端末２００は、クエリの入力に応じて、当該ユーザ端末２００自身の位置を特定してもよい。一例では、ユーザ端末２００の位置は、ＧＰＳ受信器２０５によって受信されたＧＰＳデータに基づいて特定され得る。他の例では、ユーザ端末２００の位置は、ユーザ端末２００が受信したビーコン信号の種類に基づいて特定され得る。他の例では、ユーザ端末２００の位置は、ＩＰアドレスまたは携帯電話基地局ＩＤ等のネットワーク情報に基づいて特定され得る。

一実現例では、特定された位置が「自宅」として予め登録された場所にあれば、ユーザ端末２００は、ドメインＤ，Ｅ，Ｆ，Ｇに属する文法を利用してクエリの解釈を試み、他のドメインに属する文法を利用してクエリの解釈を試みなくてもよい。特定された位置が「オフィス」として予め登録された場所にあれば、ユーザ端末２００は、ドメインＣに属する文法を利用してクエリの解釈を試み、他のドメインに属する文法を利用してクエリの解釈を試みなくてもよい。

８．サーバ１００における処理
図１５および図１６は、サーバ１００においてクエリへの応答の出力のために実行される処理のフローチャートである。一実現例では、図１５および図１６の処理は、プロセッシングユニット１１がアプリケーションプログラム１６Ｃを実行することによって実現される。一実現例では、サーバ１００は、ユーザ端末２００からクエリの送信を宣言するデータを受信したことを起因として図１５および図１６の処理を開始する。

まず図１５を参照して、ステップＳ１００にて、サーバ１００は、ユーザ端末２００からクエリを受信する。

ステップＳ１０２にて、サーバ１００は、ユーザ端末２００から送信されたクエリに対して発話認識を実行することにより、クエリのトランスクリプションを生成する。ユーザ端末２００からクエリが音声以外の形式で送信された場合には、ステップＳ１０２は省略され得る。ユーザはユーザ端末２００にテキスト形式でクエリを入力することができる。ユーザ端末２００はサーバ１００にテキスト形式でクエリを送信することができる。ユーザ端末２００から送信されたクエリがテキスト形式であれば、サーバ１００はステップＳ１０２を省略してもよい。

ステップＳ１０４にて、サーバ１００は、ステップＳ１０２にて生成されたトランスクリプション（またはユーザ端末２００から送信されたテキストデータ）に対して自然言語解釈を実施する。これにより、クエリの意味の解釈が実施される。

サーバ１００は、ステップＳ１０４において、複数の文法の中からクエリの意味の解釈に利用可能な文法を選択し、選択された１つの文法を用いてクエリの意味を解釈してもよい。

一実現例では、ユーザの１回のスピーチが複数のトランスクリプションを含むことが想定される場合に、当該複数のトランスクリプションのためのステップＳ１０２およびステップＳ１０４のそれぞれのステップは結合され得る。

ステップＳ１０６にて、サーバ１００は、ステップＳ１０４においてクエリの意味の解釈に利用された文法について文法ライブラリ１６Ｅのカウントを加算する。より具体的には、サーバ１００は、利用された文法についてカウント（１）を１加算更新し、利用された文法が属するカウント（２）を１加算更新する。

ステップＳ１０８にて、サーバ１００は、ステップＳ１０４における解釈に基づいて、クエリへの応答を生成する。

一例では、サーバ１００は、クエリ「ラジオをつけて」への応答として、自動車に搭載されたラジオをＯＮする指示を取得する。他の例では、サーバ１００は、クエリ「Ａ社をチェックして」への応答を取得するために、株価を提供するＡＰＩに対してクエリの少なくとも一部（Ａ社）を送信することによりＡ社の株価を問合せてもよい。サーバ１００は、当該問合せへの回答としてＡＰＩから取得したＡ社の株価を、クエリ「Ａ社をチェックして」への回答として取得する。

さらに他の例では、サーバ１００は、クエリ「ビートルズのイエスタディをかけて」への応答として、ビートルズのイエスタディの音声ファイルを検索する指示と当該音声ファイルを再生する指示とを取得する。

ステップＳ１１０にて、サーバ１００は、ステップＳ１０８にて取得された応答をユーザ端末２００へ送信する。

ステップＳ１１２にて、サーバ１００は、ステップＳ１０４において利用された文法が、ユーザ端末２００において格納されているか否かを判断する。一実現例では、サーバ１００は、ユーザ情報１６Ｆ（図１２）において、ステップＳ１００において送信されたクエリの送信元であるユーザ端末２００の送信済文法を参照する。より具体的には、サーバ１００は、送信済文法として格納されたドメインに属する文法が、ステップＳ１０４にて利用された文法を含む場合には、サーバ１００は、当該文法がユーザ端末２００に格納されていると判断する。

サーバ１００は、ステップＳ１０４において利用された文法がユーザ端末２００において格納されていると判断すると（ステップＳ１１２にてＹＥＳ）、ステップＳ１２０（図１６）へ制御を進め、そうでなければ（ステップＳ１１２にてＮＯ）、ステップＳ１１４へ制御を進める。

ステップＳ１１２を含まない実現例があってもよい。このような実現例では、ステップＳ１１０からステップＳ１１４へ直接進められても良い。このような実現例では、ユーザ端末２００は同一の文法を複数回受信すると、同一の文法のコピーを無視（または削除）する。このような実現例は、ネットワークトラフィックの増加により通信帯域をより多く利用することになるが、ユーザ端末においてどの文法が格納されているかという情報をサーバにおいて正確に管理する煩雑さは回避し得る。

ステップＳ１１４にて、サーバ１００は、ステップＳ１０４において利用された文法の「オンライン設定」の値が、文法ライブラリ１６ＥにおいてＯＮと設定あれているか否かを判断する。サーバ１００は、ステップＳ１０４において利用された文法の「オンライン設定」の値がＯＮであれば（ステップＳ１１４にてＹＥＳ）、ステップＳ１１６へ制御を進め、そうでなければ（ステップＳ１１４にてＮＯ）、ステップＳ１２０（図１６）へ制御を進める。

実現例では、ユーザ端末２００は、あるクエリに対して所与の回数利用された文法のみを受信する要求に構成されていてもよい。この場合、あまり利用されない文法のダウンロードが回避され得る。このような実現例に応じて、ステップＳ１１６にて、サーバ１００は、ステップＳ１０４において利用された文法に関連するカウント値が所与の閾値を超えているか否かを判断する。ステップＳ１１６における「カウント値」は、文法ライブラリ１６Ｅにおけるカウント（１）の値、カウント（２）の値、または、カウント（１）とカウント（２）の双方の値であってもよい。サーバ１００は、カウント値が所与の閾値を超えていると判断すると（ステップＳ１１６にてＹＥＳ）、ステップＳ１１８へ制御を進め、そうでなければ（ステップＳ１１６にてＮＯ）、ステップＳ１２０（図１６）へ制御を進める。

ステップＳ１１８にて、サーバ１００は、ステップＳ１０４において利用された文法をユーザ端末２００へ送信する。ステップＳ１１８において、サーバ１００は、さらに、ステップＳ１０４において利用された文法と同じドメインに属する他の文法をユーザ端末２００へ送信してもよい。その後、ステップＳ１２０（図１６）へ制御を進める。

図１６を参照して、ステップＳ１２０にて、サーバ１００は、ステップＳ１１４と同様に、テップＳ１０４において利用された文法の「オンライン設定」の値が、文法ライブラリ１６ＥにおいてＯＮと設定されているか否かを判断する。サーバ１００は、「オンライン設定」の値がＯＮであれば（ステップＳ１２０にてＹＥＳ）、ステップＳ１２２へ制御を進め、そうでなければ（ステップＳ１２０にてＮＯ）、処理を終了させる。

ステップＳ１２２にて、サーバ１００は、文法ライブラリ１６Ｅにおいて、ステップＳ１０４において利用された文法に対応する「予測されるデータタイプ」を特定する。

ステップＳ１０４において文法Ｄ２が利用されれば、サーバ１００は、「予測されるデータタイプ」として、クエリに含まれたミュージシャンの曲のタイトルリストを特定する。より具体的には、クエリ「ビートルズのイエスタディをかけて」の意味が文法Ｄ２を利用して解釈された場合、サーバ１００は、「予測されるデータタイプ」として、「ビートルズの曲のタイトルリスト」を特定する。

ステップＳ１０４において文法Ｇ２が利用されれば、サーバ１００は、「予測されるデータタイプ」として、クエリに含まれた都市の７日間の天気予報を特定する。より具体的には、クエリ「大阪の天気を教えて」の意味が文法Ｇ２を利用して解釈された場合、サーバ１００は、「予測されるデータタイプ」として、「クエリを入力された日の翌日から７日分の大阪の天気予報」を特定する。

ステップＳ１２４にて、サーバ１００は、関連データとして、ステップＳ１２２にて特定されたタイプのデータを取得する。たとえば、「予測されるデータタイプ」として「ビートルズの曲のタイトルリスト」が特定された場合、サーバ１００は、当該タイトルリストのデータを取得する。「予測されるデータタイプ」として「クエリを入力された日の翌日から７日分の大阪の天気予報」が特定された場合、サーバ１００は、天気予報ＡＰＩに大阪の当該７日分の天気予報を要求し、当該要求に応じて得られた天気予報のデータを取得する。

ステップＳ１２６にて、サーバ１００は、ステップＳ１２４において取得された関連データをユーザ端末２００へ送信する。

ステップＳ１２８にて、サーバ１００は、ユーザ端末２００のユーザに対応する学習済モデル１６Ｇをユーザ端末２００へ送信する。一実現例では、サーバ１００は、ユーザ情報１６Ｆ（図１２）を参照することにより、通信相手であるユーザ端末２００に関連付けられたユーザＩＤを特定し、特定されたユーザに対応してストレージ１６において格納されている学習済モデル１６Ｇをユーザ端末２００へ送信する。その後、サーバ１００は処理を終了させる。

以上、図１５および図１６を参照して説明された処理によれば、サーバ１００は、ユーザ端末２００から送信されたクエリの自然言語解釈に利用された文法を、ユーザ端末２００へ送信する。

ステップＳ１１２に関連して説明されたように、サーバ１００は、上記文法がユーザ端末２００に格納されていないことを条件として、ユーザ端末２００へ文法を送信してもよい。ステップＳ１１４に関連して説明されたように、サーバ１００は、ユーザ端末２００が上記文法を用いた機能をオフライン状態で実行するように構成されていることを条件として（オフライン設定の値がＯＮ）、ユーザ端末２００へ上記文法を送信してもよい。ステップＳ１１６に関連して説明されたように、サーバ１００は、ステップＳ１０４において利用された文法の利用回数（カウント（１））、または、当該文法と同じドメインに属する文法の利用回数（カウント（２））が所与の閾値を超えたことを条件として、ユーザ端末２００へ上記文法を送信してもよい。

ステップＳ１２２～Ｓ１２６に関連して説明されたように、サーバ１００は、サーバ１００は、入力されたクエリに基づいて将来のクエリへの応答に必要なデータのタイプ（予測されるデータタイプ）を予測し、予測されたタイプのデータ（関連データ）をユーザ端末２００へ送信してもよい。

サーバ１００は、ステップＳ１２６において、さらに、関連データの有効期限を送信してもよい。有効期限は、図１１において示されるように、「予測されるデータタイプ」ごとに特定され得る。有効期限は、関連データのメタデータとして送信されてもよい。

サーバ１００は、学習済モデル１６Ｇの訓練のための処理を実行してもよい。訓練は、ユーザごとに実行されてもよい。ステップＳ１２８に関連して説明されたように、サーバ１００は、ユーザ端末２００に、ユーザ端末２００のユーザの学習済モデル１６Ｇを送信してもよい。

一実現例では、サーバ１００における学習済モデル１６Ｇの学習には、１人以上のユーザの発話の音声データと各音声データに対応するテキストデータとが学習用データセット１６Ｈとして利用され得る。教師データは、さらに、上記１人以上のユーザのそれぞれに関する情報（たとえば、各ユーザのユーザ端末に格納されている「連絡先」ファイルの中の名前）を含んでも良い。訓練には、たとえば、参考文献１（"Robust i-vector based Adaptation of DNN Acoustic Model for Speech Recognition", <URL: http://www1.icsi.berkeley.edu/~sparta/2015_ivector_paper.pdf >）、参考文献２（"PERSONALIZED SPEECH RECOGNITION ON MOBILE DEVICES", <URL: https://arxiv.org/pdf/1603.03185.pdf>）、参考文献３（"Speech Recognition Based on Unified Model of Acoustic and Language Aspects of Speech", <URL: https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201312fa4.pdf&mode=show_pdf>）、および、参考文献４（音声と言語の一体型学習に基づく音声認識技術, <URL: https://www.ntt.co.jp/journal/1309/files/jn201309022.pdf>）に記載の技術が利用され得る。

９．ユーザ端末２００における処理
図１７および図１８は、ユーザ端末２００において実行される処理のフローチャートである。一実現例では、ユーザ端末２００のＣＰＵ２０１が所与のプログラムを実行することによって、図１７および図１８の処理が実現される。図１７および図１８の処理は、たとえば一定時間ごとに開始される。

図１７を参照して、ステップＳ２００にて、ユーザ端末２００は、関連データ領域２０７３に格納された関連データの中で、有効期限を過ぎた関連データを削除する。

ステップＳ２０２にて、ユーザ端末２００は、当該ユーザ端末２００がオンラインであるか（サーバ１００と通信可能であるか）否かを判断する。ユーザ端末２００は、当該ユーザ端末２００がオンラインであると判断すると（ステップＳ２０２にてＹＥＳ）、ステップＳ２０４へ制御を進め、そうでなければ（ステップＳ２０２にてＮＯ）、ステップＳ２２６（図１８）へ制御を進める。

ステップＳ２０４にて、ユーザ端末２００は、失敗データ領域２０７４（後述のステップＳ２４２参照）に格納されたクエリをサーバ１００へ送信する。クエリが時刻情報および／または位置情報と関連付けられている場合、ステップＳ２０４では時刻情報および／または位置情報もサーバ１００へ送信されてもよい。クエリの送信後、ユーザ端末２００は、送信されたクエリを失敗データ領域２０７４から削除してもよい。

ステップＳ２０６にて、ユーザ端末２００は、クエリを取得する。一例では、クエリはマイクロフォン２０３を介して音声で入力される。他の例では、クエリはユーザ端末２００のタッチセンサ（図示略）に対する操作によってテキストデータで入力される。

ステップＳ２０８にて、ユーザ端末２００は、ステップＳ２０６において取得されたクエリをサーバ１００へ送信する。送信されたクエリは、ステップＳ１００（図１５）においてサーバ１００によって受信され得る。

ステップＳ２１０にて、ユーザ端末２００は、サーバ１００から、クエリへの応答を受信する。応答は、ステップＳ１１０（図１５）においてサーバ１００から送信され得る。

ステップＳ２１２にて、ユーザ端末２００は、サーバ１００から送信された応答を出力する。応答の出力の一例は、応答に含まれる指示に従った動作である。たとえば、応答が「ラジオをＯＮする指示」を含む場合、ユーザ端末２００は、当該ユーザ端末２００が搭載されている自動車に搭載されているラジオをＯＮする。

ステップＳ２１４にて、ユーザ端末２００は、サーバ１００から送信された文法を受信する。文法は、ステップＳ１１８（図１５）においてサーバ１００から送信され得る。

ステップＳ２１６にて、ユーザ端末２００は、ステップＳ２１４において受信した文法を文法領域２０７２に格納する。

ステップＳ２１８にて、ユーザ端末２００は、関連データを受信する。関連データは、ステップＳ１２６（図１６）においてサーバ１００から送信され得る。

ステップＳ２２０にて、ユーザ端末２００は、ステップＳ２１８において受信した関連データを関連データ領域２０７３に格納する。

ステップＳ２２２にて、ユーザ端末２００は、学習済モデル１６Ｇを受信する。学習済モデル１６Ｇは、ステップＳ１２８（図１６）においてサーバ１００から送信され得る。

ステップＳ２２４にて、ユーザ端末２００は、ステップＳ２２２において受信した学習済モデル１６Ｇをストレージ２０７に学習済モデル２０７６として格納する。その後、ユーザ端末２００は処理を終了させる。

ステップＳ２０８においてサーバ１００へ送信されたクエリは、ステップＳ２１４の文法、ステップＳ２１８の関連データ、および、ステップＳ２２２の学習済モデルの中の少なくとも１つの影響を及ぼしても良いし、及ぼさなくてもよい。

本件の技術の局面に従えば、ステップＳ２０２においてユーザ端末２００がオフライン（サーバ１００との接続がない）であるか否かが決定されるとき、ユーザ端末２００は発話を解析してクエリを生成するために発話認識を利用する。個人に最適化された学習済モデル２０７６（サーバ１００で生成され、ユーザ端末２００にダウンロードされる）は、この目的において利用され得る。クエリが認識されると、本件技術は、クエリの自然言語的な意味を解釈するために、ダウンロードされてローカルで格納された、１つ以上の文法を利用してもよい。本件技術は、ローカルに格納されている文法かサーバ１００に格納されている文法のいずれを使用するかの選択において、以下に説明されるようなあらゆる所与の基準を適用してもよい。

図１８を参照して、ステップＳ２２６にて、ユーザ端末２００は、ステップＳ２０６と同様にクエリを取得する。

ステップＳ２２８にて、ユーザ端末２００は、クエリを取得したときの時刻情報を取得する。取得された時刻情報は、ステップＳ２２６において取得されたクエリに関連付けられてストレージ２０７に格納されてもよい。

ステップＳ２３０にて、ユーザ端末２００は、クエリを取得したときのユーザ端末２００の位置情報を取得する。取得された位置情報は、ステップＳ２２６において取得されたクエリに関連付けられてストレージ２０７に格納されてもよい。

ステップＳ２３１にて、ユーザ端末２００は、想定される１以上のユーザから、ユーザ端末２００を使用していると１人のユーザを特定する。実現例では、１人のユーザの特定は、ログインアカウントのプロファイルを読み出すことによって行なわれても良い。実現例では、１人のユーザの特定は、音によるクエリの音声に関する音声のフィンガープリントアルゴリズムを利用することによって行なわれても良い。ユーザの特定に基づいて、ユーザ端末２００は、個人に最適化された学習済モデル２０７６として、１以上のモデルから１つの学習済モデルを選択する。

ステップＳ２３２にて、ユーザ端末２００は、ステップＳ２２６において取得されたクエリの発話認識を実行する。発話認識において、ユーザ端末２００は、学習済モデル２０７６を利用してもよい。ステップＳ２３２の制御は、クエリが音声で入力されたことを条件として実施されてもよい。クエリがテキストデータとして入力された場合には、ステップＳ２３２の制御は省略されてもよい。

ステップＳ２３４にて、ユーザ端末２００は、ステップＳ２２６において取得されたクエリについて自然言語解釈を実施する。これにより、当該クエリの意味が解釈される。自然言語解釈において、ユーザ端末２００は、文法領域２０７２に格納された文法を利用してもよい。文法領域２０７２において格納された文法は、ステップＳ２０６において取得されたクエリの意味の解釈に利用された文法を含む。すなわち、ユーザ端末２００は、ステップＳ２０６において取得されたクエリ（第１のクエリ）の意味の解釈に利用された文法を、ステップＳ２２６において取得されたクエリ（第２のクエリ）の意味の解釈に利用することができる。

自然言語解釈に利用される文法は、ユーザ端末２００がクエリを取得した状況に従って選択されてもよい。状況の違いによって使用される文法がどのように異なるかが以下に説明される。状況に応じて利用可能な文法を制限することによって、クエリの自然言語解釈に誤った文法が利用されることがより確実に回避され得る。すなわち、クエリの意味の解釈の精度が向上され得る。

一例では、ユーザ端末２００は、場所情報２０７５（図１４）を参照して、クエリが取得されたときに取得された位置情報に従って、自然言語解釈に利用され得る文法の範囲を選択してもよい。図１４の例では、クエリを取得されたときの位置情報が「自宅」として登録されている場所に含まれる場合、自然言語解釈に利用される文法は、ドメインＤ，Ｅ，Ｆ，およびＧの中から選択される。クエリを取得されたときの位置情報が「オフィス」として登録されている場所に含まれる場合、自然言語解釈に利用される文法は、ドメインＣから選択される。

他の例では、ユーザ端末２００は、クエリが取得されたときに取得された時刻情報に従って、自然言語解釈に利用され得る文法の範囲を選択してもよい。より具体的には、時刻情報がユーザの就業時間として登録されている時間帯に含まれる場合、自然言語解釈に利用される文法は、ドメインＣから選択される。時刻情報がユーザの就業時間として登録されている時間帯に含まれない場合、自然言語解釈に利用される文法は、ドメインＤ，Ｅ，Ｆ，およびＧの中から選択される。

さらに他の例では、ユーザ端末２００は、クエリが取得されたときに取得された位置情報と時刻情報との組合せに従って、自然言語解釈に利用され得る文法の範囲を選択してもよい。より具体的には、クエリを取得されたときの位置情報が「自宅」として登録されている場所に含まれる場合、時刻情報がユーザの調理時間として登録されている時間帯に含まれるときには、自然言語解釈に利用される文法はドメインＥから選択され、当該時間帯に含まれないときには、自然言語解釈に利用される文法はドメインＤ，Ｆ，およびＧから選択される。

ある実現例では、位置情報および／または時間情報は文法の範囲の選択のための厳密な条件である代わりに、あるテキストデータまたは発話のトランスクリプションの解釈のために正しい文法であると仮定された１つ以上の文法に重みを付しても良い。一例では、アプリケーションプログラム１６Ｃは、各文法について、上記テキストデータまたは発話のトランスクリプションへの適用のための確率を出力する。アプリケーションプログラム１６Ｃは、出力された確率と上述の重みの和が最も大きい文法を、上記テキストデータまたは発話のトランスクリプションの解釈に利用する文法として選択する。

ステップＳ２３６にて、ユーザ端末２００は、ステップＳ２３４における自然言語解釈が成功したか否かを判断する。クエリが文法領域２０７２に格納されている１以上の文法のいずれかによって解釈された場合、ユーザ端末２００は自然言語解釈が成功したと判断する。クエリが文法領域２０７２に格納されている１以上の文法のいずれかによっても解釈されなかった場合、ユーザ端末２００は自然言語解釈が失敗したと判断する。

ステップＳ２３４における自然言語解釈が成功したと判断すると（ステップＳ２３６にてＹＥＳ）、ユーザ端末２００はステップＳ２３８へ制御を進める。ステップＳ２３４における自然言語解釈が失敗したと判断すると（ステップＳ２３６にてＮＯ）、ユーザ端末２００はステップＳ２４２へ制御を進める。

ステップＳ２３８にて、ユーザ端末２００は、ステップＳ２３４における解釈に基づいて、ステップＳ２２６において取得されたクエリへの応答を取得する。ユーザ端末２００は、関連データ領域２０７３内の関連データからクエリへの応答を取得してもよい。

一例では、ステップＳステップＳ２０６においてクエリ「ビートルズのイエスタディをかけて」が取得されると、ユーザ端末２００は、ステップＳ２２０において、関連データとしてビートルズの曲のタイトルのリストを関連データ領域２０７３に格納する。その後、ステップＳ２２６にて、クエリ「ビートルズの曲のリストを教えて」を取得すると、ユーザ端末２００は、当該クエリへの応答として、関連データ領域２０７３に格納されたビートルズの曲のリストを取得する。

ステップＳ２４０にて、ユーザ端末２００は、ステップＳ２３８において取得された応答を出力する。その後、ユーザ端末２００は処理を終了させる。

ステップＳ２４２にて、ユーザ端末２００は、ステップＳ２２６において取得されたクエリを失敗データ領域２０７４に格納する。失敗データ領域２０７４に格納されたクエリは、ステップＳ２０４においてサーバ１００へ送信される。その後、ユーザ端末２００は処理を終了させる。

図１７および図１８を参照して説明された処理では、ユーザ端末２００がオフライン状態にあるときに自然言語解釈に失敗したクエリがサーバ１００へ送信される。ユーザ端末２００がオフライン状態にあるときに自然言語解釈に成功したクエリもサーバ１００へ送信されてもよい。これにより、サーバ１００は、オフライン状態にあるときにユーザ端末２００に入力されたクエリを取得し得る。サーバ１００は、これらのクエリの意味の解釈に利用される文法を特定してもよい。サーバ１００は、特定された文法に関するカウント（１）およびカウント（２）を加算更新してもよい。これにより、カウント（１）およびカウント（２）の値に、オフライン時にユーザ端末２００に入力されたクエリに関する情報も反映され得る。

開示された特徴はコンピュータによって実行される方法、システム、コンピュータソフトウェア（プログラム）、および／または、当該方法を実施するための命令を格納した非一時的にデータを記録するコンピュータ可読記録媒体として要約され得る。たとえば、本開示の１つの局面に従うと、非一時的にデータを記録するコンピュータ可読記録媒体は、クライアント端末からクエリの入力を受信すること、文法を利用して当該クエリの自然言語解釈を実行すること、当該自然言語解釈の実行の後にクエリへの応答を出力すること、および、当該クライアント端末に当該文法を送信することを含む方法を実行するための命令を格納する。

今回開示された各実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。また、実施の形態および各変形例において説明された発明は、可能な限り、単独でも、組合わせても、実施することが意図される。

１００サーバ、２００，２００Ａ～２００Ｇユーザ端末、１５００推定モデル。

Claims

コンピュータによって実行される方法であって、
クライアント端末からクエリの入力を受け付けるステップと、
文法を利用して、前記クエリの自然言語解釈を実行するステップと、
自然言語解釈の前記実行の後、前記クエリへの応答を出力するステップと、
前記クライアント端末へ前記文法を送信するステップと、
入力された前記クエリに基づいて、将来のクエリへの応答に必要なデータのタイプを予測するステップと、
前記クライアント端末へ前記タイプのデータを送信するステップと、を備え、
前記タイプの前記データを送信するステップは、前記タイプの前記データの有効期限を送信することを含み、
前記有効期限は、前記タイプの前記データが含む期間を規定する、方法。
前記文法を前記クライアント端末へ送信する前に、前記クライアント端末が前記文法を格納していないことを判断するステップをさらに備え、
前記クライアント端末へ前記文法を送信するステップは、前記クライアント端末が前記文法を格納していないことを条件として実行される、請求項１に記載の方法。
前記文法を前記クライアント端末へ送信する前に、前記クライアント端末が前記コンピュータと通信しないオフライン状態で前記文法を用いた機能を実行するように構成されているかを判断するステップをさらに備え、
前記文法を前記クライアント端末へ送信するステップは、前記クライアント端末が前記オフライン状態で前記文法を用いた前記機能を実行するように構成されていると判断した場合に実行される、請求項１または請求項２に記載の方法。
前記クライアント端末からのクエリの自然言語解釈に前記文法が利用された回数を計数するステップをさらに備え、
前記文法を前記クライアント端末へ送信するステップは、計数された前記回数が閾値を超えたことを条件として実行される、請求項１～請求項３のいずれか１項に記載の方法。
前記計数することは、前記文法が属するドメインに属するすべての文法がクエリの自然言語解釈に利用された回数を計数することを含む、請求項４に記載の方法。
クライアント端末からクエリの入力を受け付けるステップは、前記クライアント端末から音声の入力を受け付けることを含み、
前記クライアント端末のユーザに適合するように前記ユーザの発話を利用して発話認識モデルを訓練するステップと、
訓練された前記発話認識モデルを前記クライアント端末へ送信するステップと、をさらに備える、請求項１～請求項５のいずれか１項に記載の方法。
１つ以上のプロセッサを備えるサーバ装置であって、
前記１つ以上のプロセッサによって実行されることにより、請求項１～請求項６のいずれか１項に記載の方法を前記サーバ装置に実施させるプログラムを格納する記憶装置をさらに備える、サーバ装置。
クライアント端末と、
前記クライアント端末から入力されたクエリに対する応答を前記クライアント端末に送信するサーバ装置と、を備え、
前記サーバ装置は、文法を利用して、前記クエリの自然言語解釈を実行する１つ以上のプロセッサを含み、
前記１つ以上のプロセッサは、
前記文法を前記クライアント端末へ送信し、
コンピュータによって実行される方法であって、
前記クエリに基づいて、将来のクエリへの応答に必要なデータのタイプを予測し、
前記タイプのデータと、前記タイプのデータの有効期限とを前記クライアント端末へ送信し、
前記有効期限は、前記タイプの前記データが含む期間を規定する、情報処理システム。
コンピュータによって実行される方法であって、
サーバ装置へ第１のクエリを送信するステップと、
前記サーバ装置から前記第１のクエリの自然言語解釈に利用された文法を受信するステップと、
受信された前記文法をメモリに格納するステップと、
第２のクエリの入力を受け付けるステップと、
前記コンピュータが前記サーバ装置と接続されていないときに、前記文法を利用して、前記第２のクエリの自然言語解釈を実行するステップと、
前記サーバ装置から、前記第１のクエリに関連するデータを受信するステップと、
前記第１のクエリに関連する前記データを前記メモリに格納するステップと、
前記第１のクエリに関連する前記データを利用して、前記第２のクエリへの応答を取得するステップと、
前記第１のクエリに関連する前記データは有効期限を表すメタデータを含み、
前記有効期限は、前記第１のクエリに関連する前記データが含む期間を規定し、
前記方法は、前記有効期限が過ぎた後に前記第１のクエリに関連する前記データを前記メモリから削除するステップをさらに備える、方法。
第３のクエリの入力を受け付けるステップと、
前記コンピュータが前記サーバ装置と接続されていないときに、前記第３のクエリの自然言語解釈を実行するステップと、
前記第３のクエリの自然言語解釈が失敗したと判断するステップと、
前記第３のクエリを前記メモリに格納するステップと、
前記失敗に応じて、前記コンピュータが前記サーバ装置と接続されているときに、前記第３のクエリを前記サーバ装置へ送信するステップと、をさらに備える請求項９に記載の方法。
前記コンピュータの位置情報を取得するステップをさらに備え、
前記第２のクエリの自然言語解釈を実行するステップは、前記位置情報に基づいて、使用される文法を前記メモリ内の１つ以上の文法から選択することを含む、請求項９または請求項１０に記載の方法。
前記第２のクエリが入力された時刻を表す時刻情報を取得するステップをさらに備え、
前記第２のクエリの自然言語解釈を実行するステップは、前記時刻情報に基づいて、使用される文法を前記メモリ内の１つ以上の文法から選択することを含む、請求項９～請求項１１のいずれか１項に記載の方法。
前記第２のクエリの入力を受け付けるステップは、音声の入力を受け付けることを含み、
前記サーバ装置から、前記コンピュータのユーザに適合するように学習された発話認識モデルを受信するステップと、
前記コンピュータが前記サーバ装置と接続されていないときに、前記発話認識モデルを利用して入力された前記音声の発話認識を実行するステップと、をさらに備える、請求項９～請求項１２のいずれか１項に記載の方法。
前記第３のクエリを前記メモリに格納するステップは、前記第３のクエリを当該第３のクエリが入力された時刻を表す時刻情報ととも前記メモリに格納することを含み、
前記コンピュータが前記サーバ装置と接続されているときに、前記メモリ内の第３のクエリを前記時刻情報とともに前記サーバ装置へ送信するステップをさらに備える、請求項１０に記載の方法。
前記第３のクエリを前記メモリに格納することは、前記第３のクエリとともに前記第３のクエリの入力を受け付けたときの前記コンピュータの位置情報を前記メモリに格納することを含み、
前記第３のクエリを前記サーバ装置へ送信することは、前記位置情報を前記第３のクエリとともに前記サーバ装置へ送信することを含む、請求項１４に記載の方法。
クライアント端末の１つ以上のプロセッサによって実行されることにより、前記クライアント端末に、請求項９～請求項１５のいずれか１項に記載の方法を実施させる、コンピュータプログラム。
１つ以上のプロセッサを備えるクライアント端末であって、
前記１つ以上のプロセッサに実行されることによって、請求項９～請求項１５のいずれか１項に記載の方法を前記クライアント端末に実施させるプログラムを格納するメモリを備える、クライアント端末。