JP6110264B2

JP6110264B2 - ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、プログラム、システムおよび方法

Info

Publication number: JP6110264B2
Application number: JP2013193360A
Authority: JP
Inventors: 俊治栗栖; 結旗柘植
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-09-18
Filing date: 2013-09-18
Publication date: 2017-04-05
Anticipated expiration: 2033-09-18
Also published as: JP2015060390A

Description

本発明は、ユーザが端末装置に対し行うデータ入力に応じて、当該ユーザに情報を提供する仕組みに関する。

端末装置のユーザが、キーワードを端末装置に入力することにより、知りたい情報を端末装置に表示させる技術がある。ユーザは、端末装置に現在表示されている情報に関連する新たな情報を知りたい、と思う場合がある。この場合、ユーザがキーワードを端末装置に入力する手間を軽減する技術が提案されている。

例えば、特許文献１には、現在表示されているデータが有するキーワードに基づきデータベースの検索を行い、検索されたデータのうち見出しに当該キーワードを含むものを優先的に表示する仕組みが提案されている。

また、特許文献２には、第１のコンテンツの処理を行っている状態で、その第１のコンテンツに関連したキーワードを抽出して表示し、当該キーワードに基づいて第２のコンテンツの検索を行い、当該第２のコンテンツを表示する仕組みが提案されている。

ユーザがキーワードを端末装置に入力する手間を軽減する別の仕組みとして、音声認識技術を利用した情報提供の仕組みがある。この仕組みによれば、ユーザが端末装置に対し発話を行うと、端末装置が当該発話の内容に応じた処理を実行する。

例えば、非特許文献１には、ユーザがスマートフォンに話しかけると、スマートフォンがユーザの意図に沿った情報を提供する、という仕組みが紹介されている。この仕組みによれば、例えばユーザがスマートフォンに「この辺のタクシーを探して！」と話しかけると、スマートフォンはユーザの現在位置でタクシーを呼べるタクシー会社の情報を表示する。

非特許文献１に紹介されている仕組みによれば、ユーザは発話により、例えば「タクシー会社の検索」といった希望する一連の処理を端末装置に実行させることができる。本願において、「タクシー会社の検索」に例示されるような、端末装置において実行される一連の処理の種別を「機能」という。

特開平０５−０３５７９８号公報特開２００５−１１５７９０号公報

株式会社エヌ・ティ・ティ・ドコモ、"しゃべってコンシェルでできること"、［online］、［平成25年9月13日検索］、インターネット〈URL：http://www.nttdocomo.co.jp/service/information/shabette_concier/feature/index.html〉

非特許文献１に紹介されているような音声認識技術を利用した情報提供の仕組みを利用するユーザは、発話により入力したデータに応じて端末装置から提供される情報を見て、さらに新たな情報を得たい、と思う場合がある。例えば、ユーザの「イタリアンのお店はある？」という発話に応じて端末装置に表示されたレストラン情報を見て、ユーザが○○レストランに行くための交通手段を知りたい、と思うような場合である。

従来技術によれば、上記のような場合、ユーザは端末装置に対し「イタリアンのお店はある？」と発話して「レストランの検索」という第１の機能を端末装置に実行させた後、続いて「○○レストランに行きたい」と発話することにより、例えば「乗換案内」という第２の機能を端末装置に実行させることで、イタリアン料理を食べたい、という目的の達成のために必要な情報を得ることができる。

上記のように、必要な情報を得るために複数の機能を端末装置に実行させる必要がある場合、従来技術によれば、ユーザは端末装置に対し複数回のデータ入力を行う必要がある。

本発明は上記の事情に鑑み、ユーザが端末装置に対し行うデータ入力に応じて、当該データに応じた機能を実行することにより当該ユーザに情報を提供する仕組みにおいて、ユーザが必要な情報を得るために要するデータ入力の手間を軽減する仕組みを提供することを目的とする。

上述した課題を解決するため、本発明は、複数のキーワードの各々と、端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得する第１の関連性データ取得手段と、前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する第２の関連性データ取得手段と、前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する受信手段と、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定する第１の機能特定手段と、前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定する第２の機能特定手段と、前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信する送信手段とを備えるサーバ装置を提供する。

上記のサーバ装置において、前記受信手段は前記ユーザの音声を表わす前記入力データを受信し、前記入力データが表わす音声が示す文章を表わす文章データを生成する文章データ生成手段と、前記文章データ生成手段により生成された文章データが表わす文章に含まれるキーワードを表わすキーワードデータを、前記第１の機能特定手段により使用される前記キーワードデータとして生成するキーワードデータ生成手段とを備える、という構成が採用されてもよい。

また、上記のサーバ装置において、前記端末装置の現在位置を示す位置データを取得する位置データ取得手段を備え、前記第２の関連性データ取得手段は、前記位置データが示す位置に応じて異なる前記第２の関連性データを取得する、という構成が採用されてもよい。

また、上記のサーバ装置において、前記端末装置が前記第１の機能の実行において使用するデータを取得する使用データ取得手段を備え、前記第２の関連性データ取得手段は、前記使用データ取得手段により取得されたデータに位置を示すデータが含まれる場合、当該位置を示すデータが示す位置と前記位置データ取得手段により取得された位置データが示す前記端末装置の現在位置との距離に応じて異なる前記第２の関連性データを取得する、という構成が採用されてもよい。

また、上記のサーバ装置において、現在時刻を示す時刻データを取得する時刻データ取得手段を備え、前記第２の関連性データ取得手段は、前記時刻データが示す現在時刻に応じて異なる前記第２の関連性データを取得する、という構成が採用されてもよい。

また、上記のサーバ装置において、前記端末装置に対し前記ユーザにより行われた機能の実行指示の履歴を示す履歴データを取得する履歴データ取得手段を備え、前記第２の関連性データ取得手段は、前記履歴データが示す履歴に応じて異なる前記第２の関連性データを取得する、という構成が採用されてもよい。

また、本発明は、端末装置との間でデータ通信を行う通信手段を備えるコンピュータに、複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得する処理と、前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する処理と、前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する処理と、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定する処理と、前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定する処理と、前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信する処理とを実行させるプログラムを提供する。

また、本発明は、サーバ装置と端末装置を備え、前記サーバ装置は、複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得する第１の関連性データ取得手段と、前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する第２の関連性データ取得手段とを備え、前記端末装置は、ユーザにより入力された入力データを取得する入力データ取得手段と、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを前記サーバ装置に送信する送信手段とを備え、前記サーバ装置は、前記端末装置から前記入力データ、もしくは前記キーワードデータを受信する受信手段と、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定する第１の機能特定手段と、前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定する第２の機能特定手段と、前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信する送信手段とを備え、前記端末装置は、前記サーバ装置から前記第１の機能識別データと前記１以上の第２の機能識別データを受信する受信手段と、前記第１の機能識別データにより識別される前記第１の機能を実行する処理実行手段と、前記処理実行手段により前記第１の機能が実行されている間、前記１以上の第２の機能識別データにより識別される前記１以上の第２の機能の各々に関し、当該機能の実行指示をユーザに促す表示を表示装置に指示する表示指示手段とを備えるシステムを提供する。

また、本発明は、サーバ装置が、複数のキーワードの各々と、端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得するステップと、前記サーバ装置が、前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する処理と、前記端末装置が、ユーザにより入力された入力データを取得するステップと、前記端末装置が、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを前記サーバ装置に送信するステップと、前記サーバ装置が、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定するステップと、前記サーバ装置が、前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定するステップと、前記サーバ装置が、前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信するステップと、前記端末装置が、前記第１の機能識別データにより識別される前記第１の機能を実行する間、前記１以上の第２の機能識別データにより識別される前記１以上の第２の機能の各々に関し、当該機能の実行指示をユーザに促す表示を表示装置に指示するステップとを備える方法を提供する。

本発明によれば、ユーザはデータ入力に応じて端末装置により実行された第１の機能に関連する第２の機能の実行指示を容易に行うことができる。

一実施形態にかかる音声エージェントシステムの全体構成を示した図である。一実施形態にかかる端末装置のハードウェア構成を示した図である。一実施形態にかかる端末装置の機能構成を示した図である。一実施形態にかかる音声認識サーバ装置および情報提供サーバ装置のハードウェア構成を示した図である。一実施形態にかかる音声認識サーバ装置の機能構成を示した図である。一実施形態にかかる第１の関連性データの構成例を示した図である。一実施形態にかかる第２の関連性データの構成例を示した図である。一実施形態にかかる端末装置に表示される画面を例示した図である。一実施形態にかかる情報提供サーバ装置の機能構成を示した図である。一実施形態にかかる音声エージェントシステムの動作を示したシーケンスチャートである。第１変形例にかかる端末装置に表示される画面を例示した図である。第２変形例にかかる端末装置に表示される画面を例示した図である。第３変形例にかかる第２の関連性データの構成例を示した図である。第３変形例にかかる端末装置に表示される画面を例示した図である。第４変形例にかかる第２の関連性データの構成例を示した図である。第４変形例にかかる端末装置に表示される画面を例示した図である。第５変形例にかかる履歴データの構成例を示した図である。第５変形例にかかるウェイトデータの構成例を示した図である。第５変形例にかかる端末装置に表示される画面を例示した図である。

［実施形態］
以下に、本発明の一実施形態にかかる音声エージェントシステム１を説明する。図１は、音声エージェントシステム１の全体構成を示した図である。音声エージェントシステム１は、ユーザが携帯する端末装置である端末装置１１と、音声認識サーバ装置１２と、情報提供サーバ装置１３を備えている。音声認識サーバ装置１２は、ユーザが端末装置１１に対し音声による指示を行った場合、その意図解釈を行い、端末装置１１に対し実行すべき機能を指示する。情報提供サーバ装置１３はＷｅｂサーバ装置等の各種サーバ装置であり、端末装置１１に対し各種情報の提供を行う。端末装置１１と音声認識サーバ装置１２、端末装置１１と情報提供サーバ装置１３各々、通信ネットワーク１９を介して互いにデータ通信を行うことができる。

なお、図１においては、端末装置１１は１つのみ例示されているが、実際には端末装置１１の数は音声エージェントシステム１を利用するユーザの数に応じて任意に変化する。また、図１においては、音声認識サーバ装置１２は１つの装置として示されているが、例えば互いに連係動作する複数の装置により音声認識サーバ装置１２が構成されてもよい。また、図１においては、情報提供サーバ装置１３は１つのみ例示されているが、実際には情報提供サーバ装置１３は多数である。

端末装置１１のハードウェア構成は、タッチディスプレイを備えた一般的なスレートデバイス型のパーソナルコンピュータのハードウェア構成と同じである。図２は、端末装置１１のハードウェア構成を示した図である。すなわち、端末装置１１は、ハードウェア構成として、メモリ１０１と、プロセッサ１０２と、通信ＩＦ（Interface）１０３と、タッチディスプレイ１０４と、マイク１０５と、ＧＰＳ（Global Positioning System）ユニット１０６と、クロック１０７を備えている。また、これらの構成部はバス１０９を介して互いに接続されている。

メモリ１０１は揮発性半導体メモリや不揮発性半導体メモリ等を有し、ＯＳ（Operation System）、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ１０２によるデータ処理における作業領域として利用される。プロセッサ１０２はＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の処理装置である。通信ＩＦ１０３は無線通信により通信ネットワーク１９を介して、音声認識サーバ装置１２および情報提供サーバ装置１３との間で各種データ通信を行うインタフェースである。

タッチディスプレイ１０４は、ディスプレイ１０４１とタッチパネル１０４２を有している。ディスプレイ１０４１は、例えば液晶ディスプレイであり、文字、図形、写真等を表示する。タッチパネル１０４２は、例えば静電容量方式のタッチパネルであり、指等のポインタが接触した場合、当該接触の位置を特定する。

ディスプレイ１０４１とタッチパネル１０４２は積層配置されており、ディスプレイ１０４１に表示されている画像に対しユーザがポインタを接触させる動作を行うと、実際にはタッチパネル１０４２にポインタが接触し、その位置が特定される。プロセッサ１０２は、タッチパネル１０４２により特定された位置に基づき、ディスプレイ１０４１により表示されている画像のどの部分に対しポインタの接触の動作が行われたかを特定することで、ユーザの意図した操作の内容を特定する。

マイク１０５は音を拾音し拾音した音を表わす音データを生成する装置である。音声エージェントシステム１においては、マイク１０５はユーザの音声を拾音し、音声データを生成する。ＧＰＳユニット１０６は、複数の衛星からの信号を受信し、受信した信号に基づき端末装置１１の現在位置を特定し、特定した現在位置を示す位置データを生成する装置である。クロック１０７は基準時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する装置である。

上記のハードウェア構成を備える端末装置１１は、メモリ１０１に記憶されているプログラムに従う処理を行うことにより、図３に示す機能構成を備える装置として動作する。すなわち、端末装置１１は、機能構成として、ユーザの音声をマイク１０５により録音して得られる音声データを、ユーザにより入力された入力データとして取得する入力データ取得手段１１１と、入力データ取得手段１１１が取得した音声データを音声認識サーバ装置１２に送信する送信手段１１２を備える。

さらに、端末装置１１は、端末装置１１において実行可能な複数の機能のうち特定の機能を識別する機能識別データを音声認識サーバ装置１２から受信する受信手段１１３と、受信手段１１３により受信された機能識別データのうち第１の機能識別データ（１つ）により識別される機能を実行する処理実行手段１１４と、受信手段１１３により受信された機能識別データのうち第２の機能識別データ（複数、以下、例としてその数を３つとする）により識別される機能の実行指示をユーザに促すボタンの表示をディスプレイ１０４１に指示する表示指示手段１１５を備える。

音声認識サーバ装置１２および情報提供サーバ装置１３のハードウェア構成は、外部の装置との間で通信ネットワーク１９を介したデータ通信が可能な一般的なコンピュータのハードウェア構成と同じである。図４は、音声認識サーバ装置１２および情報提供サーバ装置１３のハードウェア構成を示した図である。すなわち、音声認識サーバ装置１２および情報提供サーバ装置１３は、ハードウェア構成として、メモリ２０１と、プロセッサ２０２と、通信ＩＦ２０３と、クロック２０４を備えている。また、これらの構成部はバス２０９を介して互いに接続されている。

メモリ２０１は揮発性半導体メモリや不揮発性半導体メモリ等を有し、ＯＳ、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ２０２によるデータ処理における作業領域として利用される。プロセッサ２０２はＣＰＵ、ＧＰＵ等の処理装置である。通信ＩＦ２０３は通信ネットワーク１９を介して他の装置との間で各種データ通信を行うインタフェースである。クロック２０４は基準時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する装置である。

音声認識サーバ装置１２は、自機のメモリ２０１に記憶されているプログラムに従う処理を行うことにより、図５に示す機能構成を備える装置として動作する。すなわち、音声認識サーバ装置１２は、機能構成として、まず、自機のメモリ２０１（もしくは音声認識サーバ装置１２に接続された外部の記憶装置や、通信ネットワーク１９を介して音声認識サーバ装置１２からアクセス可能な外部のサーバ装置等）に記憶されている第１の関連性データおよび第２の関連性データを各々取得する第１の関連性データ取得手段１２１および第２の関連性データ取得手段１２２を備える。

第１の関連性データは、複数のキーワードの各々に関し、当該キーワードと端末装置１１が実行可能な複数の機能のうち当該キーワードに関連する機能の各々との関連性の高低を示すデータである。図６は、第１の関連性データの構成例を示した図である。第１の関連性データは、キーワードに応じたデータレコードを複数含むデータベースであり、各データレコードはデータフィールドとして「キーワード」、「機能ＩＤ」、「機能名」、「スコア」を有している。データフィールド「キーワード」にはキーワードを示すテキストデータが格納される。データフィールド「機能ＩＤ」には、機能を識別する機能識別データ（以下、「識別ＩＤ」という）が格納される。データフィールド「機能名」には機能の名称を示すテキストデータが格納される。データフィールド「スコア」には、キーワードと機能の関連性の高低を示す数値データ（以下、「スコア」という）が格納される。１つのデータレコードは、データフィールド「機能ＩＤ」〜「スコア」に複数セットのデータを格納することができる。

図６に例示のデータは、「カレー」というキーワードと、「レストラン検索」という機能の関連性を示すスコアが「５」であり、「カレー」というキーワードと、「レシピ検索」という機能の関連性を示すスコアが「５」であり、・・・ということを示している。

第２の関連性データは、端末装置１１が実行可能な複数の機能の各々に関し、当該機能と端末装置１１が実行可能な複数の機能のうち当該機能に関連する他の機能の各々との関連性の高低を示すデータである。図７は、第２の関連性データの構成例を示した図である。第２の関連性データは、端末装置１１が実行可能な機能に応じたデータレコードを複数含むデータベースであり、各データレコードはデータフィールドとして「第１の機能」、「第２の機能」を有している。また、データフィールド「第１の機能」は、サブデータフィールドとして「機能ＩＤ」と「機能名」を有し、データフィールド「第２の機能」は、サブデータフィールドとして「機能ＩＤ」、「機能名」および「スコア」を有している。以下、サブデータフィールドを示す場合、「（データフィールド名）−（サブデータフィールド名）」のように示す。例えば、データフィールド「第１の機能」のサブデータフィールド「機能ＩＤ」は、データフィールド「第１の機能−機能ＩＤ」のように示す。

データフィールド「第１の機能」には、端末装置１１で実際に実行される機能である第１の機能に関するデータが格納される。図８は、端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。図８（ａ）は、ユーザが音声による指示を行うのを待機している状態の端末装置１１のディスプレイ１０４１に表示される画面である。図８（ａ）の画面が表示されている状態において、ユーザが例えば「カレーを食べたい」と発話した場合、端末装置１１のディスプレイ１０４１には図８（ｂ）に示すような画面が表示される。図８（ｂ）の画面において、領域Ａ０１には、端末装置１１がその時点において実行している機能に従った各種情報が表示される。この領域Ａ０１に各種情報を表示する機能が第１の機能である。

データフィールド「第２の機能」には、第１の機能に関連する機能である第２の機能に関するデータが格納される。図８（ｂ）の画面において、領域Ａ０２には領域Ａ０１に各種情報を表示している第１の機能に関連する機能に応じたボタンが表示される。ユーザは、領域Ａ０２に表示されるボタンのいずれかをタッチ操作することにより、タッチ操作したボタンに応じた第２の機能の実行を端末装置１１に指示することができる。なお、図８（ｃ）はユーザが図８（ｂ）の領域Ａ０２に表示された「乗換案内」ボタンをタッチ操作した場合にディスプレイ１０４１に表示される画面を例示したものである。

音声エージェントシステム１において、領域Ａ０２には、領域Ａ０１に第１の機能に従って各種情報が表示されている状態において、ユーザが次に実行指示を行う可能性が高いと推定される機能（第２の機能）のボタンが表示される。そのため、第２の関連性データにおいて、データフィールド「第２の機能−機能ＩＤ」が示す機能は、データフィールド「第１の機能−機能ＩＤ」が示す機能の次に実行される可能性が高いと推定される機能である。

第２の関連性データのデータフィールド「第１の機能−機能ＩＤ」には、第１の機能を識別する機能ＩＤが格納される。データフィールド「第１の機能−機能名」には、第１の機能の名称を示すテキストデータが格納される。データフィールド「第２の機能−機能ＩＤ」には、第２の機能を識別する機能ＩＤが格納される。データフィールド「第２の機能−機能名」には、第２の機能の名称を示すテキストデータが格納される。データフィールド「第２の機能−スコア」には、第１の機能に対する第２の機能の関連性の高低、すなわち第１の機能の実行の後に第２の機能が実行される確率の高低を示すスコアが格納される。１つのデータレコードは、データフィールド「第２の機能」に複数セットのデータを格納することができる。

図７に例示のデータは、例えば第１の機能「レストラン検索」が実行された後、第２の機能「乗換案内」が実行される確率の高低を示すスコアが「１０」であり、第２の機能「ルート案内」が実行される確率の高低を示すスコアが「８」であり、・・・ということを示している。

図５に戻り、音声認識サーバ装置１２の機能構成の説明を続ける。音声認識サーバ装置１２は、端末装置１１から音声データを受信する受信手段１２３と、受信手段１２３により受信された音声データが表わす音声が示す文章を認識し、認識した文章データを生成する文章データ生成手段１２４と、文章データ生成手段１２４により生成された文章データが表わす文章に含まれるキーワードを抽出し、抽出したキーワードを示すキーワードデータを生成するキーワードデータ生成手段１２５を備える。

なお、文章データ生成手段１２４が行う文章の認識の処理は、既知の音声認識処理であるため、その説明を省略する。また、キーワードデータ生成手段１２５は、文章データが表わす文章の中から、第１の関連性データ（図６）のデータフィールド「キーワード」に含まれるキーワードと一致する言葉をキーワードとして抽出する。

また、音声認識サーバ装置１２は、キーワードデータ生成手段１２５により生成されたキーワードデータが示すキーワードの各々に関し、第１の関連性データ取得手段１２１により取得された第１の関連性データが示すスコアを第１の機能の候補毎に合算し、合算したスコアが最も高い候補を第１の機能として特定する第１の機能特定手段１２６を備える。

また、音声認識サーバ装置１２は、第１の機能特定手段１２６により特定された第１の機能に関し、第２の関連性データ取得手段１２２により取得された第２の関連性データが示すスコアを第２の機能の候補毎に合算し、合算したスコアが高い上位３つの候補を第２の機能として特定する第２の機能特定手段１２７を備える。

さらに、音声認識サーバ装置１２は、第１の機能特定手段１２６により特定された第１の機能の機能ＩＤと、第２の機能特定手段１２７により特定された第２の機能の機能ＩＤと、キーワードデータ生成手段１２５により生成されたキーワードデータを端末装置１１に送信する送信手段１２８を備える。以上が音声認識サーバ装置１２の機能構成である。

情報提供サーバ装置１３は、自機のメモリ２０１に記憶されているプログラムに従う処理を行うことにより、図９に示す機能構成を備える装置として動作する。すなわち、情報提供サーバ装置１３は、機能構成として、端末装置１１からデータ処理の要求を示す要求データを受信する受信手段１３１と、受信手段１３１により受信された要求データに従いデータ処理を実行する処理実行手段１３２と、処理実行手段１３２により実行されたデータ処理の結果を示す結果データを端末装置１１に送信する送信手段１３３を備える。

続いて、ユーザが音声により端末装置１１に対し機能の実行指示を行う場合の音声エージェントシステム１の動作を説明する。図１０は音声エージェントシステム１の動作を示したシーケンスチャートである。まず、ユーザが端末装置１１を操作して図８（ａ）の画面をディスプレイ１０４１に表示させた状態で、例えば「カレーを食べたい」といった発話を行うと、端末装置１１は当該発話の音声を録音、すなわち当該音声を表わす音声データの生成を行う（ステップＳ１０１）。

続いて、端末装置１１はステップＳ１０１で生成した音声データを音声認識サーバ装置１２に送信し（ステップＳ１０２）、音声認識サーバ装置１２は当該音声データを受信する（ステップＳ１０３）。続いて、音声認識サーバ装置１２はステップＳ１０３において受信した音声データが表わす音声を認識、すなわち当該音声が示す文章を特定し、特定した文章を表わす文章データを生成する（ステップＳ１０４）。

続いて、音声認識サーバ装置１２はステップＳ１０４において生成した文章データが表わす文章からキーワードを抽出し、それらのキーワードを示すキーワードデータを生成する（ステップＳ１０５）。続いて、音声認識サーバ装置１２は、第１の関連性データとステップＳ１０５において生成したキーワードデータに基づき第１の機能を特定する（ステップＳ１０６）。続いて、音声認識サーバ装置１２は、第２の関連性データとステップＳ１０６において特定した第１の機能の機能ＩＤ（第１の機能ＩＤ）に基づき第２の機能を特定する（ステップＳ１０７）。

続いて、音声認識サーバ装置１２は、ステップＳ１０５において生成したキーワードデータと、ステップＳ１０６において特定した第１の機能ＩＤと、ステップＳ１０７において特定した第２の機能の機能ＩＤ（第２の機能ＩＤ）を端末装置１１に送信し（ステップＳ１０８）、端末装置１１はそれらのデータを受信する（ステップＳ１０９）。

端末装置１１は、ステップＳ１０９において受信した第１の機能ＩＤにより識別される機能を第１の機能として実行する（ステップＳ１１０）。ステップＳ１１０において、端末装置１１は必要に応じて、ステップＳ１０９において受信したキーワードデータを用いる。また、ステップＳ１１０において、端末装置１１は必要に応じて、情報提供サーバ装置１３との間でデータ通信を行い、第１の機能の実行において必要な各種データを取得する。

端末装置１１は第１の機能の実行（ステップＳ１１０）と同時に、ステップＳ１０９において受信した第２の機能ＩＤにより識別される機能に応じたボタンを表示する（ステップＳ１１１）。図８（ｂ）は、ステップＳ１１０およびステップＳ１１１の処理に伴いディスプレイ１０４１に表示される画面を例示している。具体的には、領域Ａ０１にはステップＳ１１０における第１の機能の実行に伴う情報が表示され、領域Ａ０２にはステップＳ１１１における第２の機能に応じたボタンの表示が行われる。

ユーザは、図８（ｂ）の画面の領域Ａ０１において、例えば検索キーワードの入力等の各種操作を行い必要な情報を得た後、引き続き、領域Ａ０２にボタンが表示されている機能のいずれかを端末装置１１に実行させたい場合、そのボタンをタッチ操作する。端末装置１１はそのタッチ操作を受け付けると（ステップＳ１１２）、タッチ操作されたボタンに応じた第２の機能を、新たな第１の機能として実行する（ステップＳ１１３）。ステップＳ１１３において、端末装置１１は必要に応じて、情報提供サーバ装置１３との間でデータ通信を行い、新たな第１の機能の実行において必要な各種データを取得する。

端末装置１１は新たな第１の機能の実行（ステップＳ１１３）と同時に、ステップＳ１１２においてユーザによるタッチ操作を受け付けた第２の機能（新たな第１の機能）の機能ＩＤを音声認識サーバ装置１２に送信し（ステップＳ１１４）、音声認識サーバ装置１２はその機能ＩＤを受信する（ステップＳ１１５）。

音声認識サーバ装置１２は、第２の関連性データとステップＳ１１５において受信した機能ＩＤ（新たな第１の機能ＩＤ）に基づき、新たな第１の機能に応じた新たな第２の機能を特定する（ステップＳ１１６）。音声認識サーバ装置１２はステップＳ１１６において特定した新たな第２の機能の機能ＩＤ（新たな第２の機能ＩＤ）を端末装置１１に送信し（ステップＳ１１７）、端末装置１１はそれらの新たな第２の機能ＩＤを受信する（ステップＳ１１８）。端末装置１１はステップＳ１１８において受信した新たな第２の機能ＩＤにより識別される機能に応じたボタンを表示する（ステップＳ１１９）。図８（ｃ）は、ステップＳ１１３およびステップＳ１１９の処理に伴いディスプレイ１０４１に表示される画面を例示している。具体的には、領域Ａ０１にはステップＳ１１３における新たな第１の機能の実行に伴う情報が表示され、領域Ａ０２にはステップＳ１１９における新たな第２の機能に応じたボタンの表示が行われる。

以上説明したように、音声エージェントシステム１によれば、ユーザが音声により端末装置１１に対し機能の実行を指示した場合、ディスプレイ１０４１には、指示された機能の実行に伴う情報が表示されるとともに、実行中の機能の次にユーザが使用する可能性が高いと推定される機能のボタンが表示される。そのため、ユーザは多くの場合、現在実行されている機能の次に実行させたい機能を端末装置１１に対し指示する際に、新たな発話を行ったり、複数回のタッチ操作を行ったりすることなく、ワンタッチでその機能の実行を端末装置１１に指示することができる。また、領域Ａ０２にボタンが表示される機能には、ユーザが知らなかった機能が含まれることがある。その場合、ユーザは便利な機能を知ることができる。

［変形例］
上述した音声エージェントシステム１は本発明の一実施形態であって、本発明の技術的思想の範囲内において様々に変形することができる。以下にそれらの変形の例を示す。なお、上述した実施形態および下記の変形例は適宜組み合わされてもよい。

［第１変形例］
第１変形例においては、ユーザが第１の機能の実行を指示するために発話した音声に含まれるキーワードが、ユーザにより実行指示が行われた第２の機能、すなわち新たな第１の機能において用いられる。

図１１は、第１変形例において端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。図１１（ｂ）は、ディスプレイ１０４１に図１１（ａ）の画面が表示されている状態でユーザが「銀座に行きたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。図１１（ｂ）の画面においては、音声認識サーバ装置１２において第１の機能として特定された「乗換案内」の情報が領域Ａ０１に表示され、第２の機能として特定された「ルート案内」、「ショップ検索」、「スケジュール」のボタンが領域Ａ０２に表示されている。

なお、図１１（ｂ）の領域Ａ０１において、出発駅「溜池山王」はＧＰＳユニット１０６により生成される位置データが示す端末装置１１の現在位置から最寄りの駅の名称が自動入力されたものである。また、目的駅「銀座」は、ユーザが発話した音声（（図１０のステップＳ１０３において受信した音声データ））から音声認識サーバ装置１２において抽出された「銀座」というキーワードが示す場所の最寄り駅の名称が自動入力されたものである。

このように端末装置１１が第１の機能の実行において、ユーザの音声に含まれるキーワードを適切なパラメータとして用いるために、音声認識サーバ装置１２はキーワード抽出に加え、文章の意図解釈を行い、この場合、「銀座」が目的地であることを特定し、さらに銀座の最寄り駅が銀座駅であることを特定し、第１の機能に応じたパラメータを示すパラメータデータ「目的駅＝銀座」を生成し、第１の機能ＩＤおよび第２の機能ＩＤの送信（図１０のステップＳ１０８）において、それらの機能ＩＤとともに生成したパラメータデータを端末装置１１に送信する。端末装置１１は音声認識サーバ装置１２から受信したパラメータデータに従い第１の機能を実行することにより、図１１（ｂ）に示すような情報の表示を行うことができる。なお、音声認識サーバ装置１２が行う文章の意図解釈の処理や、ある場所の最寄り駅を特定する処理等は既知の処理であるため、その説明を省略する。

図１１（ｃ）は、図１１（ｂ）の画面が表示されている状態でユーザが領域Ａ０２に表示されている「ショップ検索」ボタンをタッチ操作した場合にディスプレイ１０４１に表示される画面を例示したものである。図１１（ｃ）の領域Ａ０１には、新たな第１の機能である「ショップ検索」の情報が表示されている。図１１（ｃ）の領域Ａ０１において、エリア「銀座」は、先の第１の機能であった「乗換案内」において「銀座」が目的駅として用いられた場合と同様に、ユーザが発話した音声（図１０のステップＳ１０３において受信した音声データ）から音声認識サーバ装置１２において抽出された「銀座」というキーワードが示す場所を中心とするエリアの名称が自動入力されたものである。

このように端末装置１１が第２の機能（新たな第１の機能）の実行において、ユーザの音声に含まれるキーワードを適切なパラメータとして用いるために、音声認識サーバ装置１２は新たな第１の機能ＩＤを端末装置１１から受信すると（図１０のステップＳ１１５）、ユーザの音声を意図解釈し、新たな第１の機能に応じたパラメータを示すパラメータデータ「エリア＝銀座」を生成し、新たな第２の機能ＩＤの送信（図１０のステップＳ１１７）において、それらの機能ＩＤとともに生成したパラメータデータを端末装置１１に送信する。端末装置１１は音声認識サーバ装置１２から受信したパラメータデータに従い新たな第１の機能を実行することにより、図１１（ｃ）に示すような情報の表示を行うことができる。

以上のように、第１変形例にかかる音声エージェントシステム１によれば、第２の機能（新たな第１の機能）が実行される際、ユーザが先に第１の機能の実行を指示するために発話した音声に含まれるキーワードが第２の機能の実行において用いられるため、ユーザが第２の機能の実行時においてパラメータを入力する手間が軽減される。

［第２変形例］
第２変形例においては、ユーザが第２の機能の実行指示を端末装置１１に対し行った場合、それまで端末装置１１が実行していた第１の機能において取得されたデータが、第２の機能（新たな第１の機能）におけるパラメータデータとして利用される。

図１２は、第２変形例において端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。図１２（ｂ）は、図８（ｂ）と同様に、ディスプレイ１０４１に図１２（ａ）の画面が表示されている状態でユーザが「カレーを食べたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。ただし、図１２（ｂ）の例では、領域Ａ０１においてキーワード「カレー」、エリア「銀座」が自動入力されている。キーワード「カレー」は、音声認識サーバ装置１２においてユーザの音声の意図解釈により生成されたパラメータデータに従い自動入力されたものである。また、エリア「銀座」はＧＰＳユニット１０６により生成された位置データに従い自動入力されたものである。

図１２（ｃ）は、図１２（ｂ）の画面においてユーザが領域Ａ０１に表示されるレストランの表示（地図上のマークまたはリスト内の店名等）のいずれかをタッチ操作して、レストランの詳細情報を表示させた場合の画面である。この例では、丸の内近辺のレストランの詳細情報が表示されている。

図１２（ｄ）は、図１２（ｃ）の画面において、領域Ａ０２に表示されている「乗換案内」ボタンをユーザがタッチ操作した場合にディスプレイ１０４１に表示される画面を例示している。図１２（ｄ）の例では、領域Ａ０１には、ユーザにより実行指示の行われた第２の機能（新たな第１の機能）である「乗換案内」に従い情報が表示されている。この領域Ａ０１の表示において、出発駅「銀座」、目的駅「丸の内」が自動入力されている。出発地「銀座」はＧＰＳユニット１０６により生成された位置データに従い自動入力されたものである。また、目的駅「丸の内」は、図１２（ｃ）の領域Ａ０１に表示されていたデータ内に含まれる「丸の内」というキーワードに従い自動入力されたものである。

上記のように、第１の機能において取得されたデータ（この場合、「丸の内」というキーワード）を第２の機能（新たな第１の機能）の実行において利用するために、第２変形例においては、端末装置１１が新たな第１の機能ＩＤを音声認識サーバ装置１２に送信する際（図１０のステップＳ１１４）、その時点で第１の機能において用いていたデータ（この場合、例えば、ユーザの操作に従い領域Ａ０１に表示されていたレストランの詳細情報を示すテキストデータ、以下、「旧第１の機能のデータ」という）を併せて送信する。音声認識サーバ装置１２は端末装置１１から受信した旧第１の機能のデータが表わす文章を意図解釈し、新たな第１の機能に応じたパラメータデータ「目的駅＝丸の内」を生成し、新たな第１の機能ＩＤを送信する際（図１０のステップＳ１１７）、生成したパラメータデータを併せて端末装置１１に送信する。

端末装置１１は、音声認識サーバ装置１２から受信したパラメータデータに従い、新たな第１の機能の実行において、目的駅に「丸の内」を自動入力する。

以上のように、第２変形例にかかる音声エージェントシステム１によれば、第２の機能（新たな第１の機能）が実行される際、それまで実行されていた第１の機能において取得され用いられていたデータが用いられるため、ユーザが第２の機能の実行時においてパラメータを入力する手間が軽減される。

［第３変形例］
第３変形例においては、ユーザ（端末装置１１）の現在位置に応じて、領域Ａ０２に表示されるボタンが変化する。

図１３は、第３変形例において用いられる第２の関連性データの構成例を示した図である。第３変形例においては、端末装置１１がユーザの自宅以外に位置する時に用いられる第２の関連性データ（以下、「一般用の第２の関連性データ」という）と、端末装置１１がユーザの自宅に位置する時に用いられる第２の関連性データ（以下、「自宅用の第２の関連性データ」という）という、端末装置１１の現在位置に応じた異なる第２の関連性データが準備されている。

図１３の例では、例えば、第１の機能「ニュース検索」に応じた第２の機能として、「用語検索」、「テレビ番組検索」、・・・が登録されている。ここで、一般用の第２の関連性データにおいては、第２の機能「テレビ番組検索」のスコアは「３」である。一方、自宅用の第２の関連性データにおいては、第２の機能「テレビ番組検索」のスコアは「１０」である。このように、第２の機能「テレビ番組検索」のスコアが、自宅用の第２の関連性データにおける場合よりも一般用の第２の関連性データにおける場合が低いのは、ユーザが自宅以外にいる時にはテレビがすぐ近くにないことが多いため、ユーザが自宅にいる時と比べて、引き続きテレビ番組の検索を行いたいと思う可能性が低いためである。

図１４は、第３変形例にかかる端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。図１４（ｂ）は、自宅以外の場所において、図１４（ａ）の画面が表示されている状態の端末装置１１に対し、ユーザが「景気対策のニュースを知りたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。一方、図１４（ｃ）は、自宅において、図１４（ａ）の画面が表示されている状態の端末装置１１に対し、ユーザが「景気対策のニュースを知りたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。図１４（ｂ）および（ｃ）の画面の領域Ａ０１に表示される情報は同じであるが、領域Ａ０２に表示される第２の機能のボタンが異なっている。すなわち、自宅においては第２の機能として表示される「テレビ番組検索」や「ビデオ配信サイト」のボタンが、自宅以外においては表示されず、代わりに「地図検索」や「人物検索」のボタンが表示されている。

上記のように、自宅と自宅以外で異なる第２の機能のボタンを表示するために、第３変形例にかかる端末装置１１は機能構成として、図３に示した構成部に加え、ＧＰＳユニット１０６により生成される位置データを取得する位置データ取得手段を備え、送信手段１１２は位置データ取得手段により取得された位置データを音声認識サーバ装置１２に送信する。また、音声認識サーバ装置１２の受信手段１２３は、端末装置１１から送信されてくる位置データを取得する位置データ取得手段として機能する。受信手段１２３は端末装置１１から取得した位置データを第２の関連性データ取得手段１２２に引き渡す。

音声認識サーバ装置１２は、例えばメモリ２０１にユーザ毎に自宅の位置を示す自宅位置データを記憶している。第２の関連性データ取得手段１２２は、端末装置１１から受信した位置データが示す位置が、端末装置１１のユーザの自宅位置データが示す位置から所定距離内であれば、端末装置１１は現在、ユーザの自宅にあり、所定距離を超えれば、端末装置１１は現在、ユーザの自宅以外の場所にある、と判定する。そして、第２の関連性データ取得手段１２２は、端末装置１１が自宅にあると判定した場合、自宅用の第２の関連性データ（図１３）をメモリ２０１から読み出し取得して第２の機能の特定に用いる。一方、第２の関連性データ取得手段１２２は、端末装置１１が自宅以外の場所にあると判定した場合、一般用の第２の関連性データ（図１３）をメモリ２０１から読み出し取得して第２の機能の特定に用いる。

第３変形例にかかる音声エージェントシステム１の動作が上述した実施形態にかかる音声エージェントシステム１の動作と異なる点は、まず、端末装置１１が音声データを音声認識サーバ装置１２に送信する際（図１０のステップＳ１０２）、ＧＰＳユニット１０６により生成された位置データを併せて送信する点である。その後、音声認識サーバ装置１２において第２の機能の特定が行われる際（図１０のステップＳ１０７）、上述した第２の関連性データ取得手段１２２により位置データが示す位置に応じて異なる第２の関連性データが用いられる結果、図１４（ｂ）および（ｃ）に例示したように、領域Ａ０２に表示される第２の機能のボタンがユーザの現在位置に応じて変化することになる。

以上のように、第３変形例にかかる音声エージェントシステム１によれば、ユーザの現在位置に応じた適切な第２の機能のボタンがユーザに対し提示される。

［第４変形例］
第４変形例においては、第３変形例における場合と同様に、ユーザ（端末装置１１）の現在位置に応じて領域Ａ０２に表示されるボタンが変化する。ただし、第４変形例においては、端末装置１１の現在位置と、第１の機能において用いられるデータに示される位置との距離の大小に応じて、領域Ａ０２に表示されるボタンが変化する。

図１５は、第４変形例において用いられる第２の関連性データの構成例を示した図である。第４変形例においては、第１の機能の実行において使用されるデータ（以下、「使用データ」という）に位置を含むデータが含まれる場合、当該データが示す位置と端末装置１１の現在位置との間の距離が３００ｋｍ未満の場合に用いられる第２の関連性データ（以下、「近距離用の第２の関連性データ」という）と、３００ｋｍ以上の場合に用いられる第２の関連性データ（以下、「遠距離用の第２の関連性データ」という）が準備されている。

図１５の例では、例えば、第１の機能「レストラン検索」に応じた第２の機能として、近距離用の第２の関連性データにおいては「乗換案内」、「ルート案内」、・・・が登録されている。一方、遠距離用の第２の関連性データにおいては「乗換案内」、「ツアー検索」、・・・が登録されている。このように、近距離用の第２の関連性データには第２の機能として登録されていない「ツアー検索」が、遠距離用の第２の関連性データには登録されているのは、遠距離の移動においては、自家用車を用いた移動よりも航空機による移動を選択するユーザが多く、また、遠距離のレストランに行く場合には、グルメツアーや格安パッケージツアーを利用するユーザが多いため、「レストラン検索」の次に実行される可能性が高い機能として「ルート案内」より「ツアー検索」の方が適切であるためである。

図１６は、第４変形例にかかる端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。図１６（ｂ）は、例えば函館において、図１６（ａ）の画面が表示されている状態の端末装置１１に対し、ユーザが「札幌のラーメン屋に行きたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。一方、図１６（ｃ）は、東京において、図１６（ａ）の画面が表示されている状態の端末装置１１に対し、ユーザが「札幌のラーメン屋に行きたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。第３変形例における場合と同様に、図１６（ｂ）および（ｃ）の画面の領域Ａ０１に表示される情報は同じであるが、領域Ａ０２に表示される第２の機能のボタンが異なっている。すなわち、函館においては第２の機能として表示さる「ルート検索」のボタンが東京においては表示されず、代わりに「ツアー検索」のボタンが表示されている。

第４変形例において、端末装置１１は音声データを音声認識サーバ装置１２に送信する際（図１０のステップＳ１０２）、ＧＰＳユニット１０６により生成された位置データを併せて音声認識サーバ装置１２に送信する。音声認識サーバ装置１２は、端末装置１１から受信した音声データが表わす音声の意図解釈により、ユーザの目的地が札幌であることを特定する。また、音声認識サーバ装置１２は、端末装置１１から受信した位置データに基づき、ユーザの現在地を特定する。音声認識サーバ装置１２は、第２の機能の特定（図１０のステップＳ１０７）において、ユーザの目的地とユーザの現在地の間の距離に応じて、近距離用の第２の関連性データと遠距離用の第２の関連性データのいずれかを選択して用いる。その結果、図１６（ｂ）および（ｃ）に例示したように、領域Ａ０２に表示される第２の機能のボタンが、ユーザの発話内容が示す位置とユーザの現在位置との間の距離に応じて変化することになる。

以上のように、第４変形例にかかる音声エージェントシステム１によれば、ユーザの現在位置に応じた適切な第２の機能のボタンがユーザに対し提示される。

なお、上記の第４変形例の説明においては、ユーザの目的地を示すデータが、ユーザが第１の機能の実行指示を行うために発話した音声が示す文章を表わす文章データから抽出されるものとした。これに代えて、端末装置１１が第１の機能の実行中にユーザが端末装置１１に入力したデータや、端末装置１１が第１の機能の実行中に情報提供サーバ装置１３から取得したデータ等から、ユーザの目的地を示すデータの抽出が行われる構成としてもよい。

［第５変形例］
第５変形例においては、ユーザが端末装置１１に対し行った機能の実行指示の履歴に応じて、領域Ａ０２に表示されるボタンが変化する。第５変形例において、端末装置１１はユーザの指示に従いいずれかの機能を実行した場合、実行した機能を識別する機能ＩＤと、その時点でクロック１０７により生成された現在時刻を示す時刻データを、履歴データとして音声認識サーバ装置１２に送信する。音声認識サーバ装置１２の受信手段１２３は履歴データを取得する履歴データ取得手段として機能し、端末装置１１から送信されてくる履歴データを受信する。音声認識サーバ装置１２は、端末装置１１毎に、履歴データをメモリ２０１に記録する。ただし、音声認識サーバ装置１２は端末装置１１毎に受信した履歴データが所定数（例えば、１０００個）を超えた場合、新しく受信した履歴データを記録するとともに、古いものから順次、履歴データを削除する。

図１７は、メモリ２０１に記録される履歴データの構成例を示した図である。履歴データは、端末装置１１において実行された機能を時系列的に示すデータである。以下、時系列的に並んで実行された２つの機能のうち、先に実行されたものを「先行機能」、後に実行されたものを「後続機能」という。

音声認識サーバ装置１２は、履歴データに従い、例えば以下の規則に従い、端末装置１１毎に、先行機能と後続機能との組み合わせ毎のウェイトを算出する。
（１）先行機能の実行された時刻から後続機能の実行された時刻までの時間が所定時間以内（例えば、３０分以内）のものを、連続して実行された２つの機能として特定する。（２）連続して実行された先行機能と後続機能の組み合わせ毎にその数をカウントし、カウントした数を０．０１倍した数を１に加えた数をその先行機能と後続機能の組み合わせのウェイトとする。

音声認識サーバ装置１２は、先行機能と後続機能との組み合わせ毎のウェイトを示すウェイトデータをメモリ２０１に記憶する。図１８は、メモリ２０１に記憶されるウェイトデータの構成例を示した図である。ウェイトデータは、先行機能と後続機能の組み合わせに応じたウェイトを示すデータである。

第５変形例において、音声認識サーバ装置１２は第２の機能の特定の際（図１０のステップＳ１０７）、第２の関連性データ（図７）が示す第１の機能と第２の機能との組み合わせに応じたスコアに、ウェイトデータが示すウェイト（第１の機能を先行機能とし、第２の機能を後続機能とした場合のそれらの組み合わせに応じたウェイト）を乗じて得られるスコアを用いる。

図１９は、第５変形例にかかる端末装置１１のディスプレイ１０４１に表示される画面を例示した図である。図１９（ｂ）は、ユーザがまだあまり端末装置１１を使用していない時に、図１９（ａ）の画面が表示されている状態の端末装置１１に対し、「カレーが食べたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。一方、図１９（ｃ）は、ユーザが「レストラン検索」を頻繁に利用し、「レストラン検索」の機能を利用した後に「連絡先リスト」を頻繁に利用した後に、図１９（ａ）の画面が表示されている状態の端末装置１１に対し、「カレーが食べたい」と発話した場合にディスプレイ１０４１に表示される画面を例示している。

図１９（ｂ）および（ｃ）の画面の領域Ａ０１に表示される情報は同じであるが、領域Ａ０２に表示される第２の機能のボタンが異なっている。すなわち、図１９の画面においては、図１９（ｂ）の画面において表示されていた「スケジュール」のボタンに代えて、「連絡先リスト」のボタンが表示されている。これは、ユーザが「レストラン検索」を先行機能、「連絡先リスト」を後続機能として頻繁に利用した結果、これらの機能の組み合わせに応じたウェイトが増加し、これらの機能の組み合わせに応じたウェイト乗算後のスコアが増加したためである。

以上のように、第５変形例にかかる音声エージェントシステム１によれば、ユーザの機能の選択パターンに応じて、適切な第２の機能のボタンがユーザに対し提示される。

［その他の変形例］
（１）上述した第３変形例においては、端末装置１１の現在位置に応じて異なる第２の関連性データ（図１３）が用いられる。これに代えて、現在時刻に応じて異なる第２の関連性データが用いられる構成が採用されてもよい。

この変形例においては、音声認識サーバ装置１２は、クロック２０４により生成される現在時刻を示す時刻データを取得する時刻データ取得手段を備える。もしくは、音声認識サーバ装置１２の受信手段１２３が、クロック１０７により生成される時刻データを端末装置１１から受信することにより、時刻データ取得手段として機能してもよい。

また、この変形例においては、音声認識サーバ装置１２が、例えば、午前用の第２の関連性データ、午後用の第２の関連性データ、夜用の第２の関連性データ、のように１日の時間帯に応じて異なる第２の関連性データや、平日用の第２の関連性データ、休日用の第２の関連性データ、のようにカレンダーに応じて異なる第２の関連性データを取得する。そして、第２の機能の特定の際（図１０のステップＳ１０７）、時刻データが示す現在時刻に応じた第２の関連性データを用いる。

その結果、この変形例においては、時間帯や曜日等に応じて、適切な第２の機能のボタンがユーザに対し提示される。

（２）上述した第５変形例においては、例えばユーザＡの端末装置１１に対し音声認識サーバ装置１２が送信する第２の機能ＩＤの特定において、ユーザＡの履歴データに基づき生成されたウェイトデータが用いられる。これに代えて、もしくは加えて、ユーザＡの端末装置１１に対し音声認識サーバ装置１２が送信する第２の機能ＩＤの特定において、ユーザＡ以外のユーザの履歴データに基づき生成されたウェイトデータを用いる構成が採用されてもよい。

この変形例によれば、多くの人（他人）が頻繁に利用している先行機能と後続機能の組み合わせが、各自の端末装置１１において領域Ａ０２に表示されるボタンに反映される。

（３）上述した第５変形例においては、履歴データは先行機能と後続機能の組み合わせを示す。これに代えて、履歴データが、先行機能および先行機能において用いられたパラメータデータと、後続機能および後続機能において用いられたパラメータデータとの組み合わせを示す構成としてもよい。

この変形例によれば、例えばあるユーザが頻繁に、「ショップ検索」機能においてキーワード「衣料品」にて検索をした後、「乗換案内」機能において目的地「銀座」を指定しているような場合、ユーザが「衣料品を買いたい」と発話した場合、第１の機能として「ショップ検索」機能が特定され、衣料品店が検索されると同時に、第２の機能として「乗換案内」が特定され、ユーザが「乗換案内」ボタンをタッチ操作すると、新たに第１の機能として実行される「乗換案内」において、目的地「銀座」が自動入力される。

（４）上述した実施形態および変形例においては、端末装置１１の現在位置はＧＰＳユニット１０６により特定される。これに代えて、例えば端末装置１１が無線通信を行うために接続する無線基地局の位置を示す位置データを用いる等、他の種別の位置データが用いられてもよい。

（５）上述した実施形態および変形例においては、端末装置１１が音声認識サーバ装置１２に対し音声データを送信し、音声認識サーバ装置１２において音声データが表わす音声が示す文章の特定（音声認識）が行われる。これに代えて、端末装置１１が文章データ生成手段１２４と同様の構成部を備え、端末装置１１において文章の特定が行われる構成が採用されてもよい。この場合、端末装置１１から音声認識サーバ装置１２に対し、文章データが送信されることになる。

さらに、端末装置１１がキーワードデータ生成手段１２５と同様の構成部を備え、端末装置１１において文章からキーワードの抽出が行われる構成が採用されてもよい。この場合、端末装置１１から音声認識サーバ装置１２に対し、キーワードデータが送信されることになる。

（６）上述した第３変形例においては、端末装置１１の現在位置が「自宅」と「自宅以外」で区別される。場所の区分はこれに限られず、例えば、「自宅」、「オフィス」、「それら以外」のように、他の区分が採用されてもよい。

（７）上述した実施形態および変形例においては、ユーザは第１の機能を指定するためのデータ入力として、端末装置１１のマイク１０５に対し発話を行い、当該発話の音声を示す音声データが入力データとして利用される。ユーザが第１の機能を指定するために端末装置１１にデータを入力する方法は発話に限られず、また、入力データの形式も音声データに限られない。例えば、ユーザが発話に代えて、端末装置１１に対し、キーボード（タッチディスプレイ１０４に表示される仮想的なキーボード、端末装置１１に接続された機械的なキーボード等）等の入力デバイスを用いて文書を入力し、当該文章を示す文章データが入力データとして用いられてもよい。この場合、音声認識サーバ装置１２に相当するサーバ装置は、文章データ生成手段１２４を要さず、キーワードデータ生成手段１２５が受信手段１２３により受信された文章データを用いてキーワードデータを生成するように構成されることになる。

（８）上述した実施形態および変形例においては、端末装置１１、音声認識サーバ装置１２および情報提供サーバ装置１３は一般的なコンピュータに、本発明にかかるプログラムに従った処理を実行させることにより、実現されるものとした。これに代えて、端末装置１１、音声認識サーバ装置１２および情報提供サーバ装置１３うちの１以上を、いわゆる専用機として構成してもよい。

本発明は、上述した音声エージェントシステムに例示されるシステム、当該システムを構成する端末装置および音声認識サーバ装置に例示されるサーバ装置、これらの装置が行なう処理の方法、コンピュータをこれらの装置として機能させるためのプログラム、当該プログラムをコンピュータ読取可能に記録した不揮発性の記録媒体、といった形態で把握される。なお、本発明にかかるプログラムは、記録媒体を介する他、インターネットなどのネットワークを介してコンピュータに提供されてもよい。

１…音声エージェントシステム、１１…端末装置、１２…音声認識サーバ装置、１３…情報提供サーバ装置、１９…通信ネットワーク、１０１…メモリ、１０２…プロセッサ、１０３…通信ＩＦ、１０４…タッチディスプレイ、１０５…マイク、１０６…ＧＰＳユニット、１０７…クロック、１０９…バス、１１１…入力データ取得手段、１１２…送信手段、１１３…受信手段、１１４…処理実行手段、１１５…表示指示手段、１２１…第１の関連性データ取得手段、１２２…第２の関連性データ取得手段、１２３…受信手段、１２４…文章データ生成手段、１２５…キーワードデータ生成手段、１２６…第１の機能特定手段、１２７…第２の機能特定手段、１２８…送信手段、１３１…受信手段、１３２…処理実行手段、１３３…送信手段、２０１…メモリ、２０２…プロセッサ、２０３…通信ＩＦ、２０４…クロック、２０９…バス、１０４１…ディスプレイ、１０４２…タッチパネル

Claims

複数のキーワードの各々と、端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得する第１の関連性データ取得手段と、
前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する第２の関連性データ取得手段と、
前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する受信手段と、
前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定する第１の機能特定手段と、
前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定する第２の機能特定手段と、
前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信する送信手段と
を備えるサーバ装置。
前記受信手段は前記ユーザの音声を表わす前記入力データを受信し、
前記入力データが表わす音声が示す文章を表わす文章データを生成する文章データ生成手段と、
前記文章データ生成手段により生成された文章データが表わす文章に含まれるキーワードを表わすキーワードデータを、前記第１の機能特定手段により使用される前記キーワードデータとして生成するキーワードデータ生成手段と
を備える請求項１に記載のサーバ装置。
前記端末装置の現在位置を示す位置データを取得する位置データ取得手段を備え、
前記第２の関連性データ取得手段は、前記位置データが示す位置に応じて異なる前記第２の関連性データを取得する
請求項１または２に記載のサーバ装置。
前記端末装置が前記第１の機能の実行において使用するデータを取得する使用データ取得手段を備え、
前記第２の関連性データ取得手段は、前記使用データ取得手段により取得されたデータに位置を示すデータが含まれる場合、当該位置を示すデータが示す位置と前記位置データ取得手段により取得された位置データが示す前記端末装置の現在位置との距離に応じて異なる前記第２の関連性データを取得する
請求項３に記載のサーバ装置。
現在時刻を示す時刻データを取得する時刻データ取得手段を備え、
前記第２の関連性データ取得手段は、前記時刻データが示す現在時刻に応じて異なる前記第２の関連性データを取得する
請求項１乃至４のいずれか１項に記載のサーバ装置。
前記端末装置に対し前記ユーザにより行われた機能の実行指示の履歴を示す履歴データを取得する履歴データ取得手段を備え、
前記第２の関連性データ取得手段は、前記履歴データが示す履歴に応じて異なる前記第２の関連性データを取得する
請求項１乃至５のいずれか１項に記載のサーバ装置。
端末装置との間でデータ通信を行う通信手段を備えるコンピュータに、
複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得する処理と、
前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する処理と、
前記端末装置から、ユーザにより入力された入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを受信する処理と、
前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定する処理と、
前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定する処理と、
前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信する処理と
を実行させるプログラム。
サーバ装置と端末装置を備え、
前記サーバ装置は、
複数のキーワードの各々と、前記端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得する第１の関連性データ取得手段と、
前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する第２の関連性データ取得手段と
を備え、
前記端末装置は、
ユーザにより入力された入力データを取得する入力データ取得手段と、
前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを前記サーバ装置に送信する送信手段と
を備え、
前記サーバ装置は、
前記端末装置から前記入力データ、もしくは前記キーワードデータを受信する受信手段と、
前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定する第１の機能特定手段と、
前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定する第２の機能特定手段と、
前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信する送信手段と
を備え、
前記端末装置は、
前記サーバ装置から前記第１の機能識別データと前記１以上の第２の機能識別データを受信する受信手段と、
前記第１の機能識別データにより識別される前記第１の機能を実行する処理実行手段と、
前記処理実行手段により前記第１の機能が実行されている間、前記１以上の第２の機能識別データにより識別される前記１以上の第２の機能の各々に関し、当該機能の実行指示をユーザに促す表示を表示装置に指示する表示指示手段と
を備える
システム。
サーバ装置が、複数のキーワードの各々と、端末装置において実行され得る一連の処理の種別である複数の機能の各々との関連性の高低を示す第１の関連性データを取得するステップと、
前記サーバ装置が、前記複数の機能に含まれる一の機能と前記複数の機能に含まれ当該一の機能とは異なる他の機能との関連性の高低を示す第２の関連性データを取得する処理と、
前記端末装置が、ユーザにより入力された入力データを取得するステップと、
前記端末装置が、前記入力データ、もしくは前記入力データが表わすキーワードを表わすキーワードデータを前記サーバ装置に送信するステップと、
前記サーバ装置が、前記入力データが表わすキーワード、もしくは前記キーワードデータが表わすキーワードに関し前記第１の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１の機能を第１の機能として特定するステップと、
前記サーバ装置が、前記第１の機能に関し前記第２の関連性データが示す関連性の高低に基づき、前記複数の機能の中から１以上の機能を第２の機能として特定するステップと、
前記サーバ装置が、前記第１の機能を識別する第１の機能識別データと、前記１以上の第２の機能を各々識別する１以上の第２の機能識別データを前記端末装置に送信するステップと、
前記端末装置が、前記第１の機能識別データにより識別される前記第１の機能を実行する間、前記１以上の第２の機能識別データにより識別される前記１以上の第２の機能の各々に関し、当該機能の実行指示をユーザに促す表示を表示装置に指示するステップと
を備える方法。