JP7250547B2

JP7250547B2 - エージェントシステム、情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP7250547B2
Application number: JP2019018971A
Authority: JP
Inventors: 智裕鈴木; 潤一郎尾中; 弘一谷▲崎▼
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-02-05
Filing date: 2019-02-05
Publication date: 2023-04-03
Anticipated expiration: 2039-02-05
Also published as: US11508368B2; CN111599356A; US20200251108A1; JP2020126166A; CN111599356B

Description

本発明は、エージェントシステム、情報処理装置、情報処理方法、およびプログラムに関する。

人間と音声対話によって情報を提供するヒューマンマシンインターフェースの研究が進められている。これに関連し、ロボットのコミュニケーションの対象とする人物の状況に基づいて、当該人物に対する発話の可否や発話音量、発話口調を決定する技術や、語彙が登録された辞書を利用して、乗員が発話した音声を認識し、車室内の複数の制御対象機器を、認識した音声の内容に応じて制御する技術が知られている（例えば、特許文献１、２参照）。

特許第４９７６９０３号公報特開２００７－２８６１３６号公報

しかしながら、従来の技術では、ユーザの発話に不明確な文言が含まれていると、ユーザの発話内容を正確に認識できない場合があった。

本発明の態様は、このような事情を考慮してなされたものであり、ユーザの発話内容を、より正確に認識することができるエージェントシステム、情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明に係るエージェントシステム、情報処理装置、情報処理方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係るエージェントシステムは、移動体の乗員の発話内容を含む音声を認識する認識部と、前記乗員を含む画像を取得する取得部と、前記認識部により認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された、発話内容が不明確となる文言を含む不明確情報とを照合し、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記取得部により取得された画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を推定し、推定した前記第１方向または前記第２方向に存在する地物を推定する推定部と、を備え、前記認識部は、前記推定部により推定された地物に基づいて、前記乗員の発話内容を認識する、エージェントシステムである。

（２）：上記（１）の態様において、前記取得部は、複数のマイクのそれぞれにより収集された前記乗員の音声を取得し、前記推定部は、前記取得部により取得された複数のマイクのそれぞれから取得される音声に基づいて、前記第１方向を推定するものである。

（３）：上記（２の態様において、前記推定部は、前記複数のマイクのそれぞれから取得される音声の強さのピーク値と、それぞれがピーク値となる時間差情報とに基づいて、前記前記第１方向を推定するものである。

（４）：上記（１）～（３）のうち何れか一つの態様において、前記推定部は、前記移動体の位置データと前記第１方向または前記第２方向とに基づいて、前記記憶部に記憶された地図情報から前記第１方向または前記第２方向に存在する地物を推定するものである。

（５）：上記（１）～（４）のうち何れか一つの態様において、前記推定部は、前記乗員の発話内容に含まれる特徴情報を取得し、取得した特徴情報に基づいて、前記第１方向または前記第２方向に存在する地物を推定するものである。

（６）：上記（１）～（５）のうち何れか一つの態様において、前記推定部は、前記第１方向または前記第２方向の変化がない状態が所定時間以上継続している場合に、前記第１方向または前記第２方向に存在する地物に関する情報を前記記憶部に記憶させ、前記乗員の発話内容に不明確な文言が含まれる場合に、前記記憶部に記憶された前記地物に関する情報の中から前記不明確な文言に対応する地物を推定するものである。

（７）：上記（１）～（６）のうち何れか一つの態様において、前記推定部は、前記第１方向または前記第２方向に存在する複数の地物候補が推定された場合に、前記記憶部に記憶された前記乗員に対するプロファイル情報に基づいて、前記複数の地物候補のうち一以上の地物を選択するものである。

（８）：上記（７）の態様において、前記推定部は、前記記憶部に記憶されたプロファイル情報に基づいて、前記複数の地物候補の優先度を設定するものである。

（９）：上記（１）～（８）のうち何れか一つの態様において、前記認識部により認識された発話内容に対応する情報を生成する生成部と、前記生成部により生成された情報を前記乗員に提供する情報提供部と、を更に備えるものである。

（１０）：この発明の一態様に係る情報処理装置は、移動体の乗員の発話内容を含む音声を認識する認識部と、前記乗員を含む画像を取得する取得部と、前記認識部により認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された、発話内容が不明確となる文言を含む不明確情報とを照合し、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記取得部により取得された画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を推定し、推定した前記第１方向または前記第２方向に存在する地物を推定する推定部と、を備え、前記認識部は、前記推定部により推定された地物に基づいて、前記乗員の発話内容を認識しつつ、前記移動体に搭載された機器または前記移動体を制御する、情報処理装置である。

（１１）：上記（１０）の態様において、前記情報処理装置は、前記移動体に搭載され、前記認識部により認識された発話内容に対応する情報を生成する生成部と、前記生成部により生成された情報を前記乗員に提供する情報提供部と、を更に備えるものである。

（１２）：この発明の一態様に係る情報処理方法は、単一または複数のコンピュータが、移動体の乗員の発話内容を含む音声を認識するプロセスと、前記乗員を含む画像を取得するプロセスと、認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された発話内容が不明確となる文言を含む不明確情報とを照合するプロセスと、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を取得するプロセスと、取得した前記第１方向または前記第２方向に存在する地物を推定するプロセスと、推定された地物に基づいて、前記乗員の発話内容を認識するプロセスとを有する、情報処理方法である。

（１３）：この発明の一態様に係るプログラムは、単一または複数のコンピュータにインストールされ、移動体の乗員の発話内容を含む音声を認識する処理と、前記乗員を含む画像を取得する処理と、認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された発話内容が不明確となる文言を含む不明確情報とを照合する処理と、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を取得する処理と、取得された前記第１方向または前記第２方向に存在する地物を推定する処理と、推定された地物に基づいて、前記乗員の発話内容を認識する処理とを含む、前記コンピュータに実行させるプログラムである。

（１）～（１３）の態様によれば、ユーザの発話内容を、より正確に認識することができる。

第１の実施形態に係るエージェントシステム１の構成の一例を示す図である。第１の実施形態に係るエージェント装置１００の構成の一例を示す図である。運転席から見た車室内の一例を示す図である。車両Ｍを上から見た車室内の一例を示す図である。第１の実施形態に係るサーバ装置２００の構成の一例を示す図である。不明確情報２３２の内容の一例を示す図である。回答情報２３４の内容の一例を示す図である。推定部２２０の処理について説明するための図である。図８に示す走行の場面における車室内の様子を説明するための図である。音声データにより第１方向を推定することについて説明するための図である。パーソナルプロファイル２３８に基づいて地物を選択することについて説明するための図である。第１の実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。第１の実施形態に係るサーバ装置２００の一例の処理の流れを示すフローチャートである。第２の実施形態に係るエージェント装置１００Ａの一例を示す図である。第２の実施形態に係るエージェント装置１００Ａの一連の処理の流れを示すフローチャートである。

以下、図面を参照し、本発明のエージェントシステム、情報処理装置、情報処理方法、エージェントおよびプログラムの実施形態について説明する。なお、以下では、車両（移動体の一例）に搭載されるエージェント装置（情報処理装置の一例）を含むエージェントシステムについて説明するものとする。エージェントシステムは、車両の乗員（ユーザの一例）と音声対話を行ったり、車両機器や他の機器、走行等を含めた車両全般の制御を行ったりする機能（以下、エージェント機能と称する）を有する。エージェント機能は、ある種の人工知能的機能を持つソフトウェアエージェント（インテリジェントエージェント）によって実現される。

＜第１の実施形態＞
［システム構成］
図１は、第１の実施形態に係るエージェントシステム１の構成の一例を示す図である。第１の実施形態に係るエージェントシステム１は、例えば、車両（以下、車両Ｍ）に搭載されるエージェント装置１００と、サーバ装置２００とを備える。車両Ｍは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。

エージェント装置１００とサーバ装置２００とは、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等が含まれる。ネットワークＮＷには、例えば、Ｗｉ－ＦｉやＢｌｕｅｔｏｏｔｈ（登録商標、以下省略）等無線通信を利用したネットワークが含まれてよい。エージェントシステム１は、複数のエージェント装置１００および複数のサーバ装置２００により構成されてもよい。

エージェント装置１００は、エージェント機能を用いて車両Ｍの乗員からの音声を取得し、取得した音声をサーバ装置２００に送信する。また、エージェント装置１００は、サーバ装置から得られるデータ（例えば、エージェントデータ）等に基づいて、乗員と対話したり、画像や映像等の情報を提供したり、車載機器や他の装置を制御したりする。

サーバ装置２００は、車両Ｍに搭載されたエージェント装置１００と通信し、エージェント装置１００から各種データを取得する。サーバ装置２００は、取得したデータに基づいて、音声等による問い合わせに関するエージェントデータを生成し、生成したエージェントデータをエージェント装置１００に提供する。第１の実施形態に係るサーバ装置２００の機能は、エージェント機能に含まれる。また、サーバ装置２００の機能は、エージェント装置１００におけるエージェント機能を、より高精度な機能に更新する。

［エージェント装置の構成］
図２は、第１の実施形態に係るエージェント装置１００の構成の一例を示す図である。第１の実施形態に係るエージェント装置１００は、例えば、エージェント側通信部１０２と、車室内カメラ１０４と、マイク（マイクロフォン）１０６と、スピーカ１０８と、表示部１１０と、入力部１１２と、車両センサ１１４と、ＧＮＳＳ（Global Navigation Satellite System）受信機１１６と、車外カメラ１１８と、エージェント側制御部１２０と、エージェント側記憶部１５０とを備える。これらの装置や機器は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続されてよい。なお、図２に示すエージェント装置１００の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

エージェント側通信部１０２は、ＮＩＣ（Network Interface controller）等の通信インターフェースを含む。エージェント側通信部１０２は、ネットワークＮＷを介してサーバ装置２００等と通信する。

車室内カメラ１０４は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子を利用したデジタルカメラである。車室内カメラ１０４は、例えば、エージェント装置１００が搭載された車両Ｍの車室内の所定の位置に設置される。所定の位置とは、例えば、フロントウインドシールド上部やルームミラー、インストルメントパネル等である。車室内カメラ１０４は、車室内のシートに着座する各乗員の顔等を撮像する。また、車室内カメラ１０４は、例えば、所定のタイミングで各乗員を繰り返し撮像する。車室内カメラ１０４は、乗員を撮像した画像のデータ（以下、第１画像データ）を生成し、生成した第１画像データをエージェント側制御部１２０に出力する。

マイク１０６は、車室内の音声を電気信号化し収音する音声入力装置である。マイク１０６は、収音した音声のデータ（以下、音声データ）をエージェント側制御部１２０に出力する。例えば、マイク１０６は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイク１０６は、マットランプ、ステアリングホイール、インストルメントパネル、またはシートの付近に設置される。マイク１０６は、車室内に複数設置されてよい。

スピーカ１０８は、例えば、車室内のシート付近または表示部１１０付近に設置される。スピーカ１０８は、エージェント側制御部１２０により出力される情報に基づいて音声を出力する。

表示部１１０は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイ等の表示装置を含む。表示部１１０は、エージェント側制御部１２０により出力される情報に基づいて画像を表示する。

入力部１１２は、例えば、ボタン、キーボードやマウス等のユーザインターフェースである。入力部１１２は、乗員の操作を受け付けて、受け付けた操作に応じた信号をエージェント側制御部１２０に出力する。入力部１１２は、表示部１１０と一体として構成されるタッチパネルであってもよい。

図３は、運転席から見た車室内の一例を示す図である。図示の例の車室内には、マイク１０６Ａ～１０６Ｃと、スピーカ１０８Ａ～１０８Ｃと、表示部１１０Ａ～１１０Ｃとが設置される。マイク１０６Ａは、例えば、ステアリングホイールに設けられ、主に運転者が発話した音声を収音する。マイク１０６Ｂは、例えば、助手席正面のインストルメントパネル（ダッシュボードまたはガーニッシュ）ＩＰに設けられ、主に助手席の乗員が発話した音声を収音する。マイク１０６Ｃは、例えば、インストルメントパネルの中央（運転席と助手席との間）付近に設置される。

スピーカ１０８Ａは、例えば、運転席側のドアの下部に設置され、スピーカ１０８Ｂは、例えば、助手席側のドアの下部に設置される。スピーカ１０８Ｃは、例えば、表示部１１０Ｃの付近、つまり、インストルメントパネルＩＰの中央付近に設置される。

表示部１１０Ａは、例えば運転者が車外を視認する際の視線の先に虚像を表示させるＨＵＤ（Head-Up Display）装置である。ＨＵＤ装置は、例えば、車両Ｍのフロントウインドシールド、或いはコンバイナーと呼ばれる光の透過性を有する透明な部材に光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。

表示部１１０Ｂは、運転席（ステアリングホイールに最も近い座席）の正面付近のインストルメントパネルＩＰに設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部１１０Ｂは、例えば、ＬＣＤや有機ＥＬ表示装置等である。表示部１１０Ｂには、例えば、車両Ｍの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。

表示部１１０Ｃは、インストルメントパネルＩＰの中央付近に設置される。表示部１１０Ｃは、例えば、表示部１１０Ｂと同様に、ＬＣＤや有機ＥＬ表示装置等である。表示部１１０Ｃは、テレビ番組や映画等のコンテンツを表示する。

なお、車両Ｍには、更に、後部座席付近にマイクとスピーカが設けられてよい。図４は、車両Ｍを上から見た車室内の一例を示す図である。車室内には、図３で例示したマイクスピーカに加えて、更に、マイク１０６Ｄ、１０６Ｅと、スピーカ１０８Ｄ、１０８Ｅとが設置されてよい。

マイク１０６Ｄは、例えば、助手席ＳＴ２の後方に設置された後部座席ＳＴ３の付近（例えば、助手席ＳＴ２の後面）に設けられ、主に、後部座席ＳＴ３に着座する乗員が発話した音声を収音する。マイク１０６Ｅは、例えば、運転席ＳＴ１の後方に設置された後部座席ＳＴ４の付近（例えば、運転席ＳＴ１の後面）に設けられ、主に、後部座席ＳＴ４に着座する乗員が発話した音声を収音する。

スピーカ１０８Ｄは、例えば、後部座席ＳＴ３側のドアの下部に設置され、スピーカ１０８Ｅは、例えば、後部座席ＳＴ４側のドアの下部に設置される。

なお、図１に例示した車両Ｍは、図３または図４に例示するように、乗員である運転手が操作可能なステアリングホイールを備える車両であるものとして説明したがこれに限られない。例えば、車両Ｍは、ルーフがない、すなわち車室がない（またはその明確な区分けがない）車両であってもよい。また、図３または図４の例では、車両Ｍを運転操作する運転手が座る運転席と、その他の運転操作をしない乗員が座る助手席や後部座席とが一つの室内にあるものとして説明しているがこれに限られない。また、図３または図４の例では、車両Ｍが、ステアリングホイールを備える車両であるものとして説明しているがこれに限られない。例えば、車両Ｍは、ステアリングホイールのような運転操作機器が設けられていない自動運転車両であってもよい。自動運転車両とは、例えば、乗員の操作に依らずに車両の操舵または加減速のうち一方または双方を制御して運転制御を実行することである。

図２の説明に戻り、車両センサ１１４は、車両Ｍの向きを検出する方位センサや、車両Ｍの速度を検出する車速センサ、車両Ｍの加速度を検出する加速度センサ、車両Ｍの鉛直軸回りの角速度を検出するヨーレートセンサ、操舵トルクを検出するトルクセンサ等を含む。車両センサ１１４は、検出した方位や速度、加速度等を含むデータをエージェント側制御部１２０に出力する。

ＧＮＳＳ受信機１１６は、ＧＰＳ（Global Positioning System）衛星等のＧＮＳＳ衛星から受信した電波に基づいて、車両Ｍの位置を検出する。ＧＮＳＳ受信機１１６によって検出される位置は、例えば、緯度および経度によって表される絶対座標であってよい。ＧＮＳＳ受信機１１６は、検出した車両Ｍの位置を示すデータ（以下、位置データ）をエージェント側制御部１２０に出力する。

車外カメラ１１８は、例えば、ＣＣＤやＣＭＯＳ等の固体撮像素子を利用したデジタルカメラである。車外カメラ１１８は、車両Ｍの任意の箇所に取り付けられる。前方を撮像する場合、車外カメラ１１８は、フロントウインドシールド上部やルームミラー裏面等に取り付けられる。後方を撮像する場合、車外カメラ１１８は、リアウインドシールド上部やバックドア等に取り付けられる。側方を撮像する場合、車外カメラ１１８は、ドアミラー等に取り付けられる。車外カメラ１１８は、例えば、周期的に繰り返し自車両Ｍの周辺を撮像する。車外カメラ１１８は、ステレオカメラであってもよい。また、車外カメラ１１８は、車両Ｍの水平方向に関して全方位（３６０°）を撮影可能な全方位カメラでもよい。車外カメラ１１８は、車両Ｍの周囲を撮像した画像のデータ（以下、第２画像データ）を生成し、生成した第２画像データをエージェント側制御部１２０に出力する。

エージェント側制御部１２０は、例えば、取得部１２２と、音声合成部１２４と、出力制御部１２６と、通信制御部１２８とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の単一または複数のプロセッサ（コンピュータ）がプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めエージェント側記憶部１５０（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでエージェント側記憶部１５０にインストールされてもよい。出力制御部１２６と、スピーカ１０８と、表示部１１０とを組み合わせたものが「情報提供部」の一例である。

エージェント側記憶部１５０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。エージェント側記憶部１５０には、例えば、プロセッサによって参照されるプログラム等が格納される。

取得部１２２は、車室内カメラ１０４から第１画像データを取得したり、車外カメラ１１８から第２画像データを取得したりする。また、取得部１２２は、マイク１０６から音声データを取得したり、車両センサ１１４から車両Ｍの方位や速度等のデータを取得したり、ＧＮＳＳ受信機１１６から車両Ｍの位置データを取得したりする。

音声合成部１２４は、エージェント側通信部１０２がサーバ装置２００から受信したデータ（後述するエージェントデータ）に音声制御内容が含まれる場合に、音声制御として指示された音声データに基づいて、人工的な合成音声（以下、エージェント音声と称する）を生成する。

出力制御部１２６は、音声合成部１２４によってエージェント音声が生成されると、そのエージェント音声をスピーカ１０８に出力させる。また、出力制御部１２６は、エージェントデータに画像制御内容が含まれる場合に、画像制御として指示された画像データを表示部１１０に表示させる。また、出力制御部１２６は、音声データの認識結果（フレーズ等のテキストデータ）の画像を表示部１１０に表示させてもよい。また、出力制御部１２６は、エージェントデータに機器制御内容が含まれる場合に、対象の車載機器（例えば、車両内の空調設備、車内灯）に対する制御指示を出力してもよい。また、出力制御部１２６は、車両Ｍに対して走行に関する各種の制御指示（例えば、加減速、停止、右左折等）を出力してもよい。

通信制御部１２８は、エージェント側通信部１０２を介して、取得部１２２によって取得された音声データおよび位置データをサーバ装置２００に送信する。また、通信制御部１２８は、エージェント側通信部１０２を介して、取得部１２２によって取得された第１画像データ、第２画像データ、方位や速度等のデータをサーバ装置２００に送信してもよい。

［サーバ装置の構成］
図５は、第１の実施形態に係るサーバ装置２００の構成の一例を示す図である。第１の実施形態に係るサーバ装置２００は、例えば、サーバ側通信部２０２と、サーバ側制御部２１０と、サーバ側記憶部２３０とを備える。

サーバ側通信部２０２は、ＮＩＣ等の通信インターフェースを含む。サーバ側通信部２０２は、ネットワークＮＷを介して各車両Ｍに搭載されたエージェント装置１００等と通信する。

サーバ側制御部２１０は、例えば、取得部２１２と、発話区間抽出部２１４と、音声認識部２１６と、判定部２１８と、推定部２２０と、エージェントデータ生成部２２２と、通信制御部２２４とを備える。これらの構成要素は、例えば、ＣＰＵやＧＰＵ等の単一または複数のプロセッサ（コンピュータ）がプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めサーバ側記憶部２３０（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでサーバ側記憶部２３０にインストールされてもよい。音声認識部２１６は、「認識部」の一例である。エージェントデータ生成部２２２は、「生成部」の一例である。

サーバ側記憶部２３０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。サーバ側記憶部２３０には、例えば、プロセッサによって参照されるプログラムのほかに、不明確情報２３２、回答情報２３４、地図情報２３６、パーソナルプロファイル（プロファイル情報の一例）２３８等が格納される。

図６は、不明確情報２３２の内容の一例を示す図である。不明確情報２３２には、例えば、音声認識部２１６による乗員の発話内容の認識において、その語句のみでは、発話内容全体の位置が不明確になり易い語句が含まれる。語句には、例えば、フレーズやワード（単語）、センテンス（文章）が含まれる。図６の例において、不明確情報２３２には、「この」、「その」、「あの」等の指示語が含まれる。指示語には、例えば、事物に関する指示語（例えば、これ、それ、あれ）や場所に関する指示語（例えば、ここ、そこ、あそこ）、方向に関する指示語（例えば、こっち、そっち、あっち）が含まれる。

図７は、回答情報２３４の内容の一例を示す図である。回答情報２３４には、例えば、意味情報に、エージェント側制御部１２０に実行させる制御内容が対応付けられている。意味情報とは、例えば、音声認識部２１６により発話内容全体から認識される意味である。回答情報２３４の制御内容には、例えば、車載機器に対する機器制御（起動、停止）に関する情報や、エージェント音声の出力制御、表示部１１０に表示させる画像制御等が含まれる。また、制御内容には、地図情報２３６から取得した情報やネットワークＮＷを介して接続された外部装置から取得した情報に基づく制御内容が含まれてよい。なお、図７に示す「＊＊＊」は、意味情報または回答（音声や画面表示）に対応する文字、数値、記号等に置き換わることを意味する文字列である。

地図情報２３６は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。また、地図情報２３６には、道路情報、交通規制情報が含まれる。また、地図情報２３６は、ＰＯＩ（Point Of Interest）情報が含まれてもよい。ＰＯＩ情報には、例えば、地物に関する情報が含まれる。地物に関する情報には、例えば、地物の属性（ジャンル）、地物の名称、地物の特徴情報、地物に基づく案内情報、地物の画像が含まれる。地物には、天然物や人工物にかかわらず、地上にある全ての物が含まれる。例えば、地物には、例えば、ランドマークや観光エリア（例えば、山、滝、湖）、建築物（例えば、寺院、橋、ビル、家屋、店舗）、テーマパークやショッピングモール等の商業施設が含まれる。また、地物には、信号機や標識、中央分離帯、フェンス、ガードレール、ポール、電柱、停止している移動体（車両）、走行中の移動体、歩行中の歩行者、その他の物体が含まれてよい。地物の特徴情報には、例えば、地物の色や形状、大きさに関する情報が含まれる。地物の案内情報には、例えば、施設や店舗の詳細情報やキャンペーン情報等が含まれる。また、地物の案内情報には、音声情報が含まれてよい。地図情報２３６に含まれる各種情報は、位置座標等により対応付けられている。地図情報２３６は、サーバ側通信部２０２を用いて外部装置にアクセスすることにより、随時、アップデートされてよい。

パーソナルプロファイル２３８は、例えば、乗員を識別する識別情報である乗員ＩＤに、趣味や嗜好に関する情報が対応付けられている。また、パーソナルプロファイルは、例えば、乗員の氏名、性別、年齢等の個人情報や、エージェントシステム１の使用履歴が含まれる。エージェントシステム１の使用履歴には、例えば、音声履歴や走行履歴、回答情報履歴、車両Ｍの乗員数や搭乗者に関する情報が含まれる。パーソナルプロファイル２３８は、乗員により設定されてもよく、エージェントシステム１の使用履歴を用いた機械学習に基づいてサーバ装置２００が設定してもよい。

取得部２１２は、サーバ側通信部２０２を介して、エージェント装置１００から、音声データおよび位置データを取得する。また、取得部２１２は、サーバ側通信部２０２を介して第１画像データおよび第２画像データ、方位や速度等のデータを取得してもよい。

発話区間抽出部２１４は、取得部１２２によって取得された音声データから、乗員が発話している期間（以下、発話区間と称する）を抽出する。例えば、発話区間抽出部２１４は、零交差法を利用して、音声データに含まれる音声信号の振幅に基づいて発話区間を抽出してよい。また、発話区間抽出部２１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づいて、音声データから発話区間を抽出してもよいし、発話区間特有の音声信号をテンプレート化したデータベースとテンプレートマッチング処理を行うことで、音声データから発話区間を抽出してもよい。

音声認識部２１６は、発話区間抽出部２１４によって抽出された発話区間ごとに音声データを認識し、認識した音声データをテキスト化することで、発話内容を含むテキストデータを生成する。例えば、音声認識部２１６は、発話区間の音声信号を、低周波数や高周波数等の複数の周波数帯に分離し、分類した各音声信号をフーリエ変換することで、スペクトログラムを生成する。音声認識部２１６は、生成したスペクトログラムを、再帰的ニューラルネットワークに入力することで、スペクトログラムから文字列を得る。再帰的ニューラルネットワークは、例えば、学習用の音声から生成したスペクトログラムに対して、その学習用の音声に対応した既知の文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。そして、音声認識部２１６は、再帰的ニューラルネットワークから得た文字列のデータを、テキストデータとして出力する。

また、音声認識部２１６は、自然言語のテキストデータの構文解析を行って、テキストデータを形態素に分け、各形態素からテキストデータに含まれる文言を認識する。なお、音声認識部テキストデータとして文字列のデータを出力する際、又は、図示しない記憶部に記憶された音声認識用情報（辞書）に基づいて構文解析の際もしくは各形態素から認識する際に、発言内容が認識できない音声データは不明確情報とされる。

判定部２１８は、音声認識部２１６により認識されたテキストデータに不明確な文言が含まれるか否かを判定する。不明確な文言には、例えば、その文言によって乗員の発言内容全体の意味が不明確になりやすい文言や、発言内容が認識できない文言が含まれる。例えば、判定部２１８は、音声認識部２１６により認識されたテキストデータに含まれる文言と、サーバ側記憶部２３０に記憶された不明確情報２３２とを照合し、テキストデータに含まれる文言の中に、不明確情報と合致する文言が含まれる場合に、テキストデータに不明確な文言が含まれると判定し、不明確情報と合致しない場合に、テキストデータに不明確文言が含まれないと判定する。

推定部２２０は、判定部２１８によりテキストデータに不明確な文言が含まれると判定された場合、その文言の対象の地物を推定する。推定部２２０の機能の詳細については、後述する。

音声認識部２１６は、判定部２１８によりテキストデータに含まれる文言の中に、不明確情報２３２に含まれる文言と合致する文言が含まれないと判定された場合、テキストデータの内容に基づいて発話内容全体の意味を認識する。また、音声認識部２１６は、判定部２１８によりテキストデータに含まれる文言の中に、不明確情報２３２に含まれる文言と合致する文言が含まれる判定された場合、テキストデータの内容と、推定部２２０による推定結果とに基づいて、発話内容全体の意味を認識する。

エージェントデータ生成部２２２は、音声認識部２１６により認識された発話内容の意味に基づいて、回答情報２３４の意味情報を参照し、合致する意味情報に対応付けられた制御内容を取得する。なお、認識結果として、「エアコンをつけて」、「エアコンの電源を入れてください」等の意味が認識された場合、エージェントデータ生成部２２２は、上述の意味を標準文字情報「エアコンの起動」や、標準コマンド情報「TURN_AC_ON」等に置き換える。これにより、発話内容の要求に文字揺らぎがあった場合にも要求にあった制御内容を取得し易くすることができる。

また、エージェントデータ生成部２２２は、取得した制御内容（例えば、機器制御、音声制御、または表示制御のうち少なくとも一つ）に対応する処理を実行させるためのエージェントデータを生成する。

通信制御部２２４は、エージェントデータ生成部２２２により生成されたエージェントデータを、サーバ側通信部２０２を介して車両Ｍに送信する。これにより、車両Ｍは、エージェント側制御部１２０によって、エージェントデータに対応する制御が実行される。

［推定部］
次に、推定部２２０の機能の詳細について説明する。図８は、推定部２２０の処理について説明するための図である。図８の例において、車両Ｍは、図示された車線Ｌ１、Ｌ２のうち、車線Ｌ１に沿って走行しているものとし、車両Ｍの周辺には物体ＯＢ１～ＯＢ４が存在するものとする。図９は、図８に示す走行の場面における車室内の様子を説明するための図である。図９の例において、乗員Ｐは、車両Ｍを運転しているものとする。

例えば、乗員Ｐが、車線Ｌ１を走行中に「あのビルは何？」と発話した場合、音声認識部２１６により発話内容の認識処理が実行される。判定部２１８は、音声認識部２１６により認識されたテキストデータに含まれる文言の中に、不明確情報２３２に含まれる文言と合致する文言が含まれるか否かを判定する。上記の例では、「あの」が不明確情報２３２の文言と合致する。そのため、判定部２１８は、発話内容に、発話内容に不明確な文言が含まれると判定する。推定部２２０は、発話内容に不明確な文言が含まれると判定された場合に、第１画像データに対する解析処理を行い、乗員Ｐの視線方向（第１方向）を取得する。視線方向とは、例えば、乗員Ｐの顔の向きまたは目の向きのうち一方または双方により導出される方向である。

例えば、推定部２２０は、第１画像データに対して、テンプレートマッチング等の解析処理を行って、第１画像データから乗員Ｐの顔の向きまたは目の向きのうち一方または双方を検出する。例えば、推定部２２０は、第１画像データから頭部の輪郭情報を抽出し、抽出した輪郭領域に含まれる各部位（目や鼻、口）の配置情報に基づいて、予め決められたテンプレートとのマッチングを行い、顔の向きを導出する。また、推定部２２０は、第１画像データに含まれる乗員Ｐの目における基準点と動点との位置関係から目の向きを検出する。例えば、基準点が目頭である場合、動点は虹彩である。また、基準点が角膜反射領域である場合、動点は瞳孔である。また、推定部２２０は、推定された視線の向きに対応付けて、乗員が注視している位置や、視界領域を推定してもよい。視界領域とは、注視位置を中心とした所定の範囲内の領域である。図９の例において、推定部２２０は顔の向きおよび目の向きに基づいて、乗員Ｐは矢印Ａ１の方向（進行方向の左前方）を向いていると推定する。

また、推定部２２０は、第１方向を推定するのに代えて（または加えて）、第１画像データに含まれる乗員が指し示す方向（第２方向）を取得してもよい。この場合、推定部２２０は、第１画像データに対してテンプレートマッチング等の解析処理を行って、乗員Ｐの指先や、乗員Ｐが把持する物体、または乗員Ｐのジェスチャーによって指し示す方向を第２方向として推定する。

また、推定部２２０は、上述した第１画像データにより第１方向を推定するのに代えて（または加えて）、乗員Ｐからの音声の指向性に基づいて第１方向を推定してもよい。この場合、推定部２２０は、例えば、複数のマイク１０６Ａ～１０６Ｅのうちから選択される複数のマイクのそれぞれから取得される音声に基づいて第１方向を推定する。

図１０は、音声データにより第１方向を推定することについて説明するための図である。例えば、乗員Ｐが、車線Ｌ１を走行中に「あのビルは何？」と発話した場合、推定部２２０は、複数のマイク１０６Ａ～１０６Ｅのそれぞれから取得される音声の強さ（例えば、音圧レベル）のピーク値や、各マイク間のピークとなった時間差情報（例えば、時間のずれ）を導出する。そして、推定部２２０は、各マイク間での時間のずれの大きさに基づいて、乗員Ｐの口が向いている方向を推定し、その方向を第１方向として推定する。

なお、推定部２２０は、複数のマイク１０６Ａ～１０６Ｅのうち、車室内の前方に設置された複数のマイク１０６Ａ～１０６Ｃを用いて第１方向を推定してもよい。また、推定部２２０は、ピーク値が最も大きいマイクを基準とし、そのマイクからの距離が近い順に所定数のマイクから得られる音声のピーク値および時間差情報を用いて第１方向を推定してもよい。また、マイク１０６に複数の音が集音された場合には、推定部２２０は、周波数帯に基づくフィルタリングを行って乗員Ｐからの音声のピーク値を抽出してもよい。

図１０の例において、マイク１０６Ａ～１０６Ｃにおける音圧レベルのピーク値と、時間差情報との関係において、マイク１０６Ｃのピーク値の大きさが他のピーク値よりも大きく、マイク１０６Ｃとマイク１０６Ａとのピーク値の時間差がマイク１０６Ｃとマイク１０６Ｂとのピーク値の時間差よりも短いものとする。この場合、推定部２２０は、矢印Ａ２の方向（進行方向の左前方）を乗員Ｐの口が向いている方向と推定する。また、推定部２２０は、上述した矢印Ａ１および矢印Ａ２の方向を推定した場合に、両方の方向を合わせて第１方向を推定してもよい。これにより、より精度よく第１方向を取得することができる。

次に、推定部２２０は、推定された第１方向または第２方向に存在する地物を推定する。例えば、推定部２２０は、車両Ｍの位置データ（図８に示す位置Ｐ１）に基づいて、地図情報２３６を参照し、車両Ｍの現在位置の周辺に存在するＰＯＩ情報を取得する。そして、推定部２２０は、取得したＰＯＩ情報に基づいて、車両Ｍの正面方向に対する第１方向または第２方向に存在する地物に関する情報を取得する。図８の例において、第１方向（矢印Ａ１の方向）が推定されている場合、推定部２２０は、車両Ｍの現在位置Ｐ１に基づき「あのビル」が物体ＯＢ２であると推定する。これにより、音声認識部２１６は、「あのビルは何？」という発話内容全体の意味を「物体ＯＢ２は何ですか？」という意味として認識する。

これにより、エージェントデータ生成部２２２は、「物体ＯＢ２は何ですか？」という意味情報に基づいて回答情報２３４を参照し、意味情報に対応付けられた制御内容に基づいて、音声データや画像をエージェントデータとして生成する。そして、エージェントデータ生成部２２２は、生成したデータを車両Ｍのエージェント装置１００に送信する。これにより、「あのビルは何？」という乗員Ｐの問い合わせに対して、例えば、「ＡＡＡビルです。」等の合成音声がスピーカ１０８から出力されたり、ＡＡＡビルに関する画像が表示部１１０に表示される。

[推定部の変形例]
例えば、推定部２２０は、上述した位置データに加えて車両Ｍの方位や速度等の情報をエージェント装置１００から取得し、取得した方や速度等の情報も含めて、第１方向または第２方向に対応する地物を推定してもよい。また、推定部２２０は、上述した第１方向および第２方向のそれぞれに対応する地物を推定してもよい。また、推定部２２０は、第１方向と第２方向とを合わせて１つの方向を設定し、設定した方向に対応する地物を推定してもよい。

また、推定部２２０は、乗員Ｐの発話内容に、地物の特徴情報が含まれる場合に、その特徴情報に基づいて、不明確な文言に対応する地物の推定を行ってもよい。例えば、乗員Ｐが「あの茶色い屋根のお店は何？」と発話した場合、推定部２２０は、不明確な文言と判定される「あの」に続く文言である「茶色」、「屋根」等を特徴情報として推定し、第２画像データに含まれる周辺画像から特徴情報との類似度が高い地物を推定する。また、推定部２２０は、地図情報２３６を参照し、車両Ｍの位置Ｐ１から第１方向および第２方向に存在する地物に関する情報を取得し、更に地物の特徴情報から茶色い屋根の地物を抽出する。これにより、発話内容に含まれる特徴情報に基づいて、不明確な文言に対応する地物を、より正確に推定することができる。

また、推定部２２０は、乗員Ｐの視線方向（第１方向）または乗員Ｐが指し示す方向（第２方向）を推定してから変化がない状態が第１所定時間以上継続している場合に、その方向に存在する地物に関する情報をサーバ側記憶部２３０に記憶させる。上述の「変化がない場合」には、所定範囲内の変化が含まれてよい。そして、視線方向または指し示す方向が変化した後、第２所定時間（例えば、数秒程度）以内に取得した乗員Ｐからの音声データに不明確な文言が含まれる場合、推定部２２０は、サーバ側記憶部２３０に記憶された地物を、その文言に対応する地物として推定する。これにより、例えば、乗員Ｐが、図８に示す物体ＯＢ４を第１所定時間以上眺めた後に、「さっきのビルは何？」と発話した場合に、「さっきのビル」が乗員Ｐの視線が長く留まっていた物体ＯＢ４であると推定することができる。したがって、音声認識部２１６は、さまざまな場面において不明確な文言に対する地物を推定することができ、発話内容全体の意味を、より正確に認識することができる。

また、推定部２２０は、第１方向または第２方向に存在する地物の候補が、複数存在する場合、サーバ側記憶部２３０に記憶されたパーソナルプロファイル２３８を参照し、複数の地物候補のうち乗員Ｐとの関連性の高い一以上の地物を選択してもよい。この場合、推定部２２０は、第１画像データに含まれる乗員Ｐの顔の特徴情報から乗員Ｐを特定したり、乗車時に乗員Ｐの乗員ＩＤや名前を、マイク１０６または入力部１１２により入力させることで乗員Ｐを特定する。そして、推定部２２０は、特定された乗員Ｐに関するパーソナルプロファイル２３８に基づいて、乗員Ｐの趣味や嗜好に合った地物を選択したり、過去に乗員Ｐが訪問したことがある地物を選択する。

図１１は、パーソナルプロファイル２３８に基づいて地物を選択することについて説明するための図である。図１１の例において、乗員Ｐが「あの茶色い壁のお店は何？」と発話したとする。推定部２２０は、車両Ｍの位置データと、第１方向または第２方向とに基づいて、不明確な文言である「あの」に対する地物候補として「ＢＢＢパスタ（イタリアンレストラン）」、「ＣＣＣ書店」、「ＤＤＤシューズ（靴屋）」を取得する。次に、推定部２２０は、乗員Ｐの乗員ＩＤ「０００１」に基づいてパーソナルプロファイル２３８を参照し、乗員ＩＤ「０００１」に対応付けられた趣味および嗜好情報を取得する。

図１１の例において、乗員Ｐの趣味は「外食」、「読書」であり、乗員Ｐの嗜好は「イタリアン」である。したがって、推定部２２０は、不明確な文言である「あの」に対応する地物として、乗員Ｐの趣味や嗜好と関連性の高いＢＢＢパスタ（イタリアンレストラン）が選択される。このように、乗員Ｐとの関連性の高い地物を推定することで、より正確に発話内容の意味を認識することができる。

また、推定部２２０は、パーソナルプロファイル２３８に基づいて地物の優先度を設定してもよい。図１１の例において、推定部２２０は、乗員Ｐとの関連性が最も高い「ＢＢＢパスタ」の優先度を他の地物よりも高く設定する。また、推定部２２０は、次に乗員Ｐとの関連性が高い「ＣＣＣ書店」の優先度を、「ＤＤＤシューズ（靴屋）」よりも高く設定する。これにより、複数の候補を乗員Ｐに提示する場合であっても、優先度に基づく順番で乗員Ｐに提示することができる。

また、推定部２２０は、地物候補の優先度を推定する場合に、車両Ｍに搭載されたカーナビゲーション装置（不図示）により設定された目的地や、車両Ｍの走行履歴に基づいて予測した行動予測に基づいて、それぞれの地物の優先度を推定してもよい。例えば、過去の走行履歴から同じ時間帯に食事に行く場合が多い場合、推定部２２０は、地物候補のうち、レストランに関する店舗の優先度を高くする。

［処理フロー］
次に、第１の実施形態に係るエージェントシステム１の処理（プロセス）の流れについてフローチャートを用いて説明する。なお、以下では、エージェント装置１００の処理と、サーバ装置２００との処理を分けて説明するものとする。また、以下に示す処理の流れは、所定のタイミングで繰り返し実行されてよい。所定のタイミングとは、例えば、音声データからエージェント装置を起動させる特定ワード（例えば、ウェイクアップワード）が抽出されたタイミングや、車両Ｍに搭載される各種スイッチのうち、エージェント装置１００を起動させるスイッチの選択を受け付けたタイミング等である。

図１２は、第１の実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。まず、エージェント側制御部１２０の取得部１２２は、マイク１０６によって収集される乗員の音声データを取得する（ステップＳ１００）。次に、取得部１２２は、車室内カメラ１０４により撮像された第１画像データ、および車外カメラ１１８により撮像された第２画像データを取得する（ステップＳ１０２）。次に、通信制御部１２８は、エージェント側通信部１０２を介して、音声データ、第１画像データ、第２画像データ、および車両Ｍの位置データをサーバ装置２００に送信する（ステップＳ１０４）。

次に、エージェント側通信部１０２は、サーバ装置２００から音声データに対応するエージェントデータを受信し（ステップＳ１０６）。出力制御部１２６は、受信したエージェントデータに基づく情報をスピーカ１０８または表示部１１０を用いて出力させることで、乗員に情報の提供を行う（ステップＳ１０８）。これにより、本フローチャートの処理は、終了する。なお、ステップＳ１０８の処理において、出力制御部１２６は、エージェントデータに基づいて、車載機器の制御を行ってもよい。

図１３は、第１の実施形態に係るサーバ装置２００の一例の処理の流れを示すフローチャートである。まず、サーバ側通信部２０２は、エージェント装置１００から音声データ、第１画像データ、第２画像データ、および位置データを取得する（ステップＳ１２０）。次に、発話区間抽出部２１４は、音声データに含まれる発話区間を抽出する（ステップＳ１２２）。次に、音声認識部２１６は、抽出された発話区間における音声データを認識する（ステップＳ１２４）。次に、判定部２１８は、音声データに不明確な文言が含まれるか否かを判定する（ステップＳ１２６）。音声データに不明確な文言が含まれると判定された場合、推定部２２０は、第１画像データに基づいて乗員の視線方向（第１方向）または乗員が指し示す方向（第２方向）を推定する（ステップＳ１２８）。次に、推定部２２０は、第２画像データに基づいて第１方向または第２方向に存在する物体を、不明確な文言に対応する地物として推定する（ステップＳ１３０）。

次に、音声認識部２１６は、推定部２２０により推定された地物に関する情報に基づいて発話内容全体の意味を認識する（ステップＳ１３２）。また、ステップＳ１２６の処理において、音声データに不明確な文言が含まれないと判定された場合、発話内容全体の意味を認識する（ステップＳ１３４）。

ステップＳ１３２またはステップＳ１３４の処理後、エージェントデータ生成部２２２は、発話内容全体の意味に基づくエージェントデータを生成する（ステップＳ１３６）。次に、サーバ側制御部２１０の通信制御部２２４は、サーバ側通信部２０２を介して、エージェントデータをエージェント装置１００に送信する（ステップＳ１３８）。これにより、本フローチャートの処理は、終了する。

以上説明した第１の実施形態によれば、ユーザ(乗員)の発話内容を、より正確に認識することができる。具体的には、第１の実施形態によれば、乗員の発話内容に不明確な文言が含まれる場合に、乗員の視線方向や乗員が指し示す方向に基づいて不明な文言に対応する地物を推定し、推定した地物を含めて発話内容全体の意味を、より正確に認識することができる。したがって、例えば、乗員が、車外の地物に対して「あの」、「この」のような直感的な文言を含む発話をした場合であっても、より適切な情報を乗員に提供することができる。

＜第２の実施形態＞
上述した第１の実施形態では、車両Ｍに搭載されたエージェント装置１００と、サーバ装置２００とが互いに異なる装置であるものとして説明したがこれに限定されるものではない。例えば、エージェント機能に係るサーバ装置２００の構成要素は、エージェント装置１００の構成要素に含まれてもよい。この場合、サーバ装置２００は、エージェント装置１００のエージェント側制御部１２０によって仮想的に実現される仮想マシンとして機能させてもよい。以下、サーバ装置２００の構成要素を含むエージェント装置１００Ａを第２の実施形態として説明する。この場合、エージェント装置１００Ａが「エージェントシステム」の一例である。なお、第２の実施形態において、上述した第１の実施形態と同様の構成要素については、同様の符号を付するものとし、ここでの具体的な説明は省略する。

図１４は、第２の実施形態に係るエージェント装置１００Ａの一例を示す図である。エージェント装置１００Ａは、例えば、エージェント側通信部１０２と、車室内カメラ１０４と、マイク１０６と、スピーカ１０８と、表示部１１０と、入力部１１２と、車両センサ１１４と、ＧＮＳＳ受信部１１６と、エージェント側制御部１２０Ａと、エージェント側記憶部１５０Ａとを備える。エージェント側制御部１２０Ａは、例えば、取得部１２２と、音声合成部１２４と、出力制御部１２６と、通信制御部１２８と、発話区間抽出部２１４Ａと、音声認識部２１６Ａと、判定部２１８Ａと、推定部２２０Ａと、エージェントデータ生成部２２２Ａとを備える。

また、エージェント側記憶部１５０Ａは、例えば、プロセッサによって参照されるプログラムのほかに、不明確情報２３２Ａ、回答情報２３４Ａ、地図情報２３６Ａ、パーソナルプロファイル２３８Ａ等が格納される。不明確情報２３２Ａ、回答情報２３４Ａ、および地図情報２３６Ａは、サーバ装置２００から取得した最新の情報によって更新されてもよい。また、パーソナルプロファイル２３８Ａには、車両Ｍに乗車する乗員に対応するパーソナルプロファイル２３８Ａが格納される。

［処理フロー］
図１５は、第２の実施形態に係るエージェント装置１００Ａの一連の処理の流れを示すフローチャートである。また、以下に示す処理の流れは、第１の実施形態における処理の流れと同様に所定のタイミングで繰り返し実行されてよい。まず、エージェント側制御部１２０の取得部１２２は、マイク１０６によって収集される乗員の音声データを取得する（ステップＳ２００）。次に、発話区間抽出部２１４Ａは、取得した音声データの発話区間を抽出する（ステップＳ２０２）。次に、音声認識部２１６Ａは、抽出された発話区間の音声データを認識する（ステップＳ２０４）。

次に、判定部２１８Ａは、音声データに不明確な文言が含まれるか否かを判定する（ステップＳ２０６）。音声データに不明確な文言が含まれると判定された場合、取得部１２２は、第１画像データを取得する（ステップＳ２０８）。次に、推定部２２０Ａは、取得された第１画像データに基づいて、第１方向または第２方向を推定する（ステップＳ２１０）。次に、取得部１２２は、第２画像データを取得する（ステップＳ２１２）。次に、推定部２２０Ａは、取得された第２画像データおよび車両Ｍの位置データに基づいて、第１方向または第２方向に存在する物体を不明確な文言に対応する地物として推定する（ステップＳ２１４）。次に、音声認識部２１６Ａは、推定された地物に関する情報に基づいて、発話内容全体の意味を把握する（ステップＳ２１６）。

また、ステップＳ２０６の処理において、音声データに不明確な文言が含まれないと判定された場合、音声認識部２１６Ａは、音声データから発話内容全体の意味を認識する（ステップＳ２１８）。

ステップＳ２１６またはステップＳ２１８の処理後、エージェントデータ生成部２２２Ａは、発話内容全体の意味に基づくエージェントデータを生成する（ステップＳ２２０）。出力制御部１２６Ａは、エージェントデータに基づく情報をスピーカ１０８または表示部１１０を用いて出力させることで、乗員に情報の提供を行う（ステップＳ２２２）。これにより、本フローチャートの処理は、終了する。なお、ステップＳ２２２の処理において、出力制御部１２６は、エージェントデータに基づいて、車載機器の制御を行ってもよい。

以上説明した第２の実施形態によれば、第１の実施形態と同様の効果を奏する他、乗員からの音声を取得するたびに、ネットワークＮＷを介してサーバ装置２００との通信を行う必要がないため、より迅速に発話内容を認識することができる。また、車両Ｍがサーバ装置２００と通信できない状態であっても、エージェントデータを生成して、乗員に情報を提供することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

例えば、上述した実施形態では、一例として、移動体が車両であるものとして説明したがこれに限定されるものではない。例えば、移動体は、船舶や飛行物体等の他の移動体であってもよい。この場合、例えば、複数の遊覧船や複数の遊覧飛行機等のキャビン等にエージェント装置１００が配設されていればよい。さらに、これらの移動体には、移動体を運転操作する操舵手がいれば、エージェント装置１００が、運転操作をしない他の乗員（乗客）と音声対話を行うことで接客することができるため、キャビンアテンダントは乗客への他のサービスに注力することができる。また、エージェント装置１００は、タクシーやバス等に配設されてもよい。この場合、エージェント装置１００が乗客と音声対話を行うことで接客することができるため、それらの車両の運転手は運転操作に注力することができる。

１…エージェントシステム、１００、１００Ａ…エージェント装置、１０２…エージェント側通信部、１０４…車室内カメラ、１０６…マイク、１０８…スピーカ、１１０…表示部、１１２…入力部、１１４…車両センサ、１１６…ＧＮＳＳ受信機、１２０，１２０Ａ…エージェント側制御部、１２２…取得部、１２４…音声合成部、１２６…出力制御部、１２８…通信制御部、１５０、１５０Ａ…エージェント側記憶部、２００…サーバ装置、２０２…サーバ側通信部、２１０…サーバ側制御部、２１２…取得部、２１４、２１４Ａ…発話区間抽出部、２１６、２１６Ａ…音声認識部、２１８、２１８Ａ…判定部、２２０、２２０Ａ…推定部、２２２、２２２Ａ…エージェントデータ生成部、２２４…通信制御部、２３０…サーバ側記憶部

Claims

移動体の乗員の発話内容を含む音声を認識する認識部と、
前記乗員を含む画像を取得する取得部と、
前記認識部により認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された、発話内容が不明確となる文言を含む不明確情報とを照合し、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記取得部により取得された画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を推定し、推定した前記第１方向または前記第２方向に存在する地物を前記不明確となる文言に対応する地物として推定する推定部と、を備え、
前記認識部は、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記推定部により推定された地物と、前記発話内容のうち前記不明確となる文言以外の発話内容とに基づいて、前記乗員の発話内容の全体の意味を認識する、
エージェントシステム。
前記取得部は、複数のマイクのそれぞれにより収集された前記乗員の音声を取得し、
前記推定部は、前記取得部により取得された複数のマイクのそれぞれから取得される音声に基づいて、前記第１方向を推定する、
請求項１に記載のエージェントシステム。
前記推定部は、前記複数のマイクのそれぞれから取得される音声の強さのピーク値と、それぞれがピーク値となる時間差情報とに基づいて、前記第１方向を推定する、
請求項２に記載のエージェントシステム。
前記推定部は、前記移動体の位置データと前記第１方向または前記第２方向とに基づいて、前記記憶部に記憶された地図情報から前記第１方向または前記第２方向に存在する地物を推定する、
請求項１から３のうち何れか１項に記載のエージェントシステム。
前記推定部は、前記乗員の発話内容に含まれる特徴情報を取得し、取得した特徴情報に基づいて、前記第１方向または前記第２方向に存在する地物を推定する、
請求項１から４のうち何れか１項に記載のエージェントシステム。
前記推定部は、
前記第１方向または前記第２方向の変化がない状態が所定時間以上継続している場合に、前記第１方向または前記第２方向に存在する地物に関する情報を前記記憶部に記憶させ、
前記乗員の発話内容に不明確な文言が含まれる場合に、前記記憶部に記憶された前記地物に関する情報の中から前記不明確な文言に対応する地物を推定する、
請求項１から５のうち何れか１項に記載のエージェントシステム。
前記推定部は、前記第１方向または前記第２方向に存在する複数の地物候補が推定された場合に、前記記憶部に記憶された前記乗員に対するプロファイル情報に基づいて、前記複数の地物候補のうち一以上の地物を選択する、
請求項１から６のうち何れか１項に記載のエージェントシステム。
前記推定部は、前記記憶部に記憶されたプロファイル情報に基づいて、前記複数の地物候補の優先度を設定する、
請求項７に記載のエージェントシステム。
前記認識部により認識された発話内容に対応する情報を生成する生成部と、
前記生成部により生成された情報を前記乗員に提供する情報提供部と、を更に備える、
請求項１から８のうち何れか１項に記載のエージェントシステム。
移動体の乗員の発話内容を含む音声を認識する認識部と、
前記乗員を含む画像を取得する取得部と、
前記認識部により認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された、発話内容が不明確となる文言を含む不明確情報とを照合し、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記取得部により取得された画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を推定し、推定した前記第１方向または前記第２方向に存在する地物を前記不明確となる文言に対応する地物として推定する推定部と、を備え、
前記認識部は、前記乗員の発話内容に不明確となる文言が含まれる場合に、前記推定部により推定された地物と、前記発話内容のうち前記不明確となる文言以外の発話内容とに基づいて、前記乗員の発話内容の全体の意味を認識しつつ、前記移動体に搭載された機器または前記移動体を制御する、
情報処理装置。
前記情報処理装置は、前記移動体に搭載され、
前記認識部により認識された発話内容に対応する情報を生成する生成部と、
前記生成部により生成された情報を前記乗員に提供する情報提供部と、を更に備える、
請求項１０に記載の情報処理装置。
単一または複数のコンピュータが、
移動体の乗員の発話内容を含む音声を認識するプロセスと、
前記乗員を含む画像を取得するプロセスと、
認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された発話内容が不明確となる文言を含む不明確情報とを照合するプロセスと、
前記乗員の発話内容に不明確となる文言が含まれる場合に、前記画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を取得するプロセスと、
取得した前記第１方向または前記第２方向に存在する地物を前記不明確となる文言に対応する地物として推定するプロセスと、
前記乗員の発話内容に不明確となる文言が含まれる場合に、推定された地物と、前記発話内容のうち前記不明確となる文言以外の発話内容とに基づいて、前記乗員の発話内容の全体の意味を認識するプロセスとを有する、
情報処理方法。
単一または複数のコンピュータにインストールされ、
移動体の乗員の発話内容を含む音声を認識する処理と、
前記乗員を含む画像を取得する処理と、
認識された前記乗員の発話内容に含まれる文言と、記憶部に記憶された発話内容が不明確となる文言を含む不明確情報とを照合する処理と、
前記乗員の発話内容に不明確となる文言が含まれる場合に、前記画像に基づいて前記乗員の視線方向である第１方向または前記乗員により指し示された第２方向を取得する処理と、
取得された前記第１方向または前記第２方向に存在する地物を前記不明確となる文言に対応する地物として推定する処理と、
前記乗員の発話内容に不明確となる文言が含まれる場合に、推定された地物と、前記発話内容のうち前記不明確となる文言以外の発話内容とに基づいて、前記乗員の発話内容の全体の意味を認識する処理とを含む、
前記コンピュータに実行させるプログラム。