JP7068986B2

JP7068986B2 - エージェントシステム、エージェント制御方法、およびプログラム

Info

Publication number: JP7068986B2
Application number: JP2018191294A
Authority: JP
Inventors: 敦関口; 大志杉原
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2022-05-17
Anticipated expiration: 2038-10-09
Also published as: US20200108720A1; JP2020061642A; US10994612B2; CN111016820B; CN111016820A

Description

本発明は、エージェントシステム、エージェント制御方法、およびプログラムに関する。

従来、車両に搭載された複数スピーカから出力されるオーディオ音の音像を定位させる位置（以下、音像定位位置と称する）の設定をユーザから受け付け、受け付けた定位位置にオーディオ音の音像が定位するように、各スピーカに出力されるオーディオ信号を制御するオーディオシステムが知られている（例えば、特許文献１参照）。

特開２００６－１９６９４１号公報

しかしながら、従来の技術では、車両の走行環境に基づいて音像定位位置を制御することについては考慮されていなかった。したがって、音声による乗員への適切な運転支援が行われない場合があった。

本発明の態様は、このような事情を考慮してなされたものであり、より適切に乗員への運転支援を行うためのエージェントシステム、エージェント制御方法、およびプログラムを提供することを目的の一つとする。

この発明に係るエージェントシステム、エージェント制御方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係るエージェントシステムは、車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクにより収集された音声の意味を認識する認識部と、前記認識部により認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を前記スピーカに出力させるエージェント制御部と、前記車両の走行環境を取得する走行環境取得部と、を備え、前記エージェント制御部は、前記走行環境取得部により取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させる、エージェントシステムである。

（２）：上記（１）の態様において、画像を表示する表示部を更に備え、前記エージェント制御部は、前記走行環境取得部により前記車両の停止状態が取得された場合に、前記乗員に対して話しかける態様のエージェント画像を前記表示部に表示させると共に、前記エージェント音声を前記エージェント画像の表示位置に対応付けた位置に定位させるものである。

（３）：上記（２）の態様において、前記エージェント制御部は、前記走行環境取得部により取得された前記車両の走行環境に基づいて、前記車両が走行する場合、または将来走行することが予測される場合に、前記エージェント音声を前記車両の進行方向に移動させるものである。

（４）：上記（３）の態様において、前記エージェント制御部は、前記エージェント音声の音像定位位置を前記車両の進行方向に移動させる場合に、前記表示部に表示された前記エージェント画像の表示位置を、前記音像定位位置の移動に対応付けて移動させるものである。

（５）：上記（２）～（４）のうち、何れか一つの態様において、前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、前記エージェント制御部は、前記走行環境取得部により取得された前記車両の走行環境に基づいて、前記車両が走行している場合、または将来走行することが予測される場合に、前記第１表示部に表示された前記エージェント画像を前記第２表示部に移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させるものである。

（６）：上記（２）～（４）のうち、何れか一つの態様において、前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、前記エージェント制御部は、前記走行環境取得部により前記車両が手動運転から自動運転に切り替わった場合に、前記第２表示部に表示された前記エージェント画像を前記第１表示部に向けて移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させるものである。

（７）：この発明の他の一態様に係るエージェント制御方法は、コンピュータが、車室内の音声を収集するマイクにより収集された音声の意味を認識し、認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を、車室内のスピーカに出力させ、前記車両の走行環境を取得し、取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させる、エージェント制御方法である。

（８）：この発明の他の一態様に係るプログラムは、コンピュータに、車室内の音声を収集するマイクにより収集された音声の意味を認識させ、認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成させ、生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を、車室内のスピーカに出力させ、前記車両の走行環境を取得させ、取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させる、プログラムである。

（１）～（８）によれば、車両の走行環境に基づいて音像定位位置を制御することで、より適切に乗員への運転支援を行うことができる。

実施形態に係るエージェント装置を含むエージェントシステム１の構成図である。車両Ｍに設置される表示部およびスピーカを模式的に示す図である。後部座席付近のスピーカの位置を説明するための図である。音像が定位する位置を移動させることについて説明するための図である。回答情報ＤＢ２４４の内容の一例を示す図である。エージェント制御装置１５０の処理について説明するための図である。エージェント音声MＰ１の音像が定位される態様が変更した様子を説明するための図である。音像定位位置の移動に対応付けてエージェント画像を移動させる様子を説明するための図である。視線位置に基づく制御部１８０の処理について説明するための図である。視線位置付近に回答画像が存在する場面について説明するための図である。エージェントシステム１による一連の処理の流れの一例を示すフローチャートである。

以下、図面を参照し、本発明のエージェントシステム、エージェント制御方法、およびプログラムの実施形態について説明する。また、以下では、エージェントシステムの一例として、車両（以下、車両Ｍ）に搭載され、対話型エージェント機能を備えたエージェントシステムを用いる。対話型エージェントとは、例えば、車両Ｍの乗員と対話をしながら、乗員の要求に基づく各種情報の提供や車両内の機器の制御を行うものである。対話型エージェントは、例えば、乗員の音声を認識する音声認識処理（音声をテキスト化する処理）に加え、自然言語処理（テキストの構造や意味を理解する処理）、対話制御処理、検索処理等を統合的に利用して実現される。これらの処理の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現される。また、これらの処理を行う構成の一部または全部は、車両Ｍと通信可能なサーバ装置等に設けられてもよい。

［全体構成］
図１は、実施形態に係るエージェント装置を含むエージェントシステム１の構成図である。エージェントシステム１は、例えば、エージェント装置１００またはサーバ装置２００のうち一方または双方と、自動運転制御装置３００とを備える。エージェント装置１００とサーバ装置２００とは、例えば、インターネットやＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）等のネットワークＮＷによりデータの送受信が可能な状態で接続されている。サーバ装置２００は、複数のエージェント装置１００との通信が可能であるが、以下では説明の便宜上、一つのエージェント装置１００と通信するものとする。また、自動運転制御装置３００は、エージェント装置１００と同様に車両Ｍに搭載される。

エージェント装置１００は、車両Ｍの乗員と対話を行い、乗員からの音声等による質問等の要求に対して、サーバ装置２００にリクエストを行い、サーバ装置２００から得られた回答を、所定の出力態様で乗員に提示する。以下の説明において、乗員とは、例えば、運転席に着座する乗員（以下、運転者）であるが、これに加えて助手席や後部座席に着座する乗員（同乗者）でもよい。

エージェント装置１００は、例えば、通信装置１１０と、カメラ１１１と、車室内カメラ１１２と、マイク１１４と、表示部１１６と、スピーカ１１８と、ＡMＰ（アンプ）１２０と、操作部１３０と、ナビゲーション装置１４０と、エージェント制御装置（エージェント制御部の一例）１５０とを備える。これらの装置や機器は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図１に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

通信装置１１０は、例えば、セルラー網やＷｉ－Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＤＳＲＣ（Dedicated Short Range Communication）等を利用して、ネットワークＮＷを介してサーバ装置２００や他車両、乗員が所持する端末装置と通信する。例えば、通信装置１１０は、音声入力部１５２により入力された音声や、走行環境取得部１５４により認識された車両状態情報、視線検出部１５６により検出された運転者の視線に関する情報等をサーバ装置２００に送信する。また、通信装置１１０は、サーバ装置２００から対話情報を受信する。

カメラ１１１は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子を利用したデジタルカメラである。カメラ１１１は、車両Ｍの任意の箇所に取り付けられる。車両Ｍの前方を撮像する場合、カメラ１１１は、フロントウインドシールド上部やルームミラー裏面等に取り付けられる。後方を撮像する場合、カメラ１１１は、リアバンパー付近に取り付けられる。車両の側方または後側方を撮像する場合、例えば、車体の外装部分（例えば、Ａピラー、屋根、サイドドア）等に取り付けられる。カメラ１１１は、例えば、周期的に繰り返し車両Ｍの周辺を撮像する。カメラ１１１は、ステレオカメラであってもよい。

車室内カメラ１１２は、例えば、車両Ｍの車室内に設置されたシートに着座する乗員の顔を含む画像を撮像する。車室内カメラ１１２は、例えば、ＣＣＤやＣＭＯＳ等の固体撮像素子を利用したデジタルカメラである。車室内カメラ１１２は、例えば、所定のタイミングで乗員を撮像する。

マイク１１４は、車室内の音声を集音する音声入力装置である。例えば、マイク１１４は、例えば、マップランプ付近、ステアリングホイール、インストルメントパネル、またはシートに設置される。また、マイク１１４は、車室内に複数設置されてよい。

表示部１１６は、車室内のシートに着座する乗員の前方付近に設置される。また、スピーカ１１８は、車室内のシート付近または表示部１１６付近に設置される。表示部１１６およびスピーカ１１８は、車室内に複数設置されてよい。

図２は、車両Ｍに設置される表示部およびスピーカを模式的に示す図である。図２に示す車両Ｍの車室内には、表示部１１６Ａ～１１６Ｆと、スピーカ１１８Ａ～１１８Ｆとが設置されている。表示部１１６Ｂ～１１６Ｆのうち少なくとも一つは「第１表示部」の一例である。表示部１１６Ａは、「第２表示部」の一例である。

表示部１１６Ａは、例えば、ＨＵＤ（Head-Up Display）装置である。ＨＵＤ装置は、風景に重畳させて画像を視認させる装置であり、一例として、車両Ｍのフロントウインドシールドやコンバイナーに画像を含む光を投光することで、運転者に虚像を視認させる装置である。

表示部１１６Ａは、表示部１１６Ｂ～１１６Ｆよりも運転者の手動運転時の視線方向（例えば、車両Ｍの進行方向の監視領域を見る視界範囲）に近い位置に設置される。したがって、表示部１１６Ａに表示される画像は、運転者が前方の周辺監視をしながら見え易く、逆に表示部１１６Ｂ～１１６Ｆに表示される画像は、運転者が前方の周辺監視をしながらでは見えない、または見えにくくなる。表示部１１６Ａには、例えば、ナビゲーション装置１４０により実行されるナビゲーション処理に対応する画像や、エージェント制御装置１５０により生成される画像等が表示される。

表示部１１６Ｂは、インストルメントパネルＩＰにおける運転席（例えば、ステアリングホイールに最も近い座席）の正面付近に設けられ、運転者がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部１１６Ｂは、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）表示装置等である。表示部１１６Ｂには、例えば、車両Ｍの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像や、エージェント制御装置１５０により生成される画像等が表示される。

表示部１１６Ｃは、インストルメントパネルＩＰの中央付近に設置される。表示部１１６Ｃは、例えば、表示部１１６Ｂと同様に、ＬＣＤや有機ＥＬ表示装置等である。表示部１１６Ｃには、例えば、ナビゲーション装置１４０により実行されるナビゲーション処理に対応する画像、エージェント制御装置１５０により生成される画像等が表示される。また、表示部１１６Ｃは、テレビ番組を表示したり、ＤＶＤを再生したり、ダウンロードされた映画等のコンテンツを表示してもよい。

表示部１１６Ｄは、インストルメントパネルＩＰにおける助手席（運転席の隣りの座席）の正面付近に設けられる。表示部１１６Ｄには、例えば、テレビ番組やサーバ装置２００からダウンロードされた映画等のコンテンツ画像、その他のアプリケーションの実行に基づいて生成される画像、エージェント制御装置１５０により生成される画像等が表示される。

表示部１１６Ｂ～１１６Ｄは、表示部１１６Ａよりも視野角が大きい。そのため、エージェント制御装置１５０は、運転者の質問に対する回答結果を表示する場合に、表示部１１６Ｂ～１１６Ｄに回答結果を表示させることで、運転者に回答結果を視認させ易くすることができる。また、エージェント制御装置１５０は、表示部１１６Ｃや１１６Ｄに回答結果を表示させることで、運転者だけでなく、他の同乗者にも回答結果を認識させ易くすることができる。

表示部１１６Ｅおよび１１６Ｆは、例えば、車両Ｍに搭載されたＣＭＳ（Camera Monitor System）において電子ミラーとして用いられる。表示部１１６Ｅは、カメラ１１１により撮像された車両Ｍの左後側方の画像を表示させる。表示部１１６Ｆは、カメラ１１１により撮像された車両Ｍの右後側方の画像を表示させる。エージェント制御装置１５０は、表示部１１６Ａ～１１６Ｆのうち選択した表示部に画像を表示させる。

スピーカ１１８Ａおよびスピーカ１１８Ｂは、例えば、車両Ｍの左右の前方の窓柱（いわゆるＡピラー）に設置される。また、スピーカ１１８Ｃは、運転席側のドアの下部に設置され、スピーカ１１８Ｄは、助手席側のドアの下部に設置される。スピーカ１１８Ｅは、表示部１１６Ｃ付近、つまり、インストルメントパネルＩＰの中央付近に設置される。スピーカ１１８Ｆは、車室内の天井の中央部付近に設置される。

また、車両Ｍには、後部座席付近にスピーカが設けられていてもよい。図３は、後部座席付近のスピーカの位置を説明するための図である。図３の例では、図２に示すスピーカ１１８Ａ～１１８Ｆの他に、運転席ＳＴ１と助手席ＳＴ２の後方に設置された後部座席ＳＴ３付近にスピーカ１１８Ｇおよび１１８Ｈが設けられている。具体的には、スピーカ１１８Ｇおよび１１８Ｈは、左右の方向ドアの下部に設けられる。また、スピーカ１１８は、車両Ｍの前方ドアと後方ドアとの間に設けられる窓柱（いわゆるＢピラー）に設けられてもよく、後部座席の後方に設けられてもよい。

ＡMＰ１２０は、音声生成部１６４による制御によりスピーカ１１８から出力される音の大きさを調整する。例えば、ＡMＰ１２０は、基準となる音の大きさ（最大強度）に対し、０～１００％の間で音の調節を可能とする。また、ＡMＰ１２０は、例えば、ミキサー１２２を備える。ミキサー１２２は、入力された複数の音を合成する機能を備える。また、ミキサー１２２は、スピーカ１１８が複数存在する場合に、それぞれのスピーカに出力する音を分配する機能を備える。エージェント制御装置１５０は、スピーカ１１８Ａ～１１８Ｈのうち選択したスピーカから音声を出力させる。

操作部１３０は、乗員からの操作を受け付ける。操作部１３０は、例えば、スイッチやボタン、キー等を備える。操作部１３０は、例えば、ステアリングホイールやインストルメントパネルに設けられる。また、操作部１３０は、タッチパネルとして、表示部１１６と一体に構成されてもよい。

ナビゲーション装置１４０は、例えば、ＧＮＳＳ（Global Navigation Satellite System）衛星から受信した信号に基づいて、車両Ｍの位置を特定する。また、ナビゲーション装置１４０は、特定された車両Ｍの位置（或いは入力された任意の位置）から、操作部１３０や表示部１１６を用いて乗員により入力された目的地までの経路（以下、地図上経路）を、地図情報１４２を参照して決定する。地図情報１４２は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。地図情報１４２は、道路の曲率やＰＯＩ（Point Of Interest）情報等を含んでもよい。また、地図情報１４２は、例えば、車線の中央の情報あるいは車線の境界の情報、車線の種別の情報等を含んでもよい。また、地図情報１４２には、道路情報、交通規制情報、住所情報（住所・郵便番号）、施設情報、電話番号情報等が含まれてよい。地図情報１４２は、通信装置１１０が他装置と通信することにより、随時、アップデートされてよい。

また、ナビゲーション装置１４０は、地図上経路に基づいて、表示部１１６を用いた経路案内を行ってもよい。ナビゲーション装置１４０は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。ナビゲーション装置１４０は、通信装置１１０を介してサーバ装置２００或いはナビゲーションサーバに現在位置と目的地を送信し、サーバ装置２００やナビゲーションサーバから地図上経路と同等の経路を取得してもよい。

ナビゲーション装置１４０は、地図上経路に基づいて、表示部１１６による地図画像表示やスピーカによる音声出力によって、経路案内を行ってもよい。また、ナビゲーション装置１４０は、エージェント制御装置１５０により実行されるナビゲーション用のアプリケーション（ナビアプリ１７６）の機能によって、上述したナビゲーション装置１４０の機能が実現されてもよい。

［エージェント制御装置］
エージェント制御装置１５０は、例えば、音声入力部１５２と、走行環境取得部１５４と、環境変化判定部１５５と、視線検出部１５６と、出力制御部１６０と、画像生成部１６２と、音声生成部１６４と、アプリ呼出部１６６と、記憶部１７０と、制御部１８０とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）等のコンピュータプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部１７０に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部１７０にインストールされてもよい。

音声入力部１５２は、マイク１１４により収集された乗員の音声の入力を受け付ける。音声入力部１５２は、受け付けられた音声（音声ストリーム）を、通信装置１１０を介してサーバ装置２００に送信する。また、音声入力部１５２は、音声をサーバ装置２００に送信するタイミングに同期させて走行環境取得部１５４により認識された走行環境（例えば、車両Ｍの位置）をサーバ装置２００に送信してもよい。また、音声入力部１５２は、受け付けられた音声を解析し、音声に特定ワードが含まれているか否かを判定し、特定ワードが含まれている場合に、その後、所定時間または音声区間の音声をサーバ装置２００に送信してもよい。特定ワードとは、例えば、エージェント装置１００による情報提示等の制御を開始するためのウェイクワードである。

走行環境取得部１５４は、車両Ｍの走行環境を取得する。例えば、走行環境取得部１５４は、ナビゲーション装置１４０により特定された車両Ｍの位置や、車両に搭載された車両センサにより取得される速度、加速度、鉛直軸回りの角速度、車両Ｍの向き等に基づいて、車両の状態を解析する。車両Ｍの状態には、例えば、車両Ｍが停止しているか、走行しているか等の状態や、右左折や車線変更を行っているか等の状態が含まれる。また、走行環境取得部１５４は、カメラ１１１により撮像された画像を解析して、周辺に存在する交通信号機によるランプの点灯状態（進行許可や停止指示の状態）や、周辺物体（例えば、他車両）との相対距離や相対速度等を取得してもよい。

また、走行環境取得部１５４は、自動運転制御装置３００から制御状態に関する情報を取得してもよい。制御状態に関する情報とは、例えば、自動運転中であるか否かの状態を示す情報や、運転支援の度合、実行中のイベント、目標軌道等の情報である。

環境変化判定部１５５は、走行環境取得部１５４により取得された車両Ｍの走行環境に基づいて、車両Ｍの走行環境が変化するか否かを判定する。また、環境変化判定部１５５は、例えば、数［秒］程度の近い将来において、車両Ｍの走行環境が変化することが予測されるか否かを判定してもよい。

例えば、環境変化判定部１５５は、手動運転中であり、且つ車両Ｍが停止している状態であって、進行方向の直近に存在する交通信号機の点灯状態が進行許可の状態になった場合、車両Ｍが走行可能な状態となるため、走行環境が変化すると判定する。また逆に、手動運転中であり、且つ車両Ｍが走行中であって、進行方向の直近に存在する交通信号機の点灯状態が停止指示の状態になった場合、環境変化判定部１５５は、車両Ｍが停止するため、走行環境が変化すると判定する。

また、環境変化判定部１５５は、前走車両が走行状態から停止状態に変化した場合に、車両Ｍも停止する必要が生じるため、走行環境が変化すると判定する。また、環境変化判定部１５５は、前走車両が減速している場合や、進行方向に渋滞区間や事故車等がある場合に、近い将来において車両Ｍが停止する可能性があるため、車両Ｍの走行環境が変化することが予測されると判定する。また、環境変化判定部１５５は、自動運転制御装置３００からの目標軌道に基づいて、走行環境が変化するか、または近い将来において走行環境が変化することが予測されるかを判定してもよい。

視線検出部１５６は、車室内カメラ１１２により撮像された画像（以下、車室内画像と称する）に対する解析処理を行い、運転者の視線を検出する。例えば、視線検出部１５６は、テンプレートマッチング等の手法を用いて、車室内画像から運転者の頭部と目の位置関係、目における基準点と動点との組み合わせ等を検出する。例えば、基準点が目頭である場合、動点は虹彩である。また、基準点が角膜反射領域である場合、動点は瞳孔である。そして、視線検出部１５６は、頭部に対する目の位置に基づいて顔の向きを導出する。また、視線検出部１５６は、基準点に対する動点の位置に基づいて、視線の向きを導出する。また、視線検出部１５６は、検出された視線の向きに対応付けて、運転者が注視している位置や、視界領域を検出してもよい。視界領域とは、注視位置を中心とした所定の範囲内の領域である。また、視線検出部１５６は、視線の向きから運転者が見ている表示部を推定してもよい。以下、視線検出部１５６により検出される各情報を「視線位置」と称する。

出力制御部１６０は、サーバ装置２００により得られた情報（例えば、対話情報）等に基づいて、乗員に提供する情報を制御する。対話情報には、例えば、乗員に提供される音声情報または画像情報のうち一方または双方が含まれる。乗員に提供される情報には、例えば、表示部１１６により画面に表示させる画像、スピーカ１１８により出力させる音声、車両内の各機能を実現するアプリにより実行される機能等が含まれる。

例えば、出力制御部１６０は、サーバ装置２００により得られる対話情報に基づいて、画像生成部１６２に乗員への提供画像を生成させたり、音声生成部１６４に乗員への提供音声を生成させる。また、出力制御部１６０は、画像の表示位置や、音声の音像定位位置が互いに対応付けられるように制御する。

画像生成部１６２は、出力制御部１６０または制御部１８０の制御により、車内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像を表示部１１６の所定の表示位置に表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含む。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものである。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体（胴体や手足）の画像を含むことで、エージェントの動作や振る舞いが認識されるものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

また、画像生成部１６２は、サーバ装置２００により得られた画像を、出力制御部１６０により指示された表示部１１６に表示させるための表示態様（例えば、画像サイズ、画像フォーマット）に変換し、変換した画像を表示部１１６に表示させる。

音声生成部１６４は、対話情報に対応させてエージェント画像が話しかける音声（以下、エージェント音声と称する）や、エージェント音声以外の音声（例えば、ラジオや音楽、映像等のコンテンツに対する音声）を生成し、生成した音声をスピーカ１１８から出力させる。このとき、音声生成部１６４は、複数のスピーカ１１８を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさと位相を調節することにより、乗員が感じる音源の空間的な位置を定めることである。音像は、例えば、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数（HRTF；Head-related transfer function）に基づいて定まる。このような原理を利用して、音像を所定の位置に定位させることができる。

図４は、音像が定位する位置を移動させることについて説明するための図である。図４では、説明を簡略化するために、上述したスピーカ１１８Ｃ～１１８Ｅを用いるが、車室内に設けられたスピーカ１１８Ａ～１１８Ｈを用いて音像を定位させる位置を空間的に移動させることができる。例えば、図４に示す三次元座標（Ｘ、Ｙ、Ｚ）で定められる空間位置MＰ１に音像を定位させる場合、ＡMＰ１２０は、音声生成部１６４により生成された音声に基づいて、所定の出力対象の音声に対し、スピーカ１１８Ｃから最大強度の５％の出力を行い、スピーカ１１８Ｄから最大強度の８０％の出力を行い、スピーカ１１８Ｅから最大強度の１５％の出力を行った場合、乗員Ｐ１の位置からは、図４に示す空間位置MＰ１に音像が定位しているように感じることになる。

また、ＡMＰ１２０は、出力対象の音声に対し、スピーカ１１８Ｃから最大強度の４５％の出力を行い、スピーカ１１８Ｄから最大強度の４５％の出力を行い、スピーカ１１８Ｅから最大強度の１０％の出力を行った場合、乗員Ｐ１の位置からは、図４に示す空間位置MＰ２に音像が定位しているように感じることができる。このように、車室内に設けられる複数のスピーカとそれぞれのスピーカから出力される音の大きさを調整することで、音像が定位される位置を変化させることができる。以下、音像が定位される空間上の位置MＰを「音像位置MＰ」と称するものとする。

アプリ呼出部１６６は、記憶部１７０に記憶されたアプリから出力制御部１６０による制御内容に対応するアプリを呼び出し、呼び出したアプリを制御部１８０で実行することで、そのアプリの機能を実現させる。アプリには、例えば、電話アプリ１７２や、ラジオアプリ１７４、ナビアプリ１７６等が含まれる。制御部１８０により電話アプリ１７２が実行された場合には、通信装置１１０を介して外部の通話機能を備えた端末と通信を行い、マイク１１４やスピーカ１１８を用いて、相手先との通話する機能が実現される。また、制御部１８０によりラジオアプリ１７４が実行された場合には、通信装置１１０を介してラジオ局から乗員が指定した周波数で発信された音声情報を取得し、取得した音声情報をスピーカ１１８から出力する機能が実現される。また、制御部１８０によりナビアプリ１７６が実行された場合には、ナビゲーション装置１４０と連携した経路探索や経路案内等の機能が実現される。

記憶部１７０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１７０には、例えば、電話アプリ１７２、ラジオアプリ１７４、ナビアプリ１７６等のプロセッサによって読み出されて実行されるプログラム、その他の情報等が格納される。

制御部１８０は、エージェント制御装置１５０の各機能部に実行および停止を制御する。制御部１８０は、例えば、各機能部からの要求をＡＰＩ（Application Programming Interface）によって受け付け、受け付けた要求に基づく処理を実行する機能部を選択し、選択した機能部に、ＡＰＩを介して処理を実行させる。また、制御部１８０は、エージェント制御部１５０の各機能部の処理を、アプリ（例えば、エージェントアプリ）を実行させることで実現してもよい。

例えば、制御部１８０は、車両Ｍの走行環境が変化する場合、または将来変化することが予測される場合に、音声生成部１６４により出力されるエージェント音声の音像が定位される態様を変更させる。音像が定位される態様とは、例えば、音像位置であるが、音像を定位させる時間、音像位置の移動速度等が含まれてもよい。また、制御部１８０は、車両Ｍの走行環境が変化する場合、または将来変化することが予測される場合に、画像生成部１６２により生成されるエージェント画像の表示態様を変更させてもよい。エージェント画像の表示態様とは、例えば、エージェント画像の表示位置であるが、エージェント画像の大きさ、形状、色、移動速度が含まれてもよい。制御部１８０、出力制御部１６０と連携して、エージェント画像や音像位置の移動による運転者の視線の誘導制御を行ってもよい。

［サーバ装置］
サーバ装置２００は、例えば、通信部２１０と、認識部２２０と、対話生成部２３０と、記憶部２４０とを備える。これらの構成要素は、例えば、ＣＰＵ等のコンピュータプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部２４０に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部２４０にインストールされてもよい。

通信部２１０は、例えば、セルラー網やＷｉ－Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ、ＤＳＲＣ等を利用して、ネットワークＮＷを介してエージェント装置１００と通信する。通信部２１０は、エージェント装置１００から送信された音声ストリームを受信する。また、通信部２１０は、対話生成部２３０により生成された音声や画像等の対話情報をエージェント装置１００に送信する。

認識部２２０は、通信部２１０により受信した音声ストリームから音声の意味を解析する。認識部２２０は、例えば、音声区間検出部２２２と、音声認識部２２４と、自然言語処理部２２６とを備える。音声区間検出部２２２は、エージェント装置１００から送信された音声ストリームから音声区間を検出する。例えば、音声区間検出部２２２は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。また、音声区間検出部２２２は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model) に基づくフレーム単位の音声・非音声識別に基づく区間検出を行ってもよい。また、音声区間検出部２２２は、予め記憶部２４０等に記憶された、音声ストリームの特徴情報から音声区間を検出するためのデータベースとのマッチング処理により音声の区間検出を行ってもよい。

音声認識部２２４は、音声区間検出部２２２により検出された音声区間における音声を認識し、音声を文字情報としてテキスト化する。また、音声認識部２２４は、認識された音声から発話者の特徴を特定してもよい。発話者の特徴には、例えば、性別や年齢、運転者であるか、同乗者であるかの情報が含まれる。

また、音声認識部２２４は、音声から得られる特徴情報を用いて、記憶部２４０に記憶されたパーソナルプロファイル２４２と照合を行ってもよい。パーソナルプロファイル２４２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）、ポーズ等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を解析することで得られる情報である。個人情報には、例えば、氏名、住所、年齢、趣味、過去のサーバ装置２００の使用履歴が含まれる。氏名、住所、年齢、趣味は、乗員の初期登録時に音声の特徴情報と共に設定され、その後、設定変更等により適宜更新がなされる。音声認識部２２４は、音声から得られる特徴情報と、記憶部２４０に記憶されたパーソナルプロファイル２４２の特徴情報とを照合して、合致した特徴情報に対応付けられた個人情報を認識する。

自然言語処理部２２６は、音声認識部２２４によりテキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味を認識する。自然言語処理には、形態素解析、構文解析、意味解析、文脈解析等が含まれる。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位（形態素）ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位や文脈単位で意味を認識する。

また、自然言語処理部２２６は、解釈した意味に対応するコマンドを生成する。例えば、解釈結果として、「東京駅まで何キロ？」、「東京駅までどのくらい走る？」等の意味が解釈された場合、自然言語処理部２２６は、標準文字情報「東京駅までの距離は？」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも回答情報を取得し易くすることができる。また、自然言語処理部２２６は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、解釈結果に基づくコマンドを生成してもよい。

また、自然言語処理部２２６は、生成されたコマンドを用いて記憶部２４０に記憶された回答情報ＤＢ２４４のコマンドを参照し、合致するコマンドに対応する制御内容を取得する。図５は、回答情報ＤＢ２４４の内容の一例を示す図である。回答情報ＤＢ２４４には、例えば、コマンドに、エージェント装置１００により実行させる制御内容が対応付けられている。制御内容には、例えば、アプリの実行や終了、機器の起動や停止、音声制御、表示制御、対話用の文章フォーマット等の情報が含まれる。

自然言語処理部２２６は、合致するコマンドに対応付けられた制御内容を抽出する。例えば、コマンドが「ラジオをつけて」である場合、ラジオアプリを実行するための制御内容が抽出される。また、東京駅までの距離を取得する場合、自然言語処理部２２６は、エージェント装置１００から送信された車両Ｍの位置情報に基づいて、記憶部２４０または外部装置に記憶された地図情報（不図示）を参照し、車両の位置から東京駅までの走行距離を導出して、対話用の音声制御「ここから＊＊＊［ｋｍ］です。」の「＊＊＊」に導出した走行距離を代入して音声出力用の文字情報を生成してもよい。

対話生成部２３０は、自然言語処理部２２６により取得した制御内容に基づいて乗員と対話するための対話情報を生成する。例えば、対話生成部２３０は、対話情報として、回答情報ＤＢ２４４から得られた内容（文字情報）に対する音声情報（音声ストリーム）を生成する。音声情報には、例えば、エージェント画像が乗員に対して話しかける音声が含まれる。また、対話生成部２３０は、表示制御に対する画像や映像、文字情報等を生成したり、機器制御に対する制御情報（例えば、アプリ実行コマンド）を生成し、生成した情報を対話情報に含めてもよい。例えば、回答情報ＤＢ２４４により得られる回答が「表示制御：東京駅までの経路画像を表示」である場合、対話生成部２３０は、地図情報を参照して、現在地から東京駅までの経路画像を生成する。

また、対話生成部２３０は、パーソナルプロファイル２４２から得られた個人情報が得られている場合に、個人情報に基づいて、音声で乗員の名前を呼んだり、乗員の話し方に似せた話し方にした音声情報を生成してもよい。また、対話生成部２３０は、パーソナルプロファイルから得られる乗員の趣味に関する情報を取得し、取得した情報を対話情報に含めてもよい。対話生成部２３０は、生成された対話情報を、通信部２１０を介してエージェント装置１００に送信する。

なお、上述した認識部２２０および対話生成部２３０の処理において、最初に、認識部２２０が入力された音声を解析し、入力された音声にウェイクワード等の特定ワードが含まれているか否かを判定し、特定ワードが含まれている場合に、上述した処理を行ってもよい。

記憶部２４０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。記憶部２４０は、例えば、パーソナルプロファイル２４２、回答情報ＤＢ２４４、その他の情報等が格納される。

［自動運転制御装置］
自動運転制御装置３００は、カメラ１１１や、車両Ｍに搭載されたレーダ装置（不図示）やＬｉＤＡＲ（Light Detection And Ranging）（不図示）等のうち、一部または全部の検出結果に対するセンサフュージョン処理に基づいて車両Ｍの周辺に存在する物体や道路形状等を認識し、認識した結果に基づいて自動運転が実行可能な状況下で自動運転制御を行う。自動運転とは、車両Ｍに乗車した乗員による運転操作に依らずに、車両の操舵または速度のうち一方または双方を制御して車両を運転させることである。

例えば、自動運転制御装置３００は、原則的にはナビゲーション装置１４０からの経路情報に基づいて推奨車線を決定し、決定された推奨車線を車両Ｍが走行し、更に、車両Ｍの周辺状況に対応できるように、車両Ｍが自動的に（運転者の操作に依らずに）将来走行する目標軌道を生成する。目標軌道は、例えば、速度要素を含んでいる。また、自動運転制御装置３００は、目標軌道を生成するにあたり、自動運転のイベントを設定してよい。自動運転のイベントには、定速走行イベント、低速追従走行イベントを含む追従走行イベント、車線変更イベント、分岐イベント、合流イベント、テイクオーバーイベントなどがある。自動運転制御装置３００は、起動させたイベントに応じた目標軌道を生成する。

また、自動運転制御装置３００は、所定のサンプリング時間（例えば０コンマ数［ｓｅｃ］程度）ごとの目標速度および目標加速度を、目標軌道の速度要素として決定する。また、軌道点は、所定のサンプリング時間ごとの、そのサンプリング時刻における車両Ｍの到達すべき位置であってもよい。この場合、目標速度や目標加速度は、サンプリング時間および軌道点の間隔によって決定される。

そして、自動運転制御装置３００は、生成した目標軌道に付随する速度要素に基づいて、車両Ｍに搭載された走行駆動力出力装置またはブレーキ装置を制御する。走行駆動力出力装置は、車両Ｍが走行するための走行駆動力（トルク）を駆動輪に出力する。ブレーキ装置は、制動操作に応じたブレーキトルクを各車輪に出力する。また、自動運転制御部１４５は、目標軌道の曲がり具合に応じて、車両Ｍに搭載されたステアリング装置を制御する。ステアリング装置は、電動モータを駆動し、転舵輪の向きを変更させる。

自動運転が実行されている場合、乗員は周辺監視を行わなくてもよい状態となる。また、自動運転制御装置３００により自動運転が実行されていない場合、運転者による運転操作子（不図示）の操作により手動運転が実行される。運転操作子は、例えば、アクセルペダル、ブレーキペダル、シフトレバー、ステアリングホイール、異形ステア、ジョイスティックその他の操作子を含む。運転操作子には、操作量あるいは操作の有無を検出するセンサが取り付けられており、その検出結果は、自動運転制御装置３００、もしくは、走行駆動力出力装置、ブレーキ装置、およびステアリング装置のうち一部または全部に出力される。自動運転制御装置３００は、上述した各種の制御状態に関する情報をエージェント装置１００に出力する。

［エージェント制御装置］
以下、エージェント制御装置１５０の機能の詳細について説明する。図６は、エージェント制御装置１５０の処理について説明するための図である。図６は、手動運転中であり、且つ車両Ｍが停止中である場合のエージェント制御装置１５０の処理を説明するものである。また、図６の例は、上述した図２と同様の車室内の様子を示している。

例えば、出力制御部１６０または制御部１８０は、乗員からの所定の音声（例えば、ウェイクワードや質問事項等）が受け付けられた場合に、車両Ｍの停止中に運転者に対して話しかける態様のエージェント画像を表示させる指示と、表示位置に関する情報（例えば、表示部の種類と表示画面上における表示位置（座標））とを画像生成部１６２に出力する。画像生成部１６２は、出力制御部１６０または制御部１８０からの制御情報に基づいてエージェント画像ＥＩを生成し、生成したエージェント画像を指示された表示部の少なくとも一部の領域（例えば、指示された表示位置を中心とした領域）に表示させる。図６の例では、車両Ｍが停止中であり、運転者が進行方向の監視を行う必要性が低いため、運転者やその他の乗員が視認できるように、表示部１１６Ｃの画面の右側の領域にエージェント画像ＥＩが表示されている。なお、助手席に着座する乗員等、特定された乗員と対話する場合には、出力制御部１６０または制御部１８０の制御により、対話する乗員が着座する席に近い表示部（例えば、助手席に着座する乗員であれば、表示部１１６Ｄ）にエージェント画像を表示させてもよい。

また、出力制御部１６０または制御部１８０は、乗員からの所定の音声が受け付けられた場合に、音声生成部１６４にエージェント音声を出力させる指示と、エージェント音声の音像定位位置に関する情報とを音声生成部１６４に出力する。音声生成部１６４は、出力制御部１６０または制御部１８０からの制御情報に基づいて、エージェント音声を生成し、生成したエージェント音声を、指示された位置に音像が定位するようにＡMＰ１２０やミキサー１２２により調整して所定のスピーカ１１８から出力させる。図６の例では、エージェント画像ＥＩの表示位置付近（例えば、表示位置から数［ｃｍ］以内）の三次元の音像位置ＭＰ１に定位させてエージェント音声が出力されている。これにより、乗員は、エージェント画像ＥＩがエージェント音声を発しているように、直感的に感じさせることができる。

また、制御部１８０は、エージェント音声以外の音声をスピーカ１１８から出力させる場合に、エージェント音声の音像位置ＭＰ１と異なる位置に音像を定位させてもよい。例えば、ラジオアプリ１７４により出力されるラジオ音声や、映像、音楽等のコンテンツの音声を出力させる場合、制御部１８０は、図６に示すように車室内の天井付近の音像位置ＭＰ２に定位させる。これにより、ラジオ音声やコンテンツ音声等を車室内に存在する乗員の全てに広く聞かせることができる。

上述したように、出力制御部１６０または制御部１８０は、出力する音声の内容（ジャンルやカテゴリ）に基づいて、音像位置を調整する。なお、ラジオ音声やコンテンツ音声等の音像位置については、乗員の選択により設定されてもよい。

また、エージェント制御装置１５０は、乗員がエージェントに対して質問等のリクエストを喋った場合、その回答情報を取得し、画像や音声により出力する。具体的には、乗員からの質問を含む音声は、マイク１１４により収集され、サーバ装置２００に送信される。サーバ装置２００は、受信した音声に含まれる質問の意味を解析し、意味に対応する対話情報（例えば、画像情報）が取得できた場合、取得した画像情報（以下、回答画像ＣＩと称する）をエージェント装置１００に送信する。エージェント装置１００の出力制御部１６０は、サーバ装置２００からの回答画像ＣＩと共に、回答画像ＣＩを表示する表示部１１６の種類および表示位置を指定した情報を画像生成部１６２に出力する。

画像生成部１６２は、回答画像ＣＩを指定された表示部１１６に表示させるためのサイズ変換やフォーマット変換を行い、変換された情報を、指定された表示部１１６の少なくとも一部の領域に表示させる。なお、回答画像ＣＩは、サーバ装置２００から得られる情報に基づいて、画像生成部１６２により生成されてもよい。図６の例において、回答画像ＣＩは、表示部１１６Ｃの画面の左側の領域に表示されている。制御部１８０は、例えば、視線検出部１５６により検出される乗員の視線位置に近い表示部に回答画像ＣＩを表示させてもよく、エージェント画像ＥＩの表示位置付近に回答画像ＣＩを表示させてもよい。

ここで、制御部１８０は、環境変化判定部１５５により車両Ｍの走行環境が変化すると判定された場合に、エージェント音声の音像が定位される態様を変更させる。図７は、エージェント音声の音像が定位される態様が変更した様子を説明するための図である。以下の説明において、時刻ｔ１~ｔ６は、「ｔ１＜ｔ２＜ｔ３＜ｔ４＜ｔ５＜ｔ６」の関係が成立しているものとする。

例えば、環境変化判定部１５５により、車両Ｍが停止状態から走行状態になる場合、または将来走行状態になることが予測された場合、制御部１８０は、車両Ｍの進行方向または将来進行すると予測される方向に乗員の視線が向くように、音像位置ＭＰを移動させる。図７の例では、前方方向に車両Ｍが進行するものとする。この場合、前方の監視を行うための視線位置付近に音像が定位するように、表示部１１６Ｃ付近よりも運転者が車両Ｍの周辺を監視するときの視界に近い位置に設置された表示部１１６Ａ付近に音像を定位させる。

また、制御部１８０は、出力されるエージェント音声の音像位置を時刻ｔ１からｔ６までの間で徐々に移動させてもよい。時刻ｔ６は、例えば、手動運転により車両Ｍを走行させるべき時刻、または走行させるべき時刻から所定時間前の時刻である。例えば、制御部１８０は、まず走行環境に基づいて時刻ｔ６を決定し、決定した時刻ｔ６を基準として、音像位置ＭＰを移動させる移動速度や、各時刻ｔ１～ｔ５における音像位置ＭＰ（ｔ１）～ＭＰ（ｔ５）を設定する。これにより、音声が出力される方向に運転者の視線を誘導することができ、結果として運転者に車両Ｍの進行方向を向かせることができる。なお、音像位置ＭＰの移動中に出力される音声は、対話中の音声でもよく、走行環境の変化の内容に対応させて「そろそろ、運転が始まるよ。」や「信号が青に変わったよ。」等の手動運転を促すメッセージ音声、或いは注意を促すための警告音でもよい。また、これらの音声の切り替え制御も制御部１８０によって制御される。

また、制御部１８０は、車両Ｍの走行中においては、エージェント画像の表示を行わずに、エージェント音声のみを出力するように制御する。これにより、運転者の目線を監視方向（前方）に注視させることができる。

また、制御部１８０は、エージェント音声の音像位置MＰ（ｔ１）～MＰ（ｔ６）に移動させる場合に、表示部１１６Ｃに表示されたエージェント画像Ｅ１の表示位置を、音像定位位置MＰ１の移動に対応付けて移動させてもよい。図８は、音像定位位置の移動に対応付けてエージェント画像を移動させる様子を説明するための図である。以下の説明において、ＥＩ（ｔ＊）は、時刻ｔ＊で表示されるエージェント画像の位置を示し、MＰ１（ｔ＊）は、時刻ｔ＊での音像位置を示すものとする。例えば、制御部１８０は、走行環境の変化に基づいて、エージェント音像位置MＰ１を移動させる場合に、移動している音像位置MＰ１（ｔ１）～MＰ１（ｔ６）に同期させてエージェント画像ＥＩをエージェント画像ＥＩ（ｔ１）～ＥＩ（ｔ６）のように移動させる。例えば、音像位置MＰ１が表示部１１６Ｃ付近から表示部１１６Ａ付近に移動する場合に、制御部１８０は、表示部１１６Ｃと表示部１１６Ａの表示にそれぞれのタイミングでエージェント画像Ｅ１が表示されるように、画像生成部１６２を制御する。画像生成部１６２は、図８に示すように、エージェント画像ＥＩが表示部１１６Ｃから表示部１１６Ａに向かってフェードアウトし、表示部１１６Ａの端部からフェードインして所定の位置に表示されるようにエージェント画像ＥＩを表示する。

このように、エージェント音声だけでなくエージェント画像も移動させることで、音像位置MＰ１のみを移動させるよりも、より確実に乗員の視線を誘導させることができる。なお、制御部１８０は、まず、音像位置のみの移動を行った後、または移動させている状態において、視線検出部１５６により検出される運転者の視線の位置が、音像の移動方向に移動していない場合に、エージェント画像ＥＩの移動制御を行ってもよい。

また、制御部１８０は、手動運転から自動運転制御装置３００の自動運転に切り替わった場合に、図７または図８に示す例とは逆に、エージェント音声の音像位置MＰ１を、表示部１１６Ａ付近の位置から回答画像ＣＩが表示されている位置付近まで移動させてもよい。この場合、制御部１８０は、視線検出部１５６により検知された運転者の視線位置に基づいて、エージェント画像ＥＩの表示位置や音像位置ＭＰの制御を行ってもよい。

図９は、視線位置に基づく制御部１８０の処理について説明するための図である。制御部１８０は、例えば、画像生成部１６２によりエージェント画像ＥＩが生成される場合に、視線検出部１５６により検出される運転者の視線位置に基づいてエージェント画像の表示位置を調整する。例えば、図示するように運転者の視線位置ＥＰが表示部１１６Ａ内にある場合、制御部１８０は、画像生成部１６２により表示させるエージェント画像ＥＩ１の位置を運転者の視線位置ＥＰに対応付けた位置に調整する。例えば、制御部１８０は、視線位置ＥＰ付近（例えば、視線位置を中心として約３～５［ｃｍ］以内）にエージェント画像ＥＩを表示させるように画像生成部１６２を制御する。また、制御部１８０は、視線位置ＥＰ付近に表示させたエージェント画像ＥＩに対応付けた位置に音像が定位するように音声生成部１６４を制御する。

また、制御部１８０は、乗員の視線位置ＥＰに基づいて、回答画像ＣＩが視認されているか否かを判定する。例えば、制御部１８０は、視線位置ＥＰと回答情報との距離とが所定距離以上ある場合、または、視線位置ＥＰに対応する位置に存在する表示部と、回答画像ＣＩが表示されている表示部とが異なる場合に、回答画像ＣＩが視認されていない判定する。回答画像ＣＩが視認されていないと判定された場合、制御部１８０は、回答画像ＣＩの表示位置に視線位置ＥＰを移動させるために、エージェント画像Ｅ１の表示位置やエージェント音声の音像位置MＰ１を移動させる制御を実行する。この場合、まず、制御部１８０は、画像生成部１６２により、回答画像ＣＩが表示される前の乗員の視線位置ＥＰ付近に、エージェント画像ＥＩ（ｔ１）を表示させると共に、音声生成部１６４により、スピーカ１１８から出力される音声を音像位置MＰ１（ｔ１）に定位させる。次に、制御部１８０は、回答画像ＣＩの表示位置に向かって、エージェント画像ＥＩの表示位置およびエージェント音声の音像位置MＰ１を移動させ、時刻ｔ５において、回答画像ＣＩ付近に、エージェント画像ＥＩ（ｔ５）を表示させ、音声を音像位置MＰ（ｔ５）に定位させる。これにより、運転者の視線の誘導が、現在の視線位置を基準に行われるため、運転者の視線移動の負担を軽減させることができる。

なお、制御部１８０は、エージェント画像ＥＩの表示位置やエージェント音声の音像位置MＰ１の移動中においても、運転者の視線位置ＥＰを継続して検出し、視線位置ＥＰがエージェント画像ＥＩや音像位置MＰ１の移動に追従していない場合に、エージェント画像ＥＩの表示位置やエージェント音声の音像位置MＰ１を再度視線位置ＥＰに位置付けて、視線の誘導制御を行ってもよい。この場合、制御部１８０は、例えば、エージェント画像ＥＩの表情を変えたり、画像を大きくしたり、色を変えたりしてもよく、音像位置ＭＰの移動速度を遅くしてもよい。これにより、運転者の視線を確実に回答情報ＣＩの表示位置に位置付けさせ易くすることができる。

また、制御部１８０は、エージェント画像ＥＩの表示位置やエージェント音声の音像位置MＰ１による視線の誘導を行う前に、運転者の視線位置が、回答画像ＣＩ付近に存在する場合、エージェント画像ＥＩや音像位置MＰによる視線の誘導制御を行わなくてもよい。図１０は、視線位置付近に回答画像が存在する場面について説明するための図である。例えば、車両Ｍが手動運転から自動運転に切り替わった後に、すでに運転者の視線位置ＥＰが回答画像ＣＩ付近に存在している場合、制御部１８０は、運転者が回答画像ＣＩを視認できているものと推定し、エージェント画像ＥＩ（ｔ１）からｔ２）に切り替えて表示されるように、画像生成部１６２を制御する。また、制御部１８０は、エージェント画像の切り替えに合わせて音像位置MＰ１（ｔ１）から音像位置MＰ１（ｔ２）に定位させる。このように、制御部１８０は、運転者の視線位置ＥＰに合わせて、エージェント画像の表示位置および音像位置を適切に制御することができる。

また、制御部１８０は、自動運転が継続している場合において、車両Ｍの状態が停止状態と走行状態との間で切り替わったとしても、乗員が周辺監視を行う必要がない場合には、エージェント音声の音像位置やエージェント画像の表示位置を移動させる制御は行わない。

［処理フロー］
以下、エージェントシステム１による一連の処理の流れを、フローチャートを用いて説明する。図１１は、エージェントシステム１による一連の処理の流れの一例を示すフローチャートである。なお、図１１では、エージェントシステム１が、主に、エージェント音声やエージェント画像により乗員の視線誘導を行う処理の流れについて説明するものである。また、図１１では、車両Ｍの環境が手動運転であって、且つ停止状態から走行状態に変化する場合における運転者の視線誘導の例について説明するものである。本フローチャートの処理は、例えば、所定の周期で繰り返し実行されてよい。

まず、画像生成部１６２は、出力制御部１６０または制御部１８０の制御により、エージェント画像を表示部に表示させる（ステップＳ１００）。次に、音声生成部１６４は、出力制御部１６０または制御部１８０の制御により、エージェント画像の表示位置付近にエージェント音声の音像を定位させる（ステップＳ１０２）。

ここで、制御部１８０は、環境変化判定部１５５による判定結果に基づいて、車両Ｍが走行する、または将来走行することが予測されるか否かを判定する（ステップＳ１０４）。車両Ｍが走行する、または将来走行することが予測される場合、音声生成部１６４は、エージェント音声の音像定位位置を車両Ｍの進行方向（周辺監視する運転者の視線方向）に向けて移動させる（ステップＳ１０６）。次に、画像生成部１６２は、エージェント音声の音像定位位置の移動に対応付けてエージェント画像の表示位置を移動させる（ステップＳ１０８）。これにより、本フローチャートの処理は、終了する。また、ステップＳ１０４の処理において、車両Ｍが走行せず、将来走行することも予測されていない場合、本フローチャートの処理は、終了する。

以上説明した実施形態によれば、車両の走行環境に基づいて音像定位位置を制御することで、より適切に乗員への運転支援を行うことができる。具体的には、エージェント装置１００によれば、車両Ｍが手動運転中であって且つ停車状態である場合には、乗員に見え易い表示部にエージェント画像や回答画像等を表示させたり、エージェント音声の音像をエージェント画像に合わせて定位させて乗員との対話等を行い、停止状態から走行状態に切り替わる場合には、エージェント音声の音像定位位置やエージェント画像の表示位置を運転者が周辺監視する方向に移動させることで、周辺監視をする方向に視線を向けさせることができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。例えば、上述した実施形態のサーバ装置２００の構成要素のうち一部または全部は、エージェント装置１００内に設けられてもよい。また、上述した実施形態のエージェント装置の構成要素のうち一部または全部は、サーバ装置２００内に設けられてもよい。また、エージェント装置１００は、他のエージェント装置と連携して乗員のリクエストに対する回答を取得し、取得した回答を乗員に提供してもよい。

１…エージェントシステム、１００…エージェント装置、１１０…通信装置、１１１…カメラ、１１２…車室内カメラ、１１４…マイク、１１６…表示部、１１８…スピーカ、１２０…ＡＭＰ、１２２…ミキサー、１３０…操作部、１４０…ナビゲーション装置、１５０…エージェント制御装置、１５２…音声入力部、１５４…走行環境取得部、１５５、状態変化判定部、１５６…視線検出部、１６０…出力制御部、１６２…画像生成部、１６４…音声生成部、１６６…アプリ呼出部、１７０、２４０…記憶部、１８０…制御部、２００…サーバ装置、２１０…通信部、２２０…認識部、２２２…音声区間検出部、２２４…音声認識部、２２６…自然言語処理部、２３０…対話生成部、２４２…パーソナルプロファイル、２４４…回答情報ＤＢ、３００…自動運転制御装置

Claims

車室内の音声を収集するマイクと、
前記車室内に音声を出力するスピーカと、
前記マイクにより収集された音声の意味を認識する認識部と、
前記認識部により認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を前記スピーカに出力させるエージェント制御部と、
前記車両の走行環境を取得する走行環境取得部と、
画像を表示する表示部と、を備え、
前記エージェント制御部は、前記走行環境取得部により取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させ、
前記エージェント制御部は、前記走行環境取得部により前記車両の停止状態が取得された場合に、前記乗員に対して話しかける態様のエージェント画像を前記表示部に表示させると共に、前記エージェント音声を前記エージェント画像の表示位置に対応付けた位置に定位させ、
前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、
前記エージェント制御部は、前記走行環境取得部により取得された前記車両の走行環境に基づいて、前記車両が走行している場合、または将来走行することが予測される場合に、前記第１表示部に表示された前記エージェント画像を前記第２表示部に移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させる、
エージェントシステム。
車室内の音声を収集するマイクと、
前記車室内に音声を出力するスピーカと、
前記マイクにより収集された音声の意味を認識する認識部と、
前記認識部により認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を前記スピーカに出力させるエージェント制御部と、
前記車両の走行環境を取得する走行環境取得部と、
画像を表示する表示部と、を備え、
前記エージェント制御部は、前記走行環境取得部により取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させ、
前記エージェント制御部は、前記走行環境取得部により前記車両の停止状態が取得された場合に、前記乗員に対して話しかける態様のエージェント画像を前記表示部に表示させると共に、前記エージェント音声を前記エージェント画像の表示位置に対応付けた位置に定位させ、
前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、
前記エージェント制御部は、前記走行環境取得部により前記車両が手動運転から自動運転に切り替わった場合に、前記第２表示部に表示された前記エージェント画像を前記第１表示部に向けて移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させる、
エージェントシステム。
前記エージェント制御部は、前記走行環境取得部により取得された前記車両の走行環境に基づいて、前記車両が走行する場合、または将来走行することが予測される場合に、前記エージェント音声を前記車両の進行方向に移動させる、
請求項１または２に記載のエージェントシステム。
前記エージェント制御部は、前記エージェント音声の音像定位位置を前記車両の進行方向に移動させる場合に、前記表示部に表示された前記エージェント画像の表示位置を、前記音像定位位置の移動に対応付けて移動させる、
請求項３に記載のエージェントシステム。
コンピュータが、
車室内の音声を収集するマイクにより収集された音声の意味を認識し、
認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、
生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を、車室内のスピーカに出力させ、
前記車両の走行環境を取得し、
取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させ、
前記車両の停止状態が取得された場合に、前記乗員に対して話しかける態様のエージェント画像を前記車室内の表示部に表示させると共に、前記エージェント音声を前記エージェント画像の表示位置に対応付けた位置に定位させ、
前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、
取得された前記車両の走行環境に基づいて、前記車両が走行している場合、または将来走行することが予測される場合に、前記第１表示部に表示された前記エージェント画像を前記第２表示部に移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させる、
エージェント制御方法。
コンピュータが、
車室内の音声を収集するマイクにより収集された音声の意味を認識し、
認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、
生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を、車室内のスピーカに出力させ、
前記車両の走行環境を取得し、
取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させ、
前記車両の停止状態が取得された場合に、前記乗員に対して話しかける態様のエージェント画像を前記車室内の表示部に表示させると共に、前記エージェント音声を前記エージェント画像の表示位置に対応付けた位置に定位させ、
前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、
前記車両が手動運転から自動運転に切り替わった場合に、前記第２表示部に表示された前記エージェント画像を前記第１表示部に向けて移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させる、
エージェント制御方法。
コンピュータに、
車室内の音声を収集するマイクにより収集された音声の意味を認識させ、
認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成させ、
生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を、車室内のスピーカに出力させ、
前記車両の走行環境を取得させ、
取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させ、
前記車両の停止状態が取得された場合に、前記乗員に対して話しかける態様のエージェント画像を前記車室内の表示部に表示させると共に、前記エージェント音声を前記エージェント画像の表示位置に対応付けた位置に定位させ、
前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、
取得された前記車両の走行環境に基づいて、前記車両が走行している場合、または将来走行することが予測される場合に、前記第１表示部に表示された前記エージェント画像を前記第２表示部に移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させる、
プログラム。
コンピュータに、
車室内の音声を収集するマイクにより収集された音声の意味を認識させ、
認識された意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成させ、
生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を、車室内のスピーカに出力させ、
前記車両の走行環境を取得させ、
取得された前記車両の走行環境が変化する場合、または将来変化することが予測される場合に、前記エージェント音声の音像が定位される態様を変更させ、
前記車両の停止状態が取得された場合に、前記乗員に対して話しかける態様のエージェント画像を前記車室内の表示部に表示させると共に、前記エージェント音声を前記エージェント画像の表示位置に対応付けた位置に定位させ、
前記表示部は、少なくとも第１表示部と、前記第１表示部よりも前記乗員が前記車両の周辺を監視するときの視界に近い位置に設置される第２表示部とを備え、
前記車両が手動運転から自動運転に切り替わった場合に、前記第２表示部に表示された前記エージェント画像を前記第１表示部に向けて移動させると共に、前記エージェント音声の音像定位位置を、前記エージェント画像の移動に対応付けて移動させる、
プログラム。