JP2020060830A

JP2020060830A - エージェント装置、エージェント提示方法、およびプログラム

Info

Publication number: JP2020060830A
Application number: JP2018189708A
Authority: JP
Inventors: 俊克倉持; Toshikatsu Kuramochi; 航遠藤; Ko Endo; 亮介田中; Ryosuke Tanaka
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2020-04-16
Also published as: US11450316B2; US20200111489A1; CN111007968A

Abstract

【課題】エージェントに自然な挙動を行わせることができるエージェント装置、エージェント提示方法、およびプログラムを提供すること。【解決手段】車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクにより収集された音声の意味を解釈する解釈部と、前記車室内に設けられる表示部と、乗員に対して話しかける態様のエージェント画像を前記表示部の一部領域に表示させると共に、前記エージェント画像が前記乗員の少なくとも１名に向かって話しかける音声を前記スピーカに出力させるエージェント制御部と、を備え、前記エージェント制御部は、前記表示部に前記エージェント画像が表示された後、顔向きに関する発話が前記解釈部により解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、エージェント装置。【選択図】図１

Description

本発明は、エージェント装置、エージェント提示方法、およびプログラムに関する。

従来、運転席の周りに複数の表示部を備え、ナビゲーションシステムの設定や映像等のコンテンツの選択や再生等の操作入力に基づいて、複数の表示部のうち、予め設定された表示部にナビゲーションシステムの地図および案内の表示や、映像コンテンツの表示等を行う表示システムが知られている（例えば、特許文献１参照）。

特開２０１８−１０３８８０号公報

しかしながら、従来の技術では、乗員が複数名である場合、操作入力に基づく表示結果がその操作を行った乗員にとって視認しやすい位置に表示されない可能性があった。この結果、仮にエージェント画像を制御する装置に適用した場合、エージェントが不自然な挙動をする可能性があった。

本発明の態様は、このような事情を考慮してなされたものであり、エージェントに自然な挙動を行わせることができるエージェント装置、エージェント提示方法、およびプログラムを提供することを目的の一つとする。

この発明に係るエージェント装置、エージェント提示方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係るエージェント装置は、車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクにより収集された音声の意味を解釈する解釈部と、前記車室内に設けられる表示部と、乗員に対して話しかける態様のエージェント画像を、前記表示部の一部領域に顔向きが認識可能な態様で表示させると共に、音声を前記スピーカに出力させるエージェント制御部と、を備え、前記エージェント制御部は、前記表示部に前記エージェント画像が表示された後、顔向きに関する発話が前記解釈部により解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、エージェント装置である。

（２）：上記（１）の一態様において、複数の前記スピーカを備え、前記複数のスピーカの出力の組み合わせで音像定位可能であり、前記エージェント制御部は、前記エージェント画像を、複数の乗員のそれぞれの近傍に亘って存在する一以上の前記表示部のうち、前記話しかけ先に近い一部領域に表示させ、前記スピーカを制御して前記エージェント画像の表示位置に音像を定位させるものである。

（３）：上記（２）の態様において、前記エージェント制御部は、運転者でない前記乗員を優先的に前記話しかけ先として選択するものである。

（４）：上記（３）の態様において、優先的に前記話しかけ先として選択する前記乗員は、前記車室内の助手席に着座する乗員であるものである。

（５）：上記（２）から（４）のいずれかの態様において、前記エージェント制御部は、前記エージェント画像の顔向きを変更した後、さらに前記解釈部により前記エージェント画像の顔向きに関する前記解釈が行われた場合、前記顔向きを無指向とするものである。

（６）：上記（１）から（５）のいずれかの態様において、前記エージェント制御部は、前記解釈部により前記エージェント画像の名称の入力を繰り返し受け付けたと解釈された場合、前記顔向きを変更するものである。

（７）：上記（１）から（６）のいずれかの態様において、前記エージェント制御部は、前記マイクが受け付けた前記音声の音圧の上昇率が所定の割合以上である場合、前記顔向きを変更するものである。

（８）：この発明の一態様に係るエージェント提示方法は、コンピュータが、車室内の音声を収集し、前記車室内に音声を出力し、収集された音声の意味を解釈し、乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、エージェント提示方法である。

（９）：この発明の一態様に係るプログラムは、コンピュータに、車室内の音声を収集させ、前記車室内に音声を出力させ、収集された音声の意味を解釈させ、乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更させる、プログラムである。

（１）〜（９）によれば、エージェントに自然な挙動を行わせることができる。

実施形態に係るエージェント装置を含むエージェントシステム１の構成図である。車両Ｍに設置される表示部およびスピーカを模式的に示す図である。後部座席付近のスピーカの位置を説明するための図である。音像が定位する位置を移動させる様子を説明するための図である。表示部１１６Ａにおけるエージェント画像ＥＩ１の表示例を示す図である。車両Ｍの表示部１１６と乗員の着座位置の位置関係を説明する図である。エージェント画像ＥＩ１が話しかけ先を変更する様子を模式的に示す図である。エージェント装置１００による顔向きに関する発言を検知する際の処理の流れの一例を示すフローチャートである。エージェント装置１００による表情変化を検知する際の処理の流れの一例を示すフローチャートである。発話者不明時のエージェント画像ＥＩ１の初期表示位置を説明する図である。エージェント装置１００による一連の処理の流れの一例を示すフローチャートである。

以下、図面を参照し、本発明のエージェント装置、エージェント提示方法、およびプログラムの実施形態について説明する。また、以下では、エージェント装置の一例として、車両に搭載され、対話型エージェント機能を備えたエージェント装置について説明する。エージェント装置とは、例えば、車両の乗員と対話をしながら、乗員の要求に応対して各種の情報提供を行ったり、車両内の機器の制御を行ったりするものである。また、エージェント装置は、乗員の表情や声の調子から乗員の状態を判断して運転支援を行ったり、乗員のライフスタイルや嗜好を学習して、状況に応じた選択肢の提案を行ったりするものであってもよい。エージェント装置は、乗員に対話者を視認させるため、例えば、擬人化された動物やキャラクタ等の画像（以下、エージェント画像と称する）を表示部に表示させる。エージェント画像は、例えば、少なくとも観者によって表情や顔向きが認識される程度の顔画像を含む。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて顔向きが認識されるものである。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことで、顔向きが認識されるものであってもよい。エージェント装置は、例えば、乗員の音声を認識する音声認識処理（音声をテキスト化する処理）に加え、自然言語機能（テキストの構造や意味を理解する処理）、対話制御処理、検索処理等を統合的に利用して実現される。また、これらの処理の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現される。また、これらの処理を行うための構成の一部または全部は、車両と通信可能なサーバ装置等に設けられる。

［全体構成］
図１は、実施形態に係るエージェント装置を含むエージェントシステム１の構成図である。エージェントシステム１は、エージェント装置１００と、サーバ装置２００とを備える。エージェント装置１００とサーバ装置２００とは、例えば、インターネットやＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）等のネットワークＮＷによりデータの送受信が可能な状態で接続されている。サーバ装置２００は、複数のエージェント装置１００との通信が可能であるが、以下では説明の便宜上、１つのエージェント装置１００と通信するものとする。

エージェント装置１００は、車両Ｍの乗員と対話を行い、乗員からの音声等による問い合わせに対して、サーバ装置２００にリクエストを行い、サーバ装置２００から得られたリクエストに対する回答を、所定の出力態様で乗員に提示する。以下の説明において、乗員とは、例えば、運転席に着座する乗員（以下、運転者）であるものとするが、これに加えて（または、代えて）助手席や後部座席に着座する乗員（同乗者）でもよい。

エージェント装置１００は、例えば、通信装置１１０と、車室内カメラ１１２と、マイク１１４と、表示部１１６と、スピーカ１１８と、操作部１２０と、ナビゲーション装置１３０と、エージェント制御装置１５０とを備える。これらの装置や機器は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図１に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

通信装置１１０は、例えば、セルラー網やＷｉ−Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＤＳＲＣ（Dedicated Short Range Communication）等を利用して、ネットワークＮＷを介して他車両やサーバ装置２００と通信する。

車室内カメラ１１２は、例えば、車両Ｍの車室内に設置されたシートに着座する乗員の顔を含む画像を撮像する。車室内カメラ１１２は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子を利用したデジタルカメラである。車室内カメラ１１２は、例えば、所定のタイミングで乗員を撮像する。車室内カメラ１１２の撮像画像は、エージェント制御装置１５０に出力される。

マイク１１４は、車室内の音声を集音する音声入力装置である。例えば、マイク１１４は、ステアリングホイールに設置される。また、マイク１１４は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイク１１４は、ステアリングホイール、インストルメントパネル、またはシートに設置される。

表示部１１６は、車室内のシートに着座する乗員の前方付近に設置される。また、スピーカ１１８は、車室内のシート付近または表示部１１６付近に設置される。表示部１１６およびスピーカ１１８は、車室内に複数設置されてよい。

図２は、車両Ｍに設置される表示部およびスピーカを模式的に示す図である。図２の車室内には、表示部１１６Ａ〜１１６Ｄと、スピーカ１１８Ａ〜１１８Ｆとが設置されている。表示部１１６Ａは、例えば、ＨＵＤ（Head-Up Display）装置である。ＨＵＤ装置は、風景に重畳させて画像を視認させる装置であり、一例として、車両Ｍのフロントウインドシールドやコンバイナーに画像を含む光を投光することで、乗員に虚像を視認させる装置である。ＨＵＤ装置による画像を視認させる対象の乗員は、主に運転者または助手席に着座する乗員であるが、後部座席に着座する乗員であってもよい。表示部１１６Ａは、例えば、運転者の視野を遮らない程度に、フロントウインドシールドの下方領域に設定されてもよい。表示部１１６Ｂは、ナビゲーション装置１３０により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。

表示部１１６Ｂは、インストルメントパネルＩＰにおける運転席（例えばステアリングホイールに最も近い座席）の正面付近に設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部１１６Ｂは、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）表示装置等である。表示部１１６Ｂには、例えば、車両Ｍの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。

表示部１１６Ｃは、インストルメントパネルＩＰの中央付近に設置される。表示部１１６Ｃは、例えば、表示部１１６Ｂと同様に、ＬＣＤや有機ＥＬ表示装置等である。表示部１１６Ｃは、例えば、ナビゲーション装置１３０により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。また、表示部１１６Ｃは、テレビ番組を表示したり、ＤＶＤを再生したり、ダウンロードされた映画等のコンテンツを表示してもよい。

表示部１１６Ｄは、インストルメントパネルＩＰにおける助手席（運転席の隣りの座席）の正面付近に設けられる。表示部１１６Ｄには、テレビ番組を表示したり、ＤＶＤを再生したり、ダウンロードされた映画等のコンテンツが表示される。また、車室内には、乗員が車両Ｍのサイドミラーによって視認可能な情報を車外カメラによって取得し、取得した情報を表示する表示部が設置されていてもよい。

スピーカ１１８Ａおよびスピーカ１１８Ｂは、例えば、車両Ｍの左右の前方の窓柱（いわゆるＡピラー）に設置される。また、スピーカ１１８Ｃは、運転席側のドアの下部に設置され、スピーカ１１８Ｄは、助手席側のドアの下部に設置される。スピーカ１１８Ｅは、表示部１１６Ｃ付近、つまり、インストルメントパネルＩＰの中央付近に設置される。スピーカ１１８Ｆは、車室内の天井の中央部付近に設置される。

また、車両Ｍには、後部座席付近にスピーカが設けられていてもよい。図３は、後部座席付近のスピーカの位置を説明するための図である。図３の例では、図２に示すスピーカ１１８Ａ〜１１８Ｆの他に、運転席ＳＴ１と助手席ＳＴ２の後方に設置された後部座席ＳＴ３付近にスピーカ１１８Ｇおよび１１８Ｈが設けられている。具体的には、スピーカ１１８Ｇおよび１１８Ｈは、左右の方向ドアの下部に設けられる。また、スピーカ１１８は、車両Ｍの前方ドアと後方ドアとの間に設けられる窓柱（いわゆるＢピラー）に設けられてもよく、後部座席の方向に設けられてもよい。

操作部１２０は、乗員による手動での操作を受け付ける。操作部１２０は、例えば、スイッチやボタン、キー等を備える。操作部１２０は、例えば、ステアリングホイールやインストルメントパネルに設けられる。また、操作部１２０は、タッチパネルとして、表示部１１６と一体に構成されてもよい。

ナビゲーション装置１３０は、例えば、ＧＮＳＳ（Global Navigation Satellite System）衛星から受信した信号に基づいて、車両Ｍの位置を特定する。また、ナビゲーション装置１３０は、特定された車両Ｍの位置（或いは入力された任意の位置）から、操作部１２０や表示部１１６を用いて乗員により入力された目的地までの経路（以下、地図上経路）を、地図情報１３２を参照して決定する。地図情報１３２は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。地図情報１３２は、道路の曲率やＰＯＩ（Point Of Interest）情報等を含んでもよい。

ナビゲーション装置１３０は、地図上経路に基づいて、表示部１１６やスピーカ１１８を用いた経路案内を行ってもよい。ナビゲーション装置１３０は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。ナビゲーション装置１３０は、通信装置１１０を介してサーバ装置２００或いはナビゲーションサーバに現在位置と目的地を送信し、サーバ装置２００やナビゲーションサーバから地図上経路と同等の経路を取得してもよい。ナビゲーション装置１３０は、エージェント制御装置１５０の一機能であってもよい。

［エージェント制御装置］
エージェント制御装置１５０は、例えば、音声入力部１５２と、車両状態解析部１５４と、乗員状態解析部１５６と、提示制御部１６０と、画像生成部１６２と、音声生成部１６４と、アプリ呼出部１６６と、記憶部１７０と、エージェント制御部１８０とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）等のコンピュータプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部１７０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部１７０にインストールされてもよい。

音声入力部１５２は、マイク１１４による音声の入力を受け付ける。音声入力部１５２は、受け付けられた音声（音声ストリーム）を、通信装置１１０を介してサーバ装置２００に送信する。

車両状態解析部１５４は、例えば、ナビゲーション装置１３０により特定された車両Ｍの位置や、車両に搭載された車両センサにより取得される速度、加速度、鉛直軸回りの角速度、車両Ｍの向き等に基づいて、車両の状態を解析する。車両Ｍの状態には、例えば、車両Ｍが停止しているか、走行しているか等の状態や、右左折や車線変更を行っているか等の状態が含まれる。

乗員状態解析部１５６は、車室内カメラ１１２により撮像された画像に対する解析処理を行い、人物形状や顔形状等の特徴情報を抽出することで車室内のシートに着座する乗員の位置や、乗員の挙動、視線、表情変化に関する情報を取得する。乗員の挙動には、例えば、乗員の顔の向きや体の姿勢が含まれる。また、乗員状態解析部１５６は、シートに設けられた圧力センサやその他の検知センサにより、シートに着座する乗員の位置を検知してもよい。

また、乗員状態解析部１５６は、マイク１１４により収音された音声を解析し、解析した声の調子から乗員の状態を判断してもよいし、乗員の感情を推定してもよい。また、乗員状態解析部１５６は、乗員が複数名である場合、車室内カメラ１１２の撮像結果およびマイク１１４により収音された音声の解析結果に基づいて、どの乗員が発話者かを特定してもよい。乗員状態解析部１５６は「解釈部」の一例である。

提示制御部１６０は、音声入力部１５２からサーバ装置２００に送信された音声に対する回答情報（例えば、サーバ装置２００により生成された対話情報）に基づいて、エージェント画像を介して乗員に提示する内容を制御する。乗員に提示する内容には、例えば、表示部１１６に出力させる表示内容と、スピーカ１１８により出力させる音声内容と、車両内の各機能を実現するアプリケーション（以下、アプリと称する）を実行する内容とが含まれる。

また、提示制御部１６０は、乗員状態解析部１５６により解析された乗員の状態に基づいて、乗員に提示する内容を制御してもよい。また、提示制御部１６０は、乗員からの入力情報や乗員に提示した内容の履歴情報を記憶部１７０に記憶しておき、記憶した履歴情報から乗員のライフスタイルや嗜好を学習して、状況に応じた提示内容の制御を行ってもよい。

画像生成部１６２は、エージェント画像を生成するとともに、生成したエージェント画像を表示する表示部１１６および画面上における表示位置を設定し、設定した表示部１１６の表示位置にエージェント画像を表示される。例えば、画像生成部１６２は、音声の内容や回答情報の内容に基づいて、エージェントの表情を変化させたエージェント画像を生成してもよい。例えば、画像生成部１６２は、乗員からのリクエストが不明瞭でリクエストの再入力を依頼する場合には、悲しそうな表情のエージェントの画像を生成し、「ありがとう」等の音声が入力された場合には、うれしそうな表情のエージェント画像を生成する。また、画像生成部１６２は、回答情報を表示部１１６に表示するための画像（以下、回答画像と称する）を生成し、生成した回答画像を表示部１１６に表示させる。

音声生成部１６４は、乗員に出力する対話用の音声を生成する。例えば、音声生成部１６４は、一以上のスピーカ１１８を用いて、エージェント画像の表示位置に対応する位置に音像を定位させるための音声を生成する。音像が定位するとは、例えば、スピーカ１１８から出力されて乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。音像は、例えば、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数（HRTF；Head-related transfer function）に基づいて定まる。音声生成部１６４は、このような原理を利用して、音像を所定の位置に定位させることができる。

図４は、音像が定位する位置を移動させる様子を説明するための図である。図４では、説明を簡略化するために、上述したスピーカ１１８Ｃ〜１１８Ｅを用いて音像を定位させることを例示している。また、図４の例では、音声生成部１６４とスピーカ１１８Ｃ〜１１８Ｅとの間に、ＡＭＰ１６４Ａと、ミキサー１６４Ｂとを備える。ＡＭＰ１６４Ａは、音声生成部１６４による制御によりスピーカ１１８Ｃ〜１１８Ｅのそれぞれから出力される音の大きさを調整する。例えば、ＡＭＰ１６４は、基準となる音の大きさ（最大強度）に対し、０〜１００％の間で音の調節を可能とする。また、ミキサー１６４Ｂは、入力された複数の音を合成する機能を備える。また、ミキサー１６４Ｂは、スピーカ１１８Ｃ〜１１８Ｅのそれぞれに出力する音を分配する機能を備える。

例えば、図４に示す空間位置ＭＰ１に音像を定位させる場合、ＡＭＰ１６４Ａは、音声生成部１６４により生成された音声に基づいて、所定の出力対象の音声に対し、スピーカ１１８Ｃから最大強度の５％の出力を行い、スピーカ１１８Ｄから最大強度の８０％の出力を行い、スピーカ１１８Ｅから最大強度の１５％の出力を行った場合、乗員Ｐ１の位置からは、図４に示す空間位置ＭＰ１に音像が定位しているように感じることになる。

また、ＡＭＰ１６４Ａは、出力対象の音声に対し、スピーカ１１８Ｃから最大強度の４５％の出力を行い、スピーカ１１８Ｄから最大強度の４５％の出力を行い、スピーカ１１８Ｅから最大強度の４５％の出力を行った場合、乗員Ｐ１の位置からは、図４に示す空間位置ＭＰ２に音像が定位しているように感じることができる。このように、車室内に立体的に設けられる複数のスピーカのうち、選択される一以上のスピーカのそれぞれから出力される音の大きさを調整することで、音像定位の位置を変化させることができる。

アプリ呼出部１６６は、提示制御部１６０により選択されたアプリを記憶部１７０により呼び出し、呼び出したアプリをエージェント制御部１８０で実行することで、そのアプリの機能を実現させる。例えば、エージェント制御部１８０により電話アプリ１７２が実行された場合には、通信装置１１０を介して外部の通話機能を備えた端末と通信を行い、マイク１１４やスピーカ１１８を用いて、端末所持者との通話が実現される。また、エージェント制御部１８０によりラジオアプリ１７４が実行された場合には、通信装置１１０を介してラジオ局から乗員が指定した周波数で発信された音声情報を取得し、取得した音声情報をスピーカ１１８から出力する機能が実現される。また、エージェント制御部１８０によりナビアプリ１７６が実行された場合には、ナビゲーション装置１３０と連携した経路案内機能等が実現される。

記憶部１７０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１７０は、例えば、電話アプリ１７２、ラジオアプリ１７４、ナビアプリ１７６等のプロセッサによって読み出されて実行されるプログラム、その他の情報等が格納される。

エージェント制御部１８０は、エージェント制御装置１５０の各機能部に実行および停止を制御する。エージェント制御部１８０は、例えば、各機能部からの要求をＡＰＩ（Application Programming Interface）によって受け付け、受け付けた要求に基づく処理を実行する機能部を選択し、選択した機能部に、ＡＰＩを介して処理を実行させる。

［サーバ装置］
サーバ装置２００は、例えば、通信部２１０と、音声区間検出部２２０と、音声認識部２３０と、自然言語処理部２４０と、対話生成部２５０と、記憶部２６０とを備える。これらの構成要素は、例えば、ＣＰＵ等のコンピュータプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部１７０のＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部１７０にインストールされてもよい。

通信部２１０は、例えば、セルラー網やＷｉ−Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ、ＤＳＲＣ等を利用して、ネットワークＮＷを介してエージェント装置１００と通信する。通信部２１０は、エージェント装置１００から送信された音声ストリームを受信する。また、通信部２１０は、対話生成部２５０により生成された音声や文字情報、画像等の回答情報をエージェント装置１００に送信する。

音声区間検出部２２０は、エージェント装置１００から送信された音声ストリームから音声区間を検出する。例えば、音声区間検出部２２０は、例えば、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。また、音声区間検出部２２０は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model) に基づくフレーム単位の音声・非音声識別に基づく区間検出を行ってもよく、予め記憶部２６０等に記憶された音声区間を検出するためのデータベースとのマッチング処理により区間検出を行ってもよい。

音声認識部２３０は、音声区間検出部２２０による音声区間における音声を認識し、音声を文字情報としてテキスト化する。また、音声認識部２３０は、音声から発話者の特徴を特定してもよい。発話者の特徴には、例えば、性別や年齢、運転者であるか、同乗者であるかの情報が含まれる。また、音声認識部２３０は、記憶部２６０に記憶されたパーソナルプロファイル２６４に記憶された個人の音声の特徴情報と照合して、個人を特定してもよい。

また、音声認識部２３０は、乗員が他の乗員をどのように呼ぶか、またはどのように呼ばれるか基づいて、特徴情報を特定してもよい。音声認識部２３０は、例えば、助手席に着座する乗員が、運転席に着座する乗員を「お父さん」と呼ぶことを認識した場合に、乗員による「お父さん」という呼称は、運転者を指すものであると認識する。なお、この機能は、エージェント制御装置１５０のエージェント制御部１８０が持っていてもよい。

自然言語処理部２４０は、音声認識部２３０によりテキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味を解釈する。自然言語処理には、形態素解析、構文解析、意味解析、文脈解析等が含まれる。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位（形態素）ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位や文脈単位で意味を解釈する。

また、自然言語処理部２４０は、解釈した意味に対応するコマンドを生成する。例えば、解釈結果として、「東京駅まで何キロ？」、「東京駅までどのくらい走る？」等の意味が解釈された場合、自然言語処理部２４０は、標準文字情報「東京駅までの距離は？」に置き換えたコマンドを生成する。これにより、文字揺らぎがあった場合にも回答情報を取得しやすくすることができる。

また、自然言語処理部２４０は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を解釈したり、解釈結果に基づくコマンドを生成してもよい。自然言語処理部２４０は、生成されたコマンドを用いて記憶部２６０に記憶された回答情報２６２のコマンドを参照し、合致するコマンドに対応する回答情報を取得する。

対話生成部２５０は、自然言語処理部２４０により取得した内容に基づいて乗員と対話を行うための音声を生成する。また、対話生成部２５０は、生成された音声（音声ストリーム）や文字情報、画像等の回答情報を通信部２１０からエージェント装置１００に送信させる。

記憶部２６０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。記憶部２６０は、例えば、回答情報２６２、パーソナルプロファイル２６４、その他の情報等が格納される。パーソナルプロファイル２６４は、例えば、個人の識別情報に、声の特徴情報、性別、年齢、好きなジャンル、過去のサーバ装置２００の使用履歴等を対応付けた情報である。

［エージェント画像の初期表示］
図５は、表示部１１６Ａにより表示されるエージェント画像ＥＩ１の一例を示す図である。前述したように、エージェント画像は、観者によって表情や顔向きが認識される程度の顔画像を含む。図５に示す例では、車室中央方向に向いていると乗員によって認識できるように、エージェント画像ＥＩ１を表示する様子を表している。

エージェント制御部１８０は、音声入力部１５２により検出された乗員の発話を乗員状態解析部１５６が解析した結果、エージェントを呼び出す単語または文節が含まれることが解析された場合に、まず、エージェントが乗員の発話に応答する前に、乗員の少なくとも１人を話しかけ先として設定し、その話しかけ先に顔を向ける形態で、表示部１１６Ａの話しかけ先の乗員に近い一部領域に顔向きが認識可能な態様でエージェント画像を表示させ、さらにその表示位置に音像を定位させる。

なお、エージェント制御部１８０は、マイク１１４の集音結果により発話者の方向が特定できる場合には、その特定した発話者の方向を話しかけ先とする。エージェント制御部１８０は、マイク１１４の集音結果により発話者の方向が特定できなかった場合には、車室内カメラ１１２の撮像結果により発話者の方向を特定してもよい。また、エージェント制御部１８０は、音声認識部２３０により発話者の性別や年代が特定できている場合には、その認識結果と車室内カメラ１１２の撮像結果に基づいて発話者を特定してもよい。

エージェント制御部１８０は、乗員が運転席ＳＴ１に着座する乗員のみである場合には、発話者を運転席ＳＴ１に着座する乗員であると認識する。また、乗員状態解析部１５６は、発話者が特定できない場合には、運転席ＳＴ１に着座する乗員以外を優先的に話しかけ先として選択してもよく、助手席ＳＴ２に着座する乗員がいる場合には、その乗員を話しかけ先として優先的に選択してもよい。これにより、助手席ＳＴ２に着座する乗員の反応を参考に、話しかけ先の変更の要否を判定することができる。なお、運転席ＳＴ１に着座する乗員は、操舵のため車両Ｍの走行方向等を向く時間が長く、エージェント画像を注視する可能性が低いと考えられる。すなわち、運転席ＳＴ１に着座する乗員は、エージェント画像の顔向きが合っているか否かの反応が十分に得られない可能性がある。そこで、エージェント制御部１８０は、助手席ＳＴ２に着座する乗員を優先的に話しかけ先として選択する。

図６は、車両Ｍの表示部１１６と乗員の着座位置の位置関係を説明する図である。乗員状態解析部１５６は、発話者の方向が特定できなかった場合には、初期表示として任意の方向を向いたエージェント画像ＥＩ１を表示させる。任意の方向とは、例えば、図６に示す領域Ｔａの方向である。

［乗員の発話に伴うエージェント画像の顔向きの変更］
エージェント制御部１８０は、エージェント画像の初期表示の後、乗員状態解析部１５６により乗員のエージェント画像の顔向きに関する発話が検出された場合、エージェント画像の顔向きが、話しかけ先の乗員の向きとは異なる方向を向くように表示部１１６を制御する。

エージェント画像の顔向きに関する発話とは、例えば、発話者による「こっちだよ。」、「こっちよ。」、「そっちじゃないよ。」、「そこじゃないよ。」等の発話や、話しかけ先として認識された乗員による「私じゃないよ。」、「お父さんよ。」等の発話である。また、エージェント画像を呼び出す際の名称（ニックネーム）を繰り返すことがエージェント画像の顔向きに関する発話に含まれてもよい。また、エージェント制御部１８０は、乗員状態解析部１５６により車室内カメラ１１２の撮像結果が解釈された結果、乗員が手を振ったり、他の乗員に向かって指を指したりするジェスチャが検出された場合には、そのジェスチャの意味を解釈して話しかけ先の向きを異なる向きに変更するように制御してもよい。

また、エージェント制御部１８０は、音声入力部１５２により認識されたエージェントの呼び出し時の音圧と比較して、次に音声入力部１５２が認識した乗員の声の音圧の上昇率が所定の割合以上である場合には、乗員がエージェントに対して注意喚起を促していたり、乗員の苛立ちの感情が込められていたりするものと解釈し、エージェント画像の顔向きを変更するように制御してもよい。

エージェント制御部１８０は、エージェント画像に話しかけ先を変更させる場合、変更先が自然言語処理部２４０により解釈された特定の方向が存在する場合にはその方向を採用する。自然言語処理部２４０により解釈された特定の方向とは、例えば、発話者による「こっちだよ。」等の発話を検出した乗員の着座する方向である。

エージェント制御部１８０は、特定の方向が存在しない場合であり、且つ、エージェント画像に話しかけ先を変更させる場合、エージェント画像に当初の話しかけ先の反対を向くように変更してもよいし、話しかけ先とは異なる任意の乗員の方を向くように変更してもよい。また、エージェント制御部１８０は、エージェント画像の顔向きを変更した後、さらに乗員状態解析部１５６によりエージェント画像の顔向きに関する解釈が行われた場合、エージェント画像の顔向きを無指向としてもよい。エージェント画像の顔向きを無指向にするとは、例えば、運転席ＳＴ１と助手席ＳＴ２の中央付近ＣＭの方を向くようにすることや、車両Ｍの車室天井方向を向くようにすること、視線を一点に集中させずに車室内を見回すことである。

なお、エージェント制御部１８０は、乗員Ｐ１が発話者であった場合でも、乗員Ｐ２がエージェント画像の顔向きを訂正する反応をせずエージェント画像との対話を開始した場合には、乗員Ｐ２を話しかけ先として対応を継続する。

エージェント制御部１８０は、乗員状態解析部１５６により助手席ＳＴ２に着座する乗員の反応を解析した結果、助手席ＳＴ２に着座する乗員が話しかけ先であると認識した場合には対話生成部２５０により生成された「ご用ですか？」等の応答音声を音声生成部１６４に再生させる。エージェント制御部１８０は、乗員状態解析部１５６により助手席ＳＴ２に着座する乗員の反応を解析した結果、運転席ＳＴ１に着座する乗員が話しかけ先であると認識した場合には、エージェントの顔向きを変更させた後、対話生成部２５０により生成された応答音声を音声生成部１６４に再生させる。

図７は、エージェント画像ＥＩ１が話しかけ先を変更する様子を模式的に示す図である。エージェント制御部１８０は、乗員状態解析部１５６により、運転席ＳＴ１に着座する乗員Ｐ１と助手席ＳＴ２に着座する乗員Ｐ２のいずれかの乗員によりエージェント画像ＥＩ１の表示を要求されたが、どちらの乗員が発話者であるかを特定できない場合に、初期表示として図７（ａ）に示すように、話しかけ先として乗員Ｐ２を設定し、エージェント画像ＥＩ１の顔向きを、助手席ＳＴ２を含む領域Ｔａの方に向けて表示する。

エージェント制御部１８０は、乗員Ｐ１による「こっちだよ。」という発言を顔向きに関する発言であると解釈し、図７（ｂ）に示すように話しかけ先を乗員Ｐ１に変更すると決定し、エージェント画像ＥＩ１の顔向きを、運転席ＳＴ１を含む領域Ｔａの方へ変更する。

なお、エージェント制御部１８０は、エージェント画像ＥＩ１の顔向きを変更する際に、エージェント画像ＥＩ１の表示位置も併せて変更してもよい。例えば、乗員Ｐ１が操舵中である場合、図７（ａ）および図７（ｂ）に示すように表示部１１６Ａの左端部にエージェント画像ＥＩ１を表示した状態では、エージェント画像ＥＩ１を視認し辛く感じる可能性がある。そこで、図７（ｃ）に示すように、エージェント画像ＥＩ１を表示する位置を表示部１１６Ａの中央付近に移動させてもよい。

［処理フロー１］
以下、エージェント制御部１８０による一連の処理の流れを、フローチャートを用いて説明する。図８は、エージェント装置１００による顔向きに関する発言を検知する際の処理の流れの一例を示すフローチャートである。

まず、自然言語処理部２４０は、乗員によるエージェント画像を呼び出す発話を認識する（ステップＳ１００）。次に、乗員状態解析部１５６は、自然言語処理部２４０が認識した音声の発話者を特定できるか否かを判別する（ステップＳ１０２）。発話者が特定できる場合、エージェント制御部１８０は、エージェント画像の顔向きを発話者に向けて表示するよう制御する（ステップＳ１０４）。発話者が特定できない場合、エージェント制御部１８０は、エージェント画像の顔向きを助手席に着座する乗員に向けて表示するよう制御する（ステップＳ１０６）。

ステップＳ１０４またはステップＳ１０６の処理の後、自然言語処理部２４０は、乗員によるエージェント画像の顔向きに関する発言を認識したか否かを判別する（ステップＳ１０８）。顔向きに関する発言を認識しなかった場合、話しかけ先に対する応対処理を行う（ステップＳ１１０）。顔向きに関する発言を認識した場合、エージェント制御部１８０は、エージェント画像の話しかけ先を変更し（ステップＳ１１２）、ステップＳ１１０の処理を行う。以上、本フローチャートの処理の説明を終了する。

［乗員の表情変化に伴うエージェント画像の顔向きの変更］
エージェント制御部１８０は、エージェント画像の初期表示の後、エージェントが発言する前の段階において、車室内カメラ１１２の撮像画像を乗員状態解析部１５６が解析し、乗員の表情変化を検出した場合、エージェント画像の顔向きが、当初の向きとは異なる方向を向くように表示部１１６を制御する。エージェント制御部１８０は、例えば、車室内カメラ１１２により撮像された、話しかけ先の乗員のネガティブな表情変化を検知した場合にも同様に、エージェント画像の顔向きを変更させる。ネガティブな表情変化とは、例えば、驚き、苛立ち、困惑に分類される表情になることである。なお、乗員がエージェント画像表示前から該当する表情をしていた場合には、エージェント制御部１８０はネガティブな表情変化があったとは検知しない。

［処理フロー２］
図９は、エージェント装置１００による表情変化を検知する際の処理の流れの一例を示すフローチャートである。なお、図９に示すフローチャートのステップＳ２００〜Ｓ２０６、Ｓ２１０〜Ｓ２１２は、図８に示すフローチャートのステップＳ１００〜Ｓ１０６、Ｓ１１０〜Ｓ１１２に対応する。

まず、自然言語処理部２４０は、乗員によるエージェント画像を呼び出す発話を認識する（ステップＳ２００）。次に、乗員状態解析部１５６は、自然言語処理部２４０が認識した音声の発話者を特定できるか否かを判別する（ステップＳ２０２）。発話者が特定できる場合、エージェント制御部１８０は、エージェント画像の顔向きを発話者に向けて表示するよう制御する（ステップＳ２０４）。発話者が特定できない場合、エージェント制御部１８０は、エージェント画像の顔向きを助手席に着座する乗員に向けて表示するよう制御する（ステップＳ２０６）。何れの場合でもエージェントは、まだ発話を行わない。

ステップＳ２０４またはステップＳ２０６の処理の後、乗員状態解析部１５６は、乗員の表情変化を認識したか否かを判別する（ステップＳ２０８）。乗員の表情変化を認識しなかった場合、話しかけ先に対する応対処理を行う（ステップＳ２１０）。乗員の表情変化を認識した場合、エージェント制御部１８０は、エージェント画像の話しかけ先を変更し（ステップＳ２１２）、ステップＳ２１０の処理を行う。以上、本フローチャートの処理の説明を終了する。

［発話者不明時のエージェント画像初期表示］
図１０は、発話者不明時のエージェント画像ＥＩ１の初期表示位置を説明する図である。エージェント制御部１８０は、どの乗員が発話したのかを推定できなかった場合には、図１０に示すように、表示部１１６Ａの助手席側の端部から、車室内の乗員全員を話しかけ先として乗員全員を含む領域Ｔａの方に向けてエージェント画像ＥＩ１を表示してもよい。また、助手席ＳＴ２に着座する乗員がおらず、且つ、後部座席ＳＴ３に着座する乗員Ｐ３がいる場合には、後部座席ＳＴ３の乗員Ｐ３が話しかけ先であるものとして領域Ｔａの方に向けてエージェント画像ＥＩ１の顔向きを設定してもよい。

［処理フロー３］
図１１は、エージェント装置１００による一連の処理の流れの一例を示すフローチャートである。なお、図１１に示すフローチャートのステップＳ３００〜Ｓ３０２、Ｓ３１０およびＳ３１２は、図８に示すフローチャートのステップＳ１００〜Ｓ１０２、Ｓ１０８およびＳ３１２に対応し、図１１に示すフローチャートのステップＳ３０８は、図９に示すフローチャートのステップＳ２０８に対応する。

まず、自然言語処理部２４０は、乗員によるエージェント画像を呼び出す発話を認識する（ステップＳ３００）。次に、乗員状態解析部１５６は、自然言語処理部２４０が認識した音声の発話者を特定できるか否かを判別する（ステップＳ３０２）。発話者が特定できる場合、エージェント制御部１８０は、エージェント画像を発話者に近い一部領域に表示させるよう制御し、且つ、エージェント画像の顔向きを発話者に向けて表示させるよう制御する（ステップＳ３０４）。発話者が特定できない場合、エージェント制御部１８０は、エージェント画像を表示部１１６の端部に表示させる様に制御し（図１０では、助手席側の端部に表示させるよう制御している）、且つ、エージェント画像の顔向きを乗員全体に向けて表示させるよう制御する（ステップＳ３０６）。

ステップＳ３０４またはステップＳ３０６の処理の後、乗員状態解析部１５６は、乗員の表情変化を認識したか否かを判別する（ステップＳ３０８）。乗員の表情変化を認識しなかった場合、自然言語処理部２４０は、乗員によるエージェント画像の顔向きに関する発言を認識したか否かを判別する（ステップＳ３１０）。顔向きに関する発言を認識しなかった場合、エージェント制御部１８０は、話しかけ先に対する応対処理を行う（ステップＳ３１２）。ステップＳ３０８において乗員の表情変化を認識した場合、またはステップＳ３１０において顔向きに関する発言を認識した場合、エージェント制御部１８０は、エージェント画像の話しかけ先を変更し（ステップＳ３１４）、ステップＳ３１２の処理を行う。以上、本フローチャートの処理の説明を終了する。

以上説明した実施形態によれば、車室内の音声を収集するマイク１１４と、車室内に音声を出力するスピーカ１１８と、マイク１１４により収集された音声の意味を解釈する乗員状態解析部１５６と、車室内に設けられる表示部１１６と、乗員に対して話しかける態様のエージェント画像を表示部１１６の一部領域に表示させると共に、音声をスピーカ１１８に出力させるエージェント制御部１８０と、を備え、エージェント制御部１８０は、表示部１１６にエージェント画像が表示された後、顔向きに関する発話が乗員状態解析部１５６により解釈された場合、エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更することにより、エージェントに自然な挙動を行わせることができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…エージェントシステム、１００…エージェント装置、１１０…通信装置、１１２…車室内カメラ、１１４…マイク、１１６…表示部、１１８…スピーカ、１２０…操作部、１３０…ナビゲーション装置、１３２…地図情報、１５０…エージェント制御装置、１５２…音声入力部、１５４…車両状態解析部、１５６…乗員状態解析部、１６０…提示制御部、１６２…画像生成部、１６４…音声生成部、１８０…エージェント制御部、２００…サーバ装置、２１０…通信部、２２０…音声区間検出部、２３０…音声認識部、２４０…自然言語処理部、２５０…対話生成部

Claims

車室内の音声を収集するマイクと、
前記車室内に音声を出力するスピーカと、
前記マイクにより収集された音声の意味を解釈する解釈部と、
前記車室内に設けられる表示部と、
乗員に対して話しかける態様のエージェント画像を、前記表示部の一部領域に顔向きが認識可能な態様で表示させると共に、音声を前記スピーカに出力させるエージェント制御部と、を備え、
前記エージェント制御部は、
前記表示部に前記エージェント画像が表示された後、顔向きに関する発話が前記解釈部により解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、
エージェント装置。
複数の前記スピーカを備え、
前記複数のスピーカの出力の組み合わせで音像定位可能であり、
前記エージェント制御部は、前記エージェント画像を、複数の乗員のそれぞれの近傍に亘って存在する一以上の前記表示部のうち、前記話しかけ先に近い一部領域に表示させ、前記スピーカを制御して前記エージェント画像の表示位置に音像を定位させる、
請求項１に記載のエージェント装置。
前記エージェント制御部は、運転者でない前記乗員を優先的に前記話しかけ先として選択する、
請求項２に記載のエージェント装置。
優先的に話しかけ先として選択する前記乗員は、前記車室内の助手席に着座する乗員である、
請求項３に記載のエージェント装置。
前記エージェント制御部は、前記エージェント画像の顔向きを変更した後、さらに前記解釈部により前記エージェント画像の顔向きに関する前記解釈が行われた場合、前記顔向きを無指向とする、
請求項２から４のいずれか１項に記載のエージェント装置。
前記エージェント制御部は、前記解釈部により前記エージェント画像の名称の入力を繰り返し受け付けたと解釈された場合、前記顔向きを変更する、
請求項１から５のいずれか一項に記載のエージェント装置。
前記エージェント制御部は、前記マイクが受け付けた前記音声の音圧の上昇率が所定の割合以上である場合、前記顔向きを変更する、
請求項１から６のいずれか一項に記載のエージェント装置。
コンピュータが、
車室内の音声を収集し、
前記車室内に音声を出力し、
収集された音声の意味を解釈し、
乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、
前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、
エージェント提示方法。
コンピュータに、
車室内の音声を収集させ、
前記車室内に音声を出力させ、
収集された音声の意味を解釈させ、
乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、
前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更させる、
プログラム。