JP6965783B2

JP6965783B2 - 音声提供方法および音声提供システム

Info

Publication number: JP6965783B2
Application number: JP2018023346A
Authority: JP
Inventors: 智久米
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2021-11-10
Anticipated expiration: 2038-02-13
Also published as: JP2019139582A; CN110166896A; CN110166896B; US20190251973A1

Description

本発明は、車両に乗車する複数の乗員に音声情報をそれぞれ提供する音声提供方法および音声提供システムに関する。

特許文献１には、車両空間内に三次元キャラクタ映像によるエージェントを配置して、乗員に対するアシストを行う車載用エージェントシステムが開示されている。このエージェントシステムはキャラクタの発音手段を有し、発音手段はアシストと関連する適切な位置、例えば車両の異常を知らせる場合にその異常が発生した位置に音像を定位させる。

特開２００６−２８４４５４号公報

特許文献１には、エージェントが運転者にアシスト情報を音声で出力することが開示されているが、複数のエージェントがそれぞれ音声を出力することは開示されていない。複数のエージェントが音声を出力する場合に、いずれの乗員に対して音声を出力したか区別しやすいと、乗員がエージェントと対話しやすくなるため好ましい。

本発明の目的は、複数のエージェントがそれぞれ音声を出力する場合に乗員が区別しやすい技術を提供することにある。

上記課題を解決するために、本発明のある態様の音声提供方法は、複数の乗員が着座する車両において、複数の乗員にそれぞれ対応する複数のエージェントが、対応する乗員に音声情報を提供する音声提供方法であって、車両に乗車する第１乗員および第２乗員をそれぞれ特定し、第１乗員および第２乗員の着座位置をそれぞれ特定する特定ステップと、特定された第１乗員に対応する第１エージェントを表示するディスプレイを第１乗員の着座位置にもとづいて第１ディスプレイに決定し、第１エージェントが提供する第１音声情報を生成する第１生成ステップと、特定された第２乗員に対応する第２エージェントを表示するディスプレイを第２乗員の着座位置にもとづいて第２ディスプレイに決定し、第２エージェントが提供する第２音声情報を生成する第２生成ステップと、第１乗員に対して提供する、第１エージェントの第１音声情報を取得する第１音声取得ステップと、第２乗員に対して提供する、第２エージェントの第２音声情報を取得する第２音声取得ステップと、車両の異なる位置に設けられた複数のスピーカの出力を制御して、第１音声情報の音像を第１ディスプレイに定位するように制御し、第２音声情報の音像を第２ディスプレイに定位するように制御する制御ステップと、を含む。

この態様によると、複数のエージェントの音声情報を音像の位置を変えて出力することで、各乗員がエージェント毎に音声を区別しやすくできる。

制御ステップの前に、第１乗員および第２乗員の車両内の着座位置を特定するステップを含んでもよい。制御ステップでは、第１乗員および第２乗員の車両内の着座位置にもとづいて音像を定位させてもよい。

本発明の別の態様は、音声提供システムである。この音声提供システムは、複数の乗員が着座する車両において、複数の乗員にそれぞれ対応する複数のエージェントが、対応する乗員に音声情報を提供する音声提供システムであって、車両の異なる位置に配置された複数のスピーカと、複数のスピーカの出力を制御する制御部と、車両に乗車する第１乗員および第２乗員をそれぞれ特定し、第１乗員および第２乗員の着座位置をそれぞれ特定する乗員特定部と、特定された第１乗員に対応する第１エージェントを表示するディスプレイを第１乗員の着座位置にもとづいて第１ディスプレイに決定し、第１エージェントが提供する第１音声情報を生成する第１生成部と、特定された第２乗員に対応する第２エージェントを表示するディスプレイを第２乗員の着座位置にもとづいて第２ディスプレイに決定し、第２エージェントが提供する第２音声情報を生成する第２生成部と、第１エージェントが第１乗員に対して提供する第１音声情報を取得する第１音声取得部と、第２エージェントが第２乗員に対して提供する第２音声情報を取得する第２音声取得部と、を備える。制御部は、第１音声情報の音像を第１ディスプレイに定位するように複数のスピーカの出力を制御し、第２音声情報の音像を第２ディスプレイに定位するように複数のスピーカの出力を制御する。

本発明によれば、複数のエージェントの音声をそれぞれ出力する場合に、乗員が区別しやすい技術を提供できる。

実施例の音声提供システムについて説明するための図である。ディスプレイに表示されたエージェントについて説明するための図である。音声提供システムの機能構成について説明するための図である。

図１は、実施例の音声提供システム１について説明するための図である。音声提供システム１は、複数の乗員が着座する車両１０において、複数の乗員にそれぞれ対応する複数のエージェントが、対応する乗員に音声を提供する。図１では、第１エージェントが車両１０に着座する第１乗員１２に第１音声情報を提供し、第２エージェントが車両１０に着座する第２乗員１４に第２音声情報を提供し、個別にコミュニケーションをとる。

エージェントは、エージェントプログラムの実行によりディスプレイにアニメーションのキャラクタとして表示されて、そのキャラクタが話しているようにスピーカから音声を出力させる。エージェントは、主に対話で運転者と情報のやりとりをし、情報を音声および／または画像で提供し、走行中には走行に関する情報を提供して運転者の運転を支援する。エージェントのキャラクタは、所定の機能を表示する画像に重畳して表示されてよく、例えば、目的地案内機能として表示する地図の端に表示されてよい。

音声提供システム１は、制御部２０、第１スピーカ２２ａ、第２スピーカ２２ｂ、第３スピーカ２２ｃ、第４スピーカ２２ｄ、第５スピーカ２２ｅ、第６スピーカ２２ｆ、第７スピーカ２２ｇ、第８スピーカ２２ｈ（これらを区別しない場合、単に「スピーカ２２」という）、マイク２４、カメラ２６、第１ディスプレイ２７ａ、第２ディスプレイ２７ｂ、第３ディスプレイ２７ｃ（これらを区別しない場合、単に「ディスプレイ２７」という）を備える。

マイク２４は、車内音を検出するように設けられ、乗員の発話を含む音を電気信号に変換して、その信号を制御部２０に送る。制御部２０はマイク２４で検出した音情報から乗員の発話を取得できる。

カメラ２６は、車内を撮像して、撮像画像を制御部２０に送る。制御部２０はカメラ２６の撮像画像を解析することで、車両１０にいる乗員を特定することができる。

複数のスピーカ２２は、制御部２０に有線または無線で接続され、制御部２０により制御され、エージェントの音声情報を出力する。複数のスピーカ２２は、車両１０の異なる位置に配置される。第１スピーカ２２ａおよび第２スピーカ２２ｂは、運転席および助手席の前方に配置され、第３スピーカ２２ｃ、第４スピーカ２２ｄ、第５スピーカ２２ｅおよび第６スピーカ２２ｆは、車両の両側壁に配置され、第７スピーカ２２ｇおよび第８スピーカ２２ｈは、後部座席の後方に配置される。

複数のディスプレイ２７は、制御部２０により制御され、エージェントとしてアニメーションのキャラクタを表示する。第１ディスプレイ２７ａは、運転席と助手席の間に位置してダッシュボードまたはセンターコンソールに設けられ、運転席および助手席より前方に位置する。第２ディスプレイ２７ｂは、運転席の背面に設けられ、第３ディスプレイ２７ｃは、助手席の背面に設けられる。

複数のディスプレイ２７は、異なる画像を表示してもよい。例えば、第１ディスプレイ２７ａが第１乗員１２に対応する第１エージェントを表示する一方で、第２ディスプレイ２７ｂが第２乗員１４に対応する第２エージェントを表示する。これにより、第１乗員１２および第２乗員１４のそれぞれが、対応するエージェントを認識しやすくなる。

図２は、ディスプレイ２７に表示されたエージェントについて説明するための図である。図２では、図１のように第１乗員１２および第２乗員１４が乗車している車両１０において、後部座席側から前方を見た車内を示す。

第１ディスプレイ２７ａに第１エージェント２５ａが表示され、第２ディスプレイ２７ｂに第２エージェント２５ｂが表示されている。第１エージェント２５ａは、運転席に着座する第１乗員１２と対話するように制御され、第２エージェント２５ｂは、右後部座席に着座する第２乗員１４と対話するように制御される。複数の乗員にそれぞれ対応する複数のエージェントが、対応する乗員に音声をそれぞれ提供する。

複数のスピーカ２２は、第１ディスプレイ２７ａに表示される第１エージェント２５ａの第１音声情報を出力する場合に、音像の位置が第１ディスプレイ２７ａの位置に定位するように制御され、第２ディスプレイ２７ｂに表示される第２エージェント２５ｂの第２音声情報を出力する場合に、音像の位置が第２ディスプレイ２７ｂの位置に定位するように制御される。つまり、制御部２０は、第１音声情報の音像と第２音声情報の音像とが異なる位置に定位するように複数のスピーカ２２の出力を制御する。第１乗員１２に対する第１音声情報と、第２乗員１４に対する音声情報を異なる位置に定位させることで、いずれの乗員に対して提供した音声情報であるか、乗員が区別しやすくなる。

図３は、音声提供システム１の機能構成について説明するための図である。図３において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、回路ブロック、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

制御部２０は、音取得部３２、エージェント実行部３６、出力制御部３８および乗員特定部４０を有する。音取得部３２は、マイク２４が検知した信号から乗員の発話を取得し、取得した乗員の発話をエージェント実行部３６に送る。

乗員特定部４０は、カメラ２６から撮像画像を受け取って、撮像画像を解析して車両に着座している乗員を特定する。乗員特定部４０は、乗員を特定するための情報、例えば、乗員の顔画像、性別、年齢などの属性情報をユーザＩＤに関連付けて予め保持しており、乗員の属性情報をもとに乗員を特定する。乗員の属性情報は、第１乗員１２が所有する第１携帯端末装置２８や、第２乗員１４が所有する第２携帯端末装置２９からサーバ装置３０を介して取得されてもよい。乗員特定部４０は、車載電源がオンされたときや車両のドアが開閉したときに、乗員を特定する処理を行う。

乗員特定部４０は、属性情報との照合により撮像画像に含まれる乗員を特定して、乗員の着座位置を特定する。乗員特定部４０が特定した車内での乗員の位置情報およびその乗員のユーザＩＤは、エージェント実行部３６に送られる。乗員特定部４０は、乗車していた乗員が降車したことを特定してよい。

エージェント実行部３６は、エージェントプログラムを実行し、乗員の発話を認識してその発話に対する応答をすることで乗員とのコミュニケーションを実現する。例えば、エージェント実行部３６は、「どこに行きますか？」と音声を出力して乗員から目的地に関する発話を促し、ユーザから目的地に関する発話を取得すると、その目的地の観光情報などを音声で出力して乗員に提供する。

エージェント実行部３６は、第１生成部４２ａ、第１音声取得部４２ｂ、第２生成部４４ａおよび第２音声取得部４４ｂを含む。第１生成部４２ａおよび第１音声取得部４２ｂは、第１乗員１２と対話する第１エージェント２５ａを動作させ、第２生成部４４ａおよび第２音声取得部４４ｂは、第２乗員１４と対話する第２エージェント２５ｂを動作させる。

ところで、車載側のエージェント実行部３６で実行されるエージェントプログラムは、第１携帯端末装置２８および第２携帯端末装置２９でも実行される。第１携帯端末装置２８は、第１乗員１２に所有されており、第１エージェント２５ａを動作させるエージェントプログラムを有する。第２携帯端末装置２９は、第２乗員１４に所有されており、第２エージェント２５ｂを動作させるエージェントプログラムを有する。

第１携帯端末装置２８は、第１乗員１２のユーザＩＤを保持し、第２携帯端末装置２９は、第２乗員１４のユーザＩＤを保持する。第１携帯端末装置２８が制御部２０に第１乗員１２のユーザＩＤを送ることで、第１携帯端末装置２８で実行している第１エージェント２５ａのプログラムが、車載側のエージェント実行部３６で実行される。また、第２携帯端末装置２９が制御部２０に第２乗員１４のユーザＩＤを送ることで、第２携帯端末装置２９で実行している第２エージェント２５ｂのプログラムが、車載側のエージェント実行部３６で実行される。第１携帯端末装置２８および第２携帯端末装置２９は、それぞれのユーザＩＤを画像情報としてカメラ２６から送ってよく、別の通信手段を用いて制御部２０に直接的に送ってよい。

第１生成部４２ａおよび第１音声取得部４２ｂは、第１携帯端末装置２８から第１乗員１２のユーザＩＤを受け取ったことをトリガーとして実行開始し、第２生成部４４ａおよび第２音声取得部４４ｂは、第２携帯端末装置２９から第２乗員１４のユーザＩＤを受け取ったことをトリガーとして実行開始する。また、エージェント実行部３６は、それぞれに対応する乗員が乗員特定部４０で特定されたことをトリガーとして実行開始してよい。

サーバ装置３０は、第１携帯端末装置２８および第２携帯端末装置２９からユーザＩＤおよび携帯端末ＩＤを受け取り、制御部２０からユーザＩＤおよび車載装置ＩＤを受け取り、ユーザＩＤによって携帯端末ＩＤと車載装置ＩＤを関連付ける。これにより、各携帯端末装置と制御部２０とが、サーバ装置３０を介してエージェントに関する情報を送受できる。

乗員が車両１０から降車すると、乗員特定部４０は、その乗員が降車したことを特定して、サーバ装置３０に降車した乗員のユーザＩＤを送信する。サーバ装置３０は、降車した乗員のユーザＩＤに関連付けられた携帯端末ＩＤをもとに、その乗員の携帯端末装置に乗員が降車したことを通知する。その通知を受け取った携帯端末装置は、エージェントプログラムを実行してエージェントを表示する。このように、エージェントは携帯端末装置と車載側の制御部２０とで移動するように制御される。

第１生成部４２ａは、第１乗員１２に対して提供する第１音声情報を生成する。第１音声情報は、制御部２０に予め保持される複数種類の音声を組み合わせて生成される。また、第１生成部４２ａは、第１エージェントキャラクタを表示するディスプレイ２７を乗員の位置情報にもとづいて決定し、第１音声情報の音像の位置を決定する。第１音声取得部４２ｂは、第１生成部４２ａで生成された第１音声情報、第１エージェントキャラクタを表示するディスプレイ２７、第１音声情報の音像の位置を取得し、取得したエージェントの情報を出力制御部３８に送る。

第２生成部４４ａは、第２乗員１４に対して提供する第２音声情報を生成する。第２音声情報は、制御部２０に予め保持される複数種類の音声を組み合わせて生成される。また、第２生成部４４ａは、第２エージェントキャラクタを表示するディスプレイ２７を乗員の位置情報にもとづいて決定し、第２音声情報の音像の位置を決定する。第２音声取得部４４ｂは、第２生成部４４ａで生成された第２音声情報、第２エージェントキャラクタを表示するディスプレイ２７、第２音声情報の音像の位置を取得し、取得したエージェントの情報を出力制御部３８に送る。

出力制御部３８は、複数のスピーカ２２の出力を制御し、第１音声情報の音像と第２音声情報の音像とが異なる位置に定位するように複数のスピーカ２２の出力を制御する。乗員は、左右の耳に到達する音の到達時間や音量の差によって音像の位置を認識するため、出力制御部３８は、複数のスピーカ２２の音量および位相を設定して、エージェント実行部３６により決定された位置に音像を定位させる。出力制御部３８は、音像の位置に応じた制御テーブルを予め保持してよく、その制御テーブルを参照して複数のスピーカ２２の音量および位相を設定してよい。

第１音声取得部４２ｂが第１エージェントキャラクタを第１ディスプレイ２７ａに表示させて第１乗員１２に提供する第１音声情報を取得すると、出力制御部３８は、第１ディスプレイ２７ａの位置に音像が定位するようにスピーカ２２の出力を制御する。また、第２音声取得部４４ｂが第２エージェントキャラクタを第２ディスプレイ２７ｂに表示させて第２乗員１４に提供する第２音声情報を取得した場合、出力制御部３８は、第２ディスプレイ２７ｂの位置に音像が定位するようにスピーカ２２の出力を制御する。つまり、エージェントキャラクタが表示されるディスプレイの位置に、その音声情報の音像が定位される。このように出力制御部３８は、それぞれのエージェントに対応する乗員の位置に応じて、複数のスピーカ２２の音量および位相を異ならせて、音像の位置を異なる位置に定位させる。これにより、各乗員が、いずれの乗員に対して提供した音声情報であるか認識しやすくなる。

運転席および助手席に着座する乗員に対して音声情報を提供する場合、出力制御部３８は、運転席および助手席より前方の位置に音像を定位させる。一方、後部座席に着座する乗員に対して音声情報を提供する場合、出力制御部３８は、運転席および助手席より後方の位置に音像を定位させる。これにより、乗員が音声情報を区別しやすくなる。

エージェント実行部３６は、各エージェントに対応する乗員に最も近い位置にあるディスプレイ２７、または、対応する乗員が最も視認しやすい位置にあるディスプレイ２７にエージェントキャラクタを表示させて、そのディスプレイ２７に音像を定位させることを決定する。これにより、乗員が、対応するエージェントとのコミュニケーションを取りやすくなる。

実施例では、エージェント実行部３６が車載側の制御部２０に設けられる態様を示したが、この態様に限られず、エージェント実行部３６の第１生成部４２ａおよび第２生成部４４ａがサーバ装置３０に設けられてよい。サーバ装置３０は、音取得部３２から乗員の発話を受け取って、応答する音声情報を決定し、いずれかの乗員に対して提供する音声情報を制御部２０に送る。サーバ装置３０に設けられた第１生成部４２ａおよび第２生成部４４ａは、乗員に提供する音声情報を決定するだけでなく、エージェントの画像およびエージェントを表示するディスプレイ２７を決定し、制御部２０に送ってもよい。制御部２０の第１音声取得部４２ｂおよび第２音声取得部４４ｂは、サーバ装置３０に決定された音声情報を取得し、出力制御部３８は、取得した音声情報の音像を、対応する乗員の位置にもとづいて定位させる。

また、乗員特定部４０がサーバ装置３０に設けられてもよい。例えば、サーバ装置３０は、カメラ２６から車内の撮像画像を受け取って、撮像画像に含まれる乗員を特定し、乗員の位置情報を導出する。この態様では、サーバ装置３０は、乗員特定部４０が各乗員を特定するための属性情報を予め保持してよく、第１携帯端末装置２８および第２携帯端末装置２９から属性情報を受け取ってもよい。これにより、車載側の制御部２０での処理負荷を抑えることができる。

また、サーバ装置３０が、提供する音声情報の音像を定位する位置を決定し、決定された音像の位置に音像が定位するようにスピーカ２２の音量および位相を定める制御パラメータを決定してもよい。このように、サーバ装置３０でスピーカ２２の制御パラメータを算出する処理を実行することで、車載側の処理負荷を抑えることができる。

なお実施例はあくまでも例示であり、各構成要素の組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施例では、ディスプレイ２７が複数ある態様を示したが、この態様に限られず、ディスプレイ２７は１つであってよく、ダッシュボードまたはセンターコンソールの上段部分に設けられてよい。ディスプレイ２７が１つであっても、出力制御部３８は、乗員に対応するエージェントキャラクタの音声情報の音像を、その乗員の近傍の位置に定位することで、いずれの乗員に対して提供した音声情報であるか、乗員が区別しやすくなる。

１音声提供システム、１０車両、１２第１乗員、１４第２乗員、２０制御部、２２スピーカ、２４マイク、２６カメラ、２７ディスプレイ、２８第１携帯端末装置、２９第２携帯端末装置、３０サーバ装置、３２音取得部、３６エージェント実行部、３６ａ第１エージェント、３６ｂ第２エージェント、３８出力制御部、４０乗員特定部。

Claims

複数の乗員が着座する車両において、複数の乗員にそれぞれ対応する複数のエージェントが、対応する乗員に音声情報を提供する音声提供方法であって、
車両に乗車する第１乗員および第２乗員をそれぞれ特定し、第１乗員および第２乗員の着座位置をそれぞれ特定する特定ステップと、
特定された第１乗員に対応する第１エージェントを表示するディスプレイを第１乗員の着座位置にもとづいて第１ディスプレイに決定し、第１エージェントが提供する第１音声情報を生成する第１生成ステップと、
特定された第２乗員に対応する第２エージェントを表示するディスプレイを第２乗員の着座位置にもとづいて第２ディスプレイに決定し、第２エージェントが提供する第２音声情報を生成する第２生成ステップと、
第１乗員に対して提供する、第１エージェントの第１音声情報を取得する第１音声取得ステップと、
第２乗員に対して提供する、第２エージェントの第２音声情報を取得する第２音声取得ステップと、
車両の異なる位置に設けられた複数のスピーカの出力を制御して、第１音声情報の音像を前記第１ディスプレイに定位するように制御し、第２音声情報の音像を前記第２ディスプレイに定位するように制御する制御ステップと、を含むことを特徴とする音声提供方法。
複数の乗員が着座する車両において、複数の乗員にそれぞれ対応する複数のエージェントが、対応する乗員に音声情報を提供する音声提供システムであって、
車両の異なる位置に配置された複数のスピーカと、
複数のスピーカの出力を制御する制御部と、
車両に乗車する第１乗員および第２乗員をそれぞれ特定し、第１乗員および第２乗員の着座位置をそれぞれ特定する乗員特定部と、
特定された第１乗員に対応する第１エージェントを表示するディスプレイを第１乗員の着座位置にもとづいて第１ディスプレイに決定し、第１エージェントが提供する第１音声情報を生成する第１生成部と、
特定された第２乗員に対応する第２エージェントを表示するディスプレイを第２乗員の着座位置にもとづいて第２ディスプレイに決定し、第２エージェントが提供する第２音声情報を生成する第２生成部と、
第１エージェントが第１乗員に対して提供する第１音声情報を取得する第１音声取得部と、
第２エージェントが第２乗員に対して提供する第２音声情報を取得する第２音声取得部と、を備え、
前記制御部は、第１音声情報の音像を前記第１ディスプレイに定位するように複数の前記スピーカの出力を制御し、第２音声情報の音像を前記第２ディスプレイに定位するように複数の前記スピーカの出力を制御することを特徴とする音声提供システム。