JP2021144262A

JP2021144262A - 音声出力制御装置、これを備える移動体、および音声出力制御方法

Info

Publication number: JP2021144262A
Application number: JP2020040432A
Authority: JP
Inventors: 顕至大熊; Akito Okuma; 悠樹鍵谷; Yuki Kagitani
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2021-09-24

Abstract

【課題】音声出力装置の音声の出力を、ユーザによる淀みのない自然な動作で円滑に停止できるようにすること。【解決手段】ユーザの手の動作を認識する動作認識部と、音声出力装置に対し音声出力の停止を指示する出力指示部と、を備え、出力指示部は、音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを動作認識部が認識したときに、音声出力装置に対し音声の出力を停止するよう指示する。【選択図】図１

Description

本発明は、音声出力装置の音声の出力を制御する音声出力制御装置、当該音声出力制御装置を備える移動体、及び音声出力制御方法に関する。

従来、ユーザが音声指示を発することにより、当該音声指示により指定された機能を実行する車載装置や携帯端末が知られている。このような車載装置や携帯端末では、ユーザの発話が音声指示であるか否かを容易に判断できるように、特定の文言（いわゆるウェイクアップワード（ＷａｋｅＵｐＷｏｒｄ）またはトリガワード（ＴｒｉｇｇｅｒＷｏｒｄ））の後に続く発話を音声指示として取得する場合がある。

例えば、ユーザが車載装置に対して、ウェイクアップワードに続けて“今日のトップニュースを教えて。”等の音声指示を発すると、車載装置は、インターネット上のニュースサーバを検索して、トップニュースを読み上げる。

しかしながら、上記従来の技術においては、車載装置に音声指示を与える前に必ずウェイクアップワードを発話する必要があることから、実行中の動作を早急に中止したい場合には、不便が生ずることとなり得る。例えば、上記のように車載装置がトップニュースの読み上げを開始した後に、ユーザにおいて電話の着信があったり同乗者との会話の都合が生じた場合、ユーザは、車載装置に対して“読み上げを中止して”といった音声指示を行う前にウェイクアップワードを発しなければならず、読み上げを迅速に中止させることが困難となり得る。

特に、車載装置の読み上げ音声の発声タイミングとユーザのウェイクアップワードの発声タイミングとが重なってしまったような場合には、車載装置においてウェイクアップワードを認識できない場合も生じ得る。このため、ユーザは、車載装置の発声の切れ目を狙ってウェイクアップワードを発声する等の工夫が強いられることともなり、音声指示の利便性が損なわれる結果となり得る。

従来、ステアリングホイール等の特定の車載機器の位置を基準に設定された領域でユーザが様々な手の形状を示すことで、当該手の形状に応じた入力操作が決定される、車載の入力操作装置が知られている（特許文献１）。しかしながら、特許文献１に記載の技術では、様々な入力操作に応じて手の形状が様々に定義されるため、例えば、音声停止指示として定義された特定の手形状をユーザにおいてまず想起する必要があり、音声停止を迅速に行いたい場面においては必ずしも効率的ではない。

また、ユーザは、一般的には、音に関する操作は音に関するもの（例えば音響機器等）に対して行うことを想定する傾向にあることから、特定の車載機器を基準に設定される領域に対してユーザが種々の手形状を提示する上記従来技術においては、ユーザは、音声停止に際して、上記領域への入力操作を必ずしも自然な形では想起し得ない。特に、ユーザがそのような入力操作に慣れていない場合には、なおさらである。

特開２００７−２３７９１９号公報

上記背景より、音声出力装置の音声の出力を、ユーザが淀みのない自然な動作で円滑に停止することのできる技術の実現が求められている。

本発明の一の態様は、音声出力装置を制御する音声出力制御装置であって、ユーザの手の動作を認識する動作認識部と、前記音声出力装置に対し音声出力の停止を指示する出力指示部と、を備え、前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する。
本発明の他の態様によると、前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力に係る動作を停止するよう指示する。
本発明の他の態様によると、前記ユーザの手のジェスチャーは、前記所定の場所に手をかざす動作である。
本発明の他の態様によると、前記動作認識部は、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得し、当該取得した映像から、前記所定の場所に対して前記ユーザの手のジェスチャーが示されたことを認識する。
本発明の他の態様によると、前記動作認識部は、前記所定の場所に隣接して配された、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得する。
本発明の他の態様によると、前記所定の場所は表示装置の表示画面の一部であって、前記アイコンは、前記表示画面の一部に表示され、前記動作認識部は、前記所定の場所に隣接する操作器に触れようとする前記ユーザの手の動きと識別して、前記所定の場所に対して示される前記ユーザの手のジェスチャーを認識する。
本発明の他の態様によると、機械学習により学習された学習済みモデルであって、前記カメラから取得される前記ユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが前記所定の場所に触れることを意図したものか、又は前記所定の場所に示されたジェスチャーであるか、を推定する学習済みモデルを備え、前記動作認識部は、前記学習済みモデルを用いて、前記所定の場所に対して示された手のジェスチャーを認識する。
本発明の他の態様によると、前記音声出力装置は、前記ユーザと音声対話する機能を備えた音声対話装置である。
本発明の他の態様によると、前記音声出力装置は、移動体に搭載されており、前記ユーザは、前記移動体の利用者である。
本発明の他の態様は、音声出力装置を制御する音声出力制御装置が行う音声出力制御方法であって、ユーザの手の動作を認識するステップと、前記音声出力装置に対し音声出力の停止を指示するステップと、を有し、前記指示するステップでは、前記音声出力装置が音声を出力している場合に、人を模したアイコンまたは人の画像が表示された所定の場所に対して前記ユーザの手のジェスチャーが示されたことが前記認識するステップにおいて認識されたときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する。

本発明によれば、ユーザは、音声出力装置の音声の出力を、淀みのない自然な動作で円滑に停止することができる。

本発明に係る音声出力制御装置の構成を示す図である。図１に示す音声出力制御装置が搭載された車両の車室内における、人を模したアイコン又は人の画像が示される表示装置の配置の例を示す図である。図２に示す表示装置における表示の一例を示す図である。図２に示す表示装置に示された人物アイコンに対する手のジェスチャーの一例を示す図である。図３に示す人物アイコンに隣接して配されたカメラが撮像する、ユーザの画像の一例を示す図である。図１に示す音声出力制御装置の動作の手順を示すフロー図である。

以下、図面を参照して本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る音声出力制御装置の構成を示す図である。音声出力制御装置１００は、例えば、移動体である車両１０２に搭載されている。以下、ユーザとは、本実施形態では、移動体である車両１０２の利用者であり、車両１０２の運転者を含む。また、以下において音声とは、特に断りのない限り、後述するスピーカ１２４等の音響発生器が出力し得る音響一般をいうものとする。

この音声出力制御装置１００は、車載ネットワークバス１０４を介して、例えば、カメラ制御装置１０６、音声出力装置であるＡＶ（オーディオビジュアル）出力装置１０８、ナビゲーション装置１１０、およびＴＣＵ（テレマティクス・コントロール・ユニット）１１２と通信可能に接続されている。

カメラ制御装置１０６は、車室内カメラ１１４の動作を制御して車両１０２の車室内の少なくともユーザの動きを撮影し、当該撮像した映像を、音声出力制御装置１００等の他の装置へ送信する。

ＴＣＵ１１２は、遠距離通信装置１１８と、遠距離通信装置１１８の動作を制御する処理装置１１６と、を備える。処理装置１１６は、例えば、ＣＰＵ等のプロセッサを備えるコンピュータである。遠距離通信装置１１８は、例えば、インターネット等の通信ネットワークを介して、ニュースその他の情報を提供する様々なサーバと通信する無線通信装置である。

ＡＶ出力装置１０８は、音声出力装置である。また、ＡＶ出力装置１０８は、以下に示すように、ユーザとの音声対話する機能を備えた音声対話装置でもある。ＡＶ出力装置１０８は、表示装置１２０が備えるタッチパネル等の入力装置を介したユーザからの入力指示により、及び又はユーザとの音声対話における音声指示により、楽曲や動画等の再生を行って音声を出力する。ＡＶ出力装置１０８は、また、ユーザからの入力指示や音声指示により、ユーザが求める情報を、例えばＴＣＵ１１２を介してインターネット上のサーバ等から検索して取得し、取得した画像情報および音声情報を表示装置１２０およびスピーカ１２４に出力したり、上記取得したテキスト情報を音声合成機能により音声としてスピーカ１２４に出力する。

具体的には、ＡＶ出力装置１０８は、処理装置１３０と、記憶装置１３２と、を備える。記憶装置１３２は、例えば、揮発性及び又は不揮発性の半導体メモリ、ハードディスク装置、及び又はＣＤ、ＤＶＤ、ＵＳＢメモリ等の着脱可能な記憶媒体の読み取り装置等により構成される。

処理装置１３０は、ＣＰＵ等のプロセッサを備えるコンピュータであり、プログラムを実行することにより実現される機能要素又は機能ユニットとして、音声対話部１３４と、アイコン表示部１３６と、ＡＶ制御部１３８と、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）制御部１４０と、を備える。

音声対話部１３４は、後述するＵＩ制御部１４０を介してユーザとの音声対話を行う。例えば、音声対話部１３４は、ユーザが音声指示の始まりを示す特定の文言（いわゆるウェイクアップワードまたはトリガワード）を発話したか否かを判断し、ウェイクアップワードを発話したときは、その後に続く発話を音声指示として認識する。そして、音声対話部１３４は、認識した音声指示にしたがって、記憶装置１３２等に記憶されている楽曲や動画等の再生や、インターネット上のサーバ等から検索したコンテンツの再生及び又はテキスト情報の音声出力を行う。

アイコン表示部１３６は、少なくともスピーカ１２４から音声が出力されているときに、表示装置１２０の表示画面の一部に、人物アイコンを表示する。ここで、人物アイコンは、人を模したアイコンまたは人の画像であるものとすることができる。また、人物アイコンに用いる人の画像は、人物の写真のほか、コンピュータグラフィックス等により人工的に生成された画像であってもよい。本実施形態では、アイコン表示部１３６は、後述するように、人の顔を模した人物アイコン３０２を表示装置１２０に表示する。

ＡＶ制御部１３８は、従来技術に従い、楽曲、映像、画像等のＡＶコンテンツを再生してスピーカ１２４、及び又は表示装置１２０へ出力する。このようなＡＶコンテンツは、例えば、記憶装置１３２を構成する読取装置により読み取られるＤＶＤ等の媒体に記憶されたコンテンツのほか、音声対話部１３４がユーザからの音声指示によりＴＣＵ１１２を介してインターネット上のサーバ等から記憶装置１３２にダウンロードし記憶したコンテンツも含まれ得る。また、ＡＶ制御部１３８は、ラジオ放送電波及びテレビ放送電波の受信機（不図示）から受信されるラジオ番組及びテレビ番組の音声をスピーカに出力する。また、ＡＶ制御部１３８は、適切な場合にはテレビ番組の映像を表示装置１２０に出力する。

ＵＩ制御部１４０は、表示装置１２０、マイク１２２、及びスピーカ１２４を含むＵＩ機器の動作を制御する。ＵＩ制御部１４０は、ＡＶ出力装置１０８がスピーカ１２４により音声出力を開始するとき、及び音声出力を終了又は停止するときに、それぞれ、後述する音声出力制御装置１００へ出力開始通知および出力停止通知を送信し得る。

特に、本実施形態では、ＵＩ制御部１４０は、音声出力制御装置１００からの指示により、スピーカ１２４を介した音声情報の出力を制御する。具体的には、ＵＩ制御部１４０は、例えば、音声出力制御装置１００から音声停止指示を受信したときに、スピーカ１２４を介した音声情報の出力を停止すると共に、音声対話部１３４、ＡＶ制御部１３８、及び又はナビゲーション装置１１０に指示して、音声出力を伴う動作を停止させる。

また、ＵＩ制御部１４０は、ＡＶ制御部１３８、ナビゲーション装置１１０、及び又は音声出力制御装置１００からの指示により、当該指示が指定する画像又は映像を表示装置１２０に表示すると共に、表示装置１２０が装備するタッチパネル（不図示）を介したユーザからの入力を、ＡＶ制御部１３８、ナビゲーション装置１１０、及び又は音声出力制御装置１００へ送信する。

さらに、ＵＩ制御部１４０は、ＡＶ制御部１３８、ナビゲーション装置１１０、及び又は音声出力制御装置１００からの指示により、当該指示が指定する音声メッセージをスピーカ１２４へ出力する。また、ＵＩ制御部１４０は、ユーザからの音声指示等の発話をマイク１２２から取得し、当該発話の音声認識結果を、ＡＶ制御部１３８、ナビゲーション装置１１０、及び又は音声出力制御装置１００へ送信する。

図２は、車両１０２の車室内における表示装置１２０、マイク１２２、および車室内カメラ１１４の配置の例を示す図である。表示装置１２０は、例えば、車両１０２のインストルメントパネル（ＩｎｓｔｒｕｍｅｎｔＰａｎｅｌ）の車幅方向中央部に配され、その下方の運転者寄りの位置に、マイク１２２が配されている。車室内カメラ１１４は、ユーザである運転者及び助手席の乗員の顔を撮影することのできる位置であって、かつ、表示装置１２０のうち人物アイコンが表示される部分に対するユーザの手の動作を推定可能な映像が撮影できる位置に配される。図２の例では、車室内カメラ１１４は、人物アイコンが表示される所定の位置に隣接する位置、例えば、表示装置１２０の中央部下方に配されている。

図３は、表示装置１２０における表示画面の一例を示している。図３の例では、表示装置１２０の図示左方に情報表示エリア３００が設けられており、当該エリアに、例えば、ナビゲーション装置１１０からの地図画面が表示される。情報表示エリア３００には、地図画面のほか、ＡＶ出力装置１０８のＡＶ制御部１３８により再生される映像や、テレビ放送画面、インターネット上のサーバからの動画等々が表示され得る。

また、図示の例では、表示装置１２０の表示画面の図示右方に、人物アイコン３０２が表示されている。また、表示画面のうち、情報表示エリア３００および人物アイコン３０２が表示されていないエリアには、例えば、図示矩形で示された操作ボタン３０４、３０６、３０８、３１０等が表示される。

人物アイコン３０２の表示位置やサイズは、表示装置１２０に表示される画像情報に応じて変更されるものとしてもよい。この場合には、表示装置１２０の表示画面の全体が、人物アイコン３０２が表示される所定の領域となる。ただし、ユーザによる操作の観点からは、人物アイコン３０２の表示位置は、固定されていることが望ましい。

ナビゲーション装置１１０は、ＣＰＵ等のプロセッサを備えるコンピュータ処理装置と記憶装置とを備える（共に不図示）。ナビゲーション装置１１０は、従来技術に従い、ＧＰＳ受信機（不図示）から車両１０２の現在位置情報を取得し、ユーザが指定する目的地までの経路を探索して経路案内を行う。具体的には、ナビゲーション装置１１０は、ＡＶ出力装置１０８を介して、ユーザが指定する上記目的地を、例えば、表示装置１２０が備えるタッチパネルを介したユーザからの入力により、またはマイク１２２を介して取得されるユーザからの音声指示により取得する。また、ナビゲーション装置１１０は、ＡＶ出力装置１０８を介して、表示装置１２０に地図を表示し、当該地図上に車両１０２の現在位置および探索した経路を表示する。

音声出力制御装置１００は、例えば、音声出力装置であるＡＶ出力装置１０８の音声出力動作を制御する。特に、本実施形態では、音声出力制御装置１００は、人物アイコン３０２が表示された所定の場所（本実施形態では、表示装置１２０の表示画面の一部）に対してユーザの手の特定のジェスチャーが示されたときに、ＡＶ出力装置１０８に指示して、スピーカ１２４からの音声の出力を停止するよう指示する。

具体的には、音声出力制御装置１００は、処理装置１５０と、記憶装置１５２と、を備える。記憶装置１５２は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。記憶装置１５２は、ジェスチャー推定モデル１５４を記憶する。ジェスチャー推定モデル１５４は、後述する動作認識部１６２がユーザの手の動作を認識する際に用いられる。

処理装置１５０は、ＣＰＵ等のプロセッサを備えるコンピュータである。処理装置１５０は、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有する構成であってもよい。そして、処理装置１５０は、機能要素又は機能ユニットとして、音声検知部１６０と、動作認識部１６２と、出力指示部１６４と、を備える。

処理装置１５０が備えるこれらの機能要素は、例えば、コンピュータである処理装置１５０がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置１５０が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

音声検知部１６０は、音声出力装置であるＡＶ出力装置１０８が音声を出力しているか否かを判断する。例えば、音声検知部１６０は、ＡＶ出力装置１０８から送信される出力開始通知および出力停止通知を受信することにより、それぞれ、ＡＶ出力装置１０８における音声出力の開始、及び停止又は終了を検知して、ＡＶ出力装置１０８が音声を出力しているか否かを判断することができる。これに代えて又はこれに加えて、音声検知部１６０は、ＡＶ出力装置１０８を介してマイク１２２から車室内の音を取得し、当該取得した音に基づいて、スピーカ１２４から音声が出力されているか否かを判断することにより、ＡＶ出力装置１０８が音声を出力しているか否かを判断してもよい。

動作認識部１６２は、ユーザの手の動きを認識する。特に、動作認識部１６２は、人を模したアイコンまたは人の画像が表示された所定の場所、すなわち、本実施形態では人物アイコン３０２が表示された表示装置１２０のエリアに対して、ユーザの手のジェスチャーが示されたことを認識する。

ここで、動作認識部１６２が認識するユーザの手のジェスチャーとしては、人が他の人に対して発話を停止することを要請する際に通常行うジェスチャーであるものとすることができる。例えば、本実施形態では、動作認識部１６２が認識する手のジェスチャーは、図４に示すような、人物アイコン３０２が表示された表示装置１２０の部分にユーザが手４００をかざす動作である。

人物アイコン３０２は、人を模したものであることから、スピーカ１２４から音、特に音声が出力されている場合には、ユーザは人物アイコン３０２をその音の仮想的な発声主体として容易に認識ないし想定し得る。このため、ユーザは、音を停止したい場合には、仮想的は発声主体である人物アイコン３０２に対して何らかの手の動作を示すことを容易に想到することができ、ユーザは自然な動作で人物アイコン３０２に手のジェスチャーを示すこととなり得る。

動作認識部１６２は、具体的には、ユーザを撮影する車室内カメラ１１４からユーザの手の動きの映像を、カメラ制御装置１０６を介して取得し、当該取得した映像から、上記所定の場所に対してユーザの手のジェスチャーが示されたことを認識する。上述したように、本実施形態では、ユーザを撮影する車室内カメラ１１４は、人物アイコン３０２が表示される所定の場所である表示装置１２０に隣接して、当該表示装置１２０の中央部下方に配されている（図２、図３）。この場合において、ユーザを撮像する車室内カメラ１１４は、夜間等の照明の暗い状況においてもユーザを捉えられるように、近赤外（ＮＩＲ、ＮｅａｒＩｎｆｒａＲｅｄ）カメラであることが望ましい。

一般に、タッチパネルを備えた表示装置の近くにあるユーザの手は、当該表示装置のタッチパネルに対する操作（例えば、図３に示す操作ボタン３０４、３０６等を押す等の操作）であることが多い。このため、動作認識部１６２は、人物アイコン３０２が表示された所定の場所に隣接する操作器（本実施形態では、例えば、表示装置１２０に表示される操作ボタン３０４、３０６、３０８、３１０等）に触れようとするユーザの手の動きと識別して、上記所定の場所に対して示されるユーザの手のジェスチャーを認識する。

例えば、動作認識部１６２は、図５に示すような画像を車室内カメラ１１４から取得する。図５には、助手席に座ったユーザ５００が、車室内カメラ１１４の情報にある表示装置１２０の人物アイコン３０２の方向に手５０２を伸ばしている画像５０４が模式的に示されている。動作認識部１６２は、例えば、表示装置１２０の画面上における人物アイコン３０２が表示された位置の座標をＡＶ出力装置１０８から取得する。そして、動作認識部１６２は、当該取得した座標、および車室内カメラ１１４と表示装置１２０との相対位置関係に基づき、ユーザ５００が人物アイコン３０２へ手を伸ばしたことを認識することができる。また、動作認識部１６２は、例えば、ユーザ５００の手５０２の形やその変化から、ユーザ５００が人物アイコン３０２に対して示す手のジェスチャーを認識することができる。

このようなユーザによる手のジェスチャーを精度よく認識するため、本実施形態では、動作認識部１６２は、例えば、カメラ制御装置１０６を介して取得される車室内カメラ１１４が取得したユーザの映像に基づき、記憶装置１５２に記憶されたジェスチャー推定モデル１５４を用いて、上記所定の場所である人物アイコン３０２が表示された表示装置１２０のエリアに対して示されるユーザの手のジェスチャーを認識する。

ここで、ジェスチャー推定モデル１５４は、例えば、人工知能（ＡＩ）等による機械学習により学習された学習済みモデルであって、車室内カメラ１１４から取得されるユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが上記所定の場所に触れることを意図したものか又は上記所定の場所に示されたジェスチャーであるか、及びジェスチャーであるときは当該ジェスチャーがどのようなジェスチャーか、を推定する学習済みモデルである。

ただし、上述したジェスチャー推定モデル１５４を用いた手のジェスチャーの認識は一例であって、動作認識部１６２の動作はこれには限られない。例えば、動作認識部１６２は、周知又は公知の任意の画像認識技術を用いて認識されるユーザの手の位置及び上記所定の場所におけるユーザの手の保持時間等から、上記所定の位置に対するユーザの手のジェスチャーを認識するものとすることができる。

図１を参照し、音声出力制御装置１００が備える出力指示部１６４は、音声出力装置である例えばＡＶ出力装置１０８に対し、例えばスピーカ１２４による音声出力の許可および禁止を指示する。特に、本実施形態では、出力指示部１６４は、ＡＶ出力装置１０８がスピーカ１２４から音声を出力している場合において、人物アイコン３０２が表示された所定の場所である表示装置１２０上のエリアに対してユーザの手のジェスチャーが示されたことを動作認識部１６２が認識したときに、ＡＶ出力装置１０８に対し音声の出力を停止するよう指示する。これに加えて、出力指示部１６４は、ＡＶ出力装置１０８に対し当該音声の出力に係る動作を停止するよう指示してもよい。

上記の構成を有する音声出力制御装置１００は、例えば、音声出力装置であるＡＶ出力装置１０８が音声を出力している場合において、人物アイコン３０２が表示された所定の場所に、例えば、手をかざすなどの手のジェスチャーが示されたときに、ＡＶ出力装置１０８に対し、音声の出力を停止させる。このような手のジェスチャーは、人と人との会話において発話する人物に対して当該発話の停止を求める際に通常用いられる動作である。このため、音声出力制御装置１００では、ユーザは、例えば、ＡＶ出力装置１０８である音声出力装置の音声が出力されている際に、電話の着信があったり同乗者との会話の都合が生じた場合等においてＡＶ出力装置１０８の出力音声を即座に停止したい場合には、人との会話において用いるような自然な動作により、当該音声の出力を円滑に停止することができる。

次に、音声出力制御装置１００の動作手順について説明する。図６は、音声出力制御装置１００の動作の手順を示すフロー図である。この処理は、音声出力制御装置１００の電源がオンされたときに開始し、音声出力制御装置１００の電源がオフされたときに終了する。

処理を開始すると、まず、音声出力制御装置１００の音声検知部１６０は、音声出力装置であるＡＶ出力装置１０８が音声を出力しているか否かを判断する（Ｓ１００）。そして、ＡＶ出力装置１０８が音声を出力していないときは（Ｓ１００、ＮＯ）、音声検知部１６０は、ステップＳ１００に戻って処理を繰り返す。一方、ＡＶ出力装置１０８が音声を出力しているときは（Ｓ１００、ＹＥＳ）、動作認識部１６２は、車室内カメラ１１４によりユーザの映像を取得し（Ｓ１０２）、人物アイコン３０２が表示された所定の場所である表示装置１２０の所定のエリアに対し、ユーザの手の所定のジェスチャーが示されたか否かを判断する（Ｓ１０４）。

そして、上記所定の場所に対して所定のジェスチャーが示されていないときは（Ｓ１０４、ＮＯ）、処理装置１５０は、ステップＳ１００に戻って処理を繰り返す。一方、上記所定の場所に対して所定のジェスチャーが示されたときは（Ｓ１０４、ＹＥＳ）、出力指示部１６４は、ＡＶ出力装置１０８に対し、音声出力の停止を指示する（Ｓ１０６）。この指示は、上述したように、例えば、出力指示部１６４がＡＶ出力装置１０８に音声停止指示を送信することで行うものとすることができる。ＡＶ出力装置１０８は、上記音声停止指示を受信したことに応じて、例えばＵＩ制御部１４０が、スピーカ１２４からの音声出力を停止すると共に、音声対話部１３４、ＡＶ制御部１３８、及びナビゲーション装置１１０に指示して、音声出力を伴う動作を停止させる。

ステップＳ１０６において出力指示部１６４が音声出力の停止を指示したあとは、処理装置１５０は、ステップＳ１００に戻って処理を繰り返す。

なお、本発明は上記実施形態の構成に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能である。

例えば、上述した実施形態では、表示装置１２０に表示される人物アイコン３０２を示したが、人物アイコンの表示位置はこれには限られない。人物アイコンは、ユーザが視認可能な任意の位置に配されるものとすることができる。例えば、人物アイコンは、音声出力制御装置１００及び又はＡＶ出力装置１０８等の音声出力装置の筺体、又はこれらの装置が設けられ任意の構造物、例えばインストルメントパネル２００上の所定の位置に配されるものとすることができる。そのような人物アイコンは、表示装置１２０のような装置の表示画面に表示される画像のほか、所定の場所に貼付される写真や印刷物等であってもよい。

また、本実施形態では、動作認識部１６２は、車室内カメラ１１４から得られるユーザの画像又は映像に基づいて、人物アイコン３０２が表示された所定の場所に対してユーザの手のジェスチャーが示されたか否かを判断するものとしたが、ジェスチャーの認識に用いるセンサは、カメラには限られない。そのようなセンサは、例えば、最も単純には、上記所定の場所に設けられた接近センサであるものとすることができる。

また、本実施形態では、ユーザの動作を撮像する車室内カメラ１１４は、インストルメントパネル２００に設けられた表示装置１２０の下方に、人物アイコン３０２が表示される所定の場所に隣接して配されるものとしたが、車室内カメラ１１４の位置は、これには限られない。車室内カメラは、上記所定の場所に対して示されるユーザの手のジェスチャーを認識し得る映像を取得できる限りにおいて、任意の場所に配されるものとすることができる。ただし、本実施形態のように、ユーザの動作を撮像するカメラとしてインストルメントパネル２００上の運転者と対向する位置に配された車室内カメラ１１４を用いることで、例えば、安全支援等の目的で設けられる他の装置（例えば運転者の顔画像から当該運転者の疲労の程度を認識して警告を発出する装置）に用いられるカメラを兼用することができる。

また、本実施形態では、音声出力装置の一例としてＡＶ出力装置１０８を示したが、音声出力制御装置１００が音声出力の停止を制御する対象としての音声出力装置は、ＡＶ出力装置１０８には限られない。音声出力装置は、スピーカ１２４等の任意の音響出力器を用いて音声（声以外の音一般を含む）を出力する任意の装置であるものとすることができる。そのような音声出力装置は、例えば、適切な通信インタフェースを介して車載ネットワークバス１０４に接続されるスマートフォン等の携帯端末であってもよい。また、そのような携帯端末は、ＴＣＵ１１２に備えられ得るＢｌｕｅＴｏｏｔｈ（登録商標）等の短距離無線通信を行う短距離通信装置を介して車載ネットワークバス１０４と接続されてもよい。

あるいは、音声出力装置は、ＡＶ出力装置１０８を介して出力する音声を生成する装置、例えば、ナビゲーション装置１１０であるものとすることもできる。この場合には、音声出力制御装置１００は、ナビゲーション装置１１０へも音声停止指示を送信して、当該ナビゲーション装置１１０が生成する音声出力の停止を指示することができる。

また、表示装置１２０に人物アイコン３０２を表示させるアイコン表示部１３６は、本実施形態ではＡＶ出力装置１０８が備えるものとしたが、これに代えて、音声出力制御装置１００の処理装置１５０に設けられるものとしてもよい。

また、音声出力制御装置１００は、ＡＶ出力装置１０８に接続されたスピーカ１２４からの音声出力を、ＡＶ出力装置１０８に指示して停止するものとしたが、この構成には限られない。例えば、スピーカ１２４は、音声出力制御装置１００に接続され、ＡＶ出力装置１０８等が生成する音声出力が、音声出力制御装置１００を介してスピーカ１２４から出力されるものとしてもよい。この場合には、音声出力制御装置１００は、スピーカ１２４からの音声出力を直接的に制御して停止させると共に、ＡＶ出力装置１０８及び又はナビゲーション装置１１０に対し、当該音声出力に係る動作の停止を指示するものとすることができる。

また、本実施形態では、人物アイコン３０２が表示される所定の位置に示されるユーザの手のジェスチャーは、例えば人物アイコン３０２が表示された所定の場所に手をかざす動作であるものとしたが、音声出力の停止を指示するための手のジェスチャーは、これには限られない。そのような手のジェスチャーは、任意のジェスチャーであるものとすることができる。ただし、ユーザが自然な動作で音声を停止できるようにする意味においては、人物アイコン３０２が表示される位置に示されるユーザの手のジェスチャーは、人が他の人に対して発話を停止することを要請する際に通常行う何らかのジェスチャーであることが望ましい。そのような手のジェスチャーは、人物アイコン３０２に手をかざす動作のほか、例えば人物アイコン３０２の前で掌を左右に振る動作や、人物アイコン３０２の唇の位置付近で人差し指を立てたり左右に振る動作など、であるものとすることができる。

また、音声出力制御装置１００は、その他の様々な手のジェスチャーにより、それぞれのジェスチャーについて予め定められた様々なユーザからの指示を実行するものとすることができる。そのような指示は、例えば、人物アイコン３０２の前で掌を起こすジェスチャーにより出力音声の音量を上げること、掌を伏せる動作で当該音量を下げること、親指を立てる動作でＡＶ出力装置１０８からの音声提案（例えば、音声により提示される楽曲再生等の提案）の許諾を決定すること、等であるものとすることができる。

また、本実施形態では、音声出力制御装置１００は、ＡＶ出力装置１０８等の音声出力装置とは別個の装置として実現されるものとしたが、音声出力制御装置１００の構成は、これには限られない。例えば、音声出力制御装置１００は、音声出力装置の一部として実現されるものとすることができる。そのような音声出力制御装置は、例えば、必ずしも車両に搭載されないステレオ装置等の一般のＡＶ装置の一部であるものとすることができる。この場合には、人物アイコン３０２は、当該ＡＶ装置の表示装置や筐体の所定の位置に表示され得る。

また、例えば、音声出力制御装置１００は、スマートフォン等の携帯端末において実行されるアプリケーションプログラムにより、当該携帯端末の機能要素として実現されるものとすることができる。この場合には、音声出力制御装置１００である機能要素は、例えば、当該携帯端末の他の機能要素であるウェブブラウザ、音声プレーヤ、及び又は動画プレーヤ等を音声出力装置として、これらの音声出力装置の音声出力の停止を制御するものとすることができる。この場合において、音声出力制御装置１００である機能要素は、人物アイコン３０２と同様のアイコンを携帯端末の表示装置に表示するものとすることができる。

以上説明したように、上述した音声出力制御装置１００は、例えば、音声出力装置であるＡＶ出力装置１０８を制御する。音声出力制御装置１００は、ユーザの手の動作を認識する動作認識部１６２と、ＡＶ出力装置１０８に対し音声出力の停止を指示する出力指示部１６４と、を備える。出力指示部１６４は、ＡＶ出力装置１０８が音声を出力している場合において、人を模したアイコンまたは人の画像（例えば、人物アイコン３０２）が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを動作認識部１６２が認識したときに、ＡＶ出力装置１０８に対し音声の出力を停止するよう指示する。

この構成によれば、ユーザは、人物アイコン３０２を擬人化して捉えることとなるので、音声出力を停止させたい場合には、例えば、人に対して発話の停止を求める一般的な手のジェスチャーを人物アイコン３０２に対して行うことを容易に発想することができる。したがって、音声出力制御装置１００では、例えば、そのようなジェスチャーを動作認識部１６２において認識することで、ユーザは、音声出力装置の音声の出力を淀みのない自然な動作で円滑かつ即座に停止することができる。

また、音声出力制御装置１００では、出力指示部１６４は、ＡＶ出力装置１０８が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを動作認識部１６２が認識したときに、音声出力装置に対し上記音声の出力に係る動作を停止するよう指示する。この構成によれば、不要な音声出力動作を即座に停止することができる。

また、音声出力制御装置１００では、ユーザの手のジェスチャーは、人物アイコン３０２が表示された所定の場所に手をかざす動作である。この構成によれば、音声出力制御装置１００では、ユーザは、人との会話において用いるような自然な淀みのない動作により、音声出力装置であるＡＶ出力装置１０８の音声出力を、円滑かつ即座に停止することができる。

また、音声出力制御装置１００では、動作認識部１６２は、ユーザを撮影する車室内カメラ１１４からユーザの手の動きの映像を取得し、当該取得した映像から、人物アイコン３０２が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを認識する。この構成によれば、動作認識部１６２は、人物アイコン３０２に対する様々な手の動きを認識することができる。このため、音声出力制御装置１００では、音声停止を指示するジェスチャーを自由に定義して、動作認識部１６２に認識させることができる。

動作認識部は、所定の場所に隣接して配された、ユーザを撮影するカメラからユーザの手の動きの映像を取得する。この構成によれば、ユーザの顔画像を必要とする他の装置との間でカメラを兼用して用いることができるので、新たなカメラを設けることなく、音声出力制御装置１００を動作させることができる。

また、音声出力制御装置１００では、人物アイコン３０２が表示される所定の場所は、表示装置１２０の表示画面の一部である。そして、動作認識部１６２は、上記所定の場所に隣接する操作ボタン３０４等の操作器に触れようとするユーザの手の動きと識別して、上記所定の場所に対して示されるユーザの手のジェスチャーを認識する。この構成によれば、人物アイコン３０２を、表示装置１２０の表示画面に操作ボタン等の操作器と共に表示させることができる。

また、音声出力制御装置１００は、機械学習により学習された学習済みモデルであって、車室内カメラ１１４から取得されるユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが上記所定の場所に触れることを意図したものか、又は上記所定の場所に示されたジェスチャーであるか、を推定する学習済みモデルを備える。そして、動作認識部１６２は、上記学習済みモデルを用いて、上記所定の場所に対して示された手のジェスチャーを認識する。この構成によれば、人物アイコン３０２が表示された所定の場所に対するユーザの手のジェスチャーを確度高く容易に認識することができ、ユーザは、ＡＶ出力装置１０８の音声出力を、より円滑かつ迅速に停止させることができる。

また、音声出力制御装置１００が制御する音声出力装置であるＡＶ出力装置１０８は、ユーザと音声対話する機能を備えた音声対話装置でもある。この構成によれば、ユーザは、音声対話により人物アイコン３０２をより擬人化して捉えることとなるので、人に対し発話停止を要請する際に用いる手のジェスチャーをより容易に発想することができ、より円滑かつ迅速に音声出力を停止させることができる。

また、音声出力制御装置１００が制御する音声出力装置であるＡＶ出力装置１０８は、移動体である車両１０２に搭載されており、ユーザは当該車両１０２の利用者である。この構成によれば、ユーザは、車両１０２において、電話の着信や同乗者との会話に際し音声出力装置の音声出力を円滑かつ迅速に停止することができるので、車両１０２における音声出力装置の利便性が向上する。

また、音声出力制御装置１００は、図６にフロー図と示す音声出力制御方法を実行する。この音声出力制御方法は、動作認識部１６２がユーザの手の動作を認識するステップと、出力指示部１６４が、音声出力装置であるＡＶ出力装置１０８に対し音声出力の停止を指示するステップと、を有する。上記指示するステップでは、ＡＶ出力装置１０８が音声を出力している場合に、人を模したアイコンまたは人の画像が表示された所定の場所に対し上記ユーザの手のジェスチャーが示されたことが上記認識するステップにおいて動作認識部１６２により認識されたときに、ＡＶ出力装置１０８に対し音声出力の停止が指示される。

この構成によれば、ユーザは、音声出力装置の音声の出力を淀みのない自然な動作で円滑かつ即座に停止することができる。

１００…音声出力制御装置、１０２…車両、１０４…車載ネットワークバス、１０６…カメラ制御装置、１０８…ＡＶ出力装置、１１０…ナビゲーション装置、１１２…ＴＣＵ、１１４…車室内カメラ、１１６、１３０、１５０…処理装置、１１８…遠距離通信装置、１２０…表示装置、１２２…マイク、１２４…スピーカ、１３２、１５２…記憶装置、１３４…音声対話部、１３６…アイコン表示部、１３８…ＡＶ制御部、１４０…ＵＩ制御部、１５４…ジェスチャー推定モデル、１６０…音声検知部、１６２…動作認識部、１６４…出力指示部、２００…インストルメントパネル、３００…情報表示エリア、３０２…人物アイコン、３０４、３０６、３０８、３１０…操作ボタン、４００、５０２…手、５００…ユーザ、５０４…画像。

Claims

音声出力装置を制御する音声出力制御装置であって、
ユーザの手の動作を認識する動作認識部と、
前記音声出力装置に対し音声出力の停止を指示する出力指示部と、
を備え、
前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する、
音声出力制御装置。
前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力に係る動作を停止するよう指示する、
請求項１に記載の音声出力制御装置。
前記ユーザの手のジェスチャーは、前記所定の場所に手をかざす動作である、
請求項１または２に記載の音声出力制御装置。
前記動作認識部は、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得し、当該取得した映像から、前記所定の場所に対して前記ユーザの手のジェスチャーが示されたことを認識する、
請求項１ないし３のいずれか一項に記載の音声出力制御装置。
前記動作認識部は、前記所定の場所に隣接して配された、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得する、
請求項４に記載の音声出力制御装置。
前記所定の場所は表示装置の表示画面の一部であって、前記アイコンは、前記表示画面の一部に表示され、
前記動作認識部は、前記所定の場所に隣接する操作器に触れようとする前記ユーザの手の動きと識別して、前記所定の場所に対して示される前記ユーザの手のジェスチャーを認識する、
請求項４または５のいずれか一項に記載の音声出力制御装置。
機械学習により学習された学習済みモデルであって、前記カメラから取得される前記ユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが前記所定の場所に触れることを意図したものか、又は前記所定の場所に示されたジェスチャーであるか、を推定する学習済みモデルを備え、
前記動作認識部は、前記学習済みモデルを用いて、前記所定の場所に対して示された手のジェスチャーを認識する、
請求項６に記載の音声出力制御装置。
前記音声出力装置は、前記ユーザと音声対話する機能を備えた音声対話装置である、
請求項１に記載の音声出力制御装置。
前記音声出力装置は、移動体に搭載されており、
前記ユーザは、前記移動体の利用者である、
請求項１ないし８のいずれか一項に記載の音声出力制御装置を備える移動体。
音声出力装置を制御する音声出力制御装置が行う音声出力制御方法であって、
ユーザの手の動作を認識するステップと、
前記音声出力装置に対し音声出力の停止を指示するステップと、
を有し、
前記指示するステップでは、前記音声出力装置が音声を出力している場合に、人を模したアイコンまたは人の画像が表示された所定の場所に対して前記ユーザの手のジェスチャーが示されたことが前記認識するステップにおいて認識されたときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する、
音声出力制御方法。