JP2021144262A - 音声出力制御装置、これを備える移動体、および音声出力制御方法 - Google Patents
音声出力制御装置、これを備える移動体、および音声出力制御方法 Download PDFInfo
- Publication number
- JP2021144262A JP2021144262A JP2020040432A JP2020040432A JP2021144262A JP 2021144262 A JP2021144262 A JP 2021144262A JP 2020040432 A JP2020040432 A JP 2020040432A JP 2020040432 A JP2020040432 A JP 2020040432A JP 2021144262 A JP2021144262 A JP 2021144262A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- hand
- output
- output control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
【課題】音声出力装置の音声の出力を、ユーザによる淀みのない自然な動作で円滑に停止できるようにすること。【解決手段】ユーザの手の動作を認識する動作認識部と、音声出力装置に対し音声出力の停止を指示する出力指示部と、を備え、出力指示部は、音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを動作認識部が認識したときに、音声出力装置に対し音声の出力を停止するよう指示する。【選択図】図1
Description
本発明は、音声出力装置の音声の出力を制御する音声出力制御装置、当該音声出力制御装置を備える移動体、及び音声出力制御方法に関する。
従来、ユーザが音声指示を発することにより、当該音声指示により指定された機能を実行する車載装置や携帯端末が知られている。このような車載装置や携帯端末では、ユーザの発話が音声指示であるか否かを容易に判断できるように、特定の文言(いわゆるウェイクアップワード(Wake Up Word)またはトリガワード(Trigger Word))の後に続く発話を音声指示として取得する場合がある。
例えば、ユーザが車載装置に対して、ウェイクアップワードに続けて“今日のトップニュースを教えて。”等の音声指示を発すると、車載装置は、インターネット上のニュースサーバを検索して、トップニュースを読み上げる。
しかしながら、上記従来の技術においては、車載装置に音声指示を与える前に必ずウェイクアップワードを発話する必要があることから、実行中の動作を早急に中止したい場合には、不便が生ずることとなり得る。例えば、上記のように車載装置がトップニュースの読み上げを開始した後に、ユーザにおいて電話の着信があったり同乗者との会話の都合が生じた場合、ユーザは、車載装置に対して“読み上げを中止して”といった音声指示を行う前にウェイクアップワードを発しなければならず、読み上げを迅速に中止させることが困難となり得る。
特に、車載装置の読み上げ音声の発声タイミングとユーザのウェイクアップワードの発声タイミングとが重なってしまったような場合には、車載装置においてウェイクアップワードを認識できない場合も生じ得る。このため、ユーザは、車載装置の発声の切れ目を狙ってウェイクアップワードを発声する等の工夫が強いられることともなり、音声指示の利便性が損なわれる結果となり得る。
従来、ステアリングホイール等の特定の車載機器の位置を基準に設定された領域でユーザが様々な手の形状を示すことで、当該手の形状に応じた入力操作が決定される、車載の入力操作装置が知られている(特許文献1)。しかしながら、特許文献1に記載の技術では、様々な入力操作に応じて手の形状が様々に定義されるため、例えば、音声停止指示として定義された特定の手形状をユーザにおいてまず想起する必要があり、音声停止を迅速に行いたい場面においては必ずしも効率的ではない。
また、ユーザは、一般的には、音に関する操作は音に関するもの(例えば音響機器等)に対して行うことを想定する傾向にあることから、特定の車載機器を基準に設定される領域に対してユーザが種々の手形状を提示する上記従来技術においては、ユーザは、音声停止に際して、上記領域への入力操作を必ずしも自然な形では想起し得ない。特に、ユーザがそのような入力操作に慣れていない場合には、なおさらである。
上記背景より、音声出力装置の音声の出力を、ユーザが淀みのない自然な動作で円滑に停止することのできる技術の実現が求められている。
本発明の一の態様は、音声出力装置を制御する音声出力制御装置であって、ユーザの手の動作を認識する動作認識部と、前記音声出力装置に対し音声出力の停止を指示する出力指示部と、を備え、前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する。
本発明の他の態様によると、前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力に係る動作を停止するよう指示する。
本発明の他の態様によると、前記ユーザの手のジェスチャーは、前記所定の場所に手をかざす動作である。
本発明の他の態様によると、前記動作認識部は、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得し、当該取得した映像から、前記所定の場所に対して前記ユーザの手のジェスチャーが示されたことを認識する。
本発明の他の態様によると、前記動作認識部は、前記所定の場所に隣接して配された、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得する。
本発明の他の態様によると、前記所定の場所は表示装置の表示画面の一部であって、前記アイコンは、前記表示画面の一部に表示され、前記動作認識部は、前記所定の場所に隣接する操作器に触れようとする前記ユーザの手の動きと識別して、前記所定の場所に対して示される前記ユーザの手のジェスチャーを認識する。
本発明の他の態様によると、機械学習により学習された学習済みモデルであって、前記カメラから取得される前記ユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが前記所定の場所に触れることを意図したものか、又は前記所定の場所に示されたジェスチャーであるか、を推定する学習済みモデルを備え、前記動作認識部は、前記学習済みモデルを用いて、前記所定の場所に対して示された手のジェスチャーを認識する。
本発明の他の態様によると、前記音声出力装置は、前記ユーザと音声対話する機能を備えた音声対話装置である。
本発明の他の態様によると、前記音声出力装置は、移動体に搭載されており、前記ユーザは、前記移動体の利用者である。
本発明の他の態様は、音声出力装置を制御する音声出力制御装置が行う音声出力制御方法であって、ユーザの手の動作を認識するステップと、前記音声出力装置に対し音声出力の停止を指示するステップと、を有し、前記指示するステップでは、前記音声出力装置が音声を出力している場合に、人を模したアイコンまたは人の画像が表示された所定の場所に対して前記ユーザの手のジェスチャーが示されたことが前記認識するステップにおいて認識されたときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する。
本発明の他の態様によると、前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力に係る動作を停止するよう指示する。
本発明の他の態様によると、前記ユーザの手のジェスチャーは、前記所定の場所に手をかざす動作である。
本発明の他の態様によると、前記動作認識部は、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得し、当該取得した映像から、前記所定の場所に対して前記ユーザの手のジェスチャーが示されたことを認識する。
本発明の他の態様によると、前記動作認識部は、前記所定の場所に隣接して配された、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得する。
本発明の他の態様によると、前記所定の場所は表示装置の表示画面の一部であって、前記アイコンは、前記表示画面の一部に表示され、前記動作認識部は、前記所定の場所に隣接する操作器に触れようとする前記ユーザの手の動きと識別して、前記所定の場所に対して示される前記ユーザの手のジェスチャーを認識する。
本発明の他の態様によると、機械学習により学習された学習済みモデルであって、前記カメラから取得される前記ユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが前記所定の場所に触れることを意図したものか、又は前記所定の場所に示されたジェスチャーであるか、を推定する学習済みモデルを備え、前記動作認識部は、前記学習済みモデルを用いて、前記所定の場所に対して示された手のジェスチャーを認識する。
本発明の他の態様によると、前記音声出力装置は、前記ユーザと音声対話する機能を備えた音声対話装置である。
本発明の他の態様によると、前記音声出力装置は、移動体に搭載されており、前記ユーザは、前記移動体の利用者である。
本発明の他の態様は、音声出力装置を制御する音声出力制御装置が行う音声出力制御方法であって、ユーザの手の動作を認識するステップと、前記音声出力装置に対し音声出力の停止を指示するステップと、を有し、前記指示するステップでは、前記音声出力装置が音声を出力している場合に、人を模したアイコンまたは人の画像が表示された所定の場所に対して前記ユーザの手のジェスチャーが示されたことが前記認識するステップにおいて認識されたときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する。
本発明によれば、ユーザは、音声出力装置の音声の出力を、淀みのない自然な動作で円滑に停止することができる。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る音声出力制御装置の構成を示す図である。音声出力制御装置100は、例えば、移動体である車両102に搭載されている。以下、ユーザとは、本実施形態では、移動体である車両102の利用者であり、車両102の運転者を含む。また、以下において音声とは、特に断りのない限り、後述するスピーカ124等の音響発生器が出力し得る音響一般をいうものとする。
図1は、本発明の一実施形態に係る音声出力制御装置の構成を示す図である。音声出力制御装置100は、例えば、移動体である車両102に搭載されている。以下、ユーザとは、本実施形態では、移動体である車両102の利用者であり、車両102の運転者を含む。また、以下において音声とは、特に断りのない限り、後述するスピーカ124等の音響発生器が出力し得る音響一般をいうものとする。
この音声出力制御装置100は、車載ネットワークバス104を介して、例えば、カメラ制御装置106、音声出力装置であるAV(オーディオビジュアル)出力装置108、ナビゲーション装置110、およびTCU(テレマティクス・コントロール・ユニット)112と通信可能に接続されている。
カメラ制御装置106は、車室内カメラ114の動作を制御して車両102の車室内の少なくともユーザの動きを撮影し、当該撮像した映像を、音声出力制御装置100等の他の装置へ送信する。
TCU112は、遠距離通信装置118と、遠距離通信装置118の動作を制御する処理装置116と、を備える。処理装置116は、例えば、CPU等のプロセッサを備えるコンピュータである。遠距離通信装置118は、例えば、インターネット等の通信ネットワークを介して、ニュースその他の情報を提供する様々なサーバと通信する無線通信装置である。
AV出力装置108は、音声出力装置である。また、AV出力装置108は、以下に示すように、ユーザとの音声対話する機能を備えた音声対話装置でもある。AV出力装置108は、表示装置120が備えるタッチパネル等の入力装置を介したユーザからの入力指示により、及び又はユーザとの音声対話における音声指示により、楽曲や動画等の再生を行って音声を出力する。AV出力装置108は、また、ユーザからの入力指示や音声指示により、ユーザが求める情報を、例えばTCU112を介してインターネット上のサーバ等から検索して取得し、取得した画像情報および音声情報を表示装置120およびスピーカ124に出力したり、上記取得したテキスト情報を音声合成機能により音声としてスピーカ124に出力する。
具体的には、AV出力装置108は、処理装置130と、記憶装置132と、を備える。記憶装置132は、例えば、揮発性及び又は不揮発性の半導体メモリ、ハードディスク装置、及び又はCD、DVD、USBメモリ等の着脱可能な記憶媒体の読み取り装置等により構成される。
処理装置130は、CPU等のプロセッサを備えるコンピュータであり、プログラムを実行することにより実現される機能要素又は機能ユニットとして、音声対話部134と、アイコン表示部136と、AV制御部138と、UI(User Interface)制御部140と、を備える。
音声対話部134は、後述するUI制御部140を介してユーザとの音声対話を行う。例えば、音声対話部134は、ユーザが音声指示の始まりを示す特定の文言(いわゆるウェイクアップワードまたはトリガワード)を発話したか否かを判断し、ウェイクアップワードを発話したときは、その後に続く発話を音声指示として認識する。そして、音声対話部134は、認識した音声指示にしたがって、記憶装置132等に記憶されている楽曲や動画等の再生や、インターネット上のサーバ等から検索したコンテンツの再生及び又はテキスト情報の音声出力を行う。
アイコン表示部136は、少なくともスピーカ124から音声が出力されているときに、表示装置120の表示画面の一部に、人物アイコンを表示する。ここで、人物アイコンは、人を模したアイコンまたは人の画像であるものとすることができる。また、人物アイコンに用いる人の画像は、人物の写真のほか、コンピュータグラフィックス等により人工的に生成された画像であってもよい。本実施形態では、アイコン表示部136は、後述するように、人の顔を模した人物アイコン302を表示装置120に表示する。
AV制御部138は、従来技術に従い、楽曲、映像、画像等のAVコンテンツを再生してスピーカ124、及び又は表示装置120へ出力する。このようなAVコンテンツは、例えば、記憶装置132を構成する読取装置により読み取られるDVD等の媒体に記憶されたコンテンツのほか、音声対話部134がユーザからの音声指示によりTCU112を介してインターネット上のサーバ等から記憶装置132にダウンロードし記憶したコンテンツも含まれ得る。また、AV制御部138は、ラジオ放送電波及びテレビ放送電波の受信機(不図示)から受信されるラジオ番組及びテレビ番組の音声をスピーカに出力する。また、AV制御部138は、適切な場合にはテレビ番組の映像を表示装置120に出力する。
UI制御部140は、表示装置120、マイク122、及びスピーカ124を含むUI機器の動作を制御する。UI制御部140は、AV出力装置108がスピーカ124により音声出力を開始するとき、及び音声出力を終了又は停止するときに、それぞれ、後述する音声出力制御装置100へ出力開始通知および出力停止通知を送信し得る。
特に、本実施形態では、UI制御部140は、音声出力制御装置100からの指示により、スピーカ124を介した音声情報の出力を制御する。具体的には、UI制御部140は、例えば、音声出力制御装置100から音声停止指示を受信したときに、スピーカ124を介した音声情報の出力を停止すると共に、音声対話部134、AV制御部138、及び又はナビゲーション装置110に指示して、音声出力を伴う動作を停止させる。
また、UI制御部140は、AV制御部138、ナビゲーション装置110、及び又は音声出力制御装置100からの指示により、当該指示が指定する画像又は映像を表示装置120に表示すると共に、表示装置120が装備するタッチパネル(不図示)を介したユーザからの入力を、AV制御部138、ナビゲーション装置110、及び又は音声出力制御装置100へ送信する。
さらに、UI制御部140は、AV制御部138、ナビゲーション装置110、及び又は音声出力制御装置100からの指示により、当該指示が指定する音声メッセージをスピーカ124へ出力する。また、UI制御部140は、ユーザからの音声指示等の発話をマイク122から取得し、当該発話の音声認識結果を、AV制御部138、ナビゲーション装置110、及び又は音声出力制御装置100へ送信する。
図2は、車両102の車室内における表示装置120、マイク122、および車室内カメラ114の配置の例を示す図である。表示装置120は、例えば、車両102のインストルメントパネル(Instrument Panel)の車幅方向中央部に配され、その下方の運転者寄りの位置に、マイク122が配されている。車室内カメラ114は、ユーザである運転者及び助手席の乗員の顔を撮影することのできる位置であって、かつ、表示装置120のうち人物アイコンが表示される部分に対するユーザの手の動作を推定可能な映像が撮影できる位置に配される。図2の例では、車室内カメラ114は、人物アイコンが表示される所定の位置に隣接する位置、例えば、表示装置120の中央部下方に配されている。
図3は、表示装置120における表示画面の一例を示している。図3の例では、表示装置120の図示左方に情報表示エリア300が設けられており、当該エリアに、例えば、ナビゲーション装置110からの地図画面が表示される。情報表示エリア300には、地図画面のほか、AV出力装置108のAV制御部138により再生される映像や、テレビ放送画面、インターネット上のサーバからの動画等々が表示され得る。
また、図示の例では、表示装置120の表示画面の図示右方に、人物アイコン302が表示されている。また、表示画面のうち、情報表示エリア300および人物アイコン302が表示されていないエリアには、例えば、図示矩形で示された操作ボタン304、306、308、310等が表示される。
人物アイコン302の表示位置やサイズは、表示装置120に表示される画像情報に応じて変更されるものとしてもよい。この場合には、表示装置120の表示画面の全体が、人物アイコン302が表示される所定の領域となる。ただし、ユーザによる操作の観点からは、人物アイコン302の表示位置は、固定されていることが望ましい。
ナビゲーション装置110は、CPU等のプロセッサを備えるコンピュータ処理装置と記憶装置とを備える(共に不図示)。ナビゲーション装置110は、従来技術に従い、GPS受信機(不図示)から車両102の現在位置情報を取得し、ユーザが指定する目的地までの経路を探索して経路案内を行う。具体的には、ナビゲーション装置110は、AV出力装置108を介して、ユーザが指定する上記目的地を、例えば、表示装置120が備えるタッチパネルを介したユーザからの入力により、またはマイク122を介して取得されるユーザからの音声指示により取得する。また、ナビゲーション装置110は、AV出力装置108を介して、表示装置120に地図を表示し、当該地図上に車両102の現在位置および探索した経路を表示する。
音声出力制御装置100は、例えば、音声出力装置であるAV出力装置108の音声出力動作を制御する。特に、本実施形態では、音声出力制御装置100は、人物アイコン302が表示された所定の場所(本実施形態では、表示装置120の表示画面の一部)に対してユーザの手の特定のジェスチャーが示されたときに、AV出力装置108に指示して、スピーカ124からの音声の出力を停止するよう指示する。
具体的には、音声出力制御装置100は、処理装置150と、記憶装置152と、を備える。記憶装置152は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。記憶装置152は、ジェスチャー推定モデル154を記憶する。ジェスチャー推定モデル154は、後述する動作認識部162がユーザの手の動作を認識する際に用いられる。
処理装置150は、CPU等のプロセッサを備えるコンピュータである。処理装置150は、プログラムが書き込まれたROM、データの一時記憶のためのRAM等を有する構成であってもよい。そして、処理装置150は、機能要素又は機能ユニットとして、音声検知部160と、動作認識部162と、出力指示部164と、を備える。
処理装置150が備えるこれらの機能要素は、例えば、コンピュータである処理装置150がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置150が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。
音声検知部160は、音声出力装置であるAV出力装置108が音声を出力しているか否かを判断する。例えば、音声検知部160は、AV出力装置108から送信される出力開始通知および出力停止通知を受信することにより、それぞれ、AV出力装置108における音声出力の開始、及び停止又は終了を検知して、AV出力装置108が音声を出力しているか否かを判断することができる。これに代えて又はこれに加えて、音声検知部160は、AV出力装置108を介してマイク122から車室内の音を取得し、当該取得した音に基づいて、スピーカ124から音声が出力されているか否かを判断することにより、AV出力装置108が音声を出力しているか否かを判断してもよい。
動作認識部162は、ユーザの手の動きを認識する。特に、動作認識部162は、人を模したアイコンまたは人の画像が表示された所定の場所、すなわち、本実施形態では人物アイコン302が表示された表示装置120のエリアに対して、ユーザの手のジェスチャーが示されたことを認識する。
ここで、動作認識部162が認識するユーザの手のジェスチャーとしては、人が他の人に対して発話を停止することを要請する際に通常行うジェスチャーであるものとすることができる。例えば、本実施形態では、動作認識部162が認識する手のジェスチャーは、図4に示すような、人物アイコン302が表示された表示装置120の部分にユーザが手400をかざす動作である。
人物アイコン302は、人を模したものであることから、スピーカ124から音、特に音声が出力されている場合には、ユーザは人物アイコン302をその音の仮想的な発声主体として容易に認識ないし想定し得る。このため、ユーザは、音を停止したい場合には、仮想的は発声主体である人物アイコン302に対して何らかの手の動作を示すことを容易に想到することができ、ユーザは自然な動作で人物アイコン302に手のジェスチャーを示すこととなり得る。
動作認識部162は、具体的には、ユーザを撮影する車室内カメラ114からユーザの手の動きの映像を、カメラ制御装置106を介して取得し、当該取得した映像から、上記所定の場所に対してユーザの手のジェスチャーが示されたことを認識する。上述したように、本実施形態では、ユーザを撮影する車室内カメラ114は、人物アイコン302が表示される所定の場所である表示装置120に隣接して、当該表示装置120の中央部下方に配されている(図2、図3)。この場合において、ユーザを撮像する車室内カメラ114は、夜間等の照明の暗い状況においてもユーザを捉えられるように、近赤外(NIR、Near InfraRed)カメラであることが望ましい。
一般に、タッチパネルを備えた表示装置の近くにあるユーザの手は、当該表示装置のタッチパネルに対する操作(例えば、図3に示す操作ボタン304、306等を押す等の操作)であることが多い。このため、動作認識部162は、人物アイコン302が表示された所定の場所に隣接する操作器(本実施形態では、例えば、表示装置120に表示される操作ボタン304、306、308、310等)に触れようとするユーザの手の動きと識別して、上記所定の場所に対して示されるユーザの手のジェスチャーを認識する。
例えば、動作認識部162は、図5に示すような画像を車室内カメラ114から取得する。図5には、助手席に座ったユーザ500が、車室内カメラ114の情報にある表示装置120の人物アイコン302の方向に手502を伸ばしている画像504が模式的に示されている。動作認識部162は、例えば、表示装置120の画面上における人物アイコン302が表示された位置の座標をAV出力装置108から取得する。そして、動作認識部162は、当該取得した座標、および車室内カメラ114と表示装置120との相対位置関係に基づき、ユーザ500が人物アイコン302へ手を伸ばしたことを認識することができる。また、動作認識部162は、例えば、ユーザ500の手502の形やその変化から、ユーザ500が人物アイコン302に対して示す手のジェスチャーを認識することができる。
このようなユーザによる手のジェスチャーを精度よく認識するため、本実施形態では、動作認識部162は、例えば、カメラ制御装置106を介して取得される車室内カメラ114が取得したユーザの映像に基づき、記憶装置152に記憶されたジェスチャー推定モデル154を用いて、上記所定の場所である人物アイコン302が表示された表示装置120のエリアに対して示されるユーザの手のジェスチャーを認識する。
ここで、ジェスチャー推定モデル154は、例えば、人工知能(AI)等による機械学習により学習された学習済みモデルであって、車室内カメラ114から取得されるユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが上記所定の場所に触れることを意図したものか又は上記所定の場所に示されたジェスチャーであるか、及びジェスチャーであるときは当該ジェスチャーがどのようなジェスチャーか、を推定する学習済みモデルである。
ただし、上述したジェスチャー推定モデル154を用いた手のジェスチャーの認識は一例であって、動作認識部162の動作はこれには限られない。例えば、動作認識部162は、周知又は公知の任意の画像認識技術を用いて認識されるユーザの手の位置及び上記所定の場所におけるユーザの手の保持時間等から、上記所定の位置に対するユーザの手のジェスチャーを認識するものとすることができる。
図1を参照し、音声出力制御装置100が備える出力指示部164は、音声出力装置である例えばAV出力装置108に対し、例えばスピーカ124による音声出力の許可および禁止を指示する。特に、本実施形態では、出力指示部164は、AV出力装置108がスピーカ124から音声を出力している場合において、人物アイコン302が表示された所定の場所である表示装置120上のエリアに対してユーザの手のジェスチャーが示されたことを動作認識部162が認識したときに、AV出力装置108に対し音声の出力を停止するよう指示する。これに加えて、出力指示部164は、AV出力装置108に対し当該音声の出力に係る動作を停止するよう指示してもよい。
上記の構成を有する音声出力制御装置100は、例えば、音声出力装置であるAV出力装置108が音声を出力している場合において、人物アイコン302が表示された所定の場所に、例えば、手をかざすなどの手のジェスチャーが示されたときに、AV出力装置108に対し、音声の出力を停止させる。このような手のジェスチャーは、人と人との会話において発話する人物に対して当該発話の停止を求める際に通常用いられる動作である。このため、音声出力制御装置100では、ユーザは、例えば、AV出力装置108である音声出力装置の音声が出力されている際に、電話の着信があったり同乗者との会話の都合が生じた場合等においてAV出力装置108の出力音声を即座に停止したい場合には、人との会話において用いるような自然な動作により、当該音声の出力を円滑に停止することができる。
次に、音声出力制御装置100の動作手順について説明する。図6は、音声出力制御装置100の動作の手順を示すフロー図である。この処理は、音声出力制御装置100の電源がオンされたときに開始し、音声出力制御装置100の電源がオフされたときに終了する。
処理を開始すると、まず、音声出力制御装置100の音声検知部160は、音声出力装置であるAV出力装置108が音声を出力しているか否かを判断する(S100)。そして、AV出力装置108が音声を出力していないときは(S100、NO)、音声検知部160は、ステップS100に戻って処理を繰り返す。一方、AV出力装置108が音声を出力しているときは(S100、YES)、動作認識部162は、車室内カメラ114によりユーザの映像を取得し(S102)、人物アイコン302が表示された所定の場所である表示装置120の所定のエリアに対し、ユーザの手の所定のジェスチャーが示されたか否かを判断する(S104)。
そして、上記所定の場所に対して所定のジェスチャーが示されていないときは(S104、NO)、処理装置150は、ステップS100に戻って処理を繰り返す。一方、上記所定の場所に対して所定のジェスチャーが示されたときは(S104、YES)、出力指示部164は、AV出力装置108に対し、音声出力の停止を指示する(S106)。この指示は、上述したように、例えば、出力指示部164がAV出力装置108に音声停止指示を送信することで行うものとすることができる。AV出力装置108は、上記音声停止指示を受信したことに応じて、例えばUI制御部140が、スピーカ124からの音声出力を停止すると共に、音声対話部134、AV制御部138、及びナビゲーション装置110に指示して、音声出力を伴う動作を停止させる。
ステップS106において出力指示部164が音声出力の停止を指示したあとは、処理装置150は、ステップS100に戻って処理を繰り返す。
なお、本発明は上記実施形態の構成に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能である。
例えば、上述した実施形態では、表示装置120に表示される人物アイコン302を示したが、人物アイコンの表示位置はこれには限られない。人物アイコンは、ユーザが視認可能な任意の位置に配されるものとすることができる。例えば、人物アイコンは、音声出力制御装置100及び又はAV出力装置108等の音声出力装置の筺体、又はこれらの装置が設けられ任意の構造物、例えばインストルメントパネル200上の所定の位置に配されるものとすることができる。そのような人物アイコンは、表示装置120のような装置の表示画面に表示される画像のほか、所定の場所に貼付される写真や印刷物等であってもよい。
また、本実施形態では、動作認識部162は、車室内カメラ114から得られるユーザの画像又は映像に基づいて、人物アイコン302が表示された所定の場所に対してユーザの手のジェスチャーが示されたか否かを判断するものとしたが、ジェスチャーの認識に用いるセンサは、カメラには限られない。そのようなセンサは、例えば、最も単純には、上記所定の場所に設けられた接近センサであるものとすることができる。
また、本実施形態では、ユーザの動作を撮像する車室内カメラ114は、インストルメントパネル200に設けられた表示装置120の下方に、人物アイコン302が表示される所定の場所に隣接して配されるものとしたが、車室内カメラ114の位置は、これには限られない。車室内カメラは、上記所定の場所に対して示されるユーザの手のジェスチャーを認識し得る映像を取得できる限りにおいて、任意の場所に配されるものとすることができる。ただし、本実施形態のように、ユーザの動作を撮像するカメラとしてインストルメントパネル200上の運転者と対向する位置に配された車室内カメラ114を用いることで、例えば、安全支援等の目的で設けられる他の装置(例えば運転者の顔画像から当該運転者の疲労の程度を認識して警告を発出する装置)に用いられるカメラを兼用することができる。
また、本実施形態では、音声出力装置の一例としてAV出力装置108を示したが、音声出力制御装置100が音声出力の停止を制御する対象としての音声出力装置は、AV出力装置108には限られない。音声出力装置は、スピーカ124等の任意の音響出力器を用いて音声(声以外の音一般を含む)を出力する任意の装置であるものとすることができる。そのような音声出力装置は、例えば、適切な通信インタフェースを介して車載ネットワークバス104に接続されるスマートフォン等の携帯端末であってもよい。また、そのような携帯端末は、TCU112に備えられ得るBlueTooth(登録商標)等の短距離無線通信を行う短距離通信装置を介して車載ネットワークバス104と接続されてもよい。
あるいは、音声出力装置は、AV出力装置108を介して出力する音声を生成する装置、例えば、ナビゲーション装置110であるものとすることもできる。この場合には、音声出力制御装置100は、ナビゲーション装置110へも音声停止指示を送信して、当該ナビゲーション装置110が生成する音声出力の停止を指示することができる。
また、表示装置120に人物アイコン302を表示させるアイコン表示部136は、本実施形態ではAV出力装置108が備えるものとしたが、これに代えて、音声出力制御装置100の処理装置150に設けられるものとしてもよい。
また、音声出力制御装置100は、AV出力装置108に接続されたスピーカ124からの音声出力を、AV出力装置108に指示して停止するものとしたが、この構成には限られない。例えば、スピーカ124は、音声出力制御装置100に接続され、AV出力装置108等が生成する音声出力が、音声出力制御装置100を介してスピーカ124から出力されるものとしてもよい。この場合には、音声出力制御装置100は、スピーカ124からの音声出力を直接的に制御して停止させると共に、AV出力装置108及び又はナビゲーション装置110に対し、当該音声出力に係る動作の停止を指示するものとすることができる。
また、本実施形態では、人物アイコン302が表示される所定の位置に示されるユーザの手のジェスチャーは、例えば人物アイコン302が表示された所定の場所に手をかざす動作であるものとしたが、音声出力の停止を指示するための手のジェスチャーは、これには限られない。そのような手のジェスチャーは、任意のジェスチャーであるものとすることができる。ただし、ユーザが自然な動作で音声を停止できるようにする意味においては、人物アイコン302が表示される位置に示されるユーザの手のジェスチャーは、人が他の人に対して発話を停止することを要請する際に通常行う何らかのジェスチャーであることが望ましい。そのような手のジェスチャーは、人物アイコン302に手をかざす動作のほか、例えば人物アイコン302の前で掌を左右に振る動作や、人物アイコン302の唇の位置付近で人差し指を立てたり左右に振る動作など、であるものとすることができる。
また、音声出力制御装置100は、その他の様々な手のジェスチャーにより、それぞれのジェスチャーについて予め定められた様々なユーザからの指示を実行するものとすることができる。そのような指示は、例えば、人物アイコン302の前で掌を起こすジェスチャーにより出力音声の音量を上げること、掌を伏せる動作で当該音量を下げること、親指を立てる動作でAV出力装置108からの音声提案(例えば、音声により提示される楽曲再生等の提案)の許諾を決定すること、等であるものとすることができる。
また、本実施形態では、音声出力制御装置100は、AV出力装置108等の音声出力装置とは別個の装置として実現されるものとしたが、音声出力制御装置100の構成は、これには限られない。例えば、音声出力制御装置100は、音声出力装置の一部として実現されるものとすることができる。そのような音声出力制御装置は、例えば、必ずしも車両に搭載されないステレオ装置等の一般のAV装置の一部であるものとすることができる。この場合には、人物アイコン302は、当該AV装置の表示装置や筐体の所定の位置に表示され得る。
また、例えば、音声出力制御装置100は、スマートフォン等の携帯端末において実行されるアプリケーションプログラムにより、当該携帯端末の機能要素として実現されるものとすることができる。この場合には、音声出力制御装置100である機能要素は、例えば、当該携帯端末の他の機能要素であるウェブブラウザ、音声プレーヤ、及び又は動画プレーヤ等を音声出力装置として、これらの音声出力装置の音声出力の停止を制御するものとすることができる。この場合において、音声出力制御装置100である機能要素は、人物アイコン302と同様のアイコンを携帯端末の表示装置に表示するものとすることができる。
以上説明したように、上述した音声出力制御装置100は、例えば、音声出力装置であるAV出力装置108を制御する。音声出力制御装置100は、ユーザの手の動作を認識する動作認識部162と、AV出力装置108に対し音声出力の停止を指示する出力指示部164と、を備える。出力指示部164は、AV出力装置108が音声を出力している場合において、人を模したアイコンまたは人の画像(例えば、人物アイコン302)が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを動作認識部162が認識したときに、AV出力装置108に対し音声の出力を停止するよう指示する。
この構成によれば、ユーザは、人物アイコン302を擬人化して捉えることとなるので、音声出力を停止させたい場合には、例えば、人に対して発話の停止を求める一般的な手のジェスチャーを人物アイコン302に対して行うことを容易に発想することができる。したがって、音声出力制御装置100では、例えば、そのようなジェスチャーを動作認識部162において認識することで、ユーザは、音声出力装置の音声の出力を淀みのない自然な動作で円滑かつ即座に停止することができる。
また、音声出力制御装置100では、出力指示部164は、AV出力装置108が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを動作認識部162が認識したときに、音声出力装置に対し上記音声の出力に係る動作を停止するよう指示する。この構成によれば、不要な音声出力動作を即座に停止することができる。
また、音声出力制御装置100では、ユーザの手のジェスチャーは、人物アイコン302が表示された所定の場所に手をかざす動作である。この構成によれば、音声出力制御装置100では、ユーザは、人との会話において用いるような自然な淀みのない動作により、音声出力装置であるAV出力装置108の音声出力を、円滑かつ即座に停止することができる。
また、音声出力制御装置100では、動作認識部162は、ユーザを撮影する車室内カメラ114からユーザの手の動きの映像を取得し、当該取得した映像から、人物アイコン302が表示された所定の場所に対してユーザの手のジェスチャーが示されたことを認識する。この構成によれば、動作認識部162は、人物アイコン302に対する様々な手の動きを認識することができる。このため、音声出力制御装置100では、音声停止を指示するジェスチャーを自由に定義して、動作認識部162に認識させることができる。
動作認識部は、所定の場所に隣接して配された、ユーザを撮影するカメラからユーザの手の動きの映像を取得する。この構成によれば、ユーザの顔画像を必要とする他の装置との間でカメラを兼用して用いることができるので、新たなカメラを設けることなく、音声出力制御装置100を動作させることができる。
また、音声出力制御装置100では、人物アイコン302が表示される所定の場所は、表示装置120の表示画面の一部である。そして、動作認識部162は、上記所定の場所に隣接する操作ボタン304等の操作器に触れようとするユーザの手の動きと識別して、上記所定の場所に対して示されるユーザの手のジェスチャーを認識する。この構成によれば、人物アイコン302を、表示装置120の表示画面に操作ボタン等の操作器と共に表示させることができる。
また、音声出力制御装置100は、機械学習により学習された学習済みモデルであって、車室内カメラ114から取得されるユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが上記所定の場所に触れることを意図したものか、又は上記所定の場所に示されたジェスチャーであるか、を推定する学習済みモデルを備える。そして、動作認識部162は、上記学習済みモデルを用いて、上記所定の場所に対して示された手のジェスチャーを認識する。この構成によれば、人物アイコン302が表示された所定の場所に対するユーザの手のジェスチャーを確度高く容易に認識することができ、ユーザは、AV出力装置108の音声出力を、より円滑かつ迅速に停止させることができる。
また、音声出力制御装置100が制御する音声出力装置であるAV出力装置108は、ユーザと音声対話する機能を備えた音声対話装置でもある。この構成によれば、ユーザは、音声対話により人物アイコン302をより擬人化して捉えることとなるので、人に対し発話停止を要請する際に用いる手のジェスチャーをより容易に発想することができ、より円滑かつ迅速に音声出力を停止させることができる。
また、音声出力制御装置100が制御する音声出力装置であるAV出力装置108は、移動体である車両102に搭載されており、ユーザは当該車両102の利用者である。この構成によれば、ユーザは、車両102において、電話の着信や同乗者との会話に際し音声出力装置の音声出力を円滑かつ迅速に停止することができるので、車両102における音声出力装置の利便性が向上する。
また、音声出力制御装置100は、図6にフロー図と示す音声出力制御方法を実行する。この音声出力制御方法は、動作認識部162がユーザの手の動作を認識するステップと、出力指示部164が、音声出力装置であるAV出力装置108に対し音声出力の停止を指示するステップと、を有する。上記指示するステップでは、AV出力装置108が音声を出力している場合に、人を模したアイコンまたは人の画像が表示された所定の場所に対し上記ユーザの手のジェスチャーが示されたことが上記認識するステップにおいて動作認識部162により認識されたときに、AV出力装置108に対し音声出力の停止が指示される。
この構成によれば、ユーザは、音声出力装置の音声の出力を淀みのない自然な動作で円滑かつ即座に停止することができる。
100…音声出力制御装置、102…車両、104…車載ネットワークバス、106…カメラ制御装置、108…AV出力装置、110…ナビゲーション装置、112…TCU、114…車室内カメラ、116、130、150…処理装置、118…遠距離通信装置、120…表示装置、122…マイク、124…スピーカ、132、152…記憶装置、134…音声対話部、136…アイコン表示部、138…AV制御部、140…UI制御部、154…ジェスチャー推定モデル、160…音声検知部、162…動作認識部、164…出力指示部、200…インストルメントパネル、300…情報表示エリア、302…人物アイコン、304、306、308、310…操作ボタン、400、502…手、500…ユーザ、504…画像。
Claims (10)
- 音声出力装置を制御する音声出力制御装置であって、
ユーザの手の動作を認識する動作認識部と、
前記音声出力装置に対し音声出力の停止を指示する出力指示部と、
を備え、
前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する、
音声出力制御装置。 - 前記出力指示部は、前記音声出力装置が音声を出力している場合において、人を模したアイコンまたは人の画像が表示された所定の場所に対して、前記ユーザの手のジェスチャーが示されたことを前記動作認識部が認識したときに、前記音声出力装置に対し前記音声の出力に係る動作を停止するよう指示する、
請求項1に記載の音声出力制御装置。 - 前記ユーザの手のジェスチャーは、前記所定の場所に手をかざす動作である、
請求項1または2に記載の音声出力制御装置。 - 前記動作認識部は、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得し、当該取得した映像から、前記所定の場所に対して前記ユーザの手のジェスチャーが示されたことを認識する、
請求項1ないし3のいずれか一項に記載の音声出力制御装置。 - 前記動作認識部は、前記所定の場所に隣接して配された、前記ユーザを撮影するカメラから前記ユーザの手の動きの映像を取得する、
請求項4に記載の音声出力制御装置。 - 前記所定の場所は表示装置の表示画面の一部であって、前記アイコンは、前記表示画面の一部に表示され、
前記動作認識部は、前記所定の場所に隣接する操作器に触れようとする前記ユーザの手の動きと識別して、前記所定の場所に対して示される前記ユーザの手のジェスチャーを認識する、
請求項4または5のいずれか一項に記載の音声出力制御装置。 - 機械学習により学習された学習済みモデルであって、前記カメラから取得される前記ユーザの手の動きの映像が示す、手の位置、移動方向、移動速度、向き、形、及びこれらの変化のうちの少なくとも一つの情報を含む状態変数から、手の動きが前記所定の場所に触れることを意図したものか、又は前記所定の場所に示されたジェスチャーであるか、を推定する学習済みモデルを備え、
前記動作認識部は、前記学習済みモデルを用いて、前記所定の場所に対して示された手のジェスチャーを認識する、
請求項6に記載の音声出力制御装置。 - 前記音声出力装置は、前記ユーザと音声対話する機能を備えた音声対話装置である、
請求項1に記載の音声出力制御装置。 - 前記音声出力装置は、移動体に搭載されており、
前記ユーザは、前記移動体の利用者である、
請求項1ないし8のいずれか一項に記載の音声出力制御装置を備える移動体。 - 音声出力装置を制御する音声出力制御装置が行う音声出力制御方法であって、
ユーザの手の動作を認識するステップと、
前記音声出力装置に対し音声出力の停止を指示するステップと、
を有し、
前記指示するステップでは、前記音声出力装置が音声を出力している場合に、人を模したアイコンまたは人の画像が表示された所定の場所に対して前記ユーザの手のジェスチャーが示されたことが前記認識するステップにおいて認識されたときに、前記音声出力装置に対し前記音声の出力を停止するよう指示する、
音声出力制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020040432A JP2021144262A (ja) | 2020-03-10 | 2020-03-10 | 音声出力制御装置、これを備える移動体、および音声出力制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020040432A JP2021144262A (ja) | 2020-03-10 | 2020-03-10 | 音声出力制御装置、これを備える移動体、および音声出力制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021144262A true JP2021144262A (ja) | 2021-09-24 |
Family
ID=77766544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020040432A Pending JP2021144262A (ja) | 2020-03-10 | 2020-03-10 | 音声出力制御装置、これを備える移動体、および音声出力制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021144262A (ja) |
-
2020
- 2020-03-10 JP JP2020040432A patent/JP2021144262A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017130486A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20130332160A1 (en) | Smart phone with self-training, lip-reading and eye-tracking capabilities | |
CN111524501B (zh) | 语音播放方法、装置、计算机设备及计算机可读存储介质 | |
JP7283384B2 (ja) | 情報処理端末、情報処理装置、および情報処理方法 | |
CN110341627B (zh) | 控制车内行为的方法和装置 | |
CN113901239A (zh) | 信息展示方法、装置、设备及存储介质 | |
CN111370018A (zh) | 音频数据的处理方法、电子设备及介质 | |
CN110808021B (zh) | 音频播放的方法、装置、终端及存储介质 | |
WO2016157993A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN111223475A (zh) | 语音数据生成方法、装置、电子设备及存储介质 | |
CN108053821B (zh) | 生成音频数据的方法和装置 | |
CN106408682A (zh) | 提示方法和装置 | |
JP2013254395A (ja) | 処理装置、処理システム、出力方法およびプログラム | |
WO2016157678A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2021144262A (ja) | 音声出力制御装置、これを備える移動体、および音声出力制御方法 | |
JP6387287B2 (ja) | 不明事項解消処理システム | |
CN113287117A (zh) | 交互***和方法 | |
US11074034B2 (en) | Information processing apparatus, information processing method, and program | |
JPWO2015079865A1 (ja) | 入力装置、コミュニケーション情報の特定方法、処理装置、表示装置、プログラム、および記録媒体 | |
CN113362836B (zh) | 训练声码器方法、终端及存储介质 | |
CN110621384B (zh) | 信息处理设备、信息处理方法和程序 | |
JP6559096B2 (ja) | 情報出力システム及び情報出力方法 | |
CN106005147B (zh) | 平衡车信息显示方法、装置及平衡车 | |
WO2023281820A1 (ja) | 情報処理装置、情報処理方法、記憶媒体 | |
CN113380275B (zh) | 语音处理方法、装置、智能设备及存储介质 |