JPWO2005076258A1 - ユーザ適応型装置およびその制御方法 - Google Patents

ユーザ適応型装置およびその制御方法 Download PDF

Info

Publication number
JPWO2005076258A1
JPWO2005076258A1 JP2005517657A JP2005517657A JPWO2005076258A1 JP WO2005076258 A1 JPWO2005076258 A1 JP WO2005076258A1 JP 2005517657 A JP2005517657 A JP 2005517657A JP 2005517657 A JP2005517657 A JP 2005517657A JP WO2005076258 A1 JPWO2005076258 A1 JP WO2005076258A1
Authority
JP
Japan
Prior art keywords
user
unit
response
utterance
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005517657A
Other languages
English (en)
Other versions
JP3924583B2 (ja
Inventor
幸治 森川
幸治 森川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP3924583B2 publication Critical patent/JP3924583B2/ja
Publication of JPWO2005076258A1 publication Critical patent/JPWO2005076258A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

インタフェース部(10)において、入力部(1)はユーザ(7)の発話などの入力信号を取得し、入力処理部(2)がこの入力信号を処理して、ユーザ(7)に関する情報を検出する。この検出結果を基にして、応答内容決定部(3)はユーザ(7)への応答内容を決定する。一方、応答方法調整部(4)は入力信号の処理状態や入力信号から検出されたユーザ(7)に関する情報などに基づいて、発話速度などユーザ(7)への応答方法を調整する。

Description

本発明は、ユーザからの入力を受けて情報やサービスを提供するインタフェースを備えた装置に関するものであり、具体的には、ユーザとの相互作用によって動作する家庭用ロボット、情報端末、家電機器などに関する。
ユーザに利用されることを前提とした機器とユーザとの間には、インタフェースが必要である。インタフェースの1つとして、ユーザと機器との相互作用の履歴から、提供する情報やサービスを調整する適応型のインタフェースがある。この適応型インタフェースによって、各ユーザの違いや個性に応じて機器が適応することができ、各ユーザにとって使いやすい操作インタフェースが実現される。
従来の適応型インタフェースとしては、例えば、ユーザの操作系列を観察して操作を代行するものや、ユーザに擬似感情を提示して人間と親しみやすいインタフェースを構成するもの、生体情報に応じてインタフェースを適応させるもの、などがあった。また広い意味では、情報推薦などの機能も、各ユーザに適した情報を提示するという意味で適応型インタフェースであるといえる。
このような適応型インタフェースは、(1)ユーザの特定の状態や入力を受け、(2)ユーザの状態を判定し、(3)サービスやインタフェースを調整する、ことによって、ユーザにとって使いやすいインタフェースの提供を目指してきた。
この適応型インタフェースの改善に関する従来技術の例が、特許文献1,2に示されている。
例えば特許文献1では、機械翻訳システムを例にとって、ユーザ適応の状況を調整する方法が提案されている。機械翻訳では、入力される文書のジャンル(新聞記事、マニュアルなど)によって、翻訳に必要な翻訳例の辞書や語彙等が変化するので、そのジャンルなどを適応的に切り替える。ところがこのジャンルの切換は必ずしもうまくいかないので、ジャンル切換の候補をユーザに見てもらい、ジャンル指定の精度を挙げようとするものである。これは適応型インタフェースにおいて、適応がスムーズに行かない可能性への対処を狙ったものである。
また特許文献2では、WEBブラウザのGUIインタフェースを例にとって、インタフェースの配置等を擬似感情というモデルを基にして決定している。すなわち、インタフェースの要素を擬似的な感情を生起させるものとして扱い、その感情の表出をインタフェースの配置として表す。人間の擬似感情変化の特性を利用しているために、人間の感覚にあったユーザインタフェースの適応ができるとされている。
また、人間と機械とのインタフェースに関する注目すべき知見が、非特許文献1〜3に示されている。
非特許文献1では、ユーザがネットワークを通して人間またはコンピュータとゲーム(シリトリ)をする場合、対戦者が人間であると教示したときと、コンピュータであると教示したときとにおいて、同じコンピュータプログラムを相手にした場合でも、ユーザの興味の持続時間や反応が異なっていたことが報告されている。
また、非特許文献2によると、ユーザが伝言を依頼するというタスクについて、ロボットに対するとき、コンピュータの画面に対するとき、そして人間に対するときの3種類の場合では、タスク終了後のインタビューで発話のしやすさが変化したという結果が得られている。
さらに、非特許文献3では、人間同士のコミュニケーションにおいて、言葉によるバーバル情報だけでなく、音声の周辺言語やうなずき、まばたき、表情、身振り・手振りなどのノンバーバル情報が、話し手と聞き手とを相互に引き込むいわゆる引き込み現象を起こしており、これによってコミュニケーションが円滑になっていることが示されている。また、情動変動と密接に関連した心拍間隔変動や呼吸の引き込みなどの生理的側面での引込も、重要な役割を果たしているとの指摘がある。
特開平9−81350号公報 特開2000−330676号公報(特に、段落0062) 特開2003−150194号公報(特に、段落0009−0011,0072) 山本吉伸、松井孝雄、開一夫、梅田聡、安西祐一郎、「計算システムとのインタラクション−楽しさを促進する要因に関する一考察−」、日本認知科学会「認知科学」、第1巻、第1号、pp.107−120、共立出版、1994年5月 原田悦子、「音声インタフェイスにおけるエイジェント性と社会的文脈の効果:伝言実験による検討」、日本認知科学会第19回大会、pp.14−15、2002年6月 渡辺富夫、「身体的コミュニケーションにおける引き込みと身体性−心が通う身体的コミュニケーションシステムE−COSMICの開発を通して−」、ベビーサイエンス、Vol.2、pp.4−12、2002年
適応型インタフェースは、ユーザに適応することによって、より使いやすいインタフェースを実現しようとするものであり、ユーザにより良く適応するための工夫も数多くなされてきた。しかしながら、実世界のアプリケーションにおいては、機器の側が必ずしも常に、ユーザに適応できるわけではなかった。
しかしながら、従来の構成では、機器が想定した範囲内でユーザに適応できる工夫はなされているものの、ユーザが想定範囲外の行動をした場合の対応については、あまり検討されていない。また、どのように適応すればよいかは分かるが、機器の能力として実現不可能な場合もあり、このような場合の対応についても、十分な検討はされていない。提案されている技術としては、エラーメッセージに類する情報を提示する程度のものにとどまっていた。
しかしながら、ユーザに「知りません」「わかりません」「もう一度お願いします」などのメッセージを繰り返し提示するだけでは、ユーザは、装置に反応を期待して働きかけていた分、期待を裏切られた気分になり、落胆してしまう。この状態が繰り返されると、ユーザは装置に対して働きかけても無駄と感じ、やがて装置自体を使わなくなってしまう。
前記の問題に鑑み、本発明は、ユーザとのインタフェースを備えた機器として、ただ単にユーザに応答するだけでなく、ユーザに常に適応できるわけではないことを考慮して、ユーザ自身にさほど意識させることなくその行動や印象の変化を促し、ユーザと機器との円滑なインタラクションを実現することを課題とする。
本発明では、次の点に着目している。すなわち、機器からユーザへの働きかけにおいては、提供する情報やサービスの内容そのものと、その提供方法(ユーザへの応答方法)とは、分けて考えることができる。そして、ユーザへの応答方法を調整することによって、ユーザの行動や、ユーザが機器から受ける印象が、変わり得る、と考えられる。このような観点を、本発明では積極的に活用する。
以下、順を追ってこれらの概念について説明する。
装置がユーザに対して情報を提示する場合に、情報の内容が同じであっても、応答方法が異なると、ユーザに与える印象やユーザの反応が変わってくることがある。
例えば音声対話において、機器がユーザに謝る場合を考えると、「すみません」という発話が情報の内容に相当し、発話速度、イントネーション、画面に表示したエージェントの頭を下げる等の動作などがユーザへの応答方法に相当する。この場合、同じ「すみません」という発話でも、その発話速度、イントネーション、エージェントの体の動き等の情報提示方法によっては、実は謝っていないように感じさせたり、ユーザをさらに不機嫌にさせることもできる。
また、カーナビや情報端末におけるレストラン検索において、「何が食べたいですか」という発話をユーザにする場合でも、発話速度やイントネーションの変化によって、ユーザに様々な印象を与えることができる。例えば早口で尋ねることによって、「早く答えて欲しい」というような言外の意味が付与されたり、イントネーションの付け方次第では、「別に聞きたくないが聞いている」というような印象を与えることもあり得る。
また別の例として、家庭用ロボットがユーザにコップを渡すという場合を考えてみる。「コップを取ってほしい」という要求に対するロボットの応答動作において、ユーザにコップを渡すときの手の動かし方や動作速度は、何通りもある。ユーザにコップを渡すというサービス機能自体は実現できても、その動作の仕方や速度などの応答方法によっては、「いやいや動いている」「恐怖感を感じる」「無愛想に見える」などの印象を持たれてしまう。
このように、同じ情報やサービスを提供する場合であっても、その応答方法の調整次第では、ユーザに与える印象がガラリと変わることがある、と考えられる。
また、上述の非特許文献1は、人間は、機器を相手にしているときでも、自分の思い込みによって、楽しく時間を過ごしたり、つまらなく時間を過ごしたりする可能性があることを示唆している。また非特許文献2も、ユーザが対面する機器の種類によって、ユーザの反応が変化しうることを示している。これらの事例から、(1)ユーザは機器に対する印象や思い込みによって、機器に対する反応形態を変化させること、(2)ユーザは対面する機器の形態などによって使いやすさが変化することがわかる。
この知見を、インタフェース設計の観点から考え直すと、同じ情報やサービスを提供する場合であっても、ユーザへの応答方法というインタフェースの部分を調整することによって、ユーザの印象や反応は制御できると考えられる。これが、本発明の要点である。ユーザへの応答方法の調整は、いわば副次的な情報伝達手段といえる。
次に、ユーザへの応答方法を何に基づいて調整するか、という点について考察する。
応答方法の調整の指標として用いる情報としては、何種類か考えられる。例えば、機器の内部処理がどれぐらいできているか、すなわち入力信号の処理状態を指標とすることが考えられる。
例えば、機器の処理がユーザに追いついていないとき、情報内容をユーザに提供するとともに、その提供方法を調整して、「もっとゆっくりと話して欲しい」「あなたが対面している機器はそんなに早く対応できる機器ではない」という言外のメッセージをユーザに伝えることができる。これにより、ユーザは、機器の処理が追いついていないことを意識的、無意識的を問わずに理解し、自然に機器への対応を変更することが予想される。例えば、情報提供方法として発話速度を調整するものとすると、機器の内部処理がユーザからの発話等についていけないとき、機器が自らの発話速度を下げる(ゆっくり話す)方向に調整すると、ユーザは、機器がついてきていないことを感じて、発話のテンポを落としたりすると考えられる。これは、上述の非特許文献3に示された人間同士のコミュニケーションにおける引込現象を、ユーザと機器との間でも成り立たせることを意図している。
なお、特許文献3では、ユーザの発話が早口すぎて誤認識された場合に、システム側からの発話をユーザの発話速度に比べてゆっくりした発話速度で行うことにより、もっとゆっくりした認識し易い発話速度で発話するように自然に誘導する旨が、開示されている。
また、入力信号から検出した、ユーザの状態や機嫌などの情報を基にして、ユーザへの応答方法を調整してもよいし、ユーザと機器のインタラクションの成立度合いに応じて調整してもよい。また、ユーザに関する知識を学習する機器であれば、その学習度合に応じて、応答方法を調整してもよい。
さらに、本願発明者らは、後述する実験等から、機器側から誘導を行ったとしても、ユーザは必ずしも機器の誘導に引き込まれない、という新たな知見を得た。そして、この新たな知見から、ユーザに対する自然誘導と、強制誘導とを、組み合わせて用いる構成が好ましい、と考えた。自然誘導と強制誘導とを組み合わせることによって、自然誘導できるユーザに対しては、ユーザに意識させないように誘導することができ、一方、自然誘導できないユーザに対しては、強制誘導により確実に誘導することができる。つまり、不快感を与えるような機会を最小限に抑えつつ、かつ、確実に、ユーザを誘導することができる。
すなわち、本発明は、ユーザとのやりとりを行うユーザ適応型装置において、ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を取得し、取得された入力信号を処理してユーザに関する情報を検出し、この検出結果を基にしてユーザへの応答内容を決定し、かつ、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、ユーザへの応答方法を調整し、決定された応答内容を、調整された応答方法によって出力するものである。そして、出力に対するユーザの反応を検出し、このユーザの反応に、調整した応答方法によって期待された変化がみられないとき、ユーザに変化を促すための応答内容を決定するものである。
本発明によると、入力信号を処理して検出されたユーザに関する情報から、ユーザへの応答内容が決定されるとともに、ユーザへの応答方法が、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、調整される。これにより、ユーザの行動や印象の変化を促すように、応答方法を調整することができるので、ユーザに対する自然誘導が実現でき、ユーザと装置との間で円滑なインタラクションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、ユーザに変化を促すための応答内容が決定されるので、強制的に、ユーザを誘導することができる。
従来の適応型インタフェースは、ユーザの状況を観察して、そのユーザに合わせることによって利便性の向上を図っていたが、本発明では、必ずしも常にユーザに適応できるわけではないことを考慮して、応答方法の調整によって、ユーザの機器に対する働きかけ方や印象の変化を促進するようにしている。これにより、従来ではユーザが不満に思うような状況であっても、ユーザの印象変化を促すことによってユーザの不満をやわらげることができ、円滑なインタフェースとしての役割を果たすことができる。
次に、ユーザの行動変化や印象変容を促進するために調整する、ユーザへの応答方法の例を示す。
機器が音声対話において発話を行うとき、発話速度、用いる語彙、イントネーションをユーザへの応答方法として調整する。
ロボット等の機器が「つかむ」「持ち上げる」「渡す」といったアクチュエータの動作を行うとき、アクチュエータの動作速度をユーザへの応答方法として調整する。
機器が有益な情報を推薦するとき、画面に表示したエージェントの形態、例えば顔の表情や服装をユーザへの応答法として調整する。
本発明によると、機器側からユーザへの応答方法を調整することによって、ユーザの機器に対する印象や行動の変化を促すことができるので、ユーザと機器とのより円滑なコミュニケーションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、強制的にユーザを誘導することができる。
図1は、本発明の構成の概念図である。 図2は、第1の実施形態のイメージ図であり、ユーザが家庭用ロボットに箱をとってきてもらう場合を示す図である。 図3(a)は図2の状況における対話の例、図3(b)は発話速度と認識度との関係を示すグラフである。 図4は、本発明の第1の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 図5は、図4の構成の動作を示すフローチャートである。 図6は、本発明の第2の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 図7は、図6の構成の動作を示すフローチャートである。 図8は、第3の実施形態のイメージ図であり、情報端末からユーザに対して情報推薦を行う場合を示す図である。 図9は、本発明の第3の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 図10は、実験1において得られた、各被験者の文章読み上げの単独発話時の発話速度である。 図11は、発話速度の変化の分類を示す模式図である。 図12は、実験1の結果を示すグラフである。 図13は、実験2における対話順序である。 図14は、実験2の結果を示すグラフである。
符号の説明
1 入力部
2 入力処理部
3 応答内容決定部
4 応答方法調整部
6 出力部
7,11 ユーザ
10 インタフェース部
12 ロボット
13 情報端末
14 画面
15A,15B エージェント
20 インタフェース部
21 音声入力部
22 音声認識部
23 発話内容決定部
24 認識状態検出部
25 話速決定部
26 音声出力部
30 インタフェース部
31 状態入力部
32 状態認識部
33 動作入力部
34 動作内容決定部
35 動作ずれ認識部
36 動作速度決定部
37 動作出力部
40 インタフェース部
41 入力部
42 入力処理部
43 処理状態検出部
44 記憶部
45 情報内容決定部
46 応答方法決定部
47 出力部
本発明の第1態様では、ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置として、前記インタフェース部は、ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を、取得する入力部と、前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する応答内容決定部と、前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によって調整された応答方法によって、出力する出力部とを備え、前記入力処理部は、前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定するよう、指示するものを提供する。
本発明の第2態様では、当該ユーザ適応型装置はユーザと音声対話を行うものであり、前記入力部は前記ユーザの発話を音声信号として取得し、前記入力処理部は前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、前記応答内容決定部は前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定し、前記応答方法調整部は前記音声認識処理における認識状態を基にして発話方法を調整する第1態様のユーザ適応型装置を提供する。
本発明の第3態様では、前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーションのうち少なくともいずれか1つを調整する第2態様のユーザ適応型装置を提供する。
本発明の第4態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する第2態様のユーザ適応型装置を提供する。
本発明の第5態様では、前記応答方法調整部は、前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を前記目標値に近づくように変更する第4態様のユーザ適応型装置を提供する。
本発明の第6態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、ユーザの発話速度の目標値を、ユーザに応じて決定する第2態様のユーザ適応型装置を提供する。
本発明の第7態様では、当該ユーザ適応型装置はユーザに対して動作を提供するものであり、前記入力部は前記ユーザの状態および動作を示す信号を入力するものであり、前記入力処理部は前記入力部に入力された信号を処理して前記ユーザの要求を認識するものであり、前記応答内容決定部は前記入力処理部によって認識された前記ユーザの要求に応じて前記ユーザに提供する動作内容を決定し、前記応答方法調整部は前記入力部に入力された信号から前記ユーザと当該ユーザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて動作の提供方法を調整する第1態様のユーザ適応型装置を提供する。
本発明の第8態様では、前記応答方法調整部は、動作の提供方法として動作速度を調整する第7態様のユーザ適応型装置を提供する。
本発明の第9態様では、当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、前記入力部は、ユーザからの要求を示す信号を取得し、前記入力処理部は、前記入力部によって取得された信号からユーザからの要求を判断し、前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を基にして前記嗜好モデルを参照して前記ユーザに提供する情報内容を決定し、前記応答方法調整部は、前記嗜好モデルの学習度合を基にして情報の提供方法を調整する第1態様のユーザ適応型装置を提供する。
本発明の第10態様では、前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示するエージェントの形態のうち少なくともいずれか1つを調整する第9態様のユーザ適応型装置を提供する。
本発明の第11態様では、ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法として、前記ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を取得する第1のステップと、前記第1のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検出する第2のステップと、前記第2のステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第3のステップと、前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、前記ユーザへの応答方法を調整する第4のステップと、前記第3のステップにおいて決定した応答内容を、前記第4のステップにおいて調整した応答方法によって出力する第5のステップと、前記第5のステップにおける出力に対する前記ユーザの反応を検出する第6のステップと、前記第6のステップにおいて検出した前記ユーザの反応に、前記第4のステップにおいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第7のステップとを備えたものを提供する。
まず、本発明の主たる概念を、図1の構成図を用いて説明する。図1は本発明に係るユーザ適応型装置におけるインタフェース部10の構成の概要を示す図である。図1に示すようなインタフェース部10は、ロボットや情報端末などユーザ7に対して機能や情報を提供するユーザ適応型装置の一部として組み込まれる。そして、装置の他の構成部分に対してユーザ7に関する情報を提供し、また、他の構成部分からの出力を受けて、ユーザ7に応答する。
入力部1はユーザ7からの働きかけを入力する。ユーザ7からの働きかけとしては、発話、仕草、表情、スイッチやキーボード、マウスの操作、ユーザの生理的状態などが考えられる。入力部1は、これらの情報を機器に取り込むためのセンサが搭載されているか、または当該センサと通信可能になっており、ユーザの情報を、機器内部で処理可能な電気信号として取得する。すなわち、入力部1は、ユーザ7の動作、状態および要求のうち少なくとも1つを示す入力信号を取得する。
入力処理部2は、入力部1によって取得された入力信号を処理して、ユーザ7の状態や意図や要求といったレベルの表現に変換する。すなわち、ユーザ7の情報を検出する。
応答内容決定部3は、入力処理部2によって取得されたユーザの状態や意図や要求から、機器の反応を決定して出力部6に出力する。すなわち、入力処理部2による検出結果を基にして、ユーザ7への応答内容を決定する。
入力部1から、入力処理部2、応答内容決定部3および出力部6までの一連の処理の流れは、従来のインタフェースと同様のものである。これに対して本発明では、ユーザ7への応答方法を調整する応答方法調整部4が、設けられている。
応答方法調整部4は、ユーザ7への応答方法を調整する。すでに述べたように、ユーザ7に提供する情報やサービスの内容そのものと、その提供方法とは分けて考えることができ、比較的独立に制御可能である。本発明では、応答方法を変化させて、ユーザ側の適応を促すのが特徴の1つである。このときのユーザの適応は、意図的なものではなく、自然な反応の結果としてなされるものであり、その自然な反応を促すように応答方法を調整する。これにより、ユーザ7は、装置に対して不満を感じることがなくなり、円滑なコミュニケーションを装置と行うことができる。
ここで、応答方法の調整は、ユーザと装置との情報やサービスのやり取りが、どの程度円滑に行われているかに応じて、行うものとする。あるいは、ユーザの要求と機器の可能な動作とが一致している度合に応じて、応答方法を調整するものとする。
具体的には例えば、入力処理部2における処理状態に応じて行えばよい。例えば、ユーザと音声対話を行う装置の場合には、音声認識処理の処理状態に応じて、発話速度などの応答方法を調整する。音声認識処理の処理状態から、音声認識が順調に行われているか、ユーザとの音声対話が成立しているかどうかを検知することができる。
また、入力信号から検出されたユーザ7に関する情報に応じて、応答方法を調整してもよい。例えば、音声対話の場合には、出力した合成音声に対するユーザの反応(例えば、言葉が通じていないような兆候が見られるか)に応じて調整すればよいし、ロボットとの協調作業の例では、ロボットとユーザとの間の動作の協調度合(動作がずれなく行われているか)に応じて調整すればよい。
さらに、装置が、ユーザの好みなどユーザに関する知識を学習する機能を有する場合には、その学習度合に応じて、応答方法を調整してもよい。もちろん、これ以外の情報を基にして応答方法を調整してもよいし、複数の情報を組み合わせて判断してもよい。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第1の実施形態)
本発明の第1の実施形態では、音声対話機能を搭載した機器を例にとって説明を行う。本実施形態で想定しているのは、ユーザから音声によって働きかけることができ、機器の方からもユーザに対して合成音声によって働きかけることができる、いわゆる音声対話が可能な情報端末や家庭用ロボットなどの機器である。これらの機器では、人間同士のコミュニケーションと同様に、ユーザと機器との間でコミュニケーションをとりながら、ユーザに対して所望の情報やサービスを提供する。
一般に、ユーザが音声によって機器に話しかけるとき、なんらかの機器動作に対して期待を持つ。そして、機器が期待通りに動作している場合は、ユーザは機器を自然と利用できるが、一方、期待と異なる動作が多い場合は、ユーザは機器に対して不信感を持ってしまうと考えられる。現在、人型ロボットとユーザとの間では、音声によるコミュニケーションが必ずしも円滑に実現されていないが、その理由の1つとして、人型ロボットが、その外見や口調からユーザに期待されるほどには会話ができないことが挙げられる。これは、ネコ型や犬型のロボットでは、語彙や発話方法が限定されているにもかかわらず、ユーザとのコミュニケーションが成り立っているように見える現象とは対照的である。
まず、本実施形態が実現されたときのイメージを、図2および図3を用いて説明する。
図2はユーザが家庭用ロボットに荷物をとってきてもらう場合を概念的に示す図である。図2において、11はユーザ、12は本実施形態に係るインタフェース機能を有する家庭用ロボット、BX1,BX2,BX3は箱である。ユーザ11はロボット12に対して、音声によって要求を伝える。ここでは、ユーザ11は「白い箱BX1をとってくる」ことをロボット12に対して要求するものとする。ロボット12は音声によってユーザ11に応えるとともに、ユーザ11の要求に従った動作を行う。またロボット12は、ユーザ11の発話の認識度に応じて、自己の発話速度を調整する。
図3(a)は図2の状況における対話の例であり、Aはユーザ11の発話、Bはロボット12の発話である。図3(a)では、各発話内容について発話速度を示しており、またユーザ11の発話Aについては、ロボット12の認識処理の良さを表す認識度を示している。図3(b)は発話速度と認識度との関係を示すグラフである。ここでは、説明の簡易化のために、発話速度と認識度には便宜的な数字を与えている。
まず、ユーザ11が「箱を持ってきて」とロボット12に要求する。このときの発話速度は100であり、認識度は60であったとする。一般に音声認識処理では、認識性能が最も発揮できる適切な発話速度があり、図3(b)の関係によると、認識性能が最も良いのは発話速度が90付近である。ここで、発話速度の目標値を90と設定する。現在のユーザ12の発話速度はこの目標値よりも高いため、ロボット12は、ユーザ12の発話速度を下げるような方策を採る。ここでは、ユーザ11の適応を促すべく、ロボット12自らの発話速度を、目標値の90よりも低く、80に下げる。
また、ロボット12は、どの箱BX1,BX2,BX3を持っていけばよいのか特定できないので、どの箱を持ってきて欲しいかを確認するための発話内容を作成する。この結果、ロボット12はユーザ11に対して、「どの箱ですか?」と発話速度を80にして問いかける。
ロボット12の問いかけに対して、ユーザ11は「白い箱です」と答える。このときユーザ11は、ロボット12の発話速度に影響されて、自分では特に意識することなく、発話速度を低下させる。この結果、発話速度が90に変化し、認識度は80に大きく改善される。すなわち、ロボット12からユーザ11に対して、発話内容が伝達されるとともに、認識処理が良好に行えるような働きかけがなされる。
ロボット12は、ユーザ11から要求されたタスクが「白い箱BX1をとってくる」ことであることを正確に認識し、白い箱BX1の受け渡しを、「はいどうぞ」と言いながら行う。このとき、ユーザ11の発話速度は認識処理が良好に行える適切な値になっており、適応促進の必要がなくなったので、自己の発話速度をユーザ11と同じ90に調整する。
以後、ユーザ11とロボット12は、認識処理に適切な発話速度で互いにコミュニケーションが取れるようになる。また、ユーザ11の発話速度に変化が見られ、認識度が低下した場合は、適宜、上述したように、発話速度を調整すればよい。このように、ユーザ11から要求されたタスクをこなしつつ、自己の発話速度を調整してユーザ12の発話速度を適切な範囲に制御することによって、認識処理が常に適切に行えるようにシステムを維持することができる。
なお、上述したように、ユーザの発話速度が目標値よりも高いときは、システム側の発話速度をこの目標値よりも低く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。また、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。
また、ユーザの発話速度が、逆に、目標値よりも低いときは、システム側の発話速度をこの目標値よりも高く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。この場合も、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。
また、ユーザの発話速度の目標値は、必ずしも機器側の都合のみによって決定されるものではない。後述するように、発話速度には個人差が大きいので、発話速度の目標値は、ユーザに応じて決定するのが好ましい。すなわち、認識性能が適切に得られる範囲内で、ユーザの発話速度に近い値に目標値を設定することによって、ユーザが機器の発話に対して違和感を感じないような発話速度の誘導が可能となる。例えば、発話速度がとても遅い人には、機器側の最適値ではなく、認識性能が得られる発話速度の範囲の下限付近に、目標値を設定すればよい。また、発話速度が速い人には、認識可能な発話速度の範囲の上限付近に、目標値を設定すればよい。
以下、本実施形態に係る制御方法について、具体的に説明する。図4は本実施形態に係るユーザ適応型装置におけるインタフェース部20の構成を示すブロック図である。上述の例では、図4に示すインタフェース部20がロボット12に内蔵されている。図4において、認識状態検出部24および話速決定部25が、応答方法調整部に相当しており、また、音声入力部21、音声認識部22、発話内容決定部23および音声出力部26が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。
音声入力部21はユーザ11からの音声入力を取得する部分であり、通常は、音声を取得するためのマイク等によって構成される。ユーザ11が発した音声は、音声入力部21によって、インタフェース部20内部で処理可能な電気信号に変換される。
音声認識部22は音声入力部21によって取得された音声の電気信号を処理して、ユーザ11の発話内容に変換する。すなわち、いわゆる音声認識処理を行う。発話内容決定部23は、音声認識部22によって処理された音声認識結果を基にして、ユーザ11に対する発話内容を決定する。発話内容決定部23には、例えば、「ありがとう」に対して「どういたしまして」、「〜はどこにありますか」に対して「〜にあります」など、各種の対話例が、ルールや知識ベースとして格納されている。
認識状態検出部24は音声認識部22から認識状態に関する信号を取得し、認識状態の良否を検出する。ユーザ11の発話は、必ずしも音声認識処理しやすいものばかりではないので、その処理結果は誤りを含むことが多い。また、大抵の音声認識処理では、その処理結果に対する信頼度を表す信号が得られる。例えば、ニューラルネットワークを利用した音声認識では、各認識結果の候補とともに出力される出力値を、各認識結果に対する信頼度として扱うことが可能である。この出力値が0〜1の範囲で得られるとき、例えば出力値が0.9のときは、その認識結果は間違っていないことが多く、逆に出力値が0.5のときは、認識結果の信頼度は低いがとりあえず出力されている、といったことが読み取れる。認識状態検出部24は、音声認識部22から得られるこのような値から、認識状態の良否の程度を算出する。
話速決定部25は、認識状態検出部24が算出した認識状態の程度を基にして、ユーザ11に対する発話の発話速度を決定する。具体的には例えば、インタフェース部20に内部パラメータとして記憶されている発話速度の値を、調整する。音声認識処理では、一般に、認識率が最も高くなる適切な発話速度が存在し、これから離れるにつれて認識率が低下することが知られている。
音声出力部26は例えば、D/A変換部を含む回路部とスピーカとによって構成されており、発話内容決定部23によって決定された発話内容を示す合成音声を、話速決定部25によって決定された発話速度に従って作成し、出力する。
図4の構成の動作を、図5のフローチャートを用いて説明する。
ユーザ11が発話すると、まず音声入力部21によって、その音声を取得し、電気信号に変換する(S11)。そして、音声認識部22によって、ステップS11において生成された電気信号を用いて音声認識処理を行う(S12)。
次に、認識状態検出部24が、音声認識部22から取得した信号を基にして、音声認識の認識状態が良いか否かを判断する(S13)。ここでの判断は例えば、音声認識処理において特定された複数の認識候補に係る、例えば上述したニューラルネットワークにおける出力値のような信頼度を表すデータの、ばらつき具合を基にして行う。すなわち、特定の候補のみの信頼度が高い場合は、認識状態が良いと判断し、一方、どの候補の信頼度も低い場合は、認識状態が悪いと判断する。また、認識処理そのものが成功せずに認識候補が得られない場合も、認識状態が悪いと判断する。
ステップS13において、認識状態が良いと判断されたときは、ステップS14に進む。ステップS14では、話速決定部25において、適応促進のための発話速度の制御を行わないものとする。すなわち、例えば発話速度を、前回設定された値と同じ値にしたり、ユーザの発話速度に合わせたりする。ユーザの発話速度に合わせるのは、コミュニケーションが良好な場合は、ユーザも装置も発話速度は似ていると推測されるからである。
一方、認識状態が悪いと判断されたときは、ステップS15に進む。ステップS15では、認識状態検出部24によって、ユーザ11の発話速度が速すぎるか否かが判断される。すなわち、音声認識部22における認識状態からユーザ11の現在の発話速度を計算し、この発話速度をインタフェース部20が予め記憶している最適な発話速度と比較する。そしてユーザ11の発話速度の方が速いときは(Yes)、話速決定部25が発話速度を現在の設定よりも遅くする(S16)。一方、ユーザ11の発話速度の方が遅いときは(No)、話速決定部25が発話速度を現在の設定よりも速くする(S17)。発話速度の調整は、例えば、現在の発話速度に対して一定量を減じたり加えたりすることによって、または、1よりも小さな、若しくは大きな一定量を乗じたりすることによって、実現できる。
ステップS14,S16,S17によって発話速度が調整された後、または、発話速度の調整と並行して、発話内容決定部23が、音声認識部22によって認識されたユーザ11の発話内容に対する応答内容を決定する(S18)。そして、音声出力部26は、発話内容決定部23によって決定された発話内容を、話速決定部25によって決定された発話速度でユーザ11に対して出力する(S19)。
上述した動作をユーザ11から見ると、ユーザ11の発話に対して、装置の音声応答の発話速度が若干変化することになる。ユーザ11は、装置との音声対話に際しても、人間同士のコミュニケーションの際に見られるような引き込み現象によって、装置の発話速度に合わせて、自分自身の発話速度を自然に落としたり速めたりすると考えられる。このような発話速度の変化は、ユーザ11が自分で意識的に行うものではない。すなわち、ユーザ11には何ら意識させずに、自然にその発話速度を制御することができ、これにより、認識が容易な発話入力を得ることができるので、認識率も向上し、対話を円滑に進めることができる。
従来の音声対話型のインタフェースでは、音声認識ができない場合、「もう一度お願いします」とか「ゆっくり話してください」等の発話を行い、ユーザに対して、意識的に装置に合わせて話をするように促す対応をしていた。このため、それまでの対話の流れが中断されてしまい、ユーザにとって利用しにくい面があった。
これに対して本実施形態によると、ユーザの発話が不明瞭なときでも、応対は継続しながら発話速度を調整することによって、ユーザに意識させることなく発話速度の変化を促して、コミュニケーションを円滑にすることができる。このとき、ユーザは機器に対して何かしら意図的に適応する必要はなく、ユーザが他の人と自然に行っている相互引込のプロセスが実現されている。したがって、ユーザと機器との音声対話を、ユーザに負担をかけることなく、円滑に行うことができる。
なお、本実施形態では、ユーザへの応答方法の調整として、発話速度を調整するものとしたが、本発明はこれに限られるものではない。例えば、発話語彙を調整してもよい。発話語彙の調整によって、ユーザが発話内容を聞いたときの印象を変化させることができる。語彙を変化させるパターンの例としては、例えば子供の話す語彙と大人の話す語彙、丁寧度合の異なる語彙(例えば、丁寧な話し方と乱暴な話し方)、親密度合の異なる語彙(親しげな話し方とビジネスライクな話し方)などが考えられる。
また、発話のイントネーションを調整してもよい。イントネーションの調整によって、同じ文言であっても、ユーザの話し方をゆっくりにしたり、穏やかにしたり、落ち着かせたりすることが、引き込みによって可能になると考えられる。もちろん、発話速度、語彙、イントネーションなどの応答方法の全部または一部を組み合わせて、調整してもよい。
また、応答方法の調整によって、必ずしも、ユーザの反応がシステム側の想定通りに変化するとは限らない。例えば、後述する実験の結果から示唆されるように、人とシステムとの対話において、システム側が発話速度を調整しても、一部のユーザは自分の発話速度を変化させない。したがって、応答方法を調整してもユーザの反応が期待したようには変化しない場合は、直接的にユーザに要求を伝えるような出力を行うのが好ましい。
すなわち、入力処理部2は、出力部6の出力に対するユーザ7の反応を検出し、ユーザ7の反応に、応答方法調整部4によって調整された応答方法によって期待された変化がみられないときは、応答内容決定部3に対し、ユーザ7に変化を促すための応答内容を決定するよう、指示するのが好ましい。例えば、発話速度を変化させてもユーザ7の発話速度に変化が見られない場合は、入力処理部2は、発話速度の変化を促すような応答内容を決定するよう、応答内容決定部3に指示する。この指示を受けて、応答内容決定部3は、ユーザ7との対話を成立させるための発話内容に加えて、例えば「もう少しゆっくり話していただけませんか?」などといったメッセージを追加する。これにより、発話速度を下げてほしい、というようなシステム側の要求を、ユーザ7に対して直接的に伝えることができる。
人間が応答方法の調整によって影響を受けることを実証するために、次の2つの実験を実施した。ここでは、対話における発話速度に着目し、人と人が対話しているときに相手の発話速度の影響をどの程度受けるか(実験1)、人と機器が対話しているときに機器の発話速度の影響をどの程度受けるか(実験2)、という2つの実験を行った。
<実験1>
実験1では、人同士の対話状況を観察し、その発話速度を記録・解析することによって、被験者の発話速度が相手の発話速度によって変化するのかを観察した。実験には、大学生を中心に10人に被験者として参加してもらった。
まず、各被験者にニュース原稿の朗読などの単独発話をしてもらい、そのときの発話速度を、相手の影響を受けていないという意味で、その被験者の標準的な発話速度とした。なお、発話速度は、1秒間に発声される文字数(発話音声に含まれる文字数÷発話に要した時間)によって算出することとした。
図10は各被験者の標準的な発話速度を示す。図10から分かるように、実験に参加した被験者群では、発話速度は6.88文字/秒〜10.69文字/秒まで分布しており、発話が遅い人と早い人との差は1.5倍以上あり、かなりのばらつきが見られる。発話速度の平均は8.84文字/秒である。
次に、被験者同士の対話実験を行った。実験に用いる対話文として、英会話等の語学教材に使用されるような9つの文例を用意した。各文例では、先に発話をするAさん役とAさんに応答して発話を行うBさん役とが設定されており、AさんとBさんの発話が交互に数回ずつ含まれている。このような文例を用いることによって、発話内容のやりとりとともに、発話方法(この実験では発話速度)の情報についてもやりとりが生じるので、その影響を観察することができる。
実験では、被験者10人を2人ずつに分け、その2人の間でAさん役とBさん役を設定して対話文例を読み上げてもらい、その対話を録音した。次に、被験者の組み合わせを変えて、各被験者が、別の相手と別の対話文を読みようにした。1人の被験者から見ると、9人の相手と、内容が異なる9つの文例を読むように、順番を設定した。この結果、毎回5組の対話データが得られ、被験者の組み合わせを変えた9回の対話を行うことによって、合計45対話の記録を得ることができた。個人ごとに見れば、計90発話のデータを得ることができた。
そして、録音した対話データから、発話速度を算出した。このとき、対話中において発話速度はわずかながら変化しているので、対話中の発話速度の平均を求め、これを各対話における被験者の発話速度とみなした。したがって、この実験では、一回の対話中における発話速度の変化は考慮していない。
図11に示すように、発話速度の変化を、相手に対してどのように変化したか、という観点から4とおりに分類した。ここで、自分(Aさん)の普段の発話速度をVda、相手(Bさん)の普段の発話速度をVdb、対話文例nの時の自分の発話速度Vna、対話文例nの時の相手の発話速度をVnbとする。図11では、上下方向に発話速度の軸をとっており、その軸上に発話速度Vda、Vna、Vnbの位置を示している。
事例1(a):自分よりも発話速度の速い相手との対話(Vda<Vnb)において、自分の普段の発話速度よりも速く発話(Vda<Vna)した。
事例2(b):自分よりも発話速度の速い相手との対話(Vda<Vnb)において、自分の普段の発話速度よりも遅く発話(Vda>Vna)した。
事例3(c):自分よりも発話速度の遅い相手との対話(Vda>Vnb)において、自分の普段の発話速度よりも速く発話(Vda<Vna)した。
事例4(d):自分よりも発話速度の遅い相手との対話(Vda>Vnb)において、自分の普段の発話速度よりも遅く発話(Vda>Vna)した。
発話速度の軸における、自分の発話速度Vda,Vnaと相手の発話速度Vnbとの位置関係によって、相手に合わせたかどうか、どの程度合わせたかを求めることができる。発話速度は、引き込み現象が発生すると考えた場合、相手と同調する方向に変化するはずであり、上の4通りの事例のうち事例1と事例4が、相手に同調する方向に変化した場合である。また自分の発話速度の変化量は、(Vna−Vda)で求められる。
そこで、本願発明者は、次のような引き込み判別式を作成した。
Figure 2005076258
ここで、signはプラスやマイナスの符号のみを抽出する関数、absは絶対値を抽出する関数である。D>0のときは、発話速度が相手と同調したことを示し、D<0のときは、発話速度が相手と同調しなかったことを示す。また、Dの値の大小は、発話速度がどの程度同調したかを示す。
図12は実験1で得られた発話データについて上の判別式Dの値をプロットしたグラフである。図12において、横軸は被験者ID、縦軸は判別式Dの値で単位は(文字/秒)である。例えば、被験者3(横軸上)が被験者6と対話したとき、判別式D=2であった。すなわち、被験者3は被験者6に対して、2[文字/秒]分だけ同調した、と考えられる。
図12から分かるように、多くの発話において、発話速度が相手に合わせるように変化している。実験で取得された90発話のうち、57発話(63%)において、D>0となっている。また、この90発話で構成される45対話のうち、被験者がお互いに相手に合わせようとしている場合(お互いのDの値が正だった場合)は18対話(40%)、Aさん役はBに合わせようとしているがBさん役が合わせていない場合は10対話(22%)、その逆が11対話(24%)、お互いが合わせていない場合が6対話(13%)であった。よって、ほとんどの対話において、いずれかの被験者の発話速度が相手に合わせる方向に変化していたことが観察された。
なお、一部の発話において、相手に合わせるような変化が見られなかった原因としては、例えば、対話文例の中に「えーっと」など普通の読上げ速度と異なる速度で読む単語が含まれており、発話速度が的確に算出できなかったこと、被験者によっては相手の発話速度による影響を受けにくい人がいること、などが考えられる。
このように、実験1における人同士の対話実験によって、被験者は普段、様々な読上げ速度で文章を読んでいるにも関わらず、その発話速度が、対話相手の発話速度に合わせるように変化することが多いことが確認された。また、この現象は、対話文の内容によらずに見られることも分かった。さらに、被験者によって適応特性などが異なることも見受けられたことから、被験者ごとの適応特性なども考慮することによって、さらに適応が促進されると考えられる。
<実験2>
上述の実験1では、人同士の対話における発話速度の適応を観察したが、次に、人が自動応答システムと対話を行った場合に、その発話速度がどの程度変化するかを観察した。実験には、大学生を中心に6人に被験者として参加してもらった。
この実験で使用された自動応答システムは、ユーザの発話の終了を検出した後に、予め録音しておいた音声ファイルを再生することによって、被験者との対話を実現するものである。システムが再生する音声として、一人の女性が単独で対話文を朗読している際の音声を録音したものを用いた。この録音した音声から音声編集ソフトウェアを用いて、ピッチ値を保ったまま時間方向に対して80%・120%に伸縮した音声を作成した。これによって、発話時間を80%に変換したファイルが発話速度が最も高くなり、順に80%(速い発話、High)、100%(録音そのまま、Middle)、120%(遅い発話、Low)の三種類の発話速度の音声ファイルが用意された。
被験者には、自動応答システムと三種類の対話を行うというタスクが与えられた。対話文として、実験1で用いた9つの対話文のうちの対話2,5,9を用いた。これらの対話文は、実験1において被験者にとって発話速度の同調が見られやすかったものである。また、被験者には対話文におけるBさんの役割が、対話システムにはAさんの役割が与えられた。
図13は実験2における対話順序を示す表である。図13において、各欄の最初の数字は、対話文の番号、HMLの記号は発話速度を表している。Mが録音ファイルそのままの速度、Lは遅い発話、Hが速い発話を示す。例えば「2−H」は、対話文2のH(速い発話)と対話したことを表す。また図13に示すように、各被験者にとって、対話文の内容は毎回違うものにした。
図14は実験2で得られた発話データについて上の判別式Dの値をプロットしたグラフである。この図14から、ほとんどの対話において、被験者の発話速度がシステムに合わせていることが分かる。実験で取得された18対話のうち、16対話において、判別式D>0となっている。
以上の二つの実験から、人間は、相手が実際の人間であっても、自動応答システムから流される音声であっても、その対話の内容によらず相手の発話速度に合わせるように、自分の発話速度が影響される、と考えることができる。また、この発話速度の変化は、特に意識されなくても起きていると考えられる。
(第2の実施形態)
本発明の第2の実施形態では、ユーザとの協調動作を行うロボットを例にとって説明を行う。家庭等において利用されるロボットは、情報端末やソフトウェアエージェントと異なり、ユーザとのインタフェースとしては、言語や情報のやり取りの他に、物理的な物体のやりとりや共同作業も行う。この場合、機器(ロボット)からユーザに提供するものとしては、情報以外にも、物の操作、ジェスチャ、作業などが考えられ、これらを本実施形態では「動作」と呼ぶ。この「動作」についても、動作自体が提供する機能の他に、動作をどのように提供するかという「方法」の側面があり、この「方法」によっても、ユーザが受け取る印象は大きく変化する。本実施形態では、「動作」を提供する「方法」を調整することによって、ユーザの適応を促す例について説明する。
また、第1の実施形態では、機器内部における音声認識の状態に応じて、発話速度を調整した。これに対して本実施形態では、動作「方法」を調整する際に、外部に出力した「動作」とユーザの動作とのずれ、または協調度合を参照する点が、第1の実施形態と大きく異なっている。
次に、動作を提供する方法について追加説明する。通常の使用の場合は、協調動作がスムーズに行われるためには、ロボットも、ユーザの動作速度と同じような速度で動作することが必要になる。しかしながら、ユーザがかなり速い動作をしていて、これと同速度の動作が機構等の制約からロボットの能力を超えている場合や、例えば熱いお茶や刃物を渡すときなど、ユーザと同等速度で動作すると安全が確保できない場合は、ロボットは、ユーザと同等速度に動作するのではなく、ロボットが要求する理想的な動作速度になるように、ユーザの適応を促進させる必要がある。これによって、ユーザは、ロボットの動作速度に対して、常に不満を持つことなく、協調的な行動をとることができる。
また、動作速度を調整することによって、スムーズな協調動作を実現できるだけでなく、ユーザに対して様々な印象を副次的に与えることができる。例えば、速い動作は、「きびきび動いていて頼もしい」というような印象を与え、逆に、ゆっくりとした動作は「落ち着いている」というような印象を与えることができる。
また、ロボットの動作速度はユーザの行動速度に影響を与える。すなわち、人間同士なら互いに引き込まれる性質の動作であれば、ロボットとユーザの間でも引き込みが起こりうる。例えば、物を渡すというタスクは、ロボットがゆったりとした動きで物を渡せば、このロボットのゆったりとした動きに影響されて、ユーザの方もゆっくりとした動作で物を受け取ると考えられる。
以下、図6および図7を用いて、第2の実施形態について説明する。
図6は本実施形態に係るユーザ適応型装置としてのロボットにおけるインタフェース部30の構成を示すブロック図である。ここでは、自律的に移動する能力とアームによる物体操作能力とを持ち、自ら移動して物を動かすことができるロボットを想定している。図6において、状態入力部31および動作入力部33が入力部に相当し、動作ずれ認識部35および動作速度決定部36が応答方法調整部に相当している。また、状態認識部32、動作内容決定部34および動作出力部37が、入力処理部、応答内容決定部および出力部に、それぞれ対応している。
状態入力部31はロボットに向き合っているユーザ11の状態を取得する。ユーザ11の状態とは、ロボットへのジェスチャによる指示や、表情や、行動などを指す。状態入力部31は例えば、ユーザ11を撮影するためのカメラや、発話を入力するためのマイクなどによって構成されており、また、ユーザ11の生理的状態を測定するセンサ(3次元位置センサ、発汗センサ、脳波計など)との通信が可能になっているのが好ましい。
状態認識部32は状態入力部31によって取得された信号を処理して、ユーザ11の状態を認識して出力する。その出力内容は、ユーザ11のロボットに対する要求内容や、疲れている、楽しいなどといったユーザ11の生理的状態などである。動作内容決定部34は状態認識部32の出力を受けて、どんな機能や動作をユーザ11に対して実際に出力するかを決定する。
動作入力部33は、ロボットとユーザ11との協調動作が良好に行われているか否かを判定するために設けられており、ユーザ11の動作を映すカメラや、ロボットハンドに装着された圧力センサ等によって構成されている。なお、動作入力部33を構成するカメラなどの要素は、状態入力部31と共用されてもかまわない。
動作ずれ認識部35は、動作入力部33の出力を受けて、ユーザ11とロボットの動きのずれを認識する。このずれは、ユーザ11とロボットとの間の動作の協調度合を示す指標として用いられる。
例えば、ユーザが「雑誌を取って」とロボットに頼み、ロボットが指定された雑誌を取ってきてユーザに渡す動作を考える。この場合、ロボットが雑誌を持った手を差し出す動作と、ユーザが雑誌を受け取るために手を差し出す動作とで、そのスピードとタイミングが一致しているとき、スムーズな雑誌の受け渡しが実現できる。もし、互いの動作のスピードが一致していないときは、ユーザは雑誌を受け取るという単純な動作でも、ストレスや不満を感じることが予想される。具体的には、もしロボットの手の動作がユーザの動作よりもかなり速いときは、ユーザは危険を感じて手を出すどころか思わず手を引っ込めてしまうだろうし、逆にロボットの動作がかなり遅いときは、ユーザは出した手を、雑誌が手元に来るまで止めたままで待たなければならない。
同様に、例えば、ユーザが「これ片付けておいて」とコップをロボットに渡す場合も、互いの動作のスピードやタイミングがずれていると、スムーズな受け渡しができない。
このようなユーザの不満につながる動作のずれを認識するのが、動作ずれ認識部35である。具体的には、カメラ画像からユーザとロボット自身の動作速度を測定したり、ロボットが物を渡す動作を完了してからユーザが物を受け取るまでの時間を測定したりすることによって、互いの動作のずれは認識できる。ユーザが物を受け取ったことは、ロボットハンドに装着された圧力センサ等で検出可能である。
動作速度決定部36は、動作ずれ認識部35によって認識されたユーザとロボットとの動作のずれと、状態認識部32から認識されたユーザの状態を用いながら、ロボットにとってどのようなスピードが理想的であるか、どんな印象を与えたいか、安全の観点からはどのようなスピードが理想的であるか、などを勘案して、目標の協調動作速度を決定する。動作出力部37は、動作内容決定部34によって決定された動作や機能を、動作速度決定部36によって決定された動作速度によって、ユーザ37に対して出力する。
図7は図6の構成の動作を示すフローチャートである。図7のフローを上述の第1の実施形態における図5のフローと比較すると、ユーザとのインタフェースが、動作によるものか、音声(会話)によるものかという相違はあるが、基本的な流れはほぼ同様である。ただし、図7では、ユーザとロボットの協調動作における動作のずれを認識するステップS23を含む点が、図5と異なる。すなわち本実施形態では、ロボットとの動作の協調度合を判定すべく、ロボットにとっての理想的な動作速度と現在のユーザの動作速度とのずれを認識するステップS23を有し、その動作のずれに応じて、ロボットの動作速度を調整するようにしている。
以上のように本実施形態によると、ユーザとロボットが協調動作を行う際に、互いの動作のずれからロボットの動作速度を調整することによって、よりスムーズな協調動作を実現ですることができる。
(第3の実施形態)
本発明の第3の実施形態では、ユーザに情報を推薦する情報端末を例にとって説明を行う。本実施形態では、情報端末の画面にエージェントを表示して、このエージェントがユーザの好みに応じた情報を音声によって提示するものとする。
また、第1の実施形態では、音声認識の状態に応じて発話速度等の出力方法を調整し、第2の実施形態では、ユーザとロボットの協調作業における動作のずれに応じて動作速度等の出力方法を調整した。これに対して本実施形態では、情報端末側でユーザの嗜好モデルを学習するものとし、その学習度合に応じて、エージェントの形態(見た目)や語彙等の情報の提供方法を調整するものとする。すなわち、外部から得たユーザに関する知識の量を、提供方法の調整に反映させる点が、第1および第2の実施形態とは異なっている。
まず、本実施形態が実現されたときのイメージを、図8を用いて説明する。
図8は情報端末からユーザに対してエージェントによってレストラン情報を提供する場合を概念的に示す図である。図8において、13は本実施形態に係るインタフェース機能を有する情報端末、14は表示画面、15A,15Bはエージェントである。同図中、(a)はユーザの嗜好モデルがあまり学習されていないときの状態、(b)はユーザの嗜好モデルが学習された後の状態である。
情報端末13では、ユーザとのやり取りの中から、ユーザの嗜好モデルを学習する。学習の初期段階では、嗜好モデルはまだ十分には学習されていないため、ユーザがどのような推薦情報を好むか明確には分からない。このため、ユーザが情報推薦機能に対して過大な期待を持っていると、推薦されたものが気に入らないとき、落胆する度合が大きくなる。
図8(a)の例では、幼児のような外見のエージェント15Aを画面14に出し、発話の語彙も「おいしいでちゅよ」と幼児語にしている。すなわち、あたかも幼児が推薦するかのように情報提供方法を調整することによって、ユーザが仮に推薦情報を気に入らない場合でも、情報端末13に対する印象をさほど悪くならないようにしている。これにより、ユーザが怒ったり不愉快になったりすることが少なくなると考えられる。
逆に、図8(b)に示すように、ユーザとのやり取りによってその嗜好モデルが学習された後は、情報端末13は、ユーザの嗜好に合った情報をいわば自信を持って推薦することができる。この場合は、かしこまった服装の大人の外見のエージェント15Bを画面14に出し、発話の語彙も「○○様にふさわしいレストランです」という秘書や執事のような言葉遣いにする。このときに幼児のような表現では、推薦内容に対する信頼を損なう可能性もある。
このように、ユーザの嗜好モデルの学習度合に応じて、エージェントの外見や語彙といった情報提供方法を調整することによって、ユーザの印象の変化を促すことができる。これにより、推薦情報が適切でない可能性があるときは、ユーザの不満を和らげるような方法によって情報提供を行い、情報提供サービスの信頼を失わないようにするとともに、推薦情報が適切であるときは、ユーザの受容度を高めることができる。
図9は本実施形態に係るユーザ適応型装置としての情報端末におけるインタフェース部40の構成を示すブロック図である。図9において、処理状態検出部43および応答方法決定部46によって、応答方法調整部が構成されている。また、入力部41、入力処理部42、情報内容決定部45および出力部47が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。
図9において、入力部41はキーボードやタッチパネル、マイク等を通してユーザからの働きかけを受け付ける。入力部41はユーザ11の発話や指示を電気信号に変換する。また入力部41は、後述の出力部47から出力された情報に対するユーザの反応も取得する。入力処理部42は、入力部41からの信号を受けて、ユーザ11の要求内容を判定する。またユーザ11が喜んでいるか、うれしく思っているかなど、出力部47から出力された情報に対するユーザ11の反応に関する情報も取得する。
処理状態検出部43は、入力処理部42の出力を受けて、記憶部44に格納されているユーザ11の嗜好モデルを更新する。例えば、ユーザからの要求内容と、ユーザに提供した情報内容と、そのときのユーザの反応とを、併せて記憶する。単純に、過去の履歴を記憶するようにしてもよいし、カテゴリー化して記憶してもよい。すなわち、記憶部44に蓄えられた嗜好モデルは、ユーザ11とのやりとりを重ねることによって、徐々に精度の高いものに変化していく。
情報内容決定部45は、入力処理部42によって判定されたユーザ11の要求内容と、記憶部44に格納された嗜好モデルとから、今回のユーザ11の要求に対する出力内容を決定する。
応答方法決定部46は記憶部44に格納された嗜好モデルの学習度合に応じて、語彙やエージェントの外見といった情報の提供方法を調整する。すなわち、嗜好モデルが、ユーザの好みをどの程度正確に反映しているかによって、情報の提供方法を調整する。そして、出力部47は、情報内容決定部45によって決定された情報内容を、応答方法決定部46によって決定された提供方法によって、出力する。
ここでは、情報の提供方法の調整によって、ユーザ11に対して自分がどの程度ユーザ11の好みを把握しているかを間接的に示すものとする。すなわち、ユーザ11の好みがまだ正確には把握できておらず、推薦する情報が必ずしも適切ではない可能性が高いときは、それを提供方法の調整によって伝える。例えば、「〜などはいかがでしょうか」というような言い回しを用いる。反対に、ユーザ11の好みがきちんと学習できているときは、それも提供方法の調整によって伝える。例えば、「〜がぴったりだよ」などといった語彙を用いる。
人間同士のコミュニケーションにおいても、初対面でお互いによく知らない者同士の対話の語彙と、旧知の仲の者同士の語彙とではかなり違っている。また、語彙の用い方によって、「親しみやすい」「よそよそしい」などという印象も相手に与えてしまう。
従来の手法でも、ユーザに親しみを感じてもらうために、親しげな話し方を導入したものもある。ところが、本実施形態で示したようなユーザの嗜好を学習する情報端末では、学習初期には、ユーザの期待通りの情報を提供することが困難なために、親しげな話し方がユーザの不興を買い、かえって逆効果になってしまうおそれがある。また、学習が進んだにもかかわらず、いつまでも丁寧に応答していると、ユーザが親しみを感じないことも予想される。
そこでここでは、ユーザの嗜好が十分に学習できていない初期の段階では、初対面の人間同士が用いるような語彙で情報推薦を行う。これにより、仮に推薦情報が適切でなくても、お互いのことをよく知らないために起きたことであり、しょうがないと理解してもらえる。また、ユーザの嗜好が十分に学習できた後は、親しげに情報推薦することによって、装置に対して親しみを感じてもらうことができる。
また、語彙以外でも、例えば、CGで作成して画面に表示したエージェントの外見を、学習初期では、フォーマルな格好をして登場させ、学習が進むにつれてカジュアルな格好に変化させるようにしてもよい。この場合も、ユーザが受ける印象が変化して、スムーズなコミュニケーションが実現できると考えられる。
このように本実施形態によると、ユーザに提供できる情報推薦のレベルや、ユーザに関する知識の量に応じて、情報の提供方法を調整することによって、仮に推薦情報があまり適していないときでも、ユーザは自然に受け入れることができる。これにより、ユーザは情報端末側の学習過程を特に意識することなく、機器と自然に相互動作を繰り返すうちに、ユーザの好みが次第に学習される。
なお、本実施形態では、情報推薦を例にとって説明を行ったが、それ以外でも例えば、ユーザが情報端末から対話によって情報を取得する場合でも、応用可能である。
また、各実施形態で示したインタフェース部における機能や処理は、ハードウェア若しくはソフトウェア、またはこれらの組合せによって実現することができる。
なお、上述の実施形態では、個別の事例として説明したが、家庭用ロボットなどの高度な機能を持つ機器は、音声対話能力、協調作業能力、情報推薦能力その他を併せて持つことができ、同時並行的に、または統合的に、ユーザへの応答方法を調整することができる。複数の応答方法を同時に調整することによって、ユーザはより自然なコミュニケーションを取ることができるようになる。
本発明では、機器とユーザとのコミュニケーションがより円滑になるので、ユーザインタフェースを有する機器全般、特に、ユーザ側の適応を促すのが効果的と考えられる家庭用ロボット、情報端末、家電機器などに有用である。
本発明は、ユーザからの入力を受けて情報やサービスを提供するインタフェースを備えた装置に関するものであり、具体的には、ユーザとの相互作用によって動作する家庭用ロボット、情報端末、家電機器などに関する。
ユーザに利用されることを前提とした機器とユーザとの間には、インタフェースが必要である。インタフェースの1つとして、ユーザと機器との相互作用の履歴から、提供する情報やサービスを調整する適応型のインタフェースがある。この適応型インタフェースによって、各ユーザの違いや個性に応じて機器が適応することができ、各ユーザにとって使いやすい操作インタフェースが実現される。
従来の適応型インタフェースとしては、例えば、ユーザの操作系列を観察して操作を代行するものや、ユーザに擬似感情を提示して人間と親しみやすいインタフェースを構成するもの、生体情報に応じてインタフェースを適応させるもの、などがあった。また広い意味では、情報推薦などの機能も、各ユーザに適した情報を提示するという意味で適応型インタフェースであるといえる。
このような適応型インタフェースは、(1)ユーザの特定の状態や入力を受け、(2)ユーザの状態を判定し、(3)サービスやインタフェースを調整する、ことによって、ユーザにとって使いやすいインタフェースの提供を目指してきた。
この適応型インタフェースの改善に関する従来技術の例が、特許文献1,2に示されている。
例えば特許文献1では、機械翻訳システムを例にとって、ユーザ適応の状況を調整する方法が提案されている。機械翻訳では、入力される文書のジャンル(新聞記事、マニュアルなど)によって、翻訳に必要な翻訳例の辞書や語彙等が変化するので、そのジャンルなどを適応的に切り替える。ところがこのジャンルの切換は必ずしもうまくいかないので、ジャンル切換の候補をユーザに見てもらい、ジャンル指定の精度を挙げようとするものである。これは適応型インタフェースにおいて、適応がスムーズに行かない可能性への対処を狙ったものである。
また特許文献2では、WEBブラウザのGUIインタフェースを例にとって、インタフェースの配置等を擬似感情というモデルを基にして決定している。すなわち、インタフェースの要素を擬似的な感情を生起させるものとして扱い、その感情の表出をインタフェースの配置として表す。人間の擬似感情変化の特性を利用しているために、人間の感覚にあったユーザインタフェースの適応ができるとされている。
また、人間と機械とのインタフェースに関する注目すべき知見が、非特許文献1〜3に示されている。
非特許文献1では、ユーザがネットワークを通して人間またはコンピュータとゲーム(シリトリ)をする場合、対戦者が人間であると教示したときと、コンピュータであると教示したときとにおいて、同じコンピュータプログラムを相手にした場合でも、ユーザの興味の持続時間や反応が異なっていたことが報告されている。
また、非特許文献2によると、ユーザが伝言を依頼するというタスクについて、ロボットに対するとき、コンピュータの画面に対するとき、そして人間に対するときの3種類の場合では、タスク終了後のインタビューで発話のしやすさが変化したという結果が得られている。
さらに、非特許文献3では、人間同士のコミュニケーションにおいて、言葉によるバーバル情報だけでなく、音声の周辺言語やうなずき、まばたき、表情、身振り・手振りなどのノンバーバル情報が、話し手と聞き手とを相互に引き込むいわゆる引き込み現象を起こしており、これによってコミュニケーションが円滑になっていることが示されている。また、情動変動と密接に関連した心拍間隔変動や呼吸の引き込みなどの生理的側面での引込も、重要な役割を果たしているとの指摘がある。
特開平9−81350号公報 特開2000−330676号公報(特に、段落0062) 特開2003−150194号公報(特に、段落0009−0011,0072) 山本吉伸、松井孝雄、開一夫、梅田聡、安西祐一郎、「計算システムとのインタラクション−楽しさを促進する要因に関する一考察−」、日本認知科学会「認知科学」、第1巻、第1号、pp.107−120、共立出版、1994年5月 原田悦子、「音声インタフェイスにおけるエイジェント性と社会的文脈の効果:伝言実験による検討」、日本認知科学会第19回大会、pp.14-15、2002年6月 渡辺富夫、「身体的コミュニケーションにおける引き込みと身体性−心が通う身体的 コミュニケーションシステムE-COSMICの開発を通して−」、ベビーサイエンス、Vol.2、 pp.4-12、2002年
適応型インタフェースは、ユーザに適応することによって、より使いやすいインタフェースを実現しようとするものであり、ユーザにより良く適応するための工夫も数多くなされてきた。しかしながら、実世界のアプリケーションにおいては、機器の側が必ずしも常に、ユーザに適応できるわけではなかった。
しかしながら、従来の構成では、機器が想定した範囲内でユーザに適応できる工夫はなされているものの、ユーザが想定範囲外の行動をした場合の対応については、あまり検討されていない。また、どのように適応すればよいかは分かるが、機器の能力として実現不可能な場合もあり、このような場合の対応についても、十分な検討はされていない。提案されている技術としては、エラーメッセージに類する情報を提示する程度のものにとどまっていた。
しかしながら、ユーザに「知りません」「わかりません」「もう一度お願いします」などのメッセージを繰り返し提示するだけでは、ユーザは、装置に反応を期待して働きかけていた分、期待を裏切られた気分になり、落胆してしまう。この状態が繰り返されると、ユーザは装置に対して働きかけても無駄と感じ、やがて装置自体を使わなくなってしまう。
前記の問題に鑑み、本発明は、ユーザとのインタフェースを備えた機器として、ただ単にユーザに応答するだけでなく、ユーザに常に適応できるわけではないことを考慮して、ユーザ自身にさほど意識させることなくその行動や印象の変化を促し、ユーザと機器との円滑なインタラクションを実現することを課題とする。
本発明では、次の点に着目している。すなわち、機器からユーザへの働きかけにおいては、提供する情報やサービスの内容そのものと、その提供方法(ユーザへの応答方法)とは、分けて考えることができる。そして、ユーザへの応答方法を調整することによって、ユーザの行動や、ユーザが機器から受ける印象が、変わり得る、と考えられる。このような観点を、本発明では積極的に活用する。
以下、順を追ってこれらの概念について説明する。
装置がユーザに対して情報を提示する場合に、情報の内容が同じであっても、応答方法が異なると、ユーザに与える印象やユーザの反応が変わってくることがある。
例えば音声対話において、機器がユーザに謝る場合を考えると、「すみません」という発話が情報の内容に相当し、発話速度、イントネーション、画面に表示したエージェントの頭を下げる等の動作などがユーザへの応答方法に相当する。この場合、同じ「すみません」という発話でも、その発話速度、イントネーション、エージェントの体の動き等の情報提示方法によっては、実は謝っていないように感じさせたり、ユーザをさらに不機嫌にさせることもできる。
また、カーナビや情報端末におけるレストラン検索において、「何が食べたいですか」という発話をユーザにする場合でも、発話速度やイントネーションの変化によって、ユーザに様々な印象を与えることができる。例えば早口で尋ねることによって、「早く答えて欲しい」というような言外の意味が付与されたり、イントネーションの付け方次第では、「別に聞きたくないが聞いている」というような印象を与えることもあり得る。
また別の例として、家庭用ロボットがユーザにコップを渡すという場合を考えてみる。「コップを取ってほしい」という要求に対するロボットの応答動作において、ユーザにコップを渡すときの手の動かし方や動作速度は、何通りもある。ユーザにコップを渡すというサービス機能自体は実現できても、その動作の仕方や速度などの応答方法によっては、「いやいや動いている」「恐怖感を感じる」「無愛想に見える」などの印象を持たれてしまう。
このように、同じ情報やサービスを提供する場合であっても、その応答方法の調整次第では、ユーザに与える印象がガラリと変わることがある、と考えられる。
また、上述の非特許文献1は、人間は、機器を相手にしているときでも、自分の思い込みによって、楽しく時間を過ごしたり、つまらなく時間を過ごしたりする可能性があることを示唆している。また非特許文献2も、ユーザが対面する機器の種類によって、ユーザの反応が変化しうることを示している。これらの事例から、(1)ユーザは機器に対する印象や思い込みによって、機器に対する反応形態を変化させること、(2)ユーザは対面する機器の形態などによって使いやすさが変化することがわかる。
この知見を、インタフェース設計の観点から考え直すと、同じ情報やサービスを提供する場合であっても、ユーザへの応答方法というインタフェースの部分を調整することによって、ユーザの印象や反応は制御できると考えられる。これが、本発明の要点である。ユーザへの応答方法の調整は、いわば副次的な情報伝達手段といえる。
次に、ユーザへの応答方法を何に基づいて調整するか、という点について考察する。
応答方法の調整の指標として用いる情報としては、何種類か考えられる。例えば、機器の内部処理がどれぐらいできているか、すなわち入力信号の処理状態を指標とすることが考えられる。
例えば、機器の処理がユーザに追いついていないとき、情報内容をユーザに提供するとともに、その提供方法を調整して、「もっとゆっくりと話して欲しい」「あなたが対面している機器はそんなに早く対応できる機器ではない」という言外のメッセージをユーザに伝えることができる。これにより、ユーザは、機器の処理が追いついていないことを意識的、無意識的を問わずに理解し、自然に機器への対応を変更することが予想される。例えば、情報提供方法として発話速度を調整するものとすると、機器の内部処理がユーザからの発話等についていけないとき、機器が自らの発話速度を下げる(ゆっくり話す)方向に調整すると、ユーザは、機器がついてきていないことを感じて、発話のテンポを落としたりすると考えられる。これは、上述の非特許文献3に示された人間同士のコミュニケーションにおける引込現象を、ユーザと機器との間でも成り立たせることを意図している。
なお、特許文献3では、ユーザの発話が早口すぎて誤認識された場合に、システム側からの発話をユーザの発話速度に比べてゆっくりした発話速度で行うことにより、もっとゆっくりした認識し易い発話速度で発話するように自然に誘導する旨が、開示されている。
また、入力信号から検出した、ユーザの状態や機嫌などの情報を基にして、ユーザへの応答方法を調整してもよいし、ユーザと機器のインタラクションの成立度合いに応じて調整してもよい。また、ユーザに関する知識を学習する機器であれば、その学習度合に応じて、応答方法を調整してもよい。
さらに、本願発明者らは、後述する実験等から、機器側から誘導を行ったとしても、ユーザは必ずしも機器の誘導に引き込まれない、という新たな知見を得た。そして、この新たな知見から、ユーザに対する自然誘導と、強制誘導とを、組み合わせて用いる構成が好ましい、と考えた。自然誘導と強制誘導とを組み合わせることによって、自然誘導できるユーザに対しては、ユーザに意識させないように誘導することができ、一方、自然誘導できないユーザに対しては、強制誘導により確実に誘導することができる。つまり、不快感を与えるような機会を最小限に抑えつつ、かつ、確実に、ユーザを誘導することができる。
すなわち、本発明は、ユーザとのやりとりを行うユーザ適応型装置において、ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を取得し、取得された入力信号を処理してユーザに関する情報を検出し、この検出結果を基にしてユーザへの応答内容を決定し、かつ、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、ユーザへの応答方法を調整し、決定された応答内容を、調整された応答方法によって出力するものである。そして、出力に対するユーザの反応を検出し、このユーザの反応に、調整した応答方法によって期待された変化がみられないとき、ユーザに変化を促すための応答内容を決定するものである。
本発明によると、入力信号を処理して検出されたユーザに関する情報から、ユーザへの応答内容が決定されるとともに、ユーザへの応答方法が、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、調整される。これにより、ユーザの行動や印象の変化を促すように、応答方法を調整することができるので、ユーザに対する自然誘導が実現でき、ユーザと装置との間で円滑なインタラクションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、ユーザに変化を促すための応答内容が決定されるので、強制的に、ユーザを誘導することができる。
従来の適応型インタフェースは、ユーザの状況を観察して、そのユーザに合わせることによって利便性の向上を図っていたが、本発明では、必ずしも常にユーザに適応できるわけではないことを考慮して、応答方法の調整によって、ユーザの機器に対する働きかけ方や印象の変化を促進するようにしている。これにより、従来ではユーザが不満に思うような状況であっても、ユーザの印象変化を促すことによってユーザの不満をやわらげることができ、円滑なインタフェースとしての役割を果たすことができる。
次に、ユーザの行動変化や印象変容を促進するために調整する、ユーザへの応答方法の例を示す。
機器が音声対話において発話を行うとき、発話速度、用いる語彙、イントネーションをユーザへの応答方法として調整する。
ロボット等の機器が「つかむ」「持ち上げる」「渡す」といったアクチュエータの動作を行うとき、アクチュエータの動作速度をユーザへの応答方法として調整する。
機器が有益な情報を推薦するとき、画面に表示したエージェントの形態、例えば顔の表情や服装をユーザへの応答法として調整する。
本発明によると、機器側からユーザへの応答方法を調整することによって、ユーザの機器に対する印象や行動の変化を促すことができるので、ユーザと機器とのより円滑なコミュニケーションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、強制的にユーザを誘導することができる。
本発明の第1態様では、ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置として、前記インタフェース部は、ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を、取得する入力部と、前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する応答内容決定部と、前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によって調整された応答方法によって、出力する出力部とを備え、前記入力処理部は、前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定するよう、指示するものを提供する。
本発明の第2態様では、当該ユーザ適応型装置はユーザと音声対話を行うものであり、前記入力部は前記ユーザの発話を音声信号として取得し、前記入力処理部は前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、前記応答内容決定部は前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定し、前記応答方法調整部は前記音声認識処理における認識状態を基にして発話方法を調整する第1態様のユーザ適応型装置を提供する。
本発明の第3態様では、前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーションのうち少なくともいずれか1つを調整する第2態様のユーザ適応型装置を提供する。
本発明の第4態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する第2態様のユーザ適応型装置を提供する。
本発明の第5態様では、前記応答方法調整部は、前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を前記目標値に近づくように変更する第4態様のユーザ適応型装置を提供する。
本発明の第6態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、ユーザの発話速度の目標値を、ユーザに応じて決定する第2態様のユーザ適応型装置を提供する。
本発明の第7態様では、当該ユーザ適応型装置はユーザに対して動作を提供するものであり、前記入力部は前記ユーザの状態および動作を示す信号を入力するものであり、前記入力処理部は前記入力部に入力された信号を処理して前記ユーザの要求を認識するものであり、前記応答内容決定部は前記入力処理部によって認識された前記ユーザの要求に応じて前記ユーザに提供する動作内容を決定し、前記応答方法調整部は前記入力部に入力された信号から前記ユーザと当該ユーザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて動作の提供方法を調整する第1態様のユーザ適応型装置を提供する。
本発明の第8態様では、前記応答方法調整部は、動作の提供方法として動作速度を調整する第7態様のユーザ適応型装置を提供する。
本発明の第9態様では、当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、前記入力部は、ユーザからの要求を示す信号を取得し、前記入力処理部は、前記入力部によって取得された信号からユーザからの要求を判断し、前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を基にして前記嗜好モデルを参照して前記ユーザに提供する情報内容を決定し、前記応答方法調整部は、前記嗜好モデルの学習度合を基にして情報の提供方法を調整する第1態様のユーザ適応型装置を提供する。
本発明の第10態様では、前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示するエージェントの形態のうち少なくともいずれか1つを調整する第9態様のユーザ適応型装置を提供する。
本発明の第11態様では、ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法として、前記ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を取得する第1のステップと、前記第1のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検出する第2のステップと、前記第2のステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第3のステップと、前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、前記ユーザへの応答方法を調整する第4のステップと、前記第3のステップにおいて決定した応答内容を、前記第4のステップにおいて調整した応答方法によって出力する第5のステップと、前記第5のステップにおける出力に対する前記ユーザの反応を検出する第6のステップと、前記第6のステップにおいて検出した前記ユーザの反応に、前記第4のステップにおいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第7のステップとを備えたものを提供する。
まず、本発明の主たる概念を、図1の構成図を用いて説明する。図1は本発明に係るユーザ適応型装置におけるインタフェース部10の構成の概要を示す図である。図1に示すようなインタフェース部10は、ロボットや情報端末などユーザ7に対して機能や情報を提供するユーザ適応型装置の一部として組み込まれる。そして、装置の他の構成部分に対してユーザ7に関する情報を提供し、また、他の構成部分からの出力を受けて、ユーザ7に応答する。
入力部1はユーザ7からの働きかけを入力する。ユーザ7からの働きかけとしては、発話、仕草、表情、スイッチやキーボード、マウスの操作、ユーザの生理的状態などが考えられる。入力部1は、これらの情報を機器に取り込むためのセンサが搭載されているか、または当該センサと通信可能になっており、ユーザの情報を、機器内部で処理可能な電気信号として取得する。すなわち、入力部1は、ユーザ7の動作、状態および要求のうち少なくとも1つを示す入力信号を取得する。
入力処理部2は、入力部1によって取得された入力信号を処理して、ユーザ7の状態や意図や要求といったレベルの表現に変換する。すなわち、ユーザ7の情報を検出する。
応答内容決定部3は、入力処理部2によって取得されたユーザの状態や意図や要求から、機器の反応を決定して出力部6に出力する。すなわち、入力処理部2による検出結果を基にして、ユーザ7への応答内容を決定する。
入力部1から、入力処理部2、応答内容決定部3および出力部6までの一連の処理の流れは、従来のインタフェースと同様のものである。これに対して本発明では、ユーザ7への応答方法を調整する応答方法調整部4が、設けられている。
応答方法調整部4は、ユーザ7への応答方法を調整する。すでに述べたように、ユーザ7に提供する情報やサービスの内容そのものと、その提供方法とは分けて考えることができ、比較的独立に制御可能である。本発明では、応答方法を変化させて、ユーザ側の適応を促すのが特徴の1つである。このときのユーザの適応は、意図的なものではなく、自然な反応の結果としてなされるものであり、その自然な反応を促すように応答方法を調整する。これにより、ユーザ7は、装置に対して不満を感じることがなくなり、円滑なコミュニケーションを装置と行うことができる。
ここで、応答方法の調整は、ユーザと装置との情報やサービスのやり取りが、どの程度円滑に行われているかに応じて、行うものとする。あるいは、ユーザの要求と機器の可能な動作とが一致している度合に応じて、応答方法を調整するものとする。
具体的には例えば、入力処理部2における処理状態に応じて行えばよい。例えば、ユーザと音声対話を行う装置の場合には、音声認識処理の処理状態に応じて、発話速度などの応答方法を調整する。音声認識処理の処理状態から、音声認識が順調に行われているか、ユーザとの音声対話が成立しているかどうかを検知することができる。
また、入力信号から検出されたユーザ7に関する情報に応じて、応答方法を調整してもよい。例えば、音声対話の場合には、出力した合成音声に対するユーザの反応(例えば、言葉が通じていないような兆候が見られるか)に応じて調整すればよいし、ロボットとの協調作業の例では、ロボットとユーザとの間の動作の協調度合(動作がずれなく行われているか)に応じて調整すればよい。
さらに、装置が、ユーザの好みなどユーザに関する知識を学習する機能を有する場合には、その学習度合に応じて、応答方法を調整してもよい。もちろん、これ以外の情報を基にして応答方法を調整してもよいし、複数の情報を組み合わせて判断してもよい。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第1の実施形態)
本発明の第1の実施形態では、音声対話機能を搭載した機器を例にとって説明を行う。本実施形態で想定しているのは、ユーザから音声によって働きかけることができ、機器の方からもユーザに対して合成音声によって働きかけることができる、いわゆる音声対話が可能な情報端末や家庭用ロボットなどの機器である。これらの機器では、人間同士のコミュニケーションと同様に、ユーザと機器との間でコミュニケーションをとりながら、ユーザに対して所望の情報やサービスを提供する。
一般に、ユーザが音声によって機器に話しかけるとき、なんらかの機器動作に対して期待を持つ。そして、機器が期待通りに動作している場合は、ユーザは機器を自然と利用できるが、一方、期待と異なる動作が多い場合は、ユーザは機器に対して不信感を持ってしまうと考えられる。現在、人型ロボットとユーザとの間では、音声によるコミュニケーションが必ずしも円滑に実現されていないが、その理由の1つとして、人型ロボットが、その外見や口調からユーザに期待されるほどには会話ができないことが挙げられる。これは、ネコ型や犬型のロボットでは、語彙や発話方法が限定されているにもかかわらず、ユーザとのコミュニケーションが成り立っているように見える現象とは対照的である。
まず、本実施形態が実現されたときのイメージを、図2および図3を用いて説明する。
図2はユーザが家庭用ロボットに荷物をとってきてもらう場合を概念的に示す図である。図2において、11はユーザ、12は本実施形態に係るインタフェース機能を有する家庭用ロボット、BX1,BX2,BX3は箱である。ユーザ11はロボット12に対して、音声によって要求を伝える。ここでは、ユーザ11は「白い箱BX1をとってくる」ことをロボット12に対して要求するものとする。ロボット12は音声によってユーザ11に応えるとともに、ユーザ11の要求に従った動作を行う。またロボット12は、ユーザ11の発話の認識度に応じて、自己の発話速度を調整する。
図3(a)は図2の状況における対話の例であり、Aはユーザ11の発話、Bはロボット12の発話である。図3(a)では、各発話内容について発話速度を示しており、またユーザ11の発話Aについては、ロボット12の認識処理の良さを表す認識度を示している。図3(b)は発話速度と認識度との関係を示すグラフである。ここでは、説明の簡易化のために、発話速度と認識度には便宜的な数字を与えている。
まず、ユーザ11が「箱を持ってきて」とロボット12に要求する。このときの発話速度は100であり、認識度は60であったとする。一般に音声認識処理では、認識性能が最も発揮できる適切な発話速度があり、図3(b)の関係によると、認識性能が最も良いのは発話速度が90付近である。ここで、発話速度の目標値を90と設定する。現在のユーザ12の発話速度はこの目標値よりも高いため、ロボット12は、ユーザ12の発話速度を下げるような方策を採る。ここでは、ユーザ11の適応を促すべく、ロボット12自らの発話速度を、目標値の90よりも低く、80に下げる。
また、ロボット12は、どの箱BX1,BX2,BX3を持っていけばよいのか特定できないので、どの箱を持ってきて欲しいかを確認するための発話内容を作成する。この結果、ロボット12はユーザ11に対して、「どの箱ですか?」と発話速度を80にして問いかける。
ロボット12の問いかけに対して、ユーザ11は「白い箱です」と答える。このときユーザ11は、ロボット12の発話速度に影響されて、自分では特に意識することなく、発話速度を低下させる。この結果、発話速度が90に変化し、認識度は80に大きく改善される。すなわち、ロボット12からユーザ11に対して、発話内容が伝達されるとともに、認識処理が良好に行えるような働きかけがなされる。
ロボット12は、ユーザ11から要求されたタスクが「白い箱BX1をとってくる」ことであることを正確に認識し、白い箱BX1の受け渡しを、「はいどうぞ」と言いながら行う。このとき、ユーザ11の発話速度は認識処理が良好に行える適切な値になっており、適応促進の必要がなくなったので、自己の発話速度をユーザ11と同じ90に調整する。
以後、ユーザ11とロボット12は、認識処理に適切な発話速度で互いにコミュニケーションが取れるようになる。また、ユーザ11の発話速度に変化が見られ、認識度が低下した場合は、適宜、上述したように、発話速度を調整すればよい。このように、ユーザ11から要求されたタスクをこなしつつ、自己の発話速度を調整してユーザ12の発話速度を適切な範囲に制御することによって、認識処理が常に適切に行えるようにシステムを維持することができる。
なお、上述したように、ユーザの発話速度が目標値よりも高いときは、システム側の発話速度をこの目標値よりも低く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。また、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。
また、ユーザの発話速度が、逆に、目標値よりも低いときは、システム側の発話速度をこの目標値よりも高く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。この場合も、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。
また、ユーザの発話速度の目標値は、必ずしも機器側の都合のみによって決定されるものではない。後述するように、発話速度には個人差が大きいので、発話速度の目標値は、ユーザに応じて決定するのが好ましい。すなわち、認識性能が適切に得られる範囲内で、ユーザの発話速度に近い値に目標値を設定することによって、ユーザが機器の発話に対して違和感を感じないような発話速度の誘導が可能となる。例えば、発話速度がとても遅い人には、機器側の最適値ではなく、認識性能が得られる発話速度の範囲の下限付近に、目標値を設定すればよい。また、発話速度が速い人には、認識可能な発話速度の範囲の上限付近に、目標値を設定すればよい。
以下、本実施形態に係る制御方法について、具体的に説明する。図4は本実施形態に係るユーザ適応型装置におけるインタフェース部20の構成を示すブロック図である。上述の例では、図4に示すインタフェース部20がロボット12に内蔵されている。図4において、認識状態検出部24および話速決定部25が、応答方法調整部に相当しており、また、音声入力部21、音声認識部22、発話内容決定部23および音声出力部26が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。
音声入力部21はユーザ11からの音声入力を取得する部分であり、通常は、音声を取得するためのマイク等によって構成される。ユーザ11が発した音声は、音声入力部21によって、インタフェース部20内部で処理可能な電気信号に変換される。
音声認識部22は音声入力部21によって取得された音声の電気信号を処理して、ユーザ11の発話内容に変換する。すなわち、いわゆる音声認識処理を行う。発話内容決定部23は、音声認識部22によって処理された音声認識結果を基にして、ユーザ11に対する発話内容を決定する。発話内容決定部23には、例えば、「ありがとう」に対して「どういたしまして」、「〜はどこにありますか」に対して「〜にあります」など、各種の対話例が、ルールや知識ベースとして格納されている。
認識状態検出部24は音声認識部22から認識状態に関する信号を取得し、認識状態の良否を検出する。ユーザ11の発話は、必ずしも音声認識処理しやすいものばかりではないので、その処理結果は誤りを含むことが多い。また、大抵の音声認識処理では、その処理結果に対する信頼度を表す信号が得られる。例えば、ニューラルネットワークを利用した音声認識では、各認識結果の候補とともに出力される出力値を、各認識結果に対する信頼度として扱うことが可能である。この出力値が0〜1の範囲で得られるとき、例えば出力値が0.9のときは、その認識結果は間違っていないことが多く、逆に出力値が0.5のときは、認識結果の信頼度は低いがとりあえず出力されている、といったことが読み取れる。認識状態検出部24は、音声認識部22から得られるこのような値から、認識状態の良否の程度を算出する。
話速決定部25は、認識状態検出部24が算出した認識状態の程度を基にして、ユーザ11に対する発話の発話速度を決定する。具体的には例えば、インタフェース部20に内部パラメータとして記憶されている発話速度の値を、調整する。音声認識処理では、一般に、認識率が最も高くなる適切な発話速度が存在し、これから離れるにつれて認識率が低下することが知られている。
音声出力部26は例えば、D/A変換部を含む回路部とスピーカとによって構成されており、発話内容決定部23によって決定された発話内容を示す合成音声を、話速決定部25によって決定された発話速度に従って作成し、出力する。
図4の構成の動作を、図5のフローチャートを用いて説明する。
ユーザ11が発話すると、まず音声入力部21によって、その音声を取得し、電気信号に変換する(S11)。そして、音声認識部22によって、ステップS11において生成された電気信号を用いて音声認識処理を行う(S12)。
次に、認識状態検出部24が、音声認識部22から取得した信号を基にして、音声認識の認識状態が良いか否かを判断する(S13)。ここでの判断は例えば、音声認識処理において特定された複数の認識候補に係る、例えば上述したニューラルネットワークにおける出力値のような信頼度を表すデータの、ばらつき具合を基にして行う。すなわち、特定の候補のみの信頼度が高い場合は、認識状態が良いと判断し、一方、どの候補の信頼度も低い場合は、認識状態が悪いと判断する。また、認識処理そのものが成功せずに認識候補が得られない場合も、認識状態が悪いと判断する。
ステップS13において、認識状態が良いと判断されたときは、ステップS14に進む。ステップS14では、話速決定部25において、適応促進のための発話速度の制御を行わないものとする。すなわち、例えば発話速度を、前回設定された値と同じ値にしたり、ユーザの発話速度に合わせたりする。ユーザの発話速度に合わせるのは、コミュニケーションが良好な場合は、ユーザも装置も発話速度は似ていると推測されるからである。
一方、認識状態が悪いと判断されたときは、ステップS15に進む。ステップS15では、認識状態検出部24によって、ユーザ11の発話速度が速すぎるか否かが判断される。すなわち、音声認識部22における認識状態からユーザ11の現在の発話速度を計算し、この発話速度をインタフェース部20が予め記憶している最適な発話速度と比較する。そしてユーザ11の発話速度の方が速いときは(Yes)、話速決定部25が発話速度を現在の設定よりも遅くする(S16)。一方、ユーザ11の発話速度の方が遅いときは(No)、話速決定部25が発話速度を現在の設定よりも速くする(S17)。発話速度の調整は、例えば、現在の発話速度に対して一定量を減じたり加えたりすることによって、または、1よりも小さな、若しくは大きな一定量を乗じたりすることによって、実現できる。
ステップS14,S16,S17によって発話速度が調整された後、または、発話速度の調整と並行して、発話内容決定部23が、音声認識部22によって認識されたユーザ11の発話内容に対する応答内容を決定する(S18)。そして、音声出力部26は、発話内容決定部23によって決定された発話内容を、話速決定部25によって決定された発話速度でユーザ11に対して出力する(S19)。
上述した動作をユーザ11から見ると、ユーザ11の発話に対して、装置の音声応答の発話速度が若干変化することになる。ユーザ11は、装置との音声対話に際しても、人間同士のコミュニケーションの際に見られるような引き込み現象によって、装置の発話速度に合わせて、自分自身の発話速度を自然に落としたり速めたりすると考えられる。このような発話速度の変化は、ユーザ11が自分で意識的に行うものではない。すなわち、ユーザ11には何ら意識させずに、自然にその発話速度を制御することができ、これにより、認識が容易な発話入力を得ることができるので、認識率も向上し、対話を円滑に進めることができる。
従来の音声対話型のインタフェースでは、音声認識ができない場合、「もう一度お願いします」とか「ゆっくり話してください」等の発話を行い、ユーザに対して、意識的に装置に合わせて話をするように促す対応をしていた。このため、それまでの対話の流れが中断されてしまい、ユーザにとって利用しにくい面があった。
これに対して本実施形態によると、ユーザの発話が不明瞭なときでも、応対は継続しながら発話速度を調整することによって、ユーザに意識させることなく発話速度の変化を促して、コミュニケーションを円滑にすることができる。このとき、ユーザは機器に対して何かしら意図的に適応する必要はなく、ユーザが他の人と自然に行っている相互引込のプロセスが実現されている。したがって、ユーザと機器との音声対話を、ユーザに負担をかけることなく、円滑に行うことができる。
なお、本実施形態では、ユーザへの応答方法の調整として、発話速度を調整するものとしたが、本発明はこれに限られるものではない。例えば、発話語彙を調整してもよい。発話語彙の調整によって、ユーザが発話内容を聞いたときの印象を変化させることができる。語彙を変化させるパターンの例としては、例えば子供の話す語彙と大人の話す語彙、丁寧度合の異なる語彙(例えば、丁寧な話し方と乱暴な話し方)、親密度合の異なる語彙(親しげな話し方とビジネスライクな話し方)などが考えられる。
また、発話のイントネーションを調整してもよい。イントネーションの調整によって、同じ文言であっても、ユーザの話し方をゆっくりにしたり、穏やかにしたり、落ち着かせたりすることが、引き込みによって可能になると考えられる。もちろん、発話速度、語彙、イントネーションなどの応答方法の全部または一部を組み合わせて、調整してもよい。
また、応答方法の調整によって、必ずしも、ユーザの反応がシステム側の想定通りに変化するとは限らない。例えば、後述する実験の結果から示唆されるように、人とシステムとの対話において、システム側が発話速度を調整しても、一部のユーザは自分の発話速度を変化させない。したがって、応答方法を調整してもユーザの反応が期待したようには変化しない場合は、直接的にユーザに要求を伝えるような出力を行うのが好ましい。
すなわち、入力処理部2は、出力部6の出力に対するユーザ7の反応を検出し、ユーザ7の反応に、応答方法調整部4によって調整された応答方法によって期待された変化がみられないときは、応答内容決定部3に対し、ユーザ7に変化を促すための応答内容を決定するよう、指示するのが好ましい。例えば、発話速度を変化させてもユーザ7の発話速度に変化が見られない場合は、入力処理部2は、発話速度の変化を促すような応答内容を決定するよう、応答内容決定部3に指示する。この指示を受けて、応答内容決定部3は、ユーザ7との対話を成立させるための発話内容に加えて、例えば「もう少しゆっくり話していただけませんか?」などといったメッセージを追加する。これにより、発話速度を下げてほしい、というようなシステム側の要求を、ユーザ7に対して直接的に伝えることができる。
人間が応答方法の調整によって影響を受けることを実証するために、次の2つの実験を実施した。ここでは、対話における発話速度に着目し、人と人が対話しているときに相手の発話速度の影響をどの程度受けるか(実験1)、人と機器が対話しているときに機器の発話速度の影響をどの程度受けるか(実験2)、という2つの実験を行った。
<実験1>
実験1では、人同士の対話状況を観察し、その発話速度を記録・解析することによって、被験者の発話速度が相手の発話速度によって変化するのかを観察した。実験には、大学生を中心に10人に被験者として参加してもらった。
まず、各被験者にニュース原稿の朗読などの単独発話をしてもらい、そのときの発話速度を、相手の影響を受けていないという意味で、その被験者の標準的な発話速度とした。なお、発話速度は、1秒間に発声される文字数(発話音声に含まれる文字数÷発話に要した時間)によって算出することとした。
図10は各被験者の標準的な発話速度を示す。図10から分かるように、実験に参加した被験者群では、発話速度は6.88文字/秒〜10.69文字/秒まで分布しており、発話が遅い人と早い人との差は1.5倍以上あり、かなりのばらつきが見られる。発話速度の平均は8.84文字/秒である。
次に、被験者同士の対話実験を行った。実験に用いる対話文として、英会話等の語学教材に使用されるような9つの文例を用意した。各文例では、先に発話をするAさん役とAさんに応答して発話を行うBさん役とが設定されており、AさんとBさんの発話が交互に数回ずつ含まれている。このような文例を用いることによって、発話内容のやりとりとともに、発話方法(この実験では発話速度)の情報についてもやりとりが生じるので、その影響を観察することができる。
実験では、被験者10人を2人ずつに分け、その2人の間でAさん役とBさん役を設定して対話文例を読み上げてもらい、その対話を録音した。次に、被験者の組み合わせを変えて、各被験者が、別の相手と別の対話文を読みようにした。1人の被験者から見ると、9人の相手と、内容が異なる9つの文例を読むように、順番を設定した。この結果、毎回5組の対話データが得られ、被験者の組み合わせを変えた9回の対話を行うことによって、合計45対話の記録を得ることができた。個人ごとに見れば、計90発話のデータを得ることができた。
そして、録音した対話データから、発話速度を算出した。このとき、対話中において発話速度はわずかながら変化しているので、対話中の発話速度の平均を求め、これを各対話における被験者の発話速度とみなした。したがって、この実験では、一回の対話中における発話速度の変化は考慮していない。
図11に示すように、発話速度の変化を、相手に対してどのように変化したか、という観点から4とおりに分類した。ここで、自分(Aさん)の普段の発話速度をVda、相手(Bさん)の普段の発話速度をVdb、対話文例nの時の自分の発話速度Vna、対話文例nの時の相手の発話速度をVnbとする。図11では、上下方向に発話速度の軸をとっており、その軸上に発話速度Vda、Vna、Vnbの位置を示している。
事例1(a):自分よりも発話速度の速い相手との対話(Vda<Vnb)において、自分の普段の発話速度よりも速く発話(Vda<Vna)した。
事例2(b):自分よりも発話速度の速い相手との対話(Vda<Vnb)において、自分の普段の発話速度よりも遅く発話(Vda>Vna)した。
事例3(c):自分よりも発話速度の遅い相手との対話(Vda>Vnb)において、自分の普段の発話速度よりも速く発話(Vda<Vna)した。
事例4(d):自分よりも発話速度の遅い相手との対話(Vda>Vnb)において、自分の普段の発話速度よりも遅く発話(Vda>Vna)した。
発話速度の軸における、自分の発話速度Vda,Vnaと相手の発話速度Vnbとの位置関係によって、相手に合わせたかどうか、どの程度合わせたかを求めることができる。発話速度は、引き込み現象が発生すると考えた場合、相手と同調する方向に変化するはずであり、上の4通りの事例のうち事例1と事例4が、相手に同調する方向に変化した場合である。また自分の発話速度の変化量は、(Vna−Vda)で求められる。
そこで、本願発明者は、次のような引き込み判別式を作成した。
D=sign(Vnb−Vda)×sign(Vna−Vda)×abs(Vna−Vda) …(数1)
ここで、signはプラスやマイナスの符号のみを抽出する関数、absは絶対値を抽出する関数である。D>0のときは、発話速度が相手と同調したことを示し、D<0のときは、発話速度が相手と同調しなかったことを示す。また、Dの値の大小は、発話速度がどの程度同調したかを示す。
図12は実験1で得られた発話データについて上の判別式Dの値をプロットしたグラフである。図12において、横軸は被験者ID、縦軸は判別式Dの値で単位は(文字/秒)である。例えば、被験者3(横軸上)が被験者6と対話したとき、判別式D=2であった。すなわち、被験者3は被験者6に対して、2[文字/秒]分だけ同調した、と考えられる。
図12から分かるように、多くの発話において、発話速度が相手に合わせるように変化している。実験で取得された90発話のうち、57発話(63%)において、D>0となっている。また、この90発話で構成される45対話のうち、被験者がお互いに相手に合わせようとしている場合(お互いのDの値が正だった場合)は18対話(40%)、Aさん役はBに合わせようとしているがBさん役が合わせていない場合は10対話(22%)、その逆が11対話(24%)、お互いが合わせていない場合が6対話(13%)であった。よって、ほとんどの対話において、いずれかの被験者の発話速度が相手に合わせる方向に変化していたことが観察された。
なお、一部の発話において、相手に合わせるような変化が見られなかった原因としては、例えば、対話文例の中に「えーっと」など普通の読上げ速度と異なる速度で読む単語が含まれており、発話速度が的確に算出できなかったこと、被験者によっては相手の発話速度による影響を受けにくい人がいること、などが考えられる。
このように、実験1における人同士の対話実験によって、被験者は普段、様々な読上げ速度で文章を読んでいるにも関わらず、その発話速度が、対話相手の発話速度に合わせるように変化することが多いことが確認された。また、この現象は、対話文の内容によらずに見られることも分かった。さらに、被験者によって適応特性などが異なることも見受けられたことから、被験者ごとの適応特性なども考慮することによって、さらに適応が促進されると考えられる。
<実験2>
上述の実験1では、人同士の対話における発話速度の適応を観察したが、次に、人が自動応答システムと対話を行った場合に、その発話速度がどの程度変化するかを観察した。実験には、大学生を中心に6人に被験者として参加してもらった。
この実験で使用された自動応答システムは、ユーザの発話の終了を検出した後に、予め録音しておいた音声ファイルを再生することによって、被験者との対話を実現するものである。システムが再生する音声として、一人の女性が単独で対話文を朗読している際の音声を録音したものを用いた。この録音した音声から音声編集ソフトウェアを用いて、ピッチ値を保ったまま時間方向に対して80%・120%に伸縮した音声を作成した。これによって、発話時間を80%に変換したファイルが発話速度が最も高くなり、順に80%(速い発話、High)、100%(録音そのまま、Middle)、120%(遅い発話、Low)の三種類の発話速度の音声ファイルが用意された。
被験者には、自動応答システムと三種類の対話を行うというタスクが与えられた。対話文として、実験1で用いた9つの対話文のうちの対話2,5,9を用いた。これらの対話文は、実験1において被験者にとって発話速度の同調が見られやすかったものである。また、被験者には対話文におけるBさんの役割が、対話システムにはAさんの役割が与えられた。
図13は実験2における対話順序を示す表である。図13において、各欄の最初の数字は、対話文の番号、HMLの記号は発話速度を表している。Mが録音ファイルそのままの速度、Lは遅い発話、Hが速い発話を示す。例えば「2−H」は、対話文2のH(速い発話)と対話したことを表す。また図13に示すように、各被験者にとって、対話文の内容は毎回違うものにした。
図14は実験2で得られた発話データについて上の判別式Dの値をプロットしたグラフである。この図14から、ほとんどの対話において、被験者の発話速度がシステムに合わせていることが分かる。実験で取得された18対話のうち、16対話において、判別式D>0となっている。
以上の二つの実験から、人間は、相手が実際の人間であっても、自動応答システムから流される音声であっても、その対話の内容によらず相手の発話速度に合わせるように、自分の発話速度が影響される、と考えることができる。また、この発話速度の変化は、特に意識されなくても起きていると考えられる。
(第2の実施形態)
本発明の第2の実施形態では、ユーザとの協調動作を行うロボットを例にとって説明を行う。家庭等において利用されるロボットは、情報端末やソフトウェアエージェントと異なり、ユーザとのインタフェースとしては、言語や情報のやり取りの他に、物理的な物体のやりとりや共同作業も行う。この場合、機器(ロボット)からユーザに提供するものとしては、情報以外にも、物の操作、ジェスチャ、作業などが考えられ、これらを本実施形態では「動作」と呼ぶ。この「動作」についても、動作自体が提供する機能の他に、動作をどのように提供するかという「方法」の側面があり、この「方法」によっても、ユーザが受け取る印象は大きく変化する。本実施形態では、「動作」を提供する「方法」を調整することによって、ユーザの適応を促す例について説明する。
また、第1の実施形態では、機器内部における音声認識の状態に応じて、発話速度を調整した。これに対して本実施形態では、動作「方法」を調整する際に、外部に出力した「動作」とユーザの動作とのずれ、または協調度合を参照する点が、第1の実施形態と大きく異なっている。
次に、動作を提供する方法について追加説明する。通常の使用の場合は、協調動作がスムーズに行われるためには、ロボットも、ユーザの動作速度と同じような速度で動作することが必要になる。しかしながら、ユーザがかなり速い動作をしていて、これと同速度の動作が機構等の制約からロボットの能力を超えている場合や、例えば熱いお茶や刃物を渡すときなど、ユーザと同等速度で動作すると安全が確保できない場合は、ロボットは、ユーザと同等速度に動作するのではなく、ロボットが要求する理想的な動作速度になるように、ユーザの適応を促進させる必要がある。これによって、ユーザは、ロボットの動作速度に対して、常に不満を持つことなく、協調的な行動をとることができる。
また、動作速度を調整することによって、スムーズな協調動作を実現できるだけでなく、ユーザに対して様々な印象を副次的に与えることができる。例えば、速い動作は、「きびきび動いていて頼もしい」というような印象を与え、逆に、ゆっくりとした動作は「落ち着いている」というような印象を与えることができる。
また、ロボットの動作速度はユーザの行動速度に影響を与える。すなわち、人間同士なら互いに引き込まれる性質の動作であれば、ロボットとユーザの間でも引き込みが起こりうる。例えば、物を渡すというタスクは、ロボットがゆったりとした動きで物を渡せば、このロボットのゆったりとした動きに影響されて、ユーザの方もゆっくりとした動作で物を受け取ると考えられる。
以下、図6および図7を用いて、第2の実施形態について説明する。
図6は本実施形態に係るユーザ適応型装置としてのロボットにおけるインタフェース部30の構成を示すブロック図である。ここでは、自律的に移動する能力とアームによる物体操作能力とを持ち、自ら移動して物を動かすことができるロボットを想定している。図6において、状態入力部31および動作入力部33が入力部に相当し、動作ずれ認識部35および動作速度決定部36が応答方法調整部に相当している。また、状態認識部32、動作内容決定部34および動作出力部37が、入力処理部、応答内容決定部および出力部に、それぞれ対応している。
状態入力部31はロボットに向き合っているユーザ11の状態を取得する。ユーザ11の状態とは、ロボットへのジェスチャによる指示や、表情や、行動などを指す。状態入力部31は例えば、ユーザ11を撮影するためのカメラや、発話を入力するためのマイクなどによって構成されており、また、ユーザ11の生理的状態を測定するセンサ(3次元位置センサ、発汗センサ、脳波計など)との通信が可能になっているのが好ましい。
状態認識部32は状態入力部31によって取得された信号を処理して、ユーザ11の状態を認識して出力する。その出力内容は、ユーザ11のロボットに対する要求内容や、疲れている、楽しいなどといったユーザ11の生理的状態などである。動作内容決定部34は状態認識部32の出力を受けて、どんな機能や動作をユーザ11に対して実際に出力するかを決定する。
動作入力部33は、ロボットとユーザ11との協調動作が良好に行われているか否かを判定するために設けられており、ユーザ11の動作を映すカメラや、ロボットハンドに装着された圧力センサ等によって構成されている。なお、動作入力部33を構成するカメラなどの要素は、状態入力部31と共用されてもかまわない。
動作ずれ認識部35は、動作入力部33の出力を受けて、ユーザ11とロボットの動きのずれを認識する。このずれは、ユーザ11とロボットとの間の動作の協調度合を示す指標として用いられる。
例えば、ユーザが「雑誌を取って」とロボットに頼み、ロボットが指定された雑誌を取ってきてユーザに渡す動作を考える。この場合、ロボットが雑誌を持った手を差し出す動作と、ユーザが雑誌を受け取るために手を差し出す動作とで、そのスピードとタイミングが一致しているとき、スムーズな雑誌の受け渡しが実現できる。もし、互いの動作のスピードが一致していないときは、ユーザは雑誌を受け取るという単純な動作でも、ストレスや不満を感じることが予想される。具体的には、もしロボットの手の動作がユーザの動作よりもかなり速いときは、ユーザは危険を感じて手を出すどころか思わず手を引っ込めてしまうだろうし、逆にロボットの動作がかなり遅いときは、ユーザは出した手を、雑誌が手元に来るまで止めたままで待たなければならない。
同様に、例えば、ユーザが「これ片付けておいて」とコップをロボットに渡す場合も、互いの動作のスピードやタイミングがずれていると、スムーズな受け渡しができない。
このようなユーザの不満につながる動作のずれを認識するのが、動作ずれ認識部35である。具体的には、カメラ画像からユーザとロボット自身の動作速度を測定したり、ロボットが物を渡す動作を完了してからユーザが物を受け取るまでの時間を測定したりすることによって、互いの動作のずれは認識できる。ユーザが物を受け取ったことは、ロボットハンドに装着された圧力センサ等で検出可能である。
動作速度決定部36は、動作ずれ認識部35によって認識されたユーザとロボットとの動作のずれと、状態認識部32から認識されたユーザの状態を用いながら、ロボットにとってどのようなスピードが理想的であるか、どんな印象を与えたいか、安全の観点からはどのようなスピードが理想的であるか、などを勘案して、目標の協調動作速度を決定する。動作出力部37は、動作内容決定部34によって決定された動作や機能を、動作速度決定部36によって決定された動作速度によって、ユーザ37に対して出力する。
図7は図6の構成の動作を示すフローチャートである。図7のフローを上述の第1の実施形態における図5のフローと比較すると、ユーザとのインタフェースが、動作によるものか、音声(会話)によるものかという相違はあるが、基本的な流れはほぼ同様である。ただし、図7では、ユーザとロボットの協調動作における動作のずれを認識するステップS23を含む点が、図5と異なる。すなわち本実施形態では、ロボットとの動作の協調度合を判定すべく、ロボットにとっての理想的な動作速度と現在のユーザの動作速度とのずれを認識するステップS23を有し、その動作のずれに応じて、ロボットの動作速度を調整するようにしている。
以上のように本実施形態によると、ユーザとロボットが協調動作を行う際に、互いの動作のずれからロボットの動作速度を調整することによって、よりスムーズな協調動作を実現することができる。
(第3の実施形態)
本発明の第3の実施形態では、ユーザに情報を推薦する情報端末を例にとって説明を行う。本実施形態では、情報端末の画面にエージェントを表示して、このエージェントがユーザの好みに応じた情報を音声によって提示するものとする。
また、第1の実施形態では、音声認識の状態に応じて発話速度等の出力方法を調整し、第2の実施形態では、ユーザとロボットの協調作業における動作のずれに応じて動作速度等の出力方法を調整した。これに対して本実施形態では、情報端末側でユーザの嗜好モデルを学習するものとし、その学習度合に応じて、エージェントの形態(見た目)や語彙等の情報の提供方法を調整するものとする。すなわち、外部から得たユーザに関する知識の量を、提供方法の調整に反映させる点が、第1および第2の実施形態とは異なっている。
まず、本実施形態が実現されたときのイメージを、図8を用いて説明する。
図8は情報端末からユーザに対してエージェントによってレストラン情報を提供する場合を概念的に示す図である。図8において、13は本実施形態に係るインタフェース機能を有する情報端末、14は表示画面、15A,15Bはエージェントである。同図中、(a)はユーザの嗜好モデルがあまり学習されていないときの状態、(b)はユーザの嗜好モデルが学習された後の状態である。
情報端末13では、ユーザとのやり取りの中から、ユーザの嗜好モデルを学習する。学習の初期段階では、嗜好モデルはまだ十分には学習されていないため、ユーザがどのような推薦情報を好むか明確には分からない。このため、ユーザが情報推薦機能に対して過大な期待を持っていると、推薦されたものが気に入らないとき、落胆する度合が大きくなる。
図8(a)の例では、幼児のような外見のエージェント15Aを画面14に出し、発話の語彙も「おいしいでちゅよ」と幼児語にしている。すなわち、あたかも幼児が推薦するかのように情報提供方法を調整することによって、ユーザが仮に推薦情報を気に入らない場合でも、情報端末13に対する印象をさほど悪くならないようにしている。これにより、ユーザが怒ったり不愉快になったりすることが少なくなると考えられる。
逆に、図8(b)に示すように、ユーザとのやり取りによってその嗜好モデルが学習された後は、情報端末13は、ユーザの嗜好に合った情報をいわば自信を持って推薦することができる。この場合は、かしこまった服装の大人の外見のエージェント15Bを画面14に出し、発話の語彙も「○○様にふさわしいレストランです」という秘書や執事のような言葉遣いにする。このときに幼児のような表現では、推薦内容に対する信頼を損なう可能性もある。
このように、ユーザの嗜好モデルの学習度合に応じて、エージェントの外見や語彙といった情報提供方法を調整することによって、ユーザの印象の変化を促すことができる。これにより、推薦情報が適切でない可能性があるときは、ユーザの不満を和らげるような方法によって情報提供を行い、情報提供サービスの信頼を失わないようにするとともに、推薦情報が適切であるときは、ユーザの受容度を高めることができる。
図9は本実施形態に係るユーザ適応型装置としての情報端末におけるインタフェース部40の構成を示すブロック図である。図9において、処理状態検出部43および応答方法決定部46によって、応答方法調整部が構成されている。また、入力部41、入力処理部42、情報内容決定部45および出力部47が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。
図9において、入力部41はキーボードやタッチパネル、マイク等を通してユーザからの働きかけを受け付ける。入力部41はユーザ11の発話や指示を電気信号に変換する。また入力部41は、後述の出力部47から出力された情報に対するユーザの反応も取得する。入力処理部42は、入力部41からの信号を受けて、ユーザ11の要求内容を判定する。またユーザ11が喜んでいるか、うれしく思っているかなど、出力部47から出力された情報に対するユーザ11の反応に関する情報も取得する。
処理状態検出部43は、入力処理部42の出力を受けて、記憶部44に格納されているユーザ11の嗜好モデルを更新する。例えば、ユーザからの要求内容と、ユーザに提供した情報内容と、そのときのユーザの反応とを、併せて記憶する。単純に、過去の履歴を記憶するようにしてもよいし、カテゴリー化して記憶してもよい。すなわち、記憶部44に蓄えられた嗜好モデルは、ユーザ11とのやりとりを重ねることによって、徐々に精度の高いものに変化していく。
情報内容決定部45は、入力処理部42によって判定されたユーザ11の要求内容と、記憶部44に格納された嗜好モデルとから、今回のユーザ11の要求に対する出力内容を決定する。
応答方法決定部46は記憶部44に格納された嗜好モデルの学習度合に応じて、語彙やエージェントの外見といった情報の提供方法を調整する。すなわち、嗜好モデルが、ユーザの好みをどの程度正確に反映しているかによって、情報の提供方法を調整する。そして、出力部47は、情報内容決定部45によって決定された情報内容を、応答方法決定部46によって決定された提供方法によって、出力する。
ここでは、情報の提供方法の調整によって、ユーザ11に対して自分がどの程度ユーザ11の好みを把握しているかを間接的に示すものとする。すなわち、ユーザ11の好みがまだ正確には把握できておらず、推薦する情報が必ずしも適切ではない可能性が高いときは、それを提供方法の調整によって伝える。例えば、「〜などはいかがでしょうか」というような言い回しを用いる。反対に、ユーザ11の好みがきちんと学習できているときは、それも提供方法の調整によって伝える。例えば、「〜がぴったりだよ」などといった語彙を用いる。
人間同士のコミュニケーションにおいても、初対面でお互いによく知らない者同士の対話の語彙と、旧知の仲の者同士の語彙とではかなり違っている。また、語彙の用い方によって、「親しみやすい」「よそよそしい」などという印象も相手に与えてしまう。
従来の手法でも、ユーザに親しみを感じてもらうために、親しげな話し方を導入したものもある。ところが、本実施形態で示したようなユーザの嗜好を学習する情報端末では、学習初期には、ユーザの期待通りの情報を提供することが困難なために、親しげな話し方がユーザの不興を買い、かえって逆効果になってしまうおそれがある。また、学習が進んだにもかかわらず、いつまでも丁寧に応答していると、ユーザが親しみを感じないことも予想される。
そこでここでは、ユーザの嗜好が十分に学習できていない初期の段階では、初対面の人間同士が用いるような語彙で情報推薦を行う。これにより、仮に推薦情報が適切でなくても、お互いのことをよく知らないために起きたことであり、しょうがないと理解してもらえる。また、ユーザの嗜好が十分に学習できた後は、親しげに情報推薦することによって、装置に対して親しみを感じてもらうことができる。
また、語彙以外でも、例えば、CGで作成して画面に表示したエージェントの外見を、学習初期では、フォーマルな格好をして登場させ、学習が進むにつれてカジュアルな格好に変化させるようにしてもよい。この場合も、ユーザが受ける印象が変化して、スムーズなコミュニケーションが実現できると考えられる。
このように本実施形態によると、ユーザに提供できる情報推薦のレベルや、ユーザに関する知識の量に応じて、情報の提供方法を調整することによって、仮に推薦情報があまり適していないときでも、ユーザは自然に受け入れることができる。これにより、ユーザは情報端末側の学習過程を特に意識することなく、機器と自然に相互動作を繰り返すうちに、ユーザの好みが次第に学習される。
なお、本実施形態では、情報推薦を例にとって説明を行ったが、それ以外でも例えば、ユーザが情報端末から対話によって情報を取得する場合でも、応用可能である。
また、各実施形態で示したインタフェース部における機能や処理は、ハードウェア若しくはソフトウェア、またはこれらの組合せによって実現することができる。
なお、上述の実施形態では、個別の事例として説明したが、家庭用ロボットなどの高度な機能を持つ機器は、音声対話能力、協調作業能力、情報推薦能力その他を併せて持つことができ、同時並行的に、または統合的に、ユーザへの応答方法を調整することができる。複数の応答方法を同時に調整することによって、ユーザはより自然なコミュニケーションを取ることができるようになる。
本発明では、機器とユーザとのコミュニケーションがより円滑になるので、ユーザインタフェースを有する機器全般、特に、ユーザ側の適応を促すのが効果的と考えられる家庭用ロボット、情報端末、家電機器などに有用である。
本発明の構成の概念図である。 第1の実施形態のイメージ図であり、ユーザが家庭用ロボットに箱をとってきてもらう場合を示す図である。 (a)は図2の状況における対話の例、(b)は発話速度と認識度との関係を示すグラフである。 本発明の第1の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 図4の構成の動作を示すフローチャートである。 本発明の第2の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 図6の構成の動作を示すフローチャートである。 第3の実施形態のイメージ図であり、情報端末からユーザに対して情報推薦を行う場合を示す図である。 本発明の第3の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 実験1において得られた、各被験者の文章読み上げの単独発話時の発話速度である。 発話速度の変化の分類を示す模式図である。 実験1の結果を示すグラフである。 実験2における対話順序である。 実験2の結果を示すグラフである。
符号の説明
1 入力部
2 入力処理部
3 応答内容決定部
4 応答方法調整部
6 出力部
7,11 ユーザ
10 インタフェース部
12 ロボット
13 情報端末
14 画面
15A,15B エージェント
20 インタフェース部
21 音声入力部
22 音声認識部
23 発話内容決定部
24 認識状態検出部
25 話速決定部
26 音声出力部
30 インタフェース部
31 状態入力部
32 状態認識部
33 動作入力部
34 動作内容決定部
35 動作ずれ認識部
36 動作速度決定部
37 動作出力部
40 インタフェース部
41 入力部
42 入力処理部
43 処理状態検出部
44 記憶部
45 情報内容決定部
46 応答方法決定部
47 出力部
本発明は、ユーザからの入力を受けて情報やサービスを提供するインタフェースを備えた装置に関するものであり、具体的には、ユーザとの相互作用によって動作する家庭用ロボット、情報端末、家電機器などに関する。
ユーザに利用されることを前提とした機器とユーザとの間には、インタフェースが必要である。インタフェースの1つとして、ユーザと機器との相互作用の履歴から、提供する情報やサービスを調整する適応型のインタフェースがある。この適応型インタフェースによって、各ユーザの違いや個性に応じて機器が適応することができ、各ユーザにとって使いやすい操作インタフェースが実現される。
従来の適応型インタフェースとしては、例えば、ユーザの操作系列を観察して操作を代行するものや、ユーザに擬似感情を提示して人間と親しみやすいインタフェースを構成するもの、生体情報に応じてインタフェースを適応させるもの、などがあった。また広い意味では、情報推薦などの機能も、各ユーザに適した情報を提示するという意味で適応型インタフェースであるといえる。
このような適応型インタフェースは、(1)ユーザの特定の状態や入力を受け、(2)ユーザの状態を判定し、(3)サービスやインタフェースを調整する、ことによって、ユーザにとって使いやすいインタフェースの提供を目指してきた。
この適応型インタフェースの改善に関する従来技術の例が、特許文献1,2に示されている。
例えば特許文献1では、機械翻訳システムを例にとって、ユーザ適応の状況を調整する方法が提案されている。機械翻訳では、入力される文書のジャンル(新聞記事、マニュアルなど)によって、翻訳に必要な翻訳例の辞書や語彙等が変化するので、そのジャンルなどを適応的に切り替える。ところがこのジャンルの切換は必ずしもうまくいかないので、ジャンル切換の候補をユーザに見てもらい、ジャンル指定の精度を挙げようとするものである。これは適応型インタフェースにおいて、適応がスムーズに行かない可能性への対処を狙ったものである。
また特許文献2では、WEBブラウザのGUIインタフェースを例にとって、インタフェースの配置等を擬似感情というモデルを基にして決定している。すなわち、インタフェースの要素を擬似的な感情を生起させるものとして扱い、その感情の表出をインタフェースの配置として表す。人間の擬似感情変化の特性を利用しているために、人間の感覚にあったユーザインタフェースの適応ができるとされている。
また、人間と機械とのインタフェースに関する注目すべき知見が、非特許文献1〜3に示されている。
非特許文献1では、ユーザがネットワークを通して人間またはコンピュータとゲーム(シリトリ)をする場合、対戦者が人間であると教示したときと、コンピュータであると教示したときとにおいて、同じコンピュータプログラムを相手にした場合でも、ユーザの興味の持続時間や反応が異なっていたことが報告されている。
また、非特許文献2によると、ユーザが伝言を依頼するというタスクについて、ロボットに対するとき、コンピュータの画面に対するとき、そして人間に対するときの3種類の場合では、タスク終了後のインタビューで発話のしやすさが変化したという結果が得られている。
さらに、非特許文献3では、人間同士のコミュニケーションにおいて、言葉によるバーバル情報だけでなく、音声の周辺言語やうなずき、まばたき、表情、身振り・手振りなどのノンバーバル情報が、話し手と聞き手とを相互に引き込むいわゆる引き込み現象を起こしており、これによってコミュニケーションが円滑になっていることが示されている。また、情動変動と密接に関連した心拍間隔変動や呼吸の引き込みなどの生理的側面での引込も、重要な役割を果たしているとの指摘がある。
特開平9−81350号公報 特開2000−330676号公報(特に、段落0062) 特開2003−150194号公報(特に、段落0009−0011,0072) 山本吉伸、松井孝雄、開一夫、梅田聡、安西祐一郎、「計算システムとのインタラクション−楽しさを促進する要因に関する一考察−」、日本認知科学会「認知科学」、第1巻、第1号、pp.107−120、共立出版、1994年5月 原田悦子、「音声インタフェイスにおけるエイジェント性と社会的文脈の効果:伝言実験による検討」、日本認知科学会第19回大会、pp.14-15、2002年6月 渡辺富夫、「身体的コミュニケーションにおける引き込みと身体性−心が通う身体的 コミュニケーションシステムE-COSMICの開発を通して−」、ベビーサイエンス、Vol.2、 pp.4-12、2002年
適応型インタフェースは、ユーザに適応することによって、より使いやすいインタフェースを実現しようとするものであり、ユーザにより良く適応するための工夫も数多くなされてきた。しかしながら、実世界のアプリケーションにおいては、機器の側が必ずしも常に、ユーザに適応できるわけではなかった。
しかしながら、従来の構成では、機器が想定した範囲内でユーザに適応できる工夫はなされているものの、ユーザが想定範囲外の行動をした場合の対応については、あまり検討されていない。また、どのように適応すればよいかは分かるが、機器の能力として実現不可能な場合もあり、このような場合の対応についても、十分な検討はされていない。提案されている技術としては、エラーメッセージに類する情報を提示する程度のものにとどまっていた。
しかしながら、ユーザに「知りません」「わかりません」「もう一度お願いします」などのメッセージを繰り返し提示するだけでは、ユーザは、装置に反応を期待して働きかけていた分、期待を裏切られた気分になり、落胆してしまう。この状態が繰り返されると、ユーザは装置に対して働きかけても無駄と感じ、やがて装置自体を使わなくなってしまう。
前記の問題に鑑み、本発明は、ユーザとのインタフェースを備えた機器として、ただ単にユーザに応答するだけでなく、ユーザに常に適応できるわけではないことを考慮して、ユーザ自身にさほど意識させることなくその行動や印象の変化を促し、ユーザと機器との円滑なインタラクションを実現することを課題とする。
本発明では、次の点に着目している。すなわち、機器からユーザへの働きかけにおいては、提供する情報やサービスの内容そのものと、その提供方法(ユーザへの応答方法)とは、分けて考えることができる。そして、ユーザへの応答方法を調整することによって、ユーザの行動や、ユーザが機器から受ける印象が、変わり得る、と考えられる。このような観点を、本発明では積極的に活用する。
以下、順を追ってこれらの概念について説明する。
装置がユーザに対して情報を提示する場合に、情報の内容が同じであっても、応答方法が異なると、ユーザに与える印象やユーザの反応が変わってくることがある。
例えば音声対話において、機器がユーザに謝る場合を考えると、「すみません」という発話が情報の内容に相当し、発話速度、イントネーション、画面に表示したエージェントの頭を下げる等の動作などがユーザへの応答方法に相当する。この場合、同じ「すみません」という発話でも、その発話速度、イントネーション、エージェントの体の動き等の情報提示方法によっては、実は謝っていないように感じさせたり、ユーザをさらに不機嫌にさせることもできる。
また、カーナビや情報端末におけるレストラン検索において、「何が食べたいですか」という発話をユーザにする場合でも、発話速度やイントネーションの変化によって、ユーザに様々な印象を与えることができる。例えば早口で尋ねることによって、「早く答えて欲しい」というような言外の意味が付与されたり、イントネーションの付け方次第では、「別に聞きたくないが聞いている」というような印象を与えることもあり得る。
また別の例として、家庭用ロボットがユーザにコップを渡すという場合を考えてみる。「コップを取ってほしい」という要求に対するロボットの応答動作において、ユーザにコップを渡すときの手の動かし方や動作速度は、何通りもある。ユーザにコップを渡すというサービス機能自体は実現できても、その動作の仕方や速度などの応答方法によっては、「いやいや動いている」「恐怖感を感じる」「無愛想に見える」などの印象を持たれてしまう。
このように、同じ情報やサービスを提供する場合であっても、その応答方法の調整次第では、ユーザに与える印象がガラリと変わることがある、と考えられる。
また、上述の非特許文献1は、人間は、機器を相手にしているときでも、自分の思い込みによって、楽しく時間を過ごしたり、つまらなく時間を過ごしたりする可能性があることを示唆している。また非特許文献2も、ユーザが対面する機器の種類によって、ユーザの反応が変化しうることを示している。これらの事例から、(1)ユーザは機器に対する印象や思い込みによって、機器に対する反応形態を変化させること、(2)ユーザは対面する機器の形態などによって使いやすさが変化することがわかる。
この知見を、インタフェース設計の観点から考え直すと、同じ情報やサービスを提供する場合であっても、ユーザへの応答方法というインタフェースの部分を調整することによって、ユーザの印象や反応は制御できると考えられる。これが、本発明の要点である。ユーザへの応答方法の調整は、いわば副次的な情報伝達手段といえる。
次に、ユーザへの応答方法を何に基づいて調整するか、という点について考察する。
応答方法の調整の指標として用いる情報としては、何種類か考えられる。例えば、機器の内部処理がどれぐらいできているか、すなわち入力信号の処理状態を指標とすることが考えられる。
例えば、機器の処理がユーザに追いついていないとき、情報内容をユーザに提供するとともに、その提供方法を調整して、「もっとゆっくりと話して欲しい」「あなたが対面している機器はそんなに早く対応できる機器ではない」という言外のメッセージをユーザに伝えることができる。これにより、ユーザは、機器の処理が追いついていないことを意識的、無意識的を問わずに理解し、自然に機器への対応を変更することが予想される。例えば、情報提供方法として発話速度を調整するものとすると、機器の内部処理がユーザからの発話等についていけないとき、機器が自らの発話速度を下げる(ゆっくり話す)方向に調整すると、ユーザは、機器がついてきていないことを感じて、発話のテンポを落としたりすると考えられる。これは、上述の非特許文献3に示された人間同士のコミュニケーションにおける引込現象を、ユーザと機器との間でも成り立たせることを意図している。
なお、特許文献3では、ユーザの発話が早口すぎて誤認識された場合に、システム側からの発話をユーザの発話速度に比べてゆっくりした発話速度で行うことにより、もっとゆっくりした認識し易い発話速度で発話するように自然に誘導する旨が、開示されている。
また、入力信号から検出した、ユーザの状態や機嫌などの情報を基にして、ユーザへの応答方法を調整してもよいし、ユーザと機器のインタラクションの成立度合いに応じて調整してもよい。また、ユーザに関する知識を学習する機器であれば、その学習度合に応じて、応答方法を調整してもよい。
さらに、本願発明者らは、後述する実験等から、機器側から誘導を行ったとしても、ユーザは必ずしも機器の誘導に引き込まれない、という新たな知見を得た。そして、この新たな知見から、ユーザに対する自然誘導と、強制誘導とを、組み合わせて用いる構成が好ましい、と考えた。自然誘導と強制誘導とを組み合わせることによって、自然誘導できるユーザに対しては、ユーザに意識させないように誘導することができ、一方、自然誘導できないユーザに対しては、強制誘導により確実に誘導することができる。つまり、不快感を与えるような機会を最小限に抑えつつ、かつ、確実に、ユーザを誘導することができる。
すなわち、本発明は、ユーザとのやりとりを行うユーザ適応型装置において、ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を取得し、取得された入力信号を処理してユーザに関する情報を検出し、この検出結果を基にしてユーザへの応答内容を決定し、かつ、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、ユーザへの応答方法を調整し、決定された応答内容を、調整された応答方法によって出力するものである。そして、出力に対するユーザの反応を検出し、このユーザの反応に、調整した応答方法によって期待された変化がみられないとき、ユーザに変化を促すための応答内容を決定するものである。
本発明によると、入力信号を処理して検出されたユーザに関する情報から、ユーザへの応答内容が決定されるとともに、ユーザへの応答方法が、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、調整される。これにより、ユーザの行動や印象の変化を促すように、応答方法を調整することができるので、ユーザに対する自然誘導が実現でき、ユーザと装置との間で円滑なインタラクションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、ユーザに変化を促すための応答内容が決定されるので、強制的に、ユーザを誘導することができる。
従来の適応型インタフェースは、ユーザの状況を観察して、そのユーザに合わせることによって利便性の向上を図っていたが、本発明では、必ずしも常にユーザに適応できるわけではないことを考慮して、応答方法の調整によって、ユーザの機器に対する働きかけ方や印象の変化を促進するようにしている。これにより、従来ではユーザが不満に思うような状況であっても、ユーザの印象変化を促すことによってユーザの不満をやわらげることができ、円滑なインタフェースとしての役割を果たすことができる。
次に、ユーザの行動変化や印象変容を促進するために調整する、ユーザへの応答方法の例を示す。
機器が音声対話において発話を行うとき、発話速度、用いる語彙、イントネーションをユーザへの応答方法として調整する。
ロボット等の機器が「つかむ」「持ち上げる」「渡す」といったアクチュエータの動作を行うとき、アクチュエータの動作速度をユーザへの応答方法として調整する。
機器が有益な情報を推薦するとき、画面に表示したエージェントの形態、例えば顔の表情や服装をユーザへの応答法として調整する。
本発明によると、機器側からユーザへの応答方法を調整することによって、ユーザの機器に対する印象や行動の変化を促すことができるので、ユーザと機器とのより円滑なコミュニケーションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、強制的にユーザを誘導することができる。
本発明の第1態様では、ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置として、前記インタフェース部は、ユーザの発話を音声信号として取得する入力部と、前記入力部によって取得された音声信号に対して音声認識を行い、前記ユーザの発話内容を検出する入力処理部と、前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定する応答内容決定部と、前記ユーザごとの、当該ユーザ適応型装置の発話速度に影響を受けて当該ユーザ自身の発話速度が変化する適応特性に基づいて、前記応答内容決定部によって決定された発話内容の発話速度を調整する応答方法調整部と、前記応答内容決定部によって決定された発話内容を、前記応答方法調整部によって調整された発話速度によって、出力する出力部とを備えものを提供する。
発明の第2態様では、前記応答方法調整部は、前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する第1態様のユーザ適応型装置を提供する。
本発明の第3態様では、前記応答方法調整部は、前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を前記目標値に近づくように変更する第2態様のユーザ適応型装置を提供する。
発明の第4態様では、ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法として、前記ユーザの発話を音声信号として取得する第1のステップと、前記第1のステップにおいて取得した音声信号に対して音声認識を行い、前記ユーザの発話内容を検出する第2のステップと、前記第2のステップにおいて検出した前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定する第3のステップと、前記ユーザごとの、当該ユーザ適応型装置の発話速度に影響を受けて当該ユーザ自身の発話速度が変化する適応特性に基づいて、前記第3のステップにおいて決定された発話内容の発話速度を調整する第4のステップと、前記第3のステップにおいて決定した発話内容を、前記第4のステップにおいて調整した発話速度によって出力する第5のステップとを備えたものを提供する。
本発明の第5態様では、前記応答方法調整部は、前記ユーザの発話速度の目標値を、前記音声認識の認識性能が最も良い値に設定する第1態様のユーザ適応型装置を提供する。
本発明の第6態様では、前記応答方法調整部は、前記ユーザの発話速度の目標値を、前記音声認識の認識性能が適切に得られる範囲で、かつ、前記ユーザの発話速度の値からみて当該認識性能が最も良い発話速度の値よりも近い値に、設定する第1態様のユーザ適応型装置を提供する。
まず、本発明の主たる概念を、図1の構成図を用いて説明する。図1は本発明に係るユーザ適応型装置におけるインタフェース部10の構成の概要を示す図である。図1に示すようなインタフェース部10は、ロボットや情報端末などユーザ7に対して機能や情報を提供するユーザ適応型装置の一部として組み込まれる。そして、装置の他の構成部分に対してユーザ7に関する情報を提供し、また、他の構成部分からの出力を受けて、ユーザ7に応答する。
入力部1はユーザ7からの働きかけを入力する。ユーザ7からの働きかけとしては、発話、仕草、表情、スイッチやキーボード、マウスの操作、ユーザの生理的状態などが考えられる。入力部1は、これらの情報を機器に取り込むためのセンサが搭載されているか、または当該センサと通信可能になっており、ユーザの情報を、機器内部で処理可能な電気信号として取得する。すなわち、入力部1は、ユーザ7の動作、状態および要求のうち少なくとも1つを示す入力信号を取得する。
入力処理部2は、入力部1によって取得された入力信号を処理して、ユーザ7の状態や意図や要求といったレベルの表現に変換する。すなわち、ユーザ7の情報を検出する。
応答内容決定部3は、入力処理部2によって取得されたユーザの状態や意図や要求から、機器の反応を決定して出力部6に出力する。すなわち、入力処理部2による検出結果を基にして、ユーザ7への応答内容を決定する。
入力部1から、入力処理部2、応答内容決定部3および出力部6までの一連の処理の流れは、従来のインタフェースと同様のものである。これに対して本発明では、ユーザ7への応答方法を調整する応答方法調整部4が、設けられている。
応答方法調整部4は、ユーザ7への応答方法を調整する。すでに述べたように、ユーザ7に提供する情報やサービスの内容そのものと、その提供方法とは分けて考えることができ、比較的独立に制御可能である。本発明では、応答方法を変化させて、ユーザ側の適応を促すのが特徴の1つである。このときのユーザの適応は、意図的なものではなく、自然な反応の結果としてなされるものであり、その自然な反応を促すように応答方法を調整する。これにより、ユーザ7は、装置に対して不満を感じることがなくなり、円滑なコミュニケーションを装置と行うことができる。
ここで、応答方法の調整は、ユーザと装置との情報やサービスのやり取りが、どの程度円滑に行われているかに応じて、行うものとする。あるいは、ユーザの要求と機器の可能な動作とが一致している度合に応じて、応答方法を調整するものとする。
具体的には例えば、入力処理部2における処理状態に応じて行えばよい。例えば、ユーザと音声対話を行う装置の場合には、音声認識処理の処理状態に応じて、発話速度などの応答方法を調整する。音声認識処理の処理状態から、音声認識が順調に行われているか、ユーザとの音声対話が成立しているかどうかを検知することができる。
また、入力信号から検出されたユーザ7に関する情報に応じて、応答方法を調整してもよい。例えば、音声対話の場合には、出力した合成音声に対するユーザの反応(例えば、言葉が通じていないような兆候が見られるか)に応じて調整すればよいし、ロボットとの協調作業の例では、ロボットとユーザとの間の動作の協調度合(動作がずれなく行われているか)に応じて調整すればよい。
さらに、装置が、ユーザの好みなどユーザに関する知識を学習する機能を有する場合には、その学習度合に応じて、応答方法を調整してもよい。もちろん、これ以外の情報を基にして応答方法を調整してもよいし、複数の情報を組み合わせて判断してもよい。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第1の実施形態)
本発明の第1の実施形態では、音声対話機能を搭載した機器を例にとって説明を行う。本実施形態で想定しているのは、ユーザから音声によって働きかけることができ、機器の方からもユーザに対して合成音声によって働きかけることができる、いわゆる音声対話が可能な情報端末や家庭用ロボットなどの機器である。これらの機器では、人間同士のコミュニケーションと同様に、ユーザと機器との間でコミュニケーションをとりながら、ユーザに対して所望の情報やサービスを提供する。
一般に、ユーザが音声によって機器に話しかけるとき、なんらかの機器動作に対して期待を持つ。そして、機器が期待通りに動作している場合は、ユーザは機器を自然と利用できるが、一方、期待と異なる動作が多い場合は、ユーザは機器に対して不信感を持ってしまうと考えられる。現在、人型ロボットとユーザとの間では、音声によるコミュニケーションが必ずしも円滑に実現されていないが、その理由の1つとして、人型ロボットが、その外見や口調からユーザに期待されるほどには会話ができないことが挙げられる。これは、ネコ型や犬型のロボットでは、語彙や発話方法が限定されているにもかかわらず、ユーザとのコミュニケーションが成り立っているように見える現象とは対照的である。
まず、本実施形態が実現されたときのイメージを、図2および図3を用いて説明する。
図2はユーザが家庭用ロボットに荷物をとってきてもらう場合を概念的に示す図である。図2において、11はユーザ、12は本実施形態に係るインタフェース機能を有する家庭用ロボット、BX1,BX2,BX3は箱である。ユーザ11はロボット12に対して、音声によって要求を伝える。ここでは、ユーザ11は「白い箱BX1をとってくる」ことをロボット12に対して要求するものとする。ロボット12は音声によってユーザ11に応えるとともに、ユーザ11の要求に従った動作を行う。またロボット12は、ユーザ11の発話の認識度に応じて、自己の発話速度を調整する。
図3(a)は図2の状況における対話の例であり、Aはユーザ11の発話、Bはロボット12の発話である。図3(a)では、各発話内容について発話速度を示しており、またユーザ11の発話Aについては、ロボット12の認識処理の良さを表す認識度を示している。図3(b)は発話速度と認識度との関係を示すグラフである。ここでは、説明の簡易化のために、発話速度と認識度には便宜的な数字を与えている。
まず、ユーザ11が「箱を持ってきて」とロボット12に要求する。このときの発話速度は100であり、認識度は60であったとする。一般に音声認識処理では、認識性能が最も発揮できる適切な発話速度があり、図3(b)の関係によると、認識性能が最も良いのは発話速度が90付近である。ここで、発話速度の目標値を90と設定する。現在のユーザ12の発話速度はこの目標値よりも高いため、ロボット12は、ユーザ12の発話速度を下げるような方策を採る。ここでは、ユーザ11の適応を促すべく、ロボット12自らの発話速度を、目標値の90よりも低く、80に下げる。
また、ロボット12は、どの箱BX1,BX2,BX3を持っていけばよいのか特定できないので、どの箱を持ってきて欲しいかを確認するための発話内容を作成する。この結果、ロボット12はユーザ11に対して、「どの箱ですか?」と発話速度を80にして問いかける。
ロボット12の問いかけに対して、ユーザ11は「白い箱です」と答える。このときユーザ11は、ロボット12の発話速度に影響されて、自分では特に意識することなく、発話速度を低下させる。この結果、発話速度が90に変化し、認識度は80に大きく改善される。すなわち、ロボット12からユーザ11に対して、発話内容が伝達されるとともに、認識処理が良好に行えるような働きかけがなされる。
ロボット12は、ユーザ11から要求されたタスクが「白い箱BX1をとってくる」ことであることを正確に認識し、白い箱BX1の受け渡しを、「はいどうぞ」と言いながら行う。このとき、ユーザ11の発話速度は認識処理が良好に行える適切な値になっており、適応促進の必要がなくなったので、自己の発話速度をユーザ11と同じ90に調整する。
以後、ユーザ11とロボット12は、認識処理に適切な発話速度で互いにコミュニケーションが取れるようになる。また、ユーザ11の発話速度に変化が見られ、認識度が低下した場合は、適宜、上述したように、発話速度を調整すればよい。このように、ユーザ11から要求されたタスクをこなしつつ、自己の発話速度を調整してユーザ12の発話速度を適切な範囲に制御することによって、認識処理が常に適切に行えるようにシステムを維持することができる。
なお、上述したように、ユーザの発話速度が目標値よりも高いときは、システム側の発話速度をこの目標値よりも低く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。また、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。
また、ユーザの発話速度が、逆に、目標値よりも低いときは、システム側の発話速度をこの目標値よりも高く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。この場合も、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。
また、ユーザの発話速度の目標値は、必ずしも機器側の都合のみによって決定されるものではない。後述するように、発話速度には個人差が大きいので、発話速度の目標値は、ユーザに応じて決定するのが好ましい。すなわち、認識性能が適切に得られる範囲内で、ユーザの発話速度に近い値に目標値を設定することによって、ユーザが機器の発話に対して違和感を感じないような発話速度の誘導が可能となる。例えば、発話速度がとても遅い人には、機器側の最適値ではなく、認識性能が得られる発話速度の範囲の下限付近に、目標値を設定すればよい。また、発話速度が速い人には、認識可能な発話速度の範囲の上限付近に、目標値を設定すればよい。
以下、本実施形態に係る制御方法について、具体的に説明する。図4は本実施形態に係るユーザ適応型装置におけるインタフェース部20の構成を示すブロック図である。上述の例では、図4に示すインタフェース部20がロボット12に内蔵されている。図4において、認識状態検出部24および話速決定部25が、応答方法調整部に相当しており、また、音声入力部21、音声認識部22、発話内容決定部23および音声出力部26が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。
音声入力部21はユーザ11からの音声入力を取得する部分であり、通常は、音声を取得するためのマイク等によって構成される。ユーザ11が発した音声は、音声入力部21によって、インタフェース部20内部で処理可能な電気信号に変換される。
音声認識部22は音声入力部21によって取得された音声の電気信号を処理して、ユーザ11の発話内容に変換する。すなわち、いわゆる音声認識処理を行う。発話内容決定部23は、音声認識部22によって処理された音声認識結果を基にして、ユーザ11に対する発話内容を決定する。発話内容決定部23には、例えば、「ありがとう」に対して「どういたしまして」、「〜はどこにありますか」に対して「〜にあります」など、各種の対話例が、ルールや知識ベースとして格納されている。
認識状態検出部24は音声認識部22から認識状態に関する信号を取得し、認識状態の良否を検出する。ユーザ11の発話は、必ずしも音声認識処理しやすいものばかりではないので、その処理結果は誤りを含むことが多い。また、大抵の音声認識処理では、その処理結果に対する信頼度を表す信号が得られる。例えば、ニューラルネットワークを利用した音声認識では、各認識結果の候補とともに出力される出力値を、各認識結果に対する信頼度として扱うことが可能である。この出力値が0〜1の範囲で得られるとき、例えば出力値が0.9のときは、その認識結果は間違っていないことが多く、逆に出力値が0.5のときは、認識結果の信頼度は低いがとりあえず出力されている、といったことが読み取れる。認識状態検出部24は、音声認識部22から得られるこのような値から、認識状態の良否の程度を算出する。
話速決定部25は、認識状態検出部24が算出した認識状態の程度を基にして、ユーザ11に対する発話の発話速度を決定する。具体的には例えば、インタフェース部20に内部パラメータとして記憶されている発話速度の値を、調整する。音声認識処理では、一般に、認識率が最も高くなる適切な発話速度が存在し、これから離れるにつれて認識率が低下することが知られている。
音声出力部26は例えば、D/A変換部を含む回路部とスピーカとによって構成されており、発話内容決定部23によって決定された発話内容を示す合成音声を、話速決定部25によって決定された発話速度に従って作成し、出力する。
図4の構成の動作を、図5のフローチャートを用いて説明する。
ユーザ11が発話すると、まず音声入力部21によって、その音声を取得し、電気信号に変換する(S11)。そして、音声認識部22によって、ステップS11において生成された電気信号を用いて音声認識処理を行う(S12)。
次に、認識状態検出部24が、音声認識部22から取得した信号を基にして、音声認識の認識状態が良いか否かを判断する(S13)。ここでの判断は例えば、音声認識処理において特定された複数の認識候補に係る、例えば上述したニューラルネットワークにおける出力値のような信頼度を表すデータの、ばらつき具合を基にして行う。すなわち、特定の候補のみの信頼度が高い場合は、認識状態が良いと判断し、一方、どの候補の信頼度も低い場合は、認識状態が悪いと判断する。また、認識処理そのものが成功せずに認識候補が得られない場合も、認識状態が悪いと判断する。
ステップS13において、認識状態が良いと判断されたときは、ステップS14に進む。ステップS14では、話速決定部25において、適応促進のための発話速度の制御を行わないものとする。すなわち、例えば発話速度を、前回設定された値と同じ値にしたり、ユーザの発話速度に合わせたりする。ユーザの発話速度に合わせるのは、コミュニケーションが良好な場合は、ユーザも装置も発話速度は似ていると推測されるからである。
一方、認識状態が悪いと判断されたときは、ステップS15に進む。ステップS15では、認識状態検出部24によって、ユーザ11の発話速度が速すぎるか否かが判断される。すなわち、音声認識部22における認識状態からユーザ11の現在の発話速度を計算し、この発話速度をインタフェース部20が予め記憶している最適な発話速度と比較する。そしてユーザ11の発話速度の方が速いときは(Yes)、話速決定部25が発話速度を現在の設定よりも遅くする(S16)。一方、ユーザ11の発話速度の方が遅いときは(No)、話速決定部25が発話速度を現在の設定よりも速くする(S17)。発話速度の調整は、例えば、現在の発話速度に対して一定量を減じたり加えたりすることによって、または、1よりも小さな、若しくは大きな一定量を乗じたりすることによって、実現できる。
ステップS14,S16,S17によって発話速度が調整された後、または、発話速度の調整と並行して、発話内容決定部23が、音声認識部22によって認識されたユーザ11の発話内容に対する応答内容を決定する(S18)。そして、音声出力部26は、発話内容決定部23によって決定された発話内容を、話速決定部25によって決定された発話速度でユーザ11に対して出力する(S19)。
上述した動作をユーザ11から見ると、ユーザ11の発話に対して、装置の音声応答の発話速度が若干変化することになる。ユーザ11は、装置との音声対話に際しても、人間同士のコミュニケーションの際に見られるような引き込み現象によって、装置の発話速度に合わせて、自分自身の発話速度を自然に落としたり速めたりすると考えられる。このような発話速度の変化は、ユーザ11が自分で意識的に行うものではない。すなわち、ユーザ11には何ら意識させずに、自然にその発話速度を制御することができ、これにより、認識が容易な発話入力を得ることができるので、認識率も向上し、対話を円滑に進めることができる。
従来の音声対話型のインタフェースでは、音声認識ができない場合、「もう一度お願いします」とか「ゆっくり話してください」等の発話を行い、ユーザに対して、意識的に装置に合わせて話をするように促す対応をしていた。このため、それまでの対話の流れが中断されてしまい、ユーザにとって利用しにくい面があった。
これに対して本実施形態によると、ユーザの発話が不明瞭なときでも、応対は継続しながら発話速度を調整することによって、ユーザに意識させることなく発話速度の変化を促して、コミュニケーションを円滑にすることができる。このとき、ユーザは機器に対して何かしら意図的に適応する必要はなく、ユーザが他の人と自然に行っている相互引込のプロセスが実現されている。したがって、ユーザと機器との音声対話を、ユーザに負担をかけることなく、円滑に行うことができる。
なお、本実施形態では、ユーザへの応答方法の調整として、発話速度を調整するものとしたが、本発明はこれに限られるものではない。例えば、発話語彙を調整してもよい。発話語彙の調整によって、ユーザが発話内容を聞いたときの印象を変化させることができる。語彙を変化させるパターンの例としては、例えば子供の話す語彙と大人の話す語彙、丁寧度合の異なる語彙(例えば、丁寧な話し方と乱暴な話し方)、親密度合の異なる語彙(親しげな話し方とビジネスライクな話し方)などが考えられる。
また、発話のイントネーションを調整してもよい。イントネーションの調整によって、同じ文言であっても、ユーザの話し方をゆっくりにしたり、穏やかにしたり、落ち着かせたりすることが、引き込みによって可能になると考えられる。もちろん、発話速度、語彙、イントネーションなどの応答方法の全部または一部を組み合わせて、調整してもよい。
また、応答方法の調整によって、必ずしも、ユーザの反応がシステム側の想定通りに変化するとは限らない。例えば、後述する実験の結果から示唆されるように、人とシステムとの対話において、システム側が発話速度を調整しても、一部のユーザは自分の発話速度を変化させない。したがって、応答方法を調整してもユーザの反応が期待したようには変化しない場合は、直接的にユーザに要求を伝えるような出力を行うのが好ましい。
すなわち、入力処理部2は、出力部6の出力に対するユーザ7の反応を検出し、ユーザ7の反応に、応答方法調整部4によって調整された応答方法によって期待された変化がみられないときは、応答内容決定部3に対し、ユーザ7に変化を促すための応答内容を決定するよう、指示するのが好ましい。例えば、発話速度を変化させてもユーザ7の発話速度に変化が見られない場合は、入力処理部2は、発話速度の変化を促すような応答内容を決定するよう、応答内容決定部3に指示する。この指示を受けて、応答内容決定部3は、ユーザ7との対話を成立させるための発話内容に加えて、例えば「もう少しゆっくり話していただけませんか?」などといったメッセージを追加する。これにより、発話速度を下げてほしい、というようなシステム側の要求を、ユーザ7に対して直接的に伝えることができる。
人間が応答方法の調整によって影響を受けることを実証するために、次の2つの実験を実施した。ここでは、対話における発話速度に着目し、人と人が対話しているときに相手の発話速度の影響をどの程度受けるか(実験1)、人と機器が対話しているときに機器の発話速度の影響をどの程度受けるか(実験2)、という2つの実験を行った。
<実験1>
実験1では、人同士の対話状況を観察し、その発話速度を記録・解析することによって、被験者の発話速度が相手の発話速度によって変化するのかを観察した。実験には、大学生を中心に10人に被験者として参加してもらった。
まず、各被験者にニュース原稿の朗読などの単独発話をしてもらい、そのときの発話速度を、相手の影響を受けていないという意味で、その被験者の標準的な発話速度とした。なお、発話速度は、1秒間に発声される文字数(発話音声に含まれる文字数÷発話に要した時間)によって算出することとした。
図10は各被験者の標準的な発話速度を示す。図10から分かるように、実験に参加した被験者群では、発話速度は6.88文字/秒〜10.69文字/秒まで分布しており、発話が遅い人と早い人との差は1.5倍以上あり、かなりのばらつきが見られる。発話速度の平均は8.84文字/秒である。
次に、被験者同士の対話実験を行った。実験に用いる対話文として、英会話等の語学教材に使用されるような9つの文例を用意した。各文例では、先に発話をするAさん役とAさんに応答して発話を行うBさん役とが設定されており、AさんとBさんの発話が交互に数回ずつ含まれている。このような文例を用いることによって、発話内容のやりとりとともに、発話方法(この実験では発話速度)の情報についてもやりとりが生じるので、その影響を観察することができる。
実験では、被験者10人を2人ずつに分け、その2人の間でAさん役とBさん役を設定して対話文例を読み上げてもらい、その対話を録音した。次に、被験者の組み合わせを変えて、各被験者が、別の相手と別の対話文を読みようにした。1人の被験者から見ると、9人の相手と、内容が異なる9つの文例を読むように、順番を設定した。この結果、毎回5組の対話データが得られ、被験者の組み合わせを変えた9回の対話を行うことによって、合計45対話の記録を得ることができた。個人ごとに見れば、計90発話のデータを得ることができた。
そして、録音した対話データから、発話速度を算出した。このとき、対話中において発話速度はわずかながら変化しているので、対話中の発話速度の平均を求め、これを各対話における被験者の発話速度とみなした。したがって、この実験では、一回の対話中における発話速度の変化は考慮していない。
図11に示すように、発話速度の変化を、相手に対してどのように変化したか、という観点から4とおりに分類した。ここで、自分(Aさん)の普段の発話速度をVda、相手(Bさん)の普段の発話速度をVdb、対話文例nの時の自分の発話速度Vna、対話文例nの時の相手の発話速度をVnbとする。図11では、上下方向に発話速度の軸をとっており、その軸上に発話速度Vda、Vna、Vnbの位置を示している。
事例1(a):自分よりも発話速度の速い相手との対話(Vda<Vnb)において、自分の普段の発話速度よりも速く発話(Vda<Vna)した。
事例2(b):自分よりも発話速度の速い相手との対話(Vda<Vnb)において、自分の普段の発話速度よりも遅く発話(Vda>Vna)した。
事例3(c):自分よりも発話速度の遅い相手との対話(Vda>Vnb)において、自分の普段の発話速度よりも速く発話(Vda<Vna)した。
事例4(d):自分よりも発話速度の遅い相手との対話(Vda>Vnb)において、自分の普段の発話速度よりも遅く発話(Vda>Vna)した。
発話速度の軸における、自分の発話速度Vda,Vnaと相手の発話速度Vnbとの位置関係によって、相手に合わせたかどうか、どの程度合わせたかを求めることができる。発話速度は、引き込み現象が発生すると考えた場合、相手と同調する方向に変化するはずであり、上の4通りの事例のうち事例1と事例4が、相手に同調する方向に変化した場合である。また自分の発話速度の変化量は、(Vna−Vda)で求められる。
そこで、本願発明者は、次のような引き込み判別式を作成した。
D=sign(Vnb−Vda)×sign(Vna−Vda)×abs(Vna−Vda) …(数1)
ここで、signはプラスやマイナスの符号のみを抽出する関数、absは絶対値を抽出する関数である。D>0のときは、発話速度が相手と同調したことを示し、D<0のときは、発話速度が相手と同調しなかったことを示す。また、Dの値の大小は、発話速度がどの程度同調したかを示す。
図12は実験1で得られた発話データについて上の判別式Dの値をプロットしたグラフである。図12において、横軸は被験者ID、縦軸は判別式Dの値で単位は(文字/秒)である。例えば、被験者3(横軸上)が被験者6と対話したとき、判別式D=2であった。すなわち、被験者3は被験者6に対して、2[文字/秒]分だけ同調した、と考えられる。
図12から分かるように、多くの発話において、発話速度が相手に合わせるように変化している。実験で取得された90発話のうち、57発話(63%)において、D>0となっている。また、この90発話で構成される45対話のうち、被験者がお互いに相手に合わせようとしている場合(お互いのDの値が正だった場合)は18対話(40%)、Aさん役はBに合わせようとしているがBさん役が合わせていない場合は10対話(22%)、その逆が11対話(24%)、お互いが合わせていない場合が6対話(13%)であった。よって、ほとんどの対話において、いずれかの被験者の発話速度が相手に合わせる方向に変化していたことが観察された。
なお、一部の発話において、相手に合わせるような変化が見られなかった原因としては、例えば、対話文例の中に「えーっと」など普通の読上げ速度と異なる速度で読む単語が含まれており、発話速度が的確に算出できなかったこと、被験者によっては相手の発話速度による影響を受けにくい人がいること、などが考えられる。
このように、実験1における人同士の対話実験によって、被験者は普段、様々な読上げ速度で文章を読んでいるにも関わらず、その発話速度が、対話相手の発話速度に合わせるように変化することが多いことが確認された。また、この現象は、対話文の内容によらずに見られることも分かった。さらに、被験者によって適応特性などが異なることも見受けられたことから、被験者ごとの適応特性なども考慮することによって、さらに適応が促進されると考えられる。
<実験2>
上述の実験1では、人同士の対話における発話速度の適応を観察したが、次に、人が自動応答システムと対話を行った場合に、その発話速度がどの程度変化するかを観察した。実験には、大学生を中心に6人に被験者として参加してもらった。
この実験で使用された自動応答システムは、ユーザの発話の終了を検出した後に、予め録音しておいた音声ファイルを再生することによって、被験者との対話を実現するものである。システムが再生する音声として、一人の女性が単独で対話文を朗読している際の音声を録音したものを用いた。この録音した音声から音声編集ソフトウェアを用いて、ピッチ値を保ったまま時間方向に対して80%・120%に伸縮した音声を作成した。これによって、発話時間を80%に変換したファイルが発話速度が最も高くなり、順に80%(速い発話、High)、100%(録音そのまま、Middle)、120%(遅い発話、Low)の三種類の発話速度の音声ファイルが用意された。
被験者には、自動応答システムと三種類の対話を行うというタスクが与えられた。対話文として、実験1で用いた9つの対話文のうちの対話2,5,9を用いた。これらの対話文は、実験1において被験者にとって発話速度の同調が見られやすかったものである。また、被験者には対話文におけるBさんの役割が、対話システムにはAさんの役割が与えられた。
図13は実験2における対話順序を示す表である。図13において、各欄の最初の数字は、対話文の番号、HMLの記号は発話速度を表している。Mが録音ファイルそのままの速度、Lは遅い発話、Hが速い発話を示す。例えば「2−H」は、対話文2のH(速い発話)と対話したことを表す。また図13に示すように、各被験者にとって、対話文の内容は毎回違うものにした。
図14は実験2で得られた発話データについて上の判別式Dの値をプロットしたグラフである。この図14から、ほとんどの対話において、被験者の発話速度がシステムに合わせていることが分かる。実験で取得された18対話のうち、16対話において、判別式D>0となっている。
以上の二つの実験から、人間は、相手が実際の人間であっても、自動応答システムから流される音声であっても、その対話の内容によらず相手の発話速度に合わせるように、自分の発話速度が影響される、と考えることができる。また、この発話速度の変化は、特に意識されなくても起きていると考えられる。
(第2の実施形態)
本発明の第2の実施形態では、ユーザとの協調動作を行うロボットを例にとって説明を行う。家庭等において利用されるロボットは、情報端末やソフトウェアエージェントと異なり、ユーザとのインタフェースとしては、言語や情報のやり取りの他に、物理的な物体のやりとりや共同作業も行う。この場合、機器(ロボット)からユーザに提供するものとしては、情報以外にも、物の操作、ジェスチャ、作業などが考えられ、これらを本実施形態では「動作」と呼ぶ。この「動作」についても、動作自体が提供する機能の他に、動作をどのように提供するかという「方法」の側面があり、この「方法」によっても、ユーザが受け取る印象は大きく変化する。本実施形態では、「動作」を提供する「方法」を調整することによって、ユーザの適応を促す例について説明する。
また、第1の実施形態では、機器内部における音声認識の状態に応じて、発話速度を調整した。これに対して本実施形態では、動作「方法」を調整する際に、外部に出力した「動作」とユーザの動作とのずれ、または協調度合を参照する点が、第1の実施形態と大きく異なっている。
次に、動作を提供する方法について追加説明する。通常の使用の場合は、協調動作がスムーズに行われるためには、ロボットも、ユーザの動作速度と同じような速度で動作することが必要になる。しかしながら、ユーザがかなり速い動作をしていて、これと同速度の動作が機構等の制約からロボットの能力を超えている場合や、例えば熱いお茶や刃物を渡すときなど、ユーザと同等速度で動作すると安全が確保できない場合は、ロボットは、ユーザと同等速度に動作するのではなく、ロボットが要求する理想的な動作速度になるように、ユーザの適応を促進させる必要がある。これによって、ユーザは、ロボットの動作速度に対して、常に不満を持つことなく、協調的な行動をとることができる。
また、動作速度を調整することによって、スムーズな協調動作を実現できるだけでなく、ユーザに対して様々な印象を副次的に与えることができる。例えば、速い動作は、「きびきび動いていて頼もしい」というような印象を与え、逆に、ゆっくりとした動作は「落ち着いている」というような印象を与えることができる。
また、ロボットの動作速度はユーザの行動速度に影響を与える。すなわち、人間同士なら互いに引き込まれる性質の動作であれば、ロボットとユーザの間でも引き込みが起こりうる。例えば、物を渡すというタスクは、ロボットがゆったりとした動きで物を渡せば、このロボットのゆったりとした動きに影響されて、ユーザの方もゆっくりとした動作で物を受け取ると考えられる。
以下、図6および図7を用いて、第2の実施形態について説明する。
図6は本実施形態に係るユーザ適応型装置としてのロボットにおけるインタフェース部30の構成を示すブロック図である。ここでは、自律的に移動する能力とアームによる物体操作能力とを持ち、自ら移動して物を動かすことができるロボットを想定している。図6において、状態入力部31および動作入力部33が入力部に相当し、動作ずれ認識部35および動作速度決定部36が応答方法調整部に相当している。また、状態認識部32、動作内容決定部34および動作出力部37が、入力処理部、応答内容決定部および出力部に、それぞれ対応している。
状態入力部31はロボットに向き合っているユーザ11の状態を取得する。ユーザ11の状態とは、ロボットへのジェスチャによる指示や、表情や、行動などを指す。状態入力部31は例えば、ユーザ11を撮影するためのカメラや、発話を入力するためのマイクなどによって構成されており、また、ユーザ11の生理的状態を測定するセンサ(3次元位置センサ、発汗センサ、脳波計など)との通信が可能になっているのが好ましい。
状態認識部32は状態入力部31によって取得された信号を処理して、ユーザ11の状態を認識して出力する。その出力内容は、ユーザ11のロボットに対する要求内容や、疲れている、楽しいなどといったユーザ11の生理的状態などである。動作内容決定部34は状態認識部32の出力を受けて、どんな機能や動作をユーザ11に対して実際に出力するかを決定する。
動作入力部33は、ロボットとユーザ11との協調動作が良好に行われているか否かを判定するために設けられており、ユーザ11の動作を映すカメラや、ロボットハンドに装着された圧力センサ等によって構成されている。なお、動作入力部33を構成するカメラなどの要素は、状態入力部31と共用されてもかまわない。
動作ずれ認識部35は、動作入力部33の出力を受けて、ユーザ11とロボットの動きのずれを認識する。このずれは、ユーザ11とロボットとの間の動作の協調度合を示す指標として用いられる。
例えば、ユーザが「雑誌を取って」とロボットに頼み、ロボットが指定された雑誌を取ってきてユーザに渡す動作を考える。この場合、ロボットが雑誌を持った手を差し出す動作と、ユーザが雑誌を受け取るために手を差し出す動作とで、そのスピードとタイミングが一致しているとき、スムーズな雑誌の受け渡しが実現できる。もし、互いの動作のスピードが一致していないときは、ユーザは雑誌を受け取るという単純な動作でも、ストレスや不満を感じることが予想される。具体的には、もしロボットの手の動作がユーザの動作よりもかなり速いときは、ユーザは危険を感じて手を出すどころか思わず手を引っ込めてしまうだろうし、逆にロボットの動作がかなり遅いときは、ユーザは出した手を、雑誌が手元に来るまで止めたままで待たなければならない。
同様に、例えば、ユーザが「これ片付けておいて」とコップをロボットに渡す場合も、互いの動作のスピードやタイミングがずれていると、スムーズな受け渡しができない。
このようなユーザの不満につながる動作のずれを認識するのが、動作ずれ認識部35である。具体的には、カメラ画像からユーザとロボット自身の動作速度を測定したり、ロボットが物を渡す動作を完了してからユーザが物を受け取るまでの時間を測定したりすることによって、互いの動作のずれは認識できる。ユーザが物を受け取ったことは、ロボットハンドに装着された圧力センサ等で検出可能である。
動作速度決定部36は、動作ずれ認識部35によって認識されたユーザとロボットとの動作のずれと、状態認識部32から認識されたユーザの状態を用いながら、ロボットにとってどのようなスピードが理想的であるか、どんな印象を与えたいか、安全の観点からはどのようなスピードが理想的であるか、などを勘案して、目標の協調動作速度を決定する。動作出力部37は、動作内容決定部34によって決定された動作や機能を、動作速度決定部36によって決定された動作速度によって、ユーザ37に対して出力する。
図7は図6の構成の動作を示すフローチャートである。図7のフローを上述の第1の実施形態における図5のフローと比較すると、ユーザとのインタフェースが、動作によるものか、音声(会話)によるものかという相違はあるが、基本的な流れはほぼ同様である。ただし、図7では、ユーザとロボットの協調動作における動作のずれを認識するステップS23を含む点が、図5と異なる。すなわち本実施形態では、ロボットとの動作の協調度合を判定すべく、ロボットにとっての理想的な動作速度と現在のユーザの動作速度とのずれを認識するステップS23を有し、その動作のずれに応じて、ロボットの動作速度を調整するようにしている。
以上のように本実施形態によると、ユーザとロボットが協調動作を行う際に、互いの動作のずれからロボットの動作速度を調整することによって、よりスムーズな協調動作を実現することができる。
(第3の実施形態)
本発明の第3の実施形態では、ユーザに情報を推薦する情報端末を例にとって説明を行う。本実施形態では、情報端末の画面にエージェントを表示して、このエージェントがユーザの好みに応じた情報を音声によって提示するものとする。
また、第1の実施形態では、音声認識の状態に応じて発話速度等の出力方法を調整し、第2の実施形態では、ユーザとロボットの協調作業における動作のずれに応じて動作速度等の出力方法を調整した。これに対して本実施形態では、情報端末側でユーザの嗜好モデルを学習するものとし、その学習度合に応じて、エージェントの形態(見た目)や語彙等の情報の提供方法を調整するものとする。すなわち、外部から得たユーザに関する知識の量を、提供方法の調整に反映させる点が、第1および第2の実施形態とは異なっている。
まず、本実施形態が実現されたときのイメージを、図8を用いて説明する。
図8は情報端末からユーザに対してエージェントによってレストラン情報を提供する場合を概念的に示す図である。図8において、13は本実施形態に係るインタフェース機能を有する情報端末、14は表示画面、15A,15Bはエージェントである。同図中、(a)はユーザの嗜好モデルがあまり学習されていないときの状態、(b)はユーザの嗜好モデルが学習された後の状態である。
情報端末13では、ユーザとのやり取りの中から、ユーザの嗜好モデルを学習する。学習の初期段階では、嗜好モデルはまだ十分には学習されていないため、ユーザがどのような推薦情報を好むか明確には分からない。このため、ユーザが情報推薦機能に対して過大な期待を持っていると、推薦されたものが気に入らないとき、落胆する度合が大きくなる。
図8(a)の例では、幼児のような外見のエージェント15Aを画面14に出し、発話の語彙も「おいしいでちゅよ」と幼児語にしている。すなわち、あたかも幼児が推薦するかのように情報提供方法を調整することによって、ユーザが仮に推薦情報を気に入らない場合でも、情報端末13に対する印象をさほど悪くならないようにしている。これにより、ユーザが怒ったり不愉快になったりすることが少なくなると考えられる。
逆に、図8(b)に示すように、ユーザとのやり取りによってその嗜好モデルが学習された後は、情報端末13は、ユーザの嗜好に合った情報をいわば自信を持って推薦することができる。この場合は、かしこまった服装の大人の外見のエージェント15Bを画面14に出し、発話の語彙も「○○様にふさわしいレストランです」という秘書や執事のような言葉遣いにする。このときに幼児のような表現では、推薦内容に対する信頼を損なう可能性もある。
このように、ユーザの嗜好モデルの学習度合に応じて、エージェントの外見や語彙といった情報提供方法を調整することによって、ユーザの印象の変化を促すことができる。これにより、推薦情報が適切でない可能性があるときは、ユーザの不満を和らげるような方法によって情報提供を行い、情報提供サービスの信頼を失わないようにするとともに、推薦情報が適切であるときは、ユーザの受容度を高めることができる。
図9は本実施形態に係るユーザ適応型装置としての情報端末におけるインタフェース部40の構成を示すブロック図である。図9において、処理状態検出部43および応答方法決定部46によって、応答方法調整部が構成されている。また、入力部41、入力処理部42、情報内容決定部45および出力部47が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。
図9において、入力部41はキーボードやタッチパネル、マイク等を通してユーザからの働きかけを受け付ける。入力部41はユーザ11の発話や指示を電気信号に変換する。また入力部41は、後述の出力部47から出力された情報に対するユーザの反応も取得する。入力処理部42は、入力部41からの信号を受けて、ユーザ11の要求内容を判定する。またユーザ11が喜んでいるか、うれしく思っているかなど、出力部47から出力された情報に対するユーザ11の反応に関する情報も取得する。
処理状態検出部43は、入力処理部42の出力を受けて、記憶部44に格納されているユーザ11の嗜好モデルを更新する。例えば、ユーザからの要求内容と、ユーザに提供した情報内容と、そのときのユーザの反応とを、併せて記憶する。単純に、過去の履歴を記憶するようにしてもよいし、カテゴリー化して記憶してもよい。すなわち、記憶部44に蓄えられた嗜好モデルは、ユーザ11とのやりとりを重ねることによって、徐々に精度の高いものに変化していく。
情報内容決定部45は、入力処理部42によって判定されたユーザ11の要求内容と、記憶部44に格納された嗜好モデルとから、今回のユーザ11の要求に対する出力内容を決定する。
応答方法決定部46は記憶部44に格納された嗜好モデルの学習度合に応じて、語彙やエージェントの外見といった情報の提供方法を調整する。すなわち、嗜好モデルが、ユーザの好みをどの程度正確に反映しているかによって、情報の提供方法を調整する。そして、出力部47は、情報内容決定部45によって決定された情報内容を、応答方法決定部46によって決定された提供方法によって、出力する。
ここでは、情報の提供方法の調整によって、ユーザ11に対して自分がどの程度ユーザ11の好みを把握しているかを間接的に示すものとする。すなわち、ユーザ11の好みがまだ正確には把握できておらず、推薦する情報が必ずしも適切ではない可能性が高いときは、それを提供方法の調整によって伝える。例えば、「〜などはいかがでしょうか」というような言い回しを用いる。反対に、ユーザ11の好みがきちんと学習できているときは、それも提供方法の調整によって伝える。例えば、「〜がぴったりだよ」などといった語彙を用いる。
人間同士のコミュニケーションにおいても、初対面でお互いによく知らない者同士の対話の語彙と、旧知の仲の者同士の語彙とではかなり違っている。また、語彙の用い方によって、「親しみやすい」「よそよそしい」などという印象も相手に与えてしまう。
従来の手法でも、ユーザに親しみを感じてもらうために、親しげな話し方を導入したものもある。ところが、本実施形態で示したようなユーザの嗜好を学習する情報端末では、学習初期には、ユーザの期待通りの情報を提供することが困難なために、親しげな話し方がユーザの不興を買い、かえって逆効果になってしまうおそれがある。また、学習が進んだにもかかわらず、いつまでも丁寧に応答していると、ユーザが親しみを感じないことも予想される。
そこでここでは、ユーザの嗜好が十分に学習できていない初期の段階では、初対面の人間同士が用いるような語彙で情報推薦を行う。これにより、仮に推薦情報が適切でなくても、お互いのことをよく知らないために起きたことであり、しょうがないと理解してもらえる。また、ユーザの嗜好が十分に学習できた後は、親しげに情報推薦することによって、装置に対して親しみを感じてもらうことができる。
また、語彙以外でも、例えば、CGで作成して画面に表示したエージェントの外見を、学習初期では、フォーマルな格好をして登場させ、学習が進むにつれてカジュアルな格好に変化させるようにしてもよい。この場合も、ユーザが受ける印象が変化して、スムーズなコミュニケーションが実現できると考えられる。
このように本実施形態によると、ユーザに提供できる情報推薦のレベルや、ユーザに関する知識の量に応じて、情報の提供方法を調整することによって、仮に推薦情報があまり適していないときでも、ユーザは自然に受け入れることができる。これにより、ユーザは情報端末側の学習過程を特に意識することなく、機器と自然に相互動作を繰り返すうちに、ユーザの好みが次第に学習される。
なお、本実施形態では、情報推薦を例にとって説明を行ったが、それ以外でも例えば、ユーザが情報端末から対話によって情報を取得する場合でも、応用可能である。
また、各実施形態で示したインタフェース部における機能や処理は、ハードウェア若しくはソフトウェア、またはこれらの組合せによって実現することができる。
なお、上述の実施形態では、個別の事例として説明したが、家庭用ロボットなどの高度な機能を持つ機器は、音声対話能力、協調作業能力、情報推薦能力その他を併せて持つことができ、同時並行的に、または統合的に、ユーザへの応答方法を調整することができる。複数の応答方法を同時に調整することによって、ユーザはより自然なコミュニケーションを取ることができるようになる。
本発明では、機器とユーザとのコミュニケーションがより円滑になるので、ユーザインタフェースを有する機器全般、特に、ユーザ側の適応を促すのが効果的と考えられる家庭用ロボット、情報端末、家電機器などに有用である。
本発明の構成の概念図である。 第1の実施形態のイメージ図であり、ユーザが家庭用ロボットに箱をとってきてもらう場合を示す図である。 (a)は図2の状況における対話の例、(b)は発話速度と認識度との関係を示すグラフである。 本発明の第1の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 図4の構成の動作を示すフローチャートである。 本発明の第2の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 図6の構成の動作を示すフローチャートである。 第3の実施形態のイメージ図であり、情報端末からユーザに対して情報推薦を行う場合を示す図である。 本発明の第3の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。 実験1において得られた、各被験者の文章読み上げの単独発話時の発話速度である。 発話速度の変化の分類を示す模式図である。 実験1の結果を示すグラフである。 実験2における対話順序である。 実験2の結果を示すグラフである。
符号の説明
1 入力部
2 入力処理部
3 応答内容決定部
4 応答方法調整部
6 出力部
7,11 ユーザ
10 インタフェース部
12 ロボット
13 情報端末
14 画面
15A,15B エージェント
20 インタフェース部
21 音声入力部
22 音声認識部
23 発話内容決定部
24 認識状態検出部
25 話速決定部
26 音声出力部
30 インタフェース部
31 状態入力部
32 状態認識部
33 動作入力部
34 動作内容決定部
35 動作ずれ認識部
36 動作速度決定部
37 動作出力部
40 インタフェース部
41 入力部
42 入力処理部
43 処理状態検出部
44 記憶部
45 情報内容決定部
46 応答方法決定部
47 出力部

Claims (11)

  1. ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置であって、
    前記インタフェース部は、
    ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を、取得する入力部と、
    前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、
    前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する応答内容決定部と、
    前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、
    前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によって調整された応答方法によって、出力する出力部とを備え、
    前記入力処理部は、
    前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、
    前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定するよう、指示するものである
    ことを特徴とするユーザ適応型装置。
  2. 請求項1において、
    当該ユーザ適応型装置は、ユーザと音声対話を行うものであり、
    前記入力部は、前記ユーザの発話を音声信号として取得し、
    前記入力処理部は、前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、
    前記応答内容決定部は、前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定し、
    前記応答方法調整部は、前記音声認識処理における認識状態を基にして、発話方法を調整する
    ことを特徴とするユーザ適応型装置。
  3. 請求項2において、
    前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーションのうち少なくともいずれか1つを調整するものである
    ことを特徴とするユーザ適応型装置。
  4. 請求項2において、
    前記応答方法調整部は、
    前記発話方法として、発話速度を調整するものであり、かつ、
    前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する
    ことを特徴とするユーザ適応型装置。
  5. 請求項4において、
    前記応答方法調整部は、
    前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を、前記目標値に近づくように、変更する
    ことを特徴とするユーザ適応型装置。
  6. 請求項2において、
    前記応答方法調整部は、
    前記発話方法として、発話速度を調整するものであり、かつ、
    ユーザの発話速度の目標値を、ユーザに応じて、決定する
    ことを特徴とするユーザ適応型装置。
  7. 請求項1において、
    当該ユーザ適応型装置は、ユーザに対して動作を提供するものであり、
    前記入力部は、前記ユーザの状態および動作を示す信号を入力するものであり、
    前記入力処理部は、前記入力部に入力された信号を処理して、前記ユーザの要求を認識するものであり、
    前記応答内容決定部は、前記入力処理部によって認識された前記ユーザの要求に応じて、前記ユーザに提供する動作内容を決定し、
    前記応答方法調整部は、前記入力部に入力された信号から、前記ユーザと当該ユーザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて、動作の提供方法を調整する
    ことを特徴とするユーザ適応型装置。
  8. 請求項7において、
    前記応答方法調整部は、動作の提供方法として、動作速度を調整する
    ことを特徴とするユーザ適応型装置。
  9. 請求項1において、
    当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、
    前記入力部は、ユーザからの要求を示す信号を取得し、
    前記入力処理部は、前記入力部によって取得された信号から、ユーザからの要求を判断し、
    前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を基にして、前記嗜好モデルを参照して、前記ユーザに提供する情報内容を決定し、
    前記応答方法調整部は、前記嗜好モデルの学習度合を基にして、情報の提供方法を調整する
    ことを特徴とするユーザ適応型装置。
  10. 請求項9において、
    前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示するエージェントの形態のうち少なくともいずれか1つを、調整する
    ことを特徴とするユーザ適応型装置。
  11. ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法であって、
    前記ユーザの動作、状態および要求のうち少なくともいずれか1つを示す入力信号を、取得する第1のステップと、
    前記第1のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検出する第2のステップと、
    前記第2のステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第3のステップと、
    前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか1つに基づいて、前記ユーザへの応答方法を調整する第4のステップと、
    前記第3のステップにおいて決定した応答内容を、前記第4のステップにおいて調整した応答方法によって、出力する第5のステップと、
    前記第5のステップにおける出力に対する前記ユーザの反応を検出する第6のステップと、
    前記第6のステップにおいて検出した前記ユーザの反応に、前記第4のステップにおいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第7のステップとを備えた
    ことを特徴とする制御方法。
JP2005517657A 2004-02-03 2005-01-28 ユーザ適応型装置およびその制御方法 Expired - Fee Related JP3924583B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2004026647 2004-02-03
JP2004026647 2004-02-03
JP2004275476 2004-09-22
JP2004275476 2004-09-22
PCT/JP2005/001219 WO2005076258A1 (ja) 2004-02-03 2005-01-28 ユーザ適応型装置およびその制御方法

Publications (2)

Publication Number Publication Date
JP3924583B2 JP3924583B2 (ja) 2007-06-06
JPWO2005076258A1 true JPWO2005076258A1 (ja) 2007-10-18

Family

ID=34840123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005517657A Expired - Fee Related JP3924583B2 (ja) 2004-02-03 2005-01-28 ユーザ適応型装置およびその制御方法

Country Status (3)

Country Link
US (1) US7684977B2 (ja)
JP (1) JP3924583B2 (ja)
WO (1) WO2005076258A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032843A (ja) * 2013-03-14 2019-02-28 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 自動車又は携帯電子装置を使用した能動的且つ自動的なパーソナルアシスタンスを提供するコンピュータベースの方法及びシステム

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090209341A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Gaming Apparatus Capable of Conversation with Player and Control Method Thereof
JP5104448B2 (ja) * 2008-03-21 2012-12-19 富士通株式会社 業務改善支援装置および業務改善支援プログラム
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
TW201019288A (en) * 2008-11-13 2010-05-16 Ind Tech Res Inst System and method for conversation practice in simulated situations
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9743820B2 (en) 2010-02-26 2017-08-29 Whirlpool Corporation User interface for dishwashing cycle optimization
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
JP5842245B2 (ja) * 2011-04-28 2016-01-13 株式会社国際電気通信基礎技術研究所 コミュニケーションロボット
US8738364B2 (en) * 2011-12-14 2014-05-27 International Business Machines Corporation Adaptation of vocabulary levels for enhanced collaboration
US9443514B1 (en) * 2012-02-08 2016-09-13 Google Inc. Dynamic voice response control based on a weighted pace of spoken terms
TW201408052A (zh) * 2012-08-14 2014-02-16 Kentec Inc 電視裝置及其虛擬主持人顯示方法
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
JP6452420B2 (ja) * 2014-12-08 2019-01-16 シャープ株式会社 電子機器、発話制御方法、およびプログラム
EP3035656B1 (en) 2014-12-18 2021-08-04 Samsung Electronics Co., Ltd. Method and apparatus for controlling an electronic device
KR102362042B1 (ko) * 2014-12-18 2022-02-11 삼성전자주식회사 전자 장치의 제어 방법 및 장치
KR20170034154A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 콘텐츠 제공 방법 및 이를 수행하는 전자 장치
EP3384475B1 (en) * 2015-12-06 2021-12-22 Cerence Operating Company System and method of conversational adjustment based on user's cognitive state
CN109074805A (zh) * 2016-03-31 2018-12-21 索尼公司 信息处理设备、信息处理方法和程序
JP6741504B2 (ja) * 2016-07-14 2020-08-19 株式会社ユニバーサルエンターテインメント 面接システム
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10276149B1 (en) * 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
US10628754B2 (en) * 2017-06-06 2020-04-21 At&T Intellectual Property I, L.P. Personal assistant for facilitating interaction routines
JP2021503112A (ja) * 2017-09-29 2021-02-04 トルーク インコーポレイテッドTorooc Inc. 自律行動ロボットを利用して対話サービスを提供する方法、システム、及び非一時的なコンピュータ読み取り可能な記録媒体
WO2019073668A1 (ja) * 2017-10-11 2019-04-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN110278140B (zh) * 2018-03-14 2022-05-24 阿里巴巴集团控股有限公司 通讯方法及装置
US10573298B2 (en) 2018-04-16 2020-02-25 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
JP7180127B2 (ja) * 2018-06-01 2022-11-30 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム
CN112533526A (zh) 2018-08-03 2021-03-19 尼德克株式会社 眼科图像处理装置、oct装置及眼科图像处理程序
JP7210927B2 (ja) * 2018-08-03 2023-01-24 株式会社ニデック 眼科画像処理装置、oct装置、および眼科画像処理プログラム
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム
JP2020119412A (ja) * 2019-01-28 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021117296A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
CN112599151B (zh) * 2020-12-07 2023-07-21 携程旅游信息技术(上海)有限公司 语速评估方法、***、设备及存储介质
CN114627876B (zh) * 2022-05-09 2022-08-26 杭州海康威视数字技术股份有限公司 基于音频动态调节的智能语音识别安全防御方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111786A (ja) * 1996-10-03 1998-04-28 Sharp Corp リズム制御対話装置
JP2000347690A (ja) * 1999-06-04 2000-12-15 Nec Corp マルチモーダル対話装置
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6173985A (ja) * 1984-09-19 1986-04-16 渡辺 富夫 教習装置
JPS62145322A (ja) * 1985-12-20 1987-06-29 Canon Inc 音声出力装置
JPH04344930A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声ガイダンス出力方式
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JPH0844520A (ja) 1994-07-29 1996-02-16 Toshiba Corp 対話装置及び同装置に適用される操作ガイダンス出力方法
JPH09212568A (ja) 1995-08-31 1997-08-15 Sanyo Electric Co Ltd ユーザ適応型応答装置
JPH0981350A (ja) 1995-09-11 1997-03-28 Toshiba Corp ヒューマンインタフェースシステム及びユーザ適応制御方法
JPH09152926A (ja) 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 可変誘導入力機能付き画像情報処理装置
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000330676A (ja) 1999-05-19 2000-11-30 Nec Corp 適応ユーザインタフェース生成装置および生成方法
US6370503B1 (en) 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US20020150869A1 (en) * 2000-12-18 2002-10-17 Zeev Shpiro Context-responsive spoken language instruction
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US20030163311A1 (en) * 2002-02-26 2003-08-28 Li Gong Intelligent social agents
US7096183B2 (en) * 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
JP2004258290A (ja) * 2003-02-26 2004-09-16 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
TWI235823B (en) * 2004-09-30 2005-07-11 Inventec Corp Speech recognition system and method thereof
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111786A (ja) * 1996-10-03 1998-04-28 Sharp Corp リズム制御対話装置
JP2000347690A (ja) * 1999-06-04 2000-12-15 Nec Corp マルチモーダル対話装置
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032843A (ja) * 2013-03-14 2019-02-28 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 自動車又は携帯電子装置を使用した能動的且つ自動的なパーソナルアシスタンスを提供するコンピュータベースの方法及びシステム

Also Published As

Publication number Publication date
WO2005076258A1 (ja) 2005-08-18
US20060287850A1 (en) 2006-12-21
US7684977B2 (en) 2010-03-23
JP3924583B2 (ja) 2007-06-06

Similar Documents

Publication Publication Date Title
JP3924583B2 (ja) ユーザ適応型装置およびその制御方法
JP6693111B2 (ja) 対話装置、ロボット、対話方法及びプログラム
CN105798918B (zh) 一种面向智能机器人的交互方法和装置
JP2017049471A (ja) 対話制御装置、対話制御方法及びプログラム
CN108337380A (zh) 自动调整用户界面以用于免提交互
JP6654691B2 (ja) 情報処理装置
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6585733B2 (ja) 情報処理装置
WO2018230345A1 (ja) 対話ロボットおよび対話システム、並びに対話プログラム
WO2020070923A1 (ja) 対話装置、その方法、およびプログラム
JP6551793B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
Siegert et al. “Speech Melody and Speech Content Didn’t Fit Together”—Differences in Speech Behavior for Device Directed and Human Directed Interactions
Strohmann et al. Design guidelines for creating a convincing user experience with virtual in-vehicle assistants
CN111557001A (zh) 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
JP6712028B1 (ja) 認知機能判定装置、認知機能判定システム及びコンピュータプログラム
Oliveira et al. Speaking robots: The challenges of acceptance by the ageing society
JP2017162268A (ja) 対話システムおよび制御プログラム
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP2005196645A (ja) 情報提示システム、情報提示装置、及び情報提示プログラム
Goetze et al. Multimodal human-machine interaction for service robots in home-care environments
JP2019061111A (ja) 猫型会話ロボット
JP7322374B2 (ja) ロボットの制御装置、ロボット、ロボットの制御方法およびプログラム
Lubold Producing acoustic-prosodic entrainment in a robotic learning companion to build learner rapport
JP6755509B2 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070226

R150 Certificate of patent or registration of utility model

Ref document number: 3924583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110302

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120302

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130302

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130302

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140302

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees