JPWO2005076258A1

JPWO2005076258A1 - ユーザ適応型装置およびその制御方法

Info

Publication number: JPWO2005076258A1
Application number: JP2005517657A
Authority: JP
Inventors: 幸治森川
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-02-03
Filing date: 2005-01-28
Publication date: 2007-10-18
Anticipated expiration: 2025-01-28
Also published as: WO2005076258A1; US20060287850A1; US7684977B2; JP3924583B2

Abstract

インタフェース部（１０）において、入力部（１）はユーザ（７）の発話などの入力信号を取得し、入力処理部（２）がこの入力信号を処理して、ユーザ（７）に関する情報を検出する。この検出結果を基にして、応答内容決定部（３）はユーザ（７）への応答内容を決定する。一方、応答方法調整部（４）は入力信号の処理状態や入力信号から検出されたユーザ（７）に関する情報などに基づいて、発話速度などユーザ（７）への応答方法を調整する。

Description

本発明は、ユーザからの入力を受けて情報やサービスを提供するインタフェースを備えた装置に関するものであり、具体的には、ユーザとの相互作用によって動作する家庭用ロボット、情報端末、家電機器などに関する。

ユーザに利用されることを前提とした機器とユーザとの間には、インタフェースが必要である。インタフェースの１つとして、ユーザと機器との相互作用の履歴から、提供する情報やサービスを調整する適応型のインタフェースがある。この適応型インタフェースによって、各ユーザの違いや個性に応じて機器が適応することができ、各ユーザにとって使いやすい操作インタフェースが実現される。

従来の適応型インタフェースとしては、例えば、ユーザの操作系列を観察して操作を代行するものや、ユーザに擬似感情を提示して人間と親しみやすいインタフェースを構成するもの、生体情報に応じてインタフェースを適応させるもの、などがあった。また広い意味では、情報推薦などの機能も、各ユーザに適した情報を提示するという意味で適応型インタフェースであるといえる。

このような適応型インタフェースは、（１）ユーザの特定の状態や入力を受け、（２）ユーザの状態を判定し、（３）サービスやインタフェースを調整する、ことによって、ユーザにとって使いやすいインタフェースの提供を目指してきた。

この適応型インタフェースの改善に関する従来技術の例が、特許文献１，２に示されている。

例えば特許文献１では、機械翻訳システムを例にとって、ユーザ適応の状況を調整する方法が提案されている。機械翻訳では、入力される文書のジャンル（新聞記事、マニュアルなど）によって、翻訳に必要な翻訳例の辞書や語彙等が変化するので、そのジャンルなどを適応的に切り替える。ところがこのジャンルの切換は必ずしもうまくいかないので、ジャンル切換の候補をユーザに見てもらい、ジャンル指定の精度を挙げようとするものである。これは適応型インタフェースにおいて、適応がスムーズに行かない可能性への対処を狙ったものである。

また特許文献２では、ＷＥＢブラウザのＧＵＩインタフェースを例にとって、インタフェースの配置等を擬似感情というモデルを基にして決定している。すなわち、インタフェースの要素を擬似的な感情を生起させるものとして扱い、その感情の表出をインタフェースの配置として表す。人間の擬似感情変化の特性を利用しているために、人間の感覚にあったユーザインタフェースの適応ができるとされている。

また、人間と機械とのインタフェースに関する注目すべき知見が、非特許文献１〜３に示されている。

非特許文献１では、ユーザがネットワークを通して人間またはコンピュータとゲーム（シリトリ）をする場合、対戦者が人間であると教示したときと、コンピュータであると教示したときとにおいて、同じコンピュータプログラムを相手にした場合でも、ユーザの興味の持続時間や反応が異なっていたことが報告されている。

また、非特許文献２によると、ユーザが伝言を依頼するというタスクについて、ロボットに対するとき、コンピュータの画面に対するとき、そして人間に対するときの３種類の場合では、タスク終了後のインタビューで発話のしやすさが変化したという結果が得られている。

さらに、非特許文献３では、人間同士のコミュニケーションにおいて、言葉によるバーバル情報だけでなく、音声の周辺言語やうなずき、まばたき、表情、身振り・手振りなどのノンバーバル情報が、話し手と聞き手とを相互に引き込むいわゆる引き込み現象を起こしており、これによってコミュニケーションが円滑になっていることが示されている。また、情動変動と密接に関連した心拍間隔変動や呼吸の引き込みなどの生理的側面での引込も、重要な役割を果たしているとの指摘がある。
特開平９−８１３５０号公報特開２０００−３３０６７６号公報（特に、段落００６２）特開２００３−１５０１９４号公報（特に、段落０００９−００１１，００７２）山本吉伸、松井孝雄、開一夫、梅田聡、安西祐一郎、「計算システムとのインタラクション−楽しさを促進する要因に関する一考察−」、日本認知科学会「認知科学」、第１巻、第１号、ｐｐ．１０７−１２０、共立出版、１９９４年５月原田悦子、「音声インタフェイスにおけるエイジェント性と社会的文脈の効果：伝言実験による検討」、日本認知科学会第１９回大会、ｐｐ．１４−１５、２００２年６月渡辺富夫、「身体的コミュニケーションにおける引き込みと身体性−心が通う身体的コミュニケーションシステムＥ−ＣＯＳＭＩＣの開発を通して−」、ベビーサイエンス、Ｖｏｌ．２、ｐｐ．４−１２、２００２年

適応型インタフェースは、ユーザに適応することによって、より使いやすいインタフェースを実現しようとするものであり、ユーザにより良く適応するための工夫も数多くなされてきた。しかしながら、実世界のアプリケーションにおいては、機器の側が必ずしも常に、ユーザに適応できるわけではなかった。

しかしながら、従来の構成では、機器が想定した範囲内でユーザに適応できる工夫はなされているものの、ユーザが想定範囲外の行動をした場合の対応については、あまり検討されていない。また、どのように適応すればよいかは分かるが、機器の能力として実現不可能な場合もあり、このような場合の対応についても、十分な検討はされていない。提案されている技術としては、エラーメッセージに類する情報を提示する程度のものにとどまっていた。

しかしながら、ユーザに「知りません」「わかりません」「もう一度お願いします」などのメッセージを繰り返し提示するだけでは、ユーザは、装置に反応を期待して働きかけていた分、期待を裏切られた気分になり、落胆してしまう。この状態が繰り返されると、ユーザは装置に対して働きかけても無駄と感じ、やがて装置自体を使わなくなってしまう。

前記の問題に鑑み、本発明は、ユーザとのインタフェースを備えた機器として、ただ単にユーザに応答するだけでなく、ユーザに常に適応できるわけではないことを考慮して、ユーザ自身にさほど意識させることなくその行動や印象の変化を促し、ユーザと機器との円滑なインタラクションを実現することを課題とする。

本発明では、次の点に着目している。すなわち、機器からユーザへの働きかけにおいては、提供する情報やサービスの内容そのものと、その提供方法（ユーザへの応答方法）とは、分けて考えることができる。そして、ユーザへの応答方法を調整することによって、ユーザの行動や、ユーザが機器から受ける印象が、変わり得る、と考えられる。このような観点を、本発明では積極的に活用する。

以下、順を追ってこれらの概念について説明する。

装置がユーザに対して情報を提示する場合に、情報の内容が同じであっても、応答方法が異なると、ユーザに与える印象やユーザの反応が変わってくることがある。

例えば音声対話において、機器がユーザに謝る場合を考えると、「すみません」という発話が情報の内容に相当し、発話速度、イントネーション、画面に表示したエージェントの頭を下げる等の動作などがユーザへの応答方法に相当する。この場合、同じ「すみません」という発話でも、その発話速度、イントネーション、エージェントの体の動き等の情報提示方法によっては、実は謝っていないように感じさせたり、ユーザをさらに不機嫌にさせることもできる。

また、カーナビや情報端末におけるレストラン検索において、「何が食べたいですか」という発話をユーザにする場合でも、発話速度やイントネーションの変化によって、ユーザに様々な印象を与えることができる。例えば早口で尋ねることによって、「早く答えて欲しい」というような言外の意味が付与されたり、イントネーションの付け方次第では、「別に聞きたくないが聞いている」というような印象を与えることもあり得る。

また別の例として、家庭用ロボットがユーザにコップを渡すという場合を考えてみる。「コップを取ってほしい」という要求に対するロボットの応答動作において、ユーザにコップを渡すときの手の動かし方や動作速度は、何通りもある。ユーザにコップを渡すというサービス機能自体は実現できても、その動作の仕方や速度などの応答方法によっては、「いやいや動いている」「恐怖感を感じる」「無愛想に見える」などの印象を持たれてしまう。

このように、同じ情報やサービスを提供する場合であっても、その応答方法の調整次第では、ユーザに与える印象がガラリと変わることがある、と考えられる。

また、上述の非特許文献１は、人間は、機器を相手にしているときでも、自分の思い込みによって、楽しく時間を過ごしたり、つまらなく時間を過ごしたりする可能性があることを示唆している。また非特許文献２も、ユーザが対面する機器の種類によって、ユーザの反応が変化しうることを示している。これらの事例から、（１）ユーザは機器に対する印象や思い込みによって、機器に対する反応形態を変化させること、（２）ユーザは対面する機器の形態などによって使いやすさが変化することがわかる。

この知見を、インタフェース設計の観点から考え直すと、同じ情報やサービスを提供する場合であっても、ユーザへの応答方法というインタフェースの部分を調整することによって、ユーザの印象や反応は制御できると考えられる。これが、本発明の要点である。ユーザへの応答方法の調整は、いわば副次的な情報伝達手段といえる。

次に、ユーザへの応答方法を何に基づいて調整するか、という点について考察する。

応答方法の調整の指標として用いる情報としては、何種類か考えられる。例えば、機器の内部処理がどれぐらいできているか、すなわち入力信号の処理状態を指標とすることが考えられる。

例えば、機器の処理がユーザに追いついていないとき、情報内容をユーザに提供するとともに、その提供方法を調整して、「もっとゆっくりと話して欲しい」「あなたが対面している機器はそんなに早く対応できる機器ではない」という言外のメッセージをユーザに伝えることができる。これにより、ユーザは、機器の処理が追いついていないことを意識的、無意識的を問わずに理解し、自然に機器への対応を変更することが予想される。例えば、情報提供方法として発話速度を調整するものとすると、機器の内部処理がユーザからの発話等についていけないとき、機器が自らの発話速度を下げる（ゆっくり話す）方向に調整すると、ユーザは、機器がついてきていないことを感じて、発話のテンポを落としたりすると考えられる。これは、上述の非特許文献３に示された人間同士のコミュニケーションにおける引込現象を、ユーザと機器との間でも成り立たせることを意図している。

なお、特許文献３では、ユーザの発話が早口すぎて誤認識された場合に、システム側からの発話をユーザの発話速度に比べてゆっくりした発話速度で行うことにより、もっとゆっくりした認識し易い発話速度で発話するように自然に誘導する旨が、開示されている。

また、入力信号から検出した、ユーザの状態や機嫌などの情報を基にして、ユーザへの応答方法を調整してもよいし、ユーザと機器のインタラクションの成立度合いに応じて調整してもよい。また、ユーザに関する知識を学習する機器であれば、その学習度合に応じて、応答方法を調整してもよい。

さらに、本願発明者らは、後述する実験等から、機器側から誘導を行ったとしても、ユーザは必ずしも機器の誘導に引き込まれない、という新たな知見を得た。そして、この新たな知見から、ユーザに対する自然誘導と、強制誘導とを、組み合わせて用いる構成が好ましい、と考えた。自然誘導と強制誘導とを組み合わせることによって、自然誘導できるユーザに対しては、ユーザに意識させないように誘導することができ、一方、自然誘導できないユーザに対しては、強制誘導により確実に誘導することができる。つまり、不快感を与えるような機会を最小限に抑えつつ、かつ、確実に、ユーザを誘導することができる。

すなわち、本発明は、ユーザとのやりとりを行うユーザ適応型装置において、ユーザの動作、状態および要求のうち少なくともいずれか１つを示す入力信号を取得し、取得された入力信号を処理してユーザに関する情報を検出し、この検出結果を基にしてユーザへの応答内容を決定し、かつ、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか１つに基づいて、ユーザへの応答方法を調整し、決定された応答内容を、調整された応答方法によって出力するものである。そして、出力に対するユーザの反応を検出し、このユーザの反応に、調整した応答方法によって期待された変化がみられないとき、ユーザに変化を促すための応答内容を決定するものである。

本発明によると、入力信号を処理して検出されたユーザに関する情報から、ユーザへの応答内容が決定されるとともに、ユーザへの応答方法が、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか１つに基づいて、調整される。これにより、ユーザの行動や印象の変化を促すように、応答方法を調整することができるので、ユーザに対する自然誘導が実現でき、ユーザと装置との間で円滑なインタラクションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、ユーザに変化を促すための応答内容が決定されるので、強制的に、ユーザを誘導することができる。

従来の適応型インタフェースは、ユーザの状況を観察して、そのユーザに合わせることによって利便性の向上を図っていたが、本発明では、必ずしも常にユーザに適応できるわけではないことを考慮して、応答方法の調整によって、ユーザの機器に対する働きかけ方や印象の変化を促進するようにしている。これにより、従来ではユーザが不満に思うような状況であっても、ユーザの印象変化を促すことによってユーザの不満をやわらげることができ、円滑なインタフェースとしての役割を果たすことができる。

次に、ユーザの行動変化や印象変容を促進するために調整する、ユーザへの応答方法の例を示す。

機器が音声対話において発話を行うとき、発話速度、用いる語彙、イントネーションをユーザへの応答方法として調整する。

ロボット等の機器が「つかむ」「持ち上げる」「渡す」といったアクチュエータの動作を行うとき、アクチュエータの動作速度をユーザへの応答方法として調整する。

機器が有益な情報を推薦するとき、画面に表示したエージェントの形態、例えば顔の表情や服装をユーザへの応答法として調整する。

本発明によると、機器側からユーザへの応答方法を調整することによって、ユーザの機器に対する印象や行動の変化を促すことができるので、ユーザと機器とのより円滑なコミュニケーションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、強制的にユーザを誘導することができる。

図１は、本発明の構成の概念図である。図２は、第１の実施形態のイメージ図であり、ユーザが家庭用ロボットに箱をとってきてもらう場合を示す図である。図３（ａ）は図２の状況における対話の例、図３（ｂ）は発話速度と認識度との関係を示すグラフである。図４は、本発明の第１の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。図５は、図４の構成の動作を示すフローチャートである。図６は、本発明の第２の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。図７は、図６の構成の動作を示すフローチャートである。図８は、第３の実施形態のイメージ図であり、情報端末からユーザに対して情報推薦を行う場合を示す図である。図９は、本発明の第３の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。図１０は、実験１において得られた、各被験者の文章読み上げの単独発話時の発話速度である。図１１は、発話速度の変化の分類を示す模式図である。図１２は、実験１の結果を示すグラフである。図１３は、実験２における対話順序である。図１４は、実験２の結果を示すグラフである。

符号の説明

１入力部
２入力処理部
３応答内容決定部
４応答方法調整部
６出力部
７，１１ユーザ
１０インタフェース部
１２ロボット
１３情報端末
１４画面
１５Ａ，１５Ｂエージェント
２０インタフェース部
２１音声入力部
２２音声認識部
２３発話内容決定部
２４認識状態検出部
２５話速決定部
２６音声出力部
３０インタフェース部
３１状態入力部
３２状態認識部
３３動作入力部
３４動作内容決定部
３５動作ずれ認識部
３６動作速度決定部
３７動作出力部
４０インタフェース部
４１入力部
４２入力処理部
４３処理状態検出部
４４記憶部
４５情報内容決定部
４６応答方法決定部
４７出力部

本発明の第１態様では、ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置として、前記インタフェース部は、ユーザの動作、状態および要求のうち少なくともいずれか１つを示す入力信号を、取得する入力部と、前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する応答内容決定部と、前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか１つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によって調整された応答方法によって、出力する出力部とを備え、前記入力処理部は、前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定するよう、指示するものを提供する。

本発明の第２態様では、当該ユーザ適応型装置はユーザと音声対話を行うものであり、前記入力部は前記ユーザの発話を音声信号として取得し、前記入力処理部は前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、前記応答内容決定部は前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定し、前記応答方法調整部は前記音声認識処理における認識状態を基にして発話方法を調整する第１態様のユーザ適応型装置を提供する。

本発明の第３態様では、前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーションのうち少なくともいずれか１つを調整する第２態様のユーザ適応型装置を提供する。

本発明の第４態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する第２態様のユーザ適応型装置を提供する。

本発明の第５態様では、前記応答方法調整部は、前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を前記目標値に近づくように変更する第４態様のユーザ適応型装置を提供する。

本発明の第６態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、ユーザの発話速度の目標値を、ユーザに応じて決定する第２態様のユーザ適応型装置を提供する。

本発明の第７態様では、当該ユーザ適応型装置はユーザに対して動作を提供するものであり、前記入力部は前記ユーザの状態および動作を示す信号を入力するものであり、前記入力処理部は前記入力部に入力された信号を処理して前記ユーザの要求を認識するものであり、前記応答内容決定部は前記入力処理部によって認識された前記ユーザの要求に応じて前記ユーザに提供する動作内容を決定し、前記応答方法調整部は前記入力部に入力された信号から前記ユーザと当該ユーザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて動作の提供方法を調整する第１態様のユーザ適応型装置を提供する。

本発明の第８態様では、前記応答方法調整部は、動作の提供方法として動作速度を調整する第７態様のユーザ適応型装置を提供する。

本発明の第９態様では、当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、前記入力部は、ユーザからの要求を示す信号を取得し、前記入力処理部は、前記入力部によって取得された信号からユーザからの要求を判断し、前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を基にして前記嗜好モデルを参照して前記ユーザに提供する情報内容を決定し、前記応答方法調整部は、前記嗜好モデルの学習度合を基にして情報の提供方法を調整する第１態様のユーザ適応型装置を提供する。

本発明の第１０態様では、前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示するエージェントの形態のうち少なくともいずれか１つを調整する第９態様のユーザ適応型装置を提供する。

本発明の第１１態様では、ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法として、前記ユーザの動作、状態および要求のうち少なくともいずれか１つを示す入力信号を取得する第１のステップと、前記第１のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検出する第２のステップと、前記第２のステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第３のステップと、前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか１つに基づいて、前記ユーザへの応答方法を調整する第４のステップと、前記第３のステップにおいて決定した応答内容を、前記第４のステップにおいて調整した応答方法によって出力する第５のステップと、前記第５のステップにおける出力に対する前記ユーザの反応を検出する第６のステップと、前記第６のステップにおいて検出した前記ユーザの反応に、前記第４のステップにおいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第７のステップとを備えたものを提供する。

まず、本発明の主たる概念を、図１の構成図を用いて説明する。図１は本発明に係るユーザ適応型装置におけるインタフェース部１０の構成の概要を示す図である。図１に示すようなインタフェース部１０は、ロボットや情報端末などユーザ７に対して機能や情報を提供するユーザ適応型装置の一部として組み込まれる。そして、装置の他の構成部分に対してユーザ７に関する情報を提供し、また、他の構成部分からの出力を受けて、ユーザ７に応答する。

入力部１はユーザ７からの働きかけを入力する。ユーザ７からの働きかけとしては、発話、仕草、表情、スイッチやキーボード、マウスの操作、ユーザの生理的状態などが考えられる。入力部１は、これらの情報を機器に取り込むためのセンサが搭載されているか、または当該センサと通信可能になっており、ユーザの情報を、機器内部で処理可能な電気信号として取得する。すなわち、入力部１は、ユーザ７の動作、状態および要求のうち少なくとも１つを示す入力信号を取得する。

入力処理部２は、入力部１によって取得された入力信号を処理して、ユーザ７の状態や意図や要求といったレベルの表現に変換する。すなわち、ユーザ７の情報を検出する。

応答内容決定部３は、入力処理部２によって取得されたユーザの状態や意図や要求から、機器の反応を決定して出力部６に出力する。すなわち、入力処理部２による検出結果を基にして、ユーザ７への応答内容を決定する。

入力部１から、入力処理部２、応答内容決定部３および出力部６までの一連の処理の流れは、従来のインタフェースと同様のものである。これに対して本発明では、ユーザ７への応答方法を調整する応答方法調整部４が、設けられている。

応答方法調整部４は、ユーザ７への応答方法を調整する。すでに述べたように、ユーザ７に提供する情報やサービスの内容そのものと、その提供方法とは分けて考えることができ、比較的独立に制御可能である。本発明では、応答方法を変化させて、ユーザ側の適応を促すのが特徴の１つである。このときのユーザの適応は、意図的なものではなく、自然な反応の結果としてなされるものであり、その自然な反応を促すように応答方法を調整する。これにより、ユーザ７は、装置に対して不満を感じることがなくなり、円滑なコミュニケーションを装置と行うことができる。

ここで、応答方法の調整は、ユーザと装置との情報やサービスのやり取りが、どの程度円滑に行われているかに応じて、行うものとする。あるいは、ユーザの要求と機器の可能な動作とが一致している度合に応じて、応答方法を調整するものとする。

具体的には例えば、入力処理部２における処理状態に応じて行えばよい。例えば、ユーザと音声対話を行う装置の場合には、音声認識処理の処理状態に応じて、発話速度などの応答方法を調整する。音声認識処理の処理状態から、音声認識が順調に行われているか、ユーザとの音声対話が成立しているかどうかを検知することができる。

また、入力信号から検出されたユーザ７に関する情報に応じて、応答方法を調整してもよい。例えば、音声対話の場合には、出力した合成音声に対するユーザの反応（例えば、言葉が通じていないような兆候が見られるか）に応じて調整すればよいし、ロボットとの協調作業の例では、ロボットとユーザとの間の動作の協調度合（動作がずれなく行われているか）に応じて調整すればよい。

さらに、装置が、ユーザの好みなどユーザに関する知識を学習する機能を有する場合には、その学習度合に応じて、応答方法を調整してもよい。もちろん、これ以外の情報を基にして応答方法を調整してもよいし、複数の情報を組み合わせて判断してもよい。

以下、本発明の実施の形態について、図面を参照しながら説明する。

（第１の実施形態）
本発明の第１の実施形態では、音声対話機能を搭載した機器を例にとって説明を行う。本実施形態で想定しているのは、ユーザから音声によって働きかけることができ、機器の方からもユーザに対して合成音声によって働きかけることができる、いわゆる音声対話が可能な情報端末や家庭用ロボットなどの機器である。これらの機器では、人間同士のコミュニケーションと同様に、ユーザと機器との間でコミュニケーションをとりながら、ユーザに対して所望の情報やサービスを提供する。

一般に、ユーザが音声によって機器に話しかけるとき、なんらかの機器動作に対して期待を持つ。そして、機器が期待通りに動作している場合は、ユーザは機器を自然と利用できるが、一方、期待と異なる動作が多い場合は、ユーザは機器に対して不信感を持ってしまうと考えられる。現在、人型ロボットとユーザとの間では、音声によるコミュニケーションが必ずしも円滑に実現されていないが、その理由の１つとして、人型ロボットが、その外見や口調からユーザに期待されるほどには会話ができないことが挙げられる。これは、ネコ型や犬型のロボットでは、語彙や発話方法が限定されているにもかかわらず、ユーザとのコミュニケーションが成り立っているように見える現象とは対照的である。

まず、本実施形態が実現されたときのイメージを、図２および図３を用いて説明する。

図２はユーザが家庭用ロボットに荷物をとってきてもらう場合を概念的に示す図である。図２において、１１はユーザ、１２は本実施形態に係るインタフェース機能を有する家庭用ロボット、ＢＸ１，ＢＸ２，ＢＸ３は箱である。ユーザ１１はロボット１２に対して、音声によって要求を伝える。ここでは、ユーザ１１は「白い箱ＢＸ１をとってくる」ことをロボット１２に対して要求するものとする。ロボット１２は音声によってユーザ１１に応えるとともに、ユーザ１１の要求に従った動作を行う。またロボット１２は、ユーザ１１の発話の認識度に応じて、自己の発話速度を調整する。

図３（ａ）は図２の状況における対話の例であり、Ａはユーザ１１の発話、Ｂはロボット１２の発話である。図３（ａ）では、各発話内容について発話速度を示しており、またユーザ１１の発話Ａについては、ロボット１２の認識処理の良さを表す認識度を示している。図３（ｂ）は発話速度と認識度との関係を示すグラフである。ここでは、説明の簡易化のために、発話速度と認識度には便宜的な数字を与えている。

まず、ユーザ１１が「箱を持ってきて」とロボット１２に要求する。このときの発話速度は１００であり、認識度は６０であったとする。一般に音声認識処理では、認識性能が最も発揮できる適切な発話速度があり、図３（ｂ）の関係によると、認識性能が最も良いのは発話速度が９０付近である。ここで、発話速度の目標値を９０と設定する。現在のユーザ１２の発話速度はこの目標値よりも高いため、ロボット１２は、ユーザ１２の発話速度を下げるような方策を採る。ここでは、ユーザ１１の適応を促すべく、ロボット１２自らの発話速度を、目標値の９０よりも低く、８０に下げる。

また、ロボット１２は、どの箱ＢＸ１，ＢＸ２，ＢＸ３を持っていけばよいのか特定できないので、どの箱を持ってきて欲しいかを確認するための発話内容を作成する。この結果、ロボット１２はユーザ１１に対して、「どの箱ですか？」と発話速度を８０にして問いかける。

ロボット１２の問いかけに対して、ユーザ１１は「白い箱です」と答える。このときユーザ１１は、ロボット１２の発話速度に影響されて、自分では特に意識することなく、発話速度を低下させる。この結果、発話速度が９０に変化し、認識度は８０に大きく改善される。すなわち、ロボット１２からユーザ１１に対して、発話内容が伝達されるとともに、認識処理が良好に行えるような働きかけがなされる。

ロボット１２は、ユーザ１１から要求されたタスクが「白い箱ＢＸ１をとってくる」ことであることを正確に認識し、白い箱ＢＸ１の受け渡しを、「はいどうぞ」と言いながら行う。このとき、ユーザ１１の発話速度は認識処理が良好に行える適切な値になっており、適応促進の必要がなくなったので、自己の発話速度をユーザ１１と同じ９０に調整する。

以後、ユーザ１１とロボット１２は、認識処理に適切な発話速度で互いにコミュニケーションが取れるようになる。また、ユーザ１１の発話速度に変化が見られ、認識度が低下した場合は、適宜、上述したように、発話速度を調整すればよい。このように、ユーザ１１から要求されたタスクをこなしつつ、自己の発話速度を調整してユーザ１２の発話速度を適切な範囲に制御することによって、認識処理が常に適切に行えるようにシステムを維持することができる。

なお、上述したように、ユーザの発話速度が目標値よりも高いときは、システム側の発話速度をこの目標値よりも低く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。また、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。

また、ユーザの発話速度が、逆に、目標値よりも低いときは、システム側の発話速度をこの目標値よりも高く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。この場合も、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。

また、ユーザの発話速度の目標値は、必ずしも機器側の都合のみによって決定されるものではない。後述するように、発話速度には個人差が大きいので、発話速度の目標値は、ユーザに応じて決定するのが好ましい。すなわち、認識性能が適切に得られる範囲内で、ユーザの発話速度に近い値に目標値を設定することによって、ユーザが機器の発話に対して違和感を感じないような発話速度の誘導が可能となる。例えば、発話速度がとても遅い人には、機器側の最適値ではなく、認識性能が得られる発話速度の範囲の下限付近に、目標値を設定すればよい。また、発話速度が速い人には、認識可能な発話速度の範囲の上限付近に、目標値を設定すればよい。

以下、本実施形態に係る制御方法について、具体的に説明する。図４は本実施形態に係るユーザ適応型装置におけるインタフェース部２０の構成を示すブロック図である。上述の例では、図４に示すインタフェース部２０がロボット１２に内蔵されている。図４において、認識状態検出部２４および話速決定部２５が、応答方法調整部に相当しており、また、音声入力部２１、音声認識部２２、発話内容決定部２３および音声出力部２６が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。

音声入力部２１はユーザ１１からの音声入力を取得する部分であり、通常は、音声を取得するためのマイク等によって構成される。ユーザ１１が発した音声は、音声入力部２１によって、インタフェース部２０内部で処理可能な電気信号に変換される。

音声認識部２２は音声入力部２１によって取得された音声の電気信号を処理して、ユーザ１１の発話内容に変換する。すなわち、いわゆる音声認識処理を行う。発話内容決定部２３は、音声認識部２２によって処理された音声認識結果を基にして、ユーザ１１に対する発話内容を決定する。発話内容決定部２３には、例えば、「ありがとう」に対して「どういたしまして」、「〜はどこにありますか」に対して「〜にあります」など、各種の対話例が、ルールや知識ベースとして格納されている。

認識状態検出部２４は音声認識部２２から認識状態に関する信号を取得し、認識状態の良否を検出する。ユーザ１１の発話は、必ずしも音声認識処理しやすいものばかりではないので、その処理結果は誤りを含むことが多い。また、大抵の音声認識処理では、その処理結果に対する信頼度を表す信号が得られる。例えば、ニューラルネットワークを利用した音声認識では、各認識結果の候補とともに出力される出力値を、各認識結果に対する信頼度として扱うことが可能である。この出力値が０〜１の範囲で得られるとき、例えば出力値が０．９のときは、その認識結果は間違っていないことが多く、逆に出力値が０．５のときは、認識結果の信頼度は低いがとりあえず出力されている、といったことが読み取れる。認識状態検出部２４は、音声認識部２２から得られるこのような値から、認識状態の良否の程度を算出する。

話速決定部２５は、認識状態検出部２４が算出した認識状態の程度を基にして、ユーザ１１に対する発話の発話速度を決定する。具体的には例えば、インタフェース部２０に内部パラメータとして記憶されている発話速度の値を、調整する。音声認識処理では、一般に、認識率が最も高くなる適切な発話速度が存在し、これから離れるにつれて認識率が低下することが知られている。

音声出力部２６は例えば、Ｄ／Ａ変換部を含む回路部とスピーカとによって構成されており、発話内容決定部２３によって決定された発話内容を示す合成音声を、話速決定部２５によって決定された発話速度に従って作成し、出力する。

図４の構成の動作を、図５のフローチャートを用いて説明する。

ユーザ１１が発話すると、まず音声入力部２１によって、その音声を取得し、電気信号に変換する（Ｓ１１）。そして、音声認識部２２によって、ステップＳ１１において生成された電気信号を用いて音声認識処理を行う（Ｓ１２）。

次に、認識状態検出部２４が、音声認識部２２から取得した信号を基にして、音声認識の認識状態が良いか否かを判断する（Ｓ１３）。ここでの判断は例えば、音声認識処理において特定された複数の認識候補に係る、例えば上述したニューラルネットワークにおける出力値のような信頼度を表すデータの、ばらつき具合を基にして行う。すなわち、特定の候補のみの信頼度が高い場合は、認識状態が良いと判断し、一方、どの候補の信頼度も低い場合は、認識状態が悪いと判断する。また、認識処理そのものが成功せずに認識候補が得られない場合も、認識状態が悪いと判断する。

ステップＳ１３において、認識状態が良いと判断されたときは、ステップＳ１４に進む。ステップＳ１４では、話速決定部２５において、適応促進のための発話速度の制御を行わないものとする。すなわち、例えば発話速度を、前回設定された値と同じ値にしたり、ユーザの発話速度に合わせたりする。ユーザの発話速度に合わせるのは、コミュニケーションが良好な場合は、ユーザも装置も発話速度は似ていると推測されるからである。

一方、認識状態が悪いと判断されたときは、ステップＳ１５に進む。ステップＳ１５では、認識状態検出部２４によって、ユーザ１１の発話速度が速すぎるか否かが判断される。すなわち、音声認識部２２における認識状態からユーザ１１の現在の発話速度を計算し、この発話速度をインタフェース部２０が予め記憶している最適な発話速度と比較する。そしてユーザ１１の発話速度の方が速いときは（Ｙｅｓ）、話速決定部２５が発話速度を現在の設定よりも遅くする（Ｓ１６）。一方、ユーザ１１の発話速度の方が遅いときは（Ｎｏ）、話速決定部２５が発話速度を現在の設定よりも速くする（Ｓ１７）。発話速度の調整は、例えば、現在の発話速度に対して一定量を減じたり加えたりすることによって、または、１よりも小さな、若しくは大きな一定量を乗じたりすることによって、実現できる。

ステップＳ１４，Ｓ１６，Ｓ１７によって発話速度が調整された後、または、発話速度の調整と並行して、発話内容決定部２３が、音声認識部２２によって認識されたユーザ１１の発話内容に対する応答内容を決定する（Ｓ１８）。そして、音声出力部２６は、発話内容決定部２３によって決定された発話内容を、話速決定部２５によって決定された発話速度でユーザ１１に対して出力する（Ｓ１９）。

上述した動作をユーザ１１から見ると、ユーザ１１の発話に対して、装置の音声応答の発話速度が若干変化することになる。ユーザ１１は、装置との音声対話に際しても、人間同士のコミュニケーションの際に見られるような引き込み現象によって、装置の発話速度に合わせて、自分自身の発話速度を自然に落としたり速めたりすると考えられる。このような発話速度の変化は、ユーザ１１が自分で意識的に行うものではない。すなわち、ユーザ１１には何ら意識させずに、自然にその発話速度を制御することができ、これにより、認識が容易な発話入力を得ることができるので、認識率も向上し、対話を円滑に進めることができる。

従来の音声対話型のインタフェースでは、音声認識ができない場合、「もう一度お願いします」とか「ゆっくり話してください」等の発話を行い、ユーザに対して、意識的に装置に合わせて話をするように促す対応をしていた。このため、それまでの対話の流れが中断されてしまい、ユーザにとって利用しにくい面があった。

これに対して本実施形態によると、ユーザの発話が不明瞭なときでも、応対は継続しながら発話速度を調整することによって、ユーザに意識させることなく発話速度の変化を促して、コミュニケーションを円滑にすることができる。このとき、ユーザは機器に対して何かしら意図的に適応する必要はなく、ユーザが他の人と自然に行っている相互引込のプロセスが実現されている。したがって、ユーザと機器との音声対話を、ユーザに負担をかけることなく、円滑に行うことができる。

なお、本実施形態では、ユーザへの応答方法の調整として、発話速度を調整するものとしたが、本発明はこれに限られるものではない。例えば、発話語彙を調整してもよい。発話語彙の調整によって、ユーザが発話内容を聞いたときの印象を変化させることができる。語彙を変化させるパターンの例としては、例えば子供の話す語彙と大人の話す語彙、丁寧度合の異なる語彙（例えば、丁寧な話し方と乱暴な話し方）、親密度合の異なる語彙（親しげな話し方とビジネスライクな話し方）などが考えられる。

また、発話のイントネーションを調整してもよい。イントネーションの調整によって、同じ文言であっても、ユーザの話し方をゆっくりにしたり、穏やかにしたり、落ち着かせたりすることが、引き込みによって可能になると考えられる。もちろん、発話速度、語彙、イントネーションなどの応答方法の全部または一部を組み合わせて、調整してもよい。

また、応答方法の調整によって、必ずしも、ユーザの反応がシステム側の想定通りに変化するとは限らない。例えば、後述する実験の結果から示唆されるように、人とシステムとの対話において、システム側が発話速度を調整しても、一部のユーザは自分の発話速度を変化させない。したがって、応答方法を調整してもユーザの反応が期待したようには変化しない場合は、直接的にユーザに要求を伝えるような出力を行うのが好ましい。

すなわち、入力処理部２は、出力部６の出力に対するユーザ７の反応を検出し、ユーザ７の反応に、応答方法調整部４によって調整された応答方法によって期待された変化がみられないときは、応答内容決定部３に対し、ユーザ７に変化を促すための応答内容を決定するよう、指示するのが好ましい。例えば、発話速度を変化させてもユーザ７の発話速度に変化が見られない場合は、入力処理部２は、発話速度の変化を促すような応答内容を決定するよう、応答内容決定部３に指示する。この指示を受けて、応答内容決定部３は、ユーザ７との対話を成立させるための発話内容に加えて、例えば「もう少しゆっくり話していただけませんか？」などといったメッセージを追加する。これにより、発話速度を下げてほしい、というようなシステム側の要求を、ユーザ７に対して直接的に伝えることができる。

人間が応答方法の調整によって影響を受けることを実証するために、次の２つの実験を実施した。ここでは、対話における発話速度に着目し、人と人が対話しているときに相手の発話速度の影響をどの程度受けるか（実験１）、人と機器が対話しているときに機器の発話速度の影響をどの程度受けるか（実験２）、という２つの実験を行った。

＜実験１＞
実験１では、人同士の対話状況を観察し、その発話速度を記録・解析することによって、被験者の発話速度が相手の発話速度によって変化するのかを観察した。実験には、大学生を中心に１０人に被験者として参加してもらった。

まず、各被験者にニュース原稿の朗読などの単独発話をしてもらい、そのときの発話速度を、相手の影響を受けていないという意味で、その被験者の標準的な発話速度とした。なお、発話速度は、１秒間に発声される文字数（発話音声に含まれる文字数÷発話に要した時間）によって算出することとした。

図１０は各被験者の標準的な発話速度を示す。図１０から分かるように、実験に参加した被験者群では、発話速度は６．８８文字／秒〜１０．６９文字／秒まで分布しており、発話が遅い人と早い人との差は１．５倍以上あり、かなりのばらつきが見られる。発話速度の平均は８．８４文字／秒である。

次に、被験者同士の対話実験を行った。実験に用いる対話文として、英会話等の語学教材に使用されるような９つの文例を用意した。各文例では、先に発話をするＡさん役とＡさんに応答して発話を行うＢさん役とが設定されており、ＡさんとＢさんの発話が交互に数回ずつ含まれている。このような文例を用いることによって、発話内容のやりとりとともに、発話方法（この実験では発話速度）の情報についてもやりとりが生じるので、その影響を観察することができる。

実験では、被験者１０人を２人ずつに分け、その２人の間でＡさん役とＢさん役を設定して対話文例を読み上げてもらい、その対話を録音した。次に、被験者の組み合わせを変えて、各被験者が、別の相手と別の対話文を読みようにした。１人の被験者から見ると、９人の相手と、内容が異なる９つの文例を読むように、順番を設定した。この結果、毎回５組の対話データが得られ、被験者の組み合わせを変えた９回の対話を行うことによって、合計４５対話の記録を得ることができた。個人ごとに見れば、計９０発話のデータを得ることができた。

そして、録音した対話データから、発話速度を算出した。このとき、対話中において発話速度はわずかながら変化しているので、対話中の発話速度の平均を求め、これを各対話における被験者の発話速度とみなした。したがって、この実験では、一回の対話中における発話速度の変化は考慮していない。

図１１に示すように、発話速度の変化を、相手に対してどのように変化したか、という観点から４とおりに分類した。ここで、自分（Ａさん）の普段の発話速度をＶｄａ、相手（Ｂさん）の普段の発話速度をＶｄｂ、対話文例ｎの時の自分の発話速度Ｖｎａ、対話文例ｎの時の相手の発話速度をＶｎｂとする。図１１では、上下方向に発話速度の軸をとっており、その軸上に発話速度Ｖｄａ、Ｖｎａ、Ｖｎｂの位置を示している。
事例１（ａ）：自分よりも発話速度の速い相手との対話（Ｖｄａ＜Ｖｎｂ）において、自分の普段の発話速度よりも速く発話（Ｖｄａ＜Ｖｎａ）した。
事例２（ｂ）：自分よりも発話速度の速い相手との対話（Ｖｄａ＜Ｖｎｂ）において、自分の普段の発話速度よりも遅く発話（Ｖｄａ＞Ｖｎａ）した。
事例３（ｃ）：自分よりも発話速度の遅い相手との対話（Ｖｄａ＞Ｖｎｂ）において、自分の普段の発話速度よりも速く発話（Ｖｄａ＜Ｖｎａ）した。
事例４（ｄ）：自分よりも発話速度の遅い相手との対話（Ｖｄａ＞Ｖｎｂ）において、自分の普段の発話速度よりも遅く発話（Ｖｄａ＞Ｖｎａ）した。

発話速度の軸における、自分の発話速度Ｖｄａ，Ｖｎａと相手の発話速度Ｖｎｂとの位置関係によって、相手に合わせたかどうか、どの程度合わせたかを求めることができる。発話速度は、引き込み現象が発生すると考えた場合、相手と同調する方向に変化するはずであり、上の４通りの事例のうち事例１と事例４が、相手に同調する方向に変化した場合である。また自分の発話速度の変化量は、（Ｖｎａ−Ｖｄａ）で求められる。

そこで、本願発明者は、次のような引き込み判別式を作成した。

ここで、ｓｉｇｎはプラスやマイナスの符号のみを抽出する関数、ａｂｓは絶対値を抽出する関数である。Ｄ＞０のときは、発話速度が相手と同調したことを示し、Ｄ＜０のときは、発話速度が相手と同調しなかったことを示す。また、Ｄの値の大小は、発話速度がどの程度同調したかを示す。

図１２は実験１で得られた発話データについて上の判別式Ｄの値をプロットしたグラフである。図１２において、横軸は被験者ＩＤ、縦軸は判別式Ｄの値で単位は（文字／秒）である。例えば、被験者３（横軸上）が被験者６と対話したとき、判別式Ｄ＝２であった。すなわち、被験者３は被験者６に対して、２［文字／秒］分だけ同調した、と考えられる。

図１２から分かるように、多くの発話において、発話速度が相手に合わせるように変化している。実験で取得された９０発話のうち、５７発話（６３％）において、Ｄ＞０となっている。また、この９０発話で構成される４５対話のうち、被験者がお互いに相手に合わせようとしている場合（お互いのＤの値が正だった場合）は１８対話（４０％）、Ａさん役はＢに合わせようとしているがＢさん役が合わせていない場合は１０対話（２２％）、その逆が１１対話（２４％）、お互いが合わせていない場合が６対話（１３％）であった。よって、ほとんどの対話において、いずれかの被験者の発話速度が相手に合わせる方向に変化していたことが観察された。

なお、一部の発話において、相手に合わせるような変化が見られなかった原因としては、例えば、対話文例の中に「えーっと」など普通の読上げ速度と異なる速度で読む単語が含まれており、発話速度が的確に算出できなかったこと、被験者によっては相手の発話速度による影響を受けにくい人がいること、などが考えられる。

このように、実験１における人同士の対話実験によって、被験者は普段、様々な読上げ速度で文章を読んでいるにも関わらず、その発話速度が、対話相手の発話速度に合わせるように変化することが多いことが確認された。また、この現象は、対話文の内容によらずに見られることも分かった。さらに、被験者によって適応特性などが異なることも見受けられたことから、被験者ごとの適応特性なども考慮することによって、さらに適応が促進されると考えられる。

＜実験２＞
上述の実験１では、人同士の対話における発話速度の適応を観察したが、次に、人が自動応答システムと対話を行った場合に、その発話速度がどの程度変化するかを観察した。実験には、大学生を中心に６人に被験者として参加してもらった。

この実験で使用された自動応答システムは、ユーザの発話の終了を検出した後に、予め録音しておいた音声ファイルを再生することによって、被験者との対話を実現するものである。システムが再生する音声として、一人の女性が単独で対話文を朗読している際の音声を録音したものを用いた。この録音した音声から音声編集ソフトウェアを用いて、ピッチ値を保ったまま時間方向に対して８０％・１２０％に伸縮した音声を作成した。これによって、発話時間を８０％に変換したファイルが発話速度が最も高くなり、順に８０％（速い発話、Ｈｉｇｈ）、１００％（録音そのまま、Ｍｉｄｄｌｅ）、１２０％（遅い発話、Ｌｏｗ）の三種類の発話速度の音声ファイルが用意された。

被験者には、自動応答システムと三種類の対話を行うというタスクが与えられた。対話文として、実験１で用いた９つの対話文のうちの対話２，５，９を用いた。これらの対話文は、実験１において被験者にとって発話速度の同調が見られやすかったものである。また、被験者には対話文におけるＢさんの役割が、対話システムにはＡさんの役割が与えられた。

図１３は実験２における対話順序を示す表である。図１３において、各欄の最初の数字は、対話文の番号、ＨＭＬの記号は発話速度を表している。Ｍが録音ファイルそのままの速度、Ｌは遅い発話、Ｈが速い発話を示す。例えば「２−Ｈ」は、対話文２のＨ（速い発話）と対話したことを表す。また図１３に示すように、各被験者にとって、対話文の内容は毎回違うものにした。

図１４は実験２で得られた発話データについて上の判別式Ｄの値をプロットしたグラフである。この図１４から、ほとんどの対話において、被験者の発話速度がシステムに合わせていることが分かる。実験で取得された１８対話のうち、１６対話において、判別式Ｄ＞０となっている。

以上の二つの実験から、人間は、相手が実際の人間であっても、自動応答システムから流される音声であっても、その対話の内容によらず相手の発話速度に合わせるように、自分の発話速度が影響される、と考えることができる。また、この発話速度の変化は、特に意識されなくても起きていると考えられる。

（第２の実施形態）
本発明の第２の実施形態では、ユーザとの協調動作を行うロボットを例にとって説明を行う。家庭等において利用されるロボットは、情報端末やソフトウェアエージェントと異なり、ユーザとのインタフェースとしては、言語や情報のやり取りの他に、物理的な物体のやりとりや共同作業も行う。この場合、機器（ロボット）からユーザに提供するものとしては、情報以外にも、物の操作、ジェスチャ、作業などが考えられ、これらを本実施形態では「動作」と呼ぶ。この「動作」についても、動作自体が提供する機能の他に、動作をどのように提供するかという「方法」の側面があり、この「方法」によっても、ユーザが受け取る印象は大きく変化する。本実施形態では、「動作」を提供する「方法」を調整することによって、ユーザの適応を促す例について説明する。

また、第１の実施形態では、機器内部における音声認識の状態に応じて、発話速度を調整した。これに対して本実施形態では、動作「方法」を調整する際に、外部に出力した「動作」とユーザの動作とのずれ、または協調度合を参照する点が、第１の実施形態と大きく異なっている。

次に、動作を提供する方法について追加説明する。通常の使用の場合は、協調動作がスムーズに行われるためには、ロボットも、ユーザの動作速度と同じような速度で動作することが必要になる。しかしながら、ユーザがかなり速い動作をしていて、これと同速度の動作が機構等の制約からロボットの能力を超えている場合や、例えば熱いお茶や刃物を渡すときなど、ユーザと同等速度で動作すると安全が確保できない場合は、ロボットは、ユーザと同等速度に動作するのではなく、ロボットが要求する理想的な動作速度になるように、ユーザの適応を促進させる必要がある。これによって、ユーザは、ロボットの動作速度に対して、常に不満を持つことなく、協調的な行動をとることができる。

また、動作速度を調整することによって、スムーズな協調動作を実現できるだけでなく、ユーザに対して様々な印象を副次的に与えることができる。例えば、速い動作は、「きびきび動いていて頼もしい」というような印象を与え、逆に、ゆっくりとした動作は「落ち着いている」というような印象を与えることができる。

また、ロボットの動作速度はユーザの行動速度に影響を与える。すなわち、人間同士なら互いに引き込まれる性質の動作であれば、ロボットとユーザの間でも引き込みが起こりうる。例えば、物を渡すというタスクは、ロボットがゆったりとした動きで物を渡せば、このロボットのゆったりとした動きに影響されて、ユーザの方もゆっくりとした動作で物を受け取ると考えられる。

以下、図６および図７を用いて、第２の実施形態について説明する。

図６は本実施形態に係るユーザ適応型装置としてのロボットにおけるインタフェース部３０の構成を示すブロック図である。ここでは、自律的に移動する能力とアームによる物体操作能力とを持ち、自ら移動して物を動かすことができるロボットを想定している。図６において、状態入力部３１および動作入力部３３が入力部に相当し、動作ずれ認識部３５および動作速度決定部３６が応答方法調整部に相当している。また、状態認識部３２、動作内容決定部３４および動作出力部３７が、入力処理部、応答内容決定部および出力部に、それぞれ対応している。

状態入力部３１はロボットに向き合っているユーザ１１の状態を取得する。ユーザ１１の状態とは、ロボットへのジェスチャによる指示や、表情や、行動などを指す。状態入力部３１は例えば、ユーザ１１を撮影するためのカメラや、発話を入力するためのマイクなどによって構成されており、また、ユーザ１１の生理的状態を測定するセンサ（３次元位置センサ、発汗センサ、脳波計など）との通信が可能になっているのが好ましい。

状態認識部３２は状態入力部３１によって取得された信号を処理して、ユーザ１１の状態を認識して出力する。その出力内容は、ユーザ１１のロボットに対する要求内容や、疲れている、楽しいなどといったユーザ１１の生理的状態などである。動作内容決定部３４は状態認識部３２の出力を受けて、どんな機能や動作をユーザ１１に対して実際に出力するかを決定する。

動作入力部３３は、ロボットとユーザ１１との協調動作が良好に行われているか否かを判定するために設けられており、ユーザ１１の動作を映すカメラや、ロボットハンドに装着された圧力センサ等によって構成されている。なお、動作入力部３３を構成するカメラなどの要素は、状態入力部３１と共用されてもかまわない。

動作ずれ認識部３５は、動作入力部３３の出力を受けて、ユーザ１１とロボットの動きのずれを認識する。このずれは、ユーザ１１とロボットとの間の動作の協調度合を示す指標として用いられる。

例えば、ユーザが「雑誌を取って」とロボットに頼み、ロボットが指定された雑誌を取ってきてユーザに渡す動作を考える。この場合、ロボットが雑誌を持った手を差し出す動作と、ユーザが雑誌を受け取るために手を差し出す動作とで、そのスピードとタイミングが一致しているとき、スムーズな雑誌の受け渡しが実現できる。もし、互いの動作のスピードが一致していないときは、ユーザは雑誌を受け取るという単純な動作でも、ストレスや不満を感じることが予想される。具体的には、もしロボットの手の動作がユーザの動作よりもかなり速いときは、ユーザは危険を感じて手を出すどころか思わず手を引っ込めてしまうだろうし、逆にロボットの動作がかなり遅いときは、ユーザは出した手を、雑誌が手元に来るまで止めたままで待たなければならない。

同様に、例えば、ユーザが「これ片付けておいて」とコップをロボットに渡す場合も、互いの動作のスピードやタイミングがずれていると、スムーズな受け渡しができない。

このようなユーザの不満につながる動作のずれを認識するのが、動作ずれ認識部３５である。具体的には、カメラ画像からユーザとロボット自身の動作速度を測定したり、ロボットが物を渡す動作を完了してからユーザが物を受け取るまでの時間を測定したりすることによって、互いの動作のずれは認識できる。ユーザが物を受け取ったことは、ロボットハンドに装着された圧力センサ等で検出可能である。

動作速度決定部３６は、動作ずれ認識部３５によって認識されたユーザとロボットとの動作のずれと、状態認識部３２から認識されたユーザの状態を用いながら、ロボットにとってどのようなスピードが理想的であるか、どんな印象を与えたいか、安全の観点からはどのようなスピードが理想的であるか、などを勘案して、目標の協調動作速度を決定する。動作出力部３７は、動作内容決定部３４によって決定された動作や機能を、動作速度決定部３６によって決定された動作速度によって、ユーザ３７に対して出力する。

図７は図６の構成の動作を示すフローチャートである。図７のフローを上述の第１の実施形態における図５のフローと比較すると、ユーザとのインタフェースが、動作によるものか、音声（会話）によるものかという相違はあるが、基本的な流れはほぼ同様である。ただし、図７では、ユーザとロボットの協調動作における動作のずれを認識するステップＳ２３を含む点が、図５と異なる。すなわち本実施形態では、ロボットとの動作の協調度合を判定すべく、ロボットにとっての理想的な動作速度と現在のユーザの動作速度とのずれを認識するステップＳ２３を有し、その動作のずれに応じて、ロボットの動作速度を調整するようにしている。

以上のように本実施形態によると、ユーザとロボットが協調動作を行う際に、互いの動作のずれからロボットの動作速度を調整することによって、よりスムーズな協調動作を実現ですることができる。

（第３の実施形態）
本発明の第３の実施形態では、ユーザに情報を推薦する情報端末を例にとって説明を行う。本実施形態では、情報端末の画面にエージェントを表示して、このエージェントがユーザの好みに応じた情報を音声によって提示するものとする。

また、第１の実施形態では、音声認識の状態に応じて発話速度等の出力方法を調整し、第２の実施形態では、ユーザとロボットの協調作業における動作のずれに応じて動作速度等の出力方法を調整した。これに対して本実施形態では、情報端末側でユーザの嗜好モデルを学習するものとし、その学習度合に応じて、エージェントの形態（見た目）や語彙等の情報の提供方法を調整するものとする。すなわち、外部から得たユーザに関する知識の量を、提供方法の調整に反映させる点が、第１および第２の実施形態とは異なっている。

まず、本実施形態が実現されたときのイメージを、図８を用いて説明する。

図８は情報端末からユーザに対してエージェントによってレストラン情報を提供する場合を概念的に示す図である。図８において、１３は本実施形態に係るインタフェース機能を有する情報端末、１４は表示画面、１５Ａ，１５Ｂはエージェントである。同図中、（ａ）はユーザの嗜好モデルがあまり学習されていないときの状態、（ｂ）はユーザの嗜好モデルが学習された後の状態である。

情報端末１３では、ユーザとのやり取りの中から、ユーザの嗜好モデルを学習する。学習の初期段階では、嗜好モデルはまだ十分には学習されていないため、ユーザがどのような推薦情報を好むか明確には分からない。このため、ユーザが情報推薦機能に対して過大な期待を持っていると、推薦されたものが気に入らないとき、落胆する度合が大きくなる。

図８（ａ）の例では、幼児のような外見のエージェント１５Ａを画面１４に出し、発話の語彙も「おいしいでちゅよ」と幼児語にしている。すなわち、あたかも幼児が推薦するかのように情報提供方法を調整することによって、ユーザが仮に推薦情報を気に入らない場合でも、情報端末１３に対する印象をさほど悪くならないようにしている。これにより、ユーザが怒ったり不愉快になったりすることが少なくなると考えられる。

逆に、図８（ｂ）に示すように、ユーザとのやり取りによってその嗜好モデルが学習された後は、情報端末１３は、ユーザの嗜好に合った情報をいわば自信を持って推薦することができる。この場合は、かしこまった服装の大人の外見のエージェント１５Ｂを画面１４に出し、発話の語彙も「○○様にふさわしいレストランです」という秘書や執事のような言葉遣いにする。このときに幼児のような表現では、推薦内容に対する信頼を損なう可能性もある。

このように、ユーザの嗜好モデルの学習度合に応じて、エージェントの外見や語彙といった情報提供方法を調整することによって、ユーザの印象の変化を促すことができる。これにより、推薦情報が適切でない可能性があるときは、ユーザの不満を和らげるような方法によって情報提供を行い、情報提供サービスの信頼を失わないようにするとともに、推薦情報が適切であるときは、ユーザの受容度を高めることができる。

図９は本実施形態に係るユーザ適応型装置としての情報端末におけるインタフェース部４０の構成を示すブロック図である。図９において、処理状態検出部４３および応答方法決定部４６によって、応答方法調整部が構成されている。また、入力部４１、入力処理部４２、情報内容決定部４５および出力部４７が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。

図９において、入力部４１はキーボードやタッチパネル、マイク等を通してユーザからの働きかけを受け付ける。入力部４１はユーザ１１の発話や指示を電気信号に変換する。また入力部４１は、後述の出力部４７から出力された情報に対するユーザの反応も取得する。入力処理部４２は、入力部４１からの信号を受けて、ユーザ１１の要求内容を判定する。またユーザ１１が喜んでいるか、うれしく思っているかなど、出力部４７から出力された情報に対するユーザ１１の反応に関する情報も取得する。

処理状態検出部４３は、入力処理部４２の出力を受けて、記憶部４４に格納されているユーザ１１の嗜好モデルを更新する。例えば、ユーザからの要求内容と、ユーザに提供した情報内容と、そのときのユーザの反応とを、併せて記憶する。単純に、過去の履歴を記憶するようにしてもよいし、カテゴリー化して記憶してもよい。すなわち、記憶部４４に蓄えられた嗜好モデルは、ユーザ１１とのやりとりを重ねることによって、徐々に精度の高いものに変化していく。

情報内容決定部４５は、入力処理部４２によって判定されたユーザ１１の要求内容と、記憶部４４に格納された嗜好モデルとから、今回のユーザ１１の要求に対する出力内容を決定する。

応答方法決定部４６は記憶部４４に格納された嗜好モデルの学習度合に応じて、語彙やエージェントの外見といった情報の提供方法を調整する。すなわち、嗜好モデルが、ユーザの好みをどの程度正確に反映しているかによって、情報の提供方法を調整する。そして、出力部４７は、情報内容決定部４５によって決定された情報内容を、応答方法決定部４６によって決定された提供方法によって、出力する。

ここでは、情報の提供方法の調整によって、ユーザ１１に対して自分がどの程度ユーザ１１の好みを把握しているかを間接的に示すものとする。すなわち、ユーザ１１の好みがまだ正確には把握できておらず、推薦する情報が必ずしも適切ではない可能性が高いときは、それを提供方法の調整によって伝える。例えば、「〜などはいかがでしょうか」というような言い回しを用いる。反対に、ユーザ１１の好みがきちんと学習できているときは、それも提供方法の調整によって伝える。例えば、「〜がぴったりだよ」などといった語彙を用いる。

人間同士のコミュニケーションにおいても、初対面でお互いによく知らない者同士の対話の語彙と、旧知の仲の者同士の語彙とではかなり違っている。また、語彙の用い方によって、「親しみやすい」「よそよそしい」などという印象も相手に与えてしまう。

従来の手法でも、ユーザに親しみを感じてもらうために、親しげな話し方を導入したものもある。ところが、本実施形態で示したようなユーザの嗜好を学習する情報端末では、学習初期には、ユーザの期待通りの情報を提供することが困難なために、親しげな話し方がユーザの不興を買い、かえって逆効果になってしまうおそれがある。また、学習が進んだにもかかわらず、いつまでも丁寧に応答していると、ユーザが親しみを感じないことも予想される。

そこでここでは、ユーザの嗜好が十分に学習できていない初期の段階では、初対面の人間同士が用いるような語彙で情報推薦を行う。これにより、仮に推薦情報が適切でなくても、お互いのことをよく知らないために起きたことであり、しょうがないと理解してもらえる。また、ユーザの嗜好が十分に学習できた後は、親しげに情報推薦することによって、装置に対して親しみを感じてもらうことができる。

また、語彙以外でも、例えば、ＣＧで作成して画面に表示したエージェントの外見を、学習初期では、フォーマルな格好をして登場させ、学習が進むにつれてカジュアルな格好に変化させるようにしてもよい。この場合も、ユーザが受ける印象が変化して、スムーズなコミュニケーションが実現できると考えられる。

このように本実施形態によると、ユーザに提供できる情報推薦のレベルや、ユーザに関する知識の量に応じて、情報の提供方法を調整することによって、仮に推薦情報があまり適していないときでも、ユーザは自然に受け入れることができる。これにより、ユーザは情報端末側の学習過程を特に意識することなく、機器と自然に相互動作を繰り返すうちに、ユーザの好みが次第に学習される。

なお、本実施形態では、情報推薦を例にとって説明を行ったが、それ以外でも例えば、ユーザが情報端末から対話によって情報を取得する場合でも、応用可能である。

また、各実施形態で示したインタフェース部における機能や処理は、ハードウェア若しくはソフトウェア、またはこれらの組合せによって実現することができる。

なお、上述の実施形態では、個別の事例として説明したが、家庭用ロボットなどの高度な機能を持つ機器は、音声対話能力、協調作業能力、情報推薦能力その他を併せて持つことができ、同時並行的に、または統合的に、ユーザへの応答方法を調整することができる。複数の応答方法を同時に調整することによって、ユーザはより自然なコミュニケーションを取ることができるようになる。

本発明では、機器とユーザとのコミュニケーションがより円滑になるので、ユーザインタフェースを有する機器全般、特に、ユーザ側の適応を促すのが効果的と考えられる家庭用ロボット、情報端末、家電機器などに有用である。

さらに、非特許文献３では、人間同士のコミュニケーションにおいて、言葉によるバーバル情報だけでなく、音声の周辺言語やうなずき、まばたき、表情、身振り・手振りなどのノンバーバル情報が、話し手と聞き手とを相互に引き込むいわゆる引き込み現象を起こしており、これによってコミュニケーションが円滑になっていることが示されている。また、情動変動と密接に関連した心拍間隔変動や呼吸の引き込みなどの生理的側面での引込も、重要な役割を果たしているとの指摘がある。
特開平９−８１３５０号公報特開２０００−３３０６７６号公報（特に、段落００６２）特開２００３−１５０１９４号公報（特に、段落０００９−００１１，００７２）山本吉伸、松井孝雄、開一夫、梅田聡、安西祐一郎、「計算システムとのインタラクション−楽しさを促進する要因に関する一考察−」、日本認知科学会「認知科学」、第１巻、第１号、ｐｐ．１０７−１２０、共立出版、1994年5月原田悦子、「音声インタフェイスにおけるエイジェント性と社会的文脈の効果：伝言実験による検討」、日本認知科学会第１９回大会、pp.14-15、2002年6月渡辺富夫、「身体的コミュニケーションにおける引き込みと身体性−心が通う身体的コミュニケーションシステムE-COSMICの開発を通して−」、ベビーサイエンス、Vol.2、 pp.4-12、2002年

以下、順を追ってこれらの概念について説明する。

図１１に示すように、発話速度の変化を、相手に対してどのように変化したか、という観点から４とおりに分類した。ここで、自分（Ａさん）の普段の発話速度をＶｄａ、相手（Ｂさん）の普段の発話速度をＶｄｂ、対話文例ｎの時の自分の発話速度Ｖｎａ、対話文例ｎの時の相手の発話速度をＶｎｂとする。図１１では、上下方向に発話速度の軸をとっており、その軸上に発話速度Ｖｄａ、Ｖｎａ、Ｖｎｂの位置を示している。

事例１（ａ）：自分よりも発話速度の速い相手との対話（Ｖｄａ＜Ｖｎｂ）において、自分の普段の発話速度よりも速く発話（Ｖｄａ＜Ｖｎａ）した。

事例２（ｂ）：自分よりも発話速度の速い相手との対話（Ｖｄａ＜Ｖｎｂ）において、自分の普段の発話速度よりも遅く発話（Ｖｄａ＞Ｖｎａ）した。

事例３（ｃ）：自分よりも発話速度の遅い相手との対話（Ｖｄａ＞Ｖｎｂ）において、自分の普段の発話速度よりも速く発話（Ｖｄａ＜Ｖｎａ）した。

事例４（ｄ）：自分よりも発話速度の遅い相手との対話（Ｖｄａ＞Ｖｎｂ）において、自分の普段の発話速度よりも遅く発話（Ｖｄａ＞Ｖｎａ）した。

Ｄ＝ｓｉｇｎ（Ｖｎｂ−Ｖｄａ）×ｓｉｇｎ（Ｖｎａ−Ｖｄａ）×ａｂｓ（Ｖｎａ−Ｖｄａ） …（数１）
ここで、ｓｉｇｎはプラスやマイナスの符号のみを抽出する関数、ａｂｓは絶対値を抽出する関数である。Ｄ＞０のときは、発話速度が相手と同調したことを示し、Ｄ＜０のときは、発話速度が相手と同調しなかったことを示す。また、Ｄの値の大小は、発話速度がどの程度同調したかを示す。

以上のように本実施形態によると、ユーザとロボットが協調動作を行う際に、互いの動作のずれからロボットの動作速度を調整することによって、よりスムーズな協調動作を実現することができる。

本発明の構成の概念図である。第１の実施形態のイメージ図であり、ユーザが家庭用ロボットに箱をとってきてもらう場合を示す図である。（ａ）は図２の状況における対話の例、（ｂ）は発話速度と認識度との関係を示すグラフである。本発明の第１の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。図４の構成の動作を示すフローチャートである。本発明の第２の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。図６の構成の動作を示すフローチャートである。第３の実施形態のイメージ図であり、情報端末からユーザに対して情報推薦を行う場合を示す図である。本発明の第３の実施形態に係るユーザ適応型装置におけるインタフェース部の構成を示すブロック図である。実験１において得られた、各被験者の文章読み上げの単独発話時の発話速度である。発話速度の変化の分類を示す模式図である。実験１の結果を示すグラフである。実験２における対話順序である。実験２の結果を示すグラフである。

符号の説明

以下、順を追ってこれらの概念について説明する。

本発明の第１態様では、ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置として、前記インタフェース部は、ユーザの発話を音声信号として取得する入力部と、前記入力部によって取得された音声信号に対して音声認識を行い、前記ユーザの発話内容を検出する入力処理部と、前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定する応答内容決定部と、前記ユーザごとの、当該ユーザ適応型装置の発話速度に影響を受けて当該ユーザ自身の発話速度が変化する適応特性に基づいて、前記応答内容決定部によって決定された発話内容の発話速度を調整する応答方法調整部と、前記応答内容決定部によって決定された発話内容を、前記応答方法調整部によって調整された発話速度によって、出力する出力部とを備えたものを提供する。

本発明の第２態様では、前記応答方法調整部は、前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する第１態様のユーザ適応型装置を提供する。

本発明の第３態様では、前記応答方法調整部は、前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を前記目標値に近づくように変更する第２態様のユーザ適応型装置を提供する。

本発明の第４態様では、ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法として、前記ユーザの発話を音声信号として取得する第１のステップと、前記第１のステップにおいて取得した音声信号に対して音声認識を行い、前記ユーザの発話内容を検出する第２のステップと、前記第２のステップにおいて検出した前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定する第３のステップと、前記ユーザごとの、当該ユーザ適応型装置の発話速度に影響を受けて当該ユーザ自身の発話速度が変化する適応特性に基づいて、前記第３のステップにおいて決定された発話内容の発話速度を調整する第４のステップと、前記第３のステップにおいて決定した発話内容を、前記第４のステップにおいて調整した発話速度によって出力する第５のステップとを備えたものを提供する。

本発明の第５態様では、前記応答方法調整部は、前記ユーザの発話速度の目標値を、前記音声認識の認識性能が最も良い値に設定する第１態様のユーザ適応型装置を提供する。

本発明の第６態様では、前記応答方法調整部は、前記ユーザの発話速度の目標値を、前記音声認識の認識性能が適切に得られる範囲で、かつ、前記ユーザの発話速度の値からみて当該認識性能が最も良い発話速度の値よりも近い値に、設定する第１態様のユーザ適応型装置を提供する。

符号の説明

Claims

ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置であって、
前記インタフェース部は、
ユーザの動作、状態および要求のうち少なくともいずれか１つを示す入力信号を、取得する入力部と、
前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、
前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する応答内容決定部と、
前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか１つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、
前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によって調整された応答方法によって、出力する出力部とを備え、
前記入力処理部は、
前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、
前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定するよう、指示するものである
ことを特徴とするユーザ適応型装置。
請求項１において、
当該ユーザ適応型装置は、ユーザと音声対話を行うものであり、
前記入力部は、前記ユーザの発話を音声信号として取得し、
前記入力処理部は、前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、
前記応答内容決定部は、前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定し、
前記応答方法調整部は、前記音声認識処理における認識状態を基にして、発話方法を調整する
ことを特徴とするユーザ適応型装置。
請求項２において、
前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーションのうち少なくともいずれか１つを調整するものである
ことを特徴とするユーザ適応型装置。
請求項２において、
前記応答方法調整部は、
前記発話方法として、発話速度を調整するものであり、かつ、
前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する
ことを特徴とするユーザ適応型装置。
請求項４において、
前記応答方法調整部は、
前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を、前記目標値に近づくように、変更する
ことを特徴とするユーザ適応型装置。
請求項２において、
前記応答方法調整部は、
前記発話方法として、発話速度を調整するものであり、かつ、
ユーザの発話速度の目標値を、ユーザに応じて、決定する
ことを特徴とするユーザ適応型装置。
請求項１において、
当該ユーザ適応型装置は、ユーザに対して動作を提供するものであり、
前記入力部は、前記ユーザの状態および動作を示す信号を入力するものであり、
前記入力処理部は、前記入力部に入力された信号を処理して、前記ユーザの要求を認識するものであり、
前記応答内容決定部は、前記入力処理部によって認識された前記ユーザの要求に応じて、前記ユーザに提供する動作内容を決定し、
前記応答方法調整部は、前記入力部に入力された信号から、前記ユーザと当該ユーザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて、動作の提供方法を調整する
ことを特徴とするユーザ適応型装置。
請求項７において、
前記応答方法調整部は、動作の提供方法として、動作速度を調整する
ことを特徴とするユーザ適応型装置。
請求項１において、
当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、
前記入力部は、ユーザからの要求を示す信号を取得し、
前記入力処理部は、前記入力部によって取得された信号から、ユーザからの要求を判断し、
前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を基にして、前記嗜好モデルを参照して、前記ユーザに提供する情報内容を決定し、
前記応答方法調整部は、前記嗜好モデルの学習度合を基にして、情報の提供方法を調整する
ことを特徴とするユーザ適応型装置。
請求項９において、
前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示するエージェントの形態のうち少なくともいずれか１つを、調整する
ことを特徴とするユーザ適応型装置。
ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法であって、
前記ユーザの動作、状態および要求のうち少なくともいずれか１つを示す入力信号を、取得する第１のステップと、
前記第１のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検出する第２のステップと、
前記第２のステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第３のステップと、
前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか１つに基づいて、前記ユーザへの応答方法を調整する第４のステップと、
前記第３のステップにおいて決定した応答内容を、前記第４のステップにおいて調整した応答方法によって、出力する第５のステップと、
前記第５のステップにおける出力に対する前記ユーザの反応を検出する第６のステップと、
前記第６のステップにおいて検出した前記ユーザの反応に、前記第４のステップにおいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第７のステップとを備えた
ことを特徴とする制御方法。