JP6751536B2

JP6751536B2 - 装置、ロボット、方法、及びプログラム

Info

Publication number: JP6751536B2
Application number: JP2017044325A
Authority: JP
Inventors: 路子笹川; 亮太宮崎
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2017-03-08
Filing date: 2017-03-08
Publication date: 2020-09-09
Anticipated expiration: 2037-03-08
Also published as: CN108573695A; CN108573695B; US10702991B2; US20180257236A1; JP2018146898A; EP3373301A1

Description

本開示は、音声を処理する装置、ロボット、方法、及びプログラムに関する。

近年、ユーザが発した音声を処理することでユーザの感情認識を行う技術研究が盛んに行われている。従来の感情認識の方法として、話者の発生した音声の言語情報を用いる方法や、音声の音の韻律的特性を用いる方法や、顔画像からの表情分析を行う方法等がある。

ユーザが発した音声の言語情報をもとに感情認識を行う技術の一例が、特許文献１に開示される。具体的には、特許文献１は、「サッカーで遊ぶのは楽しい？」との質問に対して、利用者が「サッカーで遊ぶのはすごくつまらないね」と返事をした場合、”サッカー”をキーワードとして抽出し、キーワードを含むフレーズに”すごくつまらない”というマイナスの感情を示す言葉が含まれているため、利用者はサッカーに興味がないと推論し、サッカー以外についての質問を行う技術を開示する。

また、入力されたユーザの音声及び顔画像からその感情を判定し、判定した感情に応じた応答を出力する技術の一例が特許文献２に開示される。具体的には、特許文献２は、ＰａｕｌＥｋｍａｎらによって開発されたＦＡＣＳ（ＦａｃｉａｌＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ）を用いた表情からの感情認識（怒り、嫌悪、恐れ、喜び、悲しみ、驚き、普通）と、音声による感情認識（緊張、喜び、困惑）とを行い、それぞれの感情認識結果を重み付けして、緊張の評価値を算出し、算出した緊張の評価値に基づいて、緊張の感情の有無を判定し、緊張の感情が有る場合は、緊張を緩和する行動をロボットに行わせる技術を開示する。

また、このような感情認識に基づくロボット制御では、一人のユーザを想定していることが多く、二人以上のユーザを想定したロボットの制御を想定しているものは少ない。複数のユーザを想定した先行技術の一例として特許文献３がある。特許文献３は、第二のユーザ（例：子供）の行動、状態、及び環境を計測し、計測結果に基づき、第一のユーザ（例：父親）への提示情報を決定し、決定した提示情報を第一のユーザ（例：父親）の帰宅時に提示する技術を開示する。具体的には、特許文献３では、ロボットが子供との会話を通じて取得した子供の要望を帰宅時に父親に知らせることで、子供と父親とのコミュニケーション不足を補填する技術が開示されている。

特許第４０１５４２４号公報特開２００６−１２３１３６号公報特開２００９−１３１９２８号公報

大人が子供を注意する場合、怒るのではなく叱るのが、子供の教育上、好ましいとされている。しかしながら、特許文献１〜３のいずれも、大人が子供を注意するシーンにおいて、「叱る」と「怒る」とを区別することは全く考慮されていない。そのため、特許文献１〜３は、大人が子供を注意するシーンにおいて、怒ったことを大人に気づかせることができないという課題がある。

本開示の目的は、大人が子供を注意するシーンにおいて、大人が子供を怒った場合、怒ったことを大人に気づかせる装置等を提供することである。

本開示の一態様に係る装置は、
音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第１判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第２判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第１処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第１処理は、（ｉ）前記スピーカーに第１音を出力させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第１処理は、（ｉ）前記ディスプレイに第１表示をさせる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第１処理は、（ｉ）前記カメラに前記大人を撮影させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含むものである。

本開示によれば、大人が子供を怒った場合、怒ったことを大人に気づかせることができる。その結果、子供の教育上、好ましい処理を行う装置等を提供することができる。

実施の形態１における装置の全体構成の一例を示す図である。実施の形態１における注意語辞書の一例を示す図である。実施の形態１に係る装置の処理の一例を示すフローチャートである。図３のＳ３０４の大人認識処理の詳細を示すフローチャートである。実施の形態２における装置の全体構成の一例を示す図である。注意対象者の重心位置が変化した様子を示す図である。注意対象者が把持するオブジェクトを離した様子を示す図である。実施の形態２における装置の処理の一例を示すフローチャートである。図８のＳ８０１に示す子供状態認識処理の詳細を示すフローチャートである。実施の形態３におけるロボットの一例を示す外観図である。ロボットの電気的な構成の一例を示す図である。実施の形態３におけるロボットの処理の一例を示すフローチャートである。怒っていることを大人に気づかせるための表示例を示す図である。子供に叱られている行動の中止を促すための表示例を示す図である。怒りの表情と喜びの表情との一例を示す図である。

（本開示の基礎となった知見）
ロボット技術の進化と共に、近年のロボットの普及は目覚しく、商業施設をはじめ家庭へもロボットの普及が進みつつある。家庭へ導入するロボットの場合、家庭には親子をはじめとする複数のユーザが共存しており、さまざまな生活シーンが存在する。このような生活シーンにあわないロボットの振る舞いは、時には育児の邪魔になり、利用し難いものとなる。

特に、幼児のいる家庭でよく観察される、保育者である大人が幼児を注意する状況では、保育者である親も真剣に子供を注意しており、ロボットが身勝手な振る舞いをするべきではない。したがって、子供のいる家庭では、子供を注意する時は、ロボットを停止させたいという意見があった。

一方で、育児に対する保育者の悩みとして、叱りすぎてしまったり、大声を出してしまうことが最も多い悩みであることがわかった。

幼児教育では、「叱る」ことが推奨され、「怒る」ことは子供の人格形成へも悪影響を与える行為とされている。「叱る」とは、相手のことを思って注意する行為であり、穏やかで冷静に注意する行為である。「怒る」とは、自分の感情の怒りや苛立ちを沈めるために注意する行為であり、そこには発話者の感情が表れる。

しかし、上記の特許文献１、２は、喜怒哀楽が判断されているにすぎず、「叱る」と「怒る」とを区別することは行われていないので、大人が子供を注意するシーンにおいて、大人が怒った場合、怒ったことを大人に気づかせることができないという課題がある。上記の特許文献３は、複数ユーザ間の間接的なコミュニケーションを図るものであり、大人が子供を怒るシーンは想定されていない。

本開示は、大人が子供を注意するシーンにおいて、大人が子供を怒った場合、怒ったことを大人に気づかせることができる装置等を提供することを目的とする。

（１）本開示の一態様に係る装置は、
音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第１判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第２判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第１処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第１処理は、（ｉ）前記スピーカーに第１音を出力させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第１処理は、（ｉ）前記ディスプレイに第１表示をさせる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第１処理は、（ｉ）前記カメラに前記大人を撮影させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含むものである。

本態様によれば、マイクにより取得された音に大人の発話が含まれているか否かが判断され、大人の発話が含まれていれば、大人が子供を注意する際に使用される語句がその発話に含まれているか否かが判断される。そして、その語句が発話に含まれていれば、大人の発話の物理的特徴量から大人が子供を叱っているのか、怒っているのかが判断され、大人が怒っていると判断された場合は、装置に対して、第１音を出力させたり、第１動作させたり、ディスプレイに第１表示をさせたり、カメラに大人を撮影させたりする第１処理が実行される。これにより、大人に怒っていることを気づかせることができる。

（２）上記態様において、前記第１音は、所定のアラーム音を含んでもよい。

本態様によれば、アラーム音を通じて大人に怒っていることを気づかせることができる。

（３）上記態様において、前記第１音は、前記大人が怒っていることを前記大人に通知する音声を含んでもよい。

本態様によれば、音声を通じて怒っていることを大人に気づかせることができる。

（４）上記態様において、前記第１音は、前記大人に怒りを解放するよう促す音声を含んでもよい。

本態様によれば、大人に怒りを解放するよう促す音声が出力されるので、大人の怒りを緩和させることができる。

（５）上記態様において、前記第１動作は、前記ディスプレイを前記大人に対向させる動作を含んでもよい。

本態様によれば、ディスプレイが大人に対向するように装置が動作するので、大人の意識を装置に向かわせ、大人に怒っていることを気づかせることができる。

（６）上記態様において、前記第１動作は、前記装置が前記大人に向かう動作を含んでもよい。

本態様によれば、装置が大人に向かって移動するので、大人の意識を装置に向かわせ、大人に怒っていることを気づかせることができる。

（７）上記態様において、前記第１動作は、前記装置が左右に揺れる動作を含んでもよい。

本態様によれば、装置が左右に揺れる動作が行われるので、大人の意識を装置に向かわせ、大人に怒っていることを気づかせることができる。

（８）上記態様において、前記第１表示は、前記装置の目と口とをシンボリックに表す表示を含んでもよい。

本態様によれば、装置のディスプレイに目と口とを用いた所定の表情が表示されるので、大人の意識をその表情に向かわせ、大人に怒っていることを気づかせたり、大人の怒りを緩和させたりすることができる。

（９）上記態様において、前記所定の表情は、悲しみの表情、驚きの表情、困惑の表情、怒りの表情のいずれかを含んでもよい。

本態様によれば、上記の表情を通じて、大人に怒っていることを気づかせたり、大人の怒りを緩和させることができる。

（１０）上記態様において、前記第２判断部は、前記大人の発話の物理的特徴量が複数回閾値を超える場合に、前記大人が怒っていると判断してもよい。

本態様によれば、発話の物理的特徴量が複数回閾値を超えた場合に大人が怒っていると判断されているので、大人が怒っていることを正確に検出できる。

（１１）上記態様において、前記物理的特徴量は、前記音声の周波数、前記音声のパワー、前記発話の速度、前記発話の時間、のいずれかを含んでもよい。

本態様によれば、音声の周波数、音声のパワー、発話の速度、及び発話の時間のいずれかを用いて怒っているか否かが判断されているので、大人が怒っていることを正確に検出できる。

（１２）上記態様において、前記装置が前記カメラを備えている場合、
前記第２判断部は、前記大人が怒っていると一旦判断された後の第１期間における前記映像データに基づいて、前記大人が怒り及び悲しみ以外の表情をしていると判断する場合は、前記大人は叱っていると判断してもよい。

本態様によれば、大人が怒っていると一旦判断された場合であっても、その後の第１期間においてカメラが取得した映像データに大人の怒り及び悲しみ以外の表情が含まれている場合は大人は叱っていると判断される。そのため、大人があえてきつい口調で子供を叱った場合に怒ったと判断されることを防止できる。

（１３）上記態様において、前記音声認識部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれているか否かを、前記メモリに記憶された前記子供の名前を示すデータに基づいて判断し、
前記第２判断部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれていると判断された場合は、前記子供を、前記大人が叱っているまたは怒っている対象者であると更に判断し、
前記装置が前記カメラを備えている場合、
前記映像データに含まれる人物が前記子供であるか否かを、前記メモリに記憶された前記子供に対応する映像データに基づいて判断する第３判断部と、
前記大人が前記子供に対して叱っていると判断された場合、且つ、前記映像データに含まれる人物が前記子供であると判断された場合は、前記映像データに基づいて、前記大人の発話が認識された後の第２期間において前記子供の体勢が変化したか判断し、前記子供の体勢が変化していないと判断された場合は、前記映像データに基づいて、前記第２期間において前記子供が手にオブジェクトを持ち続けているか判断する第４判断部と、を更に備え、
前記第２期間において、前記子供の体勢が変化していないと判断された場合、または、前記子供が手に前記オブジェクトを持ち続けていると判断された場合は、前記制御部は、前記装置に対して第２処理をさせ、
前記装置が前記スピーカーを備えている場合は、
前記第２処理は、（ｉ）前記スピーカーに第２音を出力させる処理、（ｉｉ）前記装置に第２動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
（ｉ）前記装置に第２動作をさせる処理、（ｉｉ）前記ディスプレイに第２表示をさせる処理、のいずれかを含んでもよい。

本態様によれば、大人が叱っていると判断された場合、その後の第２期間において、子供の体勢が変化しているか否か、及び、子供の体勢は変化していないが子供が手にオブジェクトを持ち続けているか否かが判断される。これにより、子供が叱られた場合において、子供が叱られている行為を継続しているか否かを判断できる。そして、子供が叱られている行為を継続していれば、第２音を出力させたり、装置に第２動作をさせたり、ディスプレイに第２表示をさせる第２処理が行われる。これにより、叱られた行為を継続している子供に対して、その行為の中止を促すことができる。

（１４）上記態様において、前記第２音は、所定のアラーム音を含んでもよい。

本態様によれば、アラーム音を通じて子供に叱られた行為の中止を促すことができる。

（１５）上記態様において、前記第２音は、所定の音楽を含んでもよい。

本態様によれば、音楽を通じて子供に叱られた行為の中止を促すことができる。

（１６）上記態様において、前記第２音は、前記子供に対して、前記子供が現在行っている行為をやめるように促す音声を含んでもよい。

本態様によれば、子供に対して、子供が現在行っている行為をやめるように促す音声が出力されるので、子供に叱られた行為の中止を促すことができる。

（１７）上記態様において、前記第２音は、前記子供に対して、現在何をしているのか尋ねる音声を含んでもよい。

本態様によれば、子供に対して現在何をしているかを尋ねる音声が出力されるので、子供に対して現在行っている行為が良くない行為であることを気づかせることができる。

（１８）上記態様において、前記第２動作は、前記ディスプレイを前記子供に対向させる動作を含んでもよい。

本態様によれば、装置のディスプレイが子供に対向することを通じて、子供に叱られた行為の中止を促すことができる。

（１９）上記態様において、前記第２動作は、前記装置が前記子供に向かう動作であってもよい。

本態様によれば、装置が子供に向かうように移動することを通じて、子供に叱られた行為の中止を促すことができる。

（２０）上記態様において、前記第２表示は、前記装置の目と口とをシンボリックに表す表示を含み、
前記表示は前記装置の所定の表情に対応してもよい。

本態様によれば、目と口とを用いた所定の表情が装置のディスプレイに表示されるので、その表示を通じて、子供に叱られた行為の中止を促すことができる。

（２１）本開示の別の一態様に係るロボットは、上記の（１）〜（２０）のいずれかの装置を備えるものである。

本態様によれば、大人が子供を注意するシーンにおいて、大人が怒っている場合、大人に怒っていることを気づかせるロボットを提供することができる。その結果、子供の教育にとって有用なロボットを提供できる。

（２２）本開示の更に別の一態様に係る方法は、メモリと、マイクと、ディスプレイ、スピーカー、及びカメラのいずれかとを備える装置における音声を処理する方法であって、
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第１判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第２判断ステップと、
前記装置が前記スピーカーを備えている場合は、
前記第１処理は、（ｉ）前記スピーカーに第１音を出力させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第１処理は、（ｉ）前記ディスプレイに第１表示をさせる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第１処理は、（ｉ）前記カメラに前記大人を撮影させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含んでもよい。

（２３）上記開示の更に別の一態様に係るプログラムは上記の（２２）の方法をコンピュータに実行させるものである。

（２４）本開示の更に別の一態様に係る装置は、音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第１判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が所定回数以上前記大人の発話に含まれるか判断する音声認識部と、前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれると判断された場合、前記大人が怒っていると判断し、前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれないと判断され場合、前記大人が叱っていると判断する、第２判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第１処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第１処理は、（ｉ）前記スピーカーに第１音を出力させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第１処理は、（ｉ）前記ディスプレイに第１表示をさせる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第１処理は、（ｉ）前記カメラに前記大人を撮影させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含んでもよい。

本態様によれば、大人が子供を注意した場合、大人が子供を注意する際に使用される語句が大人の発話に所定回数以上含まれていれば、大人が怒っていると判断されるので、大人が怒っていることを正確に判断することができる。そのため、大人が叱っている場合において第１処理が行われることを防止し、装置が教育を邪魔するような処理を行うことを防止できる。更に、大人が怒っている場合は、第１処理が実行されるので、第１処理を通じて、大人に怒っていることを気づかせることができる。

（２５）本開示の更に別の一態様に係るロボットは、上記の（２４）の装置を備えるものである。

（２６）本開示の更に別の一態様に係る方法は、メモリと、マイクと、ディスプレイ、スピーカー、及びカメラのいずれかとを備える装置における音声を処理する方法であって、
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第１判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が所定回数以上前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれると判断された場合、前記大人が怒っていると判断し、前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれないと判断され場合、前記大人が叱っていると判断する、第２判断ステップと、
前記大人が怒っていると判断された場合は、前記装置に対して第１処理をさせる制御ステップとを備え、
前記装置が前記スピーカーを備えている場合は、
前記第１処理は、（ｉ）前記スピーカーに第１音を出力させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第１処理は、（ｉ）前記ディスプレイに第１表示をさせる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第１処理は、（ｉ）前記カメラに前記大人を撮影させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含むものである。

（２７）本開示の更に別の一態様に係るプログラムは、上記の（２６）の方法をコンピュータに実行させるものである。

なお、本開示に係るプログラムはコンピュータ読取可能な記録媒体に格納されていてもよい。

（実施の形態）
以下、本発明の各実施の形態について、図面を参照しながら説明する。なお、各図面において、同じ構成要素については同じ符号が用いられている。

（実施の形態１）
図１は、実施の形態１における装置１の全体構成の一例を示す図である。装置１は、ロボットで構成されてもよいし、ボタン式の携帯端末、スマートフォン、又はタブレット端末等の端末を含むシステムで構成されてもよい。図１における装置１は、音声入力部１１（マイクの一例）、状況判断装置１２、音声合成部１３（制御部の一例）、音制御部１４（制御部の一例）、音出力部１５（スピーカーの一例）、駆動制御部１６（制御部の一例）、表示制御部１７（制御部の一例）、映像入力部１８（カメラの一例）、及び表示部１９（ディスプレイの一例）を備える。

装置１がロボットで構成されているのであれば、音声入力部１１、状況判断装置１２、音声合成部１３、音制御部１４、音出力部１５、駆動制御部１６、表示制御部１７、映像入力部１８、及び表示部１９は、例えば、ロボットに組み込まれる。

装置１がスマートフォン等の端末を含むシステムで構成されているのであれば、例えば、音声入力部１１、状況判断装置１２、音声合成部１３、音制御部１４、音出力部１５、駆動制御部１６、表示制御部１７、映像入力部１８、及び表示部１９は、端末に組み込まれても良い。

音声入力部１１は、例えば、特定の方向からの音を他の方向からの音よりも高い感度で取得する指向性マイクで構成され、装置１の周辺の音を取得し、状況判断装置１２に出力する。なお、音声入力部１１は、指向性マイクに代えて、無指向性マイクで構成されてもよい。音声入力部１１は、例えば、状況判断装置１２が実装された装置１の本体部に組み込まれている。或いは、音声入力部１１は、例えば、ハンドマイク、ピンマイク、又は卓上マイクなどの独立した集音デバイスで構成されてもよい。この場合、音声入力部１１は、例えば、有線又は無線で装置１の本体部と接続されればよい。或いは、音声入力部１１は、端末のマイクで構成されてもよい。

音声合成部１３は、後述する処理決定部１３４により生成された応答発話のテキストデータを、音声合成処理により音声データへ変換する。

音出力部１５は、例えば、スピーカーで構成され、音声合成部１３によって変換された音声データを装置１の外部空間に出力する。音出力部１５は、装置１に組み込まれてもよいし、有線又は無線によって状況判断装置１２に接続されてもよい。また、音出力部１５は、スマートフォン等の端末のスピーカで構成されてもよい。

音制御部１４は、音や音楽のデータを保持及び管理する。また、音制御部１４は、後述する処理決定部１３４が決定した音を音出力部１５へ出力する。

駆動制御部１６は、状況判断装置１２が実装された装置１の本体部又はロボットの駆動制御を行う。具体的には、駆動制御部１６は、装置１の正面部分をユーザの方へ向ける制御や、装置１の駆動輪などを制御し、装置１の本体部をユーザへ近づける制御を行う。

表示制御部１７は、状況判断装置１２が実装された装置又はロボットの表示部に画像を表示させる。具体的には、表示制御部１７は、表示部を構成するＬＥＤパネルの色の設定やＯＮ／ＯＦＦ制御を行う。

映像入力部１８は、例えば、ステレオカメラや測距センサ等の距離画像センサにより構成され、装置１の周辺の画像データを所定のフレームレートで取得し、主制御部１２２に出力する。この場合、画像データは、各画素がＲＧＢの色成分と深度とで表された距離画像データで構成される。なお、映像入力部１８は、距離画像センサに代えて、深度を計測しない通常の画像センサで構成されてもよい。

表示部１９は、例えば、ＬＥＤパネルや液晶パネルや有機ＥＬパネルで構成され、表示制御部１７の制御の下、大人に怒っていることを気づかせるための画像を表示する。なお、表示部１９は、有線又は無線によって装置１の本体部に接続されてもよい。

状況判断装置１２は、ＣＰＵ等のプロセッサで構成される主制御部１２２と、不揮発性の記憶装置で構成されるメモリ１２１とを備える。主制御部１２２は、話者判断部１３１（第１判断部の一例）、音声認識部１３２、感情認識部１３３（第２判断部の一例）、及び処理決定部１３４（制御部の一例）を備える。メモリ１２１は、注意語辞書１４１を記憶する。話者判断部１３１、音声認識部１３２、感情認識部１３３、及び処理決定部１３４は、例えば、主制御部１２２が状況判断処理を行うコンピュータ読取可能なプログラムを実行することで実現される。このプログラムはメモリ１２１に格納されている。

また、状況判断装置１２を構成する全ての要素は、装置１の本体部に実装されてもよいし、光ファイバ、無線、又は公衆電話回線などの任意のネットワークを介して装置１の本体部と接続された別の装置（例えばサーバ）に実装されてもよい。状況判断装置１２は、一部の構成要素が装置１の本体部に実装され、残りの構成要素が別の装置に実装され、装置１の本体部と別の装置とが互いに通信することによって実現されてもよい。

話者判断部１３１は、音声入力部１１によって取得された音から音声を抽出し、抽出された音声に大人の発話が含まれているか、子供の発話が含まれているかを判断する。詳細には、話者判断部１３１は、音声入力部１１によって取得された音から抽出した音声から声紋を抽出し、抽出した声紋とメモリ１２１に予め記憶された大人の声紋と比較することによって、大人の発話が含まれているか、子供の発話が含まれているかを判断すればよい。この場合、メモリ１２１は、装置１を所持する大人のユーザの声紋と子供のユーザの声紋とをメモリ１２１に事前に記憶する。そして、話者判断部１３１は、抽出した声紋とメモリ１２１に記憶された大人のユーザの声紋との類似度を算出し、算出した類似度が閾値以上であれば、大人の発話が含まれていると判断すればよい。一方、話者判断部１３１は、抽出した声紋とメモリ１２１に記憶された子供のユーザの声紋との類似度を算出し、算出した類似度が閾値以上であれば、子供の発話が含まれていると判断すればよい。

なお、話者判断部１３１は、別の方法を用いて大人の発話が含まれているか、子供の発話が含まれているかを判断してもよい。例えば、メモリ１２１は、大人用の音響モデルと子供用の音響モデルとを事前に記憶する。そして、話者判断部１３１は、抽出した音声に対して、大人用の音響モデルを用いた音声認識処理を行うと共に子供用の音響モデルを用いた音声認識処理を行い、それぞれの認識結果の確からしさを示す信頼度を算出する。そして、話者判断部１３１は、大人用の音響モデルを用いた場合の信頼度が子供用の音響モデルを用いた場合の信頼度よりも高ければ、大人の発話が含まれていると判断すればよい。なお、話者判断部１３１は、音響モデルに代えて言語モデルを用いてこの判断を行ってもよい。この場合、メモリ１２１は、大人用の言語モデルと子供用の言語モデルとを事前に記憶しておく。そして、話者判断部１３１は、抽出した音声に対する大人用の言語モデルの信頼度が子供用の言語モデルの信頼度よりも高ければ、大人の発話が含まれていると判断すればよい。

なお、音響モデルは、音素の波形サンプルを保持しており、言語モデルは、所定の言語の単語の並び方といった言葉の情報を保持している。

注意語辞書１４１は、大人が子供に注意をする際に使用される注意語（語句）が事前に登録されたデータベースである。図２は、実施の形態１における注意語辞書１４１の一例を示す図である。注意語辞書１４１は注意語欄２０１を含む。注意語欄２０１は、大人が子供に注意する際に使用される１以上の注意語が登録されている。図２の例では、「やめなさい」、「歯磨きしなさい」など子供を注意する際によく使われる「なさい」と、呼びかけの語句である「こら！」とが登録されている。更に、図２の例では、「駄目」と、「終わり」と、「いい加減にしなさい」とが登録されている。但し、これらの注意語は一例であり、注意語辞書１４１は、大人が子供を注意する際に使用される注意語であれば、図２で例示した以外の注意語を登録していてもよい。

図１の例では、注意語辞書１４１は、メモリ１２１に予め記憶されている態様が示されているが、本開示はこれに限定されず、ネットワークを介して装置１に接続される別の装置（例えばサーバ）に記憶される態様が採用されてもよい。この場合、注意語辞書１４１は、別の装置の管理者（例えば、装置１の製造メーカやサービスプロバイダ）によって一括管理されており、随時更新される。

音声認識部１３２は、話者判断部１３１により大人の発話が含まれていると判断された場合、例えば、音響モデル及び言語モデルを用いて大人の発話を認識し、認識した内容を示すテキストデータを生成する。そして、音声認識部１３２は、生成したテキストデータの中に注意語辞書１４１に登録された注意語が含まれるか否かを判断する。

但し、これは一例であり、音声認識部１３２は、話者判断部１３１により大人の発話が含まれていると判断された場合、言語モデルを用いずに音響モデルを用いて認識した音素列中に注意語辞書１４１に登録された注意語が含まれているか否かを判断してもよい。或いは、音声認識部１３２は、話者判断部１３１により大人の発話が含まれていると判断された場合、音響モデル及び言語モデルを用いて生成したテキストデータに対して形態素解析を適用することで生成したテキストデータを複数の単語に区切ると共に区切った単語の品詞を特定し、特定した品詞を考慮して、生成したテキストデータに含まれる単語と注意語辞書１４１とを比較すればよい。例えば、注意語辞書１４１に注意語欄２０１に加えて品詞欄を更に含め、音声認識部１３２は、生成したテキストデータに含まれる単語及び品詞が、注意語辞書に登録された注意語及び品詞と一致すれば、生成したテキストデータに注意語辞書１４１に登録された注意語が含まれていると判断すればよい。

また、音声認識部１３２は、生成したテキストデータに注意対象者である子供の名前が含まれているか否かを確認してもよい。なお、装置１を利用するユーザの名前や愛称は、例えば、装置１を初めて利用する際に設定され、ユーザ情報としてメモリ１２１に保存しておけばよい。この場合、ユーザの名前や愛称は、ユーザが大人又は子供であるかを区別する情報と対応付けてメモリ１２１に保存されてもよい。名前や愛称の設定は、個々のユーザに名前や愛称を発話させることで行われてもよい。この場合、ユーザが大人であるか子供であるかを区別する情報は、ユーザが発話した名前や愛称を音声認識することで取得されてもよいし、大人又は子供であるかを区別する情報を発話させることで取得されてもよい。或いは、装置１又は装置１にネットワークを通じて接続された端末がテキストデータを入力する入力部を備えているのであれば、ユーザの名前、愛称、大人又は子供を区別する情報は、この入力部を通じて入力されてもよい。

感情認識部１３３は、音声認識部１３２により、大人の発話に注意語が含まれていると判断された場合、大人の発話の物理的特徴量に基づいて、大人が怒っているか叱っているかを判断する。

ここで、感情認識部１３３は、大人の発話の物理的特徴量が、大人が怒っていることを示す閾値以上であれば、大人が怒っていると判断し、閾値未満であれば、大人は叱っていると判断する。

例えば、特開２００５−２８３６４７号公報には、話者が発話した音声の単語別の韻律特徴量（基本周波数及び音圧（音声のパワー））の時間パターンと、話者が過去に発話した音声の韻律的特徴量の時間パターンの統計量から生成された単語別の韻律モデルとの尤度が所定の閾値を超えた場合、話者が怒っていると判断する技術が開示されている。

そこで、感情認識部１３３は、この技術を利用して話者が怒っているか否かを判断すればよい。この場合、感情認識部１３３は、装置１を利用する各ユーザの単語別の韻律特徴量の時間パターンを統計処理することで、各ユーザの単語別の韻律モデルを事前に生成してメモリ１２１に記憶させておく。そして、感情認識部１３３は、注意語を含む音声に含まれるある単語（例えば、注意語）の韻律特徴量の時間パターンを物理的特徴量として算出し、算出した韻律特徴量の時間パターンと、この韻律特徴量の時間パターンに対応する韻律モデルとの尤度が閾値より大きければ、大人が怒っていると判断すればよい。一方、感情認識部１３３は、前記尤度が閾値以下であれば、大人は叱っていると判断すればよい。なお、本実施の形態では、韻律特徴量として基本周波数及び音圧に加え、更に発話の速度、発話の時間を含めてもよい。

また、特許第４９１４２９５号公報には、入力音声信号の有声区間のうち１区間についての振幅包絡の周期的変動の周波数が１０Ｈｚ〜１７０Ｈｚ未満である場合に、当該１区間は話者が力んだ状態で発生した音声であると判断し、力んだ状態で発生した音声の信号であると判定された入力音声信号について、発話時の力みやすさを示す力み発生指標から怒りの強度を決定する技術が開示されている。

そこで、感情認識部１３３は、この技術を利用して話者が怒っているか否かを判断してもよい。この場合、感情認識部１３３は、注意語を含む音声についての力み発生指標を物理的特徴量として算出し、力み発生指標が閾値より大きければ、大人が怒っていると判断すればよい。

なお、上記の手法は一例であり、注意語が含まれる音声から怒りの感情を推定する手法であれば、どのような手法が採用されてもよい。

更に、感情認識部１３３は、下記の手法を用いて大人が怒っているか否かを判断してもよい。例えば、感情認識部１３３は、注意語を含む音声の物理的特徴量が閾値より大きい期間が一定期間以上継続した場合に、大人が怒っていると判断してもよい。或いは、感情認識部１３３は、注意語が含まれている音声の物理的特徴量が閾値を超えた回数が、一定期間内に一定回数以上観測された場合に大人が怒っていると判断してもよい。

なお、ここでは注意語が含まれる音声の物理的特徴量に基づいて大人が怒りの感情を抱いているか否が検出されているが、時に保育者である大人はわざと怒った顔をして子供を叱る場合もある。この場合、注意語が含まれる音声を発話した後、大人の表情が怒った顔から笑顔に変化することが想定される。そこで、感情認識部１３３は、大人が怒っていると判定した後、一定期間（第１期間の一例）内に大人の表情が怒った顔から笑顔に変化したことを検出したのであれば、大人は怒っているのではなく、叱っていると判断してもよい。詳細には、感情認識部１３３は、大人が怒っていると判断した場合、判断した前後一定期間において、映像入力部１８が取得した画像データを解析する。そして、感情認識部１３３は、解析した画像データに含まれる大人の顔の表情が怒った顔から笑顔に変化したのであれば、大人は叱っていると判断すればよい。なお、感情認識部１３３は、装置１を使用する各ユーザの顔の特徴量を事前にメモリ１２１に記憶させておき、この顔の特徴量を用いて画像データに含まれる大人の顔の画像データを抽出すればよい。そして、感情認識部１３３は、抽出した大人の顔の画像データから顔の表情を解析することで、大人の顔が怒った顔から笑顔に変化したか否かを判断すればよい。或いは、感情認識部１３３は、各ユーザの顔の特徴から顔の画像データを抽出し、ネットワークを介して接続されたサーバに顔の表情分析を行わせることで、大人の顔が怒った顔から笑顔に変化したか否かを判断する方法を採用してもよい。

また、感情認識部１３３は、物理的特徴量を用いずに、大人の発話に注意語辞書１４１に登録された注意語が所定個数以上含まれている場合、大人が怒っていると判断し、所定個数以上含まれていない場合、大人が叱っていると判断してもよい。ここで、所定個数としては、１個、２個、３個等の適当な値が採用できる。

処理決定部１３４は、感情認識部１３３により大人が怒っていると判断された場合、大人に怒っていることを気づかせるための第１処理を実行する。第１処理としては、以下に示す処理（ａ）、（ｂ）、（ｃ）の少なくとも１又は複数が採用できる。

・処理（ａ）
処理（ａ）は、音出力部１５から応答文の音声や設定音を出力させる処理である。処理（ａ）では、処理決定部１３４は、怒っている大人が子供の母親であれば、母親に怒っていることを通知する「ママ、怒っているの？」という応答文や、母親に怒りを解放するように促す「ママ、にっこりー」というような応答文を生成し、音声合成部１３に出力する。出力された応答文は、音声合成部１３により音声データへ変換され、音出力部１５から装置１の外部に出力される。ここで、処理決定部１３４は、メモリ１２１に事前に記憶された各ユーザの声紋と、大人が発話した音声の声紋とを比較することで、怒っている人物が母親や父親等のいずれの人物に該当するかを判断すればよい。なお、怒っている大人が父親であれば、上記の応答文の「ママ」は「パパ」や「お父さん」に変更されればよい。また、上記の応答文の「ママ」は、発話した大人の名前に変更されてもよい。

或いは、処理（ａ）では、処理決定部１３４は、大人が怒っている際に再生する音として事前に設定された設定音を出力させる制御コマンドを音制御部１４に出力してもよい。この場合、制御コマンドを受信した音制御部１４は、事前に記憶している設定音の音声データを音出力部１５を介して装置１の外部に出力させる。設定音としては、例えば、怒っていることを知らせるためのアラーム音や怒りを静めるようなメロディー音が採用できる。

・処理（ｂ）
処理（ｂ）は、怒っていることを大人に知らせるための動作を装置１にさせる処理である。処理（ｂ）では、処理決定部１３４は、表示部１９を発話者である大人へ向かうように装置１を旋回させる制御コマンドを駆動制御部１６へ出力すればよい。この場合、制御コマンドを受信した駆動制御部１６は、例えば、制御コマンドが規定する旋回量だけ装置１を旋回させることで、表示部１９が発話者である大人に向かうように装置１を駆動させればよい。

詳細には、処理決定部１３４は、まず、装置１に対する大人の向きを検出する。装置１に対する大人の向きは、例えば、装置１の中心と実空間での大人の位置とを繋ぐ直線と、装置１の正面方向とのなす角度によって規定される。装置１の正面方向としては、例えば、表示部１９の表示面の法線方向が採用できる。

音声入力部１１が、例えば、指向性マイクで構成されているのであれば、処理決定部１３４は、装置１の中心から指向性マイクが音声を取得した方向に大人が存在すると判断すればよい。或いは、音声入力部１１が複数のマイク（指向性マイク又は無指向性マイクを含む）で構成されているのであれば、処理決定部１３４は、複数のマイクのうち、取得した音声の音圧が最も高いマイクの方向に大人が存在すると判断すればよい。

或いは、処理決定部１３４は、映像入力部１８が取得した画像データから装置１に対する大人の向きを検出してもよい。この場合、処理決定部１３４は、画像データから大人の実空間での位置を検出し、検出した位置に基づいて、装置１に対する大人の向きを判断してもよい。例えば、映像入力部１８が距離画像センサで構成されており、画像データに深度成分が含まれているのであれば、処理決定部１３４は、画像データから大人の領域を抽出し、抽出した大人の領域を構成する複数の画素の座標及び深度から実空間での大人の位置を検出すればよい。また、映像入力部１８が深度を含まない画像データを取得する画像センサで構成されているのであれば、処理決定部１３４は、画像データから大人の領域を抽出し、抽出した大人の領域を構成する複数の画素の座標及び大人の領域の大きさから実空間での大人の位置を検出すればよい。

そして、処理決定部１３４は、上記の手法により検出した、装置１に対する大人の向きを規定する角度を装置１の旋回量として決定する制御コマンドを駆動制御部１６に出力すればよい。そして、この制御コマンドを受信した駆動制御部１６は、制御コマンドが示す旋回量にしたがって装置１の駆動輪を駆動させ、表示部１９を大人に向かわせればよい。

或いは、処理（ｂ）において、処理決定部１３４は、装置１を発話者である大人へ近づけるための制御コマンドを駆動制御部１６へ出力することで、装置１を大人へ近づけさせてもよい。この場合、処理決定部１３４は、上述した方法で大人の実空間での位置を検出し、その位置の方向に表示部１９の正面が向くように装置１を旋回させ、且つ、その位置の近傍まで装置１を移動させる制御コマンドを駆動制御部１６に出力すればよい。

或いは、処理決定部１３４は、映像入力部１８が取得した画像データに含まれる大人の領域の座標及び深度をモニタしながら、表示部１９の正面前方が大人の実空間での位置に向かい、且つ、大人と装置１との距離が所定距離以下になるまで、駆動制御部１６に制御コマンドを出力してもよい。

或いは、処理（ｂ）において、処理決定部１３４は、装置１を左右に揺らす制御コマンドを駆動制御部１６に出力してもよい。実施の形態３で後述するロボット１００１は、内部にロボット１００１の重心位置を左右に揺らすことが可能な重り付きの振り子を備えている。そこで、駆動制御部１６は、この振り子を左右に揺らす制御を行うことで、ロボット１００１を左右に揺らすことができる。

・処理（ｃ）
処理（ｃ）は、怒っていることを大人に気づかせるための表示を表示部１９に行う処理である。ここで、表示としては、目と口とを含む装置１の表情をシンボリックに表す表示において、装置１の表情を所定の表情にする表示が採用できる。

処理（ｃ）において、処理決定部１３４は、大人に怒っていることを気づかせるために予め定められた画像を表示部１９に表示させるための制御コマンドを表示制御部１７へ出力する。この制御コマンドを受信した表示制御部１７は、予め定められた画像データをメモリから読み出して表示部１９に表示させる。

図１３は、怒っていることを大人に気づかせるための表示例を示す図である。図１３の例では、驚きの表情、悲しみの表情、困惑の表情、怒りの表情というように目と口とを用いて人間の感情を表す４つの顔の表情が模式的に示されている。表示制御部１７は、これらの表情を示した画像のうち少なくとも１つの画像の画像データを事前にメモリに記憶させておく。そして、表示制御部１７は、処理決定部１３４から制御コマンドを受信すると、これらの顔の表情のうち、事前に定められたいずれか１つの顔の表情の画像データをメモリから読み出し、表示部１９に表示させればよい。

或いは、表示制御部１７は、これら４つの表情を示す画像を、例えば驚き→悲しみ→困惑→怒りの表情を示す画像というように所定の順序で順番に表示部１９に表示させてもよい。図１３に示す顔の表情の画像を大人に見せることで、大人に対して自分が怒っていることを気づかせることができる。

なお、処理決定部１３４は、上述した処理（ａ）〜（ｃ）のうち２つ以上を組み合わせて使用してもよい。

図３は、実施の形態１に係る装置１の処理の一例を示すフローチャートである。図４は、図３のＳ３０４の大人認識処理の詳細を示すフローチャートである。以下、図３及び図４を用いて、保育者である大人が子供を叱っているのか、怒っているのかを判断する処理について説明する。

まず、音声入力部１１は装置１の周辺に音が発生していれば（Ｓ３０１でＹＥＳ）、その音の信号（音声信号）を取得する。一方、装置１の周辺に音が発生していなければ（Ｓ３０１でＮＯ）、処理をＳ３０１に戻す。

次に、話者判断部１３１は、取得された音声信号に発話が含まれているか否かを判断し、発話が含まれている場合は（Ｓ３０２でＹＥＳ）、発話の区間の音声信号を抽出する。一方、話者判断部１３１は、発話が含まれていないと判断した場合（Ｓ３０２でＮＯ）、処理をＳ３０１に戻し、再び音声信号の入力を待つ。ここで、話者判断部１３１は、一定レベル以上の音声信号が入力された場合、発話があると判断すればよい。

次に、話者判断部１３１は、抽出された発話の音声信号から発話者が大人であるか子供であるかを判断する（Ｓ３０３）。発話者が大人であれば（Ｓ３０３でＹＥＳ）、処理はＳ３０４に進められ、発話者が子供であれば（Ｓ３０３でＮＯ）、処理はＳ３０１に戻される。なお、話者判断部１３１は、上述した、声紋を用いる処理、大人及び子供の音響モデルを用いる処理等を実行することで発話者が大人であるか否かを判定すればよい。

次に、音声認識部１３２及び感情認識部１３３は、発話者である大人が怒っているか叱っているかを判断する大人認識処理を実行する。大人認識処理の詳細は図４を用いて後ほど説明する。大人認識処理により大人が叱っていると判断された場合（Ｓ３０５でＹＥＳ）、処理はＳ３０１に戻され、再度、装置１は音声信号の入力の待機状態となる。一方、大人認識処理により大人が怒っていると判断された場合（Ｓ３０５でＮＯ）、処理決定部１３４は、発話者である大人へ怒っていることを気づかせるための第１処理（上述した処理（ａ）〜（ｃ）のうちの１又複数の処理）を実行する（Ｓ３０６）。Ｓ３０６の処理が終了すると処理はＳ３０１に戻される。

具体的には、前述したように「ママ、怒ってるの？」や「ママ、にっこりー」のような応答文の発話処理、大人が怒っている際に再生される設定音の再生、表示部１９を大人へ向ける駆動制御、装置１を大人へ近づける駆動制御、及び表示部１９に図１３に示す顔の表情の画像を表示させる処理のいずれか１又は複数を実行する。なお、ここでは、大人状態認識処理により、一度、大人が怒っていると判断されると、処理決定部１３４は、処理（ａ）〜（ｃ）のいずれか１又は複数の処理を実行した。これは一例であり、怒りが複数回検出された場合、或いは一定期間内に連続して複数回検出された場合に、処理決定部１３４は、処理（ａ）〜（ｃ）のいずれか１又は複数の処理を実行してもよい。或いは、処理決定部１３４は、一定期間内に怒りが複数回検出された場合、回数が増大するにつれて、処理内容を変更してもよい。例えば、処理決定部１３４は、１回目の怒りでは、処理（ａ）〜（ｃ）のうち、いずれか１の処理を実行し、２回目の怒りでは処理（ａ）〜（ｃ）のうち、１回目で実行した処理とは別の処理を追加して実行し、３回目の怒りでは２回目で実行した処理とは別の処理を追加して実行するようにしてもよい。

次に、図４を用いて大人状態認識処理の詳細を説明する。音声認識部１３２は、話者判断部１３１から大人が発話した音声信号を取得し、取得した音声信号に対して大人の音響モデル及び言語モデルを用いた音声認識処理を実行し、発話内容を推定し（Ｓ４０１）、推定した発話内容を示すテキストデータを生成する。

次に、音声認識部１３２は、推定した発話内容から、注意対象者を判断する（Ｓ４０２）。ここで、音声認識部１３２は、推定した発話内容とメモリ１２１に事前に保存された子供の名前や愛称とを比較することで、注意対象者を判断すればよい。例えば、発話内容が「あいちゃん、やめなさい」であり、メモリ１２１に子供の愛称として「あいちゃん」が事前に保存されていたとすると、発話内容に「あいちゃん」が含まれているため、音声認識部１３２は、「あいちゃん」を注意対象者として判断する（Ｓ４０２）。

なお、発話内容に子供の名前や愛称が含まれていなければ、対象者なしてとして処理を進めてもよい。また、現在の発話内容に対象者がない場合であっても、一定回数あるいは一定時間前までの発話において、発話内容に注意語と子供の愛称とが含まれている場合、その人物を対象者とする方法が採用されてもよい。

次に、音声認識部１３２は、推定した発話内容に、注意語辞書１４１に登録された注意語が含まれているか否かを判断する（Ｓ４０３）。推定した発話内容に注意語辞書１４１に登録された注意語が含まれていない場合（Ｓ４０３でＮＯ）、処理は図３のＳ３０１に戻り、再び、装置１は、音声信号の入力の待機状態になる。一方、推定した発話内容に注意語辞書に登録された注意語が含まれている場合（Ｓ４０３でＹＥＳ）、感情認識部１３３は、推定した発話内容の音声信号からその発話の物理的特徴量を算出する（Ｓ４０４）。ここで、物理的特徴量としては、例えば、上述した韻律的特徴量の時間パターンや、力み発生指標が採用される。

次に、感情認識部１３３は、算出した物理的特徴量が閾値以上であるか否かを判断する（Ｓ４０５）。算出した物理的特徴量が閾値以上であれば（Ｓ４０５でＹＥＳ）、感情認識部１３３は、発話者である大人は怒っていると判断する（Ｓ４０６）。一方、算出した物理的特徴量が閾値未満であれば（Ｓ４０５でＮＯ）、感情認識部１３３は、発話者である大人は叱っていると判断する（Ｓ４０７）。

このように、実施の形態１に係る装置１によれば、音声入力部１１により取得された音に大人の発話が含まれていれば、大人が子供を注意する際に使用される注意語がその発話に含まれているか否かが判断される。そして、その注意語が発話に含まれていれば、大人の発話の物理的特徴量から大人が子供を叱っているのか、怒っているのかが判断され、大人が怒っていると判断された場合は、処理（ａ）〜処理（ｃ）のいずれか１つ又は複数が実行される。これにより、大人に怒っていることを気づかせることができる。

（実施の形態２）
実施の形態２は、映像入力部１８が取得した画像データを用いて、保育者である大人が子供を注意している際の状況をより詳細に判断するものである。図５は、実施の形態２における装置１Ａの全体構成の一例を示す図である。なお、以下の説明では、実施の形態１と同一の構成については同一の符号を付けて説明を省略する。

装置１Ａにおいて、装置１と名称が同じであるが機能が新たに追加された構成には、末尾にＡの符号を付して表す。状況判断装置１２Ａは、主制御部１２２Ａを備える。主制御部１２２Ａは、人物推定部５０１（第３判断部の一例）、位置情報記録部５０２（第４判断部の一例）、及び状態変化判断部５０３（第４判断部の一例）を更に備える。

音声認識部１３２Ａは、発話者である大人と注意対象者とを認識する。ここで、音声認識部１３２Ａは、話者判断部１３１により大人の発話が含まれていると判断された場合、その発話の音声信号から声紋を抽出し、抽出した声紋と、事前にメモリ１２１に登録された大人の声紋とを照合することで、発話者である大人を認識し、その発話者を識別する発話者情報を生成する。また、音声認識部１３２Ａは、話者判断部１３１により大人の発話が含まれていると判断された場合、その発話内容にメモリ１２１に事前に登録された子供の名前又は愛称が含まれていれば、その子供を注意対象者として認識し、認識した注意対象者を識別する注意対象者情報を生成する。

人物推定部５０１は、映像入力部１８が取得した画像データに含まれるユーザを推定する。ここで、人物推定部５０１は、画像データに含まれるユーザの顔の特徴量を抽出し、抽出した顔の特徴量と、メモリ１２１に事前に記憶されたユーザ毎の顔の特徴量とを例えばパターンマッチング等の公知の手法を用いて比較することで、画像データに含まれるユーザを推定する。

人物推定部５０１は、音声認識部１３２Ａにより生成された注意対象者情報及び発話者情報のいずれか一方又は両方を取得し、画像データから推定したユーザが、取得した注意対象者情報が示す注意対象者と、取得した発話者情報が示す発話者とのいずれのユーザと一致するかを判断する。なお、映像入力部１８が取得した画像データに複数のユーザが含まれている場合、人物推定部５０１は、画像データから推定した複数のユーザのそれぞれに対して、注意対象者情報が示す注意対象者と発話者情報が示す発話者と一致するか否かを判断すればよい。

また、人物推定部５０１は、画像データから注意対象者を推定すると、以後、映像入力部１８により所定のフレームレートで取得された画像データと深さ情報から注意対象者を示す領域を抽出することで注意対象者の画像データ内での座標を示す座標情報を生成し、生成した座標情報を対応する画像データと合わせて位置情報記録部５０２に出力する。

また、人物推定部５０１は、発話者を推定すると、映像入力部１８で取得された画像データから発話者の顔の領域を抽出することで発話者の顔の画像データ内での座標を示す座標情報を生成し、生成した座標情報を対応する画像データと合わせて感情認識部１３３Ａへ出力する。

位置情報記録部５０２は、人物推定部５０１から出力された注意対象者の座標情報を用いて、その座標情報に対応する画像データから注意対象者の領域を抽出し、抽出した領域から注意対象者の実空間での重心位置を検出してメモリ１２１に記録する。

また、位置情報記録部５０２は、映像入力部１８により取得された画像データから注意対象者の手の実空間での位置を検出し、メモリ１２１に記録する。また、位置情報記録部５０２は、映像入力部１８により取得された画像データにおいて、検出した手の位置に対して例えば最短距離に位置するオブジェクト、あるいは、手と一緒に動くオブジェクトを注意対象者が把持する可能性があるオブジェクトとして検出し、検出したオブジェクトの実空間での位置及び特徴量（例えば、輪郭データ）をメモリ１２１に記録する。

なお、位置情報記録部５０２は、事前に設定された手のテンプレート画像や手の色情報を用いて注意対象者の手の位置を検出してもよいし、他の公知の画像認識技術を用いて注意対象者の手の位置を検出してもよい。

状態変化判断部５０３は、メモリ１２１に記録された注意対象者の重心位置から、注意対象者の体勢が変化したか否かを判断する。

図６は、注意対象者の重心位置が変化した様子を示す図である。図６において、状態Ｓ１は、注意対象者が座っている状態を示し、図６の状態Ｓ２は、注意対象者が立っている状態を示す。

図６の状態Ｓ１、状態Ｓ２のそれぞれにおける人物の重心位置をＧ１，Ｇ２で示す。状態変化判断部５０３は、例えば、メモリ１２１に記録された状態Ｓ１での重心位置Ｇ１と、メモリ１２１に記録された状態Ｓ２での重心位置Ｇ２との距離が事前に設定された基準距離以上離れていれば、注意対象者の体勢が変化したと判断すればよい。

また、状態変化判断部５０３は、メモリ１２１に記録されたオブジェクトの位置と注意対象者の手の位置とを比較し、手の位置に対して一定範囲内にオブジェクトが存在し続けている間は、注意対象者がオブジェクトを保持している判断する。以後、注意対象者の重心位置と、注意対象者の手の位置と、オブジェクトの位置と、オブジェクトの特徴量とを総称して行動データと呼ぶ。

図７は、注意対象者が把持するオブジェクトＯＢ１を離した様子を示す図である。図７において状態Ｓ１は、注意対象者が座った状態で、オブジェクトＯＢ１としてのハサミを手に持っている状態を示す。図７の状態Ｓ３は、注意対象者が座った状態のままハサミを床に置いた状態を示す。状態Ｓ１では、オブジェクトＯＢ１は、手に対して一定範囲内に位置するので、状態変化判断部５０３は、注意対象者はオブジェクトＯＢ１を把持していると判断する。一方、状態Ｓ２では、オブジェクトＯＢ１は、手に対して一定範囲内に位置していないので、状態変化判断部５０３は、注意対象者はオブジェクトＯＢ１を把持していないと判断する。

なお、本実施の形態では、注意対象者が注意を受けたタイミングを基準に、注意対象者の体勢が変化したか或いは注意対象者がオブジェクトを離したかによって、注意対象者の行動が変化したか否かが判断できればよい。そのため、本実施の形態は、注意対象者が注意を受けたタイミングから行動データをトラッキングする態様を採用してもよいし、注意対象者が注意を受けたタイミングにおける行動データと、一定時間経過後の行動データとを比較する態様を採用してもよい。

なお、トラッキングする態様を採用した場合、注意対象者が注意を受けたタイミングから一定期間までの注意対象者の重心位置の軌跡から注意対象者の動き（例えば、走り回っている行動や床を飛び跳ねる行動）が分かる。そこで、トラッキングする態様を採用した場合、状態変化判断部５０３は、一定期間に取得された複数の画像データから注意対象者の動きを検出し、最初の一定期間で検出した動きに対して最新の一定期間で検出した動きが変化した場合、注意対象者の行動が変化したと判断することができる。これにより、走り回っている行動や床を飛び跳ねる行動を行うことで子供が叱られた場合、その叱られた行動を子供が中止したか否かを判断できる。但し、このトラッキングする態様は、計算量が増えるので、計算量を削減するという観点からは、後者の態様を採用することが好ましい。

感情認識部１３３Ａは、人物推定部５０１から発話者の座標情報と発話者の顔を含む画像データを受信すると、受信した画像データから座標情報を用いて顔画像を抽出し、抽出した顔画像から発話者の怒りの感情を推定する。ここで、感情認識部１３３Ａは、例えば、特許文献２に記載された技術を利用して怒りの感情を推定すればよい。詳細には、感情認識部１３３Ａは、画像データから怒りの感情の確率を示す感情認識結果データを算出する。そして、感情認識部１３３Ａは、実施の形態１で説明した大人の発話の物理的特徴量に重み付け係数αを乗算し、感情認識結果データに重み付け係数βを乗算し、両乗算結果を加算することで両者の重み付け平均値を算出し、算出した重み付け平均値が閾値以上であれば、発話者が怒っていると判断すればよい。

図１５は、怒りの表情と喜びの表情との一例を示す図である。図１５において、上図は怒りの表情を示し、下図は喜びの表情を示している。怒りの表情では、（ｉ）眉は鼻側の端部が中心に寄って下がり、（ｉｉ）目はにらみつける状態になり、（ｉｉｉ）唇はかみしめる状態になるといった特徴が現れる。一方、喜びの表情では、（ｉ）目尻に皺が発生し、（ｉｉ）頬が押し上がり、（ｉｉｉ）目の回りの筋肉が動くといった特徴が現れる。そのため、顔の表情から怒りの感情を推定できる。

処理決定部１３４Ａは、感情認識部１３３Ａにより発話者である大人が叱っていると判断された場合において、状態変化判断部５０３により注意対象者の体勢が変化していない或いは注意対象者がオブジェクトを手に持ち続けていると判断された場合、注意対象者に叱られた行動を中止させるための第２処理を実行する。第２処理としては、以下に示す処理（ｄ）、（ｅ）、（ｆ）の少なくとも１又は複数が採用できる。

・処理（ｄ）
処理（ｄ）は、音出力部１５から、叱られた行為を子供に中止させるための応答文の音声や設定音を出力させる処理である。処理（ｄ）では、処理決定部１３４Ａは、子供に叱られた行動を中止させるための応答文を生成し、音声合成部１３に出力する。応答文としては、子供に現在何をしているかを尋ねる「何をしているの？」という応答文が採用できる。或いは、応答文としては、現在行っている行為をやめるように子供に促す「あと一回で終わりにしようか」という応答文や「続きはまた今度」という応答文が採用できる。出力された応答文は、音声合成部１３により音声データへ変換され、音出力部１５から装置１Ａの外部に出力される。

或いは、処理（ｄ）では、処理決定部１３４Ａは、終了を促す音（アラーム音）や音楽（例：蛍の光、お片づけの音楽等）等の事前に設定された設定音を出力させる制御コマンドを音制御部１４に出力してもよい。この場合、制御コマンドを受信した音制御部１４は、事前に記憶している設定音の音声データを音出力部１５を介して装置１Ａの外部に出力させる。

・処理（ｅ）
処理（ｅ）は、叱られた行為を子供に中止させるための動作を装置１Ａにさせる処理である。処理（ｅ）では、処理決定部１３４Ａは、表示部１９を注意対象者である子供へ向けるように装置１Ａを旋回させる制御コマンドを駆動制御部１６へ出力すればよい。この場合、制御コマンドを受信した駆動制御部１６は、例えば、制御コマンドが規定する旋回量だけ装置１Ａを旋回させることで、表示部１９が注意対象者である子供に向かうように装置１Ａを駆動させればよい。

詳細には、処理決定部１３４Ａは、まず、装置１Ａに対する子供の向きを検出する。装置１に対する子供の向きは、例えば、装置１Ａの中心と実空間での子供の位置とを繋ぐ直線と、装置１Ａの正面方向とのなす角度によって規定される。装置１Ａの正面方向としては、例えば、表示部１９の表示面の法線方向が採用できる。

この場合、処理決定部１３４Ａは、画像データから子供の実空間での位置を検出し、検出した位置に基づいて、装置１Ａに対する子供の向きを判断すればよい。例えば、処理決定部１３４Ａは、画像データから子供の領域を抽出し、抽出した子供の領域を構成する複数の画素の座標及び深度から実空間での子供の位置を検出すればよい。

そして、処理決定部１３４Ａは、上記の手法により検出した、装置１Ａに対する子供の向きを規定する角度を装置１Ａの旋回量として決定する制御コマンドを駆動制御部１６に出力すればよい。そして、この制御コマンドを受信した駆動制御部１６は、制御コマンドが示す旋回量にしたがって装置１Ａの駆動輪を駆動させ、表示部１９を子供に向かわせればよい。

或いは、処理（ｅ）において、処理決定部１３４Ａは、装置１Ａを注意対象者である子供へ近づけるための制御コマンドを駆動制御部１６へ出力することで、装置１Ａを子供へ近づけさせてもよい。この場合、処理決定部１３４Ａは、上述した方法で子供の実空間での位置を検出し、その位置の方向に表示部１９の正面が向くように装置１Ａを旋回させ、且つ、その位置の近傍まで装置１Ａを移動させる制御コマンドを駆動制御部１６に出力すればよい。

或いは、処理決定部１３４Ａは、映像入力部１８が取得した画像データに含まれる子供の領域の座標及び深度成分をモニタしながら、表示部１９の正面前方が子供の実空間での位置に向かい、且つ、子供と装置１Ａとの距離が所定距離以下になるまで、駆動制御部１６に制御コマンドを出力してもよい。

・処理（ｆ）
処理（ｆ）は、叱られている行為を子供に中止させるための表示を表示部１９に行う処理である。ここで、表示としては、目と口とを含む装置１Ａの表情をシンボリックに表す表示において、装置１Ａの表情を所定の表情にする表示が採用できる。

処理（ｆ）において、処理決定部１３４Ａは、叱られている行為を子供に中止させるために予め定められた画像を表示部１９に表示させるための制御コマンドを表示制御部１７へ出力する。この制御コマンドを受信した表示制御部１７は、予め定められた画像データをメモリから読み出して表示部１９に表示させる。

図１４は、子供に叱られている行動の中止を促すための表示例を示す図である。図１４の例では、左から順に笑顔及び困惑の表情というように目と口とを用いて人間の感情を表す２つの顔の表情が模式的に示されている。この場合、表示制御部１７は、これらの表情を示した画像のうち少なくとも１つの画像の画像データを事前に記憶する。そして、表示制御部１７は、処理決定部１３４Ａから制御コマンドを受信すると、これらの顔の表情のうち、事前に定められたいずれか１つの顔の表情の画像データを表示部１９に表示させればよい。例えば、笑顔の表情は、子供に現在行っている行動を尋ねることを意図し、困惑の表情は、子供に現在行っている行動の中止を促すことを意図している。ここで、処理決定部１３４Ａは、笑顔の表情を示す画像を表示部１９に表示させると同時に、何をしているのかを尋ねる音声を音出力部１５から出力させてもよい。或いは、処理決定部１３４Ａは、困惑の表情を示す画像を表示部１９に表示させると同時に、現在の行動の中止を促す発話を音出力部１５から出力させてもよい。

なお、処理決定部１３４Ａは、上述した処理（ｄ）〜（ｆ）のうち２つ以上を組み合わせて使用してもよい。

図８は、実施の形態２における装置１Ａの処理の一例を示すフローチャートである。図９は、図８のＳ８０１に示す子供状態認識処理の詳細を示すフローチャートである。以下、図８及び図９を用いて、実施の形態２の装置１Ａの処理について説明する。

なお、以下のフローチャートでは、図３に示す実施の形態１のフローチャートと同一の処理については同一の符号を付して説明を省く。

図８において、Ｓ３０５において、大人が叱っていると判断された場合（Ｓ３０５でＹＥＳ）、実施の形態２では子供状態認識の処理が実行される（Ｓ８０１）。子供状態認識処理の詳細は図９を用いて後ほど説明する。

子供状態認識処理の結果、子供の状態に変化があると判断された場合（Ｓ８０２でＹＥＳ）、処理がＳ３０１に戻され、装置１Ａは、再び、音声信号の入力の待機状態になる。一方、子供の状態に変化がないと判断された場合（Ｓ８０２でＮＯ）、処理決定部１３４Ａは、子供に叱られた行為の中止を促す第２処理を実行する（Ｓ８０３）。具体的には、上述した処理（ｄ）〜（ｆ）のうちのいずれか１又は複数が実行される。Ｓ８０３の処理が終了すると処理はＳ３０１に戻される。

なお、ここでは、大人の状態認識処理により、一度、大人が叱っていると判断されると、処理決定部１３４Ａは、処理（ｄ）〜（ｆ）のいずれか１又は複数の処理を実行した。これは一例であり、叱りが複数回検出された場合、或いは、叱りが一定期間内に連続して複数回検出された場合に、処理決定部１３４Ａは、処理（ｄ）〜（ｆ）のいずれか１又は複数の処理を実行してもよい。或いは、処理決定部１３４Ａは、一定期間内に叱りが複数回検出された場合、回数が増大するにつれて、処理内容を変更してもよい。例えば、処理決定部１３４は、１回目の叱りでは、処理（ｄ）〜（ｆ）のうち、いずれか１の処理を実行し、２回目の叱りでは処理（ｄ）〜（ｆ）のうち、１回目で実行した処理とは別の処理を追加して実行し、３回目の叱りでは２回目で実行した処理とは別の処理を追加して実行するようにしてもよい。

次に、図９を用いて子供状態認識処理の一例を説明する。まず、人物推定部５０１は、映像入力部１８が取得した画像データから注意対象者である子供を発見する（Ｓ９０１）。ここで、人物推定部５０１は、映像入力部１８が取得した画像データから、画像データに含まれる人物の顔の特徴量を抽出し、抽出した顔の特徴量と、メモリ１２１に事前に記憶されている子供の顔の特徴量とを、パターンマッチング等の公知の手法を用いて比較し、画像データに子供が含まれていれば、画像データから注意対象者である子供が発見できたと判断すればよい。

人物推定部５０１は、注意対象者である子供が発見できなかった場合（Ｓ９０１でＮＯ）、処理決定部１３４Ａは、装置１Ａを旋回させて映像入力部１８に別のアングルでの画像データを取得させるための制御コマンドを駆動制御部１６に出力し（Ｓ９０２）、処理をＳ９０１に戻す。この場合、処理決定部１３４Ａは、装置１Ａの旋回量を所定量だけ増加させる制御コマンドを駆動制御部１６に出力することで、装置１Ａを旋回させればよい。Ｓ９０１、Ｓ９０２の処理が繰り返されることで、画像データから注意対象者である子供が発見される。

注意対象者である子供が発見された場合（Ｓ９０１でＹＥＳ）、位置情報記録部５０２は、メモリ１２１を参照し、Ｘ分以内に記録が開始された注意対象者の行動データの記録があるか否かを判断する（Ｓ９０３）。ここで、Ｘ分は、注意対象者がある問題行動に対して叱られた場合、その問題行動をやめて別の行動をとるまでの期間を想定したもので、例えば、１分、２分、３分、４分、５分等である。

Ｘ分以内に記録が開始された注意対象者の行動データがメモリ１２１に記録されていなければ（Ｓ９０３でＮＯ）、位置情報記録部５０２は、処理をＳ９０４に進める。Ｓ９０４では、位置情報記録部５０２は、注意対象者の行動データの記録を開始する。例えば、注意対象者が初めて叱られたような場合や、注意対象者の行動データの記録が開始されてから今回叱られるまでの時間がＸ分を超えているような場合、Ｓ９０３でＮＯと判断される。

具体的には、Ｓ９０４では、位置情報記録部５０２は、注意対象者の重心位置と、注意対象者の手の位置と、その時点で手に持っていたオブジェクトの位置と、このオブジェクトの特徴量とを行動データとしてメモリ１２１に記録する。Ｓ９０４の処理が終了すると処理は図８のＳ３０１に戻される。

一方、Ｓ９０３において、Ｘ分以内に記録が開始された注意対象者の行動データがメモリ１２１記録されていれば（Ｓ９０３でＹＥＳ）、状態変化判断部５０３は、注意対象者の重心位置をメモリ１２１から取得する（Ｓ９０５）。

次に、状態変化判断部５０３は、メモリ１２１から取得した重心位置と、現在の注意対象者の重心位置とを比較することで、注意対象者の体勢が変化したか否かを判断する（Ｓ９０６）。

ここで、状態変化判断部５０３は、例えば、Ｘ分の計時を開始した時点の重心位置と、現在の注意対象者の重心位置との距離が基準距離以上であれば、注意対象者の体勢が変化したと判断すればよい。

或いは、状態変化判断部５０３は、Ｘ分の計時を開始してから現在までの期間においてメモリ１２１に記録された重心位置の変化から注意対象者の動きのパターンを検出し、検出した動きのパターンを解析することで注意対象者の体勢が変化したと判断してもよい。

なお、本フローチャートは、注意対象者が１度叱られてからＸ分の期間が経過するまでに問題行動をやめて別の行動をとることを想定している。したがって、本フローチャートは、１回目に叱られてからＸ分経過するまでに再度叱られた場合、Ｓ９０３でＹＥＳと判定し、Ｓ９０５以降の注意対象者の体勢の変化を検出する処理に進む。一方、本フローチャートは、Ｘ分経過後に再度叱られた場合、再度叱られた場合の行動は１回目の叱りとは別の叱りに関連する問題行動を注意対象者は行っているとみなし、別の叱りに関連する行動データの記録を開始するべくＳ９０３でＮＯと判定し、処理をＳ９０４に進めている。

状態変化判断部５０３は、重心位置の変化から注意対象者の体勢に変化があると判断した場合（Ｓ９０６でＹＥＳ）、注意対象者の状態に変化がある、すなわち、注意対象者が叱られている行動を中止したと判断する（Ｓ９１０）。この判断結果は、大人が叱ることにより、子供が叱られた行動を中止したことを意味する。

一方、状態変化判断部５０３は、重心位置の変化から注意対象者の体勢に変化がないと判断した場合（Ｓ９０６でＮＯ）、処理をＳ９０７に進める。

状態変化判断部５０３は、注意対象者の手の位置とオブジェクトの位置とオブジェクトの特徴量とをメモリ１２１から取得する（Ｓ９０７）。

次に、状態変化判断部５０３は、Ｘ分の計時の開始時において把持していたオブジェクトと特徴量が同じオブジェクトを注意対象者が現在も把持しているか否かを判定する（Ｓ９０８）。Ｘ分の計時の開始時において把持していたオブジェクトと特徴量が同じオブジェクトを現在も注意対象者が把持していれば（Ｓ９０８でＮＯ）、状態変化判断部５０３は、注意対象者の子供の状態に変化がないと判断する（Ｓ９１１）。この判断結果は、大人が叱ったにもかかわらず、子供が叱られた行動を継続していることを意味する。

一方、状態変化判断部５０３は、Ｘ分の計時の開始時において把持していたオブジェクトと特徴量が同じオブジェクトを注意対象者が、現在把持していないと判断した場合（Ｓ９０８でＹＥＳ）、処理をＳ９０９に進める。

次に、状態変化判断部５０３は、注意対象者の手の動きが叱られたときと現在とで異なる、或いは、オブジェクトの動きが叱られたときと現在とで異なるか否かを判断する（Ｓ９０９）。ここで、状態変化判断部５０３は、例えば、Ｘ分の計時を開始してから現在までの期間内において、メモリ１２１に記録された手の位置及びオブジェクトの位置から手の動きのパターン及びオブジェクトの動きのパターンを解析し、両動きのパターンのうち一方の動きのパターンに変化が見られれば、Ｓ９０９でＹＥＳと判定すればよい。これにより、例えば、ボールをついてるような遊びを子供が叱られても継続しているか否かを判断できる。

注意対象者の手の動き及びオブジェクトの動きの少なくとも一方が、叱られたときと現在とで異なっていれば（Ｓ９０９でＹＥＳ）、状態変化判断部５０３は、注意対象者の状態が変化したと判断する（Ｓ９１０）。一方、注意対象者の手の動き及びオブジェクトの動きの両方が叱られたときと現在とで同じであれば（Ｓ９０９でＮＯ）、状態変化判断部５０３は、注意対象者の状態は変化していないと判断する（Ｓ９１１）。

このように、実施の形態２では、状態変化判断部５０３は、大人が子供に対して叱っていると判断された場合、且つ、画像データに含まれるユーザが子供であると判断された場合は、画像データに基づいて、大人の発話が認識された後のＸ分の期間（第２期間の一例）内において子供の体勢が変化したか否かを判断する。そして、状態変化判断部５０３は、子供の体勢が変化していないと判断した場合は、画像データに基づいて、Ｘ分の期間内において、子供が手にオブジェクトを持ち続けているか判断する。

これにより、子供が叱られた場合において、子供が叱られている行為を継続しているか否かを判断できる。

そして、処理決定部１３４Ａは、子供の体勢が変化していないと判断された場合、または子供が手にオブジェクトを持ち続けていると判断された場合は、上記の処理（ｄ）〜（ｆ）のいずれか１又は複数を実行する。そのため、子供が叱られた行動を継続している場合、その行動の中止を子供に促すことができる。

なお、図８、図９のフローチャートでは、１度叱られてからＸ分の期間内に再度叱られた場合に実行される図９のフローチャートにおいて、子供の状態が変化したか否かが判断されている。言い換えれば、図８、図９のフローチャートは、Ｘ分の期間内に再度叱られなければ、子供は叱られた行動を中止したとみなしている。

但し、これは一例であり、１度叱られてからＸ分の期間内に再度叱られなくても、子供の体勢が変化しない、或いは、子供がオブジェクトを手から離さなければ、第２処理が実行されてもよい。この場合、図９のＳ９０４の処理が終了すると処理をＳ９０１に戻せばよい。

また、図９のフローチャートでは、Ｓ９０３において、Ｘ分以内前に記録が開始されていれば、ＹＥＳと判定されてるが、Ｘ分の記録の終了後にＹＥＳと判定する態様が採用されてもよい。この場合、Ｘ分の行動データの記録中に注意対象者が叱られたとしても、Ｓ９０３でＮＯと判定され記録が継続される（Ｓ９０４）。一方、Ｘ分の経過後に注意対象者が叱られた場合、Ｓ９０３でＹＥＳと判定され、Ｓ９０６以降の注意対象者の体勢が変化したか否かの処理が実行されることになる。この態様を採用した場合、Ｘ分が経過する前に注意対象者が再度叱られたとしても、Ｓ９０６以降の処理が実行されないので、処理ステップを削減できる。

（実施の形態３）
図１０は、実施の形態３におけるロボット１００１の一例を示す外観図である。実施の形態３は、実施の形態２に係る装置１Ａをロボット１００１に適用したものである。なお、本実施の形態において、実施の形態１，２と同一の構成要素には同一の符号を付し説明を省略する。

ロボット１００１は、図１０に示すように球体状のメイン筐体１００２と、メイン筐体１００２の左右両側に設けられた一対の球冠部１００３とを備えている。メイン筐体１００２と一対の球冠部１００３とは全体として球体を構成する。即ち、ロボット１００１は球体形状を有する。右方の球冠部１００３は、カメラ１００４とマイク１００５とスピーカー１００６とを備える。左方の球冠部１００３はカメラ１００４を備える。メイン筐体１００２は、内部（図示せず）に備えつけられた表示部１００７から照射される光を透過することで、ロボット１００１の表情を表出することができる。また、ロボット１００１は、図１０には図示しないが、制御回路を備える。カメラ１００４は、２つのカメラを用いたステレオカメラであり、周辺環境の映像と距離分布とを示す距離画像データを取得する。制御回路は、ロボット１００１の各種動作を制御する。なお、本態様において、ロボット１００１は、全体として球体を構成しているが、これに限られるものではなく、少なくとも移動機構を有した構成を備えれば良い。

図１１は、ロボット１００１の電気的な構成の一例を示す図である。ロボット１００１は、マイク１００５、カメラ１００４、センサ１００９、主制御部１２２Ｂ、メモリ１２１、音声合成部１３、音制御部１４、スピーカー１００６、駆動制御部１６、駆動部１００８、表示制御部１７、及び表示部１００７を備える。

マイク１００５は、実施の形態１の音声入力部１１にあたり、状況判断部１１０３の話者判断部１３１（図１、図５）へ音声データを出力する。

カメラ１００４は、実施の形態１，２の映像入力部１８にあたり、状況判断部１１０３の人物推定部５０１（図５）へ画像データと距離データを出力する。

センサ１００９は、ロボット１００１が備える各種センサを含み、ここでは一例として、加速度センサを含む。加速度センサは、例えば、ロボット１００１の左右方向に対応するＸ軸と、ロボット１００１の前後方向に対応するＹ軸と、ロボット１００１の上下方向に対応するＺ軸との３軸の加速度を計測できる加速度センサで構成され、ロボット１００１の内部に設置される。

音声合成部１３は、前述の実施の形態同様、テキストデータを音声データに変換する。音制御部１４は、前述の実施の形態同様、音や音楽のデータを保持及び管理し、主制御部１２２Ｂから送信される制御コマンドに応じて音や音楽のデータをスピーカー１００６へ出力する。

スピーカー１００６は、前述の実施の形態の音出力部１５にあたり、音声データを出力する。

駆動制御部１６は、主制御部１２２Ｂから送信される制御コマンドに応じて、駆動部１００８を駆動させる。送信される制御コマンドは、例えばユーザの探索のコマンドであれば、ロボット１００１は、周辺を見わたすように旋回する。

駆動部１００８は、球体状のメイン筐体１００２を回転させることで、前進と後進ができる。また、メイン筐体１００２の内部の重心位置を、内蔵した振り子により変更することで旋回運動ができる。詳細には、駆動部１００８は、ロボット１００１の正面から見て、重心位置を左又は右にずらした状態でメイン筐体１００２を回転させることで、ロボット１００１を旋回させることができる。なお、このような駆動機構は一例であり、他の駆動処理であってもよい。例えば、駆動部１００８が、ロボット１００１を前進又は後進させるための一対の車輪で構成されているのであれば、駆動部１００８は一方の車輪の回転速度と他方の車輪の回転速度とを変えることで、ロボット１００１を旋回させることができる。或いは、駆動部１００８が一対の車輪を操舵できる機構を備えているのであれば、駆動部１００８は一対の車輪の操舵角を変えることでロボット１００１を旋回させることができる。

表示制御部１７は、主制御部１２２Ｂから送信される制御コマンドに応じて、ロボット１００１の表示部１００７に表示する。送信される制御コマンドは、例えば笑顔の制御コマンドであれば、目の位置の表示部１００７及び口の位置の表示部１００７のそれぞれに、笑顔の目及び口の画像を表示するよう指示する。

表示部１００７は、ロボット１００１の内部（図示せず）に備えつけられたＬＥＤパネルや液晶パネルのような表示デバイスである。図１０の例では、ロボット１００１は、２つの目に対応する２つの表示部１００７と、１つの口に対応する１つの表示部１００７とを備える。

主制御部１２２Ｂは、筐体状態判断部１１０１、ＵＸ制御部１１０２、及び状況判断部１１０３を備える。

筐体状態判断部１１０１は、センサ１００９の加速度センサが計測した加速度から、筐体がユーザにより抱えられているか否かを判断する。筐体状態判断部１１０１は、駆動制御部１６から、現在、筐体が駆動状態にあるか否かを示す情報を取得する。また、筐体状態判断部１１０１は、駆動部１００８が駆動していない状態において、加速度センサから出力されたＺ軸方向の加速度を示す第１値が所定の閾値を越えた後、第１値と、Ｙ軸方向の加速度を示す第２値と、Ｘ軸方向の加速度を示す第３値とのいずれかが一定期間、所定幅を超えて変動していると判断した場合、ロボット１００１がユーザに抱えられている（抱っこされている）と判断する。

なお、筐体状態判断部１１０１は、ロボット１００１が抱えられているか否かを判断する際に、駆動制御部１６へ駆動を停止する制御コマンドを送り、駆動を停止させてから、上記のロボット１００１が抱えられているか否かを判断する処理を実行してもよい。また、筐体状態判断部１１０１は誰に抱えられているかを判断するため、カメラ１００４での顔認識処理や、ユーザに「ねぇねぇ」などと問いかけ、そのときのユーザが応答した声からユーザが誰であるかを判断してもよい。この場合、筐体状態判断部１１０１は、カメラ１００４が取得した画像データからユーザの顔の特徴量を抽出し、抽出した特徴量と、メモリ１２１に事前に記録されたユーザの顔の特徴量とを比較することで、ロボット１００１を抱えたユーザを判断すればよい。或いは、筐体状態判断部１１０１は、マイク１００５が取得した音声信号からユーザの声紋を抽出し、抽出した声紋とがメモリ１２１に事前に記録された声紋と比較することで、ロボット１００１を抱えたユーザを判断すればよい。

ＵＸ制御部１１０２は、ロボット１００１が提供する複数のコンテンツを管理する。コンテンツは、ロボット１００１の駆動パターンや、表示部１００７への表示パターンや、ロボットの応答文の出力パターン等を規定する。コンテンツの一例としては、ロボット１００１を歌わせながら踊らせるようなコンテンツ等が含まれる。ＵＸ制御部１１０２は、例えば、音楽を再生しながら、再生した音楽のリズムに合わせてロボット１００１を踊らせるような駆動制御を行う。また、ＵＸ制御部１１０２は、再生した音楽の歌詞やリズムにあわせて表示部１００７に表示する表情を変更させると共に、一緒に歌うようにユーザを促す発話をロボット１００１に行わせる。

ＵＸ制御部１１０２は、ロボットが提供しているコンテンツを管理すると共に、そのコンテンツで一緒に遊ぶユーザの情報を保持する。

状況判断部１１０３は、前述の実施の形態における１２Ａにあたる。本実施の形態では、状況判断部１１０３は、筐体状態判断部１１０１及びＵＸ制御部１１０２より取得したロボット１００１の状態を考慮した状況判断を行う。

図１２は、実施の形態３におけるロボット１００１の処理の一例を示すフローチャートである。以下、図１２を用いて、保育者である大人が子供を叱っているのか、怒っているのかを判断し、その際にロボット１００１の状態や、注意対象者がロボット１００１と遊んでいて注意をうけているか否かを判断する方法について説明する。

なお、以下の説明では、説明の簡略化のため上記実施の形態と同一の処理については同一の符号を付けて説明を簡略化する。

大人状態認識処理によって、保育者である大人が叱っていると判断された場合（Ｓ３０５でＹＥＳ）、筐体状態判断部１１０１は、センサ１００９が取得した加速度を用いて、現在、ロボット１００１が抱えられているか否かを判断する（Ｓ１２１０）。

筐体状態判断部１１０１は、現在、ロボット１００１が抱えられていると判断した場合（Ｓ１２１０でＮＯ）、抱えているユーザが注意を受けている注意対象者であるか否かを判断する（Ｓ１２１１）。この場合、筐体状態判断部１１０１は、映像入力部１８が取得した画像データからロボット１００１を抱えているユーザの顔の特徴量を抽出し、抽出した顔の特徴量が注意対象者の顔の特徴量と一致すれば、ロボット１００１を抱えているユーザが注意対象者であると判断すればよい。或いは、筐体状態判断部１１０１は、ロボット１００１を抱えたユーザからの声をマイク１００５に取得させ、その声の声紋が注意対象者の声紋と一致すれば、ロボット１００１を抱えているユーザが注意対象者であると判断すればよい。なお、注意対象者の顔の特徴量及び声紋は、メモリ１２１に事前に記録されたものが用いられればよい。

一方、筐体状態判断部１１０１がロボット１００１を抱えているユーザが注意対象者であると判断した場合（Ｓ１２１１でＮＯ）、状況判断部１１０３の処理決定部１３４Ａは、注意対象者へ通知する応答文のテキストデータを生成する（Ｓ１２１２）。生成された応答文のテキストデータは、音声合成部１３によって音声に変換されスピーカー１００６から出力される。なお、ここでは、注意対象者への応答文として、ロボット１００１を抱えている注意対象者にロボット１００１を離すことを促す応答文が採用できる。一例としては「僕のことをおろしてくれない？」というような応答文が採用できる。これにより、ロボット１００１を抱えて遊ぶことで叱られた注意対象者が遊びを中止しない場合に、注意対象者に遊びの中止を促すことができる。なお、Ｓ１２１１でＹＥＳと判断された場合、処理はＳ１２１３へ進む。

一方、筐体状態判断部１１０１がロボット１００１が抱えられていないと判断した場合（Ｓ１２１０でＹＥＳ）、状況判断部１１０３の処理決定部１３４Ａは、ＵＸ制御部１１０２から、現在実行されているコンテンツで遊んでいるユーザの情報を取得し、取得したユーザの情報から、現在実行されているコンテンツで遊んでいるユーザが注意対象者であるか否かを判断する（Ｓ１２１３）。

現在実行されているコンテンツで遊んでいるユーザが注意対象者であれば（Ｓ１２１３でＹＥＳ）、状況判断部１１０３の処理決定部１３４Ａは、コンテンツの終了処理をＵＸ制御部１１０２に実行させる（Ｓ１２１４）。これにより、ロボット１００１を抱えてはいないが、ロボット１００１との遊びが叱られた注意対象者にロボット１００１との遊びを中止させるように促すことができる。

一方、コンテンツで遊んでいるユーザが注意対象者でなければ（Ｓ１２１３でＮＯ）、子供状態認識処理を実施する（Ｓ８０１）。なお、図１２の例では、現在実行されているコンテンツを遊んでいるユーザが注意対象者である場合（Ｓ１２１３でＹＥＳ）、コンテンツの終了処理が実行されているが（Ｓ１２１４）、これは一例である。処理決定部１３４Ａは、現在実行しているコンテンツとは別のコンテンツを実行するように、ＵＸ制御部１１０２に指示してもよい。このとき、ＵＸ制御部１１０２は、叱った大人に別のコンテンツを実施していいか確認し、大人から了承が得られた場合、別のコンテンツを実行すればよい。

（変形例１）
本開示では、子供に注意するユーザ又は注意されるユーザを事前に設定する態様が採用されてもよい。この態様では、事前に設定されたユーザが注意をしていることを検出した場合、そのユーザが叱っているのか怒っているのかを判断し、怒っているのであれば、第１処理を実行すればよい。また、この態様では、事前に設定されたユーザが叱られていることが検出された場合、第２処理が実行されればよい。

この態様によれば、例えば、来客中において、事前に設定されたユーザである大人が子供を注意した場合、注意した大人を特定する処理が容易になる。また、例えば、複数の子供がいる場合に、注意された子供を判断する処理が容易になる。

（変形例２）
前述の実施の形態においては、大人が怒っていると判断された場合、大人へ第１処理を行う態様が採用されたが、本開示はこれに限定されない。例えば、怒っている大人の顔を撮影してメモリに保存しておき（以下、処理（ｇ）と呼ぶ。）、後で怒った大人が、スマートフォンなどの外部端末を用いて、怒ったときの表情を閲覧できるようにしてもよい。この態様によれば、大人は、普段自分ではみることができない、自身が子供を怒っているときの表情を客観的に確認することができる。

（変形例３）
前述の実施の形態において、大人が怒っていると判断された場合、または、叱っていると判断された場合、それぞれの判断時の日時と注意した人物と、注意された人物と、怒り或いは叱りの判断結果等をメモリに記録する態様が採用されてもよい。この場合、メモリに記録された情報は、子供の成長記録として活用できる。

（変形例４）
図１、図５において、装置１は、音出力部１５、表示部１９、及び映像入力部１８を備えているが、これらのうちの少なくとも１つを備えていればよい。

実施の形態１、２において、装置１は、音出力部１５を備える場合、処理（ｂ）、（ａ）の少なくとも一方を実行し、表示部１９を備える場合、処理（ｂ）、（ｃ）の少なくとも一方を実行し、映像入力部１８を備える場合、処理（ｂ）、（ｇ）の少なくとも一方を実行すればよい。

また、実施の形態２において、装置１は、音出力部１５を備える場合、処理（ｅ）、（ｄ）の少なくとも一方を実行し、表示部１９を備える場合、処理（ｅ）、（ｆ）の少なくとも一方を実行すればよい。

本開示によれば、大人が子供を怒った場合、そのことを大人に気づかせることができるので、教育用のロボットに関する技術分野で利用できる。

ＯＢ１オブジェクト
１，１Ａ装置
１１音声入力部
１２，１２Ａ状況判断装置
１３音声合成部
１４音制御部
１５音出力部
１６駆動制御部
１７表示制御部
１８映像入力部
１９表示部
１２１メモリ
１２２，１２２Ａ，１２２Ｂ主制御部
１３１話者判断部
１３２，１３２Ａ音声認識部
１３３，１３３Ａ感情認識部
１３４，１３４Ａ処理決定部
１４１注意語辞書
５０１人物推定部
５０２位置情報記録部
５０３状態変化判断部
１００１ロボット
１００２メイン筐体
１００３球冠部
１００４カメラ
１００５マイク
１００６スピーカー
１００７表示部
１００８駆動部
１００９センサ
１１０１筐体状態判断部
１１０２ＵＸ制御部
１１０３状況判断部

Claims

音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第１判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第２判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第１処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第１処理は、（ｉ）前記スピーカーに第１音を出力させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第１処理は、（ｉ）前記ディスプレイに第１表示をさせる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第１処理は、（ｉ）前記カメラに前記大人を撮影させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含む、
装置。
前記第１音は、所定のアラーム音を含む、
請求項１記載の装置。
前記第１音は、前記大人が怒っていることを前記大人に通知する音声を含む、
請求項１記載の装置。
前記第１音は、前記大人に怒りを解放するよう促す音声を含む、
請求項１記載の装置。
前記第１動作は、前記ディスプレイを前記大人に対向させる動作を含む、
請求項１記載の装置。
前記第１動作は、前記装置が前記大人に向かう動作を含む、
請求項１記載の装置。
前記第１動作は、前記装置が左右に揺れる動作を含む、
請求項１記載の装置。
前記第１表示は、前記装置の目と口とをシンボリックに表す表示を含み、
前記表示は前記装置の所定の表情に対応する、
請求項１記載の装置。
前記所定の表情は、悲しみの表情、驚きの表情、困惑の表情、怒りの表情のいずれかを含む、
請求項８記載の装置。
前記第２判断部は、前記大人の発話の物理的特徴量が複数回閾値を超える場合に、前記大人が怒っていると判断する、
請求項１記載の装置。
前記物理的特徴量は、前記音声の周波数、前記音声のパワー、前記発話の速度、前記発話の時間、のいずれかを含む、
請求項１０記載の装置。
前記装置が前記カメラを備えている場合、
前記第２判断部は、前記大人が怒っていると一旦判断された後の第１期間における前記映像データに基づいて、前記大人が怒り及び悲しみ以外の表情をしていると判断する場合は、前記大人は叱っていると判断する、
請求項１記載の装置。
前記音声認識部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれているか否かを、前記メモリに記憶された前記子供の名前を示すデータに基づいて判断し、
前記第２判断部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれていると判断された場合は、前記子供を、前記大人が叱っているまたは怒っている対象者であると更に判断し、
前記装置が前記カメラを備えている場合、
前記映像データに含まれる人物が前記子供であるか否かを、前記メモリに記憶された前記子供に対応する映像データに基づいて判断する第３判断部と、
前記大人が前記子供に対して叱っていると判断された場合、且つ、前記映像データに含まれる人物が前記子供であると判断された場合は、前記映像データに基づいて、前記大人の発話が認識された後の第２期間において前記子供の体勢が変化したか判断し、前記子供の体勢が変化していないと判断された場合は、前記映像データに基づいて、前記第２期間において前記子供が手にオブジェクトを持ち続けているか判断する第４判断部と、を更に備え、
前記第２期間において、前記子供の体勢が変化していないと判断された場合、または、前記子供が手に前記オブジェクトを持ち続けていると判断された場合は、前記制御部は、前記装置に対して第２処理をさせ、
前記装置が前記スピーカーを備えている場合は、
前記第２処理は、（ｉ）前記スピーカーに第２音を出力させる処理、（ｉｉ）前記装置に第２動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第２処理は、（ｉ）前記装置に第２動作をさせる処理、（ｉｉ）前記ディスプレイに第２表示をさせる処理、のいずれかを含む、
請求項１記載の装置。
前記第２音は、所定のアラーム音を含む、
請求項１３記載の装置。
前記第２音は、所定の音楽を含む、
請求項１３記載の装置。
前記第２音は、前記子供に対して、前記子供が現在行っている行為をやめるように促す音声を含む、
請求項１３記載の装置。
前記第２音は、前記子供に対して、現在何をしているのか尋ねる音声を含む、
請求項１３記載の装置。
前記第２動作は、前記ディスプレイを前記子供に対向させる動作を含む、
請求項１３記載の装置。
前記第２動作は、前記装置が前記子供に向かう動作である、
請求項１３記載の装置。
前記第２表示は、前記装置の目と口とをシンボリックに表す表示を含み、
前記表示は前記装置の所定の表情に対応する、
請求項１３記載の装置。
請求項１記載の装置を備えるロボット。
メモリと、マイクと、ディスプレイ、スピーカー、及びカメラのいずれかとを備える装置における音声を処理する方法であって、
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第１判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第２判断ステップと、
前記大人が怒っていると判断された場合は、前記装置に対して第１処理をさせる制御ステップとを備え、
前記装置が前記スピーカーを備えている場合は、
前記第１処理は、（ｉ）前記スピーカーに第１音を出力させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第１処理は、（ｉ）前記ディスプレイに第１表示をさせる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第１処理は、（ｉ）前記カメラに前記大人を撮影させる処理、（ｉｉ）前記装置に第１動作をさせる処理、のいずれかを含む、
方法。
請求項２２に記載の方法をコンピュータに実行させるためのプログラム。