CN108573695B

CN108573695B - 语音处理装置及其方法、机器人及计算机可读取记录介质

Info

Publication number: CN108573695B
Application number: CN201810170121.9A
Authority: CN
Inventors: 笹川路子; 宫崎亮太
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2017-03-08
Filing date: 2018-03-01
Publication date: 2023-04-07
Anticipated expiration: 2038-03-01
Also published as: US10702991B2; CN108573695A; JP6751536B2; EP3373301A1; JP2018146898A; US20180257236A1

Abstract

本公开涉及装置、机器人、方法以及程序。在判断为大人的话语中含有提醒词的情况下，基于大人的话语的物理特征量，判断大人是在发怒还是在申斥，在判断为大人在发怒的情况下，至少执行(a)使所述扬声器输出第1声音的处理、(b)使所述装置进行第1动作的处理、和(c)使所述显示器进行第1表示的处理中的某一处理。

Description

语音处理装置及其方法、机器人及计算机可读取记录介质

技术领域

本公开涉及处理语音的装置、机器人(robot)、方法以及程序。

背景技术

近年来，正在积极地进行如下研究，即、通过处理用户发出的语音来进行用户的情感识别。作为现有的情感识别的方法，存在使用说话者所发出的语音的语言信息的方法、使用语音的声音韵律的特性的方法、进行根据脸部图像的表情分析的方法等。

专利文献1中公开了以用户发出的语音的语言信息为基础进行情感识别的技术的一例。具体而言，专利文献1公开如下技术：在对于“玩足球高兴吗？”这一提问，利用者回答说“玩足球非常无聊哦”的情况下，提取“足球”作为关键字，由于包含关键字的短语中含有“非常无聊”这一表示负面情感的话语，因此推论为利用者对足球不感兴趣，并进行关于足球以外的提问。

另外，专利文献2中公开了从被输入的用户的语音以及脸部图像来判定其情感，输出与判定出的情感相应的应答(响应)的技术的一例。具体而言，专利文献2公开如下技术：进行根据使用了由Paul Ekman等人开发的FACS(Facial Action Coding System，脸部运动编码体系)的表情的情感识别(愤怒、讨厌、恐惧、喜悦、悲伤、惊讶、普通)、和基于语音的情感识别(紧张、喜悦、困惑)，对各个情感识别结果加权，算出紧张的评价值，基于算出的紧张的评价值，判定有无紧张的情感，在有紧张情感的情况下，使机器人进行缓解紧张的行动。

另外，在基于这种情感识别的机器人控制中，多数是假定一位用户，而设想了假定两个以上的用户的机器人的控制的并不多。作为假定了多个用户的现有技术的一例，已有专利文献3。专利文献3公开如下技术：对第二用户(例如小孩)的行动、状态以及环境进行计测，基于计测结果，决定向第一用户(例如父亲)的提示信息，在第一用户(例如父亲)回到家时提示所决定的提示信息。具体而言，在专利文献3中，公开了机器人将通过与小孩的会话所取得的小孩的期望(要求)在父亲回到家时通知给父亲，由此填补小孩与父亲的交流不足的技术。

现有技术文献

专利文献

专利文献1：日本专利第4015424号公报

专利文献2：日本特开2006-123136号公报

专利文献3：日本特开2009-131928号公报

发明内容

发明所要解决的问题

在小孩的教育上，被认为在大人提醒(提醒注意、告诫)小孩时，最好不要发怒(发火、训斥、生气)而是进行申斥(批评、责备)。然而，专利文献1～3的任一个都完全没有考虑在大人提醒小孩的场景中，区分“申斥”和“发怒”。因此，专利文献1～3存在如下问题，即、无法在大人提醒小孩的场景中使大人意识(注意、察觉)到其在发怒。

本公开的目的在于，提供在大人提醒小孩的场景中，在大人对小孩发怒的情况下使大人意识到其在发怒的装置等。

用于解决问题的技术方案

本公开的一个技术方案涉及的装置，是处理语音的装置，具备：麦克风，其取得所述装置周边的声音；存储器；第1判断部，其从所述取得的声音中提取语音，判断所述语音中是否包含大人的话语；语音识别部，其在判断为所述语音中含有大人的话语的情况下，识别所述大人的话语，判断存储于所述存储器的辞典所包含的词句是否包含于所述大人的话语，所述辞典包含所述大人提醒小孩时可能使用的词句；第2判断部，其在判断为所述大人的话语中含有所述辞典所包含的词句的情况下，基于所述大人的话语的物理特征量，判断所述大人是在发怒还是在申斥；以及控制部，其在判断为所述大人在发怒的情况下，使所述装置进行第1处理，并且，所述装置还具备扬声器、显示器和摄像头(camera)中的某一个，所述摄像头取得所述装置周边的影像数据，在所述装置具备所述扬声器的情况下，所述第1处理包括(i)使所述扬声器输出第1声音的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述显示器的情况下，所述第1处理包括(i)使所述显示器进行第1表示(显示)的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述摄像头的情况下，所述第1处理包括(i)使所述摄像头拍摄所述大人的处理和(ii)使所述装置进行第1动作的处理中的某一处理。

发明效果

根据本公开，能够在大人对小孩发怒的情况下，使大人意识到其在发怒。其结果，能够提供在小孩的教育上进行优选处理的装置等。

附图说明

图1是表示实施方式1中的装置的整体构成的一例的图。

图2是表示实施方式1中的提醒词辞典的一例的图。

图3是表示实施方式1涉及的装置的处理的一例的流程图。

图4是表示图3的S304的大人识别处理的详情的流程图。

图5是表示实施方式2中的装置的整体构成的一例的图。

图6是表示提醒对象者的重心位置发生了变化的情形的图。

图7是表示提醒对象者放开所把持的物体(object，对象)的情形的图。

图8是表示实施方式2中的装置的处理的一例的流程图。

图9是表示图8的S801所示的小孩状态识别处理的详情的流程图。

图10是表示实施方式3中的机器人的一例的外观图。

图11是表示机器人的电构成的一例的图。

图12是表示实施方式3中的机器人的处理的一例的流程图。

图13是表示用于使大人意识到其在发怒的显示例的图。

图14是表示用于促使小孩中止被申斥的行动的显示例的图。

图15是表示愤怒的表情和喜悦的表情的一例的图。

标号说明

OB1物体；1、1A装置；11语音输入部；12、12A状况判断装置；13语音合成部；14声音控制部；15声音输出部；16驱动控制部；17表示控制部；18影像输入部；19表示部；121存储器；122、122A、122B主控制部；131说话者判断部；132、132A语音识别部；133、133A情感识别部；134、134A处理决定部；141提醒词辞典；501人物推定部；502位置信息记录部；503状态变化判断部；1001机器人；1002主壳体；1003球冠部；1004摄像头；1005麦克风；1006扬声器；1007表示部；1008驱动部；1009传感器；1101壳体状态判断部；1102UX控制部；1103状况判断部。

具体实施方式

(成为本公开的基础的见解)

随着机器人技术的进步，近年来机器人的普及是惊人的，除了商业设施，机器人也正不断地向家庭普及。在向家庭导入机器人的情况下，家庭中包括家长和孩子在内的多个用户共处一室，存在各种各样的生活场景。与这种生活场景不符的机器人的举止有时会妨碍育儿，难以利用。

尤其是，在有幼儿的家庭中常常观察到的、在作为保育人员的大人提醒幼儿的状况下，作为保育人员的家长正认真地提醒小孩，机器人不应该做出不顾他人擅自行动的举止。因此，在有小孩的家庭中，出现了想要在提醒小孩时使机器人停止这一意见。

另一方面，作为保育人员对于育儿的烦恼，已知过度申斥或大声叫喊是最多的烦恼。

在幼儿教育方面，推荐进行“申斥”，而“发怒”被认为是也会对小孩的人格形成造成不良影响的行为。“申斥”指的是为对方着想进行提醒的行为，是温和并冷静地进行提醒的行为。“发怒”指的是为了使自己情感的愤怒和/或焦躁平息而进行提醒的行为，其中会表现说话者的情感。

然而，上述的专利文献1、2只是判断了喜怒哀乐，并没有对“申斥”和“发怒”进行区分，因此存在无法在大人提醒小孩的场景中大人发怒的情况下使大人意识到其在发怒这一问题。上述的专利文献3实现了多个用户间的间接式交流，没有假定大人对小孩发怒的场景。

本公开的目的在于，提供能够在大人提醒小孩的场景中，在大人对小孩发怒的情况下使大人意识到其在发怒的装置等。

(1)本公开的一个技术方案涉及的装置，是处理语音的装置，具备：麦克风，其取得所述装置周边的声音；存储器；第1判断部，其从所述取得的声音中提取语音，判断所述语音中是否包含大人的话语；语音识别部，其在判断为所述语音中含有大人的话语的情况下，识别所述大人的话语，判断存储于所述存储器的辞典所包含的词句是否包含于所述大人的话语，所述辞典包含所述大人提醒小孩时可能使用的词句；第2判断部，其在判断为所述大人的话语中含有所述辞典所包含的词句的情况下，基于所述大人的话语的物理特征量，判断所述大人是在发怒还是在申斥；以及控制部，其在判断为所述大人在发怒的情况下，使所述装置进行第1处理，并且，所述装置还具备扬声器、显示器和摄像头中的某一个，所述摄像头取得所述装置周边的影像数据，在所述装置具备所述扬声器的情况下，所述第1处理包括(i)使所述扬声器输出第1声音的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述显示器的情况下，所述第1处理包括(i)使所述显示器进行第1表示的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述摄像头的情况下，所述第1处理包括(i)使所述摄像头拍摄所述大人的处理和(ii)使所述装置进行第1动作的处理中的某一处理。

根据本技术方案，判断由麦克风取得的声音中是否含有大人的话语，如果含有大人的话语，则判断该话语中是否含有大人提醒小孩时所使用的词句。而且，如果话语中含有该词句，则根据大人的话语的物理特征量判断大人是在申斥小孩还是在发怒，在判断为大人在发怒的情况下，使装置执行第1处理，该第1处理或使第1声音输出、或使第1动作进行、或使显示器进行第1表示、或使摄像头拍摄大人。由此，能够使大人意识到其在发怒。

(2)在上述技术方案中，也可以为，所述第1声音包括预定警报(alarm)声。

根据本技术方案，能够通过警报声使大人意识到其在发怒。

(3)在上述技术方案中，也可以为，所述第1声音包括将所述大人在发怒这一情况通知给所述大人的语音。

根据本技术方案，能够通过语音使大人意识到其在发怒。

(4)在上述技术方案中，也可以为，所述第1声音包括促使所述大人释放愤怒的语音。

根据本技术方案，输出促使大人释放愤怒的语音，因此能够使大人的愤怒缓解。

(5)在上述技术方案中，也可以为，所述第1动作包括使所述显示器与所述大人对向的动作。

根据本技术方案，装置进行动作以使得显示器与大人对向，因此能够使大人的意识转向装置，使大人意识到其在发怒。

(6)在上述技术方案中，也可以为，所述第1动作包括所述装置朝向所述大人的动作。

根据本技术方案，装置朝着大人移动，因此能够使大人的意识转向装置，使大人意识到其在发怒。

(7)在上述技术方案中，也可以为，所述第1动作包括所述装置左右摇晃的动作。

根据本技术方案，装置进行左右摇晃的动作，因此能够使大人的意识转向装置，使大人意识到其在发怒。

(8)在上述技术方案中，也可以为，所述第1表示包括象征性地表现所述装置的眼和嘴的表示。

根据本技术方案，在装置的显示器中表示使用眼和嘴的预定表情，因此能够使大人的意识转向其表情，使大人意识到其在发怒或使大人的愤怒缓解。

(9)在上述技术方案中，也可以为，所述预定表情包括悲伤的表情、惊讶的表情、困惑的表情、愤怒的表情中的某一个。

根据本技术方案，能够通过上述的表情，使大人意识到其在发怒或使大人的愤怒缓解。

(10)在上述技术方案中，也可以为，所述第2判断部在所述大人的话语的物理特征量多次超过阈值的情况下，判断为所述大人在发怒。

根据本技术方案，在话语的物理特征量多次超过阈值的情况下判断为大人在发怒，因此能够准确地检测出大人在发怒。

(11)在上述技术方案中，也可以为，所述物理特征量包括所述语音的频率、所述语音的音量(power)、所述话语的速度、所述话语的时间中的某一个。

根据本技术方案，使用语音的频率、语音的音量、话语的速度以及话语的时间中的某一个来判断是否在发怒，因此能够准确地检测出大人在发怒。

(12)在上述技术方案中，也可以为，在所述装置具备所述摄像头的情况下，所述第2判断部在基于暂且判断为所述大人在发怒之后的第1期间内的所述影像数据，判断为所述大人露出愤怒以及悲伤以外的表情的情况下，判断为所述大人在申斥。

根据本技术方案，即使在暂且判断为大人在发怒的情况下，但在此后的第1期间内摄像头取得的影像数据含有大人的愤怒以及悲伤以外的表情时，也判断为大人在申斥。因此，能够防止在大人故意用严厉的腔调申斥小孩的情况下判断为其在发怒。

(13)在上述技术方案中，也可以为，所述语音识别部进一步基于存储于所述存储器的表示所述小孩的姓名的数据，判断所述大人的话语中是否含有与所述小孩的姓名对应的词句，所述第2判断部进一步在判断为所述大人的话语中含有与所述小孩的姓名对应的词句的情况下，还将所述小孩判断为是所述大人在申斥或者在发怒的对象者，在所述装置具备所述摄像头的情况下，还具备：第3判断部，其对于所述影像数据所包含的人物是否是所述小孩，基于存储于所述存储器的与所述小孩对应的影像数据进行判断；以及第4判断部，其在判断为所述大人在申斥所述小孩、并且判断为所述影像数据所包含的人物是所述小孩的情况下，基于所述影像数据，判断在识别出所述大人的话语之后的第2期间内所述小孩的身体姿势是否发生了变化，在判断为所述小孩的身体姿势没有发生变化的情况下，基于所述影像数据，判断在所述第2期间内所述小孩是否手中继续持有物体，在判断为在所述第2期间内所述小孩的身体姿势没有发生变化、或者判断为所述小孩手中继续持有所述物体的情况下，所述控制部使所述装置进行第2处理，在所述装置具备所述扬声器的情况下，所述第2处理包括(i)使所述扬声器输出第2声音的处理和(ii)使所述装置进行第2动作的处理中的某一处理，在所述装置具备所述显示器的情况下，所述第2处理包括(i)使所述装置进行第2动作的处理和(ii)使所述显示器进行第2表示的处理中的某一处理。

根据本技术方案，在判断为大人在申斥的情况下，判断在此后的第2期间内，小孩的身体姿势是否发生了变化、以及虽然小孩的身体姿势没有变化但小孩是否手中继续持有物体。由此，能够在小孩被申斥的情况下，判断小孩是否持续着被申斥的行为。而且，如果小孩持续着被申斥的行为，则进行或使第2声音输出、或使装置进行第2动作、或使显示器进行第2表示的第2处理。由此，能够促使持续着被申斥的行为的小孩中止该行为。

(14)在上述技术方案中，也可以为，所述第2声音包括预定警报声。

根据本技术方案，能够通过警报声促使小孩中止被申斥的行为。

(15)在上述技术方案中，也可以为，所述第2声音包括预定音乐。

根据本技术方案，能够通过音乐促使小孩中止被申斥的行为。

(16)在上述技术方案中，也可以为，所述第2声音包括催促所述小孩使所述小孩停止当前正在进行的行为的语音。

根据本技术方案，对小孩输出促使小孩停止当前正在进行的行为的语音，因此能够促使小孩中止被申斥的行为。

(17)在上述技术方案中，也可以为，所述第2声音包括询问所述小孩当前正在做什么的语音。

根据本技术方案，对小孩输出询问当前正在做什么的语音，因此能够使小孩意识到当前正在进行的行为是不良行为。

(18)在上述技术方案中，也可以为，所述第2动作包括使所述显示器与所述小孩对向的动作。

根据本技术方案，能够通过装置的显示器与小孩对向，促使小孩中止被申斥的行为。

(19)在上述技术方案中，也可以为，所述第2动作是所述装置朝向所述小孩的动作。

根据本技术方案，能够通过装置移动以使得朝向小孩，促使小孩中止被申斥的行为。

(20)在上述技术方案中，也可以为，所述第2表示包括象征性地表现所述装置的眼和嘴的表示，所述表示与所述装置的预定表情对应。

根据本技术方案，使用眼和嘴的预定表情表示于装置的显示器，因此能够通过该表示，促使小孩中止被申斥的行为。

(21)本公开的另一技术方案涉及的机器人，具备上述的(1)～(20)中的某个装置。

根据本技术方案，能够提供在大人提醒小孩的场景中，在大人发怒的情况下使大人意识到其在发怒的机器人。其结果，能够提供对于小孩的教育而言有用的机器人。

(22)本公开的又一技术方案涉及的方法，是具备显示器、扬声器和摄像头中的某一个以及存储器、麦克风的装置中的处理语音的方法，该方法包括：第1判断步骤，从由所述麦克风取得的声音中提取语音，判断所述语音中是否包含大人的话语；语音识别步骤，在判断为所述语音中含有大人的话语的情况下，识别所述大人的话语，判断存储于所述存储器的辞典所包含的词句是否包含于所述大人的话语，所述辞典包含所述大人提醒小孩时可能使用的词句；第2判断步骤，在判断为所述大人的话语中含有所述辞典所包含的词句的情况下，基于所述大人的话语的物理特征量，判断所述大人是在发怒还是在申斥；控制步骤，在判断为所述大人在发怒的情况下，使所述装置进行第1处理，在所述装置具备所述扬声器的情况下，所述第1处理包括(i)使所述扬声器输出第1声音的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述显示器的情况下，所述第1处理包括(i)使所述显示器进行第1表示的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述摄像头的情况下，所述第1处理包括(i)使所述摄像头拍摄所述大人的处理和(ii)使所述装置进行第1动作的处理中的某一处理。

(23)本公开的又一技术方案涉及的程序，使计算机执行上述的(22)的方法。

(24)本公开的又一技术方案涉及的装置，是处理语音的装置，具备：麦克风，其取得所述装置周边的声音；存储器；第1判断部，其从所述取得的声音中提取语音，判断所述语音中是否包含大人的话语；语音识别部，其在判断为所述语音中含有大人的话语的情况下，识别所述大人的话语，判断存储于所述存储器的辞典所包含的词句是否预定次数以上地包含于所述大人的话语，所述辞典包含所述大人提醒小孩时可能使用的词句；第2判断部，其在判断为所述大人的话语中预定次数以上地含有所述辞典所包含的词句的情况下，判断为所述大人在发怒，在判断为所述大人的话语中没有预定次数以上地含有所述辞典所包含的词句的情况下，判断为所述大人在申斥；以及控制部，其在判断为所述大人在发怒的情况下，使所述装置进行第1处理，并且，所述装置还具备扬声器、显示器和摄像头中的某一个，所述摄像头取得所述装置周边的影像数据，在所述装置具备所述扬声器的情况下，所述第1处理包括(i)使所述扬声器输出第1声音的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述显示器的情况下，所述第1处理包括(i)使所述显示器进行第1表示的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述摄像头的情况下，所述第1处理包括(i)使所述摄像头拍摄所述大人的处理和(ii)使所述装置进行第1动作的处理中的某一处理。

根据本技术方案，在大人提醒小孩的情况下，如果大人提醒小孩时使用的词句预定次数以上地包含于大人的话语，则判断为大人在发怒，因而能够准确地判断大人在发怒。因此，能够防止在大人在申斥的情况下进行第1处理，能够防止装置进行妨碍教育那样的处理。再者，在大人发怒的情况下，执行第1处理，因而能够通过第1处理，使大人意识到其在发怒。

(25)本公开的又一技术方案涉及的机器人，具备上述的(24)的装置。

(26)本公开的又一技术方案涉及的方法，是具备显示器、扬声器和摄像头中的某一个以及存储器、麦克风的装置中的处理语音的方法，该方法包括：第1判断步骤，从由所述麦克风取得的声音中提取语音，判断所述语音中是否包含大人的话语；语音识别步骤，在判断为所述语音中含有大人的话语的情况下，识别所述大人的话语，判断存储于所述存储器的辞典所包含的词句是否预定次数以上地包含于所述大人的话语，所述辞典包含所述大人提醒小孩时可能使用的词句；第2判断步骤，在判断为所述大人的话语中预定次数以上地含有所述辞典所包含的词句的情况下，判断为所述大人在发怒，在判断为所述大人的话语中没有预定次数地含有所述辞典所包含的词句的情况下，判断为所述大人在申斥；控制步骤，在判断为所述大人在发怒的情况下，使所述装置进行第1处理，在所述装置具备所述扬声器的情况下，所述第1处理包括(i)使所述扬声器输出第1声音的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述显示器的情况下，所述第1处理包括(i)使所述显示器进行第1表示的处理和(ii)使所述装置进行第1动作的处理中的某一处理，在所述装置具备所述摄像头的情况下，所述第1处理包括(i)使所述摄像头拍摄所述大人的处理和(ii)使所述装置进行第1动作的处理中的某一处理。

(27)本公开的又一技术方案涉及的程序，使计算机执行上述的(26)的方法。

此外，本公开涉及的程序也可以保存于计算机可读取的记录介质。

(实施方式)

以下，参照附图，对本发明的各实施方式进行说明。此外，在各附图中，对相同的构成要素使用相同的标号。

(实施方式1)

图1是表示实施方式1中的装置1的整体构成的一例的图。装置1既可以由机器人构成，也可以由包括按钮式的便携终端、智能手机或者平板终端等终端的***构成。图1中的装置1具备语音输入部11(麦克风的一例)、状况判断装置12、语音合成部13(控制部的一例)、声音控制部14(控制部的一例)、声音输出部15(扬声器的一例)、驱动控制部16(控制部的一例)、表示控制部17(控制部的一例)、影像输入部18(摄像头的一例)以及表示部19(显示器的一例)。

如果装置1由机器人构成，则语音输入部11、状况判断装置12、语音合成部13、声音控制部14、声音输出部15、驱动控制部16、表示控制部17、影像输入部18以及表示部19例如组装于机器人。

如果装置1由包括智能手机等终端的***构成，则例如语音输入部11、状况判断装置12、语音合成部13、声音控制部14、声音输出部15、驱动控制部16、表示控制部17、影像输入部18以及表示部19也可以组装于终端。

语音输入部11例如由以比来自其他方向的声音更高的感度取得来自特定方向的声音的指向性麦克风构成，取得装置1周边的声音，输出给状况判断装置12。此外，语音输入部11也可以取代指向性麦克风而由无指向性麦克风构成。语音输入部11例如组装于安装有状况判断装置12的装置1的主体部。或者，语音输入部11例如也可以由手持式麦克风、针式麦克风或者桌上式麦克风等独立的声音收集设备构成。在该情况下，语音输入部11例如以有线或者无线方式与装置1的主体部连接即可。或者，语音输入部11也可以由终端的麦克风构成。

语音合成部13将由后述的处理决定部134生成的应答话语的文本数据通过语音合成处理向语音数据进行转换。

声音输出部15例如由扬声器构成，将由语音合成部13转换出的语音数据输出到装置1的外部空间。声音输出部15既可以组装于装置1，也可以通过有线或者无线连接于状况判断装置12。另外，声音输出部15也可以由智能手机等终端的扬声器构成。

声音控制部14保持及管理声音和/或音乐的数据。另外，声音控制部14将后述的处理决定部134所决定的声音输出给声音输出部15。

驱动控制部16进行安装有状况判断装置12的装置1的主体部或者机器人的驱动控制。具体而言，驱动控制部16进行使装置1的正面部分朝向用户的控制和/或进行控制装置1的驱动轮等并使装置1的主体部向用户靠近的控制。

表示控制部17使安装有状况判断装置12的装置或者机器人的表示部表示图像。具体而言，表示控制部17进行构成表示部的LED面板的颜色的设定和/或通断(ON/OFF)控制。

影像输入部18例如由立体摄像头和/或测距传感器等距离图像传感器构成，以预定的帧速率取得装置1周边的图像数据，输出给主控制部122。在该情况下，图像数据由通过RGB的颜色成分和深度表示了各像素的距离图像数据构成。此外，影像输入部18也可以取代距离图像传感器而由不计测深度的通常的图像传感器构成。

表示部19例如由LED面板、液晶面板和/或有机EL面板构成，在表示控制部17的控制下，表示用于使大人意识到其在发怒的图像。此外，表示部19也可以通过有线或者无线连接于装置1的主体部。

状况判断装置12具备由CPU等处理器构成的主控制部122、和由非易失性存储装置构成的存储器121。主控制部122具备说话者判断部131(第1判断部的一例)、语音识别部132、情感识别部133(第2判断部的一例)以及处理决定部134(控制部的一例)。存储器121存储提醒词辞典141。说话者判断部131、语音识别部132、情感识别部133以及处理决定部134例如通过主控制部122执行进行状况判断处理的计算机可读取的程序来实现。该程序保存于存储器121。

另外，构成状况判断装置12的所有要素既可以安装于装置1的主体部，也可以安装于经由光纤、无线或者公共电话线路等任意的网络与装置1的主体部连接的另一装置(例如服务器)。状况判断装置12也可以通过如下方式实现：一部分构成要素安装于装置1的主体部，其余的构成要素安装于另一装置，装置1的主体部与另一装置相互通信。

说话者判断部131从由语音输入部11取得的声音中提取语音，判断提取到的语音中含有大人的话语还是含有小孩的话语。详细而言，说话者判断部131根据从由语音输入部11取得的声音中提取到的语音来提取声纹，将提取到的声纹与预先存储于存储器121的大人的声纹进行比较，由此，判断是含有大人的话语还是含有小孩的话语即可。在该情况下，存储器121事先存储会持有装置1的大人用户的声纹和小孩用户的声纹。而且，说话者判断部131算出提取到的声纹与存储于存储器121的大人用户的声纹之间的相似度，如果算出的相似度在阈值以上，则判断为含有大人的话语即可。另一方面，说话者判断部131算出提取到的声纹与存储于存储器121的小孩用户的声纹之间的相似度，如果算出的相似度在阈值以上，则判断为含有小孩的话语即可。

此外，说话者判断部131也可以使用另外的方法来判断是含有大人的话语还是含有小孩的话语。例如，存储器121事先存储大人用的声学模型和小孩用的声学模型。而且，说话者判断部131针对提取到的语音，进行使用大人用的声学模型的语音识别处理，并且进行使用小孩用的声学模型的语音识别处理，算出表示各个识别结果的准确度的可信度。而且，说话者判断部131在使用大人用的声学模型的情况下的可信度高于使用小孩用的声学模型的情况下的可信度时，判断为含有大人的话语即可。此外，说话者判断部131也可以取代声学模型而使用语言模型来进行该判断。在该情况下，存储器121事先存储大人用的语言模型和小孩用的语言模型。而且，说话者判断部131在针对提取到的语音的大人用的语言模型的可信度高于小孩用的语言模型的可信度时，判断为含有大人的话语即可。

此外，声学模型保持有音素的波形样本，语言模型保持有预定语言的单词的排列方式这一话语信息。

提醒词辞典141是事先登记有大人提醒小孩时所使用的提醒词(词句)的数据库。图2是表示实施方式1中的提醒词辞典141的一例的图。提醒词辞典141包括提醒词栏201。提醒词栏201登记有大人提醒小孩时所使用的1个以上的提醒词。在图2的例子中，登记有“给我停下”、“给我去刷牙”等提醒小孩时常被使用的“给我(なさい)”和作为召唤的词句的“喂！(こら！)”。再者，在图2的例子中，登记有“不行(駄目)”、“结束(終わり)”、“你给我适可而止啊(いい加減にしなさい)”。然而，这些提醒词是一例，只要是大人提醒小孩时所使用的提醒词，提醒词辞典141也可以登记除图2中示例的以外的提醒词。

在图1的例子中，示出了提醒词辞典141预先存储于存储器121的方式，但本公开不限定于此，也可以采用存储于经由网络与装置1连接的另一装置(例如服务器)的方式。在该情况下，提醒词辞典141由另一装置的管理者(例如装置1的制造商和/或服务提供商)一并地管理，并随时更新。

语音识别部132在由说话者判断部131判断为含有大人的话语的情况下，例如使用声学模型以及语言模型识别大人的话语，生成表示识别出的内容的文本数据。而且，语音识别部132判断所生成的文本数据之中是否含有登记于提醒词辞典141的提醒词。

然而，这是一例，语音识别部132也可以在由说话者判断部131判断为含有大人的话语的情况下，判断没有使用语言模型而使用声学模型识别出的音素串中是否含有登记于提醒词辞典141的提醒词。或者，语音识别部132在由说话者判断部131判断为含有大人的话语的情况下，对使用声学模型以及语言模型生成的文本数据应用词素解析，由此将生成的文本数据划分成多个单词，并且确定划分出的单词的词性，考虑确定的词性，将生成的文本数据所包含的单词与提醒词辞典141进行比较即可。例如，提醒词辞典141中除了提醒词栏201还包括词性栏，语音识别部132在生成的文本数据所包含的单词以及词性与登记于提醒词辞典的提醒词以及词性一致时，判断为生成的文本数据中含有登记于提醒词辞典141的提醒词即可。

另外，语音识别部132也可以确认生成的文本数据中是否含有作为提醒对象者的小孩的姓名。此外，利用装置1的用户的姓名和/或昵称例如在初次利用装置1时设定，作为用户信息预先保存于存储器121即可。在该情况下，用户的姓名和/或昵称也可以与区别用户是大人或者小孩的信息关联地保存于存储器121。姓名和/或昵称的设定也可以通过使各个用户说出姓名和/或昵称来进行。在该情况下，区别用户是大人还是小孩的信息既可以通过对用户所说出的姓名和/或昵称进行语音识别来取得，也可以通过使之说出区别是大人或者小孩的信息来取得。或者，只要装置1或者通过网络与装置1连接的终端具备输入文本数据的输入部，那么用户的姓名、昵称、区别大人或者小孩的信息也可以通过该输入部来输入。

情感识别部133在由语音识别部132判断为大人的话语中含有提醒词的情况下，基于大人的话语的物理特征量，判断大人是在发怒还是在申斥。

在此，情感识别部133在大人的话语的物理特征量大于等于表示大人在发怒这一情况的阈值时，判断为大人在发怒，在小于阈值时，判断为大人在申斥。

例如，在日本特开2005-283647号公报中，公开了如下技术：在说话者说出的语音的按单词分的韵律特征量(基本频率以及声压(语音的音量))的时间模式、与根据说话者过去所说的语音的韵律特征量的时间模式的统计量所生成的按单词分的韵律模型之间的似然超过预定阈值的情况下，判断为说话者在发怒。

于是，情感识别部133利用该技术判断说话者是否在发怒即可。在该情况下，情感识别部133通过对利用装置1的各用户的按单词分的韵律特征量的时间模式进行统计处理，事先生成各用户的按单词分的韵律模型并使存储器121存储。而且，情感识别部133算出包括提醒词的语音所包含的某个单词(例如提醒词)的韵律特征量的时间模式作为物理特征量，如果算出的韵律特征量的时间模式与和该韵律特征量的时间模式对应的韵律模型之间的似然大于阈值，则判断为大人在发怒即可。另一方面，情感识别部133在所述似然小于等于阈值时，判断为大人在申斥即可。此外，在本实施方式中，作为韵律特征量，也可以除了基本频率以及声压，还包括话语的速度、话语的时间。

另外，在日本专利第4914295号公报中，公开了如下技术：在关于输入语音信号的有声区间中的1个区间的振幅包络的周期性变动的频率小于10Hz～170Hz的情况下，判断为该1个区间是说话者在用力的状态下发出的语音，对于判定为是在用力的状态下发出的语音的信号的输入语音信号，根据表示说话时的易用力程度的发力指标来决定愤怒的强度。

于是，情感识别部133也可以利用该技术来判断说话者是否在发怒。在该情况下，情感识别部133算出关于包括提醒词的语音的发力指标作为物理特征量，在发力指标大于阈值时，判断为大人在发怒即可。

此外，上述手法是一例，只要是根据包含提醒词的语音来推定愤怒情感的手法，可以采用任何手法。

再者，情感识别部133也可以使用下述手法判断大人是否在发怒。例如，情感识别部133也可以在包括提醒词的语音的物理特征量大于阈值的期间持续了一定期间以上的情况下，判断为大人在发怒。或者，情感识别部133也可以当在一定期间内观测到含有提醒词的语音的物理特征量超过阈值的次数大于等于一定次数的情况下判断为大人在发怒。

此外，在此基于含有提醒词的语音的物理特征量检测了大人是否怀着愤怒的情感，但有时也存在作为保育人员的大人故意摆出发怒的脸申斥小孩的情况。在该情况下，假定在发出含有提醒词的语音后，大人的表情会从发怒的脸变化为笑脸。于是，情感识别部133也可以在判定为大人在发怒后，若检测出在一定期间(第1期间的一例)内大人的表情从发怒的脸变化为笑脸，则判断为大人并非在发怒而是在申斥。详细而言，情感识别部133在判断为大人在发怒的情况下，在进行了判断的前后一定期间，解析影像输入部18取得的图像数据。而且，情感识别部133只要在解析出的图像数据所包含的大人的脸部的表情从发怒的脸变化成了笑脸，则判断为大人在申斥即可。此外，情感识别部133事先使存储器121存储使用装置1的各用户的脸部的特征量，使用该脸部的特征量来提取图像数据所包含的大人的脸部的图像数据即可。而且，情感识别部133通过从提取到的大人的脸部的图像数据来解析脸部的表情，判断大人的脸部是否从发怒的脸变化成了笑脸即可。或者，情感识别部133也可以采用如下方法：从各用户的脸部的特征提取脸部的图像数据，使经由网络所连接的服务器进行脸部的表情分析，由此判断大人的脸部是否从发怒的脸变化成了笑脸。

另外，情感识别部133也可以不使用物理特征量，而在大人的话语中含有大于等于预定个数的登记于提醒词辞典141的提醒词的情况下，判断为大人在发怒，在没有包含大于等于预定个数的提醒词的情况下，判断为大人在申斥。在此，作为预定个数，可以采用1个、2个、3个等适当的值。

处理决定部134在由情感识别部133判断为大人在发怒的情况下，执行用于使大人意识到其在发怒的第1处理。作为第1处理，可以采用以下所示的处理(a)、(b)、(c)中的至少1个或者多个。

·处理(a)

处理(a)是使应答文(语句)的语音和/或设定音从声音输出部15输出的处理。在处理(a)中，如果发怒的大人是小孩的母亲，则处理决定部134生成对母亲通知其在发怒的“妈妈，您在发怒吗？”这一应答文和/或促使母亲释放愤怒的“妈妈，微笑”这样的应答文，输出给语音合成部13。输出的应答文由语音合成部13向语音数据进行转换，从声音输出部15输出到装置1的外部。在此，处理决定部134通过将事先存储于存储器121的各用户的声纹与大人说出的语音的声纹进行比较，判断发怒的人物相应于母亲和/或父亲等哪个人物即可。此外，如果发怒的大人是父亲，则将上述的应答文的“妈妈”变更为“爸”和/或“爸爸”即可。另外，上述的应答文的“妈妈”也可以变更为说话的大人的姓名。

或者，在处理(a)中，处理决定部134也可以将使设定音输出的控制指令输出给声音控制部14，所述设定音是事先设定为在大人发怒时再现(播放)的声音。在该情况下，接收到控制指令的声音控制部14使事先所存储的设定音的语音数据经由声音输出部15输出到装置1的外部。作为设定音，例如可以采用用于告知发怒这一情况的警报声和/或使愤怒平息的那样的悦耳(melody)声。

·处理(b)

处理(b)是使装置1进行用于告知大人其在发怒的动作的处理。在处理(b)中，处理决定部134将使装置1旋转以使得表示部19朝向作为说话者的大人的控制指令输出给驱动控制部16即可。在该情况下，接收到控制指令的驱动控制部16例如通过使装置1旋转由控制指令所规定的旋转量，从而使装置1驱动以使得表示部19朝向作为说话者的大人即可。

详细而言，处理决定部134首先检测大人相对于装置1的朝向。大人相对于装置1的朝向例如由连接装置1的中心与实际空间中的大人的位置的直线、和装置1的正面方向所形成的角度来规定。作为装置1的正面方向，例如可以采用表示部19的显示面的法线方向。

如果语音输入部11例如由指向性麦克风构成，则处理决定部134判断为大人位于指向性麦克风从装置1的中心取得了语音的方向即可。或者，如果语音输入部11由多个麦克风(包括指向性麦克风或者无指向性麦克风)构成，则处理决定部134判断为大人位于多个麦克风中的、取得的语音的声压最高的麦克风的方向即可。

或者，处理决定部134也可以从影像输入部18取得的图像数据来检测大人相对于装置1的朝向。在该情况下，处理决定部134也可以从图像数据检测大人在实际空间中的位置，基于检测出的位置，判断大人相对于装置1的朝向。例如，如果影像输入部18由距离图像传感器构成，图像数据中含有深度成分，则处理决定部134从图像数据提取大人的区域，根据构成提取到的大人的区域的多个像素的坐标以及深度来检测实际空间中的大人的位置即可。另外，如果影像输入部18由取得不包含深度的图像数据的图像传感器构成，则处理决定部134从图像数据提取大人的区域，根据构成提取到的大人的区域的多个像素的坐标以及大人的区域的大小来检测实际空间中的大人的位置即可。

而且，处理决定部134将决定对由上述手法检测出的大人相对于装置1的朝向进行规定的角度作为装置1的旋转量的控制指令输出给驱动控制部16即可。而且，接收到该控制指令的驱动控制部16按照控制指令所示的旋转量使装置1的驱动轮驱动，使表示部19朝向大人即可。

或者，在处理(b)中，处理决定部134也可以通过将用于使装置1向作为说话者的大人靠近的控制指令输出给驱动控制部16，使装置1向大人靠近。在该情况下，处理决定部134用上述的方法检测大人在实际空间中的位置，将使装置1旋转以使得表示部19的正面朝向该位置的方向并且使装置1移动到该位置的附近的控制指令输出给驱动控制部16即可。

或者，处理决定部134也可以一边监视影像输入部18取得的图像数据所包含的大人的区域的坐标以及深度，一边对驱动控制部16输出控制指令，直至表示部19的正面前方朝向大人在实际空间中的位置并且大人与装置1的距离变为预定距离以下。

或者，在处理(b)中，处理决定部134也可以将使装置1左右摇晃的控制指令输出给驱动控制部16。将会在实施方式3中进行后述的机器人1001在内部具备能够使机器人1001的重心位置左右摇晃的带配重的摆。于是，驱动控制部16通过进行使该摆左右摇晃的控制，能够使机器人1001左右摇晃。

·处理(c)

处理(c)是在表示部19进行用于使大人意识到其在发怒的表示的处理。在此，作为表示，可以在象征性地表现包括眼和嘴的装置1的表情的表示中，采用使装置1的表情成为预定表情的表示。

在处理(c)中，处理决定部134将用于使表示部19表示为了使大人意识到其在发怒而预先确定的图像的控制指令输出给表示控制部17。接收到该控制指令的表示控制部17将预先确定的图像数据从存储器中读出并使表示部19表示。

图13是表示用于使大人意识到其在发怒的显示例的图。在图13的例子中，如惊讶的表情、悲伤的表情、困惑的表情、愤怒的表情那样示意性地表示了使用眼和嘴表现人类的情感的4个脸部的表情。表示控制部17使表示这些表情的图像中的至少1个图像的图像数据事先存储于存储器。而且，表示控制部17若从处理决定部134接收到控制指令，则从存储器中读出这些脸部的表情中的、事先所确定的某一个脸部的表情的图像数据，使表示部19进行表示即可。

或者，表示控制部17也可以将表示它们4个表情的图像例如如表示惊讶→悲伤→困惑→愤怒的表情的图像那样按预定的顺序依次表示于表示部19。通过让大人看到图13所示的脸部的表情的图像，能够使大人意识到自己在发怒。

此外，处理决定部134也可以使上述的处理(a)～(c)中的两个以上组合来进行使用。

图3是表示实施方式1涉及的装置1的处理的一例的流程图。图4是表示图3的S304的大人识别处理的详情的流程图。以下，使用图3以及图4，对判断作为保育人员的大人是在申斥小孩还是在发怒的处理进行说明。

首先，语音输入部11当在装置1的周边产生了声音时(S301：是)，取得该声音的信号(语音信号)。另一方面，如果装置1的周边没有产生声音(S301：否)，则将处理返回至S301。

接着，说话者判断部131判断取得的语音信号中是否含有话语，在含有话语的情况下(S302：是)，提取话语的区间的语音信号。另一方面，说话者判断部131在判断为不含有话语的情况下(S302：否)，将处理返回至S301，重新等待语音信号的输入。在此，说话者判断部131在被输入一定等级(level)以上的语音信号的情况下，判断为存在话语即可。

接着，说话者判断部131根据提取到的话语的语音信号判断说话者是大人还是小孩(S303)。如果说话者是大人(S303：是)，则处理前进到S304，如果说话者是小孩(S303：否)，则处理返回至S301。此外，说话者判断部131通过执行上述的使用声纹的处理、使用大人以及小孩的声学模型的处理等来判定说话者是否为大人即可。

接着，语音识别部132以及情感识别部133执行判断作为说话者的大人是在发怒还是在申斥的大人识别处理。大人识别处理的详情将在稍后使用图4进行说明。在由大人识别处理判断为大人在申斥的情况下(S305：是)，处理返回至S301，装置1重新变为等待语音信号的输入的状态。另一方面，在由大人识别处理判断为大人在发怒的情况下(S305：否)，处理决定部134执行用于让作为说话者的大人意识到其在发怒的第1处理(上述的处理(a)～(c)中的1个或多个处理)(S306)。当S306的处理结束时，处理返回至S301。

具体而言，如前所述，执行如“妈妈，您在发怒吗？”和/或“妈妈，微笑”那样的应答文的话语处理、在大人发怒时再现的设定音的再现、使表示部19朝向大人的驱动控制、使装置1向大人靠近的驱动控制、以及使表示部19表示图13所示的脸部的表情的图像的处理中的某一个或者多个。此外，在此，若由大人状态识别处理一旦判断为大人在发怒，则处理决定部134执行处理(a)～(c)中的某一个或者多个处理。这是一例，也可以为在多次检测出愤怒、或者在一定期间内连续地多次检测出愤怒的情况下，处理决定部134执行处理(a)～(c)中的某一个或者多个处理。或者，处理决定部134也可以在一定期间内多次检测出愤怒的情况下，随着次数增加，变更处理内容。例如，处理决定部134也可以在第1次的愤怒时，执行处理(a)～(c)中的某一个处理，在第2次的愤怒时追加地执行处理(a)～(c)中的、与在第1次中执行的处理不同的另一处理，在第3次的愤怒时追加地执行与在第2次中执行的处理不同的另一处理。

接着，使用图4说明大人状态识别处理的详情。语音识别部132从说话者判断部131取得大人所说的语音信号，针对取得的语音信号执行使用大人的声学模型以及语言模型的语音识别处理，推定话语内容(S401)，生成表示推定出的话语内容的文本数据。

接着，语音识别部132根据推定出的话语内容，判断提醒对象者(S402)。在此，语音识别部132通过对推定出的话语内容与事先保存于存储器121的小孩的姓名和/或昵称进行比较，判断提醒对象者即可。例如，假设话语内容为“小爱，停下”，存储器121中事先保存有“小爱”作为小孩的昵称，则由于话语内容中含有“小爱”，因此语音识别部132将“小爱”判断作为提醒对象者(S402)。

此外，如果话语内容中没有包含小孩的姓名和/或昵称，则也可以设为没有对象者使处理继续。另外，也可以采用如下方法：即使在当前的话语内容中没有对象者的情况下，但在一定次数或者到一定时间之前的话语中，话语内容中含有提醒词和小孩的昵称的情况下，也将该人物作为对象者。

接着，语音识别部132判断推定出的话语内容中是否含有登记于提醒词辞典141的提醒词(S403)。在推定出的话语内容中没有包含登记于提醒词辞典141的提醒词的情况下(S403：否)，处理返回至图3的S301，装置1重新变为等待语音信号的输入的状态。另一方面，在推定出的话语内容中含有登记于提醒词辞典的提醒词的情况下(S403：是)，情感识别部133从推定出的话语内容的语音信号算出该话语的物理特征量(S404)。在此，作为物理特征量，例如采用上述的韵律的特征量的时间模式和/或发力指标。

接着，情感识别部133判断算出的物理特征量是否在阈值以上(S405)。如果算出的物理特征量在阈值以上(S405：是)，则情感识别部133判断为作为说话者的大人在发怒(S406)。另一方面，如果算出的物理特征量小于阈值(S405：否)，则情感识别部133判断为作为说话者的大人在申斥(S407)。

如此，根据实施方式1涉及的装置1，如果由语音输入部11取得的声音中含有大人的话语，则判断大人提醒小孩时所使用的提醒词是否包含于该话语。而且，如果该提醒词包含于话语，则根据大人的话语的物理特征量判断大人是在申斥小孩还是在发怒，在判断为大人在发怒的情况下，执行处理(a)～处理(c)中的某一个或者多个。由此，能够使大人意识到其在发怒。

(实施方式2)

实施方式2使用影像输入部18取得的图像数据，更详细地判断作为保育人员的大人在提醒小孩时的状况。图5是表示实施方式2中的装置1A的整体构成的一例的图。此外，在以下的说明中，对与实施方式1相同的构成赋予相同的标号并省略说明。

在装置1A中，对于与装置1名称相同但新追加了功能的构成，在末尾赋予A的标号来表示。状况判断装置12A具备主控制部122A。主控制部122A还具备人物推定部501(第3判断部的一例)、位置信息记录部502(第4判断部的一例)以及状态变化判断部503(第4判断部的一例)。

语音识别部132A识别作为说话者的大人和提醒对象者。在此，语音识别部132A在由说话者判断部131判断为含有大人的话语的情况下，从该话语的语音信号中提取声纹，将提取到的声纹与事先登记于存储器121的大人的声纹进行比对，由此，识别作为说话者的大人，生成辨识该说话者的说话者信息。另外，语音识别部132A在由说话者判断部131判断为含有大人的话语的情况下，如果其话语内容中含有事先登记于存储器121的小孩的姓名或者昵称，则将该小孩识别作为提醒对象者，生成辨识所识别到的提醒对象者的提醒对象者信息。

人物推定部501推定影像输入部18取得的图像数据所包含的用户。在此，人物推定部501提取图像数据所包含的用户的脸部的特征量，将提取到的脸部的特征量与事先存储于存储器121的每个用户的脸部的特征量例如使用模式匹配等公知的手法进行比较，由此推定图像数据所包含的用户。

人物推定部501取得由语音识别部132A生成的提醒对象者信息和说话者信息中的某一方或者两方，判断从图像数据推定出的用户与取得的提醒对象者信息所示的提醒对象者和取得的说话者信息所示的说话者中的哪个用户一致。此外，在影像输入部18取得的图像数据中含有多个用户的情况下，人物推定部501针对从图像数据推定出的多个用户的每一个，判断是否与提醒对象者信息所示的提醒对象者和说话者信息所示的说话者一致即可。

另外，人物推定部501若从图像数据中推定提醒对象者，则之后，通过从由影像输入部18以预定帧速率取得的图像数据和深度信息中提取表示提醒对象者的区域，从而生成表示提醒对象者的在图像数据内的坐标的坐标信息，将生成的坐标信息与所对应的图像数据一起输出给位置信息记录部502。

另外，人物推定部501若推定说话者，则通过从由影像输入部18取得的图像数据中提取说话者的脸部的区域，从而生成表示说话者的脸部的在图像数据内的坐标的坐标信息，将生成的坐标信息与所对应的图像数据一起输出给情感识别部133A。

位置信息记录部502使用从人物推定部501输出的提醒对象者的坐标信息，从与该坐标信息对应的图像数据中提取提醒对象者的区域，根据提取到的区域检测提醒对象者在实际空间中的重心位置并记录于存储器121。

另外，位置信息记录部502从由影像输入部18取得的图像数据中检测提醒对象者的手在实际空间中的位置，记录于存储器121。另外，位置信息记录部502在由影像输入部18取得的图像数据中，将相对于检测出的手的位置例如位于最短距离的物体、或者与手一起动的物体检测作为提醒对象者可能把持的物体，将检测出的物体在实际空间中的位置以及特征量(例如轮廓数据)记录于存储器121。

此外，位置信息记录部502既可以使用事先设定的手的模板图像和/或手的颜色信息来检测提醒对象者的手的位置，也可以使用其他公知的图像识别技术检测提醒对象者的手的位置。

状态变化判断部503根据记录于存储器121的提醒对象者的重心位置，判断提醒对象者的身体姿势是否发生了变化。

图6是表示提醒对象者的重心位置发生了变化的情形的图。在图6中，状态S1表示提醒对象者坐着的状态，图6的状态S2表示提醒对象者站立着的状态。

用G1、G2表示图6的状态S1、状态S2的各状态下的人物的重心位置。状态变化判断部503例如当记录于存储器121的状态S1下的重心位置G1、与记录于存储器121的状态S2下的重心位置G2之间的距离分开得大于等于事先设定的基准距离时，判断为提醒对象者的身体姿势发生了变化即可。

另外，状态变化判断部503对记录于存储器121的物体的位置与提醒对象者的手的位置进行比较，相对于手的位置，物体持续地存在于一定范围内的期间，判断为提醒对象者保持着物体。以后，将提醒对象者的重心位置、提醒对象者的手的位置、物体的位置、和物体的特征量进行总称而称作行动数据。

图7是表示提醒对象者放开所把持的物体OB1的情形的图。在图7中，状态S1表示提醒对象者在坐着的状态下，手中拿着作为物体OB1的剪刀的状态。图7的状态S3表示提醒对象者保持坐着的状态将剪刀放在地板上的状态。在状态S1，物体OB1相对于手位于一定范围内，因此，状态变化判断部503判断为提醒对象者把持着物体OB1。另一方面，在状态S3，物体OB1相对于手没有位于一定范围内，因此，状态变化判断部503判断为提醒对象者没有把持物体OB1。

此外，在本实施方式中，能够以提醒对象者受到提醒的时刻(timing)为基准，根据提醒对象者的身体姿势发生了变化或者提醒对象者放开了物体，判断提醒对象者的行动是否发生了变化即可。因此，本实施方式既可以采用从提醒对象者受到提醒的时刻起跟踪行动数据的方式，也可以采用对提醒对象者受到提醒的时刻的行动数据与经过一定时间后的行动数据进行比较的方式。

此外，在采用了进行跟踪的方式的情况下，根据从提醒对象者受到提醒的时刻到一定期间为止的提醒对象者的重心位置的轨迹可知提醒对象者的活动(例如，跑来跑去的行动和/或在地板上蹦跳的行动)。于是，在采用了进行跟踪的方式的情况下，状态变化判断部503从在一定期间内取得的多个图像数据中检测提醒对象者的活动，在最新的一定期间内检测出的活动相对于最初的一定期间内检测出的活动发生了变化的情况下，能够判断为提醒对象者的行动发生了变化。由此，在小孩由于进行跑来跑去的行动和/或在地板上蹦跳的行动而被申斥的情况下，能够判断小孩是否中止了该被申斥的行动。然而，该进行跟踪的方式由于计算量增加，因此从削减计算量这一观点，优选采用后者的方式。

情感识别部133A若从人物推定部501接收说话者的坐标信息和包括说话者的脸部的图像数据，则使用坐标信息从接收到的图像数据中提取脸部图像，根据提取到的脸部图像推定说话者的愤怒的情感。在此，情感识别部133A例如利用专利文献2所述的技术推定愤怒的情感即可。详细而言，情感识别部133A根据图像数据算出表示愤怒的情感的概率的情感识别结果数据。而且，情感识别部133A对实施方式1中说明的大人的话语的物理特征量乘以加权系数α，对情感识别结果数据乘以加权系数β，将两个相乘结果相加，由此算出两者的加权平均值，如果算出的加权平均值在阈值以上，则判断为说话者在发怒即可。

图15是表示愤怒的表情和喜悦的表情的一例的图。在图15中，上图表示愤怒的表情，下图表示喜悦的表情。愤怒的表情中出现如下特征：(i)眉毛的鼻子侧的端部靠近中心并偏下；(ii)眼呈瞪眼的状态；(iii)嘴唇呈咬住的状态。另一方面，喜悦的表情中出现如下特征：(i)眼角出现皱纹；(ii)脸颊***；(iii)眼周围的肌肉活动。因此，能够根据脸部的表情推定愤怒的情感。

处理决定部134A在由情感识别部133A判断为作为说话者的大人在申斥的情况下，在由状态变化判断部503判断为提醒对象者的身体姿势没有变化或者提醒对象者手中继续持有物体的情况下，执行用于使提醒对象者中止被申斥的行动的第2处理。作为第2处理，可以采用以下所示的处理(d)、(e)、(f)中的至少1个或者多个。

·处理(d)

处理(d)是使用于让小孩中止被申斥的行为的应答文的语音和/或设定音从声音输出部15输出的处理。在处理(d)中，处理决定部134A生成用于使小孩中止被申斥的行动的应答文，输出给语音合成部13。作为应答文，可以采用询问小孩当前在做什么的“在做什么呀？”这一应答文。或者，作为应答文，可以采用促使小孩停止当前正在进行的行为的“再来一次就结束吧”这一应答文和/或“下次再继续”这一应答文。输出的应答文由语音合成部13转换成语音数据，从声音输出部15输出到装置1A的外部。

或者，在处理(d)中，处理决定部134A也可以将使催促结束的声音(警报声)和/或音乐(例：萤之光、收拾整理的音乐等)等事先设定的设定音输出的控制指令输出给声音控制部14。在该情况下，接收到控制指令的声音控制部14使事先所存储的设定音的语音数据经由声音输出部15输出到装置1A的外部。

·处理(e)

处理(e)是使装置1A进行用于让小孩中止被申斥的行为的动作的处理。在处理(e)中，处理决定部134A将使装置1A旋转以使得表示部19朝向作为提醒对象者的小孩的控制指令输出给驱动控制部16即可。在该情况下，接收到控制指令的驱动控制部16例如通过使装置1A旋转由控制指令所规定的旋转量，从而使装置1A驱动以使得表示部19朝向作为提醒对象者的小孩即可。

详细而言，处理决定部134A首先检测小孩相对于装置1A的朝向。小孩相对于装置1的朝向例如由连接装置1A的中心与实际空间中的小孩的位置的直线、和装置1A的正面方向所形成的角度来规定。作为装置1A的正面方向，例如可以采用表示部19的显示面的法线方向。

在该情况下，处理决定部134A从图像数据检测小孩在实际空间中的位置，基于检测出的位置，判断小孩相当于装置1A的朝向即可。例如，处理决定部134A从图像数据提取小孩的区域，根据构成提取到的小孩的区域的多个像素的坐标以及深度来检测实际空间中的小孩的位置即可。

而且，处理决定部134A将决定对由上述手法检测出的小孩相对于装置1A的朝向进行规定的角度作为装置1A的旋转量的控制指令输出给驱动控制部16即可。而且，接收到该控制指令的驱动控制部16按照控制指令所示的旋转量使装置1A的驱动轮驱动，使表示部19朝向小孩即可。

或者，在处理(e)中，处理决定部134A也可以通过将用于使装置1A向作为提醒对象者的小孩靠近的控制指令输出给驱动控制部16，使装置1A向小孩靠近。在该情况下，处理决定部134A用上述的方法检测小孩在实际空间中的位置，将使装置1A旋转以使得表示部19的正面朝向该位置的方向并且使装置1A移动到该位置的附近的控制指令输出给驱动控制部16即可。

或者，处理决定部134A也可以一边监视影像输入部18取得的图像数据所包含的小孩的区域的坐标以及深度成分，一边对驱动控制部16输出控制指令，直至表示部19的正面前方朝向小孩在实际空间中的位置并且小孩与装置1A的距离变为预定距离以下。

·处理(f)

处理(f)是在表示部19进行用于使小孩中止被申斥的行为的表示的处理。在此，作为表示，可以在象征性地表现包括眼和嘴的装置1A的表情的表示中，采用使装置1A的表情成为预定表情的表示。

在处理(f)中，处理决定部134A将用于使表示部19表示为了使小孩中止被申斥的行为而预先确定的图像的控制指令输出给表示控制部17。接收到该控制指令的表示控制部17将预先确定的图像数据从存储器中读出并使表示部19表示。

图14是表示用于促使小孩中止被申斥的行动的显示例的图。在图14的例子中，从左到右依次地如笑脸以及困惑的表情那样示意性地表示了使用眼和嘴表现人类的情感的两个脸部的表情。在该情况下，表示控制部17事先存储表示这些表情的图像中的至少1个图像的图像数据。而且，表示控制部17若从处理决定部134A接收到控制指令，则使表示部19表示这些脸部的表情中的、事先所确定的某一个脸部的表情的图像数据即可。例如，笑脸的表情意味着询问小孩当前正在进行的行动，困惑的表情意味着促使小孩中止当前正在进行的行动。在此，处理决定部134A也可以与使表示部19显示表示笑脸的表情的图像同时，使询问在做什么的语音从声音输出部15输出。或者，处理决定部134A也可以与使表示部19显示表示困惑的表情的图像同时，使催促中止当前的行动的话语从声音输出部15输出。

此外，处理决定部134A也可以使上述的处理(d)～(f)中的两个以上组合来进行使用。

图8是表示实施方式2中的装置1A的处理的一例的流程图。图9是表示图8的S801所示的小孩状态识别处理的详情的流程图。以下，使用图8以及图9，对实施方式2的装置1A的处理进行说明。

此外，在以下的流程图中，对与图3所示的实施方式1的流程图相同的处理赋予相同的标号并省去说明。

在图8中，当在S305中判断为大人在申斥的情况下(S305：是)，在实施方式2中执行小孩状态识别的处理(S801)。小孩状态识别处理的详情将在稍后使用图9进行说明。

小孩状态识别处理的结果是判断为小孩的状态有变化的情况下(S802：是)，处理返回至S301，装置1A重新变为等待语音信号的输入的状态。另一方面，在判断为小孩的状态没有变化的情况下(S802：否)，处理决定部134A执行促使小孩中止被申斥的行为的第2处理(S803)。具体而言，执行上述的处理(d)～(f)中的某一个或者多个。当S803的处理结束时，处理返回至S301。

此外，在此，若由大人的状态识别处理一旦判断为大人在申斥，则处理决定部134A执行处理(d)～(f)中的某一个或者多个处理。这是一例，也可以为在多次检测出申斥、或者在一定期间内连续地多次检测出申斥的情况下，处理决定部134A执行处理(d)～(f)中的某一个或者多个处理。或者，处理决定部134A也可以在一定期间内多次检测出申斥的情况下，随着次数增加，变更处理内容。例如，处理决定部134也可以在第1次的申斥时，执行处理(d)～(f)中的某一个处理，在第2次的申斥时追加地执行处理(d)～(f)中的、与在第1次中执行的处理不同的另一处理，在第3次的申斥时追加地执行与在第2次中执行的处理不同的另一处理。

接着，使用图9说明小孩状态识别处理的一例。首先，人物推定部501从影像输入部18取得的图像数据中发现作为提醒对象者的小孩(S901)。在此，人物推定部501从影像输入部18取得的图像数据中提取图像数据所包含的人物的脸部的特征量，使用模式匹配等公知的手法对提取到的脸部的特征量与事先存储于存储器121的小孩的脸部的特征量进行比较，如果图像数据中含有小孩，则判断为从图像数据中发现了作为提醒对象者的小孩即可。

在人物推定部501没能发现作为提醒对象者的小孩的情况下(S901：否)，处理决定部134A将用于使装置1A旋转并使影像输入部18取得另一角度下的图像数据的控制指令输出给驱动控制部16(S902)，将处理返回至S901。在该情况下，处理决定部134A通过将使装置1A的旋转量增加预定量的控制指令输出给驱动控制部16，使装置1A旋转即可。通过反复进行S901、S902的处理来从图像数据中发现作为提醒对象者的小孩。

在发现了作为提醒对象者的小孩的情况下(S901：是)，位置信息记录部502参照存储器121，判断是否有在X分钟以内开始记录的提醒对象者的行动数据的记录(S903)。在此，X分钟是假定了在提醒对象者因某个问题行动被申斥的情况下，直至停止该问题行动并采取另一行动为止的期间的时间，例如是1分钟、2分钟、3分钟、4分钟、5分钟等。

如果存储器121中没有记录在X分钟以内开始记录的提醒对象者的行动数据(S903：否)，则位置信息记录部502使处理前进到S904。在S904中，位置信息记录部502开始记录提醒对象者的行动数据。例如，在如提醒对象者初次被申斥这样的情况和/或如从开始记录提醒对象者的行动数据起到这次被申斥为止的时间超过了X分钟这样的情况下，在S903中判断为“否”。

具体而言，在S904中，位置信息记录部502将提醒对象者的重心位置、提醒对象者的手的位置、在该时间点手中持有的物体的位置、和该物体的特征量作为行动数据记录于存储器121。当S904的处理结束时，处理返回至图8的S301。

另一方面，在S903中，如果在X分钟以内开始记录的提醒对象者的行动数据记录于存储器121(S903：是)，则状态变化判断部503从存储器121取得提醒对象者的重心位置(S905)。

接着，状态变化判断部503通过将从存储器121取得的重心位置与当前的提醒对象者的重心位置进行比较，判断提醒对象者的身体姿势是否发生了变化(S906)。

在此，状态变化判断部503例如在开始了X分钟的计时的时间点的重心位置与当前的提醒对象者的重心位置之间的距离大于等于基准距离时，判断为提醒对象者的身体姿势发生了变化即可。

或者，状态变化判断部503也可以根据在从开始X分钟的计时到当前为止的期间内记录于存储器121的重心位置的变化来检测提醒对象者的活动的模式，对检测出的活动的模式进行解析，由此，判断为提醒对象者的身体姿势发生了变化。

此外，本流程图假定了提醒对象者一旦被申斥后到经过X分钟的期间为止停止问题行动并采取另一行动。因此，本流程图在从第1次申斥起经过X分钟为止再次被申斥的情况下，在S903中判定为“是”，前进到S905以后的检测提醒对象者的身体姿势的变化的处理。另一方面，本流程图在经过X分钟后再次申斥的情况下，视为再次被申斥的情况下的行动是提醒对象者进行了与不同于第1次申斥的另一申斥关联的问题行动，应该开始记录与另一申斥关联的行动数据，在S903中判定为“否”，使处理前进到S904。

状态变化判断部503在根据重心位置的变化判断为提醒对象者的身体姿势有变化的情况下(S906：是)，判断为提醒对象者的状态有变化、即提醒对象者中止了被申斥的行动(S910)。该判断结果意味着由于大人申斥，小孩中止了被申斥的行动。

另一方面，状态变化判断部503在根据重心位置的变化判断为提醒对象者的身体姿势没有变化的情况下(S906：否)，使处理前进到S907。

状态变化判断部503从存储器121取得提醒对象者的手的位置、物体的位置和物体的特征量(S907)。

接着，状态变化判断部503判定提醒对象者是否当前还把持着特征量与在X分钟的计时开始时所把持的物体相同的物体(S908)。如果提醒对象者当前还把持着特征量与在X分钟的计时开始时所把持的物体相同的物体(S908：否)，则状态变化判断部503判断为提醒对象者的小孩的状态没有变化(S911)。该判断结果意味着尽管大人进行了申斥但小孩持续着被申斥的行动。

另一方面，状态变化判断部503在判断为提醒对象者当前没有把持特征量与在X分钟的计时开始时所把持的物体相同的物体的情况下(S908：是)，使处理前进到S909。

接着，状态变化判断部503判断提醒对象者的手的活动是否在被申斥时和当前是不同的、或者物体的活动是否在被申斥时和当前是不同的(S909)。在此，状态变化判断部503例如在从开始X分钟的计时起到当前为止的期间内，从记录于存储器121的手的位置以及物体的位置来解析手的活动的模式以及物体的活动的模式，如果两活动的模式中的一方活动的模式中可见到变化，则在S909中判定为“是”即可。由此，例如能够判断小孩是否即使被申斥也持续着如带着球那样的游戏。

如果提醒对象者的手的活动和物体的活动中的至少一方在被申斥时和当前是不同的(S909：是)，则状态变化判断部503判断为提醒对象者的状态有变化(S910)。另一方面，如果提醒对象者的手的活动和物体的活动的两方在被申斥时和当前相同(S909：否)，则状态变化判断部503判断为提醒对象者的状态没有变化(S911)。

如此，在实施方式2中，状态变化判断部503在判断为大人在申斥小孩、并且判断为图像数据所包含的用户是小孩的情况下，基于图像数据，在识别出大人的话语后的X分钟的期间(第2期间的一例)内，判断小孩的身体姿势是否发生了变化。而且，状态变化判断部503在判断为小孩的身体姿势没有变化的情况下，基于图像数据，在X分钟的期间内，判断小孩是否手中继续持有物体。

由此，能够在小孩被申斥的情况下，判断小孩是否持续着被申斥的行为。

而且，处理决定部134A在判断为小孩的身体姿势没有变化、或者判断为小孩继续在手中持有物体的情况下，执行上述的处理(d)～(f)中的某一个或者多个。因此，在小孩持续着被申斥的行动的情况下，能够促使小孩中止该行动。

此外，在图8、图9的流程图中，在一旦申斥后在X分钟的期间内再次申斥的情况下所执行的图9的流程图中，判断小孩的状态是否发生了变化。换言之，图8、图9的流程图在X分钟的期间内没有再次申斥时，视为小孩中止了被申斥的行动。

然而，这是一例，也可以为，即使从一旦申斥后起在X分钟的期间内没有再次申斥，但如果小孩的身体姿势没有变化、或者小孩没有放开物体，则执行第2处理。在该情况下，当图9的S904的处理结束时，使处理返回至S901即可。

另外，在图9的流程图中，在S903中，如果在X分钟以内之前开始了记录，则判定为“是”，但也可以采用在X分钟的记录结束后判定为“是”的方式。在该情况下，即使在X分钟的行动数据的记录期间提醒对象者被申斥，但在S903中判定为“否”，继续记录(S904)。另一方面，在经过X分钟后提醒对象者被申斥的情况下，在S903中判定为“是”，将会执行S906以后的提醒对象者的身体姿势是否发生了变化的处理。在采用该方式的情况下，即使在经过X分钟之前提醒对象者再次被申斥，也不执行S906以后的处理，因此能够削减处理步骤。

(实施方式3)

图10是表示实施方式3中的机器人1001的一例的外观图。实施方式3是将实施方式2涉及的装置1A应用于机器人1001而得到的。此外，在本实施方式中，对与实施方式1、2相同的构成要素赋予相同的标号并省略说明。

机器人1001如图10所示那样具备球体状的主壳体1002、和设置在主壳体1002的左右两侧的一对球冠部1003。主壳体1002和一对球冠部1003作为整体而构成球体。即，机器人1001具有球体形状。右方的球冠部1003具备摄像头1004、麦克风1005和扬声器1006。左方的球冠部1003具备摄像头1004。主壳体1002通过透过从安装于内部(未图示)的表示部1007照射的光，能够表现出机器人1001的表情。另外，虽然图10中没有图示，但机器人1001具备控制电路。摄像头1004是使用两个摄像头的立体摄像头，取得表示周边环境的影像和距离分布的距离图像数据。控制电路控制机器人1001的各种动作。此外，在本技术方案中，机器人1001作为整体而构成为球体，但不限于此，具备至少具有移动机构的构成即可。

图11是表示机器人1001的电构成的一例的图。机器人1001具备麦克风1005、摄像头1004、传感器1009、主控制部122B、存储器121、语音合成部13、声音控制部14、扬声器1006、驱动控制部16、驱动部1008、表示控制部17以及表示部1007。

麦克风1005相当于实施方式1的语音输入部11，向状况判断部1103的话语者判断部131(图1、图5)输出语音数据。

摄像头1004相当于实施方式1、2的影像输入部18，向状况判断部1103的人物推定部501(图5)输出图像数据和距离数据。

传感器1009包括机器人1001具备的各种传感器，在此作为一例，包括加速度传感器。加速度传感器例如由能够计测3轴的加速度的加速度传感器构成，设置于机器人1001的内部，所述3轴是与机器人1001的左右方向对应的X轴、与机器人1001的前后方向对应的Y轴、和与机器人1001的上下方向对应的Z轴。

语音合成部13与前述的实施方式同样地，将文本数据转换为语音数据。声音控制部14与前述的实施方式同样地，保持及管理声音和/或音乐的数据，根据从主控制部122B发送来的控制指令将声音和/或音乐的数据输出给扬声器1006。

扬声器1006相当于前述的实施方式的声音输出部15，输出语音数据。

驱动控制部16根据从主控制部122B发送来的控制指令，使驱动部1008驱动。发送来的控制指令例如如果是搜索用户的指令，则机器人1001以环顾周边的方式旋转。

驱动部1008通过使球体状的主壳体1002旋转，能够前进和后退。另外，通过将主壳体1002的内部的重心位置利用内置的摆来变更，能够进行旋转运动。详细而言，驱动部1008能够通过在从机器人1001的正面观察，使重心位置偏向左或者右的状态下使主壳体1002旋转来使机器人1001旋转。此外，这种驱动机构是一例，也可以是其他驱动处理。例如，如果驱动部1008由用于使机器人1001前进或者后退的一对轮子构成，则驱动部1008能够通过改变一方轮子的旋转速度和另一方轮子的旋转速度来使机器人1001旋转。或者，如果驱动部1008具备能够使一对轮子转向的机构，则驱动部1008能够通过改变一对轮子的转向角来使机器人1001旋转。

表示控制部17根据从主控制部122B发送来的控制指令，在机器人1001的表示部1007进行表示。发送来的控制指令例如如果是笑脸的控制指令，则对眼的位置的表示部1007以及嘴的位置的表示部1007的每一个进行指示以使得表示笑脸的眼以及嘴的图像。

表示部1007是设置于机器人1001的内部(未图示)的如LED面板、液晶面板那样的显示设备。在图10的例子中，机器人1001具备与两只眼对应的两个表示部1007以及与一张嘴对应的一个表示部1007。

主控制部122B具备壳体状态判断部1101、UX控制部1102以及状况判断部1103。

壳体状态判断部1101根据传感器1009的加速度传感器计测到的加速度，判断壳体是否由用户抱着。壳体状态判断部1101从驱动控制部16取得表示当前壳体是否处于驱动状态的信息。另外，壳体状态判断部1101在驱动部1008没有在驱动的状态下，当在从加速度传感器输出的表示Z轴方向的加速度的第1值超过了预定的阈值后，判断为第1值、表示Y轴方向的加速度的第2值和表示X轴方向的加速度的第3值的某一个在一定期间内超过预定幅度地产生变动的情况下，判断为机器人1001被用户抱起(抱着)。

此外，壳体状态判断部1101也可以在判断机器人1001是否被抱着时，向驱动控制部16发送停止驱动的控制指令，使驱动停止后，执行上述的判断机器人1001是否被抱着的处理。另外，壳体状态判断部1101为了判断被谁抱着，也可以进行通过摄像头1004的脸部识别处理和/或向用户询问“唉唉”等并从此时的用户应答的声音来判断用户是谁。在该情况下，壳体状态判断部1101从摄像头1004取得的图像数据中提取用户的脸部的特征量，将提取到的特征量与事先记录于存储器121的用户的脸部的特征量进行比较，由此判断抱着机器人1001的用户即可。或者，壳体状态判断部1101从麦克风1005取得的语音信号中提取用户的声纹，将提取到的声纹与事先记录于存储器121的声纹进行比较，由此判断抱着机器人1001的用户即可。

UX控制部1102管理机器人1001提供的多个主题(contents，内容)。主题规定机器人1001的驱动模式、向表示部1007的表示模式、机器人的应答文的输出模式等。作为主题的一例，包含如让机器人1001边唱边跳那样的主题等。UX控制部1102例如一边再现音乐，一边进行如使机器人1001按照再现的音乐的节奏跳舞那样的驱动控制。另外，UX控制部1102使表示于表示部1007的表情按照再现的音乐的歌词和/或节奏变更，并且，使机器人1001说话以促使用户一起唱歌。

UX控制部1102管理机器人所提供的主题，并且，保持以该主题一起玩耍的用户的信息。

状况判断部1103相当于前述实施方式中的状况判断装置12A。在本实施方式中，状况判断部1103进行考虑到由壳体状态判断部1101以及UX控制部1102取得的机器人1001的状态的状况判断。

图12是表示实施方式3中的机器人1001的处理的一例的流程图。以下，使用图12，对判断作为保育人员的大人是在申斥小孩还是在发怒，并在这时判断机器人1001的状态和/或提醒对象者是否在与机器人1001玩耍并受到提醒的方法进行说明。

此外，在以下的说明中，为了简化说明而对与上述实施方式相同的处理赋予相同的标号并简化说明。

在通过大人状态识别处理，判断为作为保育人员的大人在申斥的情况下(S305：是)，壳体状态判断部1101使用传感器1009取得的加速度，判断当前机器人1001是否被抱着(S1210)。

壳体状态判断部1101在判断为当前机器人1001被抱着的情况下(S1210：否)，判断抱着的用户是否是受到提醒的提醒对象者(S1211)。在该情况下，壳体状态判断部1101从影像输入部18取得的图像数据中提取抱着机器人1001的用户的脸部的特征量，如果提取到的脸部的特征量与提醒对象者的脸部的特征量一致，则判断为抱着机器人1001的用户是提醒对象者即可。或者，壳体状态判断部1101使麦克风1005取得来自抱着机器人1001的用户的声音，如果该声音的声纹与提醒对象者的声纹一致，则判断为抱着机器人1001的用户是提醒对象者即可。此外，提醒对象者的脸部的特征量以及声纹使用事先记录于存储器121的值即可。

另一方面，在壳体状态判断部1101判断为抱着机器人1001的用户是提醒对象者的情况下(S1211：否)，状况判断部1103的处理决定部134A生成向提醒对象者进行通知的应答文的文本数据(S1212)。所生成的应答文的文本数据由语音合成部13转换为语音并从扬声器1006输出。此外，在此，作为向提醒对象者的应答文，可以采用促使抱着机器人1001的提醒对象者放开机器人1001的应答文。作为一例，可以采用如“能把我放下吗？”这样的应答文。由此，能够在因抱着机器人1001玩而被申斥的提醒对象者不中止玩耍的情况下，促使提醒对象者中止玩耍。此外，在S1211中判断为“是”的情况下，处理向S1213前进。

另一方面，在壳体状态判断部1101判断为机器人1001没有被抱着的情况下(S1210：是)，状况判断部1103的处理决定部134A从UX控制部1102取得以当前所执行的主题玩耍的用户的信息，根据取得的用户的信息，判断以当前所执行的主题玩耍的用户是否是提醒对象者(S1213)。

如果以当前所执行的主题玩耍的用户是提醒对象者(S1213：是)，则状况判断部1103的处理决定部134A使UX控制部1102执行主题的结束处理(S1214)。由此，能够促使虽然没有抱着机器人1001但与机器人1001玩耍被申斥的提醒对象者中止与机器人1001的玩耍。

另一方面，如果以主题玩耍的用户不是提醒对象者(S1213：否)，则实施小孩状态识别处理(S801)。此外，在图12的例子中，在以当前所执行的主题玩耍的用户是提醒对象者的情况下(S1213：是)，执行了主题的结束处理(S1214)，但这是一例。处理决定部134A也可以指示UX控制部1102以使得执行与当前所执行的主题不同的另一主题。此时，UX控制部1102向进行申斥的大人确认是否可以实施另一主题，在从大人获得许可的情况下，执行另一主题即可。

(变形例1)

在本公开中，也可以采用事先设定提醒小孩的用户或者被提醒的用户的技术方案。在该技术方案中，在检测出事先设定的用户在进行提醒的情况下，判断该用户是在申斥还是在发怒，如果在发怒，则执行第1处理即可。另外，在该技术方案中，在检测出事先设定的用户被申斥的情况下，执行第2处理即可。

根据该技术方案，例如在来客期间，在作为事先设定的用户的大人提醒小孩的情况下，确定进行提醒的大人的处理变得容易。另外，例如在有多个小孩的情况下，判断被提醒的小孩的处理变得容易。

(变形例2)

在前述的实施方式中，采用了在判断为大人在发怒的情况下，对大人进行第1处理的技术方案，但本公开不限定于此。例如也可以对在发怒的大人的脸部进行拍摄并保存于存储器(以下称作处理(g))，以使得之后发了怒的大人能够使用智能手机等外部终端查阅发怒时的表情。根据该技术方案，大人能够客观地确认平时自己看不到的、自己对小孩发怒时的表情。

(变形例3)

在前述的实施方式中，也可以采用如下技术方案：在判断为大人在发怒、或者判断为在申斥的情况下，将各个的判断时的日期时刻和发出提醒的人物、被提醒的人物、发怒或者申斥的判断结果等记录于存储器。在该情况下，记录于存储器的信息能够作为小孩的成长记录进行活用。

(变形例4)

在图1、图5中，装置1具备声音输出部15、表示部19以及影像输入部18，但只要具备它们中的至少一个即可。

在实施方式1、2中，装置1在具备声音输出部15的情况下，执行处理(b)、(a)的至少一方；在具备表示部19的情况下，执行处理(b)、(c)的至少一方；在具备影像输入部18的情况下，执行处理(b)、(g)的至少一方即可。

另外，在实施方式2中，装置1在具备声音输出部15的情况下，执行处理(e)、(d)的至少一方；在具备表示部19的情况下，执行处理(e)、(f)的至少一方即可。

Claims

1.一种语音处理装置，是处理语音的装置，具备：

麦克风，其取得所述装置周边的声音；

存储器；

第1判断部，其从所述取得的声音中提取语音，判断所述语音中是否包含大人的话语；

语音识别部，其在判断为所述语音中含有大人的话语的情况下，识别所述大人的话语，判断存储于所述存储器的辞典所包含的词句是否包含于所述大人的话语，所述辞典包含所述大人提醒小孩时可能使用的词句；

第2判断部，其在判断为所述大人的话语中含有所述辞典所包含的词句的情况下，基于所述大人的话语的物理特征量，判断所述大人是在发怒还是在申斥；以及

控制部，其在判断为所述大人在发怒的情况下，使所述装置进行第1处理，

并且，所述装置还具备扬声器、显示器和摄像头中的某一个，所述摄像头取得所述装置周边的影像数据，

在所述装置具备所述扬声器的情况下，所述第1处理包括以下(i)和(ii)中的某一个：(i)使所述扬声器输出第1声音的处理；(ii)使所述装置进行第1动作的处理，

在所述装置具备所述显示器的情况下，所述第1处理包括以下(i)和(ii)中的某一个：(i)使所述显示器进行第1表示的处理；(ii)使所述装置进行第1动作的处理，

在所述装置具备所述摄像头的情况下，所述第1处理包括以下(i)和(ii)中的某一个：(i)使所述摄像头拍摄所述大人的处理；(ii)使所述装置进行第1动作的处理，

所述语音识别部进一步基于存储于所述存储器的表示所述小孩的姓名的数据，判断所述大人的话语中是否含有与所述小孩的姓名对应的词句，

所述第2判断部进一步在判断为所述大人的话语中含有与所述小孩的姓名对应的词句的情况下，还将所述小孩判断为是所述大人在申斥或者在发怒的对象者，

在所述装置具备所述摄像头的情况下，还具备：

第3判断部，其对于所述影像数据所包含的人物是否是所述小孩，基于存储于所述存储器的与所述小孩对应的影像数据来进行判断；以及

第4判断部，其在判断为所述大人在申斥所述小孩、并且判断为所述影像数据所包含的人物是所述小孩的情况下，基于所述影像数据，判断在识别出所述大人的话语之后的第2期间内所述小孩的身体姿势是否发生了变化，在判断为所述小孩的身体姿势没有发生变化的情况下，基于所述影像数据，判断在所述第2期间内所述小孩是否手中继续持有物体，

在判断为在所述第2期间内所述小孩的身体姿势没有发生变化、或者判断为所述小孩手中继续持有所述物体的情况下，所述控制部使所述装置进行第2处理，

在所述装置具备所述扬声器的情况下，

所述第2处理包括以下(i)和(ii)中的某一个：(i)使所述扬声器输出第2声音的处理；(ii)使所述装置进行第2动作的处理，

在所述装置具备所述显示器的情况下，

所述第2处理包括以下(i)和(ii)中的某一个：(i)使所述装置进行第2动作的处理；(ii)使所述显示器进行第2表示的处理。

2.根据权利要求1所述的语音处理装置，

所述第1声音包括预定警报声。

3.根据权利要求1所述的语音处理装置，

所述第1声音包括将所述大人在发怒这一情况通知给所述大人的语音。

4.根据权利要求1所述的语音处理装置，

所述第1声音包括促使所述大人释放愤怒的语音。

5.根据权利要求1所述的语音处理装置，

所述第1动作包括使所述显示器与所述大人对向的动作。

6.根据权利要求1所述的语音处理装置，

所述第1动作包括所述装置朝向所述大人的动作。

7.根据权利要求1所述的语音处理装置，

所述第1动作包括所述装置左右摇晃的动作。

8.根据权利要求1所述的语音处理装置，

所述第1表示包括象征性地表现所述装置的眼和嘴的表示，

所述表示与所述装置的预定表情对应。

9.根据权利要求8所述的语音处理装置，

所述预定表情包括悲伤的表情、惊讶的表情、困惑的表情、愤怒的表情中的某一个。

10.根据权利要求1所述的语音处理装置，

所述第2判断部在所述大人的话语的物理特征量多次超过阈值的情况下，判断为所述大人在发怒。

11.根据权利要求10所述的语音处理装置，

所述物理特征量包括所述语音的频率、所述语音的音量、所述话语的速度、所述话语的时间中的某一个。

12.根据权利要求1所述的语音处理装置，

在所述装置具备所述摄像头的情况下，

所述第2判断部在基于暂且判断为所述大人在发怒之后的第1期间内的所述影像数据，判断为所述大人露出愤怒以及悲伤以外的表情的情况下，判断为所述大人在申斥。

13.根据权利要求1所述的语音处理装置，

所述第2声音包括预定警报声。

14.根据权利要求1所述的语音处理装置，

所述第2声音包括预定音乐。

15.根据权利要求1所述的语音处理装置，

所述第2声音包括催促所述小孩使所述小孩停止当前正在进行的行为的语音。

16.根据权利要求1所述的语音处理装置，

所述第2声音包括询问所述小孩当前正在做什么的语音。

17.根据权利要求1所述的语音处理装置，

所述第2动作包括使所述显示器与所述小孩对向的动作。

18.根据权利要求1所述的语音处理装置，

所述第2动作包括所述装置朝向所述小孩的动作。

19.根据权利要求1所述的语音处理装置，

所述第2表示包括象征性地表现所述装置的眼和嘴的表示，

所述表示与所述装置的预定表情对应。

20.一种机器人，具备权利要求1所述的语音处理装置。

21.一种语音处理方法，是具备显示器、扬声器和摄像头中的某一个以及存储器、麦克风的装置中的处理语音的方法，所述摄像头取得所述装置周边的影像数据，该方法包括：

第1判断步骤，从由所述麦克风取得的声音中提取语音，判断所述语音中是否包含大人的话语；

语音识别步骤，在判断为所述语音中含有大人的话语的情况下，识别所述大人的话语，判断存储于所述存储器的辞典所包含的词句是否包含于所述大人的话语，所述辞典包含所述大人提醒小孩时可能使用的词句；

第2判断步骤，在判断为所述大人的话语中含有所述辞典所包含的词句的情况下，基于所述大人的话语的物理特征量，判断所述大人是在发怒还是在申斥；

控制步骤，在判断为所述大人在发怒的情况下，使所述装置进行第1处理，

在所述装置具备所述扬声器的情况下，

所述第1处理包括以下(i)和(ii)中的某一个：(i)使所述扬声器输出第1声音的处理；(ii)使所述装置进行第1动作的处理，

在所述装置具备所述显示器的情况下，

所述第1处理包括以下(i)和(ii)中的某一个：(i)使所述显示器进行第1表示的处理；(ii)使所述装置进行第1动作的处理，

在所述装置具备所述摄像头的情况下，

所述第1处理包括以下(i)和(ii)中的某一个：(i)使所述摄像头拍摄所述大人的处理；(ii)使所述装置进行第1动作的处理，

所述语音识别步骤进一步基于存储于所述存储器的表示所述小孩的姓名的数据，判断所述大人的话语中是否含有与所述小孩的姓名对应的词句，

所述第2判断步骤进一步在判断为所述大人的话语中含有与所述小孩的姓名对应的词句的情况下，还将所述小孩判断为是所述大人在申斥或者在发怒的对象者，

在所述装置具备所述摄像头的情况下，还包括：

第3判断步骤，对于所述影像数据所包含的人物是否是所述小孩，基于存储于所述存储器的与所述小孩对应的影像数据来进行判断；以及

第4判断步骤，在判断为所述大人在申斥所述小孩、并且判断为所述影像数据所包含的人物是所述小孩的情况下，基于所述影像数据，判断在识别出所述大人的话语之后的第2期间内所述小孩的身体姿势是否发生了变化，在判断为所述小孩的身体姿势没有发生变化的情况下，基于所述影像数据，判断在所述第2期间内所述小孩是否手中继续持有物体，

在判断为在所述第2期间内所述小孩的身体姿势没有发生变化、或者判断为所述小孩手中继续持有所述物体的情况下，在所述控制步骤中使所述装置进行第2处理，

在所述装置具备所述扬声器的情况下，

在所述装置具备所述显示器的情况下，

22.一种计算机可读取记录介质，记录有程序，所述程序用于使计算机执行权利要求21所述的语音处理方法。