CN111002303B

CN111002303B - 识别装置、机器人、识别方法和存储介质

Info

Publication number: CN111002303B
Application number: CN201910886005.1A
Authority: CN
Inventors: 小野寺豊
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-10-04
Filing date: 2019-09-19
Publication date: 2023-03-28
Anticipated expiration: 2039-09-19
Also published as: US11514269B2; CN111002303A; JP2020057300A; US20200110968A1; JP7205148B2

Abstract

本发明提供一种能够适当地识别个人的识别装置、机器人、识别方法以及存储介质。在识别装置(120)中，多个识别部分别取得表示个人的互不相同的数据，基于所取得的数据来识别个人。在通过多个识别部中的某一个识别部未识别个人、并且通过多个识别部中的剩余识别部识别出个人的情况下，学习部(170)学习某一个识别单元中的个人的识别方法。

Description

识别装置、机器人、识别方法和存储介质

技术领域

本发明涉及识别装置、机器人、识别方法以及存储介质。

背景技术

已知有用于识别个人的技术。例如，日本特开2007-156974号公报公开了一种通过结合面部图像和语音来高精度地识别个人的识别装置。具体地说，日本特开2007-156974号公报中公开的识别装置通过使用面部图像的识别求出表示本人似然性的得分α，通过使用语音的识别求出表示本人似然性的得分β，将所求得的得分α和得分β与各自对应的阈值进行比较，从而识别个人。另外，在日本特开2007-156974号公报中公开了根据亮度或背景的杂音来变更分数α的阈值及分数β的阈值的技术。

发明内容

发明要解决的问题

用于识别个人的个人特征不总是相同的，而是根据各种因素而变化。例如，个人的面部、语音等特征根据个人的成长、增龄、或其他因素而变化。与此相对，如上所述，在现有技术的识别装置中，得分α的阈值及得分β的阈值仅根据亮度或背景杂音而变更，因此，当像这样个人特征变化时，个人可能不能被适当地识别。

本发明是为了解决以上那样的课题而做出的，其目的在于提供一种能够适当地识别个人的识别装置、机器人、识别方法以及存储介质。

解决问题的手段

为了实现上述目的，本发明的识别装置的特征在于，具备：多个识别单元，基于所取得的表示个人的互不相同的多个数据，识别所述个人；以及学习单元，在所述多个识别单元中的至少一个识别单元的所述个人的识别失败、并且所述多个识别单元中的其他的至少一个识别单元的所述个人的识别成功了的情况下，学习所述个人的识别失败了的所述至少一个识别单元中的所述个人的识别方法。

本发明的识别方法的特征在于，基于所取得的表示个人的互不相同的多个数据的每一个来识别所述个人，在基于所述多个数据中的至少一个数据的所述个人的识别失败，并且基于所述多个数据中的其他的至少一个数据的所述个人的识别成功了的情况下，学习基于所述个人的识别失败了的所述至少一个数据的所述个人的识别方法。

本发明的非暂时性存储介质的特征在于，存储有用于使计算机作为以下单元发挥功能的程序：多个识别单元，基于所取得的表示个人的互不相同的多个数据来识别所述个人；以及学习单元，在所述多个识别单元中的至少一个识别单元的所述个人的识别失败、并且所述多个识别单元中的其他的至少一个识别单元的所述个人的识别失败了的情况下，学习所述个人的识别失败了的所述至少一个识别单元中的所述个人的识别方法。

本发明的机器人的特征在于，具备：多个识别单元，基于所取得的表示个人的互不相同的多个数据来识别所述个人；动作控制单元，在所述多个识别单元中的至少一个识别单元的所述个人的识别成功了的情况下，使本装置执行与所述个人对应的动作；以及更新单元，在通过所述多个识别单元中的至少一个识别单元识别所述个人失败、并且通过所述多个识别单元中的其他的至少一个识别单元识别所述个人成功了的情况下，更新学习数据，该学习数据用于学习所述个人的识别失败了的所述至少一个识别单元中的所述个人的识别方法。

发明的效果

根据本发明，能够提供可适当地识别个人的识别装置、机器人、识别方法以及存储介质。

附图说明

图1是示出本发明的实施方式1的机器人的外观的图。

图2是示出实施方式1的机器人的硬件结构的框图。

图3是示出实施方式1的机器人的功能性结构的框图。

图4是示出在实施方式1中存储在学习数据存储部中的数据的例子的图。

图5是示出更新图4所示的存储在学习数据存储部中的数据的例子的图。

图6是示出由实施方式1的机器人执行的机器人控制处理的流程的流程图。

图7是示出由实施方式1的机器人执行的初始登记处理的流程的流程图。

图8是示出由实施方式1的机器人执行的语音学习处理的流程的流程图。

图9是示出由实施方式1的机器人执行的面部学习处理的流程的流程图。

图10是示出由本发明的实施方式2的机器人执行的语音学习处理的流程的流程图。

图11是示出在本发明的实施方式3中存储在学习数据存储部中的数据的例子的图。

图12是示出本发明的变形例中的机器人以及服务器装置的功能性结构的框图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。另外，对图中相同或相当的部分标注相同的附图标记。

(实施方式1)

图1示出本发明的实施方式1的机器人100的外观。机器人100是主要在家庭中使用的并且能够与用户沟通的沟通机器人。如图1所示，机器人100具有模仿动物(宠物)的形状，并且按照预先规定的动作程序自主地动作。

机器人100对来自存在于本装置外部的用户的呼唤或接触等来自外部的刺激进行反应，进行各种动作。由此，机器人100与用户进行沟通，能够进行交流。用户是与机器人100进行沟通及交流的对方，具体地，例如是机器人100的所有者、家人、朋友等。

如图1所示，机器人100具有在外观上模仿小型犬的立体形状。机器人100例如以塑料等硬质合成树脂为主要材料而制作。机器人100具备头部101、躯干部102、耳部103、眼部104、口部105、手部107以及腿部108。

头部101、耳部103、手部107及腿部108是能够通过内置于机器人100的驱动构件而活动的部位。头部101通过设置在颈部的颈关节，在俯仰、翻滚及偏航三个方向上可旋转地安装于躯干部102。在眼部104中设置有显示与眼睛相关的图像(眼珠等)的显示部117。在口部105设置有对机器人100的前方进行拍摄的拍摄部115a。

图2示出机器人100的硬件结构。如图2所示，机器人100具备控制部110、存储部111、电池112、驱动部113、可动部114、传感器部115、无线通信部116、显示部117和语音输出部118。

控制部110具备CPU(Central Processing Unit)、ROM(Read Only Memory)及RAM(Random Access Memory)。CPU例如是微处理器等，是执行各种处理、运算的中央运算处理部。在控制部110中，CPU读出存储在ROM中的控制程序，并且在使用RAM作为工作存储器的同时控制本装置(机器人100)整体的动作。控制部110作为控制单元发挥功能。

另外，控制部110包括例如GPU(Graphics Processing Unit，图形处理单元)等那样的图像处理用的处理器、例如DSP(Digital Signal Processor，数字信号处理器)等那样的语音处理用的处理器、以及各种缓冲存储器。控制部110通过图像处理用的处理器，使用公知的图像识别的方法，识别由拍摄部115a拍摄到的图像中包含的人、面部、物体等。另外，控制部110通过语音处理器用的处理器，使用公知的语音识别的方法，识别由声音传感器115b检测到的语音。

存储部111是闪存、硬盘等非易失性存储器。存储部111存储包括OS(OperatingSystem，操作***)以及应用程序的、控制部110为了进行各种处理而使用的程序以及数据。另外，存储部111存储控制部110通过进行各种处理而生成或取得的数据。

蓄电池112是用于蓄积电能并向机器人100的各部供给电力的蓄电池。在机器人100连接到充电站的情况下，电池112由充电站充电。

驱动部113具备驱动机器人100的可动部114的马达、致动器等驱动构件和驱动这些驱动构件的驱动电路。可动部114是可动的部位，具体地是头部101、手部107以及腿部108。控制部110基于动作程序，向驱动电路发送控制信号。驱动电路按照从控制部110发送的控制信号，向驱动构件供给驱动用的脉冲信号。驱动构件按照从驱动电路供给的脉冲信号驱动可动部114。可动部114作为可动单元发挥功能。

机器人100能够通过驱动部113使可动部114驱动而进行各种动作。例如，机器人100能够通过活动腿部108而向前方或后方移动，能够改变本装置的方向。这里，在腿部108上设置有车轮，通过驱动部113使车轮旋转驱动，也可以改变机器人100的位置或方向。另外，机器人100通过使头部101或者手部107活动，能够仿效人的动作以及人的姿态。

传感器部115具备检测本装置的周围或内部的物理量的多个传感器。如图2所示，传感器部115包括拍摄周围的拍摄部115a和检测声音的声音传感器115b。另外，尽管未图示，但是传感器部115包括检测与本装置的接触的接触传感器、测定到周围物体的距离的距离传感器、检测本装置的活动的加速度传感器、检测周围温度的温度传感器等。

拍摄部115a是所谓的相机，设置于口部105。拍摄部115a具备对从被摄体射出的光进行聚光来取得被摄体的图像的图像取得部、以及对由图像取得部取得的图像进行处理的图像处理部。声音传感器115设置于头部101，检测从用户发出的语音、周围的环境音等。尽管未图示，但是机器人100以围绕头部101的方式具备作为声音传感器115b的多个麦克风，能够效率良好地检测在四方产生的声音。传感器部115通过这样的多个传感器，取得示出机器人100的周围状态或内部状态的信息，并且将所取得的信息供给到控制部110。

无线通信部116具备用于与外部设备用无线进行通信的接口。无线通信部116在控制部110的控制下，例如按照Wi-Fi(Wireless Fidelity)等无线LAN(Local Area Network，局域网)、Bluetooth(注册商标)、NFC(Near Field Communication，近场通信)等通信标准，与用于对机器人100充电的充电站、云服务器等外部设备进行无线通信。

显示部117例如是液晶显示器、有机EL(Electro Luminescence，电致发光)显示器、LED(Light Emitting Diode，发光二极管)等显示设备。显示部117设置于眼部104的眼球部分，在未图示的显示驱动电路的控制下，根据状况显示各种图像。

语音输出部118具备扬声器和语音输出接口，将由控制部110生成的语音数据转换为语音并输出到外部。扬声器设置于头部101。语音输出部118输出包括动物的鸣叫声及人类的语言在内的各种语音。例如，机器人100通过声音传感器115b收集沟通对象的语音，并且从语音输出部118输出与沟通对象的说话内容对应的语音。由此，可以与沟通对象进行简单的会话。

接着，参照图3对机器人100的功能性结构进行说明。如图3所示，机器人100功能上具备动作控制部130、面部识别部140、语音识别部150、更新部160和学习部170。在控制部110中，CPU将存储在ROM中的程序读出到RAM中，执行所读出的程序来进行控制，由此这些各部发挥功能。

另外，机器人100还具备动作数据存储部180和学习数据存储部190。这些构建在存储部111的适宜的存储区域中。学习数据存储部190作为学习数据存储单元发挥功能。面部识别部140、语音识别部150、更新部160、学习部170以及学习数据存储部190相当于机器人100中包含的识别装置120的功能。

动作控制部130控制驱动部113、显示部117和语音输出部118中的至少一个，使机器人100执行预先规定的各种动作。例如，动作控制部130通过控制驱动部113，使作为可动部114而设置的头部101、耳部103、手部107或腿部108活动。由此，动作控制部130变更机器人100的位置、方向、姿势等。另外，动作控制部130通过从语音输出部118输出语音来与用户进行对话。动作控制部130通过控制部110与驱动部113、显示部117、语音输出部118等协作来实现。动作控制部130作为动作控制单元发挥功能。

动作数据存储部180存储有针对各种条件中的每一个条件确定了机器人100的动作数据。机器人100根据通过包括拍摄部115a及声音传感器115b的传感器部115取得的机器人100的周围状况或者机器人100的内部状况来执行各种动作。动作控制部130参照动作数据存储部180，根据状况使机器人100执行各种动作。

动作数据存储部180存储有输出语音数据181作为动作数据之一，该输出语音数据181规定了从语音输出部118输出的语音的固定表达语句。输出语音数据181例如为“请告诉您的名字”、“您昨天做了什么？”等那样的确定了机器人100发出的典型的语音的文本的数据。

面部识别部140和语音识别部150分别取得表示个人(用户)的互不相同的数据，并且基于所取得的数据来识别个人。具体地，面部识别部140取得表示个人的第一数据，基于所取得的第一数据来识别个人。第一数据是表示个人特征的数据，具体地，是表示个人的面部的面部图像数据。在机器人100周围存在的任一人物的面部进入拍摄部115a的画角内的情况下，面部识别部140通过拍摄部115a的拍摄取得包括该面部的拍摄图像。由此，面部识别部140取得表示个人的面部的面部图像数据作为第一数据。

当取得面部图像数据时，面部识别部140按照后述的通过学习部170学习的识别方法来识别个人。具体地说，面部识别部140通过将由所取得的面部图像数据表示的面部图像与存储在学习数据存储部190中的面部识别数据193进行对照，来识别取得了面部图像数据的个人是谁。

学习数据存储部190对多个个人的每一个存储有面部识别数据193，该面部识别数据193示出通过学习部170学习的结果。针对在学习数据存储部190中存储有面部识别数据193的多个个人中的每一个，面部识别部140计算所取得的面部图像数据和面部识别数据193之间的适合度。适合度是示出面部图像数据和面部识别数据193适合(类似)到何种程度的指标。

具体地说，面部识别部140从所取得的面部图像数据中提取特征量，该特征量示出该面部图像数据所包含的由眼、鼻、口、耳等形成的面部的特征。然后，面部识别部140计算适合度，该适合度示出提取的特征量与存储在学习数据存储部190中的多个个人的面部识别数据193中的每一个的特征量相似到什么程度。

对多个个人中的每一个计算出适合度的结果，在计算出的这些多个适合度中的最高值高于预先确定的阈值的情况下，面部识别部140将取得了面部图像数据的个人确定为多个个人中的适合度最高的个人。另一方面，在所有对多个个人中的每一个计算出的适合度低于预先确定的阈值的情况下，面部识别部140判定为取得了面部图像数据的个人没有被存储在学习数据存储部190中。

以这种方式，面部识别部140从存储在学习数据存储部190中的多个个人的面部识别数据193中搜索与所取得的面部图像数据适合的数据。面部识别部140通过控制部110与拍摄部115a协作来实现。面部识别部140作为面部识别单元(多个识别单元)发挥功能。

语音识别部150取得表示个人且与第一数据不同种类的第二数据，基于所取得的第二数据来识别个人。第二数据是个人的表示与第一数据不同的特征的数据，具体地，是表示个人的语音的语音数据。在由机器人100的周围存在的任一人物发出语音的情况下，语音识别部150通过声音传感器115b检测该语音。由此，语音识别部150取得示出个人的语音波形的语音数据作为第二数据。

当取得语音数据时，语音识别部150按照后述的通过学习部170学习的识别方法来识别个人。具体地说，语音识别部150将由所取得的语音数据表示的语音与存储在学习数据存储部190中的语音识别数据194进行对照，由此识别取得了语音数据的个人是谁。

学习数据存储部190对多个个人的每一个存储有语音识别数据194，该语音识别数据194示出通过学习部170的学习的结果。针对在学习数据存储部190中存储有语音学习数据192的多个个人中的每一个，语音识别部150计算所取得的语音数据和语音识别数据194之间的适合度。适合度是示出语音数据和语音识别数据194适合(类似)到何种程度的指标。

具体地说，语音识别部150从所取得的语音数据中提取声压、音调等示出语音特征的特征量。而且，语音识别部150计算适合度，该适合度示出所提取的特征量与存储在学习数据存储部190中的多个个人的语音识别数据194中的每一个的特征量相似到什么程度。

针对多个个人中的每一个计算出适合度的结果，在计算出的这些适合度中的最高值高于预先确定的阈值的情况下，语音识别部150将取得了语音数据的个人确定为多个个人中的适合度最高的个人。另一方面，在所有针对多个个人中的每一个计算出的适合度低于预先确定的阈值的情况下，语音识别部150判定为取得了语音数据的个人没有被存储在学习数据存储部190中。

以这种方式，语音识别部150从存储在学习数据存储部190中的多个个人的语音识别数据194中搜索与所取得的语音数据适合的数据。语音识别部150通过控制部110与声音传感器115b协作来实现。语音识别部150作为语音识别单元(多个识别单元)发挥功能。

在通过面部识别部140或语音识别部150识别出个人的情况下，动作控制部130使机器人100执行与该识别出的个人相应的动作。与识别出的个人相应的动作是指用于以与识别出的个人相应的内容与该个人进行沟通的动作，例如，称呼该个人的名字，输出与该个人的预先登记的日程表相应的语音等。在通过面部识别部140和语音识别部150中的至少一个识别出个人的情况下，动作控制部130通过活动可动部114、在显示部117上显示图像或者从语音输出部118输出语音来使机器人100执行用于与识别出的个人进行沟通的动作。

这样，机器人100使用面部和语音这两个不同的特征来识别个人，因此，只要能够检测到面部和语音中的某一个，就能够识别个人。换句话说，即使在通过面部和语音中的某一个不能识别出个人的情况下，如果通过另一个能够识别个人，则机器人100也能够根据识别出的个人来进行动作。因此，即使在能够检测面部但不能检测语音、能够检测语音但不能检测面部等各种状况下，机器人100也能够识别个人，实现与识别出的个人进行沟通。

学习数据存储部190存储有作为分别表示个人的互不相同的特征的多个学习数据的面部学习数据191和语音学习数据192。面部学习数据191是第一学习数据，表示作为个人的第一特征的面部特征，是学习部170用于学习面部识别部140中的个人的识别方法的学习用数据。语音学习数据192是第二学习数据，表示作为个人的与第一特征不同的第二特征的语音特征，是学习部170用于学习语音识别部150中的个人的识别方法的学习用数据。此外，学习数据存储部190存储有作为分别与多个学习数据对应的多个识别数据的面部识别数据193和语音识别数据194。面部识别数据193是面部识别部140用于识别个人的第一识别数据，是示出通过学习部170基于面部学习数据191学习的个人的识别方法的学习完毕的数据。语音识别数据194是语音识别部150用于识别个人的第二识别数据，是示出通过学习部170基于语音学习数据192学习的个人的识别方法的学习完毕的数据。

图4示出存储在学习数据存储部190中的数据的例子。如图4所示，学习数据存储部190针对多个个人的每一个存储有面部学习数据191、语音学习数据192、面部识别数据193和语音识别数据194。多个个人相当于过去在机器人100的周围检测到面部及语音的多个用户。在学习数据存储部190中，面部学习数据191、语音学习数据192、面部识别数据193及语音识别数据194与用于区分多个个人的每一个的ID(标识符)和对应的个人的名字建立关联并进行存储。

更新部160基于通过面部识别部140取得的面部图像数据来更新存储在学习数据存储部190中的面部学习数据191。此外，更新部160基于通过语音识别部150取得的语音数据来更新存储在学习数据存储部190中的语音学习数据192。更新部160通过控制部110与存储部111协作来实现。更新部160作为更新单元发挥功能。

具体地说，更新部160分析通过面部识别部140取得的面部图像数据中的亮度分布、亮度梯度等。而且，更新部160从面部图像数据中提取该面部图像数据中包含的由眼、鼻、口、耳等形成的面部的特征量，作为将对面部识别有效的特征进行了定量化的参数。面部识别部140生成示出所提取的特征量的面部学习数据191，将所生成的面部学习数据191与个人ID建立关联，存储到学习数据存储部190中。

另外，更新部160分析通过语音识别部150取得的语音数据。而且，更新部160提取声压、音调等特征量作为将对语音识别有效的特征进行了定量化的参数。或者，更新部160也可以计算将语音信号转换到频率轴上而得到的特征参数即梅尔频率倒谱系数(MFCC：Mel-Frequency Cepstrum Coefficients)作为语音的特征量。语音识别部150生成示出所提取的特征量的语音学习数据192，将所生成的语音学习数据192与个人ID建立关联，存储到学习数据存储部190中。

另外，越是使用表示同一个人的面部并且互不相同的大量面部图像数据来更新，面部学习数据191作为学习用数据的精度越提高。因此，针对各个人使用在不同的定时所取得的多个面部图像数据来生成及更新面部学习数据191。同样地，越是使用表示同一个人的语音的大量语音数据来更新，语音学习数据192作为学习用数据的精度越提高。因此，针对各个人使用在不同的定时取得的多个语音数据来产生及更新语音学习数据192。

更详细地说，在通过多个识别部中的某一个识别部未识别个人、并且通过多个识别部中的其他识别部识别出个人的情况下，更新部160更新存储在学习数据存储部190中的多个学习数据之中的、与未识别出个人的某一个识别单元对应的学习数据。具体地，在通过面部识别部140和语音识别部150中的一个识别部未识别个人、并且通过面部识别部140和语音识别部150中的另一个识别部识别出个人的情况下，更新部160更新存储在学习数据存储部190中的面部学习数据191和语音学习数据192中的、与一个识别部对应的学习数据。

这里，识别出个人的情况是指以较高的精度识别取得了面部图像数据或语音数据的个人成功了的情况。具体地，相当于如下情况：在存储在学习数据存储部190中的多个个人的面部识别数据193或语音识别数据194中，存在与所取得的面部图像数据或语音数据的适合度高于预先确定的阈值的数据。与此相对，未识别出个人的情况是指以较高的精度识别取得了面部或语音的个人失败了的情况。具体地，相当于如下情况：在存储在学习数据存储部190中的多个个人的面部识别数据193或语音识别数据194中，不存在与所取得的面部图像数据或语音数据的适合度高于预先确定的阈值的数据。

此外，具体地，在通过面部识别部140和语音识别部150中的一个识别部未识别个人、并且通过另一个识别部识别出个人的情况是指，尽管面部识别部140的个人的识别成功了但是语音识别部150的个人的识别失败了的情况、以及尽管语音识别部150的个人的识别成功了但面部识别部140的个人的识别失败了的情况。前者的情况相当于例如由于增龄、感冒等原因而用户的声音与以前相比发生了变化的情况。后者的情况相当于例如由于增龄、发型变化、化妆、戴口罩等原因而用户的面部与以前相比发生了变化的情况。特别地，在用户是儿童的情况下，由于面部和语音都容易随着时间的流逝而变化，所以容易产生通过一个识别部不识别的状况。

在通过一个识别部未识别个人、并且通过另一个识别部识别出个人的情况下，更新部160更新学习数据存储部190中针对多个个人中的每一个存储的面部学习数据191和语音学习数据192中的、与未识别出个人的一个识别部对应的一方的学习数据。具体地说，为了使个人的面部或语音对应于与以前相比发生了变化的面部或语音，更新部160基于作为新取得的多个数据的面部图像数据和语音数据中的、与未识别出个人的一个识别部对应的一方的数据来提取特征量。该一方的数据是在通过一个识别部未识别出个人时用于识别该个人的数据。换句话说，一方的数据虽然通过一个识别部取得并用于识别个人，但是在存储在学习数据存储部190中的面部识别数据193或语音识别数据194中，该一方的数据是不存在适合度高于阈值的数据的数据。当从一方的数据提取特征量时，更新部160将提取出的特征量的数据追加到已经存储在学习数据存储部190中的学习数据。由此，存储在学习数据存储部190中的学习数据被更新为新的学习数据，该新的学习数据是新提取出的特征量被添加到以前提取出的特征量后的数据。

例如，在取得了ID“001”的个人的面部图像数据和语音数据的情况下，在通过面部识别部140未识别个人、并且通过语音识别部150识别出个人的情况下，如图5所示，更新部160将存储在学习数据存储部190中的ID“001”的个人的面部学习数据“数据A01”更新为新的面部学习数据“数据A11”。与此相对，针对ID“001”的个人的语音学习数据“数据A02”，由于即使是现状的数据也可以直接识别个人成功，更新部160不更新。

此时，更新部160更新学习数据存储部190中针对多个个人中的每一个存储的面部学习数据191和语音学习数据192中的、与通过另一个识别部识别的个人建立了关联的一方的学习数据。换句话说，为了确定成为存储在学习数据存储部190中的多个个人的学习数据中的更新对象的个人，更新部160使用识别个人成功了的另一识别部的识别结果。

具体地，在图5的例子中，在通过面部识别部140未识别个人、并且通过语音识别部150识别出个人的情况下，更新部160使用语音识别部150的识别结果，来确定存储在学习数据存储部190中的多个个人的面部学习数据191中的哪个人的面部学习数据191为更新对象。例如，在通过语音识别部150识别出ID“001”的个人的情况下，更新部160确定与该ID“001”的个人建立了关联的面部学习数据191为更新对象。这样，机器人100由于具备两个识别部，即使用一个识别部不能识别个人，通过使用另一个识别部的识别结果，也能够容易地确定更新对象的学习数据。

这样，在个人的面部或语音的特征与以前相比发生了变化的情况下，更新部160使用新的特征来更新存储在学习数据存储部190中的面部学习数据191或语音学习数据192。由此，面部学习数据191及语音学习数据192被更新为反映个人的面部及语音的最新特征，从而强化作为学习用数据的质量。

另一方面，在通过面部识别部140和语音识别部150两者识别出个人的情况下，即，在通过所有多个识别部识别出个人的情况下，该个人的面部及语音的特征没有大的变化，因此不太需要更新面部学习数据191及语音学习数据192。因此，在这种情况下，更新部160不更新存储在学习数据存储部190中的面部学习数据191和语音学习数据192。由此，能够简化机器人100中的处理，特别是能够避免因过度学习导致的识别精度的降低。

此外，通过面部识别部140和语音识别部150中的任一个均未识别出个人的情况，即在通过多个识别部中的任一个均未识别出个人的情况很可能是例如机器人100检测到初次面对的用户的面部及语音的情况那样的、该个人的面部识别数据193及语音识别数据194均未存储在学习数据存储部190中的情况。因此，在这种情况下，更新部160将面部学习数据191和语音学习数据192与未存储在学习数据存储部190中的新个人ID建立关联并存储。换句话说，更新部160将该个人的面部学习数据191和语音学习数据192新登记在学习数据存储部190中。

另外，在机器人100的周围存在多个用户的情况下，通过拍摄部115a拍摄到的面部图像和通过声音传感器115b检测到的语音可能不是同一用户的数据。即使在这种情况下，为了通过面部识别部140和语音识别部150识别同一用户，在通过拍摄部115a取得的面部图像数据中包含多个面部图像的情况下，面部识别部140分析多个面部图像中的每一个的嘴唇的活动。然后，在通过拍摄部115a取得的面部图像数据中包含多个面部图像的情况下，面部识别部140将该多个面部图像中的、在通过语音识别部150取得语音数据时嘴唇正在活动的面部图像判定为取得了该语音数据的用户的面部图像，基于该面部图像识别用户。

或者，面部识别部140可以从嘴唇的活动中读取用户正在说话的内容，在读取到的内容与通过语音识别部150取得的语音的内容一致的情况下，将该面部图像判定为取得了该语音数据的个人的面部图像。此时，在多个用户同时发出语音的情况下，语音识别部150可以通过对由声音传感器115b检测出的语音进行声源分离来分析多个用户中的每一个所发出的语音内容。

返回图3，学习部170基于存储在学习数据存储部190中的面部学习数据191来学习面部识别部140中的个人的识别方法。此外，学习部170基于存储在学习数据存储部190中的语音学习数据192来学习语音识别部150中的个人的识别方法。学习部170通过控制部110与存储部111协作来实现。学习部170作为学习单元发挥功能。

具体地说，学习部170使用存储在学习数据存储部190中的面部学习数据191作为教师数据来学习个人的面部特征。作为一例，学习部170能够使用神经网络方法。在这种情况下，神经网络由如下结构构成：输入层，输入有个人的面部图像的特征量；输出层，输出表示该面部图像中的面部是谁的面部的识别结果；以及一个以上中间层。学习部170将由面部学习数据191表示的在多个定时的个人的面部图像的特征量输入到输入层，并判定在输出层中输出的识别结果的正误。然后，学习部170使用误差逆传播法等调整中间层中的参数，以使在输出层中输出的识别结果的正确率尽可能高。当通过这样的处理得到中间层的参数最优化的网络(学习模型)时，学习部170将表示所取得的网络的数据作为用于识别该个人的面部识别数据193而与该个人的ID建立关联，并存储在学习数据存储部190中。

此外，学习部170使用存储在学习数据存储部190中的语音学习数据192作为教师数据来学习个人的语音特征。在语音学习的情况下，与面部学习的情况同样地，学习部170也能够使用神经网络方法。学习部170将通过学习得到的语音识别数据194与该个人的ID建立关联，存储在学习数据存储部190中。

例如，如图5所示，在通过更新部160将ID“001”的个人的面部学习数据“数据A01”更新为新的面部学习数据“数据A11”的情况下，学习部170将该个人的面部识别数据“数据A03”更新为基于新的面部学习数据“数据A11”而学习的新的面部识别数据“数据A13”。同样地，尽管省略图示，但是在通过更新部160将语音学习数据192更新了的情况下，学习部170更新对应的个人的语音识别数据194。

另外，为了学习面部及语音的特征，学习部170不限于神经网络，可使用任何学习算法。例如，学习部170能够使用支持向量机等那样的公知学习方法。所生成的面部识别数据193用于面部识别部140与面部图像数据进行比较来计算适合度。另外，所生成的语音识别数据194用于语音识别部150与语音数据进行比较来计算适合度。

更详细地说，当通过更新部160更新存储在学习数据存储部190中的多个个人的面部学习数据191及语音学习数据192中的某一个时，学习部170基于所更新的学习数据学习识别方法。如上所述，在通过一个识别部未识别个人、并且通过另一个识别部识别出个人的情况下，更新部160基于通过一个识别部取得的一方的数据来更新面部学习数据191或语音学习数据192。当这样通过更新部160更新学习数据时，学习部170学习对应的一个识别部中的个人的识别方法。换句话说，学习部170使用面部图像数据和语音数据中的、通过未识别出个人的一个识别部所取得的一方的数据来学习一个识别部中的个人的识别方法。由此，学习部170将存储在学习数据存储部190中的面部识别数据193或语音识别数据194强化为反映个人的最新的特征的数据。

在通过学习部170学习了识别方法后，面部识别部140及语音识别部150通过学习后的识别方法来识别个人。通过使用反映了个人的最新的特征的识别方法，面部识别部140及语音识别部150能够以高精度识别个人。

参照图6所示的流程图，说明在如上构成的机器人100中执行的处理的流程。

当通过接通机器人100的电源、并且对电池112进行充电而使机器人100成为能够正常地动作的状态时，开始图6所示的机器人控制处理。

当开始机器人控制处理时，控制部110判定是否检测到人物的面部(步骤S1)。具体地说，控制部110通过拍摄部115a拍摄机器人100的周围。然后，控制部110使用公知的面部检测的方法来判定在通过拍摄部115a拍摄到的图像内是否包含人物的面部。

在检测到面部的情况下(步骤S1：是)，控制部110作为面部识别部140发挥功能，对检测到的面部执行面部识别处理(步骤S2)。具体地说，控制部110参照存储在学习数据存储部190中的多个个人的面部识别数据193，对多个个人的面部识别数据193的每一个计算与检测到的面部图像的适合度。然后，控制部110从存储在学习数据存储部190中的多个个人的面部识别数据193中搜索与检测到的面部图像适合的数据。

另一方面，在未检测到面部的情况下(步骤S1：否)，控制部110跳过步骤S2中的面部识别处理。

第二，控制部110判定是否检测到语音(步骤S3)。具体地说，控制部110通过声音传感器115b检测在机器人100的周围产生的语音。然后，控制部110使用公知的语音检测方法来判定通过声音传感器115b检测到的声音中是否包括人物的语音。

在检测到语音的情况下(步骤S3：是)，控制部110作为语音识别部150发挥功能，对检测到的语音执行语音识别处理(步骤S4)。具体地说，控制部110参照在学习数据存储部190中针对多个个人的每一个存储的语音识别数据194，针对多个个人的语音识别数据194的每一个，计算与检测到的语音的适合度。然后，控制部110从存储在学习数据存储部190中的多个个人的语音识别数据194中，搜索与检测到的语音适合的数据。

另一方面，在未检测到语音的情况下(步骤S3：否)，控制部110跳过步骤S4中的语音识别处理。

接着，控制部110判定在步骤S1中的面部检测以及步骤S3中的语音检测中，是否将同一用户的面部和语音都检测到(步骤S5)。具体地说，在机器人100的周围仅存在一个用户的情况下，在步骤S1中检测到面部并且在步骤S3中检测到语音的情况下，控制部110判定同一用户的面部和语音均被检测到。与此相对，在机器人100周围存在多个用户的情况下，控制部110通过判定由拍摄部115a拍摄的面部图像中的嘴唇正在活动的定时与用声音传感器115b检测到语音的定时在规定的误差范围内是否一致，来判定是否同一用户的面部和语音均被检测到。

在判定为未检测到同一用户的面部和语音中的至少一个的情况下(步骤S5：否)，控制部110跳过步骤S6以后的处理，将处理返回到步骤S1。另一方面，在判定为同一用户的面部和语音均被检测到的情况下(步骤S5：是)，控制部110判定步骤S2中的面部识别处理的结果以及步骤S4中的语音识别处理的结果(步骤S6)。具体地说，控制部110判定在学习数据存储部190中存储有面部识别数据193及语音识别数据194的多个个人中是否存在如下的个人：在面部识别中的适合度高于预先确定的阈值并且在语音识别中的适合度高于预先确定的阈值。

在判定的结果为面部识别中的适合度和语音识别中的适合度均低的情况下(步骤S6：面部-低，语音-低)，控制部110执行初始登记的处理(步骤S7)。这种情况是面部识别和语音识别中适合度均高于阈值的用户未在学习数据存储部190中存储的情况，相当于例如机器人100检测到初次面对的用户的面部及语音的情况。参照图7所示的流程图，对步骤S7中的初始登记的处理的详细情况进行说明。

当开始图7所示的初始登记处理时，控制部110请求用户的名字(步骤S701)。例如，控制部110将在动作数据存储部180中作为输出语音数据181而预先存储的“请告诉我名字”等内容的语音经由语音输出部118输出。由此，控制部110请求用户说出自己的名字。

当请求用户的名字时，控制部110通过声音传感器115b取得响应于步骤S701中的请求而从用户发出的语音(步骤S702)。当取得语音时，控制部110识别所取得的语音，并确定用户的名字(步骤S703)。例如，在从用户发出“我叫XXX”的语音的情况下，控制部110对所取得的语音执行语音识别，并将所取得的语音转换为文本。然后，控制部110从转换成文本的语音中剪切出对应于名字的部分“XXX”。由此，控制部110确定用户的名字。

当确定用户的名字时，控制部110作为更新部160发挥功能，将确定的名字与该用户的面部学习数据191及语音学习数据192建立关联，保存在学习数据存储部190中(步骤S704)。具体地说，控制部110基于在步骤S1中检测到的面部图像数据来生成表示用户的面部特征的面部学习数据191，并基于在步骤S3中检测到的语音数据来生成表示用户的语音的特征的语音学习数据192。然后，控制部110赋予能够与其他用户区分的ID，并且将生成的面部学习数据191及语音学习数据192保存在学习数据存储部190中。由此，新用户的学习数据被新登记在学习数据存储部190中。

当保存面部学习数据191及语音学习数据192时，控制部110作为学习部170发挥功能，基于所保存的面部学习数据191及语音学习数据192学习该用户的面部及语音(步骤S705)。具体地说，控制部110使用新保存在学习数据存储器190中的面部学习数据191及语音学习数据192作为教师数据来学习面部及语音的特征。然后，控制部110将示出学习的结果的面部识别数据193及语音识别数据194与对应的用户ID建立关联，存储在学习数据存储部190中。以上，图7所示的初始登记处理结束。

另外，也可以在将确定的名字保存在学习数据存储部190中之前，控制部110向用户确认所确定的名字是否正确。例如，当在步骤S703中确定用户的名字时，控制部110对所确定的名字组合预先准备的名字确认用的固定表达语句，从语音输出部118输出“○○先生/女士吗？”等语音。然后，在能够通过声音传感器115b取得来自用户的示出同意的语音的情况下，可以将确定的名字与用户的面部图像数据及语音数据建立关联并保存在学习数据存储部190中。

返回图6，在步骤S6中，在面部识别中的适合度高并且语音识别中的适合度低的情况下(步骤S6：面部-高，语音-低)，控制部110学习语音(步骤S8)。这种情况是在面部识别中的适合度高于阈值的用户被存储在学习数据存储部190中并且语音识别中的适合度高于阈值的用户未被存储在学习数据存储部190中，具体地，相当于用户的声音与以前相比发生了变化的情况。参照图8所示的流程图，说明步骤S8中的语音学习处理的详细情况。

当开始图8所示的语音学习处理时，控制部110提取用户的语音的特征量(步骤S801)。具体地说，控制部110通过分析步骤S3中检测到的语音来提取声压、音调等语音的特征量。

当提取语音的特征值时，控制部110作为更新部160发挥功能，更新存储在学习数据存储部190中的语音学习数据192(步骤S802)。具体地说，控制部110通过所提取的特征量来更新与在步骤S2中通过面部识别所识别出的个人的ID建立关联的语音学习数据192。由此，控制部110将存储在学习数据存储部190中的语音学习数据192强化为反映了用户语音的最新特征的数据。

当更新语音学习数据192时，控制部110作为学习部170发挥功能，基于更新后的语音学习数据192学习用户的语音(步骤S803)。具体地说，控制部110使用反映了用户语音的最新特征的语音学习数据192作为教师数据来重新学习语音的特征，将示出重新学习的结果的语音识别数据194与对应的用户ID建立关联并存储在学习数据存储部190中。以上，图8所示的语音学习处理结束。

返回图6，在步骤S6中，在面部识别中的适合度低并且语音识别中的适合度高的情况下(步骤S6：面部-低，语音-高)，控制部110学习个人的面部(步骤S9)。这种情况是在面部识别中适合度高于阈值的用户未被存储在学习数据存储部190中、并且在语音识别中适合度高于阈值的用户被存储在学习数据存储部190中的情况，具体地，相当于用户的面部与以前相比发生了变化的情况。参照图9所示的流程图说明步骤S9中的面部学习处理的详细情况。

当开始图9所示的面部学习处理时，控制部110提取用户的面部的特征量(步骤S901)。具体地说，控制部110通过分析在步骤S1中检测到的面部图像的亮度分布，提取由眼、鼻、口、耳等形成的面部的特征量。

当提取面部的特征量时，控制部110作为更新部160发挥功能，更新存储在学习数据存储部190中的面部学习数据191(步骤S902)。具体地说，控制部110通过所提取的特征量来更新与在步骤S4中通过语音识别出的个人的ID建立了关联的面部学习数据191。由此，控制部110将存储在学习数据存储部190中的面部学习数据191强化为反映了用户面部的最新特征的数据。

当更新面部学习数据191时，控制部110作为学习部170发挥功能，基于更新后的面部学习数据191来学习用户的面部(步骤S903)。具体地说，控制部110使用反映了用户面部的最新特征的面部学习数据191作为教师数据来重新学习面部的特征，将示出重新学习的结果的面部识别数据193与对应的用户的ID建立关联并存储在学习数据存储部190中。以上，图9所示的面部学习处理结束。

返回图6，在步骤S6中，在面部识别中的适合度和语音识别中的适合度均高的情况下(步骤S6：面部-高，语音-高)，控制部110不执行初始登记、语音学习处理以及面部学习处理中的任一个处理。这种情况相当于在学习数据存储部190中存储有面部识别和语音识别中的适合度均高于阈值的用户的情况。

在步骤S6中，在面部识别中的适合度和语音识别中的适合度中的至少一个高的情况下，即，在通过面部识别和语音识别中的至少一个识别出用户的情况下，控制部110作为动作控制部130发挥功能，生成与识别出的用户的对话语句并输出语音(步骤S10)。具体地说，控制部110组合存储在输出语音数据181中的文本来生成用于与识别出的用户进行沟通的对话语句，合成与所生成的对话语句对应的语音，并且从语音输出部118输出。由此，控制部110实现与被识别的用户进行沟通。

然后，控制部110将处理返回到步骤S1，重复步骤S1至步骤S10的处理。这样，控制部110在与机器人100的周围的用户沟通的同时取得用户的面部图像数据及语音数据，更新存储在学习数据存储部190中的面部学习数据191及语音学习数据192。

如以上说明那样，实施方式1的机器人100及识别装置120具备面部识别部140和语音识别部150，在一个识别部的个人的识别失败、并且另一个识别部的个人的识别成功了的情况下，更新与一个识别部对应的学习数据，基于所更新的学习数据来学习一个识别部中的个人的识别方法。这样，由于在通过另一个识别部识别个人的同时、通过一个识别部未识别出个人的情况下学习并修正该个人特征，因此，即使在个人特征由于成长、增龄或其他原因而随时间流逝共同变化了的情况下，机器人100及识别装置120也能够适当地识别个人。

此外，由于实施方式1的机器人100具备种类不同的两个识别部，即使是一个识别部的用户的识别失败了的状况，在另一个识别部的用户的识别成功了的情况下，机器人100也能够在与用户进行沟通的同时，收集用于学习一个识别部的识别方法的学习数据。因此，机器人100能够在自然的举止中，不使用户意识到地收集用于使识别精度提高的大量学习数据。

此外，实施方式1的机器人100及识别装置120使用通过一个识别部取得的面部图像数据或语音数据来学习个人的识别失败了的一个识别部中的个人的识别方法。由此，能够确实地提高两个识别部中的识别个人失败了的识别部中的识别精度。特别是，实施方式1的机器人100及识别装置120使用一个识别部的个人的识别失败了时用于识别该个人的数据，来学习识别个人失败了的一个识别部中的个人的识别方法。因此，能够有效利用从个人取得的数据，并且能够提高识别精度。

另外，在实施方式1中，在学习数据存储部190中对多个个人的每一个存储有面部学习数据191和语音学习数据192，在一个识别单元的个人的识别失败、并且另一个识别单元的个人的识别成功了的情况下，更新部160更新在学习数据存储部190中对多个个人的每一个存储的面部学习数据191和语音学习数据192中的、通过另一个识别单元识别出的个人建立了关联的一方的学习数据。由此，即使在一个识别单元的个人的识别失败了的情况下，由于另一个识别单元的个人的识别成功，因此能够切实地确定多个个人中的哪个人的学习数据191为更新对象。

(实施方式2)

接着，对本发明的实施方式2进行说明。

在上述实施方式1中，更新部160基于用于面部识别部140的面部识别的面部图像数据，更新了存储在学习数据存储部190中的面部学习数据191。另外，更新部160基于用于语音识别部150的语音识别的语音数据，更新了存储在学习数据存储部190中的语音学习数据192。然而，仅是用于面部识别的面部图像数据或用于语音识别的语音数据有时不足以作为用于更新学习数据的数据。因此，在实施方式2中，为了取得适于更新学习数据的数据，动作控制部130使机器人100执行用于容易取得通过更新部160更新的数据的动作。

具体地说，在面部识别部140和语音识别部150中的一个识别部的个人的识别失败、并且另一个识别部的个人的识别成功了的情况下，动作控制部130使机器人100执行用于与通过另一个识别部识别出的个人进行对话的动作。例如，动作控制部130可以从语音输出部118输出“你昨天做了什么？”、“今天的计划是什么？”等那样的用于与被识别的个人进行对话的语音。或者，动作控制部130可以通过活动可动部114或者在显示部117上显示图像来引起个人的注意，来与个人进行对话。

在一个识别部的个人的识别失败、并且另一个识别部的个人的识别成功了的情况下，更新部160基于个人对由机器人100执行的动作的响应来更新存储在学习数据存储部190中的面部学习数据191或语音学习数据192。具体地说，对于由机器人100执行的动作，被识别的个人以例如发出用于与机器人100进行对话的语音、将面部朝向机器人100的方向等的方式进行响应。在这样的与个人的对话中，更新部160经由拍摄部115a或声音传感器115b取得个人的面部图像数据或语音数据。而且，更新部160从所取得的面部图像数据或语音数据提取特征，通过所提取的特征更新存储在学习数据存储器190中的面部学习数据191或语音学习数据192。

图10示出由实施方式2的机器人100执行的语音学习处理的流程。实施方式2的机器人100在图6所示的处理的步骤S8中代替实施方式1中图8所示的语音学习处理，执行图10所示的语音学习处理。

当开始图10所示的语音学习处理时，控制部110作为动作控制部130发挥功能，生成针对用户的对话语句，输出对应的语音(步骤S811)。具体地说，控制部110从存储在动作数据存储部180中的输出语音数据181中，取得闲谈等任意内容的文本。然后，控制部110通过语音合成将所取得的文本转换为语音，从语音输出部118输出所合成的语音。

当输出语音时，控制部110通过声音传感器115b取得用户响应于所输出的语音而发出的语音(步骤S812)。然后，控制部110识别所取得的语音，生成对所识别的语音的内容进行响应的响应语句，输出对应的语音(步骤S813)。具体地说，控制部110从输出语音数据181取得作为对从用户取得的语音的响应而不是不自然的内容的文本。然后，控制部110通过语音合成将所取得的文本转换为语音，从语音输出部118输出所合成的语音。这样，控制部110与识别出面部的用户进行对话。控制部110适宜地重复步骤S812及步骤S813的处理。由此，控制部110在与用户对话的同时收集适于用于学习语音的用户的语音。

当在重复步骤S812及步骤S813的处理期间取得用户语音时，控制部110作为更新部160发挥功能，提取用户语音的特征值(步骤S814)，更新存储在学习数据存储部190中的语音学习数据192(步骤S815)。当更新语音学习数据192时，控制部110作为学习部170发挥功能，基于更新后的语音学习数据192来学习用户的语音(步骤S816)。步骤S814至步骤S816的处理与图8所示的步骤S801至步骤S803的处理同样，因此省略说明。以上，图10所示的语音学习处理结束。

此外，对于步骤S9中的面部学习处理也能够与图10所示的语音学习处理同样地说明。即，在步骤S9中，控制部110代替实施方式1中图9所示的面部学习处理，在与用户对话期间取得面部图像数据，基于所取得的面部图像数据来更新面部学习数据191。

这样，在一个识别部的个人的识别失败、并且另一个识别部的个人的识别成功了的情况下，实施方式2的机器人100在更新部160更新学习数据之前，使机器人100执行用于与通过另一个识别部识别出的个人进行对话的动作。然后，机器人100基于在与识别出的个人进行对话期间取得的面部图像数据或语音数据，更新存储在学习数据存储部190中的学习数据。由此，与仅使用用于面部识别的面部图像数据或用于语音识别的语音数据的情况相比，容易取得更适合作为学习数据的显著地表示个人特征的数据。因此，机器人100能够在用户不具有不适感的机器人100的自然行为期间，收集具有更好品质的学习数据。

(实施方式3)

接着，对本发明的实施方式3进行说明。

在上述实施方式1和实施方式2中，学习部170针对一个个人分别逐个学习了面部识别部140中的识别方法和语音识别部150中的识别方法。然而，即使是相同用户，面部或语音的特征也可能根据状况而变化。因此，在实施方式3中，当多个规定条件的每一个都成立时，学习部170针对每个条件学习面部识别部140和语音识别部150中的每一个中的个人的识别方法。

实施方式3的机器人100代替图4所示的学习数据存储部190，具备例如图11所示的学习数据存储部190a。如图11所示，学习数据存储部190a对于多个个人中的每一个划分为“春”和“春以外”的两个时期并存储有面部学习数据191、语音学习数据192、面部识别数据193和语音识别数据194。这里，“春”是指相当于例如3月至6月的期间，“春以外”是指相当于除此之外的期间。然而，时期的定义能够适宜地变更。

这样，按“春”和“春以外”划分学习数据及识别数据是因为，在“春”的时期，由于花粉症等原因，用户佩戴口罩的情况较多，在佩戴有口罩的情况和未佩戴口罩的情况下，即使是相同用户，面部图像的特征也不同。另外，对于语音也同样地，由于花粉症等原因，即使是相同用户也存在特征不同的情况。

在面部识别部140和语音识别部150中的一个识别部的个人的识别失败、并且另一个识别部的个人的识别成功了的情况下，更新部160基于通过一个识别部取得的面部图像数据或语音数据来更新存储在学习数据存储部190a中的面部学习数据191或语音学习数据192。此时，更新部160根据面部图像数据或语音数据被取得的时期是“春”还是“春以外”来更新互不相同的学习数据。

具体地，说明更新名字为“AAA”的个人的面部学习数据191的情况。另外，可以同样地说明对语音学习数据192更新的情况。在取得了面部图像数据的时期是“春”的情况下，更新部160更新图11中的“数据A01”，在取得了面部图像数据的时期是“春以外”的情况下，更新部160更新图11中的“数据A11”。学习部170基于存储在学习数据存储部190a中的两种面部学习数据191中的每一种，学习两种互不相同的识别方法。学习的两种识别方法作为各自不同的两种面部识别数据193(例如图11中的“数据A03”和“数据A13”)存储在学习数据存储部190A中。

当通过拍摄部115a取得表示该个人的新的面部图像数据时，面部识别部140基于通过学习部170学习的两种识别方法中的、与取得了新的面部图像数据的时期对应的一种识别方法来识别该个人。例如，在“春”取得了新的面部图像数据的情况下，面部识别部140基于用于“春”的识别方法来识别个人，在“春以外”取得了新的面部图像数据的情况下，面部识别部140基于用于“春以外”的识别方法来识别个人。

这样，实施方式3的机器人100及识别装置120根据时期学习多种面部识别部140及语音识别部150中的个人的识别方法。然后，当取得表示该个人的新的面部图像数据或语音数据时，基于多种识别方法中的与取得了新的面部图像数据或语音数据的时期对应的一种识别方法来识别该个人。由此，即使当个人特征根据状况而变化，也能够抑制识别失败，从而能够进一步提高识别的精度。

另外，存储在学习数据存储部190a中的学习数据的时期的划分方法不限于“春”或“春以外”，也可以划分为“白天”或“夜晚”。或者，也可以根据例如周围环境、用户的状况等这样的时期以外的各种条件来划分学习数据。此外，学习部170可以针对每个规定条件来学习仅面部识别部140和语音识别部150中的任一个识别部中的个人的识别方法，另一方面，不针对每个条件划分另一识别部中的个人的识别方法，即，用与实施方式1、实施方式2同样的方法来学习识别方法。换句话说，当多个规定条件中的每一个成立时，学习部170针对每个规定条件，学习多个识别部中的至少一个识别部中的个人的识别方法。然后，当至少一个识别部取得表示个人的新数据时，基于与通过学习部170学习的多个规定条件对应的多个识别方法中的、与取得了新的数据时的条件对应的一个识别方法来识别个人。

(变形例)

以上说明了本发明的实施方式，但上述实施方式是一例，本发明的应用范围不限于此。即，本发明的实施方式能够进行各种应用，所有实施方式都包含在本发明的范围内。

例如，在上述实施方式中，家庭用的机器人100具备识别装置120。然而，在本发明中，识别装置120也可以设置于机器人100以外的设备，使用于机器人100以外的用途。例如，识别装置120可以设置在建筑物或房间的入口处，使用于识别(认证)进入建筑物或房间的用户。或者，识别装置120也可以搭载于个人计算机、智能手机等信息设备，使用于对使用信息设备的用户进行识别(认证)的用途。

在上述实施方式中，机器人100具备学习数据存储部190以及学习部170作为识别装置120的一部分。然而，在本发明中，学习数据存储部190以及学习部170也可以不设置于机器人100。换句话说，具备面部识别部140以及语音识别部150的装置和具备学习数据存储部190以及学习部170的装置也可以不同。

例如，如图12所示，学习数据存储部190及学习部170可以不设置在机器人100a中，而是设置在机器人100a外部的学习服务器200中。学习服务器200是例如云服务器等那样的、通过广域网与机器人100a可通信地连接的服务器。在这种情况下，机器人100a中的面部识别部140、语音识别部150及更新部160与学习服务器200中的学习部170及学习数据存储部190协作，从而作为识别装置120发挥功能。

在图12所示的机器人100a中，更新部160通过经由无线通信部116与学习服务器200通信，来更新存储在学习数据存储部190中的面部学习数据191或语音学习数据192。在学习服务器200中，当存储在学习数据存储部190中的面部学习数据191或语音学习数据192(参照图3)被更新时，学习部170基于更新后的面部学习数据191或语音学习数据192来学习面部识别部140及语音识别部150中的识别方法。在机器人100a中，面部识别部140从学习服务器200接收示出通过学习部170学习的结果的面部识别数据193，基于接收到的面部识别数据193识别个人。此外，语音识别部150从学习服务器200接收示出通过学习部170学习的结果的语音识别数据194，基于接收到的语音识别数据194识别个人。这样，通过在机器人100a的外部执行负荷相对较大的学习部170的学习处理，能够减轻在机器人100a中的计算负荷，能够简化机器人100a的结构。

此外，如图12所示，也可以由机器人100a以外的其他机器人100b利用通过学习部170学习的结果。换句话说，具有与机器人100a同样的功能的另一个机器人100b可以从学习服务器200接收由学习服务器200学习的面部识别数据193及语音识别数据194，基于接收到的面部识别数据193及语音识别数据194来识别个人。这样，通过即使在与收集了要学习的面部图像数据及语音数据的装置(机器人100a)不同的装置(机器人100b)中也能够使用学习结果，提高便利性。

在上述实施方式中，面部识别部140及语音识别部150分别基于面部图像数据及语音数据，从学习数据存储部190中存储了学习数据的多个个人之中识别个人。然而，学习数据存储部190也可以仅存储一个个人的学习数据。在此情况下，面部识别部140及语音识别部150通过识别检测到面部或语音的个人是否对应于学习数据存储部190中存储了学习数据的一个个人来认证个人。换句话说，面部识别部140及语音识别部150的个人的识别可以包括所谓认证个人。

在上述实施方式中，面部识别部140通过面部图像识别个人，且语音识别部150通过语音识别出个人。然而，面部识别部140及语音识别部150的识别的组合不限于此。只要数据分别表示互不相同的特征，面部识别部140及语音识别部150就可以基于表示面部图像或语音以外的特征的数据来识别个人。

另外，机器人100及识别装置120可以具备除了面部识别部140及语音识别部150以外的第三识别部。作为一例，第三识别部可以是通过视网膜识别个人的视网膜识别部。即使在机器人100及识别装置120具备三个以上的识别部(识别单元)的情况下，也能够应用与上述实施方式同样的结构。即，机器人100及识别装置120可以具备三个以上识别部，所述三个以上识别部分别取得表示个人的互不相同的数据，基于所取得的数据来识别所述个人。在这种情况下，在三个以上识别部中的任一个以上识别部的个人的识别失败、并且三个以上识别部中的其他一个以上识别部的个人的识别成功了的情况下，学习部170学习个人的识别失败了的任一个以上识别部中的个人的识别方法。

具体地说，在三个以上识别部中的两个以上识别部的个人的识别失败、并且其他的一个识别部的个人的识别成功了的情况下，学习部170可以学习个人的识别失败了的两个以上识别部中的每一个中的个人的识别方法。在这种情况下，作为个人的识别失败了的两个以上识别部与上述实施方式中的一个识别部对应，且个人的识别成功了的一个识别部与上述实施方式中的另一个识别部对应，可以与上述事实方式同样地说明。

或者，在三个以上识别部中的一个个人的识别失败、并且其他两个以上识别部个人的识别成功了的情况下，学习部170可以学习个人的识别失败了的一个识别部中的个人的识别方法。在这种情况下，作为个人的识别失败了的一个识别部与上述实施方式中的一个识别部对应，且个人的识别成功了的两个以上识别部与上述实施方式中的另一个识别部对应，可以与上述事实方式同样地说明。

另外，当更新存储在学习数据存储部190中的面部学习数据191或语音学习数据192时，更新部160可以从通过学习部170学习的教师数据中排除比当前时间点回溯规定时间所取得的学习数据。通过从教师数据中排除这样取得的时期早的数据，能够提高对用户的当前状态的识别性能。

在上述实施方式中，机器人100是模仿狗的机器人。然而，本发明的机器人100可以具有任何形状。例如，本发明的机器人100可以在外观上模仿其他动物，也可以模仿人类。另外，显示部117也可以设置在眼部104以外的场所，拍摄部115a也可以设置在口部105以外的场所(例如鼻部等)。关于其他部位，也不限于上述实施方式中说明的方式。

在上述实施方式中，在控制部110中，通过CPU执行存储于ROM的程序，来作为图3所示的各部发挥功能。然而，在本发明中，控制部110也可以代替CPU而具备例如ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者各种控制电路等专用的硬件，专用的硬件作为图3所示的各部发挥功能。在这种情况下，各部的功能可以分别由单独的硬件实现，也可以将各部的功能汇总由单一的硬件实现。另外，也可以通过专用的硬件来实现各部的功能中的一部分，通过软件或固件来实现另一部分。另外，执行这些包括专用硬件及CPU的各功能的主体可以统称为处理器。

此外，能够作为预先具备用于实现本发明的功能的结构的识别装置或机器人来提供，通过程序的应用，还能够使已有的信息处理装置等作为本发明的识别装置或机器人发挥功能。即，通过将用于使上述实施方式中例示的识别装置120或机器人100、100a的各功能结构实现的程序以控制已有的信息处理装置等的CPU等能够执行的方式应用，能够作为本发明的识别装置或机器人发挥功能。

另外，这样的程序的应用方法是任意的。能够将程序存储在例如软盘、CD(CompactDisc)-ROM、DVD(Digital Versatile Disc)-ROM、存储卡等计算机可读取的存储介质中来应用。此外，也能够将程序重叠在载波上，经由因特网等通信介质来应用。例如，可以在通信网络上的公告板(BBS：Bulletin Board System)上公告程序来进行分发。而且，也可以构成为，通过启动该程序，在OS(Operating System)的控制下，与其他应用程序同样地执行，能够执行上述的处理。

以上，对本发明的优选实施方式进行了说明，但本发明并不限定于的确定的实施方式，本发明包含权利要求书所记载的发明及其等同的范围。

Claims

1.一种识别装置，其特征在于，具备：

多个识别单元，在表示个人的种类互不相同的多个数据被取得的情况下，分别对应于某个所述种类的所述多个识别单元，基于与该种类对应的数据来识别所述个人；

判定单元，在所述多个识别单元中的至少一个识别单元对所述个人的识别成功了的情况下，判定为所述个人的识别成功了；以及

学习单元，在通过所述判定单元判定为所述个人的识别成功了时而所述多个识别单元中的至少一个识别单元对所述个人的识别失败了的情况下，学习所述个人的识别失败了的所述至少一个识别单元中的所述个人的识别方法。

2.如权利要求1所述的识别装置，其特征在于，

所述学习单元使用所述多个数据中的与所述个人的识别失败了的所述至少一个识别单元对应的种类的数据，学习所述个人的识别失败了的所述至少一个识别单元中的所述个人的识别方法。

3.如权利要求2所述的识别装置，其特征在于，

由所述个人的识别失败了的所述至少一个识别单元在所述个人的识别方法的学习中使用的数据，是由所述至少一个识别单元在所述个人的识别失败时在所述个人的识别中使用的数据。

4.如权利要求1所述的识别装置，其特征在于，还具备：

学习数据存储单元，将分别表示所述个人的互不相同的特征的多个学习数据建立关联并进行存储；以及

更新单元，在通过所述判定单元判定为所述个人的识别成功了时而所述至少一个识别单元对所述个人的识别失败了的情况下，更新存储在所述学习数据存储单元中的所述多个学习数据中的、与所述个人的识别失败了的所述至少一个识别单元对应的学习数据，

所述学习单元基于由所述更新单元更新了的所述学习数据，学习所述个人的识别失败了的所述至少一个识别单元中的所述个人的识别方法。

5.如权利要求4所述的识别装置，其特征在于，

在通过所述判定单元判定为所述个人的识别成功了时而通过所述至少一个识别单元识别所述个人失败了的情况下，所述更新单元基于所述多个数据中的、与所述个人的识别失败了的所述至少一个识别单元对应的种类的数据，来更新存储在所述学习数据存储单元中的、与所述个人的识别失败了的所述至少一个识别单元对应的学习数据。

6.如权利要求1所述的识别装置，其特征在于，

所述多个识别单元在图像数据和语音数据作为所述多个数据被取得的情况下，基于分别对应的数据来识别所述个人。

7.如权利要求1所述的识别装置，其特征在于，

具备面部识别单元和语音识别单元作为所述多个识别单元，所述面部识别单元基于表示个人的面部的面部图像数据来识别所述个人，所述语音识别单元基于表示所述个人的语音的语音数据来识别所述个人。

8.如权利要求7所述的识别装置，其特征在于，

在所述面部图像数据包含多个面部图像的情况下，所述面部识别单元将所述多个面部图像中的、在通过所述语音识别单元取得所述语音数据的期间嘴唇正在活动的面部图像判定为取得所述语音数据的所述个人的面部图像。

9.如权利要求1至8中任一项所述的识别装置，其特征在于，

当多个规定条件中的每一个成立时，所述学习单元针对每个所述规定条件学习所述多个识别单元中的至少一个识别单元中的所述个人的识别方法，

当取得表示所述个人的新数据时，所述至少一个识别单元基于通过所述学习单元学习的与所述多个规定条件对应的多个识别方法中的、与取得所述新数据时的条件对应的一个识别方法来识别所述个人。

10.一种机器人，其特征在于，具备：

多个识别单元，在表示个人的种类互不相同的多个数据被取得的情况下，分别对应于某个所述种类的所述多个识别单元，基于与该种类对应的数据来来识别所述个人；

动作控制单元，通过在所述多个识别单元中的至少一个识别单元对所述个人的识别成功了的情况下判定为所述个人的识别成功了，使本装置执行与所述个人对应的动作；以及

更新单元，在通过所述动作控制单元判定为所述个人的识别成功了时而所述多个识别单元中的至少一个识别单元识别所述个人失败了的情况下，更新学习数据，该学习数据用于学习所述个人的识别失败了的所述至少一个识别单元中的所述个人的识别方法。

11.如权利要求10所述的机器人，其特征在于，

所述动作控制单元在判定为所述个人的识别成功了时而通过所述至少一个识别单元对所述个人的识别失败了的情况下，使所述本装置执行用于与所述识别成功了的个人进行对话的动作，

所述更新单元基于针对由所述本装置执行的所述动作的所述个人的响应来更新所述学习数据。

12.一种识别方法，其特征在于，包括：

多个识别处理，在表示个人的种类互不相同的多个数据被取得的情况下，分别对应于某个所述种类的所述多个识别处理，基于与该种类对应的数据来识别所述个人，

判定处理，在通过所述多个识别处理中的至少一个识别处理对所述个人的识别成功了的情况下，判定为所述个人的识别成功了；以及

学习处理，在通过所述判定处理判定为所述个人的识别成功了时而通过所述多个识别处理中的至少一个识别处理对所述个人的识别失败了的情况下，学习所述个人的识别失败了的所述至少一个识别处理中的所述个人的识别方法。

13.一种非暂时性存储介质，其特征在于，

存储有用于使计算机作为以下单元发挥功能的程序：