CN108115678B

CN108115678B - 机器人及其动作控制方法和装置

Info

Publication number: CN108115678B
Application number: CN201611069128.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shenzhen Kuang Chi Hezhong Technology Ltd
Current assignee: Shenzhen Kuang Chi Hezhong Technology Ltd
Priority date: 2016-11-28
Filing date: 2016-11-28
Publication date: 2020-10-23
Anticipated expiration: 2036-11-28
Also published as: CN108115678A; WO2018095041A1

Abstract

本发明公开了一种机器人及其动作控制方法和装置。该方法包括：接收控制指令，其中，控制指令用于指示机器人执行预定动作；将控制指令输入预设模型，得到输出结果，其中，输出结果包括与机器人执行的预定动作相对应的行为情感模式，预设模型至少基于用户反馈的情感评价参数训练得到；根据输出结果控制机器人按照行为情感模式执行预定动作。通过本发明，解决了机器人行为表现单一无法满足用户需求的问题。

Description

机器人及其动作控制方法和装置

技术领域

本发明涉及机器人领域，具体而言，涉及一种机器人及其动作控制方法和装置。

背景技术

机器人发展至今，功能越来越完善，对机器人的要求也越来越高，现有的强化学***衡、控制机器人行走的方法，但是在决策模式上尚未深度发展，另外强化学习(Reinforcement Learning，简称为RL)技术本身也正在发展，远达不到成熟的程度。原理上，强化学习灵感来自行为心理学，最早体现在巴甫洛夫的狗，斯金纳箱等实验，生物学上也有神经可塑性等理论支持。但是强化学习方法并未触及情感的训练模型，机器人上也并未有类似的实现方式，停留在计算机视觉、自然语言处理等程度，机器人无法根据用户的喜好有不同的行为表现。

针对相关技术中机器人行为表现单一无法满足用户需求的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种机器人及其动作控制方法和装置，以解决行为表现单一无法满足用户需求的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种机器人动作控制方法，该方法包括：接收控制指令，其中，控制指令用于指示机器人执行预定动作；将控制指令输入预设模型，得到输出结果，其中，输出结果包括与机器人执行的预定动作相对应的行为情感模式，预设模型至少基于用户反馈的情感评价参数训练得到；根据输出结果控制机器人按照行为情感执行预定动作。

进一步地，所述行为情感模式用于确定所述机器人对所述预定动作的行为情感状态，在所述机器人执行所述预定动作时，所述机器人的状态为所述行为情感状态。

进一步地，在将所述控制指令输入预设模型，得到输出结果之前，该方法还包括：接收事物集中的多个事物对应的行为情感指数，其中，行为情感指数用于表示机器人对事物集中的多个事物的喜好程度；根据事物集中的多个事物对应的行为情感指数建立预设模型。

进一步地，事物集中的多个事物为机器人执行的预定动作对应的事物。

进一步地，事物集中事物的数量为n个，n为大于1的整数；预设模型的计算公式为

其中，w_x为预设的基础参数，w_i为事物集中的第i项事物的影响参数，x_i为事物集中的第i项事物当前被设置的开关状态参数，b_i为事物集中的第i项事物的评价结果数值。

进一步地，输出结果还包括预定动作的期望值，在根据输出结果控制机器人按照行为情感模式执行预定动作之后，该方法还包括：接收对机器人执行预定动作的反馈结果；根据反馈结果和期望值更新预设模型。

进一步地，控制指令包括以下至少之一：图像控制指令；语音控制指令；生物信号控制指令。

为了实现上述目的，根据本发明的另一方面，还提供了一种机器人动作控制装置，该装置包括：第一接收单元，用于接收控制指令，其中，控制指令用于指示机器人执行预定动作；输入单元，用于将控制指令输入预设模型，得到输出结果，其中，输出结果包括与机器人执行的预定动作相对应的行为情感模式，预设模型至少基于用户反馈的情感评价参数训练得到；控制单元，用于根据输出结果控制机器人按照行为情感模式执行预定动作。

进一步地，行为情感模式用于确定机器人对预定动作的行为情感状态，在机器人执行预定动作时，机器人的状态为行为情感状态。

进一步地，该装置还包括：第二接收单元，用于在将控制指令输入预设模型，得到输出结果之前，接收事物集中的多个事物对应的行为情感指数，其中，行为情感指数用于表示机器人对事物集中的多个事物的喜好程度；建立单元，用于根据事物集中的多个事物对应的行为情感指数建立预设模型。

进一步地，输出结果还包括预定动作的期望值，该装置还包括：第三接收单元，用于在根据输出结果控制机器人按照行为情感模式执行预定动作之后，接收对机器人执行预定动作的反馈结果；更新单元，用于根据反馈结果和期望值更新预设模型。

为了实现上述目的，根据本发明的另一方面，还提供了一种机器人，该机器人包括：本发明实施例的机器人动作控制装置。

本发明通过接收控制指令，其中，控制指令用于指示机器人执行预定动作；将控制指令输入预设模型，得到输出结果，其中，输出结果包括与机器人执行的预定动作相对于的行为情感模式，预设模型至少基于用户反馈的情感评价参数训练得到；根据输出结果控制机器人按照行为情感模式执行预定动作，解决了机器人行为表现单一无法满足用户需求的问题，进而达到了根据用户需要表现出不同的行为的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明第一实施例的机器人动作控制方法的流程图；

图2是根据本发明第二实施例的机器人动作控制方法的流程图；以及

图3是根据本发明实施例的机器人动作控制装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种机器人动作控制方法。

图1是根据本发明第一实施例的机器人动作控制方法的流程图，如图1所示，该方法包括以下步骤：

步骤S102：接收控制指令，其中，控制指令用于指示机器人执行预定动作；

步骤S104：将控制指令输入预设模型，得到输出结果，其中，输出结果包括与机器人执行的预定动作相对应的行为情感模式，预设模型至少基于用户反馈的情感评价参数训练得到。

步骤S106：根据输出结果控制机器人按照行为情感模式执行预定动作。

该实施例采用接收控制指令，然后将控制指令输入预设模型，得到输出结果，根据输出结果控制机器人按照行为情感模式执行预定动作，由于预设模型是基于用户反馈的情感评价参数训练得到的，能够确定机器人执行预定动作时的行为情感模式，因此，根据模型输出结果控制机器人按照行为情感模式执行预定动作能够解决机器人行为表现单一无法满足用户需求的问题，进而达到了根据用户需要表现出不同的行为的效果。

本发明实施例的机器人可以是智能服务型机器人，陪伴型机器人等，可选地，控制指令包括图像控制指令、语音控制指令、生物信号控制指令中的至少一个，控制指令也可以是其他类型的指令，接收控制指令可以是机器人通过摄像头检测到主人发出的动作，接收到的图像控制指令，或者是接收到语音控制指令，例如，接收到主人向机器人发出的“跳舞”语音控制指令，机器人还可以接收可穿戴的生物信号控制指令，例如，主人穿戴的一些生物信号检测的设备检测到主人身体状态出现异常发出控制指令，机器人接收到生物信号控制指令。控制指令控制机器人执行预定动作，预定动作可以是机器人跳舞、扫地、转圈等动作，在接收到控制指令之后，将控制指令输入预设模型，进行模型计算，得到输出结果，根据得到的输出结果控制机器人按照行为情感执行预定动作。通过本发明实施例的技术方案，机器人能够具有多种情感模式与用户交互。

可选地，在将控制指令输入预设模型，得到输出结果之前，接收事物集中的多个事物对应的行为情感指数，其中，行为情感指数用于表示机器人对事物集中的多个事物的喜好程度；根据事物集中的多个事物对应的行为情感指数建立预设模型。

预设模型的建立需要事物集中的事物对应的指数，其中，事物集中的多个事物可以是能够反映机器人的行为情感的事物，例如，唱歌跳舞、扫地等事物，事物集中的事物对应的指数可以是用户对该事物的喜好程度，例如，在用户比较在意某个事物时指数比较高，用户不太在意某个事物时，指数比较低。在接收到事物集中的多个事物对应的指数之后，根据对应的行为情感指数建立预设模型。行为情感模式用于确定机器人对预定动作的行为情感状态，在机器人执行预定动作时，机器人的状态为该行为情感状态，行为情感状态可以与行为情感模式相对应，在一种行为情感模式下，可以具有一种行为情感状态。

可选地，输出结果包括预定动作的期望值，在根据输出结果控制机器人按照行为情感执行预定动作之后，接收对机器人的动作的反馈结果；根据反馈结果和期望值更新预设模型。

将控制指令输入预设模型得到的输出结果包括预定动作的期望值，预定动作的期望值可以用于表示机器人执行预定动作时的行为情感的期望值，例如，机器人在执行预定动作时是否是开心的执行，在机器人按照行为情感执行预定动作之后，接收对机器人的动作的反馈结果，反馈结果是由用户发出的，例如，主人对机器人的行为进行打分，接收对机器人的动作的反馈结果，然后根据反馈结果和预定动作的期望值更新预设模型，例如，可以根据反馈结果和预定动作的期望值的差值更新预设模型。

可选地，事物集中事物的数量为n个，其中，n为大于1的整数，预设模型的计算公式为

预设模型的计算公式为

其中，w_x为预设的基础参数，可以是一个定值，由用户设置或者出厂前设置，w_i为事物集中的第i项事物的影响参数，第i项事物的影响参数可以是第i项事物对主人的重要程度，x_i为事物集中的第i项事物当前被设置的开关状态参数，x_i具有两个数值，在取第一数值时，例如，x_i＝1，表示第i项事物对于主人的影响状态为开启，在取第二数值时，例如，x_i＝0，表示第i项事物对于主人的影响状态为关闭。在第i项事物对于主人的影响状态为关闭时，机器人对该事物的行为情感不会对主人产生影响。b_i为事物集中的第i项事物的评价结果数值，可以是主人对于机器人执行该事物时的行为情感的打分。

在一个可选的应用场景中，机器人在接收到主人的语音指令“扫地”之后，根据预设的模型得到扫地时的行为情感，然后执行扫地动作，如果预设模型输出的行为情感模式为开心模式，则机器人表现出开心的扫地，例如，动作轻快，同时播放音乐等，主人对机器人的行为情感很满意，打分较高，则机器人根据主人打分可以判断出，主人喜欢在扫地时表现出的开心的行为情感状态，因此，在下一次机器人扫地时，依旧表现出开心的行为情感，如果主人厌倦了机器人在扫地时表现出的开心的行为情感，则给机器人打低分，机器人根据打分判断出主人不喜欢扫地时表现出的开心的行为情感状态，则在下一次扫地时，表现出不开心的行为情感状态。

图2是根据本发明第二实施例的机器人动作控制方法的流程图，该实施例可以作为上述第一实施例的优选实施方式，如图2所示，该机器人动作控制方法包括以下步骤：

步骤S201：接收控制指令。

控制指令可以是视觉输入信号(Vision input)，语言输入(Language input)和可穿戴生物信号输入(Wearable biosignal input)中的一个或多个。

步骤S202：在线强化训练。

在线强化训练(Soul Model Reinforcement Learning Core)可以是将控制指令输入预设的模型进行计算，得到输出结果，根据输出结果确定机器人的行为输出。并且，预设模型能够根据奖惩机制的反馈进行更新，以实现在线强化训练。

步骤S203：行为输出。

在根据预设模型得到输出结果之后，根据输出结果控制机器人的行为输出(Behavior output)。

步骤S204：用户评价反馈。

在接收到用户评价反馈(Human evaluation feedback)，例如，用户对机器人的行为打分。

步骤S205：反馈，奖惩机制。

通过引入奖惩机制反馈(Feedback Reward/punishment block)，对预设模型进行修正，实现在线强化训练。

步骤S206：期望值。

根据预设模型得到期望值(Expectation)，将期望值和用户反馈评价作为反馈奖惩机制的依据，可以是将用户反馈评价和期望值的差值作为反馈参数。

本发明实施例的技术方案在原理上采用了行为心理学的原理，最早应用在巴甫洛夫的狗，斯金纳箱等实验中，生物学上也有神经可塑性等理论支持。但是现有技术的强化学习并未触及情感的训练模型，机器人上也并未有类似的实现方式，停留在计算机视觉、自然语言处理等程度，本发明实施例首次提出情感模型的构建以及实现。

本发明是关于如何让机器生命更好的与人类进行情感交流，使用在线的强化学习加入心理学概念正负强化和正负惩罚进行长时间的训练，目的在于用户与机器人的交互过程中能感受到接近人类的情感反馈。

行为心理学的强化惩罚理论涵盖正负强化和正负惩罚。以下是简单介绍：

1.正强化：给予一种好刺激。为了建立一种适应性的行为模式，运用奖励的方式，使这种行为模式重复出现，并保持下来。例如企业对积极提出合理化建议的职工颁发奖金。

2.负强化：去掉一个坏刺激。为引发所希望的行为的出现而设立。例如企业不允许在工作时间打个人电话，一位员工有这种习惯，这种行为一出现就受到指责，但一旦他停止这种行为了，就应立即停止对他的指责。

3.正惩罚：施加一个坏刺激。这是当不适当的行为出现时，给予处罚的一种方法。

4.负惩罚：去掉一个好刺激。这种惩罚比之正惩罚更为常用。当不适当的行为出现时，不再给予原有的奖励。

基于强化学习的基本思想，反馈回路是奖励驱动(reward-driven，简称为RL)的，期望可以表示为wx+b，b表示为奖励参数，由评价函数判断赋值。但是心理学认为人类的行为情感来源于两方面，分别是好刺激与坏刺激，人的行为可以理解为复数的好刺激和复数的坏刺激的乘加效果，但是现有的RL并未加入这类分类机制，本发明实施例的技术方案加入此机制，并应用于人机交互机器人。因此RL的期望模型为w_x+(w₁x₁+b₁)+(w₂x₂+b₂)+……。在原有的强化学习的基础上扩展了维度。关于新增加的维度，一部分是来源于预设。根据公式，w₁x₁+b₁表示为该事物下的期望贡献模型，w₁为定值，预设于设计师，在概念上等同于人类对某种事物的喜好程度，而b₁代表为该事物的奖惩参数。假如拖地是一类事物，对于小孩子来说很可能就是厌恶事物，则w₁为负数，x₁为0或者1代表该事物的开关状态，b₁代表当前事物的奖惩程度。事物集可以增加，但需要预设该事物的喜好程度。综合所有事物的期望贡献模型，则可以得到该个体当前时间点的奖惩程度，反馈于该个体的输入。模型的改变直接影响了该模型的训练方式，人机交互机器人虽说可以使用预先训练好的转移模型，但是人性化方面总是为人所诟病，因此本发明实施例的技术方案将该预先训练好的转移模型改成在线学习方式，让用户亲自训练该机器人，使该机器人的行为模式逐渐贴近用户，最终服务于用户。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供了一种机器人动作控制装置，该装置可以用于执行本发明实施例的机器人动作控制方法。

图3是根据本发明实施例的机器人动作控制装置的示意图，如图3所示，该装置包括：

第一接收单元10，用于接收控制指令，其中，所述控制指令用于指示机器人执行预定动作；

输入单元20，用于将所述控制指令输入预设模型，得到输出结果，其中，输出结果包括与机器人执行的预定动作相对应的行为情感模式，所述预设模型至少基于用户反馈的情感评价参数训练得到；

控制单元30，用于根据所述输出结果控制所述机器人按照所述行为情感模式执行所述预定动作。

该实施例采用第一接收单元，用于接收控制指令，其中，控制指令用于指示机器人执行预定动作；输入单元，用于将控制指令输入预设模型，得到输出结果，其中，预设模型用于确定机器人执行预定动作时的行为情感模式，预设模型至少基于用户反馈的情感评价参数训练得到；控制单元，用于根据输出结果控制机器人按照行为情感模式执行预定动作，从而解决了机器人行为表现单一无法满足用户需求的问题，进而达到了根据用户需要表现出不同的行为的效果。

可选地，行为情感模式用于确定机器人对预定动作的行为情感状态，在机器人执行预定动作时，机器人的状态为行为情感状态。

可选地，该装置还包括：第二接收单元，用于在将所述控制指令输入预设模型，得到输出结果之前，接收事物集中的多个事物对应的行为情感指数，其中，所述行为情感指数用于表示所述机器人对所述事物集中的多个事物的喜好程度；建立单元，用于根据所述事物集中的多个事物对应的所述行为情感指数建立所述预设模型。

可选地，所述事物集中的多个事物为所述机器人执行的所述预定动作对应的事物。

可选地，事物集中事物的数量为n个，n为大于1的整数预设模型的计算公式为

可选地，输出结果包括预定动作的期望值，该装置还包括：第三接收单元，用于在根据输出结果控制机器人按照行为情感模式执行预定动作之后，接收对机器人的动作的反馈结果；更新单元，用于根据反馈结果和期望值更新预设模型。

可选地，控制指令包括以下至少之一：图像控制指令；语音控制指令；生物信号控制指令。

本发明实施例还提供了一种机器人，该机器人包括本发明实施例的机器人动作控制装置。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种机器人动作控制方法，其特征在于，包括：

接收控制指令，其中，所述控制指令用于指示机器人执行预定动作；

将所述控制指令输入预设模型，得到输出结果，其中，所述输出结果包括与所述机器人执行的所述预定动作相对应的行为情感模式，所述预设模型至少基于用户反馈的情感评价参数训练得到；

根据所述输出结果控制所述机器人按照所述行为情感模式执行所述预定动作；

在将所述控制指令输入预设模型，得到输出结果之前，所述方法还包括：

接收事物集中的多个事物对应的行为情感指数，其中，所述行为情感指数用于表示所述机器人对所述事物集中的多个事物的喜好程度；

根据所述事物集中的多个事物对应的所述行为情感指数建立所述预设模型，

其中，所述预设模型输出的行为情感模式包括开心模式和与不开心的行为情感状态对应的行为情感模式，所述预定动作包括扫地，如果所述预设模型输出的行为情感模式为开心模式，则所述机器人表现出开心的扫地，机器人根据主人打分判断出主人是否喜欢在扫地时表现出的开心的行为情感模式，如果是，则在下一次扫地时依旧表现出开心的行为情感模式，如果否，则在下一次扫地时表现出不开心的行为情感状态。

2.根据权利要求1所述的方法，其特征在于，所述行为情感模式用于确定所述机器人对所述预定动作的行为情感状态，在所述机器人执行所述预定动作时，所述机器人的状态为所述行为情感状态。

3.根据权利要求1所述的方法，其特征在于，所述事物集中的多个事物为所述机器人执行的所述预定动作对应的事物。

4.根据权利要求1所述的方法，其特征在于，所述事物集中事物的数量为n个，n为大于1的整数；所述预设模型的计算公式为

其中，w_x为预设的基础参数，w_i为所述事物集中的第i项事物的影响参数，x_i为所述事物集中的第i项事物当前被设置的开关状态参数，b_i为所述事物集中的第i项事物的评价结果数值。

5.根据权利要求1所述的方法，其特征在于，所述输出结果还包括所述预定动作的期望值，在根据所述输出结果控制所述机器人按照所述行为情感模式执行所述预定动作之后，所述方法还包括：

接收对所述机器人执行所述预定动作的反馈结果；

根据所述反馈结果和所述期望值更新所述预设模型。

6.根据权利要求1所述的方法，其特征在于，所述控制指令包括以下至少之一：

图像控制指令；

语音控制指令；

生物信号控制指令。

7.一种机器人动作控制装置，其特征在于，包括：

第一接收单元，用于接收控制指令，其中，所述控制指令用于指示机器人执行预定动作；

输入单元，用于将所述控制指令输入预设模型，得到输出结果，其中，所述输出结果包括与所述机器人执行的所述预定动作相对应的行为情感模式，所述预设模型至少基于用户反馈的情感评价参数训练得到；

控制单元，用于根据所述输出结果控制所述机器人按照所述行为情感模式执行所述预定动作，

第二接收单元，用于在将所述控制指令输入预设模型，得到输出结果之前，接收事物集中的多个事物对应的行为情感指数，其中，所述行为情感指数用于表示所述机器人对所述事物集中的多个事物的喜好程度；

建立单元，用于根据所述事物集中的多个事物对应的所述行为情感指数建立所述预设模型，

8.根据权利要求7所述的装置，其特征在于，所述行为情感模式用于确定所述机器人对所述预定动作的行为情感状态，在所述机器人执行所述预定动作时，所述机器人的状态为所述行为情感状态。

9.根据权利要求7所述的装置，其特征在于，所述事物集中的多个事物为所述机器人执行的所述预定动作对应的事物。

10.根据权利要求7所述的装置，其特征在于，所述事物集中事物的数量为n个，n为大于1的整数；所述预设模型的计算公式为

11.根据权利要求7所述的装置，其特征在于，所述输出结果还包括所述预定动作的期望值，所述装置还包括：

第三接收单元，用于在根据所述输出结果控制所述机器人按照所述行为情感模式执行所述预定动作之后，接收对所述机器人执行所述预定动作的反馈结果；

更新单元，用于根据所述反馈结果和所述期望值更新所述预设模型。

12.根据权利要求7所述的装置，其特征在于，所述控制指令包括以下至少之一：

图像控制指令；

语音控制指令；

生物信号控制指令。

13.一种机器人，其特征在于，包括权利要求7至12中任一项所述的机器人动作控制装置。