CN107291654A - 机器人的智能决策***和方法 - Google Patents

机器人的智能决策***和方法 Download PDF

Info

Publication number
CN107291654A
CN107291654A CN201610205997.3A CN201610205997A CN107291654A CN 107291654 A CN107291654 A CN 107291654A CN 201610205997 A CN201610205997 A CN 201610205997A CN 107291654 A CN107291654 A CN 107291654A
Authority
CN
China
Prior art keywords
decision
module
action
making
intelligent decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610205997.3A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Kuang Chi Hezhong Technology Ltd
Shenzhen Guangqi Hezhong Technology Co Ltd
Original Assignee
Shenzhen Guangqi Hezhong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Guangqi Hezhong Technology Co Ltd filed Critical Shenzhen Guangqi Hezhong Technology Co Ltd
Priority to CN201610205997.3A priority Critical patent/CN107291654A/zh
Publication of CN107291654A publication Critical patent/CN107291654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Manipulator (AREA)

Abstract

本发明提供了机器人的智能决策***和方法。一种机器人的智能决策***包括:分布式学习***,所述分布式学习***包括在线学习模块和离线学习模块,所述在线学习模块在短期时间段内进行学习而所述离线学习模块在长期时间段内进行学习,所述分布式学习***根据输入数据来建立认知库并输出决策动作;情感模块,其根据所述认知库累积情绪并决定情绪表达;以及个性模块,其根据所述认知库决定动作行为的个性化表达。

Description

机器人的智能决策***和方法
技术领域
本发明一般涉及机器人领域,尤其涉及机器人的智能决策***和方法。
背景技术
随着科技发展和进步,机器人能够实现的功能越来越丰富,也得到了越来越广泛的应用,例如能够根据预定编程执行操作的工业用多关节机械手或多自由度机器人,能够进行清洁、娱乐、烹饪、监护等工作的家用机器人,能够搬砖、砌墙、运输等的建筑机器人等等。在一方面,机器人能够代替人类在一些恶劣、危险的环境中进行工作,并且能够代替人类执行一些枯燥单调的重复性劳作。
另一方面,随着机器人智能的发展,机器人具有越来越丰富的情感特性,从而能够成为人类的助手和伙伴。例如,助理机器人可以帮助人类记忆各种各样的事情,例如陌生人的信息、日程安排等,并在需要时自动将这些信息提供给主人。仿真宠物机器人可以模拟动物的声音、行为等,例如可以在主人回家时向主人问好,能够听从主人的指令展现相应的动作。
然而,机器人并不是以人类的思维进行操作,而是需要通过学习训练才能根据各种不同的输入信息决定输出的动作、行为、情感等。因此,本领域需要促进机器人作出决策的方法和***。
发明内容
以下提供一个或多个方面的简要概述以提供对本公开的多个方面的基本理解。然而,应当注意,以下概述不是构想到的所有方面的详尽综述,并且既不旨在陈述本公开所有方面的关键性或决定性要素,也不试图限定本公开的任何或所有方面的范围。相反,以下概述的唯一目的在于,以简化形式给出本公开的一个或多个方面的一些概念,以作为稍后阐述的具体实施方式的前序。
根据本发明的一个实施例,一种机器人的智能决策***包括:分布式学习***,所述分布式学习***包括在线学习模块和离线学习模块,所述在线学习模块在短期时间段内进行学习而所述离线学习模块在长期时间段内进行学习,所述分布式学习***根据输入数据来建立认知库并输出决策动作;情感模块,其根据所述认知库累积情绪并决定情绪表达;以及个性模块,其根据所述认知库决定动作行为的个性化表达。
在一方面,所述分布式学习***还包括即时决定模块,所述即时决定模块参考所述认知库基于所述在线学习模块对输入数据的学习来即时地输出决策动作。
在一方面,所述即时决定模块执行以下操作中的至少一者:识别对象、识别运动、识别语音、以及识别对象状态。
在一方面,所述分布式学习***还包括长期决策模块,所述长期决策模块基于所述离线学习模块对历史输入数据的学习来决定所述机器人的长期的动作和行为并更新所述认知库。
在一方面,所述长期决策模块确定以下至少一者:人与人的社会关系、人类动作和表情的含义和意图、造成事件的原因、以及事件后果。
在一方面,所述智能决策***根据所述分布式学习***对当前状态和任务目标之间的关系判断来确定是在集中式同步决策模式中操作还是在离散式异步决策模式中操作。
在一方面,所述智能决策***在离散式异步决策模式中操作,其中所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达根据设定顺序依次输出。
在一方面,所述设定顺序包括分配给所述分布式学习***、所述情感模块和所述个性模块的不同优先级。
在一方面,所述智能决策***在集中式同步决策模式中操作,所述智能决策***还包括同步决策***,其接收所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达并决定所述机器人最终的输出动作。
在一方面,所述同步决策***包括对比评分***,所述对比评分***对所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达进行对比评分并决定所述机器人最终的动作输出。
在一方面,所述对比评分***评价所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达是否符合机器人自身身体条件、是否符合机器人定律、是否符合道德准侧、和/或是否影响最终任务的完成。
在一方面,所述情感模块根据所述认知库累积情绪值,并在所述情绪值超过阈值时发生情绪爆发以增大、减小、抑制、和/或改变对所述决策动作的输出。
在一方面,所述情绪值包括同情、喜悦、悲伤、愤怒中的至少一者。
在一方面,所述个性模块控制所述机器人的个性化,所述个性化包括温和型、激进型、胆怯型、好奇/阳光型中的至少一者。
在一方面,所述在线学习模块和离线学习模块分别采用识别类算法、预测类算法和推理类算法中的至少一者。
在一方面,所述分布式学习***接收由传感器收集的输入数据。
在一方面,所述输入数据包括视频、语音、触感中的至少一者。
根据本发明的一个实施例,一种机器人的智能决策方法包括:通过在线学习在短期时间段内进行学习并通过离线学习在长期时间段内进行学习,从而根据输入数据来建立认知库并输出决策动作;根据所述认知库累积情绪并决定情绪表达;以及根据所述认知库决定动作行为的个性化表达。
在一方面,参考所述认知库基于所述在线学习对输入数据的学习来即时地输出决策动作。
在一方面,所述在线学习包括以下操作中的至少一者:识别对象、识别运动、识别语音、以及识别对象状态。
在一方面,基于所述离线学习对历史输入数据的学习来决定所述机器人的长期的动作和行为并更新所述认知库。
在一方面,所述离线学习确定以下至少一者:人与人的社会关系、人类动作和表情的含义和意图、造成事件的原因、以及事件后果。
在一方面,还包括根据所述在线学习和离线学习对当前状态和任务目标之间的关系判断来确定是在集中式同步决策模式中操作还是在离散式异步决策模式中操作。
在一方面,还包括在离散式异步决策模式中操作,其中所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达根据设定顺序依次输出。
在一方面,所述设定顺序包括分配给所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达的不同优先级。
在一方面,还包括在集中式同步决策模式中操作,其中根据所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达来决定所述机器人最终的输出动作。
在一方面,还包括对所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达进行对比评分并决定所述机器人最终的动作输出。
在一方面,还包括评价所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达是否符合机器人自身身体条件、是否符合机器人定律、是否符合道德准侧、和/或是否影响最终任务的完成。
在一方面,累积情绪包括累积情绪值,并在所述情绪值超过阈值时发生情绪爆发以增大、减小、抑制、和/或改变对所述决策动作的输出。
在一方面,所述情绪值包括同情、喜悦、悲伤、愤怒中的至少一者。
在一方面,所述个性化表达控制所述机器人的个性化,所述个性化包括温和型、激进型、胆怯型、好奇/阳光型中的至少一者。
在一方面,所述在线学习和离线学习分别采用识别类算法、预测类算法和推理类算法中的至少一者。
在一方面,所述输入数据包括由传感器收集的输入数据。
在一方面,所述输入数据包括视频、语音、触感中的至少一者。
本发明的智能决策***和方法使机器人能够深入理解周围环境,能够根据不同的情况做出快速应激性的决策,也能够做出成熟的理性的决策,能够有效地协调机器人的情感、学习、个性输出。
本发明的智能决策***和方法能够准确判断当前事件、状况和发展趋势,参考清晰情感和个性的当前状态,自主决定最终的动作输出,从而最终的动作输出能够保证机器人完成任务目标,并表达情感和展现个性。
本发明的分布式学习***包括在线学习模块和离线学习模块,其中在线学习模块能够实时地快速处理数据,从而根据输入数据迅速作出响应;离线学习模型具有强大的分析能力,从而能够在情绪情感、个性、社会环境比较复杂的情况下作出最终智能决策。通过将在线学习模块和离线学习模块整合成一个分布式的学习***,既可以即时地输出决策动作,又可以更好地理解外部环境所隐含的深层意义,提高识别精确度和认知能力,做出更加成熟智能的决策。
集中式同步决策***解决了不同模型和分***的动作行为输出的协调和决策问题,能使机器人的决策更偏向于理性和人性的方向,使机器人灵魂的决策模块更加灵活多变。离散式异步决策***使机器人的行为更加具有多样性和持续性,可以使最终动作的输出更加快速、高效。集中式同步决策***和离散式异步决策***还可以同时存在或者根据环境自适应地切换,满足为不同的机器人个体构建不同的灵魂***的运算要求。
附图说明
在结合以下附图阅读对本公开的多个实施例的详细描述之后,能够更好地理解本公开的上述特征和优点。在附图中,以相同或类似的附图标记来指定各附图所共有的相同或类似的元件。
图1示出了根据本发明一个实施例的分布式学习***。
图2示出了根据本发明一个实施例的集中式同步决策***。
图3示出了根据本发明一个实施例的离散式异步决策***。
具体实施方式
以下结合附图和具体实施例对本公开作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本公开的保护范围进行任何限制。
机器人通过学习了解外界的环境,在决定输出之前需要理解人、事、物等,并且需要了解各种各样的事物含义和联系才能做出判断。机器人没有意识,无法理解这些抽象概念的意义,但是可以通过联系,将得到的抽象特征和某些事物或效果链接,从而形成认知。这些认知是从历史经验中积累而成的事实,将被用来判断和决定机器人的输出动作。本发明提供了用于机器人的智能决策***和方法。根据本发明的一个方面,机器人的智能决策***(也称为灵魂***)包括多个并行的机器学习算法模型,例如学习***、情感模块、个性模块等。该智能决策***可以使用多线程或并行式的数据、算法模型,使各个模型能够同时运行,各自解决相同或不同的问题。机器学习算法模型可以根据需要使用各种不同的算法,例如识别类算法、预测类算法和推理类算法等。该智能决策***能够判断当前事件、状况和发展趋势,参考清晰情感和个性的当前状态,自主决定最终的动作输出。最终的动作输出能够保证机器人完成任务目标,并表达情感和展现个性。
图1示出了根据本发明一个实施例的分布式学习***100。该分布式学习***100包括在线学习模块110和离线学习模块120,它们接收输入数据101并基于数据101进行学习和训练。数据101可包括由传感器(例如,视频采集设备、语音采集设备、触感采集设备等)从周围环境收集到的数据、和/或由接收机从网络或其他设备(例如移动设备、独立的传感器)接收的数据。数据101可包括例如视频、语音、触感等。在一方面,采集输入数据所用的硬件传感器可具有较高的收集效率和压缩传输效率。在线学习模块110和离线学习模块120各自包括用于处理不同识别信息、不同学习和训练目标的多个不同学习算法模型,其中不同的学习算法模型对应于不同的输入信号,用来理解不同的信息并形成不同的认知,例如不同的算法模型处理相应的输入数据以形成对声音语义的认知、对动作表情的认知、对人物关系的认知等。分布式学习***100从原始数据101中抽取概括性的特征信息后建立信息库(被称为认知库130),其可以是SQL、MongoDB等数据库,并且可由分布式学习***100提取、修改和更新认知信息。认知库130中存储的认知信息例如可包括视觉识别中的人脸特征、形体姿态特征,语音识别中的声纹特征、语言模式特征,或者行为检测中的行为习惯特征等。
在线学习(online learning)模块110在短期时间段内学习和理解外界环境,并基于输入数据101进行对人/物体的识别、行为的理解和推理、预测事物变化规律等。在线学习模块110进行的在线学习能够得到短期的事实结论以帮助临时的应激性决定。例如,在线学习模块110中的对象识别算法(例如,对人脸、物体进行识别的卷积神经元网络CNN)接收视频图像(或图像),识别视频中的对象(例如,人、动物、或其他物体),并确定识别出的对象的状态(例如,站立、坐着、摔倒等)。在线学习模块110中的运动识别算法(例如,对连续运动物体进行跟踪识别的循环神经元网络RNN)也可处理该视频图像,确定该视频图像是否为静止环境、快速环境移动、对象/物体是否移动等。在线学习模块110中的对象状态识别算法(例如,长期统计人物状态、行为习惯并进行推理和预测等的贝叶斯网络)也处理该视频图像,判断视频中的对象(例如,人物、动物等)是否在作动作(例如,人物的快速运动状态,如快速移动手臂等肢体、跑步、运动方向等)。在线学习模块110还可包括其他合适的学习算法模型,例如语音识别算法可以处理输入语音数据,识别语音来源、语音中是否包含动作指令、语音与视频的关系等。在线学习模块110中的各个学习算法模型分别将基于分析输入数据得到的分析结果传递给即时决定模块112,即时决定模块112可以汇总各个学习算法模型的结果(例如,利用马尔科夫决策关系)基于认知库中的关联信息(信息输入-决策动作)来快速输出决策动作,该决策动作可用于控制机器人的动作输出。在训练学习过程中,即时决定模块112还可以接收人类对其输出的决策动作的反馈,从而对决策结果进行修正。同时,即时决定模块112可以将输入数据与这些分析结果/决策动作的对应关系(即,认知)存储到认知库130中以影响以后的决策。
通过在线学习模块110的不断训练和拟合,提取物体、人或者机器人自身状态的特征等,在提高自身识别效率的同时,可以将这些抽象化的特征丰富到认知库130。在学习的过程中,由于数据是实时更新的,没有长期的累积,使用在线学习模型和算法能够快速地处理信息,快速输出决策动作,并迭代地训练和优化决策模型。经过一段时间的积累,认知库130将纳入丰富的粗数据以及由在线学习模型提取出的抽象数据。
离线学习(Offline Learning)模块120可在长期时间段内学习和理解深度的事件含义。离线学习模块120在长期时间段内不断收集数据,在一定时间后分析所收集的历史数据,从中分析出事件的长期特性和事实(例如人物关系等),从而由长期决策模块112决定机器人的长期的动作和行为并更新认知库,该认知库将影响即时决定模块112输出的决策动作。对长期事实的理解诸如:深层含义——如人类动作的意图;因果联系——如造成事务的原因和可能后果;社会关系——如亲属、朋友关系等。长期决策模块112旨在分析人(和/或动物)的行为习惯、社会关系等以作为最终影响机器人与人互动时作决策的一个参考项,如长期决策模块112判定某人喜欢吃某一种食物,那么机器人在决定为此人购买何种食物时将参考长期决策模块112关于食物偏好的判断。离线学习模块120中的离线学习模型可以是规模较大、分析能力较强的大规模机器学习模型,例如数十层甚至上百层的卷积神经元网络或上千个节点的决策树模型和贝叶斯网络模型,该种模型可能无法快速地训练和应用于识别、推理和决策,并且需要太字节(Tera Byte)级的数据进行训练。利用离线学习模型强大的分析能力,可以理解得到更深度的事件含义,例如利用长期信息来挖掘和推理人与人的社会关系、人类各种动作和表情的含义和意图、造成事件的原因,并且可根据长期规律来预测事件的后果。这些长期事实的理解会加入到认知库130中,并且帮助在情绪情感、个性、社会环境比较复杂的情况下的最终智能决策。
通过将在线学习模块110和离线学习模块120整合成一个分布式的学习***100,针对不同的学习和训练问题,调用不同的算法和模型,分别在短期和长期的时间段内学习和理解外界环境,包括对象的识别、行为的理解和推理、预测事物变化规律等,既可以即时地输出决策动作,又可以更好地理解外部环境所隐含的深层意义。利用这一***不断更新认知库130,能够提高识别精确度和认知能力,做出即时决定的动作(集)和长期的行为策略。机器人通过在线学习模块110和离线学习模块120的各个学习算法模型得到并概括出的抽象含义将会结合当前的情感情绪累加到的状态以及个性的长期发展来得到现时状态,并做出更加成熟智能的决策。
分布式学习***100并行地运行多个学习模块,可同时解决的不同问题种类更多,使其在复杂环境下的适应性和泛化性增强。在线学习和离线学习的运用使分布式学习***100既能快速做出应急性的决策,也能分析出事件规律,丰富机器人自身的认知,帮助机器人理解更抽象的含义,机器人在复杂社会关系中的适应性和处理问题的灵活性能够不断增强。
图2示出了根据本发明一个实施例的集中式同步决策***200。集中式同步决策***200包括如以上参照图1描述的分布式学习***100,并且还包括情感模块202、个性模块204、和同步决策***206,从而构建了一个同步输出框架。具体而言,如以上参照图1所描述的,分布式学习***100基于输入数据101输出决策动作(包括即时决定模块112输出的即时决策动作和由长期决策模块112输出的长期行为动作),同时将对输入数据101进行学习所获得的认知信息、输入数据与决策动作的对应关系等存储到认知库130中。分布式学习***100还可在单独训练中输出优化后的决策动作。
情感模块202基于由分布式学习***100建立的认知库130进行情绪累积,并决定情绪的动作表达。情感模块202可将对环境中的事件分析、对主人情感的识别分析等转化为机器人自己的情绪值(根据不同类别的情感分为不同类别的情绪值,例如同情、喜悦、悲伤等)。情感模块202可累积这样的情绪值,当某种情绪值超过阈值时,会发生情绪爆发,其表现形式可包括例如增大/减小/抑制/改变决策动作的输出,例如增大决策动作在输出时的幅度、甚至影响正常的动作和行为的执行。例如主人经常骂机器人,则机器人在情绪爆发后可在一段时间内拒绝响应或拒绝服务任何人。
个性模块204从父辈继承的个性设定和自身个性的演化也需要借助认知库130的知识,并形成个性化的动作行为表达。个性模块204输出的个性可包括但不限于:
·温和型——负面情绪的累积速度较慢,正面情绪为喜悦和平静的概率较大(即任何外界的影响大多被转化为喜悦和平静的情绪);
·激进型——负面情绪的累积速度较快,负面情绪转化为愤怒的概率最大;
·胆怯型——负面情绪和正面情绪的累积速度都较慢,历史情绪和外界影响易转化为恐惧,输出表现为躲避大多数物体、较少与人交互等;
·好奇/阳光型——正面情绪的累积速度较快,历史情绪和外界影响易转化为喜悦,对物体和人会进行主动交互,如触摸识别到的物体和人等,经常和人交互(语音交流、推送信息等)。
在特定的时间点t,情感模块202输出的情绪表达动作、分布式学习***100输出的决策动作、以及个性模块204输出的个性表达动作可被提供给同步决策***206。同步决策***206可以是一个对比评分***,其根据认知库130内的知识来建立对比检测机制,例如通过对认知库的分析得到自组成的对比项,例如每个输入的动作是否符合机器人自身身体条件、是否符合一定的道德准侧(例如,机器人三大定律)、是否影响最终任务的完成等等。这些对比项将会比对每一个模块或***输入到决策***206的动作,进行对比评分,并决定最终的动作输出。因此,同步决策***206将基于情感模块202、分布式学习***100、以及个性模块204的输出来决定机器人最终的动作输出,该最终输出动作包含符合机器人自身条件、符合机器人定律、符合道德准则并且最终能完成任务的动作、情感和个性。
集中式同步决策***200的优势在于解决了不同模型和分***的动作行为输出的协调和决策问题,能使机器人的决策更偏向于理性和人性的方向;同步集中的处理和决策***能够人为定制和自组建,使机器人灵魂的决策模块更加灵活多变。
例如,机器人在决定购买家庭日用品时,可调集认知库130中的家庭成员数量、较常使用物品和缺损物品等信息,家庭成员对物品种类的质量要求和喜好程度,联合购买平台(网络购物和实体店)位置、路线、天气、周围环境等信息,并且参考机器人当前的情绪状态和个性状态,将所有参考信息同步,对任务进行分步骤拆解并进行优先级评估,判断该任务是否符合自身运动条件(如行走较远或天气较差等影响)、购买清单中是否有物品违背机器人定律(例如对人体有害的食品、药品等,是否造成机器人的代购行为导致危害人类健康)。该种决策倾向于将当前的负面情绪状态降到最低,并且减少个性对决策的影响,例如将愤怒情绪快速降低到平静作为优先级,保证后续任务能够在最短时间内开始执行,并能高效率地完成购物动作。
图3示出了根据本发明一个实施例的离散式异步决策***300。离散式异步决策***200包括如以上参照图1描述的分布式学习***100,并且还包括情感模块202和个性模块204。这里没有一个同步决策***来决定最终的动作输出。取而代之,分布式学习***100的决策动作、情感模块202的情绪表达动作和个性模块204的个性化表达动作根据设定顺序依次输出。例如,分布式学习***100、情感模块202和个性模块204可被分配不同的输出优先级。例如情感模块202的情绪表达动作优先输出,其后是个性模块204的个性表达动作输出,最后由分布式学习***100判断环境和自身状态的改变,输出最终决策动作。这个最终决策动作的判断是由分布式学习***100独立训练得出的,不受个性和情感的影响。但是分布式学习***100会评估当前情况,不断优化决策动作,最大程度地适应由情感模块204和个性模块204的输出造成的外在条件变化。各个模块的输出异步地表达,使情感和个性能够凸显,但是分布式学习***100的决策又能够保证最终的任务目标能够达成。另外,在情感模块204、个性模块204和分布式学习***100的输出不相冲突的情况下,这些输出可以同时进行,从而最终输出动作包含动作、情感和个性。
离散式异步决策***300的优势在于避免了集中决策***形成200的偏理性决策导致个性模块204和情感模块204的输出难以得到明显表达的情况,使机器人的行为更加具有多样性和持续性;避免了集中决策***因对比评分造成耗费大量计算资源的情况,可以使最终动作的输出更加快速、高效。
机器人在同人类进行语音交流时可以表述观点(机器人具备在由大规模语言文本训练后提取和概括对各类事物的大众观点的能力,如提取网络论坛对某个实事的普遍观点),该观点是机器人分析人类普遍理念和观念的结果,是机器人自身认知的组成部分,也受到自身性格设定的影响(如胆怯型性格倾向于将悲观类的观点作为自身认知)。机器人在表述观点时会施以情绪化的表达,即最终任务是保证对话持续进行,不断地阐述观点、列举示例。且分布式学习***可即时分析人的情绪变化和语言变化以判断对话持续进行的概率,选取更具说服力的示例(事先从认知库中提取的信息)强化其所表述的观点。当出现争议时、或认知库的信息无法提供更有价值信息时,机器人情绪的迭代发生变化,则下一次语言表达可能出现评价型语句,例如“你太固执了!”等。
如上,在一方面,本发明将分布式学习***和情感模块、个性模块整合成一个集中式同步多模块***,每个模块的同步输出由一个集中式决策模块来协调并决定最终的输出动作。另一方面,本发明将分布式学习***和情感模块、个性模块整合成一个分布式多模块***,每个模块的输出采取离散型处理,在输出上可/同步异步进行,保证情感和个性在不影响任务达成的情况下得到表达。
上述集中式同步决策***200和离散式异步决策***300可以同时存在,依照学习模型对当前状态和任务目标之间的影响关系做出判断,在集中式同步决策***200和离散式异步决策***300之间切换。在优化机器人智能决策***的各个模型的组建和排布时,可以使用一些优化算法或机器学习中的多模型自组建方法。例如,机器人可以根据当前状况决定是否使用同步决策***206。情感模块204、个性模块204和分布式学习***100可以根据特定的事件自行组合,共同完成目标。例如在机器人陪伴主人的时候,与视觉、听觉、触觉相关的学习模型需要跟情感模块204共同作用,输出陪伴性质的动作和行为。
机器人智能决策***所涉及到的各个分布式模型(尤其是离线学习模块120)需要调用大量的计算资源,其分布式结构也需要计算资源同步或异步的分配调集。机器人智能决策***所使用的硬件***可以是分布式计算机/服务器/工作站,其能够进行大量数据分析处理,能够满足为不同的机器人个体构建不同的灵魂***的运算要求。本发明的机器人智能决策***和方法可应用于各种各样的机器人,例如智能探索类机器人、智能家居、宠物机器人、军用侦查型机器人等等。本发明的智能决策***能够帮助机器人深入理解周围环境,特别是与人的关系、社会关系等等,能够根据不同的情况做出快速应激性的决策,也能够做出成熟的理性的决策。在最终动作输出中能够保证情感和个性的表达,也能保证最终达成任务目标,例如陪伴主人、管理家电等等。
上文中已针对根据本公开的各实施例描述了本公开的多个方面,应当理解,以上各实施例仅是示例性而非限制性的,并且可组合以上多个实施例以形成新的替代实施例,或者可仅执行一个实施例的子集来实践本公开。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种说明性逻辑块、模块、电路和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地说明硬件与软件的可互换性,各种说明性组件、框、模块、电路和步骤在上文中是以其功能性的形式来作出一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。本领域技术人员对于每种特定应用可以用不同的方式来实现所描述的功能性,但是此类实现决策不应被视为背离本公开的范围。
结合本文所公开的实施例描述的各种说明性逻辑模块和电路可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中具体化。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或经由其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其他介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其他远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员都能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (34)

1.一种机器人的智能决策***,其特征在于,包括:
分布式学习***,所述分布式学习***包括在线学习模块和离线学习模块,所述在线学习模块在短期时间段内进行学习而所述离线学习模块在长期时间段内进行学习,所述分布式学习***根据输入数据来建立认知库并输出决策动作;
情感模块,其根据所述认知库累积情绪并决定情绪表达;以及
个性模块,其根据所述认知库决定动作行为的个性化表达。
2.如权利要求1所述的智能决策***,其特征在于,所述分布式学习***还包括即时决定模块,所述即时决定模块参考所述认知库基于所述在线学习模块对输入数据的学习来即时地输出决策动作。
3.如权利要求2所述的智能决策***,其特征在于,所述即时决定模块执行以下操作中的至少一者:识别对象、识别运动、识别语音、以及识别对象状态。
4.如权利要求1所述的智能决策***,其特征在于,所述分布式学习***还包括长期决策模块,所述长期决策模块基于所述离线学习模块对历史输入数据的学习来决定所述机器人的长期的动作和行为并更新所述认知库。
5.如权利要求4所述的智能决策***,其特征在于,所述长期决策模块确定以下至少一者:人与人的社会关系、人类动作和表情的含义和意图、造成事件的原因、以及事件后果。
6.如权利要求1所述的智能决策***,其特征在于,所述智能决策***根据所述分布式学习***对当前状态和任务目标之间的关系判断来确定是在集中式同步决策模式中操作还是在离散式异步决策模式中操作。
7.如权利要求6所述的智能决策***,其特征在于,所述智能决策***在离散式异步决策模式中操作,其中所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达根据设定顺序依次输出。
8.如权利要求7所述的智能决策***,其特征在于,所述设定顺序包括分配给所述分布式学习***、所述情感模块和所述个性模块的不同优先级。
9.如权利要求6所述的智能决策***,其特征在于,所述智能决策***在集中式同步决策模式中操作,所述智能决策***还包括同步决策***,其接收所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达并决定所述机器人最终的输出动作。
10.如权利要求9所述的智能决策***,其特征在于,所述同步决策***包括对比评分***,所述对比评分***对所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达进行对比评分并决定所述机器人最终的动作输出。
11.如权利要求10所述的智能决策***,其特征在于,所述对比评分***评价所述分布式学习***的决策动作、所述情感模块的情绪表达和所述个性模块的个性化表达是否符合机器人自身身体条件、是否符合机器人定律、是否符合道德准侧、和/或是否影响最终任务的完成。
12.如权利要求1所述的智能决策***,其特征在于,所述情感模块根据所述认知库累积情绪值,并在所述情绪值超过阈值时发生情绪爆发以增大、减小、抑制、和/或改变对所述决策动作的输出。
13.如权利要求12所述的智能决策***,其特征在于,所述情绪值包括同情、喜悦、悲伤、愤怒中的至少一者。
14.如权利要求1所述的智能决策***,其特征在于,所述个性模块控制所述机器人的个性化,所述个性化包括温和型、激进型、胆怯型、好奇/阳光型中的至少一者。
15.如权利要求1所述的智能决策***,其特征在于,所述在线学习模块和离线学习模块分别采用识别类算法、预测类算法和推理类算法中的至少一者。
16.如权利要求1所述的智能决策***,其特征在于,所述分布式学习***接收由传感器收集的输入数据。
17.如权利要求1所述的智能决策***,其特征在于,所述输入数据包括视频、语音、触感中的至少一者。
18.一种机器人的智能决策方法,其特征在于,包括:
通过在线学习在短期时间段内进行学习并通过离线学习在长期时间段内进行学习,从而根据输入数据来建立认知库并输出决策动作;
根据所述认知库累积情绪并决定情绪表达;以及
根据所述认知库决定动作行为的个性化表达。
19.如权利要求18所述的智能决策方法,其特征在于,参考所述认知库基于所述在线学习对输入数据的学习来即时地输出决策动作。
20.如权利要求19所述的智能决策方法,其特征在于,所述在线学习包括以下操作中的至少一者:识别对象、识别运动、识别语音、以及识别对象状态。
21.如权利要求18所述的智能决策方法,其特征在于,基于所述离线学习对历史输入数据的学习来决定所述机器人的长期的动作和行为并更新所述认知库。
22.如权利要求21所述的智能决策方法,其特征在于,所述离线学习确定以下至少一者:人与人的社会关系、人类动作和表情的含义和意图、造成事件的原因、以及事件后果。
23.如权利要求18所述的智能决策方法,其特征在于,还包括根据所述在线学习和离线学习对当前状态和任务目标之间的关系判断来确定是在集中式同步决策模式中操作还是在离散式异步决策模式中操作。
24.如权利要求23所述的智能决策方法,其特征在于,还包括在离散式异步决策模式中操作,其中所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达根据设定顺序依次输出。
25.如权利要求24所述的智能决策方法,其特征在于,所述设定顺序包括分配给所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达的不同优先级。
26.如权利要求23所述的智能决策方法,其特征在于,还包括在集中式同步决策模式中操作,其中根据所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达来决定所述机器人最终的输出动作。
27.如权利要求26所述的智能决策方法,其特征在于,还包括对所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达进行对比评分并决定所述机器人最终的动作输出。
28.如权利要求27所述的智能决策方法,其特征在于,还包括评价所述在线学习和离线学习的决策动作、所述情绪表达和所述个性化表达是否符合机器人自身身体条件、是否符合机器人定律、是否符合道德准侧、和/或是否影响最终任务的完成。
29.如权利要求18所述的智能决策方法,其特征在于,累积情绪包括累积情绪值,并在所述情绪值超过阈值时发生情绪爆发以增大、减小、抑制、和/或改变对所述决策动作的输出。
30.如权利要求29所述的智能决策方法,其特征在于,所述情绪值包括同情、喜悦、悲伤、愤怒中的至少一者。
31.如权利要求18所述的智能决策方法,其特征在于,所述个性化表达控制所述机器人的个性化,所述个性化包括温和型、激进型、胆怯型、好奇/阳光型中的至少一者。
32.如权利要求18所述的智能决策方法,其特征在于,所述在线学习和离线学习分别采用识别类算法、预测类算法和推理类算法中的至少一者。
33.如权利要求18所述的智能决策方法,其特征在于,所述输入数据包括由传感器收集的输入数据。
34.如权利要求18所述的智能决策方法,其特征在于,所述输入数据包括视频、语音、触感中的至少一者。
CN201610205997.3A 2016-03-31 2016-03-31 机器人的智能决策***和方法 Pending CN107291654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610205997.3A CN107291654A (zh) 2016-03-31 2016-03-31 机器人的智能决策***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610205997.3A CN107291654A (zh) 2016-03-31 2016-03-31 机器人的智能决策***和方法

Publications (1)

Publication Number Publication Date
CN107291654A true CN107291654A (zh) 2017-10-24

Family

ID=60093017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610205997.3A Pending CN107291654A (zh) 2016-03-31 2016-03-31 机器人的智能决策***和方法

Country Status (1)

Country Link
CN (1) CN107291654A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198559A (zh) * 2018-01-26 2018-06-22 上海萌王智能科技有限公司 一种可学习动作的语音控制机器人***
CN108510049A (zh) * 2018-03-23 2018-09-07 山东大学 基于情感-时空信息的机器人服务自主认知方法及机器人
WO2019144542A1 (en) * 2018-01-26 2019-08-01 Institute Of Software Chinese Academy Of Sciences Affective interaction systems, devices, and methods based on affective computing user interface
CN110334626A (zh) * 2019-06-26 2019-10-15 北京科技大学 一种基于情感状态的在线学习***
CN110399982A (zh) * 2018-04-18 2019-11-01 青岛农业大学 融入情绪因素的贝叶斯网络学习风格初始化及修正算法
CN111768773A (zh) * 2020-05-26 2020-10-13 同济大学 一种智能决策会议机器人
CN111813064A (zh) * 2020-07-03 2020-10-23 浙江大学 基于即时学习思想的工业过程运行状态在线评价方法
CN112494956A (zh) * 2020-12-15 2021-03-16 四川长虹电器股份有限公司 一种将物品转换成宠物的拟化方法和宠物拟化***
CN112819174A (zh) * 2020-11-19 2021-05-18 华南师范大学 基于人工智能算法改进的伦理虚拟仿真实验方法和机器人

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6650965B2 (en) * 2000-03-24 2003-11-18 Sony Corporation Robot apparatus and behavior deciding method
CN103413113A (zh) * 2013-01-15 2013-11-27 上海大学 一种服务机器人智能情感交互的方法
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN105046238A (zh) * 2015-08-17 2015-11-11 华侨大学 一种面部表情机器人多通道信息情感表达映射方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6650965B2 (en) * 2000-03-24 2003-11-18 Sony Corporation Robot apparatus and behavior deciding method
CN103413113A (zh) * 2013-01-15 2013-11-27 上海大学 一种服务机器人智能情感交互的方法
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN105046238A (zh) * 2015-08-17 2015-11-11 华侨大学 一种面部表情机器人多通道信息情感表达映射方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11226673B2 (en) 2018-01-26 2022-01-18 Institute Of Software Chinese Academy Of Sciences Affective interaction systems, devices, and methods based on affective computing user interface
WO2019144542A1 (en) * 2018-01-26 2019-08-01 Institute Of Software Chinese Academy Of Sciences Affective interaction systems, devices, and methods based on affective computing user interface
CN108198559A (zh) * 2018-01-26 2018-06-22 上海萌王智能科技有限公司 一种可学习动作的语音控制机器人***
CN108510049A (zh) * 2018-03-23 2018-09-07 山东大学 基于情感-时空信息的机器人服务自主认知方法及机器人
CN108510049B (zh) * 2018-03-23 2020-11-06 山东大学 基于情感-时空信息的机器人服务自主认知方法及机器人
CN110399982A (zh) * 2018-04-18 2019-11-01 青岛农业大学 融入情绪因素的贝叶斯网络学习风格初始化及修正算法
CN110334626A (zh) * 2019-06-26 2019-10-15 北京科技大学 一种基于情感状态的在线学习***
CN111768773A (zh) * 2020-05-26 2020-10-13 同济大学 一种智能决策会议机器人
CN111768773B (zh) * 2020-05-26 2023-08-29 同济大学 一种智能决策会议机器人
CN111813064A (zh) * 2020-07-03 2020-10-23 浙江大学 基于即时学习思想的工业过程运行状态在线评价方法
CN111813064B (zh) * 2020-07-03 2021-06-25 浙江大学 基于即时学习思想的工业过程运行状态在线评价方法
CN112819174A (zh) * 2020-11-19 2021-05-18 华南师范大学 基于人工智能算法改进的伦理虚拟仿真实验方法和机器人
CN112494956A (zh) * 2020-12-15 2021-03-16 四川长虹电器股份有限公司 一种将物品转换成宠物的拟化方法和宠物拟化***

Similar Documents

Publication Publication Date Title
CN107291654A (zh) 机器人的智能决策***和方法
Naeem et al. A gentle introduction to reinforcement learning and its application in different fields
Zhang et al. Study on artificial intelligence: The state of the art and future prospects
Ghadirzadeh et al. Human-centered collaborative robots with deep reinforcement learning
Ravichandar et al. Human intention inference using expectation-maximization algorithm with online model learning
Hasanbeig et al. DeepSynth: Automata synthesis for automatic task segmentation in deep reinforcement learning
CN109117952B (zh) 一种基于深度学习的机器人情感认知的方法
US20220183531A1 (en) Artificial intelligence dishwasher and dishwashing method using the same
US20210053231A1 (en) Robot system and control method thereof
Zare et al. A survey of imitation learning: Algorithms, recent developments, and challenges
Wang et al. SEEM: A sequence entropy energy-based model for pedestrian trajectory all-then-one prediction
Hafez et al. Improving robot dual-system motor learning with intrinsically motivated meta-control and latent-space experience imagination
Hangl et al. Skill learning by autonomous robotic playing using active learning and creativity
Gao et al. Investigating deep learning approaches for human-robot proxemics
Gasser et al. A dyadic brain model of ape gestural learning, production and representation
Lamini et al. H-MAS architecture and reinforcement learning method for autonomous robot path planning
Zhong et al. Bridging the Gap between Robotic Applications and Computational Intelligence in Domestic Robotics
Levinson et al. Automatic language acquisition by an autonomous robot
Zaman General intelligent network (gin) and generalized machine learning operating system (gml) for brain-like intelligence
Haripriya et al. A study on artificial intelligence technologies and its applications
Li et al. Robot navigation in crowds environment base deep reinforcement learning with POMDP
Cao et al. Enhancing Human-AI Collaboration Through Logic-Guided Reasoning
Han et al. Evaluation of artificial intelligence techniques applied in watson and alphago
Casalino et al. Predicting the human behaviour in human-robot co-assemblies: an approach based on suffix trees
Mukherjee et al. Cognitive intelligence in industrial robots and manufacturing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024