CN104350541B

CN104350541B - 能够将与用户的自然对话合并到其行为中的机器人，以及编程和使用所述机器人的方法

Info

Publication number: CN104350541B
Application number: CN201380029253.5A
Authority: CN
Inventors: D·乌桑; G·加特
Original assignee: Aldebaran Robotics SA
Current assignee: SoftBank Robotics Europe SAS
Priority date: 2012-04-04
Filing date: 2013-04-03
Publication date: 2018-10-16
Anticipated expiration: 2033-04-03
Also published as: EP2834811A1; JP6367179B2; WO2013150076A1; US20150100157A1; CN104350541A; FR2989209A1; FR2989209B1; US10052769B2; JP2015524934A

Abstract

本发明涉及一种类人机器人，所述机器人能够保存与至少一个用户的对话，所述对话使用两种模式的语音识别，一种模式是开放的，另一种模式是封闭的，封闭模式由表征对话序列的概念来定义。对话还可以受到既不是语音也不是文本的事件影响。本发明的机器人能够执行行为，并产生表达和情感。与现有技术的机器人相比，本发明提供了相当大地减少执行对话序列的编程时间和等待时间，且提供了接近于人类对话的流畅性与自然性的优点。

Description

能够将与用户的自然对话合并到其行为中的机器人，以及编程和使用所述机器人的方法

技术领域

本发明属于机器人编程***的领域。具体而言，其可以用于为已经配备有执行行为的能力的类人机器人配备与使用者对话的先进能力。在机器人拥有人的外观和功能的一些属性：头部、躯干、双臂、可能的双手、双腿、双脚等时，可以将机器人说明为类人的。但在本发明的环境中，最重要的类人特性是用于在与人类的对话中口语表达的能力，所述能力必须尽可能地与机器人的性格与情感的姿态和/或象征表达协调。可以设想开发“机器人伙伴”型的应用，即，在为人提供可以认为是对存在人类私人秘书的情感上准等价的替代的存在的同时，能够显著地代表处于依赖状态中的一个或多个人，承担日常生活中的多个支持功能。为此，开发所述类人机器人以尽可能接近人行为的方式保持与人的对话的能力是必要的。尤其必要的是，机器人可以理解来自人类的问题或语句，并以对话方式说出回答，具有大量与人类的相对应的表达和表达方式，它们与通常人类具有的行为和情感的类型相配合。

背景技术

由于用于编程本专利申请的申请人市售的、并在涉及游戏者机器人的在No.WO2012/000927中公布的国际专利申请和涉及配备有自然对话接口的类人机器人的在No.WO2012/010451公布的国际专利申请中公开的Nao^TM牌类人机器人的方法，已经完成了在这个方向上的最初步骤。

但由这些文献公开的机器人仅能够执行有限的和预定数量的对话要素，或者如果希望将所述对话要素增加到对应于人的正常行为的多样性的情况下，组合对于它来说至少是不能迅速达到的。为了能够为前述的人提供显著的支持服务，因此必须为类人机器人配备比现有技术的机器人更丰富的对话能力。为此，本发明在所述机器人中安装了对话代理、语音识别工具和用于分析与机器人交谈的人的行为的工具。

发明内容

为此，本发明公开了一种类人机器人，包括：i)至少一个传感器，所述至少一个传感器选自于包括以下传感器的组：声音类型的第一传感器和由所述机器人的至少一个用户产生的事件的至少一个第二类型的第二传感器，ii)在所述至少一个传感器的输出处的至少一个事件识别模块，iii)用于向所述至少一个用户产生事件的至少一个模块，用于与所述至少一个用户对话的模块，所述对话模块接收所述至少一个识别模块的输出作为输入，并生成到所述事件产生模块的输出，所述事件选自于包括语音、移动、表达和情感的组，其中，所述机器人进一步包括人工智能引擎，所述人工智能引擎被配置为控制事件产生模块的输出。

有利地，根据对话的上下文和定义所述机器人的当前配置与预测配置的变量来执行由所述人工智能引擎进行的对所述事件产生模块的控制。

有利地，所述至少一个事件识别模块接收源自属于至少两个不同类型的至少两个传感器的输入，在所述对话模块的输出处的所述至少一个事件产生模块能够考虑到源自所述至少两个传感器的所述输入产生事件作为输出。

有利地，所述至少一个识别模块能够按照动态分层树将输入构造为概念。

有利地，在所述至少一个识别模块中的输入在所述对话模块中应用于文本或语音输入并启动语法。

有利地，在所述至少一个识别模块中的输入启动/停用所述输入的识别。

有利地，所述至少一个识别模块包括第一和第二子模块，所述第一子模块在关联至少一个概念的词语的封闭列表上操作，且所述第二子模块在词语的开放列表上操作。

有利地，仅有一个来自第一子模块的输出提供给对话模块。

有利地，仅来自第二子模块的输出提供给对话模块。

有利地，来自第一子模块的输出与来自第二子模块的输出一起提供给对话模块。

有利地，仅有一个来自第一子模块的输出首先提供给对话模块，来自第一子模块的所述输出在对话模块中由来自第二子模块的输出确认。

有利地，没有一个来自第一和第二子模块的输出从对话模块产生输出，及所述机器人向所述至少一个用户提供至少一个输入。

有利地，对话模块进一步接收源自应用的动态要素作为输入。

有利地，将来自对话模块的至少一个输出提供给能够执行选自于功能组的功能的模块，所述功能用于产生所述机器人的至少一个表达，用于决定产生所述机器人的至少一个行为，和用于产生所述机器人的至少一个情感。

有利地，用于产生至少一个行为的所述功能考虑所述机器人的***约束。

有利地，用于产生至少一个情感的所述功能能够响应于输入事件产生在中性状态与预定义状态之间的一系列预定义的表达。

有利地，本发明的类人机器人进一步包括视觉识别模块，所述模块能够解译来自所述至少一个用户的、作为对话序列的开始或结束的至少一个手势。

有利地，所述对话模块包括用于词典分析的子模块和用于解译所述词典分析子模块的输出的子模块，其能够产生当前对话的词语所关联的概念。

有利地，所述对话模块能够处理来自所述至少一个用户的、与其物理和/或逻辑***的状态有关的问题和命令。

本发明还公开了一种在类人机器人与至少一个用户之间的对话的方法，包括：i)识别源自至少一个传感器的输入的至少一个步骤，所述至少一个传感器选自于包括以下传感器的组：声音类型的第一传感器和由所述至少一个用户产生的事件的至少一个第二类型的第二传感器，ii)向所述至少一个用户产生事件的步骤，及iii)与所述与至少一个用户对话的对话步骤，所述对话步骤接收来自所述至少一个识别步骤的输出作为输入，并生成到产生事件的所述步骤的输出，事件选自于包括以下的组：语音、移动、表达和情感，其中，所述方法进一步包括由人工智能引擎控制事件产生模块的输出的步骤。

有利地，所述机器人保存与至少两个用户的对话，表征所述至少两个用户的参数存储在所述机器人的存储器中，以便在所述机器人识别出至少两个用户之一时使用。

本发明还公开了一种嵌入在类人机器人中的计算机程序，所述计算机程序包括程序代码指令，当在计算机上执行程序时，程序代码指令用于执行本发明的方法，所述程序适合于管理在所述类人机器人与至少一个用户之间的对话，所述计算机程序包括：i)用于识别在至少一个传感器的输出的事件的至少一个模块，所述至少一个传感器选自于包括以下的组：声音类型的第一传感器和由所述至少一个用户产生的事件的至少一个第二类型的第二传感器，ii)用于向所述至少一个用户产生事件的至少一个模块，及iii)用于与所述至少一个用户的对话的模块，所述对话模块接收来自所述至少一个识别模块的输出作为输入，并产生到用于产生事件的所述模块的输出，事件选自于包括以下的组：语音、移动、表达和情感，其中，所述程序的特征在于其进一步包括人工智能引擎，所述人工智能引擎被配置为控制事件产生模块的输出。

有利地，本发明还公开了一种计算机程序，包括程序代码指令，被配置为产生根据本发明的计算机程序，并将所述计算机程序传送到至少一个类人机器人，所述指令在ChatScript型接口上产生。

本发明允许使用在对话代理领域中已经使用的编程语言，所述语言的语法是大量程序员群体已知的，他们因而有资格开发实施本发明的新应用程序。作为本发明的部分而实施的，由于包含了语音识别的先进功能，以及考虑了源自机器人的其他传感器的信息，特别是视觉识别，现有技术对话代理发现他们的可能性相当大地增大了，使得它能够检测到对话的启动的情形及其对话者。根据本发明的方法的对话可以适于与不同机器人性格的不同类别对话的要素，机器人性格取决于其用户的偏好。机器人将能够与对话的所述要素相符地表达情感，并使其行为同样与所述要素同步，这将实现在用户与其机器人或多个机器人之间的流畅的交换脚本的创建。而且，机器人将能够提供有关于其***的多个要素的状态的信息(例如，剩余电池寿命)，并以与用户的对话模式接收***命令，极大地改进了所述机器人的使用的人机工程学。

附图说明

依据以下实施例的几个示例的说明及其附图，会更好地理解本发明，其不同特征和优点会显现出来，在附图中：

图1示出了能够在本发明的几个实施例中实施本发明的类人机器人；

图2示出了根据本发明的几个实施例的处理的总体流程图；

图3示出了根据本发明的几个实施例的用于管理对话行为的模块和语音识别模块的处理单元；

图4示出了根据本发明的几个实施例的几级对话的树结构的示例；

图4a示出了根据本发明的几个实施例的概念树；

图5示出了在本发明的几个实施例中的语音识别模块的处理的简化流程图；

图6示出了在被配置为用于在本发明的几个实施例中实施本发明的几个软件模块之间的数据流；

图6a示出了在本发明的某些实施例中的情感引擎的操作；

图6b示出了在本发明的某些实施例中的决策引擎的操作；

图7示出了在用于在本发明的几个实施例中实施本发明的对话管理模块的输入和输出的不同功能；

图8示出了用于在本发明的几个实施例中实施本发明的分析和对话解译模块的数据模型；

图9示出了在被配置为用于在本发明的几个实施例中实施本发明的机器人上安装的软件模块的架构。

具体实施方式

图1示出了能够在本发明的几个实施例中实施本发明的类人机器人。

在本发明的实施例的附图中示出了这个类人机器人。这个机器人已经值得注意地在于10/15/2009公布的专利申请WO2009/124951中公开了。这个平台用作导致本发明的改进的基础。在说明的其余部分中，这个类人机器人可以按照这个类属名来指代或者按照它的商标NAO^TM来指代，而不会影响参考的普遍性。

这个机器人包括用于控制关节的传感器和致动器的大约两打(24个)电子控制板。电子控制板包括市场上可以购买到的微控制器。例如这可以是来自Microchip公司的DSPIC^TM。它是耦合到DSP的16位MCU。这个MCU具有一毫秒的伺服环路循环。这个机器人还可以包括其他类型的致动器，尤其是LED(发光二极管)，其颜色和强度可以反应机器人的情感。该机器人还可以包括其他类型的位置传感器，尤其是惯性单元、FSR(地板压力传感器)等。

头部110包括机器人的智能部件，尤其是执行使得机器人能够完成分配给它的任务的高级功能的板，在本发明的环境中，任务是用于执行由用户编写的对话。头部还有利地包括专用板，尤其是在语音(合成与识别)或者视觉处理中。

关于语音识别，在当前使用的音频信号处理架构中，所述音频信号由四个话筒捕获，并由专用模块中的软件处理，在关于图9的解说中说明了它们。分析在四个传感器的声音信号的到达的时间差可以确定声音起源的方向。语音由具有语法引擎(例如Nuance^TM市售的类型)或具有自然语言解译器的语音识别软件来识别。

头部还包括专门用于处理服务输入/输出的一个或多个板，例如打开用于建立通过广域网(WAN)的远程通信的端口所需的编码。板处理器可以是在市场上可购买的x86处理器。低功耗处理器是优选的，例如Intel ATOM^TM(32位，1600MHz)。板还包括忆阻RAM和闪存存储器。这个板还管理机器人与外界(行为服务器、其他机器人等)的通信，通常通过WiFi或WiMax传输层，可任选地通过具有可任选地封装在VPN中的标准协议的公共移动数据通信网络。处理器通常通过标准OS来控制，其允许使用用于编程高级功能的常规高级语言(C、C++、Python等)或者特定人工智能语言，例如URBI(专用机器人保持语言)。

机器人能够执行已经为之预先编程的行为，尤其是借助按照在已经引用的以No.WO2012/010451公布的国际专利申请中公开的发明产生的代码，所述代码已经由程序员在图形界面上创建了。根据本发明及剩余的说明，行为是动作(移动、语音)与可任选的事件的组合。这些行为还可以在由不是专业程序员的用户通过使用在专利申请WO2011/003628中公开的发明创建的脚本中设置。在第一种情况下可以包括在相对复杂的逻辑中结合在一起的行为，其中行为的顺序由在机器人环境中发生的事件来制约。在此情况下，必须具有最少的编程技术的用户可以使用Chorégraphe^TM工具包，在引用的申请中说明其主要过程。在第二种情况下，脚本的顺序逻辑在原则上不是适应性的。

根据本发明，程序员能够产生复杂的脚本，包括包含不同姿态和移动的行为的组合、声音或视觉信号的发出，尤其是在机器人与人或另一个机器人之间的自然对话，所述对话与机器人的性格和情感以及对话的语义和时间环境相协调。

图2示出了根据本发明的几个实施例的处理的总体流程图。

根据本发明，安装在与机器人分离的工作站(例如PC)上的用于编写对话的模块210打算用于编程对话脚本。所述对话可以具有几个字符、一个或多个机器人和一个或多个说话者。所述模块有利地安装在Chorégraphe^TM软件工具包中，其可以用于编程机器人的行为，对话在脚本内与相关于对话的要素由机器人执行的行为混合。其特征已经在关于图1的解说中提及了的语音识别模块220安装在机器人上。其打算用于解译在用于编写对话的模块210中创建的对话的要素，按照以上在关于图1的解说中所述的过程，所述对话要素经由有线或无线通信接口传送到机器人。例如在使用BNF(巴科斯范式)标准化语法的语言中编译发送到模块220的对话要素。例如，将一系列词语解译为逻辑“AND”，逻辑“OR”必须以不同的符号来表示，例如由“|”。在关于图5的解说中的说明中会进一步详述语音识别模块220的操作。

源自用于编写对话的模块210的要素和来自语音识别模块220的输出传送到对话引擎模块230。按照在关于图6和7的解说中解释的过程，所述引擎产生在模块210中创建的语音、情感、表达、行为和事件。行为是定义复合运动的一系列姿态(例如站起来、玩足球等)。表达是为由语音/动作对给出的对话所定义的特定类型的行为。动作可以是移动和/或例如由机器人的LED发出的符号的组合。用于创建由表达序列组成的脚本的方法已经由以No.WO2011/003628公布的国际申请公开了。情感是由终端表达定义的一系列表达和趋向于终端表达的一系列表达。作为示例，可以定义以下情感E_i,n：“快乐的/悲哀的”、“疲劳的”、“恐惧的”、“兴奋的”、“好奇的”，对于从1到n变化的i，每一个表达E_i,n是在参考状态与表达E_n,n之间的中间表达。如果机器人在状态E_j,p中，其中p与n不同，为引起情感n定义的事件的列表会将机器人从状态E_j,p移动到状态E_j,n。

从ChatScript语言(http://chatscript.sourceforge.net/)得到对话描述语言。

在ChatScript语法中，如规则集一样编写脚本。例如：？:MEAT(you like meat)Yes

完整的规则通常包括：

-种类，在这个示例中的“？:”，其指示问题；

-标记，在这个示例中的“MEAT”，其可以被省略，但当存在时，其允许由其他对话调用；

-由在括号之间所示的模式表征的输入，在示例中的“(you like meat)”，短语关联的短语，其包括以此顺序的三个词，但还包括其他词语：“Albert,you like meat”、“Albert,you like red meat”等；

-输出，在这个示例中的“Yes”

根据本发明，为将对话要素与机器人行为混合而改写语言。改写的非限制性示例在剩余的说明中给出。

例如，由独特字符串(例如：“国际象棋”、“足球”、“太极”等)定义行为。情感同样如此，会理解，代码会指示它是情感(例如，可以使用大写词首字母：“Happy/Sad”、“Tired”、“Scared”、“Excited”、“Curious”等)。使用的语言允许简单地编写用于用户短语的几个措词(例如“hello”的不同措词)。输入可以是保有与机器人的对话(“用户”，其可以是人或者另一个机器人)、事件或二者的实体的短语(我说你好，向机器人伸出手)。对于一个用户短语，这个语言可以用于表达短语、情感、事件或行为形式的几个可能的回答。对话行为例如可以是如下类型：机器人用它的眼睛跟随用户，并分析用户的移动以创建更多自然回答(例如，不与用户同时说话)。

对话语言的每一个要素都重新转录到包括语音识别引擎的模块220中的其对等物中，所述引擎仅能够以一定确定性识别有限数量的词语。由于这个转换，确保了每一个识别的短语都有回答。在编写对话时，不是在执行时，从而以语音识别格式产生所有对话和所有对话输入。因此重要的是，对话描述语言在语音识别中具有对等物，这不是已知的使用ChatScript语言环境下的键盘对话的情况。

对话描述语言的语法特别地包括以下功能：

1)模式识别(或模式匹配)

一些模式在对话脚本中由符号指示：

-“或”接受可能的词的列表，例如：[hi hello]；

-“与”搜索词语的准确列表，例如：“I'm happy”；

-可任选词，例如：hi{'my robot'}；

-禁用词，例如：I'm！not happy；这个词不会确认输入；

-未知词，例如：my name is*；用户的姓名未知；

2)对话的上下文；使用触发短语从一个对话到另一个对话的移动，例如：

-Ut:(speaking of an automobile)；这个短语会触发在汽车上的对话；

3)子对话；子对话在特定短语上启动，并可以连续继续下去，例如：

U:(how are you？)I'm fine and you？(你好吗？)我很好，你呢？

A:(I'm not well)oh why？(我不太好)哦，为什么？

B:(I'm sick)Oh too bad,do you want any medicine？(我病了)哦，糟糕，你需要药吗？

A:(I'm fine)great(我很好)太棒了。

这个子对话功能例如可以引起如下类型的对话：

人：你好吗？

机器人：我很好，你呢？

人：我不太好

机器人：哦，为什么？

人：我病了

4)事件：

以与由机器人捕获的语音相同的方式来考虑作为对话的输入的事件给出了现有技术中不存在的发明潜力的对话代理。具体而言，机器人的视觉识别使得它能够检测在其环境中的人并说嗨，如同在人对它说话时的情况：

-U：([e:面部检测的嗨])嗨

如果机器人看见人或者如果某人说“嗨”，那么机器人就回答“嗨”。

事件也可以作为对话的输出被触发，可任选地通过开始应用：

-U：(我饿了)$用户状态“饥饿”

$用户状态＝“饥饿”会将饥饿指定给用户状态，并开始应用可以连接到的事件[用户状态，饥饿]；

5)隐含或明确行为的选择：

-U：(你认识我吗？)[$面部识别的＝＝'运行:面部识别我不认识你，但我下一次会记住你]

6)建议：当机器人不理解或误解了用户所说的，于是它使用标准对话建议以便阐明，例如：

-建议：你多大了？

-U：(我[5678]岁，你年轻！

7)变量：对话可以存储用户信息，例如：

-U：(我[5678]岁$年龄＝$1你年轻！

8)动态要素：变量和列表(mp3，应用、偏好等)可以作为输入并作为输出集成到对话中，例如：

-U：(你能做什么？)我能～应用

-U：(你的名字？)我的名字叫$姓名

-U：({开始读说}*_～应用)好，我将开始$1

$应用例如可以是(“三个火***”、“法国世界报”)

9)情感，悲哀的、快乐的、好奇的、恐惧的、疲劳的，即：

-U：(我不爱你！)这使得我悲哀SAD

10)删除规则；可以停用或启动输入以避免回答中的重复现象；相同的输入因而可以在对话或几个对话中重复，删除规则将实现解译所有输入，例如：

-U：删除(你好吗)我很好

-U：(你好吗，nao)你记得我的名字！我很好

-U：(你好吗)和我刚才一样

11)回答规则：可以由机器人产生几个可能的输出，由输入确定从其中的选择，输入是从用户或几个用户确定性(不管输入如何，总是相同的输出，或者列表中给定排序的输出)、随机的、顺序地(如果输入i触发输出j，输入i+1就触发输出j+1)或者有条件地接收的。对话模块可以使用所有机器人的存储器，因此可以按照机器人的存储器中的值给出回答；输出在用于向对话增加种类后可以删除；作为示例：

-U：(你好吗)[“我很好”“我已经告诉你了”]#默认的顺序

-U：(你好吗)^随机的[“我很好”“我非常好”“我好极了”]

-U：(你的名字是什么)^第一[“我的名字是$名字”“我没有名字”]#在此，如果$名字存在，“我的名字是$名字”仅是可显示的。

-U：(你好吗)^删除我很好#显示回答后删除规则

12)开始子对话，主题：

-U：(我想要谈谈汽车)主题：汽车

图3示出了根据本发明的几个实施例的用于管理对话行为的模块和语音识别模块的处理单元。

当以嵌入机器人中的运行时间执行对话时，对话引擎230在网络和对话列表310、330及语音识别220上工作。

对话网络310是结构化的对话集合，其指示如何将他们连接在一起：例如首先介绍，随后是另一个对话。网络为对话给出指导。列表330是非结构化的有效对话的列表，其在对话引擎和语音识别引擎中都存在。

可以启动或停用对话(这同时影响其全部输入340)。启动/停用可以自动由触发器(ut:)触发或者由用户手动触发。使得有效对话的数量在给定时刻最少可以用于优化在质量和处理时间方面的语音识别性能。可以在编辑器中设置对话的参数，以使得它们即使在如果开启新对话时也保持有效，默认解决方案是新对话的开启关闭以前的对话。也可以个别地启动/停用对话输入，或者通过连接到子对话，或者借助执行的删除，以避免进行中的对话要素的重复。对话引擎230包括模式识别模块320，其操作(点1)在关于图2的解说中示出了。它还包括动态概念树350。

概念是按照给出的对话中在语义上等同而定义的词语的列表，。示例性地，短语“我生活”在给定对话中认为是在语义上等价于短语“我活着”、“我居住”、“我生活”、“我，我活着”、“我，我居住”、“我，我生活”等。因此定义概念(生活)和概念(我)：

概念：(生活)(活着、居住、生活、to_生活、to_居住)

概念：(我(主语))(我(宾语)、我(主语)、我已经)

因此会将短语编写在对话中的几个位置中：

U:(～我～to_生活)

动态概念树包括多个分层的有组织概念。在执行时还可以修改关联概念的短语的列表。

示例性地，概念“食品”包括概念“水果”和“肉”，概念“水果”包括“香蕉”和“桔子”；

概念：(食品)(～水果～肉)

概念：(水果)(香蕉桔子)

在对话过程中可以增加新的水果。因而创建了以下对话：

U:(你知道_的_～食品吗)是，我知道$1$2

这给出了执行：

用户：你知道香蕉吗？

机器人：是，我知道香蕉

U:(给我举一个水果的例子)～水果是水果

用户：给我举一个水果的例子

机器人：香蕉是水果

列表330的对话中的输入启动语音识别模块220的语法列表360中的语法。以与对话模块的输入列表340同步的方式启动/停用语音识别模块的输入列表370。修改对话模块230的动态概念树350中的概念导致语音识别模块的动态输入380的改写。

图4示出了根据本发明的几个实施例的几级对话的树结构的示例。

图中显示了几个对话。它们可以并行运行(优先级栈)，一个对话能够代替另一个。

对话包括在嵌入到机器人中的对话引擎模块230中的三个逻辑级：

-级410包括默认的有效对话：普通对话4110(问候、介绍、情绪)，和一个“***”对话4120，用于展现机器人的状态(电池、温度、配置等)或者给出基本命令(站起来、行走等)；不仅是获得与机器人的视觉功能的状态有关的信息，还有能够控制其中的一些(设置在备用模式中、连接到电源出口等)的可能性可以用于降低非技术人员的用户在他们面对机器人是感受到的心理阻碍；

-级420包括用于按照来自用户的输入选择对话的例程，所述选择能够由触发器Ut:触发；例如可以编程多个选择4210、4220、4230、4240；

-级430例如包括应用4310、4320、4330，它们是对话或文件的序列，能够自动或由用户手动开始。

默认地，加载了包含普通信息和***命令的对话(例如“大声说”)。触发器短语随后可以触发其他对话的加载，例如用于：

-改变讨论的对象(汽车、一天的活动的谈论等)；

-解释机器人能够做什么(“我不能讲故事”)；这个部分包含动态要素：安装的mp3、安装的应用；可以通过语音识别开始的任何应用都应包含信息：其主题(游戏、信息等)和可任选的指定应用的对话(机器人可以说爱丽丝漫游仙境是关于小姑娘的故事等)；

-开始应用的对话(例如交互式故事)

可以提供选择：猜著名人物，选择行为，选取产品，在交易中找到人等。可以由机器人(人必须理解机器人的意思)或者由人(机器人必须理解机器人的选择)做出选择。

这个选择借助如上所述的对话做出，但这个对话常常包括重复相同的短语，这使得对话难以编写：

U:(猜猜我在想谁)是人吗？

A:(是)是女人吗？

B:(是)等

B:(不是)等

A:(不是)是虚构的人物吗？

概念的想法用于引导可能性树。概念是与其他词语、短语或概念有关的词语。

概念：(人)[“他呼吸”“它是人”]

概念：(超人)[～人超级英雄～飞翔～斗篷]

概念：(哈利迪)[～歌手～人]

概念::(全部)[～超人～哈利迪]

在图4A中为以上示例示出了可能性树的层级特性。

词语表示树的叶子。概念表示树的节点。节点和叶子是模式匹配的要素(模式识别)。

借助单一输入：

U:([“他能够吗”“它是”～超人吗]是

我们可以匹配：

他能够飞吗

是人吗

是超人吗

我们还可以建议：

U:(帮助我)～超人

显示了树的一个叶子。

用户“帮助我

机器人：它呼吸

对于猜超人的用户，足以编写：

U:(是超人吗？)是，你猜对了！

U:(～超人)是

提议：不，不是他。

对于猜人物的机器人，足以编写：

U:(猜猜我在想谁)？～全部

图5示出了在本发明的一个实施例中的语音识别模块的处理的简化流程图。

-第一级510包括有限数量的可识别词；识别的词必须出现在封闭列表中；此类语音识别软件的示例是由Nuance^TM(品牌名Vocon^TM)、Acapella^TM提供的，对于使用自然语言的软件，是Dragon^TM提供的。

-语音识别的第二级520具有开发类型，即，识别的词的多样性必须大得多；此类语音识别软件的示例是特别地由Nuance^TM以品牌名NMSP^TM提供的；这个软件可以用于管理预先未知的词语，其将由编号的通配符$x来标明。

此类语音识别构造包括两级，一个是封闭的510，另一个是开放的520(例如语音听写型的)，其可以用于优化识别速度/质量对。

图5示出了如何合并两类语音识别：

-情况530：机器人处于与用户相同的语境中，它所说的由有限的识别来识别；于是语音听写不是必需的；

-情况540：机器人没有在与用户相同的语境中(用户谈论汽车，但机器人认为他们谈论食品)，于是由语音听写识别的短语会更接近于对话；

-情况550：类型520的识别补充了类型510的识别；

-情况560：开放识别确认封闭识别的可能的选择；

-情况570：机器人不理解用户所说的；它提议确认对话的领域或者转换到另一个主题，以上情况530-560于是能够由机器人的这个重新开始而继续下去。

图6示出了在被配置为用于在本发明的几个实施例中实施本发明的几个软件模块之间的数据流。

该图显示了在输入事件610、对话620、输出事件630和嵌入在机器人中的人工智能引擎640之间的数据交换：

-对话620等待输入事件(例如来自用户的微笑6130或语音6120)；

-对话引擎可以动态地加载新对话6240或动态数据6230(例如安装在其上的mp3文件或应用)；

-按照表达言语6310、行为6320、情感6330或事件6340的格式使其回答公式化，换句话说，表达言语包括与如何解译文本(对于机器人的舞台指导)有关的信息的语音；

-来自对话的输出可以发送到不同人工智能引擎模块640：

■语音和表达由表达处理引擎6410Narrateur使用运动和语音合成处理，如特别地在以No.WO2011/003628公布的国际专利申请中说明的；

■情感由情感引擎6420处理，其开发了机器人的情感，以便随着时间的过去稳定它们；

■决策引擎6430决定是否开始行为，并可以将决定按照事件的形式以信号传送到对话引擎；机器人可以拒绝站起来，假如条件不满足这样做。

这个行为可以是使用识别或键盘输入的选择，如上在关于图4的解说中解释的；按照用户的动作，例如张嘴、走开、转头等，行为触发讲话和讲话的中断。

这个对话包括解译器6230和对话模型6240。

对话模型包括：

-对话网络和有效对话；

-全部对话输入和有效输入；

-全部对话输出；

-全部对话提议。

参考标记6310、6320、6330、6340表示来自对话引擎的事件形式的输出。

图6a示出了在本发明的某些实施例中的情感引擎的操作。

如上向关于图2的解说中解释的，机器人的情感是情感的多维空间中的点(例如，SAD、HAPPY、ANGRY、TIRED等)。

对话引擎向情感引擎发送脉冲，情感引擎改变机器人的当前情感，但不仅是对话引擎，例如其电池状态、面对的面部和时间，同样是情感变化的根源。这个情感随时间稳定到中性情感(0,0,0,0,0,0)。

图6b示出了在本发明的某些实施例中的决策引擎的操作。

决策引擎考虑对于执行行为的全部请求和可利用资源形式的机器人的所有约束。对于执行对话引擎的请求仅是决定的一个要素。机器人的所有变量/事件都参与到决定中(电池、温度、情感等)。

图7示出了在用于在本发明的几个实施例中实施本发明的对话管理模块的输入和输出的不同功能。

该图示出了对话710将语音识别730、键盘输入740或事件720的结果同等地作为输入。也可以考虑诸如mp3文件或应用的动态数据750。有利地，依据由内置在机器人中的相机接收的图像的处理，对话模块分析讲话者头部的位置，以便获知是否向机器人说话。类似地，可以评价嘴唇的位置，以便获知用户是否在讲话，及相应地它必须倾听还是它可以讲话(要素760)。

此外，可以以与其讲话相同的方式使用面部识别，以指示当前讲话者的名字。

来自对话引擎的“讲话”回答可以由机器人的语音或在屏幕7A0上(或二者)给出。

如已经提及的，对话模块能够触发行为的执行(要素7B0)。

图8示出了用于在本发明的几个实施例中实施本发明的分析和对话解译模块的数据模型。

分析器810从对话8120中的词典8110取回词语，其作为输入提供给分析器。输入对话具有数据模型8140。用于解析对话的内容的“Libparser.so”库8130执行这个功能。这使得对话模型和来自这些对话的所有输入能够内置到解译器820的存储器中。在执行时，解译器将有效对话的栈8210与用于每一个用户的所有有效输入保存在一起。在解译器的输入“解析”的对话具有形式8220和数据模型8240。解译器包括“Libparser.so”库8130，用于完成其解译功能。实际上，可以使得标准概念、变量和对话与用户相关。

因而，以下规则可以用于改变用户：

U:(e:面部识别)($名字＝$面部识别)

U:(我的名字是_*)($名字＝$1)

在此情况下，按照用户的历史，自动重置或指定与用户相关的变量(偏好、年龄、高度等)。行为830具有用于状态的变量的数据模型8310。

在本发明的一个实施例中，有利地为诸如NAO的机器人配备高级软件，用于控制机器人的功能。称为NAOQI的此类软件架构已经在于10/15/2009公布的专利申请WO2009/124955中特别地公开了。其包括基本功能，用于管理在机器人与PC或远程站点之间的通信，并用于交换提供必要软件基础结构以便实施本发明的软件。

NAOQI是为机器人应用而优化的架构；其支持多种语言，尤其是C++、Python、Urbi、Java和matlab。

在本发明的环境中，以下NAOQI模块尤其有用：

-ALMemory模块910管理在不同NAOQI模块之间共用的存储器；

-ALMotion模块920管理机器人的移动；

-语音合成模块930产生机器人的讲话；

-封闭识别模块940执行图5中参考标记510的功能；

-开放识别模块950执行图6中参考标记520的功能；

-模块ALDialog 960执行图2中参考标记230的对话引擎模块的功能；

-Narrator[Narrateur]模块970执行图6中参考标记6410的功能；

-决策引擎模块980执行图6中参考标记6420的功能；

-情感引擎模块990执行图6中参考标记6430的功能；

有利地以C++编码这些模块。该图还显示了在模块之间的数据流。

如在关于图2的解说中提及的，在安装于标准计算机上的对话编辑模块9A0中产生对话。也可以在Chorégraphe工具包中产生它们。确保了在ALDialog模块960的对话与编辑模块9A0的对话之间的一致性。在对话引擎960的分析器810与解译器820(图9中显示了它们)之间的数据流在编辑时的计算机上和在执行时的机器人上同时进行。

分析器可以读取对话说明文件U:(....)。

解译器依据分析器的结果(无语法错误编写的对话)在存储器中构造对话模型。

上述的示例以例示本发明的实施例的方式给出。它们不以任何方式限制由所附权利要求书限定的本发明的范围。

Claims

1.一种类人机器人(110)，包括：

i)至少一个传感器，所述至少一个传感器选自于包括由所述机器人的至少一个用户产生的事件的音频传感器和视频传感器的组；

ii)在所述至少一个传感器的输出处的至少一个事件识别模块(610)；以及

iii)用于向所述至少一个用户产生事件的至少一个模块(630)，用于与所述至少一个用户对话的模块(620)，所述对话模块接收所述至少一个识别模块的输出作为输入，并生成到所述事件产生模块的输出，所述事件选自于包括语音、移动、表达和情感的组，其中，所述机器人进一步包括人工智能引擎(640)，所述人工智能引擎被配置为根据对话的上下文和将所述机器人的情感定义为中性状态和终端状态之间的一系列表达的变量来控制所述事件产生模块的输出，所述中性状态和所述终端状态之间的演变是由根据时间和所述至少一个传感器、所述事件识别模块、所述对话模块以及所述事件产生模块的输出中的一个或多个而产生的脉冲来触发的。

2.根据权利要求1所述的类人机器人，其中，所述一系列表达在定义的时间段中趋向于所述中性状态。

3.根据权利要求1所述的类人机器人，其中，所述变量进一步定义所述机器人可利用的资源中的一个或多个或者应用于所述机器人的***约束。

4.根据权利要求3所述的类人机器人，其中，定义所述机器人可利用的资源中的一个或多个或者应用于所述机器人的***约束的所述变量包括所述机器人的电池水平和温度。

5.根据权利要求1所述的类人机器人，其中，所述至少一个事件识别模块接收源自属于至少两个不同类型的至少两个传感器的输入，并且在所述对话模块的输出处的所述至少一个事件产生模块能够考虑源自所述至少两个传感器的所述输入而产生事件作为输出。

6.根据权利要求1所述的类人机器人，其中，所述至少一个识别模块能够按照动态分层树来将所述输入构造为概念。

7.根据权利要求1所述的类人机器人，其中，在所述对话模块中，所述至少一个识别模块中的输入应用于文本输入或语音输入并启动语法。

8.根据权利要求7所述的类人机器人，其中，所述至少一个识别模块中的输入启动/停用对所述输入的识别。

9.根据权利要求7所述的类人机器人，其中，所述至少一个识别模块包括第一子模块和第二子模块，所述第一子模块在关联至少一个概念的词语的封闭列表上操作，且所述第二子模块在词语的开放列表上操作。

10.根据权利要求9所述的类人机器人，其中，仅有一个来自所述第一子模块的输出被提供给所述对话模块。

11.根据权利要求9所述的类人机器人，其中，仅来自所述第二子模块的输出被提供给所述对话模块。

12.根据权利要求9所述的类人机器人，其中，来自所述第一子模块的输出与来自所述第二子模块的输出被一起提供给所述对话模块。

13.根据权利要求9所述的类人机器人，其中，仅来自所述第一子模块的输出被首先提供给所述对话模块，来自所述第一子模块的输出由来自所述第二子模块的输出在对话模块中被确认。

14.根据权利要求9所述的类人机器人，其中，来自所述第一子模块和第二子模块的输出都不从所述对话模块产生输出，且所述机器人向所述至少一个用户提供至少一个输出。

15.根据权利要求1所述的类人机器人，其中，所述对话模块进一步接收源自应用的动态要素作为输入。

16.根据权利要求1所述的类人机器人，其中，将来自所述对话模块的至少一个输出提供给能够执行选自于功能组的功能的模块，所述功能组包括：用于产生所述机器人的至少一个表达的功能；用于决定产生所述机器人的至少一个行为的功能；以及用于产生所述机器人的至少一个情感的功能。

17.根据权利要求16所述的类人机器人，其中，选自于所述功能组的所述功能是用于产生至少一个行为的所述功能，并且其中，用于产生至少一个行为的所述功能考虑所述机器人的***约束。

18.根据权利要求16所述的类人机器人，其中，选自于所述功能组的所述功能是用于产生至少一个情感的所述功能，并且其中，用于产生至少一个情感的所述功能能够响应于输入事件来产生在中性状态与预定义状态之间的一系列预定义的表达。

19.根据权利要求1所述的类人机器人，进一步包括视觉识别模块，其中，所述视觉识别模块能够解译来自所述至少一个用户的作为对话序列的开始或结束的至少一个手势。

20.根据权利要求6所述的类人机器人，其中，所述对话模块包括用于词典分析的子模块和用于解译所述词典分析子模块的输出的子模块，所述词典分析子模块能够产生当前对话的词语所关联的概念。

21.根据权利要求1所述的类人机器人，其中，所述对话模块能够处理来自所述至少一个用户的、与其物理***和/或逻辑***的状态有关的问题和命令。

22.一种在类人机器人与至少一个用户之间对话的方法，包括：

i)识别源自至少一个传感器的输入的至少一个步骤，所述至少一个传感器选自于包括由所述至少一个用户产生的事件的音频传感器和视频传感器的组；

ii)向所述至少一个用户产生事件的步骤；以及

iii)与所述至少一个用户的所述对话的对话步骤，所述对话步骤接收来自所述至少一个识别步骤的输出作为输入，并生成到所述产生事件的步骤的输出，所述事件选自于包括语音、移动、表达和情感的组，其中，所述方法进一步包括借助人工智能引擎根据对话的上下文和将所述机器人的情感定义为中性状态和终端状态之间的一系列表达的变量来控制所述事件产生模块的输出的步骤，所述中性状态和所述终端状态之间的演变是由根据时间和所述至少一个传感器、所述事件识别模块、所述对话模块以及所述事件产生模块的输出中的一个或多个而产生的脉冲来触发的。

23.根据权利要求22所述的对话的方法，其中，定义所述机器人可利用的资源中的一个或多个或者应用于所述机器人的***约束的变量包括所述机器人的电池水平和温度。

24.根据权利要求22所述的对话的方法，其中，所述机器人保存与至少两个用户的对话，表征所述至少两个用户的参数被存储在所述机器人的存储器中，以便当所述机器人识别出所述至少两个用户之一时使用。

25.一种在类人机器人与至少一个用户之间对话的装置，包括：

i)用于识别源自至少一个传感器的输入的至少一个单元，所述至少一个传感器选自于包括由所述至少一个用户产生的事件的音频传感器和视频传感器的组；

ii)用于向所述至少一个用户产生事件的单元；以及

iii)用于与所述至少一个用户进行对话的单元，用于进行对话的所述单元接收来自用于识别的所述至少一个单元的输出作为输入，并生成到用于产生事件的所述单元的输出，所述事件选自于包括语音、移动、表达和情感的组，其中，所述装置进一步包括用于借助人工智能引擎根据对话的上下文和将所述机器人的情感定义为中性状态和终端状态之间的一系列表达的变量来控制所述事件产生模块的输出的单元，所述中性状态和所述终端状态之间的演变是由根据时间和所述至少一个传感器、所述事件识别模块、所述对话模块以及所述事件产生模块的输出中的一个或多个而产生的脉冲来触发的。

26.根据权利要求25所述的装置，其中，定义所述机器人可利用的资源中的一个或多个或者应用于所述机器人的***约束的变量包括所述机器人的电池水平和温度。

27.根据权利要求25所述的装置，其中，所述机器人保存与至少两个用户的对话，表征所述至少两个用户的参数被存储在所述机器人的存储器中，以便当所述机器人识别出所述至少两个用户之一时使用。