CN107622300B - 多模态虚拟机器人的认知决策方法和*** - Google Patents
多模态虚拟机器人的认知决策方法和*** Download PDFInfo
- Publication number
- CN107622300B CN107622300B CN201710679216.9A CN201710679216A CN107622300B CN 107622300 B CN107622300 B CN 107622300B CN 201710679216 A CN201710679216 A CN 201710679216A CN 107622300 B CN107622300 B CN 107622300B
- Authority
- CN
- China
- Prior art keywords
- decision
- result
- mode
- virtual robot
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000019771 cognition Effects 0.000 claims abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims description 17
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 230000002996 emotional effect Effects 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 239000000969 carrier Substances 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 230000003930 cognitive ability Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种多模态虚拟机器人的认知决策方法,其包括以下步骤:获取需要作出决策的决策事件相关的单模态和/或多模态信息;调用机器人能力接口并结合先验知识对决策事件进行认知,其中,认知的结果受多轮对话辅助以及用户情感辅助的影响;根据认知的结果结合单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出所策结果。本发明提供的多模态虚拟机器人的认知决策方法和***使得机器人具备独立思维能力,能够对需要决策的事件进行认知、分析以及评估,基于贝叶斯理论进行认知,结合分析以及评估的结果来进行决策,还能够根据用户的属性以及行为习惯为用户提供决策意见,对用户的决策进行指导,实现机器人对用户的辅助。
Description
技术领域
本发明涉及人工智能领域,具体地说,涉及一种多模态虚拟机器人的认知决策方法和***。
背景技术
广义上的决策,是指在对多个选择中,根据条件或者排序的方式选择最佳的一个或几个。在聊天对话***中,一般是需要对进行输出的内容进行决策。这个过程中,并没有对机器人本身的认知思考能力有体现/设计,对于多模态交互的需求也是不够的。
因此,急需一种具有独立认知能力,并且能够进行独立决策的多模态虚拟机器人的方法和***。
发明内容
为解决上述问题,本发明提供了一种多模态虚拟机器人的认知决策方法,所述方法包括以下步骤:
获取需要作出决策的决策事件相关的单模态和/或多模态信息;
调用机器人能力接口并结合先验知识对所述决策事件进行认知,其中,所述认知的结果受多轮对话辅助以及用户情感辅助的影响;
根据所述认知的结果结合所述单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出所述决策结果。
根据本发明的一个实施例,所述单模态和/或多模态信息包括:
通过观察获取的所述决策事件相关的实时信息;和/或
通过具有查询功能的设备查询得到的所述决策事件的相关信息。
根据本发明的一个实施例,所述先验知识为贝叶斯理论。
根据本发明的一个实施例,对所述决策事件进行认知的步骤包括:
根据贝叶斯理论判断出所述决策事件每种可能结果的发生概率;
调用机器人能力接口评估所述每种可能结果的优势以及劣势。
根据本发明的一个实施例,生成决策结果的步骤还包括:
根据用户的属性以及行为习惯生成所述决策结果。
根据本发明的另一个方面,还提供了一种存储介质,其上存储有可执行如以上实施例中任一项所述的方法步骤的程序代码。
根据本发明的另一个方面,还提供了一种多模态虚拟机器人的认知决策***,所述***包括:
获取模块,其用于获取需要作出决策的决策事件相关的单模态和/或多模态信息;
认知模块,其用于调用机器人能力接口并结合先验知识对所述决策事件进行认知,其中,所述认知的结果受多轮对话辅助以及用户情感辅助的影响;
决策模块,其用于根据所述认知的结果结合所述单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出所述决策结果。
根据本发明的一个实施例,所述获取模块包括:
观察子模块,其用于通过观察获取所述决策事件的实时信息;和/或
查询子模块,其用于通过具有查询功能的设备查询得到所述决策事件的相关信息。
根据本发明的一个实施例,所述认知模块包括:
概率子模块,其用于根据先验知识判断出所述决策事件每种可能结果的发生概率;
评估子模块,其用于调用机器人能力接口评估所述每种可能结果的优势以及劣势。
根据本发明的一个实施例,所述决策模块包括:
用户属性子模块,其用于根据用户的属性以及行为习惯生成所述决策结果。
本发明提供的多模态虚拟机器人的认知决策方法和***具备独立思维能力,能够对需要决策的事件进行认知、分析以及评估,基于贝叶斯理论进行认知,结合分析以及评估的结果来进行决策,可以根据用户的属性以及行为习惯为用户提供决策意见,对用户的决策进行指导,实现机器人对用户的辅助。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1显示了根据本发明的一个实施例的多模态虚拟机器人帮助用户进行认知决策的交互示意图;
图2显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的决策过程框图;
图3显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策***的模块框图;
图4显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策***的结构框图;
图5显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的模块工作框图;
图6显示了根据本发明的一个实施例的多模态虚拟机器人的决策结果的影响因素示意图;
图7显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的流程图;
图8进一步显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的细节流程图;
图9显示了根据本发明的一个实施例的多模态虚拟机器人的帮助用户决策的另一流程图;以及
图10进一步详细地显示了根据本发明的一个实施例在用户、安装了虚拟机器人的目标硬件设备以及云端服务器三方之间进行通信的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明实施例作进一步地详细说明。
为表述清晰,需要在实施例前进行如下说明:
所述虚拟机器人为多模态交互机器人,使得多模态交互机器人成为交互过程中的一员,用户与该多模态交互机器人进行问答、聊天、游戏。所述虚拟形象为所述多模态交互机器人的载体,对所述多模态交互机器人的多模态输出进行表现。虚拟机器人(以虚拟形象为载体)为:所述多模态交互机器人与虚拟形象为载体的共同体,即:以确定的UI形象设计为载体;基于多模态人机交互,具有语义、情感、认知等AI能力;使用户享受流畅体验的个性化及智能化的服务机器人。在本实施例中,所述虚拟机器人包括:3D高模动画的虚拟机器人形象。
所述云端服务器为,提供所述多模态交互机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、情感计算、认知计算)的处理能力的终端,实现与用户的交互,以便帮助用户进行决策。
图1显示了根据本发明的一个实施例的多模态虚拟机器人帮助用户进行认知决策的交互示意图。
如图1所示,包含用户101、目标硬件设备102、虚拟机器人103以及云端服务器104。其中,与虚拟机器人103交互的用户101可以为单个的人、另一个虚拟机器人以及实体的机器人,另一虚拟机器人以及实体机器人与虚拟机器人的交互过程与单个的人与虚拟机器人的交互过程类似,因此,在图1中仅展示的是用户(人)与虚拟机器人的多模态交互过程。
另外,目标硬件设备102包括显示区域1021以及硬件设备1022。显示区域1021用于显示虚拟机器人103的形象,硬件设备1022与云端服务器104配合使用,用于决策过程中的数据处理。虚拟机器人103需要屏显载体来呈现。因此,显示区域1021包括:PC屏、投影仪、电视机、多媒体显示屏、全息投影、VR以及AR。本发明提出的多模态交互过程需要一定的硬件性能作为支撑,一般来说,选用有主机的PC端来作为硬件设备1022。在图1中显示区域1021选用的是PC屏。
图1中虚拟机器人103与用户101之间交互用于帮助用户101进行决策的过程为:
首先,获取需要作出决策的决策事件相关的单模态和/或多模态信息。在进行用户101以及虚拟机器人103的交互之前,用户101可以唤醒目标硬件设备102中的虚拟机器人103,以使得虚拟机器人103进入认知决策模式。唤醒虚拟机器人103的手段可以为声纹、虹膜等生物特征、触摸、按键、遥控器以及特定肢体动作、手势等。另外,用户101也可以设定特定的时间使虚拟机器人103进入认知决策模式。在进入认知决策模式之后,用户101可以与虚拟机器人103展开交互,用户101会通过单模态和/或多模态的形式输出自己需要与虚拟机器人103进行交互的内容,目标硬件设备102获取用户101输出的单模态和/或多模态交互信息。
用户101发送的单模态和/或多模态交互信息可以包含文本信息、音频信息、图像信息以及视频信息。目标硬件设备102中配置有专门收集这些信息的模块,模块包含获取文本信息的文本获取单元、获取音频信息的音频获取单元、获取图像以及视频信息的图像以及视频获取单元。其中,文本获取单元可以包含实体键盘以及软键盘,音频获取单元可以包含麦克风,图像以及视频获取单元可以包含摄像头。其他可以获取用户101发送的单模态和/或多模态交互信息的输入获取装置都可以应用到本发明的输入获取模块中来,本发明不限于此。
虚拟机器人103获取需要作出决策的决策事件相关的单模态和/或多模态信息的方式有多种,虚拟机器人103可以通过网络浏览需要决策的事件相关的信息,并记录下来,也可以获取决策事件的实时进展。
在获取需要作出决策的决策事件相关的单模态和/或多模态信息后,调用机器人能力接口并结合先验知识对决策事件进行认知,其中,认知的结果受多轮对话辅助以及用户情感辅助的影响。机器人能力接口包含多种机器人的能力,这些机器人的能力能够对获取到的单模态和/或多模态信息进行认知,即像人类一样进行辨析以及思考,对信息进行处理。
先验知识一般指的是贝叶斯先验知识,可以通过贝叶斯法则来计算事情发生的概率,贝叶斯法则(Bayesian law),尽管贝叶斯法则是一个数学公式,但其原理毋需数字也可明了。如果看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当不能准确知悉一个事物的本质时,可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是,支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。虚拟机器人103可以运用贝叶斯先验知识结合获取到的决策事件的单模态和/或多模态信息来对决策事件进行认知,产生自己对于决策事件的判断。
在虚拟机器人103进行认知的过程中,用户101的主观因素会对虚拟机器人103的认知结果产生影响,其中,用户101的主观因素包含,用户101与虚拟机器人103进行多轮对话后用户101输出的信息以及用户101的情感因素,虚拟机器人103会综合用户101的主观因素以及获取到的决策事件的单模态和/或多模态信息进行认知,得出认知的结果。
多轮对话过程中,虚拟机器人103会输出决策事件相关的问题,获取用户101对此问题的答复,整合用户101的答复来对决策事件进行认知。由于每个用户101都是独特的个体,所以,虚拟机器人103还会根据用户101自身的情感因素来对决策事件进行相应的认知,根据认知的结果结合单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出决策结果。虚拟机器人103生成决策结果的过程中也需要调用机器人能力接口,通过机器人能力接口来做出最后的决策结果,供用户采纳。
在输出单模态和/或多模态决策结果时,通过虚拟机器人的形象来输出,虚拟机器人的形象可以通过表情、嘴型、动作等形式来配合输出单模态和/或多模态的决策结果。
在此需要说明的是,虚拟机器人103的形象以及装扮不限于一种模式。虚拟机器人103可以具备不同的形象以及装扮。虚拟机器人103的形象一般为3D高模动画形象。虚拟机器人103可以具备不同的外貌以及装饰。例如,虚拟机器人103可以为形象清纯的大姐姐形象,也可以是帅气阳光的大哥哥形象。每种虚拟机器人103的形象还会对应多种不同的装扮,装扮的分类可以依据季节分类,也可以依据场合分类。这些形象以及装扮可以存在于云端服务器104中,也可以存在于目标硬件设备102中,在需要调用这些形象以及装扮时可以随时调用。后期运营人员会定期上传新的形象与装扮至交互平台,用户可以根据需要,选择自己喜爱的形象以及装扮。
以上交互步骤简单来说就是,首先,获取需要作出决策的决策事件相关的单模态和/或多模态信息。然后,调用机器人能力接口并结合先验知识对决策事件进行认知,其中,认知的结果受多轮对话辅助以及用户情感辅助的影响。最后,根据认知的结果结合单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出决策结果。
图2显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的决策过程框图。在本发明中,目标硬件设备102事实上是用做了虚拟机器人103的显示载体以及交互内容的显示载体。云端服务器104为虚拟机器人数据的载体。下面举一个例子说明虚拟机器人103帮助用户101进行决策的过程。例如,用户101准备出门,但是天气不好,思考要不要带雨伞。
虚拟机器人103首先通过摄像头或其他图像捕捉设备来观察屋外的天气情况,查看天空是否有乌云,是否有风,是否打雷,将观察到的天气状况记录并存储下来。
接着,虚拟机器人103查询天气信息,虚拟机器人103通过连接网络,查看所在地的实时天气预报。然后,虚拟机器人103会根据贝叶斯先验知识来判断下雨的可能性。虚拟机器人103还会分析用户101带伞的便捷性,考虑用户101是否背包,雨伞是否轻便等问题。
虚拟机器人103会结合观察到的天气情况、查询到的天气预报、根据先验知识判断的下雨可能性以及带伞的便捷性来作出决策,指导用户101带雨伞或不带雨伞。
在实际情况中,虚拟机器人103如果观察到天空乌云密布,查看天气预报后,天气预报显示当天有雨,且通过先验知识判断当天有很大几率下雨且用户101携带雨伞便利的情况下,虚拟机器人103会提示用户101带雨伞出门。
图3显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策***的模块框图。如图3所示,包含输入获取模块301、事件认知模块302以及决策输出模块303。其中,目标硬件设备102包含输入获取模块301、事件认知模块302以及决策输出模块303。云端服务器104包含事件认知模块302以及决策输出模块303。
其中,输入获取模块301用于获取需要作出决策的决策事件相关的单模态和/或多模态信息。用户101输入的单模态和/或多模态信息包含文本信息、音频信息、图像信息以及视频信息。为了获取这些多模态的信息,目标硬件设备102中需配置有能够获取这些多模态信息对应的模块,即输入获取模块301。输入获取模块301中的输入设备的例子包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。输出决策结果的输出设备例如包括显示屏、扬声器、触觉响应设备等等。目标硬件设备102可以通过以上提到的输入设备来获取用户101的输出信息。
为了帮助用户101进行决策,虚拟机器人103需具备认知决策事件信息的能力,即事件认知模块302。事件认知模块302用于调用机器人能力接口并结合先验知识对决策事件进行认知,其中,认知的结果受多轮对话辅助以及用户情感辅助的影响。事件认知模块302能够整合虚拟机器人103之前搜集到的信息,对这些信息进行分析和判断,产生认知结果。影响认知结果的因素也是多种多样,既包含决策事件相关的客观因素,也包含用户101的主观因素,例如,用户101在多轮对话中输出的信息以及用户的情感因素。
在产生认知结果后,虚拟机器人103需要对决策事件进行决策,并将决策结果输出出来。决策输出模块303用于根据认知的结果结合单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出决策结果。决策输出模块303能够将认知结果以及其他信息进行结合,做出决策结果。然后,通过虚拟机器人的形象以单模态和/或多模态的形式输出决策结果。
图4显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策***的结构框图。如图4所示,包含用户101、输入获取模块301、显示区域1021、事件认知模块302、决策输出模块303以及云端服务器104。其中,事件认知模块302包含事件认知模块A以及事件认知模块B。决策输出模块303包含决策输出模块303A以及决策输出模块B。
需要作出决策的用户101可以是单个的人、单个的实体机器人以及单个的虚拟机器人。在用户101需要对决策事件做出决策时,首先,用户101可以通过输出数据来向虚拟机器人103传达决策事件的信息。这些输出的信息包含文本信息、音频信息、图像信息以及视频信息。目标硬件设备102中的输入获取模块301通过麦克风、键盘以及摄像头获取用户101输出的多模态信息。
为了提升用户101的用户体验,在本发明提供的认知***中,虚拟机器人103会以3D形象显示在显示区域1021上,虚拟机器人103通过脸部的表情、嘴型以及肢体动作来与用户101进行多模态的交互。
为了对决策事件进行决策,认知决策***还包含事件认知模块302以及决策输出模块303,这两个模块在目标硬件设备102以及云端服务器104中均有设置。其中,事件认知模块302能够对决策事件进行认知,产生认知结果。决策输出模块302能够根据认知结果产生决策结果,通过虚拟机器人103来输出决策结果。通过这两个模块的配合,就能够完成决策事件的认知以及决策,使得虚拟机器人103能够给用户101提供决策方面的意见。
图5显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的模块工作框图。如图5所示,包含输入获取模块301、事件认知模块302以及决策输出模块303。其中,输入获取模块301包含文本采集单元3011、音频采集单元3012、图像采集单元3013以及视频采集单元3014。事件认知模块302包含贝叶斯单元3021、解析单元3022、对话单元3023以及情感单元3024。决策输出单元303包含决策单元3031以及输出单元3032。
输入获取模块301中的文本采集单元3011用于采集用户101输入的文本信息。音频采集单元3012用于采集用户101输入的音频信息。图像采集单元3013以及视频采集单元3014可以为摄像头,摄像头可以间隔一段时间拍摄一张用户101的图像信息,然后选择合适的用户101的图像信息。间隔时间可以是2分钟,也可以是其他任意时间,间隔时间参数在设计***的时候被设定好,可以在后续使用时进行修改。
事件认知模块302中包含的贝叶斯单元3011会根据贝叶斯先验知识,对决策事件做出认知,然后,解析单元3012会对输入获取模块301采集的信息进行解析,并做出认知。其中,解析单元3012解析结果还受对话单元3023以及情感单元3024的影响。对话单元用于记录虚拟机器人103与用户101展开多轮对话的对话内容。情感单元3024用于记录用户101的情感状态。
决策输出模块303用于根据认知的结果结合单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出决策结果。其中包含的决策单元3031用于做出决策结果,输出单元3032用于输出决策结果。
图6显示了根据本发明的一个实施例的多模态虚拟机器人的决策结果的影响因素示意图。如图6所示,包含对话因素A1、情感因素A2、观察因素B1以及查询因素B2。其中,对话因素A1以及情感因素A2属于影响决策结果的用户101的主观因素。观察因素B1以及查询因素B2属于影响决策结果的客观因素。
在本发明提供的多模态虚拟机器人的认知决策方法中,虚拟机器人103会在进行认知之前对决策事件进行观察,得出实时的观察结果。虚拟机器人103还会查询决策事件的既往或展望资料,确定查询结果。以上两种结果对决策结果的影响是客观的,不带有主观影响的。
另外,由于虚拟机器人103需要提供决策指导的用户101具有个体差异性,因此,用户101的主观因素对于决策结果也有着至关重要的影响。用户101的主管因素可以表现在用户101与虚拟机器人103进行多轮对话的过程中输出的信息,还包含用户101自身的情感因素。这两个因素均带有用户101自身独特的主观倾向,因此,对决策结果的影响也颇大。
虚拟机器人103会调用机器人能力接口,综合主观以及客观两方面的因素,对用户101需作出决策的决策事件做出决策,产生决策结果,并通过虚拟机器人形象输出决策结果,指导用户101的行为。
图7显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的流程图。
如图7所示,在步骤S701中,虚拟机器人103获取需要作出决策的决策事件相关的单模态和/或多模态信息。然后,在步骤S702中,虚拟机器人103调用机器人能力接口并结合先验知识对决策事件进行认知,其中,认知的结果受多轮对话辅助以及用户情感辅助的影响。最后,在步骤S703中,虚拟机器人103根据认知的结果结合单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出决策结果。
以上步骤,总结来说就是,虚拟机器人103与用户101之间需要通过交互对话来传递信息,虚拟机器人103会将与用户交互对话的信息进行记录。此外,虚拟机器人103还会通过观察以及查询搜集决策事件的资料,并记录。然后,虚拟机器人103会根据搜集到的资料以及记录的与用户101进行交互对话的信息作出认知以及决策,并通过虚拟机器人103的形象来输出决策结果。
图8进一步显示了根据本发明的一个实施例的多模态虚拟机器人的认知决策方法的细节流程图。
如图8所示,在步骤S801中,虚拟机器人103获取需要做出决策的决策事件相关的单模态和/或多模态信息。接着,在步骤S802中,虚拟机器人103根据贝叶斯理论判断出决策事件每种可能结果的发生概率。然后,在步骤S803中,虚拟机器人103调用机器人能力接口评估每种可能结果的优势以及劣势。最后,在步骤S804中,虚拟机器人103根据认知的结果结合单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出决策结果。
在虚拟机器人103对决策事件的信息进行认知的部分,可以采用贝叶斯理论首先判断决策事件的发生概率,然后分析各种可能性的优势以及劣势。整合每种可能结果的概率以及优劣势以后,虚拟机器人103在作出决策结果时就会更加精确,更加具有指导意义。
图9显示了根据本发明的一个实施例的多模态虚拟机器人的帮助用户决策的另一流程图。如图所示,在步骤S901中,目标硬件设备102向云端服务器104发出请求内容。之后,目标硬件设备102一直处于等待云端服务器104完成云端服务器104部分任务的状态。在等待的过程中,目标硬件设备102会对返回数据所花费的时间进行计时操作。如果长时间未得到返回数据,比如,超过了预定的时间长度10S,则目标硬件设备102会选择进行本地回复,生成本地常用应答数据。然后由虚拟机器人形象输出与本地常用应答配合的动画,并调用语音播放设备播放语音。
图10进一步详细地显示了根据本发明的一个实施例在用户、安装了虚拟机器人的目标硬件设备以及云端服务器三方之间进行通信的流程图。
如图10所示,在虚拟机器人103帮助用户101进行决策时,需要用户101、虚拟机器人103以及云端服务器104之间保持通信畅通,以进行信息以及数据的交换。图10显示了虚拟机器人103帮助用户101进行决策时三方之间进行通信的具体流程图。
首先,用户101输出单模态和/或多模态信息,用户101通过输出的信息,使得虚拟机器人103知晓用户101急需进行决策的决策事件。其中,单模态和/或多模态信息包含文本信息、音频信息、图像信息以及视频信息。目标硬件设备102中的输入获取模块301会接收这些多模态信息,将这些用户101发送的信息传送至虚拟机器人103。
虚拟机器人103知晓用户101急需决策的决策事件后会获取需要做出决策的决策事件相关的单模态和/或多模态信息。获取的信息可以包含通过观察获取的决策事件相关的实时信息和通过具有查询功能的设备查询的决策事件的相关信息。这两方面的信息对虚拟机器人103帮助用户101进行决策具有一定的影响,因此,在虚拟机器人103知晓用户101需要进行决策的事件后虚拟机器人103会获取需要作出决策的决策事件相关的单模态和/或多模态信息。
虚拟机器人103在将需要搜集的决策事件信息都搜集完毕后,需要对搜集到的信息进行分析,并帮助用户101作出决策。虚拟机机器人103会根据贝叶斯理论来判断出决策事件每种可能结果的发生概率,虚拟机器人103还会调用机器人能力接口评估每种可能结果的优势以及劣势。
最后,虚拟机器人103会根据认知的结果结合单模态和/或多模态信息生成决策结果。虚拟机器人103会以单模态和/或多模态的形式输出决策结果。
需要说明的是,除了以上提到的可以影响虚拟机器人103作出决策意见的信息,用户101的主观因素也会对虚拟机器人103帮助用户101作出决策意见产生影响。用户101的主观因素包含用户101与虚拟机器人103进行多轮对话时表达出的信息和用户101的情感因素。虚拟机器人103也会根据以上两种用户101的主观因素在作出决策意见时进行权衡。
本发明提供的多模态虚拟机器人的认知决策方法和***具备独立思维能力,能够对需要决策的事件进行认知、分析以及评估,基于贝叶斯理论进行认知,结合分析以及评估的结果来进行决策,还能够根据用户的属性以及行为习惯为用户提供决策意见,对用户的决策进行指导,实现机器人对用户的辅助。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (3)
1.一种多模态虚拟机器人的认知决策方法,其特征在于,所述虚拟机器人是以多模态交互机器人与虚拟形象为载体的共同体,所述虚拟机器人以确定的UI形象设计为载体,基于多模态人机交互,具有语义、情感、认知能力,使用户享受流畅体验的个性化及智能化的服务机器人,所述虚拟机器人包括3D高模动画的虚拟机器人形象,所述方法包括以下步骤:
获取需要作出决策的决策事件相关的单模态和/或多模态信息,其中,所述单模态和/或多模态信息包括:通过观察获取的所述决策事件相关的实时信息和/或通过具有查询功能的设备查询得到的所述决策事件的相关信息;
调用机器人能力接口并结合先验知识对所述决策事件进行认知,其中,所述认知的结果受多轮对话辅助以及用户情感辅助的影响,所述先验知识为贝叶斯理论;
根据所述认知的结果结合所述单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出所述决策结果,其中,根据用户的属性以及行为习惯生成所述决策结果,决策结果的影响因素包括对话因素、情感因素、观察因素以及查询因素,虚拟机器人会在进行认知之前对决策事件进行观察,得出实时的观察结果,虚拟机器人还会查询决策事件的既往或展望资料,确定查询结果,观察结果和查询结果对决策结果的影响是客观的,用户的主观因素对于决策结果也有影响,用户的主观因素表现在用户与虚拟机器人进行多轮对话的过程中输出的信息,还包含用户自身的情感因素;
在输出单模态和/或多模态决策结果时,通过虚拟机器人的形象来输出,虚拟机器人的形象通过表情、嘴型、动作形式来配合输出单模态和/或多模态的决策结果;
对所述决策事件进行认知的步骤包括:
根据贝叶斯理论判断出所述决策事件每种可能结果的发生概率;
调用机器人能力接口评估所述每种可能结果的优势以及劣势。
2.一种存储介质,其上存储有可执行如权利要求1所述的方法步骤的程序代码。
3.一种多模态虚拟机器人的认知决策***,其特征在于,所述虚拟机器人是以多模态交互机器人与虚拟形象为载体的共同体,所述虚拟机器人以确定的UI形象设计为载体,基于多模态人机交互,具有语义、情感、认知能力,使用户享受流畅体验的个性化及智能化的服务机器人,所述虚拟机器人包括3D高模动画的虚拟机器人形象,所述***包括:
获取模块,其用于获取需要作出决策的决策事件相关的单模态和/或多模态信息;
认知模块,其用于调用机器人能力接口并结合先验知识对所述决策事件进行认知,其中,所述认知的结果受多轮对话辅助以及用户情感辅助的影响;
决策模块,其用于根据所述认知的结果结合所述单模态和/或多模态信息生成决策结果并以单模态和/或多模态形式输出所述决策结果,其中,所述决策模块包括:用户属性子模块,其用于根据用户的属性以及行为习惯生成所述决策结果;
其中,所述获取模块包括:
观察子模块,其用于通过观察获取所述决策事件的实时信息;和/或
查询子模块,其用于通过具有查询功能的设备查询得到所述决策事件的相关信息;
决策结果的影响因素包括对话因素、情感因素、观察因素以及查询因素,虚拟机器人会在进行认知之前对决策事件进行观察,得出实时的观察结果,虚拟机器人还会查询决策事件的既往或展望资料,确定查询结果,观察结果和查询结果对决策结果的影响是客观的,用户的主观因素对于决策结果也有影响,用户的主观因素表现在用户与虚拟机器人进行多轮对话的过程中输出的信息,还包含用户自身的情感因素;
在输出单模态和/或多模态决策结果时,通过虚拟机器人的形象来输出,虚拟机器人的形象通过表情、嘴型、动作形式来配合输出单模态和/或多模态的决策结果;
所述认知模块包括:
概率子模块,其用于根据先验知识判断出所述决策事件每种可能结果的发生概率;
评估子模块,其用于调用机器人能力接口评估所述每种可能结果的优势以及劣势。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710679216.9A CN107622300B (zh) | 2017-08-09 | 2017-08-09 | 多模态虚拟机器人的认知决策方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710679216.9A CN107622300B (zh) | 2017-08-09 | 2017-08-09 | 多模态虚拟机器人的认知决策方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622300A CN107622300A (zh) | 2018-01-23 |
CN107622300B true CN107622300B (zh) | 2021-07-27 |
Family
ID=61088207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710679216.9A Active CN107622300B (zh) | 2017-08-09 | 2017-08-09 | 多模态虚拟机器人的认知决策方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622300B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168805B (zh) * | 2023-01-20 | 2023-08-01 | 北京瑞帆科技有限公司 | 一种用于认知训练的思维训练装置及认知训练*** |
CN116521872B (zh) * | 2023-04-27 | 2023-12-26 | 华中师范大学 | 一种认知和情感的联合识别方法、***及电子设备 |
CN116737940B (zh) * | 2023-08-14 | 2023-11-07 | 成都飞航智云科技有限公司 | 一种智能决策方法、决策*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376716B (zh) * | 2014-11-28 | 2017-01-11 | 南通大学 | 一种基于贝叶斯网络模型的公交时刻表动态生成方法 |
CN104965426A (zh) * | 2015-06-24 | 2015-10-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人控制***、方法和装置 |
CN104965592A (zh) * | 2015-07-08 | 2015-10-07 | 苏州思必驰信息科技有限公司 | 基于语音和手势识别的多模态非触摸人机交互方法及*** |
CN105843381B (zh) * | 2016-03-18 | 2020-07-28 | 北京光年无限科技有限公司 | 用于实现多模态交互的数据处理方法及多模态交互*** |
CN106371583B (zh) * | 2016-08-19 | 2020-07-31 | 北京儒博科技有限公司 | 一种智能设备的控制方法及装置 |
-
2017
- 2017-08-09 CN CN201710679216.9A patent/CN107622300B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107622300A (zh) | 2018-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105843381B (zh) | 用于实现多模态交互的数据处理方法及多模态交互*** | |
US10366691B2 (en) | System and method for voice command context | |
JP6902683B2 (ja) | 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器 | |
CN107340859B (zh) | 多模态虚拟机器人的多模态交互方法和*** | |
CN105690385B (zh) | 基于智能机器人的应用调用方法与装置 | |
CN107632706B (zh) | 多模态虚拟人的应用数据处理方法和*** | |
CN109176535B (zh) | 基于智能机器人的交互方法及*** | |
CN105320726B (zh) | 降低对手动开始/结束点和触发短语的需求 | |
CN107480766B (zh) | 多模态虚拟机器人的内容生成的方法和*** | |
JP6023685B2 (ja) | 感情情報表示制御装置、その方法及びプログラム | |
CN107704169B (zh) | 虚拟人的状态管理方法和*** | |
Rossi et al. | An extensible architecture for robust multimodal human-robot communication | |
CN106463114A (zh) | 信息处理设备、控制方法及程序 | |
CN106202165B (zh) | 人机交互的智能学习方法及装置 | |
CN109086860B (zh) | 一种基于虚拟人的交互方法及*** | |
CN107622300B (zh) | 多模态虚拟机器人的认知决策方法和*** | |
CN106796789A (zh) | 与话音参考点的协同言语交互 | |
US10685650B2 (en) | Mobile terminal and method of controlling the same | |
CN113703585A (zh) | 交互方法、装置、电子设备及存储介质 | |
Zobl et al. | Gesture components for natural interaction with in-car devices | |
CN108388399B (zh) | 虚拟偶像的状态管理方法及*** | |
KR102293743B1 (ko) | 인공지능 챗봇 기반 케어 시스템 | |
US11443738B2 (en) | Electronic device processing user utterance and control method thereof | |
KR20150066882A (ko) | 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치 | |
CN108628454B (zh) | 基于虚拟人的视觉交互方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230919 Address after: 100000 6198, Floor 6, Building 4, Yard 49, Badachu Road, Shijingshan District, Beijing Patentee after: Beijing Virtual Dynamic Technology Co.,Ltd. Address before: 100000 Fourth Floor Ivy League Youth Venture Studio No. 193, Yuquan Building, No. 3 Shijingshan Road, Shijingshan District, Beijing Patentee before: Beijing Guangnian Infinite Technology Co.,Ltd. |