CN107632706B

CN107632706B - 多模态虚拟人的应用数据处理方法和***

Info

Publication number: CN107632706B
Application number: CN201710810905.9A
Authority: CN
Inventors: 李晓丹; 尚小维
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2021-01-22
Anticipated expiration: 2037-09-08
Also published as: CN107632706A

Abstract

本发明提供一种多模态虚拟人的应用数据处理方法，其包括以下步骤：唤醒虚拟人，以使虚拟人显示在预设区域内，虚拟人具备特定的性格和属性；获取用户多模态交互数据；调用机器人能力接口解析多模态交互数据，获取针对当前硬件所运行的操作***的操作指令；向操作***发出操作请求，以在操作***上生成操作事件；由操作***对所述操作请求进行响应作为操作事件的执行结果；以多模态的形式对操作事件的执行结果进行输出展示。本发明提供的多模态虚拟人的应用数据处理方法和***能够以多模态的形式与用户展开内容详实的交互。并且，还能够在***层面辅助用户对硬件设备的应用以及功能进行控制，与用户交互的更加丰富，更加多样。

Description

多模态虚拟人的应用数据处理方法和***

技术领域

本发明涉及人工智能领域，具体地说，涉及一种多模态虚拟人的应用数据处理方法和***。

背景技术

虚拟人一般指能够与用户完成交互，与用户进行信息交换的信息传递***。目前的虚拟人虽然能够实现与用户的交互，但是没有虚拟人能够在***层面，作为助手辅助用户对硬件设备应用及功能进行控制。

因此，急需一种具有在***层面与用户进行交互的多模态虚拟人的应用数据处理方法和***。

发明内容

为解决上述问题，本发明提供了一种多模态虚拟人的应用数据处理方法，所述方法包括以下步骤：

唤醒虚拟人，以使所述虚拟人显示在预设区域内，所述虚拟人具备特定的性格和属性；

获取用户多模态交互数据；

调用机器人能力接口解析所述多模态交互数据，获取针对当前硬件所运行的操作***的操作指令；

向所述操作***发出操作请求，以在所述操作***上生成操作事件，其中，所述操作请求与所述虚拟人的性格以及属性有关联；

由所述操作***对所述操作请求进行响应作为所述操作事件的执行结果；

以多模态的形式对所述操作事件的执行结果进行输出展示。

根据本发明的一个实施例，如权利要求1所述的多模态虚拟人的应用数据处理方法，其特征在于，所述虚拟人通过可执行文件接口接入所述操作***；

和/或，

与操作***上安装的应用或文件进行操作权限的设置进行接入。

根据本发明的一个实施例，所述解析包含但不限于：对所述多模态交互数据的语义理解、视觉识别、认知计算以及情感计算。

根据本发明的一个实施例，所述操作请求生成时，所述虚拟人向用户发送确认信息，以确认所述操作请求的准确性。

根据本发明的一个实施例，对所述操作请求进行响应的步骤包括，在所述操作***获取权限认证的基础上，所述操作***响应所述操作请求。

根据本发明的一个实施例，以多模态的形式对所述操作事件的执行结果进行输出展示包括文本显示、语音输出、头部动作、肢体动作以及表情的输出。

根据本发明的一个实施例，所述虚拟人通过3D高模构建。

根据本发明的一个实施例，所述方法包括，所述虚拟人在用户输入为零输入时，获取用户当前状态数据，并结合所述操作***的当前运行状态，并将所述操作***的应用以及功能向用户进行推荐。

根据本发明的另一个方面，还提供一种存储介质，其上存储有可执行以上任一项所述的方法步骤的程序代码。

根据本发明的另一个方面，还提供一种多模态虚拟人的应用数据处理装置，所述装置包含：

唤醒模块，其用于唤醒虚拟人，以使所述虚拟人显示在预设区域内，所述虚拟人具备特定的性格和属性；

获取模块，其用于获取用户多模态交互数据；

解析模块，其用于调用机器人能力接口解析所述多模态交互数据，获取针对当前硬件所运行的操作***的操作指令；

处理模块，其用于向所述操作***发出操作请求，以在所述操作***上生成操作事件，其中，所述操作请求与所述虚拟人的性格以及属性有关联；

执行模块，其用于由所述操作***对所述操作请求进行响应作为所述操作事件的执行结果；

输出模块，其用于以多模态的形式对所述操作事件的执行结果进行输出展示。

根据本发明的一个实施例，所述装置包含虚拟人接入单元，其用于所述虚拟人通过可执行文件接口接入所述操作***；

和/或，

根据本发明的一个实施例，所述解析模块包含但不限于：对所述多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算的装置。

根据本发明的一个实施例，所述装置包括确认模块，其用于在所述操作请求生成时，所述虚拟人向用户发送确认信息，以确认所述操作请求的准确性。

根据本发明的一个实施例，所述执行模块包含，认证获取单元，其用于在所述操作***获取权限认证的基础上，所述操作***响应所述操作请求。

根据本发明的一个实施例，所述输出模块包含文本显示单元、语音输出单元、头部动作单元、肢体动作单元以及表情输出单元。

根据本发明的一个实施例，所述装置包含虚拟人形象模块，其用于存储所述虚拟人通过3D高模构建的形象。

根据本发明的一个实施例，所述装置包括，零输入模块，其用于所述虚拟人在用户输入为零输入时，获取用户当前状态数据，并结合所述操作***的当前运行状态，并将所述操作***的应用以及功能向用户进行推荐。

根据本发明的另一个方面，还提供了一种多模态虚拟人的应用数据处理***，其特征在于，所述***包含：

硬件设备，其用于显示虚拟人的形象以及用户与虚拟人交互过程中数据的处理；

云端服务器，其用于配合所述硬件设备完成以下步骤：

以多模态的形式对所述操作事件的执行结果进行输出展示。

本发明提供的多模态虚拟人的应用数据处理方法和***能够以多模态的形式与用户展开内容详实的交互。并且，本发明提供的多模态虚拟人的应用数据处理方法和***还能够在***层面辅助用户对硬件设备的应用以及功能进行控制，使得与用户交互的内容更加丰富，更加多样。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的交互示意图；

图2显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的具体事例处理过程示意图；

图3显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的设备示意图；

图4显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的模块框图；

图5显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的性格属性影响示意图；

图6显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的流程图；

图7显示了根据本发明的另一个实施例的多模态虚拟人的应用数据处理方法的流程图；

图8进一步显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理方法的详细流程图；

图9显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理方法的另一流程图；以及

图10进一步详细地显示了根据本发明的一个实施例的在用户、硬件设备以及云端服务器三方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

所述虚拟人为搭载于支持感知、控制等输入输出模块的智能设备；

以高仿真3d虚拟人物形象为主要用户界面，具备显著人物特征的外观；

支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力；

可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验的虚拟人物。

所述云端服务器为，提供所述多模态交互机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以便帮助用户进行决策。

图1显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的交互示意图。

如图1所示，包含用户101、硬件设备102、虚拟人103以及云端服务器104。其中，与虚拟人103交互的用户101可以为单个的人、另一个虚拟人以及实体的机器人，另一虚拟人以及实体机器人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似，因此，在图1中仅展示的是用户(人)与虚拟人的多模态交互过程。

另外，硬件设备102包括显示区域1021以及硬件设备1022。显示区域1021用于显示虚拟人103的形象，硬件设备1022与云端服务器104配合使用，用于决策过程中的数据处理。虚拟人103需要屏显载体来呈现。因此，显示区域1021包括：PC屏、投影仪、电视机、多媒体显示屏、全息投影、VR以及AR。本发明提出的多模态交互过程需要一定的硬件性能作为支撑，一般来说，选用有主机的PC端来作为硬件设备1022。在图1中显示区域1021选用的是PC屏。

图1中虚拟人103与用户101之间交互的过程为：

在交互开始之前，用户101需要唤醒虚拟人103，以使虚拟人显示在预设区域内。其中，虚拟人103具备特定的性格和属性。唤醒虚拟人103的手段可以为声纹、虹膜等生物特征、触摸、按键、遥控器以及特定肢体动作、手势等。另外，用户101也可以设定特定的时间等作为唤醒虚拟人的条件，使虚拟人103进入交互模式。虚拟人103还具备特定的性格和属性。这个性格可以是乐观开朗也可以是沉稳安静。虚拟人103的性格可以在设计之初就被设计者设定，虚拟人103也可以具备多种性格以供用户101选择。虚拟人103除了具备性格特征外，还具备属性特征。属性特性包含虚拟人103的一些属性特质，比如，教师、主持人、金融专家等角色，并具备其相应的社会属性，使得虚拟人103的性格、形象更加丰富，更加立体。

接着，获取用户多模态交互数据。用户101发出交互数据后，硬件设备102上的接收设备会接收用户多模态交互数据。多模态交互数据包含多种形式的数据，例如，用户输入的文本、音频、图像以及视频等数据，同时也包括环境数据，如周围环境温度、虚拟人通过硬件设备采集的当前场景图像等。硬件设备对应多模态数据也包含多种形式的接收设备。接收设备可以包含接收文本的键盘，接收音频的麦克风，接收图像以及视频的摄像头。其他可以获取用户101多模态交互数据的接收设备都可以应用到本发明中，本发明不限于此。

在接收多模态交互数据后，调用机器人能力接口解析多模态交互数据，获取针对当前硬件所运行的操作***的操作指令。虚拟人103会调用机器人能力接口来解析多模态交互数据，机器人能力接口一般包含语义理解、视觉识别、认知计算以及情感计算等。

对交互交互数据进行解析后，虚拟人103会获取针对当前操作***的操作指令，以便操作***执行此操作指令。所述操作***为硬件设备上所加载的操作***，该操作***支持应用运行、用户操作响应、用户偏好设置及***更新等。所述交互数据解析后生成了针对该操作***的操作请求，并向该操作***发出该操作请求，以在操作***上生成操作事件，其中，操作请求与虚拟人的性格以及属性有关联。在此步骤中，虚拟人103正式向操作***发出请求，然后在操作***上生成操作事件。操作请求除了受客观因素的影响，还受虚拟人103的主观因素影响。虚拟人103的性格以及属性会影响操作请求的生成。

最后，通过操作***对操作请求进行响应，以多模态的形式对操作事件的执行结果进行输出展示。操作***会对生成的操作请求进行响应，执行操作请求，并将执行的结果以多模态的形式输出给用户101。

在此需要说明的是，虚拟人103的形象以及装扮不限于一种模式。虚拟人103可以具备不同的形象以及装扮。虚拟人103的形象一般为3D高模动画形象。虚拟人103可以具备不同的外貌以及装饰。例如，虚拟人103可以为形象清纯的大姐姐形象，也可以是特定明星形象。每种虚拟人103的形象还会对应多种不同的装扮，装扮的分类可以依据季节分类，也可以依据场合分类。这些形象以及装扮可以存在于云端服务器104中，也可以存在于硬件设备102中，在需要调用这些形象以及装扮时可以随时调用。后期运营人员会定期上传新的形象与装扮至交互平台，用户可以根据需要，选择自己喜爱的形象以及装扮。

以上交互步骤简单来说就是，首先，唤醒虚拟人，以使虚拟人显示在预设区域内，虚拟人具备特定的性格和属性。然后，获取用户多模态交互数据。接着，调用机器人能力接口解析多模态交互数据，获取针对当前硬件所运行的操作***的操作指令。如，向虚拟人说，想听一首歌。虚拟人通过语音解析和文本语义理解，生成打开***应用“音乐”或者“网易云音乐”的操作指令。

然后，向操作***发出操作请求，以在操作***上生成操作事件，其中，操作请求与虚拟人的性格以及属性有关联。虚拟人向操作***发送打开音乐或者网易云音乐的操作请求，当前***生成打开音乐应用的操作事件。这里虚拟人如果是偏向于活泼，及娱乐人物属性，则更容易关联到富于娱乐性的网易云音乐。最后，通过操作***对操作请求进行响应，以多模态的形式对所述操作事件的执行结果进行输出展示。此时虚拟人则会以微笑、指示姿势输出已经打开网易云音乐的执行结果展示。

图2显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的具体事例处理过程示意图。图2展示的是虚拟人103对用户发出的“打开网易云音乐应用”的指令进行响应的过程。

用户发出了“打开硬件设备上的网易云音乐应用”的交互指令，用户发出指令的方式可以是文本输入，也可以是语音输入。硬件设备102上的接收设备会接收交互指令，并将交互指令传送至虚拟人103，虚拟人103会调用机器人能力接口解析交互指令，获取针对当前硬件所运行的操作***的“打开网易云音乐应用”的操作指令。

接着，虚拟人103会向操作***发出操作请求，以在操作***上生成“打开网易云音乐应用”的操作事件。然后，操作***会对操作请求进行响应，至此，网易云音乐应用打开成功。

需要说明的是，在打开网易云音乐应用的过程中，操作***需要获取用户的权限来进行打开网易云音乐这一动作。即，在未获取用户权限之前，操作***不能对操作请求进行响应。这一步骤设立的目的是为了降低用户个人设备被他人冒用的风险。

图3显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的设备示意图。如图3所示，包含手机301、平板电脑302、电脑302、展示设备304、虚拟人103以及云端服务器104。

本发明应用的场景可以是手机301、平板电脑302、电脑302以及展示设备304。这些设备上都安装有适合设备使用的原生操作***，用户101能够在原生操作***上实现生活中的基本需求。

为了完成与用户101的多模态交互，可以在这些设备上安装虚拟人103，通过虚拟人103来实现用户101的多模态交互。虚拟人103能够基于***所进行的操作指令执行，而实现与用户交互，执行用户101的需求。

图4显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的模块框图。如图4所示，包含唤醒模块401、获取模块401、解析模块403、处理模块404以及响应输出模块405。

其中，获取模块402包含文本采集单元4021、音频采集单元4022、图像采集单元4023以及视频采集单元4024。解析模块403包含语义理解单元4031、视觉识别单元4032、认知计算单元4033以及情感计算单元4034。处理模块404包含操作请求单元4041以及操作事件单元4042。

在交互过程中，首先，用户通过唤醒单元唤醒虚拟人103，接着，文本采集单元4021、音频采集单元4022、图像采集单元4023以及视频采集单元4024分别采集用户输出的文本数据、音频数据、图像数据以及视频数据。然后，操作请求单元4041生成操作请求，操作事件单元4042生成操作事件。

响应单元4051对操作请求进行响应，输出单元4052输出响应执行的结果。其中，响应单元4051属于硬件设备102，响应单元4051会首先接收需要响应的操作请求，然后将请求操作传输，传输至响应操作请求的具体执行装置，通过执行装置执行该操作请求。输出单元4052能够输出响应执行的结果。在输出的时候，虚拟人的形象会配合输出。虚拟人形象可以通过表情、嘴型以及动作等来配合输出的效果。输出的装置一般包含显示屏、麦克风以及音响等能够输出多模态信息的设备。

以上模块以及单元之间的配合能够在极大程度上满足用户101发送的交互指令中包含的需求，使得用户101与虚拟人103之间的交互的方式更加便捷，交互的效率更加高，交互的内容更加丰富。

图5显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的性格属性影响示意图。

如图5所示，虚拟人103在用户的所输入为零或用户请求虚拟人103推荐时，需要对用户101进行应用以及功能的推荐，在进行推荐的时候，推荐的结果受虚拟人103的性格、属性设定的影响。

例如，温柔知性的虚拟人，在针对用户说：“好无聊，有什么好消遣呢”时，虚拟人103更倾向于打开新闻应用或是音乐功能，而非是劲爆的游戏或是八卦的微博。

由于虚拟人103具备了此种性格特性，使得虚拟人103更加接近人类，虚拟人103的形象更加鲜活，更加真实。

图6显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理***的流程图。图6主要展示了能完成交互的最简方法的流程图。

在步骤S601中，唤醒虚拟人，以使虚拟人显示在预设区域内，虚拟人具备特定的性格和属性。

在步骤S602中，获取用户多模态交互数据。接着，在步骤S603中，调用机器人能力接口解析多模态交互数据，获取针对当前硬件所运行的操作***的操作指令。然后，在步骤S604中，向操作***发出操作请求，以在操作***上生成操作事件，其中，操作请求与虚拟人的性格以及属性有关联。

接着，在步骤S605中，由操作***对操作请求进行响应作为操作事件的执行结果。

最后，在步骤S606中，以多模态的形式对操作事件的执行结果进行输出展示。

根据图6展示的方法流程图，用户101就能够与虚拟人103展开内容丰富，气氛轻松愉快的交互。

图7显示了根据本发明的另一个实施例的多模态虚拟人的应用数据处理方法的流程图。图7是在图6流程图基础上的拓展，根据图7所示的方法流程图，能够更好的实现用户101与虚拟人103的交互。

在步骤S701中，唤醒虚拟人，以使虚拟人显示在预设区域内，虚拟人具备特定的性格和属性。

在步骤S702中，获取用户多模态交互数据。接着，在步骤S703中，对多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算。根据步骤S703的解析结果，在步骤S704中，获取针对当前硬件所运行的操作***的操作指令。然后，为了确认生成的操作请求用户是否认可，在步骤S705中，虚拟人103向用户发送确认信息，以确认操作请求的准确性。在用户确认操作请求无误后，在步骤S706中，向操作***发出操作请求，以在操作***上生成操作事件，其中，操作请求与虚拟人的性格以及属性有关。

接着，在步骤S707中，在操作***获取权限认证的基础上，操作***响应操作请求作为操作事件的执行结果。为了保护用户101设备的安全性，在响应操作请求前需要得到用户的权限认证，在得不到权限认证的基础上，操作***无权响应操作请求。

最后，在步骤S708中，以多模态的形式对操作事件的执行结果进行输出展示。即通过虚拟人103的形象以多模态的形式进行输出展示。

图8进一步显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理方法的详细流程图。在本流程图中，添加了对用户输入信息的判断以及操作指令等的判断过程。

首先，在步骤S801中，唤醒虚拟人，以使虚拟人显示在预设区域内。接着，在步骤S802中，获取用户多模态交互数据。接着，在步骤S803中，判断用户输出的多模态交互数据是否为零。在用户101主动唤醒虚拟人或虚拟人特定时间主动启动的情况下，虚拟人103在用户输出多模态交互数据之前一直处在等候的状态，在进行等候的时候，虚拟人103等候时间超过预设时间后，就会默认用户101的输入为零。

当用户的所输入为零时，在步骤S804中，虚拟人103会获取当前操作***的应用和功能硬件所运行的实时情况。然后，在步骤S805中，根据实时情况来向用户做出推荐。推荐操作***的应用和功能。

接着，在步骤S806中，判断用户是否认可推荐的应用与功能。若是，则进入步骤S808。若不是，则返回步骤S804，继续向用户101进行推荐。

若用户101的所输入不是零，则进入步骤S807，在步骤S807中，对多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算。然后根据解析的结果，在步骤S808中，获取针对当前硬件所运行的操作***的操作指令。

接着，在步骤S809中，判断用户是否确定执行操作指令。若用户选择否，则返回至步骤S804或步骤S807，继续推荐应用和功能或是继续解析用户的多模态交互指令。

若用户确定执行操作指令，则在步骤S810中，向操作***发出操作请求，以在操作***上生成操作事件，其中，操作请求与虚拟人的性格以及属性有关。然后，接着，在步骤S811中，在操作***获取权限认证的基础上，操作***响应操作请求作为操作事件的执行结果。

最后，在步骤S812中，以多模态的形式对操作事件的执行结果进行输出展示。

通过图8所示的方法流程图，虚拟人103就能够在用户101处在的所有状态下对交互的开展做出对应的行动，以使交互能够在用户101的输入为零时顺利开展。

图9显示了根据本发明的一个实施例的多模态虚拟人的应用数据处理方法的另一流程图。

如图所示，在步骤S901中，硬件设备102向云端服务器104发出请求内容。之后，硬件设备102一直处于等待云端服务器104完成云端服务器104部分任务的状态。

在等待的过程中，硬件设备102会对返回数据所花费的时间进行计时操作。如果长时间未得到返回数据，比如，超过了预定的时间长度10S，则硬件设备102会选择进行本地回复，生成本地常用应答数据。

然后由虚拟人形象输出与本地常用应答配合的动画，并调用语音播放设备播放语音。

图10进一步详细地显示了根据本发明的一个实施例在用户、硬件设备以及云端服务器三方之间进行通信的流程图。

如图10所示，在虚拟人103与用户101进行交互时，需要用户101、硬件设备102以及云端服务器104之间保持通信畅通，以进行信息以及数据的交换。图10显示了虚拟人103与用户101进行交互时三方之间进行通信的具体流程图。

如图10所示，首先，用户101发送唤醒指示，唤醒虚拟人103，以使虚拟人显示在预设区域内，虚拟人具备特定的性格和属性。

接着，硬件设备102获取用户多模态交互数据。用户101输入的多模态信息包含文本信息、音频信息、图像信息以及视频信息。为了获取这些多模态交互数据，硬件设备102中需配置有能够获取这些多模态交互数据对应的模块，即获取模块。

获取模块中的输入设备的例子包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。硬件设备102可以通过以上提到的输入设备来获取用户101的输出信息。

然后，虚拟人103向用户发送确认信息，以确认操作请求的准确性。在此之前，虚拟人103已经解析了多模态交互数据，并获取了针对当前硬件所运行的操作***的操作指令。用户101如果确认。则进入下一个步骤。若否认，则返回上一个步骤，再次解析用户101多模态交互数据。解析的过程一般为调用机器人能力接口对多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算。

用户101确认操作请求后，虚拟人103向操作***发出操作请求，以在操作***上生成操作事件，其中，操作请求与虚拟机器人的性格以及属性有关联。接着，在操作***获取权限认证的基础上，操作***响应操作请求作为操作事件的执行结果。

最后，通过虚拟人的形象以多模态的形式对操作事件的执行结果进行输出展示。输出展示的载体是虚拟人103的形象，虚拟人103会配合表情、嘴型以及肢体动作来进行输出展示。输出结果的输出设备例如包括显示屏、扬声器、触觉响应设备等等。

本发明提供的多模态虚拟人的应用数据处理方法和***能够以多模态的形式与用户展开内容详实的交互。并且，还能够在***层面辅助用户对硬件设备的应用以及功能进行控制，与用户交互的更加丰富，更加多样。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种多模态虚拟人的应用数据处理方法，其特征在于，所述方法包括以下步骤：

唤醒虚拟人，以使所述虚拟人显示在预设区域内，所述虚拟人具备特定的性格和属性，其中，所述虚拟人通过可执行文件接口接入操作***；和/或，与操作***上安装的应用或文件进行操作权限的设置进行接入，所述操作***为硬件设备上所加载的操作***，该操作***支持应用运行、用户操作响应、用户偏好设置及***更新；

获取用户多模态交互数据；

调用机器人能力接口解析所述多模态交互数据，获取针对当前硬件所运行的操作***的操作指令，其中，所述解析包含但不限于：对所述多模态交互数据的语义理解、视觉识别、认知计算以及情感计算；

以多模态的形式对所述操作事件的执行结果进行输出展示；

所述虚拟人在用户输入为零输入或用户请求虚拟人推荐时，获取用户当前状态数据，并结合所述操作***的当前运行状态，并将所述操作***的应用以及功能向用户进行推荐，推荐的结果受虚拟人的性格、属性设定的影响；

当用户的所输入为零时，虚拟人会获取当前操作***的应用和功能硬件所运行的实时情况，根据实时情况来向用户做出推荐，推荐操作***的应用和功能；

判断用户是否认可推荐的应用与功能，若是，则获取针对当前硬件所运行的操作***的操作指令，若不是，则继续向用户进行推荐；

若用户的所输入不是零，则对多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算，根据解析的结果，获取针对当前硬件所运行的操作***的操作指令；

判断用户是否确定执行操作指令，若用户选择否，则继续推荐应用和功能或是继续解析用户的多模态交互指令；

若用户确定执行操作指令，则向操作***发出操作请求，以在所述操作***上生成操作事件，其中，所述操作请求与所述虚拟人的性格以及属性有关联，接着，在操作***获取权限认证的基础上，操作***响应操作请求作为操作事件的执行结果。

2.如权利要求1所述的多模态虚拟人的应用数据处理方法，其特征在于，所述方法包括，所述操作请求生成时，所述虚拟人向用户发送确认信息，以确认所述操作请求的准确性。

3.如权利要求1所述的多模态虚拟人的应用数据处理方法，其特征在于，对所述操作请求进行响应的步骤包括，在所述操作***获取权限认证的基础上，所述操作***响应所述操作请求。

4.如权利要求1所述的多模态虚拟人的应用数据处理方法，其特征在于，以多模态的形式对所述操作事件的执行结果进行输出展示包括文本显示、语音输出、头部动作、肢体动作以及表情的输出。

5.如权利要求1所述的多模态虚拟人的应用数据处理方法，其特征在于，所述虚拟人通过3D高模构建。

6.一种存储介质，其上存储有可执行如权利要求1-5中任一项所述的方法步骤的程序代码。

7.一种多模态虚拟人的应用数据处理装置，其特征在于，所述装置包含：

唤醒模块，其用于唤醒虚拟人，以使所述虚拟人显示在预设区域内，所述虚拟人具备特定的性格和属性，其中，所述虚拟人通过可执行文件接口接入操作***；和/或，与操作***上安装的应用或文件进行操作权限的设置进行接入，所述操作***为硬件设备上所加载的操作***，该操作***支持应用运行、用户操作响应、用户偏好设置及***更新；

获取模块，其用于获取用户多模态交互数据；

解析模块，其用于调用机器人能力接口解析所述多模态交互数据，获取针对当前硬件所运行的操作***的操作指令，其中，所述解析模块包含但不限于：对所述多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算的装置；

输出模块，其用于以多模态的形式对所述操作事件的执行结果进行输出展示；

零输入模块，其用于所述虚拟人在用户输入为零输入或用户请求虚拟人推荐时，获取用户当前状态数据，并结合所述操作***的当前运行状态，并将所述操作***的应用以及功能向用户进行推荐，推荐的结果受虚拟人的性格、属性设定的影响；

8.如权利要求7所述的多模态虚拟人的应用数据处理装置，其特征在于，所述装置包括确认模块，其用于在所述操作请求生成时，所述虚拟人向用户发送确认信息，以确认所述操作请求的准确性。

9.如权利要求7所述的多模态虚拟人的应用数据处理装置，其特征在于，所述执行模块包含，认证获取单元，其用于在所述操作***获取权限认证的基础上，所述操作***响应所述操作请求。

10.如权利要求7所述的多模态虚拟人的应用数据处理装置，其特征在于，所述输出模块包含文本显示单元、语音输出单元、头部动作单元、肢体动作单元以及表情输出单元。

11.如权利要求7所述的多模态虚拟人的应用数据处理装置，其特征在于，所述装置包含虚拟人形象模块，其用于存储所述虚拟人通过3D高模构建的形象。

12.一种多模态虚拟人的应用数据处理***，其特征在于，所述***包含：

硬件设备，其用于显示虚拟人的形象以及用户与虚拟人交互过程中数据的处理，其中，所述虚拟人通过可执行文件接口接入操作***；和/或，与操作***上安装的应用或文件进行操作权限的设置进行接入，所述操作***为硬件设备上所加载的操作***，该操作***支持应用运行、用户操作响应、用户偏好设置及***更新；

云端服务器，其用于配合所述硬件设备完成以下步骤：

以多模态的形式对所述操作事件的执行结果进行输出展示；