CN107808191A

CN107808191A - 虚拟人多模态交互的输出方法和***

Info

Publication number: CN107808191A
Application number: CN201710822978.XA
Authority: CN
Inventors: 尚小维
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2018-03-16

Abstract

本发明提供一种虚拟人多模态交互的输出方法，其包括以下步骤：响应于接收的指令进入唤醒状态，将形象显示在预设显示区域内；获取多模态交互输入数据；调用能力接口解析交互输入数据，并生成对应的多模态决策输出数据；将多模态输出数据中的语音文件与嘴型模型进行匹配，通过匹配该语音的嘴型文件输出该语音，嘴型模型包括：拼音模型及其与切分字词信息的融合数据。本发明采用采用具有形象输出的虚拟人进行对话交互还可以进行完整的嘴型表达，使得虚拟人输出的语音与嘴型完全匹配，从而增强了用户视觉感观的黏度，提高了交互体验。

Description

虚拟人多模态交互的输出方法和***

技术领域

本发明涉及人工智能领域，具体地说，涉及一种用于虚拟人多模态交互的输出方法和***。

背景技术

机器人聊天交互***的开发致力于模仿人类对话。早期广为人知的聊天机器人应用程序包括小i聊天机器人、苹果手机上的siri聊天机器人等处理所接收到的输入(包括文本或语音)并进行响应，以试图在上下文之间模仿人类响应。

然而，要想完全模仿人类对话，丰富用户的交互体验，现有的这些机器人聊天***远远达不到要求。

发明内容

为解决上述问题，本发明提供了一种虚拟人多模态交互的输出方法，所述方法包括以下步骤：

响应于接收的指令进入唤醒状态，将形象显示在预设显示区域内；

获取多模态交互输入数据；

调用能力接口解析所述交互输入数据，并生成对应的多模态决策输出数据；

将所述多模态输出数据中的语音文件与嘴型模型进行匹配，通过匹配该语音的嘴型文件输出该语音，所述嘴型模型包括：拼音模型及其与切分字词信息的融合数据。

根据本发明的一个实施例，还包括：拼音模型执行如下步骤：

同时，将对所述语音文件进行语音识别并转换为文本；

对所述文本按照拼音音节划分，将拼音音节与嘴型参量进行匹配，生成拼音模型。

根据本发明的一个实施例，嘴型模型执行如下步骤：对采集的语音文件进行切分以生成结构化字词；

提取出所述结构化字词的信息，包括：其所在的语音文件中的起始时间、结束时间以及最强振幅；

将所述拼音模型与所述结构化字词信息进行融合，生成与嘴型参量对应的嘴型模型。

根据本发明的一个实施例，将所述拼音模型与所述结构化字词信息进行融合，包括：

将声母和韵母对应的嘴型的参量进行融合形成对应于字的嘴型的参量；

将各个音节的嘴型的参量进行融合形成对应于音节组合的嘴型的参量；

将所述对应于字的嘴型的参量进一步进行融合形成对应于字字组合的嘴型的参量；

将上述各个嘴型的参量根据语音表达节奏加上对应于结尾字的嘴型的参量进行匹配组合形成最终的嘴型模型。

根据本发明的一个实施例，所述嘴型的各个参量包括：嘴型形状、嘴型幅度和舌头形态。

根据本发明的另一个方面，还提供了一种存储介质，其上存储有可执行以上任一项所述的方法步骤的程序代码。

根据本发明的另一个方面，还提供了一种虚拟人多模态交互的输出装置，所述装置包含：

响应模块，其用于响应于接收的指令进入唤醒状态，将形象显示在预设显示区域内；

获取模块，其用于获取多模态交互输入数据；

调用模块，其用于调用能力接口解析所述交互输入数据，并生成对应的多模态决策输出数据；

匹配模块，其用于将所述多模态输出数据中的语音文件与嘴型模型进行匹配，通过匹配该语音的嘴型文件输出该语音，所述嘴型模型包括：拼音模型及其与切分字词信息的融合数据。

根据本发明的一个实施例，所述匹配模块还包括以下单元：

转换单元，其用于将对所述语音文件进行语音识别并转换为文本；

划分单元，其用于对所述文本按照拼音音节划分，将拼音音节与嘴型参量进行匹配，生成拼音模型。

根据本发明的一个实施例，所述装置包含：

切分单元，其用于对采集的语音文件进行切分以生成结构化字词；

提取单元，其用于提取出所述结构化字词的信息，包括：其所在的语音文件中的起始时间、结束时间以及最强振幅；

融合单元，其用于将所述拼音模型与所述结构化字词信息进行融合，生成与嘴型参量对应的嘴型模型。

根据本发明的另一个方面，还提供了一种虚拟人多模态交互的输出***，其特征在于，所述***包含：

硬件设备，其用于显示虚拟人的形象以及用户与虚拟人交互过程中数据的处理；

云端服务器，其用于配合所述硬件设备完成以下步骤：

本发明采用虚拟人进行对话交互，一方面可以丰富对话的个体，将虚拟人形象在显示区域上显示出来，使得用户看起来是在与真人进行多模态交互，增加了用户与硬件设备间的交互流畅度的。另一方面，采用具有形象输出的虚拟人进行对话交互还可以进行完整的嘴型表达，使得虚拟人形象输出的语音与嘴型完全匹配，从而增强了用户视觉感观的黏度，提高了交互体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的交互示意图；

图2显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的结构框图；

图3显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的语音文件匹配过程图；

图4显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的模块框图；

图5显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的流程图；

图6显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的语音匹配流程图；

图7显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的语音匹配详细流程图；

图8显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的另一流程图；以及

图9显示了根据本发明的一个实施例在用户、硬件设备以及云端服务器三方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明的提到的虚拟人为搭载于支持感知、控制等输入输出模块的智能设备；

以高仿真3d虚拟人物形象为主要用户界面，具备显著人物特征的外观；

支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力；

可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验的虚拟人物。

所提到的云端服务器为提供所述多模态交互机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以便帮助用户进行决策。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的交互示意图。

如图1所示，该***包含用户101、硬件设备(包括显示区域1021以及硬件支持设备1022)、虚拟人103以及云端服务器104。其中，与虚拟人103交互的用户101可以为真实人、另一个虚拟人以及实体的虚拟人，另一虚拟人以及实体虚拟人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似。因此，在图1中仅展示的是用户(人)与虚拟人的多模态交互过程。

另外，硬件设备包括显示区域1021以及硬件支持设备1022(实质为核心处理器)。显示区域1021用于显示虚拟人103的形象，硬件支持设备1022与云端服务器104配合使用，用于决策过程中的数据处理。虚拟人103需要屏显载体来呈现。因此，显示区域1021包括：PC屏、投影仪、电视机、多媒体显示屏、全息投影、VR以及AR。本发明提出的多模态交互过程需要一定的硬件性能作为支撑，一般来说，选用有主机的PC端来作为硬件支持设备1022。在图1中显示区域1021选用的是PC屏。

图1中虚拟人103与用户101之间交互的过程为：

首先，虚拟人103会响应于接收的指令进入唤醒状态，将形象显示在预设显示区域内。在交互对象发送唤醒指令之前，虚拟人处于休眠状态，等待唤醒指令的发出，在唤醒指令发出之后，虚拟人103进入唤醒状态，以便接收用户101的下一步指示。

唤醒的方式包括如下方式但并不局限于此，可以为触摸唤醒、语音唤醒、遥控唤醒、面部识别唤醒以及特定时间唤醒。例如，语音唤醒就是通过语音唤醒虚拟人103的唤醒方式，用户101可以通过固定的语音片段来达到唤醒虚拟人103的目的。另外，虚拟人103还可以在特定的时间进入唤醒模式，这个特定的时间可以由用户101来设定并修改。总之，唤醒虚拟人103的方式有很多，任何能够唤醒虚拟人103的唤醒方式都可以应用到本发明的唤醒步骤中，本发明不对此做出限制。

虚拟人103被唤醒并进入唤醒状态后，获取多模态交互输入数据。多模态交互数据可以是用户101发出的，也可以是通过感知环境输入的。多模态交互数据可以包含文本、语音、视觉以及感知信息等多种模态的信息。获取多模态交互数据的接收装置均安装或是配置于硬件设备上，这些接收装置包含接收文本的文本接收装置，接收语音的语音接收装置，接收视觉的摄像头以及接收感知信息的红外线设备等。

硬件设备获取到多模态交互输入数据后，将这些数据传输至虚拟人103，虚拟人103会调用能力接口解析交互输入数据，并生成对应的多模态决策输出数据。虚拟人103能够通过调用云端服务器104中的能力接口来解析交互输入数据，机器人能力包含语义理解、动作理解、情感计算、认知计算等能力，能够对多模态输入数据进行全方位的解析，以便明晰多模态交互输入数据的交互意图。根据解析的结果，就能够生成对应的多模态决策输出数据。这些多模态决策输出数据会在与虚拟人103形象进行输出匹配后，通过虚拟人103的形象输出展示出来。

接着，将多模态输出数据中的语音文件与嘴型模型进行匹配，通过匹配该语音的嘴型文件输出该语音，嘴型模型包括：拼音模型及其与切分字词信息的融合数据。匹配的过程可以分为拼音模型过程以及嘴型模型过程。

首先，拼音模型的执行步骤为：

将语音文件转化成文本文件，再将文本按照拼音音节划分，将拼音音节与嘴型参量进行匹配。

嘴型模型执行过程就是拼音模型与结构化字词信息进行融合的过程，步骤包括：

将各个音节的嘴型的参量进行融合形成对应于音节组合的嘴型的参量；将对应于字的嘴型的参量进一步进行融合形成对应于字字组合的嘴型的参量。

将上述各个嘴型的参量根据语音表达节奏加上对应于结尾字的嘴型的参量进行匹配组合形成最终的嘴型模型。嘴型的各个参量包括：嘴型形状、嘴型幅度和舌头形态。

需要说明的是，上述步骤可以在硬件设备端进行或在云端服务器进行，并不局限。

在交互过程中中，虚拟人103会在做出应答以及等待对方做出应答时改变自己的情绪。除了表情上的应答，虚拟人103还可以通过降低语调以及升高语调的方式来表达虚拟人当时的情绪。

虚拟人103可以通过解析多模态交互数据以判断交互对象的当前情绪，根据交互对象的情绪变化来做出对应的表情、语速、语调。

在此需要说明的是，虚拟人103的形象以及装扮不限于一种模式。虚拟人103可以具备不同的形象以及装扮。虚拟人103的形象一般为3D高模动画形象。虚拟人103可以具备不同的外貌以及装饰。每种虚拟人103的形象还会对应多种不同的装扮，装扮的分类可以依据季节分类，也可以依据场合分类。这些形象以及装扮可以存在于云端服务器104中，也可以存在于硬件设备中，在需要调用这些形象以及装扮时可以随时调用。后期运营人员会定期上传新的形象与装扮至交互平台，用户可以根据需要，选择自己喜爱的形象以及装扮。

以上交互步骤简单来说就是，首先，响应于接收的指令进入唤醒状态，将形象显示在预设显示区域内。接着，获取多模态交互输入数据。然后，调用能力接口解析交互输入数据，并生成对应的多模态决策输出数据。最后，将多模态输出数据中的语音文件与嘴型模型进行匹配，通过匹配该语音的嘴型文件输出该语音，嘴型模型包括：拼音模型及其与切分字词信息的融合数据。

图2显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的结构框图。如图2所示，***包含用户101、硬件设备、显示区域1021、虚拟人103以及云端服务器104。其中，用户101包含单个的人、实体虚拟人以及另一个虚拟人。硬件设备包含接收装置102A、处理装置102B以及对外连接装置102C。云端服务器104包含与硬件设备通讯的通信装置1041。

在本发明提供的虚拟人多模态交互的输出***需要在三方之间建立器通信连接，即在用户101、硬件设备以及云端服务器104之间建立通畅的通信通道，以便能够完成用户101与虚拟人103的交互。为了完成交互的任务，硬件设备以及云端服务器104会设置有支持完成交互的装置以及部件。与虚拟人交互的对象可以为一方，也可以为多方。

硬件设备包含接收装置102A、处理装置102B以及对外连接装置102C。其中，接收装置102A用于接收多模态交互输入数据。接收装置102A的例子包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。硬件设备可以通过以上提到的输入设备来获取多模态交互输入数据。

处理装置102B用来对交互过程中的数据进行处理。一般是处理与虚拟人103之间的消息。对外连接装置102C用于与云端服务器104之间的联系，能够通过虚拟人103发出的调用指令来调用云端服务器104上的机器人能力来解析多模态交互输入数据。

云端服务器104包含通信装置1041，其用于完成与硬件设备之间的通信联系。通信装置1041与硬件设备上的对外连接装置102C之间保持通讯联系，接收硬件设备的指令，并发送云端服务器104发出的指令，是硬件设备以及云端服务器104之间沟通的介质。

图3显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的语音文件匹配过程图。如图3所示，为了达到在输出语音文件的时候虚拟人103的嘴型与语音完美匹配的效果，语音文件匹配的过程包含语音识别、拼音模型、语音切分以及嘴型模型。

首先，将多模态决策输出数据中的语音文件进行语音识别，语音识别的过程是将语音文件转换为文本文件。然后，对转化后的文本文件进行拼音模型处理。对文本文件按照拼音音节划分，将划分后的拼音音节与嘴型参量进行匹配，生成拼音模型。

另外，同时还对语音文件进行语音切分处理，对语音文件进行切分以生成结构化字词。然后，提取出结构化字词的信息，包括：其所在的语音文件中的起始时间、结束时间以及最强振幅。最后，将拼音模型与结构化字词信息进行融合，生成与嘴型参量对应的嘴型模型。至此，完成匹配的数据就可以通过虚拟人103的形象配合嘴型输出出来。

将拼音模型与结构化字词信息进行融合的过程包含，首先，将声母和韵母对应的嘴型的参量进行融合形成对应于字的嘴型的参量。然后，将各个音节的嘴型的参量进行融合形成对应于音节组合的嘴型的参量。接着，将对应于字的嘴型的参量进一步进行融合形成对应于字字组合的嘴型的参量。最后，将上述各个嘴型的参量根据语音表达节奏加上对应于结尾字的嘴型的参量进行匹配组合形成最终的嘴型模型。

图4显示了根据本发明的一个实施例的虚拟人多模态交互的输出***的模块框图。如图4所示，***包含响应模块401、获取模块402、调用模块403以及匹配模块404。

其中，响应模块401包含唤醒单元以及显示单元。获取模块4021包含文本采集单元4021、音频采集单元4022、图像采集单元4023以及视频采集单元4024。调用模块403包含语义理解单元4031、视觉识别单元4032、认知计算单元4033以及情感计算单元4034。匹配模块404包含拼音模型单元4041以及嘴型模型单元4042。

在虚拟人103与用户101的交互过程中，用户101首先需要唤醒虚拟人103。在唤醒的时候，唤醒单元接收用户101发出的唤醒指令，并对唤醒指令进行验证，验证唤醒指令的正确性，当唤醒指令验证通过后，虚拟人103被唤醒，进入唤醒状态，等待接收用户101的交互指令。在虚拟人103进入唤醒状态后，显示单元会将虚拟人103的形象显示在硬件设备的显示区域内，以使用户101能够对虚拟人103有更加直观的感受。

在用户101发出多模态交互输入数据后，获取模块402会调用文本采集单元4021、音频采集单元4022、图像采集单元4023以及视频采集单元4024之中的一个单元或是几个单元对多模态交互输入数据进行采集，并将采集到的信息传输至虚拟人103，以便虚拟人103对这些信息进行进一步的分析以及处理。除了以上提到的采集单元外，获取模块402还可以配置用于采集感知信息等其他类型信息的采集单元，本发明不对此做出限制。

虚拟人103在接收到传送来的多模态交互输入数据后，调用模块403会调用能力接口解析交互输入数据，并生成对应的多模态决策输出数据。机器人能力包含语义理解单元4031、视觉识别单元4032、认知计算单元4033以及情感计算单元4034。这些机器人能力能够对输入信息进行分析以及判断，再根据分析以及判断的结果来生成对应于此次交互的多模态决策输出数据。

最后，匹配模块404能够将多模态决策输出数据中的语音文件进行嘴型的匹配，拼音模型单元4041以及嘴型模型单元4042会将虚拟人103的嘴型与语音文件完美的匹配，以便在输出语音文件时能够做到，嘴型以及语音的统一，避免出现音画不一致的情况。

图5显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的流程图。

在本发明提供的虚拟人多模态交互的输出方法中包含四个步骤，分别是响应于接收的指令进入唤醒状态，将形象显示在预设显示区域内。获取多模态交互输入数据。调用能力接口解析交互输入数据，并生成对应的多模态决策输出数据。将多模态输出数据中的语音文件与嘴型模型进行匹配，通过匹配该语音的嘴型文件输出该语音，嘴型模型包括：拼音模型及其与切分字词信息的融合数据。

通过以上步骤，虚拟人103与用户101就能够在语音与嘴型匹配的效果下展开交互，使得虚拟人与人的交互更为丰富和顺畅，虚拟人103的交互表现更加贴近于人类。

图6显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的语音匹配流程图。为了更加详细的介绍本发明提供的虚拟人多模态交互的输出方法的细节，特此通过图6所示的流程图展开说明。

在将语音文件与嘴型进行匹配的过程中，首先需要将语音文件进行语音识别并转换为文本。然后，对文本按照拼音音节划分，将拼音音节与嘴型参量进行匹配，生成拼音模型。

在将语音文件进行语音识别并转换为文本的同时，对语音文件进行切分以生成结构化字词。然后，提取出结构化字词的信息，包括：其所在的语音文件中的起始时间、结束时间以及最强振幅。最后，将拼音模型与结构化字词信息进行融合，生成与嘴型参量对应的嘴型模型。

在图6所示的流程图中可以大致分为两个步骤，第一个步骤是生成拼音模型，第二个步骤是生成嘴型模型，通过这两个步骤的匹配过程，多模态决策输出数据中的语音文件就能够输出展示给用户101。

图7显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的语音匹配详细流程图。

图7主要是展示了将拼音模型与结构化字词信息进行融合的步骤。在融合过程中，首先，将声母和韵母对应的嘴型的参量进行融合形成对应于字的嘴型的参量。接着，将各个音节的嘴型的参量进行融合形成对应于音节组合的嘴型的参量。然后，将对应于字的嘴型的参量进一步进行融合形成对应于字字组合的嘴型的参量。最后，将上述各个嘴型的参量根据语音表达节奏加上对应于结尾字的嘴型的参量进行匹配组合形成最终的嘴型模型。

通过图7所示的流程图，能够将拼音模型与结构化字词信息两者进行融合，以确保在交互的过程中，虚拟人103输出的语音与嘴型保持同步，提升交互的质量以及交互的流畅度。

图8显示了根据本发明的一个实施例的虚拟人多模态交互的输出方法的另一流程图。

如图所示，在步骤S801中，硬件设备向云端服务器104发出对话内容。之后，硬件设备一直处于等待云端服务器104的回复的状态。在等待的过程中，硬件设备会对返回数据所花费的时间进行计时操作。如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则硬件设备会选择进行本地回复，生成本地常用应答数据。然后由虚拟人103形象的插件输出与本地常用应答配合的动画，并调用语音播放设备进行语音播放。

为了能够实现用户101与虚拟人103之间的交互，用户101、硬件设备以及云端服务器104之间需要实时保持联系，传递数据以及信息。

在交互之初，用户101需要发送唤醒指令以便虚拟人103进入唤醒状态。此时，进行通信的对象为用户101以及硬件设备，硬件设备会响应于接收的指令进入唤醒状态，将形象显示在预设显示区域内。

接着，虚拟人103等待进一步的交互信息，在交互信息发之后，获取多模态交互输入数据。接着，硬件设备与云端服务器104之间展开通信，硬件设备调用能力接口解析交互输入数据，并生成对应的多模态决策输出数据。机器人能力搭载在云端服务器104上，包含语义理解能力、视觉识别能力、认知计算能力以及情感计算能力。

然后，虚拟人103将多模态输出数据中的语音文件与嘴型模型进行匹配，通过匹配该语音的嘴型文件输出该语音，嘴型模型包括：拼音模型及其与切分字词信息的融合数据。最后，虚拟人103将匹配后的多模态决策输出数据以多模态的形式输出出来。

本发明采用虚拟人进行对话交互，将虚拟人形象在显示区域上显示出来，使得用户看起来是在与真人进行多模态交互，增加了用户与硬件设备间的交互流畅度的。另一方面，采用具有形象输出的虚拟人进行对话交互还可以进行完整的嘴型表达，使得虚拟人形象输出的语音与嘴型完全匹配。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种虚拟人多模态交互的输出方法，其特征在于，所述方法包括以下步骤：

获取多模态交互输入数据；

2.如权利要求1所述的虚拟人多模态交互的输出方法，所述拼音模型按照如下步骤执行：

将对所述语音文件进行语音识别并转换为文本；

3.如权利要求2所述的虚拟人多模态交互的输出方法，其特征在于，所述嘴型模型按照如下步骤执行：

对采集的语音文件进行切分以生成结构化字词；

4.如权利要求3所述的虚拟人多模态交互的输出方法，其特征在于，将所述拼音模型与所述结构化字词信息进行融合，包括：

5.如权利要求2-4所述的虚拟人多模态交互的输出方法，其特征在于，所述嘴型的各个参量包括：嘴型形状、嘴型幅度和舌头形态。

6.一种存储介质，其上存储有可执行如权利要求1-5中任一项所述的方法步骤的程序代码。

7.一种虚拟人多模态交互的输出装置，其特征在于，所述装置包含：

获取模块，其用于获取多模态交互输入数据；

8.如权利要求7所述的虚拟人多模态交互的输出装置，其特征在于，所述匹配模块还包括以下单元：

9.如权利要求7所述的虚拟人多模态交互的输出装置，其特征在于，所述装置包含：

10.一种虚拟人多模态交互的输出***，其特征在于，所述***包含：

云端服务器，其用于配合所述硬件设备完成以下步骤：