CN112162628A

CN112162628A - 基于虚拟角色的多模态交互方法、装置及***、存储介质、终端

Info

Publication number: CN112162628A
Application number: CN202010906582.5A
Authority: CN
Inventors: 柴金祥; 梁志强; 其他发明人请求不公开姓名
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-01-01
Also published as: WO2022048403A1; US20230316643A1

Abstract

一种基于虚拟角色的多模态交互方法、装置及***、存储介质、终端，该方法包括：获取输入信息，输入信息包括一种或多种数据类型；将输入信息输入感知层，感知层根据输入信息的数据类型对输入信息进行识别和处理得到识别结果；将识别结果输入逻辑决策层，逻辑决策层对识别结果进行处理，生成识别结果对应的驱动指令；根据驱动指令获取多模态虚拟内容，多模态虚拟内容至少包括虚拟角色；输出获取的多模态虚拟内容。由此，能对多种数据类型输入信息进行识别、处理，输出的多模态虚拟内容对应虚拟角色的多种响应(如做出动作、表情、说出语句等)结合虚拟场景、虚拟信息控件、虚拟特效、虚拟道具等，使输出的虚拟内容更直观、炫彩，提高用户体验。

Description

基于虚拟角色的多模态交互方法、装置及***、存储介质、终端

技术领域

本发明涉及虚拟角色技术领域，具体地涉及一种基于虚拟角色的多模态交互方法、装置及***、存储介质、终端。

背景技术

近年来，随着人工智能技术及应用发展迅速，对话交互类的智能助手的智能手机，智能家居，银行，政府等行业架构中运用越来越普及，比如在C端(即企业用户端)领域，有很多的产品集成了智能语音助手，例如智能手机、智能音箱、智能电视等；另外在B端(即消费者端)领域，也有许多智能助手的落地场景，例如电商客服机器人、银行前台机器人、教育机器人，展厅咨询机器人等。

但当前的智能助手存在很多问题，其中主要包括信息获取效率低和交互体验差。具体的：

(1)信息获取效率低：用户在使用现有的智能助手或者信息类的应用程序(Application，简称APP)和网站搜索或者问询信息的时候，不能第一时间获取到需要的信息，必须在繁多的信息中筛选出需要的信息，信息获取效率较低。

(2)交互体验差：现有的智能助手主要通过文本和语音进行交互，基本上是文字或者语音的单模态交互，或者文字和语音的双模态交互。可支持的输入模态较少，一般只支持语音或者文本两个模态的输入；逻辑决策模块的人工智能(Artificial Intelligence，简称AI)大脑处理无法处理复杂的情况，例如其中的对话***模块，只能处理简单的问答和明确的任务指令，当出现复杂的问答时，经常会出现答非所问，找不到信息等情况；在使用现有的智能助手时，输出信息的形式单一，主要是通过文字和语音结合的输出，或者以图片等传统信息方式进行呈现，呈现方式死板。综合现有智能助手的上述情况，导致用户与智能助手的交互体验较差。

发明内容

本发明解决的技术问题是如何提高智能助手的信息获取效率，并改善用户交互体验。

为解决上述技术问题，本发明实施例提供一种基于虚拟角色的多模态交互方法，所述方法包括：获取输入信息，所述输入信息包括一种或多种数据类型；将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括虚拟角色；输出获取的多模态虚拟内容。

可选的，所述逻辑决策层包括逻辑决策模型，所述逻辑决策模型基于训练样本训练得到，所述训练样本为所述识别结果的样本和所述驱动指令的样本，所述训练样本包括一个训练集及测试集。

可选的，所述多模态虚拟内容还包括虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。

可选的，所述输入信息至少包括文本类数据、音频类数据以及图像类数据。

可选的，所述感知层通过语音识别处理技术、文本识别技术、图像识别技术中的一种或多种技术对所述输入信息进行信息识别。

可选的，当所述感知层通过语音识别处理技术对所述输入信息进行信息识别时，将所述输入信息中的音频类数据输入语音识别模型中以得到对应的识别结果。

可选的，当所述感知层通过图像识别技术对所述输入信息进行信息识别时，至少识别所述输入信息中的图像类数据中的人脸信息、手势信息、面部表情信息、面部情绪信息、图像中包含的物体种类。

可选的，所述识别结果为多种数据类型对应的语义信息，所述将所述识别结果输入逻辑决策层，所述逻辑决策层对所述识别结果进行处理，并生成所述输入信息对应的驱动指令，还包括：将多种数据类型对应的语义信息输入自然语言对话***，以得到驱动指令。

可选的，所述多模态虚拟内容包括虚拟角色的虚拟内容和除虚拟角色之外的其他虚拟内容，所述得到驱动指令之后，还包括：通过路由模块从所述驱动指令中获取输出文本和/或展示指令；其中，所述输出文本用于获取虚拟角色的虚拟内容，所述展示指令用于获取除虚拟角色之外的其他虚拟内容。

可选的，所述方法还包括虚拟角色及其素材库生成，包括：通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定中的一种或多种技术生成虚拟角色；通过动作捕捉和/或运动重定向技术采集虚拟角色的动作动画数据，以得到所述虚拟角色的身体动作素材；通过表情和/或眼神捕捉以及表情和眼神迁移技术采集虚拟角色的表情动画数据，以得到所述虚拟角色的表情动作素材；获取训练文本和训练语音；以所述训练文本、所述训练语音和所述表情动作素材为训练样本，通过模型训练得到语音动画合成模型。

可选的，所述根据所述驱动指令获取多模态虚拟内容，包括：基于所述输出文本，通过所述语音动画合成模型获取所述虚拟角色对应的输出语音和/或表情动作。

可选的，所述虚拟角色的表情动作包括唇形。

可选的，所述根据所述驱动指令获取多模态虚拟内容，还包括：基于所述输出文本，从所述身体动作素材获取所述虚拟角色对应的身体动作。

可选的，所述根据所述驱动指令获取多模态虚拟内容，还包括：基于所述展示指令，获取虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。

可选的，所述输出获取的多模态虚拟内容，包括：根据获取的多模态虚拟内容生成动画数据；将所述动画数据以语音的内容为时间轴、按照时间序列进行输出。

可选的，所述根据获取的多模态内容生成动画数据之后，还包括：对所述动画数据进行实时解算和/或实时渲染，得到视频并输出。

可选的，通过解算算法对所述动画数据进行物体在真实场景中的物理行为的模拟。

可选的，所述输入信息由信息采集设备采集得到，所述信息采集设备包括文本采集设备、图像采集设备、拾音设备、温度传感器以及陀螺仪中的一种或多种。

本发明实施例还提供一种基于虚拟角色的多模态交互装置，所述装置包括：输入信息获取模块，用于获取输入信息，所述输入信息包括一种或多种数据类型；感知层处理模块，用于将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；逻辑决策层处理模块，用于将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；虚拟内容获取模块，用于根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括所述虚拟角色；输出模块，用于输出获取的多模态虚拟内容。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明实施例还提供一种基于虚拟角色的多模态交互***，所述***包括信息采集设备，平台和输出设备；所述信息采集设备用于采集外部数据以得到输入信息；所述平台用于执行上述任一项所述的方法；所述输出设备，用于展示输出的多模态虚拟内容。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

较之现有技术，本发明实施例提供的基于虚拟角色的多模态交互方法，能够对多种数据类型的输入信息进行识别、处理，提高信息处理的能力；输出的多模态虚拟内容能够将多种虚拟角色的响应(如做出动作、做出表情、说出语句等)结合起来，并且结合虚拟场景、虚拟信息控件、虚拟特效、虚拟道具等，使得输出的虚拟内容更为直观、炫彩，使得用户在与智能助手的交互中获得更好的体验。

进一步地，逻辑决策层基于训练的逻辑决策模型对识别结果进行快速分析，生成用以驱动虚拟角色的驱动指令。由此，能够提高驱动效率，且考虑多种输入信息的识别结果互相影响的因素，使得平台的处理更为智能，进一步改善用户交互体验。

进一步，多种输入信息对应的识别结果都被转化为语义信息，逻辑决策层部署有自然语言对话***，可基于多种数据类型对应的语义信息生成驱动指令。

进一步地，虚拟角色及其素材库可在平台执行基于虚拟角色的多模态交互方法之前离线生成，使得平台在展示多模态虚拟内容时，虚拟角色能够在输出语音时，做出与声音高度对齐的表情动作和/或身体动作，让虚拟角色可以和真人一样自然的说话，提高虚拟角色的智能性和真实感。

进一步地，在多模态输出层输出动画数据时，通过实时引擎的解算技术和渲染技术，对输出动画数据的每一帧图像进行实时解算和实时渲染，在虚拟的高质量3D场景中，虚拟角色可以通过眼神、表情、动作以及对话等来进行表达，从而实现逼真的实时交流的效果。

附图说明

图1为本发明实施例的一种基于虚拟角色的多模态交互方法的流程示意图；

图2为本发明实施例的一种虚拟角色及其素材库生成的流程示意图；

图3为本发明实施例的一种虚拟角色的表情和/或唇形与输出语音的关系构建方法流程示意图；

图4是本发明实施例的一种基于虚拟角色的多模态交互装置的结构示意图；

图5是本发明实施例的一种基于虚拟角色的多模态交互***的结构示意图；

图6是本发明实施例的另一种基于虚拟角色的多模态交互***的结构示意图。

具体实施方式

如背景技术所言，现有技术中的智能助手存在信息获取效率低和交互体验差的问题。

为解决该问题，本发明实施例提供了一种基于虚拟角色的多模态交互方法、装置及***、存储介质、终端，其中基于虚拟角色的多模态交互方法包括：获取输入信息，所述输入信息包括一种或多种数据类型；将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括所述虚拟角色；输出获取的多模态虚拟内容。

通过上述方案，能够提高信息获取效率，并输出多模态的虚拟内容，以改善用户的交互体验。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

请参见图1，本发明实施例提供一种基于虚拟角色的多模态交互方法，其中，虚拟角色可以为智能助手，该虚拟角色可以为虚拟数字人、虚拟动漫角色，卡通二次元角色或者其他动画形象。虚拟角色可以为二维(也称2D)对象，也可以为三维(也称3D)对象。特别地，虚拟角色可以为虚拟数字人，即以人的形态进行呈现，在离线制作时，可基于真人进行3D建模，以提高生成的虚拟角色的真实感。基于虚拟角色的多模态交互方法具体可包括以下步骤：

步骤S101，获取输入信息，所述输入信息包括一种或多种数据类型；

其中，所述输入信息为输入至执行所述基于虚拟角色的多模态交互方法的平台(之后简称平台)的信息，平台的输入端能够支持多种数据类型的外部数据，至少包括文本类数据、音频类数据以及图像类数据，还可根据需要支持其他数据类型，由此能够支持至少文本、音频、图像等多种数据类型的输入信息。

可选的，还可将输入信息按照需求进行其他数据种类的划分，例如可划分为温度数据、红外数据、角度数据、重力数据等。

可选的，所述输入信息可以由信息采集设备采集得到，所述信息采集设备包括文本采集设备、图像采集设备、拾音设备、温度传感器、陀螺仪中的一种或多种。

可选的，通过文本采集设备，例如文本框输入等，获取外部输入的文本信息。

具体地，可以通过拾音设备，例如麦克风阵列等，获取外部的实时语音音频流或者录音文件等。拾音设备还可以对采集的音频进行前处理的操作，比如回声消除，噪声抑制等，从而获取一段高质量的音频数据。

可通过图像采集设备(例如高清摄像头等采集设备)获取到外部的图像类数据，该图像类数据可包括例如人脸信息、手势信息、面部表情信息、面部情绪信息及其他图像数据。对人脸和手势进行图像采集，能够将这些信息作为后续对图像类数据识别的参考。

还可以通过其他不同的采集设备支持采集其他不同维度数据的采集，比如通过温度传感器获取环境温度信息，通过陀螺仪获取设备的角度信息；另外也可以根据不同的业务场景，采集业务所需的信息，比如在医疗场景，可以通过脑电设备获取脑电信息等。

需要说明的是，信息采集设备包括但不限于上述列举的设备，还可包括键盘、鼠标、触屏等等能够向终端提供输入信息的设备。

步骤S102，将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；

具体地，感知层对输入信息进行信息识别时，可基于各种数据类型的信息携带方式对各种数据类型的输入信息分别进行信息识别，以得到各种数据类型的识别结果。

可选的，所述感知层可通过语音识别处理技术、文本识别技术、图像识别技术中的一种或多种技术对所述输入信息进行信息识别。

其中，语音识别技术可对音频类的输入信息进行信息识别，得到音频类的输入信息的识别结果；文本识别技术可对文本类的输入信息进行识别，得到文本类输入信息的识别结果；图像识别技术可对图像类输入信息进行信息识别，得到图像类的输入信息的识别结果。

在拾音设备获取到的实时语音音频流和录音文件，可直接输入语音识别模型中进行识别；也可在拾音设备进行前处理后得到音频数据，再将此音频数据输入输入语音识别模型中进行识别。语音识别模型对输入的音频数据(或文件)进行内容识别。可选的，语音识别模型可包括音频过滤、语音分段、特征提取、声学模型、语言模型、解码器等模块。

可采用图像处理模块识别上述信息，该图像处理模块中可包括人脸识别，面部情绪识别，手势识别，物体识别等功能。通过人脸识别可以对图像中人脸信息进行识别，通过面部情绪识别可以识别到图像中人物的情绪，通过手势识别可以识别到图像中手势的情况，通过预训练的物体种类的识别能力可识别到图像中包含的物体种类，最后输出图像类数据的识别结果。

可选的，感知层还可部署一个或多个模型，以对输入信息进行识别。例如，可以包括用于图像识别的模型或者用于语音识别的模型，这些模型可基于样本训练得到，其训练样本可以为基于本发明的应用场景收集的图片或语音，从而能够提高在实际应用中识别的准确性。

另外，感知层还可对各种数据类型的输入信息识别得到的结果进行处理，感知层将处理后的内容记作识别结果，并将识别结果发送至步骤S103中的逻辑决策层。

步骤S103，将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；

步骤S104，根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括所述虚拟角色；

步骤S105，输出获取的多模态虚拟内容。

在逻辑决策层中可部署数据处理、筛选、流转、组合的逻辑、还有基于输入信息的识别结果得到驱动指令的逻辑等。逻辑决策层基于其部署的逻辑，基于识别结果生成驱动指令，输出端可基于驱动指令调用虚拟角色、虚拟信息控件、虚拟特效、虚拟道具等以得到要展示的多模态虚拟内容并进行输出。其中，虚拟角色可通过离线建模生成。

展示的多模态虚拟内容可以为控制虚拟角色按照驱动指令的指示进行响应，例如做出自然流畅的动作、做出逼真的表情、说出和真人声音高度一样的语句，变换逼真的3D场景，并辅之以图片和文字、特效和道具的展示等等，或者这些响应的组合。

具体地，可创建高质量的虚拟背景(如2D场景、3D场景、虚拟现实场景等)以供承载虚拟角色，同时在虚拟角色输出语音的过程中，展现各种各样的虚拟信息控件(widget)，比如图片，视频，图表等信息、并***预设的虚拟特效(如火焰、烟花等特效)、虚拟道具(例如小黑板展示等)，当然还可以根据需要创建更多的多模态虚拟内容种类，包括但不限于前述的例子。

通过上述的基于虚拟角色的多模态交互方法，能够对多种数据类型的输入信息进行识别、处理，提高信息处理的能力；输出的多模态虚拟内容能够将多种虚拟角色的响应(如做出动作、做出表情、说出语句等)结合起来，并且结合虚拟场景、虚拟信息控件、虚拟特效、虚拟道具等，使得输出的虚拟内容更为直观、炫彩，使得用户在与智能助手的交互中获得更好的体验。

在一个实施例中，所述逻辑决策层包括逻辑决策模型，所述逻辑决策模型基于训练样本训练得到，所述训练样本为所述识别结果的样本和所述驱动指令的样本，所述训练样本包括一个训练集及测试集。

具体地，逻辑决策层包括逻辑决策模型，该逻辑决策模型可根据多种数据类型对应的识别结果生成驱动指令。步骤S102中感知层对不同数据类型的输入信息进行识别得到的识别结果可为同一数据类型，例如，所有的识别结果都为语义信息(也可称为文本类数据)。逻辑决策模型基于样本训练生成，训练样本为与识别结果对应的样本以及驱动指令对应的样本。基于训练样本进行模型训练，可使得逻辑决策模型学习根据输入的信息识别结果获取对应的驱动指令的能力。

可选的，训练样本可以为技术人员收集获取，可以包括收集到的历史的用户网站搜索和问询信息的信息组合。即将其他搜索或者问询类网站的信息作为逻辑决策模型的训练样本，以丰富样本数量，这些搜索或者问询类网站的信息为真实的数据。由此，能够使得训练得到的逻辑决策模型的实用性更好，从而使得最终传输给虚拟角色的驱动指令更为智能，从而提高用户的交互体验。

可选的，训练样本包括训练集和测试集，所述训练集用于对模型进行训练，所述测试集用于验证模型的效果，并对其进行优化。

本实施例中，逻辑决策层基于训练的逻辑决策模型对识别结果进行快速分析，生成用以驱动虚拟角色的驱动指令。由此，能够提高驱动效率，且考虑多种输入信息的识别结果互相影响的因素，使得平台的处理更为智能，进一步改善用户交互体验。

在一个实施例中，所述识别结果为多种数据类型对应的语义信息，图1中步骤S103所述将所述识别结果输入逻辑决策层，所述逻辑决策层对所述识别结果进行处理，并生成所述输入信息对应的驱动指令，还包括：将多种数据类型对应的语义信息输入自然语言对话***，以得到所述识别结果对应的驱动指令。

本实施例中，多种输入信息对应的识别结果都被转化为语义信息，也即多种数据类型对应的语义信息。自然语言对话***部署于逻辑决策层，用于基于多种数据类型对应的语义信息生成驱动指令。

自然语言对话***用于与用户进行对话，所述自然语言对话***可以包括自然语言处理(Natural Language Processing，简称NLP)、自然语言理解(Natural LanguageUnderstanding，简称NLU)、自然语言生成(Natural Language Generation，简称NLG)、问答管理(Dialog Management，简称DM)。

其中，NLP主要用于对输入的多种数据类型对应的语义信息进行处理，用于支持计算机对语义信息理解(NLU)，另外也支持生成对应的文本指令信息(NLG)。

NLU将语义信息转化为机器可理解的、结构化的、完整的语义表示。其中包括分析、词性标注、句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、文字校对等。

对话管理(DM)主要用于进行对话的管理，即，起到连接NLU和NLG的作用，包括控制人机对话的过程、DM根据对话历史信息、决定此刻对用户的反应。对话类型主要包括闲聊、问答管理、任务型对话等。其中对话管理中主要任务包括对话状态维护、生成***决策等。

NLG旨在让机器根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。NLG，主要分成如下三类：A.文本对文本(Text to text)NLG，主要是对输入的自然语言文本进行进一步的处理和加工；B.数据对文本(Data to text)NLG，主要是根据输入的结构化数据生成易读易理解的自然语言文本；C.视觉对文本(Vision to text)NLG，主要是给定一张图片或一段视频，生成可以准确描述图片或视频(其实是连续的图片序列)语义信息的自然语言文本。

在自然语言对话***中，主要是通过基于NLP的能力，通过NLU，DM，NLG最后决策输出结果，其结果为一个驱动指令，用于驱动后续的多模态输出内容。

可选的，还可在逻辑决策层部署知识图谱简单，知识图谱可以理解为语义网的知识库，就是一种对事实的结构化表征，它由实体、关系和语义描述组成。是用于支持自然语言对话***的NLP、NLU、NLG和DM的底层技术。

在一个实施例中，所述多模态虚拟内容包括虚拟角色的虚拟内容和除虚拟角色之外的其他虚拟内容，所述得到驱动指令之后，还包括：通过路由模块从所述驱动指令中获取输出文本和/或展示指令；其中，所述输出文本用于获取虚拟角色的虚拟内容，所述展示指令用于获取除所述虚拟角色之外的其他虚拟内容。

驱动指令可以包括输出文本，该输出文本即为虚拟角色要输出的内容，与虚拟角色相关的虚拟内容，也称虚拟角色的虚拟内容，包括虚拟角色展示相关的动作、播放输出语音等。输出的虚拟角色的虚拟内容主要由输出文本确定。驱动指令还可以包括展示指令，用于确定除所述虚拟角色之外的其他虚拟内容(虚拟场景、虚拟信息控件、虚拟特效、虚拟道具)，展示指令可以为多个，用于获取不同的其他虚拟内容。

驱动指令具体如何被拆分为输出文本以及一个或多个展示指令，由路由模块控制，该路由模块还用于将拆分后的输出文本和展示指令转发至不同的模块，以从这些模块获取多模态虚拟内容。

在一个实施例中，请继续参见图1，步骤S104所述根据所述驱动指令获取虚拟内容，包括：将所述驱动指令输入到多模态输出层，以使得所述多模态输出层调用多模态虚拟内容，并基于所述驱动指令驱动所述多模态虚拟内容的展示和输出。

其中，所述多模态输出层配置有已制作的虚拟角色以及驱动指令和虚拟角色的展示效果之间的关联关系。

多模态输出层用于将驱动指令转换为多种类型的输出形式，例如，虚拟角色的表情、手势动作、语音等。多模态输出层可连接虚拟角色的多个输出接口，将驱动指令分解为不同输出形式对应的指令，发送至不同的输出接口，得到虚拟角色的展示效果，该展示效果即为虚拟角色做出对应的表情、手势等动作、发出对应的语音等。

本实施例中，通过多模态输出层将驱动指令转化为虚拟角色的多种展示效果，使得输出形式更为多样化，并通过控件展现和虚拟角色的引导，让用户能够更加直观，清晰，有效得获取到信息，提高用户体验。

在一个实施例中，请参见图2，所述虚拟角色及其素材库生成包括以下步骤：

步骤S201，通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定中的一种或多种技术生成虚拟角色；

虚拟角色的形态以及其对应的素材库可离线制作。通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定等核心技术，可以根据不用的需求制作不同类型高质量的虚拟角色，比如超写实虚拟角色，美型虚拟角色，卡通虚拟角色，二次元虚拟角色等。另外制作的虚拟角色也支持各种形式的自定义定制，比如服装定制，发型定制，妆容等的定制可以根据需求进行动态的调整。

步骤S202，通过动作捕捉和/或运动重定向技术采集虚拟角色的动作动画数据，以得到所述虚拟角色的身体动作素材；

步骤S203，通过表情和/或眼神捕捉以及表情和眼神迁移技术采集虚拟角色的表情动画数据，以得到所述虚拟角色的表情动作素材；

虚拟角色的素材库包括若干的身体动作素材以及表情动作素材，通过动作捕捉(身体和/或手势)和运动重定向技术采集到虚拟角色的身体动作的动画数据，用于制作虚拟角色丰富的身体动作素材。通过表情和眼神捕捉以及表情和眼神迁移技术采集到虚拟角色的表情动画数据，以生成虚拟角色的表情动作素材。

步骤S204，获取训练文本和训练语音；

通过高质量音频采集技术，获取到高质量的音频数据，作为该虚拟角色的训练语音的素材，也即训练语音。训练文本为用于模型训练的文本类数据样板。

步骤S205，以所述训练文本、所述训练语音和所述表情动作素材为训练样本，通过模型训练得到语音动画合成模型。

最后利用文本转语音和动画技术，训练出对应的语音动画合成模型，例如，可以为(Text to Speech and Animation，简称TTSA)模型，将训练语音和虚拟角色的表情动作素材关联，通过该模型能够基于输入该模型的文本，从虚拟角色的表情动作素材中获取表情动作，且能够生成该输入文本对应的语音。

需要说明的是，除了智能化虚拟角色的制作方式之外，还支持传统的动画音频数据制作，以及AI表演动画与传统动画制作方式向结合的方式进行虚拟角色的制作。

可选的，还可以包括虚拟素材制作，可以离线制作一些虚拟素材，包括虚拟场景，虚拟特效，虚拟道具，widget控件等。

本实施例中，虚拟角色及其素材库可在平台执行基于虚拟角色的多模态交互方法之前离线生成，使得平台在执行图1的步骤时，展示的多模态虚拟内容时，虚拟角色能够在输出语音时，做出与声音高度对齐的表情动作和/或身体动作，让虚拟角色可以和真人一样自然的说话，提高虚拟角色的智能性和真实感。

在一个实施例中，请再次参见图1，步骤S104所述根据所述驱动指令获取多模态虚拟内容，包括：基于所述输出文本，通过所述语音动画合成模型获取所述虚拟角色对应的输出语音和/或表情动作。

在通过图2的步骤生成虚拟角色及其素材库、TTSA模型之后，可根据输出文本调用虚拟角色、从表情动作素材获取要展示的表情动作，并生成输出文本对应的输出语音，由此获取虚拟角色的虚拟内容。

可选的，将获取的虚拟角色对应的输出语音和/或表情动作进行动画合成，得到表情和/或语音的动画数据。

进一步，获取的虚拟角色的表情动作包括唇形。表情动作包括表情、眼神、唇形等信息，还可包括微笑、无奈等表情的信息。

需要说明的是，在根据所述驱动指令获取虚拟角色的虚拟内容时，还可以基于除TTSA模型之外的其他常用技术进行虚拟内容的生成(或获取)，本发明不作赘述。

请参见图3，图3提供了一种虚拟角色的表情和/或唇形与输出语音的关系构建方法，也即TTSA模型中虚拟角色的表情和/或唇形与输出语音的关系可基于下述步骤设置：

步骤S301，接收展示效果包括的语音对应的输入信息，所述输入信息包括文本信息和/或音频信息；

其中，输入信息可以是预先采集或录制完成的音频信息或文本信息，可以将输入信息划分成最小发音单元组成的发音单元序列，以作为后续进行语言学特征分析的数据基础。进一步，所述文本信息可以采用词语、文字、拼音、音素等文本表达形式。

可将展示效果要输出的语音直接作为输入信息，也可将其转化问文本信息作为输入信息。

步骤S302，将所述输入信息转换为发音单元序列；

当所述输入信息为音频信息时，可以基于自动语音识别(Automatic SpeechRecognition，简称ASR)技术从所述音频信息中提取得到所述文本信息。进一步，基于预设发音字典将所述文本信息转换为发音单元序列。当所述输入信息为文本信息时，可以基于文本到语音(Text-to-Speech，简称TTS)技术中的前端(Front-End)模块提取出文本信息中的基本发音单元，从而将所述文本信息转换为发音单元序列。

需要说明的是，其他可将文本信息或音频信息转化为其对应的发音单元序列的方法，均可用于实现这一步骤，本发明不一一列举。

步骤S303，对所述发音单元序列中的发音单元进行特征分析，以得到对应的语言学特征序列，其中，所述语言学特征序列包括多个语言学特征，其中每一语言学特征至少包括对应的发音单元的发音特征；

在得到发音单元序列后，可进行语言学特征分析，从而得到语言学特征序列。其中，所述语言学特征可以用于表征发音单元的发音特征。例如，所述发音特征包括但不限于所述发音单元为前鼻音还是后鼻音、所述发音单元为单元音还是双元音、所述发音单元为送气音还是非送气音、所述发音单元是否为摩擦音、所述发音单元是否为舌尖音等。

步骤S304，将所述语言学特征输入预设时序映射模型，以基于所述语言学特征生成虚拟角色的表情动作序列。

基于深度学习技术训练构建预设时序映射模型，进而基于预设时序映射模型将输入的语言学特征序列映射至对应的虚拟角色的表情参数，该模型可将输入的语言学特征序列转化为虚拟角色对应的表情动作序列。

输出的动画数据中虚拟角色的表情和/或唇形可由多模态输出层生成输出语音对应的虚拟角色的表情动作序列，以生成动画数据。

可选的，多模态输出层基于驱动指令驱动所述多模态虚拟内容的展示和输出时，除根据上述的TTSA技术构建的动作驱动逻辑之外，还可以设定其他的动作驱动逻辑。

在一个实施例中，请再次参见图1，步骤S104所述根据所述驱动指令获取多模态虚拟内容，还包括：基于所述输出文本，从所述身体动作素材获取所述虚拟角色对应的身体动作。

虚拟角色的虚拟内容还可包括身体动作，虚拟角色的身体动作也可基于输出文本获取。可选的，可设置输出文本调用身体动作素材中获取身体动作的对应关系，以获得基于文本的动作驱动技术。

可选的，将获取的虚拟角色对应的身体动作进行动画合成，得到身体动作的动画数据。

在一个实施例中，请继续参见图1，步骤S103所述根据所述驱动指令获取多模态虚拟内容，还包括：基于所述展示指令，获取虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。

在获取除虚拟角色之外的其他虚拟内容后，可将这些内容添加到虚拟角色的动画数据中，以提高动画数据展示时的视觉效果。

在一个实施例中，请再次参见图1，步骤S104所述输出获取的多模态虚拟内容，包括：根据获取的多模态虚拟内容生成动画数据；将所述动画数据以语音的内容为时间轴、按照时间序列进行输出。

可选的，根据获取的多模态虚拟内容生成动画数据中的多模态虚拟内容包括：基于所述输出文本，通过所述语音动画合成模型获取所述虚拟角色对应的输出语音和/或表情动作；基于所述展示指令，获取虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。具体地，可以获取的虚拟角色的表情动作包括表情和/或唇形。也即，将获取到输出语音、表情动作进行合成，得到动画数据。由此生成的动画数据的输出顺序基于获取的输出语音的内容为时间轴确定。

可选的，获取的多模态内容中还包括基于输出文本从所述身体动作素材获取所述虚拟角色对应的身体动作。具体地，根据获取的多模态虚拟内容生成动画数据中的多模态虚拟内容包括：基于所述输出文本，通过所述语音动画合成模型获取所述虚拟角色对应的输出语音和/或表情动作；基于所述输出文本，从所述身体动作素材获取所述虚拟角色对应的身体动作；基于所述展示指令，获取虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。具体地，可以获取的虚拟角色的表情动作包括唇形。也即，将获取的身体动作与输出语音、表情动作进行合成，得到动画数据。由此生成的动画数据的输出顺序基于获取的输出语音的内容为时间轴确定。在一个实施例中，所述根据获取的多模态内容生成动画数据之后，还包括：对所述动画数据进行实时解算和/或实时渲染，得到视频并输出。

在得到动画数据之后，将其通过实时解算、实时渲染得到可播放的视频输出。

其中，通过解算算法将动画数据模拟出接近真实场景的效果，比如虚拟角色的毛发或者衣服，通过使用动力学解算模拟出符合真实场景运动规律的动态效果，从而极大增强了虚拟人的动画输出效果。

在多模态输出层输出动画数据时，通过实时引擎的解算技术和渲染技术，对输出动画数据的每一帧图像进行实时解算和实时渲染，在虚拟的高质量3D场景中，虚拟角色可以通过眼神、表情、动作以及对话等来进行表达，从而实现逼真的实时交流的效果。

其中，播放动画数据的输出设备可以为智慧大屏，虚拟现实(Virtual Reality，简称VR)/增强现实(Augmented Reality，简称AR)设备，智能音箱，全息屏、手机或其他职能终端等设备，动画数据的播放页面也可嵌套于手机APP，微信公众号，小程序等程序之内。

请参见图4，本发明实施例还提供一种基于虚拟角色的多模态交互装置40，包括：

输入信息获取模块401，用于获取输入信息，所述输入信息包括一种或多种数据类型；

感知层处理模块402，用于将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果

逻辑决策层处理模块403，用于将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；

虚拟内容获取模块404，用于根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括所述虚拟角色；

输出模块405，用于输出获取的多模态虚拟内容。

可选的，所述逻辑决策层通过语音识别处理技术、文本识别技术、图像识别技术中的一种或多种技术对所述输入信息进行信息识别。

在一个实施例中，当所述感知层通过语音识别处理技术对所述输入信息进行信息识别时，将所述输入信息中的音频类数据输入语音识别模型中以得到对应的识别结果。

在一个实施例中，当所述感知层通过图像识别技术对所述输入信息进行信息识别时，至少识别所述输入信息中的图像类数据中的人脸信息、手势信息、面部表情信息、面部情绪信息、图像中包含的物体种类。

在一个实施例中，所述识别结果为多种数据类型对应的语义信息，逻辑决策层处理模块403，还用于将多种数据类型对应的语义信息输入自然语言对话***，以得到驱动指令。

在一个实施例中，所述多模态虚拟内容包括虚拟角色的虚拟内容和除虚拟角色之外的其他虚拟内容，所述基于虚拟角色的多模态交互装置40还包括：

路由模块处理模块，用于通过路由模块从所述驱动指令中获取输出文本和/或展示指令；其中，所述输出文本用于获取虚拟角色的虚拟内容，所述展示指令用于获取除所述虚拟角色之外的其他虚拟内容。

在一个实施例中，基于虚拟角色的多模态交互装置40，还可以包括：

虚拟角色生成模块，用于通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定中的一种或多种技术生成虚拟角色；

身体动作素材生成模块，用于通过动作捕捉和/或运动重定向技术采集虚拟角色的动作动画数据，以得到所述虚拟角色的身体动作素材；

表情动作素材生成模块，用于通过表情和/或眼神捕捉以及表情和眼神迁移技术采集虚拟角色的表情动画数据，以得到所述虚拟角色的表情动作素材；

训练材料获取模块，用于获取训练文本和训练语音；

语音动画合成模型生成模块，用于以所述训练文本、所述训练语音和所述表情动作素材为训练样本，通过模型训练得到语音动画合成模型。

在一个实施例中，虚拟内容获取模块404还用于基于所述输出文本，通过所述语音动画合成模型获取所述虚拟角色对应的输出语音和/或表情动作。

可选的，所述虚拟角色的表情动作包括唇形。

在一个实施例中，虚拟内容获取模块404还用于基于所述输出文本，从所述身体动作素材获取所述虚拟角色对应的身体动作。

在一个实施例中，虚拟内容获取模块404还用于基于所述展示指令，获取虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。

在一个实施例中，输出模块405包括：

动画生成单元，用于根据获取的多模态内容生成动画数据；

输出单元，用于将所述动画数据以语音的内容为时间轴、按照时间序列进行输出。

在一个实施例中，输出模块405还用于对所述动画数据进行实时解算和/或实时渲染，得到视频并输出。

可选的，所述输出模块405还用于通过解算算法对所述动画数据进行物体在真实场景中的物理行为的模拟。

关于基于虚拟角色的多模态交互装置的工作原理、工作方式的更多内容，可以参照上述图1至图3中的对于基于虚拟角色的多模态交互方法的相关描述，这里不再赘述。

请参见图5，本发明实施例还提供一种基于虚拟角色的多模态交互***50，所述***包括信息采集设备501，平台502和输出设备503；

所述信息采集设备501用于采集外部数据以得到输入信息；

所述平台502用于执行图1至图3所述的基于虚拟角色的多模态交互方法的步骤；

输出设备503，用于输出要展示的多模态虚拟内容。

在另一个实施例中，请参见图5和图6，所述信息采集设备501可基于输入的信息的数据类型划分为音频采集设备、文本采集设备、图像采集设备和其他采集设备，各个采集设备可对接平台502中感知层中的不同识别模块，例如，音频采集设备将采集到的音频类数据发送至语音识别模块，文本采集设备将获取的文本类数据发送至文本识别模块，图像采集设备将获取的图像类数据发送至图像识别模块，平台502中的感知层也可设置其他识别模块以对其他采集设备采集到的数据进行针对识别。

平台502还可以包括AI大脑区域，也即本文中的逻辑决策层，该区域可包括自然语言对话***，并具体包括NLP，NLU，NLG，DM和知识图谱几个部分。基于输入信息的识别结果生成驱动指令。

平台502还包括路由模块，用于从驱动指令获取输出文本和展示指令，并将其转发至不同的后续模块。具体为，路由模块将展示指令转发至虚拟展示信息对应的模块，以获取本次输出的场景、道具、特效、widget控件等；路由模块还可以将输出文本转发至数字人语音动画生成的模块，数字人语音动画生成的模块能够基于TTSA模型进行数字人的语音合成以及人脸表情和眼神动画合成，还能够基于文本的动作驱动技术进行身体和手势动画合成。

基于获取的本次输出的场景、道具、特效、widget控件等、以及合成的数字人的语音、人脸表情和眼神的动画以及身体和手势动画，共同生成要输出的动画数据，将该动画数据发送至实时引擎，由实时引擎进行实时解算和实时渲染之后输出。

输出时，选择合适的输出设备503，如智慧大屏，VR/AR设备，智能音箱，全息屏、手机APP，微信公众号，小程序等等。

上述路由模块、虚拟展示信息对应的模块、数字人语音动画生成的模块和实时引擎共同构成平台502的多模态输出层。

平台502还可以包括离线制作的模块，该模块可包括虚拟数字人制作、动画音频数据制作、虚拟素材制作等部分、其中，虚拟数字人制作部分完成虚拟数字人的角色建模和角色绑定；动画音频数据制作部分完成肢体动画制作、表情动画制作和高质量音频采集；虚拟素材制作部分完成虚拟的场景、特性、道具和widget控件等的制作。

关于图5和图6所述的基于虚拟角色的多模态交互***的工作原理、工作方式的更多内容，可以参照上述图1至图3中的对于基于虚拟角色的多模态交互方法的相关描述，这里不再赘述。

相对于智能语音助手和2D形象数字人助手，本发明实施例提供的支持多模态的主要改进包括：

(1)用户交互体验的升级：传统的智能助手通过文字和语音进行交互，存在交互体验差，信息选择效率低的问题。多模态虚拟角色可以通过语音，动作，表情等和用户进行交互，利用丰富的展现形式，比如图文，视频等，对图文进行展现。通过多模态输出的展现形式，将原有的2D的交互体验升级成虚拟3D的交互体验，提升用户观感效果。

(2)提升用户获取信息的效率：现有的信息交互载体，比如浏览器，app等，都是通过推荐信息流的方式，让用户获取信息。一般用户都需要从繁多的信息中自己去筛选合适的信息，这样的信息交互方式比较低效。多模态虚拟角色通过逻辑决层分析结合虚拟角色的多模态的输出，可以准确的获取信息，另外通过丰富的内容展示和友好的信息引导，大大提升了用户获取信息的效率。

(3)虚拟角色及其素材库可在平台执行基于虚拟角色的多模态交互方法之前离线生成，展示的多模态虚拟内容时，虚拟角色能够在输出语音时，做出与声音高度对齐的表情动作和/或身体动作，相较于传统的虚拟助手，本发明实施例的虚拟角色经由实时解算和3D渲染后，展示效果更好，且可以和真人一样自然的说话，提高虚拟角色的智能性和真实感。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机程序，计算机程序被处理器运行时执行上述图1至图3所示方法的技术方案。

进一步地，本发明实施例还公开一种终端，包括存储器和处理器，存储器上存储有能够在处理器上运行的计算机程序，处理器运行计算机程序时执行上述图1至图3所示方法的技术方案。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于虚拟角色的多模态交互方法，其特征在于，所述方法包括：

获取输入信息，所述输入信息包括一种或多种数据类型；

将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；

将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；

根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括虚拟角色；

输出获取的多模态虚拟内容。

2.根据权利要求1所述的方法，其特征在于，所述逻辑决策层包括逻辑决策模型，所述逻辑决策模型基于训练样本训练得到，所述训练样本为所述识别结果的样本和所述驱动指令的样本，所述训练样本包括一个训练集及测试集。

3.根据权利要求1所述的方法，其特征在于，所述多模态虚拟内容还包括虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。

4.根据权利要求1所述的方法，其特征在于，所述输入信息至少包括文本类数据、音频类数据以及图像类数据。

5.根据权利要求4所述的方法，其特征在于，所述感知层通过语音识别处理技术、文本识别技术、图像识别技术中的一种或多种技术对所述输入信息进行信息识别。

6.根据权利要求5所述的方法，其特征在于，当所述感知层通过语音识别处理技术对所述输入信息进行信息识别时，将所述输入信息中的音频类数据输入语音识别模型中以得到对应的识别结果。

7.根据权利要求5所述的方法，其特征在于，当所述感知层通过图像识别技术对所述输入信息进行信息识别时，至少识别所述输入信息中的图像类数据中的人脸信息、手势信息、面部表情信息、面部情绪信息、图像中包含的物体种类。

8.根据权利要求5所述的方法，其特征在于，所述识别结果为多种数据类型对应的语义信息，所述将所述识别结果输入逻辑决策层，所述逻辑决策层对所述识别结果进行处理，并生成所述输入信息对应的驱动指令，还包括：

将多种数据类型对应的语义信息输入自然语言对话***，以得到驱动指令。

9.根据权利要求8所述的方法，其特征在于，所述多模态虚拟内容包括虚拟角色的虚拟内容和除虚拟角色之外的其他虚拟内容，所述得到驱动指令之后，还包括：

通过路由模块从所述驱动指令中获取输出文本和/或展示指令；

其中，所述输出文本用于获取虚拟角色的虚拟内容，所述展示指令用于获取除虚拟角色之外的其他虚拟内容。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括虚拟角色及其素材库生成，包括：

通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定中的一种或多种技术生成虚拟角色；

通过动作捕捉和/或运动重定向技术采集虚拟角色的动作动画数据，以得到所述虚拟角色的身体动作素材；

通过表情和/或眼神捕捉以及表情和眼神迁移技术采集虚拟角色的表情动画数据，以得到所述虚拟角色的表情动作素材；

获取训练文本和训练语音；

以所述训练文本、所述训练语音和所述表情动作素材为训练样本，通过模型训练得到语音动画合成模型。

11.根据权利要求10所述的方法，其特征在于，所述根据所述驱动指令获取多模态虚拟内容，包括：

基于所述输出文本，通过所述语音动画合成模型获取所述虚拟角色对应的输出语音和/或表情动作。

12.根据权利要求11所述的方法，其特征在于，所述虚拟角色的表情动作包括唇形。

13.根据权利要求10所述的方法，其特征在于，所述根据所述驱动指令获取多模态虚拟内容，还包括：

基于所述输出文本，从所述身体动作素材获取所述虚拟角色对应的身体动作。

14.根据权利要求10所述的方法，其特征在于，所述根据所述驱动指令获取多模态虚拟内容，还包括：

基于所述展示指令，获取虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。

15.根据权利要求11所述的方法，其特征在于，所述输出获取的多模态虚拟内容，包括：

根据获取的多模态虚拟内容生成动画数据；

将所述动画数据以语音的内容为时间轴、按照时间序列进行输出。

16.根据所述权利要求15所述的方法，其特征在于，所述根据获取的多模态内容生成动画数据之后，还包括：

对所述动画数据进行实时解算和/或实时渲染，得到视频并输出。

17.根据权利要求16所述的方法，其特征在于，通过解算算法对所述动画数据进行物体在真实场景中的物理行为的模拟。

18.根据权利要求1所述的方法，其特征在于，所述输入信息由信息采集设备采集得到，所述信息采集设备包括文本采集设备、图像采集设备、拾音设备、温度传感器以及陀螺仪中的一种或多种。

19.一种基于虚拟角色的多模态交互装置，其特征在于，所述装置包括：

输入信息获取模块，用于获取输入信息，所述输入信息包括一种或多种数据类型；

感知层处理模块，用于将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；

逻辑决策层处理模块，用于将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；

虚拟内容获取模块，用于根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括所述虚拟角色；

输出模块，用于输出获取的多模态虚拟内容。

20.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至18任一项所述方法的步骤。

21.一种终端，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至18任一项所述方法的步骤。

22.一种基于虚拟角色的多模态交互***，其特征在于，所述***包括信息采集设备，平台和输出设备；

所述信息采集设备用于采集外部数据以得到输入信息；

所述平台用于执行权利要求1至18任一项所述的方法；

所述输出设备，用于展示输出的多模态虚拟内容。