CN108388399A

CN108388399A - 虚拟偶像的状态管理方法及***

Info

Publication number: CN108388399A
Application number: CN201810032045.5A
Authority: CN
Inventors: 秦萌萌; 贾志强; 俞晓君
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-08-10
Anticipated expiration: 2038-01-12
Also published as: CN108388399B

Abstract

本发明提供一种虚拟偶像的状态管理方法，虚拟偶像具有特定的形象特征，并通过全息设备被展示出来，方法包含：获取多模态输入；解析多模态输入中的意图或操作，以得到用于状态转化的转化意图或转化指令；将虚拟偶像的当前状态转化为转化意图或转化指令指示的虚拟偶像的新状态；新状态包括：开启虚拟偶像在新状态下所需要的能力或技能模块。本发明提供的虚拟偶像的状态管理方法及***提供了一种虚拟偶像，能够通过全息成像完成与用户的多模态交互。另外，本发明提供的虚拟偶像还包含多种状态，例如，暂停状态、音频输出状态、等待录音状态、录音状态、待机状态以及技能开启状态，并且本发明还能够对虚拟偶像的状态进行管理，提升了用户的交互体验。

Description

虚拟偶像的状态管理方法及***

技术领域

本发明涉及人工智能领域，具体地说，涉及一种虚拟偶像的状态管理方法及***。

背景技术

机器人聊天交互***的开发致力于模仿人类对话。早期应用比较广泛的聊天机器人应用程序包括小i聊天机器人或是苹果手机上的siri聊天机器人等处理所接收到的输入(包括文本或语音)并根据输入做出相应的响应，以试图在上下文之间模仿人类之间的交互。

但是，目前来说，对于虚拟偶像相关的机器人聊天交互***的开发还不太完善，尚未出现能够与用户进行多模态交互且能够管理虚拟偶像状态的多模态交互的产品。

因此，本发明提供了一种虚拟偶像的状态管理方法及***。

发明内容

为解决上述问题，本发明提供了一种虚拟偶像的状态管理方法，所述虚拟偶像具有特定的形象特征，并通过全息设备被展示出来，所述方法包含以下步骤：

获取多模态输入；

解析所述多模态输入中的意图或操作，以得到用于状态转化的转化意图或转化指令；

将所述虚拟偶像的当前状态转化为所述转化意图或转化指令指示的所述虚拟偶像的新状态；

所述新状态包括：开启所述虚拟偶像在所述新状态下所需要的能力或技能模块。

根据本发明的一个实施例，所述虚拟偶像的状态分为休眠状态、活跃状态和等待状态，其中，

休眠状态包括：暂停状态和待机状态；

活跃状态包括：录音状态、音频输出状态和技能开启状态；

在暂停状态下，停止运行所述虚拟偶像；

在待机状态下，在后台运行所述虚拟偶像；

在录音状态下，停止之前多模态输出，开始检测音频信号；

在音频输出状态下，调用所述能力或技能模块中的语言交互模块进行对话交互；

在技能开启状态下，调用所述能力或技能模块中的歌舞表演模块进行歌舞表演。

根据本发明的一个实施例，所述等待状态为等待录音状态。

根据本发明的一个实施例，在所述等待状态下，结合云端大脑对所述多模态输入的解析结果来确定要进入的状态为音频输出状态还是技能开启状态，并在进入音频输出状态或者技能开启状态后，通过结合所述云端大脑的反馈来执行能力或技能模块开启的多模态输出。

根据本发明的一个实施例，在任何一种活跃状态下，如果检测到当前状态下的任务已经处理结束并且未检测到任何多模态输入数据时，将当前状态转化至休眠状态中的待机状态或暂停状态。

根据本发明的一个实施例，所述活跃状态中的录音状态的优先级最高，在虚拟偶像处于等待状态即等待录音状态下，采集用户语音以使得虚拟偶像进入录音状态。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上所述的任一方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种虚拟偶像，其特征在于，所述虚拟偶像具备特定的虚拟形象和预设属性，采用如上所述的方法执行所述虚拟偶像的状态转化过程。

根据本发明的另一个方面，还提供了一种虚拟偶像的状态管理***，所述***包含：

智能设备，其上装载有所述虚拟偶像，用于获取多模态输入，并具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出的能力；

全息设备，其用于获取多模态输入以及将所述虚拟偶像的影像转化为全息影像并显示所述全息影像；

云端大脑，其用于在等待状态下，根据对所述多模态输入的解析结果来确定要进入的状态为音频输出状态还是技能开启状态，并在进入音频输出状态或者技能开启状态后，决策所述虚拟偶像的多模态输出。

本发明提供的一种虚拟偶像的状态管理方法及***提供了一种虚拟偶像，能够通过全息成像的方式完成与用户的多模态交互。另外，本发明提供的虚拟偶像的状态管理***中的虚拟偶像还包含多种状态，例如，暂停状态、音频输出状态、等待录音状态、录音状态、待机状态以及技能开启状态，并且本发明还能够对虚拟偶像的状态进行管理，提升了用户的交互体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的虚拟偶像的状态管理***的多模态交互示意图；

图2显示了根据本发明的一个实施例的虚拟偶像的状态管理***的结构框图；

图3显示了根据本发明的一个实施例的虚拟偶像的状态管理***的状态分类图；

图4显示了根据本发明的一个实施例的虚拟偶像的状态管理***的状态转化示意图；

图5显示了根据本发明的一个实施例的虚拟偶像的状态管理***的模块框图；

图6显示了根据本发明的一个实施例的虚拟偶像的状态管理方法的流程图；

图7显示了根据本发明的一个实施例的虚拟偶像的状态管理方法的另一流程图；以及

图8显示了根据本发明的一个实施例的在用户、智能设备、全息设备以及云端大脑四方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的虚拟偶像以全息设备为主要展示界面，具备特定形象特征；

通过支持输入输出及控制模块的智能设备实现多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力；

可配置社会属性、人格属性、人物技能等，使用户(二次元发烧友)享受娱乐及个性化流畅体验的虚拟人物。

所提到的云端大脑为提供所述虚拟偶像对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以便帮助用户进行决策。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的虚拟偶像的状态管理***的多模态交互示意图。如图1所示，进行多模态交互需要用户101、智能设备102、全息设备103以及云端大脑104。其中，与虚拟偶像交互的用户101可以为真实人、另一个虚拟偶像以及实体的虚拟偶像，另一虚拟偶像以及实体虚拟偶像与虚拟偶像的交互过程与单个的人与虚拟偶像的交互过程类似。因此，在图1中仅展示的是用户(人)与虚拟偶像的多模态交互过程。

图1中虚拟偶像与用户101之间交互的过程为：

交互所需的前期准备或是条件有，虚拟偶像搭载并运行在智能设备102上，并且虚拟偶像具备特定的形象特征。虚拟偶像具备自然语言理解、视觉感知、触摸感知、语言输出、情感表情动作输出等AI能力。为了配合虚拟偶像的触摸感知功能，智能设备上也需要安装有具备触摸感知功能的部件。根据本发明的一个实施例，为了提升交互的体验，虚拟偶像在被启动后就显示在全息设备的预设区域内，避免用户等待的时间过长。

在此需要说明的是，虚拟偶像的形象以及装扮不限于一种模式。虚拟偶像可以具备不同的形象以及装扮。虚拟偶像的形象一般为3D高模动画形象。虚拟偶像可以具备不同的外貌以及装饰。每种虚拟偶像的形象还会对应多种不同的装扮，装扮的分类可以依据季节分类，也可以依据场合分类。这些形象以及装扮可以存在于云端大脑104中，也可以存在于智能设备102中，在需要调用这些形象以及装扮时可以随时调用。

虚拟偶像的社会属性、人格属性以及人物技能也不限于一种或是一类。虚拟人可以具备多种社会属性、多种人格属性以及多种人物技能。这些社会属性、人格属性以及人物技能可以分别搭配，并不固定于一种搭配方式，用户可以根据需要进行选择与搭配。

根据本发明的一个实施例，用来显示虚拟偶像的全息设备103包含通信接口、成像装置以及输出装置。其中，通信接口接收智能设备102传输的虚拟偶像的形象以及交互数据。成像装置与通信接口连接，用于将虚拟偶像的形象转化为全息影像，并将全息影像显示在预设区域。输出装置与通信接口以及成像装置连接，用于呈现全息影像及虚拟偶像当前状态的展示数据。

以下为多模态交互过程，首先，获取多模态输入。多模态输入可以是用户101发出的，也可以是通过感知环境输入的。多模态输入可以包含文本、语音、视觉以及感知信息等多种模态的信息。获取多模态输入的接收装置均安装或是配置于智能设备或是全息设备上，这些接收装置包含接收文本的文本接收装置，接收语音的语音接收装置，接收视觉的摄像头以及接收感知信息的红外线设备等。

接着，解析多模态输入中的意图或操作，以得到用于状态转化的转化意图或转化指令。在多模态交互过程中，虚拟偶像可以在多种状态下与用户101进行交互，每种状态都具备不同的虚拟偶像的能力或是技能模块。

为了在虚拟偶像与用户101进行交互的过程中转化虚拟偶像的状态，需要实时解析多模态输入中的意图或是操作，分析多模态输入中是否包含用户101转化虚拟偶像状态的意愿，以得到用于状态转化的转化意图或转化指令。

得到转化意图或转化指令后，接下来，将虚拟偶像的当前状态转化为转化意图指示的虚拟偶像的新状态。根据本发明的一个实施例，虚拟偶像的状态包含休眠状态、活跃状态和等待状态。其中，休眠状态包括：暂停状态和待机状态；活跃状态包括：录音状态、音频输出状态和技能开启状态。各个状态下虚拟偶像的运行情况为，在暂停状态下，停止运行虚拟偶像；在待机状态下，在后台运行虚拟偶像；在录音状态下，检测音频输入信号，启动能力或技能模块中的录制模块记录音频输入数据；在音频输出状态下，调用能力或技能模块中的语言交互模块进行对话交互；在技能开启状态下，调用能力或技能模块中的歌舞表演模块进行歌舞表演。

最后，开启虚拟偶像在新状态下所需要的能力或技能模块。

在本发明的一个实施例中，智能设备102的屏幕面对全息设备103，并在屏幕上显示虚拟偶像的影像，虚拟偶像的影像为四个角度的视图，分别是前视图、后视图、左视图以及右视图。

根据本发明的另一个实施例，一种虚拟偶像，其具备特定的虚拟形象和预设属性，采用本发明提供的虚拟偶像的状态管理方法执行虚拟偶像的状态转化过程。

图2显示了根据本发明的一个实施例的虚拟偶像的状态管理***的结构框图。如图2所示，通过***完成多模态交互需要：用户101、智能设备102以及云端大脑104。其中，智能设备102包含接收装置102A、处理装置102B、输出装置102C以及连接装置102D。云端大脑104包含通信装置1041。

在本发明提供的虚拟偶像的状态管理***需要在用户101、智能设备102以及云端大脑104之间建立通畅的通信通道，以便能够完成用户101与虚拟偶像的交互。为了完成交互的任务，智能设备102以及云端大脑104配置有支持完成交互的装置以及部件。与虚拟偶像交互的对象可以为一方，也可以为多方。

智能设备102包含接收装置102A、处理装置102B、输出装置102C以及连接装置102D。其中，接收装置102A用于接收多模态输入。接收装置102A的例子包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。智能设备102可以通过以上提到的输入设备来获取多模态输入。输出装置102C用于输出虚拟偶像与用户101交互的多模态输出数据，在此不再赘述。

处理装置102B用于处理交互过程中由云端大脑104传送的交互数据。连接装置102D用于与云端大脑104之间的联系，处理装置102B处理接收装置102A预处理的多模态输入或由云端大脑传送的数据。连接装置102D发送调用指令来调用云端大脑104上的机器人能力。

在等待状态下，云端大脑104能够根据对多模态输入的解析结果来确定要进入的状态为音频输出状态还是技能开启状态，并在进入音频输出状态或者技能开启状态后，决策所述虚拟偶像的多模态输出。

云端大脑104包含的通信装置1041用于完成与智能设备102之间的通信联系。通信装置1041与智能设备102上的连接装置102D之间保持通讯联系，接收智能设备102的发来的请求，并发送云端大脑104发出的处理结果，是智能设备102以及云端大脑104之间沟通的介质。

图3显示了根据本发明的一个实施例的虚拟偶像的状态管理***的状态分类图。如图3所示，虚拟偶像状态300包含休眠状态301、活跃状态302以及等待状态303。其中，休眠状态301包含暂停状态3011以及待机状态3012。活跃状态302包含录音状态3021、音频输出状态3022以及技能开启状态3023。

根据本发明的一个实施例，虚拟偶像状态的能力或技能包含，在暂停状态3011下，停止运行虚拟偶像；在待机状态3012下，在后台运行虚拟偶像；在录音状态3021下，检测音频输入信号，启动能力或技能模块中的录制模块记录音频输入数据；在语音输出状态3022下，调用能力或技能模块中的语言交互模块进行对话交互；在技能开启状态3023下，调用能力或技能模块中的歌舞表演模块进行歌舞表演。

在本发明提供的虚拟偶像的状态管理***中，等待状态是虚拟偶像状态中的重要组成部分，是录音状态与音频输出状态或是技能开启状态之间的桥梁。根据本发明的一个实施例，等待状态303可以是等待录音状态，即为响应打断的的状态，在等待录音状态下，结合云端大脑104对多模态输入的解析结果来确定要进入的状态为音频输出状态3022还是技能开启状态3023，并在进入音频输出状态3022或者技能开启状态3023后，通过结合云端大脑104的反馈来执行能力或技能模块开启的多模态输出。

根据本发明的一个实施例，在任何一种活跃状态302下，如果检测到当前状态下的任务已经处理结束并且未检测到任何多模态输入数据时，将当前状态转化至休眠状态301中的待机状态3012或暂停状态3011。另外，活跃状态302中的录音状态3021的优先级最高，在虚拟偶像处于等待状态303即等待录音状态下，采集用户语音以使得虚拟偶像进入录音状态。

图4显示了根据本发明的一个实施例的虚拟偶像的状态管理***的状态转化示意图。

本发明提供的虚拟偶像的状态管理***中的虚拟偶像具备多种不同的状态，每种状态下虚拟偶像又具备不同的能力或是技能。虚拟偶像在与用户进行多模态交互时能够在用户的指导下转换虚拟偶像的状态。

在智能设备102中的交互程序被激活后，虚拟偶像随即进入到暂停状态。在暂停状态下，虚拟偶像停止运行。当有激活事件发生时，虚拟偶像进入等待录音状态。在本发明的一个实施例中，激活事件可以是用户101按下开启等待录音状态的按键，即智能设备102可以包含实体等待录音按键或是虚拟等待录音按键，在用户101按下实体等待录音按键或是虚拟等待录音按键时，虚拟偶像的状态由暂停状态转化为等待录音状态。另外，需要说明的是，激活事件还可以是其他形式的，本发明并不对激活事件的激活形式做出限制。

在虚拟偶像由暂停状态转化为等待录音状态后，如果虚拟偶像检测到用户说话，则虚拟偶像的状态由等待录音状态转化为录音状态。在录音状态下，虚拟偶像检测音频输入信号，启动能力或技能模块中的录制模块记录音频输入数据。当虚拟偶像处于录音状态时，且虚拟偶像检测到“再见”等词时，虚拟偶像由录音状态转化为待机状态。此时，用户101表露出结束本次录音的意愿，虚拟偶像随即转化状态至待机状态，等待用户101的下次多模态输入。

如果虚拟偶像处于录音状态，且检测到用户说话停止，则虚拟偶像由录音状态转化为等待录音状态。另外，如果需要虚拟偶像由录音状态切换为音频输出状态，虚拟偶像首先由录音状态转化为等待录音状态，再由等待录音状态转化为音频输出状态。当虚拟偶像处于音频输出状态时，用户101可以与虚拟偶像展开对话交互，虚拟偶像会播放出与用户101交互的交互音频，当交互音频播放结束时，虚拟偶像的状态由音频输出状态转化为暂停状态。

另外，当虚拟偶像处于待机状态时，如果用户101发出唤醒意图或是指令，则虚拟偶像由待机状态转化为等待录音状态。此处的唤醒意图可以是虚拟偶像发出的特定音频以及特定肢体动作或是用户101的特定生物特征。

如果需要虚拟偶像由录音状态切换为技能开启状态，虚拟偶像首先由录音状态转化为等待录音状态，再由等待录音状态转化为技能开启状态。当虚拟偶像处于技能开启状态时，调用能力或技能模块中的歌舞表演模块进行歌舞表演，以将歌舞表演展示给用户101。

当虚拟偶像处于技能开启状态，且虚拟偶像歌唱完毕或是被打断，则虚拟偶像由技能开启状态转化为等待录音状态。当虚拟偶像处于技能开启状态，且虚拟偶像歌唱开始，则虚拟偶像由技能开启状态转化为待机状态。

图5显示了根据本发明的一个实施例的虚拟偶像的状态管理***的模块框图。如图5所示，***包含获取模块501、意图模块502、状态模块503以及技能模块504。其中，获取模块501包含文本采集单元5011、音频采集单元5012、视觉采集单元5013以及感知采集单元5014。

获取模块501用于获取多模态输入。其中，文本采集单元5011用来采集文本信息。音频采集单元5012用来采集音频信息。视觉采集单元5013用来采集视觉信息。感知采集单元5014用来采集感知信息。获取模块501的例子包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态输入数据。多模态输入可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

意图模块502用于解析多模态输入中的意图或操作，以得到用于状态转化的转化意图或转化指令。意图模块502包含解析单元5021，解析单元5021用于解析多模态输入，以得到多模态输入中包含的转化意图或转化指令。转化意图或转化指令能够用于指导虚拟偶像多种状态之间的转化。

状态模块503用于将虚拟偶像的当前状态转化为转化意图指示的虚拟偶像的新状态。根据本发明的一个实施例，虚拟偶像包含多种状态，例如，休眠状态、活跃状态和等待状态。其中，休眠状态包含暂停状态和待机状态。活跃状态包含录音状态、音频输出状态以及技能开启状态。中间活跃状态包含等待录音状态。状态模块503包含转化单元5031，在一个实施例中，转化单元5031能够将虚拟偶像的状态由休眠状态转化为活跃状态，也能够将虚拟偶像的状态由活跃状态转化为休眠状态。

技能模块504用于开启虚拟偶像在新状态下所需要的能力或技能模块。技能模块504包含开启单元5041，当虚拟偶像转化为新状态后，开启单元5041随即开启新状态对应的虚拟偶像的能力或是技能。

图6显示了根据本发明的一个实施例的虚拟偶像的状态管理方法的流程图。

如图6所示，在步骤S601中，获取多模态输入。在本步骤中，智能设备102或全息设备103会获取多模态输入，多模态输入可以是用户101输入的，也可以是具备输入功能的其他设备输入的。智能设备102以及全息设备103会配置有获取多模态输入的相应装置。多模态输入可以是文本输入、音频输入以及感知输入等形式的输入。

接着，在步骤S602中，解析多模态输入中的意图或操作，以得到用于状态转化的转化意图或转化指令。多模态输入中包含多种信息，为了获知用户101的交互意图信息，需要解析多模态输入中的意图或操作，根据意图或操作得到用于状态转化的转化意图或转化指令。

然后，在步骤S603中，将虚拟偶像的当前状态转化为意图指示的虚拟偶像的新状态。根据本发明的一个实施例，虚拟偶像包含多种状态，例如，休眠状态、活跃状态和等待状态。其中，休眠状态包含暂停状态和待机状态。活跃状态包含录音状态、音频输出状态以及技能开启状态。中间活跃状态包含等待录音状态。在获知用于状态转化的转化意图或转化指令后，在本步骤中将虚拟偶像的当前状态转化为意图指示的虚拟偶像的新状态。

最后，虚拟偶像进入新状态，在步骤S604中，开启虚拟偶像在新状态下所需要的能力或技能模块。虚拟偶像的每个状态都包含状态下的能力或是技能模块。根据本发明的一个实施例，在暂停状态下，停止运行虚拟偶像；在待机状态下，在后台运行虚拟偶像；在录音状态下，检测音频输入信号，启动能力或技能模块中的录制模块记录音频输入数据；在音频输出状态下，调用能力或技能模块中的语言交互模块进行对话交互；在技能开启状态下，调用能力或技能模块中的歌舞表演模块进行歌舞表演。

此外，本发明提供的虚拟偶像的状态管理***还可以配合一种程序产品，其包含用于执行完成虚拟偶像的状态管理方法步骤的一系列指令。

图7显示了根据本发明的一个实施例的虚拟偶像的状态管理方法的另一流程图。

如图7所示，在步骤S701中，智能设备102向云端大脑104发出请求。之后，在步骤S702中，智能设备102一直处于与云端大脑104交互的状态。在交互过程中，智能设备102会对返回数据所花费的时间进行计时操作。

在步骤S703中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则智能设备102会选择进行本地回复，生成本地常用应答数据。然后，在步骤S704中，输出与本地常用应答配合的动画，并调用语音播放设备进行语音播放。

为了实现智能设备102与用户101之间的多模态交互，需要用户101、智能设备102、全息设备103以及云端大脑104之间建立起通信连接。这种通信连接应该是实时的、通畅的，能够保证交互不受影响的。

为了完成交互，需要具备一些条件或是前提。这些条件或是前提包含，智能设备102中装载并运行虚拟偶像，并且智能设备102具备感知以及控制功能的硬件设施。另外，全息设备103能够接收智能设备102传送的虚拟偶像的形象，并将虚拟偶像的形象转化为全息影像，将全息影像显示在预设区域。

完成前期准备后，智能设备102开始与用户101展开交互，首先，智能设备102和/或全息设备103获取多模态输入，多模态输入可以是用户101发出的，也可以是其它设备发出的。此时，展开数据传递的两方是用户101与智能设备102和/或全息设备103。接着，解析多模态输入中的意图或操作，以得到用于状态转化的转化意图或转化指令。

接着，虚拟偶像处在等待状态时，智能设备102向云端大脑104发送请求，云端大脑104根据多模态输入的解析结果来确定要进入的状态为音频输出状态还是技能开启状态，并在进入音频输出状态或者技能开启状态后，云端大脑104回复智能设备102，决策所述虚拟偶像的多模态输出。此时，展开通信的两方是智能设备102以及云端大脑104。

当智能设备102接收到云端大脑104传输的数据以及指令后或是智能设备102中运行的虚拟偶像的当前状态转化为转化意图指示的虚拟偶像的新状态后，智能设备102会将虚拟偶像的形象以及虚拟偶像当前状态的展示数据传输至全息设备103。全息设备103会将虚拟偶像的形象转换为全息影像，以将虚拟偶像的全息影像显示在全息设备103的预设区域。此时，展开通信的两方为智能设备102与全息设备103。

最后，全息设备103会将虚拟偶像的全息影像以及虚拟偶像当前状态的展示数据输出，展示给用户101。此时展开通信的两方是全息设备103与用户101。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种虚拟偶像的状态管理方法，其特征在于，所述虚拟偶像具有特定的形象特征，并通过全息设备被展示出来，所述方法包含以下步骤：

获取多模态输入；

2.如权利要求1所述的虚拟偶像的状态管理方法，其特征在于，所述虚拟偶像的状态分为休眠状态、活跃状态和等待状态，其中，

休眠状态包括：暂停状态和待机状态；

活跃状态包括：录音状态、音频输出状态和技能开启状态；

在暂停状态下，停止运行所述虚拟偶像；

在待机状态下，在后台运行所述虚拟偶像；

在录音状态下，停止之前多模态输出，开始检测音频信号；

3.如权利要求2所述的虚拟偶像的状态管理方法，其特征在于，所述等待状态为之前状态结束时的等待录音状态。

4.如权利要求1-3所述的虚拟偶像的状态管理方法，其特征在于，

在所述等待录音状态下，结合云端大脑对所述多模态输入的解析结果来确定要进入的状态为音频输出状态还是技能开启状态，并在进入音频输出状态或者技能开启状态后，通过结合所述云端大脑的反馈来执行能力或技能模块开启的多模态输出。

5.如权利要求2-3的虚拟偶像的状态管理方法，其特征在于，

在任何一种活跃状态下，如果检测到当前状态下的任务已经处理结束并且未检测到任何多模态输入数据时，将当前状态转化至休眠状态中的待机状态或暂停状态。

6.如权利要求5中任一项所述的虚拟偶像的状态管理方法，其特征在于，所述活跃状态中的录音状态的优先级最高，在虚拟偶像处于等待状态即等待录音状态下，采集用户语音以使得虚拟偶像进入录音状态。

7.一种程序产品，其包含用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。

8.一种虚拟偶像，其特征在于，所述虚拟偶像具备特定的虚拟形象和预设属性，采用如权利要求1-6所述的方法执行所述虚拟偶像的状态转化过程。

9.一种虚拟偶像的状态管理***，其特征在于，所述***包含：

智能设备，其上装载有如权利要求8所述的虚拟偶像，用于获取多模态输入，并具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出的能力；

全息设备，其用于获取多模态输入以及将如权利要求8所述的虚拟偶像的影像转化为全息影像并显示所述全息影像；

云端大脑，其用于在等待状态下，根据对所述多模态输入的解析结果来确定要进入的状态为音频输出状态还是技能开启状态，并在进入音频输出状态或者技能开启状态后，决策如权利要求8所述的虚拟偶像的多模态输出。