CN115309882A

CN115309882A - 基于多模态特征的交互信息生成方法、***及存储介质

Info

Publication number: CN115309882A
Application number: CN202210955672.2A
Authority: CN
Inventors: 陈锁; 顾文元; 张雪源
Original assignee: Yuanmeng Human Intelligence International Co ltd; Shanghai Yuanmeng Intelligent Technology Co ltd
Current assignee: Yuanmeng Human Intelligence International Co ltd; Shanghai Yuanmeng Intelligent Technology Co ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-08

Abstract

本发明公开了一种基于多模态特征的交互信息生成方法、***及存储介质，其方法包括步骤：获取交互对象的多模态特征，所述多模态特征包括图像特征、语音特征和文本特征；对所述多模态特征进行归一化处理得到目标特征向量；根据预设的每个模态对应的分类器分别对所述多模态特征进行分类，得到各模态特征对应的分类结果；将所述目标特征向量和各模态特征对应的所述分类结果输入预设的对话管理模块生成目标对话策略；将所述目标对话策略输入自然语言生成模块中生成交互信息。本发明可以基于用户传递的的多模态信息进行量化分析，根据当前交互需求生成更准确、更直观且更具人性化的交互信息。

Description

基于多模态特征的交互信息生成方法、***及存储介质

技术领域

本发明涉及多模态信息交互技术领域，特别涉及一种基于多模态特征的交互信息生成方法、***及存储介质。

背景技术

随着虚拟人技术发发展，虚拟人被越来越多地用于需要进行聊天交互的场景，比如客户服务、智能聊天和内容生成等。目前虚拟人跟用户进行聊天交互主要依赖于自然语言领域的对话***，使虚拟人跟用户进行聊天交互时更加智能，更加主动，使其越来越接近真人和用户的互动效果。

目前虚拟人技术中，各种对话***接收的用户输入一般为语音识别后转化的文本，通过NLU(Natural Language Understanding，NLU)技术对文本进行自然语言解析和理解，进而将得到的中间结果传入对话管理模块(Dialogue Manage，DM)，进一步进行策略管理和自然语言生成(Natural language generation，NLG)。这种方式一般只考虑了输入数据为文本的情况，且对话***的交互方式一般也只是文本形式，这使得虚拟人的人物表现比较单一和呆板，无法快速精准捕捉用户实时心理。

因此目前需要一种基于多模态特征的交互信息生成方法，基于用户传递的的多模态信息进行量化分析，充分了解用户当前的交互需求，并基于当前的交互需求生成更准确、更直观且更具人性化的交互信息。

发明内容

为解决目前交互方法中交互方式单一且呆板，无法快速精准基于用户传递的信息进行交互反馈的技术问题，本发明提供一种基于多模态特征的交互信息生成方法、***及存储介质，具体的技术方案如下：

本发明提供一种基于多模态特征的交互信息生成方法，包括步骤：

获取交互对象的多模态特征，所述多模态特征包括图像特征、语音特征和文本特征；

对所述多模态特征进行归一化处理得到目标特征向量；

根据预设的每个模态对应的分类器分别对所述多模态特征进行分类，得到各模态特征对应的分类结果；

将所述目标特征向量和各模态特征对应的所述分类结果输入预设的对话管理模块生成目标对话策略；

将所述目标对话策略输入自然语言生成模块中生成交互信息。

本发明提供的基于多模态特征的交互信息生成方法通过将多模态特征进行归一化处理得到目标特征向量，以及分别对多模态特征进行分类，并根据目标特征向量和分类结果生成目标对话策略，进而得到交互信息，综合考虑交互对象传递的多模态特征进行交互，对多模态特征进行量化分析，充分了解用户当前的交互需求，使交互过程更准确、更直观且更具人性化。

在一些实施方式中，所述的获取交互对象的多模态特征，具体包括：

采集预设时段内所述交互对象的图像信息、语音信息和对话文本信息；

通过图像序列分析算法对所述图像信息进行特征提取得到所述图像特征；

通过语音特征提取算法对所述语音信息进行特征提取得到所述语音特征；

通过自然语言处理算法对所述对话文本信息进行特征提取得到所述文本特征。

本发明提供的基于多模态特征的交互信息生成方法分别通过图像序列分析算法、语音特征提取算法和自然语言处理算法对采集到的交互对象的图像信息、语音信息和对话文本信息进行特征提取，便于后续根据多模态特征进行更准确地信息交互。

在一些实施方式中，所述的采集预设时段内所述交互对象的图像信息之后，还包括：

通过图像语义分割模型对所述图像信息进行图像分割，生成表情图像信息和肢体图像信息，所述图像语义分割模型基于标注有所述表情图像信息和所述肢体图像信息的图像信息数据集，进行深度学习训练生成；

所述的通过图像序列分析算法对所述图像信息进行特征提取得到所述图像特征，具体包括：

通过所述图像序列分析算法分别对所述表情图像信息和所述肢体图像信息进行特征提取，得到表情图像特征和肢体图像特征。

本发明提供的基于多模态特征的交互信息生成方法通过将图像信息进行图像分割生成表情图像信息和肢体图像信息，便于后续分别根据表情图像特征和肢体图像特征分析交互对象的交互需求，提高交互信息生成的准确性。

在一些实施方式中，所述的通过图像序列分析算法对所述图像信息进行特征提取得到所述图像特征，具体还包括：

通过预设的CNN+LSTM模型分别对所述预设时段内所述表情图像信息和所述肢体图像信息进行特征提取，得到表情图像特征组和肢体图像特征组，所述表情图像特征组包括所述预设时段内各个所述表情图像特征，所述肢体图像特征组包括所述预设时段内各个所述肢体图像特征。

在一些实施方式中，所述的通过语音特征提取算法对所述语音信息进行特征提取得到所述语音特征，具体包括：

通过MFCC算法对所述语音信息进行特征提取得到所述语音特征；

所述的通过自然语言处理算法对所述对话文本信息进行特征提取得到所述文本特征，具体包括：

通过预设的正则表达式对所述对话文本信息进行特征提取得到第一文本特征向量；

通过预设的LSTM模型对所述对话文本信息进行特征提取得到第二文本特征向量；

拼接融合所述第一文本特征向量和所述第二文本特征向量作为所述文本特征。

在一些实施方式中，所述的将所述目标特征向量和各模态特征对应的所述分类结果输入预设的对话管理模块生成目标对话策略，具体包括：

将所述目标特征向量和各模态特征对应的所述分类结果输入预设的对话管理模块，通过所述对话管理模块中搭载的有限状态机、贝叶斯网络和LSTM网络进行对话状态管理和策略选择，生成所述目标对话策略。

在一些实施方式中，所述自然语言生成模块基于包括所述目标对话策略和所述交互信息对应关系的数据集进行深度学习训练生成，所述交互信息包括交互内容、语音风格、面部表情、肢体动作和交互性格。

本发明提供的基于多模态特征的交互信息生成方法除文本形式外，还通过语音风格、面部表情、肢体动作和交互性格等多种交互方式与交互对象进行信息交互，使交互过程更加立体灵动，给予交互对象更加丰富的交互反馈。

在一些实施方式中，所述的将所述目标对话策略输入自然语言生成模块中生成交互信息之后，还包括：

根据所述交互内容、所述语音风格、所述面部表情、所述肢体动作和所述交互性格生成虚拟人物形象与所述交互对象进行交互。

本发明提供的基于多模态特征的交互信息生成方法实现虚拟人物在交互过程中更加立体自然，基于用户实时传递的多模态特征，准确快速地捕捉用户心理活动，通过虚拟人物的方式基于用户更加自然流畅的交互体验。

在一些实施方式中，根据本发明的另一方面，本发明还提供一种基于多模态特征的交互信息生成***，包括：

获取模块，用于获取交互对象的多模态特征，所述多模态特征包括图像特征、语音特征和文本特征；

处理模块，与所述获取模块连接，用于对所述多模态特征进行归一化处理得到目标特征向量；

分类模块，与所述获取模块连接，用于根据预设的每个模态对应的分类器分别对所述多模态特征进行分类，得到各模态特征对应的分类结果；

第一生成模块，分别与所述处理模块和所述分类模块连接，用于将所述目标特征向量和各模态特征对应的所述分类结果输入预设的对话管理模块生成目标对话策略；

第二生成模块，与所述第一生成模块连接，用于将所述目标对话策略输入自然语言生成模块中生成交互信息。

在一些实施方式中，根据本发明的另一方面，本发明还提供一种存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述基于多模态特征的交互信息生成方法所执行的操作。

本发明提供，至少包括以下一项技术效果：

(1)通过将多模态特征进行归一化处理得到目标特征向量，以及分别对多模态特征进行分类，并根据目标特征向量和分类结果生成目标对话策略，进而得到交互信息，综合考虑交互对象传递的多模态特征进行交互，对多模态特征进行量化分析，充分了解用户当前的交互需求，使交互过程更准确、更直观且更具人性化；

(2)分别通过图像序列分析算法、语音特征提取算法和自然语言处理算法对采集到的交互对象的图像信息、语音信息和对话文本信息进行特征提取，便于后续根据多模态特征进行更准确地信息交互；

(3)通过将图像信息进行图像分割生成表情图像信息和肢体图像信息，便于后续分别根据表情图像特征和肢体图像特征分析交互对象的交互需求，提高交互信息生成的准确性；

(4)除文本形式外，还通过语音风格、面部表情、肢体动作和交互性格等多种交互方式与交互对象进行信息交互，使交互过程更加立体灵动，给予交互对象更加丰富的交互反馈；

(5)实现虚拟人物在交互过程中更加立体自然，基于用户实时传递的多模态特征，准确快速地捕捉用户心理活动，通过虚拟人物的方式基于用户更加自然流畅的交互体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于多模态特征的交互信息生成方法的流程图；

图2为本发明一种基于多模态特征的交互信息生成方法中交互对象的多模态特征的流程图；

图3为本发明一种基于多模态特征的交互信息生成方法中交互对象的多模态特征的另一个流程图；

图4为本发明一种基于多模态特征的交互信息生成方法中生成目标对话策略的流程图；

图5为本发明一种基于多模态特征的交互信息生成方法的另一个流程图；

图6为本发明一种基于多模态特征的交互信息生成***的示例图。

图中标号：获取模块-10、处理模块-20、分类模块-30、第一生成模块-40和第二生成模块-50。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘出了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明的一个实施例，如图1所示，本发明提供一种基于多模态特征的交互信息生成方法，包括步骤：

S100获取交互对象的多模态特征。

具体地，多模态特征包括图像特征V₁、语音特征V₂和文本特征V₃，在检测到交互对象靠近到预设的距离阈值之内时，通过摄像设备和声音采集设备在预设时段内每隔预设时间间隔拍摄交互对象的图像信息和语音信息，并根据语音信息识别出交互对象的交互文本信息，根据图像信息、语音信息和交互文本信息提取出图像特征V₁、语音特征V₂和文本特征V₃。

S200对多模态特征进行归一化处理得到目标特征向量。

具体地，对多模态特征图像特征V₁、语音特征V₂和文本特征V₃进行NLU(NaturalLanguage Understanding)特征融合得到目标特征向量V。

S300根据预设的每个模态对应的分类器分别对多模态特征进行分类，得到各模态特征对应的分类结果。

示例性地，分别根据图像分类器、语音分类器和文本分类器对图像特征V1、语音特征V2和文本特征V3进行分类，图像特征V₁可能被分类为“着急”标签，语音特征V₂可能被分类为“语速很快”标签，文本特征V₃可能被分类为“寻找卫生间”标签。

S400将目标特征向量和各模态特征对应的分类结果输入预设的对话管理模块生成目标对话策略。

S500将目标对话策略输入自然语言生成模块中生成交互信息。

示例性地，根据图像特征V₁被分类为“着急”的标签、语音特征V₂被分类为“语速很快”的标签、文本特征V₃被分类为“寻找卫生间”的标签，以及图像特征V1可能被分类为“着急”标签，语音特征V2可能被分类为“语速很快”标签，文本特征V3可能被分类为“寻找卫生间”标签，生成交互信息为“卫生间的位置为直行50米后右转”。

本实施例提供的基于多模态特征的交互信息生成方法通过将多模态特征进行归一化处理得到目标特征向量，以及分别对多模态特征进行分类，并根据目标特征向量和分类结果生成目标对话策略，进而得到交互信息，综合考虑交互对象传递的多模态特征进行交互，对多模态特征进行量化分析，充分了解用户当前的交互需求，使交互过程更准确、更直观且更具人性化。

在一个实施例中，如图2所示，步骤S100获取交互对象的多模态特征，具体包括：

S110采集预设时段内交互对象的图像信息、语音信息和对话文本信息。

S121通过图像序列分析算法对图像信息进行特征提取得到图像特征。

S122通过语音特征提取算法对语音信息进行特征提取得到语音特征。

示例性地，通过MFCC(Mel Frequency Cepstrum Coefficient)算法对语音信息进行特征提取得到语音特征V₃。

S123通过自然语言处理算法对对话文本信息进行特征提取得到文本特征。

示例性地，通过预设的正则表达式对对话文本信息进行特征提取得到第一文本特征向量，通过预设的LSTM模型对对话文本信息进行特征提取得到第二文本特征向量，拼接融合第一文本特征向量和第二文本特征向量作为文本特征V₅。

本实施例提供的基于多模态特征的交互信息生成方法分别通过图像序列分析算法、语音特征提取算法和自然语言处理算法对采集到的交互对象的图像信息、语音信息和对话文本信息进行特征提取，便于后续根据多模态特征进行更准确地信息交互。

在一个实施例中，如图3所示，步骤S110采集预设时段内交互对象的图像信息、语音信息和对话文本信息之后，还包括：

S124通过图像语义分割模型对图像信息进行图像分割，生成表情图像信息和肢体图像信息。

具体地，图像语义分割模型基于标注有表情图像信息和肢体图像信息的图像信息数据集，进行深度学习训练生成。

S125通过图像序列分析算法分别对表情图像信息和肢体图像信息进行特征提取，得到表情图像特征和肢体图像特征。

具体地，图像特征V₁包括表情图像特征V₄和肢体图像特征V₅。

示例性地，通过预设的CNN(Convolutional Neural Network)+LSTM(Long Short-Term Memory)模型分别对预设时段内表情图像信息和肢体图像信息进行特征提取，得到表情图像特征组和肢体图像特征组，表情图像特征组包括预设时段内各个表情图像特征V₄，肢体图像特征组包括预设时段内各个肢体图像特征V₅。

本实施例提供的基于多模态特征的交互信息生成方法通过将图像信息进行图像分割生成表情图像信息和肢体图像信息，便于后续分别根据表情图像特征和肢体图像特征分析交互对象的交互需求，提高交互信息生成的准确性。

在一个实施例中，如图4所示，步骤S400将目标特征向量和各模态特征对应的分类结果输入预设的对话管理模块生成目标对话策略，具体包括：

S410将目标特征向量和各模态特征对应的分类结果输入预设的对话管理模块，通过对话管理模块中搭载的有限状态机、贝叶斯网络和LSTM网络进行对话状态管理和策略选择，生成目标对话策略。

具体地，根据目标特征向量和各模态特征从不同对话决策方式选取某一对话决策方式作为目标对话策略，在不同对话决策方式中针对交互对象的同一图像特征生成的交互内容、语音风格、面部表情、肢体动作和交互性格会产生不同。

示例性地，将A对话决策方式作为目标对话策略时，针对用户文本信息“请问XX股票目前行情如何”会采用简洁干练的交互性格和直观简单的交互内容，例如：“目前股价为X元，今日交易额为Y元”，将B对话决策方式作为目标对话策略时，针对用户文本信息“请问XX股票目前行情如何”会采用温柔和善交互性格和详尽完善的交互内容，例如“当前股票走势在28分钟内上升，目前股价为X元，当日成交额较昨日下降Z元，请问是否需要了解更多公司股情信息”。

在一个实施例中，自然语言生成模块基于包括目标对话策略和交互信息对应关系的数据集进行深度学习训练生成，交互信息包括交互内容、语音风格、面部表情、肢体动作和交互性格。

示例性地，根据图像特征V1被分类为“着急”的标签、语音特征V2被分类为“语速很快”的标签、文本特征V3被分类为“寻找卫生间”的标签，以及图像特征V1可能被分类为“着急”标签，语音特征V2可能被分类为“语速很快”标签，文本特征V3可能被分类为“寻找卫生间”标签，生成交互信息为“交互内容-卫生间的位置为直行50米后右转，语音风格-简洁地，面部表情-无表情，肢体动作-指示目标方向，交互性格-亲切”。

本实施例提供的基于多模态特征的交互信息生成方法除文本形式外，还通过语音风格、面部表情、肢体动作和交互性格等多种交互方式与交互对象进行信息交互，使交互过程更加立体灵动，给予交互对象更加丰富的交互反馈。

在一个实施例中，交互信息还包括交互话术，交互话术包括针对用户不同交互情况预设的交互文本，例如针对固定问题的预设的固定交互语句，或判断用户交互内容不清晰时预设的固定交互语句。

在一个实施例中，如图5所示，步骤S500将目标对话策略输入自然语言生成模块中生成交互信息之后，还包括：

S600根据交互内容、语音风格、面部表情、肢体动作和交互性格生成虚拟人物形象与交互对象进行交互。

本实施例提供的基于多模态特征的交互信息生成方法实现虚拟人物在交互过程中更加立体自然，基于用户实时传递的多模态特征，准确快速地捕捉用户心理活动，通过虚拟人物的方式基于用户更加自然流畅的交互体验。

在一个实施例中，如图6所示，根据本发明的另一方面，本发明还提供一种基于多模态特征的交互信息生成***，包括获取模块10、处理模块20、分类模块30、第一生成模块40和第二生成模块50。

其中获取模块10用于获取交互对象的多模态特征。

具体地，多模态特征包括图像特征V1、语音特征V2和文本特征V3，在检测到交互对象靠近到预设的距离阈值之内时，通过摄像设备和声音采集设备在预设时段内每隔预设时间间隔拍摄交互对象的图像信息和语音信息，并根据语音信息识别出交互对象的交互文本信息，根据图像信息、语音信息和交互文本信息提取出图像特征V1、语音特征V2和文本特征V3。

处理模块20与获取模块10连接，用于对多模态特征进行归一化处理得到目标特征向量。

具体地，对多模态特征图像特征V1、语音特征V2和文本特征V3进行NLU(NaturalLanguage Understanding)特征融合得到目标特征向量V。

分类模块30与获取模块10连接，用于根据预设的每个模态对应的分类器分别对多模态特征进行分类，得到各模态特征对应的分类结果。

示例性地，分别根据图像分类器、语音分类器和文本分类器对图像特征V1、语音特征V2和文本特征V3进行分类，图像特征V1可能被分类为“着急”标签，语音特征V2可能被分类为“语速很快”标签，文本特征V3可能被分类为“寻找卫生间”标签。

第一生成模块40分别与处理模块20和分类模块30连接，用于将目标特征向量和各模态特征对应的分类结果输入预设的对话管理模块生成目标对话策略。

第二生成模块50与第一生成模块40连接，用于将目标对话策略输入自然语言生成模块中生成交互信息。

示例性地，根据图像特征V1被分类为“着急”的标签、语音特征V2被分类为“语速很快”的标签、文本特征V3被分类为“寻找卫生间”的标签，以及图像特征V1可能被分类为“着急”标签，语音特征V2可能被分类为“语速很快”标签，文本特征V3可能被分类为“寻找卫生间”标签，生成交互信息为“卫生间的位置为直行50米后右转”。

本实施例提供的基于多模态特征的交互信息生成***通过将多模态特征进行归一化处理得到目标特征向量，以及分别对多模态特征进行分类，并根据目标特征向量和分类结果生成目标对话策略，进而得到交互信息，综合考虑交互对象传递的多模态特征进行交互，对多模态特征进行量化分析，充分了解用户当前的交互需求，使交互过程更准确、更直观且更具人性化。

在一个实施例中，本发明还提供一种存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现上述的基于多模态特征的交互信息生成方法实施例中所执行的操作，例如，存储介质可以是只读内存(ROM)、随机存取存储器(RAM)、只读光盘(CD-ROM)、磁带、软盘和光数据存储设备等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的基于多模态特征的交互信息生成方法、***及存储介质，可以通过其他的方式实现。例如，以上所描述的基于多模态特征的交互信息生成方法、***及存储介质实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的通讯连接可以是通过一些接口，装置或单元的通讯连接或集成电路，可以是电性、机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

应当说明的是，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多模态特征的交互信息生成方法，其特征在于，包括步骤：

对所述多模态特征进行归一化处理得到目标特征向量；

2.根据权利要求1所述的基于多模态特征的交互信息生成方法，其特征在于，所述的获取交互对象的多模态特征，具体包括：

3.根据权利要求2所述的基于多模态特征的交互信息生成方法，其特征在于，所述的采集预设时段内所述交互对象的图像信息之后，还包括：

4.根据权利要求3所述的基于多模态特征的交互信息生成方法，其特征在于，所述的通过图像序列分析算法对所述图像信息进行特征提取得到所述图像特征，具体还包括：

5.根据权利要求2所述的基于多模态特征的交互信息生成方法，其特征在于，所述的通过语音特征提取算法对所述语音信息进行特征提取得到所述语音特征，具体包括：

6.根据权利要求1所述的基于多模态特征的交互信息生成方法，其特征在于，所述的将所述目标特征向量和各模态特征对应的所述分类结果输入预设的对话管理模块生成目标对话策略，具体包括：

7.根据权利要求1所述的基于多模态特征的交互信息生成方法，其特征在于，

所述自然语言生成模块基于包括所述目标对话策略和所述交互信息对应关系的数据集进行深度学习训练生成，所述交互信息包括交互内容、语音风格、面部表情、肢体动作和交互性格。

8.根据权利要求7所述的基于多模态特征的交互信息生成方法，其特征在于，所述的将所述目标对话策略输入自然语言生成模块中生成交互信息之后，还包括：

9.一种基于多模态特征的交互信息生成***，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1～8中任意一项所述的基于多模态特征的交互信息生成方法所执行的操作。