CN113435518A

CN113435518A - 特征融合基于多模态的交互方法及装置

Info

Publication number: CN113435518A
Application number: CN202110729406.3A
Authority: CN
Inventors: 刘彦甲
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-24
Anticipated expiration: 2041-06-29
Also published as: CN113435518B

Abstract

本发明公开了一种特征融合基于多模态的交互方法及装置。该发明包括：获取用户的图像特征和语音特征；依据图像特征与语音特征进行特征融合，得到多模态特征信息；依据多模态特征信息，生成并推送智能推荐信息。通过本发明，解决了相关技术中智能设备与用户交互时，智能设备无法捕捉用户情感信息的技术问题。

Description

特征融合基于多模态的交互方法及装置

技术领域

本发明涉及家电领域，具体而言，涉及一种特征融合基于多模态的交互方法及装置。

背景技术

随着科学技术的进步和人工智能的发展，智能算法也越来越多的应用到日常生活中，特别是对于冰箱而言，作为使用频率较高的日常家电之一，其智能化发展是至关重要的。

相关技术中，现有技术采用冰箱智能大屏与用户进行交互与食材管理，只是简单展示食材识别结果与语音互动，没有捕捉到用户的情感及表情信息，显示界面过于单一，用户体验较差。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种特征融合基于多模态的交互方法及装置，以解决相关技术中冰箱的智能大屏与用户进行交互时，显示界面过于单一的技术问题。

为了实现上述目的，根据本发明的一个方面，提供了一种特征融合基于多模态的交互方法。该发明包括：获取用户的图像特征和语音特征；依据图像特征与语音特征进行特征融合，得到多模态特征信息；依据多模态特征信息，生成并推送智能推荐信息。

进一步地，依据图像特征与语音特征进行特征融合，得到多模态特征信息包括：识别图像特征与语音特征以获得用户的健康状态信息；识别语音特征以获取用户的情绪，情绪为以下任意一种：积极情绪、消极情绪；识别语音特征以获取用户的基本信息，其中，用户的基本信息至少包括以下信息：用户的性别、用户所属的年龄段；将用户的健康状态信息、用户的情绪以及所用户的基本信息进行融合以得到多模态特征信息。

进一步地，依据多模态特征信息，生成并推送智能推荐信息包括：依据用户的基本信息，构建虚拟数字人；通过虚拟数字人推送智能推荐信息给用户。

进一步地，依据用户的基本信息，构建虚拟数字人包括：依据用户所属的年龄段和用户的性别，确定虚拟数字人的目标性别；依据用户所属的年龄段，确定虚拟数字人的年龄，其中，用户的年龄段与虚拟数字人的年龄之间存在第一映射关系；依据用户的情绪，确定虚拟数字人的目标音色，用户的情绪与目标音色之间存在第二映射关系；依据确定的目标性别、虚拟数字人的年龄与目标音色，构建与用户沟通的虚拟数字人。

进一步地，依据用户所属的年龄段和用户的性别，确定虚拟数字人的目标性别包括：依据用户所属的年龄段，确定虚拟数字人的初始性别，其中，用户的年龄段与虚拟数字人的初始性别之间存在第三映射关系；依据用户的性别，对初始性别进行修正以得到虚拟数字人的目标性别。

进一步地，在依据用户的健康状态信息以及用户的情绪，生成智能推荐信息之后，该方法还包括：如果用户的情绪为积极情绪时，确定虚拟数字人与用户在沟通过程中采用的沟通语句为第一预设语句，其中，第一预设语句中穿插包含有与积极情绪对应的语句；如果用户的情绪为消极情绪时，则确定虚拟数字人与用户在沟通过程中采用的沟通语句为第二预设语句，其中，第二预设语句中穿插包含有与消极情绪对应的语句。

进一步地，依据多模态特征信息，生成并推送智能推荐信息包括：在用户的情绪为积极情绪时，将智能推荐信息与第一预设语句组合而成的文本确定为第一推送文本；在用户的情绪为所属消极情绪时，将智能推荐信息与第二预设语句组合而成的文本确定为第二推送文本；控制虚拟数字人在与用户的沟通过程中通过相应的动作以及语音播报第一推送文本或第二推送文本。

进一步地，控制虚拟数字人显示在智能设备的显示屏上。

为了实现上述目的，根据本发明的另一方面，提供了一种特征融合基于多模态的交互装置。该装置包括：第一获取单元，用于获取用户的图像特征和语音特征；第二获取单元，用于依据图像特征与语音特征进行特征融合，得到多模态特征信息；生成单元，用于依据多模态特征信息，生成并推送智能推荐信息。

通过本发明，采用以下步骤：获取用户的图像特征和语音特征；依据图像特征与语音特征进行特征融合，得到多模态特征信息；依据多模态特征信息，生成并推送智能推荐信息，解决了相关技术中智能设备与用户交互时，智能设备无法捕捉用户情感信息的技术问题，达到了提升了智能设备的交互乐趣的技术效果。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例提供的一种特征融合基于多模态的交互方法的流程图；以及

图2是根据本发明实施例提供的特征融合的流程图；

图3是根据本发明实施例提供的构建虚拟数字人的流程图；

图4是根据本发明实施例提供的另一种特征融合基于多模态的交互方法；

图5是根据本发明实施例提供的特征融合基于多模态的交互装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明的实施例，提供了一种特征融合基于多模态的交互方法。

图1是根据本发明实施例提供的一种特征融合基于多模态的交互方法的流程图。

如图1所示，该发明包括以下步骤：

步骤S101，获取用户的图像特征和语音特征；

步骤S102，依据图像特征与语音特征进行特征融合，得到多模态特征信息；

步骤S103，依据多模态特征信息，生成并推送智能推荐信息。

本申请提出了一种通过多模态特征融合构建显示在智能设备上的虚拟数字人以通过虚拟数字人与用户进行生动的沟通的技术方案，其目的在于更加智能的捕捉用户的情感以及表情以提升冰箱的智能性能。

需要说明的是，本申请的智能设备不限于任何智能设备，本申请实施例中以冰箱为例进行说明。

可选地，依据图像特征与语音特征进行特征融合，得到多模态特征信息包括：

识别图像特征与语音特征以获得用户的健康状态信息；

识别语音特征以获取用户的情绪，情绪为以下任意一种：积极情绪、消极情绪；

识别语音特征以获取用户的基本信息，其中，用户的基本信息至少包括以下信息：用户的性别、用户所属的年龄段；

将用户的健康状态信息、用户的情绪以及所用户的基本信息进行融合以得到多模态特征信息。

具体地，在本申请提供的一个实施例中，通过冰箱所在的空间内设置的摄像头和麦克风采集用户的语音信息与图像信息。

进一步地，在另一可选的实施例中，通过设置在冰箱上的摄像头与麦克风采集语音信息与图像信息，通过对语音信息与图像信息进行识别分析得到图像特征与语音特征。例如，提供一个具体的场景，用户躺在沙发上需要冰箱提供冰箱内存储的雪糕的信息，则距离用户最近的设置在空调器上的摄像头与麦克风开启以用来采集用户的视频与语音。

需要说明的是，在上述的实施例中，在冰箱检测到用户在距离冰箱预设范围内步骤到用户时，即可联动冰箱上的摄像头与麦克风来采集用户的视频与语音。

进一步地，根据摄像头拍摄的图像信息，用深度学习算法提取到图像特征，结合麦克风得到语音信息，用深度学习算法提取语音特征，使用特征融合算法，把多种特征进行融合，最后利用softmax层，得到最终的分类信息。

具体流程如图2所示，图2为多模态特征融合的流程图。

可选地，依据多模态特征信息，生成并推送智能推荐信息包括：依据用户的基本信息，构建虚拟数字人；通过虚拟数字人推送智能推荐信息给用户。

上述地，本申请提供的实施例中，在冰箱智能显示屏上构建并展示一个虚拟数字人与用户进行交互，虚拟数字人可以做出模仿人类的动作，包括体态、表情等，虚拟数字人的动作和表情采用人工智能合成动作，并与用户进行语音交互，时刻判断人的表情信息及语音情感，并根据人的表情信息及语音做出相应的反馈并将智能推荐信息推送给用户。

可选地，依据用户的基本信息，构建虚拟数字人包括以下步骤：

步骤301：依据用户所属的年龄段和用户的性别，确定虚拟数字人的目标性别；

步骤302：依据用户所属的年龄段，确定虚拟数字人的年龄，其中，用户的年龄段与虚拟数字人的年龄之间存在第一映射关系；

步骤303：依据用户的情绪，确定虚拟数字人的目标音色，用户的情绪与目标音色之间存在第二映射关系；

步骤304：依据确定的目标性别、虚拟数字人的年龄与目标音色，构建与用户沟通的虚拟数字人。

上述地，在多模态融合的过程中，通过对应的不同的用户的性别可以确定与永固进行沟通的虚拟数字人的性别，通过确定虚拟数字人的性别来提升与用户交互的趣味性。

同时，在多模态融合的过程中，通过用户的年龄段来确定与用户交流的虚拟数字人的年龄或者虚拟数字人的年龄段。

需要说明的是地，用户所属的年龄段与虚拟数字人之间的年龄存在映射关系，例如，用户的年龄段属于50-60岁之间，则通过第一映射关系确定虚拟数字人的年龄为20岁，因此，第一映射关系在考虑了用户的耳力，理解能力之后形成了第一映射关系，例如，用户的年龄在5-10岁之间，则确定虚拟数字人的年龄为10岁，因此，在上述的举例说明中，第一映射关系考虑了同龄人之间的方便性与趣味性。

需要说明的是，上述的第一映射关系不是确定的，在不同的实施例中第一映射关系的对应的具体内容不同。

上述地，在进行多融合过程中，通过识别的用户情绪可以确定虚拟数字人在沟通过程中对应的目标音色。

其中，用户的情绪与虚拟数字人的沟通音色具有第二映射关系，例如，通过语音特征识别出用户的情绪为积极情绪时，可确定虚拟数字人的沟通音色为向上扬起声调的积极音色，当识别出用户的情绪为消极情绪时，可确定虚拟数字人的沟通音色为声调较为平稳的平静音色。

需要说明的是，虚拟数字人的形象可以为卡通动画形象也可以是3D效果与用户长相相似的人物形象，其具体形象在此不作具体限定。

可选地，依据用户所属的年龄段和用户的性别，确定虚拟数字人的目标性别包括：

依据用户所属的年龄段，确定虚拟数字人的初始性别，其中，用户的年龄段与虚拟数字人的初始性别之间存在第三映射关系；

依据用户的性别，对初始性别进行修正以得到虚拟数字人的目标性别。

上述地，在确定虚拟数字人的相别时，首先需要通过用户所属的年龄段确定一个虚拟数字人的初始性别，再通过用户的实际性别对虚拟数字人的性别进行修正以得到最终虚拟数字人的目标性别。

例如：用户的年龄段在5-10岁之间时，确定虚拟数字人的初始性别为女性，但是识别到用户的性别为男性，也即用户为一个5-10的男孩子，那么在考虑了小男孩与同龄段的男孩子的沟通意愿更为强烈时，将虚拟数字人的性别修正为男性，也即，最终确定虚拟数字人的性别为男性。

上述地，虚拟数字人的性别以用户所属的年龄段与性别来最终决定。

具体的第三映射关系与修正依据在此不作具体限定。

可选地，在依据用户的健康状态信息以及用户的情绪，生成智能推荐信息之后，该方法还包括：

如果用户的情绪为积极情绪时，确定虚拟数字人与用户在沟通过程中采用的沟通语句为第一预设语句，其中，第一预设语句中穿插包含有与积极情绪对应的语句；

如果用户的情绪为消极情绪时，则确定虚拟数字人与用户在沟通过程中采用的沟通语句为第二预设语句，其中，第二预设语句中穿插包含有与消极情绪对应的语句。

上述地，在识别到用户的情绪时，需要确定虚拟数字人与用户沟通所采用的沟通语句，也即，识别到的用户的情绪为积极情绪时，确定虚拟数字人的沟通语句中包含第一预设语句，例如，在识别到用户的情绪为积极情绪时，确定加入沟通过程中的第一预设语句为“您好，您还需要我的什么帮助么”“我看到您的冰箱中还有一罐可乐没有开启呦”“很开心为您服务”。

同时，在识别到用户的情绪为消极情绪时，需要确定虚拟数字人与用户沟通的用语为第二预设用语，例如：“今天又是能量满满的一天呢”“用冰箱里的一杯橙汁来开启元气满满的一天吧”等。

也即，在本申请中提供的实施例中，第二预设语句中包含的鼓舞人和积极的充满能量的词语比第一预设语句中的多，也即，当识别到用户的情绪为积极情绪时，在虚拟数字人与用户的沟通过程中，正常沟通即可，但是在识别到用户的情绪为消极情绪时，在虚拟数字人与用户的沟通过程中需要添加的积极用于较多以鼓舞用户和的情绪。

通过上述对于用户的情绪的识别，相应的在沟通过程中添加不同语气的语句，可以提升与用户互动的趣味性和生动性，让虚拟数字人更接近于真人的情感识别。

可选地，依据多模态特征信息，生成并推送智能推荐信息包括：

在用户的情绪为积极情绪时，将智能推荐信息与第一预设语句组合而成的文本确定为第一推送文本；

在用户的情绪为所属消极情绪时，将智能推荐信息与第二预设语句组合而成的文本确定为第二推送文本；

控制虚拟数字人在与用户的沟通过程中通过相应的动作以及语音播报第一推送文本或第二推送文本。

上述地，在本申请实施例中，智能推荐信息为用户的基础需求和用户的一个联动需求的融合需求，例如，通过语音识别用户想要冰箱推荐中午的菜单，冰箱可以根据存储的相应食材来生成菜单，同时，基于对用户健康状态的识别可以相应的调取针对于用户的健康状态的健康指导以及合理的饮食建议，其中，菜单、健康指导以及合理的饮食建议融合成为智能推荐信息。

进一步地，由于在上述方法中，通过用户情绪的识别能确定与用户沟通的预设语句，将智能推荐信息以及预设语句融合成为推送文本，通过虚拟数字人将推送文本通过语言和动作向用户进行反馈，也即，虚拟数字人将推送文本生动的播报出来实现了用户最接近与真人的沟通体验。

需要说明的是，播报方式可以通过图文和图文展示将定制菜单和相应的做法展示给客户。

还需要说明的是，在于用户的沟通过程中需要加入之前确定的第一预设语句或者第二预设语句，例如，在用户的情绪为消极情绪时，虚拟数字人可以播报语音：“推荐今日菜单为吓人炒蛋，希望您拥有美好的一天”，如果识别到用户的情绪为消极情绪时，虚拟数字人可以播报语音：“推荐今日菜单为吓人炒蛋，吃完吓人炒蛋又是元气满满的一天哦”。

还需要说明的是，在本申请中通过人脸表情识别可以检测到人脸表情的喜、怒、哀、乐等表情，结合人的健康状态与用户实时进行交互，提供健康指导及合理饮食建议，在虚拟数字人沟通完成后，虚拟数字人还能控制冰箱本身或者与冰箱联动的其他智能设备播放安抚音乐等。

上述地，本申请中通过虚拟数字人对用户需求的播报，不只是简单展示食材识别结果与语音互动，而是捕捉到用户的情感及表情信息，丰富了单一的显示界面过，提高了用户的体验度。

可选地，控制虚拟数字人显示在智能设备的显示屏上。

需要说明的是，构建的虚拟数字人都可以显示在智能设备的显示大屏上。

本申请还提供了另一种特征融合基于多模态的交互方法，其流程图如图4所示，包括以下步骤：

步骤401：采集视频图像，语音信息；

步骤402：基于视频图像与语音信息，进行人脸表情识别、健康状态识别以及语音需求识别；

步骤403：对识别的结果进行多模态融合；

步骤404：通过虚拟数字人采用动作以及语音反馈。

本发明实施例提供的上述方法，通过获取用户的图像特征和语音特征；将图像特征与语音特征进行多模态特征融合以获得用户的信息，其中，用户的信息至少包括用户的性别、用户所属的年龄段以及用户的情绪，情绪为以下任意一种：积极情绪、消极情绪；依据用户的信息，构建虚拟数字人；将构建好的虚拟数字人显示在冰箱的显示屏上；控制虚拟数字人输出用户的需求所对应的反馈信息，解决了相关技术中智能设备与用户交互时，智能设备无法捕捉用户情感信息的技术问题，达到了提升了智能设备的交互乐趣的技术效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例还提供了一种特征融合基于多模态的交互装置，需要说明的是，本发明实施例的一种基于多模态的冰箱的特征融合基于多模态的交互装置可以用于执行本发明实施例所提供的用于一种基于多模态的冰箱的特征融合基于多模态的交互方法。以下对本发明实施例提供的一种基于多模态的冰箱的特征融合基于多模态的交互装置进行介绍。

图5是根据本发明实施例提供的一种特征融合基于多模态的交互装置的示意图。如图5所示，该装置包括：第一获取单元501，用于获取用户的图像特征和语音特征；第二获取单元502，用于依据图像特征与语音特征进行特征融合，得到多模态特征信息；生成单元503，用于依据多模态特征信息，生成并推送智能推荐信息。

可选地，第二获取单元502包括：第一识别子单元，用于识别图像特征与语音特征以获得用户的健康状态信息；第二识别子单元，用于识别语音特征以获取用户的情绪，情绪为以下任意一种：积极情绪、消极情绪；第三识别子单元，用于识别语音特征以获取用户的基本信息，其中，用户的基本信息至少包括以下信息：用户的性别、用户所属的年龄段；融合子单元，用于将用户的健康状态信息、用户的情绪以及所用户的基本信息进行融合以得到多模态特征信息。

可选地，生成单元503包括：构建子单元，用于依据用户的基本信息，构建虚拟数字人；推送子单元，用于通过虚拟数字人推送智能推荐信息给用户。

可选地，构建子单元包括：第一确定模块，用于依据用户所属的年龄段和用户的性别，确定虚拟数字人的目标性别；第二确定模块，用于依据用户所属的年龄段，确定虚拟数字人的年龄，其中，用户的年龄段与虚拟数字人的年龄之间存在第一映射关系；第三确定模块，用于依据用户的情绪，确定虚拟数字人的目标音色，用户的情绪与目标音色之间存在第二映射关系；构建模块，用于依据确定的目标性别、虚拟数字人的年龄与目标音色，构建与用户沟通的虚拟数字人。

可选地，第一确定模块包括：确定子模块，用于依据用户所属的年龄段，确定虚拟数字人的初始性别，其中，用户的年龄段与虚拟数字人的初始性别之间存在第三映射关系；修正子模块，用于依据用户的性别，对初始性别进行修正以得到虚拟数字人的目标性别。

可选地，该装置还包括：第一确定单元，用于在依据用户的健康状态信息以及用户的情绪，生成智能推荐信息之后，在用户的情绪为积极情绪的情况下，确定虚拟数字人与用户在沟通过程中采用的沟通语句为第一预设语句，其中，第一预设语句中穿插包含有与积极情绪对应的语句；第二确定单元，用于在用户的情绪为消极情绪的情况下，确定虚拟数字人与用户在沟通过程中采用的沟通语句为第二预设语句，其中，第二预设语句中穿插包含有与消极情绪对应的语句。

可选地，生成单元503包括：第一确定子单元，用于在用户的情绪为积极情绪时，将智能推荐信息与第一预设语句组合而成的文本确定为第一推送文本；第二确定子单元，用于在用户的情绪为所属消极情绪时，将智能推荐信息与第二预设语句组合而成的文本确定为第二推送文本；控制子单元，用于控制虚拟数字人在与用户的沟通过程中通过相应的动作以及语音播报第一推送文本或第二推送文本。

可选地，控制单元，用于控制虚拟数字人显示在智能设备的显示屏上。

本发明实施例提供的一种特征融合基于多模态的交互装置，通过第一获取单元501，用于获取用户的图像特征和语音特征；第二获取单元502，用于依据图像特征与语音特征进行特征融合，得到多模态特征信息；生成单元503，用于依据多模态特征信息，生成并推送智能推荐信息，解决了相关技术中智能设备与用户交互时，智能设备无法捕捉用户情感信息的技术问题，达到了提升了智能设备的交互乐趣的技术效果。

一种特征融合基于多模态的交互装置包括处理器和存储器，上述第一获取单元501等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中冰箱的智能大屏与用户进行交互时，显示界面过于单一的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现一种特征融合基于多模态的交互方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行一种基于多模态的冰箱的特征融合基于多模态的交互方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取用户的图像特征和语音特征；依据图像特征与语音特征进行特征融合，得到多模态特征信息；依据多模态特征信息，生成并推送智能推荐信息。

可选地，依据图像特征与语音特征进行特征融合，得到多模态特征信息包括：识别图像特征与语音特征以获得用户的健康状态信息；识别语音特征以获取用户的情绪，情绪为以下任意一种：积极情绪、消极情绪；识别语音特征以获取用户的基本信息，其中，用户的基本信息至少包括以下信息：用户的性别、用户所属的年龄段；将用户的健康状态信息、用户的情绪以及所用户的基本信息进行融合以得到多模态特征信息。

可选地，依据用户的基本信息，构建虚拟数字人包括：依据用户所属的年龄段和用户的性别，确定虚拟数字人的目标性别；依据用户所属的年龄段，确定虚拟数字人的年龄，其中，用户的年龄段与虚拟数字人的年龄之间存在第一映射关系；依据用户的情绪，确定虚拟数字人的目标音色，用户的情绪与目标音色之间存在第二映射关系；依据确定的目标性别、虚拟数字人的年龄与目标音色，构建与用户沟通的虚拟数字人。

可选地，依据用户所属的年龄段和用户的性别，确定虚拟数字人的目标性别包括：依据用户所属的年龄段，确定虚拟数字人的初始性别，其中，用户的年龄段与虚拟数字人的初始性别之间存在第三映射关系；依据用户的性别，对初始性别进行修正以得到虚拟数字人的目标性别。

可选地，在依据用户的健康状态信息以及用户的情绪，生成智能推荐信息之后，该方法还包括：如果用户的情绪为积极情绪时，确定虚拟数字人与用户在沟通过程中采用的沟通语句为第一预设语句，其中，第一预设语句中穿插包含有与积极情绪对应的语句；如果用户的情绪为消极情绪时，则确定虚拟数字人与用户在沟通过程中采用的沟通语句为第二预设语句，其中，第二预设语句中穿插包含有与消极情绪对应的语句。

可选地，依据多模态特征信息，生成并推送智能推荐信息包括：在用户的情绪为积极情绪时，将智能推荐信息与第一预设语句组合而成的文本确定为第一推送文本；在用户的情绪为所属消极情绪时，将智能推荐信息与第二预设语句组合而成的文本确定为第二推送文本；控制虚拟数字人在与用户的沟通过程中通过相应的动作以及语音播报第一推送文本或第二推送文本。

可选地，控制虚拟数字人显示在智能设备的显示屏上。

本文中的设备可以是服务器、PC、PAD、手机等。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取用户的图像特征和语音特征；依据图像特征与语音特征进行特征融合，得到多模态特征信息；依据多模态特征信息，生成并推送智能推荐信息。

可选地，控制虚拟数字人显示在智能设备的显示屏上。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种特征融合基于多模态的交互方法，其特征在于，包括：

获取用户的图像特征和语音特征；

依据所述图像特征与所述语音特征进行特征融合，得到多模态特征信息；

依据所述多模态特征信息，生成并推送智能推荐信息。

2.根据权利要求1所述的方法，其特征在于，依据所述图像特征与所述语音特征进行特征融合，得到多模态特征信息包括：

识别所述图像特征与所述语音特征以获得所述用户的健康状态信息；

识别所述语音特征以获取所述用户的情绪，所述情绪为以下任意一种：积极情绪、消极情绪；

识别所述语音特征以获取所述用户的基本信息，其中，所述用户的基本信息至少包括以下信息：所述用户的性别、所述用户所属的年龄段；

将所述用户的所述健康状态信息、所述用户的情绪以及所用户的基本信息进行融合以得到所述多模态特征信息。

3.根据权利要求2所述的方法，其特征在于，依据所述多模态特征信息，生成并推送智能推荐信息包括：

依据所述用户的基本信息，构建虚拟数字人；

通过所述虚拟数字人推送所述智能推荐信息给所述用户。

4.根据权利要求3所述的方法，其特征在于，依据所述用户的基本信息，构建虚拟数字人包括：

依据所述用户所属的年龄段和所述用户的性别，确定所述虚拟数字人的目标性别；

依据所述用户所属的年龄段，确定所述虚拟数字人的年龄，其中，所述用户的年龄段与所述虚拟数字人的年龄之间存在第一映射关系；

依据所述用户的情绪，确定所述虚拟数字人的目标音色，所述用户的情绪与所述目标音色之间存在第二映射关系；

依据确定的所述目标性别、所述虚拟数字人的年龄与所述目标音色，构建与所述用户沟通的所述虚拟数字人。

5.根据权利要求4所述的方法，其特征在于，依据所述用户所属的年龄段和所述用户的性别，确定所述虚拟数字人的目标性别包括：

依据所述用户所属的年龄段，确定所述虚拟数字人的初始性别，其中，所述用户的所述年龄段与所述虚拟数字人的初始性别之间存在第三映射关系；

依据所述用户的性别，对所述初始性别进行修正以得到所述虚拟数字人的目标性别。

6.根据权利要求3所述的方法，其特征在于，在依据所述用户的健康状态信息以及所述用户的情绪，生成所述智能推荐信息之后，所述方法还包括：

如果所述用户的情绪为所述积极情绪时，确定所述虚拟数字人与所述用户在沟通过程中采用的沟通语句为第一预设语句，其中，所述第一预设语句中穿插包含有与所述积极情绪对应的语句；

如果所述用户的情绪为所述消极情绪时，则确定所述虚拟数字人与所述用户在沟通过程中采用的所述沟通语句为第二预设语句，其中，所述第二预设语句中穿插包含有与所述消极情绪对应的语句。

7.根据权利要求6所述的方法，其特征在于，依据所述多模态特征信息，生成并推送智能推荐信息包括：

在所述用户的情绪为所述积极情绪时，将所述智能推荐信息与所述第一预设语句组合而成的文本确定为第一推送文本；

在所述用户的情绪为所属消极情绪时，将所述智能推荐信息与所述第二预设语句组合而成的文本确定为第二推送文本；

控制所述虚拟数字人在与所述用户的沟通过程中通过相应的动作以及语音播报所述第一推送文本或所述第二推送文本。

8.根据权利要求3-7中任意一项所述的方法，其特征在于，控制所述虚拟数字人显示在智能设备的显示屏上。

9.一种特征融合基于多模态的交互装置，其特征在于，包括：

第一获取单元，用于获取用户的图像特征和语音特征；

第二获取单元，用于依据所述图像特征与所述语音特征进行特征融合，得到多模态特征信息；

生成单元，用于依据所述多模态特征信息，生成并推送智能推荐信息。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的一种特征融合基于多模态的交互方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的一种特征融合基于多模态的交互方法。