CN115047824A

CN115047824A - 数字孪生多模态设备控制方法、存储介质及电子装置

Info

Publication number: CN115047824A
Application number: CN202210601439.4A
Authority: CN
Inventors: 邓邱伟; 魏玉琼; 栾天祥; 王凯; 贾基东; 王迪; 张丽
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-13

Abstract

本申请公开了一种数字孪生多模态设备控制方法、存储介质及电子装置，涉及智能家居技术领域，其中，上述方法包括：基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态；在当前情绪状态属于消极状态的情况下，获取目标对象在历史时间段内的历史情绪状态；根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作；控制目标智能设备执行目标设备操作。采用上述技术方案，解决了相关技术中基于识别到的情绪类别控制设备执行设备操作的方法存在由于无法及时获知用户的反馈信息导致的设备操作的可持续性差的问题。

Description

数字孪生多模态设备控制方法、存储介质及电子装置

技术领域

本申请涉及智慧家居技术领域，具体而言，涉及一种数字孪生多模态设备控制方法、存储介质及电子装置。

背景技术

目前，智能设备可以根据用户语音或者文本进行情绪识别，并基于识别到的情绪做出相应的设备操作。但是，在执行完设备操作，如果用户不再发出语音或者不再输入文本，则智能设备无法获取到设备操作的操作效果，即，无法获知执行设备操作对用户情绪的调节效果。

例如，当识别出用户情绪低落悲伤时，可以通过进行语音交互或是播放歌曲进行安抚。这种安抚只能临时缓解用户的消极情绪，如果用户不再发出声音就无法感知到用户的情绪是否恢复平静。

由此可见，相关技术中基于识别到的情绪类别控制设备执行设备操作的方法，存在由于无法及时获知用户的反馈信息导致的设备操作的可持续性差的问题。

发明内容

本申请的目的在于提供一种数字孪生多模态设备控制方法、存储介质及电子装置，以至少解决相关技术中基于识别到的情绪类别控制设备执行设备操作的方法存在由于无法及时获知用户的反馈信息导致的设备操作的可持续性差的问题。

根据本申请实施例的一个方面，提供了一种数字孪生多模态设备控制方法，包括：基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态；在所述当前情绪状态属于消极状态的情况下，获取所述目标对象在历史时间段内的历史情绪状态；根据所述当前情绪状态和所述历史情绪状态，确定目标智能设备待执行的目标设备操作；控制所述目标智能设备执行所述目标设备操作。

根据本申请实施例的另一个方面，还提供了一种数字孪生多模态设备控制装置，包括:第一识别单元，用于基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态；第一获取单元，用于在所述当前情绪状态属于消极状态的情况下，获取所述目标对象在历史时间段内的历史情绪状态；确定单元，用于根据所述当前情绪状态和所述历史情绪状态，确定目标智能设备待执行的目标设备操作；控制单元，用于控制所述目标智能设备执行所述目标设备操作。

在一个示例性实施例中，所述装置还包括：第二获取单元，用于在所述基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态之前，获取图像采集部件所采集到的所述目标对象图像，其中，所述目标对象图像为包含所述目标对象的对象面部的图像；第三获取单元，用于获取语音采集部件所采集到的所述对象语音数据，其中，所述对象语音数据为所述目标对象所发出的语音数据。

在一个示例性实施例中，所述装置还包括：第二识别单元，用于在所述获取图像采集部件所采集到的所述目标对象图像之后，对所述目标对象图像进行面部区域识别，得到一组面部图像；第三识别单元，用于对所述一组面部图像中的每个面部图像分别进行对象识别，得到一组对象的对象信息，其中，所述一组对象包括所述目标对象。

在一个示例性实施例中，所述装置还包括：调整单元，用于在所述基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态之前，在检测所述目标对象与所述目标智能设备之间的距离小于或者等于预设距离阈值的情况下，将图像采集部件由关闭状态调整为开启状态；采集单元，用于在所述目标对象位于所述图像采集部件的待采集图像内的对象部位满足预设条件的情况下，通过所述图像采集部件对所述目标对象进行图像采集，得到所述目标对象图像。

在一个示例性实施例中，所述采集单元包括：第一采集模块，用于在所述目标对象位于所述待采集图像内的对象部位包括对象面部、且所述对象面部的面积与所述待采集图像的面积之间的比值大于或者等于目标比值的情况下，通过所述图像采集部件对所述目标对象进行图像采集，得到所述目标对象图像；或者，第二采集模块，用于在所述目标对象位于所述待采集图像内的对象部位包括对象面部和对象手部的情况下，通过所述图像采集部件对所述目标对象进行图像采集，得到所述目标对象图像。

在一个示例性实施例中，所述第一识别单元包括：第一识别模块，用于对所述对象面部图像进行情绪类别识别，得到所述目标对象的当前情绪类别，其中，所述当前情绪状态包括所述当前情绪类别；第二识别模块，用于在所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，对所述预设部位的部位图像进行部位动作识别，得到目标部位动作；第一确定模块，用于将与所述目标部位动作匹配的情绪强度，确定为所述目标对象的当前情绪强度，其中，所述当前情绪状态还包括所述当前情绪类别。

在一个示例性实施例中，所述预设部位包括对象手部和对象躯干，所述目标部位动作包括目标手部动作和目标身体动作；所述第一确定模块包括：第一确定子模块，用于将与所述目标手部动作匹配的情绪强度与所述目标身体动作匹配的情绪强度的加权和，确定为所述目标对象的所述当前情绪强度。

在一个示例性实施例中，所述第一识别单元包括：第三识别模块，用于基于所述目标对象图像和所述对象语音数据，分别对所述目标对象进行情绪状态识别，得到多种情绪状态；融合模块，用于对所述多种情绪状态进行情绪状态融合，得到所述目标对象的所述当前情绪状态。

在一个示例性实施例中，所述第三识别模块包括：第一识别子模块，用于对所述目标对象的对象面部图像进行情绪状态识别，得到第一情绪状态，其中，所述第一情绪状态包括第一情绪类别，所述目标对象图像包括所述对象面部图像；第二识别子模块，用于对所述对象语音数据进行情绪状态识别，得到第二情绪状态，其中，所述第二情绪状态包括第二情绪类别。

在一个示例性实施例中，所述融合模块包括：第二确定子模块，用于在所述第一情绪类别和所述第二情绪类别一致的情况下，将所述第一情绪类别和所述第二情绪类别中的任一个情绪类别，确定为所述当前情绪类别；第三确定子模块，用于在所述第一情绪类别和所述第二情绪类别不一致的情况下，将所述第一情绪类别和所述第二情绪类别中，置信度高的情绪类别，确定为所述当前情绪类别；或者，将所述第一情绪类别和所述第二情绪类别中，与所述目标对象的预设部位的部位状态匹配的情绪类别，确定为所述当前情绪类别。

在一个示例性实施例中，所述当前情绪状态还包括所述目标对象的当前情绪强度；所述融合模块还包括：第四确定子模块，用于在所述第一情绪类别和所述第二情绪类别一致的情况下，将所述第二情绪状态中的第一情绪强度，确定为所述当前情绪强度；或者，第五确定子模块，用于在所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为所述当前情绪强度，其中，所述第一情绪强度为所述第二情绪状态包含的情绪强度，所述第二情绪强度是从所述预设部位的部位图像中识别到的情绪强度。

在一个示例性实施例中，所述当前情绪状态还包括所述目标对象的当前情绪强度；所述融合模块，还包括：第六确定子模块，用于在所述第一情绪类别和所述第二情绪类别不一致、所述当前情绪类别为所述第一情绪类别、且所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，将从所述预设部位的部位图像中识别到的情绪强度，确定为所述当前情绪强度；第七确定子模块，用于在所述第一情绪类别和所述第二情绪类别不一致、所述当前情绪类别为所述第二情绪类别的情况下，将所述第二情绪状态中的第一情绪强度，确定为所述当前情绪强度；第八确定子模块，用于在所述第一情绪类别和所述第二情绪类别不一致、所述当前情绪类别为所述第二情绪类别、且所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为所述当前情绪强度，其中，所述第一情绪强度为所述第二情绪状态包含的情绪强度，所述第二情绪强度是从所述预设部位的部位图像中识别到的情绪强度。

在一个示例性实施例中，所述确定单元还包括：第二确定模块，用于在根据所述当前情绪状态和所述历史情绪状态确定所述目标对象处于消极情绪、且所述消极情绪的情绪强度降低的情况下，确定所述目标智能设备待执行的设备操作为第一设备操作；第三确定模块，用于在根据所述当前情绪状态和所述历史情绪状态确定所述目标对象处于消极情绪、且所述消极情绪的情绪强度增强的情况下，确定所述目标智能设备待执行的设备操作为第二设备操作；第四确定模块，用于在根据所述当前情绪状态和所述历史情绪状态确定所述目标对象处于消极情绪、且所述消极情绪的情绪强度大于或者等于预设强度阈值的持续时长达到预设时长阈值的情况下，确定所述目标智能设备待执行的设备操作为第三设备操作。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述的数字孪生多模态设备控制方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的数字孪生多模态设备控制方法。

在本申请实施例中，采用识别特定对象的当前情绪状态、并在当前情绪状态为消极状态的情况下，结合该对象的历史情绪状态对该对象执行对应的设备操作的方式，通过基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态；在当前情绪状态属于消极状态的情况下，获取目标对象在历史时间段内的历史情绪状态；根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作；控制目标智能设备执行目标设备操作，由于在检测到特定对象当前的情绪状态为消极状态时，根据当前情绪状态和历史情绪状态确定智能设备所执行的设备操作，由于历史情绪状态和当前情绪状态可以反映出已执行的设备操作对于用户情绪状态的影响，从而实现及时获知用户的反馈信息的目的，达到提高设备操作的可持续性的技术效果，进而解决了相关技术中基于识别到的情绪类别控制设备执行设备操作的方法存在由于无法及时获知用户的反馈信息导致的设备操作的可持续性差的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的数字孪生多模态设备控制方法的硬件环境示意图；

图2是根据本申请实施例的一种可选的数字孪生多模态设备控制方法的流程示意图；

图3是根据本申请实施例的另一种可选的数字孪生多模态设备控制方法的流程示意图；

图4是根据本申请实施例的一种可选的数字孪生多模态设备控制装置的结构框图；

图5是根据本申请实施例的一种可选的电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种数字孪生多模态设备控制方法。该数字孪生多模态设备控制方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述数字孪生多模态设备控制方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

本申请实施例的数字孪生多模态设备控制方法可以由服务器104来执行，也可以由终端102来执行，还可以是由服务器104和终端102共同执行。其中，终端102执行本申请实施例的数字孪生多模态设备控制方法也可以是由安装在其上的客户端来执行。

以由服务器104来执行本实施例中的数字孪生多模态设备控制方法为例，图2是根据本申请实施例的一种可选的数字孪生多模态设备控制方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤：

步骤S202，基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态。

本实施例中的数字孪生多模态设备控制方法可以应用基于目标对象的情绪状态控制目标智能设备执行对应的设备操作，以对目标对象的情绪状态进行调整的场景中。上述的目标对象可以是目标智能设备的使用对象(例如，用户)，上述的目标智能设备可以为智能家居设备，例如，智能冰箱，智能音箱等，执行的设备操作可以包括TTS(TextToSpeech，从文本到语音)语音播放操作，还可以包括其他设备操作，本实施例中对此不作限定。

上述的目标智能设备可以是数字孪生多模态设备，数字孪生多模态设备可以是充分利用物理模型、传感器更新、运行历史等数据，集成多学科、多物理量、多尺度、多概率的仿真智能设备，可以使用这些仿真智能设备在虚拟空间中完成仿真映射，从而反映与仿真智能设备相对应的实体智能设备的全生命周期过程。

目标智能设备可以采集到目标对象的对象数据，目标对象的对象数据可以包括目标对象图像和对象语音数据中的至少一种，例如，目标对象的目标对象图像可以是目标用户的面部图像数据、肢体图像数据等，目标对象的对象语音数据可以是目标用户的语音数据等，还可以包括其他的对象数据，本实施例中对此不做限定。目标智能设备采集到目标对象的对象数据的方式可以有一种或多种，可以包括但不限于以下之一：通过目标智能设备上的采集部件采集到目标对象的对象数据，通过与目标智能设备关联的其他设备采集到目标对象的对象数据，还可以通过其他方式采集到目标对象的对象数据，此外，目标智能设备还可以对采集到的目标对象的对象数据进行数据处理，得到目标对象的对象数据，本实施例中对此不作限定。

目标智能设备可以将目标对象的对象数据上传至服务器，而服务器可以接收到目标对象的对象数据，并基于目标对象的对象数据进行情绪状态识别，得到目标对象的当前情绪状态。上述目标对象的当前情绪状态可以属于积极状态、中性状态以及消极状态中的一种，其可以包括目标对象当前的情绪类别，例如，开心，中性，伤心，惊讶，害怕，生气，厌恶等，还可以包括当前的情绪强度，例如，激烈程度，情绪强度可以通过情绪等级来表示，例如，0级至10级，其中，0级表示情绪最激烈，10级表示情绪最激烈，还可以是其他的表示方式。

服务器基于目标对象的对象数据进行情绪状态识别，得到目标对象的当前情绪状态的方式可以有一种或多种，可以是将目标对象的对象数据输入到情绪状态识别模型，得到情绪状态识别模型输出的目标对象的当前情绪状态，也可以是通过对应的API(Application Programming Interface，应用程序编程接口)调用情绪识别算法相关的接口，通过该接口获取到与目标对象的对象数据对应的目标对象的当前情绪状态，还可以通过其他方式对目标对象的对象数据进行情绪状态识别，得到目标对象的当前情绪状态，本实施例中对此不作限定。

步骤S204，在当前情绪状态属于消极状态的情况下，获取目标对象在历史时间段内的历史情绪状态。

如果目标对象的当前情绪状态属于消极状态，可以控制目标智能设备执行对应的设备操作，以调整目标对象的消极状态。目前，智能家居设备大多是根据用户语音或者文本进行一次性的情绪识别并做出相应的安抚操作，比如，当识别出用户情绪低落悲伤时，可以播放语音或者歌曲进行安抚。但是，这种安抚只能临时缓解用户的消极情绪，如果用户不再发出声音，则无法感知到用户的情绪是否真正的恢复平静，若用户长期情绪消极低落，容易对用户的工作生活等造成不良的影响。

为了至少部分解决上述问题，在本实施例中，如果目标对象的当前情绪状态属于消极状态，服务器可以获取到目标对象在历史时间段内的历史情绪状态，检测目标对象历史情绪的变化，并基于目标对象的情绪变化做出相应的反馈，可以保证做出的反馈更能安抚目标对象的消极情绪。

服务器获取到目标对象在历史时间段内的历史情绪状态的方式可以有一种或多种，可以是根据目标对象的对象信息(例如，姓名等)从数据库中获取到目标对象的历史时间段内的历史情绪状态，也可以是从目标智能设备或者其他关联的智能设备获取到目标对象的历史情绪状态，还可以通过其他方式获取目标对象的历史情绪状态，本实施例中对此不作限定。

步骤S206，根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作。

在获取到目标对象在历史时间段内的历史情绪状态之后，服务器可以根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作。上述目标设备操作可以有一种或多种，可以包括但不限于以下之一：播放舒缓的音乐，继续播放安抚的NLP语音，播放强化安抚的NLP语音等，还可以是其他的设备操作，例如，向预设设备发送提示信息，以提示其他对象安抚目标对象的消极情绪，本实施例中对此不作限定。

步骤S208，控制目标智能设备执行目标设备操作。

在确定出待执行的目标设备操作后，服务器可以控制目标智能设备执行对应的目标设备操作。可选地，服务器可以向目标智能设备发送设备操作指令，以指示目标智能设备执行目标设备操作。目标智能设备接收到设备操作指令之后，可以执行设备操作指令所指示的目标设备操作。

可选地，目标智能设备可以重新获取目标对象当前情绪状态，并结合重新获取到的当前情绪状态与历史情绪状态，重新确定目标智能设备待执行的下一目标设备操作，并在执行完目标设备操作后，继续执行上述的下一目标设备操作。

需要说明的是，上述步骤S202至步骤S208也可以是由目标智能设备或者目标智能设备结合服务器来执行的，上述仅为由服务器执行的示例性描述，并不对本实施例中的数字孪生多模态设备控制方法的执行主体造成限定。

通过上述步骤S202至步骤S208，基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态；在当前情绪状态属于消极状态的情况下，获取目标对象在历史时间段内的历史情绪状态；根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作；控制目标智能设备执行目标设备操作，解决了相关技术中基于识别到的情绪类别控制设备执行设备操作的方法存在由于无法及时获知用户的反馈信息导致的设备操作的可持续性差的问题，提高设备操作的可持续性。

在一个示例性实施例中，在基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态之前，上述方法还包括：

S11，获取图像采集部件所采集到的目标对象图像，其中，目标对象图像为包含目标对象的对象面部的图像；

S12，获取语音采集部件所采集到的对象语音数据，其中，对象语音数据为目标对象所发出的语音数据。

上述目标对象的对象数据可以包括目标对象的对象图像、对象语音中的至少之一。可选地，在本实施例中，目标对象的对象数据可以包括目标对象图像以及对象语音数据，这里，目标对象图像为包含目标对象的对象面部的图像，而对象语音数据为目标对象所发出的语音数据。

目标智能设备上可以布设有图像采集部件和语音采集部件，可以通过图像采集部件和语音采集部件分别采集到目标对象的目标对象图像以及对象语音数据。上述的图像采集部件可以为相机，摄像头等，上述的语音采集部件可以为拾音器、麦克风等。采集到的目标对象图像和对象语音数据可以发送给服务器，从而服务器可以获取到目标对象的对象数据。

例如，目标智能设备可以是一个带人体传感器、摄像头、可收音的智能设备，其还可以带有人体传感器，用于在检测到人体靠近时触发启动摄像头，还可以启动麦克风等收音部件(收音部件可以基于用户授权一直处于开启状态)，目标智能设备可以是智能带屏音箱、智能带屏冰箱等。目标智能设备可以通过其身上布设的摄像头和收音部件，分别获取到用户的面部图像以及用户发出的语音数据。

通过本实施例，通过获取到用户的面部图像以及用户发出的语音数据，从而进行情绪状态识别，可以提高情绪状态识别的准确性，以及提高设备执行设备操作的可持续性。

在一个示例性实施例中，在获取图像采集部件所采集到的目标对象图像之后，上述方法还包括：

S21，对目标对象图像进行面部区域识别，得到一组面部图像；

S22，对一组面部图像中的每个面部图像分别进行对象识别，得到一组对象的对象信息，其中，一组对象包括目标对象。

相关技术中的情绪识别方式无法将在场的多个用户情绪与用户身份进行关联，从而无法追踪特定用户未来的情绪特征。在本实施例中，可以基于面部图像进行身份识别，确定面部图像所对应的对象。对于目标对象图像，服务器可以对目标对象的目标对象图像进行面部区域识别，得到一组面部图像。

对于一组面部图像，服务器可以分别对每个面部图像进行对象识别，得到一组对象的对象信息，这里的一组对象包括目标对象，还可以包括除了目标对象以外的其他对象，对于其他对象可以采用与目标对象类似的方式进行情绪追踪，从而控制目标智能设备或者其他智能设备执行对应的设备操作。这里，上述一组对象所包含的对象数量小于或者等于一组面部图像所包含的面部图像数量(部分图像可能无法识别到对应的对象)。

对每个面部图像分别进行对象识别的方式可以是：将每个面部图像分别输入到人脸识别模型，得到人脸识别模型输出的对象识别结果。这里，人脸识别模型的输入是用户人脸图像(即，每个面部图像)，输出是当前用户的用户信息(即，对象信息，需要当前用户已经在智能设备中注册了人脸)。

通过本实施例，通过对面部图像进行对象识别，得到各个对象的对象信息，可以方便对不同用户进行情绪追踪，提高设备执行设备操作的可持续性。

在一个示例性实施例中，在基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态，上述方法还包括：

S31，在检测目标对象与目标智能设备之间的距离小于或者等于预设距离阈值的情况下，将图像采集部件由关闭状态调整为开启状态；

S32，在目标对象位于图像采集部件的待采集图像内的对象部位满足预设条件的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像。

在本实施例中，目标对象的对象数据包括目标对象图像，目标对象图像与前述实施例中可以是类似的。为了提高图像采集的准确性，目标智能设备可以检测到与目标对象的距离。例如，目标智能设备上可以布设有人体传感器，通过人体传感器检测目标智能设备与目标对象的距离是否小于预设距离阈值(其可以是人体传感器的感知距离)，人体传感器可以是红外测距传感器。在检测到目标对象与目标智能设备之间的距离小于或者等于预设距离阈值的情况下，可以控制图像采集部件由关闭状态调整为开启状态，以对目标对象进行图像采集。

目标智能设备可以直接对目标对象进行图像采集，得到目标采集图像，通过上述方式采集到的对象图像存在由于未包含可以识别出情绪状态的对象部位导致的情绪状态识别失败。在本实施例中，可以在目标对象位于图像采集部件的待采集图像内的对象部位满足预设条件的情况下，通过图像采集部件对目标对象进行图像采集，得到目标采集图像。上述对象部位可以包括目标对象的对象面部，也可以包括目标对象的躯干或者手指等部位，上述预设条件可以包括一种或多种，可以是在待采集图像包括目标对象的对象面部的情况下，对目标对象进行图像采集，得到目标采集图像，也可以是在待采集图像同时包括目标对象的对象面部以及手指部位的情况下，对目标对象进行图像采集，得到目标采集图像，还可以是其他条件，本实施例中对此不作限定。

例如，目标智能设备可以在检测到用户位于摄像头的待采集图像内的面部，躯干以及手指等部位满足预设条件(比如，同时检测到用户的面部、躯干以及手指部位)的情况下，通过摄像头对用户进行图像采集，得到目标采集图像。

通过本实施例，在检测到用户与目标智能设备的距离满足目标距离阈值的情况下开启图像采集部件，并在检测到用户位于摄像头的对象部位满足预设条件的情况下对用户进行图像采集，可以提高所采集到的对象图像的可用性，提高情绪状态识别的准确性。

在一个示例性实施例中，在目标对象位于图像采集部件的待采集图像内的对象部位满足预设条件的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像，包括：

S41，在目标对象位于待采集图像内的对象部位包括对象面部、且对象面部的面积与待采集图像的面积之间的比值大于或者等于目标比值的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像；或者，

S42，在目标对象位于待采集图像内的对象部位包括对象面部和对象手部的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像。

在本实施例中，预设条件可以包括一种或者多种条件，可以包括但不限于以下至少之一：

在目标对象位于待采集图像内的对象部位包括对象面部，且对象面部的面积与待采集图像的面积之间的比值大于或者等于目标比值的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像。

例如，当目标智能设备检测到用户的面部，且用户面部的面积与待采集图像的面积的比值大于或者等于目标比值的情况下，可以通过摄像头对用户进行图像采集，得到目标对象图像。

在目标对象位于待采集图像的对象部位包括对象面部和对象手部的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像。

例如，在目标智能设备检测到待采集图像中同时包括用户的面部或者手部的情况下，可以通过摄像头对用户进行图像采集，得到目标对象图像。

此外，还可以是在满足其他条件的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像，本实施例对此不作限定。

示例性地，当用户满足特定条件时，开启摄像头对用户拍照，要求可以拍到完整人脸。判断是否开启摄像头的方式有以下几种：用户人脸面积与图像面积占比满足某个阈值；用户人脸、手指部位同时出现图像中。

通过本实施例，在检测到用户面部占比大于目标阈值，或者同时检测到用户的面部和手部的情况下，对用户进行图像采集，可以提高所采集到的对象图像的可用性，提高情绪状态识别的准确性。

在一个示例性实施例中，目标对象图像包括目标对象的对象面部图像；基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态，包括：

S51，对对象面部图像进行情绪类别识别，得到目标对象的当前情绪类别，其中，当前情绪状态包括当前情绪类别；

S52，在目标对象图像还包括目标对象的预设部位的部位图像的情况下，对预设部位的部位图像进行部位动作识别，得到目标部位动作；

S53，将与目标部位动作匹配的情绪强度，确定为目标对象的当前情绪强度，其中，当前情绪状态还包括当前情绪类别。

在本实施例中，目标对象图像可以包含目标对象的对象面部图像。服务器可以对目标对象的对象面部图像进行情绪类别识别，得到目标对象的当前情绪类别，还可以得到与当前情绪类别对应的置信度。服务器对目标对象的对象面部图像进行情绪类别识别，得到目标对象的当前情绪类别的方式与前述实施例中的服务器对目标对象图像进行情绪状态识别，得到目标对象的当前情绪状态的方式相似，在此不做赘述。

上述目标对象图像还可以包括目标对象的预设部位的部位图像，上述预设部位可以是能够体现出目标对象的情绪状态的部位，例如，躯干、手指等。服务器可以对预设部位的部位图像进行部位动作识别，得到目标部位动作。服务器对预设部位的部位图像进行部位动作识别，得到目标部位动作的方式与前述实施例中，服务器对目标对象图像进行情绪状态识别，得到目标对象的当前情绪状态的方式相似，在此不做赘述。

可选地，预设部位可以包括目标对象的躯干，目标对象图像包括目标对象的全身图像(全身图片)，将全身图像传给身体动作识别模型(该模型可以位于云端)，得到目标对象的身体动作标签，这里，身体动作识别模型是一个分类模型，用于识别用户身体状态的舒展状态，舒展状态的标签包括：蹲下、站立肩膀蜷缩、坐姿肩膀蜷缩、坐姿放松、站姿放松等。

可选地，预设部位可以包括目标对象的手部，目标对象图像包括目标对象的对象手部图像(双手图片)，将对象手部图像传给手指动作识别模型(该模型可以位于云端)，得到目标对象的手势动作，这里，手指动作识别模型是一个分类模型，用于识别用户手指的舒展状态，舒展状态的标签包括：握拳、放松等。

例如，智能设备可以对捕捉到的用户全身图像进行面部区域、双手手部区域、人体躯干区域的识别和分割处理，得到用户的面部图像、双手图像、全身图像三张图片，并传递给下一个处理的程序模块。除了人脸是必须拍摄完整以外，双手和躯干如果没有识别出来，可以下一步传送空数据即可。

将面部图像可以同时传给云端的人脸识别模型、面部情绪识别模型，通过人脸识别模型得到用户的身份(例如，用户为小明)，通过面部情绪识别模型得到面部表情标签(大哭)以及标签的置信度。将全身图片、双手图片分别传给云端的身体动作识别模型和手指动作识别模型，得到用户的身体动作标签(站立肩膀蜷缩)、手势动作(握拳)。若身体动作或手指动作图片为空，则输出也为空。

服务器还可以将与目标部位动作匹配的情绪强度，确定为目标对象的当前情绪强度。当前情绪状态包括目标对象的当前情绪类别和当前情绪强度(可以是当前情绪的激烈程度)。对于当前情绪强度，可以通过强度数值来表示当前情绪强度，强度取值范围可以为[0,10]，强度值越大，当前情绪的强度越强，其中，0代表情绪强度最低，10代表情绪强度最高。

例如，每个身体动作标签可以对应一个情绪的激烈程度。激烈程度的最小值为0，最大值为10。身体动作识别模型的输入是用户身体动作图片，输出为标签名称及对应的激烈程度。每个手势动作标签可以对应一个情绪的激烈程度。激烈程度的最小值为0，最大值为10。手指动作识别模型的输入是用户手指动作图片，输出为标签名称及对应的激烈程度。

通过本实施例，通过对对象面部图像以及预设部位的部位动作进行情绪状态识别，可以提高情绪状态识别的高效性和准确性。

在一个示例性实施例中，预设部位包括对象手部和对象躯干，目标部位动作包括目标手部动作和目标身体动作。对应地，将与目标部位动作匹配的情绪强度，确定为目标对象的当前情绪强度，包括：

S61，将与目标手部动作匹配的情绪强度与目标身体动作匹配的情绪强度的加权和，确定为目标对象的当前情绪强度。

对于预设部位，其可以包括对象手部以及对象躯干，对应地，目标部位动作可以包括目标手部动作以及目标身体动作。目标手部动作以及目标身体动作与前述实施例中的描述类似，其中，目标手部动作可以包括握拳，放松手指等，目标身体动作可以包括蹲下，站立并且肩膀蜷缩等，本实施例中对于目标手部动作以及目标身体动作的种类不作限定。

在本实施例中，服务器可以分别获取到与目标手部动作匹配的情绪强度以及与目标身体动作匹配的情绪强度，可以基于预设的手部动作与情绪强度的对应关系，确定与目标手部动作匹配的情绪强度，基于预设的身体动作与情绪强度的对应关系，确定与目标身体动作匹配的情绪强度，还可以通过其他方式获取到与目标手部动作匹配的情绪强度以及与目标身体动作匹配的情绪强度，本实施例中对此不作限定。

服务器可以将与目标手部动作匹配的情绪强度和与目标身体动作匹配的情绪强度的任一项确定为目标对象当前的情绪。为了提高情绪识别的准确性，可以将与目标手部动作匹配的情绪强度与目标身体动作匹配的情绪强度的加权和，确定为目标对象的当前情绪强度，例如，可以将与目标手部动作匹配的情绪强度与目标身体动作匹配的情绪强度的平均值，确定为目标对象的当前情绪强度。

通过本实施例，通过将与手部动作匹配的情绪强度与身体动作匹配的情绪强度的加权和，确定为当前情绪强度，可以提高情绪状态识别的准确性和高效性。

在一个示例性实施例中，基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态，包括：

S71，基于目标对象图像和对象语音数据，分别对目标对象进行情绪状态识别，得到多种情绪状态；

S72，对多种情绪状态进行情绪状态融合，得到目标对象的当前情绪状态。

在本实施例中，目标对象的对象数据可以包含多种模态的对象数据，例如，对象图像、对象语音等。在目标对象的对象数据包括目标对象图像和对象语音数据的情况下，服务器基于目标对象图像和对象语音数据，分别对目标对象进行情绪状态识别，得到多种情绪状态。可选地，上述情绪状态可以包括目标对象的情绪类别和与情绪类别对应的激烈强度。

在得到多种情绪状态后，服务器可以从多种情绪状态中，随机选取一种情绪状态作为目标对象的当前情绪状态。为了提高情绪状态识别的准确性，服务器可以对多种情绪状态进行情绪状态融合，得到目标对象的当前情绪状态。

通过本实施例，通过对多种模态的对象数据进行识别和融合，得到用户的当前情绪状态，可以提高情绪状态识别的高效性和便捷性，以及提高设备执行设备操作的可持续性。

在一个示例性实施例中，基于目标对象图像和对象语音数据，分别对目标对象进行情绪状态识别，得到多种情绪状态，包括：

S81，对目标对象的对象面部图像进行情绪状态识别，得到第一情绪状态，其中，第一情绪状态包括第一情绪类别，目标对象图像包括对象面部图像；

S82，对目标对象的对象语音数据进行情绪状态识别，得到第二情绪状态，其中，第二情绪状态包括第二情绪类别。

在本实施例中，目标对象图像可以包括目标对象的对象面部图像。服务器基于目标对象图像和对象语音数据，分别对目标对象进行情绪状态识别可以包括：分别对目标对象的对象面部图像以及对象语音数据进行情绪状态识别，得到第一情绪状态和第二情绪状态。上述第一情绪状态可以包括第一情绪类别，上述第二情绪状态可以包括第二情绪类别。

对目标对象的对象面部图像进行情绪状态识别的方式与前述实施例中类似，在此不做赘述。服务器对目标对象的对象语音数据进行情绪状态识别的方式可以是：将对象语音数据输入到语音情感模型，通过语音情感模型识别出目标对象的情绪类别(或者说，情感类别)，还可以识别出目标对象的情绪强度。

例如，智能设备接收到用户说的一段语音query Q1，智能设备将接收到的用户query Q1传到云端，通过语音情感模型识别出用户的情感类别、程度(程度0为最轻，10为最重)，识别结果为：小明的情绪＝委屈、激动，程度＝7。结合用户图像的分析结果与用户语音的情绪分析结果，根据情绪判断综合模型策略，可以对当前用户的情绪和程度进行纠偏。

这里，需要说明的是，对象语音数据可以是在目标对象唤醒目标智能设备之后，由通过目标智能设备的收音部件进行语音数据采集所得到的，也可以是基于用户的授权信息在非唤醒状态下，通过目标智能设备的收音部件进行语音数据采集所得到的，本实施例中对此不做限定。

通过本实施例，通过对用户的对象面部图像和对象语音数据进行情绪状态识别，可以提高情绪状态识别的便捷性和准确性。

在一个示例性实施例中，当前情绪状态包括目标对象的当前情绪类别。对应地，对多种情绪状态进行情绪状态融合，得到目标对象的当前情绪状态，包括：

S91，在第一情绪类别和第二情绪类别一致的情况下，将第一情绪类别和第二情绪类别中的任一个情绪类别，确定为当前情绪类别；

S92，在第一情绪类别和第二情绪类别不一致的情况下，将第一情绪类别和第二情绪类别中，置信度高的情绪类别，确定为当前情绪类别；或者，将第一情绪类别和第二情绪类别中，与目标对象的预设部位的部位状态匹配的情绪类别，确定为当前情绪类别。

在本实施例中，第一情绪类别是根据对象面部图像识别出的情绪类别，第二情绪类别是根据对象语音数据识别出的情绪类别当前情绪状态包括目标对象的当前情绪类别。服务器基于目标对象图像和对象语音数据，分别对目标对象进行情绪状态识别，得到多种情绪状态可以包括：对第一情绪类别和第二情绪类别进行融合，得到目标对象的当前情绪类别。

第一情绪类别和第二情绪类别可能是一致的，也可能是不一致的，这里，一致是指两者完全相同或者匹配，例如，均属于积极情绪、均属于消极情绪等，对第一情绪类别和第二情绪类别进行融合可以是基于第一情绪类别和第二情绪类别的一致性执行的。在第一情绪类别和第二情绪类别一致的情况下，可以将第一情绪类别和第二情绪类别中的任一个情绪类别，确定为当前情绪类别；在第一情绪类别和第二情绪类别不一致的情况下，将第一情绪类别和第二情绪类别中，置信度高的情绪类别，确定为当前情绪类别，或者，将第一情绪类别和第二情绪类别中，与目标对象的预设部位状态匹配的情绪类别，确定为当前类别，还可以是通过其他方式确定当前情绪类别，本实施例中对此不作限定。

作为一种可选的实施例方式，第一情绪类别的置信度可以是根据目标对象的对象面部图像确定的，即，根据对象面部图像识别第一情绪类别以及第一情绪类别的置信度，第二情绪类别的置信度可以是根据目标对象的对象语音数据确定的，即，根据对象面部图像识别第二情绪类别以及第二情绪类别的置信度。情绪类别的置信度越高，其可信度越高，可以将在第一情绪类别和第二情绪类别不一致的情况下，将第一情绪类别和第二情绪类别中置信度高的情绪类别，确定为当前情绪类别。

作为另一种可选的实施例方式，在目标对象图像包含目标对象的预设部位的部位图像的情况下，服务器可以对预设部位的部位图像进行识别，得到预设部位的部位状态，并将第一情绪类别和第二情绪类别中，与目标对象的预设部位状态匹配的情绪类别，确定为当前情绪类别。

例如，情绪判断综合模型可以通过策略来修正语音情绪识别与图像情绪识别得到的结论不一致的情况。通过面部情绪识别模型的情绪分类结果与语音情绪识别模型的情绪分类结果，判断用户当前情绪分类。对用户当前情绪分类的判别方式是：若面部识别与语音情绪识别出的情绪标签一致，则认为当前用户的情绪就是该标签。若面部识别与语音情绪识别出的情绪标签不一致，则可通过两种方式判别用户情绪：

方式一：根据置信度较高的标签判别用户的情绪。

比如，语音情绪识别出用户是生气状态的置信度是99％，而图像识别出用户情绪为中性的执行度是60％，则认为是用户的真实情绪是生气。

方式二：结合身体动作、手指动作判别。

比如，语音情绪识别出用户是生气的状态，但是面部表情识别出是微笑、身体动作舒展、手指放松，则此时认为是语音情绪识别有偏差，将用户情绪更正为中性、平静。

示例性地，通过面部图片识别到当前用户为小明，当前面部表情是大哭、激动的状态，肩膀抖动，手指握拳，语音情绪委屈激动，语音情绪识别结果与图像情绪识别结果没有冲突，则认为用户小明的情绪是委屈、激动。

通过本实施例，通过对不同维度的对象数据所识别到的情绪类别进行融合，确定出用户当前的情绪类别，可以提高情绪识别的便捷性和高效性。

在一个示例性实施例中，当前情绪状态还包括目标对象的当前情绪强度，当前情绪强度可以是当前情绪的激烈程度。对应地，对多种情绪状态进行情绪状态融合，得到目标对象的当前情绪状态，还包括：

S101，在第一情绪类别和第二情绪类别一致的情况下，将第二情绪状态中的第一情绪强度，确定为当前情绪强度；或者，

S102，在目标对象图像还包括目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为当前情绪强度，其中，第一情绪强度为第二情绪状态包含的情绪强度，第二情绪强度是从预设部位的部位图像中识别到的情绪强度。

在本实施例中，服务器对多种情绪状态进行情绪状态融合还可以是对不同多种情绪状态中的情绪强度进行的融合。对不同多种情绪状态中的情绪强度进行的融合的方式可以是：在第一情绪类别和第二情绪类别一致的情况下，将第二情绪状态中的第一情绪强度，确定为当前情绪强度。

可选地，在第一情绪类别和第二情绪类别一致的情况下，当目标对象图像还包括目标对象的预设部位的部位图像时，可以将第一情绪强度与第二情绪强度的加权和(例如，取平均值)，确定为当前情绪强度。上述第一情绪强度为第二情绪状态包含的情绪强度，第二情绪强度为从预设部位的部位图像中识别到的情绪强度。

服务器可以对目标对象的预设部位进行情绪强度识别，得到与目标对象的预设部位状态匹配的第二情绪强度。服务器对目标对象的预设部位进行情绪强度识别，得到与目标对象的预设部位状态匹配的第二情绪强度的方式与前述实施例中的服务器对目标对象图像进行情绪状态识别，得到目标对象的当前情绪状态的方式相似，在此不做赘述。

例如，对用户情绪的激烈程度的判别方法有以下情况：若语音情绪识别结果与图像情绪识别结果一致，则可以将用户身体动作激烈程度、用户手指动作激烈程度、语音情绪激烈程度三者求均值，得到用户情绪的激烈程度。

通过本实施例，在识别到的多种情绪类别一致时，通过对基于语音数据识别到的情绪强度(即，强烈程度)和基于预设部位的部位图像识别到的情绪强度进行加权求和，得到用户的情绪强度，可以提高情绪状态识别的准确性。

在一个示例性实施例中，与前述实施例中类似的，当前情绪状态还包括目标对象的当前情绪强度。对应地，对多种情绪状态进行情绪状态融合，得到目标对象的当前情绪状态，还包括：

S111，在第一情绪类别和第二情绪类别不一致、当前情绪类别为第一情绪类别、且目标对象图像还包括目标对象的预设部位的部位图像的情况下，将从预设部位的部位图像中识别到的情绪强度，确定为当前情绪强度；

S112，在第一情绪类别和第二情绪类别不一致、当前情绪类别为第二情绪类别的情况下，将第二情绪状态中的第一情绪强度，确定为当前情绪强度；

S113，在第一情绪类别和第二情绪类别不一致、当前情绪类别为第二情绪类别、且目标对象图像还包括目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为当前情绪强度，其中，第一情绪强度为第二情绪状态包含的情绪强度，第二情绪强度是从预设部位的部位图像中识别到的情绪强度。

在本实施例中，如果第一情绪类别和第二情绪类别不一致，则可以基于当前情绪类别为第一情绪类别还是第二情绪类别以及目标对象图像是否包含目标对象的预设部位的部位图像确定目标对象的当前情绪强度。

如果当前情绪类别为第一情绪类别，并且目标对象图像包括目标对象的预设部位的部位图像，则可以采用与前述实施例中类似的方式确定目标对象的情绪强度，并将从预设部位的部位图像中识别到的情绪强度，确定为当前情绪强度。如果预设部位有多个，则可以将从每个预设部位的部位图像中识别到的情绪强度的加权和，确定为当前情绪强度。

如果当前情绪类别为第二情绪类别，则可以将第二情绪状态中的第一情绪强度，确定为当前情绪强度。在此情况下，目标对象图像可以包括目标对象的预设部位的部位图像，也可以不包括目标对象的预设部位的部位图像。

可选地，如果当前情绪类别为第二情绪类别，并且目标对象图像还包括目标对象的预设部位的部位图像，则可以采用与前述类似的方式确定从预设部位的部位图像中识别到的情绪强度，即，第二情绪类别，并将第一情绪强度与第二情绪强度的加权和，确定为当前情绪强度。

例如，对用户情绪的激烈程度的判别方法有以下情况：

若语音情绪识别结果与图像情绪识别结果一致，则将用户身体动作激烈程度、用户手指动作激烈程度、语音情绪激烈程度三者求均值，得到用户情绪的激烈程度；

若语音情绪识别结果与图像情绪识别结果不一致，且经过判断，用户的真实情绪与语音情绪识别结果一致，则用户的情绪激烈程度等于语音情绪识别结果的情绪激烈程度；

若语音情绪识别结果与图像情绪识别结果不一致，且经过判断，用户的真实情绪与面部情绪识别结果一致，则用户的情绪激烈程度等于该用户身体动作激烈程度、与用户手指动作激烈程度的均值，确定为用户情绪的激烈程度。

通过本实施例，如果第一情绪类别和第二情绪类别不一致，综合考虑最终的情绪类别以及从预设部位的部位图像中识别到的情绪强度确定当前情绪强度，可以提高情绪状态识别的准确性。

在一个示例性实施例中，根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作，还包括：

S121，在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度降低的情况下，确定目标智能设备待执行的设备操作为第一设备操作；

S122，在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度增强的情况下，确定目标智能设备待执行的设备操作为第二设备操作；

S123，在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度大于或者等于预设强度阈值的持续时长达到预设时长阈值的情况下，确定目标智能设备待执行的设备操作为第三设备操作。

在本实施例中，为了确定目标设备操作，可以根据当前情绪状态和历史情绪状态，确定目标智能设备执行的目标设备操作。上述目标设备操作至少包括第一设备操作，第二设备操作以及第三设备操作，这里，第一设备操作可以是维持或者降低情绪安抚程度的操作，第二设备操作可以是加强情绪安抚程度的操作，第三设备操作可以是向目标智能设备发出警告的操作，以提示目标对象长时间处于消极情绪。

在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度降低的情况下，服务器可以将第一设备操作确定为目标智能设备待执行的设备操作；在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度增强的情况下，服务器可以将第二设备操作确定为目标智能设备待执行的设备操作；而在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度大于或者等于预设强度阈值的持续时长达到预设时长阈值的情况下，服务器可以将第三设备操作确定为目标智能设备待执行的设备操作。

例如，根据用户身份，从云端查询该用户在过去连续一段时间内的历史情绪状态及程度(比如，查询到该用户在过去三天内都是消极、低落等消极状态，程度分别为4、5、6)。根据用户当前与历史情绪状态标签及程度，判断用户情绪是否向积极方向变化。比如，当前用户情绪是委屈、激动，程度为7，与历史三天比，消极情绪状态变得更加严重了，

如果用户的消极情绪加深，则通过引导沟通等方式加强对用户的安抚和交互，如果用户的消极程度高于某个阈值(比如，阈值＝9)并持续了一段时间，则建议用户去咨询专业人员。如果用户消极情绪有所缓解，则进行正常的情绪安抚手段。比如，发现小明的消极情绪加重后，可用关心温柔的TTS话术引导小明讲出心理不开心的事，比如“宝贝，怎么这么委屈，来和我说说”。

示例性地，在幼儿园场景下，可以帮助对小朋友们的情绪进行识别和追踪。当小朋友因为玩具、零食等小事情而吵架或者大声哭泣时，可以通过智能设备及时向小朋友播报话术：“朋友之间要互相谦让，两人一起玩这个玩具吧”，给予小朋友相应的安抚，并分别追踪这两个小朋友后续的情绪来识别该事件对小朋友的影响程度。当发现这两个小朋友每次见面时的表情都不是很开心时，可以通过通过智能设备播报：“还在因为一个玩具吵架呀，忘了你们一起吃冰淇淋的快乐时光了吗”，以此来缓解他们之间的关系。

示例性地，在家庭场景下，父母之间的关系经常会对孩子的成长造成影响，比如父母经常吵架会对孩子的成长造成不良影响。当检测到孩子受到父母吵架的影响时，智能设备可以通过面部表情识别判断出孩子的情绪是否很低沉难过，并对小孩进行播报语音：“不要担心哦，他们很爱你的”进行安抚，智能设备还会通过孩子的人脸识别结果关联出孩子的历史情绪变化，当发现孩子的情绪持续低沉时，智能设备可以及时通知家长并给出科学的疏导建议。

通过本实施例，通过当前情绪状态和历史情绪状态确定出目标智能设备对应的目标操作，可以提高设备执行设备操作的准确性和可持续性。

下面结合可选示例对本申请实施例中的数字孪生多模态设备控制方法进行解释说明。在本可选示例中，目标智能设备为智能家居设备，图像采集部件为摄像头，预设部位包括躯干和手部。

相关技术中，智能家居设备通过实时接收用户的语音进行用户情绪识别，常用的情绪识别方式有两种：1)从语音信号波中分析用户情绪；2)将用户语音转化成文本后，通过NLP(Natural Language Processing，自然语言处理)技术识别用户情绪，比如，用户语音文本为“你真烦人”，检测出用户情绪是生气，此时智能家居设备可能给出一些调侃的话语或者播放音乐来缓解用户情绪。

然而，上述控制智能家居设备执行设备操作的方式，基于用户语音的单模态情绪识别的方式很难及时对获取语音数据困难的用户类型进行准确的情绪识别。并且，单模态情绪识别技术仅识别并缓解当前时刻的用户情绪，当用户之后不再说话时，无法判断用户的情绪是否得到真实有效的缓解。

本发明提出一种结合了语音和图像的多模态用户情绪识别和追踪技术，是基于人脸、人体、手指、语音的多模态情绪识别和追踪方法，能够判断用户当前情绪状态，对于消极状态的用户及时给予心理安抚，并在未来几天内持续通过图像和语音的方式识别用户情绪波动状态，判断用户的消极情绪是否有缓解，根据缓解程度及时给予不同的安抚鼓励，以确保用户的消极情绪得到真正的解决，避免异常情况的发生。

此外，本可选示例中提供的多模态用户情绪识别和跟踪技术可以在多人场景中可以精确的识别出每个人的情绪状态并通过人脸与之身份进行关联，当有多个用户时，可以精确的对每个用户的身份和情绪进行关联。通过追踪机制分析用户历史情绪状态，并判断用户心理倾向，使得AI(Artificial Intelligence，人工智能)能更进一步的提供恰当的情绪安抚措施或者给予相应的心理疏导。

本可选示例中所提供的结合语音和图像的多模态用户情绪识别和追踪技术的核心组成模块可以包括以下模型：1.语音情感特征提取模型；2.人脸情感特征提取模型；3.身体动作特征提取模型；4.手指动作特征提取模型；5.情绪判断综合模型；6.人脸身份识别模型；7.人脸情绪关联和用户情绪追踪机制。

其中，模型1、2、3、4作为特征向量送入模型5，对用户的情绪进行识别检测。考虑到特殊用户群体，此处的情绪判断综合模型应可以兼容只有语音或图像的单模态数据。判别出用户情绪后，根据用户人脸识别结果将情绪关联到用户身份，并追踪用户历史情绪变化，再根据用户情绪变化做出相应的反馈。

结合图3所示，当用户与智能设备发生交互时，本可选示例中的数字孪生多模态设备控制方法的流程可以包括以下步骤：

步骤1，智能设备的人体传感器识别到用户到设备的距离小于某个阈值时，智能设备开启摄像头。

步骤2，当用户满足特定条件时(例如，摄像头检测到用户人脸面积与图像面积占比满足某个阈值，用户的人脸和手指部位同时出现在摄像头中)，智能设备开启摄像头对用户拍照，要求可以完整拍到用户的面部。此外，若智能设备检测到用户说话，则同时触发步骤6至步骤7。

步骤3，智能设备对捕捉到的用户全身图像进行面部区域、手部区域、人体躯干区域的识别和分割处理，得到用户的面部图像、双手图像，全身图像这三张图片。

步骤4，将面部图像同时传输给云端的人脸识别模型和面部情绪识别模型，通过人脸识别模型得到用户的身份、面部表情标签以及标签的置信度。

步骤5，将全身图片、双手图片分别传给云端的身体动作识别模型和手指动作识别模型，得到用户的身体动作标签以及用户的手势动作，进而确定用户情绪的激烈程度。

步骤6，智能设备在检测到用户说话时，可以获取到用户说的一段语音。

步骤7，将接收到的语音通过云端的语音情感识别模型识别出用户的情感类别以及激烈程度。

步骤8，结合用户的身份、面部表情标签、用户的身体情绪识别、手指动作识别，以及用户语音的情感类别和程度，根据情绪判断综合模型策略，对当前用户的情绪和程度进行纠偏。

步骤9，根据用户身份，从云端查询该用户在过去连续一段时间内的历史情绪状态及程度。

步骤10，根据用户当前与历史情绪状态标签及程度，判断用户情绪是否向积极方向变化。

步骤11，如果用户的消极情绪加深，则通过引导沟通等方式加强对用户的安抚和交互，如果用户的消极程度大于某个阈值并持续了一段时间，则建议用户去咨询专业人员。如果用户消极情绪有所缓解，则进行正常的情绪安抚手段。

通过本可选示例，通过图像(人脸+人体+手指)和语音两种模态的数据对用户情绪进行识别，即使用户不讲话也可以发现用户的情绪异常，从而提高AI的情绪缓解能力；在多人场景中，通过人脸情绪关联和用户情绪追踪机制，关联用户身份和用户情绪，对不同情绪状态的用户给予相应的情绪安抚反馈；对单个用户，通过人脸情绪关联和用户情绪追踪机制，关联用户历史情绪变化，针对不同的情绪变化给予相应的情绪安抚措施，减少心理异常的产生。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述数字孪生多模态设备控制方法的数字孪生多模态设备控制装置。图4是根据本申请实施例的一种可选的数字孪生多模态设备控制装置的结构框图，如图4所示，该装置可以包括：

第一识别单元402，用于基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态；

第一获取单元404，与第一识别单元402相连，用于在当前情绪状态属于消极状态的情况下，获取目标对象在历史时间段内的历史情绪状态；

确定单元406，与第一获取单元404相连，用于根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作；

控制单元408，与确定单元406相连，用于控制目标智能设备执行目标设备操作。

需要说明的是，该实施例中的第一识别单元402可以用于执行上述步骤S202，该实施例中的第一获取单元404可以用于执行上述步骤S204，该实施例中的确定单元406可以用于执行上述步骤S206，该实施例中的控制单元408可以用于执行上述步骤S208。

通过上述模块，基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态；在当前情绪状态属于消极状态的情况下，获取目标对象在历史时间段内的历史情绪状态；根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作；控制目标智能设备执行目标设备操作，解决了相关技术中基于识别到的情绪类别控制设备执行设备操作的方法存在由于无法及时获知用户的反馈信息导致的设备操作的可持续性差的问题，提高了设备操作的可持续性。

在一个示例性实施例中，上述装置还包括：

第二获取单元，用于在基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态之前，获取图像采集部件所采集到的目标对象图像，其中，目标对象图像为包含目标对象的对象面部的图像；

第三获取单元，用于获取语音采集部件所采集到的对象语音数据，其中，对象语音数据为目标对象所发出的语音数据。

在一个示例性实施例中，上述装置还包括：

第二识别单元，用于在获取图像采集部件所采集到的目标对象图像之后，对目标对象图像进行面部区域识别，得到一组面部图像；

第三识别单元，用于对一组面部图像中的每个面部图像分别进行对象识别，得到一组对象的对象信息，其中，一组对象包括目标对象。

在一个示例性实施例中，上述装置还包括：

调整单元，用于在基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态之前，在检测目标对象与目标智能设备之间的距离小于或者等于预设距离阈值的情况下，将图像采集部件由关闭状态调整为开启状态；

采集单元，用于在目标对象位于图像采集部件的待采集图像内的对象部位满足预设条件的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像。

在一个示例性实施例中，采集单元包括：

第一采集模块，用于在目标对象位于待采集图像内的对象部位包括对象面部、且对象面部的面积与待采集图像的面积之间的比值大于或者等于目标比值的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像；或者，

第二采集模块，用于在目标对象位于待采集图像内的对象部位包括对象面部和对象手部的情况下，通过图像采集部件对目标对象进行图像采集，得到目标对象图像。

在一个示例性实施例中，第一识别单元包括：

第一识别模块，用于对对象面部图像进行情绪类别识别，得到目标对象的当前情绪类别，其中，当前情绪状态包括当前情绪类别；

第二识别模块，用于在目标对象图像还包括目标对象的预设部位的部位图像的情况下，对预设部位的部位图像进行部位动作识别，得到目标部位动作；

第一确定模块，用于将与目标部位动作匹配的情绪强度，确定为目标对象的当前情绪强度，其中，当前情绪状态还包括当前情绪类别。

在一个示例性实施例中，预设部位包括对象手部和对象躯干，目标部位动作包括目标手部动作和目标身体动作；第一确定模块包括：

第一确定子模块，用于将与目标手部动作匹配的情绪强度与目标身体动作匹配的情绪强度的加权和，确定为目标对象的当前情绪强度。

在一个示例性实施例中，第一识别单元包括：

第三识别模块，用于基于目标对象图像和对象语音数据，分别对目标对象进行情绪状态识别，得到多种情绪状态；

融合模块，用于对多种情绪状态进行情绪状态融合，得到目标对象的当前情绪状态。

在一个示例性实施例中，第三识别模块包括：

第一识别子模块，用于对目标对象的对象面部图像进行情绪状态识别，得到第一情绪状态，其中，第一情绪状态包括第一情绪类别，目标对象图像包括对象面部图像；

第二识别子模块，用于对对象语音数据进行情绪状态识别，得到第二情绪状态，其中，第二情绪状态包括第二情绪类别。

在一个示例性实施例中，融合模块包括：

第二确定子模块，用于在第一情绪类别和第二情绪类别一致的情况下，将第一情绪类别和第二情绪类别中的任一个情绪类别，确定为当前情绪类别；

第三确定子模块，用于在第一情绪类别和第二情绪类别不一致的情况下，将第一情绪类别和第二情绪类别中，置信度高的情绪类别，确定为当前情绪类别；或者，将第一情绪类别和第二情绪类别中，与目标对象的预设部位的部位状态匹配的情绪类别，确定为当前情绪类别。

在一个示例性实施例中，当前情绪状态还包括目标对象的当前情绪强度；融合模块还包括：

第四确定子模块，用于在第一情绪类别和第二情绪类别一致的情况下，将第二情绪状态中的第一情绪强度，确定为当前情绪强度；或者，

第五确定子模块，用于在目标对象图像还包括目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为当前情绪强度，其中，第一情绪强度为第二情绪状态包含的情绪强度，第二情绪强度是从预设部位的部位图像中识别到的情绪强度。

第六确定子模块，用于在第一情绪类别和第二情绪类别不一致、当前情绪类别为第一情绪类别、且目标对象图像还包括目标对象的预设部位的部位图像的情况下，将从预设部位的部位图像中识别到的情绪强度，确定为当前情绪强度；

第七确定子模块，用于在第一情绪类别和第二情绪类别不一致、当前情绪类别为第二情绪类别的情况下，将第二情绪状态中的第一情绪强度，确定为当前情绪强度；

第八确定子模块，用于在第一情绪类别和第二情绪类别不一致、当前情绪类别为第二情绪类别、且目标对象图像还包括目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为当前情绪强度，其中，第一情绪强度为第二情绪状态包含的情绪强度，第二情绪强度是从预设部位的部位图像中识别到的情绪强度。

在一个示例性实施例中，确定单元还包括：

第二确定模块，用于在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度降低的情况下，确定目标智能设备待执行的设备操作为第一设备操作；

第三确定模块，用于在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度增强的情况下，确定目标智能设备待执行的设备操作为第二设备操作；

第四确定模块，用于在根据当前情绪状态和历史情绪状态确定目标对象处于消极情绪、且消极情绪的情绪强度大于或者等于预设强度阈值的持续时长达到预设时长阈值的情况下，确定目标智能设备待执行的设备操作为第三设备操作。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行本申请实施例中上述任一项数字孪生多模态设备控制方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到目标对象的当前情绪状态；

S2，在当前情绪状态属于消极状态的情况下，获取目标对象在历史时间段内的历史情绪状态；

S3，根据当前情绪状态和历史情绪状态，确定目标智能设备待执行的目标设备操作；

S4，控制目标智能设备执行目标设备操作。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请实施例的又一个方面，还提供了一种用于实施上述数字孪生多模态设备控制方法的电子装置，该电子装置可以是服务器、终端、或者其组合。

图5是根据本申请实施例的一种可选的电子装置的结构框图，如图5所示，包括处理器502、通信接口504、存储器506和通信总线508，其中，处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信，其中，

存储器506，用于存储计算机程序；

处理器502，用于执行存储器506上所存放的计算机程序时，实现如下步骤：

S4，控制目标智能设备执行目标设备操作。

可选地，通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线、或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器506中可以但不限于包括上述数字孪生多模态设备控制方法装置中的第一识别单元402、第一获取单元404、确定单元406以及控制单元408。此外，还可以包括但不限于上述数字孪生多模态设备控制装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图5所示的结构仅为示意，实施上述数字孪生多模态设备控制方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数字孪生多模态设备控制方法，其特征在于，包括：

基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态；

在所述当前情绪状态属于消极状态的情况下，获取所述目标对象在历史时间段内的历史情绪状态；

根据所述当前情绪状态和所述历史情绪状态，确定目标智能设备待执行的目标设备操作；

控制所述目标智能设备执行所述目标设备操作。

2.根据权利要求1所述的方法，其特征在于，在所述基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态之前，所述方法还包括：

获取图像采集部件所采集到的所述目标对象图像，其中，所述目标对象图像为包含所述目标对象的对象面部的图像；

获取语音采集部件所采集到的所述对象语音数据，其中，所述对象语音数据为所述目标对象所发出的语音数据。

3.根据权利要求2所述的方法，其特征在于，在所述获取图像采集部件所采集到的所述目标对象图像之后，所述方法还包括：

对所述目标对象图像进行面部区域识别，得到一组面部图像；

对所述一组面部图像中的每个面部图像分别进行对象识别，得到一组对象的对象信息，其中，所述一组对象包括所述目标对象。

4.根据权利要求1所述的方法，其特征在于，在所述基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态之前，所述方法还包括：

在检测所述目标对象与所述目标智能设备之间的距离小于或者等于预设距离阈值的情况下，将图像采集部件由关闭状态调整为开启状态；

在所述目标对象位于所述图像采集部件的待采集图像内的对象部位满足预设条件的情况下，通过所述图像采集部件对所述目标对象进行图像采集，得到所述目标对象图像。

5.根据权利要求4所述的方法，其特征在于，所述在所述目标对象位于所述图像采集部件的待采集图像内的对象部位满足预设条件的情况下，通过所述图像采集部件对所述目标对象进行图像采集，得到所述目标对象图像，包括：

在所述目标对象位于所述待采集图像内的对象部位包括对象面部、且所述对象面部的面积与所述待采集图像的面积之间的比值大于或者等于目标比值的情况下，通过所述图像采集部件对所述目标对象进行图像采集，得到所述目标对象图像；或者，

在所述目标对象位于所述待采集图像内的对象部位包括对象面部和对象手部的情况下，通过所述图像采集部件对所述目标对象进行图像采集，得到所述目标对象图像。

6.根据权利要求1所述的方法，其特征在于，所述目标对象图像包括所述目标对象的对象面部图像；所述基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态，包括：

对所述对象面部图像进行情绪类别识别，得到所述目标对象的当前情绪类别，其中，所述当前情绪状态包括所述当前情绪类别；

在所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，对所述预设部位的部位图像进行部位动作识别，得到目标部位动作；

将与所述目标部位动作匹配的情绪强度，确定为所述目标对象的当前情绪强度，其中，所述当前情绪状态还包括所述当前情绪类别。

7.根据权利要求6所述的方法，其特征在于，所述预设部位包括对象手部和对象躯干，所述目标部位动作包括目标手部动作和目标身体动作；所述将与所述目标部位动作匹配的情绪强度，确定为所述目标对象的当前情绪强度，包括：

将与所述目标手部动作匹配的情绪强度与所述目标身体动作匹配的情绪强度的加权和，确定为所述目标对象的所述当前情绪强度。

8.根据权利要求1所述的方法，其特征在于，所述基于目标对象图像和/或对象语音数据，对目标对象进行情绪状态识别，得到所述目标对象的当前情绪状态，包括：

基于所述目标对象图像和所述对象语音数据，分别对所述目标对象进行情绪状态识别，得到多种情绪状态；

对所述多种情绪状态进行情绪状态融合，得到所述目标对象的所述当前情绪状态。

9.根据权利要求8所述的方法，其特征在于，所述基于所述目标对象图像和所述对象语音数据，分别对所述目标对象进行情绪状态识别，得到多种情绪状态，包括：

对所述目标对象的对象面部图像进行情绪状态识别，得到第一情绪状态，其中，所述第一情绪状态包括第一情绪类别，所述目标对象图像包括所述对象面部图像；

对所述对象语音数据进行情绪状态识别，得到第二情绪状态，其中，所述第二情绪状态包括第二情绪类别。

10.根据权利要求9所述的方法，其特征在于，所述当前情绪状态包括所述目标对象的当前情绪类别；所述对所述多种情绪状态进行情绪状态融合，得到所述目标对象的所述当前情绪状态，包括：

在所述第一情绪类别和所述第二情绪类别一致的情况下，将所述第一情绪类别和所述第二情绪类别中的任一个情绪类别，确定为所述当前情绪类别；

在所述第一情绪类别和所述第二情绪类别不一致的情况下，将所述第一情绪类别和所述第二情绪类别中，置信度高的情绪类别，确定为所述当前情绪类别；或者，将所述第一情绪类别和所述第二情绪类别中，与所述目标对象的预设部位的部位状态匹配的情绪类别，确定为所述当前情绪类别。

11.根据权利要求9所述的方法，其特征在于，所述当前情绪状态还包括所述目标对象的当前情绪强度；所述对所述多种情绪状态进行情绪状态融合，得到所述目标对象的所述当前情绪状态，还包括：

在所述第一情绪类别和所述第二情绪类别一致的情况下，将所述第二情绪状态中的第一情绪强度，确定为所述当前情绪强度；或者，

在所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为所述当前情绪强度，其中，所述第一情绪强度为所述第二情绪状态包含的情绪强度，所述第二情绪强度是从所述预设部位的部位图像中识别到的情绪强度。

12.根据权利要求9所述的方法，其特征在于，所述当前情绪状态还包括所述目标对象的当前情绪强度；所述对所述多种情绪状态进行情绪状态融合，得到所述目标对象的所述当前情绪状态，还包括：

在所述第一情绪类别和所述第二情绪类别不一致、所述当前情绪类别为所述第一情绪类别、且所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，将从所述预设部位的部位图像中识别到的情绪强度，确定为所述当前情绪强度；

在所述第一情绪类别和所述第二情绪类别不一致、所述当前情绪类别为所述第二情绪类别的情况下，将所述第二情绪状态中的第一情绪强度，确定为所述当前情绪强度；

在所述第一情绪类别和所述第二情绪类别不一致、所述当前情绪类别为所述第二情绪类别、且所述目标对象图像还包括所述目标对象的预设部位的部位图像的情况下，将第一情绪强度与第二情绪强度的加权和，确定为所述当前情绪强度，其中，所述第一情绪强度为所述第二情绪状态包含的情绪强度，所述第二情绪强度是从所述预设部位的部位图像中识别到的情绪强度。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述根据所述当前情绪状态和所述历史情绪状态，确定目标智能设备待执行的目标设备操作，还包括：

在根据所述当前情绪状态和所述历史情绪状态确定所述目标对象处于消极情绪、且所述消极情绪的情绪强度降低的情况下，确定所述目标智能设备待执行的设备操作为第一设备操作；

在根据所述当前情绪状态和所述历史情绪状态确定所述目标对象处于消极情绪、且所述消极情绪的情绪强度增强的情况下，确定所述目标智能设备待执行的设备操作为第二设备操作；

在根据所述当前情绪状态和所述历史情绪状态确定所述目标对象处于消极情绪、且所述消极情绪的情绪强度大于或者等于预设强度阈值的持续时长达到预设时长阈值的情况下，确定所述目标智能设备待执行的设备操作为第三设备操作。

14.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至13中任一项所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至13中任一项所述的方法。