CN113409822B

CN113409822B - 对象状态的确定方法、装置、存储介质及电子装置

Info

Publication number: CN113409822B
Application number: CN202110605079.0A
Authority: CN
Inventors: 牛旭光
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-06-20
Anticipated expiration: 2041-05-31
Also published as: CN113409822A

Abstract

本发明实施例提供了一种对象状态的确定方法、装置、存储介质及电子装置，其中，该方法包括：获取摄像设备对目标对象进行拍摄所得到的视频；获取声音采集设备对目标对象的声音进行采集所得到的声音；基于视频以及声音确定目标对象的目标状态。通过本发明，解决了相关技术中存在的确定对象的状态不准确的问题，提高了确定对象的状态的准确率。

Description

对象状态的确定方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种对象状态的确定方法、装置、存储介质及电子装置。

背景技术

在与对象沟通的过程中通常需要确定对象的状态，下面以面试为例进行说明：

随着经济的发展，HR对于面试者的要求越来越高，而很多面试者在应聘的时候也会夸大的自己的实际能力。为了能够分辨出面试者应对HR问题时的心理，找到最合适的候选人。通常会记录面试者的录音，对录音进行分析确定对象的状态，但对录音进行分析无法确定面试者是否在认真听，是否在思考，对面试者的回答无法确定是通过思考得出的结论还是通过背答案得出的结论。

由此可知，相关技术中存在确定对象的状态不准确的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种对象状态的确定方法、装置、存储介质及电子装置，以至少解决相关技术中存在的确定对象的状态不准确的问题。

根据本发明的一个实施例，提供了一种对象状态的确定方法，包括：获取摄像设备对目标对象进行拍摄所得到的视频；获取声音采集设备对所述目标对象的声音进行采集所得到的声音；基于所述视频以及所述声音确定所述目标对象的目标状态。

根据本发明的另一个实施例，提供了一种对象状态的确定装置，包括：第一获取模块，用于获取摄像设备对目标对象进行拍摄所得到的视频；第二获取模块，用于获取声音采集设备对所述目标对象的声音进行采集所得到的声音；确定模块，用于基于所述视频以及所述声音确定所述目标对象的目标状态。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取摄像设备对目标对象进行拍摄所得到的视频，获取声音采集设备对目标对象的声音进行采集所得到的声音，根据视频和声音确定目标对象的状态。由于可以综合声音和视频确定对象的状态，因此，可以解决相关技术中存在的确定对象的状态不准确的问题，提高了确定对象的状态的准确率。

附图说明

图1是本发明实施例的一种对象状态的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的对象状态的确定方法的流程图；

图3是根据本发明示例性实施例的基于视频以及声音确定所述目标对象的目标状态流程图；

图4是根据本发明示例性实施例的对视频片段以及目标声音片段进行分析以确定每个时间段内目标对象的中间状态流程图；

图5是根据本发明示例性实施例的基于表情、动作以及目标声音特征确定目标对象的中间状态流程图；

图6是根据本发明示例性实施例的基于第一状态、第二状态以及第三状态确定目标对象的中间状态流程图；

图7是根据本发明示例性实施例的获取摄像设备对目标对象进行拍摄所得到的视频流程图；

图8是根据本发明示例性实施例的对象状态的确定方法流程图；

图9是根据本发明具体实施例的对象状态的确定方法流程图；

图10是根据本发明实施例的对象状态的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种对象状态的确定方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的对象状态的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种对象状态的确定方法，图2是根据本发明实施例的对象状态的确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取摄像设备对目标对象进行拍摄所得到的视频；

步骤S204，获取声音采集设备对所述目标对象的声音进行采集所得到的声音；

步骤S206，基于所述视频以及所述声音确定所述目标对象的目标状态。

在上述实施例中，摄像设备可以是安装在目标区域的监控设备，目标对象可以为人，声音采集设备可以为安装在目标区域的麦克风、录音设备等。目标对象的状态可以包括目标对象的心理状态，如紧张、激动、忧愁、说谎、慌张等。

在上述实施例中，可以通过摄像设备对目标对象进行拍摄所得到的视频确定目标对象的表情、动作等。根据目标对象的表情、动作并结合声音确定对象的状态。

在上述实施例中，获取的视频可以是录制完成的视频，也可以是实时采集的视频。当视频是录制完成的视频时，则对视频进行划分，分别确定每个时间段目标对象的心理状态。当视频是实时视频时，则实时通过视频分析目标对象的心理状态，以及实时根据采集到的声音实时分析目标对象的状态，综合根据视频确定出的状态以及根据声音确定出的状态确定出目标对象的实时心理状态。

可选地，上述步骤的执行主体可以是后台处理器，或者其他的具备类似处理能力的设备，还可以是至少集成有图像获取设备、声音采集设备以及数据处理设备的机器，其中，图像获取设备可以包括摄像头等图形采集模块，声音采集设备可以包括麦克风等声音采集模块，数据处理设备可以包括计算机、手机等终端，但不限于此。

在一个示例性实施例中，基于所述视频以及所述声音确定所述目标对象的目标状态流程图可参见附图3，如图3所示，该流程包括：

步骤S302，对所述视频按照预定时间段进行切分，以得到多个视频片段；

步骤S304，确定与多个所述视频片段中包括的每个视频片段对应的目标声音片段，其中，所述声音片段为在拍摄所述视频片段的时间段内采集到的声音片段；

步骤S306，对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的状态，以得到多个中间状态；

步骤S308，基于多个所述中间状态确定所述目标对象的目标状态。

在上述实施例中，可以将视频按照预定时间段进行切分，以得到多个视频片段，在确定拍摄每个视频片段时采集到的目标声音片段。对多个视频片段和多个声音片段进行分析以确定每个时间段内对象的中间状态，根据多个中间状态确定目标对象的目标状态。其中，预定时间段可以为30s，1min，5min等，本发明对此不做限定。

在上述实施例中，摄像设备和声音采集设备在捕捉到目标对象时，开始录制，并保证正常运转，在录制结束后，自动剪切为不同的小片段；根据不同的小片段进行局部分析；通过整合局部分析的结果，得出总体分析。

在一个示例性实施例中，对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的中间状态流程图可参见附图4，如图4所示，该流程包括：

步骤S402，在所述视频包括多个通道视频的情况下，确定所述多个通道视频片段中包括的在同一时间拍摄的目标视频片段；

步骤S404，识别第一视频片段，以确定所述目标对象的表情，其中，所述第一视频片段为所述目标视频片段中包括的片段；

步骤S406，识别第二视频片段，以确定所述目标对象的动作，其中，所述第二视频片段为所述目标视频片段中包括的片段；

步骤S408，对所述目标声音进行分析处理，以确定目标声音特征；

步骤S410，基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态。

在上述实施例中，摄像设备可以包括多个，不同的摄像设备可以拍摄目标对象的不同部位，以得到多个视频。对多个视频均按照预定时间段进行划分，确定出多个视频片段。在多个视频片段中确定出在同一时间拍摄的目标视频片段，识别目标视频片段中包括的第一视频片段，以确定目标对象的表情，识别目标视频片段中包括的第二视频片段，以确定出目标对象的动作，并对在同一时间采集到的声音进行分析处理，确定出声音特征，根据对象的表情、动作以及声音特征确定出每个时间段内的对象的中间状态。其中，分析处理可以采用机器学习的方式，首先利用多组训练数据对初始模型进行训练，以得到目标模型，将目标声音输入至目标模型进行分析，以得到目标声音的目标声音特征，多组训练数据中的每组训练数据均包括声音以及声音特征。当然，分析处理还可以包括其他的处理方式，例如，将目标声音输入至分析软件中，以得到目标声音特征，本发明对分析处理方式不做限定。

在上述实施例中，可以确定第一摄像设备捕捉微表情的时间和图像；第二摄像设备捕捉手势/体态动作的时间和图像；确定声音的响度，音色。以及正常情况下的音色，音调，语速，说话间隔；把这些数据按照以上参数分别采集后，进行影像分割，分割为片段1、片段2、片段3并且按照时间并行排列；同时，把语音录音作为对比参考。因此，在同一时间段从不同的角度进行判断面试者的心理变化，通过整合不同的答案找到较为准确的当前心理状态。

在上述实施例中，摄像设备还可以包括一个，即通过一个摄像设备采集到的图像确定目标对象的表情、动作等。在摄像设备为一个时，采集到的视频文件也为一个，则按照预定时间对视频进行划分得到多个视频片段，单独分析每个片段，根据每个片段确定在该片段中目标对象的表情和动作，再结合在相同时间采集到的声音，综合确定每个片段中目标对象的中间状态。

在一个示例性实施例中，基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态流程图可参见附图5，如图5所示，该流程包括：

步骤S502，基于所述表情确定所述目标对象的第一状态；

步骤S504，基于所述动作确定所述目标对象的第二状态；

步骤S506，基于所述目标声音特征确定所述目标对象的第三状态；

步骤S508，基于所述第一状态、所述第二状态以及所述第三状态确定所述目标对象的中间状态。

在本实施例中，可以通过表情分析对目标对象的第一状态，通过动作分析目标对象的第二状态，通过目标声音特征分析目标对象的第三状态。综合分析第一状态、第二状态和第三状态以确定目标对象的中间状态。

在一个示例性实施例中，基于所述第一状态、所述第二状态以及所述第三状态确定所述目标对象的中间状态流程图可参见附图6，如图6所示，该流程包括：

步骤S602，分别确定所述第一状态、所述第二状态以及所述第三状态中包括的各个子状态；

步骤S604，统计各个所述子状态的数量；

步骤S606，对各个所述子状态按照数量由大到小的顺序进行排序，并将前预定数量的子状态确定为所述目标对象的中间状态。

在本实施例中，例如通过影像片段1确定目标对象的第一状态包括紧张，激动，慌张、忧愁；通过影像片段2确定目标对象的第二状态包括紧张、有说谎的可能性、慌张；通过影像片段3确定目标对象的第三状态包括激动，慌张、有说谎的可能性；这个时候就可以做出判断：紧张2次；激动1次；慌张3次；忧愁1次；有说谎的可能性2次；因此，可以得出结论，目标对象的中间状态为慌张、紧张，进而确定目标对象由说谎的可能性。再结合录音器在某个时间区间的录音，进行判断，如果响度适中，但是音色较平常有异常变化，音调呈周期性变化，语速较快，说话间隔短，那么认为该面试者有说谎的可能性并且紧张，因为响度适中，所以排除掉慌张；因此得出结论：该面试者有说谎的可能性并且紧张。

在一个示例性实施例中，获取摄像设备对目标对象进行拍摄所得到的视频流程图可参见附图7，如图7所示，该流程包括：

步骤S702，获取所述摄像设备中包括的第一摄像设备对所述目标对象的第一部位进行拍摄得到的第一视频；

步骤S704，获取所述摄像设备中包括的第二摄像设备对所述目标对象的第二部位进行拍摄得到的第二视频；

步骤S706，将所述第一视频以及所述第二视频确定为所述视频。

在本实施例中，摄像设备可以包括多个，例如，可以通过第一摄像设备对目标对象的第一部位进行拍摄，其中，第一部位可以为目标对象的面部。通过第二摄像设备对目标对象的第二部位进行拍摄，其中，第二部位可以为目标对象的手部、腿部等。将多个摄像设备拍摄的视频确定为视频。需要说明的是，第一摄像设备和第二摄像设备也可以包括多个摄像设备，每个摄像设备所拍摄的部位不同。

在一个示例性实施例中，对象状态的确定方法流程图可参见附图8，如图8所示，该流程除包括图2所示的所有步骤外，还包括：

步骤S802，基于所述目标对象的状态确定所述目标对象的评价结果；

步骤S804，在所述评价结果满足预定条件的情况下，执行提示操作。

在上述实施例中，在确定目标对象的状态后，可以根据目标对象的状态对目标对象进行评价，以确定评价结果，在确定评价结果满足预定条件时，执行提醒操作。其中，预定条件包括说谎、造假等。

例如，面试者(目标对象)进入面试间后步履很慢，并伴有点头和微微弓腰动作，面试者在回答问题中说话声音响度较小，额头伴有汗珠，正襟危坐，未占满1/2个椅子；表示压力较大；在面试中面试者对于压力面试非常的从容，说话期间没有思考过多的时间并给出了正确答案，眼睛只是在某个地方停留了一会，没有任何思考的征兆，手部动作细节也没有任何思考的迹象。那么这个时候判定，这个面试者在背诵面试答案，而不是在真正的解决问题和应对压力。在确定面试者的状态后，将会在HR选人时给出客观结论。即通过对面试者的记录，其中，包括视频和音频材料。通过对材料进行片段选取分析，发现面试者在对简历部分进行回答的时候，眼珠无规则运动，面部有细微小动作，抖腿，额头上有汗珠，说话多以短词组出现，而并非完整的语句，头部不停的微微扭转，而且有思考的迹象；如果面试者出现以上情况仅在某一片段中，其余时间正常。那么通过这种情况可以判定面试者的这部分简历可能存在造假嫌疑，需要核实。

下面结合具体实施方式对对象状态的确定方法进行说明：

图9是根据本发明具体实施例的对象状态的确定方法流程图，如图9所示，该流程包括:

步骤S902，摄像头(对应于上述摄像设备)捕捉微表情、手势、体态动作；录音器(对应于上述声音采集设备)录音；

步骤S904，数据整合，确定不同的摄像头捕捉微表情的时间，和图像；确定不同的摄像头捕捉手势/体态动作，还有时间戳；确定录音的响度，音色，正常情况下的音色，音调，语速，说话间隔。

步骤S906，影像分割，把这些数据按照以上参数分别采集后，进行影像分割，分割为片段1、片段2、片段3并且按照时间并行排列；同时，把语音录音作为对比参考。

步骤S908，分段比对，初步判定心理状态，输出各个片段中的心理状态和整体心理状态。

在前述实施例中，可以通过图像识别技术结合心理学进行判定，面试者在某时间段的心里状态和倾向于哪个结论的认知。并且可以通过视频片段分析面试者是通过思考得出的结论还是通过背答案得出的结论。即综合图像识别技术和多传感器分析技术，通过面试人的实时全方位录像和录音，分析候选人的面试心理状态，并结合HR面试中的面试策略进行分析，给HR展示最适合的候选人。能够特别关注面试者的一颦一笑，并结合HR的问题对比结论选出最适合公司的人才。还能为以后的公司招聘的技术支持工作提供一个参考。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种对象状态的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图10是根据本发明实施例的对象状态的确定装置的结构框图，如图10所示，该装置包括：

第一获取模块1002，用于获取摄像设备对目标对象进行拍摄所得到的视频；

第二获取模块1004，用于获取声音采集设备对所述目标对象的声音进行采集所得到的声音；

确定模块1006，用于基于所述视频以及所述声音确定所述目标对象的目标状态。

在一个示例性实施例中，确定模块1006可以通过如下方式实现基于所述视频以及所述声音确定所述目标对象的目标状态：对所述视频按照预定时间段进行切分，以得到多个视频片段；确定与多个所述视频片段中包括的每个视频片段对应的目标声音片段，其中，所述声音片段为在拍摄所述视频片段的时间段内采集到的声音片段；对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的状态，以得到多个中间状态；基于多个所述中间状态确定所述目标对象的目标状态。

在一个示例性实施例中，所述确定模块1006可以通过如下方式实现对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的中间状态：在所述视频包括多个通道视频的情况下，确定所述多个通道视频片段中包括的在同一时间拍摄的目标视频片段；识别第一视频片段，以确定所述目标对象的表情，其中，所述第一视频片段为所述目标视频片段中包括的片段；识别第二视频片段，以确定所述目标对象的动作，其中，所述第二视频片段为所述目标视频片段中包括的片段；对所述目标声音进行分析处理，以确定目标声音特征；基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态。

在一个示例性实施例中，所述确定模块1006可以通过如下方式实现基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态：基于所述表情确定所述目标对象的第一状态；基于所述动作确定所述目标对象的第二状态；基于所述目标声音特征确定所述目标对象的第三状态；基于所述第一状态、所述第二状态以及所述第三状态确定所述目标对象的中间状态。

在一个示例性实施例中，所述确定模块1006可以通过如下方式实现基于所述第一状态、所述第二状态以及所述第三状态确定所述目标对象的中间状态：分别确定所述第一状态、所述第二状态以及所述第三状态中包括的各个子状态；统计各个所述子状态的数量；对各个所述子状态按照数量由大到小的顺序进行排序，并将前预定数量的子状态确定为所述目标对象的中间状态。

在一个示例性实施例中，所述第一获取模块1002可以通过如下方式实现获取摄像设备对目标对象进行拍摄所得到的视频：获取所述摄像设备中包括的第一摄像设备对所述目标对象的第一部位进行拍摄得到的第一视频；获取所述摄像设备中包括的第二摄像设备对所述目标对象的第二部位进行拍摄得到的第二视频；将所述第一视频的以及所述第二视频确定为所述视频。

在一个示例性实施例中，所述装置可以用于在基于所述视频以及所述声音确定所述目标对象的状态之后，基于所述目标对象的状态确定所述目标对象的评价结果；在所述评价结果满足预定条件的情况下，执行提示操作。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对象状态的确定方法，其特征在于，包括：

获取摄像设备对目标对象进行拍摄所得到的视频；

获取声音采集设备对所述目标对象的声音进行采集所得到的声音；

基于所述视频以及所述声音确定所述目标对象的目标状态；

基于所述视频以及所述声音确定所述目标对象的目标状态包括：对所述视频按照预定时间段进行切分，以得到多个视频片段；确定与多个所述视频片段中包括的每个视频片段对应的目标声音片段，其中，所述声音片段为在拍摄所述视频片段的时间段内采集到的声音片段；对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的状态，以得到多个中间状态；基于多个所述中间状态确定所述目标对象的目标状态；

对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的中间状态包括：在所述视频包括多个通道视频的情况下，确定所述多个通道视频中包括的在同一时间拍摄的目标视频片段；识别第一视频片段，以确定所述目标对象的表情，其中，所述第一视频片段为所述目标视频片段中包括的片段；识别第二视频片段，以确定所述目标对象的动作，其中，所述第二视频片段为所述目标视频片段中包括的片段；对所述目标声音进行分析处理，以确定目标声音特征；基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态；

基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态包括：基于所述表情确定所述目标对象的第一状态；基于所述动作确定所述目标对象的第二状态；基于所述目标声音特征确定所述目标对象的第三状态；分别确定所述第一状态、所述第二状态以及所述第三状态中包括的各个子状态；统计各个所述子状态的数量；对各个所述子状态按照数量由大到小的顺序进行排序，并将前预定数量的子状态确定为所述目标对象的中间状态；

基于多个所述中间状态确定所述目标对象的目标状态包括：确定所述目标声音片段的响度以及音色，基于所述响度以及所述音色从多个所述中间状态中确定出所述目标状态。

2.根据权利要求1所述的方法，其特征在于，获取摄像设备对目标对象进行拍摄所得到的视频包括：

获取所述摄像设备中包括的第一摄像设备对所述目标对象的第一部位进行拍摄得到的第一视频；

获取所述摄像设备中包括的第二摄像设备对所述目标对象的第二部位进行拍摄得到的第二视频；

将所述第一视频以及所述第二视频确定为所述视频。

3.根据权利要求1所述的方法，其特征在于，在基于所述视频以及所述声音确定所述目标对象的状态之后，所述方法还包括：

基于所述目标对象的状态确定所述目标对象的评价结果；

在所述评价结果满足预定条件的情况下，执行提示操作。

4.一种对象状态的确定装置，其特征在于，包括：

第一获取模块，用于获取摄像设备对目标对象进行拍摄所得到的视频；

第二获取模块，用于获取声音采集设备对所述目标对象的声音进行采集所得到的声音；

确定模块，用于基于所述视频以及所述声音确定所述目标对象的状态；

所述确定模块通过如下方式实现基于所述视频以及所述声音确定所述目标对象的目标状态：对所述视频按照预定时间段进行切分，以得到多个视频片段；确定与多个所述视频片段中包括的每个视频片段对应的目标声音片段，其中，所述声音片段为在拍摄所述视频片段的时间段内采集到的声音片段；对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的状态，以得到多个中间状态；基于多个所述中间状态确定所述目标对象的目标状态；

所述确定模块通过如下方式实现对所述视频片段以及所述目标声音片段进行分析，以确定每个时间段内所述目标对象的中间状态：在所述视频包括多个通道视频的情况下，确定所述多个通道视频中包括的在同一时间拍摄的目标视频片段；识别第一视频片段，以确定所述目标对象的表情，其中，所述第一视频片段为所述目标视频片段中包括的片段；识别第二视频片段，以确定所述目标对象的动作，其中，所述第二视频片段为所述目标视频片段中包括的片段；对所述目标声音进行分析处理，以确定目标声音特征；基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态；

其中，所述装置还用于在所述视频为录制完成的视频的情况下，对所述视频进行划分，以得到所述目标对象的所述中间状态，在所述视频为实时采集的视频的情况下，对所述视频进行划分，以得到所述目标对象的实时中间状态；

所述确定模块通过如下方式实现基于多个所述中间状态确定所述目标对象的目标状态：确定所述目标声音片段的响度以及音色，基于所述响度以及所述音色从多个所述中间状态中确定出所述目标状态；

所述确定模块通过如下方式实现基于所述表情、所述动作以及所述目标声音特征确定所述目标对象的中间状态：基于所述表情确定所述目标对象的第一状态；基于所述动作确定所述目标对象的第二状态；基于所述目标声音特征确定所述目标对象的第三状态；分别确定所述第一状态、所述第二状态以及所述第三状态中包括的各个子状态；统计各个所述子状态的数量；对各个所述子状态按照数量由大到小的顺序进行排序，并将前预定数量的子状态确定为所述目标对象的中间状态。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至3任一项中所述的方法的步骤。

6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。