CN117473304A

CN117473304A - 多模态图像标注方法、装置、电子设备及存储介质

Info

Publication number: CN117473304A
Application number: CN202311824771.8A
Authority: CN
Inventors: 杜铭浩; 刘爽; 明东; 张文荃; 孙宁; 张露丹; 方鹏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-01-30

Abstract

本发明提供了一种多模态图像标注方法、装置、电子设备及存储介质，应用于图像处理及深度学习技术领域。该方法包括：对不同格式的多模态图像进行预处理，得到音频数据和视频数据；对音频数据进行特征提取，得到音频特征数据；对视频数据进行特征提取，得到对象融合特征数据；基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象；基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据；根据目标对象和情绪特征数据，对多模态图像进行标注，得到标注结果；将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

Description

多模态图像标注方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域及深度学习技术领域，尤其涉及一种多模态图像标注方法、装置、电子设备及存储介质。

背景技术

孤独症谱系障碍（autism spectrum disorder，ASD）是一种广泛性神经发育障碍，涉及语言、情感、思维、社交、感知觉、动作与行为等多方面，严重影响儿童社会功能和生活质量。因此，孤独症的早期识别工作对于儿童群体的保护和发展意义重大。

当前，ASD患者多多发现于儿童时期，随着科技的快速发展，目前研究提出了基于儿童音视频数据的孤独症评估方法，也就是，通过捕捉孤独症儿童在情感表达过程中的声音微扰动、面部微动作以及姿态行为等特征，可以辅助识别早起孤独症患儿。

然而，基于音视频信号的孤独症评估方法需要大量的数据进行分析，这就需要首先完成对ASD儿童原始音视频数据的标注工作，其中，包括ASD儿童发音时间点、情绪动作、行为动作、社交环境、噪音干扰等多种标注。目前，对于ASD儿童的音视频数据的标注工作主要通过人工反复操作，没有标注指引，由于ASD儿童的音视频数据的复杂性和多样性，使得标注工作费时费力，标注效率低，成本高且误差大。

发明内容

鉴于上述问题，本发明提供了一种用于辅助孤独症识别的多模态图像标注方法、装置、电子设备及存储介质。

根据本发明的一方面提供了一种用于辅助孤独症识别的多模态图像标注方法，包括：对不同格式的多模态图像进行预处理，得到音频数据和视频数据；对音频数据进行特征提取，得到音频特征数据；对视频数据进行特征提取，得到对象融合特征数据；基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象；基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据；根据目标对象和目标对象的情绪特征数据，对多模态图像进行标注，得到标注结果；将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

根据本发明的实施例，其中，基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象，包括：对音频特征数据进行语音检测，确定音频特征数据的语音起始点和语音终止点；根据音频特征数据的语音起始点和语音终止点，确定待识别音频特征数据；将待识别音频特征数据输入至第一神经网络模型，得到与音频特征数据对应的目标对象。

根据本发明的实施例，其中，音频特征数据包括短时能量特征数据和短时过零率特征数据。

根据本发明的实施例，对音频特征数据进行语音检测，确定音频特征数据的语音起始点和语音终止点，包括：根据与短时能量特征数据对应的音频特征数据的短时能量包络线，确定音频特征数据的第一语音门限和第二语音门限，其中，第一语音门限对应的门限值大于第二语音门限对应的门限值；根据第一语音门限和第二语音门限，确定音频特征数据的语音预估起始点和语音预估终止点；根据与短时过零率特征数据对应的音频特征数据的短时过零率包络线，确定音频特征数据的第三语音门限；根据语音预估起始点，向第一方向搜索第三语音门限与短时过零率包络线的第一交点，得到音频特征数据的语音起始点；根据语音预估终止点，向第二方向搜索第三语音门限与短时过零率包络线的第二交点，得到音频特征数据的语音终止点。

根据本发明的实施例，其中，根据第一语音门限和第二语音门限，确定音频特征数据的语音预估起始点和语音预估终止点，包括：根据第一语音门限，确定第一语音门限与短时能量包络线的第三交点和第四交点，其中，第三交点的语音时间早于第四交点的语音时间；根据第三交点，向第一方向搜索第二语音门限与短时能量包络线的第五交点，得到音频特征数据的语音预估起始点；根据第四交点，向第二方向搜索第二语音门限与短时能量包络线的第六交点，得到音频特征数据的语音预估终止点。

根据本发明的实施例，上述方法还包括：将多模态图像对应的目标对象进行匿名处理，得到匿名后的目标对象；将包含有匿名后的目标对象对应的多模态图像、匿名后的目标对象、标注结果、音频特征数据和对象融合特征数据存储于云数据库中。

根据本发明的实施例，其中，对音频数据进行特征提取，得到音频特征数据，包括：对音频数据进行第一采样处理，得到处理后的音频数据；对处理后的音频数据进行时域特征提取，得到时域特征数据；对处理后的音频数据进行频域特征提取，得到频域特征数据；根据时域特征数据和频域特征数据，确定音频特征数据。

根据本发明的实施例，其中，对视频数据进行特征提取，得到对象融合特征数据，包括：对视频数据进行第二采样处理，得到处理后的视频数据；对处理后的视频数据进行对象面部特征提取，得到对象面部特征数据；对处理后的视频数据进行对象姿态特征提取，得到对象姿态特征数据；对对象面部特征数据和对象姿态特征数据进行特征融合，得到对象融合特征数据。

本发明的另一方面提供了一种用于辅助孤独症识别的多模态图像标注装置，包括：预处理模块，用于对不同格式的多模态图像进行预处理，得到音频数据和视频数据；第一提取模块，用于对音频数据进行特征提取，得到音频特征数据；第二提取模块，用于对视频数据进行特征提取，得到对象融合特征数据；第一处理模块，用于基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象；第二处理模块，用于基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据；标注模块，用于根据目标对象和目标对象的情绪特征数据，对多模态图像进行标注，得到标注结果；第三处理模块，用于将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

本发明的另一方面还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本发明的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

本发明的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

通过对不同格式的多模态图像的音频数据和视频数据分别进行特征提取，得到音频特征数据和对象融合特征数据，基于神经网络模型对音频特征数据和对象融合特征数据进行处理，得到与音频特征数据对应的目标对象以及目标对象的情绪特征数据，并基于该目标对象以及情绪特征数据对多模态图像进行标注，得到标注结果，同时，将得到的标注结果、音频特征数据以及对象融合特征数据可视化显示。由于采用了信号处理技术对不同格式的多模态图像的音视频数据进行特征提取，并基于深度学习技术对不同格式的多模态图像进行标注，并将多模态图像的音频特征数据和对象融合特征数据可视化显示，因此，能够至少部分解决现有技术中人工标注导致标注效率低，误差大的技术问题，实现了对多模态图像的自动标注，且标注过程简单快捷、误差小、并便于标注人员有依据的对标注结果进行补充调整，提高标注效率的技术效果。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示出了根据本发明实施例的用于辅助孤独症识别的多模态图像标注方法及装置的应用场景图；

图2示出了根据本发明实施例的用于辅助孤独症识别的多模态图像标注方法的流程图；

图3示出了根据本发明实施例的用于以便标注人员对标注结果进行补充和调整的示意图；

图4（a）示出了根据本发明实施例的第一神经网络模型的结构示意图；

图4（b）示出了根据本发明实施例的第一神经网络模型的结构图；

图5（a）示出了根据本发明实施例的第二神经网络模型的结构示意图；

图5（b）示出了根据本发明实施例的第二神经网络模型的结构图；

图6示出了根据本发明实施例的确定音频特征数据的语音起始点和语音终止点的方法的流程图；

图7示出了根据本发明实施例的确定音频特征数据的语音预估起始点和语音预估终止点的方法的流程图；

图8(a)示出了根据本发明实施例的音频特征数据的语音时域波形示意图；

图8(b)示出了根据本发明实施例的音频特征数据的语音短时能量包络线示意图；

图8(c)示出了根据本发明实施例的音频特征数据的语音短时过零率包络线示意图；

图9示出了根据本发明实施例的多模态图像标注方法的示意图；

图10示出了根据本发明实施例的用于辅助孤独症识别的多模态图像标注装置的结构框图；

图11示出了根据本发明实施例的适于实现用于辅助孤独症识别的多模态图像标注方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等）。

在本发明的实施例中，所涉及的数据（例如，包括但不限于用户个人信息）的收集、更新、分析、处理、使用、传输、提供、公开、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。特别地，对用户个人信息采取了必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

在本发明的实施例中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

本发明的实施例提供了一种用于辅助孤独症识别的多模态图像标注方法，包括：对不同格式的多模态图像进行预处理，得到音频数据和视频数据；对音频数据进行特征提取，得到音频特征数据；对视频数据进行特征提取，得到对象融合特征数据；基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象；基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据；根据目标对象和目标对象的情绪特征数据，对多模态图像进行标注，得到标注结果；将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

图1示出了根据本发明实施例的用于辅助孤独症识别的多模态图像标注方法及装置的应用场景图。

如图1所示，根据该实施例的应用场景可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等（仅为示例）。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

需要说明的是，本发明实施例所提供的用于辅助孤独症识别的多模态图像标注方法一般可以由服务器105执行。相应地，本发明实施例所提供的用于辅助孤独症识别的多模态图像标注装置一般可以设置于服务器105中。本发明实施例所提供的用于辅助孤独症识别的多模态图像标注方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地，本发明实施例所提供的用于辅助孤独症识别的多模态图像标注装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示出了根据本发明实施例的用于辅助孤独症识别的多模态图像标注方法的流程图。

如图2所示，该方法包括操作S210~操作S270。

在操作S210，对不同格式的多模态图像进行预处理，得到音频数据和视频数据。

根据本发明的实施例，不同型号的设备录制的孤独症儿童的多模态图像的格式不同，例如，图像文件格式、图像分辨率、图像采样率等数据格式的不同。

根据本发明的实施例，可以对不同格式的多模态图像进行预处理，包括：将不同格式的多模态图像的数据格式进行统一，例如，可以统一为MOV、MP4、WMV、FLV等常用音视频格式，利用音视频分离工具对统一格式后的多模态图像进行音视频分离，得到音频数据和视频数据，其中，得到的音频数据可以为AVI的音频格式，得到的视频数据可以为MP4的视频格式。

在操作S220，对音频数据进行特征提取，得到音频特征数据。

根据本发明的实施例，音频特征数据可以反映孤独症儿童的身份特征。

根据本发明的实施例，对音频数据进行特征提取，得到音频特征数据，可以包括：对音频数据进行第一采样处理，得到处理后的音频数据；对处理后的音频数据进行时域特征提取，得到时域特征数据；对处理后的音频数据进行频域特征提取，得到频域特征数据；根据时域特征数据和频域特征数据，确定音频特征数据。

根据本发明的实施例，采用处理可以包括上采样和下采样，将音频数据进行采样处理，可以使得音频数据的采样率达到设定采样率，通常设定采样率的数值可以为16KHz。

根据本发明的实施例，可以确定音频数据的原采样率的大小，若音频数据原采样率的数值小于设定采样率，则对音频数据采用上采用的方法，提高音频数据的原采样率，使得音频数据的采样率达到设定采样率。

根据本发明的实施例，上采样可以采用双线性插值法计算得到设定采样率。可以采用式（1）计算可得：

（1）；

其中，为t时刻的采样值；/>为t ₀时刻的采样值；/>为t ₁时刻的采样值；t ₀为t时刻前临近时刻；t ₁为t时刻后临近时刻。

根据本发明的实施例，若音频数据原采样率的数值大于设定采样率，则对音频数据采用下采样的方法，降低音频数据的原采用率，使得音频数据的采样率达到设定采样率。

根据本发明的实施例，下采样可以采用均值法计算得到设定采样率。可以采用式（2）计算可得：

（2）；

其中，N为一个时刻周期的采样值的数量；为t时刻对应的一个时刻周期内的N个采样值/>的平均值；/>为一个时刻周期内的第i个采样值。

根据本发明的实施例，通过上述采用方法对音频数据进行第一采样处理，得到处理后的音频数据。对处理后的音频数据进行时域特征提取和频域特征提取，得到相应的时域特征数据和频域特征数据。

根据本发明的实施例，可以利用音频分析工具对处理后的音频数据进行时域特征提取，得到时域特征数据。时域特征数据可以包括但不限于音频的幅值特征数据和短时过零率数据。

根据本发明的实施例，可以利用短时傅里叶变换（Short-Time Fourier Transform，STFT）算法将音频信号转换成频域表示，并提取音频的频谱特征，得到频域特征数据。频域特征数据可以包括但不限于短时能量特征数据和频谱能量特征数据。

根据本发明的实施例，短时傅里叶变换的参数设置可以包括汉明窗函数，窗口大小可以为25毫秒，步长可以为10毫秒，以获取准确的频谱信息。

根据本发明的实施例，音频信号x(t)的短时傅里叶变换可以定义为式（3）：

（3）；

其中，STFT(t，f)为音频信号x(t)的短时傅里叶变换，t为时间，f为频率，h(t-t)为分析窗函数，j为虚数；τ为积分变量。

根据本发明的实施例，可以将得到的音频的幅值特征数据和短时过零率数据的时域特征数据，以及短时能量特征数据和频谱能量特征数据的频域特征数据确定为音频特征数据。

在操作S230，对视频数据进行特征提取，得到对象融合特征数据。

根据本发明的实施例，对象融合特征数据可以包括对象面部特征数据和对象姿态特征数据。对象面部特征数据可以包括多模态图像中对象的五官、神态等数据，以捕获对象面部表情的67个关键特征点坐标信息以及时间序列；对象姿态特征数据可以包括多模态图像中对象的身体轮廓和关节位置，例如，包括但不限于手部、脚部、头部等部分，以捕获对象身体姿态和动作的15个关键特征点坐标信息以及时间序列。

根据本发明的实施例，对视频数据进行特征提取，得到对象融合特征数据，可以包括：对视频数据进行第二采样处理，得到处理后的视频数据；对处理后的视频数据进行对象面部特征提取，得到对象面部特征数据；对处理后的视频数据进行对象姿态特征提取，得到对象姿态特征数据；对对象面部特征数据和对象姿态特征数据进行特征融合，得到对象融合特征数据。

根据本发明的实施例，对视频数据进行第二采样处理，所使用的方法可以包括上采样和下采样。与上述对音频数据进行第一采样处理的方法相同，在此，本发明不再赘述。

根据本发明的实施例，对视频数据进行第二采样处理，使得视频数据的采样率达到设定采样率，得到处理后的视频数据。处理后的视频数据的设定采样率的数值可以为25Hz。

根据本发明的实施例，可以通过计算机视觉分析工具对处理后的视频数据的每一视频帧进行处理，通过分析像素强度和特征点位置，实现自动检测和标记面部的关键点，以捕获对象面部表情的关键特征点坐标信息以及时间序列，从而得到对象面部特征数据。

根据本发明的实施例，可以通过调用计算机视觉库分析处理后的视频数据中的身体轮廓和关节位置，包括关键关节，以捕获对象身体姿态和动作的关键特征点坐标信息以及时间序列，从而得到对象姿态特征数据。

根据本发明的实施例，可以对对象面部特征数据F _t和对象姿态特征数据B _t进行特征融合，得到每帧图像的对象特征融合数据M _t，即：

；

根据本发明的实施例，特征融合是一种将多个特征进行有效组合的方法，其特征融合的方法可以包括但不限于：加权融合、特征串联、特征叠加、特征选择、特征交叉等。在本发明的实施例中，对特征融合方法不做限定。

在操作S240，基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象。

根据本发明的实施例，利用第一神经网络模型对音频特征数据进行处理之前，可以确定音频特征数据的语音起始点和终止点，提取与音频特征数据对应的待识别音频特征数据。

根据本发明的实施例，可以将待识别音频特征数据输入至第一神经网络模型，对待识别音频特征数据进行处理，可以得到与音频特征数据对应的目标对象。

根据本发明的实施例，第一神经网络模型输出的是对音频特征数据对应的对象是儿童还是成人的二分类身份标签结果。若输出结果的身份标签为儿童，则确定为是与音频特征数据对应目标对象。

在操作S250，基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据。

根据本发明的实施例，第二神经网络模型实现端到端的自动识别目标对象的情绪状态。其输入数据为针对每帧图像对应的对象融合特征数据，输出为每帧的情绪特征数据。

根据本发明的实施例，可以将连续相同的情绪特征数据的集中区间作为情绪状态的情绪起始点和情绪终止点。连续相同的情绪特征数据可以表征同一个情绪状态。

根据本发明的实施例，例如，连续帧情绪特征数据表征的情绪状态均为“高兴”，则该连续帧情绪特征数据的集中区间可以作为该“高兴”情绪状态的情绪起始点和情绪终止点。

在操作S260，根据目标对象和目标对象的情绪特征数据，对多模态图像进行标注，得到标注结果。

在操作S270，将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

根据本发明的实施例，可以通过第一神经网络模型对音频特征数据进行处理，得到的目标对象，并进行目标对象的身份结果标注，得到身份标注结果；通过对第二神经网络模型对对象融合特征数据进行处理，得到情绪特征数据，并进行情绪状态结果标注。

根据本发明的实施例，对音频数据进行特征提取，还可以获得文本内容数据，文本内容数据可以表征音频特征数据的文字内容。

根据本发明的实施例，可以将上述标注结果、音频特征数据对应的、对象融合特征数据、文本内容数据以及多模态图像进行可视化显示，标注人员可以通过客户端根据多模态图像对已标注结果进行补充和调整。

例如，图3示出了根据本发明实施例的用于以便标注人员对标注结果进行补充和调整的示意图。

如图3所示，可以通过客户端的实时展示部件，显示待标注的多模态图像，并同步展示该时刻点对应的音频特征数据对应的音频波形、文本内容以及面部特征点的变化。标注人员可以根据各个交互控件对各个特征数据进行可视化实时浏览，使得标注人员能够更快速了解当前数据内容，及时对标注结果进行补充和调整。

根据本发明的实施例，标注人员可以判断已标注结果是否正确，对于发音片段、目标对象表情以及肢体运动片段时间点以及标签内容错误的信息进行增删和修改；标注人员还可以根据实际需求进行人工附加标注，例如，目标对象微笑标签可进一步按照自发和诱发标注，进一步补充自动标注含义，保留更多信息方便后续分析。

根据本发明的实施例，通过对不同格式的多模态图像的音频数据和视频数据分别进行特征提取，得到音频特征数据和对象融合特征数据，基于神经网络模型对音频特征数据和对象融合特征数据进行处理，得到与音频特征数据对应的目标对象以及目标对象的情绪特征数据，并基于该目标对象以及情绪特征数据对多模态图像进行标注，得到标注结果，同时，将得到的标注结果、音频特征数据以及对象融合特征数据可视化显示。由于采用了信号处理技术对不同格式的多模态图像的音视频数据进行特征提取，并基于深度学习技术对不同格式的多模态图像进行标注，并将多模态图像的音频特征数据和对象融合特征数据可视化显示，因此，能够至少部分解决现有技术中人工标注导致标注效率低，误差大的技术问题，实现了对多模态图像的自动标注，且标注过程简单快捷、误差小、并便于标注人员有依据的对标注结果进行补充调整，提高标注效率的技术效果。

根据本发明的实施例，基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象，包括：对音频特征数据进行语音检测，确定音频特征数据的语音起始点和语音终止点；根据音频特征数据的语音起始点和语音终止点，确定待识别音频特征数据；将待识别音频特征数据输入至第一神经网络模型，得到与音频特征数据对应的目标对象。

根据本发明的实施例，可以采用双门限算法对每段音频特征数据进行语音检测，以确定该段音频特征数据的语音起始点和语音终止点。

根据本发明的实施例，待识别音频特征数据可以通过语音检测将该音频特征数据中冗余语句、噪音等进行去除而形成的。语音起始点可以为待识别音频特征数据的开始点，语音终止点可以为待识别音频特征数据的结束点。

根据本发明的实施例，第一神经网络模型可以为构建的多层循环神经网络（Recurrent Neural Network，RNN），RNN结构包含了输入层、隐藏层和输出层的结构，该结构可以有效处理序列数据，其中，每一时刻t的隐藏层的值S _t由该时刻的输入X _t和上一时刻的隐藏层S _t-1共同影响，t时刻的输出O _t及隐藏层的值S _t的公式如下：

（4）；

（5）；

其中，U是输入层到隐藏层的权重矩阵；W是隐藏层之间的权重矩阵；V是隐藏层到输出层的权重矩阵。

图4（a）示出了根据本发明实施例的第一神经网络模型的结构示意图；图4（b）示出了根据本发明实施例的第一神经网络模型的结构图。

根据本发明的实施例，可以利用第一神经网络模型对音频语音片段数据进行处理，输出为与音频特征数据对应的发音对象是儿童还是成人的二分类的结果。因此，第一神经网络模型可以采用N对1的RNN结构，即，N个输入对应1个输出结果，其结构示意图如图4（a）所示。

根据本发明的实施例，如图4（b）所示，第一神经网络模型是由两个RNN类型的标注单项长短期记忆网络（Long Short-Term Memory，LSTM）组成，隐藏层神经元数量可以分别为32和16，然后对最后一个时刻的输出结果输入神经元数量为8的全连接层，再通过输出层获得识别结果，即，输出与音频特征数据对应的目标对象的身份标签信息。

根据本发明的实施例，第二神经网络模型可以为构建的多层循环神经网络（Recurrent Neural Network，RNN），RNN结构包含了输入层、隐藏层和输出层的结构，与第一神经网络模型的结构层相同。在此不再赘述。

图5（a）示出了根据本发明实施例的第二神经网络模型的结构示意图；图5（b）示出了根据本发明实施例的第二神经网络模型的结构图。

根据本发明的实施例，可以利用第二神经网路模型对对象融合特征数据进行处理，输出为每帧多模态图像对应的目标对象的情绪特征数据，以表征目标对象的情绪状态。因此，可以选择使用N对N的RNN结构，即，N个输入对应N个输出结果，其结构示意图如图5（a）所示。

根据本发明的实施例，如图5（b）所示，第二神经网络模型中情绪状态的数量可以设置为5，第二神经网络模型同样是由两个RNN类型的标注单项长短期记忆网络（Long Short-Term Memory，LSTM）组成，隐藏层神经元数量可以分别为64和32，对LSTM每一时刻的输出结果会输入到神经元数量为16的全连接层，最后通过神经元数量为5的输出层获得识别结果，即，输出与情绪特征数据对应的情绪状态标签信息。

图6示出了根据本发明实施例的确定音频特征数据的语音起始点和语音终止点的方法的流程图。

如图6所示，该方法包括操作S610~S650。

在操作S610，根据与短时能量特征数据对应的音频特征数据的短时能量包络线，确定音频特征数据的第一语音门限和第二语音门限，其中，第一语音门限对应的门限值大于第二语音门限对应的门限值。

根据本发明的实施例，可以根据音频特征数据中的时域特征数据的短时能量特征数据表征音频特征数据的短时能量包络线，可以在短时能量包络线上确定音频特征数据的第一语音门限和第二语音门限。

根据本发明的实施例，第一语音门限的门限值大于第二语音门限的门限值，第一语音门限表征音频特征数据的语音能量的最大门限阈值，第二语音门限表征音频特征数据的语音能量的最小门限阈值。第一语音门限可以表示为T ₁，第二语音门限可以表示为T ₂。

在操作S620，根据第一语音门限和第二语音门限，确定音频特征数据的语音预估起始点和语音预估终止点。

根据本发明的实施例，短时能量包络线与第一语音门限具有多个交点，将与第一语音门限交点的两端的交点作为音频特征数据的语音中间起始点和语音中间终止点。

根据本发明的实施例，短时能量包络线与第二语音门限具有多个交点，可以向小于语音中间起始点对应的时刻点的方向搜索与第二语音门限的邻近交点，确定语音预估起始点；向大于语音中间终止点对应的时刻点的方向搜索与第二语音门限的邻近交点，确定语音预估终止点。

根据本发明的实施例，语音预估起始点和语音预估终止点可以表征该音频特征数据的大概起止点位置。

在操作S630，根据与短时过零率特征数据对应的音频特征数据的短时过零率包络线，确定音频特征数据的第三语音门限。

根据本发明的实施例，可以根据音频特征数据中的频域特征数据的短时过零率特征数据表征短时过零率包络线，确定音频特征数据的第三语音门限。第三语音门限表征音频特征数据的频域阈值，第三语音门限可以表示为T ₃。

在操作S640，根据语音预估起始点，向第一方向搜索第三语音门限与短时过零率包络线的第一交点，得到音频特征数据的语音起始点。

在操作S650，根据语音预估终止点，向第二方向搜索第三语音门限与短时过零率包络线的第二交点，得到音频特征数据的语音终止点。

根据本发明的实施例，第一方向可以为小于语音起始点位置对应的时刻点方向；第二方向可以为大于语音终止点位置对应的时刻点方向。

根据本发明的实施例，可以根据音频特征数据的语音预估起始点位置，向第一方向搜索第三语音门限与短时过零率包络线的邻近交点，即，第一交点，并将该第一交点确定为音频特征数据的语音起始点。

根据本发明的实施例，可以根据音频特征数据的语音预估终止点位置，向第二方向搜索第三语音门限与短时过零率包络线的邻近交点，即，第二交点，并将第二交点确定为音频特征数据的语音终止点。

图7示出了根据本发明实施例的确定音频特征数据的语音预估起始点和语音预估终止点的方法的流程图。

如图7所示，该方法包括S710~S730。

在操作S710，根据第一语音门限，确定第一语音门限与短时能量包络线的第三交点和第四交点，其中，第三交点的语音时间早于第四交点的语音时间。

在操作S720，根据第三交点，向第一方向搜索第二语音门限与短时能量包络线的第五交点，得到音频特征数据的语音预估起始点。

在操作S730，根据第四交点，向第二方向搜索第二语音门限与短时能量包络线的第六交点，得到音频特征数据的语音预估终止点。

根据本发明的实施例，第三交点可以为第一语音门限与短时能量包络线的多个交点中对应的最小时刻点的交点，第四交点可以为第一语音门限与短时能量包络线的多个交点中对应的最大时刻点的交点。

根据本发明的实施例，第五交点可以为第二语音门限与短时能量包络线的多个交点中对应的最小时刻点的交点，第四交点可以为第二语音门限与短时能量包络线的多个交点中对应的最大时刻点的交点。

根据本发明的实施例，第五交点的时刻点早于第三交点，第六交点的时刻点晚于第四交点。

根据本发明的实施例，可以根据第三交点，向小于第三交点对应的时刻点的方向搜索短时能量包络线与第二语音门限的交点，即，第五交点，并将第五交点确定为语音预估起始点。

根据本发明的实施例，可以根据第四交点，向大于第四交点对应的时刻点的方向搜索短时能量包络线与第二语音门限的交点，即，第六交点，并将第六交点确定为语音预估终止点。

图8(a)示出了根据本发明实施例的音频特征数据的语音时域波形示意图；图8(b)示出了根据本发明实施例的音频特征数据的语音短时能量包络线示意图；图8(c)示出了根据本发明实施例的音频特征数据的语音短时过零率包络线示意图。

如图8(a)~ 8(c)所示，可以根据音频特征数据表征音频时域波形、短时能量包络线和短时过零率包络线，从而确定音频特征数据的语音起始点和语音终止点。具体地，可以从短时能量包络线上确定第一语音门限T1和第二语音门限T2，第一语音门限与短时能量包络线有多个交点，语音中间起始点和语音中间终止点可以位于第三交点C和第四交点D对应的位置。第二语音门限与短时能量包络线同样有多个交点，可以从第三交点C对应的时刻点向左（第一方向）搜索，确定第二语音门限与短时能量包络线的第五交点B，并将第五交点B确定为语音预估起始点；可以从第四交点D对应的时刻点向右（第二方向）搜索，确定第二语音门限与短时能量包络线的第六交点E，并将第六交点E确定为语音预估终止点。

可以从短时过零率包络线上确定第三语音门限T3，第三语音门限T3与短时过零率包络线有多个交点，可以从第五交点D对应的时刻点向左（第一方向）搜索，确定第三语音门限与短时过零率包络线的第一交点A，并将第一交点A确定为语音起始点；可以从第六交点E对应的时刻点向左（第二方向）搜索，确定第三语音门限与短时过零率包络线的第二交点F，并将第二交点F确定为语音终止点。即，AF为音频特征数据的语音起始点和语音终止点，AF之间的音频特征数据为待识别音频特征数据。

根据本发明的实施例，可以对目标对象的隐私信息进行匿名处理，并将匿名后的目标对象对应的多模态图像、匿名后的目标对象、标注结果、音频特征数据以及对象融合特征数据的面部特征数据以及姿态特征数据存储于云数据库中，以便后续分析查看。

根据本发明的实施例，可以构建MySQL数据库，以Json格式存储数据，以POST通信方式上传至服务器数据库。其中，量表信息包括年龄、性别信息以及临床所用孤独症儿童行为量表（Autism Behavior Checklist，ABC）中的感觉、交往、躯体和物体使用、语言、社会生活自理五个方面分数以及整体评分，对应Json文件关键字分别为：Age、Gender、Sensory、Relating、BodyObjectUse、Language、SocialSelfHelp和Total。数据格式信息包括数据总时长、标注日期，对应Json格式关键字为：Duration、Date。特征数据包括所提取的归一化后音频幅值、频谱矩阵、面部特征点时域变化矩阵、体态特征点时域变化矩阵，对应Json文件关键字分别为：Audio、Spectrum、Facial、Body。标注结果包括标签内容、起始时间点和终止时间点，对应Json文件关键字分别为：Label、Start、End。

根据本发明的实施例，当标注数据达到现有总数据十分之一，或手动点击模型迭代后，自动重新训练标注模型，更新当前标注模型的参数，提高机器识别的性能。具体实施方法可以为，服务器将已有数据以及对应的标注结果与新数据以及标注结果击中后，以上一次的模型权重作为初始值，再次调用模型训练函数更新权重，重新评价识别结果的精度，直至精度较原模型有所提升。

图9示出了根据本发明实施例的多模态图像标注方法的示意图。

如图9所示，对不同格式的多模态图像901进行预处理，得到音频数据902和视频数据903。对音频数据902进行特征提取，得到音频特征数据904，音频特征数据904包括时域特征数据905和频域特征数据906，时域特征数据905包括短时能量特征数据905-1；频域特征数据906包括短时过零率特征数据906-1。根据短时能量特征数据905-1，确定音频特征数据的第一语音门限907和第二语音门限908，根据第一语音门限907和第二语音门限908，确定音频特征数据的语音预估起始点909和语音预估终止点910。根据短时过零率特征数据906-1，确定音频特征数据的第三语音门限911，根据语音预估起始点909，向第一方向搜索第三语音门限911与短时过零率包络线的第一交点，确定音频特征数据的语音起始点912；根据语音预估终止点910，向第二方向搜索第三语音门限911与短时过零率包络线的第二交点，确定音频特征数据的语音终止点913，根据语音起始点912和语音终止点913，确定待识别音频特征数据914。

将待识别音频特征数据914输入至第一神经网络模型915，得到与音频特征数据对应的目标对象916。

对视频数据903进行对象面部特征特征提取，得到对象面部特征数据917；对视频数据903进行对象姿态特征提取，得到对象姿态特征数据918；将对象面部特征数据917和对象姿态特征数据918进行特征融合，得到对象特征融合数据919。将对象特征融合数据919输入至第二神经网络模型920，得到目标对象的情绪特征数据921。根据与音频特征数据对应的目标对象916和目标对象的情绪特征数据921，得到标注结果922。

基于上述用于辅助孤独症识别的多模态图像标注方法，本发明还提供了一种用于辅助孤独症识别的多模态图像标注装置。以下将结合图10对该装置进行详细描述。

图10示出了根据本发明实施例的用于辅助孤独症识别的多模态图像标注装置的结构框图。

如图10所示，该装置可以包括：预处理模块1010、第一提取模块1020、第二提取模块1030、第一处理模块1040、第二处理模块1050、标注模块1060和第三处理模块1070。

预处理模块1010，用于对不同格式的多模态图像进行预处理，得到音频数据和视频数据。

第一提取模块1020，用于对音频数据进行特征提取，得到音频特征数据。

第二提取模块1030，用于对视频数据进行特征提取，得到对象融合特征数据。

第一处理模块1040，用于基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象。

第二处理模块1050，用于基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据。

标注模块1060，用于根据目标对象和目标对象的情绪特征数据，对多模态图像进行标注，得到标注结果。

第三处理模块1070，用于将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

根据本发明的实施例，第一处理模块1060可以包括：检测子模块、第一确定子模块和第一获得子模块。

检测子模块，用于对音频特征数据进行语音检测，确定音频特征数据的语音起始点和语音终止点。

第一确定子模块，用于根据音频特征数据的语音起始点和语音终止点，确定待识别音频特征数据。

第一获得子模块，用于将待识别音频特征数据输入至第一神经网络模型，得到与音频特征数据对应的目标对象。

根据本发明的实施例，检测子模块可以包括：第一确定单元、第二确定单元、第三确定单元、第一获得单元和第二获得单元。

第一确定单元，用于根据与短时能量特征数据对应的音频特征数据的短时能量包络线，确定音频特征数据的第一语音门限和第二语音门限，其中，第一语音门限对应的门限值大于第二语音门限对应的门限值。

第二确定单元，用于根据第一语音门限和第二语音门限，确定音频特征数据的语音预估起始点和语音预估终止点。

第三确定单元，用于根据与短时过零率特征数据对应的音频特征数据的短时过零率包络线，确定音频特征数据的第三语音门限。

第一获得单元，用于根据语音预估起始点，向第一方向搜索第三语音门限与短时过零率包络线的第一交点，得到音频特征数据的语音起始点。

第二获得单元，用于根据语音预估终止点，向第二方向搜索第三语音门限与短时过零率包络线的第二交点，得到音频特征数据的语音终止点。

根据本发明的实施例，第二确定单元可以包括：确定子单元、第一获得子单元和第二获得子单元。

确定子单元，用于根据第一语音门限，确定第一语音门限与短时能量包络线的第三交点和第四交点，其中，第三交点的语音时间早于第四交点的语音时间。

第一获得子单元，用于根据第三交点，向第一方向搜索第二语音门限与短时能量包络线的第五交点，得到音频特征数据的语音预估起始点。

第二获得子单元，用于根据第四交点，向第二方向搜索第二语音门限与短时能量包络线的第六交点，得到音频特征数据的语音预估终止点。

根据本发明的实施例，该装置还包括：第四处理模块和存储模块。

第四处理模块，用于将多模态图像对应的目标对象进行匿名处理，得到匿名后的目标对象。

存储模块，用于将包含有匿名后的目标对象对应的多模态图像、匿名后的目标对象、标注结果、音频特征数据和对象融合特征数据存储于云数据库中。

根据本发明的实施例，第一提取模块1020可以包括：第二获得子模块、第二获得子模块、第三获得子模块和第二确定子模块。

第二获得子模块，用于对音频数据进行第一采样处理，得到处理后的音频数据。

第二获得子模块，用于对处理后的音频数据进行时域特征提取，得到时域特征数据。

第三获得子模块，用于对处理后的音频数据进行频域特征提取，得到频域特征数据。

第二确定子模块，用于根据时域特征数据和频域特征数据，确定音频特征数据。

根据本发明的实施例，第二提取模块1030可以包括：第四获得子模块、第五获得子模块、第六获得子模块和第七获得子模块。

第四获得子模块，用于对视频数据进行第二采样处理，得到处理后的视频数据。

第五获得子模块，用于对处理后的视频数据进行对象面部特征提取，得到对象面部特征数据。

第六获得子模块，用于对处理后的视频数据进行对象姿态特征提取，得到对象姿态特征数据。

第七获得子模块，用于对对象面部特征数据和对象姿态特征数据进行特征融合，得到对象融合特征数据。

根据本发明的实施例，预处理模块1010、第一提取模块1020、第二提取模块1030、第一处理模块1040、第二处理模块1050、标注模块1060和第三处理模块1070中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，预处理模块1010、第一提取模块1020、第二提取模块1030、第一处理模块1040、第二处理模块1050、标注模块1060和第三处理模块1070中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上***、基板上的***、封装上的***、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，预处理模块1010、第一提取模块1020、第二提取模块1030、第一处理模块1040、第二处理模块1050、标注模块1060和第三处理模块1070中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图11所示，根据本发明实施例的电子设备包括处理器1101，其可以根据存储在只读存储器（ROM）1102中的程序或者从存储部分1108加载到随机访问存储器（RAM）1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1103中，存储有电子设备操作所需的各种程序和数据。处理器 1101、ROM1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM 1103中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备还可以包括输入/输出（I/O）接口1105，输入/输出（I/O）接口1105也连接至总线1104。电子设备还可以包括连接至输入/输出（I/O）接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出（I/O）接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。

本发明的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机***中运行时，该程序代码用于使计算机***实现本发明实施例所提供的上述方法。

在该计算机程序被处理器1101执行时执行本发明实施例的***/装置中限定的上述功能。根据本发明的实施例，上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1109被下载和安装，和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时，执行本发明实施例的***中限定的上述功能。根据本发明的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本发明的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种用于辅助孤独症识别的多模态图像标注方法，其特征在于，所述方法包括：

对不同格式的多模态图像进行预处理，得到音频数据和视频数据；

对所述音频数据进行特征提取，得到音频特征数据；

对所述视频数据进行特征提取，得到对象融合特征数据；

基于第一神经网络模型，对所述音频特征数据进行处理，得到与所述音频特征数据对应的目标对象；

基于第二神经网络模型，对所述对象融合特征数据进行处理，得到所述目标对象的情绪特征数据；

根据所述目标对象和所述目标对象的情绪特征数据，对所述多模态图像进行标注，得到标注结果；

将所述标注结果、所述音频特征数据和所述对象融合特征数据进行可视化处理，以便标注人员对与所述多模态图像对应的所述标注结果进行调整。

2.根据权利要求1所述的方法，其特征在于，所述基于第一神经网络模型，对所述音频特征数据进行处理，得到与所述音频特征数据对应的目标对象，包括：

对所述音频特征数据进行语音检测，确定所述音频特征数据的语音起始点和语音终止点；

根据所述音频特征数据的语音起始点和语音终止点，确定待识别音频特征数据；

将所述待识别音频特征数据输入至所述第一神经网络模型，得到与所述音频特征数据对应的目标对象。

3.根据权利要求2所述的方法，其特征在于，所述音频特征数据包括短时能量特征数据和短时过零率特征数据；

所述对所述音频特征数据进行语音检测，确定所述音频特征数据的语音起始点和语音终止点，包括：

根据与所述短时能量特征数据对应的所述音频特征数据的短时能量包络线，确定所述音频特征数据的第一语音门限和第二语音门限，所述第一语音门限对应的门限值大于所述第二语音门限对应的门限值；

根据所述第一语音门限和所述第二语音门限，确定所述音频特征数据的语音预估起始点和语音预估终止点；

根据与所述短时过零率特征数据对应的所述音频特征数据的短时过零率包络线，确定所述音频特征数据的第三语音门限；

根据所述语音预估起始点，向第一方向搜索所述第三语音门限与所述短时过零率包络线的第一交点，得到所述音频特征数据的语音起始点；

根据所述语音预估终止点，向第二方向搜索所述第三语音门限与所述短时过零率包络线的第二交点，得到所述音频特征数据的语音终止点。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一语音门限和第二语音门限，确定所述音频特征数据的语音预估起始点和语音预估终止点，包括：

根据所述第一语音门限，确定所述第一语音门限与所述短时能量包络线的第三交点和第四交点，所述第三交点的语音时间早于所述第四交点的语音时间；

根据所述第三交点，向所述第一方向搜索所述第二语音门限与所述短时能量包络线的第五交点，得到所述音频特征数据的语音预估起始点；

根据所述第四交点，向所述第二方向搜索所述第二语音门限与所述短时能量包络线的第六交点，得到所述音频特征数据的语音预估终止点。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述多模态图像对应的所述目标对象进行匿名处理，得到匿名后的所述目标对象；

将包含有匿名后的所述目标对象对应的所述多模态图像、匿名后的所述目标对象、所述标注结果、所述音频特征数据和所述对象融合特征数据存储于云数据库中。

6.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行特征提取，得到音频特征数据，包括：

对所述音频数据进行第一采样处理，得到处理后的所述音频数据；

对处理后的所述音频数据进行时域特征提取，得到时域特征数据；

对处理后的所述音频数据进行频域特征提取，得到频域特征数据；

根据所述时域特征数据和所述频域特征数据，确定所述音频特征数据。

7.根据权利要求1所述的方法，其特征在于，所述对所述视频数据进行特征提取，得到对象融合特征数据，包括：

对所述视频数据进行第二采样处理，得到处理后的所述视频数据；

对处理后的所述视频数据进行对象面部特征提取，得到对象面部特征数据；

对处理后的所述视频数据进行对象姿态特征提取，得到对象姿态特征数据；

对所述对象面部特征数据和所述对象姿态特征数据进行特征融合，得到对象融合特征数据。

8.一种用于辅助孤独症识别的多模态图像标注装置，其特征在于，所述装置包括：

预处理模块，用于对不同格式的多模态图像进行预处理，得到音频数据和视频数据；

第一提取模块，用于对所述音频数据进行特征提取，得到音频特征数据；

第二提取模块，用于对所述视频数据进行特征提取，得到对象融合特征数据；

第一处理模块，用于基于第一神经网络模型，对所述音频特征数据进行处理，得到与所述音频特征数据对应的目标对象；

第二处理模块，用于基于第二神经网络模型，对所述对象融合特征数据进行处理，得到所述目标对象的情绪特征数据；

标注模块，用于根据所述目标对象和所述目标对象的情绪特征数据，对所述多模态图像进行标注，得到标注结果；

第三处理模块，用于将所述标注结果、所述音频特征数据和所述对象融合特征数据进行可视化处理，以便标注人员对与所述多模态图像对应的所述标注结果进行调整。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。