CN114359796A

CN114359796A - 一种目标识别的方法、装置及电子设备

Info

Publication number: CN114359796A
Application number: CN202111635796.4A
Authority: CN
Inventors: 廖紫嫣; 张姜; 邸德宁; 郝敬松; 朱树磊; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15

Abstract

本申请公开一种目标识别的方法、装置及电子设备，该方法包括提取待处理视频中目标对象的不同模态的多个特征，并确定所述待处理视频对应的参考特征，在这里，参考特征可以基于多个参考视频的特征确定，且参考视频为具有不同模态中至少一种模态的特征的视频，然后基于确定的参考特征，对待处理视频的多个特征进行融合，得到待处理视频的融合特征，再利用该融合特征，确定目标对象的识别结果。基于上述方法可以得到目标对象的不同模态的融合特征，解决现有技术因单一模态特征而导致识别目标识别准确率低的问题，进一步，结合参考特征来对提取的不同模态的特征进行融合，能够有效提升目标识别的准确率。

Description

一种目标识别的方法、装置及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种目标识别的方法、装置及电子设备。

背景技术

当前，在如城市安防***、公司考勤***的各种身份识别场景中，一般采用人脸识别的方式，提取采集的视频图像中目标对象的人脸特征，通过对人脸特征的识别，进而确定目标对象的身份信息。

但是，当视频图像中的目标对象存在遮挡时，通常无法采用上述方式识别出视频图像中的目标对象，鉴于此，现有技术存在对视频图像中目标对象的识别准确率低的问题。

发明内容

本申请提供一种目标识别的方法、装置及电子设备，用以结合参考特征来融合提取的不同模态特征，得到待处理视频的融合特征，并基于融合特征进行目标识别，有效提升目标识别的准确率，能够用以解决现有技术因单一模态特征而导致识别目标识别准确率低的问题。

第一方面，本申请提供了一种目标识别的方法，所述方法包括：

提取待处理视频中目标对象的不同模态的多个特征；

确定所述待处理视频对应的参考特征；其中，所述参考特征基于多个参考视频的特征确定，所述参考视频为具有所述不同模态中至少一种模态的特征的视频；

基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征；

利用所述融合特征，确定所述目标对象的识别结果。

通过上述方法，结合参考特征来融合提取的不同模态特征，得到待处理视频的融合特征，并基于融合特征进行目标识别，用以解决现有技术因单一模态特征而导致识别目标识别准确率低的问题，基于该方法不仅能够有效提升融合特征的质量，还能够有效提升基于该融合特征的目标识别的准确率。

在一种可能的设计中，所述提取待处理视频中目标对象的不同模态的多个特征，包括：

在待处理视频中提取出第一图像集合，对所述第一图像集合中的每张图像执行如下操作：

计算单张图像与所述第一图像集合中的每张图像之间的相似度值，若所有相似度值都大于预设相似度阈值，则将所述单张图像添加到第二图像集合；

在所述第二图像集合中，提取各张图像中目标对象的不同模态的特征；

分别对从所述各张图像中提取的同一模态的多个特征进行加权求和，计算所述同一模态的一个特征，得到所述不同模态的多个特征；

将计算得到的所述不同模态的多个特征作为所述待处理视频的不同模态的多个特征。

通过上述方法，提出一种提取待处理视频的不同模态的多个特征的方法，针对待处理视频中的第一图像集合中相似度值大于预设相似度阈值的每张图像，提取每张图像中的多个模态的特征，并对提取出的相同模态的多个特征进行加权求和，即得到一个模态将对应一个经过加权求和的特征，也就得到待处理视频的不同模态的多个特征，通过上述方式能够有效节约计算开支，并且有助于提高生成待处理视频的融合特征的质量。

在一种可能的设计中，所述在所述待处理视频中提取出第一图像集合，包括：

提取待处理视频中的多张图像作为第三图像集合，计算所述第三图像集合中各张图像的图像质量分数；

提取所有大于预设阈值的图像质量分数对应的图像组成第一图像集合。

通过上述方法，能够有效筛选出待处理视频中的图像质量分数高的图像，减少输入的噪声，进一步降低图像质量分数低的图像在后面进行特征提取、特征融合、目标识别时带来不准确的负面影响。

在一种可能的设计中，在所述提取待处理视频中目标对象的不同模态的多个特征之后，还包括：

对所述待处理视频进行特征编码，得到所述待处理视频对应的视频特征；

将所述视频特征逐一添加到所述多个特征的每个特征中，得到各个特征对应的编码特征，并将得到的多个编码特征作为所述待处理视频的多个特征。

通过上述方法，通过分别对待处理视频中提取的不同模态的多个特征进行跨模态编码，能够完成待处理视频中各个不同模态的特征之间的信息交互，基于编码后的不同模态特征，能够有效提升融合特征的质量以及目标识别的准确率。

在一种可能的设计中，所述确定所述待处理视频对应的参考特征，包括：

分别计算所述多个特征中每个特征与预设视频中各个特征之间的相似度值，得到所述多个特征中每个特征的多个相似度值；

按照所述相似度值的大小，对所述多个特征中每个特征的多个相似度值进行排列，并取排列在目标位置的相似度值对应的预设视频作为参考视频；

提取各个参考视频中的所述不同模态的特征，并将提取出的特征作为所述待处理视频对应的参考特征。

通过上述方法，能够确定出待处理视频对应的参考特征，针对待处理视频的每种模态的特征，分别计算与参考视频中同种模态的特征之间的相似度值，以此来筛选出参考视频，并且将参考视频的特征作为待处理视频的参考特征，在此参考特征能够用以提升待处理视频的不同模态的多个特征，进行特征融合，得到的融合特征的质量，进而有利于提升基于融合特征进行目标识别的识别准确率。

在一种可能的设计中，所述提取各个参考视频中的所述不同模态的特征，并将提取出的特征作为所述待处理视频对应的参考特征，包括：

判断各个参考视频中是否包含所述不同模态的缺失的特征；

若否，则提取所述各个参考视频中所述不同模态的特征，并将提取出的特征作为所述待处理视频对应的参考特征；

若是，则提取所述各个参考视频中所述不同模态的特征，并使用指定向量填充提取的缺失的特征，将所述不同模态的经过填充后的特征作为所述待处理视频对应的参考特征。

通过上述方法，提出一种填充参考视频的不同模态的特征的方法，即当存在参考视频中不具有待处理视频的不同模态中的所有模态的特征时，将不具有的特征作为缺失的特征，并使用指定向量填充缺失的特征，能够避免该缺失的特征对特征融合造成的负面影响，有效提升得到的融合特征的质量，以及基于融合特征进行特征识别的识别效果。

在一种可能的设计中，所述基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征，包括：

确定由所述多个特征以及所述参考特征共同组成的特征矩阵；

获取与所述特征矩阵对应的邻接矩阵；其中，所述邻接矩阵表征所述特征矩阵中不同特征之间进行融合的连接关系；

通过对所述特征矩阵以及所述邻接矩阵进行聚合，得到所述待处理视频的融合特征。

通过上述方法，提出一种基于特征矩阵和邻接矩阵来融合待处理视频的不同模态的多个特征的方法，因为构建的特征矩阵以及获取的邻接矩阵不仅考虑了待处理视频中不同模态之间的信息、还考虑了待处理视频与参考视频的相同模态的信息，能够有效提高得到待处理视频的融合特征的质量，并且有效提升基于该融合特征进行目标识别的识别准确率，进一步还可以降低目标识别的误报率。

在一种可能的设计中，所述获取所述特征矩阵对应的邻接矩阵，包括：

确定所述多个特征中每个特征与所述特征矩阵中每个特征之间进行融合的连接系数；

根据确定的连接系数，得到由所述确定的连接系数组成的邻接矩阵。

通过上述方法，用以实现邻接矩阵的获取，在此邻接矩阵不仅考虑了不同模态之间的特征的信息，还考虑了待处理视频与参考视频之间的相同模态的特征之间的信息，即该邻接矩阵能够提升融合特征的辨别性以及鲁棒性，进一步能够提升基于融合特征的目标识别的识别准确率，降低基于融合特征的目标识别的识别误报率。

在一种可能的设计中，所述通过对所述特征矩阵以及所述邻接矩阵进行聚合，得到所述待处理视频的融合特征，包括：

响应于所述特征矩阵中不存在缺失的参考特征，获取预设更新次数；

通过图神经网络，对所述特征矩阵和所述邻接矩阵进行所述预设更新次数的聚合，得到所述特征矩阵更新后的目标特征矩阵；其中，所述目标特征矩阵由目标特征组成；

在所述目标特征矩阵中，提取与所述多个特征对应的多个目标特征，并对所述多个目标特征进行融合，得到所述待处理视频的融合特征。

通过上述方式，采用图神经网络来融合待处理视频的不同模态的特征，相比于现有技术，能够自动学习各模态的特征的聚合方式，并且结合邻接矩阵，即参考特征，能够使得学习的融合特征更具有辨别性和鲁棒性，有效提高融合特征的质量，进一步有效提升基于该融合特征进行目标识别结果的识别率和准确率。

响应于所述特征矩阵中存在缺失的参考特征，在所述邻接矩阵中，将与所述缺失的参考特征相关的连接系数调整为指定数值；

通过图神经网络，对所述特征矩阵和调整后的邻接矩阵进行预设更新次数的聚合，得到所述特征矩阵更新后的目标特征矩阵；

根据预设的掩码矩阵与预设的缩放矩阵，对所述目标特征矩阵进行再更新，得到所述待处理视频的融合特征。

通过上述方法，提出一种特征缺失时的融合方法，通过修改相应的邻接矩阵，以阻止缺失模态的特征信息对生成目标特征矩阵的影响，并且通过预设的掩码矩阵以及预设的缩放矩阵对目标特征矩阵进行再更新，有效解决实际应用场景下模态特征缺失的问题，能够有效提升得到的融合特征的质量，并提高基于融合特征进行目标识别的准确率。

第二方面，本申请提供了一种目标识别的装置，所述装置包括：

提取模块，提取待处理视频中目标对象的不同模态的多个特征；

确定模块，确定所述待处理视频对应的参考特征；其中，所述参考特征基于多个参考视频的特征确定，所述参考视频为具有所述不同模态中至少一种模态的特征的视频的特征；

融合模块，基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征；

识别模块，利用所述融合特征，确定所述目标对象的识别结果。

在一种可能的设计中，所述提取模块，具体用于：

在一种可能的设计中，所述提取模块还用于对所述待处理视频进行特征编码，得到所述待处理视频对应的视频特征；

在一种可能的设计中，所述确定模块，具体用于：

判断各个参考视频中是否包含所述不同模态的缺失的特征；

在一种可能的设计中，所述融合模块，具体用于：

第三方面，本申请提供了一种电子设备，所述电子设备包括：

存储器，用于存放计算机程序；

处理器，用于执行所述存储器上所存放的计算机程序时，实现上述的一种目标识别的方法步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种目标识别的方法步骤。

上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。

附图说明

图1为本申请提供的一种目标识别的方法的流程图；

图2为本申请提供的一种人脸模态的示意图；

图3为本申请提供的一种人体模态的示意图；

图4为本申请提供的一种单模态多特征加权融合的示意图；

图5为本申请提供的一种跨模态编码的示意图；

图6为本申请提供的一种目标识别的装置的示意图；

图7为本申请提供的一种电子设备的结构的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或***实施例中。需要说明的是，在本申请的描述中“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。A与B连接，可以表示：A与B直接连接和A与B通过C连接这两种情况。另外，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

本申请实施例提供了一种目标识别的方法、装置及电子设备，用以得到目标对象的不同模态的融合特征，解决现有技术因单一模态特征而导致识别目标识别准确率低的问题，进一步，结合参考特征来对提取的不同模态的特征进行融合，能够有效提升目标识别的准确率。

下面结合附图对本申请实施例所提供的方法作出进一步详细说明。

参阅图1所示，本申请实施例提供了一种目标识别的方法，具体流程如下：

步骤101：提取待处理视频中目标对象的不同模态的多个特征；

在申请实施例中，首先提取待处理视频中的多张图像作为第三图像集合，然后计算第三图像集合中各张图像的图像质量分数，并提取所有大于预设阈值的图像质量分数对应的图像组成第一图像集合。

具体来说，上述提取待处理视频中的多张图像作为第三图像集合的具体方式可以为：等间隔提取待处理视频中的多张图像，并将提取出的多张图像作为第三图像集合中的图像。在这里的等间隔可以是预设时间段、也可以是预设图像数量。

上述图像质量分数可以用于表征图像的清晰程度和/或该图像中目标对象遮挡区域与目标对象区域的比例等，即若图像越清晰和/或该图像中目标对象区域存在越低占比的目标对象遮挡区域，则计算得到的图像质量分数便越高；若图像越模糊和/或该图像中目标对象区域存在越高占比的目标对象遮挡区域，则计算得到的图像质量分数便越低。

在这里，当目标对象为人时，各张图像的图像质量分数具体可以包括但不限于：各张图像中人脸图像的人脸质量分数、各张图像中人体图像的人体质量分数。

以人脸质量分数为例，目标对象区域可以为图像中目标对象人脸所在的区域，若人脸越清晰和/或人脸越完整，则该图像计算的人脸质量分数越高；若人脸越模糊、人脸偏转角越大和/或人脸遮挡越多，则该图像计算的人脸质量分数越低。

在通过上述方法提取出待处理视频的第一图像集合后，还可以对该第一图像集合中的每张图像执行如下操作：

计算单张图像与第一图像集合中的每张图像之间的相似度值，若所有相似度值都大于预设相似度阈值，则将这单张图像添加到第二图像集合。

举例来说，若第一图像集合中包含有三张图像：图像A、图像B和图像C，以对图像A执行上述操作为例，分别计算图像A与图像B之间的第一相似度值；计算图像A与图像C之间的第二相似度值，如果第一相似度值以及第二相似度值都大于预设相似度阈值，则将图像A添加到第二图像集合中。

值得说明的是，预设相似度阈值可以根据实际应用情况来确定。

在对第一图像集合中的每张图像都执行完上述操作后，可以在生成的第二图像集合中，确定各张图像中目标对象的不同模态的特征，然后分别对从各张图像中提取的同一模态的多个特征进行加权求和，即计算得到同一模态对应的一个特征，进而多种不同模态对应的多个特征，并且将计算得到的不同模态对应的多个特征作为待处理视频的不同模态的多个特征。

具体来说，不同模态表征目标对象的两种以及两种以上的模态，本申请实施例中可以基于目标对象的不同形态的特征划分不同模态，如目标对象为人时，可以将人的声音、肢体/动作、步态、穿戴等信息分别作为一种模态；本申请实施例中还可以基于目标对象的不同构件/部位的特征划分不同模态，如目标对象为人时，可以将人的人脸、手部、身体、头肩、腿等信息分别作为一种模态；且本申请实施例中的不同模态可以包括按照不同方法划分的模态中的任意多种模态，如目标对象为人时，本申请实施例中的模态可以包括目标对象的人脸、头部、身体、语音等。

在这里，可以针对每一个模态提取相应的模态特征，例如提取目标对象的人脸特征、头部特征、身体特征、语音特征等。

如图2所示，对目标对象的检测部位1进行检测，提取出检测部位1的特征，作为目标对象人脸这种模态的特征。

如图3所示，对目标对象的检测部位2进行检测，提取出检测部位2的特征，作为目标对象身体这种模态的特征。

举例来说，假设第二集合中包含三张图像：图像D、图像E和图像F，并且分别提取上述三张图像中的三种不同模态的特征：第一模态为人脸、第二模态为身体和第三模态为语音。

如图4所示，若以第一模态为例，分别提取出图像D的人脸的第一模态特征D、图像E的人脸的第一模态特征E、图像F的人脸的第一模态特征F，然后通过对人脸的第一模态特征D、第一模态特征E以及第一模态特征F进行加权融合，得到图像D、图像E和图像F的经加权融合后的人脸模态特征，在此人脸模态特征为该待处理视频中人脸对应的特征。

另外，上述加权融合中的各个模态特征的权重系数可以为，各图像对应的归一化之后的图像质量分数，当然该权重系数还可以根据实际应用情况确定，在此不做过多阐述。

通过上述方法，能够确定待处理视频中目标对象的不同模态的多个特征。

进一步，在一种可能的情况中，如果待处理视频的不同模态的多个特征中存在缺失的模态，则以指定向量替换该缺失的模态。

举例来说，当要提取待处理视频中目标对象的人脸、人体、语音三种不同模态的三个特征，但是通过上述计算，发现待处理视频中目标对象的语音模态为缺失的模态，则以指定向量来表示该缺失的模态之后，得到待处理视频中目标对象的人脸、人体、语音三种模态的三个特征。

值得说明的是，上述指定向量通常为零向量，当然还可以根据实际应用情况来确定其他的指定向量，在此不做具体阐述。

进一步，在一种可能的设计中，还将对待处理视频中的各个不同模态的特征进行跨模态的特征编码，具体为：首先对待处理视频进行特征编码，得到待处理视频对应的视频特征，然后将视频特征逐一添加到待处理视频中目标对象的不同模态的多个特征中的每个特征中，得到各个特征对应的编码特征，并将得到的多个编码特征作为待处理视频的多个特征。

具体来说，上述将视频特征逐一添加到待处理视频中目标对象的不同模态的多个特征中的每个特征中的具体计算公式，可以参见如下公式1所示。

h_m＝g(f_video，f_m)＝ReLU(W_m(f_m||f_video) (公式1)

其中，h_m为经过编码后待处理视频的单个模态的特征，f_video为待处理视频的视频特征，f_m为编码前待处理视频的单个模态的特征，W_m为预设向量。

值得说明的是，上述h_m∈R^d，上述f_video∈R^d，上述

上述

d为特征的维度，在此用以保证每个参与跨模态编码的特征的维度处于一致，m为特征对应的模态。

举例来说，如图5所示，若确定待处理视频中的人脸、人体、语音三种不同模态的三个特征，则计算待处理视频的视频特征，然后通过上述公式1的计算方式，分别计算视频特征添加至人脸模态的特征的人脸模态的编码特征、视频特征添加至人体模态的特征的人体模态的编码特征、视频特征添加至语音模态的特征的语音模态的编码特征。

在这里，待处理视频的视频特征可以表示为f_video，待处理视频的人脸特征可以表示为f₁，待处理视频的人体特征可以表示为f₂，待处理视频的语音特征可以表示为f₃，基于公式3计算可以得到经过编码后的人脸特征h₁，经过编码后的人体特征h₂，经过编码后的语音特征h₃。

通过上述方法，能够解决由于不同模态的特征之间存在信息的异质特性而导致融合特征质量不佳的问题，并且能够完成待处理视频中不同模态的多个特征之间的信息交互，通过这样的方式，有利于提升融合特征的准确率，以及基于融合特征进行目标识别的识别准确率。

综上所述，本步骤能够完成对待处理视频中目标对象的不同模态的多个特征的提取。

步骤102：确定所述待处理视频对应的参考特征；

在本申请实施例中，在提取出待处理视频中目标对象的不同模态的多个特征后，分别计算这多个特征中每个特征与预设视频中各个特征之间的相似度值，得到这多个特征中每个特征的多个相似度值，并按照计算得到的相似度值的大小，对这多个特征中每个特征的多个相似度值进行排列，然后取排列在目标位置的相似度值对应的预设视频作为参考视频，最后提取各个参考视频中的不同模态的特征，并将提取出的特征作为待处理视频对应的参考特征。

在这里，上述参考特征为基于多个参考视频的特征确定的特征，上述参考视频为具有待处理视频的不同模态中至少一种模态的特征的视频。

具体来说，在通过步骤101提取待处理视频中目标对象的不同模态的多个特征后，基于提取目标对象的不同模态，从预设数据库中选取符合要求的预设视频。

举例来说，若提取待处理视频中目标对象的人脸、人体和语音这三种模态的三个特征，则从预设数据库中提取具有人脸、人体或语音这三种模态中任意一种或多种模态的特征的预设视频。

例如，若预设视频1中具有人脸这一种模态的特征，预设视频2中具有人脸、人体这两种模态的特征，预设视频3中具有人脸、人体、语音和头部这四种模态的特征，预设视频4中具有头部这一种模态的特征，则可以提取预设视频1、预设视频2、预设视频3。

在确定预设视频后，分别计算待处理视频的多个特征中每个特征与预设视频的各个特征之间的相似度值，得到待处理视频的多个特征中每个特征的多个相似度值。

然后，按照计算得到的相似度值的大小，对这多个特征中每个特征的多个相似度值进行排列，具体排列方式可以按照从小到大对相似度值进行排序，也可以按照从大到小对相似度值进行排序，取排列在目标位置的相似度值对应的预设视频作为参考视频。

值得说明的是，上述目标位置可以是一种预先设定的位置，可以是通过预设阈值来确定的位置，也可以是根据实际应用情况确定的位置。

具体来说，可以通过一种K近邻的方法来筛选参考视频，具体筛选方法为：针对待处理视频的多个特征的每个模态进行检索，并且取前K1个结果的交集作为待处理视频的K近邻视频，K近邻视频即为K个参考视频。

在这里，上述K1可以是确定的，即为目标位置的一种情况，上述对不同模态进行检索，确定的参考视频的数量K是不确定的，具体需要根据实际交集结果来确定的。

进一步，为便于本领域技术人员理解上述结果的交集，以3个模态特征A{2,3,4}和3个模态特征B{3,4,5}为例，其中每个数字用于标识这个模态特征所属的对象，即得到结果的交集为{3,4}，即结果的交集为：模态特征A{3,4}，模态特征B{3,4}。

值得说明的是，上述通过K近邻方式确定参考视频为一种确定参考视频的可能的方式，在此还可以通过其他方式来确定参考视频，确定参考视频的目的是为了提取参考视频中的参考特征，基于参考特征对待处理视频的多个特征进行融合，使得融合得到的融合特征更具有辨别性以及鲁棒性，以提高融合特征的质量。

进一步，在一种可能的设计中，通过上述方法确定的参考视频存在模态缺失的情况。在这里，需要针对每个参考视频提取多种不同模态的特征，这多种不同模态与待处理图像的多种特征所属的不同模态一致。

例如，待处理图像的三种特征分别属于人脸、人体和语音这三种不同模态，则需要针对每个参考视频提取人脸、人体和语音这三种模态的特征，若无法提取到参考视频的人脸、人体或语音任意一种或多种模态的特征，即将无法提取的模态作为参考视频的缺失模态，即参考视频存在模态缺失的情况。

为解决上述问题，在本申请实施例中，通过判断各个参考视频中是否包含不同模态的缺失的特征，来确定待处理视频对应的参考特征。

具体来说，首先判断各个参考视频中是否包含所述不同模态的缺失的特征。

若各个参考视频中不具有所述不同模态的缺失的特征，则提取各个参考视频中不同模态的特征，并将提取出的特征作为待处理视频对应的参考特征。

若各个参考视频中具有所述不同模态的缺失的特征，则提取各个参考视频中不同模态的特征，并使用指定向量填充提取的缺失的特征，将不同模态的经过填充后的特征作为待处理视频对应的参考特征。

通过上述方式，确定出待处理视频对应的参考特征。

步骤103：基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征；

在本申请实施例中，根据待处理视频对应的参考特征，确定由待处理视频的多个特征以及参考特征共同组成的特征矩阵，然后获取与特征矩阵对应的邻接矩阵，最后通过对特征矩阵以及邻接矩阵进行聚合，得到待处理视频的融合特征。

在这里，邻接矩阵可以用于表征特征矩阵中不同特征之间进行融合的连接关系。

具体来说，邻接矩阵可以通过如下方式得到：确定待处理视频的多个特征中每个特征与特征矩阵中每个特征之间进行融合的连接系数，然后根据确定的连接系数，得到由确定的连接系数组成的邻接矩阵。

举例来说，上述待处理视频的多个特征以及所有参考特征中的单个特征都可以作为一个节点，这些节点共同可以构成图，图中两个节点之间可以连接一条边，图中的便可以分为两种类型，一种是连接不同模态的模态边，另一种是待处理视频与参考视频之间的且为同一模态的近邻边。在这里，模态边可以对不同模态之间的特征信息进行融合，近邻边可以针对目标对象的参考特征(邻居信息)信息进行融合。在此通过这两种类型边对图中节点进行连接和聚合，来达到融合多模态特征以及融合参考特征的目的。

参见公式2所示，为本申请实施例中提供的一种构建邻接矩阵的边的权重的计算方法，在这里以图为例作对公式2中涉及的参数作如下解释。

其中，A_ij为hⁱ和h^j之间进行连接的边的权重，hⁱ和h^j为图中具有连接关系的第i个节点和第j个节点的特征。

基于上述公式2的计算，可以得到由边的权重共同组成的邻接矩阵A，且A∈R^n×n，n为节点的个数。

在确定邻接矩阵后，确定特征矩阵中是否存在缺失的参考特征，下面针对存在缺失的参考特征、不存在缺失的参考特征两种情况，提出如下两种融合邻接矩阵和特征矩阵得到融合特征的方式。

方式一，不存在缺失的参考特征的情况：

响应于特征矩阵中不存在缺失的参考特征，并获取预设更新次数，通过图神经网络，对特征矩阵和邻接矩阵进行预设更新次数的聚合，得到特征矩阵更新后的由目标特征组成的目标特征矩阵，然后，在目标特征矩阵中，提取与待处理视频中多个特征对应的多个目标特征，并对所述多个目标特征进行融合，得到待处理视频的融合特征。

具体来说，对特征矩阵和邻接矩阵进行预设更新次数的聚合的过程可以参见如下公式所示。

其中，

A为邻接矩阵，I为单位矩阵，

为

的度矩阵，l为层数或更新次数，W^l为第l层的可学习参数，H^l为第l层输入的特征矩阵。

通过预设更新次数，即上述l层的更新，得到更新后的目标特征矩阵，然后对得到的目标特征矩阵中的属于待处理视频的多个目标特征进行拼接，并将多个目标特征拼接后的特征作为待处理视频的融合特征。

值得说明的而是，上述拼接过程可以表示为基于特征维度对目标特征进行拼接的过程。

方式二，存在缺失的参考特征的情况：

响应于特征矩阵中存在缺失的参考特征，在邻接矩阵中，将与缺失的参考特征相关的连接系数调整为指定数值，然后获取预设更新次数，通过图神经网络，对特征矩阵和调整后的邻接矩阵进行预设更新次数的聚合，得到特征矩阵更新后的目标特征矩阵，再根据预设的掩码矩阵与预设的缩放矩阵，对目标特征矩阵进行再更新，得到待处理视频的融合特征。

具体来说，将缺失的参考特征对应的邻接矩阵的行和列的数值调整为指定数值，一般指定数值可以取0，当然也可以是根据实际应用情况确定的其他数值。通过调整为指定数值，以达到阻止该缺失的参考特征的信息影响最终融合特征的生成。

然后，采用图神经网络，即通过公式3的计算方法，对特征矩阵以及邻接矩阵进行预设更新次数的聚合，得到特征矩阵经过更新后的目标特征矩阵，并对得到的目标特征矩阵中的属于同一视频的多个目标特征进行拼接，得到拼接的目标特征矩阵，然后根据预设的掩码矩阵与预设的缩放矩阵，对拼接的目标特征矩阵进行再更新，得到待处理视频的融合特征。

在这里，根据预设的掩码矩阵与预设的缩放矩阵，对拼接的目标特征矩阵进行再更新的过程，可以参见如下公式4所示。

其中，M为预设的掩码矩阵，S为预设的缩放矩阵，H为拼接的目标特征矩阵。

另外，上述

上述

上述

N为节点的总数，即特征的总数，

为经过拼接的目标特征矩阵中属于同一视频的拼接目标特征的维度。

在这里，掩码矩阵一般为由0和1组成的矩阵，并一般以0对应缺失的部分，缩放矩阵一般用于加强或减弱未缺失的模态的特征。

进一步，本申请实施例还提出一种缩放矩阵的计算方法，具体来说，缩放矩阵中每行元素的计算公式可以参见如下公式5所示。

其中，S_i为缩放矩阵中第i行的元素，p为第i行中被置为指定数值的元素所占比例，一般来说指定数值取0。

通过上述方法，通过预设的掩码矩阵和预设的缩放矩阵再更新拼接的目标特征矩阵，得到再更新的目标特征矩阵，并从再更新的目标特征矩阵中提取出待处理视频对应的拼接目标特征，并将提取出的拼接目标特征作为待处理视频的融合特征。

步骤104：利用所述融合特征，确定所述目标对象的识别结果。

在本申请实施例中，可以通过预设模型，对融合特征进行识别，得到识别结果，并将得到的识别结果作为待处理视频中目标对象的识别结果。在这里，识别结果可以包括目标对象的身份信息或目标对象的属性信息。

具体来说，可以采用线性分类层针对该融合特征进行分类，得到分类结果，将得到的分类结果作为最终针对待处理视频中目标对象的识别结果，完成基于多模态特征融合的目标识别。

通过如上方法，可以用于融合目标对象的不同模态的特征，并得到融合特征，解决现有技术因单一模态特征而导致识别目标识别准确率低的问题，进一步，结合参考特征来对提取的不同模态的特征进行融合，能够有效提升目标识别的准确率。

基于本申请实施例所提供的技术方案，可以达到如下的技术效果：

1、在对待处理视频的多个特征进行融合的过程中，结合参考特征的融合，使得最终得到待处理视频的融合特征更加具有辨别性和鲁棒性，基于该融合特征进行目标识别，有效提升最终识别的准确率和识别率，并且进一步降低识别的误报率；

2、在确定由待处理视频的多个特征以及参考特征组成的特征矩阵后，确定该特征矩阵对应的邻接矩阵，提出一种对特征矩阵以及邻接矩阵聚合的方式，能够有效提升生成融合特征的质量以及目标的识别效果；

3、提出一种针对缺失的参考特征的处理的方式，通过修改相应的邻接矩阵，组织缺失模态的参考特征的信息传播，根据预先设计的掩码矩阵和缩放矩阵，来再更新目标特征矩阵，有效解决模态特征缺失的问题，能够适用于更加广泛的适用场景。

基于同一发明构思，本申请还提供了一种目标识别的装置，用以结合参考特征来融合提取的不同模态特征，得到待处理视频的融合特征，并基于融合特征进行目标识别，有效提升目标识别的准确率，能够用以解决现有技术因单一模态特征而导致识别目标识别准确率低的问题，参见图6该装置包括：

提取模块601，提取待处理视频中目标对象的不同模态的多个特征；

确定模块602，确定所述待处理视频对应的参考特征；其中，所述参考特征基于多个参考视频的特征确定，所述参考视频为具有所述不同模态中至少一种模态的特征的视频的特征；

融合模块603，基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征；

识别模块604，利用所述融合特征，确定所述目标对象的识别结果。

在一种可能的设计中，所述提取模块601，具体用于：

在一种可能的设计中，所述提取模块601还用于对所述待处理视频进行特征编码，得到所述待处理视频对应的视频特征；

在一种可能的设计中，所述确定模块602，具体用于：

判断各个参考视频中是否包含所述不同模态的缺失的特征；

在一种可能的设计中，所述融合模块603，具体用于：

基于上述装置，通过上述方法，结合参考特征来融合提取的不同模态特征，得到待处理视频的融合特征，并基于融合特征进行目标识别，用以解决现有技术因单一模态特征而导致识别目标识别准确率低的问题，基于该方法不仅能够有效提升融合特征的质量，还能够有效提升基于该融合特征的目标识别的准确率。

基于同一发明构思，本申请实施例中还提供了一种电子设备，所述电子设备可以实现前述一种目标识别的装置的功能，参考图7，所述电子设备包括：

至少一个处理器701，以及与至少一个处理器701连接的存储器702，本申请实施例中不限定处理器701与存储器702之间的具体连接介质，图7中是以处理器701和存储器702之间通过总线700连接为例。总线700在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线700可以分为地址总线、数据总线、控制总线等，为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器701也可以称为控制器，对于名称不做限制。

在本申请实施例中，存储器702存储有可被至少一个处理器701执行的指令，至少一个处理器701通过执行存储器702存储的指令，可以执行前文论述的目标识别方法。处理器701可以实现图6所示的装置中各个模块的功能。

其中，处理器701是该装置的控制中心，可以利用各种接口和线路连接整个该控制设备的各个部分，通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。

在一种可能的设计中，处理器701可包括一个或多个处理单元，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。在一些实施例中，处理器701和存储器702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的目标识别方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过对处理器701进行设计编程，可以将前述实施例中介绍的目标识别方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图1所示的实施例的目标识别方法的步骤。如何对处理器701进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行前文论述目标识别方法。

在一些可能的实施方式中，本申请提供的目标识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在装置上运行时，程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的目标识别方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种目标识别的方法，其特征在于，所述方法包括：

提取待处理视频中目标对象的不同模态的多个特征；

利用所述融合特征，确定所述目标对象的识别结果。

2.如权利要求1所述的方法，其特征在于，所述提取待处理视频中目标对象的不同模态的多个特征，包括：

3.如权利要求2所述的方法，其特征在于，所述在所述待处理视频中提取出第一图像集合，包括：

4.如权利要求1所述的方法，其特征在于，在所述提取待处理视频中目标对象的不同模态的多个特征之后，还包括：

5.如权利要求1所述的方法，其特征在于，所述确定所述待处理视频对应的参考特征，包括：

6.如权利要求5所述的方法，其特征在于，所述提取各个参考视频中的所述不同模态的特征，并将提取出的特征作为所述待处理视频对应的参考特征，包括：

判断各个参考视频中是否包含所述不同模态的缺失的特征；

7.如权利要求1-6任一项所述的方法，其特征在于，所述基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征，包括：

8.如权利要求7所述的方法，其特征在于，所述获取所述特征矩阵对应的邻接矩阵，包括：

9.如权利要求7所述的方法，其特征在于，所述通过对所述特征矩阵以及所述邻接矩阵进行聚合，得到所述待处理视频的融合特征，包括：

10.如权利要求7所述的方法，其特征在于，所述通过对所述特征矩阵以及所述邻接矩阵进行聚合，得到所述待处理视频的融合特征，包括：

11.一种目标识别的装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：

存储器，用于存放计算机程序；

处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-10中任一项所述的方法步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法步骤。