CN114821424A

CN114821424A - 视频分析方法、视频分析装置、计算机设备、存储介质

Info

Publication number: CN114821424A
Application number: CN202210465820.2A
Authority: CN
Inventors: 谢衍涛; 王鼎
Original assignee: Hangzhou Yunxiang Technology Co ltd
Current assignee: Hangzhou Yunxiang Technology Co ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-29

Abstract

本申请实施例提供一种视频分析方法、视频分析装置、计算机设备、存储介质，通过获取视频帧，根据语义分割网络将视频帧中的目标对象图像分割为多个对象局部特征图，根据目标检测网络对多个对象局部特征图进行特征提取，得到对象局部特征图对应的语义向量，根据前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征，根据目标对象底层语义特征得到第一单词和第一置信度，根据目标对象高层语义特征得到第二单词和第二置信度，根据第一单词、第一置信度、第二单词和第二置信度得到视频帧对应的视频分析结果。本申请实施例提供的视频分析方法能够提高复杂背景下对目标对象属性识别的准确率。

Description

视频分析方法、视频分析装置、计算机设备、存储介质

技术领域

本发明涉及机器视觉技术领域，尤其涉及一种视频分析方法、视频分析装置、计算机设备、存储介质。

背景技术

相关技术中，通过提取目标对象的多个关键点，根据关键点的位置生成目标对象拓扑结构，实现对目标对象属性的识别。然而仅仅根据拓扑结构识别目标对象属性的方式，对目标对象属性数据的特征表达能力不强，复杂背景下无法准确对目标对象的属性进行识别。

发明内容

本申请实施例的主要目的在于提出一种视频分析方法、视频分析装置、计算机设备、存储介质，能够增强目标对象属性数据的特征表达能力，提高复杂背景下对目标对象属性识别的准确率。

为实现上述目的，本申请实施例的第一方面提出了一种视频分析方法，所述方法包括：

获取视频帧，所述视频帧包括多个目标对象图像；

将所述视频帧输入至语义分割网络，根据所述语义分割网络将所述视频帧中的所述目标对象图像分割为多个对象局部特征图；

将多个所述对象局部特征图输入至目标检测网络，根据所述目标检测网络对多个所述对象局部特征图进行特征提取，得到所述对象局部特征图对应的语义向量；

将所述语义向量输入至前馈神经网络，根据所述前馈神经网络对所述语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征；

根据所述目标对象底层语义特征得到所述目标对象底层语义特征对应的第一单词和第一置信度；

根据所述目标对象高层语义特征得到所述目标对象高层语义特征对应的第二单词和第二置信度；

根据所述第一单词、所述第一置信度、所述第二单词和所述第二置信度得到所述视频帧对应的视频分析结果。

在一些实施例，所述语义分割网络包括第一编码网络和第一解码网络，所述将所述视频帧输入至语义分割网络，根据所述语义分割网络将所述视频帧中的所述目标对象图像分割为多个对象局部特征图，包括：

将所述视频帧输入至第一编码网络，根据所述第一编码网络对所述视频帧中的每个所述目标对象图像进行特征提取，得到所述目标对象图像对应的特征编码；

将所述特征编码输入至第一解码网络，根据所述第一解码网络对所述特征编码进行特征分类，得到所述特征编码的分类概率，根据所述分类概率将所述目标对象图像分割为多个对象局部特征图。

在一些实施例，所述目标检测网络包括第二编码网络和第二解码网络，所述将多个所述对象局部特征图输入至目标检测网络，根据所述目标检测网络对多个所述对象局部特征图进行特征提取，得到所述对象局部特征图对应的语义向量，包括：

将多个所述对象局部特征图输入至所述第二编码网络，根据所述第二编码网络对多个所述对象局部特征图进行特征提取，得到注意力特征；

将所述注意力特征输入至第二解码网络，根据所述第二解码网络对所述注意力特征进行特征提取，得到所述注意力特征对应的语义向量。

在一些实施例，所述将多个所述对象局部特征图输入至所述第二编码网络，根据所述第二编码网络对多个所述对象局部特征图进行特征提取，得到注意力特征，包括：

将多个所述对象局部特征图输入至预设的卷积层进行卷积运算，得到每个所述对象局部特征图对应的中间特征图；

根据预设的平滑模型将所述中间特征图展开为一维特征向量；

获取所述视频帧的位置编码向量；

将所述一维特征向量和所述位置编码向量相加，得到目标特征向量；

将所述目标特征向量输入第二编码网络，根据所述第二编码网络对所述目标特征向量进行特征提取，得到注意力特征。

在一些实施例，所述前馈神经网络包括第一前馈神经网络和第二前馈神经网络，所述将所述语义向量输入至前馈神经网络，根据所述前馈神经网络对所述语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征，包括：

将所述语义向量输入至第一前馈神经网络，根据所述第一前馈神经网络对所述语义向量进行特征提取，得到所述目标对象底层语义特征；

将所述语义向量输入至第二前馈神经网络，根据所述第二前馈神经网络对所述语义向量进行特征提取，得到所述目标对象高层语义特征。

在一些实施例，所述根据所述目标对象底层语义特征得到所述目标对象底层语义特征对应的第一单词和第一置信度，包括：

将所述目标对象底层语义特征输入判别器，根据所述判别器对所述目标对象底层语义特征进行分类，得到所述目标对象底层语义特征对应的第一单词；

将所述目标对象底层语义特征输入至预设的信任层，根据所述信任层对所述目标对象底层语义特征进行非线性映射，得到所述目标对象底层语义特征对应的第一置信度。

在一些实施例，所述根据所述第一单词、所述第一置信度、所述第二单词和所述第二置信度得到所述视频帧对应的视频分析结果，包括：

根据所述第一置信度对所述第一单词设置标记，得到第一中间单词；

根据所述第二置信度对所述第二单词设置标记，得到第二中间单词；

将所述第一中间单词、所述第二中间单词进行拼接，得到所述视频帧对应的视频分析结果。

本申请实施例的第二方面提出了一种视频分析装置，所述装置包括：

视频获取模块，用于获取视频帧，所述视频帧包括多个目标对象图像；

视频分割模块，用于将所述视频帧输入至语义分割网络，根据所述语义分割网络将所述视频帧中的所述目标对象图像分割为多个对象局部特征图；

目标检测模块，用于将多个所述对象局部特征图输入至目标检测网络，根据所述目标检测网络对多个所述对象局部特征图进行特征提取，得到所述对象局部特征图对应的语义向量；

特征提取模块，用于将所述语义向量输入至前馈神经网络，根据所述前馈神经网络对所述语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征；

第一计算模块，用于根据所述目标对象底层语义特征得到所述目标对象底层语义特征对应的第一单词和第一置信度；

第二计算模块，用于根据所述目标对象高层语义特征得到所述目标对象高层语义特征对应的第二单词和第二置信度；

视频分析模块，用于根据所述第一单词、所述第一置信度、所述第二单词和所述第二置信度得到所述视频帧对应的视频分析结果。

本申请实施例的第三方面提出了一种计算机设备，所述计算机设备包括存储器和处理器，其中，所述存储器中存储有程序，所述程序被所述处理器执行时所述处理器用于执行如本申请第一方面实施例任一项所述的方法。

本申请实施例的第四方面提出了一种存储介质，该存储介质为计算机可读存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如本申请第一方面实施例任一项所述的方法。

本申请实施例提出的视频分析方法、视频分析装置、计算机设备、存储介质，通过获取视频帧，视频帧包括多个目标对象图像，将视频帧输入至语义分割网络，根据语义分割网络将视频帧中的目标对象图像分割为多个对象局部特征图，将多个对象局部特征图输入至目标检测网络，根据目标检测网络对多个对象局部特征图进行特征提取，得到对象局部特征图对应的语义向量，将语义向量输入前馈神经网络，根据前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征，根据目标对象底层语义特征得到目标对象底层语义特征对应的第一单词和第一置信度，根据目标对象高层语义特征得到目标对象高层语义特征对应的第二单词和第二置信度，根据第一单词、第一置信度、第二单词和第二置信度得到视频帧对应的视频分析结果。本申请实施例通过对视频帧进行处理，使提取的目标对象属性特征之间不仅具有空间相关关系，还具有时间相关关系，基于目标对象属性数据在语义上的层次关系，引入目标对象底层语义特征和目标对象高层语义特征，提高了对目标对象属性特征的表达能力，提高了复杂背景下对目标对象属性识别的准确率。

附图说明

图1是本申请实施例提供的视频分析方法的流程图；

图2是图1中步骤S120的具体方法的流程图；

图3是图1中步骤S130的具体方法的流程图；

图4是图3中步骤S310的具体方法的流程图；

图5是图1中步骤S140的具体方法的流程图；

图6是图1中步骤S150的具体方法的流程图；

图7是图1中步骤S170的具体方法的流程图；

图8是本申请实施例提供的视频分析装置的模块结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

相关技术中，通过提取目标对象的多个关键点，根据关键点的位置生成目标对象拓扑结构，实现对目标对象属性的识别。然而仅仅根据拓扑结构识别目标对象属性的方式，导致对目标对象属性数据的特征表达能力不强，复杂背景下无法准确对目标对象属性特征进行识别。

基于此，本申请实施例的主要目的在于提出一种视频分析方法、视频分析装置、计算机设备、存储介质，通过深度学习技术理解图像的空间相关关系、时间相关关系、语义层次关系，以实现用语言描述一段视频，完成对目标对象属性的识别，能够增强对目标对象属性特征的表达能力，提高复杂背景下对目标对象属性识别的准确率。

本申请实施例提供的视频分析方法、视频分析装置、计算机设备、存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的视频分析方法。

参照图1，根据本申请实施例第一方面实施例的视频分析方法，该视频分析方法包括但不限于步骤S110至步骤S170。

S110，获取视频帧；

S120，将视频帧输入至语义分割网络，根据语义分割网络将视频帧中的目标对象图像分割为多个对象局部特征图；

S130，将多个对象局部特征图输入至目标检测网络，根据目标检测网络对多个对象局部特征图进行特征提取，得到对象局部特征图对应的语义向量；

S140，将语义向量输入至前馈神经网络，根据前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征；

S150，根据目标对象底层语义特征得到目标对象底层语义特征对应的第一单词和第一置信度；

S160，根据目标对象高层语义特征得到目标对象高层语义特征对应的第二单词和第二置信度；

S170，根据第一单词、第一置信度、第二单词和第二置信度得到视频帧对应的视频分析结果。

在步骤S110中，获取视频帧，其中视频帧包括多个目标对象图像，视频帧可以为人体行为视频帧，该人体行为视频帧可以包括多个人体行为图像。由于视频帧中的多个目标对象图像之间具有时间相关关系，即人体行为在时间上具有相关性，对单个图像进行处理并不能获取这种时间相关关系，为了增强深度学习模型对目标对象属性特征的识别能力，本申请实施例对视频帧进行图像处理来获取多个目标对象图像之间的时间相关关系。

在步骤S120中，不同肢体之间、多个动作之间构成人体行为，人体行为和自然语言之间具有内在的相似性，具有多方面的语义，例如“手在桌子上，拿着笔”，涉及“手”、“桌子”和“钢笔”之间的空间关系，“写字”隐含着“手”、“桌子”和“笔”等元素，“写字”和“手在桌子上，拿着笔”属于不同层次的语义。此外，人体行为还具有时间相关关系，例如“戴眼镜”是在时间上进行的，涉及语义上的时间关系。本申请实施例通过不同语义元素之间的相关关系进行人体行为的理解，为了获得多个语义元素之间的相关关系，将人体行为视频帧输入至语义分割网络，根据语义分割网络将人体行为视频帧中的人体行为图像分割为多个对象局部特征图，其中对象局部特征图可以为肢体局部特征图。肢体局部特征图可以为头部特征图、躯干特征图、左大腿特征图、右大腿特征图、左小腿特征图、右小腿特征图、左手上臂特征图、右手上臂特征图、左手特征图、右手特征图等。需要说明的是，左大腿特征图包括左脚特征图，左手特征图包括前臂特征图、手掌特征图。右大腿特征图与左大腿特征图相互对称、右手特征图与左手特征图相互对称，此处不再赘述。

在步骤S130中，将多个肢体局部特征图输入至目标检测网络，根据目标检测网络对多个肢体局部特征图进行特征提取，得到每个肢体局部特征图对应的语义向量。

在步骤S140中，由于语义元素之间具有不同的层次关系，本申请实施例采用前馈神经网络对语义向量进行特征提取，得到不同层次的语义特征。通过将语义向量输入至前馈神经网络，根据前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征，其中目标对象底层语义特征可以为人体行为底层语义特征，目标对象高层语义特征可以为人体行为高层语义特征。需要说明的是，人体行为底层语义特征可以包括头部、左手、右手、左腿、右腿和躯干。人体行为高层语义特征对应人体行为的高层语义。

在步骤S150至步骤S160中，根据目标对象底层语义特征得到目标对象底层语义特征对应的第一单词和第一置信度，其中第一单词可以为对头部、左手、右手、左腿、右腿和躯干的动作描述，描述方式可以按照主语谓语宾语、主语谓语介词短语等方式进行描述，第一置信度用于处理肢体部位在视频帧中缺失的情况，也用于处理输入视频帧不完整、语义不清楚的情况。根据目标对象高层语义特征得到目标对象高层语义特征对应的第二单词和第二置信度，其中第二单词为对人体行为高层语义的描述，例如“写字”、“电脑编程”等。

在步骤S170中，根据第一单词和第一置信度对视频帧进行底层语义描述，根据第二单词和第二置信度对视频帧进行高层语义描述，根据底层语义描述和高层语义描述得到视频帧对应的视频分析结果，实现用自然语言描述人体行为视频帧，完成对视频帧的行为理解。例如底层语义描述为“右手拿笔”，高层语义描述为“写字”，根据底层语义描述和高层语义描述得到的视频分析结果为“右手拿笔写字”。

本申请实施例提出的视频分析方法，通过获取视频帧，视频帧包括多个目标对象图像，将视频帧输入至语义分割网络，根据语义分割网络将视频帧中的目标对象图像分割为多个对象局部特征图，将多个对象局部特征图输入至目标检测网络，根据目标检测网络对多个对象局部特征图进行特征提取，得到对象局部特征图对应的语义向量，将语义向量输入前馈神经网络，根据前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征，根据目标对象底层语义特征得到目标对象底层语义特征对应的第一单词和第一置信度，根据目标对象高层语义特征得到目标对象高层语义特征对应的第二单词和第二置信度，根据第一单词、第一置信度、第二单词和第二置信度得到视频帧对应的视频分析结果。本申请实施例通过对视频帧进行处理，使提取的目标对象属性特征之间不仅具有空间相关关系，还具有时间相关关系，基于目标对象属性数据在语义上的层次关系，引入目标对象底层语义特征和目标对象高层语义特征，提高了对目标对象属性特征的表达能力，提高了复杂背景下对目标对象属性识别的准确率。

在一些实施例中，语义分割网络包括第一编码网络和第一解码网络，如图2所示，步骤S120具体包括但不限于步骤S210至步骤S220。

S210，将视频帧输入至第一编码网络，根据第一编码网络对视频帧中的每个目标对象图像进行特征提取，得到目标对象图像对应的特征编码；

S220，将特征编码输入至第一解码网络，根据第一解码网络对特征编码进行特征分类，得到特征编码的分类概率，根据分类概率将目标对象图像分割为多个对象局部特征图。

在步骤S210至步骤S220中，本申请实施例采用语义分割网络学习视频帧目标图像内部的视觉元素和空间关系，通过将视频帧输入至第一编码网络，根据第一编码网络对视频帧中的每个人体行为图像进行特征提取，得到人体行为图像对应的特征编码，将特征编码输入至第一解码网络，根据第一解码网络对特征编码进行解码，将分辨率较低的特征编码从语义上投影到分辨率较高的像素空间，并根据softmax判别器计算特征编码属于各肢体类别的分类概率，根据分类概率将人体行为图像中的像素划分到各肢体局部，得到多个肢体局部特征图。

需要说明的是，语义分割网络的训练过程如下：获取视频帧以及视频帧对应的语义分割标签，将视频帧以及语义分割标签输入第一编码网络进行特征提取，得到第一编码网络输出的特征编码，将特征编码输入第一解码网络进行解码，得到第一解码网络输出的对象局部特征图，根据对象局部特征图计算语义分割网络的损失函数进行计算，得到损失值，将损失值作为反向传播量，调整语义分割网络的模型参数，以训练语义分割网络，当损失函数收敛到预设的阈值或者为零时停止网络训练，得到训练好的语义分割网络。若视频帧中存在多个行为相继进行，则将该视频帧切分为多段行为视频进行数据标注，从而得到多段行为视频对应的语义标签，其中语义标签包括语义分割标签和语义描述标签，其中语义描述标签是根据语义词典规范进行数据标注得到的，语义描述包括底层语义描述和高层语义描述。底层语义描述即分别对头部、左手、右手、左腿、右腿和躯干的动作进行描述，描述方式采用主语谓语宾语或者主语谓语介词短语的方式，例如“右手拿笔”。如果肢体部位未出现在视频帧中，则将该部位标记为缺失。高级语义描述即用一句话描述视频帧中的整体行为，例如“在墙上写字”。可以理解的是，缺少部分底层语义描述或者全部底层语义描述，或者缺少高层语义描述，即只要具有语义描述，都可以进行网络训练。

需要进一步说明的是，损失函数的定义如公式(1)所示。

其中，C表示类别数，p_ii表示第i类特征被分为第i类特征的像素个数，p_ij表示第i类特征被分为第j类特征的像素个数，a_i表示第i类特征的权重。若第i类特征为肢体局部特征，则给予该特征较大的权重。

需要进一步说明的是，语义分割网络的训练可以独立进行。若视频帧既具有语义描述标签也具有语义分割标签，则可以与后续的transformer网络和前馈神经网络一起进行网络训练。

在一些实施例，目标检测网络包括第二编码网络和第二解码网络，如图3所示，步骤S130具体包括但不限于步骤S310至步骤S320。

S310，将多个对象局部特征图输入至第二编码网络，根据第二编码网络对多个对象局部特征图进行特征提取，得到注意力特征；

S320，将注意力特征输入至第二解码网络，根据第二解码网络对注意力特征进行特征提取，得到注意力特征对应的语义向量。

在步骤S310至S320中，目标检测网络为transformer网络，将多个肢体局部特征图输入至transformer网络的编码器，编码器对肢体局部特征图进行特征提取，得到注意力特征，该注意力特征为视觉元素在时间和空间上的相关关系的表达，将注意力特征输入至transformer网络的解码器，解码器对注意力特征进行特征提取，得到注意力特征对应的语义向量。通过解码器将视觉元素和自然语言关联起来，将视觉元素映射到自然语言空间中，得到注意力特征对应的语义向量。

在一些实施例，如图4所示，步骤S310具体包括但不限于步骤S410至步骤S450。

S410，将多个对象局部特征图输入至预设的卷积层进行卷积运算，得到每个对象局部特征图对应的中间特征图；

S420，根据预设的平滑模型将中间特征图展开为一维特征向量；

S430，获取视频帧的位置编码向量；

S440，将一维特征向量和位置编码向量相加，得到目标特征向量；

S450，将目标特征向量输入第二编码网络，根据第二编码网络对目标特征向量进行特征提取，得到注意力特征。

在步骤S410中，将多个肢体局部特征图输入至预设的卷积层进行卷积运算，通过卷积运算提取每个肢体局部特征图对应的局部特征，将局部特征输入至非线性激活层，通过Relu激活函数去除数值小于零的局部特征，得到每个肢体局部特征图对应的中间特征图。通过卷积层和非线性激活层对肢体局部特征图进行降维，得到肢体局部特征图对应的中间特征图。

在步骤S420中，为了便于后续将特征输入transformer网络，采用预设的平滑模型对中间特征图进行flatten操作，将中间特征图展开为一维特征向量。

在步骤S430至S450中，获取视频帧的位置编码向量，将一维特征向量和位置编码向量相加，得到目标特征向量，将目标特征向量输入transformer编码器，根据编码器对目标特征向量进行特征提取，得到注意力特征。

在一些实施例，前馈神经网络包括第一前馈神经网络和第二前馈神经网络，如图5所示，步骤S140具体包括但不限于步骤S510至步骤S520。

S510，将语义向量输入至第一前馈神经网络，根据第一前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征；

S520，将语义向量输入至第二前馈神经网络，根据第二前馈神经网络对语义向量进行特征提取，得到目标对象高层语义特征。

在步骤S510中，第一前馈神经网络用于学习与头部、右手、左手、右腿、左腿和躯干等相关的底层语义，将语义向量输入第一前馈神经网络，根据第一前馈神经网络对语义向量进行特征提取，得到人体行为的底层语义特征。第一前馈神经网络包括FFN1、FFN2、FFN3、FFN4、FFN5、FFN6，其中FFN1用于提取与头部相关的底层语义，FFN2用于提取与右手相关的底层语义，FFN3用于提取与左手相关的底层语义，FFN4用于提取与右腿相关的底层语义，FFN5用于提取与左腿相关的底层语义，FFN6用于提取与躯干相关的底层语义。

在步骤S520中，第二前馈神经网络包括FFN7，用于学习高级语义，将语义向量输入第二前馈神经网络，根据第二前馈神经网络对语义向量进行特征提取，得到人体行为的高层语义特征。通过引入第二前馈神经网络，降低了transformer网络学习高级语义的难度，加快transformer网络的收敛，加快了网络训练的速度。

需要说明的是，若用于训练的视频帧具有大量底层语义描述，则可以先训练与FFN1至FFN6相关的底层语义，待底层语义训练完成后，再训练与FFN7有关的高层语义。

在一些实施例，如图6所示，步骤S150具体包括但不限于步骤S610至步骤S620。

S610，将目标对象底层语义特征输入判别器，根据判别器对目标对象底层语义特征进行分类，得到目标对象底层语义特征对应的第一单词；

S620，将目标对象底层语义特征输入至预设的信任层，根据信任层对目标对象底层语义特征进行非线性映射，得到目标对象底层语义特征对应的第一置信度。

在步骤S610中，判别器为softmax，其训练过程如下：将目标对象底层语义特征输入判别器，根据判别器对目标对象底层语义特征进行分类，得到目标对象底层语义特征对应的第一单词，根据第一单词计算损失函数的损失值，将损失值作为反向传播量，调整transformer网络和第一前馈神经网络的模型参数，以训练transformer网络和第一前馈神经网络，当损失函数收敛到预设的阈值或者为零时停止网络训练，得到训练好的transformer网络和第一前馈神经网络。其中损失函数的定义如公式(2)所示。

其中，N为单词数量，Y＝[y₁,y₂,…,y_N]为单词的one-hot编码，

为单词的预测值，即第一单词。

在步骤S620中，信任层为confidence，包括全连接层和sigmoid层，将目标对象底层语义特征输入全连接层进行加权运算，得到加权特征，通过sigmoid层对加权特征进行非线性映射，计算得到第一置信度。信任层与判别器的训练方式相同，都是通过损失函数的损失值进行transformer网络和第一前馈神经网络的模型参数。其中损失函数的定义如公式(3)所示。

其中，y′为置信度的真实值，

为置信度的预测值，即第一置信度。

通过判别器和信任层，带动了transformer网络的学习。本申请实施例的第二单词和第二置信度的计算方式与第一单词和第一置信度的计算方式相同，此处不再赘述。

需要进一步说明的是，第一置信度用来标记当前肢体部位有没有在视频中出现。在数据标注阶段，以头部为例，没有头部标记为0，有头部标记为1，如果某些视频帧有头部某些视频帧没有头部，则头部标记为0至1之间的数值，该数值可以根据人体关键点检测器计算得到。第二置信度用来表达当前行为的语义是否完整清楚，例如在预测阶段输入的是一段不完整的视频，人的行为没有清楚的语义，第二置信度可以用小于1来表达，在数据标注阶段人的行为存在歧义，可以用小于1的值来表达不确定。

以头部为例，FFN1用于提取与头部相关的底层语义，若当前视频帧有头部标注信息，则说明可以计算softmax的损失函数，在反向传播中，FFN1的雅各比矩阵和softmax、confidence都有关系，若当前视频帧无头部文字描述或无头部区域，则FFN1的雅各比矩阵只与confidence有关。

在一些实施例，如图7所示，步骤S170具体包括但不限于步骤S710至步骤S730。

S710，根据第一置信度对第一单词设置标记，得到第一中间单词；

S720，根据第二置信度对第二单词设置标记，得到第二中间单词；

S730，将第一中间单词、第二中间单词进行拼接，得到视频帧对应的视频分析结果。

在步骤S710中，若第一置信度小于预设的第一阈值，则认为与第一单词相关的肢体部位在视频帧中未出现，则对第一单词设置缺失标记，得到第一中间单词。

在步骤S720中，若第二置信度小于预设的第二阈值，则认为与第二单词相关的高级语义缺失，则对第二单词设置缺失标记，得到第二中间单词。

在步骤S730中，第一中间单词为人体行为的底层语义描述，第二中间单词为人体行为的高层语义描述，将第一中间单词和第二中间单词进行拼接，即将底层语义描述和高层语义描述拼接，得到视频分析结果。

下面参考图1至图7以一个具体的实施例详细描述根据本发明实施例的视频分析方法。值得理解的是，下述描述仅是示例性说明，而不是对发明的具体限制。

获取视频，将视频输入至语义分割网络的编码器得到编码器输出的编码特征，将编码特征输入语义分割网络的解码器得到解码器输出的肢体局部特征图，将肢体局部特征图输入至卷积层进行卷积运算得到局部特征，将局部特征输入至Relu层得到中间特征图，根据预设的平滑模型将中间特征图展开为一维特征向量，根据视频中视频帧序列的次序得到位置编码向量，将一维特征向量和位置编码向量相加，得到目标特征向量，将目标特征向量输入至transformer网络的编码器得到编码器输出的注意力特征，将注意力特征输入至transformer网络的解码器得到解码器输出的语义向量，将语义向量输入至FFN1至FFN6得到底层语义特征，将语义向量输入至FFN7得到高层语义特征，将底层语义特征输入至对应的softmax得到第一单词，将底层语义特征输入至对应的confidence层得到第一置信度，将高层语义特征输入至对应的softmax得到第二单词，将高层语义特征输入至对应的confidence层得到第二置信度，根据第一单词、第一置信度、第二单词和第二置信度得到视频分析结果。

本申请实施例还提供一种视频分析装置，如图8所示，可以实现上述视频分析方法，该装置包括视频获取模块810、视频分割模块820、目标检测模块830、特征提取模块840、第一计算模块850、第二计算模块860和视频分析模块870。视频获取模块810用于获取视频帧，视频帧包括多个目标对象图像；视频分割模块820用于将视频帧输入至语义分割网络，根据语义分割网络将视频帧中的目标对象图像分割为多个对象局部特征图；目标检测模块830用于将多个对象局部特征图输入至目标检测网络，根据目标检测网络对多个对象局部特征图进行特征提取，得到对象局部特征图对应的语义向量；特征提取模块840用于将语义向量输入至前馈神经网络，根据前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征；第一计算模块850用于根据目标对象底层语义特征得到目标对象底层语义特征对应的第一单词和第一置信度；第二计算模块860用于根据目标对象高层语义特征得到目标对象高层语义特征对应的第二单词和第二置信度；视频分析模块870用于根据第一单词、第一置信度、第二单词和第二置信度得到视频帧对应的视频分析结果。

本申请实施例的视频分析装置用于执行上述实施例中的视频分析方法，其具体处理过程与上述实施例中的视频分析方法相同，此处不再一一赘述。

本申请实施例提出的视频分析装置，通过获取视频帧，视频帧包括多个目标对象图像，将视频帧输入至语义分割网络，根据语义分割网络将视频帧中的目标对象图像分割为多个对象局部特征图，将多个对象局部特征图输入至目标检测网络，根据目标检测网络对多个对象局部特征图进行特征提取，得到对象局部特征图对应的语义向量，将语义向量输入前馈神经网络，根据前馈神经网络对语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征，根据目标对象底层语义特征得到目标对象底层语义特征对应的第一单词和第一置信度，根据目标对象高层语义特征得到目标对象高层语义特征对应的第二单词和第二置信度，根据第一单词、第一置信度、第二单词和第二置信度得到视频帧对应的视频分析结果。本申请实施例通过对视频帧进行处理，使提取的目标对象属性特征之间不仅具有空间相关关系，还具有时间相关关系，基于目标对象属性数据在语义上的层次关系，引入目标对象底层语义特征和目标对象高层语义特征，提高了对目标对象属性特征的表达能力，提高了复杂背景下对目标对象属性识别的准确率。

本申请实施例还提供了一种计算机设备，包括：

至少一个处理器，以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如本申请第一方面实施例中任一项的方法。

该计算机设备包括：处理器、存储器、输入/输出接口、通信接口和总线。

处理器，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器，可以采用ROM(Read Only Memory，只读存储器)、静态存储设备、动态存储设备或者RAM(Random Access Memory，随机存取存储器)等形式实现。存储器可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器中，并由处理器来调用执行本申请实施例的视频分析方法；

输入/输出接口，用于实现信息输入及输出；

通信接口，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线，在设备的各个组件(例如处理器、存储器、输入/输出接口和通信接口)之间传输信息；

其中处理器、存储器、输入/输出接口和通信接口通过总线实现彼此之间在设备内部的通信连接。

本申请实施例还提供一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行本申请实施例的视频分析方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1至图7中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.视频分析方法，其特征在于，所述方法包括：

获取视频帧，所述视频帧包括多个目标对象图像；

2.根据权利要求1所述的视频分析方法，其特征在于，所述语义分割网络包括第一编码网络和第一解码网络，所述将所述视频帧输入至语义分割网络，根据所述语义分割网络将所述视频帧中的所述目标对象图像分割为多个对象局部特征图，包括：

3.根据权利要求1所述的视频分析方法，其特征在于，所述目标检测网络包括第二编码网络和第二解码网络，所述将多个所述对象局部特征图输入至目标检测网络，根据所述目标检测网络对多个所述对象局部特征图进行特征提取，得到所述对象局部特征图对应的语义向量，包括：

4.根据权利要求3所述的视频分析方法，其特征在于，所述将多个所述对象局部特征图输入至所述第二编码网络，根据所述第二编码网络对多个所述对象局部特征图进行特征提取，得到注意力特征，包括：

获取所述视频帧的位置编码向量；

5.根据权利要求1所述的视频分析方法，其特征在于，所述前馈神经网络包括第一前馈神经网络和第二前馈神经网络，所述将所述语义向量输入至前馈神经网络，根据所述前馈神经网络对所述语义向量进行特征提取，得到目标对象底层语义特征和目标对象高层语义特征，包括：

6.根据权利要求1至5任一项所述的视频分析方法，其特征在于，所述根据所述目标对象底层语义特征得到所述目标对象底层语义特征对应的第一单词和第一置信度，包括：

7.根据权利要求1至5任一项所述的视频分析方法，其特征在于，所述根据所述第一单词、所述第一置信度、所述第二单词和所述第二置信度得到所述视频帧对应的视频分析结果，包括：

8.视频分析装置，其特征在于，所述装置包括：

9.计算机设备，其特征在于，所述计算机设备包括存储器和处理器，其中，所述存储器中存储有程序，所述程序被所述处理器执行时所述处理器用于执行：

如权利要求1至7中任一项所述的方法。

10.存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，在所述计算机程序被计算机执行时，所述计算机用于执行：

如权利要求1至7中任一项所述的方法。