CN113569605A - 视频信息处理方法、装置、电子设备及存储介质 - Google Patents

视频信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113569605A
CN113569605A CN202110058983.4A CN202110058983A CN113569605A CN 113569605 A CN113569605 A CN 113569605A CN 202110058983 A CN202110058983 A CN 202110058983A CN 113569605 A CN113569605 A CN 113569605A
Authority
CN
China
Prior art keywords
image frame
video
feature vector
determining
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110058983.4A
Other languages
English (en)
Other versions
CN113569605B (zh
Inventor
王利民
武港山
滕尧
李志鋒
宋常志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Nanjing University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, Tencent Technology Shenzhen Co Ltd filed Critical Nanjing University
Priority to CN202110058983.4A priority Critical patent/CN113569605B/zh
Publication of CN113569605A publication Critical patent/CN113569605A/zh
Application granted granted Critical
Publication of CN113569605B publication Critical patent/CN113569605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种视频信息处理方法,包括:对目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;确定中心图像帧的物体特征向量、层次关系树结构、关系特征向量;确定采样图像帧的物体时序特征向量和关系时序特征向量;根据物体特征向量、关系特征向量、层次关系树结构、物体时序特征向量和采样图像帧的关系时序特征向量,通过视频信息处理模型进行特征向量聚合处理;对采样图像帧中的物体进行分类;确定与目标视频相对应的视频场景图。本公开还提供了信息处理装置、电子设备及存储介质。本公开不但有效压缩视频处理模型的模型结构,减少计算量,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。

Description

视频信息处理方法、装置、电子设备及存储介质
技术领域
本公开涉及信息处理技术,尤其涉及视频信息处理方法、装置、电子设备及存储介质。
背景技术
视频信息向量化表示是很多机器学习算法的基础,如何能够把视频信息准确的表示出来是该方向的研究重点。相关技术大多相对比较片面,没有结构化地对视频进行表示学习。
常见的场景图生成方法仅适用于静态图像的场景图生成的使用环境,无法实现帧级视频场景图的生成,同时静态图像的场景图生成过程中,需要在关系推断之前进行目标检测和多目标跟踪。因此这种通用框架非常的庞大且繁琐,模型结构复杂,计算量较大,不利于部署在移动终端中,需要的硬件成本较高,同时,所生成的场景图的准确率比较低,严重影响用户的使用体验。
发明内容
有鉴于此,本公开实施例提供一种视频信息处理方法、装置、电子设备及存储介质,本公开实施例的技术方案是这样实现的:
本公开实施例提供了一种视频信息处理方法,所述方法包括:
获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;
通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构;
基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量;
基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量;
根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;
基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;
基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图。
本公开实施例还提供了一种视频信息处理装置,所述装置包括:
信息传输模块,用于获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;
信息处理模块,用于通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构;
所述信息处理模块,用于基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量;
所述信息处理模块,用于基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量;
所述信息处理模块,用于根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;
所述信息处理模块,用于基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;
所述信息处理模块,用于基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图。
上述方案中,
所述信息处理模块,用于确定与所述目标视频相匹配的窗口步长值;
所述信息处理模块,用于根据与所述目标视频相匹配的窗口步长值,对所述目标视频进行采样处理;
所述信息处理模块,用于基于所述目标视频的采样处理结果,确定采样结果的中心位置;
所述信息处理模块,用于根据所述采样结果的中心位置获取目标视频所对应的中心图像帧和采样图像帧,其中,所述采样图像帧包括至少两帧视频图像。
上述方案中,
所述信息处理模块,用于通过所述视频信息处理模型中的第一视频处理网络所包括的平面卷积子网络、区域卷积子网络依次对所述中心图像帧进行处理,确定所述中心图像帧对应的物体分类词嵌入向量;
所述信息处理模块,用于基于所述物体分类词嵌入向量,确定所述物体特征向量;
所述信息处理模块,用于响应于所述区域卷积子网络对所述中心图像帧的处理结果,确定与所述中心图像帧相匹配的物体建议框;
所述信息处理模块,用于基于与所述中心图像帧相匹配的物体建议框确定与所述中心图像帧相匹配的层次关系树结构。
上述方案中,
所述信息处理模块,用于确定所述中心图像帧中被检测物体的检测顺序;
所述信息处理模块,用于基于所述被检测物体的检测顺序,以及与所述中心图像帧相匹配的物体建议框确定所述层次关系树结构中的叶子结点;
所述信息处理模块,用于基于所述中心图像帧相匹配的物体建议框的多维空间坐标参数确定所述层次关系树结构中的非叶子结点;
所述信息处理模块,用于确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心;
所述信息处理模块,用于根据所述聚类中心对所述层次关系树结构中的叶子结点和非叶子结点进行聚类处理,形成与所述中心图像帧相匹配的层次关系树结构。
上述方案中,
所述信息处理模块,用于根据与所述目标视频相匹配的固定间隔,确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心;
所述信息处理模块,用于确定所述叶子结点和非叶子结点所分别对应的相似度参数,根据与所述目标视频相匹配的聚类中心阈值,利用所述叶子结点和非叶子结点所分别对应的相似度参数确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心。
上述方案中,
所述信息处理模块,用于通过所述视频信息处理模型中的第二视频处理网络所包括的平面卷积子网络对所述中心图像帧进行特征提取处理;
所述信息处理模块,用于基于所述层次关系树结构,获取与所述目标视频相匹配的物体建议框和关系建议框;
所述信息处理模块,用于通过所述第二视频处理网络所包括的区域特征聚集子网络,对所述中心图像帧的特征向量进行特征聚集处理;
所述信息处理模块,用于通过所述第二视频处理网络所包括的多层感知子网络,对经过特征聚集处理的中心图像帧的特征向量进行处理,确定所述中心图像帧的物体特征向量。
上述方案中,
所述信息处理模块,用于通过所述视频信息处理模型中的第三视频处理网络所包括的立体卷积子网络对所采样图像帧中心图像帧进行特征提取处理;
所述信息处理模块,用于基于所述层次关系树结构,获取与所述目标视频相匹配的物体建议框和关系建议框;
所述信息处理模块,用于通过所述第三视频处理网络所包括的区域特征聚集子网络,对所提取的采样图像帧的特征向量进行特征聚集处理,并通过平面池化层子网络对经过特征聚集处理的采样图像帧的特征向量进行处理,形成所述采样图像帧的物体时序特征向量和关系时序特征向量。
上述方案中,
所述信息处理模块,用于通过所述视频信息处理模型中的第一多头注意力机制子网络,对所述采样图像帧的关系时序特征向量和所述关系特征向量进行融合处理,形成混合关系特征向量;
所述信息处理模块,用于通过所述视频信息处理模型中的第二多头注意力机制子网络,对所述采样图像帧的物体时序特征向量和所述物体特征向量进行融合处理,形成混合物体特征向量;
所述信息处理模块,用于响应于所述层次关系树结构,对所述混合关系特征向量和所述混合物体特征向量进行特征向量聚合处理,形成与所述目标视频相匹配的经过上下文聚合的特征向量。
上述方案中,
所述信息处理模块,用于基于所述特征向量聚合处理所形成的经过上下文聚合的特征向量,确定所述采样图像帧中的平面物体特征向量和所述采样图像帧中的平面关系特征向量;
所述信息处理模块,用于通过所述视频信息处理模型的关系分类网络,根据所述采样图像帧中的平面物体特征向量和所述采样图像帧中的平面关系特征向量,确定所述采样图像帧中不同物体的分类。
上述方案中,
所述信息处理模块,用于通过所述视频信息处理模型的关系分类网络中的主客体分支网络,基于所述采样图像帧中的平面物体特征向量、主体物体建议框以及客体物体建议框,确定相应的平面物体分类;
所述信息处理模块,用于通过所述视频信息处理模型的关系分类网络中的视觉分支网络,基于所述采样图像帧中的平面关系特征向量、主体物体建议框以及客体物体建议框,确定相应的平面关系分类;
所述信息处理模块,用于通过所述视频信息处理模型的关系分类网络中的混合分支网络,基于所述层次关系树结构,确定经过拼接的主体物体词嵌入向量和客体物体词嵌入向量的分类;
所述信息处理模块,用于通过所述视频信息处理模型的关系分类网络中的统计先验分支网络,确定相应统计先验嵌入向量的分类;
所述信息处理模块,用于基于所述平面物体分类、平面关系分类、经过拼接的主体物体词嵌入向量和客体物体词嵌入向量的分类以及统计先验嵌入向量的分类,确定所述采样图像帧中不同物体的分类。
上述方案中,
所述信息处理模块,用于基于所述采样图像帧中的物体分类结果,确定与所述目标视频相匹配的连接算法;
所述信息处理模块,用于基于所述采样图像帧中的物体分类结果,确定帧级视频场景图;
所述信息处理模块,用于对所述帧级视频场景图进行扩张,形成片段级的视频场景图;
所述信息处理模块,用于基于与所述目标视频相匹配的连接算法,对不同的片段级的视频场景图进行连接处理,确定与所述目标视频相对应的视频场景图。
上述方案中,所述装置还包括:
训练模块,用于获取第一训练样本集合,其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本;
所述训练模块,用于对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;
所述训练模块,用于通过视频处理模型对所述第二训练样本集合进行处理,以确定所述视频处理模型的初始参数;
所述训练模块,用于响应于所述视频处理模型的初始参数,通过所述视频处理模型对所述第二训练样本集合进行处理,确定所述视频处理模型的更新参数;
所述训练模块,用于根据所述视频处理模型的更新参数,通过所述第二训练样本集合对所述视频处理模型的网络参数进行迭代更新。
上述方案中,
所述训练模块,用于将所述第二训练样本集合中不同训练样本,代入由所述视频处理模型所对应的损失函数;
所述训练模块,用于确定所述损失函数满足相应的收敛条件时对应所述视频处理模型的更新参数。
本公开实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的视频信息处理方法。
本公开实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的视频信息处理方法。
本公开实施例具有以下有益效果:
通过获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构;基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量;基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量;根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图,由此,不但有效压缩了视频处理模型的模型结构,减少了计算量,便于部署在移动端和计算能力较差的老旧设备中,节省硬件成本,扩大推广范围,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。
附图说明
图1为本公开实施例提供的视频信息处理方法的使用场景示意图;
图2为本公开实施例提供的视频信息处理装置的组成结构示意图;
图3为本公开实施例提供的视频信息处理方法一个可选的流程示意图;
图4为本公开实施例提供的视频信息处理方法一个可选的流程示意图;
图5为本公开实施例中视频信息处理方法的层次关系树结构示意图;
图6为本公开实施例中特征向量聚合处理过程示意图;
图7为本公开实施例中关系分类网络示意图;
图8为本公开实施例提供的视频信息处理方法一个可选的训练过程示意图;
图9为本公开实施例中视频信息处理方法的应用环境示意图;
图10A为本公开实施例所提供的视频信息处理方法的工作过程示意图;
图10B为本公开实施例所提供的视频信息处理模型的模型结构示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)目标视频,互联网中可获取的各种形式的视频信息,如客户端或者智能设备中呈现的视频文件、多媒体信息等。
3)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks),是深度学***移不变分类(shift-invariantclassification)。
4)模型训练,对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
5)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经***,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
6)编码器-解码器结构:机器翻译技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
7)Softmax:归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
8)场景图:对场景(图像或视频)中由出现的物体以及物体之间的关系所构成的图结构。
9)场景图生成任务:给定一幅场景(图像或视频),定位并识别场景中的物体,推断物体间的交互关系。
10)Tree-GRU:在树结构上应用的门控循环神经网络。基本结构与输入向量和线性GRU的结构与输入向量相同。自底向上进行消息传递时,每个结点的输入状态为其子结点隐状态的和;自顶而下消息传递时,每个结点的输入状态为其父结点的隐状态。
11)注意力机制:一种特征融合方式。将多个特征的加权平均加到另一个特征A上。权重为特征A和其余特征的归一化相似度。
图1为本公开实施例提供的视频信息处理方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够显示相应目标视频的软件的客户端,例如视频播放的客户端或插件,用户通过相应的客户端可以获得目标视频(例如目标视频可以为不同直播平台中的游戏短视频)并进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述视频信息处理装置以实现本公开所提供的视频信息处理方法,以通过获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构;基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量;基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量;根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图,并通过终端(终端10-1和/或终端10-2)展示输出与所述目标视频以及与所述目标视频相匹配的视频场景图。当然,本公开所提供的视频信息处理装置可以应用于视频播放终端中,在视频播放中通常会对不同数据来源的目标视频进行处理,最终在用户界面(User Interface,UI)上呈现出与相应的目标视频以及与所述目标视频相匹配的视频场景图,视频场景图的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据,所得到与所述目标视频相匹配的视频场景图还可以供其他应用程序调用。
当然在通过视频信息处理装置对目标视频处理以实现基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图,还需要对视频处理模型进行训练,具体包括:
获取第一训练样本集合,其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本;对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;通过视频处理模型对所述第二训练样本集合进行处理,以确定所述视频处理模型的初始参数;响应于所述视频处理模型的初始参数,通过所述视频处理模型对所述第二训练样本集合进行处理,确定所述视频处理模型的更新参数;根据所述视频处理模型的更新参数,通过所述第二训练样本集合对所述视频处理模型的网络参数进行迭代更新。
其中,本申请实施例所提供的视频信息处理方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如,可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition,ASR),其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。
例如可以涉及机器学习(Machine learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(ConvolutionalNeural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
下面对本公开实施例的视频信息处理装置的结构做详细说明,视频信息处理装置可以各种形式来实施,如带有视频信息处理装置处理功能的专用终端,也可以为设置有视频信息处理装置处理功能的服务器,例如前序图1中的服务器200。图2为本公开实施例提供的视频信息处理装置的组成结构示意图,可以理解,图2仅仅示出了视频信息处理装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本公开实施例提供的视频信息处理装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。视频信息处理装置中的各个组件通过总线***205耦合在一起。可以理解,总线***205用于实现这些组件之间的连接通信。总线***205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本公开实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作***和应用程序。其中,操作***包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本公开实施例提供的视频信息处理装置可以采用软硬件结合的方式实现,作为示例,本公开实施例提供的视频信息处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本公开实施例提供的视频信息处理方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本公开实施例提供的视频信息处理装置采用软硬件结合实施的示例,本公开实施例所提供的视频信息处理装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本公开实施例提供的视频信息处理方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本公开实施例提供的视频信息处理装置采用硬件实施的示例,本公开实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本公开实施例提供的视频信息处理方法。
本公开实施例中的存储器202用于存储各种类型的数据以支持视频信息处理装置的操作。这些数据的示例包括:用于在视频信息处理装置上操作的任何可执行指令,如可执行指令,实现本公开实施例的从视频信息处理方法的程序可以包含在可执行指令中。
在另一些实施例中,本公开实施例提供的视频信息处理装置可以采用软件方式实现,图2示出了存储在存储器202中的视频信息处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括视频信息处理装置,视频信息处理装置中包括以下的软件模块:
信息传输模块2081和信息处理模块2082。当视频信息处理装置中的软件模块被处理器201读取到RAM中并执行时,将实现本公开实施例提供的视频信息处理方法,其中,视频信息处理装置中各个软件模块的功能,包括:
信息传输模块2081,用于获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;
信息处理模块2082,用于通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构;
所述信息处理模块2082,用于基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量;
所述信息处理模块2082,用于基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量;
所述信息处理模块2082,用于根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;
所述信息处理模块2082,用于基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;
所述信息处理模块2082,用于基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图。
结合图2示出的视频信息处理装置说明本公开实施例提供的视频信息处理方法,参见图3,图3为本公开实施例提供的视频信息处理方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行视频信息处理装置的各种电子设备执行,例如可以是如带有视频信息处理装置的专用终端、服务器或者服务器集群,其中,带有视频信息处理装置的专用终端可以为前序图2所示的实施例中带有视频信息处理装置的电子设备。下面针对图3示出的步骤进行说明。
步骤301:视频信息处理装置获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧。
在本公开的一些实施例中,获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧,可以通过以下方式实现:
确定与所述目标视频相匹配的窗口步长值;根据与所述目标视频相匹配的窗口步长值,对所述目标视频进行采样处理;基于所述目标视频的采样处理结果,确定采样结果的中心位置;根据所述采样结果的中心位置获取目标视频所对应的中心图像帧和采样图像帧,其中,所述采样图像帧包括至少两帧视频图像。其中,所获取的目标视频的标签信息可以用于对目标视频的视频图像帧和对应的音频文件进行分解,由于目标视频的来源具有不确定性(可以是互联网中的视频资源,也可以是电子设备所保存的本地视频文件),通过获取与所述目标视频相对应的在采样图像帧和中心图像帧,能够在相应的区块链网络中保存原始的目标视频时,同时将与所述目标视频相对应的在采样图像帧和中心图像帧保存在区块链网络中,以实现对目标视频的溯源。
步骤302:视频信息处理装置根据通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构。
在本公开的一些实施例中,通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构,可以通过以下方式实现:
通过所述视频信息处理模型中的第一视频处理网络所包括的平面卷积子网络、区域卷积子网络依次对所述中心图像帧进行处理,确定所述中心图像帧对应的物体分类词嵌入向量;基于所述物体分类词嵌入向量,确定所述物体特征向量;响应于所述区域卷积子网络对所述中心图像帧的处理结果,确定与所述中心图像帧相匹配的物体建议框;基于与所述中心图像帧相匹配的物体建议框确定与所述中心图像帧相匹配的层次关系树结构。其中,第一视频处理网络可以包括:区域卷积特征(Regionswith CNN Features,R-CNN)、快速区域卷积特征(Fast Regions with CNN Features,FastR-CNN)、更快的区域卷积特征(Faster Regions with CNN Features,Faster R-CNN)以及掩码区域卷积特征(Mask FastRegions with CNN Features,Mask Fast R-CNN)Mask R-CNN等,本申请实施例对此不作限定。其中,Faster R-CNN生成建议框仅需约10ms,可以以满足端到端的实时的应用需求。
在本公开的一些实施例中,参考图4,参见图4,图4为本公开实施例提供的视频信息处理方法一个可选的流程示意图,可以理解地,图4所示的步骤可以由运行视频信息处理模型的视频信息处理装置的各种电子设备执行,例如可以是如带有视频信息处理模型的视频信息处理功能的专用终端、服务器或者服务器集群用于建立与所述中心图像帧相匹配的层次关系树结构,具体包括以下步骤:
步骤401:确定所述中心图像帧中被检测物体的检测顺序;
步骤402:基于所述被检测物体的检测顺序,以及与所述中心图像帧相匹配的物体建议框确定所述层次关系树结构中的叶子结点;
步骤403:基于所述中心图像帧相匹配的物体建议框的多维空间坐标参数确定所述层次关系树结构中的非叶子结点。
其中,物体建议框的多维空间坐标参数包括但不限于:四维空间坐标参数、三维空间坐标参数以及二维空间坐标参数,
其中,参考图5,图5为本公开实施例中视频信息处理方法的层次关系树结构示意图,层次关系树由中心帧中被检测的物体自底向上、层序地建立。叶子结点代表物体建议框,非叶子结点由其子结点产生,代表复合关系特征。
其中,非叶子结点的产生规则如下,给定一层中所有结点所代表的建议框的4维空间坐标,可以使用高斯核函数计算每个结点对其他结点的相似度之和作为每个结点的得分,相似度定义为空间坐标差的二范数平方。将每个结点按照其得分进行排序,选择一部分结点作为聚类中心,将其余结点聚类到离其最近的中心上,具体实现为取结点对应的建议框的并集。
步骤404:确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心。
其中,根据与所述目标视频相匹配的固定间隔,确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心;或者确定所述叶子结点和非叶子结点所分别对应的相似度参数,根据与所述目标视频相匹配的聚类中心阈值,利用所述叶子结点和非叶子结点所分别对应的相似度参数确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心。
如图5所示,聚类中心可以根据目标视频的不同使用环境选择相适配的聚类中心选择方式,具体来说,可以以2为间隔选择结点作为聚类中心;或者,取得分前K大的结点和得分前L小的结点作为聚类中心,K为当前层结点总数的向下取整的四分之一,K与L之和为当前层结点总数的向下取整的一半。其中,对于目标视频存在一些物体分布稀疏的场景,间隔取点的方式所获得的视频场景图的准确率更高。
步骤405:根据所述聚类中心对所述层次关系树结构中的叶子结点和非叶子结点进行聚类处理,形成与所述中心图像帧相匹配的层次关系树结构。
由此,可以在视频处理模型的后续使用中获得与中心图像帧相匹配的层次关系树结构。
步骤303:视频信息处理装置基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量。
在本公开的一些实施例中,基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量,可以通过以下方式实现:
通过所述视频信息处理模型中的第二视频处理网络所包括的平面卷积子网络对所述中心图像帧进行特征提取处理;基于所述层次关系树结构,获取与所述目标视频相匹配的物体建议框和关系建议框;通过所述第二视频处理网络所包括的区域特征聚集子网络,对所述中心图像帧的特征向量进行特征聚集处理;通过所述第二视频处理网络所包括的多层感知子网络,对经过特征聚集处理的中心图像帧的特征向量进行处理,确定所述中心图像帧的物体特征向量。
步骤304:视频信息处理装置基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量。
在本公开的一些实施例中,基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量,可以通过以下方式实现:
通过所述视频信息处理模型中的第三视频处理网络所包括的立体卷积子网络对所采样图像帧中心图像帧进行特征提取处理;基于所述层次关系树结构,获取与所述目标视频相匹配的物体建议框和关系建议框;通过所述第三视频处理网络所包括的区域特征聚集子网络,对所提取的采样图像帧的特征向量进行特征聚集处理,并通过平面池化层子网络对经过特征聚集处理的采样图像帧的特征向量进行处理,形成所述采样图像帧的物体时序特征向量和关系时序特征向量。其中,以目标视频总共有T帧为例,对于第i帧,可以以该帧为中心,大小为65帧的窗口(即[i-32,i+32]的区间),以4帧为间隔进行采样,采样处理的结果作为三维特征提取网络I3D的输入。在采样得出的图像帧中,位于中心位置的图像帧作为二维关系特征提取网络ResNet 50和二维物体特征提取网络ResNet 101的输入。其中,所输入的经过密集采样视频片段及其中心帧,可以根据需求进行格式调整,例如可以均为RGB格式。
在本公开的一些实施例中,视频片段的分辨率可以被调整为短边为600的情况,中心帧的分辨率可以被调整为短边为800的情况。二维物体特征提取网络ResNet 101的输出二维特征图为Faster R-CNN网络的输入。Faster R-CNN输出被检测物体建议框和其对应的物体分类及特征向量。物体特征为1024维向量。物体分类结果经过一个词嵌入模块产生300维词嵌入向量,以残差连接的方式融入相应的物体特征向量。
步骤305:视频信息处理装置根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理。
在本公开的一些实施例中,可以通过所述视频信息处理模型中的第一多头注意力机制子网络,对所述采样图像帧的关系时序特征向量和所述关系特征向量进行融合处理,形成混合关系特征向量;通过所述视频信息处理模型中的第二多头注意力机制子网络,对所述采样图像帧的物体时序特征向量和所述物体特征向量进行融合处理,形成混合物体特征向量;响应于所述层次关系树结构,对所述混合关系特征向量和所述混合物体特征向量进行特征向量聚合处理,形成与所述目标视频相匹配的经过上下文聚合的特征向量。其中,以第三视频处理网络使用三维特征提取网络I3D输出为通道1024维的三维特征图向量,第二视频处理网络使用二维关系特征提取网络ResNet 50的输出为通道1024维的二维关系特征图向量为例。参考图6,图6为本公开实施例中特征向量聚合处理过程示意图,如图6所示,时序上下文特征聚合有2种方式,具体方式包括1)将层次关系树所有非叶子结点所代表的建议框通过区域特征聚集网络Region of Interest Align,RoIAlign网络)在二维关系特征图上裁剪出关系特征子图,再馈入层数为2的多层感知机输出1024维关系特征;层次关系树所有结点所代表的建议框复制时序维度次后,通过区域特征聚集网络Region ofInterest Align,RoIAlign网络)在三维特征图上裁剪出物体和关系的时序特征子图向量。将时序特征子图按时序维度展开,每个时序维度上的特征子图通过二维平均池化网络产生1024维特征向量,中心帧的物体特征和关系特征分别对物体时序特征和关系时序特征在时序维度上应用注意力机制,得到1024维的混合特征向量。2)将三维特征图通过一层三维步长为1的1*1*1卷积得到通道为256维的特征图A,再对每个时序的特征图上应用一个二维步长为3的3x3卷积得到通道为256维的特征图B,产生特征图在时序上的差分A-B和B-A,对差分结果分别通过一个三维步长为1的1x1x1卷积后相加得到通道为1024维的特征图向量,以残差连接的方式加到相应的时序位置上,再对该特征图通过区域特征聚集网络Region ofInterest Align,RoIAlign网络)和三维平均池化产生包含时序信息的特征向量,经投影加到二维特征向量上产生混合向量。其中,可以由Tree-GRU实现将混合特征根据层次关系树的拓扑结构进行先自底向上再自顶而下的消息传递。
步骤306:视频信息处理装置基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类。
在本公开的一些实施例中,基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类,可以通过以下方式实现:
基于所述特征向量聚合处理所形成的经过上下文聚合的特征向量,确定所述采样图像帧中的平面物体特征向量和所述采样图像帧中的平面关系特征向量;通过所述视频信息处理模型的关系分类网络,根据所述采样图像帧中的平面物体特征向量和所述采样图像帧中的平面关系特征向量,确定所述采样图像帧中不同物体的分类。其中,参考图7,图7为本公开实施例中关系分类网络示意图,其中,可以通过所述视频信息处理模型的关系分类网络中的主客体分支网络,基于所述采样图像帧中的平面物体特征向量、主体物体建议框以及客体物体建议框,确定相应的平面物体分类;通过所述视频信息处理模型的关系分类网络中的视觉分支网络,基于所述采样图像帧中的平面关系特征向量、主体物体建议框以及客体物体建议框,确定相应的平面关系分类;通过所述视频信息处理模型的关系分类网络中的混合分支网络,基于所述层次关系树结构,确定经过拼接的主体物体词嵌入向量和客体物体词嵌入向量的分类;通过所述视频信息处理模型的关系分类网络中的统计先验分支网络,确定相应统计先验嵌入向量的分类;基于所述平面物体分类、平面关系分类、经过拼接的主体物体词嵌入向量和客体物体词嵌入向量的分类以及统计先验嵌入向量的分类,确定所述采样图像帧中不同物体的分类。具体来说,主客体分支子网络的输入为主、客体物体建议框和平面物体特征图,建议框通过区域特征聚集网络Region of Interest Align,RoIAlign网络)在特征图上裁剪出物体特征子图后,通过一个由多层感知机构成的特征提取器产生特征向量,再进行分类。视觉分支子网络的输入为主、客体物体建议框的并集(即图中所示的紧关系建议框)和平面关系特征图,建议框通过区域特征聚集网络Region ofInterest Align,RoIAlign网络)在特征图上裁剪出关系特征子图后,层次关系树上的主、宾结点对应的物体特征对裁剪出的关系特征子图进行注意力机制,得出注意力图加到关系特征子图后,通过一个由多层感知网络再进行分类。混合分支子网络的输入是层次关系树上的主谓宾结点对应的特征及主宾物体分类,谓词(关系)特征和主宾物体分类的词嵌入向量拼接的特征通过一个由多层感知机构成的特征提取器产生特征,再进行分类。统计先验分支子网络的输入为主、客体物体分类,通过一个统计先验嵌入矩阵产生分类。将所有分支的分类结果求和,通过一个Sigmoid函数得出分类得分。
步骤307:视频信息处理装置基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图。
在本公开的一些实施例中,基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图,可以通过以下方式实现:
基于所述采样图像帧中的物体分类结果,确定与所述目标视频相匹配的连接算法;基于所述采样图像帧中的物体分类结果,确定帧级视频场景图;对所述帧级视频场景图进行扩张,形成片段级的视频场景图;基于与所述目标视频相匹配的连接算法,对不同的片段级的视频场景图进行连接处理,确定与所述目标视频相对应的视频场景图。其中,在给定物体跟踪轨迹的条件下,对于一个30帧的视频段,其中采样8帧被用于帧级视频场景图生成。可以定义一个三元组集合,如果一个三元组仅出现在一帧中,则将其直接计入集合。对于在多个帧中具有相同预测的关系三元组,如果三元组的对象和对象分别属于同一轨迹,则对三元组进行一次总分计算。由此,可以得到片段级视频场景图。对于所有重叠部分为15帧的邻接视频段,对于主体/客体轨迹的交并比超过了0.5的阈值的三元组,判定为预测相同,在进行连接的过程中,高分三元组优先于低分三元组。
继续结合图2示出的视频信息处理模型的视频信息处理装置说明本公开实施例提供的视频信息处理方法,参见图8,图8为本公开实施例提供的视频信息处理方法一个可选的训练过程示意图,可以理解地,图8所示的步骤可以由运行视频信息处理模型的视频信息处理装置的各种电子设备执行,例如可以是如带有视频信息处理模型的视频信息处理功能的专用终端、服务器或者服务器集群用于确定与所述视频信息处理模型相适配的模型参数,并将经过训练的视频信息处理模型部署在相应的使用环境中,具体包括以下步骤:
步骤801:获取第一训练样本集合,其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本。
步骤802:对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合。
步骤803:通过视频处理模型对所述第二训练样本集合进行处理,以确定所述视频处理模型的初始参数。
步骤804:响应于所述视频处理模型的初始参数,通过所述视频处理模型对所述第二训练样本集合进行处理,确定所述视频处理模型的更新参数。
其中,可以将所述第二训练样本集合中不同训练样本,代入由所述视频处理模型所对应的损失函数;确定所述损失函数满足相应的收敛条件时对应所述视频处理模型的更新参数。
步骤805:根据所述视频处理模型的更新参数,通过所述第二训练样本集合对所述视频处理模型的网络参数进行迭代更新。
其中,在视频处理模型训练时,视频处理模型通过交叉熵等损失函数向正确趋势逼近,损失函数直至达到相应的收敛条件。
在本公开的一些实施例中,视频处理模型中的特征提取网络还可以使用Re sNet-101或者ResNeXt-101,其中,ResNeXt-101模型,利用Instagram上的用户标记图片作为预训练数据集,可以省去了人工标记数据的巨额成本,而且使用中只需微调,模型的性能即超越ImageNet任务的SOTA水平,有利于本申请的视频处理模型的在用户的移动终端中的大规模使用。
进一步地,视频处理模型的参数由在ImageNet分类数据集上预训练的权重初始化,使用的数据集为视频数据集和图片数据集。每张输入视频帧图像都会被先缩放为短边小于600像素的图像帧。
进一步地,训练需要两个RTX 2080ti,每张卡上的批处理大小设置为1。先对Faster R-CNN训练,损失函数为RPN部分和R-CNN部分的回归损失和分类交叉熵损失的和。Faster R-CNN训练结束后应用于关系检测模型中,作为目标检测部分不再参与模型更新。关系检测模型的损失函数是关系分类的二元交叉熵和物体分类的交叉熵的加权和,关系分类的权重为1.0,物体分类的权重为0.05。关系由关系分类模块预测,而参与上下文聚合和后续区块的物体分类则由物体分类器预测,该分类器是Faster R-CNN分类器的一个复制。在测试时,这个分类器不会被激活。模型是由带有冲量的SGD进行优化。模型在ActionGenome的初始学***均精度被用于评估模型的性能。在ActionGenome上,限定物体间至多6个关系,对于帧级场景图生成任务,图像级前20、前50的召回率为90.34,93.94,视频级前20、前50的召回率为87.56,89.24,平均精度为13.43,图像级前20、前50的平均召回率为30.84,40.12;在ImageNetVidVRD上,限定物体间至多20个关系,前50、前100的召回率为8.83,11.15,平均精度为16.97。
步骤806:部署经过训练的视频处理模型。
由此,可以通过所部署的经过训练的视频处理模型(可以部署在视频客户端运营商的服务器或者云服务器中,也可以部署在视频拍摄终端中)执行相应的视频目标的检测方法,实现对用户所上传的视频的检测,获得与目标视频相对应的视频场景图。
下面以短视频播放界面中的视频推荐场景为例对本公开实施例所提供的视频信息处理方法进行说明,其中,图9为本公开实施例中视频信息处理方法的应用环境示意图,其中,如图9所示,短视频播放界面可以是相应的APP中所展现的,也可以是通过微信小程序所触发的(视频信息处理模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中),随着短视频应用产品不断发展增多,视频信息的承载量远远大于文字信息,短视频可以通过相应的应用程序不间断地向用户进行推荐,因此,需要生成与短视频相匹配的视频场景图,通过视频级场景图生成可以用于动作识别任务中,通过物体和人交互的信息,提高动作识别任务的指标。
图10A为本公开实施例所提供的视频信息处理方法的工作过程示意图,图10B为本公开实施例所提供的视频信息处理模型的模型结构示意图,用于执行图10A所示的视频信息处理方法,下面针对图10A示出的步骤进行说明。
步骤1001:对不同数据源中的短视频进行采样处理以获取采样图像帧和中心图像帧。
步骤1002:确定与中心图像帧相匹配的中心图像帧的物体特征向量。
步骤1003:确定与中心图像帧相匹配的层次关系树结构。
步骤1004:确定与中心图像帧相匹配的中心图像帧的物体特征向量。
步骤1005:确定与采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量。
步骤1006:触发进行特征向量聚合处理。
步骤1007:对采样图像帧中的物体进行分类。
步骤1008:确定连接算法,基于采样图像帧中的物体分类结果,确定与短标视频相对应的视频场景图。
有益技术效果:
本公开通过获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构;基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量;基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量;根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图,由此,不但有效压缩了视频处理模型的模型结构,减少了计算量,便于部署在移动端和计算能力较差的老旧设备中,节省硬件成本,扩大推广范围,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。
以上所述,仅为本公开的实施例而已,并非用于限定本公开的保护范围,凡在本公开的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的保护范围之内。

Claims (17)

1.一种视频信息处理方法,其特征在于,所述方法包括:
获取目标视频,并对所述目标视频进行采样处理以获取目标视频的采样图像帧和中心图像帧;
通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及所述中心图像帧的层次关系树结构;
基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定所述中心图像帧的关系特征向量;
基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定所述采样图像帧的物体时序特征向量和关系时序特征向量;
根据所述物体特征向量、所述关系特征向量、所述层次关系树结构、所述物体时序特征向量和所述关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;
基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;
基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图。
2.根据权利要求1所述的方法,其特征在于,所述获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧,包括:
确定与所述目标视频相匹配的窗口步长值;
根据与所述目标视频相匹配的窗口步长值,对所述目标视频进行采样处理;
基于所述目标视频的采样处理结果,确定采样结果的中心位置;
根据所述采样结果的中心位置获取目标视频所对应的中心图像帧和采样图像帧,其中,所述采样图像帧包括至少两帧视频图像。
3.根据权利要求1所述的方法,其特征在于,所述通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及所述中心图像帧的层次关系树结构,包括:
通过所述视频信息处理模型中的第一视频处理网络所包括的平面卷积子网络、区域卷积子网络依次对所述中心图像帧进行处理,确定所述中心图像帧对应的物体分类词嵌入向量;
基于所述物体分类词嵌入向量,确定所述物体特征向量;
响应于所述区域卷积子网络对所述中心图像帧的处理结果,确定与所述中心图像帧相匹配的物体建议框;
基于与所述中心图像帧相匹配的物体建议框确定与所述中心图像帧相匹配的层次关系树结构。
4.根据权利要求3所述的方法,其特征在于,所述基于与所述中心图像帧相匹配的物体建议框确定与所述中心图像帧相匹配的层次关系树结构,包括:
确定所述中心图像帧中被检测物体的检测顺序;
基于所述被检测物体的检测顺序,以及与所述中心图像帧相匹配的物体建议框确定所述层次关系树结构中的叶子结点;
基于所述层次关系树结构,获取与所述目标视频相匹配的物体建议框和关系建议框;
基于所述中心图像帧相匹配的物体建议框的多维空间坐标参数确定所述层次关系树结构中的非叶子结点;
确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心;
根据所述聚类中心对所述层次关系树结构中的叶子结点和非叶子结点进行聚类处理,形成与所述中心图像帧相匹配的层次关系树结构。
5.根据权利要求4所述的方法,其特征在于,所述确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心,包括:
根据与所述目标视频相匹配的固定间隔,确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心;或者
确定所述叶子结点和非叶子结点所分别对应的相似度参数;
确定所述目标视频相匹配的聚类中心阈值;
根据与所述聚类中心阈值、所述叶子结点的相似度参数和非叶子结点的相似度参数,确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心。
6.根据权利要求5所述的方法,其特征在于,所述根据与所述聚类中心阈值、所述叶子结点的相似度参数和非叶子结点的相似度参数,确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心,包括:
基于所述层次关系树结构对应的建议框的四维空间坐标参数,通过高斯核函数确定每个非叶子结点与其他节点的相似度;
通过每个非叶子结点与其他节点的相似度,确定任一非叶子结点的相似度加和;
对所有非叶子结点的相似度加和进行排序处理;
基于非叶子结点的相似度加和的排序结果以及所述聚类中心阈值,确定所述层次关系树结构中的叶子结点和非叶子结点中的聚类中心。
7.根据权利要求1所述的方法,其特征在于,所述基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定所述中心图像帧的物体特征向量,包括:
通过所述视频信息处理模型中的第二视频处理网络所包括的平面卷积子网络对所述中心图像帧进行特征提取处理,得到中心图像帧的特征向量;
通过所述第二视频处理网络所包括的区域特征聚集子网络,对所述中心图像帧的特征向量进行特征聚集处理;
通过所述第二视频处理网络所包括的多层感知子网络,对经过特征聚集处理的中心图像帧的特征向量进行处理,确定所述中心图像帧的物体特征向量。
8.根据权利要求1所述的方法,其特征在于,所述基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定所述采样图像帧的物体时序特征向量和关系时序特征向量,包括:
通过所述视频信息处理模型中的第三视频处理网络所包括的立体卷积子网络对所述采样图像帧进行特征提取处理;
基于所述层次关系树结构,获取与所述目标视频相匹配的物体建议框和关系建议框;
基于所述物体建议框和关系建议框,通过所述第三视频处理网络所包括的区域特征聚集子网络,对所提取的采样图像帧的特征向量进行特征聚集处理;
通过平面池化层子网络对所述采样图像帧的特征向量进行处理,形成所述采样图像帧的物体时序特征向量和关系时序特征向量。
9.根据权利要求1所述的方法,其特征在于,所述根据所述物体特征向量、关系特征向量、层次关系树结构、所述物体时序特征向量和所述关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理,包括:
通过所述视频信息处理模型中的第一多头注意力机制子网络,对所述采样图像帧的关系时序特征向量和所述关系特征向量进行融合处理,形成混合关系特征向量;
通过所述视频信息处理模型中的第二多头注意力机制子网络,对所述采样图像帧的物体时序特征向量和所述物体特征向量进行融合处理,形成混合物体特征向量;
根据所述层次关系树结构,对所述混合关系特征向量和所述混合物体特征向量进行特征向量聚合处理,形成与所述目标视频的特征向量。
10.根据权利要求1所述的方法,其特征在于,所述基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类,包括:
基于所述特征向量聚合处理所形成的经过上下文聚合的特征向量,确定所述采样图像帧中的平面物体特征向量和所述采样图像帧中的平面关系特征向量;
通过所述视频信息处理模型的关系分类网络,根据所述采样图像帧中的平面物体特征向量和所述采样图像帧中的平面关系特征向量,确定所述采样图像帧中物体的分类。
11.根据权利要求10所述的方法,其特征在于,所述通过所述视频信息处理模型的关系分类网络,根据所述采样图像帧中的平面物体特征向量和所述采样图像帧中的平面关系特征向量,确定所述采样图像帧中物体的分类,包括:
通过所述视频信息处理模型的关系分类网络中的主客体分支网络,基于所述采样图像帧中的平面物体特征向量、所述关系分类网络中的主体物体建议框以及客体物体建议框,确定相应的平面物体分类;
通过所述视频信息处理模型的关系分类网络中的视觉分支网络,基于所述采样图像帧中的平面关系特征向量、所述主体物体建议框以及客体物体建议框,确定相应的平面关系分类;
通过所述视频信息处理模型的关系分类网络中的混合分支网络,基于所述层次关系树结构,确定经过拼接的主体物体词嵌入向量和客体物体词嵌入向量的分类;
通过所述视频信息处理模型的关系分类网络中的统计先验分支网络,确定相应统计先验嵌入向量的分类;
基于所述平面物体分类、平面关系分类、经过拼接的主体物体词嵌入向量和客体物体词嵌入向量的分类以及统计先验嵌入向量的分类,确定所述采样图像帧中物体的分类。
12.根据权利要求10所述的方法,其特征在于,所述基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图,包括:
基于所述采样图像帧中的物体分类结果,确定与所述目标视频相匹配的连接算法;
基于所述采样图像帧中的物体分类结果,确定帧级视频场景图;
对所述帧级视频场景图进行扩张,形成片段级的视频场景图;
基于与所述目标视频相匹配的连接算法,对不同的片段级的视频场景图进行连接处理,确定与所述目标视频相对应的视频场景图。
13.根据权利要求1-12任一项所述的方法,其特征在于,所述方法还包括:
获取第一训练样本集合,其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本;
对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;
通过视频处理模型对所述第二训练样本集合进行处理,以确定所述视频处理模型的初始参数;
响应于所述视频处理模型的初始参数,通过所述视频处理模型对所述第二训练样本集合进行处理,确定所述视频处理模型的更新参数;
根据所述视频处理模型的更新参数,通过所述第二训练样本集合对所述视频处理模型的网络参数进行迭代更新。
14.根据权利要求13所述的方法,其特征在于,所述根据所述视频处理模型的初始参数,通过所述视频处理模型对所述第二训练样本集合进行处理,确定所述视频处理模型的更新参数;
将所述第二训练样本集合中不同训练样本,代入由所述视频处理模型所对应的损失函数;
确定所述损失函数满足相应的收敛条件时对应所述视频处理模型的更新参数。
15.一种视频信息处理装置,其特征在于,所述装置包括:
信息传输模块,用于获取目标视频,并对所述目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;
信息处理模块,用于通过视频信息处理模型中的第一视频处理网络确定所述中心图像帧的物体特征向量以及层次关系树结构;
所述信息处理模块,用于基于所述层次关系树结构以及所述中心图像帧,通过所述视频信息处理模型中的第二视频处理网络,确定与所述中心图像帧相匹配的关系特征向量;
所述信息处理模块,用于基于所述层次关系树结构以及所述采样图像帧,通过所述视频信息处理模型中的第三视频处理网络,确定与所述采样图像帧相匹配的采样图像帧的物体时序特征向量和关系时序特征向量;
所述信息处理模块,用于根据所述物体特征向量、关系特征向量、层次关系树结构、所述采样图像帧的物体时序特征向量和采样图像帧的关系时序特征向量,通过所述视频信息处理模型进行特征向量聚合处理;
所述信息处理模块,用于基于所述特征向量聚合处理,对所述采样图像帧中的物体进行分类;
所述信息处理模块,用于基于所述采样图像帧中的物体分类结果,确定与所述目标视频相对应的视频场景图。
16.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至14任一项所述的视频信息处理方法。
17.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至14任一项所述的视频信息处理方法。
CN202110058983.4A 2021-01-17 2021-01-17 视频信息处理方法、装置、电子设备及存储介质 Active CN113569605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110058983.4A CN113569605B (zh) 2021-01-17 2021-01-17 视频信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110058983.4A CN113569605B (zh) 2021-01-17 2021-01-17 视频信息处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113569605A true CN113569605A (zh) 2021-10-29
CN113569605B CN113569605B (zh) 2024-07-16

Family

ID=78160938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110058983.4A Active CN113569605B (zh) 2021-01-17 2021-01-17 视频信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113569605B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN110166851A (zh) * 2018-08-21 2019-08-23 腾讯科技(深圳)有限公司 一种视频摘要生成方法、装置和存储介质
US20200081445A1 (en) * 2018-09-10 2020-03-12 Drisk, Inc. Systems and Methods for Graph-Based AI Training
CN111416991A (zh) * 2020-04-28 2020-07-14 Oppo(重庆)智能科技有限公司 特效处理方法和设备,及存储介质
CN111695622A (zh) * 2020-06-09 2020-09-22 全球能源互联网研究院有限公司 变电作业场景的标识模型训练方法、标识方法及装置
US20200321030A1 (en) * 2019-04-04 2020-10-08 Wowza Media Systems, LLC Artificial intelligence analysis of multimedia content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN110166851A (zh) * 2018-08-21 2019-08-23 腾讯科技(深圳)有限公司 一种视频摘要生成方法、装置和存储介质
US20200081445A1 (en) * 2018-09-10 2020-03-12 Drisk, Inc. Systems and Methods for Graph-Based AI Training
US20200321030A1 (en) * 2019-04-04 2020-10-08 Wowza Media Systems, LLC Artificial intelligence analysis of multimedia content
CN111416991A (zh) * 2020-04-28 2020-07-14 Oppo(重庆)智能科技有限公司 特效处理方法和设备,及存储介质
CN111695622A (zh) * 2020-06-09 2020-09-22 全球能源互联网研究院有限公司 变电作业场景的标识模型训练方法、标识方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XU SUN ET AL.: "Video Visual Relation Detection via Multi-modal Feature Fusion", 《IN PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, 31 December 2019 (2019-12-31), pages 2657 - 2661 *
YAO TENG ET AL.: "Target Adaptive Context Aggregation for Video Scene Graph Generation", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》, 28 February 2022 (2022-02-28), pages 13668 - 13677 *
彭晖等: "基于轮廓特征的场景动态目标实时分类研究", 《控制工程》, vol. 22, no. 3, 31 May 2015 (2015-05-31), pages 393 - 397 *
贾澎涛等: "基于多特征的视频场景分类", 《计算机应用研究》, vol. 35, no. 11, 30 November 2018 (2018-11-30), pages 3472 - 3475 *

Also Published As

Publication number Publication date
CN113569605B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
US11481585B2 (en) Segmentation of data
US11631248B2 (en) Video watermark identification method and apparatus, device, and storage medium
Minhas et al. Incremental learning in human action recognition based on snippets
WO2021129181A1 (en) Portrait segmentation method, model training method and electronic device
CN111291819A (zh) 图像识别方法、装置、电子设备及存储介质
WO2014205231A1 (en) Deep learning framework for generic object detection
CN112734775A (zh) 图像标注、图像语义分割、模型训练方法及装置
CN111582409A (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111859149A (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
WO2023040506A1 (zh) 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN111783754B (zh) 基于部位上下文的人体属性图像分类方法、***和装置
CN111126396A (zh) 图像识别方法、装置、计算机设备以及存储介质
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN113434722B (zh) 图像分类方法、装置、设备及计算机可读存储介质
CN115482021A (zh) 多媒体信息推荐方法、装置、电子设备及存储介质
CN115098732B (zh) 数据处理方法及相关装置
CN113569605B (zh) 视频信息处理方法、装置、电子设备及存储介质
Martínez et al. Spatio‐temporal multi‐scale motion descriptor from a spatially‐constrained decomposition for online action recognition
CN114328904A (zh) 内容处理方法、装置、计算机设备和存储介质
CN115587297A (zh) 构建图像识别模型和图像识别的方法、装置、设备及介质
CN117156078B (zh) 一种视频数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant