CN115243031A - 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质 - Google Patents

一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质 Download PDF

Info

Publication number
CN115243031A
CN115243031A CN202210687345.3A CN202210687345A CN115243031A CN 115243031 A CN115243031 A CN 115243031A CN 202210687345 A CN202210687345 A CN 202210687345A CN 115243031 A CN115243031 A CN 115243031A
Authority
CN
China
Prior art keywords
features
layer
quality
original
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210687345.3A
Other languages
English (en)
Other versions
CN115243031B (zh
Inventor
余烨
程勃
程茹秋
路强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Manufacturing Institute of Hefei University Technology
Original Assignee
Intelligent Manufacturing Institute of Hefei University Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Manufacturing Institute of Hefei University Technology filed Critical Intelligent Manufacturing Institute of Hefei University Technology
Priority to CN202210687345.3A priority Critical patent/CN115243031B/zh
Publication of CN115243031A publication Critical patent/CN115243031A/zh
Application granted granted Critical
Publication of CN115243031B publication Critical patent/CN115243031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质,属于视频质量评价领域,该***包括:特征提取模块,用于提取视频中大感受野的原始时空维度特征;解耦模块,用于将原始时空维度特征解耦成原始空间特征和/或原始时间特征;质量注意力机制模块,用于接收原始空间特征,对提取的原始空间特征施加与视频质量相关的权重;其中利用视频在空间上的注意力情况对其实施注意力机制,利用质量提取模块获得所需的注意力参数,利用质量注入模块共享参数,并优化提取到的特征,使得特征在空间上更加关注质量相关信息而不是仅关注失真信息;同时在时间维上突出重要视频帧所占的作用,从而提高视频评价质量。

Description

一种基于质量注意力机制的视频时空特征优化方法、***、电 子设备及存储介质
技术领域
本发明属于视频质量评价技术领域,具体地说,涉及一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质。
背景技术
移动网络的发展给人们的生活带来极大的便利,而视频信息在短视频服务、智慧生活等众多场景发挥了重要作用。伴随着视频技术的快速发展,用户对于视频服务的体验质量要求原来越高。而在视频采集、编码、传输等各个阶段对视频质量进行评价对于提供更好的体验质量具有非常重要的意义。
在视频质量评价中,视频中包含的失真会极大地影响其质量,而失真的种类非常多,因此想要提取这些失真信息对质量的影响难度较大。目前主要有两种方法,其一,是通过使用卷积神经网络自动提取视频特征,这种方法利用卷积神经网络自动学习视频中的失真信息来完成质量评价。其二,是利用三维的卷积神经网络在提取特征后直接进行映射或者处理时间维信息。然而无论是第一种方法还是第二种方法均忽略了视频中除失真外还存在一些影响主观感知的其他因素。这些因素虽然不属于失真类别,比如视频过曝光、抖动和伪影等,但它们最终仍会极大地影响视频的质量,使得最终得出的评价结果往往与实际感知存在较大偏差。
发明内容
针对现有的视频评价过程中忽略了视频曝光、抖动和伪影,造成评价结果往往与实际感知存在较大偏差的问题,本发明提供一种基于质量注意力机制的视频时空特征优化方法和***,利用视频在空间上的注意力情况对其实施注意力机制,使视频的空间特征更关注于质量相关的信息,利用质量提取单元块优化提取到的特征,使得特征在空间上更加关注质量相关信息而不是仅关注失真信息,同时在时间维上突出重要视频帧所占的作用,从而提高视频评价的准确性。
为解决或者至少部分解决上述问题,本发明采用如下的技术方案。
本发明第一方面提供一种基于质量注意力机制的视频时空特征优化***,所述***包括:
特征提取模块,用于提取视频中大感受野的原始时空维度特征;
解耦模块,用于将所述原始时空维度特征解耦成原始空间特征和/或原始时间特征;及
质量注意力机制模块,用于接收所述原始空间特征,对提取的所述原始空间特征施加与视频质量相关的权重;及
时间特征融合模块,用于接受所述原始时间特征,对提取的所述原始时间特征施加与时间维相关的权重,将施加的时间特征和空间特征进行特征重构得到最终的时空特征;
其中,所述质量注意力机制模块包括质量提取单元和空间质量注入单元,所述质量提取单元块用于提取原始空间特征中对视频质量具有适应性的模型参数;
所述空间质量注入单元用于根据适应性的模型参数对原始空间特征加权,得到优化后的空间特征。
作为一种实施方式,所述的质量提取单元块包括下采样层、信息参数共享层、池化层以及全连接层;
所述下采样层用于对输入的原始空间特征进行下采样操作;
所述信息参数共享层用于提取下采样后的空间特征,所述池化层对信息参数共享层中每一层的输出特征进行全局平均池化操作得到预定大小的特征图;
所述全连接层用于接收由每一层池化后得到的特征图进行张量拼接得到的高层语义特征,并进行映射得到最终的质量分数,保留对视频质量具有适应性的模型参数。
作为一种实施方式,所述的空间质量注入单元的结构包括空间丢弃层、信息参数共享层以及第一矩阵点乘层;
空间丢弃层,用于对原始空间特征重置,得到重置后的空间特征;
信息参数共享层,用于提取重置后空间特征与质量信息相关的权重,将所述权重经过激活函数激活得到第一权重向量,其中所述信息参数共享层是根据所述模型参数配置的;
第一矩阵点乘层,用于将权重向量与原始空间特征进行矩阵点乘,得到优化后的空间特征。
作为一种实施方式,所述时空特征融合模块包括时间维加权模块,所述时间维加权模块包括一维卷积提取层和第二矩阵点乘层;
所述一维卷积提取层,用于提取原始时间特征得到时间维的权重特征,将时间维的权重特征转为第二权重向量;
所述第二矩阵点乘层,利用矩阵点乘将所述第二权重向量施加在原时间特征中突出显著视频帧的作用,获得优化后的时间特征。
作为一种实施方式,所述时空特征融合模块还包括特征重构模块,所述特征重构模块用于将优化后的时间特征和优化后的空间特征融合重构,得到优化的最终时空特征。
作为一种实施方式,所述的特征提取模块为三维空洞卷积网络模型,所述三维空洞卷积网络模型包括:
第一卷积层,用以提取底层视频特征同时进行下采样;
空洞卷积层,用于捕捉具有大感受野的特征,所述特征具有长时间序列中连贯的动作信息;
池化层,在三个分支后分别进行自适应池化得到维度相同的特征图用以张量拼接;及
第二卷积层,用于提取张量拼接后的特征向量的高层时空语义特征,得到原始时空维度特征。
本发明第二方面提供一种基于注意力机制的视频时空特征优化方法,所述方法包括如下步骤:
提取视频中大感受野的原始时空维度特征;
将所述原始时空维度特征解耦成原始空间特征和/或原始时间特征
接收所述原始空间特征,对提取的所述原始空间特征施加与视频质量相关的权重;
根据适应性的模型参数对原始空间特征加权,得到优化后的空间特征;
接收所述原始时间特征,对时间特征进行时间维加权得到优化后的时间特征;
将优化后的时间特征和空间特征进行特征重构得到最终的时空特征。
本发明第三方面提供一种基于注意力机制的视频质量评价方法,所述方法包括如下步骤:
采用上述的基于注意力机制的视频时空特征优化方法得到优化的最终时空特征;
所述视频质量评价方法包括:采用张量拉伸将最终时空特征拉伸为一维向量,再利用全连接层进行特征映射得到最终的视频质量分数;
为约束时空特征与视频质量间的映射,基于线性回归损失函数MSE Loss的思想,结合相似度指标作为最终的损失函数,整个损失函数计算公式如下:
Figure BDA0003700133320000031
其中,Sp代表视频质量评价预测值,St代表视频质量评价真实值。
本发明第四方面提供一种电子设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器依次连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的方法。
本发明第五方面提供一种可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述的方法。
相比于现有技术,本发明的有益效果为:
(1)本发明示例利用视频在空间上的注意力情况对其实施注意力机制,使视频的空间特征更关注于质量相关的信息,利用提取的模型参数将质量注意力信息注入到提取的大感受野的时空维特征中,利用该参数提取质量相关的注意力权重,利用该权重优化空间特征,使得质量提取单元块优化提取到的特征在空间上更加关注质量相关信息而不是仅关注失真信息,同时在时间维上突出重要视频帧所占的作用,从而提高视频评价的准确性。
(2)本发明示例利用基于三维空洞卷积网络的特征提取模块,去提取具有更大感受野的时空维特征,大感受野能够捕捉原视频中更广泛的空间信息与时间维上更长的信息,由此捕捉长时间序列的连贯动作信息,在得到具有连贯动作信息的特征之后,该特征在后续被优化过程中可以有效地衡量动作对视频质量的影响。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。附图中:
图1为本发明实施例提供的一种基于注意力机制的视频时空特征优化***框图;
图2为本发明实施例提供的一种基于质量注意力机制的视频时空特征优化方法流程图;
图3为本发明实施例提供的三维空洞卷积网络结构图;
图4图示了根据本申请实施例的电子设备的框图;
图5为本发明实施例提供的质量提取单元结构图;
图6为本发明实施例提供的空间质量注入单元结构图;
图7为本发明实施例提供的时空特征融合模块框图;
图8为本发明实施例提供的时空特征融合模块结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
示例性***
如图1所示,本实施例公开一种基于质量注意力机制的视频时空特征优化***,所述***主要包括:特征提取模块20、解耦模块30以及质量注意力机制模块40。
具体的,特征提取模块20,用于提取视频中大感受野的原始时空维度特征;其中更大感受野的时空维特征,能够捕捉原视频中更广泛的空间信息与时间维上更长的信息。
解耦模块30,用于将所述原始时空维度特征解耦成原始空间特征和/或原始时间特征;质量注意力机制40,用于接收原始空间特征,对提取的原始空间特征施加与视频质量相关的权重;其中,质量注意力机制40包括质量提取单元410和空间质量注入单元420,质量提取单元块用于提取原始空间特征对视频质量具有适应性的模型参数;空间质量注入单元用于根据适应性的模型参数对原始空间特征加权,得到优化后的空间特征;时空特征融合模块,用于接收所述原始时间特征,对时间特征进行时间维加权得到优化后的时间特征,再将优化后的时间特征和优化后的空间特征融合重构,得到优化的最终时空特征。
本示例中特征提取模块20区别于传统的卷积提取神经网络,采用一个三维空洞卷积神经网络模型,该模型包括第一卷积层,用以提取底层视频特征同时进行下采样;空洞卷积层,用于捕捉具有大感受野的特征;池化层,用于进行自适应池化得到维度相同的特征图用以张量拼接;第二卷积层,用于提取张量拼接后的特征向量的高层时空语义特征,得到原始时空维度特征。
本示例输入是一个大小为[t,h,w,c]的视频,t代表视频的时间长短、h代表视频帧的高度、w代表视频帧的宽度,c则代表视频帧的通道数。
如图3所示,在具体实施过程中,本示例中三维空洞卷积神经网络模型主要由五层卷积操作与解耦操作组成,从左向右,第一层为第一卷积层,用来提取底层视频特征,下采样层是卷积核大小为5×5×2,步长为2的三维卷积层。
第二层是空洞卷积层,其由两层相同的空洞卷积组合加池化层的结构串联而成,这两层则是该网络模型的核心,用来捕捉具有大感受野的特征,以此来捕捉长时间序列中连贯的动作信息,这里提取的特征具有长时间序列中连贯的动作信息,在实施过程中每个空洞卷积组合由三个空洞卷积分支操作构成,卷积核大小为5×5×1,步长为1,每一个空洞卷积的膨胀率都不相同,分别设置为2、4、6。
池化层,用于对上述空洞卷积层的三个分支卷积后,再分别进行全局平均池化(Global Average Pooling,GAP)得到大小同为[t1,h1,w1,c1]的三个特征,并将它们进行张量拼接。
第二卷积层用于提取张量拼接后的特征向量的高层时空语义特征,得到原始时空维度特征。在具体实施过程第二卷积层是两个卷积核大小为5×5×2,步长为2的卷积层提取高层时空语义特征,大小为[t2,h2,w2,c2]。其中,时空维特征的通道未在图中表示。
在一些实施例中,解耦模块30用于将原始时空维度特征解耦成原始空间特征和原始时间特征;再输入进质量信息注入单元。
具体在解耦操作过程中:首先利用pytorch深度学习算法框架中的torch.zeros方法生成大小为[t2,1,1,c2]的中间变量,再利用python中的切片法从大小为[t2,h2,w2,c2]的时空语义特征中保存大小为[t2,1,1,c2]的时间维数据;再利用squeeze降维操作去除多余的维度,得到大小为[t2,c2]的原始时间特征,再利用torch.zeros方法生成大小为[1,h2,w2,c2]的中间变量,利用切片法从时空语义特征中得到大小[1,h2,w2,c2]的空间维数据保存至中间变量,再进行squeeze后得到大小为[h2,w2,c2]的原始空间特征。
在一些实施例中,质量提取单元块包括下采样层、信息参数共享层、池化层以及全连接层;主要包括全局平均池化和标准池化操作(Global Standard Pooling,GSP)以及张量拼接操作构成。
参见图5,下采样层用于对输入的原始空间特征进行下采样操作;下采样层具体的是使用四个卷积核大小为3×3步长为2的卷积层对输入进行下采样。
其中信息参数共享层用于提取下采样后的空间特征,而池化层对信息参数共享层中每一层的输出特征进行全局平均池化操作得到预定大小的特征图;本示例中信息参数共享层具体是由一个卷积核大小为3×3步长为1的卷积层、反卷积层以及卷积核大小为1×1步长为1的卷积层构成。应当理解,下采样层和信息参数共享层是骨干网络的基本结构。
作为优选的,后续在骨干网络的基础上为了更好地捕捉失真信息,额外保留了信息参数共享层中每一层的输出特征,信息参数共享层还包括全连接层,本示例全连接层用于接收由每一层池化后得到的特征图进行张量拼接得到的高层语义特征,并进行映射得到最终的质量分数,保留对视频质量具有适应性的模型参数。
具体的,对每一层的输出特征进行GAP和GSP操作得到大小为C×1×1的特征图,将每一层池化后得到的特征图在通道维进行张量拼接得到最终的高层语义特征,最后压缩维度送入全连接层中进行映射得到最终的质量分数。
在三维空洞卷积提取到时空特征后,将其解耦后得到的空间特征与时间特征,空间质量注入模块则是分别对空间特征和时间特征进行处理。
如图6所示,在一些实施例中,空间质量注入单元的结构包括空间丢弃层、信息参数共享层以及第一矩阵点乘层。
空间丢弃层,用于对原始空间特征重置,得到重置后的空间特征。
具体的,这里先利用空间丢弃层对原始空间特征中不重要的一些特征值置为0,计算公式如式(1)和(2)所示,利用伯努利函数根据概率值p(此处设置为0.1)生成概率向量rj (l),将输入的空间特征y(l)与概率向量相乘得到空间特征(Spatial dropout)。
rj (l)~Bernoulli(p) (1)
Figure BDA0003700133320000061
信息参数共享层,用于提取重置后空间特征与质量信息相关的权重,将所述权重经过激活函数激活得到第一权重向量,其中所述信息参数共享层是根据上述模型参数配置的。
具体的,这里信息参数共享层的结构与质量提取单元中的信息共享参数层结构相同,但此处模型的参数不是通过训练得到,而是直接使用信息共享参数模块保留的参数P,利用信息注入模块提取质量信息相关的权重,再将该权重经过softmax激活函数得到值为0~1之间的第一权重向量。
第一矩阵点乘层,用于将权重向量与原始空间特征进行矩阵点乘,得到优化后的空间特征。
如图7所示,在一些实施例中,时空特征融合模块50还包括时间维加权模块510,时间加权模块包括一维卷积提取层和第二矩阵点乘层;
一维卷积提取层,用于提取原始时间特征得到时间维的权重特征,将时间维的权重特征转为第二权重向量。
具体的,利用卷积核大小为3步长为1的一维卷积提取时间维权重特征,使用softmax函数将特征转为值在0~1之间的权重向量。
第二矩阵点乘层,利用矩阵点乘将所述第二权重向量施加在原时间特征中突出显著视频帧的作用,获得优化后的时间特征。
又如图7所示,在一些实施例中,时空特征融合模块50还包括特征重构模块520,特征重构模块用于将优化后的时间特征和优化后的空间特征融合重构,得到优化的最终时空特征。
具体,这里是利用特征重构模块将空间特征与时间维特征进行融合,融合的过程如下:通过pytorch深度学习算法框架中的torch.zeros方法生成大小为[t3,h3,w3,c3],元素值全为0的中间变量,将优化的空间特征扩增至[1,h2,w2,c2]大小,再利用python中的切片法将空间特征的特征值保存至中间变量,再将时间维特征扩增至[t2,1,1,c2]大小,利用切片法将时间维特征保存至中间变量中,至此中间变量即最终的时空维特征。
示例性方法
如图2所示,一种基于注意力机制的视频时空特征优化方法,所述方法包括如下步骤:
S102:提取视频中大感受野的原始时空维度特征。
具体的,本示例输入是一个大小为[t,h,w,c]的视频,t代表视频的时间长短、h代表视频帧的高度、w代表视频帧的宽度,c则代表视频帧的通道数。
如图3所示,在具体实施过程中,利用三维空洞卷积神经网络模型提取视频中大感受野的原始时空维度特征,三维空洞卷积神经网络模型由五层卷积操作组成,从左向右,第一层为第一卷积层,用来提取底层视频特征同时进行下采样,是卷积核大小为5×5×2,步长为2的三维卷积层。
第二层是空洞卷积层,其为两层,这两层则是该网络模型的核心,用以捕捉具有大感受野的特征,并捕捉长时间序列中连贯的动作信息,这里提取的特征具有长时间序列中连贯的动作信息,在实施过程中第二层由三个空洞卷积分支操作构成,卷积核大小为5×5×1,步长为1,每一个空洞卷积的膨胀率都不相同,分别设置为2、4、6。
池化层,用于对上述空洞卷积层的三个分支卷积后,再分别进行全局平均池化(Global Average Pooling,GAP)得到大小同为[t1,h1,w1,c1]的三个特征,并将它们进行张量拼接。
第二卷积层用于提取张量拼接后的特征向量的高层时空语义特征,得到原始时空维度特征。在实施过程是两个卷积核大小为5×5×2,步长为2的卷积层提取高层时空语义特征。其中,时空维特征的通道未在图中表示。
S104:将所述原始时空维度特征解耦成原始空间特征和/或原始时间特征。
具体的,在解耦操作过程中:首先利用pytorch深度学习算法框架中的torch.zeros方法生成大小为[t2,1,1,c2]的中间变量(tensor),再利用python中的切片法从大小为[t2,h2,w2,c2]的时空语义特征中保存大小为[t2,1,1,c2]的时间维数据;再利用squeeze降维操作去除多余的维度,得到大小为[t2,c2]的原始时间特征。同样的,利用torch.zeros方法生成大小为[1,h2,w2,c2]的中间变量,利用切片法从时空语义特征中得到大小[1,h2,w2,c2]的空间维数据保存至中间变量,再进行squeeze后得到大小为[h2,w2,c2]的原始空间特征。
S106:接收所述原始空间特征,对提取的所述原始空间特征施加与视频质量相关的权重。
S108:提取原始空间特征对视频质量具有适应性的模型参数。
具体的,本示例利用质量提取单元块提取原始空间特征对视频质量具有适应性的模型参数。
S110:根据适应性的模型参数对原始空间特征加权,得到优化后的空间特征。
具体的,本示例先利用质量提取单元块用于提取原始空间特征中对视频质量具有适应性的模型参数;
再利用空间质量注入单元,根据适应性的模型参数对原始空间特征加权,得到优化后的空间特征。在具体实施过程中,空间质量注入单元的结构包括空间丢弃层、信息参数共享层以及第一矩阵点乘层;空间丢弃层,用于对原始空间特征重置,得到重置后的空间特征;
信息参数共享层,用于提取重置后空间特征与质量信息相关的权重,将所述权重经过激活函数激活得到第一权重向量,其中所述信息参数共享层是根据所述模型参数配置的;第一矩阵点乘层,用于将权重向量与原始空间特征进行矩阵点乘,得到优化后的空间特征。
S112:将优化后的时间特征和优化后的空间特征融合重构,得到优化的最终时空特征。
具体的,优化时间特征步骤主要是先利用一维卷积提取原始时间特征得到时间维的权重特征,将时间维的权重特征转为第二权重向量;再利用矩阵点乘将所述第二权重向量施加在原时间特征中突出显著视频帧的作用,获得优化后的时间特征。
特征融合重构的过程如下:通过pytorch深度学习算法框架中的torch.zeros方法生成大小为[t3,h3,w3,c3],元素值全为0的中间变量(tensor),首先将优化的空间特征扩增至[1,h2,w2,c2]大小,再利用python中的切片法将空间特征的特征值保存至中间变量,再将时间维特征扩增至[t2,1,1,c2]大小,利用切片法将时间维特征保存至中间变量中,至此中间变量即最终的时空维特征。
作为一个实施例,还提供一种视频质量评价方法,所述方法包括如下步骤:
采用如上述的特征提取***处理得到优化的最终时空特征;
所述视频质量评价方法包括:采用张量拉伸将最终时空特征拉伸为一维向量,再利用全连接层进行特征映射得到最终的视频质量分数。
优选的,为约束时空特征与视频质量间的映射,采用线性回归损失函数MSELoss,结合相似度指标作为最终的损失函数,整个损失函数计算公式如下:
Figure BDA0003700133320000091
其中,Sp和St分别代表视频质量评价预测值与视频质量评价真实值。
示例性电子设备
下面,参考图4来描述根据本申请实施例的电子设备。该电子设备可以是可移动设备本身,或与其独立的单机设备,该单机设备可以与可移动设备进行通信,以从它们接收所采集到的输入信号,并向其发送所选择的目标决策行为。
图4展示了根据本申请实施例的电子设备的框图。
如图4所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的决策行为决策方法以及/或者其他期望的功能。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。例如,该输入设备13可以包括例如车载诊断***(OBD)、统一诊断服务(UDS)、惯性测量单元(IMU)、摄像头、激光雷达、毫米波雷达、超声波雷达、车载通信(V2X)等各种设备。该输入设备13还可以包括例如键盘、鼠标等等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的决策行为决策方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的决策行为决策方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种基于质量注意力机制的视频时空特征优化***,其特征在于,所述***包括:
特征提取模块,用于提取视频中大感受野的原始时空维度特征;
解耦模块,用于将所述原始时空维度特征解耦成原始空间特征和/或原始时间特征;及
质量注意力机制模块,用于接收所述原始空间特征,对提取的所述原始空间特征施加与视频质量相关的权重;
其中,所述质量注意力机制模块包括质量提取单元和空间质量注入单元,所述质量提取单元块用于提取原始空间特征中对视频质量具有适应性的模型参数;
所述空间质量注入单元用于根据适应性的模型参数提取质量相关权重并对原始空间特征加权,得到优化后的空间特征。
2.根据权利要求1所述的一种基于质量注意力机制的视频时空特征优化***,其特征在于,所述的质量提取单元块包括下采样层、信息参数共享层、池化层以及全连接层;
所述下采样层用于对输入的原始空间特征进行下采样操作;
所述信息参数共享层用于提取下采样后的空间特征,所述池化层对信息参数共享层中每一层的输出特征进行全局平均池化操作得到预定大小的特征图;
所述全连接层用于接收由每一层池化后得到的特征图进行张量拼接得到的高层语义特征,并进行映射得到最终的质量分数,保留对视频质量具有适应性的模型参数。
3.根据权利要求2所述的一种基于质量注意力机制的视频时空特征优化***,其特征在于,所述的空间质量注入单元的结构包括空间丢弃层、信息参数共享层以及第一矩阵点乘层;
空间丢弃层,用于对原始空间特征重置,得到重置后的空间特征;
信息参数共享层,用于提取重置后空间特征与质量信息相关的权重,将所述权重经过激活函数激活得到第一权重向量,其中所述信息参数共享层是根据所述模型参数配置的;
第一矩阵点乘层,用于将权重向量与原始空间特征进行矩阵点乘,得到优化后的空间特征。
4.根据权利要求1所述的一种基于质量注意力机制的视频时空特征优化***,其特征在于,还包括时空特征融合模块,所述时空特征融合模块包括时间维加权模块,所述时间维加权模块包括一维卷积提取层和第二矩阵点乘层;
所述一维卷积提取层,用于提取原始时间特征得到时间维的权重特征,将时间维的权重特征转为第二权重向量;
所述第二矩阵点乘层,利用矩阵点乘将所述第二权重向量施加在原时间特征中,获得优化后的时间特征。
5.根据权利要求4所述的一种基于注意力机制的视频时空特征优化***,其特征在于,所述时空特征融合模块还包括特征重构模块,所述特征重构模块用于将优化后的时间特征和优化后的空间特征融合重构,得到优化的最终时空特征。
6.根据权利要求1所述的一种基于质量注意力机制的视频时空特征优化***,其特征在于,所述的特征提取模块为三维空洞卷积网络模型,所述三维空洞卷积网络模型包括:
第一卷积层,用以提取底层视频特征同时进行下采样;
空洞卷积层,用于捕捉具有大感受野的特征,该特征具有长时间序列中连贯的动作信息;
池化层,用于自适应池化得到维度相同的特征图用以张量拼接;及
第二卷积层,用于提取张量拼接后的特征向量的高层时空语义特征,得到原始时空维度特征。
7.一种基于注意力机制的视频时空特征优化方法,其特征在于,所述方法包括如下步骤:
提取视频中大感受野的原始时空维度特征;
将所述原始时空维度特征解耦成原始空间特征和/或原始时间特征;
提取原始空间特征对视频质量具有适应性的模型参数;
根据适应性的模型参数对原始空间特征加权,得到优化后的空间特征;
接收所述原始时间特征,对时间特征进行时间维加权得到优化后的时间特征;
将优化后的时间特征和空间特征进行特征重构得到最终的时空特征。
8.一种基于注意力机制的视频质量评价方法,其特征在于,所述方法包括如下步骤:
采用如权利要求7所述的基于注意力机制的视频时空特征优化方法得到优化的最终时空特征;
所述视频质量评价方法包括:采用张量拉伸将最终时空特征拉伸为一维向量,再利用全连接层进行特征映射得到最终的视频质量分数。
9.一种电子设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器依次连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求7-8任一项所述的方法。
10.一种可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求7-8任一项所述的方法。
CN202210687345.3A 2022-06-17 2022-06-17 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质 Active CN115243031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210687345.3A CN115243031B (zh) 2022-06-17 2022-06-17 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210687345.3A CN115243031B (zh) 2022-06-17 2022-06-17 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115243031A true CN115243031A (zh) 2022-10-25
CN115243031B CN115243031B (zh) 2024-06-21

Family

ID=83670319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210687345.3A Active CN115243031B (zh) 2022-06-17 2022-06-17 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115243031B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290809A (zh) * 2023-11-22 2023-12-26 小舟科技有限公司 多源异构生理信号融合方法及装置、设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209050A (zh) * 2019-05-24 2019-09-06 合肥工业大学 复杂智能***中多智能体协作的优化方法和***
US20190311223A1 (en) * 2017-03-13 2019-10-10 Beijing Sensetime Technology Development Co., Ltd. Image processing methods and apparatus, and electronic devices
WO2021248859A1 (zh) * 2020-06-11 2021-12-16 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN113869178A (zh) * 2021-09-18 2021-12-31 合肥工业大学 一种基于时空维度的特征提取***、视频质量评价***
CN114598833A (zh) * 2022-03-25 2022-06-07 西安电子科技大学 基于时空联合注意力的视频插帧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311223A1 (en) * 2017-03-13 2019-10-10 Beijing Sensetime Technology Development Co., Ltd. Image processing methods and apparatus, and electronic devices
CN110209050A (zh) * 2019-05-24 2019-09-06 合肥工业大学 复杂智能***中多智能体协作的优化方法和***
WO2021248859A1 (zh) * 2020-06-11 2021-12-16 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN113869178A (zh) * 2021-09-18 2021-12-31 合肥工业大学 一种基于时空维度的特征提取***、视频质量评价***
CN114598833A (zh) * 2022-03-25 2022-06-07 西安电子科技大学 基于时空联合注意力的视频插帧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHIA-CHI CHEN: "A New Framework Based on Spatio-Temporal Information for Enhancing Compressed Video", 《2021 4TH INTERNATIONAL CONFERENCE ON INFORMATION COMMUNICATION AND SIGNAL PROCESSING (ICICSP)》, 25 November 2021 (2021-11-25) *
程茹秋: "图像与视频质量评价综述", 《中国图象图形学报》, 16 May 2022 (2022-05-16) *
董猛;吴戈;曹洪玉;景文博;于洪洋;: "基于注意力残差卷积网络的视频超分辨率重构", 长春理工大学学报(自然科学版), no. 01, 15 February 2020 (2020-02-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290809A (zh) * 2023-11-22 2023-12-26 小舟科技有限公司 多源异构生理信号融合方法及装置、设备、存储介质
CN117290809B (zh) * 2023-11-22 2024-03-12 小舟科技有限公司 多源异构生理信号融合方法及装置、设备、存储介质

Also Published As

Publication number Publication date
CN115243031B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
WO2021248859A1 (zh) 视频分类方法、装置、设备及计算机可读存储介质
CN113705880A (zh) 基于时空注意力图卷积网络的交通速度预测方法和装置
EP3885966B1 (en) Method and device for generating natural language description information
US20230401833A1 (en) Method, computer device, and storage medium, for feature fusion model training and sample retrieval
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
JP7096431B2 (ja) ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置
CN112883231B (zh) 短视频流行度预测方法、***、电子设备及存储介质
CN110163052B (zh) 视频动作识别方法、装置和机器设备
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN113239825B (zh) 一种复杂场景下高精度烟草甲虫检测方法
CN112561028A (zh) 训练神经网络模型的方法、数据处理的方法及装置
CN115243031A (zh) 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质
KR20220018633A (ko) 이미지 검색 방법 및 장치
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN111797973A (zh) 确定模型结构的方法、装置和电子***
CN115588150A (zh) 基于改进YOLOv5-L的宠物犬视频目标检测方法及***
CN114897126A (zh) 时延预测方法及装置、电子设备、存储介质
CN114332678A (zh) 数据处理方法、装置、存储介质及设备
CN115409150A (zh) 一种数据压缩方法、数据解压方法及相关设备
CN117935116B (zh) 基于人工智能的实时火场态势感知模型训练方法及***
CN116881575B (zh) 内容推送方法、装置、计算机设备和存储介质
CN115278303B (zh) 视频处理方法、装置、设备以及介质
CN111314708B (zh) 一种图像数据压缩方法、装置、存储介质和电子设备
US20230262237A1 (en) System and methods for video analysis
CN117319655B (zh) 一种图像压缩处理方法、***、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant