CN110365966A - 一种基于视窗的视频质量评价方法及装置 - Google Patents

一种基于视窗的视频质量评价方法及装置 Download PDF

Info

Publication number
CN110365966A
CN110365966A CN201910500485.3A CN201910500485A CN110365966A CN 110365966 A CN110365966 A CN 110365966A CN 201910500485 A CN201910500485 A CN 201910500485A CN 110365966 A CN110365966 A CN 110365966A
Authority
CN
China
Prior art keywords
video frame
marred
mass fraction
extracted
marred video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910500485.3A
Other languages
English (en)
Other versions
CN110365966B (zh
Inventor
李辰
徐迈
蒋铼
张善翌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN201910500485.3A priority Critical patent/CN110365966B/zh
Publication of CN110365966A publication Critical patent/CN110365966A/zh
Application granted granted Critical
Publication of CN110365966B publication Critical patent/CN110365966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及一种视窗的视频质量评价方法及装置,其中基于视窗的视频质量评价方法包括:获取受损视频和参考视频;所述受损视频包括多个受损视频帧,且所述参考视频包括多个参考视频帧;基于每个受损视频帧及对应的参考视频帧,预先训练的视窗提取网络及视窗质量网络,确定每个受损视频帧的质量分数;基于每个受损视频帧的质量分数,确定所述受损视频的质量分数。更加准确地提取受关注的视窗,本发明实施例中,更能综合视窗画面的质量分数,即可作为整个视频的质量分数。

Description

一种基于视窗的视频质量评价方法及装置
技术领域
本发明实施例涉及视频质量评价技术领域,具体涉及一种基于视窗的视频质量评价方法及装置。
背景技术
随着虚拟现实技术的迅速发展,全景视频作为一种新的多媒体形式,已经进入人们的日常生活里。通常情况下,观看者通过佩戴头戴式显示器(head mounted display,HMD)观看全景视频,因此只有HMD中视窗范围内的视频画面是可视的。然而,球面的视频内容要求极高的分辨率以保证视频内容的清晰展示,为了在带宽受限的信道中传输高分辨率的全景视频,需要视频压缩技术来节省编码后的码率,但是这同时也会导致视觉质量的降低。因此,迫切需要对全景视频质量评价的研究,以指导全景视频编码处理。
目前,基于深度学***面视频质量评价方法,大都基于剪裁出图像块进行质量评价。受到这些方法的启发,一种全景视频质量评价方法利用卷积神经网络来估计每个图像块的质量分数和权重,然后通过对所有图像块的质量分数计算加权平均得到全景视频整体的质量分数。然而观看者在观看全景视频时,看到的是视窗内容,而不是图像块。因此,基于视窗进行全景视频质量评价更加合理,更能反映人感觉到的视觉质量。但目前并没有基于视窗的视频质量评价方法被提出。
发明内容
为了解决现有技术存在的至少一个问题,本发明的至少一个实施例提供了一种基于视窗的视频质量评价方法及装置。
第一方面,本发明实施例提出一种基于视窗的视频质量评价方法,所述方法包括:
获取受损视频和参考视频;所述受损视频包括多个受损视频帧,且所述参考视频包括多个参考视频帧;
基于每个受损视频帧及对应的参考视频帧,预先训练的视窗提取网络及视窗质量网络,确定每个受损视频帧的质量分数;
基于每个受损视频帧的质量分数,确定所述受损视频的质量分数。
在一些实施例中,确定任一受损视频帧的质量分数,均包括:
基于所述受损视频帧,通过所述视窗提取网络得到多个候选视窗位置及每个所述候选视窗位置对应权重;
基于所述多个候选视窗位置、所述受损视频帧及对应的参考视频帧,通过视窗质量网络得到被提取视窗的显著性图像和质量分数;
平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数。
在一些实施例中,基于所述受损视频帧,通过所述视窗提取网络得到多个候选视窗位置及每个所述候选视窗位置对应权重,包括:
基于所述受损视频帧,确定时域变化量;
基于所述受损视频帧和所述时域变化量,通过所述视窗提取网络得到多个候选视窗位置及每个所述候选视窗位置对应的权重。
在一些实施例中,基于所述受损视频帧,确定时域变化量,包括:
计算所述受损视频帧与之前的第N个受损视频帧之间的时域变化量。
在一些实施例中,基于所述多个候选视窗位置、所述受损视频帧及对应的参考视频帧,通过视窗质量网络得到被提取视窗的显著性图像和质量分数,包括:
基于所述受损视频帧及对应的参考视频帧,确定所述受损视频帧与对应的参考视频帧之间的空域变化量;
基于所述多个候选视窗位置、所述空域变化量、所述受损视频帧及对应的参考视频帧,得到被提取视窗的图像及对应的空域变化量;
基于所述被提取视窗的图像及对应的空域变化量,通过所述视窗质量网络得到被提取视窗的显著性图像和质量分数。
在一些实施例中,基于所述多个候选视窗位置、所述空域变化量、所述受损视频帧及对应的参考视频帧,得到被提取视窗的图像及对应的空域变化量,包括:
基于每个所述候选视窗位置对应权重,从所述多个候选视窗位置中提取至少一个视窗位置,输出被提取的视窗位置及对应的权重;
将被提取的视窗位置、所述受损视频帧、所述空域变化量与所述参考视频帧进行对齐,得到被提取视窗的图像及对应的空域变化量。
在一些实施例中,平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数,包括:
基于被提取的视窗位置对应的权重,加权平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数。
在一些实施例中,平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数,包括:
算术平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数。
在一些实施例中,基于每个受损视频帧的质量分数,确定所述受损视频的质量分数,包括:
平均所有受损视频帧的质量分数,得到所述受损视频的质量分数。
第二方面,本发明实施例还提出一种基于视窗的视频质量评价装置,包括:
获取单元,用于获取受损视频和参考视频;所述受损视频包括多个受损视频帧,且所述参考视频包括多个参考视频帧;
第一确定单元,用于基于每个受损视频帧及对应的参考视频帧,预先训练的视窗提取网络及视窗质量网络,确定每个受损视频帧的质量分数。
第二确定单元,用于基于每个受损视频帧的质量分数,确定所述受损视频的质量分数。
本发明实施例中通过预测人的头动位置更加准确地提取受关注的视窗,提高了视窗提取网络计算结果的准确性;另外,借助显著性预测任务辅助质量评价,再次提高了视频质量评价的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明的实施例提供的一种基于视窗的视频质量评价流程图;
图2是本发明的实施例提供的一种基于视窗的视频质量评价框架图;
图3是本发明的实施例提供的一种VP-net网络结构;
图4是本发明的实施例提供的一种VQ-net网络结构;
图5是本发明的实施例提供的一种VP-net网络结构;
图6是本发明的实施例提供的一种VQ-net网络结构。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
如图1所示,本实施例公开的方法可包括以下步骤101至103:
101:获取受损视频和参考视频。
102:基于每个受损视频帧及对应的参考视频帧,确定每个受损视频帧的质量分数。
103:基于每个受损视频帧的质量分数,确定受损视频的质量分数。
本发明实施例中,步骤101中,所述受损视频包括多个受损视频帧,且所述参考视频包括多个参考视频帧,根据受损视频帧和所述参考视频帧,计算所述受损视频帧与之前的第N个受损视频帧之间的时域变化量及所述受损视频帧与对应的参考视频帧之间的空域变化量。
计算得到时域变化量的方式,包括但不限于以下方式:可以为直接对两帧图像进行做差:Ft-Ft-Δt或Ft-Δt-Ft
计算得到空域变化量的方式,包括但不限于以下方式:可以为直接对两帧图像进行做差:
本发明实施例中,步骤102中,主要分为两个阶段:视窗提取和质量评价。在视窗提取阶段,通过预测人观看全景视频的头动位置,提取更受关注的视窗;在质量评价阶段,预测被提取视窗画面的质量分数。
可以理解,在本发明实施例中深度卷积神经网络应用于视窗提取和质量评价,分别为视窗提取网络(Viewport proposal network,VP-net)和视窗质量网络(Viewportquality network,VQ-net)。
将受损视频第t帧Ft和步骤101得到的时域变化量,输入VP-net,输出一系列候选视窗位置V={v1,…,vI}及相应权重其中,I为候选视窗的数量,由VP-net结构决定。
然后根据上述得到的候选视窗位置及相应权重,从候选视窗位置中提取多个视窗,同时输出被提取视窗的权重。本方法提出一种视窗软化非最大值抑制(non maximumsuppression,NMS)的方法,用于根据候选视窗位置及相应权重提取视窗。NMS的具体实施方式可以是但不限于本方法提出的视窗软化NMS。
然后将提取的视窗位置对齐到原始视频帧,并通过诺蒙尼日投影(又称日晷投影,球心投影,点切投影)逆变换获得视窗内容及视窗内的空域变化量。本方法给出诺蒙尼日投影逆变换的一种计算方式,诺蒙尼日投影逆变换的计算方式可以是但不限于此处给出的计算方式。
将被提取视窗的图像及其空域变化量,输入VQ-net,输出视窗的显著性图像和质量分数。
对于受损视频帧的质量分数有两种方法,包括如下:
根据被提取的视窗位置对应的权重,加权平均所有被提取视窗的质量分数,得到受损视频帧的质量分数;另外,还可以平均所有被提取视窗的质量分数,得到受损视频帧的质量分数。
具体如下:
1、输入受损视频和参考视频,记视频总帧数为T,视频帧按时序编号为1,2,…,T。对于本方法,每次输入受损视频第t帧Ft,第t-Δt帧Ft-Δt,参考视频第t帧到图1所示的框架中。其中,Δt为一参数,其合法取值范围为[1,T-1]内的整数,建议取值为1。t的取值范围为[Δt,T]内的整数。
2、预处理,从受损视频第t帧Ft和第t-Δt帧Ft-Δt计算得到时域变化量,从受损视频第t帧和参考视频第t帧计算得到空域变化量。
2.1计算得到时域变化量的方式,包括但不限于以下方式:可以为直接对两帧图像进行做差,即Ft-Ft-Δt或Ft-Δt-Ft;也可以为提取两帧间的稠密光流,提取方式包括但不限于Farneback算法,Horn-Schunck算法,FlowNet,FlowNet2.0。
2.2计算得到空域变化量的方式,包括但不限于以下方式:可以为直接对两帧图像进行做差,即也可以为计算两帧间的结构相似性等。
3、受损视频第t帧Ft和第2步得到的时域变化量,输入视窗提取网络(Viewportproposal network,VP-net),输出一系列候选视窗位置V={v1,…,vI}及相应权重其中,I为候选视窗的数量,由VP-net结构决定。
4、非最大值抑制(non maximum suppression,NMS),根据第3步候选视窗位置及相应权重,从候选视窗位置中提取k个视窗,同时输出被提取视窗的权重。本方法提出一种视窗软化NMS的方法,用于根据候选视窗位置及相应权重提取视窗。NMS的具体实施方式可以是但不限于本方法提出的视窗软化NMS。视窗软化NMS方法的具体步骤如下:
4.1输入:候选视窗位置V={v1,…,vI}及相应权重 由步骤3得到。设定大圆距离阈值dth,提取视窗数量阈值Kth。其中,dth的合法取值范围为(0,π],建议取值为π/24;Kth的合法取值范围为[1,I]之间的整数,建议取值为min{20,I}.
4.2初始化变量k←1,集合
4.3寻找最大权重的下标
4.4记函数d(v′,v″)为输入视窗位置v′与v″之间的大圆距离。对集合V中剩余的候选视窗位置,寻找与vι之间大圆距离小于dth的候选视窗位置的下标,组成集合,即I′←{ι′|d(vι′,vι)<dth,vι′∈V}.
本方法给出大圆距离的一种计算方式,大圆距离的计算方式可以是但不限于此处给出的计算方式。
4.4.1给定两球面位置v′=(φ′,θ′),v″=(φ″,θ″),其中φ′和φ″表示经度,θ′和θ″表示纬度,单位为rad。
4.4.2两球面位置之间的大圆距离
d(v′,v″)=arccos(sinθ′sinθ″+cosθ′cosθ″cos(φ′-φ″)).
4.5计算第k个被提取视窗的权重
4.6计算第k个被提取视窗的位置
4.7将被提取视窗的位置和权重加入输出集合:
4.8从输入集合中排除下标在I′中的候选视窗和权重:V←V\vι′|ι′∈I′,
4.9更新变量k←k+1.
4.10重复步骤4.3到4.9,直到或k>Kth.
4.11输出被提取视窗集合Vp及其权重集合Wp.
5、视窗对齐。将第4步提取的视窗位置对齐到原始视频帧,并通过诺蒙尼日投影(又称日晷投影,球心投影,点切投影)逆变换获得视窗内容及视窗内的空域变化量。
本方法给出诺蒙尼日投影逆变换的一种计算方式,诺蒙尼日投影逆变换的计算方式可以是但不限于此处给出的计算方式。
5.1输入第k个被提取视窗的位置其中分别是被提取视窗位置的经度和纬度,单位为rad;受损视频第t帧Ft,记其宽度为WF,高度为HF;步骤2得到的空域变化量其分辨率与Ft相同。
5.2初始化视窗图像Ck,记其宽度为W,高度为H。W和H的合法取值范围为任意正整数。建议取值为W=540,H=600.
5.3对Ck中一像素位置(x,y),计算一中间坐标(fx,fy),其与单位球面有相同的空间尺度:
其中aW和aH为视窗对应于W和H的角度范围,其取值与视窗图像分辨率和HMD的物理尺寸有关。对应于5.2中建议的视窗分辨率和市面上HMD的普遍情况,建议取值为aW=71π/180rad,aw=74π/180rad.
5.4借助(fx,fy),像素位置(x,y)对应的球面位置(φx,yx,y)可由下式得到,单位为rad:
其中c=arctanρ.
5.5将球面位置(φx,yx,y)映射到Ft的像素坐标(px,y,qx,y).此映射关系与输入视频所使用的映射格式有关。
本方法给出一种对应于等量矩形投影(equirectangular projection,ERP)的计算方法,当输入视频使用ERP时,计算方法可以是但不限于此处给出的计算方法。同时,输入视频可以是但不限于ERP。对应于其他映射方式的计算方法,可由其他映射方式的计算方法得到。
若输入视频使用ERP,则(px,y,qx,y)可由下式得到,单位为rad:
5.6其中ψ(·)为插值函数,包括但不限于最近邻插值、双线性插值、样条曲线插值。
5.7对所有坐标位置(x,y),x∈[1,W],y∈[1,H]且为整数,重复步骤5.3至5.6.
5.8初始化视窗空域变化量图像其分辨率与Ck相同。将Ck替换为Ft替换为重复步骤5.3至5.7.
对所有k=1,…,K,重复步骤5.1至5.8,得到所有被提取视窗的图像Ck,k=1,…,K及其空域变化量图像
6、对所有k=1,…,K,依次将被提取视窗的图像Ck及其空域变化量图像输入视窗质量网络(Viewport quality network,VQ-net),输出第k个视窗的显著性图像和质量分数sk.
7、平均所有被提取视窗的质量分数sk,k=1,…,K,得到输入受损视频帧Ft的质量分数本方法给出两种分数平均的计算方法,求质量分数的计算方法可以是但不限于此处给出的计算方法。
7.1给定所有被提取视窗的质量分数sk,k=1,…,K,可以是它们的算术平均数:
7.2给定所有被提取视窗的质量分数sk,k=1,…,K和被提取视窗的权重 可以是视窗质量分数的加权平均数:
然后,平均所有受损视频帧的质量分数,可以得到受损视频的质量分数。
8、对所有t∈[Δt,T]且为整数,重复步骤2到7,得到每个受损视频帧Ft的质量分数
对步骤8得到的质量分数求算术平均数,得到输入受损视频的质量分数
本实施例公开一种装置,可包括以下单元,具体说明如下:
获取单元,用于获取受损视频和参考视频;所述受损视频包括多个受损视频帧,且所述参考视频包括多个参考视频帧;
第一确定单元,用于基于每个受损视频帧及对应的参考视频帧,预先训练的视窗提取网络及视窗质量网络,确定每个受损视频帧的质量分数;
第二确定单元,用于基于每个受损视频帧的质量分数,确定所述受损视频的质量分数。
一:本发明实施例中提到使用VP-net输出一系列候选视窗位置及相应权重,这里提出两种VP-net的实现。对一种VP-net做详细阐述,如下:
1、VP-net可以是如下所述的一种深度卷积神经网络
1.1网络结构
网络输入为受损视频帧Ft和步骤101中得到的时域变化量,输出为一系列视窗位置偏移及其权重网络拓扑连接如图3所示。以下给出网络结构中不同组成部分的说明。
1.1.1重采样。给定一系列预先定义好的球面位置,根据输入视频所使用的映射方式,得到对应的像素坐标,经过插值后得到对应像素值。所使用的预先定义好的球面位置包括但不限于SOFT,Clenshaw-Curtis,以及Gauss-Legendre。计算方式与上述相同。重采样后的图像宽高相等,且为2的幂。建议重采样后尺寸为256x256.
1.1.2降采样。对图3中每个需要降采样的张量,其降采样后的尺寸与其降采样后要连接的张量尺寸相同。降采样使用梯度可传导的插值方式,包括但不限于双/三线性插值。
1.1.3SO(3)张量转换为S2张量。记TSO(3)为定义在SO(3)上的一张量,其坐标用(α,β,γ)表示;记TS2为定义在S2上的一张量,其坐标用(α,β)表示。本方法给出两种SO(3)张量转换为S2张量的计算方式,SO(3)张量转换为S2张量的计算方式可以是但不限于此处给出的计算方式。
1.1.3.1SO(3)张量可以通过在γ维度上求平均值转换为S2张量:
1.1.3.2SO(3)张量可以通过在γ维度上求最大值转换为S2张量:
1.1.4柔性最大值函数在输入张量的宽高维度上计算。
1.1.5网络中含可学习参数的每一层的具体配置如表1所示。
表1对应于图3的网络含可学习参数的层的具体配置
1.2目标函数分项定义训练VP-net时的目标函数
1.2.1球面锚点定义。记为SO3Conv10输出的SO(3)张量转换后的S2张量,其每个像素位置上的特征向量都对应着球面上的特定坐标位置,对应关系同ERP。按照所述映射变换的反变换,可以计算得到这些特定坐标位置,定义这些球面特定坐标位置为球面锚点,记为va=(φaa),其中φa和θa分别表示经度和纬度。
中像素位置数量为I,则共有I个球面锚点如上述步骤3所述,VP-net共输出I个候选视窗位置,与I个球面锚点一一对应,且不随输入变化而改变,可视为网络的常量属性。
1.2.2视窗权重目标函数。给定J名实验者观看输入的受损视频时,第t帧的头动位置真值对球面锚点其权重真值wi定义如下:
其中,的大圆距离,如上述所定义。σ为一参数,合法取值范围为(0,∞),建议取值为σ=18.33π/180;
视窗权重的目标函数定义为视窗权重真值及网络预测的视窗权重分布之间的相对熵,又称为Kullback–Leibler(KL)散度,定义如下:
1.2.3视窗位置偏移目标函数。对球面锚点定义其对应的视窗位置偏移真值为与到其最近的头动位置真值:
视窗位置偏移目标函数定义为每个预测的视窗位置偏移Δvi与其真值Δ之间的平滑距离,记为目标函数定义如下:
综上,训练VP-net时的目标函数定义如下:
其中,λw和λv为参数,合法取值范围为正数,建议取值为λw=1,λv=5。
2、VP-net可以是如下所述的一种深度卷积神经网络
2.1网络结构。网络输入为受损视频帧Ft和上述步骤2得到的时域变化量,输出为网络预测输入视频帧含有镜头运动的概率为一系列视窗位置偏移及其权重网络拓扑连接如图5所示。以下给出网络结构中不同组成部分的说明。
2.1.1重采样。如上述所述。
2.1.2SO(3)张量转换为S2张量。如上述所述。
2.1.3柔性最大值函数。如上述所述。
2.1.4中心高斯权重图,记为 为像素坐标,可由下式生成:
其中为张量Ts的边长,对应于上述1.1.1的建议取值,则有 为一参数,其合法取值范围为(0,∞),建议取值为
2.1.5网络中含可学习参数的每一层的具体配置如表2所示。
表2对应于图5的网络含可学习参数的层的具体配置
2.2目标函数如下,分项定义训练VP-net时的目标函数。
2.2.1球面锚点定义。如上述所述。
2.2.2视窗权重目标函数。如上述所述。
2.2.3视窗位置偏移目标函数。如上述所述。
2.2.4镜头运动检测目标函数。输入视频帧含有镜头运动与否的真实标签为l(输入视频帧含有镜头运动时,l=1,否则l=0),镜头运动检测目标函数定义为如下的二元交叉熵目标函数:
2.2.5综上,训练VP-net时的目标函数定义如下:
其中λw和λv为参数,合法取值范围为正数,建议取值为λw=1,λv=5.
二:本发明实施例中提到使用VQ-net输出多个视窗的显著性图像和质量分数,这里提出两种VQ-net的实现。对一种VQ-net做详细阐述,如下:
1、VQ-net可以是如下所述的一种深度卷积神经网络
1.1、网络结构
网络输入为视窗图像Ck及其空域变化量图像输出为输入视窗的显著性图和质量分数sk.网络拓扑连接如图6所示。以下给出网络结构中不同组成部分的说明。
1.1.1柔性最大值函数在输入张量的宽高维度上计算。
1.1.2升采样。对图6中需要升采样的张量,其升采样后的尺寸与升采样后相乘的张量相同。升采样使用梯度可传导的插值方式,包括但不限于双线性插值。
1.1.3网络中卷积层和池化层的具体配置如表3所示。
表3对应于图6的网络卷积层和池化层的具体配置
1.1.4密连接块DenseBlock按照DenseNet中的定义,配置如表4所示。
表4对应于图6的密连接块的具体配置
1.2、目标函数如下,分项定义训练VQ-net时的目标函数
1.2.1、显著性预测目标函数。给定实验者观看输入的受损视频时,在视窗Ck范围内的眼动显著性图真值Mk,将显著性图视为一种概率分布,显著性预测目标函数定义为网络预测视窗的显著性图与其真值Mk间的相对熵,定义如下:
其中,Mk(x′,y′)和分别为Mk在像素位置(x′,y′)的显著性值。
1.2.2质量分数目标函数。给定输入视窗对应视频的主观质量分数s,质量分数目标函数定义为网络预测视窗质量分数sk与s间的平方误差,定义如下:
综上,训练VQ-net时的目标函数定义如下:
其中,λM和λs为参数,合法取值范围为正数,建议取值为λM=10,λs=1×103
2、VQ-net可以是如下所述的一种深度卷积神经网络。
2.1、网络结构网络输入为视窗图像Ck及其空域变化量图像输出为输入视窗的显著性图和质量分数sk.网络拓扑连接如图4所示。以下给出网络结构中不同组成部分的说明。
2.1.1柔性最大值函数如第2部分所述。
2.1.2降采样。对图4中需要降采样的张量,其降采样后的尺寸与其降采样后要连接的张量尺寸相同。降采样使用梯度可传导的插值方式,包括但不限于双线性插值。
2.1.3密连接块如第2部分所述。
2.1.4网络中卷积层和池化层的具体配置如表5所示。
表5对应于图4的网络卷积层和池化层的具体配置
2.2目标函数如下,分项定义训练VP-net时的目标函数。
2.2.1显著性预测目标函数。如第2部分所述。
2.2.2质量分数目标函数。如第2部分所述。
综上,训练VQ-net时的目标函数定义如下:
其中,λM和λs为参数,合法取值范围为正数,建议取值为λM=10,λs=1×104
以上实施例公开的装置能够实现以上各方法实施例公开的方法的流程,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种基于视窗的视频质量评价方法,其特征在于,包括:
获取受损视频和参考视频;所述受损视频包括多个受损视频帧,且所述参考视频包括多个参考视频帧;
基于每个受损视频帧及对应的参考视频帧,预先训练的视窗提取网络及视窗质量网络,确定每个受损视频帧的质量分数;
基于每个受损视频帧的质量分数,确定所述受损视频的质量分数。
2.根据权利要求1所述的方法,其特征在于,确定任一受损视频帧的质量分数,均包括:
基于所述受损视频帧,通过所述视窗提取网络得到多个候选视窗位置及每个所述候选视窗位置对应权重;
基于所述多个候选视窗位置、所述受损视频帧及对应的参考视频帧,通过视窗质量网络得到被提取视窗的显著性图像和质量分数;
平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数。
3.根据权利要求2所述的方法,其特征在于,基于所述受损视频帧,通过所述视窗提取网络得到多个候选视窗位置及每个所述候选视窗位置对应权重包括:
基于所述受损视频帧,确定时域变化量;
基于所述受损视频帧和所述时域变化量,通过所述视窗提取网络得到多个候选视窗位置及每个所述候选视窗位置对应的权重。
4.根据权利要求3所述方法,其特征在于,基于所述受损视频帧,确定时域变化量,包括:
计算所述受损视频帧与之前的第N个受损视频帧之间的时域变化量。
5.根据权利要求2所述的方法,其特征在于,基于所述多个候选视窗位置、所述受损视频帧及对应的参考视频帧,通过视窗质量网络得到被提取视窗的显著性图像和质量分数,包括:
基于所述受损视频帧及对应的参考视频帧,确定所述受损视频帧与对应的参考视频帧之间的空域变化量;
基于所述多个候选视窗位置、所述空域变化量、所述受损视频帧及对应的参考视频帧,得到被提取视窗的图像及对应的空域变化量;
基于所述被提取视窗的图像及对应的空域变化量,通过所述视窗质量网络得到被提取视窗的显著性图像和质量分数。
6.根据权利要求5所述的方法,其特征在于,基于所述多个候选视窗位置、所述空域变化量、所述受损视频帧及对应的参考视频帧,得到被提取视窗的图像及对应的空域变化量,包括:
基于每个所述候选视窗位置对应权重,从所述多个候选视窗位置中提取至少一个视窗位置,输出被提取的视窗位置及对应的权重;
将被提取的视窗位置、所述受损视频帧、所述空域变化量与所述参考视频帧进行对齐,得到被提取视窗的图像及对应的空域变化量。
7.根据权利要求2所述的方法,其特征在于,平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数,包括:
基于被提取的视窗位置对应的权重,加权平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数。
8.根据权利要求2所述的方法,其特征在于,平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数,包括:
算术平均所有被提取视窗的质量分数,得到所述受损视频帧的质量分数。
9.根据权利要求1所述的方法,其特征在于,基于每个受损视频帧的质量分数,确定所述受损视频的质量分数,包括:
平均所有受损视频帧的质量分数,得到所述受损视频的质量分数。
10.一种基于视窗的视频质量评价装置,其特征在于,包括:
获取单元,用于获取受损视频和参考视频;所述受损视频包括多个受损视频帧,且所述参考视频包括多个参考视频帧;
第一确定单元,用于基于每个受损视频帧及对应的参考视频帧,预先训练的视窗提取网络及视窗质量网络,确定每个受损视频帧的质量分数;
第二确定单元,用于基于每个受损视频帧的质量分数,确定所述受损视频的质量分数。
CN201910500485.3A 2019-06-11 2019-06-11 一种基于视窗的视频质量评价方法及装置 Active CN110365966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910500485.3A CN110365966B (zh) 2019-06-11 2019-06-11 一种基于视窗的视频质量评价方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910500485.3A CN110365966B (zh) 2019-06-11 2019-06-11 一种基于视窗的视频质量评价方法及装置

Publications (2)

Publication Number Publication Date
CN110365966A true CN110365966A (zh) 2019-10-22
CN110365966B CN110365966B (zh) 2020-07-28

Family

ID=68216886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910500485.3A Active CN110365966B (zh) 2019-06-11 2019-06-11 一种基于视窗的视频质量评价方法及装置

Country Status (1)

Country Link
CN (1) CN110365966B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163990A (zh) * 2020-09-08 2021-01-01 上海交通大学 360度图像的显著性预测方法及***
CN115953727A (zh) * 2023-03-15 2023-04-11 浙江天行健水务有限公司 一种絮体沉降速率检测方法、***、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338379A (zh) * 2013-06-05 2013-10-02 宁波大学 一种基于机器学习的立体视频客观质量评价方法
CN104506852A (zh) * 2014-12-25 2015-04-08 北京航空航天大学 一种面向视频会议编码的客观质量评估方法
CN106412571A (zh) * 2016-10-12 2017-02-15 天津大学 一种基于梯度相似性标准差的视频质量评价方法
CN108337504A (zh) * 2018-01-30 2018-07-27 中国科学技术大学 一种评价视频质量的方法及装置
CN108449595A (zh) * 2018-03-22 2018-08-24 天津大学 基于卷积神经网络的全参考虚拟现实视频质量评价方法
CN108900864A (zh) * 2018-07-23 2018-11-27 西安电子科技大学 基于运动轨迹的全参考视频质量评价方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338379A (zh) * 2013-06-05 2013-10-02 宁波大学 一种基于机器学习的立体视频客观质量评价方法
CN104506852A (zh) * 2014-12-25 2015-04-08 北京航空航天大学 一种面向视频会议编码的客观质量评估方法
CN106412571A (zh) * 2016-10-12 2017-02-15 天津大学 一种基于梯度相似性标准差的视频质量评价方法
CN108337504A (zh) * 2018-01-30 2018-07-27 中国科学技术大学 一种评价视频质量的方法及装置
CN108449595A (zh) * 2018-03-22 2018-08-24 天津大学 基于卷积神经网络的全参考虚拟现实视频质量评价方法
CN108900864A (zh) * 2018-07-23 2018-11-27 西安电子科技大学 基于运动轨迹的全参考视频质量评价方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163990A (zh) * 2020-09-08 2021-01-01 上海交通大学 360度图像的显著性预测方法及***
CN112163990B (zh) * 2020-09-08 2022-10-25 上海交通大学 360度图像的显著性预测方法及***
US11823432B2 (en) 2020-09-08 2023-11-21 Shanghai Jiao Tong University Saliency prediction method and system for 360-degree image
CN115953727A (zh) * 2023-03-15 2023-04-11 浙江天行健水务有限公司 一种絮体沉降速率检测方法、***、电子设备及介质
CN115953727B (zh) * 2023-03-15 2023-06-09 浙江天行健水务有限公司 一种絮体沉降速率检测方法、***、电子设备及介质

Also Published As

Publication number Publication date
CN110365966B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
US10565684B2 (en) Super-resolution method and system, server, user device and method therefor
CN104079925B (zh) 基于视觉感知特性的超高清视频图像质量客观评价方法
CN102741884B (zh) 移动体检测装置及移动体检测方法
CN113393522B (zh) 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN102572502B (zh) 一种用于视频质量评价的关键帧的选取方法
CN110351511A (zh) 基于场景深度估计的视频帧率上变换***及方法
CN101950422B (zh) 一种基于奇异值分解的图像质量评价方法
CN110175986A (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110992414B (zh) 一种基于卷积神经网络的室内单目场景深度估计的方法
CN108462868A (zh) 360度全景vr视频中用户凝视点的预测方法
CN110365966A (zh) 一种基于视窗的视频质量评价方法及装置
CN108510520B (zh) 一种图像处理方法、装置及ar设备
US20230056036A1 (en) Method and device for generating a panoramic image
CN102521586A (zh) 一种用于拍照手机的高分辨率三维人脸扫描方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN112468806B (zh) 一种用于云vr平台的全景视频传输优化方法
CN111292425B (zh) 一种基于单双目混合数据集的视图合成方法
CN114399829B (zh) 基于生成式对抗网络的姿态迁移方法、电子设备及介质
CN103679662A (zh) 基于类别先验非负稀疏编码字典对的超分辨率图像恢复方法
CN112954313A (zh) 一种对全景图像感知质量的计算方法
CN103903240B (zh) 基于多输出最小二乘支持向量回归的图像超分辨方法
CN109615576A (zh) 基于级联回归基学习的单帧图像超分辨重建方法
CN109218706A (zh) 一种由单张图像生成立体视觉图像的方法
CN108550111A (zh) 一种基于多级字典学习的残差实例回归超分辨重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant