CN113688686B - 基于图卷积神经网络的虚拟现实视频质量评价方法 - Google Patents
基于图卷积神经网络的虚拟现实视频质量评价方法 Download PDFInfo
- Publication number
- CN113688686B CN113688686B CN202110843795.2A CN202110843795A CN113688686B CN 113688686 B CN113688686 B CN 113688686B CN 202110843795 A CN202110843795 A CN 202110843795A CN 113688686 B CN113688686 B CN 113688686B
- Authority
- CN
- China
- Prior art keywords
- video
- graph
- distorted
- icosahedron
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 238000005096 rolling process Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000005520 cutting process Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000001303 quality assessment method Methods 0.000 claims description 5
- 238000000547 structure data Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 22
- 230000008569 process Effects 0.000 abstract description 18
- 238000011156 evaluation Methods 0.000 abstract description 17
- 238000012854 evaluation process Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000000059 patterning Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图卷积神经网络的虚拟现实视频质量评价方法、介质及设备,其中方法包括:获取失真VR视频,并抽取失真VR视频的视频帧;将失真VR视频帧建模为具有旋转等变性的二十面体图,并对二十面体图进行切割,以得到第一失真VR视频帧切片;构建图卷积网络模型,并训练得到最终图卷积网络模型;获取待评价VR视频,并对待评价VR视频进行预处理,以得到待评价VR视频对应的第二失真VR视频帧切片,以及将第二失真VR视频帧切片输入到最终图卷积网络模型,以便通过最终图卷积网络模型对待评价VR视频进行评价;能够自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
Description
技术领域
本发明涉及视频处理技术领域,特别涉及一种基于图卷积神经网络的虚拟现实视频质量评价方法、一种计算机可读存储介质和一种计算机设备。
背景技术
随着多媒体技术的日益成熟和商业化的不断推进,虚拟现实技术飞速发展并广泛应用于娱乐、医学和航空等领域。全景视频涵盖了360×180°的范围,用户在头戴设备的帮助下可以通过头动调整观看方向获得沉浸式体验,正因为如此,VR视频的每一帧图像都具有极高的分辨率。但是VR图像的高分辨率和高帧频给存储和信道的传输造成了负担。因此,视频在接触到用户前需要经过压缩和传输,而这些过程往往会造成视频质量的损失,给观看者带来不理想的体验。因此,有必要对VR视频进行质量评估,从而改善VR视频的处理方法。
与传统的视频质量评价方式类似,VR视频质量评价也分为主观评价和客观评价两种方式,主观评价是以人的观察为基础,而客观评价则是以算法为基础,通过算法来模拟人的视觉***。
相关技术中,在对VR视频质量进行评价时,所使用的方法大致分为两类:(1)基于经典卷积神经网络(CNN),利用CNN的特征表示能力完成质量评价任务,然后利用基于CNN的模型实现质量预测,例如多通道卷积、3D卷积。然而这类方法并没有考虑到全景图像的变形对卷积结果的影响,球面图像的空间变形失真会使得权重共享失效,因此对球面图像应用经典卷积是不合理的。(2)考虑到球面投影的变形失真,球面卷积可以有效提取球面图像的特征。然而,该方法计算复杂度很大,而且训练及测试两个阶段的模型较为复杂,不灵活。此外,上述全景视频质量评价方法大都是全参考的,即计算参考视频和失真视频之间的误差,对失真视频进行综合评价,无参考的方法较少。无参考方法的质量评价有更高实际应用价值,它不需要任何参考VR视频的先验信息,直接对失真视频进行质量评价。因此,在未来较长一段时间内,无参考质量评价方法都将是VR视频质量评价的重点研究内容。综上所述,在无参考VR视频质量评价中,如何正确处理球面图像和计算复杂度是两大难题。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于图卷积神经网络的虚拟现实视频质量评价方法,能够自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种计算机设备。
为达到上述目的,本发明第一方面实施例提出了一种基于图卷积神经网络的虚拟现实视频质量评价方法,包括以下步骤:获取失真VR视频,并抽取所述失真VR视频的视频帧,以得到失真VR视频帧;将所述失真VR视频帧建模为具有旋转等变性的二十面体图,并对所述二十面体图进行切割,以得到第一失真VR视频帧切片;构建图卷积网络模型,并将所述第一失真VR视频帧切片输入到所述图卷积网络模型进行模型的训练,以训练得到最终图卷积网络模型;获取待评价VR视频,并对所述待评价VR视频进行预处理,以得到所述待评价VR视频对应的第二失真VR视频帧切片,以及将所述第二失真VR视频帧切片输入到所述最终图卷积网络模型,以便通过所述最终图卷积网络模型对所述待评价VR视频进行评价。
根据本发明实施例的基于图卷积神经网络的虚拟现实视频质量评价方法,首先,获取失真VR视频,并抽取所述失真VR视频的视频帧,以得到失真VR视频帧;接着,将所述失真VR视频帧建模为具有旋转等变性的二十面体图,并对所述二十面体图进行切割,以得到第一失真VR视频帧切片;然后,构建图卷积网络模型,并将所述第一失真VR视频帧切片输入到所述图卷积网络模型进行模型的训练,以训练得到最终图卷积网络模型;接着,获取待评价VR视频,并对所述待评价VR视频进行预处理,以得到所述待评价VR视频对应的第二失真VR视频帧切片,以及将所述第二失真VR视频帧切片输入到所述最终图卷积网络模型,以便通过所述最终图卷积网络模型对所述待评价VR视频进行评价;从而实现自动对 VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
另外,根据本发明上述实施例提出的基于图卷积神经网络的虚拟现实视频质量评价方法还可以具有如下附加的技术特征:
可选地,所述二十面体图的节点表示采样后的像素值,所述二十面体图的边表示像素点之间的空间距离,其中,对所述二十面体图进行切割,以得到第一失真VR视频帧切片,包括:对所述二十面体图进行切割,以得到初始二十面体,并对所述初始二十面体进行多级切割,以得到第一失真VR视频帧切片。
可选地,所述图卷积网络模型包括自注意力模块和密集连接模块;所述密集连接模块用于提取所述第一失真VR视频帧切片的多尺度特征,并将所述多尺度特征输入到所述自注意力模块;所述自注意力模块用于根据所述多尺度特征生成对应的具有权重的图特征。
可选地,通过所述最终图卷积网络模型对所述待评价VR视频进行评价,包括:所述最终图卷积网络模型生成对应每个第二失真VR视频帧切片对应的质量分数,并根据所述待评价VR视频对应的所有第二失真VR视频帧切片质量分数的平均值作为该待评价VR视频的质量分数。
可选地,根据以下公式进行图卷积:
其中,x表示失真VR视频帧的图结构数据,表示归一化后的连接矩阵,I表示单位矩阵, D表示度矩阵,A表示邻接矩阵,θk表示卷积核参数,Tk表示k阶切比雪夫多项式,y表示图卷积结果。
可选地,所述自注意力模块根据以下公式生成对应的具有权重的图特征:
O′=σ(FC(ReLU(FC(o))))×O
其中,O'表示具有权重的图特征,O表示多尺度特征,o表示压缩后的多尺度特征,σ表示sigmoid函数,FC表示全连接层,ReLU表示非线性激活层。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有基于图卷积神经网络的虚拟现实视频质量评价程序,该基于图卷积神经网络的虚拟现实视频质量评价程序被处理器执行时实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法。
根据本发明实施例的计算机可读存储介质,通过存储基于图卷积神经网络的虚拟现实视频质量评价程序,以使得处理器在执行该基于图卷积神经网络的虚拟现实视频质量评价程序时,实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法,从而实现自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
为达到上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法。
根据本发明实施例的计算机设备,通过存储器对基于图卷积神经网络的虚拟现实视频质量评价程序进行存储,以使得处理器在执行该基于图卷积神经网络的虚拟现实视频质量评价程序时,实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法,从而实现自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
附图说明
图1为根据本发明实施例的基于图卷积神经网络的虚拟现实视频质量评价方法的流程示意图;
图2为根据本发明实施例的二十面体构图过程示意图;
图3为根据本发明实施例的图卷积神经网络结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
相关技术中,多采用全参考的方式来进行视频评价,其需要参考VR视频的先验信息;并且,计算过程复杂;根据本发明实施例的基于图卷积神经网络的虚拟现实视频质量评价方法,首先,获取失真VR视频,并抽取所述失真VR视频的视频帧,以得到失真VR视频帧;接着,将所述失真VR视频帧建模为具有旋转等变性的二十面体图,并对所述二十面体图进行切割,以得到第一失真VR视频帧切片;然后,构建图卷积网络模型,并将所述第一失真 VR视频帧切片输入到所述图卷积网络模型进行模型的训练,以训练得到最终图卷积网络模型;接着,获取待评价VR视频,并对所述待评价VR视频进行预处理,以得到所述待评价 VR视频对应的第二失真VR视频帧切片,以及将所述第二失真VR视频帧切片输入到所述最终图卷积网络模型,以便通过所述最终图卷积网络模型对所述待评价VR视频进行评价;从而实现自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的基于图卷积神经网络的虚拟现实视频质量评价方法的流程示意图,如图1所示,该基于图卷积神经网络的虚拟现实视频质量评价方法包括以下步骤:
S101,获取失真VR视频,并抽取失真VR视频的视频帧,以得到失真VR视频帧。
即言,获取失真VR视频,并对失真VR视频进行抽帧处理,以得到其对应的失真VR视频帧;其中,在获得对应的失真VR视频帧之后,可以对失真VR视频帧进行格式转换,以便于后续对格式转换后的失真VR视频帧进行处理。
S102,将失真VR视频帧建模为具有旋转等变性的二十面体图,并对二十面体图进行切割,以得到第一失真VR视频帧切片。
在一些实施例中,二十面体图的节点表示采样后的像素值,二十面体图的边表示像素点之间的空间距离,其中,对二十面体图进行切割,以得到第一失真VR视频帧切片,包括:对二十面体图进行切割,以得到初始二十面体,并对初始二十面体进行多级切割,以得到第一失真VR视频帧切片。
作为一种示例,利用无向图G=(ν,ε,A)来描述二十面体图,其中,ν表示二十面体图顶点的集合,ε表示二十面体图边的集合,A表示邻接矩阵,用于表示顶点之间的距离,距离越小其值越小。而考虑到VR视频帧的高分辨率,首先,将第一次切割得到的二十面体定义为初始二十面体;可以理解,该初始二十面体具有12个顶点,取该二十面体中每个三角形的边的中点,并根据终点对每个三角形进行进一步地划分,以将一个三角形划分为4个小三角形;从而,如此划分后,可以得到第1级二十面体;接着,循环上述切割方式,取中点,进一步地将三角形细化,以得到第4级二十面体;然后,将第四级二十面体中的每个小三角形作为第一失真VR视频帧切片。
其中,初始二十面体的每个顶点的三维坐标(x0,y0,z0)根据以下公式计算:
(x0,y0,z0)={[-m,0,n],[m,0,n],[-m,0,-n],[m,0,-n],
[0,n,m],[0,n,-m],[0,-n,-m],[0,-n,m],
[n,m,0],[-n,m,0],[-n,-m,0],[n,-m,0]}
如图2所示,若要继续划分二十面体,则根据每个三角形的中点进行划分;新划分出来的三角形的顶点坐标根据以下公式计算:
其中,l表示第l级顶点的坐标,上式表示划分出的新一级的顶点坐标是由上一级顶点取中点得到的。
通过上述公式,可以得到任意级的二十面体的每个顶点的三维坐标(xl,yl,zl)。为了进行构图,再将任意级的二十面体的每个顶点的三维坐标(xl,yl,zl)对应到VR视频的球面坐标
其中r表示半径,且θ表示经度坐标,范围[-π,π],/>表示纬度坐标,范围[-π/2,π/2]。
接着,再将球面坐标转换到平面坐标,以得到等角矩形投影格式的平面坐标(a,b):
其中,H和W分别ERP格式的以像素为单位的高度和宽度。
然后,将等角矩形投影格式的平面坐标(a,b)对应的像素值赋值给任意级的二十面体的每个顶点,以完成构图;从而,通过这种方式可以减小训练过程中的计算量。
S103,构建图卷积网络模型,并将第一失真VR视频帧切片输入到图卷积网络模型进行模型的训练,以训练得到最终图卷积网络模型。
即言,构建如图3所示的图卷积网络模型,并将第一失真VR视频帧切片作为训练样本输入到图卷积网络模型,以进行模型的训练;从而,通过训练可以得到最终图卷积网络模型。
需要说明的是,在获取到失真VR视频之后,可以将失真VR视频划分为训练集和验证集;例如,30个失真VR视频,24个作为训练集,6个作为验证集;从而,可以通过训练集中失真VR视频对应的第一失真VR视频帧对模型进行训练;在训练完成之后,通过验证集中失真VR视频对应的第一失真VR视频帧对训练得到的图卷积网络模型进行验证,以根据验证结果确定最终图卷积网络模型。
作为一种示例,为了比较模型的效果,需要对模型进行评估,评估指标包括以下3个:
(a)皮尔逊线性相关系数(PLCC)是两个变量的协方差除以其标准偏差的乘积,表示预测的准确性,结果越接近1,说明效果越好,计算公式如下:
其中ri和表示真实值及其集合均值,n表示样本总数。pi和/>表示预测值及其集合均值。
(b)斯皮尔曼秩相关系数(SROCC)表示预测值和真实值的拟合程度。计算公式如下:
其中,rxi和ryi分别表示预测值和真实值分数。
(c)肯德尔秩次相关系数(KROCC)是一种非参秩相关统计模型,代表一致性,其结果绝对值越接近1,说明相关性越强。
其中,nc表示预测值和真实值之间的一致性,nd则表示不一致性。视频质量的质量评价算法应具有准确性、单调性与一致性这三个特性。准确性可用PLCC来进行判断,即主观与客观评价分数之间的差异较小时,PLCC会接近于1。单调性是指客观评价值应该会随着主观分数的增减而增减,可用SROCC来进行判断。一致性则是算法在测试集上所表现的性能与其在训练集上所表示的性能相似,可用KROCC来进行判断。因此,用上述前三种指标即可从整体上判断某一算法性能的优劣。
在一些实施例中,图卷积网络模型包括自注意力模块和密集连接模块;密集连接模块用于提取第一失真VR视频帧切片的多尺度特征,并将多尺度特征输入到自注意力模块;自注意力模块用于根据多尺度特征生成对应的具有权重的图特征。
在一些实施例中,根据以下公式进行图卷积:
其中,x表示失真VR视频帧的图结构数据,表示归一化后的连接矩阵,I表示单位矩阵, D表示度矩阵,A表示邻接矩阵,θk表示卷积核参数,Tk表示k阶切比雪夫多项式,y表示图卷积结果。
在一些实施例中,自注意力模块根据以下公式生成对应的具有权重的图特征:
O′=σ(FC(ReLU(FC(o))))×O
其中,O'表示具有权重的图特征,O表示多尺度特征,o表示压缩后的多尺度特征,σ表示sigmoid函数,FC表示全连接层,ReLU表示非线性激活层。
在一些实施例中,模型的训练过程包括:将第一失真VR视频帧切片输入到图卷积网络模型中,以得到预测值,并根据该预测值和对应的真实值计算均方差损失LMSE:
其中,Spred为预测值,Sgt为真实值。然后,将误差传回模型中,经过反向传播过程求得误差的梯度,并利用Adam优化算法更新网络中的权重,再开始新一轮的计算并不断更新网络的权重,直至找到网络的最优权重解使得预测值和真实值之间的差异最小;并保存此时的模型参数和权重。
需要说明的是,在训练过程中,优选地,设置学习率0.02,训练批次为10,即言,每次输入10个图数据至卷积网络,共训练50轮次。
S104,获取待评价VR视频,并对待评价VR视频进行预处理,以得到待评价VR视频对应的第二失真VR视频帧切片,以及将第二失真VR视频帧切片输入到最终图卷积网络模型,以便通过最终图卷积网络模型对待评价VR视频进行评价。
在一些实施例中,通过最终图卷积网络模型对待评价VR视频进行评价,包括:最终图卷积网络模型生成对应每个第二失真VR视频帧切片对应的质量分数,并根据待评价VR视频对应的所有第二失真VR视频帧切片质量分数的平均值作为该待评价VR视频的质量分数。
综上所述,根据本发明实施例的基于图卷积神经网络的虚拟现实视频质量评价方法,首先,获取失真VR视频,并抽取所述失真VR视频的视频帧,以得到失真VR视频帧;接着,将所述失真VR视频帧建模为具有旋转等变性的二十面体图,并对所述二十面体图进行切割,以得到第一失真VR视频帧切片;然后,构建图卷积网络模型,并将所述第一失真VR视频帧切片输入到所述图卷积网络模型进行模型的训练,以训练得到最终图卷积网络模型;接着,获取待评价VR视频,并对所述待评价VR视频进行预处理,以得到所述待评价VR视频对应的第二失真VR视频帧切片,以及将所述第二失真VR视频帧切片输入到所述最终图卷积网络模型,以便通过所述最终图卷积网络模型对所述待评价VR视频进行评价;从而实现自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有基于图卷积神经网络的虚拟现实视频质量评价程序,该基于图卷积神经网络的虚拟现实视频质量评价程序被处理器执行时实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法。
根据本发明实施例的计算机可读存储介质,通过存储基于图卷积神经网络的虚拟现实视频质量评价程序,以使得处理器在执行该基于图卷积神经网络的虚拟现实视频质量评价程序时,实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法,从而实现自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
为了实现上述实施例,本发明实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法。
根据本发明实施例的计算机设备,通过存储器对基于图卷积神经网络的虚拟现实视频质量评价程序进行存储,以使得处理器在执行该基于图卷积神经网络的虚拟现实视频质量评价程序时,实现如上述的基于图卷积神经网络的虚拟现实视频质量评价方法,从而实现自动对VR视频进行质量评价,降低VR视频质量评价过程中的计算复杂度;提高评价准确度的同时,降低评价过程中的计算复杂度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于图卷积神经网络的虚拟现实视频质量评价方法,其特征在于,包括以下步骤:
获取失真VR视频,并抽取所述失真VR视频的视频帧,以得到失真VR视频帧;
将所述失真VR视频帧建模为具有旋转等变性的二十面体图,并对所述二十面体图进行切割,以得到第一失真VR视频帧切片;
构建图卷积网络模型,并将所述第一失真VR视频帧切片输入到所述图卷积网络模型进行模型的训练,以训练得到最终图卷积网络模型;
获取待评价VR视频,并对所述待评价VR视频进行预处理,以得到所述待评价VR视频对应的第二失真VR视频帧切片,以及将所述第二失真VR视频帧切片输入到所述最终图卷积网络模型,以便通过所述最终图卷积网络模型对所述待评价VR视频进行评价。
2.如权利要求1所述的基于图卷积神经网络的虚拟现实视频质量评价方法,其特征在于,所述二十面体图的节点表示采样后的像素值,所述二十面体图的边表示像素点之间的空间距离,其中,对所述二十面体图进行切割,以得到第一失真VR视频帧切片,包括:
对所述二十面体图进行切割,以得到初始二十面体,并对所述初始二十面体进行多级切割,以得到第一失真VR视频帧切片。
3.如权利要求1所述的基于图卷积神经网络的虚拟现实视频质量评价方法,其特征在于,所述图卷积网络模型包括自注意力模块和密集连接模块;
所述密集连接模块用于提取所述第一失真VR视频帧切片的多尺度特征,并将所述多尺度特征输入到所述自注意力模块;
所述自注意力模块用于根据所述多尺度特征生成对应的具有权重的图特征。
4.如权利要求1所述的基于图卷积神经网络的虚拟现实视频质量评价方法,其特征在于,通过所述最终图卷积网络模型对所述待评价VR视频进行评价,包括:
所述最终图卷积网络模型生成对应每个第二失真VR视频帧切片对应的质量分数,并根据所述待评价VR视频对应的所有第二失真VR视频帧切片质量分数的平均值作为该待评价VR视频的质量分数。
5.如权利要求1所述的基于图卷积神经网络的虚拟现实视频质量评价方法,其特征在于,根据以下公式进行图卷积:
其中,x表示失真VR视频帧的图结构数据,表示归一化后的连接矩阵,I表示单位矩阵,D表示度矩阵,A表示邻接矩阵,θk表示卷积核参数,Tk表示k阶切比雪夫多项式,y表示图卷积结果。
6.如权利要求3所述的基于图卷积神经网络的虚拟现实视频质量评价方法,其特征在于,所述自注意力模块根据以下公式生成对应的具有权重的图特征:
O′=σ(FC(ReLU(FC(o))))×O
其中,O'表示具有权重的图特征,O表示多尺度特征,o表示压缩后的多尺度特征,σ表示sigmoid函数,FC表示全连接层,ReLU表示非线性激活层。
7.一种计算机可读存储介质,其特征在于,其上存储有基于图卷积神经网络的虚拟现实视频质量评价程序,该基于图卷积神经网络的虚拟现实视频质量评价程序被处理器执行时实现如权利要求1-6中任一项所述的基于图卷积神经网络的虚拟现实视频质量评价方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-6中任一项所述的基于图卷积神经网络的虚拟现实视频质量评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843795.2A CN113688686B (zh) | 2021-07-26 | 2021-07-26 | 基于图卷积神经网络的虚拟现实视频质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843795.2A CN113688686B (zh) | 2021-07-26 | 2021-07-26 | 基于图卷积神经网络的虚拟现实视频质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688686A CN113688686A (zh) | 2021-11-23 |
CN113688686B true CN113688686B (zh) | 2023-10-27 |
Family
ID=78577982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110843795.2A Active CN113688686B (zh) | 2021-07-26 | 2021-07-26 | 基于图卷积神经网络的虚拟现实视频质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688686B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108259893A (zh) * | 2018-03-22 | 2018-07-06 | 天津大学 | 基于双流卷积神经网络的虚拟现实视频质量评价方法 |
CN111028216A (zh) * | 2019-12-09 | 2020-04-17 | Oppo广东移动通信有限公司 | 图像评分方法、装置、存储介质及电子设备 |
WO2021128578A1 (zh) * | 2019-12-27 | 2021-07-01 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113066037A (zh) * | 2021-03-31 | 2021-07-02 | 山东师范大学 | 基于图注意力机制的多光谱与全色图像融合方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544535B2 (en) * | 2019-03-08 | 2023-01-03 | Adobe Inc. | Graph convolutional networks with motif-based attention |
-
2021
- 2021-07-26 CN CN202110843795.2A patent/CN113688686B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108259893A (zh) * | 2018-03-22 | 2018-07-06 | 天津大学 | 基于双流卷积神经网络的虚拟现实视频质量评价方法 |
CN111028216A (zh) * | 2019-12-09 | 2020-04-17 | Oppo广东移动通信有限公司 | 图像评分方法、装置、存储介质及电子设备 |
WO2021128578A1 (zh) * | 2019-12-27 | 2021-07-01 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113066037A (zh) * | 2021-03-31 | 2021-07-02 | 山东师范大学 | 基于图注意力机制的多光谱与全色图像融合方法及*** |
Non-Patent Citations (2)
Title |
---|
Directional Attention based Video Frame Prediction using Graph Convolutional Networks;Prateep Bhattacharjee;IJCNN 2019. International Joint Conference on Neural Network;1-10 * |
State-of-the-Art in 360° Video/Image Processing: Perception, Assessment and Compression;Mai Xu;IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING;第14卷(第1期);5-26 * |
Also Published As
Publication number | Publication date |
---|---|
CN113688686A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ying et al. | From patches to pictures (PaQ-2-PiQ): Mapping the perceptual space of picture quality | |
Sun et al. | Blind quality assessment for in-the-wild images via hierarchical feature fusion and iterative mixed database training | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN108428227B (zh) | 基于全卷积神经网络的无参考图像质量评价方法 | |
Yang et al. | 3D panoramic virtual reality video quality assessment based on 3D convolutional neural networks | |
CN104658001B (zh) | 一种无参考非对称失真立体图像客观质量评价方法 | |
CN110674925B (zh) | 基于3d卷积神经网络的无参考vr视频质量评价方法 | |
CN112927354B (zh) | 基于实例分割的三维重建方法、***、存储介质及终端 | |
CN108235003B (zh) | 基于3d卷积神经网络的立体视频质量评价方法 | |
CN108389192A (zh) | 基于卷积神经网络的立体图像舒适度评价方法 | |
CN113822982A (zh) | 一种人体三维模型构建方法、装置、电子设备及存储介质 | |
CN111489394A (zh) | 物体姿态估计模型训练方法、***、装置及介质 | |
Fu et al. | Blind image quality assessment for multiply distorted images via convolutional neural networks | |
CN111415304A (zh) | 基于级联深度网络的水下视觉增强方法和装置 | |
CN112004078A (zh) | 基于生成对抗网络的虚拟现实视频质量评价方法及*** | |
CN112381723B (zh) | 一种轻量高效的单幅图像去烟雾方法 | |
CN109410158B (zh) | 一种基于卷积神经网络的多焦点图像融合方法 | |
CN108259893B (zh) | 基于双流卷积神经网络的虚拟现实视频质量评价方法 | |
CN111127298B (zh) | 一种全景图像盲质量评估方法 | |
CN112950596A (zh) | 基于多区域多层次的色调映射全向图像质量评价方法 | |
CN110910365A (zh) | 一种同时对于动态场景和静态场景的多曝光融合图像的质量评价方法 | |
CN107018410A (zh) | 一种基于预注意机制和空间依赖性的无参考图像质量评价方法 | |
Zhang et al. | Ddh-qa: A dynamic digital humans quality assessment database | |
CN113688686B (zh) | 基于图卷积神经网络的虚拟现实视频质量评价方法 | |
Appina | A ‘complete blind’no-reference stereoscopic image quality assessment algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |