CN112437291A

CN112437291A - 基于双目融合网络与显著性的立体视频质量评价方法

Info

Publication number: CN112437291A
Application number: CN202011111464.1A
Authority: CN
Inventors: 李素梅; 李玟; 马帅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-03-02

Abstract

本发明属于视频和图像处理领域，为建立一种有效的基于双目融合网络与显著性的立体视频质量评价方法，且贴合人眼对立体视觉的感知，本发明，基于双目融合网络与显著性的立体视频质量评价方法，首先，对立体视频的每一帧，通过计算其空间显著性与时间显著性生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流；然后，将左、右视频时空显著性特征流分别作为网络的两个输入；然后，网络自主地提取融合后的综合特征；最后全连接层将高维的综合特征映射到输出域，得到立体视频的质量分数。本发明主要应用于视频和图像处理场合。

Description

基于双目融合网络与显著性的立体视频质量评价方法

技术领域

本发明属于视频和图像处理领域，涉及到视频时空显著性的计算，以及深度学习在立体视频质量评价中的应用。具体涉及基于双目融合网络与显著性的立体视频质量评价方法。

背景技术

随着立体视频的广泛应用，一系列立体视频处理技术随之而来，但任何处理技术都有可能对立体内容造成不同程度的失真，从而影响人们对立体视频的感知。因此，有必要找到一个有效的立体视频质量评价算法，来评价立体视频的质量。一个有效的立体视频质量评价方法不仅可以衡量立体视频的失真程度，而且可以为当代3D技术的发展提供技术支持。

目前，存在的立体视频质量评价方法可被分为三类：传统的方法、基于稀疏的方法和基于深度学习的方法。在传统方法中，最近的文章类似于[1]-[5]。不同的空间特征，时间特征和深度特征被提取，通过不同方式结合后获得立体视频的质量。在基于稀疏的方法中，[6]将从稀疏字典和堆叠自动编码器中提取的特征提供给支持向量机(SVM)，以获得最终质量分数。然而，传统方法和稀疏表示的方法都不符合大脑分层次提取视觉信息的事实[7]。因此，开始有研究者选择使用深度学习完成立体视频质量评价任务。在基于深度学习的方法中，文献[8]分别设计了双流深度神经网络来评估左视图和右视图的质量，通过组合左视图和右视图质量以获得立体视频质量。文献[9]通过搭建3D CNN网络来自动提取立体视频中的时空信息。

以上文献均使用了不同的方法来处理两视点间的相关性。在深度学习的方法中，[8]在最后一步结合了左右质量，[9]将左右视点进行简单的“加和”或“做差”，然后像2D视频一样处理得到质量分数。这些处理方式似乎稍微简单，并忽略了左视图和右视图之间的相关性。同样，无论是传统方法还是稀疏表示方法，它们对两个视图都有类似的处理方式。文章[6]首先融合了左右视图，文章[1][2][3][4]在最后一步中结合了左视图和右视图的质量，且忽视了大脑的视觉融合机制。

本发明的设计灵感来源于大脑皮层对3D视觉信号的响应原理，立体视觉感知是大脑长期处理的结果，并且融合感知始终存在于从低层到高层的大脑皮层当中。当人脑处理立体视觉信号时，双目视差最初形成于初级视觉皮层V1区域[10]。进一步地，在次级视觉皮层区域V2中选择性增强深度感知。然后，3D视觉刺激导致视觉皮层的V3区域激活[11]。V4视觉区域在精细的深度感知与3D成像方面起着至关重要的作用[12]。此外，双目竞争还涉及V1，V2，V3和V4区域神经元活性的增强[13]。并且当发生双目竞争时，应通过分配不同的权重来融合左右视图信号[15][16]。因此，本发明将“加权模块”嵌入到融合网络中来尽可能地模仿双目竞争。“加权模块”由文献[14]中的SE块来实现，用以对来自不同视点的特征图加权。

本发明选择时空显著性特征流作为网络的输入以反映视频时间与空间上的相关性。时空显著性特征流通过计算视频的时间显著性与空间显著性得到，这也与空间与时间不是互相独立的理论是一致的。因为空间像素的变化为时域提供了运动信息与注意机制，反过来，时间流反映了视频中的空间显著性。

本发明提出了一种基于双目融合网络与显著性的立体视频质量评价方法。首先，提出的双目融合网络尽可能地模仿了从低层到高层的融合感知过程，同时，在每次融合之前为不同视图的特征图指定不同的权重，以尽可能地模仿双目竞争。另外，本发明将时空显著性特征流作为网络的输入，确保网络能够综合性地学习与分析空间、时间与深度特征。

发明内容

为克服现有技术的不足，本发明旨在基于人眼视觉机制，建立一种有效的基于双目融合网络与显著性的立体视频质量评价方法。此评价方法更加准确高效，且贴合人眼对立体视觉的感知，同时在一定程度上推动了立体成像技术、无人驾驶技术的发展。为此，本发明采取的技术方案是，基于双目融合网络与显著性的立体视频质量评价方法，首先，对立体视频的每一帧，通过计算其空间显著性与时间显著性生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流；然后，将左、右视频时空显著性特征流分别作为网络的两个输入；然后，网络自主地提取融合后的综合特征；最后全连接层将高维的综合特征映射到输出域，得到立体视频的质量分数。

具体将双目融合网络分为三个部分：左通道、右通道与融合通道，其中，左通道与右通道分别包含四个卷积层和两个池化层，左通道用于提取纯粹的左视点特征，右通道用于提取纯粹的右视点特征，融合通道包含四个卷积层，三个池化层，三个全连接层和四个“加权模块”，在左右通道的每个卷积层之后，将来自不同通道的所有特征图输入给“加权模块”，用以给不同通道的特征图分配权重，然后加权后的图片被送往下一个卷积层来提取融合后的综合特征，即双目融合网络既在浅层融合，也在高层融合，最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

双目融合网络既在浅层融合，也在高层融合，对于每次融合，先将所有的特征图送入加权模块用来对来自不同通道的特征图加权，因为基于双目竞争机制，左右视点确实被分配不同的权重；然后，加权后的图片被送往下一个卷积层来提取融合后的综合特征；另外，在融合通道，低层的输出被传递给高层，对应着大脑中低级视觉区域的输出是高级视觉区域输入的事实；最后，高维特征被映射到输出域得到每一帧的质量，平均所有帧的质量得到立体视频的质量。

“加权模块”由SE块实现，“Concat”表示顺序地串联来自不同通道的特征图，并获得大小为高度×宽度×特征图个数的输入X，表示为X:H×W×C，其中H代表高度，W代表宽度，C代表特征图个数；全局池化层将每个特征图映射为一个数字，并通过后续的层学习权重；第一个全连接层把C个权重数字压缩成了C/r个权重数字来降低计算量，其中r是缩放参数；经过激活函数ReLU后，第二个全连接层恢复回C个权重数字，最后经过激活函数sigmoid得到学习权重；在Scale层中，学习到的权重乘以对应的特征图，得到与X大小相同的输出

将SE“权重块”嵌入双目融合网络中，来实现为不同视图的特征图分配权重的功能，并尽可能模仿双目竞争。

双目融合网络中的卷积操作被定义为(1)式

F_l＝RELU(W_l*F_{lth_input}+B_l) (1)

在(1)式中，W_l与B_l分别代表第l层卷积层的权重与偏置，F_l代表第l层卷积层输出的特征图，F_{lth_input}代表第l层卷积层输入的特征图，ReLU为激活函数，*代表卷积操作，在利用反向传播算法训练网络时，通过最小化损失函数来学习卷积层、池化层与全连接层的参数，本发明的双目融合网络使用欧几里得函数。

本发明的特点及有益效果是：

本发明所提出的双目融合网络建立在大脑对立体视觉信号的处理机制的理论基础之上，并尽可能地依照此处理机制设计搭建。首先，本发明的双目融合网络实现从低层到高层的融合，在融合的同时为来自不同通道的特征图分配不同的权重。权重块的引入大大提高了网络性能。另外，应用时空显著性特征流而不是源数据作为网络的输入，充分考虑了时间与空间的相关性，再次提升了网络的性能。本发明的基于双目融合网络与显著性的立体视频质量评价方法在公共立体视频库上进行了实验，其实验结果十分接近主观质量评价的结果，准确性和可靠性也优于目前存在的其他立体视频质量评价方法。

附图说明：

图1本方法的具体流程。其中,“Conv”代表卷积层，“Pool”代表池化层，“fc”代表全连接层。每层中的小方块代表该层的卷积核，卷积核下的数字代表卷积核的大小。箭头上方的数字代表相应输出特征图的大小，表示为高度×宽度×特征图个数。

图2权重块的结构。其中，“Concat”表示顺序地串联来自不同通道的特征图，箭头右边的数字代表相应输出特征图的大小，表示为高度×宽度×特征图个数，其中H代表高度，W代表宽度，C代表特征图个数；r代表缩放参数；ReLU代表激活函数，sigmoid代表激活函数；

代表输出。

具体实施方式

本发明首先通过计算立体视频显著性(空间显著性与时间显著性)得到立体视频每一帧的显著图片。得到的顺序排列的显著图片被称为左视频的时空显著性特征流与右视频的时空显著性特征流。然后，将左视频的时空显著性特征流与右视频的时空显著性特征流分别作为双目融合网络的两个输入。最后的立体视频质量由双目融合网络综合性地分析空间、时间与深度特征获得。

视频显著性:

本项工作的内容基于文献[17]实现，即通过计算视频显著性(空间显著性与时间显著性)为立体视频的每一帧生成相应的显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流。然后，将左视频时空显著性特征流与右视频时空显著性特征流分别作为网络的两个输入。

双目融合网络：

以左右视频的时空显著性特征流作为网络的输入，训练本发明提出的双目融合网络。本发明的双目融合网络分为三个部分：左通道、右通道与融合通道。其中，左通道与右通道分别包含四个卷积层和两个池化层。左通道用于提取纯粹的左视点特征，右通道用于提取纯粹的右视点特征。融合通道包含四个卷积层，三个池化层，三个全连接层和四个“加权模块”。在左右通道的每个卷积层之后，将来自不同通道的所有特征图输入给“加权模块”，用以给不同通道的特征图分配权重。然后加权后的图片被送往下一个卷积层来提取融合后的综合特征。即双目融合网络既在浅层融合，也在高层融合。最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

本发明在公开的立体视频库QI-SVQA[18]上进行了实验。在QI-SVQA数据库中，有9个源立体视频和两种失真类型：H.264和模糊失真。

下面结合技术方法详细说明本方法。

本发明模仿人脑立体视觉处理机制，提出了一种基于双目融合网络与显著性的立体视频质量评价方法。首先，对立体视频的每一帧，通过计算其空间显著性与时间显著性生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流。然后，将左、右视频时空显著性特征流分别作为网络的两个输入。然后，网络自主地提取融合后的综合特征。最后全连接层将高维的综合特征映射到输出域，得到立体视频的质量分数。其具体流程如图1所示。

具体步骤如下：

1、视频显著性的计算

本项工作的内容基于文献[17]实现，即对立体视频的每一帧生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流。然后，将左视频时空显著性特征流与右视频时空显著性特征流分别作为网络的两个输入。

2、双目融合网络

所提出的双目融合网络如图1所示。双目融合网络被分为三个部分：左通道、右通道与融合通道。其中，左通道与右通道分别包含四个卷积层与两个池化层。左通道的输入是左视频时空显著性特征流，用于提取纯粹的左视点特征；右通道的输入是右视频时空显著性特征流，用于提取纯粹的右视点特征。融合通道提取双目特征，包含四个卷积层，四个“加权模块”，三个池化层和三个全连接层。在左右通道中的每个卷积层之后，在融合通道中都会有一次融合。因此在融合通道中有四次融合((1)(2)(3)(4))。本双目融合网络通过这种多次的融合尽可能地模仿大脑对立体视觉的长期处理过程。即本双目融合网络既在浅层融合，也在高层融合。对于每次融合，本发明先将所有的特征图送入加权模块用来对来自不同通道的特征图加权。因为基于双目竞争机制，左右视点确实被分配了不同的权重[15][16]。然后，加权后的图片被送往下一个卷积层来提取融合后的综合特征。另外，在融合通道，低层的输出被传递给高层，对应着大脑中低级视觉区域的输出是高级视觉区域输入的事实。最后，高维特征被映射到输出域得到每一帧的质量，平均所有帧的质量得到立体视频的质量。

“加权模块”由[15]中的SE块实现，如图2所示。“Concat”表示顺序地串联来自不同通道的特征图，并获得大小为高度×宽度×特征图个数(特征图的数量)的输入X，在图中表示为X:H×W×C，其中H代表高度，W代表宽度，C代表特征图个数。全局池化层将每个特征图映射为一个数字，并通过后续的层学习权重。第一个全连接层把C个权重数字压缩成了C/r个权重数字来降低计算量，其中r是缩放参数。经过ReLU激活函数后，第二个全连接层恢复回C个权重数字。最后经过sigmoid函数得到学习权重。在Scale层中，学习到的权重乘以对应的特征图，得到与X大小相同的输出

本发明将SE“权重块”嵌入双目融合网络中，来实现为不同视图的特征图分配权重的功能，并尽可能模仿双目竞争。

因此，双目融合网络中的卷积操作被定义为(1)。

F_l＝RELU(W_l*F_{lth_input}+B_l) (1)

在(1)中，W_l与B_l分别代表第l层卷积层的权重与偏置。F_l代表第l层卷积层输出的特征图，F_{lth_input}代表第l层卷积层输入的特征图。ReLU为激活函数，*代表卷积操作。在利用反向传播算法训练网络时，通过最小化损失函数来学习卷积层、池化层与全连接层的参数。本发明的双目融合网络使用欧几里得函数。

3、立体视频质量评价结果与分析

本发明的实验在公开立体视频库QI-SVQA上进行。所使用的立体视频库有9个源立体视频和两种失真类型：H.264和模糊失真。

表1展示了本发明提出的方法在QI-SVQA立体视频数据库上的实验结果，3D CNN+SVR和本发明提出的方法都是深度学习方法。3D CNN+SVR使用差异视频(2D视频)来表示立体视频，而本发明的方法实现从低层和高层融合和竞争，更符合人眼立体视觉机制。同时，时空显著特征流的应用反映了人眼的时间信息和注意机制，也提高了性能。将本发明提出的方法与传统方法(3-D-PQI，BSVQE，[4]中的方法)和稀疏表示方法([6]中的方法)进行比较，本发明方法表现依然优于传统方法和稀疏表示方法。这不仅是因为我们的方法可以更好地感知立体视觉，而且因为深度学习可以分层次地提取综合特征。

表1本发明方法在QI-SVQA数据库上的表现

方法	SROCC	PLCC	RMSE
				3D-PQI[2]	0.8930	0.8666	-
BSVQE[5]	0.9387	0.9394	0.3543
				Yang et al.[4]	0.9175	0.9208	0.3709
Han et al.[3]	0.9398	0.9488	0.3500
				Yang-Ji et.al[6]	0.9111	0.9141	0.4018
3D CNN+SVR[9]	0.9426	0.9503	0.3333
				本发明方法	0.9458	0.9522	0.3249

表2展示了本发明所提方法在不同网络结构的SROCC。i(i＝3,4,5)次融合代表在融合通道中共存在i次融合，对应于在左或右通道的CNN中存在i个卷积层。首先，当融合4次或融合5次时，网络表现出良好的性能。但就空间和时间复杂性而言，本发明选择4次融合的结构。其次，引入“加权模块”可以大大提高网络性能。这表明为不同通道的不同特征图分配不同的权重符合主观视觉感知。

表2本发明方法在不同网络结构上的SROCC

	3次融合	4次融合	5次融合
				无“加权模块”	0.9243	0.9371	0.9371
有“加权模块”	0.9329	0.9458	0.9454

为了证明所提网络结构的优越性，表3展示了不同网络结构的表现性能。在表3中，在(i)处融合意味着融合过程仅发生在融合通道中的位置(i)(i＝1,2,3,4)处，如图1所示。将在(1)融合，在(1)(2)融合，在(1)(2)(3)融合与在(1)(2)(3)(4)融合相比，结果表明高层的融合可以提高网络性能。因为高级融合可以提取更多抽象和精细的综合特征。将在(4)融合，在(3)(4)融合，在(2)(3)(4)融合与在(1)(2)(3)(4)融合相比，结果表明低层的融合也是必要的。因为低层融合的输出信息仍然在后续的处理中起着重要作用。因此似乎网络越早开始融合，就会得到更好的结果。此外，结果还表明，高级融合比低级融合更重要。例如，将在(1)(2)(3)处融合与在(2)(3)(4)处融合的结果进行比较，在(2)(3)(4)处融合的SROCC为0.9442，高于在(1)(2)(3)处融合的0.9436。这可能是因为从高层提取的特征向量更抽象，可以通过不同的组合表达不同事物的本质，但浅层特征的组合很难做到这一点。

表3不同融合结构的表现

	SROCC	PLCC	RMSE
				在(1)融合	0.9407	0.9423	0.3491
在(1)(2)融合	0.9429	0.9431	0.3381
				在(1)(2)(3)融合	0.9436	0.9412	0.3498
在(4)融合	0.9416	0.9403	0.3506
				在(3)(4)融合	0.9428	0.9476	0.3332
在(2)(3)(4)融合	0.9442	0.9503	0.3287
				在(1)(2)(3)(4)融合	0.9458	0.9522	0.3249

表4不同输入的表现

方法	SROCC	PLCC	RMSE
				源数据	0.9353	0.9413	0.3455
时空显著性特征流	0.9458	0.9522	0.3249

表4展示了不同输入的表现。时空显著性特征流明显相较于源数据提升了网络的性能。这是因为本发明使用的时空显著特征流反映了时空相关性，并有助于网络从空域和时域中提取特征。

参考文献：

[1]B.Appina,Manasa K.,and S.S.Channappayya,“A full referencestereoscopic video quality assessment metric,”in 2017 IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),2017,pp.2012–2016.

[2]W.Hong and L.Yu,“A spatio-temporal perceptual quality indexmeasuring compression distortions of three dimensional video,”IEEE SignalProcessing Letters,vol.25,no.2,pp.214–218,2018.

[3]Han J,Jiang T,Ma S.Stereoscopic video quality assessment modelbased on spatial-temporal structural information[C]//Visual Communications&Image Processing.IEEE,2013.

[4]Yang,Jiachen,et al."A no-reference optical flow-based qualityevaluator for stereoscopic videos in curvelet domain."Information Sciences,2017,pp.414.

[5]Z.Chen,W.Zhou,and W.Li,“Blind stereoscopic video qualityassessment:From depth perception to overall experience,”IEEE Transactions onImage Processing,vol.27,no.2,pp.721–734,2018.

[6]J.Yang,C.Ji,B.Jiang,W.Lu,and Q.Meng,“No reference qualityassessment of stereo video based on saliency and sparsity,”IEEE Transactionson Broadcasting,vol.64,no.2,pp.341–353,2018.

[7]D.H Hubel and T.N Wiesel,“Receptive fields of single neurones inthe cat’s striate cortex,”Journal of Physiology,vol.148,no.3,pp.574,1959.

[8]Wei Zhou,Zhibo Chen,and Weiping Li,“Stereoscopic video qualityprediction based on end-to-end dual stream deep neural networks,”in Advancesin Multimedia Information Processing-PCM 2018.2018,Springer InternationalPublishing.

[9]Jiachen Yang,Yinghao Zhu,Chaofan Ma,Wen Lu,and Qinggang Meng,“Stereoscopic video quality assessment based on 3d convolutional neuralnetworks,”Neurocomputing,2018.

[10]Keitha.May and Zhaoping Li,“Efficient coding theory predicts atilt aftereffect from viewing untilted patterns,”Current Biology Cb,vol.26,no.12,pp.1571–1576,2016.

[11]R B Tootell,J D Mendola,N K Hadjikhani,P J Ledden,A K Liu,J BReppas,M I Sereno,and A M Dale,“Functional analysis of v3a and related areasin human visual cortex,”Journal of Neuroscience,vol.17,no.18,pp.7060–78,1997.

[12]Anna W.Roe,Leonardo Chelazzi,Charles E.Connor,Bevil R.Conway,Ichiro Fujita,Jack L.Gallant,Haidong Lu,and Wim Vanduffel,“Toward a unifiedtheory of visual area v4,”Neuron,vol.74,no.1,pp.12–29,2012.

[13]A Polonsky,R Blake,J Braun,and D.J.Heeger,“Neuronal activity inhuman primary visual cortex correlates with perception during binocularrivalry.,”Nature Neuroscience,vol.3,no.11,pp.1153–9,2000.

[14]J.Hu,L.Shen,S.Albanie,G.Sun,and E.Wu.(2017).“Squeeze-and-excitation networks.”[Online].Available:https://arxiv.org/abs/1709.01507.

[15]W.J.M Levelt,“The alternation process in binocular rivalry.,”British Journal of Psychology,vol.57,no.3-4,pp.225–238,2011.

[16]Ding Jian and Sperling George,“A gain-control theory of binocularcombination,”Proceedings of the National Academy of Sciences of the UnitedStates of America,vol.103,no.4,pp.1141–1146,2006.

[17]Y.Fang,Z.Wang,W.Lin,and Z.Fang,“Video saliency incorporatingspatiotemporal cues and uncertainty weighting,”IEEE Transactions on ImageProcessing,vol.23,no.9,pp.3910–3921,Sept 2014.

[18]Qi,Feng,et al."Stereoscopic video quality assessment based onvisual attention and just-noticeable difference models."Signal Image&VideoProcessing,vol.10,no.4,pp.737-744,2016。

Claims

1.一种基于双目融合网络与显著性的立体视频质量评价方法，其特征是，首先，对立体视频的每一帧，通过计算其空间显著性与时间显著性生成显著性图片，并将得到的顺序排列的显著性图片称为左视频时空显著性特征流与右视频时空显著性特征流；然后，将左、右视频时空显著性特征流分别作为网络的两个输入；然后，网络自主地提取融合后的综合特征；最后全连接层将高维的综合特征映射到输出域，得到立体视频的质量分数。

2.如权利要求1所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，具体将双目融合网络分为三个部分：左通道、右通道与融合通道，其中，左通道与右通道分别包含四个卷积层和两个池化层，左通道用于提取纯粹的左视点特征，右通道用于提取纯粹的右视点特征，融合通道包含四个卷积层，三个池化层，三个全连接层和四个“加权模块”，在左右通道的每个卷积层之后，将来自不同通道的所有特征图输入给“加权模块”，用以给不同通道的特征图分配权重，然后加权后的图片被送往下一个卷积层来提取融合后的综合特征，即双目融合网络既在浅层融合，也在高层融合，最后，立体视频质量分数由全连接层将高维特征映射到输出域得到。

3.如权利要求1所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，双目融合网络既在浅层融合，也在高层融合，对于每次融合，先将所有的特征图送入加权模块用来对来自不同通道的特征图加权，因为基于双目竞争机制，左右视点确实被分配不同的权重；然后，加权后的图片被送往下一个卷积层来提取融合后的综合特征；另外，在融合通道，低层的输出被传递给高层，对应着大脑中低级视觉区域的输出是高级视觉区域输入的事实；最后，高维特征被映射到输出域得到每一帧的质量，平均所有帧的质量得到立体视频的质量。

4.如权利要求1所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，“加权模块”由SE块实现，“Concat”表示顺序地串联来自不同通道的特征图，并获得大小为高度×宽度×特征图个数的输入X，表示为X:H×W×C，其中H代表高度，W代表宽度，C代表特征图个数；全局池化层将每个特征图映射为一个数字，并通过后续的层学习权重；第一个全连接层把C个权重数字压缩成了C/r个权重数字来降低计算量，其中r是缩放参数；经过激活函数ReLU后，第二个全连接层恢复回C个权重数字，最后经过激活函数sigmoid得到学习权重；在Scale层中，学习到的权重乘以对应的特征图，得到与X大小相同的输出

5.如权利要求1所述的基于双目融合网络与显著性的立体视频质量评价方法，其特征是，双目融合网络中的卷积操作被定义为(1)式：

F_l＝RELU(W_l*F_{lth_input}+B_l) (1)

在(1)式中，W_l与B_l分别代表第l层卷积层的权重与偏置，F_l代表第l层卷积层输出的特征图，F_{lth_input}代表第l层卷积层输入的特征图，ReLU为激活函数，*代表卷积操作，在利用反向传播算法训练网络时，通过最小化损失函数来学习卷积层、池化层与全连接层的参数。