CN117710370B - 多任务驱动的真实失真全景图像盲质量评价方法与*** - Google Patents
多任务驱动的真实失真全景图像盲质量评价方法与*** Download PDFInfo
- Publication number
- CN117710370B CN117710370B CN202410161205.1A CN202410161205A CN117710370B CN 117710370 B CN117710370 B CN 117710370B CN 202410161205 A CN202410161205 A CN 202410161205A CN 117710370 B CN117710370 B CN 117710370B
- Authority
- CN
- China
- Prior art keywords
- representing
- quality
- task
- features
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000008447 perception Effects 0.000 claims abstract description 76
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000001303 quality assessment method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000000750 progressive effect Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013441 quality evaluation Methods 0.000 description 15
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明提出一种多任务驱动的真实失真全景图像盲质量评价方法与***,该方法包括:将视口图像通过特征提取网络以提取不同阶段视口图像的质量感知特征;利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征;根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作和失真范围预测任务操作,以分别得到预测质量分数和预测失真范围;本发明采用多尺度特征选择器以基于任务性质选择相应层级的质量特征适应不同的视觉任务,以实现多任务并行处理。
Description
技术领域
本发明涉及机计算机视觉和多媒体数字图像处理技术领域,特别涉及一种多任务驱动的真实失真全景图像盲质量评价方法与***。
背景技术
虚拟现实以提供模拟环境为特性,通过头戴式显示器使用户能够在沉浸式体验中自由地享受各种内容。全景图像作为虚拟现实视觉呈现的重要媒介,在获取、传输、处理、存储等过程中可能会出现质量降低的情况。全景图像的质量下降不仅极大地降低了最终用户的体验质量,还影响了全景图像的可用性。准确评估全景图像的质量对于算法优化和***优化至关重要。全景图像质量评估包括主观和客观质量评估,其中前者指的是进行心理物理实验,研究各种视觉因素的影响并建立不同客观模型的基准。现有的VR图像客观评价方法主要有全参考VR图像质量评价方法和无参考VR图像质量评价方法。前两种方法利用完整或部分参考信息评估全景图像的质量,而无参考全景图像质量评估可以在没有参考信息的情况下使用。由于获取原始图像的难度,无参考全景图像质量评估方法在实际应用中更为实用。
目前,全景图像质量评价数据库大多数为均匀失真的全景图像。真实世界中,全景图像不仅在压缩,传输和显示的过程中会不可避免的产生均匀失真,而且在采集和拼接处理过程中会引入非均匀失真,这种局部区域的降质对比周围区域更明显,甚至严重影响用户整体沉浸式体验。基于均匀失真的全景图像质量评价算法在处理非均匀失真全景图像时,其评价结果并不符合用户真实评价。此外,多数均匀失真图像质量评价算法对常见的压缩、模糊和噪声失真效果不错,对于全景图像中特有的拼接失真表现不佳。但鲁棒性强的全景图像客观质量评价算法能有效的评价各种失真类型和不同失真范围的全景图像。相比基于均匀失真的全景图像质量评价,基于真实失真的全景图像质量评价研究具有更重要的学术价值和应用前景。真实失真中的非均匀失真全景图像是由于相机传感器的限制或多个镜头拍摄不同步,多张单镜头图像拼接过程中产生的分布不均匀的失真。通过对真实失真全景图像质量评价的研究,探究用户在不同观看起始点和不同观看时间下对全景图像的感知影响,设计体验感更好的沉浸式虚拟现实图像观看方式。因此,基于真实失真全景图像质量评价研究,不仅有利于全景图像质量评价领域的发展,还能促进全景图像在虚拟现实服务领域的性能和效果,具有重要的学术价值和应用前景。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种多任务驱动的真实失真全景图像盲质量评价方法与***,以解决上述技术问题。
本发明提出了一种多任务驱动的真实失真全景图像盲质量评价方法,所述方法包括如下步骤:
S1、获取真实失真全景图像,并从真实失真全景图像中获取视口序列图像,对视口序列图像进行图像预处理,获得不同的视口图像;
S2、基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征;
S3、利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征;
S4、根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作和失真范围预测任务操作,以分别得到预测质量分数和预测失真范围。
本发明还提出一种多任务驱动的真实失真全景图像盲质量评价***,其中,所述***应用如上所述的多任务驱动的真实失真全景图像盲质量评价方法,所述***包括:
骨干网络,用于:
获取真实失真全景图像,并从真实失真全景图像中获取视口序列图像,对视口序列图像进行图像预处理,获得不同的视口图像;
基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征;
自适应特征融合网络,用于:
利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征;
质量分数预测网络,用于:
根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作,得到预测质量分数;
失真范围预测网络,用于:
根据任务性质,将任务性质相应层级的质量感知尺度特征进行失真范围预测任务操作,得到预测失真范围。
相较于现有技术,本发明的有益效果如下:
1、基于邻域自注意力机捕获质量感知特征,获取对真实失真特征敏感的信息内容,引导模型区分不同类型的真实失真,增强特征的可辨别性;
2、对多尺度真实失真信息进行聚合,以增强特征表示并提高特征对图像质量在不同感知尺度上的敏感性,并采用深层语义以增强特征表示,增强多尺度质量感知信息的抽象感知程度,提高后续预测的准确性;
3、设计多尺度特征选择器和视口特征选择器,采用多尺度特征选择器以基于任务性质选择相应层级的质量特征适应不同的视觉任务,以实现多任务并行处理,视口特征选择器则以动态调整特征之间的权重并过滤冗余特征,提高模型在复杂失真环境下的鲁棒性和泛化能力;
4、以文本模板的方式生成质量描述,提供更加丰富的语义层级的质量评估,有利于该项技术在工业环境下有效应用。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的多任务驱动的真实失真全景图像盲质量评价方法的流程图;
图2为本发明提出的多任务驱动的真实失真全景图像盲质量评价***的总体框架图;
图中,、表示拼接;/>、表示权重的和;/>、表示池化操作。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1,本实施例提供了一种多任务驱动的真实失真全景图像盲质量评价方法,所述方法包括如下步骤:
S1、获取真实失真全景图像,并从真实失真全景图像中获取视口序列图像,对视口序列图像进行图像预处理,获得不同的视口图像;
在所述步骤S1中,对视口序列图像进行图像预处理的方法具体包括如下步骤:
将视口序列图像进行图像缩放,使得其尺寸为统一大小;
将缩放后的视口序列图像进行归一化;
将归一化后的视口序列图像进行划分,80%作为训练集,20%作为测试集。
S2、基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征;
在所述步骤S2中,基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征的方法具体包括如下步骤:
将视口图像通过两个卷积层进行初步特征提取,得到初步特征/>,其中,,/>,/>表示实数集,/>表示视口的高度,/>表示视口的宽度,/>表示通道数量,/>和/>分别表示初步特征的像素数量和对应的维度;
采用自注意力机制的邻域自注意力模块构建骨干网络,首先将视口图像对应的初步特征通过全连接层映射得到查询特征/>、键特征/>和值特征/>;
对键特征和值特征/>进行矩阵相乘后可得到注意力矩阵/>,给定一个膨胀值/>,并利用注意力矩阵/>进行邻域自注意力计算,得到邻域自注意力输出,邻域自注意力计算过程存在如下关系式:
;
其中,表示邻域大小为/>的第/>个像素的邻域自注意力输出,/>代表向量模长,/>代表第/>个像素的/>个最邻近的值,/>表示邻域大小为/>的第/>个像素的邻域注意权重,/>表示如下:
;
其中,表示偏置项,/>表示注意权重项,/>表示/>邻域的第/>个最近邻;
将多层邻域自注意力模块采用串联的方式构成分阶段的骨干网络,采用上一阶段输出作为下一阶段输入的方式利用骨干网络进行渐进性特征提取,获取不同阶段骨干网络对应输出不同尺度的质量感知特征,利用骨干网络进行特征提取的过程存在如下关系式:
;
其中,表示第/>个视口不同尺度的质量感知特征,/>表示来自骨干网络的第/>个阶段的特征,/>表示阶段的数量,即骨干网络的总阶段数,/>表示骨干网络的函数,/>表示骨干网络的参数,/>表示第/>个视口图像;
将不同尺度的质量感知特征在尺度进行对齐操作,以使得不同尺度的质量感知特征在形状上具有相似性,得到尺度调整后的多尺度特征,将不同尺度的质量感知特征在尺度进行对齐操作的过程存在如下关系式:
;
其中,表示尺度调整后的多尺度特征,/>表示双线性插值函数,表示尺度参数,/>表示最大尺度。
S3、利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征;
在所述步骤S3中,利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征的方法具体包括如下步骤:
将尺度调整后的多尺度特征进行拼接操作,并通过卷积融合特征信息,得到融合特征,获得融合特征的过程存在以下关系式:
;
其中,表示融合特征,/>和/>分别表示卷积和相加操作;
使用softmax将融合特征转换为多尺度特征选择器,以通过自适应冗余特征过滤机制去除任务无关的特征,使用softmax将融合特征转换为多尺度特征选择器的过程存在以下关系式:
;
其中,表示在尺度/>上的多尺度特征每个层级相对于任务/>的权重,/>表示全连接层,/>表示展平操作,/>表示在尺度/>上的第/>个视口对应的融合特征;
选择前大的权重对应的层级作为任务相关的特征集合,选择特征集合的过程存在如下关系式:
;
其中,表示与任务相关的特征集合,/>表示选择函数,选择函数的输入参数分别为需要进行选择的特征、权重和数量,/>表示点乘操作。
获得特征集合后,通过层规范化对每个样本在特征维度上进行规范化,再对进行层归一化后的特征进行展操作,得到多尺度融合任务感知向量,获取多尺度融合任务感知向量的过程存在如下关系式:
;
其中,表示尺度/>上的多尺度融合任务感知向量,/>表示层归一化操作;
将不同尺度上的多尺度融合任务感知向量进行拼接操作,获得与任务性质相应层级的质量感知尺度特征:
;
其中,表示维度为/>实数矩阵,/>表示批处理大小,/>表示从第一个到/>尺度的特征向量总维数,/>表示拼接操作。
在本步骤中,通过不同尺度分析图像特征以捕捉人类感知中的多样性和复杂性,并利用可学习的自适应冗余特征过滤机制去除任务无关的特征,选择任务相关的特征。
S4、根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作和失真范围预测任务操作,以分别得到预测质量分数和预测失真范围;
在所述步骤S4中,根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作,得到预测质量分数的方法具体包括如下步骤:
将包含丰富视觉信息与质量相关内容的质量分数预测任务相关特征进行相加以聚合不同阶段特征向量,再将相加所得的合并向量通过卷积层和全连接层映射为权重向量,将相加所得的合并向量通过卷积层和全连接层映射为权重向量的过程存在如下关系式:
;
其中,表示权重向量,/>,/>表示第/>个视口特征的权重,表示质量分数预测任务相关特征相加所得的合并向量,/>表示卷积操作,/>表示softmax归一化操作;
根据权重值选择具有最高权重的前个视口特征,得到加权后的相关视口特征,其过程可以表示为:
;
其中,表示加权后的相关视口特征,/>表示权重向量中的第/>个权重,/>表示第/>个视口特征;
将加权后的视口特征进行质量分数预测任务操作,得到预测质量分数。
在本步骤中,利用质量分数预测任务相关特征的全部视口特征构建视口特征选择器,以选择包含丰富视觉信息与质量相关内容的视口特征;通过动态分配权重,将重要的视口特征加权提高,将不相关或质量较低的视口特征降低权重,从而使模型更加关注对整体质量评估影响较大的视口,根据视口的权重值,可以选择性地丢弃一些权重较低或不相关的视口特征,从而减少对整体质量评估的负面影响,使其更适应失真环境下复杂多变的全景图像的质量评估任务。
进一步的,将相关视口特征进行质量分数预测操作,以得到预测质量分数的方法具体包括如下步骤:
将相关视口特征输入回归模块中,通过全连接层和激活函数对视口进行分配权重操作,以此均衡每个视口的重要性,得到每个视口的预测质量得分,权重分配过程存在如下关系式:
;
其中,表示第/>个全景图像中第/>个视口的预测质量得分,/>表示输入到回归模块的特征,/>表示与视口质量预测相关的其他参数,/>表示回归模块,/>表示回归模块的参数;
在本步骤中,通过将加权后的相关视口特征进行质量分数预测任务操作,即可得到预测质量分数。但是由于图像中存在非均匀失真类型,即同一张图像的视口之间质量分数可能相差过大,因此在将每个图片的全部视口预测分数进行求均值之前,对视口进行分配权重操作,以此均衡每个视口的重要性。
对所有视口的预测质量得分取平均操作,得到最终预测质量得分,预测质量得分取平均操作过程存在如下关系式:
;
其中,表示第/>个全景图像最终的图像预测质量得分,/>表示视口数量。
在所述步骤S4中,根据任务性质,将任务性质相应层级的质量感知尺度特征进行失真范围预测任务操作,得到预测失真范围的方法具体包括如下步骤:
将每个视口对应的质量感知特征按照视口位置进行有序拼接,得到整个全景图像与失真范围预测网络相关的特征;
然后将整个全景图像与失真范围预测网络相关的特征通过全连接层再映射为概率分布,得到预测失真范围,预测失真范围的获取过程存在如下关系式:
;
其中,表示失真范围概率向量,即预测失真范围,/>表示整个全景图像与失真范围预测任务相关的特征,MLP表示多层感知机。
本发明对应的训练方法步骤如下:
获取真实失真全景图像的真实质量分数和真实失真范围;
将训练集为输入数据重复步骤S1至步骤S4以得到预测质量分数和预测失真范围;
采用交叉熵损失作为预测失真范围的损失函数,利用真实失真范围和预测质量分数构建交叉熵损失函数,交叉熵损失函数存在如下关系式:
;
其中,表示真实失真范围,/>表示预测失真范围,/>表示为N个样本的交叉熵损失的负和,/>表示批样本数量;
采用Norm-in-Norm损失作为预测质量分数的损失函数,利用真实质量分数和预测质量分数构建Norm-in-Norm损失函数,Norm-in-Norm损失函数存在如下关系式:
;
其中,表示标准化/>范数下真实质量分数和预测质量分数之间的差距,表示真实得分,/>表示图像质量预测分,/>表示标准化因子,/>表示超参数;
对交叉熵损失和Norm-in-Norm损失采用多任务训练的动态权重分配,动态权重分配过程存在如下关系式:
;
其中,表示两个子任务的累计损失,/>表示任务/>的权重,/>;
为任务计算权重,并采用相对下降速率的指数形式进行动态调整权重,计算权重过程存在如下关系式:
;
其中,表示第/>次迭代中任务/>的权重,/>,/>表示迭代索引,随着的增加,任务/>的权重逐渐趋于1,/>表示任务/>的权重,/>表示任务/>的权重,/>表示任务的损失函数。
对真实失真视口序列图像进行裁剪,并输入Adam优化器进行优化,设置Adam优化器权重衰减策略和学习参数;
通过更新权重和学习参数来最小化损失以提高预测失真范围和预测质量分数的准确性。
获取真实失真全景图像数据库中所有数据的平均主观得分,具体表示如下:
;
其中,表示第/>张图片的平均主观得分,即真实质量分数,/>表示评估者的数量,即标注者的总数,/>表示第/>张图片由第/>个标注者所给出的质量体验分数,/>表示参与评价非均匀失真全景图像质量的实验人数。
将预测结果与平均主观得分对比计算得到模型各项指标,测试指标包括以下3种:
预测单调性指标,包括斯皮尔曼相关系数(SRCC),具体表示为:
;
其中,表示数据失真图像的数量,/>表示第/>幅图像的主观分数与客观预测得分的差值。
预测准确性指标,包括皮尔逊相关系数(PLCC),具体表示为:
;
其中,和/>分别表示第/>幅图像的主观分数与客观预测得分,/>和/>分别是主观分数平均值与客观预测得分平均值。
预测分类准确性指标(ACC),使用分类准确度来评估预测失真范围的性能。其表示为:
;
其中,表示模型正确分类的样本数量;/>表示总共进行的样本分类数量。
请参照图2,本实施例还提供一种多任务驱动的真实失真全景图像盲质量评价***,其中,所述***应用如上所述的多任务驱动的真实失真全景图像盲质量评价方法,所述***包括:
骨干网络,用于:
获取真实失真全景图像,并从真实失真全景图像中获取视口序列图像,对视口序列图像进行图像预处理,获得不同的视口图像;
基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征;
自适应特征融合网络,用于:
利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征;
质量分数预测网络,用于:
根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作,得到预测质量分数;
失真范围预测网络,用于:
根据任务性质,将任务性质相应层级的质量感知尺度特征进行失真范围预测任务操作,得到预测失真范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种多任务驱动的真实失真全景图像盲质量评价方法,其特征在于,所述方法包括如下步骤:
S1、获取真实失真全景图像,并从真实失真全景图像中获取视口序列图像,对视口序列图像进行图像预处理,获得不同的视口图像;
S2、基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征;
S3、利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征;
S4、根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作和失真范围预测任务操作,以分别得到预测质量分数和预测失真范围;
在所述步骤S2中,基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征的方法具体包括如下步骤:
将视口图像通过两个卷积层进行初步特征提取,得到初步特征/>,其中,,/>,/>表示实数集,/>表示视口的高度,/>表示视口的宽度,/>表示通道数量,/>和/>分别表示初步特征的像素数量和对应的维度;
采用自注意力机制的邻域自注意力模块构建骨干网络,首先将视口图像对应的初步特征通过全连接层映射得到查询特征/>、键特征/>和值特征/>;
对键特征和值特征/>进行矩阵相乘后可得到注意力矩阵/>,给定一个膨胀值/>,并利用注意力矩阵/>进行邻域自注意力计算,得到邻域自注意力输出,邻域自注意力计算过程存在如下关系式:
;
其中,表示邻域大小为/>的第/>个像素的邻域自注意力输出,/>表示邻域大小为/>的第/>个像素的邻域注意权重,/>代表向量模长,/>代表第/>个像素的/>个最邻近的值;
将多层邻域自注意力模块采用串联的方式构成分阶段的骨干网络,采用上一阶段输出作为下一阶段输入的方式利用骨干网络进行渐进性特征提取,获取不同阶段骨干网络对应输出不同尺度的质量感知特征,利用骨干网络进行特征提取的过程存在如下关系式:
;
其中,表示第/>个视口不同尺度的质量感知特征,/>表示来自骨干网络的第/>个阶段的特征,/>表示阶段的数量,即骨干网络的总阶段数,/>表示骨干网络的函数,/>表示骨干网络的参数,/>表示第/>个视口图像;
将不同尺度的质量感知特征在尺度进行对齐操作,以使得不同尺度的质量感知特征在形状上具有相似性,得到尺度调整后的多尺度特征,将不同尺度的质量感知特征在尺度进行对齐操作的过程存在如下关系式:
;
其中,表示尺度调整后的多尺度特征,/>表示双线性插值函数,/>表示尺度参数,/>表示最大尺度;
利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征的方法具体包括如下步骤:
将尺度调整后的多尺度特征进行拼接操作,并通过卷积融合特征信息,得到融合特征,获得融合特征的过程存在以下关系式:
;
其中,表示融合特征,/>和/>分别表示卷积和相加操作;
使用softmax将融合特征转换为多尺度特征选择器,以通过自适应冗余特征过滤机制去除任务无关的特征,使用softmax将融合特征转换为多尺度特征选择器的过程存在以下关系式:
;
其中,表示在尺度/>上的多尺度特征每个层级相对于任务/>的权重,/>表示全连接层,/>表示展平操作,/>表示在尺度/>上的第/>个视口对应的融合特征;
选择前大的权重对应的层级作为任务相关的特征集合,选择特征集合的过程存在如下关系式:
;
其中,表示与任务相关的特征集合,/>表示选择函数,选择函数的输入参数分别为需要进行选择的特征、权重和数量,/>表示点乘操作;
获得特征集合后,通过层规范化对每个样本在特征维度上进行规范化,再对进行层归一化后的特征进行展操作,得到多尺度融合任务感知向量,获取多尺度融合任务感知向量的过程存在如下关系式:
;
其中,表示尺度/>上的多尺度融合任务感知向量;/>表示层归一化操作;
将不同尺度上的多尺度融合任务感知向量进行拼接操作,获得与任务性质相应层级的质量感知尺度特征:
;
其中,表示维度为/>实数矩阵,/>表示批处理大小,/>表示从第一个到尺度的特征向量总维数,/>表示拼接操作。
2.根据权利要求1所述的一种多任务驱动的真实失真全景图像盲质量评价方法,其特征在于,在所述步骤S1中,对视口序列图像进行图像预处理的方法具体包括如下步骤:
将视口序列图像进行图像缩放,使得其尺寸为统一大小;
将缩放后的视口序列图像进行归一化;
将归一化后的视口序列图像进行划分,80%作为训练集,20%作为测试集。
3.根据权利要求2所述的一种多任务驱动的真实失真全景图像盲质量评价方法,其特征在于,在所述步骤S4中,根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作,得到预测质量分数的方法具体包括如下步骤:
将质量分数预测任务相关特征进行相加以聚合不同阶段特征向量,再将相加所得的合并向量通过卷积层和全连接层映射为权重向量,将相加所得的合并向量通过卷积层和全连接层映射为权重向量的过程存在如下关系式:
;
其中,表示权重向量,/>,/>表示第/>个视口特征的权重,表示质量分数预测任务相关特征相加所得的合并向量,/>表示卷积操作,/>表示softmax归一化操作;
根据权重值选择具有最高权重的前个视口特征,得到加权后的相关视口特征,其过程可以表示为:
;
其中,表示加权后的相关视口特征,/>表示权重向量中的第/>个权重,/>表示第/>个视口特征;
将加权后的视口特征进行质量分数预测任务操作,得到预测质量分数。
4.根据权利要求3所述的一种多任务驱动的真实失真全景图像盲质量评价方法,其特征在于,将相关视口特征进行质量分数预测操作,以得到预测质量分数的方法具体包括如下步骤:
将相关视口特征输入回归模块中,通过全连接层和激活函数对视口进行分配权重操作,以此均衡每个视口的重要性,得到每个视口的预测质量得分,权重分配过程存在如下关系式:
;
其中,表示第/>个全景图像中第/>个视口的预测质量得分,/>表示输入到回归模块的特征,/>表示与视口质量预测相关的其他参数,/>表示回归模块,/>表示回归模块的参数;
对所有视口的预测质量得分取平均操作,得到最终预测质量得分,预测质量得分取平均操作过程存在如下关系式:
;
其中,表示第/>个全景图像最终的图像预测质量得分,/>表示视口数量。
5.根据权利要求4所述的一种多任务驱动的真实失真全景图像盲质量评价方法,其特征在于,在所述步骤S4中,根据任务性质,将任务性质相应层级的质量感知尺度特征进行失真范围预测任务操作,得到预测失真范围的方法具体包括如下步骤:
将每个视口对应的质量感知特征按照视口位置进行有序拼接,得到整个全景图像与失真范围预测网络相关的特征;
然后将整个全景图像与失真范围预测网络相关的特征通过全连接层再映射为概率分布,得到预测失真范围,预测失真范围的获取过程存在如下关系式:
;
其中,表示失真范围概率向量,即预测失真范围,/>表示整个全景图像与失真范围预测任务相关的特征,MLP表示多层感知机。
6.根据权利要求5所述的一种多任务驱动的真实失真全景图像盲质量评价方法,其特征在于,在执行上述步骤S1至步骤S4中,对应的训练方法包括如下步骤:
获取真实失真全景图像的真实质量分数和真实失真范围;
将训练集为输入数据重复步骤S1至步骤S4以得到预测质量分数和预测失真范围;
采用交叉熵损失作为预测失真范围的损失函数,利用真实失真范围和预测失真范围构建交叉熵损失函数,交叉熵损失函数存在如下关系式:
;
其中,表示真实失真范围,/>表示预测失真范围,/>表示为N个样本的交叉熵损失的负和,/>表示批样本数量;
采用Norm-in-Norm损失作为预测质量分数的损失函数,利用真实质量分数和预测质量分数构建Norm-in-Norm损失函数,Norm-in-Norm损失函数存在如下关系式:
;
其中,表示标准化/>范数下真实质量分数和预测质量分数之间的差距,/>表示真实质量分数,/>表示预测质量分数,/>表示标准化因子,/>表示超参数;
对交叉熵损失和Norm-in-Norm损失采用多任务训练的动态权重分配,动态权重分配过程存在如下关系式:
;
其中,表示两个子任务的累计损失,/>表示任务/>的权重,/>;
为任务计算权重,并采用相对下降速率的指数形式进行动态调整权重,计算权重过程存在如下关系式:
;
其中,表示第/>次迭代中任务/>的权重,/>,/>表示迭代索引,随着/>的增加,任务/>的权重逐渐趋于1,/>表示任务/>的权重,/>表示任务/>的权重,/>表示任务/>的损失函数;
对真实失真视口序列图像进行裁剪,并输入Adam优化器进行优化,设置Adam优化器权重衰减策略和学习参数;
通过更新权重和学习参数来最小化损失以提高预测失真范围和预测质量分数的准确性。
7.一种多任务驱动的真实失真全景图像盲质量评价***,其特征在于,所述***应用如权利要求1至6任意一项所述的一种多任务驱动的真实失真全景图像盲质量评价方法,所述***包括:
骨干网络,用于:
获取真实失真全景图像,并从真实失真全景图像中获取视口序列图像,对视口序列图像进行图像预处理,获得不同的视口图像;
基于自注意力机制构建特征提取网络,将视口图像通过不同层级的特征提取网络,提取不同阶段视口图像的质量感知特征;
自适应特征融合网络,用于:
利用不同阶段表征不同质量感知尺度的质量感知特征构建多尺度特征选择器,通过多尺度特征选择器选择任务性质相应层级的质量感知尺度特征;
质量分数预测网络,用于:
根据任务性质,将任务性质相应层级的质量感知尺度特征进行质量分数预测任务操作,得到预测质量分数;
失真范围预测网络,用于:
根据任务性质,将任务性质相应层级的质量感知尺度特征进行失真范围预测任务操作,得到预测失真范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410161205.1A CN117710370B (zh) | 2024-02-05 | 2024-02-05 | 多任务驱动的真实失真全景图像盲质量评价方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410161205.1A CN117710370B (zh) | 2024-02-05 | 2024-02-05 | 多任务驱动的真实失真全景图像盲质量评价方法与*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117710370A CN117710370A (zh) | 2024-03-15 |
CN117710370B true CN117710370B (zh) | 2024-05-10 |
Family
ID=90161079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410161205.1A Active CN117710370B (zh) | 2024-02-05 | 2024-02-05 | 多任务驱动的真实失真全景图像盲质量评价方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117710370B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096770B (zh) * | 2024-04-29 | 2024-06-28 | 江西财经大学 | 非视口依赖的抗畸变无参考全景图像质量评价方法与*** |
CN118196107A (zh) * | 2024-05-20 | 2024-06-14 | 江西财经大学 | 基于多协同网络辅助的全景图像盲质量评价方法与*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972282A (zh) * | 2022-06-08 | 2022-08-30 | 东华理工大学 | 基于图像语义信息的增量学习无参考图像质量评价方法 |
CN115222996A (zh) * | 2022-08-23 | 2022-10-21 | 天津大学 | 内容引导与自注意力真实失真盲参考图像质量评价方法 |
WO2023087558A1 (zh) * | 2021-11-22 | 2023-05-25 | 重庆邮电大学 | 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法 |
CN116433647A (zh) * | 2023-04-27 | 2023-07-14 | 华北电力大学(保定) | 一种基于多任务学习的绝缘子图像质量评价方法及*** |
CN116543409A (zh) * | 2023-03-29 | 2023-08-04 | 华中科技大学 | 一种证件目标提取方法、***、介质、设备及终端 |
CN117237279A (zh) * | 2023-08-11 | 2023-12-15 | 江西财经大学 | 一种非均匀失真全景图像盲质量评价方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750140B (zh) * | 2021-01-21 | 2022-10-14 | 大连理工大学 | 基于信息挖掘的伪装目标图像分割方法 |
US20240013033A1 (en) * | 2022-05-19 | 2024-01-11 | Nvidia Corp. | Large scale mask optimization with convolutional fourier neural operator and litho-guided self learning |
-
2024
- 2024-02-05 CN CN202410161205.1A patent/CN117710370B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023087558A1 (zh) * | 2021-11-22 | 2023-05-25 | 重庆邮电大学 | 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法 |
CN114972282A (zh) * | 2022-06-08 | 2022-08-30 | 东华理工大学 | 基于图像语义信息的增量学习无参考图像质量评价方法 |
CN115222996A (zh) * | 2022-08-23 | 2022-10-21 | 天津大学 | 内容引导与自注意力真实失真盲参考图像质量评价方法 |
CN116543409A (zh) * | 2023-03-29 | 2023-08-04 | 华中科技大学 | 一种证件目标提取方法、***、介质、设备及终端 |
CN116433647A (zh) * | 2023-04-27 | 2023-07-14 | 华北电力大学(保定) | 一种基于多任务学习的绝缘子图像质量评价方法及*** |
CN117237279A (zh) * | 2023-08-11 | 2023-12-15 | 江西财经大学 | 一种非均匀失真全景图像盲质量评价方法及*** |
Non-Patent Citations (2)
Title |
---|
"BLIND STEREOSCOPIC IMAGE QUALITY ASSESSMENT BY DEEP NEURAL NETWORK OF MULTI-LEVEL FEATURE FUSION";Jiebin Yan等;《2020 IEEE International Conference on Multimedia and Expo(ICME)》;20200609;第1-6页 * |
"无参考图像质量评价研究进展";方玉明等;《中国图象图形学报》;20210228;第26卷(第2期);第265-286页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117710370A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117710370B (zh) | 多任务驱动的真实失真全景图像盲质量评价方法与*** | |
CN108090902B (zh) | 一种基于多尺度生成对抗网络的无参考图像质量客观评价方法 | |
CN112784810B (zh) | 手势识别方法、装置、计算机设备和存储介质 | |
CN117237279A (zh) | 一种非均匀失真全景图像盲质量评价方法及*** | |
CN111340123A (zh) | 一种基于深度卷积神经网络的图像分数标签预测方法 | |
CN109344851B (zh) | 图像分类显示方法和装置、分析仪器和存储介质 | |
CN117636134B (zh) | 基于层级移动窗口注意力的全景图像质量评价方法与*** | |
CN113554599B (zh) | 一种基于人类视觉效应的视频质量评价方法 | |
CN108710893A (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN113269256A (zh) | 一种MiSrc-GAN模型的构建方法及应用 | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及*** | |
CN114140623A (zh) | 一种图像特征点提取方法及*** | |
CN112767385A (zh) | 基于显著性策略与特征融合无参考图像质量评价方法 | |
CN115272203A (zh) | 一种基于深度学习的无参考图像质量评价方法 | |
CN113222902B (zh) | 一种无参考图像质量评价方法及*** | |
CN114663769A (zh) | 一种基于YOLO v5的水果识别方法 | |
CN113411566A (zh) | 一种基于深度学习的无参考视频质量评价方法 | |
CN115908314A (zh) | 一种基于从像素到全局双边指导网络的少样本缺陷检测方法 | |
CN115457015A (zh) | 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置 | |
CN115018723A (zh) | 基于卷积神经网络且用于对模糊图像进行处理的方法 | |
CN112102216B (zh) | 自适应权重的全变差图像融合方法 | |
CN114742774A (zh) | 融合局部和全局特征的无参考图像质量评价方法及*** | |
CN118096770B (zh) | 非视口依赖的抗畸变无参考全景图像质量评价方法与*** | |
CN114240872B (zh) | 图片质量评估方法、装置、计算机设备及存储介质 | |
CN113450249B (zh) | 一种面向不同液晶屏尺寸具有美学特征的视频重定向方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |