CN114742774A

CN114742774A - 融合局部和全局特征的无参考图像质量评价方法及***

Info

Publication number: CN114742774A
Application number: CN202210326356.9A
Authority: CN
Inventors: 牛玉贞; 赖宇
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-12

Abstract

本发明涉及一种融合局部和全局特征的无参考图像质量评价方法及***，该方法包括以下步骤：步骤S1：对失真图像数据集中的图像进行数据预处理，并将数据集划分为训练集与测试集；步骤S2：构建全局及局部图像坐标提取模块；步骤S3：构建时间注意力机制模块；步骤S4：构建融合局部和全局图像特征的无参考图像质量评价网络，并采用训练集训练所述无参考图像质量评价网络；步骤S5：将测试集中图像输入到训练好的无参考图像质量评价网络模型中，输出对应的图像质量评价结果。该方法及***有利于提高无参考图像质量评价的准确性。

Description

融合局部和全局特征的无参考图像质量评价方法及***

技术领域

本发明属于图像处理以及计算机视觉领域，具体涉及一种融合局部和全局特征的无参考图像质量评价方法及***。

背景技术

随着移动时代的到来，每天都有数十亿张图片在各种社交媒体应用中产生，其中大部分是由非专业用户在各种室外环境中拍摄的。与专业摄影师拍摄的图片不同，普通用户所拍摄的图片的质量往往会因为曝光不足或过度、低能见度、运动模糊、重影等失真而下降。并且由于技术或硬件局限性等原因，图像中不可避免引入各种不同程度的失真，呈现出不同程度的质量下降，在压缩、处理、传输、显示等过程中也难免会出现一定程度的失真。而高质量的图像一方面可以提高观看者的体验质量，另一方面可以使许多计算机视觉算法受益。因此如何衡量图像的质量、评定图像是否满足某种特定应用要求就是图像质量评价的目标。而且图像质量评估结果可作为一些图像恢复增强技术的辅助参照信息，因此图像质量评价方法是非常需要的，它们也可为设计和优化高级图像/视频处理算法提供一种可行的途径。

传统的无参考图像质量评价方法依赖于人工设计的特征，且绝大多数试图检测特定类型的失真，如模糊、块效应、各种形式的噪声等。例如，对于图像的模糊度的评价，有基于边缘分析的方法、基于变换域的方法。对于图像噪声的评价，有基于滤波的方法、基于小波变换和其他一些变换域的方法。对于图像块效应的评价，有基于块边界和变换域的方法。还有一些基于通用类型的无参考图像质量评价方法，这些算法不检测特定类型的失真，他们通常将无参考图像质量评价问题转化成一个分类或回归问题，其中分类、回归是使用特定的特征进行训练的。但是手工设计的特征有其局限性，因为不同类型的图像内容具有不同的图像特征，对质量评价分数产生了很大的影响。

目前无参考图像质量评价的研究工作进入了深度学习时代，相比于人工设计的特征，神经网络提取的特征更适合图像的质量评价，也更强大。然而，使用神经网络来对图像进行质量评价，仍然存在问题。首先，在训练神经网络的预处理阶段对于图片的裁剪或改变其原始比例的操作都会影响图片的质量，从而导致评价结果的错误。其次，人们对于一张图像的评价不仅是对于整张图片而言，也取决于图片中的部分区域。因此，有必要对无参考图像质量评价方法作进一步研究。

发明内容

本发明的目的在于提供一种融合局部和全局特征的无参考图像质量评价方法及***，该方法及***有利于提高无参考图像质量评价的准确性。

为实现上述目的，本发明采用的技术方案是：一种融合局部和全局特征的无参考图像质量评价方法，包括以下步骤：

步骤S1：将失真图像数据集划分为训练集与测试集，并对数据集中图像进行数据预处理；

步骤S2：构建全局及局部图像坐标提取模块；

步骤S3：构建时间注意力机制模块；

步骤S4：构建融合局部和全局图像特征的无参考图像质量评价网络，并采用训练集训练所述无参考图像质量评价网络；

步骤S5：将测试集中图像输入到训练好的无参考图像质量评价网络模型中，输出对应的图像质量评价结果。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：将失真图像数据集中的图像与其对应的标签进行配对处理；

步骤S12：将失真图像数据集中的图像按设定比例划分为训练集与测试集；

步骤S13：将训练集中所有待训练图像缩放到固定尺寸H×W；

步骤S14：对步骤S13处理后的图像进行统一的随机翻转操作，对数据进行增强；

步骤S15：对步骤S14处理后的图像和测试集中的图像进行归一化处理。

进一步地，所述步骤S2中，所述全局及局部图像坐标提取模块按如下方法执行取全局或局部图像坐标操作：将尺寸为H×W的图像划分为n²个不相交的全局或局部图像，全局或局部图像的尺寸为h×w，其中

然后记录每一个全局或局部图像左上角和右下角像素在原始图像的坐标，其中n为设定参数，当n＝1时提取的是全局图像，n＞1时提取的是局部图像；

所述全局及局部图像坐标提取模块重复执行上述取全局或局部图像坐标操作N次，第i次执行时参数n＝i，得到N个图像尺度上的全局或局部图像的左上角和右下角的坐标，将各图像尺度上的全局或局部图像的左上角和右下角的坐标进行拼接，得到左上角和右下角的坐标向量(x_l，y_l，x_r，y_r)，向量的维度为Q，其中，Q＝1+2²+3²+...+N²。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：设时间注意力机制模块的输入为F_in，其维度为C×h_x×w_x；首先改变输入特征F_in，维度为Q×c×h_x×w_x，得到特征F_reshape，其中，c＝C/Q，Q为局部和全局图像个数；

步骤S32：将步骤S31中的F_reshape依次输入空间池化层和通道池化层，首先将F_reshape输入到空间池化层，得到输出F_spatial，其维度为Q×c×1×1，F_spatial的计算公式为：

F_spatial＝Maxpool(F_reshape)+Avgpool(F_reshape)

其中，Maxpool(*)表示步长为1的空间最大池化层，Avgpool(*)表示步长为1的空间平均池化层；

然后将F_spatial输入到通道池化层，得到输出F_channel，其维度为Q×1×1×1，F_channel的计算公式为：

F_channel＝Conv_1×1(Concat(CMaxpool(F_spatial)，CAvgpool(F_spatial)))

其中，CMaxpool(*)表示步长为1的通道最大池化层，CAvgpool(*)表示步长为1的通道平均池化层，Concat(·)表示特征在新的维度上进行拼接，Con v_1×1(*)表示用于降维且卷积核大小为1×1的卷积层；

步骤S33：将步骤S32中的F_channel通过Reshape操作改变其维度，由Q×1×1×1变为Q，然后将F_channel输入两层全连接层中，采用注意力机制来获得模型学习到图像不同的全局或局部图像的重要程度，以确定局部和全局图像中的哪些图像对于整体图像的质量评价具有更大的影响；再经过sigmoid函数将数值映射到(0，1)中，得到特征权重w_time，将w_time通过Reshape操作，将其维度由Q变为Q×1×1×1，之后用该特征权重作为对局部与全局图像的指导权重，即将最初输入的图像特征F_in乘以权重w_time再加上F_in，得到时间注意力机制模块的最终输出为F_time，维度为C×h_x×w_x，F_time的计算公式为：

w_time＝Sigmoid(MLP₁(Reshape₁(F_channel)))

F_time＝F_in+(F_in×Reshape₂(w_time))。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：以包括ResNet50、ResNet101的图像分类网络中的一种为基础，建立主干网络，去除主干网络的最后一层后作为特征提取网络；

步骤S42：将训练集中一个批次的图像输入到步骤S41中的特征提取网络，特征提取网络输出图像特征F_backbone，其维度为C×h_x×w_x，C为图像特征的通道数；同时，将图像输入全局及局部图像坐标提取模块，得到局部和全局图像的左上角和右下角坐标；

步骤S43：由于同一幅图像具有不同大小的全局图像和局部图像，而在神经网络批处理阶段需要特征维度相同，因此将输出的图像特征F_backbone和通过全局及局部图像坐标提取模块得到的与之相对应的局部和全局图像的左上角和右下角坐标一起输入到感兴趣区域校正模块，以此获得相同维度的局部和全局图像特征F_align，其维度为C×poolsize×poolsize，其中，poolsize为图像特征的尺寸大小；

步骤S44：将步骤S43输出的特征F_align输入到步骤S3中构建的时间注意力机制模块中，获得时间注意力机制的输出F_time，之后将F_time输入到双向门控制循环单元网络中，以模拟人类评价图像质量时对图像局部的顺序查看，获得输出F_bigru，其维度为Q×C；

步骤S45：对于步骤S44的输出F_bigru，首先采用Reshape操作改变其维度，由Q×C变为P，P＝Q×C，接着将F_bigru输入到最后的两层全连接层中，以此获得最终的图像质量评价分数F_out，其维度为1，表示图片的质量分数，其计算公式为：

F_out＝MLP₂(Reshape₃(F_bigru))

步骤S46：计算融合局部和全局图像特征的无参考图像质量评价网络的损失函数如下：

其中，m为样本个数，y_i表示图像的真实质量分数，

表示图像经过融合局部和全局图像特征的无参考图像质量评价网络得到的质量分数；每个全局图像和局部图像的真实质量分数和其所属的图像的真实质量分数相同；

步骤S47：以批次为单位重复上述步骤S42至步骤S46，直至步骤S46中计算得到的损失值收敛并趋于稳定，保存网络参数，完成融合局部和全局图像特征的无参考图像质量评价网络的训练过程。

进一步地，所述步骤S5中，将测试集中图像输入到训练好的无参考图像质量评价网络模型中，输出图像对应的质量分数。

本发明还提供了一种融合局部和全局特征的无参考图像质量评价***，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：提供了一种融合局部和全局特征的无参考图像质量评价方法及***，该方法对于输入的图片，不做影响图像质量的操作，保留其细节与比例，并且模拟人评价图片质量时的行为，对于对图片质量影响较大的区域重点关注，且有顺序的关注，有效的利用与图像的局部和全局特征，提高无参考图像质量评价的准确性。因此，本发明具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例中融合局部和全局图像特征的无参考图像质量评价网络的结构示意图。

图3是本发明实施例中时间注意力机制模块的结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种融合局部和全局特征的无参考图像质量评价方法，包括以下步骤：

步骤S1：将失真图像数据集划分为训练集与测试集，并对数据集中图像进行数据预处理。

在本实施例中，所述步骤S1具体包括以下步骤：

步骤S11：将失真图像数据集中的图像与其对应的标签进行配对处理。

步骤S12：将失真图像数据集中的图像按设定比例划分为训练集与测试集。

步骤S13：将训练集中所有待训练图像缩放到固定尺寸H×W。

步骤S14：对步骤S13处理后的图像进行统一的随机翻转操作，对数据进行增强。

步骤S2：构建全局及局部图像坐标提取模块。

具体地，所述全局及局部图像坐标提取模块按如下方法执行取全局或局部图像坐标操作：将尺寸为H×W的图像划分为n²个不相交的全局或局部图像，全局或局部图像的尺寸为h×w，其中

然后记录每一个全局或局部图像左上角和右下角像素在原始图像的坐标，其中n为设定参数，当n＝1时提取的是全局图像，n＞1时提取的是局部图像。

步骤S3：如图3所示，构建时间注意力机制模块。

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31：设时间注意力机制模块的输入为F_in，其维度为C×h_x×w_x；首先改变输入特征F_in，维度为Q×c×h_x×w_x，得到特征F_reshape，其中，c＝C/Q，Q为局部和全局图像个数。

F_spatial＝Maxpool(F_reshape)+Avgpool(F_reshape)

F_channel＝Conv_1×1(Concat(CMaxpool(F_spatial)，CAvgpool(F_spatial)))

其中，CMaxpool(*)表示步长为1的通道最大池化层，CAvgpool(*)表示步长为1的通道平均池化层，Concat(·)表示特征在新的维度上进行拼接，Conv_1×1(*)表示用于降维且卷积核大小为1×1的卷积层。

步骤S33：将步骤S32中的F_channel通过Reshape操作(记为Reshape₁)改变其维度，由Q×1×1×1变为Q，然后将F_channel输入两层全连接层中(记为MLP₁)，采用注意力机制来获得模型学习到图像不同的全局或局部图像的重要程度，以确定局部和全局图像中的哪些图像对于整体图像的质量评价具有更大的影响；再经过sigmoid函数将数值映射到(0，1)中，得到特征权重w_time，将w_time通过Reshape操作(记为Reshape₂)，将其维度由Q变为Q×1×1×1，之后用该特征权重作为对局部与全局图像的指导权重，即将最初输入的图像特征F_in乘以权重w_time再加上F_in，得到时间注意力机制模块的最终输出为F_time，维度为C×h_x×w_x，F_time的计算公式为：

w_time＝Sigmoid(MLP₁(Reshape₁(F_channel)))

F_time＝F_in+(F_in×Reshape₂(w_time))。

步骤S4：如图2所示，构建融合局部和全局图像特征的无参考图像质量评价网络，并采用训练集训练所述无参考图像质量评价网络。

在本实施例中，所述步骤S4具体包括以下步骤：

步骤S41：以包括ResNet50、ResNet101的图像分类网络中的一种为基础，建立主干网络，去除主干网络的最后一层后作为特征提取网络。

步骤S42：将训练集中一个批次的图像输入到步骤S41中的特征提取网络，特征提取网络输出图像特征F_backbone，其维度为C×h_x×w_x，C为图像特征的通道数；同时，将图像输入全局及局部图像坐标提取模块，得到局部和全局图像的左上角和右下角坐标。

步骤S43：由于同一幅图像具有不同大小的全局图像和局部图像，而在神经网络批处理阶段需要特征维度相同，因此将输出的图像特征F_backbone和通过全局及局部图像坐标提取模块得到的与之相对应的局部和全局图像的左上角和右下角坐标一起输入到感兴趣区域校正模块(Region Of Interest Align)，以此获得相同维度的局部和全局图像特征F_align，其维度为C×poolsize×poolsize，其中，poolsize为图像特征的尺寸大小。

步骤S44：将步骤S43输出的特征F_align输入到步骤S3中构建的时间注意力机制模块中，获得时间注意力机制的输出F_time，之后将F_time输入到双向门控制循环单元(Bidirectional Gate Recurrent Unit，BiGRU)网络中，以模拟人类评价图像质量时对图像局部的顺序查看，获得输出F_bigru，其维度为Q×C。

步骤S45：对于步骤S44的输出F_bigru，首先采用Reshape操作(记为Reshape₃)改变其维度，由Q×C变为P，P＝Q×C，接着将F_bigru输入到最后的两层全连接层中(记为MLP₂)，以此获得最终的图像质量评价分数F_out，其维度为1，表示图片的质量分数，其计算公式为：

F_out＝MLP₂(Reshape₃(F_bigru))。

其中，m为样本个数，y_i表示图像的真实质量分数，

表示图像经过融合局部和全局图像特征的无参考图像质量评价网络得到的质量分数；每个全局图像和局部图像的真实质量分数和其所属的图像的真实质量分数相同。

步骤S5：将测试集中图像输入到训练好的无参考图像质量评价网络模型中，输出图像对应的质量分数。

本实施例提供了一种融合局部和全局特征的无参考图像质量评价***，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种融合局部和全局特征的无参考图像质量评价方法，其特征在于，包括以下步骤：

步骤S2：构建全局及局部图像坐标提取模块；

步骤S3：构建时间注意力机制模块；

2.根据权利要求1所述的融合局部和全局特征的无参考图像质量评价方法，其特征在于，所述步骤S1具体包括以下步骤：

步骤S13：将训练集中所有待训练图像缩放到固定尺寸H×W；

3.根据权利要求1所述的融合局部和全局特征的无参考图像质量评价方法，其特征在于，所述步骤S2中，所述全局及局部图像坐标提取模块按如下方法执行取全局或局部图像坐标操作：将尺寸为H×W的图像划分为n²个不相交的全局或局部图像，全局或局部图像的尺寸为h×w，其中

然后记录每一个全局或局部图像左上角和右下角像素在原始图像的坐标，其中n为设定参数，当n＝1时提取的是全局图像，n>1时提取的是局部图像；

所述全局及局部图像坐标提取模块重复执行上述取全局或局部图像坐标操作N次，第i次执行时参数n＝i，得到N个图像尺度上的全局或局部图像的左上角和右下角的坐标，将各图像尺度上的全局或局部图像的左上角和右下角的坐标进行拼接，得到左上角和右下角的坐标向量(x_l,y_l,x_r,y_r)，向量的维度为Q，其中，Q＝1+2²+3²+…+N²。

4.根据权利要求3所述的融合局部和全局特征的无参考图像质量评价方法，其特征在于，所述步骤S3具体包括以下步骤：

F_spatial＝Maxpool(F_reshape)+Avgpool(F_reshape)

F_channel＝Conv_1×1(Concat(CMaxpool(F_spatial),CAvgpool(F_spatial)))

其中，CMaxpool(*)表示步长为1的通道最大池化层，CAvgpool(*)表示步长为1的通道平均池化层，Concat(·)表示特征在新的维度上进行拼接，Conv_1×1(*)表示用于降维且卷积核大小为1×1的卷积层；

w_timg＝Sigmoid(MLP₁(Reshape₁(F_channel)))

F_time＝F_in+(F_in×Reshape₂(w_time))。

5.根据权利要求4所述的融合局部和全局特征的无参考图像质量评价方法，其特征在于，所述步骤S4具体包括以下步骤：

F_out＝MLP₂(Reshape₃(F_bigru))

其中，m为样本个数，y_i表示图像的真实质量分数，

6.根据权利要求5所述的融合局部和全局特征的无参考图像质量评价方法，其特征在于，所述步骤S5中，将测试集中图像输入到训练好的无参考图像质量评价网络模型中，输出图像对应的质量分数。

7.一种融合局部和全局特征的无参考图像质量评价***，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-6任一项所述的方法步骤。