CN111784694A - 一种基于视觉注意力机制的无参考视频质量评价方法 - Google Patents
一种基于视觉注意力机制的无参考视频质量评价方法 Download PDFInfo
- Publication number
- CN111784694A CN111784694A CN202010841520.0A CN202010841520A CN111784694A CN 111784694 A CN111784694 A CN 111784694A CN 202010841520 A CN202010841520 A CN 202010841520A CN 111784694 A CN111784694 A CN 111784694A
- Authority
- CN
- China
- Prior art keywords
- video
- optical flow
- flow field
- visual attention
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000000007 visual effect Effects 0.000 title claims abstract description 30
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 26
- 230000003287 optical effect Effects 0.000 claims abstract description 48
- 238000010586 diagram Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract description 3
- 230000000873 masking effect Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 8
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明公开了一种基于视觉注意力机制的无参考视频质量评价方法,本方法通过生成视频帧的光流场,使用其筛选深度神经网络中的中间特征,通过注意力机制模拟了人眼对于失真视频的感知过程,以此完成视频的质量评价任务。本发明利用了人眼在观察失真视频时的感知效应,即视频中的运动信息会吸引人眼的注意力,使人眼更关注此区域而影响了对视频整体质量的判断。另外,运动具有掩蔽效应,运动区域的失真不易被人眼所觉察。本发明设计了视觉注意力机制模型模拟了人眼感知失真的这一过程,通过光流场逐像素地表示视频帧的运动信息,作为视觉注意力图,并将其作用于深度神经网络中,以此提高视频质量评价模型的性能。
Description
技术领域
本发明涉及一种基于视觉注意力机制的无参考视频质量评价方法,属于数字视频处理技术领域。
背景技术
随着5G网络设施和数字媒体的发展,视频在人们的生活中越来越常见。而视频在获取、压缩、传输中,会产生一定的失真,影响人们的观看体验。视频提供商为了提高视频服务的质量,需要对视频质量进行评估,这一过程称为视频质量评价(Video QualityAssessment, VQA)。
视频质量评价可以分为主观评价方法和客观评价方法。主观评价由观察者对视频质量进行主观评分,但主观评价工作量大、耗时长,不方便;客观评价方法是由计算机根据一定算法计算得到视频的质量指标,根据评价时是否需要参考视频又可以分为全参考(Full Reference, FR)、半参考(部分参考)(ReducedReference,RR)和无参考(NoReference,NR)三类评价方法:
(1)全参考视频质量评价方法。FR算法是指在给定无损视频作为参考视频的情况下,比较待评价视频与参考视频之间的差异,分析待评价视频的失真程度,从而得到待评价视频的质量评估。常见的FR方法有:基于视频像素统计的视频质量评价(主要有峰值信噪比和均方误差)、基于深度学习的视频质量评价、基于结构信息的视频质量评价(主要为结构相似度)。FR算法是目前为止在客观视频质量评价中最可靠的方法。
(2)半参考视频质量评价方法。RR算法是以提取参考视频的部分特征信息作为参考,对待评价视频进行比较分析,从而得到视频的质量评估。常见的RR算法主要为:基于原始视频特征方法和基于Wavelet域统计模型的方法。
(3)无参考视频质量评价方法。NR算法是指在没有无损视频作为参考视频的情况下,对待评价视频进行质量评估的方法。常用的NR算法主要为:基于自然场景统计的方法、基于深度学习的方法。
发明内容
针对现有视频质量评价中无参考视频质量评价性能差的问题,本发明提出了一种无参考客观质量评价方法,本发明利用人眼对于视频运动区域的失真感知特性,使用PWC-Net模型生成视频光流场数据,通过深度神经网络将视频帧数据计算回归至质量分数,并在其中使用视觉注意力机制,使用光流场数据对视频帧特征进行筛选,最后将所有视频帧分数融合至视频整体质量分数。
本发明采用的技术方案为一种基于视觉注意力机制的无参考视频质量评价方法,包括以下步骤:
步骤1,抽取视频帧。
对于一个视频,需要在抽帧后,以帧作为视觉注意力机制模型的输入单位。
步骤1.1,抽取视频帧,以4帧为间隔抽取视频帧,其他视频帧作为冗余丢弃;
步骤1.2,将抽取得到的视频帧的最后一帧丢弃,因该帧无法计算光流场;
步骤2,生成光流场数据。
使用开源模型PWC-Net生成视频数据的光流场。
步骤2.1,搭建PWC-Net模型,使用开源的已训练模型;
步骤2.2,将每一视频帧与下一视频帧组成视频帧对,作为PWC-Net的输入;
步骤2.3,将每一组视频帧对输入PWC-Net进行计算,得到所有视频帧的光流场数据。
步骤3,对光流场数据进行预处理。
对PWC-Net生成的光流场数据进行阈值截断归一化,并取幅值。
步骤3.1,对光流场数据的X、Y通道,分别设阈值Tx(默认取140)、Ty(默认取160),将阈值之外的光流数据值舍弃并设为阈值;
步骤3.2,将光流场数据X、Y通道的所有值,分别除以Tx、Ty,进行归一化;
步骤3.4,将光流场幅值图在宽高比不变的条件下,缩放至原大小的四分之一。
步骤4,搭建并训练视觉注意力机制模型。
搭建基于ResNet50的视觉注意力机制网络,并训练。
步骤4.1,改造ResNet50网络,在ResNet50的第二组卷积层之后加入视觉注意力机制模块,即使用步骤3得到的光流场幅值图与此时的特征图按位相乘;视觉注意力机制模块的输出作为ResNet50第三组卷积层的输入;
步骤4.2,整理训练数据,模型输入为步骤1生成的视频帧和其对应的步骤3生成的光流幅值图,标签为此视频的质量分数;
步骤4.3,训练视觉注意力机制网络,使用MSELoss进行训练。
步骤5,进行视频的质量评价。
对一段视频进行抽帧、计算光流,并进行质量评价。
步骤5.1,按照步骤1的步骤对待测视频抽取视频帧;
步骤5.2,使用步骤2和步骤3的步骤生成待测视频帧的光流场幅值图;
步骤5.3,使用步骤4训练好的视觉注意力机制网络进行质量评价,每个视频帧得到一个质量分数。
步骤5.4,对所有视频帧的质量分数求平均,得到视频的整体质量分数。
与现有技术相比,本发明具有以下优点:
(1)本发明利用人眼对于视频运动区域的失真感知特性提高VQA性能。在人眼感知视频失真的过程中,运动信息会吸引人眼的注意力,使人眼更容易关注此区域而影响了对视频整体质量的判断。另一方面运动具有掩蔽效应,运动区域所产生的失真不易被人眼所觉察。如果能筛选出运动区域,就可以更好地模拟人眼视觉***,使VQA模型更精确。
(2)本发明使用PWC-Net生成光流场,可以更好地提取视频运动区域,更好地表示VQA 中的视觉感知特性。光流场可以逐像素地描述视频中的运动信息,可以较好地代表VQA中视觉注意力机制的注意力视图。PWC-Net是一种高速度、高精度的深度学习模型,相对于传统方法,可以高效地生成更高质量的光流场。
附图说明
图1为本发明具体实施方式的流程图;
图2为本发明基于ResNet50的视觉注意力机制模型结构图;
具体实施方式
以下结合附图和实例对本方法进行详细说明。
实施方式的流程图如图1所示,包括以下步骤:
步骤S10,抽取视频帧;
步骤S20,生成光流场;
步骤S30,光流场数据预处理;
步骤S40,搭建并训练视觉注意力机制模型;
步骤S50,对视频进行质量评价;
实施方式的抽取视频帧调整步骤S10还包括以下步骤:
步骤S100,抽取视频帧,以等间隔选取视频帧,其他视频帧由于冗余直接丢弃;
步骤S110,将抽取得到视频帧的最后一帧丢弃,因为无法计算其光流场。
实施方式的光流场数据预处理调整步骤S20还包括以下步骤:
步骤S200,搭建PWC-Net模型,使用开源的已训练模型;
步骤S210,将每一帧视频与其之后的一帧组成视频帧对,作为PWC-Net的输入;
步骤S220,将每一视频帧对输入PWC-Net进行计算,得到所有视频帧的光流场数据。
实施方式的光流场数据预处理调整步骤S30还包括以下步骤:
步骤S300,对光流场数据的X、Y通道,分别设阈值Tx、Ty,将阈值之外的光流数据值舍弃并设为阈值;
步骤S310,将光流场数据X、Y通道的所有值,分别除以Tx、Ty,进行归一化;
步骤S320,计算所有光流场数据的幅度值M;
步骤S330,将光流场幅值图在宽高比不变的条件下,缩放至原大小的四分之一。
实施方式的搭建并训练视觉注意力机制模型调整步骤S40还包括以下步骤:
步骤S400,改造ResNet50网络,在ResNet50的第二组卷积层之后加入视觉注意力机制模块,即使用步骤S30得到的光流场幅值图与此时的特征图按位相乘;
步骤S410,整理训练数据,模型输入为单独视频帧和其对应的光流场,标签为此视频的质量分数;
步骤S420,训练视觉注意力机制网络,使用MSE Loss进行训练。
实施方式的对视频进行质量评价调整步骤S50还包括以下步骤:
步骤S500,按照步骤S10的步骤对待测视频抽取视频帧;
步骤S510,使用步骤S20和步骤S30的步骤生成待测视频帧的光流场幅值图;
步骤S520,使用步骤S40训练好的视觉注意力机制网络进行质量评价,每个视频帧得到一个质量分数;
步骤S530,对所有视频帧的质量分数求平均,得到视频的整体质量分数。
下面给出应用本发明的实验结果。
表1展示了使用本发明在多种VQA数据库上的性能结果。
注:SRCC(Spearman rankorder correlation coefficient,斯皮尔曼秩相关系数)
PLCC(Pearson linear correlation coefficient,皮尔森线性相关系数)
表1本发明在多种VQA数据库测试结果
数据库 | LIVE | CISQ | KoNVid-1k |
SRCC | 0.824 | 0.801 | 0.801 |
PLCC | 0.829 | 0.829 | 0.814 |
Claims (5)
1.一种基于视觉注意力机制的无参考视频质量评价方法,其特征在于:该方法包括以下步骤,
步骤1,由视频抽取视频帧;
步骤2,对抽取的视频帧,使用开源模型PWC-Net生成光流场数据;
步骤3,对光流场数据进行预处理,得到缩放后的光流场幅值图;
步骤4,搭建并训练视觉注意力机制模型,具体指搭建基于ResNet50的视觉注意力机制模型并训练,所述的视觉注意力机制模型用于为抽取的每个视频帧进行质量打分;
步骤5,按照步骤1对待评价视频进行抽帧,利用训练完成的视觉注意力机制模型对抽取的待评价视频帧进行质量打分,对所有帧的质量打分求平均即得到该视频的整体质量分数。
2.根据权利要求1所述的一种基于视觉注意力机制的无参考视频质量评价方法,其特征在于:步骤1所述的由视频抽取视频帧的步骤具体如下,
步骤1.1,以4帧为间隔抽取视频帧,其他视频帧作为冗余丢弃;
步骤1.2,将抽取得到的视频帧的最后一帧丢弃。
4.根据权利要求1所述的一种基于视觉注意力机制的无参考视频质量评价方法,其特征在于:步骤4所述的视觉注意力机制模型指改造后的ResNet50网络,所述改造具体指在ResNet50的第二组卷积层之后加入视觉注意力机制模块,即使用步骤3得到的缩放后的光流场幅值图与ResNet50的第二组卷积层的输出特征图按位相乘,视觉注意力机制模块的输出作为ResNet50第三组卷积层的输入。
5.根据权利要求1所述的一种基于视觉注意力机制的无参考视频质量评价方法,其特征在于:步骤4所述的模型训练,其模型输入的训练数据为步骤1所得视频帧和其对应的步骤3生成的光流场幅值图,标签为训练视频的质量分数;
步骤4所述的模型训练采用MSE Loss作为损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841520.0A CN111784694B (zh) | 2020-08-20 | 一种基于视觉注意力机制的无参考视频质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841520.0A CN111784694B (zh) | 2020-08-20 | 一种基于视觉注意力机制的无参考视频质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111784694A true CN111784694A (zh) | 2020-10-16 |
CN111784694B CN111784694B (zh) | 2024-07-23 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954312A (zh) * | 2021-02-07 | 2021-06-11 | 福州大学 | 一种融合时空特征的无参考视频质量评估方法 |
CN114202728A (zh) * | 2021-12-10 | 2022-03-18 | 北京百度网讯科技有限公司 | 一种视频检测方法、装置、电子设备、介质及产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020126891A1 (en) * | 2001-01-17 | 2002-09-12 | Osberger Wilfried M. | Visual attention model |
CN102769772A (zh) * | 2011-05-05 | 2012-11-07 | 浙江大学 | 一种视频序列失真评价方法和装置 |
US20170154415A1 (en) * | 2015-11-30 | 2017-06-01 | Disney Enterprises, Inc. | Saliency-weighted video quality assessment |
CN107318014A (zh) * | 2017-07-25 | 2017-11-03 | 西安电子科技大学 | 基于视觉显著区域和时空特性的视频质量评估方法 |
US20190258902A1 (en) * | 2018-02-16 | 2019-08-22 | Spirent Communications, Inc. | Training A Non-Reference Video Scoring System With Full Reference Video Scores |
CN110598537A (zh) * | 2019-08-02 | 2019-12-20 | 杭州电子科技大学 | 一种基于深度卷积网络的视频显著性检测方法 |
CN110677639A (zh) * | 2019-09-30 | 2020-01-10 | 中国传媒大学 | 一种基于特征融合和循环神经网络的无参考视频质量评价方法 |
CN111182292A (zh) * | 2020-01-05 | 2020-05-19 | 西安电子科技大学 | 无参考视频质量评估方法、***、视频接收器、智能终端 |
CN111193923A (zh) * | 2019-09-24 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 视频质量评估方法、装置、电子设备及计算机存储介质 |
CN111314733A (zh) * | 2020-01-20 | 2020-06-19 | 北京百度网讯科技有限公司 | 用于评估视频清晰度的方法和装置 |
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020126891A1 (en) * | 2001-01-17 | 2002-09-12 | Osberger Wilfried M. | Visual attention model |
CN102769772A (zh) * | 2011-05-05 | 2012-11-07 | 浙江大学 | 一种视频序列失真评价方法和装置 |
US20170154415A1 (en) * | 2015-11-30 | 2017-06-01 | Disney Enterprises, Inc. | Saliency-weighted video quality assessment |
CN107318014A (zh) * | 2017-07-25 | 2017-11-03 | 西安电子科技大学 | 基于视觉显著区域和时空特性的视频质量评估方法 |
US20190258902A1 (en) * | 2018-02-16 | 2019-08-22 | Spirent Communications, Inc. | Training A Non-Reference Video Scoring System With Full Reference Video Scores |
CN110598537A (zh) * | 2019-08-02 | 2019-12-20 | 杭州电子科技大学 | 一种基于深度卷积网络的视频显著性检测方法 |
CN111193923A (zh) * | 2019-09-24 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 视频质量评估方法、装置、电子设备及计算机存储介质 |
CN110677639A (zh) * | 2019-09-30 | 2020-01-10 | 中国传媒大学 | 一种基于特征融合和循环神经网络的无参考视频质量评价方法 |
CN111182292A (zh) * | 2020-01-05 | 2020-05-19 | 西安电子科技大学 | 无参考视频质量评估方法、***、视频接收器、智能终端 |
CN111314733A (zh) * | 2020-01-20 | 2020-06-19 | 北京百度网讯科技有限公司 | 用于评估视频清晰度的方法和装置 |
Non-Patent Citations (1)
Title |
---|
吴泽民;彭韬频;田畅;胡磊;王露萌;: "融合空时感知特性的无参考视频质量评估算法", 电子学报, no. 03 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954312A (zh) * | 2021-02-07 | 2021-06-11 | 福州大学 | 一种融合时空特征的无参考视频质量评估方法 |
CN112954312B (zh) * | 2021-02-07 | 2024-01-05 | 福州大学 | 一种融合时空特征的无参考视频质量评估方法 |
CN114202728A (zh) * | 2021-12-10 | 2022-03-18 | 北京百度网讯科技有限公司 | 一种视频检测方法、装置、电子设备、介质及产品 |
CN114202728B (zh) * | 2021-12-10 | 2022-09-02 | 北京百度网讯科技有限公司 | 一种视频检测方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110677639B (zh) | 一种基于特征融合和循环神经网络的无参考视频质量评价方法 | |
CN108074239B (zh) | 一种基于先验感知质量特征图的无参考图像质量客观评价方法 | |
Zhang et al. | A no-reference evaluation metric for low-light image enhancement | |
CN100559880C (zh) | 一种基于自适应st区的高清视频图像质量评价方法及装置 | |
Yue et al. | Blind stereoscopic 3D image quality assessment via analysis of naturalness, structure, and binocular asymmetry | |
CN105208374A (zh) | 一种基于深度学习的无参考图像质量客观评价方法 | |
CN105357519B (zh) | 基于自相似度特征的无参考立体图像质量客观评价方法 | |
CN107146220B (zh) | 一种通用型无参考图像质量评价方法 | |
CN107318014B (zh) | 基于视觉显著区域和时空特性的视频质量评估方法 | |
CN107396095A (zh) | 一种无参考三维图像质量评价方法 | |
CN105894507B (zh) | 基于图像信息量自然场景统计特征的图像质量评价方法 | |
CN109741285B (zh) | 一种水下图像数据集的构建方法及*** | |
CN102722888A (zh) | 基于生理与心理立体视觉的立体图像客观质量评价方法 | |
CN107743225A (zh) | 一种利用多层深度表征进行无参考图像质量预测的方法 | |
CN112528939A (zh) | 一种人脸图像的质量评价方法及装置 | |
CN114598864A (zh) | 一种基于深度学习的全参考超高清视频质量客观评价方法 | |
CN112070688A (zh) | 一种基于上下文引导生成对抗网络的单幅图像去雾方法 | |
CN104144339B (zh) | 一种基于人眼感知的质降参考立体图像质量客观评价方法 | |
Yang et al. | EHNQ: Subjective and objective quality evaluation of enhanced night-time images | |
Patil et al. | Survey on image quality assessment techniques | |
CN111784694B (zh) | 一种基于视觉注意力机制的无参考视频质量评价方法 | |
CN104899893B (zh) | 基于视觉注意力的图像质量检测方法 | |
CN111784694A (zh) | 一种基于视觉注意力机制的无参考视频质量评价方法 | |
CN113469998B (zh) | 基于主观和客观特征融合的全参考图像质量评价方法 | |
CN107657229B (zh) | 一种基于内容分类的视频模糊度检测人眼视觉修正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Ying Zefeng Inventor after: Shi Ping Inventor after: Hou Ming Inventor after: Pan Da Inventor before: Shi Ping Inventor before: Hou Ming Inventor before: Pan Da |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant |