CN108495135B - 一种屏幕内容视频编码的快速编码方法 - Google Patents

一种屏幕内容视频编码的快速编码方法 Download PDF

Info

Publication number
CN108495135B
CN108495135B CN201810207320.2A CN201810207320A CN108495135B CN 108495135 B CN108495135 B CN 108495135B CN 201810207320 A CN201810207320 A CN 201810207320A CN 108495135 B CN108495135 B CN 108495135B
Authority
CN
China
Prior art keywords
coding unit
current coding
current
neural network
screen content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810207320.2A
Other languages
English (en)
Other versions
CN108495135A (zh
Inventor
彭宗举
胡晴晴
陈芬
蒋刚毅
郁梅
陈华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201810207320.2A priority Critical patent/CN108495135B/zh
Publication of CN108495135A publication Critical patent/CN108495135A/zh
Application granted granted Critical
Publication of CN108495135B publication Critical patent/CN108495135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种屏幕内容视频编码的快速编码方法,其根据屏幕内容视频的内容特性对编码单元进行分类,根据编码单元的不同类型采取不同的预测模式,可以降低预测过程的编码复杂度;其用BP神经网络可以更准确地对编码单元进行分类,避免编码单元分类不准确带来的率失真性能损失;其用灰度共生矩阵衡量编码单元的复杂度,并结合时空域相关性可以更准确地对编码深度进行设置,节省了大量的编码时间。

Description

一种屏幕内容视频编码的快速编码方法
技术领域
本发明涉及一种视频信号的处理方法,尤其是涉及一种屏幕内容视频编码的快速编码方法。
背景技术
随着科学技术的快速发展,人们对视频观看和处理的要求越来越高。网络技术以及流媒体技术的快速更新,高清、超高清等视频技术的兴起,视频获取、处理及播放的方法日益增多。由于视频会议、远程教育、共享屏幕、无线显示器等应用的出现,人们对屏幕内容视频(SCV)的需求日益增加。屏幕内容视频主要有四种类型:具有运动的文本和图形的视频、混合内容视频、动画、由摄像机拍摄的视频。
为了更好地适应视频处理的要求,2013年1月视频编码联合小组(JointCollaborative Team on Video Coding,JCT-VC)提出了新一代视频编码标准——高效视频标准(High Efficiency Video Coding,HEVC)。与上一代视频编码标准H.264相比,视频编码标准HEVC引入了新的编码技术,其压缩效率比H.264提高将近一倍。但是,视频编码标准HEVC是为了适应高分辨率、高帧率的视频,对于典型的屏幕内容视频的编码效率的提升并不是很高。因此,JCT-VC在2014年3月提出了针对屏幕内容视频特点的编码标准——屏幕内容编码(Screen Content Coding,SCC),并开发了SCC测试模型(SCC Test Model,SCM)。
与视频编码标准HEVC相比,视频编码标准SCC增加了四种新的编码技术:(1)帧内块拷贝(Intra Block Copy,IBC)技术,当帧内块拷贝作为当前编码单元(Coding Unit,CU)的最优编码模式时,当前编码单元内的所有预测单元(Prediction Unit,PU)在当前编码帧已编码的所有编码单元中寻找相似的重构块,因此,帧内块拷贝可以看作是帧内的运动补偿过程。(2)调色板模式(Palette Mode,PLT),对于屏幕内容,许多块仅包含有限数量的亮度分量值,对于具有这种特点的编码单元,可以使用调色板模式枚举每个亮度值,然后将每个样本用索引值表示其属于具体那种颜色,实验表明,使用调色板模式编码这种编码单元比传统的HEVC预测变换的编码效率更高。(3)自适应颜色变换(Adaptive ColorTransform,ACT),因为很多屏幕内容视频使用RGB颜色空间,所以去除色彩间冗余对于SCC非常重要。Marpe等人提出的自适应颜色变换技术可以提高编码效率,但是,在SCC中,使用编码单元级的适配器将编码残差转换成不同的颜色空间,也就是RGB颜色空间的图像块可以被直接编码,或者是在编码时被自适应地转换为YCoCg颜色空间。(4)自适应运动矢量解析(Adaptive Motion Vector Resolution,AMVR),与连续运动的视频序列相比,屏幕内容视频通常具有离散的运动矢量,因此,对于屏幕内容,不需要使用分数运动补偿。在SCC中,整像素精度和亚像素精度被分层控制,运用在不同的视频场景。上述这些新的编码技术的引入在带来较高的率失真性能和编码压缩效率的情况下,也带来了很高的编码计算复杂度,不利于视频编码的实时应用。因此,如何在不影响编码率失真性能的同时,尽可能地降低编码复杂度是当前视频编码领域的研究热点。
发明内容
本发明所要解决的技术问题是提供一种屏幕内容视频编码的快速编码方法,其在保证率失真性能的前提下,能够有效降低编码时间。
本发明解决上述技术问题所采用的技术方案为:一种屏幕内容视频编码的快速编码方法,其特征在于包括以下步骤:
步骤1):将待编码的屏幕内容视频中当前待处理的屏幕内容图像定义为当前帧;
步骤2):将当前帧中当前待处理的编码树单元定义为当前编码树单元;
步骤3):将当前编码树单元中当前待编码的编码单元定义为当前编码单元;
步骤4):计算当前编码单元中的所有像素点的像素值的方差,记为Var,并作为当前编码单元的第一特征;计算当前编码单元中的所有边缘像素点的总个数与当前编码单元中的所有像素点的总个数的比例,记为p,并作为当前编码单元的第二特征;统计当前编码单元中不同像素值的总个数,记为m,并作为当前编码单元的第三特征;
步骤5):当当前编码单元的尺寸为64×64时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第一BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元;
当当前编码单元的尺寸为32×32时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第二BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元;
当当前编码单元的尺寸为16×16时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第三BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元;
步骤6):定义屏幕内容帧内预测模式包括帧内预测模式中的DC模式、Planar模式、数字标识为10的方向模式、数字标识为18的方向模式、数字标识为26的方向模式、数字标识为34的方向模式;当当前编码单元为屏幕内容编码单元时,采用屏幕内容帧内预测模式以及帧内块拷贝和调色板模式对当前编码单元进行编码,然后判断编码过程中确定的当前编码单元的最优模式是否为DC模式或Planar模式或帧内块拷贝中的Merge模式或调色板模式,如果是,则执行步骤7);否则,执行步骤8);
当当前编码单元为自然内容编码单元时,采用帧内预测模式对当前编码单元进行编码,然后执行步骤7);
步骤7):判断编码过程中确定的当前编码单元的最优模式是否为的DC模式或Planar模式,如果是,则执行步骤9);否则,执行步骤8);
步骤8):如果当前编码单元的深度等于2或3,则执行步骤9);如果当前编码单元的深度等于0或1,则对当前编码单元进行分割,得到当前编码单元的下一深度的四个编码单元,然后将下一深度左上的编码单元作为当前单元编码,然后返回步骤4)继续执行;
步骤9):将当前编码树单元中下一个待编码的编码单元作为当前编码单元,然后返回步骤4)继续执行,直至当前编码树单元中的所有编码单元处理完毕;
步骤10):将当前帧中下一个待处理的编码树单元作为当前编码树单元,然后返回步骤3)继续执行,直至当前帧中的所有编码树单元处理完毕;
步骤11):将待编码的屏幕内容视频中下一帧待处理的屏幕内容图像作为当前帧,然后返回步骤2)继续执行,直至所有屏幕内容图像处理完毕。
所述的步骤4)中,
Figure BDA0001596226880000041
其中,N表示当前编码单元中包含的像素点的总个数,N为正整数,i为正整数,1≤i≤N,Li表示当前编码单元中的第i个像素点的像素值。
所述的步骤4)中,当前编码单元中的边缘像素点是根据三阶Sobel算子确定的。
所述的步骤5)中,BP神经网络模型的训练过程为:
获取多幅屏幕内容图像,将多幅屏幕内容图像构成训练集;然后按照步骤4)的过程,以相同的方式获取训练集中的每幅屏幕内容图像中的每个编码树单元中的每个编码单元的第一特征、第二特征和第三特征;接着将训练集对应的所有尺寸为64×64的编码单元的第一特征、第二特征和第三特征作为样本输入到第一BP神经网络进行训练,训练得到第一BP神经网络模型;并将训练集对应的所有尺寸为32×32的编码单元的第一特征、第二特征和第三特征作为样本输入到第二BP神经网络进行训练,训练得到第二BP神经网络模型;将训练集对应的所有尺寸为16×16的编码单元的第一特征、第二特征和第三特征作为样本输入到第三BP神经网络进行训练,训练得到第三BP神经网络模型;其中,在训练前确定第一BP神经网络、第二BP神经网络和第三BP神经网络的输入节点数均为3个、输出节点数均为2个、隐藏层数均为1层,在训练前确定第一BP神经网络的隐藏层的节点数为16、第二BP神经网络的隐藏层的节点数为22、第一BP神经网络的隐藏层的节点数为30,在训练前确定训练过程中的最大迭代次数为5000次、目标错误率为0.01,在训练前确定输出标签为1或0,1表示编码单元为屏幕内容编码单元,0表示编码单元为自然内容编码单元。
所述的步骤8)中,对当前编码单元进行分割的具体过程为:
A1、判断当前编码单元所属的屏幕内容图像的帧序号是否为10的整数倍,如果是,则采用SCM8.3原始平台对当前编码单元进行分割,完成当前编码单元的分割过程;否则,执行步骤A2;
其中,待编码的屏幕内容视频中的屏幕内容图像的帧序号从0开始计;
A2、计算当前编码单元的灰度共生矩阵的能量,记为Jcur
A3、判断当前编码单元是否为边缘编码单元,如果是,则将当前编码单元的最大深度设置为3,然后返回步骤4)继续执行;否则,执行步骤A4;
其中,边缘编码单元的确定过程为:编码单元的参考编码单元包括已编码同位编码单元、已编码上编码单元、已编码左编码单元、已编码左上编码单元及已编码右上编码单元,将仅有已编码同位编码单元的编码单元、仅有已编码上编码单元的编码单元、仅有已编码左编码单元的编码单元确定为边缘编码单元;
A4、判断Jcur与当前编码单元的每个参考编码单元的灰度共生矩阵的能量的差值是否均小于设定阈值T,如果是,则将当前编码单元的最大深度设置为当前编码单元的所有参考编码单元的最优深度中的最大值,然后返回步骤4)继续执行;否则,执行步骤A5;
其中,设定阈值T为0.0001;
A5、判断当前编码单元所属的屏幕内容图像中已编码的与当前编码单元相同尺寸的编码单元的灰度共生矩阵的能量中是否存在一个能量与Jcur相同,如果存在,则终止对当前编码单元的分割,并采用帧内块拷贝模式对当前编码单元进行编码,然后返回步骤4)继续执行;如果不存在,则执行步骤A6;
A6、判断当前编码单元的所有参考编码单元中是否存在两个或两个以上的参考编码单元的类型与当前编码单元的类型相同,如果存在,则将当前编码单元的最大深度设置为当前编码单元的所有同类型的参考编码单元的最优深度中的最大值,然后返回步骤4)继续执行;否则,将当前编码单元的最大深度设置为3,然后返回步骤4)继续执行;
其中,类型是指屏幕内容编码单元或自然内容编码单元。
与现有技术相比,本发明的优点在于:
1)本发明方法考虑了屏幕内容视频与传统HEVC视频内容特性的不同,根据屏幕内容视频的内容特性对编码单元进行分类,根据编码单元的不同类型采取不同的预测模式,降低预测过程的编码复杂度。
2)本发明方法用BP神经网络可以更准确地对编码单元进行分类,避免编码单元分类不准确带来的率失真性能损失。
3)本发明方法用灰度共生矩阵衡量编码单元的复杂度,并结合时空域相关性可以更准确地对编码深度进行设置,节省了大量的编码时间。
附图说明
图1为本发明的总体流程框图;
图2为一幅屏幕内容图像中的屏幕内容编码单元和自然内容编码单元的示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种屏幕内容视频编码的快速编码方法,其总体流程框图如图1所示,其包括以下步骤:
步骤1):将待编码的屏幕内容视频中当前待处理的屏幕内容图像定义为当前帧。
步骤2):将当前帧中当前待处理的编码树单元定义为当前编码树单元。
步骤3):将当前编码树单元中当前待编码的编码单元定义为当前编码单元。
步骤4):计算当前编码单元中的所有像素点的像素值的方差,记为Var,并作为当前编码单元的第一特征;计算当前编码单元中的所有边缘像素点的总个数与当前编码单元中的所有像素点的总个数的比例,记为p,并作为当前编码单元的第二特征;统计当前编码单元中不同像素值的总个数,记为m,如若当前编码单元中的像素值有2、54、200、60,则m=4,并作为当前编码单元的第三特征。
在本实施例中,步骤4)中,
Figure BDA0001596226880000061
其中,N表示当前编码单元中包含的像素点的总个数,N为正整数,i为正整数,1≤i≤N,Li表示当前编码单元中的第i个像素点的像素值。
在本实施例中,步骤4)中,当前编码单元中的边缘像素点是根据三阶Sobel算子确定的。
步骤5):当当前编码单元的尺寸为64×64时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第一BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元(Screen Content CU,SCCU);若当前编码单元的标签为0,则当前编码单元为自然内容编码单元(Nature Content CU,NCCU)。
当当前编码单元的尺寸为32×32时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第二BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元。
当当前编码单元的尺寸为16×16时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第三BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元。图2给出了一幅屏幕内容图像中的屏幕内容编码单元和自然内容编码单元的示意图,图2中的SCCU区域指屏幕内容编码单元、NCCU区域指自然内容编码单元。在本实施例中,步骤5)中,BP神经网络模型的训练过程为:
获取多幅屏幕内容图像,将多幅屏幕内容图像构成训练集;然后按照步骤4)的过程,以相同的方式获取训练集中的每幅屏幕内容图像中的每个编码树单元中的每个编码单元的第一特征、第二特征和第三特征;接着将训练集对应的所有尺寸为64×64的编码单元的第一特征、第二特征和第三特征作为样本输入到第一BP神经网络进行训练,训练得到第一BP神经网络模型;并将训练集对应的所有尺寸为32×32的编码单元的第一特征、第二特征和第三特征作为样本输入到第二BP神经网络进行训练,训练得到第二BP神经网络模型;将训练集对应的所有尺寸为16×16的编码单元的第一特征、第二特征和第三特征作为样本输入到第三BP神经网络进行训练,训练得到第三BP神经网络模型;其中,在训练前确定第一BP神经网络、第二BP神经网络和第三BP神经网络的输入节点数均为3个、输出节点数均为2个、隐藏层数均为1层,在训练前确定第一BP神经网络的隐藏层的节点数为16、第二BP神经网络的隐藏层的节点数为22、第一BP神经网络的隐藏层的节点数为30,在训练前确定训练过程中的最大迭代次数为5000次、目标错误率为0.01,在训练前确定输出标签为1或0,1表示编码单元为屏幕内容编码单元,0表示编码单元为自然内容编码单元。在理论上,获取两幅及以上的屏幕内容图像构成训练集即可训练BP神经网络模型,在本实施例中,直接选用WebBrowsing序列中的前35帧屏幕内容图像以及Kimono1序列中的前30帧屏幕内容图像构成训练集,该训练集中共有22100个编码树单元,88400个尺寸大小为32×32的编码单元,353600个尺寸大小为16×16的编码单元。
步骤6):定义屏幕内容帧内预测模式包括帧内预测模式中的DC模式、Planar模式、数字标识为10的方向模式、数字标识为18的方向模式、数字标识为26的方向模式、数字标识为34的方向模式;当当前编码单元为屏幕内容编码单元时,采用屏幕内容帧内预测模式以及帧内块拷贝(IBC)和调色板模式(PLT)对当前编码单元进行编码,然后判断编码过程中确定的当前编码单元的最优模式是否为DC模式或Planar模式或帧内块拷贝中的Merge模式或调色板模式,如果是,则执行步骤7);否则,执行步骤8)。
当当前编码单元为自然内容编码单元时,采用帧内预测模式对当前编码单元进行编码,然后执行步骤7)。
步骤7):判断编码过程中确定的当前编码单元的最优模式是否为的DC模式或Planar模式,如果是,则执行步骤9);否则,执行步骤8)。
步骤8):如果当前编码单元的深度等于2或3,则执行步骤9);如果当前编码单元的深度等于0或1,则对当前编码单元进行分割,得到当前编码单元的下一深度的四个编码单元,然后将下一深度左上的编码单元作为当前单元编码,然后返回步骤4)继续执行。
在本实施例中,步骤8)中,对当前编码单元进行分割的具体过程为:
A1、判断当前编码单元所属的屏幕内容图像的帧序号是否为10的整数倍,如果是,则采用SCM8.3原始平台对当前编码单元进行分割,完成当前编码单元的分割过程;否则,执行步骤A2。其中,待编码的屏幕内容视频中的屏幕内容图像的帧序号从0开始计。
A2、计算当前编码单元的灰度共生矩阵的能量,记为Jcur
A3、判断当前编码单元是否为边缘编码单元,如果是,则将当前编码单元的最大深度设置为3,然后返回步骤4)继续执行;否则,执行步骤A4。其中,边缘编码单元的确定过程为:编码单元的参考编码单元包括已编码同位编码单元、已编码上编码单元、已编码左编码单元、已编码左上编码单元及已编码右上编码单元,将仅有已编码同位编码单元的编码单元、仅有已编码上编码单元的编码单元、仅有已编码左编码单元的编码单元确定为边缘编码单元。
A4、判断Jcur与当前编码单元的每个参考编码单元的灰度共生矩阵的能量的差值是否均小于设定阈值T,如果是,则将当前编码单元的最大深度设置为当前编码单元的所有参考编码单元的最优深度中的最大值,然后返回步骤4)继续执行;否则,执行步骤A5。其中,设定阈值T为0.0001。
A5、判断当前编码单元所属的屏幕内容图像中已编码的与当前编码单元相同尺寸的编码单元的灰度共生矩阵的能量中是否存在一个能量与Jcur相同,如果存在,则终止对当前编码单元的分割,并采用帧内块拷贝模式对当前编码单元进行编码,然后返回步骤4)继续执行;如果不存在,则执行步骤A6。
A6、判断当前编码单元的所有参考编码单元中是否存在两个或两个以上的参考编码单元的类型与当前编码单元的类型相同,如果存在,则将当前编码单元的最大深度设置为当前编码单元的所有同类型的参考编码单元的最优深度中的最大值,然后返回步骤4)继续执行;否则,将当前编码单元的最大深度设置为3,然后返回步骤4)继续执行。其中,类型是指屏幕内容编码单元或自然内容编码单元。
步骤9):将当前编码树单元中下一个待编码的编码单元作为当前编码单元,然后返回步骤4)继续执行,直至当前编码树单元中的所有编码单元处理完毕。
步骤10):将当前帧中下一个待处理的编码树单元作为当前编码树单元,然后返回步骤3)继续执行,直至当前帧中的所有编码树单元处理完毕。
步骤11):将待编码的屏幕内容视频中下一帧待处理的屏幕内容图像作为当前帧,然后返回步骤2)继续执行,直至所有屏幕内容图像处理完毕。
为了验证本发明方法的有效性,将本发明方法在SCM参考软件SCM-8.3上进行实现以测试其率失真性能和编码时间。实验平台的硬件配置为Intel(R)Core(TM)[email protected],内存为8.0GHZ,操作***为Windows7 64位。实验的主要编码参数为全帧内编码模式,量化参数(Quantization Parameter,QP)分别为22、27、32和37。
表1给出了各个测试序列采用本发明方法进行编码的编码时间节省以及率失真性能情况。表1中的BDBR表示相同图像质量条件下码率变化的百分比,ΔT表示相同图像质量条件下编码时间节省的百分比。由表1所列的实验结果可以看出,本发明方法对不同测试序列均可以降低编码复杂度。这是因为:用SCM-8.3原始平台进行编码时,每个编码单元都需要遍历0、1、2、3深度的所有预测模式,而使用本发明方法可以根据编码单元的类型不同采用不同的帧内编码模式以及根据灰度共生矩阵(GLCM)和时空域相关性(参考编码单元)判定编码单元的深度,从而节省了编码时间。
表1各个测试序列采用本发明方法进行编码的编码时间节省以及率失真性能情况
Figure BDA0001596226880000101

Claims (4)

1.一种屏幕内容视频编码的快速编码方法,其特征在于包括以下步骤:
步骤1):将待编码的屏幕内容视频中当前待处理的屏幕内容图像定义为当前帧;
步骤2):将当前帧中当前待处理的编码树单元定义为当前编码树单元;
步骤3):将当前编码树单元中当前待编码的编码单元定义为当前编码单元;
步骤4):计算当前编码单元中的所有像素点的像素值的方差,记为Var,并作为当前编码单元的第一特征;计算当前编码单元中的所有边缘像素点的总个数与当前编码单元中的所有像素点的总个数的比例,记为p,并作为当前编码单元的第二特征;统计当前编码单元中不同像素值的总个数,记为m,并作为当前编码单元的第三特征;
步骤5):当当前编码单元的尺寸为64×64时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第一BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元;
当当前编码单元的尺寸为32×32时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第二BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元;
当当前编码单元的尺寸为16×16时,将当前编码单元的第一特征、第二特征和第三特征作为输入参数,输入到已训练好第三BP神经网络模型中对当前编码单元进行分类,输出当前编码单元的标签,若当前编码单元的标签为1,则当前编码单元为屏幕内容编码单元;若当前编码单元的标签为0,则当前编码单元为自然内容编码单元;
步骤6):定义屏幕内容帧内预测模式包括帧内预测模式中的DC模式、Planar模式、数字标识为10的方向模式、数字标识为18的方向模式、数字标识为26的方向模式、数字标识为34的方向模式;当当前编码单元为屏幕内容编码单元时,采用屏幕内容帧内预测模式以及帧内块拷贝和调色板模式对当前编码单元进行编码,然后判断编码过程中确定的当前编码单元的最优模式是否为DC模式或Planar模式或帧内块拷贝中的Merge模式或调色板模式,如果是,则执行步骤7);否则,执行步骤8);
当当前编码单元为自然内容编码单元时,采用帧内预测模式对当前编码单元进行编码,然后执行步骤7);
步骤7):判断编码过程中确定的当前编码单元的最优模式是否为的DC模式或Planar模式,如果是,则执行步骤9);否则,执行步骤8);
步骤8):如果当前编码单元的深度等于2或3,则执行步骤9);如果当前编码单元的深度等于0或1,则对当前编码单元进行分割,得到当前编码单元的下一深度的四个编码单元,然后将下一深度左上的编码单元作为当前单元编码,然后返回步骤4)继续执行;
步骤9):将当前编码树单元中下一个待编码的编码单元作为当前编码单元,然后返回步骤4)继续执行,直至当前编码树单元中的所有编码单元处理完毕;
步骤10):将当前帧中下一个待处理的编码树单元作为当前编码树单元,然后返回步骤3)继续执行,直至当前帧中的所有编码树单元处理完毕;
步骤11):将待编码的屏幕内容视频中下一帧待处理的屏幕内容图像作为当前帧,然后返回步骤2)继续执行,直至所有屏幕内容图像处理完毕。
2.根据权利要求1所述的一种屏幕内容视频编码的快速编码方法,其特征在于所述的步骤4)中,
Figure FDA0002578072640000021
其中,N表示当前编码单元中包含的像素点的总个数,N为正整数,i为正整数,1≤i≤N,Li表示当前编码单元中的第i个像素点的像素值。
3.根据权利要求1所述的一种屏幕内容视频编码的快速编码方法,其特征在于所述的步骤4)中,当前编码单元中的边缘像素点是根据三阶Sobel算子确定的。
4.根据权利要求1所述的一种屏幕内容视频编码的快速编码方法,其特征在于所述的步骤5)中,BP神经网络模型的训练过程为:
获取多幅屏幕内容图像,将多幅屏幕内容图像构成训练集;然后按照步骤4)的过程,以相同的方式获取训练集中的每幅屏幕内容图像中的每个编码树单元中的每个编码单元的第一特征、第二特征和第三特征;接着将训练集对应的所有尺寸为64×64的编码单元的第一特征、第二特征和第三特征作为样本输入到第一BP神经网络进行训练,训练得到第一BP神经网络模型;并将训练集对应的所有尺寸为32×32的编码单元的第一特征、第二特征和第三特征作为样本输入到第二BP神经网络进行训练,训练得到第二BP神经网络模型;将训练集对应的所有尺寸为16×16的编码单元的第一特征、第二特征和第三特征作为样本输入到第三BP神经网络进行训练,训练得到第三BP神经网络模型;其中,在训练前确定第一BP神经网络、第二BP神经网络和第三BP神经网络的输入节点数均为3个、输出节点数均为2个、隐藏层数均为1层,在训练前确定第一BP神经网络的隐藏层的节点数为16、第二BP神经网络的隐藏层的节点数为22、第一BP神经网络的隐藏层的节点数为30,在训练前确定训练过程中的最大迭代次数为5000次、目标错误率为0.01,在训练前确定输出标签为1或0,1表示编码单元为屏幕内容编码单元,0表示编码单元为自然内容编码单元。
CN201810207320.2A 2018-03-14 2018-03-14 一种屏幕内容视频编码的快速编码方法 Active CN108495135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810207320.2A CN108495135B (zh) 2018-03-14 2018-03-14 一种屏幕内容视频编码的快速编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810207320.2A CN108495135B (zh) 2018-03-14 2018-03-14 一种屏幕内容视频编码的快速编码方法

Publications (2)

Publication Number Publication Date
CN108495135A CN108495135A (zh) 2018-09-04
CN108495135B true CN108495135B (zh) 2020-11-10

Family

ID=63339254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810207320.2A Active CN108495135B (zh) 2018-03-14 2018-03-14 一种屏幕内容视频编码的快速编码方法

Country Status (1)

Country Link
CN (1) CN108495135B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020057648A1 (zh) * 2018-09-21 2020-03-26 华为技术有限公司 一种帧间预测方法和装置
WO2020056798A1 (zh) 2018-09-21 2020-03-26 华为技术有限公司 一种视频编解码的方法与装置
AU2020224256A1 (en) 2019-02-24 2021-09-09 Beijing Bytedance Network Technology Co., Ltd. Independent coding of palette mode usage indication
CN117459744A (zh) 2019-07-20 2024-01-26 北京字节跳动网络技术有限公司 调色板模式使用指示的条件相关编解码
CN117221536A (zh) 2019-07-23 2023-12-12 北京字节跳动网络技术有限公司 调色板模式编解码的模式确定
JP2022543009A (ja) 2019-07-29 2022-10-07 北京字節跳動網絡技術有限公司 予測処理におけるパレットモードの符号化
CN110312134B (zh) * 2019-08-06 2021-06-15 杭州微帧信息科技有限公司 一种基于图像处理和机器学习的屏幕视频编码方法
CN110708559B (zh) * 2019-09-03 2022-03-25 北京达佳互联信息技术有限公司 图像处理方法、装置及存储介质
CN111402380B (zh) * 2020-03-12 2023-06-30 杭州小影创新科技股份有限公司 一种gpu压缩纹理处理方法
CN112203123B (zh) * 2020-09-10 2022-07-05 鹏城实验室 一种屏幕内容视频编码码率控制方法、终端及存储介质
CN116781910A (zh) * 2023-07-03 2023-09-19 江苏汇智达信息科技有限公司 基于神经网络算法的信息转换***
CN116634147B (zh) * 2023-07-25 2023-10-31 华侨大学 基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534846A (zh) * 2016-11-18 2017-03-22 天津大学 一种屏幕内容与自然内容划分及快速编码方法
CN106534860A (zh) * 2016-11-21 2017-03-22 天津大学 一种基于内容分析的屏幕内容编码方法
CN107277509A (zh) * 2017-08-03 2017-10-20 重庆邮电大学 一种基于屏幕内容的快速帧内预测方法
CN107592533A (zh) * 2017-10-30 2018-01-16 河海大学 一种低复杂度虚拟现实设备的屏幕内容编码算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9210434B2 (en) * 2013-06-12 2015-12-08 Microsoft Technology Licensing, Llc Screen map and standards-based progressive codec for screen content coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534846A (zh) * 2016-11-18 2017-03-22 天津大学 一种屏幕内容与自然内容划分及快速编码方法
CN106534860A (zh) * 2016-11-21 2017-03-22 天津大学 一种基于内容分析的屏幕内容编码方法
CN107277509A (zh) * 2017-08-03 2017-10-20 重庆邮电大学 一种基于屏幕内容的快速帧内预测方法
CN107592533A (zh) * 2017-10-30 2018-01-16 河海大学 一种低复杂度虚拟现实设备的屏幕内容编码算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于时空域相关性的屏幕内容帧间快速编码算法;胡晴晴等;《计算机应用》;20170910;2643-2658 *

Also Published As

Publication number Publication date
CN108495135A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108495135B (zh) 一种屏幕内容视频编码的快速编码方法
Zhang et al. Machine learning based video coding optimizations: A survey
EP3354030B1 (en) Methods and apparatuses for encoding and decoding digital images through superpixels
US8780996B2 (en) System and method for encoding and decoding video data
CN110830803B (zh) 结合块匹配和串匹配的图像压缩方法
US20200404339A1 (en) Loop filter apparatus and method for video coding
Hu et al. Fvc: An end-to-end framework towards deep video compression in feature space
Wang et al. Semantic-aware video compression for automotive cameras
Kuanar et al. Gated fusion network for sao filter and inter frame prediction in versatile video coding
Laude et al. HEVC inter coding using deep recurrent neural networks and artificial reference pictures
CN111770334B (zh) 数据编码方法及装置、数据解码方法及装置
CN113079373A (zh) 一种基于hevc-scc的视频编码方法
García-Lucas et al. A fast full partitioning algorithm for HEVC-to-VVC video transcoding using Bayesian classifiers
CN116320446A (zh) 视频编码方法及装置、电子设备和计算机介质
Katayama et al. Reference frame generation algorithm using dynamical learning PredNet for VVC
Gao et al. OpenDMC: An open-source library and performance evaluation for deep-learning-based multi-frame compression
CN118077201A (zh) 用于视频处理的方法、设备和介质
Zhao et al. Efficient screen content coding based on convolutional neural network guided by a large-scale database
CN114793282A (zh) 带有比特分配的基于神经网络的视频压缩
Wang et al. A fast perceptual surveillance video coding (PSVC) based on background model-driven JND estimation
Kumar et al. Fast SCC in HEVC using a palette mode decision tree classifier
CN117692652B (zh) 一种基于深度学习的可见光与红外视频融合编码方法
US12003728B2 (en) Methods and systems for temporal resampling for multi-task machine vision
Zhang et al. Textural and Directional Information Based Offset In-Loop Filtering in AVS3
US20060176961A1 (en) Method for reducing bit rate requirements for encoding multimedia data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180904

Assignee: SANMEN SANYOU TECHNOLOGY Inc.

Assignor: Ningbo University

Contract record no.: X2022330000855

Denomination of invention: A fast video coding method for screen content

Granted publication date: 20201110

License type: Common License

Record date: 20221226

EE01 Entry into force of recordation of patent licensing contract