CN118014874A - 画面同步的增强方法、训练方法、设备及介质 - Google Patents
画面同步的增强方法、训练方法、设备及介质 Download PDFInfo
- Publication number
- CN118014874A CN118014874A CN202211388733.8A CN202211388733A CN118014874A CN 118014874 A CN118014874 A CN 118014874A CN 202211388733 A CN202211388733 A CN 202211388733A CN 118014874 A CN118014874 A CN 118014874A
- Authority
- CN
- China
- Prior art keywords
- feature map
- image
- convolution
- layer
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000002708 enhancing effect Effects 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims description 101
- 238000005070 sampling Methods 0.000 claims description 45
- 230000006798 recombination Effects 0.000 claims description 34
- 238000005215 recombination Methods 0.000 claims description 34
- 230000001965 increasing effect Effects 0.000 claims description 27
- 230000001360 synchronised effect Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008521 reorganization Effects 0.000 claims description 8
- 238000003708 edge detection Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 17
- 230000004913 activation Effects 0.000 description 10
- 230000006835 compression Effects 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明实施例公开一种画面同步的增强方法、训练方法、设备及介质。在一具体实施方式中,该画面同步的增强方法包括:画面同步接收端设备基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像;画面同步接收端设备显示所述增强后的图像。
Description
技术领域
本发明涉及图像处理技术领域。更具体地,涉及一种画面同步的增强方法、训练方法、设备及介质。
背景技术
目前,在无线投屏、屏幕共享等画面同步场景中,因硬件设备、网络带宽等因素的影响,画面同步发送端设备通常会对图像进行有损的编码压缩后发送至画面同步接收端设备,这样,在画面同步接收端设备显示的画面的清晰度会降低,影响用户体验。
发明内容
本发明的目的在于提供一种画面同步的增强方法、训练方法、设备及介质,以解决现有技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供一种画面同步的增强方法,包括:
画面同步接收端设备基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像;
画面同步接收端设备显示所述增强后的图像。
可选地,所述已训练的图像增强网络包括第一特征提取模块、密集连接模块和图像生成模块,所述第一特征提取模块包括第一卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
基于第一卷积层对接收的图像进行增通道卷积操作,得到第一浅层特征图;
基于密集连接模块对所述第一浅层特征图进行密集连接操作,得到第一深层特征图;
基于图像生成模块,对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
可选地,所述已训练的图像增强网络包括第二特征提取模块、密集连接模块和图像生成模块,所述第二特征提取模块包括像素重组层和第二卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
基于像素重组层对接收的图像进行降采样重组操作并基于第二卷积层对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图;
基于密集连接模块对所述第二浅层特征图进行密集连接操作,得到第二深层特征图;
基于图像生成模块,对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
可选地,所述已训练的图像增强网络包括第一特征提取模块和第二特征提取模块,所述已训练的图像增强网络还包括密集连接模块和图像生成模块,所述第一特征提取模块包括第一卷积层,所述第二特征提取模块包括像素重组层和第二卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
画面同步接收端设备根据接收的图像的分辨率与显示分辨率的比对,确定选用第一特征提取模块或第二特征提取模块;
若选用第一特征提取模块,则:
基于第一卷积层对接收的图像进行增通道卷积操作,得到第一浅层特征图;
基于密集连接模块对所述第一浅层特征图进行密集连接操作,得到第一深层特征图;
基于图像生成模块,对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像;
若选用第二特征提取模块,则:
基于像素重组层对接收的图像进行降采样重组操作并基于第二卷积层对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图;
基于密集连接模块对所述第二浅层特征图进行密集连接操作,得到第二深层特征图;
基于图像生成模块,对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
可选地,所述密集连接模块包括N个第三卷积层和(N-1)个拼接层,N>1,所述基于密集连接模块对所述第一浅层特征图进行密集连接操作,得到第一深层特征图包括:
基于第1个第三卷积层对所述第一浅层特征图进行降通道卷积操作并基于第1个拼接层对第1个第三卷积层输出的特征图与所述第一浅层特征图进行拼接操作;
基于第n个第三卷积层对第(n-1)个拼接层输出的特征图进行降通道卷积操作并基于第n个拼接层对第n个第三卷积层输出的特征图与第(n-1)个拼接层输出的特征图进行拼接操作,1<n<N;
基于第N个第三卷积层对第(N-1)个拼接层输出的特征图进行降通道卷积操作,得到第一深层特征图。
可选地,所述密集连接模块包括N个第三卷积层和(N-1)个拼接层,N>1,所述基于密集连接模块对所述第二浅层特征图进行密集连接操作,得到第二深层特征图包括:
基于第1个第三卷积层对所述第二浅层特征图进行降通道卷积操作并基于第1个拼接层对第1个第三卷积层输出的特征图与所述第二浅层特征图进行拼接操作;
基于第n个第三卷积层对第(n-1)个拼接层输出的特征图进行降通道卷积操作并基于第n个拼接层对第n个第三卷积层输出的特征图与第(n-1)个拼接层输出的特征图进行拼接操作,1<n<N;
基于第N个第三卷积层对第(N-1)个拼接层输出的特征图进行降通道卷积操作,得到第二深层特征图。
本发明第二方面提供一种图像增强网络的训练方法,包括:
生成第一训练集和/或第二训练集;
所述生成第一训练集包括:在显示分辨率不同的第一画面同步发送端设备和第一画面同步接收端设备进行画面同步时,对第一画面同步发送端设备和第一画面同步接收端设备分别进行录屏,得到包括多对第一训练样本的第一训练集,其中,每一对第一训练样本包括包含相同画面内容的两张第一图像样本;
所述生成第二训练集包括:在显示分辨率相同的第二画面同步发送端设备和第二画面同步接收端设备进行画面同步时,对第二画面同步发送端设备和第二画面同步接收端设备分别进行录屏,得到包括多对第二训练样本的第二训练集,其中,每一对第二训练样本包括包含相同画面内容的两张第二图像样本;
利用第一训练集和/或第二训练集对图像增强网络进行训练,得到已训练的用于对图像进行文本区域增强的图像增强网络。
可选地,在所述利用第一训练集对图像增强网络进行训练的情况下,所述已训练的图像增强网络包括第一特征提取模块,密集连接模块和图像生成模块,所述第一特征提取模块包括第一卷积层,所述第一卷积层用于对图像进行增通道卷积操作,得到第一浅层特征图,所述密集连接模块用于对所述第一浅层特征图进行密集连接操作,得到第一深层特征图,所述图像生成模块,用于对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
可选地,在所述利用第二训练集对图像增强网络进行训练的情况下,所述已训练的图像增强网络包括第二特征提取模块、密集连接模块和图像生成模块,所述第二特征提取模块包括像素重组层和第二卷积层,所述像素重组层用于对图像进行降采样重组操作,所述第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,所述密集连接模块用于对所述第二浅层特征图进行密集连接操作,得到第二深层特征图,所述图像生成模块,用于对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
可选地,在所述利用第一训练集和第二训练集对图像增强网络进行训练的情况下:
所述已训练的图像增强网络包括第一图像增强网络和第二图像增强网络,所述第一图像增强网络包括第一特征提取模块、第一密集连接模块和第一图像生成模块,所述第二图像增强网络包括第二特征提取模块、第一密集连接模块和第一图像生成模块,所述第一特征提取模块包括第一卷积层,所述第一卷积层用于对图像进行增通道卷积操作,得到第一浅层特征图,所述第二特征提取模块包括像素重组层和第二卷积层,所述像素重组层用于对图像进行降采样重组操作,所述第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,所述第一密集连接模块用于对所述第一浅层特征图或第二浅层特征图进行密集连接操作,得到第一深层特征图或第二深层特征图,所述第一图像生成模块,用于对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,或对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像;所述利用第一训练集和第二训练集对图像增强网络进行训练包括:利用第一训练集对第一图像增强网络进行训练,得到已训练的第一图像增强网络;利用第二训练集训练对第二图像增强网络中的第二特征提取模块进行训练,得到已训练的第二图像增强网络;
或
所述已训练的图像增强网络包括第一图像增强网络和第二图像增强网络,所述第一图像增强网络包括第一特征提取模块、第二密集连接模块和第二图像生成模块,所述第二图像增强网络包括第二特征提取模块、第二密集连接模块和第二图像生成模块,所述第一特征提取模块包括第一卷积层,所述第一卷积层用于对图像进行增通道卷积操作,得到第一浅层特征图,所述第二特征提取模块包括像素重组层和第二卷积层,所述像素重组层用于对图像进行降采样重组操作,所述第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,所述第二密集连接模块用于对所述第一浅层特征图或第二浅层特征图进行密集连接操作,得到第一深层特征图或第二深层特征图,所述第二图像生成模块,用于对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,或对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像;所述利用第一训练集和第二训练集对图像增强网络进行训练包括:利用第二训练集对第二图像增强网络进行训练,得到已训练的第二图像增强网络;利用第一训练集训练对第一图像增强网络中的第一特征提取模块进行训练,得到已训练的第一图像增强网络。
可选地,所述对图像增强网络进行训练包括:基于训练中对在画面同步接收端设备录屏得到的图像样本增强后的图像与对应的画面同步发送端设备录屏得到的图像样本之间像素值损失的损失函数,和基于利用边缘检测得到的训练中对在画面同步接收端设备录屏得到的图像样本增强后的图像的边缘图与对应的画面同步发送端设备录屏得到的图像样本的边缘图之间的边缘损失的损失函数,对图像增强网络进行训练。
本发明第三方面提供一种画面同步接收端设备,包括处理器和显示屏,
所述处理器,用于基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像;
所述显示屏,用于显示所述增强后的图像。
本发明第四方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的画面同步的增强方法,或本发明第二方面提供的训练方法。
本发明第五方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的画面同步的增强方法,或本发明第二方面提供的训练方法。
本发明的有益效果如下:
本发明所述技术方案,对图像中文本区域进行了清晰化,通过训练一个图像增强网络并部署在画面同步接收端设备,实现对画面同步接收端设备接收的图像中文本区域的去噪、去压缩、去模糊以及超分辨率等处理,提升了图像中文字的清晰度,为无线投屏、屏幕共享等画面同步场景,特别是会议无线投屏、在线会议屏幕共享的场景提供了更好的用户体验。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1示出本发明的一个实施例可以应用于其中的示例性***架构图。
图2示出本发明实施例提供的画面同步的增强方法的流程图。
图3示出生成第一训练集的流程示意图。
图4示出一对第二训练样本的示意图。
图5示出图像增强网络模型的结构示意图。
图6示出实现本发明实施例中的接收端或训练服务器的计算机***的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
目前,在无线投屏、屏幕共享等画面同步场景中,因硬件设备、网络带宽等因素的影响,画面同步发送端设备通常会对图像进行有损的编码压缩后发送至画面同步接收端设备,这样,在画面同步接收端设备显示的画面的清晰度会降低,影响用户体验。
其中,在会议无线投屏、在线会议屏幕共享的场景中,画面同步接收端设备显示的画面经常会包括方案、合同、条规条款等文本,这些文本中的文字通常为关键性信息,发明人发现,画面同步接收端设备显示的画面的清晰度降低造成的文本清晰度降低,例如存在噪声、模糊等情况,是关键性影响。以会议无线投屏场景为例,其工作原理为例如笔记本电脑的画面同步发送端设备将的某一显示窗口或全屏的画面通过无线信号发射器同步传输到一个或多个例如大屏显示设备的画面同步接收端设备上进行同步显示,画面同步发送端设备显示分辨率越高、画质越清晰,所需传输的图像的数据量就越大,对网络传输带宽和信号传输设备的要求就越高,从而导致更高的成本投入。为了降低对网络传输带宽和信号传输设备的依赖,目前通常的处理方式是画面同步发送端设备对共享的画面进行下采样和有损的编码压缩等处理,通过牺牲一定的画面质量来减少数据量,但由于显示技术的不断发展,显示器的分辨率和尺寸也在不断增大,原来因压缩图像数据导致的模糊、伪影以及压缩块等问题,在例如大屏显示设备的画面同步接收端设备的显示下愈发明显,从而影响用户的使用体验,特别是画面同步接收端设备显示的画面的清晰度降低造成的文本清晰度降低,会造成关键性影响。
有鉴于此,本发明实施例提供了一种画面同步的增强方法,包括如下步骤:
画面同步接收端设备基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像;
画面同步接收端设备显示所述增强后的图像。
可理解的是,本发明实施例提供的画面同步的增强方法是应用于画面同步接收端设备的,已训练的图像增强网络是部署在画面同步接收端设备的,画面同步接收端设备接收的图像是来自画面同步发送端设备的。
为了便于理解本实施例的技术方案,下面结合图1对本实施例提供的上述方法在会议无线投屏场景进行说明。如图1所示,例如笔记本电脑101的画面同步发送端设备将截取的全屏画面图像进行下采样和有损的编码压缩等处理后,通过WIFI发射器1011进行发送,例如大屏显示设备102的画面同步接收端设备通过WIFI接收器1021接收来自笔记本电脑101的图像,对接收的图像进行解码后,基于其部署的已训练的或者说训练好的图像增强网络对图像进行文本区域增强,显示增强后的图像。
其中,示例性的,部署在大屏显示设备102已训练的图像增强网络,是在进行会议无线投屏之前,由训练服务器利用训练集对定义了结构、具有初始化参数的图像增强网络模型进行训练得到的,例如,训练服务器以包含相同文本画面内容的低清晰度图像和高清晰度的图像对作为训练样本,对图像增强网络模型进行训练,在迭代训练过程中基于设计的损失函数进行前向传播和反向传播参数优化更新,使得图像增强网络模型学习到增强文字清晰度的能力,得到已训练的图像增强网络。
接下来,从具有数据处理能力的处理设备的角度,以会议无线投屏场景为例,对本实施例提供的一种画面同步的增强方法进行说明。
本发明的一个实施例提供了一种画面同步的增强方法,如图2所示,包括步骤S210-S240,其中,步骤S210-S220属于训练阶段,步骤S210可由一计算机设备执行,步骤S220可由训练服务器执行,也可以步骤S210和S220均由训练服务器执行,本实施例中以均由训练服务器执行为例;步骤S230和S240属于画面同步阶段,步骤S230由画面同步发送端设备执行,步骤S240由画面同步接收端设备执行,其中,画面同步发送端设备以下简称发送端,画面同步接收端设备以下简称接收端。下面进行具体说明。
如图2所示,本实施例提供的画面同步的增强方法包括如下步骤:
S210、训练服务器生成训练集。
其中,在生成训练集前,已经确定了其用于训练的图像增强网络模型的结构和用途。
本实施例的设计中,训练得到的图像增强网络要部署在接收端,用于对接收端接收的图像进行文本区域增强。
在会议无线投屏场景中,存在两种情况:
第一种情况是例如在场景中网络传输带宽较小的情况下,为了避免卡顿,保持投屏画面的同步性,发送端发送的视频数据需要编码较小分辨率的图像以减少传输数据量从而保证传输效率,则,接收端接收的图像的图像分辨率小于接收端的显示分辨率。
第二种情况是例如在场景中网络传输带宽较大的情况下,发送端发送的视频数据可以编码较大分辨率的图像,则,接收端接收的图像的图像分辨率与接收端的显示分辨率相同或相近。
针对以上两种情况,本实施例的设计为:
对于第一种情况,图像增强网络除了要实现对接收端接收的图像进行文本区域增强,还要实现对接收的图像进行超分,以提升图像分辨率。
对于第二种情况,图像增强网络仅实现对接收端接收的图像进行文本区域增强,以改善或者说补偿由于发送前的下采样和有损的编码压缩等处理造成的图像清晰度或者说质量下降,提升图像中文字的清晰度。
可以理解的是,上述针对两种情况的设计仅为本实施例采用的一种设计,本实施例还可设计为图像增强网络仅针对第一种情况或仅针对第二种情况。
基于上述针对两种情况的设计,步骤S210生成的训练集应该包括用于训练针对第一种情况的图像增强网络的第一训练集和针对第二种情况的第二训练集。
具体而言,在一种可能的实现方式中,
生成第一训练集包括:在显示分辨率不同的第一采样用发送端和第一采样用接收端进行画面同步时,对第一采样用发送端和第一采样用接收端设备分别进行录屏,得到包括多对第一训练样本的第一训练集,其中,每一对第一训练样本包括包含相同画面内容的两张第一图像样本;
生成第二训练集包括:在显示分辨率相同的第二采样用发送端和第二采样用接收端进行画面同步时,对第二采样用发送端和第二采样用接收端分别进行录屏,得到包括多对第二训练样本的第二训练集,其中,每一对第二训练样本包括包含相同画面内容的两张第二图像样本。
上述实现方式,基于在真实的会议无线投屏实验场景中的采样,通过数据退化模拟的方法来生成训练集,可低成本、简便快捷地获取到丰富的、符合实际的训练样本。
在一个具体示例中,以生成第二训练集为例,其流程例如:
首先,可通过公开网站和线上购买等渠道,获取原始高清的多个文本文档,本实施例中,对获取的多个文本文档的相关要求包括:
①包含Word、PowerPoint、Excel、PDF、TXT等多种格式;
②文本文档中的文本内容包含公开论文、设计方案、数据报表、公告通知等多种领域;
③文本文档中的文字字体、字号、排版格式包含常见的种类(如宋体四号字等),且存在一些特殊格式的字体(如艺术字、手写体等)。
然后,例如图3所示的软件处理流程,对于一个文本文档,显示分辨率例如为2K的第二采样用发送端通过阅读软件打开文本文档,并通过录制窗口指定为阅读软件窗口且配置了录制分辨率、帧率、压缩方式为无损压缩的录屏软件进行录屏,同时通过会议无线投屏软件将阅读软件窗口的画面图像经过编码压缩共享或者说同步传输至显示分辨率例如同为2K的第二采样用接收端,第二采样用接收端通过会议无线投屏软件接收图像并在会议无线投屏软件窗口显示,并通过录制窗口指定为会议无线投屏软件窗口且录制分辨率、帧率、压缩方式与第二采样用发送端配置相同的录屏软件进行录屏,重复上述流程直至所有文本文档均播放了一遍,形成视频数据,将第二采样用发送端和第二采样用接收端分别录制的视频数据解码成图像序列,筛除同一视频中重复的图像帧,分别将第二采样用发送端录制的高清图像HQ与同一序号的第二采样用接收端录制的低清图像LQ作配对,制作完成一对第二训练样本,即相同序号(即包含相同画面内容)的HQ-LQ构成一对第二训练样本,其中,一对第二训练样本例如图4所示,图4中,“青青”两字的放大是为了更清楚的显示出高清图像HQ与低清图像LQ的清晰度区别。
可理解的是,生成第一训练集可以采用与上述示例相似的流程,区别在于,可设计为第一采样用发送端的显示分辨率大于第一采样用接收端的显示分辨率,例如第一采样用发送端的显示分辨率为4K,第一采样用接收端的显示分辨率为2K,这样,得到的第一图像样本中的高清图像HQ的图像分辨率大于低清图像LQ的图像分辨率。
S220、训练服务器利用训练集对图像增强网络模型进行训练,得到已训练的图像增强网络。
本实施例中,为图像增强网络模型设计了两种结构,可择一使用或两种都使用,相应的,为步骤S220设计了五种具体流程。
下面分别进行介绍。
(1)、在一种可能的实现方式中,图像增强网络模型仅包括第一种结构,如图5所示,第一种结构包括第一特征提取模块A1、密集连接模块B1和图像生成模块C1,第一特征提取模块A1包括第一卷积层,第一卷积层用于对输入图像进行增通道卷积操作,得到第一浅层特征图,密集连接模块B1用于对第一浅层特征图进行密集连接操作,得到第一深层特征图,图像生成模块C1,用于对第一浅层特征图与第一深层特征图相加后得到的特征图依次进行上采样(Upsample)操作和卷积操作,得到增强后的图像。
对于图像增强网络模型仅包括第一种结构的情况,步骤S220的第一种流程(a)为利用第一训练集对图像增强网络模型进行训练,得到已训练的图像增强网络。
进一步,在一种可能的实现方式中,如图5所示,第一特征提取模块A1的第一卷积层的输入通道数设置为3、输出通道数设置为32、卷积核设置为3×3、步长设置为1,则,第一卷积层可表示为Conv_3_32_3_1。输入图像的特征图为h×w×c,其中,h、w为输入图像的空间分辨率,c为输入图像的通道数,例如输入图像的分辨率为512×512,共包含RGB三个通道,则,h=512,w=512,c=3。在训练过程中,第一卷积层对输入图像进行增通道卷积操作后得到第一浅层特征图为h×w×32,设训练采用批处理方式,批处理量(Batch Size)为n,则第一卷积层输出的第一浅层特征图表示为n×h×w×32,例如,批处理量n的取值为48。
进一步,在一种可能的实现方式中,如图5所示,密集连接模块B1包括N个第三卷积层和(N-1)个拼接层,N>1,对第一浅层特征图进行密集连接操作,得到第一深层特征图包括:
基于第1个第三卷积层对所述第一浅层特征图进行降通道卷积操作并基于第1个拼接层对第1个第三卷积层输出的特征图与所述第一浅层特征图进行拼接操作;
基于第n个第三卷积层对第(n-1)个拼接层输出的特征图进行降通道卷积操作并基于第n个拼接层对第n个第三卷积层输出的特征图与第(n-1)个拼接层输出的特征图进行拼接操作,1<n<N;
基于第N个第三卷积层对第(N-1)个拼接层输出的特征图进行降通道卷积操作,得到第一深层特征图。
本实施例设计的密集连接模块B1,每一次拼接至跳过一个第三卷积层,可以有效压缩模型大小,降低对存储、计算资源的需求。
进一步,在一种可能的实现方式中,如图5所示,密集连接模块B1包括7个第三卷积层和6个拼接层,即,N=7,将N设置为7的考虑为如果第三卷积层数量太多则计算资源高、效率低,第三卷积层数量太少则效果得不到保证,第三卷积层的数量取值为7左右是经发明人验证较为合适的。第1个至第6个(即第1个至第(N-1)个)第三卷积层包括卷积层和激活层,第7个(即第N个)第三卷积层包括卷积层,例如图5所示,激活层选用ReLU激活函数,即激活层为ReLU激活层,其中,ReLU激活函数(The Rectified Linear Unit)用于隐层神经元输出,其是一种非线形激活函数,能够使网络全过程训练摆脱单一的线性关系,让特征图(feature map)获得的特征更加符合现实,ReLU激活函数为分段线性函数,把所有的负值都变为0,而正值不变,使得特征图变得稀疏,能够一定程度上防止过拟合,有利于特征提取。ReLU激活函数的公式表示为f(x)=max(0,x)。
则,对第一浅层特征图进行密集连接操作,得到第一深层特征图包括:
基于第1个第三卷积层Conv_32_16_3_1+ReLU对第一浅层特征图n×h×w×32进行降通道卷积操作并基于第1个拼接层Concat1对第1个第三卷积层输出的特征图n×h×w×16与第一浅层特征图n×h×w×32进行拼接操作,输出特征图n×h×w×48,其中,第1个第三卷积层中的卷积层Conv_32_16_3_1表示该卷积层输入通道数设置为32、输出通道数设置为16、卷积核设置为3×3、步长设置为1;
基于第2个第三卷积层Conv_48_16_3_1+ReLU对第1个拼接层Concat1输出的特征图n×h×w×48进行降通道卷积操作并基于第2个拼接层Concat2对第2个第三卷积层输出的特征图n×h×w×16与第1个拼接层Concat1输出的特征图n×h×w×48进行拼接操作,输出特征图n×h×w×64,其中,第2个第三卷积层中的卷积层Conv_32_16_3_1表示该卷积层输入通道数设置为48、输出通道数设置为16、卷积核设置为3×3、步长设置为1;
基于第3个第三卷积层Conv_64_16_3_1+ReLU对第2个拼接层Concat2输出的特征图n×h×w×64进行降通道卷积操作并基于第3个拼接层Concat3对第3个第三卷积层输出的特征图n×h×w×16与第2个拼接层Concat2输出的特征图n×h×w×64进行拼接操作,输出特征图n×h×w×80,其中,第3个第三卷积层中的卷积层Conv_64_16_3_1表示该卷积层输入通道数设置为64、输出通道数设置为16、卷积核设置为3×3、步长设置为1;
基于第4个第三卷积层Conv_80_16_3_1+ReLU对第3个拼接层Concat3输出的特征图n×h×w×80进行降通道卷积操作并基于第4个拼接层Concat4对第4个第三卷积层输出的特征图n×h×w×16与第3个拼接层Concat3输出的特征图n×h×w×80进行拼接操作,输出特征图n×h×w×96,其中,第4个第三卷积层中的卷积层Conv_80_16_3_1表示该卷积层输入通道数设置为80、输出通道数设置为16、卷积核设置为3×3、步长设置为1;
基于第5个第三卷积层Conv_96_16_3_1+ReLU对第4个拼接层Concat4输出的特征图n×h×w×96进行降通道卷积操作并基于第5个拼接层Concat5对第5个第三卷积层输出的特征图n×h×w×16与第4个拼接层Concat4输出的特征图n×h×w×96进行拼接操作,输出特征图n×h×w×112,其中,第5个第三卷积层中的卷积层Conv_96_16_3_1表示该卷积层输入通道数设置为96、输出通道数设置为16、卷积核设置为3×3、步长设置为1;
基于第6个第三卷积层Conv_112_16_3_1+ReLU对第5个拼接层Concat5输出的特征图n×h×w×112进行降通道卷积操作并基于第6个拼接层Concat6对第6个第三卷积层输出的特征图n×h×w×16与第5个拼接层Concat5输出的特征图n×h×w×112进行拼接操作,输出特征图n×h×w×128,其中,第6个第三卷积层中的卷积层Conv_112_16_3_1表示该卷积层输入通道数设置为112、输出通道数设置为16、卷积核设置为3×3、步长设置为1;
基于第7个第三卷积层Conv_128_32_3_1对第6个拼接层Concat6输出的特征图n×h×w×128进行降通道卷积操作,输出第一深层特征图n×h×w×32,其中,第7个第三卷积层中的卷积层Conv_128_32_3_1表示该卷积层输入通道数设置为128、输出通道数设置为32、卷积核设置为3×3、步长设置为1。
由于密集连接模块B1中,每一第三卷积层输出的特征图是前一第三卷积层输出的特征图的3×3感受野,随着第三卷积层的层数加深,感受野越大,能够提取到更接近全局的空间结构信息,因此,总体而言,密集连接模块B1输出的特征图相比输入的特征图更接近全局的空间结构信息,密集连接模块B1输入的特征图为浅层特征图,输出的特征图为深层特征图。
在一种可能的实现方式中,如图5所示,图像生成模块C1包括上采样层和多个第四卷积层,上采样层用于对第一浅层特征图与第一深层特征图相加后得到的特征图进行上采样操作,多个第四卷积层用于对上采样后的特征图进行卷积操作,得到增强后的图像,例如图5所示,上采样层为双线性插值上采样层,图像生成模块C1包括三个第四卷积层,第1个和第2个第四卷积层包括卷积层和激活层,第3个第四卷积层包括卷积层,第1个和第2个第四卷积层分别为Conv_32_32_3_1+ReLU,即第1个和第2个第四卷积层中的卷积层分别为输入通道数设置为32、输出通道数设置为32、卷积核设置为3×3、步长设置为1,第3个第四卷积层为Conv_32_3_3_1,即第3个第四卷积层中的卷积层为输入通道数设置为32、输出通道数设置为3、卷积核设置为3×3、步长设置为1,则图像生成模块C1输出的增强后的图像的通道数还原为3,且经过例如双线性插值层的双线性插值操作后空间分辨率放大一倍,可理解的是,本实施例中的上采样操作也可采用除双线性插值方法之外的其他类型的插值算法,上采样操作的特征图空间分辨率放大也不限于放大一倍,可以为更多倍。
可见,利用第一种流程(a)“利用第一训练集进行训练”对仅包括第一特征提取模块A1,密集连接模块B1和图像生成模块C1的第一种结构的图像增强网络模型进行训练得到的已训练的仅包括第一特征提取模块A1,密集连接模块B1和图像生成模块C1的图像增强网络,可实现对输入图像进行文本区域增强,以及对输入图像进行超分以提升图像分辨率,即,经过包含相同文本画面内容的低图像分辨率且低清晰度图像和高图像分辨率且高清晰度的图像对作为第一训练样本的第一训练集对仅包括第一特征提取模块A1,密集连接模块B1和图像生成模块C1的第一种结构的图像增强网络模型进行训练,在迭代训练过程中基于设计的损失函数进行前向传播和反向传播参数优化更新,使得图像增强网络模型学习到增强文字清晰度及超分的能力,得到已训练的具有增强文字清晰度及超分能力的图像增强网络。
(2)、在一种可能的实现方式中,图像增强网络模型仅包括第二种结构,如图5所示,第二种结构包括第二特征提取模块A2、密集连接模块B2和图像生成模块C2,第二特征提取模块A2包括像素重组层和第二卷积层,像素重组层用于对输入图像进行降采样重组操作,第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,密集连接模块B2用于对第二浅层特征图进行密集连接操作,得到第二深层特征图,图像生成模块C2,用于对第二浅层特征图与第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
对于图像增强网络模型仅包括第二种结构的情况,步骤S220的第二种流程(b)为利用第二训练集对图像增强网络模型进行训练,得到已训练的图像增强网络。
进一步,在一种可能的实现方式中,如图5所示,第二特征提取模块A2的像素重组层用于对输入图像进行降采样重组(PixelUnshuffle)操作,第二卷积层用于对降采样重组后的图像进行增通道卷积操作,降采样重组(PixelUnshuffle)可在避免信息损失的基础上,降低重建过程中特征图的分辨率且提高重建过程中特征图的特征通道数量,例如,输入图像的特征图为h×w×c,例如输入图像共包含RGB三个通道,则c=3,像素重组层输出的特征图为(h/2)×(w/2)×(4c),即(h/2)×(w/2)×12。第二特征提取模块A2的第二卷积层为Conv_12_32_3_1,其输入通道数设置为12、输出通道数设置为32、卷积核设置为3×3、步长设置为1。在训练过程中,第二卷积层对降采样重组后的特征图(h/2)×(w/2)×12进行增通道卷积操作后得到第二浅层特征图为(h/2)×(w/2)×32,设训练采用批处理方式,批处理量(Batch Size)为n,则第一卷积层输出的第二浅层特征图表示为n×(h/2)×(w/2)×12,可理解的是,图5示出的浅层特征图n×h×w×12和深层特征图n×h×w×12对应的是前述第一种结构,对于第二种结构,应将图5中的“浅层特征图n×h×w×12和深层特征图n×h×w×12”替换为“浅层特征图n×(h/2)×(w/2)×12和深层特征图n×(h/2)×(w/2)×12”。例如,批处理量n的取值为48。
进一步,在一种可能的实现方式中,如图5所示,密集连接模块B2包括N个第三卷积层和(N-1)个拼接层,N>1,密集连接模块B2输出的第二深层特征图表示为n×(h/2)×(w/2)×32,密集连接模块B2输出的特征图相比输入的特征图更接近全局的空间结构信息,密集连接模块B2输入的特征图为浅层特征图,输出的特征图为深层特征图。可理解的是,密集连接模块B2与密集连接模块B1可采用相同结构,之所以用B2和B1加以区别,是由于虽然结构相同,但密集连接模块B2与密集连接模块B1的训练集不同,因此在训练后的参数可能有所不同。
在一种可能的实现方式中,如图5所示,图像生成模块C2包括上采样层和多个第四卷积层,上采样层用于对第二浅层特征图与第二深层特征图相加后得到的特征图进行上采样操作,多个第四卷积层用于对上采样后的特征图进行卷积操作,得到增强后的图像。例如图5所示,上采样层为双线性插值上采样层。可理解的是,图像生成模块C2与图像生成模块C1可采用相同结构,之所以用C2和C1加以区别,是由于虽然结构相同,但图像生成模块C2与图像生成模块C1的训练集不同,因此在训练后的参数可能有所不同。
图像生成模块C2输出的增强后的图像的通道数还原为3,且经过降采样重组操作及例如双线性插值层的双线性插值操作后空间分辨率保持不变,其中,空间分辨率保持不变的条件是图像生成模块中C2的上采样层的上采样操作对于特征图分辨率的放大倍数与像素重组层的降采样重组(PixelUnshuffle)操作对图像分辨率的缩小倍数应对应。可见,利用第二种流程(b)“利用第二训练集进行训练”对仅包括第二特征提取模块A2,密集连接模块B2和图像生成模块C2的第一种结构的图像增强网络模型进行训练得到的已训练的仅包括第二特征提取模块A2,密集连接模块B2和图像生成模块C2的图像增强网络,可实现对输入图像进行文本区域增强,即,经过相同图像分辨率的包含相同文本画面内容的低清晰度图像和高清晰度的图像对作为第二训练样本的第二训练集对仅包括第二特征提取模块A2,密集连接模块B2和图像生成模块C2的第二种结构的图像增强网络模型进行训练,在迭代训练过程中基于设计的损失函数进行前向传播和反向传播参数优化更新,使得图像增强网络模型学习到增强文字清晰度的能力,得到已训练的具有增强文字清晰度能力的图像增强网络。
(3)、在一种可能的实现方式中,图像增强网络模型包括第一种结构和第二种结构,对于图像增强网络模型包括第一种结构和第二种结构,有三种根据不同训练流程得到的不同的图像增强网络,这三种训练流程分别为步骤S220的第三种流程(c)、第四种流程(d)和第五种流程(e)。
对于图像增强网络模型包括第一种结构和第二种结构,训练得到的第一种已训练的图像增强网络包括第一图像增强网络和第二图像增强网络,第一图像增强网络包括第一特征提取模块A1、密集连接模块B1和图像生成模块C1,第二图像增强网络包括第二特征提取模块A2、密集连接模块B1和图像生成模块C1,第一特征提取模块A1包括第一卷积层,第一卷积层用于对输入图像进行增通道卷积操作,得到第一浅层特征图,第二特征提取模块A2包括像素重组层和第二卷积层,像素重组层用于对输入图像进行降采样重组操作,第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,密集连接模块B1用于对第一浅层特征图或第二浅层特征图进行密集连接操作,得到第一深层特征图或第二深层特征图,图像生成模块C1,用于对第一浅层特征图与第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,或对第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。可见,该图像增强网络中密集连接模块B1和图像生成模块C1复用在第一图像增强网络和第二图像增强网络,第一特征提取模块A1、密集连接模块B1和图像生成模块C1构成的第一图像增强网络具有增强文字清晰度及超分能力,第二特征提取模块A2、密集连接模块B1和第一图像生成模块C1构成的第二图像增强网络具有增强文字清晰度能力。第三种流程(c)为:利用第一训练集和第二训练集对图像增强网络模型进行训练,具体为:利用第一训练集对第一图像增强网络进行训练,得到已训练的包括第一特征提取模块A1、密集连接模块B1和图像生成模块C1的第一图像增强网络;利用第二训练集训练对第二图像增强网络中的第二特征提取模块A2进行训练,得到已训练的包括第二特征提取模块A2、密集连接模块B1和图像生成模块C1的第二图像增强网络,可理解的是,在利用第二训练集进行第二次训练时,密集连接模块B1和图像生成模块C1可不进行参数更新。上述密集连接模块B1和图像生成模块C1复用在第一图像增强网络和第二图像增强网络的方式及训练流程(c),可以在提供两种网络的情况下,有效压缩模型大小,降低对存储的需求,且提升训练效率。
对于图像增强网络模型包括第一种结构和第二种结构,训练得到的第二种已训练的图像增强网络包括第一图像增强网络和第二图像增强网络,第一图像增强网络包括第一特征提取模块A1、密集连接模块B2和图像生成模块C2,第二图像增强网络包括第二特征提取模块A2、密集连接模块B2和图像生成模块C2,第一特征提取模块A1包括第一卷积层,第一卷积层用于对输入图像进行增通道卷积操作,得到第一浅层特征图,第二特征提取模块A2包括像素重组层和第二卷积层,像素重组层用于对输入图像进行降采样重组操作,第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,密集连接模块B2用于对第一浅层特征图或第二浅层特征图进行密集连接操作,得到第一深层特征图或第二深层特征图,图像生成模块C2,用于对第一浅层特征图与第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,或对第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。可见,该图像增强网络中密集连接模块B2和图像生成模块C2复用在第一图像增强网络和第二图像增强网络,第一特征提取模块A1、密集连接模块B2和图像生成模块C2构成的第一图像增强网络具有增强文字清晰度及超分能力,第二特征提取模块A2、密集连接模块B2和第一图像生成模块C2构成的第二图像增强网络具有增强文字清晰度能力。第四种流程(d)为:利用第一训练集和第二训练集对图像增强网络模型进行训练,具体为:利用第二训练集对第二图像增强网络进行训练,得到已训练的包括第二特征提取模块A2、密集连接模块B2和图像生成模块C2的第二图像增强网络;利用第一训练集训练对第一图像增强网络中的第一特征提取模块A1进行训练,得到已训练的包括第一特征提取模块A1、密集连接模块B2和图像生成模块C2的第一图像增强网络,可理解的是,在利用第一训练集进行第二次训练时,密集连接模块B2和图像生成模块C2可不进行参数更新。上述密集连接模块B2和图像生成模块C2复用在第一图像增强网络和第二图像增强网络的方式及训练流程(d),可以在提供两种网络的情况下,有效压缩模型大小,降低对存储的需求,且提升训练效率。
对于图像增强网络模型包括第一种结构和第二种结构,训练得到的第三种已训练的图像增强网络包括第一图像增强网络和第二图像增强网络,第一图像增强网络包括第一特征提取模块A1、密集连接模块B1和图像生成模块C1,第二图像增强网络包括第二特征提取模块A2、密集连接模块B2和图像生成模块C2,可理解的是,第一图像增强网络和第二图像增强网络无交集,无复用模块,需要部署两个完整的图像增强网络,适用于设备性能较高的情况。由此,可参照步骤S220的第一种流程(a)训练第一图像增强网络,参照步骤S220的第二种流程(b)训练第二图像增强网络,即第五种流程(e)为流程(a)+(b)。
在一种可能的实现方式中,上述各种训练流程均可包括:基于训练中对在采样用接收端录屏得到的图像样本增强后的图像与对应的采样用发送端录屏得到的图像样本之间像素值损失的损失函数,和基于利用边缘检测得到的训练中对在采样用接收端录屏得到的图像样本增强后的图像的边缘图与对应的采样用发送端录屏得到的图像样本的边缘图之间的边缘损失的损失函数,对图像增强网络进行训练。
在一个具体示例中,基于训练中对在采样用接收端录屏得到的图像样本增强后的图像与对应的采样用发送端录屏得到的图像样本之间像素值损失的损失函数L1 Loss的计算公式如下:
其中,IHQ为高清图像HQ的像素值,IOUT为图像增强网络模型输出的增强图像的像素值,上述公式中加入了一个正则项∈,实现较为稳定的L1 Loss改良。
例如,基于利用整体嵌套边缘检测(Holistically-Nested Edge Detection,HED)得到的训练中对在采样用接收端录屏得到的图像样本增强后的图像的边缘图与对应的采样用发送端录屏得到的图像样本的边缘图之间的边缘损失的损失函数Hed Edge Loss:的计算公式为:
其中,Hj(α)代表Hed边缘检测网络提取的第j层的边缘图像,Hed边缘检测网络例如以VGG-16作为骨干网络。
对上述两个损失函数赋予权重值后,完整的损失函数公式如下:
L=LL1+0.5×Lhed_edge
综上,在一个具体示例中,上述各种训练流程的相关参数设置例如表1所示。
表1
S230、发送端显示画面并将画面的图像同步传输至接收端。
可理解的是,步骤S230中的发送端与接收端,为实际会议无线投屏场景中的发送端与接收端,区别于步骤S210中的采样用发送端和采样用接收端。
S240、接收端基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像并显示。
在一种可能的实现方式中,已训练的图像增强网络包括第一特征提取模块A1、密集连接模块B1和图像生成模块C1,第一特征提取模块A1包括第一卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
基于第一卷积层对接收的图像进行增通道卷积操作,得到第一浅层特征图;
基于密集连接模块B1对所述第一浅层特征图进行密集连接操作,得到第一深层特征图;
基于图像生成模块C1,对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
由此,基于具有增强文字清晰度及超分能力的图像增强网络,可以实现对接收端接收的图像的文字清晰度增强及图像超分,更为适用于接收端接收的图像的图像分辨率小于接收端的显示分辨率的情况。
包括第一特征提取模块A1、密集连接模块B1和图像生成模块C1的图像增强网络对接收端接收的图像进行处理可参见图4,需要说明的是,与训练阶段批处理量n取值为48不同,在画面同步阶段n应取值为1,已满足同步需求。
在一种可能的实现方式中,已训练的图像增强网络包括第二特征提取模块A2、密集连接模块B2和图像生成模块C2,第二特征提取模块A2包括像素重组层和第二卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
基于像素重组层对接收的图像进行降采样重组操作并基于第二卷积层对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图;
基于密集连接模块B2对所述第二浅层特征图进行密集连接操作,得到第二深层特征图;
基于图像生成模块C2,对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
由此,基于具有增强文字清晰度的图像增强网络,可以实现对接收端接收的图像的文字清晰度增强,更为适用于接收端接收的图像的图像分辨率接近或等于接收端的显示分辨率的情况。
包括第一特征提取模块A2、密集连接模块B2和图像生成模块C2的图像增强网络对接收端接收的图像进行处理可参见图4,需要说明的是,与训练阶段批处理量n取值为48不同,在画面同步阶段n应取值为1,已满足同步需求。
在一种可能的实现方式中,所述已训练的图像增强网络包括第一特征提取模块A1和第二特征提取模块A2,所述已训练的图像增强网络还包括密集连接模块B1和/或B2(根据训练流程不同而分为包括B1、包括B2、包括B1和B2三种情况),和图像生成模块C1和/或C2,第一特征提取模块A1包括第一卷积层,第二特征提取模块A2包括像素重组层和第二卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
接收端根据接收的图像的分辨率与显示分辨率的比对,确定选用第一特征提取模块A1或第二特征提取模块A2;
若选用第一特征提取模块A1,则:
基于第一卷积层对接收的图像进行增通道卷积操作,得到第一浅层特征图;
基于密集连接模块B1或B2对所述第一浅层特征图进行密集连接操作,得到第一深层特征图;
基于图像生成模块C1或C2,对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像;
若选用第二特征提取模块A2,则:
基于像素重组层对接收的图像进行降采样重组操作并基于第二卷积层对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图;
基于密集连接模块B1或B2对所述第二浅层特征图进行密集连接操作,得到第二深层特征图;
基于图像生成模块C1或C2,对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
由此,可针对不同分辨率的处理需求,由接收端根据接收的图像的分辨率与显示分辨率的比对确定选用哪种处理方式。
在一种可能的实现方式中,密集连接模块B1或B2包括N个第三卷积层和(N-1)个拼接层,N>1,所述基于密集连接模块B1或B2对所述第一浅层特征图进行密集连接操作,得到第一深层特征图包括:
基于第1个第三卷积层对所述第一浅层特征图进行降通道卷积操作并基于第1个拼接层对第1个第三卷积层输出的特征图与所述第一浅层特征图进行拼接操作;
基于第n个第三卷积层对第(n-1)个拼接层输出的特征图进行降通道卷积操作并基于第n个拼接层对第n个第三卷积层输出的特征图与第(n-1)个拼接层输出的特征图进行拼接操作,1<n<N;
基于第N个第三卷积层对第(N-1)个拼接层输出的特征图进行降通道卷积操作,得到第一深层特征图。
此外,所述基于密集连接模块B1或B2对所述第二浅层特征图进行密集连接操作,得到第二深层特征图包括:
基于第1个第三卷积层对所述第二浅层特征图进行降通道卷积操作并基于第1个拼接层对第1个第三卷积层输出的特征图与所述第二浅层特征图进行拼接操作;
基于第n个第三卷积层对第(n-1)个拼接层输出的特征图进行降通道卷积操作并基于第n个拼接层对第n个第三卷积层输出的特征图与第(n-1)个拼接层输出的特征图进行拼接操作,1<n<N;
基于第N个第三卷积层对第(N-1)个拼接层输出的特征图进行降通道卷积操作,得到第二深层特征图。
综上,本实施例提供的画面同步的增强方法,对图像中文本区域进行了清晰化,通过训练一个轻量级网络模型并部署在接收端,实现对图像中文本区域的去噪、去压缩、去模糊以及超分辨率等处理,提升了图像中文字的清晰度,为无线投屏、屏幕共享等画面同步场景,特别是会议无线投屏、在线会议屏幕共享的场景提供了更好的用户体验。
本发明另一个实施例提供一种画面同步***,包括发送端设备和接收端设备,接收端设备包括处理器和显示屏;
所述发送端设备,用于显示画面并将显示画面的图像同步传输至接收端设备;
所述接收端设备的处理器,用于基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像;
所述接收端设备的显示屏,用于显示所述增强后的图像。
需要说明的是,本实施例提供的画面同步***的原理及工作流程与上述画面同步的增强方法的画面同步阶段相似,相关之处可以参照上述说明,在此不再赘述。
如图6所示,适于用来实现上述接收端或训练服务器的计算机***,包括中央处理模块(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机***操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:利用训练集对图像增强网络模型进行训练,得到已训练的图像增强网络,或,基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像并显示。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
还需要说明的是,在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (14)
1.一种画面同步的增强方法,其特征在于,包括:
画面同步接收端设备基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像;
画面同步接收端设备显示所述增强后的图像。
2.根据权利要求1所述的方法,其特征在于,所述已训练的图像增强网络包括第一特征提取模块、密集连接模块和图像生成模块,所述第一特征提取模块包括第一卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
基于第一卷积层对接收的图像进行增通道卷积操作,得到第一浅层特征图;
基于密集连接模块对所述第一浅层特征图进行密集连接操作,得到第一深层特征图;
基于图像生成模块,对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
3.根据权利要求1所述的方法,其特征在于,所述已训练的图像增强网络包括第二特征提取模块、密集连接模块和图像生成模块,所述第二特征提取模块包括像素重组层和第二卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
基于像素重组层对接收的图像进行降采样重组操作并基于第二卷积层对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图;
基于密集连接模块对所述第二浅层特征图进行密集连接操作,得到第二深层特征图;
基于图像生成模块,对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
4.根据权利要求1所述的方法,其特征在于,所述已训练的图像增强网络包括第一特征提取模块和第二特征提取模块,所述已训练的图像增强网络还包括密集连接模块和图像生成模块,所述第一特征提取模块包括第一卷积层,所述第二特征提取模块包括像素重组层和第二卷积层,所述基于已训练的图像增强网络对接收的图像进行文本区域增强包括:
画面同步接收端设备根据接收的图像的分辨率与显示分辨率的比对,确定选用第一特征提取模块或第二特征提取模块;
若选用第一特征提取模块,则:
基于第一卷积层对接收的图像进行增通道卷积操作,得到第一浅层特征图;
基于密集连接模块对所述第一浅层特征图进行密集连接操作,得到第一深层特征图;
基于图像生成模块,对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像;
若选用第二特征提取模块,则:
基于像素重组层对接收的图像进行降采样重组操作并基于第二卷积层对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图;
基于密集连接模块对所述第二浅层特征图进行密集连接操作,得到第二深层特征图;
基于图像生成模块,对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
5.根据权利要求2或4所述的方法,其特征在于,所述密集连接模块包括N个第三卷积层和(N-1)个拼接层,N>1,所述基于密集连接模块对所述第一浅层特征图进行密集连接操作,得到第一深层特征图包括:
基于第1个第三卷积层对所述第一浅层特征图进行降通道卷积操作并基于第1个拼接层对第1个第三卷积层输出的特征图与所述第一浅层特征图进行拼接操作;
基于第n个第三卷积层对第(n-1)个拼接层输出的特征图进行降通道卷积操作并基于第n个拼接层对第n个第三卷积层输出的特征图与第(n-1)个拼接层输出的特征图进行拼接操作,1<n<N;
基于第N个第三卷积层对第(N-1)个拼接层输出的特征图进行降通道卷积操作,得到第一深层特征图。
6.根据权利要求3或4所述的方法,其特征在于,所述密集连接模块包括N个第三卷积层和(N-1)个拼接层,N>1,所述基于密集连接模块对所述第二浅层特征图进行密集连接操作,得到第二深层特征图包括:
基于第1个第三卷积层对所述第二浅层特征图进行降通道卷积操作并基于第1个拼接层对第1个第三卷积层输出的特征图与所述第二浅层特征图进行拼接操作;
基于第n个第三卷积层对第(n-1)个拼接层输出的特征图进行降通道卷积操作并基于第n个拼接层对第n个第三卷积层输出的特征图与第(n-1)个拼接层输出的特征图进行拼接操作,1<n<N;
基于第N个第三卷积层对第(N-1)个拼接层输出的特征图进行降通道卷积操作,得到第二深层特征图。
7.一种图像增强网络的训练方法,其特征在于,包括:
生成第一训练集和/或第二训练集;
所述生成第一训练集包括:在显示分辨率不同的第一画面同步发送端设备和第一画面同步接收端设备进行画面同步时,对第一画面同步发送端设备和第一画面同步接收端设备分别进行录屏,得到包括多对第一训练样本的第一训练集,其中,每一对第一训练样本包括包含相同画面内容的两张第一图像样本;
所述生成第二训练集包括:在显示分辨率相同的第二画面同步发送端设备和第二画面同步接收端设备进行画面同步时,对第二画面同步发送端设备和第二画面同步接收端设备分别进行录屏,得到包括多对第二训练样本的第二训练集,其中,每一对第二训练样本包括包含相同画面内容的两张第二图像样本;
利用第一训练集和/或第二训练集对图像增强网络进行训练,得到已训练的用于对图像进行文本区域增强的图像增强网络。
8.根据权利要求7所述的方法,其特征在于,在所述利用第一训练集对图像增强网络进行训练的情况下,所述已训练的图像增强网络包括第一特征提取模块,密集连接模块和图像生成模块,所述第一特征提取模块包括第一卷积层,所述第一卷积层用于对图像进行增通道卷积操作,得到第一浅层特征图,所述密集连接模块用于对所述第一浅层特征图进行密集连接操作,得到第一深层特征图,所述图像生成模块,用于对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
9.根据权利要求7所述的方法,其特征在于,在所述利用第二训练集对图像增强网络进行训练的情况下,所述已训练的图像增强网络包括第二特征提取模块、密集连接模块和图像生成模块,所述第二特征提取模块包括像素重组层和第二卷积层,所述像素重组层用于对图像进行降采样重组操作,所述第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,所述密集连接模块用于对所述第二浅层特征图进行密集连接操作,得到第二深层特征图,所述图像生成模块,用于对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像。
10.根据权利要求7所述的方法,其特征在于,在所述利用第一训练集和第二训练集对图像增强网络进行训练的情况下:
所述已训练的图像增强网络包括第一图像增强网络和第二图像增强网络,所述第一图像增强网络包括第一特征提取模块、第一密集连接模块和第一图像生成模块,所述第二图像增强网络包括第二特征提取模块、第一密集连接模块和第一图像生成模块,所述第一特征提取模块包括第一卷积层,所述第一卷积层用于对图像进行增通道卷积操作,得到第一浅层特征图,所述第二特征提取模块包括像素重组层和第二卷积层,所述像素重组层用于对图像进行降采样重组操作,所述第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,所述第一密集连接模块用于对所述第一浅层特征图或第二浅层特征图进行密集连接操作,得到第一深层特征图或第二深层特征图,所述第一图像生成模块,用于对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,或对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像;所述利用第一训练集和第二训练集对图像增强网络进行训练包括:利用第一训练集对第一图像增强网络进行训练,得到已训练的第一图像增强网络;利用第二训练集训练对第二图像增强网络中的第二特征提取模块进行训练,得到已训练的第二图像增强网络;
或
所述已训练的图像增强网络包括第一图像增强网络和第二图像增强网络,所述第一图像增强网络包括第一特征提取模块、第二密集连接模块和第二图像生成模块,所述第二图像增强网络包括第二特征提取模块、第二密集连接模块和第二图像生成模块,所述第一特征提取模块包括第一卷积层,所述第一卷积层用于对图像进行增通道卷积操作,得到第一浅层特征图,所述第二特征提取模块包括像素重组层和第二卷积层,所述像素重组层用于对图像进行降采样重组操作,所述第二卷积层用于对降采样重组后的图像进行增通道卷积操作,得到第二浅层特征图,所述第二密集连接模块用于对所述第一浅层特征图或第二浅层特征图进行密集连接操作,得到第一深层特征图或第二深层特征图,所述第二图像生成模块,用于对所述第一浅层特征图与所述第一深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,或对所述第二浅层特征图与所述第二深层特征图相加后得到的特征图依次进行上采样操作和卷积操作,得到增强后的图像;所述利用第一训练集和第二训练集对图像增强网络进行训练包括:利用第二训练集对第二图像增强网络进行训练,得到已训练的第二图像增强网络;利用第一训练集训练对第一图像增强网络中的第一特征提取模块进行训练,得到已训练的第一图像增强网络。
11.根据权利要求7-10中任一项所述的方法,其特征在于,所述对图像增强网络进行训练包括:基于训练中对在画面同步接收端设备录屏得到的图像样本增强后的图像与对应的画面同步发送端设备录屏得到的图像样本之间像素值损失的损失函数,和基于利用边缘检测得到的训练中对在画面同步接收端设备录屏得到的图像样本增强后的图像的边缘图与对应的画面同步发送端设备录屏得到的图像样本的边缘图之间的边缘损失的损失函数,对图像增强网络进行训练。
12.一种画面同步接收端设备,其特征在于,包括处理器和显示屏,
所述处理器,用于基于已训练的图像增强网络对接收的图像进行文本区域增强,得到增强后的图像;
所述显示屏,用于显示所述增强后的图像。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的方法,或权利要求7-11中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的方法,或权利要求7-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388733.8A CN118014874A (zh) | 2022-11-08 | 2022-11-08 | 画面同步的增强方法、训练方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388733.8A CN118014874A (zh) | 2022-11-08 | 2022-11-08 | 画面同步的增强方法、训练方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118014874A true CN118014874A (zh) | 2024-05-10 |
Family
ID=90941605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211388733.8A Pending CN118014874A (zh) | 2022-11-08 | 2022-11-08 | 画面同步的增强方法、训练方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118014874A (zh) |
-
2022
- 2022-11-08 CN CN202211388733.8A patent/CN118014874A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3637781A1 (en) | Video processing method and apparatus | |
US8824799B1 (en) | Method and apparatus for progressive encoding for text transmission | |
US8648858B1 (en) | Hybrid text and image based encoding | |
US20160125581A1 (en) | Local multiscale tone-mapping operator | |
US8718407B2 (en) | High-quality single-frame superresolution training and reconstruction engine | |
US9386319B2 (en) | Post-process filter for decompressed screen content | |
US10334256B2 (en) | Video compression method | |
US20020012471A1 (en) | Multimedia compression/decompression and compressed data representation | |
JP2001056673A (ja) | 複雑な文字を表示するための技術 | |
CN103024393B (zh) | 一种针对单张图像的压缩和解压方法 | |
WO2023005699A1 (zh) | 视频增强网络训练方法、视频增强方法及装置 | |
JP2002185776A (ja) | 小サイズ画像処理エンジン | |
US20040120589A1 (en) | Method and apparatus for providing resource-optimized delivery of web images to resource-constrained devices | |
CN112954398A (zh) | 编码方法、解码方法、装置、存储介质及电子设备 | |
CN107220934B (zh) | 图像重建方法及装置 | |
US20060267809A1 (en) | Image processing apparatus and method | |
CN102687509A (zh) | 使用jpeg-ls的可调节压缩 | |
CN100337190C (zh) | 在远端计算机上将本地计算机显示内容显示回放的方法 | |
CN118014874A (zh) | 画面同步的增强方法、训练方法、设备及介质 | |
CN115225615B (zh) | 虚幻引擎像素流送方法及装置 | |
US8804034B2 (en) | Apparatus and method for converting image in an image processing system | |
US20150124873A1 (en) | Chroma Down-Conversion and Up-Conversion Processing | |
EP3170306B1 (en) | Multilevel video compression, decompression, and display for 4k and 8k applications | |
EP2958327A1 (en) | Method and device for encoding a sequence of pictures | |
US8244071B2 (en) | Non-dyadic spatial scalable wavelet transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |