CN112511860B

CN112511860B - 一种文字区域清晰的画面传输方法

Info

Publication number: CN112511860B
Application number: CN202011338605.3A
Authority: CN
Inventors: 张浪; 孙利杰; 欧阳殷朝; 陈松政; 刘文清; 杨涛
Original assignee: Hunan Qilin Xin'an Technology Co ltd
Current assignee: Hunan Qilin Xin'an Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-05-24
Anticipated expiration: 2040-11-25
Also published as: CN112511860A

Abstract

本发明公开了一种文字区域清晰的画面传输方法，包括服务端压缩编码屏幕图像数据和客户端解压解码屏幕图像数据的步骤，服务端压缩编码屏幕图像数据的步骤包括：抓取当前画面P_i，根据满足条件的单元块得到文字识别区域；将画面P_i转码为YUV格式的画面P_i1；根据文字识别算法对画面P_i1文字识别区域的Y分量进行文字识别得到文字区域；对画面P_i1进行h264编码后得到h264数据和重建的画面P_i2；将画面P_i1与画面P_i2中文字区域的YUV数据差分计算得到文字差分数据；根据压缩算法对文字差分数据压缩得到文字差分压缩数据包，将h264数据和文字差分压缩数据包合并压缩为画面压缩数据包后发送给客户端。本发明减小带宽消耗同时保证文字区域清晰，提高了用户体验。

Description

一种文字区域清晰的画面传输方法

技术领域

本发明涉及云桌面画面传输领域，尤其涉及一种文字区域清晰的画面传输方法。

背景技术

计算机屏幕传输技术在云桌面、网络教学***和视频会议***中有着重要的作用，一般的做法是先对计算机屏幕图像进行抓取、视频压缩编码，然后通过网络传输到客户端显示，为了能在传输过程中降低网络带宽(特别是跨公网的传输)，视频编码一般采用压缩率比较大的有损压缩算法，到客户端显示的时候，由于有损压缩的原因，使得整体的图像会变得模糊，尤其压缩率大的时候，画面会更加模糊，从而导致一些画面的敏感区域无法识别，特别是文字区域。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种文字区域清晰的画面传输方法，既能够保证消耗带宽小，又能保证文字等敏感区域比较清晰，以提高用户体验。

为解决上述技术问题，本发明提出的技术方案为：

一种文字区域清晰的画面传输方法，包括服务端压缩编码屏幕图像数据的步骤，具体包括：

A1)根据预设时间抓取屏幕画面作为当前画面P_i，将位于上一画面P_i-1变化区域且位于当前画面P_i无变化区域的单元块的位置信息加入当前文字识别区域集合A，所述单元块为屏幕按照行列划分的区域；

A2)将当前画面P_i转码为YUV格式的画面P_i1；

A3)根据当前文字识别区域集合A中的元素获取画面P_i1中的待识别单元块，根据文字识别算法针对每个待识别单元块的Y分量进行文字识别，将识别成功的待识别单元块的位置信息加入当前文字区域集合B；

A4)对画面P_i1进行h264编码得到编码后的h264数据以及重建的画面P_i2；

A5)根据当前文字区域集合B中的元素分别获取画面P_i1以及画面P_i2中一一对应的文字单元块，将画面P_i1中文字单元块与对应的画面P_i2中文字单元块的YUV数据进行差分计算得到对应的文字差分数据，将文字单元块的位置信息和对应的文字差分数据加入当前文字区域细节集合C；

A6)根据压缩算法将当前文字区域细节集合C进行压缩得到文字差分压缩数据包，将编码后的h264数据和文字差分压缩数据包合并压缩为画面压缩数据包后发送给客户端。

进一步的，还包括客户端解压解码屏幕图像数据的步骤，具体包括：

B1)获取服务端发送的画面压缩数据包，解压画面压缩数据包；

B2)若解压后的内容包含文字差分压缩数据包，解压文字差分压缩数据包得到文字区域细节集合C，对解压得到的h264数据进行解码得到重建的画面P_i2，将文字区域细节集合C中的文字差分数据与画面P_i2合成得到文字清晰的画面P_i3，将画面P_i3作为最终画面；否则对解压得到的h264数据进行解码得到重建的画面P_i2，将画面P_i2作为最终画面；将文字区域细节集合C中的文字差分数据与画面P_i2合成得到文字清晰的画面P_i3具体包括：根据文字区域细节集合C中的位置信息获取画面P_i2中的文字单元块，将文字单元块匹配文字区域细节集合C得到对应的文字差分数据，将文字单元块的YUV数据和对应的文字差分数据相加得到文字单元块新的YUV数据。

进一步的，步骤A1)之前还包括划分单元块的步骤，具体包括：按照预设的单元长度w和单元宽度h将屏幕划分为nw行且nh列大小相同的单元块，定义所有单元块的标记集合flag[nw][nh]，将标记集合flag[nw][nh]中的所有标记置0。

进一步的，步骤A1)具体包括：获取当前画面P_i相对上一画面P_i-1的变化区域对应的所有单元块作为第一单元块，获取当前画面P_i相对上一画面P_i-1的无变化区域对应的所有单元块作为第二单元块，将标记集合flag[nw][nh]中第一单元块对应的标记置1，将第二单元块分别匹配标记集合flag[nw][nh]，若第二单元块对应的标记为1，将第二单元块的位置信息加入当前文字识别区域集合A，同时将标记集合flag[nw][nh]中第二单元块对应的标记置0。

进一步的，步骤A1)中根据预设时间抓取屏幕画面作为当前画面P_i具体包括：判断预设时间内屏幕画面是否发生变化，是则抓取当前屏幕画面作为当前画面P_i，否则将上一画面P_i-1作为当前画面P_i。

进一步的，步骤A1)还包括当前文字识别区域集合A为空时的处理步骤：若当前文字识别区域集合A为空，将当前画面P_i转码为YUV格式的画面P_i1后进行h264编码得到编码后的h264数据，将编码后的h264数据压缩为画面压缩数据包后发送给客户端。

进一步的，步骤A5)之前还包括网络判断的步骤，具体包括：

C1)判断网络状况是否满足预设条件，是则跳转步骤A5)，否则进入步骤C2)；

C2)根据文字区域集合B中的元素分别得到画面P_i1以及画面P_i2中一一对应的文字单元块，将画面P_i1中文字单元块与对应的画面P_i2中文字单元块的Y分量数据进行差分计算得到对应的文字差分数据，将文字单元块的位置信息和对应的文字差分数据加入文字区域细节集合C，跳转步骤A6)。

进一步的，步骤A6)之前还包括网络判断的步骤，具体包括：

D1)判断网络状况是否满足预设条件，是则跳转步骤A6)，否则进入步骤D2)；

D2)将编码后的h264数据压缩为画面压缩数据包后发送给客户端，返回步骤A1)。

进一步的，步骤A3)中的文字识别算法为最大稳定极值区域算法。

进一步的，步骤A6)中的压缩算法为行程长度压缩算法或zlib压缩算法。

与现有技术相比，本发明的优点在于：

1、本发明将屏幕划分为单元块，文字识别时只需要识别一些单元块所在的区域，不需要识别整个画面，可以降低CPU的消耗；

2、本发明的方法在识别过程中对画面变化的区域不进行文字识别，对于不变化的区域仅进行一次识别，减小了文字识别的频率，从而降低了因文字识别带来的CPU消耗；

3、本发明的方法在保留了h264的高压缩比的特性的前提下提取文字区域因h264有损压缩而丢失的细节并对这些细节数据进行压缩后传输，从而减小了带宽消耗；

4、本发明的方法根据Y分量进行文字识别，不用对图像进行灰度处理，提高了处理效率，减小了CPU消耗。

附图说明

图1为本发明各实施例中对屏幕图像数据编码压缩的步骤示意图。

图2为本发明各实施例中对屏幕图像数据编码压缩的流程图。

图3为本发明各实施例中解码解压屏幕图像数据的步骤示意图。

图4为本发明各实施例中解码解压屏幕图像数据的流程图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

本发明在进行后续的方法之前先将屏幕划按照行列划分单元块，假定屏幕长为width，宽为height，按照预设的单元长度w和单元宽度h将屏幕划分单元块，单元块的尺寸为w*h的小块，即每个单元块大小相同且为屏幕上尺寸为w*h的区域，单元长度w和单元宽度h值越小，后续步骤中的文字识别越精细，但是CPU消耗也会相应的增加，单元长度w和单元宽度h的具体值可以根据实际进行调整，由此得到：

单元块行数：nw＝(width+w-1)/w

单元块列数：nh＝(height+h-1)/h

所以屏幕总共可以分成nw行且nh列大小相同的单元块。

然后定义所有单元块的标记集合flag[nw][nh]，标记集合flag[nw][nh]中的标记与单元块一一对应，将标记集合flag[nw][nh]中的所有标记置0，即flag[nw][nh]＝{0}。

实施例一

如图1和图2所示，本实施例的文字区域清晰的画面传输方法包括服务端压缩编码屏幕图像数据的步骤，具体包括：

A1)根据预设时间抓取屏幕画面作为当前画面P_i，将位于上一画面P_i-1变化区域且位于当前画面P_i无变化区域的单元块的位置信息加入当前文字识别区域集合A，A＝{c0...cn}，所述单元块为屏幕按照行列划分的区域，抓取屏幕画面程序可以调用NVIDIANVFBC、AMD RapidFire、Windows DXGI、QXL，Mirror Driver等接口，这些API接口可以实现获取整个屏幕画面和屏幕变化区域；

A2)将当前画面P_i转码为YUV格式的画面P_i1；

A3)根据当前文字识别区域集合A中的元素获取画面P_i1中的待识别单元块，根据文字识别算法针对每个待识别单元块的Y分量进行文字识别，将识别成功的待识别单元块的位置信息加入当前文字区域集合B，B＝{k0...km}；

A4)对画面P_i1进行h264的有损编码，通过现有的x264编码接口，在编码时，可以得到2份数据，一份是编码的h264数据，一份是重建的画面P_i2，以x264的开源编码接口为例：

X264_API int x264_encoder_encode(x264_t*,x264_nal_t**pp_nal,int*pi_nal,x264_picture_t*pic_in,x264_picture_t*pic_out)；

x264_picture_t*pic_in：这里传入原始的YUV画面P_i1；

x264_nal_t**pp_nal：这里得到编码后的h264画面；

x264_picture_t*pic_out：这里得到重建图像的画面P_i2；

画面P_i2的YUV数据就是画面P_i1的YUV数据经过h264有损编码后再解码得到的YUV数据，因此画面P_i2的YUV数据相比画面P_i1原始的YUV数据会丢失很多细节从而导致画面模糊；

A5)根据当前文字区域集合B中的元素分别获取画面P_i1以及画面P_i2中一一对应的文字单元块，将画面P_i1中文字单元块与对应的画面P_i2中文字单元块的YUV数据进行差分计算得到对应的文字差分数据，将文字单元块的位置信息和对应的文字差分数据加入当前文字区域细节集合C，C＝{g0...gm}；

本实施例中，只有单元块所在的位置满足位于上一画面变化区域且位于当前画面无变化区域才进行文字识别，变化区域为后一画面相对于前一画面发生变化的区域，无变化区域为后一画面相对于前一画面未发生变化的区域。若没有单元块满足前述的条件，说明画面一直变化，则当前文字识别区域集合A为空，本实施例的步骤A1)还包括当前文字识别区域集合A为空时的处理步骤：若当前文字识别区域集合A为空，将当前画面P_i转码为YUV格式的画面P_i1后进行h264的有损编码得到编码后的h264数据，将编码后的h264数据压缩为画面压缩数据包后发送给客户端。即在没有满足前述条件的单元块的情况下，直接将当前画面P_i转码并进行h264的有损编码后将h264数据压缩发送给客户端，跳过了对于一直变化的画面的文字识别，降低了因文字识别带来的CPU消耗。

本实施例的步骤A1)中，预设时间为文字从模糊变清晰的时间，预设时间的值越小文字从模糊变清晰的速度越快，CPU消耗会更高，可以按照实际需要进行调整。若超过预设时间屏幕的画面未发生变化，说明所有单元块所在位置的区域均未发生变化，步骤A1)中根据预设时间抓取屏幕画面作为当前画面P_i具体包括：判断预设时间内屏幕画面是否发生变化，是则抓取当前屏幕画面作为当前画面P_i，否则将上一画面P_i-1作为当前画面P_i。对于屏幕未发生变化的情况，本实施例中用上一次抓取的屏幕画面进行后续的步骤处理，减少资源消耗。

本实施例的步骤A1)的具体步骤包括：获取当前画面P_i相对上一画面P_i-1的变化区域对应的所有单元块作为第一单元块，获取当前画面P_i相对上一画面P_i-1的无变化区域对应的所有单元块作为第二单元块，将标记集合flag[nw][nh]中第一单元块对应的标记置1，将第二单元块分别匹配标记集合flag[nw][nh]，若第二单元块对应的标记为1，将第二单元块的位置信息加入当前文字识别区域集合A，同时将标记集合flag[nw][nh]中第二单元块对应的标记置0。单元块所在位置位于被抓取屏幕画面的变化区域则将对应的标记置1，单元块所在位置位于被抓取屏幕画面的无变化区域且对应的标记为1则将单元块的位置信息加入当前文字识别区域集合A，单元块的位置信息加入当前文字识别区域集合A后就将对应的标记置0，通过上述步骤，对于单元块所在位置的区域，只有从变化区域变成不变区域才进行一次文字识别，进一步降低了因文字识别带来的CPU消耗。

本实施例的步骤A3)中的文字识别算法为最大稳定极值区域算法MESR，YUV格式里面包含Y、U、V 3个分量，其中Y分量表示明亮度，如果画面中只有Y分量就会变成黑白灰的画面而没有色彩，其中UV分量表示色彩，通过最大稳定极值区域算法只需针对Y分量就能够实现文字识别，若识别到有文字则识别成功，否则识别失败。

本实施例的步骤A6)中的压缩算法为常规的压缩算法，例如行程长度压缩算法RLE或zlib压缩算法。

如图3和图4所示，本实施例的文字区域清晰的画面传输方法还包括客户端解压解码屏幕图像数据的步骤，具体包括：

B2)若解压后的内容包含文字差分压缩数据包，解压文字差分压缩数据包得到文字区域细节集合C，对解压得到的h264数据进行解码得到重建的画面P_i2，将文字区域细节集合C中的文字差分数据与画面P_i2合成得到文字清晰的画面P_i3，将画面P_i3作为最终画面；否则对解压得到的h264数据进行解码得到重建的画面P_i2，将画面P_i2作为最终画面。

将文字区域细节集合C中的文字差分数据与画面P_i2合成得到文字清晰的画面P_i3具体包括：根据文字区域细节集合C中的位置信息获取画面P_i2中的文字单元块，将文字单元块匹配文字区域细节集合C得到对应的文字差分数据，将文字单元块的YUV数据和对应的文字差分数据相加得到文字单元块新的YUV数据。

由此可见，通过本实施例的方法，将屏幕划分为单元块，服务端针对单元块进行文字识别，降低了CPU消耗，同时仅针对从变化区域变为无变化区域的单元块进行一次文字识别，还跳过变化区域不进行文字识别，使得CPU消耗进一步降低，最后对被抓取的屏幕图像的原始YUV数据和h264编码后重建的图像YUV数据进行差分计算提取文字区域的文字差分数据，并将文字差分数据和编码后的h264数据打包压缩发送到客户端，客户端仅需将文字差分数据和重建的图像进行合成就能够得到文字清晰的图像，在节省网络带宽的前提下保证了文字的显示效果。

实施例二

本实施例与实施例一基本相同，区别在于，步骤A5)之前还包括网络判断的步骤，具体包括：

对应的，客户端解压解码屏幕图像数据的步骤中，步骤B3)具体包括：根据文字区域细节集合C中的位置信息获取画面P_i2中的文字单元块，将文字单元块匹配文字区域细节集合C得到对应的文字差分数据，将文字单元块的YUV数据或Y分量数据和对应的文字差分数据相加得到文字单元块新的YUV数据。

通过上述步骤，在网络状况比较差的情况下，服务端和客户端之间的数据传输节省网络带宽，客户端的画面依然可以显示清晰的文字。

实施例三

本实施例与实施例二基本相同，区别在于步骤A6)之前还包括网络判断的步骤，具体包括：

通过上述步骤，本实施例在实施例二的基础上，针对更差的网络状况仅发送编码后的h264数据，保证客户端画面流畅，当网络状况缓解时恢复文字差分压缩数据包的传输。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种文字区域清晰的画面传输方法，其特征在于，包括服务端压缩编码屏幕图像数据的步骤，具体包括：

A2)将当前画面P_i转码为YUV格式的画面P_i1；

2.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，还包括客户端解压解码屏幕图像数据的步骤，具体包括：

3.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，步骤A1)之前还包括划分单元块的步骤，具体包括：按照预设的单元长度w和单元宽度h将屏幕划分为nw行且nh列大小相同的单元块，定义所有单元块的标记集合flag[nw][nh]，将标记集合flag[nw][nh]中的所有标记置0。

4.根据权利要求3所述的文字区域清晰的画面传输方法，其特征在于，步骤A1)具体包括：获取当前画面P_i相对上一画面P_i-1的变化区域对应的所有单元块作为第一单元块，获取当前画面P_i相对上一画面P_i-1的无变化区域对应的所有单元块作为第二单元块，将标记集合flag[nw][nh]中第一单元块对应的标记置1，将第二单元块分别匹配标记集合flag[nw][nh]，若第二单元块对应的标记为1，将第二单元块的位置信息加入当前文字识别区域集合A，同时将标记集合flag[nw][nh]中第二单元块对应的标记置0。

5.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，步骤A1)中根据预设时间抓取屏幕画面作为当前画面P_i具体包括：判断预设时间内屏幕画面是否发生变化，是则抓取当前屏幕画面作为当前画面P_i，否则将上一画面P_i-1作为当前画面P_i。

6.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，步骤A1)还包括当前文字识别区域集合A为空时的处理步骤：若当前文字识别区域集合A为空，将当前画面P_i转码为YUV格式的画面P_i1后进行h264编码得到编码后的h264数据，将编码后的h264数据压缩为画面压缩数据包后发送给客户端。

7.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，步骤A5)之前还包括网络判断的步骤，具体包括：

8.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，步骤A6)之前还包括网络判断的步骤，具体包括：

9.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，步骤A3)中的文字识别算法为最大稳定极值区域算法。

10.根据权利要求1所述的文字区域清晰的画面传输方法，其特征在于，步骤A6)中的压缩算法为行程长度压缩算法或zlib压缩算法。