CN104410929A

CN104410929A - 字幕图像的处理方法和装置

Info

Publication number: CN104410929A
Application number: CN201410798220.3A
Authority: CN
Inventors: 张义轮; 侯天峰; 朱春波
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2015-03-11

Abstract

本申请公开了字幕图像的处理方法和装置。所述方法的一具体实施方式包括：获取第一字幕图像的放大倍数；根据放大倍数，对第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量；根据放大倍数，对第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量；合成第一YUV分量与第一透明度分量，得到第二字幕图像；基于第二字幕图像，得到用于显示的图像。该实施方式使得用于显示的字幕边界平滑，减少了锯齿和模糊现象，提高了字幕的精细程度。

Description

字幕图像的处理方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及计算机图像处理领域，尤其涉及字幕图像的处理方法和装置。

背景技术

随着高清和超高清电视的普及，当在高清或超高清电视上播放视频时，一些以图片形式显示的视频字幕的分辨率比较低，为了给观众更好的视觉效果，就需要对字幕进行相应的放大。

现有技术主要有两类放大方法：一类方法是利用预存放大后的字体库对字幕进行放大，当接收到字幕信息后对字幕中的字进行识别并从字体库里找到相应的字体进行显示；另一类方法是把字幕当成图像进行放大，现有技术大多是采用双线性或双立方插值对字幕进行放大。

发明内容

上述技术中，利用预存放大后的字体库对字幕进行放大的技术，由于字体样式多样化，既包含中文又有外文，将所有不同种类语言以及语言的不同字体样式都进行预存储是不现实的，同时与字体库中的字体进行匹配时的准确度也是待考虑的一个问题。采用双线性或双立方插值对字幕进行放大的技术，是对字幕进行简单的插值，由于字幕本来分辨率较低，边界比较粗糙，如果进行简单的插值，视觉效果较差，存在锯齿和模糊现象，特别是在放大倍率较大，例如放大倍率>＝3时，锯齿和模糊现象更为严重。

本申请提供了字幕图像的处理方法和装置。

一方面，本申请提供了一种字幕图像的处理方法，所述方法包括：获取第一字幕图像的放大倍数；根据所述放大倍数，对所述第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量；根据所述放大倍数，对所述第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量；合成所述第一YUV分量与所述第一透明度分量，得到第二字幕图像；基于所述第二字幕图像，得到用于显示的图像。

在某些实施方式中，所述根据所述放大倍数，对所述第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量包括：对所述第一字幕图像的YUV分量进行边缘方向的插值上采样、修正和下采样，得到预处理后的YUV分量；对所述预处理后的YUV分量进行边缘方向的插值上采样，得到所述第一YUV分量。

在某些实施方式中，所述进行边缘方向的插值上采样包括：将待插值图像的每个像素点作为一次插值基准像素点，获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述一次插值像素点；将所述待插值图像的像素点和所述一次插值像素点作为二次插值基准像素点，获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述二次插值像素点。

在某些实施方式中，所述获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述一次插值像素点包括：若所述插值方向在所述一次插值像素点的45°或135°方向，对位于所述插值方向上且分别与所述一次插值像素点相邻的两个一次插值基准像素点进行插值，得到所述一次插值像素点；若所述插值方向在所述一次插值像素点的0°或90°方向，对与所述一次插值像素点相邻的四个一次插值基准像素点进行插值，得到所述一次插值像素点。

在某些实施方式中，所述获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到二次插值像素点包括：若所述插值方向在所述二次插值像素点的45°或135°方向，对与所述二次插值像素点相邻的四个二次插值基准像素点进行插值，得到所述二次插值像素点；若所述插值方向在所述二次插值像素点的0°或90°方向，对位于所述插值方向上且分别与所述二次插值像素点相邻的两个二次插值基准像素点进行插值，得到所述二次插值像素点。

在某些实施方式中，在所述对所述第一字幕图像的YUV分量进行边缘方向的插值上采样之后进行修正包括：在进行插值上采样之后的第一字幕图像中，获取原第一字幕图像的像素点在水平方向的梯度G1和在垂直方向的梯度G2；建立梯度-权值映射模型；基于所述G1、G2和所述梯度-权值映射模型，得到原第一字幕图像的像素点水平方向的权值W1和垂直方向的权值W2；基于所述W1、W2和以所述第一字幕图像为待插值图像的二次插值像素点，加权修正所述原第一字幕图像的像素点。

在某些实施方式中，所述基于所述第二字幕图像，得到用于显示的图像包括：对所述第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像，基于所述第三字幕图像，得到所述用于显示的图像。

在某些实施方式中，所述对所述第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像包括：获取初始估计图像的模拟低分辨率图像，所述初始估计图像为所述第二字幕图像；比较所述模拟低分辨率图像与所述第一字幕图像；根据比较结果获取模拟误差图像；根据所述模拟误差图像，对所述第二字幕图像进行迭代修正，得到第三字幕图像。

在某些实施方式中，所述基于所述第三字幕图像，得到所述用于显示的图像包括：对所述第三字幕图像进行双边滤波，得到第四字幕图像；将所述第四字幕图像作为所述用于显示的图像。

在某些实施方式中，所述对所述第三字幕图像进行双边滤波，得到第四字幕图像包括：通过空间域滤波器对所述第三字幕图像的水平方向滤波，得到一次滤波后的字幕图像，对所述一次滤波后的字幕图像的垂直方向滤波，得到空间滤波后的字幕图像；在空间滤波后的字幕图像中，对以待滤波像素点为中心且边长r的窗口内的每一个像素点与所述待滤波像素点，求取实际的差值的绝对值；预先建立像素域滤波器的权值与所有差值的绝对值的对应表；基于所述实际的差值的绝对值和所述对应表，对所述空间滤波后的字幕图像的每一个像素点，进行像素域滤波，得到第四字幕图像。

在某些实施方式中，所述第一字幕图像包括：原始字幕图像；和/或用户选择的原始字幕图像中的感兴趣区域。

在某些实施方式中，所述放大倍数包括：视频全屏播放的尺寸与视频原始尺寸的比值；和/或接收到的用户设定的放大倍数。

第二方面，本申请提供了一种字幕图像的处理装置，所述装置包括：获取单元，用于获取第一字幕图像的放大倍数；YUV分量上采样单元，用于根据所述放大倍数，对所述第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量；透明度分量上采样单元，用于根据所述放大倍数，对所述第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量；合成单元，用于合成所述第一YUV分量与所述第一透明度分量，得到第二字幕图像；生成单元，用于基于所述第二字幕图像，得到用于显示的图像。

在某些实施方式中，所述YUV分量上采样单元包括：预处理单元，用于对所述第一字幕图像的YUV分量进行边缘方向的插值上采样、修正和下采样，得到预处理后的YUV分量；预处理后的YUV分量上采样单元，用于对所述预处理后的YUV分量进行边缘方向的插值上采样，得到所述第一YUV分量。

在某些实施方式中，所述生成单元包括：修正子单元，用于对所述第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像；第一生成子单元，用于基于所述第三字幕图像，得到所述用于显示的图像。

在某些实施方式中，所述修正子单元包括：第一获取子单元，用于获取初始估计图像的模拟低分辨率图像，所述初始估计图像为所述第二字幕图像；比较子单元，用于比较所述模拟低分辨率图像与所述第一字幕图像；第二获取子单元，用于根据比较结果获取模拟误差图像；迭代修正子单元，用于根据所述模拟误差图像，对所述第二字幕图像进行迭代修正，得到第三字幕图像。

在某些实施方式中，所述第一生成子单元包括：双边滤波子单元，用于对所述第三字幕图像进行双边滤波，得到第四字幕图像，将所述第四字幕图像作为所述用于显示的图像。

本申请提供的字幕图像的处理方法和装置，通过获取第一字幕图像的放大倍数，随后根据放大倍数对第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量，而后根据放大倍数，对第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量，之后合成所述第一YUV分量与所述第一透明度分量，得到第二字幕图像，最后再基于所述第二字幕图像，得到用于显示的图像，使得用于显示的字幕边界平滑，减少了锯齿和模糊现象，提高了字幕的精细程度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请实施例的字幕图像的处理方法的一种示例性流程图；

图2(a)、图2(b)分别示出了包括原始字幕图像的视频帧的示意图和包括放大后的原始字幕图像的视频帧的示意图；

图3示出了放大后的原始字幕图像中的感兴趣区域的示意图；

图4示出了二次插值后的图像的示意图；

图5示出了根据二次插值像素点修正原第一字幕图像的像素点的示意图；

图6示出了包括透明度分量的原始字幕的示意图；

图7示出了示出了IBP算法的流程示意图；

图8(a)、图8(b)、图8(c)分别示出了含噪图像的边缘图像的示意图、双边滤波器的示意图、滤波后的输出图像的示意图；

图9(a)、图9(b)、图9(c)分别示出了含噪图像的边缘图像的示意图、x方向滤波器与y方向滤波器合成xy方向滤波器的示意图、原二维双边滤波器滤波后的示意图；

图10(a)、图10(b)、图10(c)分别示出了原始字幕图像、根据现有技术双立方插值放大后的字幕图像、根据本申请实施例的字幕图像的处理方法放大后的字幕图像；

图11示出了示出了根据本申请实施例的字幕图像的处理装置的一种示例性结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例和实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本申请实施例的字幕图像的处理方法100的一种示例性流程图。该方法可以由各种带有处理器的图像显示设备执行，这些设备可以包括但不限于电视、电脑、手机、手表、可穿戴设备和车载设备等。

如图1所示，在步骤101中，获取第一字幕图像的放大倍数。

第一字幕图像是用户选定的需要进行放大的字幕图像。用户在选定第一字幕图像时，可以选择的第一字幕图像可以包括但不限于：原始字幕图像和/或用户选择的原始字幕图像中的感兴趣区域。例如，用户可以选择放大原始字幕图像，由于通常会选用原始字幕图像作为第一字幕图像，因此可以将原始字幕图像作为默认的第一字幕图像，将用户选择的原始字幕图像中的感兴趣区域作为备选地或附加地第一字幕图像。用户选定的方式，可以为直接操作进行选定，也可以由图像显示设备提供选项供用户选择。其中，感兴趣区域作为用户选择的重点关注字幕部分，圈定该区域以便进行进一步进行相应处理，例如用户关心的人名、地名或动作等。选定感兴趣区域的操作可以包括但不限于：用户选取相应的设置选项以放大局部区域的图像，或者，若终端包括触摸屏，则用户可以通过将手指在触摸屏上点击来选择字幕图像的感兴趣区域，从而选定感兴趣区域。

可以经由不同的方法来获取放大倍数。在一些实施例中，放大倍数可以为视频全屏播放的尺寸与视频原始尺寸的比值。此种放大模式根据播放视频与原始视频尺寸的比例使字幕自适应放大，也可以称为自适应放大模式，是一种方便的视频字幕浏览模式，在该模式下对字幕放大后无需考虑其是否超越视频边界范围。

图2(a)和图2(b)分别示出了包括原始字幕图像的视频帧的示意图和包括放大后的原始字幕图像的视频帧的示意图。如图2(a)和图2(b)所示，在一个具体的应用场景中，用户可以根据视频在电视上播放的尺寸将原始字幕图像进行自适应放大，图2(a)为原始视频的尺寸，设定为Size1，图2(b)为进行全屏播放时的视频尺寸，设定为Size2，放大倍数ratio＝Size2/Size1，为原始字幕图像需要进行放大的倍数，在这一放大模式下字幕始终与视频尺寸保持一定的比例。

备选地或附加地，在另一些实施例中，放大倍数可以为接收到的用户设定的放大倍数。

在获取第一字幕图像的放大倍数时，用户可以设定将预定操作与预定动作相关联的规则，当图像显示设备接收到用户输入的预定操作时，触发与预定操作相关联的预定动作。例如，设定规则一为图像显示设备接收第一操作，选定第一字幕图像为原始字幕图像；之后图像显示设备接收第二操作，将第一字幕图像自适应放大；最后图像显示设备显示放大后的字幕图像。又例如，设定规则二为图像显示设备首先接收第三操作，选定第一字幕图像为原始字幕图像的感兴趣区域的；随后接收第四操作，设定感兴趣区域的放大倍数；最后显示放大后的感兴趣区域。在规则一和规则二设定好之后，当图像显示设备接收到用户输入的第一操作和第二操作时，就会根据规则一将原始字幕图像自适应放大并显示；当图像显示设备接收到用户输入的第三操作和第四操作时，就会根据规则二将感兴趣区域按放大倍数放大并显示。

在获取第一字幕图像的放大倍数时，第一字幕图像和放大倍数，可以分别由用户设定，也可以是图像显示设备分别提供选项供用户选择，还可以是由用户或图像显示设备预先设定的默认操作。例如，当上述第二或第四操作被预设为默认的放大倍数时，只需进行第一操作或第二操作，便可以得到放大后最终用于显示的图像。

在获取第一字幕图像的放大倍数时，还可以按照用户习惯将第一字幕图像与放大倍数进行组合并设定快捷键，从而提高用户设定第一字幕图像的放大倍数的速度。

图3示出了放大后的原始字幕图像中的感兴趣区域的示意图。

如图3所示，在一个具体的应用场景中，自适应放大模式并不能完全呈现清晰的字幕，且字幕中出现了用户关心的某个词语，例如是比较重要的人名、地名等等，用户并不能通过听觉分辨，此时视频字幕起始位置会出现透明的椭圆型放大镜301，通过遥控器左右上下键来移动放大镜301，同时在视频中重新开辟一块可自定义的透明显示区域302，对放大镜301下的信息根据预设的放大倍数进行实时放大并显示在透明显示区域302内。可以称此种模式为放大镜模式。

返回图1，在步骤102中，根据放大倍数，对第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量。

进一步地，根据放大倍数，对第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量可以包括但不限于：对第一字幕图像的YUV分量进行边缘方向的插值上采样、修正和下采样，得到预处理后的YUV分量；对预处理后的YUV分量进行边缘方向的插值上采样，得到第一YUV分量。

在对字幕的原图像进行预处理时，通过边缘方向的插值放大方法对其进行初始放大，之后对低分辨率像素进行了修正，然后对插值后的图像进行下采样，获得与输入图像同大小的低分辨率图像，并用其作为源图像，进行第二次插值上采样，得到第一YUV分量。

在对第一字幕图像的YUV分量进行边缘方向的插值上采样、修正和下采样之前，节目源的图片格式字幕往往会边缘比较粗糙，此时对节目源进行插值上采样、修正和下采样，得到预处理后的YUV分量，可以消除字幕边缘周围的一些粗糙信息。

进一步地，进行边缘方向的插值上采样可以包括但不限于：将待插值图像的每个像素点作为一次插值基准像素点，获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到一次插值像素点；将待插值图像的像素点和一次插值像素点作为二次插值基准像素点，获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到二次插值像素点。

在本实施例中，在对第一字幕图像的YUV分量进行边缘方向的插值上采样时，所采用的待插值图像为第一字幕图像的YUV分量；在对预处理后的YUV分量进行边缘方向的插值上采样时，所采用的待插值图像为预处理后的YUV分量。

进一步地，获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到一次插值像素点可以包括但不限于：若插值方向在一次插值像素点的45°或135°方向，对位于插值方向上且分别与一次插值像素点相邻的两个一次插值基准像素点进行插值，得到一次插值像素点；若插值方向在一次插值像素点的0°或90°方向，对与一次插值像素点相邻的四个一次插值基准像素点进行插值，得到一次插值像素点。

进一步地，获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到二次插值像素点可以包括但不限于：若插值方向在二次插值像素点的45°或135°方向，对与二次插值像素点相邻的四个二次插值基准像素点进行插值，得到二次插值像素点；若插值方向在二次插值像素点的0°或90°方向，对位于插值方向上且分别与二次插值像素点相邻的两个二次插值基准像素点进行插值，得到二次插值像素点。

图4示出了二次插值后的图像的示意图。

如图4所示，对待插值图像像素点(LR pixel)进行边缘方向的插值上采样，得到一次插值像素点(modifying pixel in step1)，对待插值图像的像素点(LR pixel)和一次插值像素点(modifying pixel in step1)进行边缘方向的插值上采样，得到二次插值像素点(modifying pixel instep2)包括：

步骤1)对图像做插值放大，对于任意一个原第一字幕图像的像素点(LR pixel)要对应的插值出3个高分辨率像素点(HR pixel)，首先插值的是如图4所示中的灰色高分辨像素点(也即modifying pixelin step1)，对该高分辨率像素点求其0°45°90°135°四个角度方向的梯度，插值方向取其最大梯度的垂直方向。最大梯度的垂直方向如果是处于45°或者135°方向则直接利用该方向上的两个原第一字幕图像的像素点(LR pixel)进行插值，若处于0°或者90°则利用周围的四个原第一字幕图像的像素点(也即LR pixel)求平均值。

步骤2)在步骤1)中求出的高分辨率像素点(也即modifying pixelin step1)作为步骤2)中的已知像素点，同样求解二次插值像素点(modifying pixel in step2)0°45°90°135°四个角度方向的梯度，直插方向取其最大梯度的垂直方向，如果垂直方向是处于0°和90°方向则直接利用该方向上的step1中求解的两个高分辨率像素点(也即modifying pixel in step1)或原第一字幕图像的两个像素点(LR pixel)进行插值。若处于45°或者135°则利用周围的已知的两个原第一字幕图像的像素点(LR pixel)和两个原第一字幕图像的像素点(LRpixel)进行求平均。

进一步地，在对第一字幕图像的YUV分量进行边缘方向的插值上采样之后进行修正可以包括但不限于：在进行插值上采样之后的第一字幕图像中，获取原第一字幕图像的像素点在水平方向的梯度G1和在垂直方向的梯度G2；建立梯度-权值映射模型；基于G1、G2和梯度-权值映射模型，得到原第一字幕图像的像素点水平方向的权值W1和垂直方向的权值W2；基于W1、W2和以所述第一字幕图像为待插值图像的二次插值像素点，加权修正原第一字幕图像的像素点。

在进行插值上采样之后的第一字幕图像中，根据原第一字幕图像的像素点水平方向的权值W1、垂直方向的权值W2和二次插值像素点，加权修正原第一字幕图像的像素点：通过之前与图4对应的步骤1)和步骤2)后所有的已知像素点都已经求出，那么就可以通过高分辨率像素点反馈修正低分辨率像素点，使插值后的字幕图像更加自然，在这一步中可以将图4中的LR pixel作为目标像素点，利用步骤1)和步骤2)中求出的像素点对低分辨率像素点求其水平和垂直方向上的梯度G1和G2。建立基于指数分布的梯度——权值映射模型T，该模型与梯度的指数成反比，利用梯度G1，G2和权值模型T分别计算出低分辨率像素点水平方向和垂直方向的加权权值W1和W2，最后对低分辨率像素点进行加权修正。

图5示出了根据二次插值像素点修正原第一字幕图像的像素点的示意图。

如图5所示，修正目标像素点为图4中的LR pixel，参考像素点是上述步骤2)求解的像素点。对于水平和垂直方向利用权值系数[-1/16,9/16,9/16,-1/16]分别对四个像素点加权求和得到对应的像素值P1和P2，最后W1×P1+W2×P2作为最终的修正值。

返回图1，在步骤103中，根据放大倍数，对第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量。

本实施例并未对第一字幕图像的透明度分量进行插值上采样的方法进行限定，现有技术中的插值方法，例如双立方插值方法、双线性插值方法等，均可用于对第一字幕图像的透明度分量进行插值上采样，为本领域技术人员熟知的技术，在此不再赘述。

透明度信息决定了字幕的显示区域，当节目源字幕较小的时候往往会存在许多小锯齿，通过水平线扫描去除部分锯齿，透明度信息是二值化数值，对其进行插值放大并设定阈值进行截断。

图6示出了包括透明度分量的原始字幕的示意图。

如图6所示，图像中黑色区域是字幕的透明区域，由字幕的透明度分量来决定字幕显示的部分和不显示的部分，透明度分量是二值化图像，它决定了字体最终显示的形状，对于二值化图像采用双立方插值放大并用设定的阈值截断为二值化图像。

返回图1，在步骤104中，合成第一YUV分量与第一透明度分量，得到第二字幕图像。

合成第一YUV分量与第一透明度分量的技术为本领域技术人员所熟知的技术，在此不再赘述。

在步骤105中，基于第二字幕图像，得到用于显示的图像。

在显示最终显示的图像时，对于放大后的图像，可以由用户直接设定显示位置和显示方式；也可以由图像显示设备预定义显示位置和显示方式供用户选择；还可以由图像显示设备设定默认的显示位置和显示方式。例如，原始字幕图像自适应放大后，图像显示设备设定的默认显示位置为原视频的字幕图像的显示位置，因此在原视频的字幕图像的位置显示放大后的字幕图像。

最终显示的图像，其显示位置可以为屏幕中的任一区域，例如将显示在屏幕的上方、下方、侧方、边角或者新开辟的透明显示框等地方。

最终显示的图像，其显示方式也可以为多种形式，矩形、云朵形、透明的椭圆形等等，在此不一一限定。

进一步地，基于第二字幕图像，得到用于显示的图像可以包括但不限于：对第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像，基于第三字幕图像，得到用于显示的图像。

对第二字幕图像进行IBP约束，可以重建出清晰字幕。

进一步地，对第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像可以包括但不限于：获取初始估计图像的模拟低分辨率图像，初始估计图像为第二字幕图像；比较模拟低分辨率图像与第一字幕图像；根据比较结果获取模拟误差图像；根据模拟误差图像，对第二字幕图像进行迭代修正，得到第三字幕图像。

IBP是经典的空域超分辨率重建算法，它的重建过程是对初始估计值不断迭代的过程，其核心步骤就是误差的反投影。在该方法中，通过对模拟LR图像和观测LR图像的误差进行迭代反投影得到HR图像。

初始估计对IBP重建的质量影响很大，因此我们用二次插值上采样的结果作为IBP迭代的初始估计。

图7示出了IBP算法的流程示意图。

如图7所示，令输入的观测图像为L，分辨率为[M×N]，待估计的高分辨率图像为H，在x(水平)及y(竖直)方向分辨率均扩大k倍，即[k×M×k×N]。用IBP方法估计估计HR图像的公式可表示为：

{\hat{H}}^{n + 1} (s, t) = {\hat{H}}^{n} (s, t) + \underset{x, y &Element; Ω}{Σ} (L (x, y) - {\hat{L}}^{n} (x, y)) \times p^{BP} (s, t; x, y)

式中(s,t)为高分辨率图像H中的像素点坐标，(x,y)为低分辨率图像中的像素点的坐标，是第n次迭代所得的模拟LR图像，它依据当前估计的HR图像经过降质生成。Ω表示为(x,y)位置集合。p^BP为反投影核，它决定误差的影响方式，对于每次迭代通常选取为固定常量。

进一步地，基于第三字幕图像，得到用于显示的图像可以包括但不限于：对第三字幕图像进行双边滤波，得到第四字幕图像；将第四字幕图像作为用于显示的图像。

对第三字幕图像进行双边滤波，可以消除字幕的噪声。

进一步地，对第三字幕图像进行双边滤波，得到第四字幕图像可以包括但不限于：通过空间域滤波器对第三字幕图像的水平方向滤波，得到一次滤波后的字幕图像，对一次滤波后的字幕图像的垂直方向滤波，得到空间滤波后的字幕图像；在空间滤波后的字幕图像中，对以待滤波像素点为中心且边长r的窗口内的每一个像素点与待滤波像素点，求取实际的差值的绝对值；预先建立像素域滤波器的权值与所有差值的绝对值的对应表；基于实际的差值的绝对值和对应表，对空间滤波后的字幕图像的每一个像素点，进行像素域滤波，得到第四字幕图像。

实践中常用双边滤波对图像进行去噪处理。双边滤波器的输出像素值可由其周围像素加权平均得到，相对于中值滤波和高斯低通滤波来说，双边滤波具有保边缘性。这是因为双边滤波由两个滤波器组成而成。一个为空间域滤波器用来对空间距离进行加权，滤波器权值随着空间距离的增大而减小；另一个是像素域滤波器，两像素灰度值的相似性越小权值越小。双边滤波器的优点在于能去噪的同时保证边缘不模糊。

图8(a)、图8(b)及图8(c)分别示出了含噪图像的边缘图像、双边滤波器以及滤波后的输出图像的示意图。

如图8(a)、图8(b)及图8(c)所示，双边滤波器的优点在于能去噪的同时保证边缘不模糊。

空间滤波器和高斯滤波器的形式相同，在实践中多对高斯滤波器进行分离处理，因此利用高斯滤波的可分离性可对空间滤波器进行x方向和y方向的分解。先对图像进行x方向滤波，并把滤波后图像作为中间结果，然后对中间结果进行y方向滤波。计算的复杂度由原来的进行Ο(r^d·N)次乘法、Ο(r^d·N)次加法，变为需Ο(d·r·N)次乘法、Ο(d·r·N)。这里N为图像的像素数，r为空间作用范围，d为图像的维数。分离的空间滤波器能够大大的提升运算速度。然而像素域滤波器并不具有空间可分离性，故对图像分别进行x、y方向双边滤波和原双边滤波结果并不完全相等。

图9(a)、图9(b)和图9(c)分别示出了含噪图像边缘图像、x方向滤波器与y方向滤波器合成xy方向滤波器和原二维双边滤波器滤波后的示意图。

如图9(a)、图9(b)和图9(c)所示，可分离的双边滤波结果是原双边滤波结果的一个很好的近似。即使对45°倾斜的边缘也能得出较好的结果。

为了进一步减少运行速度，在实际运算中通过查表来减少计算量。根据是控制高斯核的固定参数δ_s和δ_r和窗口的长度r计算一维空间滤波核w_s，像素域滤波核w_r值由|f(i,j)-f(x,y)|(式中f(x,y)是位于坐标(x,y)处的像素值，以(x,y)为中心的窗口记为S_x,y，窗口内像素点记为)f(i,j)来决定，显然|f(i,j)-f(x,y)|的取值范围是[0～255]，所以w的任何取值都可以提前求出。实际应用中我们为w_s中每个值设立一个数组const double bil[256]。此数组的值在编译阶段就已经求出，可根据|f(i,j)-f(x,y)|值查表获得对应的w值。

图10(a)、图10(b)、图10(c)分别示出了原始字幕图像、根据现有技术双立方插值放大后的字幕图像、根据本申请实施例的字幕图像的处理方法放大后的字幕图像。

如图10(a)、图10(b)、图10(c)所示，图10(c)与图10(a)相比，分辨率高，细节表现能力强，与图10(b)相比，显示的字幕边界平滑，减少了锯齿和模糊现象，提高了字幕的精细程度。

本申请提供的字幕图像的处理方法，通过获取第一字幕图像的放大倍数，随后根据放大倍数对第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量，而后根据放大倍数，对第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量，之后合成所述第一YUV分量与所述第一透明度分量，得到第二字幕图像，最后再基于所述第二字幕图像，得到用于显示的图像，使得用于显示的字幕边界平滑，减少了锯齿和模糊现象，提高了字幕的精细程度。不仅可以为用户提供不同的字幕放大模式，满足不同的字幕阅读需求，同时还可以获得高质量视觉效果的字幕信息。在对字幕的超分辨率重建中，像素域滤波器通过查表来实现，大幅度减少了算法的复杂度，只需要较少的运行时间，在视频播放时可以与视频完全同步，可在实际嵌入式多媒体播放***中使用，如在高清或者超高清电视中使用。

图11示出了根据本申请实施例的字幕图像的处理装置1100的一种示例性结构框图。

如图11所示，字幕图像的处理装置1100可以包括但不限于：获取单元1101、YUV分量上采样单元1102、透明度分量上采样单元1103、合成单元1104和生成单元1105。本领域技术人员应当可以理解，获取单元1101、YUV分量上采样单元1102、透明度分量上采样单元1103、合成单元1104和生成单元1105可以位于同一处理器中，也可以位于组网的不同的处理器中。

获取单元1101可以用于获取第一字幕图像的放大倍数。YUV分量上采样单元1102可以用于根据放大倍数，对第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量。透明度分量上采样单元1103可以用于根据放大倍数，对第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量。合成单元1104可以用于合成第一YUV分量与第一透明度分量，得到第二字幕图像。生成单元1105可以用于基于第二字幕图像，得到用于显示的图像。

进一步地，获取单元1101用于获取第一字幕图像的放大倍数时，所获取的第一字幕图像可以包括但不限于：原始字幕图像和/或用户选择的原始字幕图像中的感兴趣区域；所获取的放大倍数可以包括但不限于：视频全屏播放的尺寸与视频原始尺寸的比值和/或接收到的用户设定的放大倍数。

进一步地，YUV分量上采样单元1102可以包括但不限于预处理单元1106和预处理后的YUV分量上采样单元1107。预处理单元1106可以用于对第一字幕图像的YUV分量进行边缘方向的插值上采样、修正和下采样，得到预处理后的YUV分量。预处理后的YUV分量上采样单元1107可以用于对预处理后的YUV分量进行边缘方向的插值上采样，得到第一YUV分量。

进一步地，当预处理单元1106用于对第一字幕图像的YUV分量进行边缘方向的插值上采样或者预处理后的YUV分量上采样单元1107用于对预处理后的YUV分量进行边缘方向的插值上采样时，其中，进行边缘方向的插值上采样可以包括但不限于：将待插值图像的每个像素点作为一次插值基准像素点，获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到一次插值像素点；将待插值图像的像素点和一次插值像素点作为二次插值基准像素点，获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到二次插值像素点。

进一步地，在预处理单元1106用于对第一字幕图像的YUV分量进行边缘方向的插值上采样之后，预处理单元1106用于对插值上采样之后的第一字幕图像进行修正可以包括但不限于：首先在进行插值上采样之后的第一字幕图像中，获取原第一字幕图像的像素点在水平方向的梯度G1和在垂直方向的梯度G2；然后建立梯度-权值映射模型；之后基于G1、G2和梯度-权值映射模型，得到原第一字幕图像的像素点水平方向的权值W1和垂直方向的权值W2；最后基于W1、W2和以所述第一字幕图像为待插值图像的二次插值像素点，加权修正原第一字幕图像的像素点。

进一步地，生成单元1105可以包括但不限于：修正子单元1108，用于对第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像；第一生成子单元1109，用于基于第三字幕图像，得到用于显示的图像。

进一步地，修正子单元1108可以包括但不限于：第一获取子单元1110，用于获取初始估计图像的模拟低分辨率图像，初始估计图像为第二字幕图像；比较子单元1111，用于比较模拟低分辨率图像与第一字幕图像；第二获取子单元，用于根据比较结果获取模拟误差图像；迭代修正子单元1112，用于根据模拟误差图像，对第二字幕图像进行迭代修正，得到第三字幕图像。

进一步地，第一生成子单元1109可以包括但不限于：双边滤波子单元1113，用于对第三字幕图像进行双边滤波，得到第四字幕图像，将第四字幕图像作为用于显示的图像。

本申请提供的字幕图像的处理方法和装置，通过获取单元获取第一字幕图像的放大倍数，随后通过YUV分量上采样单元根据放大倍数对第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量，而后通过透明度分量上采样单元根据放大倍数，对第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量，之后通过合成单元合成第一YUV分量与第一透明度分量，得到第二字幕图像，最后通过生成单元再基于第二字幕图像，得到用于显示的图像，使得用于显示的字幕边界平滑，减少了锯齿和模糊现象，提高了字幕的精细程度。

描述于本申请实施例中所涉和到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器可以包括但不限于获取单元，YUV分量上采样单元，透明度分量上采样单元、合成单元和生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“用于获取第一字幕图像的放大倍数的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，程序被一个或者一个以上的处理器用来执行描述于本申请的在全屏应用下使用小组件的方法。

以上描述仅为本申请的较佳实施例以和对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉和的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种字幕图像的处理方法，其特征在于，所述方法包括：

获取第一字幕图像的放大倍数；

根据所述放大倍数，对所述第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量；

根据所述放大倍数，对所述第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量；

合成所述第一YUV分量与所述第一透明度分量，得到第二字幕图像；

基于所述第二字幕图像，得到用于显示的图像。

2.根据权利要求1所述的方法，其特征在于，所述根据所述放大倍数，对所述第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量包括：

对所述第一字幕图像的YUV分量进行边缘方向的插值上采样、修正和下采样，得到预处理后的YUV分量；

对所述预处理后的YUV分量进行边缘方向的插值上采样，得到所述第一YUV分量。

3.根据权利要求2所述的方法，其特征在于，所述进行边缘方向的插值上采样包括：

将待插值图像的每个像素点作为一次插值基准像素点，获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述一次插值像素点；

将所述待插值图像的像素点和所述一次插值像素点作为二次插值基准像素点，获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述二次插值像素点。

4.根据权利要求3所述的方法，其特征在于，所述获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述一次插值像素点包括：

若所述插值方向在所述一次插值像素点的45°或135°方向，对位于所述插值方向上且分别与所述一次插值像素点相邻的两个一次插值基准像素点进行插值，得到所述一次插值像素点；

若所述插值方向在所述一次插值像素点的0°或90°方向，对与所述一次插值像素点相邻的四个一次插值基准像素点进行插值，得到所述一次插值像素点。

5.根据权利要求3或4所述的方法，其特征在于，所述获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述二次插值像素点包括：

若所述插值方向在所述二次插值像素点的45°或135°方向，对与所述二次插值像素点相邻的四个二次插值基准像素点进行插值，得到所述二次插值像素点；

若所述插值方向在所述二次插值像素点的0°或90°方向，对位于所述插值方向上且分别与所述二次插值像素点相邻的两个二次插值基准像素点进行插值，得到所述二次插值像素点。

6.根据权利要求3至5之一所述的方法，其特征在于，在所述对所述第一字幕图像的YUV分量进行边缘方向的插值上采样之后进行修正包括：

在进行插值上采样之后的第一字幕图像中，获取原第一字幕图像的像素点在水平方向的梯度G1和在垂直方向的梯度G2；

建立梯度-权值映射模型；

基于所述G1、G2和所述梯度-权值映射模型，得到原第一字幕图像的像素点水平方向的权值W1和垂直方向的权值W2；

基于所述W1、W2和以所述第一字幕图像为待插值图像的二次插值像素点，加权修正所述原第一字幕图像的像素点。

7.根据权利要求1至6之一所述的方法，其特征在于，所述基于所述第二字幕图像，得到用于显示的图像包括：

对所述第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像，基于所述第三字幕图像，得到所述用于显示的图像。

8.根据权利要求7所述的方法，其特征在于，所述对所述第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像包括：

获取初始估计图像的模拟低分辨率图像，所述初始估计图像为所述第二字幕图像；

比较所述模拟低分辨率图像与所述第一字幕图像；

根据比较结果获取模拟误差图像；

根据所述模拟误差图像，对所述第二字幕图像进行迭代修正，得到第三字幕图像。

9.根据权利要求7所述的方法，其特征在于，所述基于所述第三字幕图像，得到所述用于显示的图像包括：

对所述第三字幕图像进行双边滤波，得到第四字幕图像；

将所述第四字幕图像作为所述用于显示的图像。

10.根据权利要求9所述的方法，其特征在于，所述对所述第三字幕图像进行双边滤波，得到第四字幕图像包括：

通过空间域滤波器对所述第三字幕图像的水平方向滤波，得到一次滤波后的字幕图像，对所述一次滤波后的字幕图像的垂直方向滤波，得到空间滤波后的字幕图像；

在空间滤波后的字幕图像中，对以待滤波像素点为中心且边长r的窗口内的每一个像素点与所述待滤波像素点，求取实际的差值的绝对值；

预先建立像素域滤波器的权值与所有差值的绝对值的对应表；

基于所述实际的差值的绝对值和所述对应表，对所述空间滤波后的字幕图像的每一个像素点，进行像素域滤波，得到第四字幕图像。

11.根据权利要求1所述的方法，其特征在于，所述第一字幕图像包括：

原始字幕图像；和/或

用户选择的原始字幕图像中的感兴趣区域。

12.根据权利要求11所述的方法，其特征在于，所述放大倍数包括：

视频全屏播放的尺寸与视频原始尺寸的比值；和/或

接收到的用户设定的放大倍数。

13.一种字幕图像的处理装置，其特征在于，所述装置包括：

获取单元，用于获取第一字幕图像的放大倍数；

YUV分量上采样单元，用于根据所述放大倍数，对所述第一字幕图像的YUV分量进行边缘方向的插值上采样，得到第一YUV分量；

透明度分量上采样单元，用于根据所述放大倍数，对所述第一字幕图像的透明度分量进行插值上采样，得到第一透明度分量；

合成单元，用于合成所述第一YUV分量与所述第一透明度分量，得到第二字幕图像；

生成单元，用于基于所述第二字幕图像，得到用于显示的图像。

14.根据权利要求13所述的装置，其特征在于，所述YUV分量上采样单元包括：

预处理单元，用于对所述第一字幕图像的YUV分量进行边缘方向的插值上采样、修正和下采样，得到预处理后的YUV分量；

预处理后的YUV分量上采样单元，用于对所述预处理后的YUV分量进行边缘方向的插值上采样，得到所述第一YUV分量。

15.根据权利要求14所述的装置，其特征在于，所述进行边缘方向的插值上采样包括：

16.根据权利要求15所述的装置，其特征在于，所述获取位于一次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到所述一次插值像素点包括：

17.根据权利要求15或16所述的装置，其特征在于，所述获取位于二次插值像素点0°、45°、90°和135°方向的梯度差，将最大梯度差的垂直方向作为插值方向进行插值，得到二次插值像素点包括：

18.根据权利要求15至17之一所述的装置，其特征在于，在所述对所述第一字幕图像的YUV分量进行边缘方向的插值上采样之后进行修正包括：

建立梯度-权值映射模型；

19.根据权利要求13至18之一所述的装置，其特征在于，所述生成单元包括：

修正子单元，用于对所述第二字幕图像进行反向投影(IBP)修正，得到第三字幕图像；

第一生成子单元，用于基于所述第三字幕图像，得到所述用于显示的图像。

20.根据权利要求19所述的装置，其特征在于，所述修正子单元包括：

第一获取子单元，用于获取初始估计图像的模拟低分辨率图像，所述初始估计图像为所述第二字幕图像；

比较子单元，用于比较所述模拟低分辨率图像与所述第一字幕图像；

第二获取子单元，用于根据比较结果获取模拟误差图像；

迭代修正子单元，用于根据所述模拟误差图像，对所述第二字幕图像进行迭代修正，得到第三字幕图像。

21.根据权利要求19所述的装置，其特征在于，所述第一生成子单元包括：

双边滤波子单元，用于对所述第三字幕图像进行双边滤波，得到第四字幕图像，将所述第四字幕图像作为所述用于显示的图像。

22.根据权利要求21所述的装置，其特征在于，所述对所述第三字幕图像进行双边滤波，得到第四字幕图像包括：

23.根据权利要求13所述的装置，其特征在于，所述第一字幕图像包括：

原始字幕图像；和/或

用户选择的原始字幕图像中的感兴趣区域。

24.根据权利要求23所述的装置，其特征在于，所述放大倍数包括：

视频全屏播放的尺寸与视频原始尺寸的比值；和/或

接收到的用户设定的放大倍数。