CN104081765A

CN104081765A - 图像处理设备及其图像处理方法

Info

Publication number: CN104081765A
Application number: CN201280045081.6A
Authority: CN
Inventors: 亚历山大·利莫诺夫; 李珍晟; 闵锺述
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-09-14
Filing date: 2012-09-14
Publication date: 2014-10-01
Anticipated expiration: 2032-09-14
Also published as: JP6131256B2; BR112014006130A2; KR20130029333A; US20140055450A1; WO2013039347A1; KR101975247B1; BR112014006130B1; JP2014534657A; EP2728887A4; EP2728887A1; WO2013039347A9; CN104081765B; EP2728887B1; US8817020B2; IN2014CN02808A

Abstract

本发明公开了一种图像处理设备。所述图像处理设备包括：深度估计单元，估计输入的3D图像的深度；文本区域检测单元，检测包括在3D图像中的文本区域；掩蔽产生单元，产生与检测到的文本区域相应的文本掩蔽；深度校正单元，基于估计的深度和产生的文本掩蔽对文本区域的深度进行校正。

Description

图像处理设备及其图像处理方法

技术领域

与本发明一致的设备和方法涉及一种图像处理设备及其图像处理方法，更具体地，涉及一种提供3维图像的图像处理设备及其图像处理方法。

背景技术

最近，已加速了3维（3D）显示设备的发展努力，以更具真实感地观看。因此，可使用一般显示设备（例如电视机）在家中观看主要在剧院观看的3D图像。

同时，在3D图像中，重叠文本（诸如，电影片名和游戏得分）为用户提供兴趣。然而，难以使用现有的立体匹配算法来计算用于重叠文本的精确的视差。

因此，空间视差差异导致文本失真和闪烁。这些问题在文本区域被放大。因此，需要一种用于解决文本区域中的视差差异的方法。

发明内容

技术目的

提供本发明以满足上述需要。本发明的目的提供一种能够校正包括在3D图像中的文本区域的深度的图像处理设备及其图像处理方法。

解决方案

为了实现技术目的，根据本发明的一方面，图像处理设备包括：深度估计单元，估计输入的3D图像的深度；文本区域检测单元，检测包括在3D图像中的文本区域；掩蔽产生单元，产生与检测到的文本区域相应的文本掩蔽；深度校正单元，基于估计的深度和产生的文本掩蔽对文本区域的深度进行校正。

深度校正单元可基于估计的深度将文本区域的深度校正为第一深度值。

可使用下面的等式计算第一深度值：

∑∑|L(x,y)-R(x-d,y)||_x,y∈T，

其中，L（x,y）表示左图像，R（x,y）表示右图像，T表示文本区域，d表示深度值。

深度校正单元可对已校正了深度的文本区域执行深度时间平滑。

文本区域检测单元可检测文本线和文本颜色，并基于检测到的文本线和文本颜色来检测文本区域。

掩蔽产生单元可通过使用检测到的文本线来扩大掩蔽并使用检测到的文本颜色对扩大的掩蔽进行过滤，来产生文本掩蔽。

深度估计单元可基于估计的深度产生深度图，深度校正单元对深度图中的与文本区域相应的深度值进行校正。

根据本发明的另一方面，一种图像处理方法，包括：估计输入的3D图像的深度；检测包括在3D图像中的文本区域；产生与检测到的文本区域相应的文本掩蔽；基于估计的深度和产生的文本掩蔽来对文本区域的深度进行校正。

在校正深度的步骤中，文本区域的深度可基于估计的深度被校正为第一深度值。

可使用下面的等式计算第一深度值：

∑∑|L(x,y)-R(x-d,y)||_x,y∈T，

所述方法还可包括：对已校正了深度的文本区域执行深度时间平滑。

在检测文本区域的步骤中，可检测文本线和文本颜色，并且可基于检测到的文本线和文本颜色检测文本区域。

在产生文本掩蔽的步骤中，可通过使用检测到的文本线来扩大掩蔽并使用检测到的文本颜色对扩大的掩蔽进行过滤，来产生文本掩蔽。

在估计深度的步骤中，可基于估计的深度产生深度图，在校正深度的步骤中，可对深度图中的与文本区域相应的深度值进行校正。

发明效果

因此，可增强观看3D图像的观看者的便利性。

附图说明

图1和图9示出将应用本发明的文本区域中的误差；

图2示出用于帮助理解本发明的通过双眼观看的对象的视差；

图3是根据本发明的示例性实施例的图像处理设备的配置的框图；

图4是根据本发明的示例性实施例的深度校正单元的配置的详细框图；

图5和图6示出根据本发明的示例性实施例的用于产生文本掩蔽（mask）的方法；

图7是示出根据本发明的示例性实施例的算法的框图；

图8是示出根据本发明的示例性实施例的图像处理方法的流程图。

执行本发明的最佳模式

具体实施方式

现在将参照附图更详细地描述本发明的特定示例性实施例。

在下面的描述中，即使在不同的附图中，相同的附图标号也用于相同的元件。提供在描述中定义的内容（诸如详细的构造和元件）以帮助对本发明的全面的理解。因此，明显的是，在没有那些具体地定义的内容的情况下，本发明的示例性实施例能被执行。并且，因为公知的功能或构造会用不必要的细节模糊本发明，所以不对其进行详细描述。

图1和图9示出将应用本发明的文本区域中的误差。

近来，许多电子设备已支持立体视频再现功能。这种电子装置的尺寸的范围是从小型移动电话到大型电视面板。不同于2维（2D）图像，由于不适当的视差可引发眼睛的紧张和疲劳，因此三维（3D）立体内容可能不会容易地被缩放得适合于屏幕的尺寸。因此，所有的3D立体内容需要采用现有的显示尺寸和观看距离，以防止观看者的不便。

一般地，可通过立体扭曲调整视差。在这种情况下，通过检测左图像和右图像之间的相应部分来估计深度图。同样的方法应用于自动立体显示的视图的插值。可从现有的最左边和最右边视图以及相应的深度图对所有中间视图进行同步。

同时，具有周期模式和薄前视图对象的图像可成为关于立体匹配算法的共同误差来源。视差估计误差可在立体扭曲之后造成严重的视觉缺陷。

对象失真和闪烁在显著区域（诸如，具体地，人脸、文本和标识）中突出。

具体地，由于重叠文本被放置在与具有与背景图像不同的深度的周期模式和字母的笔画（stroke）邻近，因此重叠文本是用于立体匹配的立体图像中的最难的部分中的一个。

一般地，文本区域的不精确和/或不一致的深度估计造成失真和闪烁。这些缺陷会使观看者头晕和分心，并在某些情况下使文本不可读。

图1示出3D图像的文本区域中发生的闪烁。

因此，本发明提供用于减少3D图像的文本区域中发生的闪烁和失真的方法。

图2示出用于帮助本发明的理解的通过双眼观看的对象的视差。

在图2中，“V”表示3D显示器和观看者之间的距离，“D”表示对象从屏幕虚拟地伸出或退后的距离，“E”表示观看者的双眼之间的距离。可由下面的等式表示通过双眼观看的对象的视差。

等式1

根据等式1，在虚拟3D图像中，为了观看按照距离D后退的对象通过双眼观看的视点需要按照视差移动。基于这种特征，3D显示器产生按照视差彼此分离的虚拟右图像和虚拟左图像，使得观看者可感受立体效果。

图3是根据本发明的示例性实施例的图像处理设备的配置的框图。

如图3所示，图像处理设备100包括接收单元110、深度估计单元120、文本区域检测单元130和深度校正单元140。

接收单元110接收3D图像信号。

这里，3D图像可以是立体图像。立体图像包括通过以不同角度拍摄对象的照片而获取的两个图像（即，左图像和右图像）。可从多种源提供立体图像。例如，接收单元110可通过线缆或无线地从源（诸如，广播信道）接收立体图像。在这种情况下，接收单元110可包括多种组件（诸如，调谐器、解调器和均衡器）。

此外，接收单元110可接收由记录介质再现单元再现的立体图像，或可直接接收由相机拍摄的立体图像，其中，所述记录介质再现单元再现多种记录介质（诸如，数字通用盘（DVD）、蓝光盘和存储卡）。在这种情况下，接收单元110可包括多种接口，诸如，通用串行总线（USB）接口。

此外，接收单元110可从外部服务器（诸如，web服务器）接收立体图像。

此外，3D图像可以是根据2D至3D转换基于2D图像产生的图像。在此省略其详细描述。

深度估计单元120基于左图像和右图像估计关于图像中的对象的深度信息。深度信息指示图像中的对象的3D距离信息，其中，所述3D距离信息可被称为深度图或深度图像。

例如，深度信息指示立体效果的信息，诸如，对象和相机之间的距离以及对象和形成对象的图像的记录介质之间的距离。也就是说，随着左图像和右图像的相应点之间的距离差变大，立体效果变大。深度图构成关于单个图像的深度的这样的改变，其中，可以以可根据左图像和右图像的匹配点之间的距离的大小而变化的灰度级来表示所述深度图。例如，在深度图中，亮的部分具有大的立体效果，而暗的部分具有小的立体效果。

更具体地，深度估计单元120通过针对构成图像的每个像素表示从0至255变化的深度值来表示3D距离信息。例如，基于黑和白，黑（低值）可指示离观看者远，白（高值）可指示离观看者近。

同时，深度估计单元120可执行寻找左图像和右图像中的匹配点的立体匹配操作，以产生深度图。在这种情况下，可通过应用自适应权重来执行立体匹配。

例如，由于左图像和右图像是通过以不同视点拍摄对象的照片获取的图像，因此，视点差会造成图像差。例如，在左图像中，对象的边缘和背景重叠，而在右图像中，对象的边缘和背景稍微分离。因此，基于对象，通过将高权重赋予具有预定范围内的像素值的像素，并将低权重赋予具有超出预定范围的像素值的像素，可应用自适应权重。因此，在将各个自适应权重应用于左图像和右图像之后，可根据比较的结果确定是否执行匹配。如果使用了自适应权重，则可防止右相应点被确定为具有低相关性，从而可增强匹配的精确度。

虽然附图中未示出，但是图像处理设备100可还包括用于减少产生深度图的计算的缩小器（down-scaler）（未示出）。也就是说，缩小器（未示出）将通过接收单元110接收的图像缩小，并将所述图像提供到深度估计单元120，从而可减轻计算负担。

文本区域检测单元130检测包括在3D图像中的文本区域。文本区域可以是重叠文本区域，诸如字幕区域、包括在同屏显示（OSD）中的文本区域以及广播电台标识区域。

文本区域检测单元130执行先前检测的文本帧的文本定位。可通过从输入图像检测按照固定间隔被定位的部分或压缩域部分来检测文本帧。

文本区域检测单元130执行检测的文本帧的预处理（诸如，边缘提取），并通过经过预处理的帧的线性提取处理（诸如，霍夫变换）来提取线性部分，从而可提取包括文本的区域。

更具体地，文本区域检测单元130检测文本线（line）和文本颜色，并基于检测的文本线和文本颜色来检测文本区域。可以以四边形形式提取文本区域，但并不限于此。

为了检测文本区域，文本区域检测单元130可使用例如文本线收集方法。这里，可通过与在Wu等（V.Wu,R.Manmatha和E.M.Riseman，“Textfinder:An automatic system to detect and recognize text in images（文本发现器：用于检测和识别图像中的文本的自动***）”，IEEE Trans.PatternAnal（模式分析）.Mach.intell.,vol.21,no.11,pp.1224-1229,Nov,1999.）中公开的方法相似的固定垂直边缘的密度来检测线。

垂直边缘检测

为了检测垂直边缘，使用下面的等式计算图像“I”的垂直分量“G_y”。

等式2

G_{y} = [\begin{matrix} - 1 & - 2 & - 1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{matrix}] \cdot I .

此外，按照下面的等式设置当前帧“n”的边缘阈值“E_τ”。

等式3

{E_{T}}^{n} = \frac{1}{k + 1} (k \cdot {E_{T}}^{n - 1} + G_{RMS})

这里，“k”表示用于阈值时间平滑的先前帧的数量。

为了稳定的边缘检测，使用概率模型。按照下面的等式更新边缘概率“E_p(x,y)”。

等式4

{E_{p}}^{n} (x, y) = \{\begin{matrix} \frac{1}{k + 1} (k \cdot {E_{p}}^{n - 1} + 1), & G_{y} &GreaterEqual; {E_{T}}^{n} \\ \frac{k}{k + 1} {E_{p}}^{n - 1}, & G_{y} < {E_{T}}^{n} \end{matrix}

边缘概率高于0.5的像素被视为当前帧的边缘像素。

2.文本线检测

计算每个水平线的边缘密度“E_D”。使用中值滤波器处理函数“E_D(y)”。

对于文本线，使用与垂直边缘相同的概率模型。

线阈值被定义为E_D(y)的RMS。线概率“L_p”大于0.5的连续图像线被组合以形成文本线，最终，根据最小线高度和最大线高度对文本线进行过滤。

3.文本颜色检测

为了检测文本颜色，应用输入图像颜色量化，并且RGB颜色空间被转换为256颜色的调色板（palette）。在文本线的每个颜色“c”和与文本线的外部C_D ^out(c)相等的文本线的内部CDⁱn(c)的区域中计算颜色密度。这里，“c”可成为彩色文本的颜色。

根据本发明的另一示例性实施例，可通过提取包括在文本区域中的文本来对文本的深度进行校正。在这种情况下，通过针对文本区域执行形态学操作或基于区域的处理可提取文本。

深度校正单元140基于估计的深度和产生的文本掩蔽（mask）对文本区域的深度进行校正。

更具体地，深度校正单元140可基于估计的深度和产生的文本掩蔽将文本区域的深度校正为统一的第一深度值。也就是说，可给定统一的深度值，使得不会不同地表示包括在深度区域中的每个文本的深度。

在这种情况下，深度校正单元140可将文本区域的深度统一地设置为由深度估计单元120估计的文本区域的深度值中的最大值。

此外，深度校正单元140可考虑根据环境的邻近区域的深度值。也就是说，为了不与邻近背景图像不同地或不连续地表示文本区域，文本区域的深度可被设置为与邻近背景图像的深度值相似的值。也就是说，文本区域的深度可被设置为文本区域的估计深度值中的与背景图像的深度值最相似的值。

此外，深度校正单元140可执行深度时间平滑，从而减少经深度校正的文本区域中的闪烁。

参照图4更详细地描述深度校正单元140。

虽然在附图中未示出，但是图像处理设备100可还包括图像处理单元（未示出）、3D图像产生单元（未示出）和显示单元（未示出）。

图像处理单元（未示出）基于文本区域的校正的深度图来对校正的左图像和右图像进行裁剪和重叠，从而产生3D图像。

3D图像产生单元（未示出）以相应的大小裁剪左图像和右图像，并产生3D图像。3D图像可以是通过重叠裁剪的左图像和右图像产生的单个3D图像文件，或可以是分别存储裁剪的左图像和右图像的文件。

显示单元（未示出）使用从3D图像产生单元（未示出）输出的数据显示3D图像。换言之，当3D图像产生单元（未示出）重叠裁剪的左图像和右图像，并产生单个3D图像时，显示单元（未示出）可直接显示3D图像，或当3D图像产生单元（未示出）单独地输出裁剪的左图像和右图像时，显示单元（未示出）可以以3D图像形式重叠输出的这两个图像并进行输出。

例如，显示单元（未示出）对3D图像进行空间划分，并输出3D图像，使得观看者可在没有佩戴眼镜的情况下，感受离对象的距离感，并因此识别3D图像。在这种情况下，显示单元（未示出）可被实现为根据视差屏障技术或柱状透镜技术的显示面板。可选择地，显示单元（未示出）可交替地输出左图像和右图像，使得观看者可感受立体效果。也就是说，根据本发明的图像处理设备可被实现为无眼镜***和眼镜***两者。

在上述示例性实施例中，基于左图像和右图像对文本区域的深度进行校正，但这仅是示例。根据本发明的另一示例性实施例，在检测到2D图像中的文本区域之后，可统一地分配文本区域的深度值，并随后可产生左图像和右图像。

图4是根据本发明的示例性实施例的深度校正单元的配置的详细框图。

如图4中所示，深度校正单元140包括掩蔽产生单元141和文本区域深度校正单元142。

掩蔽产生单元141可通过使用由文本区域检测单元130检测的文本线来扩大掩蔽并使用检测的文本颜色对扩大的掩蔽进行过滤，来产生与文本区域相应的掩蔽。

图5示出根据本发明的示例性实施例的用于产生文本掩蔽的方法。

在具有如图5（a）所示的重叠文本的输入图像中，如图5（b）中所示产生与包括重叠文本的文本区域相应的文本掩蔽，使得可对文本区域的深度进行校正。

通过以下重复处理产生文本掩蔽。

1.扩大垂直边界掩蔽

2.使用文本颜色对掩蔽进行过滤

当文本线的内部中的文本掩蔽稳定时，重复处理完成。对于稳定的结果，如上所述，相同的概率模型可被应用于文本掩蔽。

文本区域深度校正单元142可使用由掩蔽产生单元141产生的掩蔽，将文本区域的深度设置为统一值。

如上所述，文本区域深度校正单元142可将文本区域的深度统一地设置为文本区域的计算的深度值中的最大值，或可根据环境使用下面描述的多种方法来设置深度。

例如，文本区域的深度值可被设置为包括“0”的默认值、包括在背景图像中的对象中的最高深度值、作为比包括在背景图像中的对象的平均值高的预定值的深度值、文本区域的中心的深度值、文本区域的边界的深度值或用户输入的值。

此外，当在单个帧中存在多个文本区域时，文本区域的深度值可被设置为不同的深度值或相同的深度值。

更具体地，如果整个图像区域具有相同的深度值，则可搜索并发现绝对误差和方法（SAD）的最小值。在这种情况下，用于整个文本区域的立体匹配可提供比基于窗口的立体匹配好得多的结果。

如果给定左图像L（x,y）、右图像R(x,y)和相应的二进制文本掩蔽T（x,y），则如下对文本的深度值“d”进行校正和最小化。

等式5

∑∑|L(x,y)-R(x-d,y)||_x,y∈T

如果针对每个文本区域检测到校正的深度值“d”，则所有的文本像素可与预定深度值（图6a）重叠。因此，可如图6b所示地示出深度图。

如果文本掩蔽是理想的，并且所有文本像素具有相同深度，则最小SAD值小并接近0。换言之，如果最小SAD值相对大，则文本掩蔽可能不适当或文本可能具有不同的深度值。在这两种情况下，深度校正可造成额外的误差，并因而可能不是可取的。这个测试可保证深度校正是安全的。

平滑处理单元143可对已校正深度值的文本区域执行深度时间平滑。

平滑处理单元143可对校正的文本区域中的不规则深度值进行平滑，以便去除由深度的改变引起的文本闪烁，或可执行平滑，使得解决文本区域的边界处的失真，其中，由校正的深度值和背景图像的深度值之间的差造成所述失真。

平滑处理单元143可使用平滑滤波器（诸如，中值滤波器、加权平均滤波器和最大滤波器）对校正的文本区域执行平滑。

以下等式表示平滑的示例。

等式6

{D^{'}}_{n} (x, y) = \{\begin{matrix} ω \cdot d + (1 - ω) \cdot D_{n - 1} (x, y), x, y &Element; T \\ D_{n} (x, y), x, y &NotElement; T \end{matrix}

这里，ω∈(0,1)。

图7是示出根据本发明的示例性实施例的算法的框图。

如图7中所示，当输入了左图像和右图像时，估计立体深度并产生深度图。

此外，从输入的左图像和右图像检测重叠文本区域。

随后，产生与检测到的重叠文本区域相应的文本掩蔽。

随后，基于估计的深度和产生的文本掩蔽来对文本区域的深度进行校正，从而可校正深度图。

校正的深度图可被用于多种功能，诸如，3D图像的深度调整。

根据图8中示出的图像处理方法，首先对输入的3D图像的深度进行估计（S810）。

随后，检测包括在3D图像中的文本区域（S820）。

此外，产生与检测到的文本区域相应的文本掩蔽（S830）。

随后，基于估计的深度和产生的文本掩蔽来对文本区域的深度进行校正（S840）。

在对文本区域的深度进行校正的操作S840中，文本区域的深度可基于在操作S810估计的深度被校正为第一深度值。

在这种情况下，可使用如上所述的等式6计算第一深度值。

此外，可对深度已被校正为第一深度值的文本区域执行深度时间平滑。

此外，在检测文本区域的操作S820中，可检测文本线和文本颜色，并且可基于检测到的文本线和文本颜色检测文本区域。

此外，在产生文本掩蔽的操作S830中，使用检测到的文本线扩大掩蔽，并且使用检测到的文本颜色对扩大的掩蔽进行过滤，使得可产生文本掩蔽。

此外，在估计深度的操作S810中，可基于估计的深度产生深度图。在这种情况下，在校正深度的操作S840中，可对产生的深度图中的与文本区域相应的深度值进行校正。

作为结果，可减少在3D图像的文本区域中造成的失真和闪烁。

同时，即使当基于2D图像和深度信息产生多视点图像时，也可以以相同的方式应用本总体发明构思。

根据本发明的上述多种示例性实施例的显示设备的控制方法或眼镜设备的控制方法可被产生为软件或被安装在图像处理设备中。

更具体地，根据本发明的示例性实施例，非暂时性计算机可读介质存储可被安装在图像处理设备中，其中，所述非暂时性计算机可读介质存储执行以下操作的程序：对输入的3D图像的深度进行估计、检测包括在3D图像中的文本区域、产生与检测到的文本区域相应的文本掩蔽，并基于估计的深度和产生的文本掩蔽来对文本区域的深度进行校正。

非暂时性计算机可读介质是不临时存储数据（诸如，寄存器，高速缓存和内存）的介质，而半永久地存储数据并可由装置读取的介质。更具体地，前述各种应用或程序可被存储并提供在非暂时性计算机可读介质（诸如，致密盘（CD）、数字视频盘（DVD）、硬盘、蓝光盘、通用串行总线（USB）、存储卡和只读存储器（ROM））中。

前述示例性实施例和优点仅是示例性的，并且不应被解释为限制本发明。本教导可被容易地应用于其它类型的设备。另外，本发明的示例性实施例的描述意在说明，而不是限制权利要求的范围，并且许多替换、修改和变化对于本领域技术人员而言将是清楚的。

Claims

1.一种图像处理设备，包括：

深度估计单元，估计输入的3D图像的深度；

文本区域检测单元，检测包括在3D图像中的文本区域；

掩蔽产生单元，产生与检测到的文本区域相应的文本掩蔽；

深度校正单元，基于估计的深度和产生的文本掩蔽对文本区域的深度进行校正。

2.如权利要求1所述的图像处理设备，其中，深度校正单元基于估计的深度将文本区域的深度校正为第一深度值。

3.如权利要求2所述的图像处理设备，其中，使用下面的等式计算第一深度值：

∑∑|L(x,y)-R(x-d,y)||_x,y∈T

4.如权利要求1所述的图像处理设备，其中，深度校正单元对已校正了深度的文本区域执行深度时间平滑。

5.如权利要求1所述的图像处理设备，其中，文本区域检测单元检测文本线和文本颜色，并基于检测到的文本线和文本颜色来检测文本区域。

6.如权利要求5所述的图像处理设备，其中，掩蔽产生单元通过使用检测到的文本线来扩大掩蔽并使用检测到的文本颜色对扩大的掩蔽进行过滤，来产生文本掩蔽。

7.如权利要求1所述的图像处理设备，其中，深度估计单元基于估计的深度产生深度图，

深度校正单元对深度图中的与文本区域相应的深度值进行校正。

8.一种图像处理方法，包括：

估计输入的3D图像的深度；

检测包括在3D图像中的文本区域；

产生与检测到的文本区域相应的文本掩蔽；

基于估计的深度和产生的文本掩蔽来对文本区域的深度进行校正。

9.如权利要求8所述的方法，其中，在校正深度的步骤中，文本区域的深度基于估计的深度被校正为第一深度值。

10.如权利要求9所述的方法，其中，使用下面的等式计算第一深度值：

∑∑|L(x,y)-R(x-d,y)||_x,y∈T，

11.如权利要求8所述的方法，还包括：

对已校正了深度的文本区域执行深度时间平滑。

12.如权利要求8所述的方法，其中，在检测文本区域的步骤中，检测文本线和文本颜色，并且基于检测到的文本线和文本颜色检测文本区域。

13.如权利要求12所述的方法，其中，在产生文本掩蔽的步骤中，通过使用检测到的文本线来扩大掩蔽并使用检测到的文本颜色对扩大的掩蔽进行过滤，来产生文本掩蔽。

14.如权利要求8所述的方法，其中，在估计深度的步骤中，基于估计的深度产生深度图，

在校正深度的步骤中，对深度图中的与文本区域相应的深度值进行校正。