CN106296745B - 对文档图像进行校正的方法和装置 - Google Patents

对文档图像进行校正的方法和装置 Download PDF

Info

Publication number
CN106296745B
CN106296745B CN201510276320.4A CN201510276320A CN106296745B CN 106296745 B CN106296745 B CN 106296745B CN 201510276320 A CN201510276320 A CN 201510276320A CN 106296745 B CN106296745 B CN 106296745B
Authority
CN
China
Prior art keywords
dimensional data
file
picture
dimensional
data points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510276320.4A
Other languages
English (en)
Other versions
CN106296745A (zh
Inventor
汪留安
李健
范伟
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510276320.4A priority Critical patent/CN106296745B/zh
Publication of CN106296745A publication Critical patent/CN106296745A/zh
Application granted granted Critical
Publication of CN106296745B publication Critical patent/CN106296745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • G06T3/067Reshaping or unfolding 3D tree structures onto 2D planes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及对文档图像进行校正的方法和装置。该方法包括:输入文档图像及其对应的三维空间上的三维数据点;利用文档图像提取文档图像中的文档页面的边界并估计边界上的三维数据点;对三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格;基于三维网格来估计二维网格;以及利用所估计的二维网格对文档图像进行校正。根据本发明的方法和装置,能够重构和展平扭曲的文档图像。

Description

对文档图像进行校正的方法和装置
技术领域
本发明涉及图像处理领域,更具体地涉及一种对文档图像进行校正的方法和装置。
背景技术
随着扫描仪的广泛使用,文档数字化在生活中扮演越来越重要的角色。置顶式扫描仪能在不损坏文档的情况下对图像进行数字化,但是由于例如书籍、杂志等文档页面不在一个平面上,在数字化的图像中往往存在扭曲。
文档图像校正技术能够展平扭曲的图像,改善阅读体验及提高OCR 的识别精度。大部分传统的方法更关注于固定的文档模型或者文档内容。比如筒形模型方法有以下缺点:文档曲面不是一个严格的筒形模型,在扫描的文档中存在局部畸变,并且很难估计文档的内边界。而基于文档内容的图像校正有以下缺点:校正精度严格依赖于文档内容的提取,如:文档直线、文本行等,但文档的布局和文本内容又很难有效的提取,或者没有足够的文档内容来校正图像。
因此,需要一种能够有效地对文档图像进行校正的方法和装置。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供了一种对文档图像进行校正的方法,包括:输入文档图像及其对应的三维空间上的三维数据点;利用文档图像提取文档图像中的文档页面的边界并估计边界上的三维数据点;对三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格;基于三维网格来估计二维网格;以及利用所估计的二维网格对文档图像进行校正。
根据本发明的一个方面,提供一种对文档图像进行校正的装置,包括:输入单元,被配置为输入文档图像及其对应的三维空间上的三维数据点;边界提取单元,被配置为利用文档图像提取文档图像包含的文档页面的边界并估计边界上的三维数据点;三维网格构建单元,被配置为对三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格;二维网格估计单元,被配置为基于三维网格来估计二维网格;以及文档图像校正单元,被配置为利用所估计的二维网格对文档图像进行校正。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出了根据本发明的一个实施例的对文档图像进行校正的方法的总体框架图;
图2示出了根据本发明的一个实施例的对文档图像进行校正的方法 S200的示例性过程的流程图;
图3示出了文档图像上的3D扫描线的示意图;
图4示出了提取的文档页面的边界的示意图;
图5示出了对三维空间上的三维数据点进行采样的一种示例性过程 S500的流程图;
图6A示出了将文档页面表示为四边形的集合的示意图;
图6B示出了将图6A中所示的若干四边形分别分割为两个三角形的示意图;
图7示出了在整个文档页面上构建的三维网格的图;
图8示出了进行三角形映射的示意图;
图9校正后的文档页面的示意图;
图10示出了根据本发明的另一个实施例的对文档图像进行校正的方法S1000的示例性过程的流程图;
图11示出了对三维数据点的深度信息进行平滑的一个示例的示意图;
图12是示出对校正后的文档页面的边界进行改善的示意图;
图13是示出根据本发明的一个实施例的对文档图像进行校正的装置 1300的示例性配置的框图;
图14是示出根据本发明的另一个实施例的对文档图像进行校正的装置1400的示例性配置的框图;以及
图15是示出可以用于实施本发明的对文档图像进行校正的方法和装置的计算设备的示例性结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本发明提出了一种对文档图像进行校正的方法和装置。具体地,本发明提出一种基于3D图像的校正方法来重构和展平扭曲的文档图像。本发明的方法和传统方法相比有如下优点:
1)能够利用深度信息来重构文档图像,对局部畸变比较鲁棒;
2)基于3D信息的风格构建能够有效的估计文档图像的曲面;
3)扫描线间的3D数据平滑能够有效的提高校正的性能。
图1示出了根据本发明的一个实施例的对文档图像进行校正的方法的总体框架图。
从图1中可以看出,简单来说,根据本发明的一个实施例的对文档图像进行校正的方法包括:输入二维图像,包括二维图像上的点和三维空间上的点,进行网格构建,估计二维网格,进行纹理映射,最后可以输出矫正的图像。
下面结合附图详细说明根据本发明的实施例的对文档图像进行校正的方法和装置。
图2示出了根据本发明的一个实施例的对文档图像进行校正的方法 S200的示例性过程的流程图。
在步骤S202中,输入所述文档图像及其对应的三维空间上的三维数据点。
本领域普通技术人员可以理解,文档图像所对应的三维空间上的三维数据点可以通过利用3D扫描仪对文档进行3D扫描来得到,在此不做赘述。
3D扫描仪对文档从上到下进行扫描,可以得到若干条3D数据扫描线。在图3中,示出了对文档进行扫描后得到的文档图像上的若干条3D扫描线。
接着,在步骤S204中,利用文档图像提取文档图像中的文档页面的边界并估计边界上的三维数据点。
具体地,通过假设边界上的点的深度值和与其最接近的三维数据点的深度值相等来估计边界上的三维数据点。
在图4中,用粗黑线框示意性的示出了所提取的文档页面的边界。
在一个示例中,还可以利用文档图像连同三维数据点的深度信息来提取文档图像包含的文档页面的边界。
在步骤S206中,对三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格。
图5是示出图2中的步骤206中的对三维空间上的三维数据点进行采样的一种示例性过程S500的流程图。
如图5所示,对三维数据点进行采样包括以下步骤:
首先,在步骤S502中,选取一条完全在文档页面内部的三维数据扫描线,在该三维数据扫描线上提取等长度的N个采样点。
接着,在步骤S504中,确定N个采样点和文档页面的两条边界的消失点的N条连线与每条三维数据扫描线的各个交点。
在此所述的两条边界指的是如图4中所示的文档页面的中线处的边界 (即图4中左边的粗黑线)和文档页面的右边界(即图4中的右边的粗黑线),也即近似垂直于三维数据扫描线的两条边界。本领域技术人员可以理解,这两条边界会有一个消失点。将N个采样点与该消失点连接的连线与每条三维数据扫描线都有一个交点。在步骤S504中,即确定这些交点。
最后,在步骤S506中,用三维数据扫描线上的与各个交点最接近的三维数据点代替各个交点作为采样点。
在获得采样点之后,由于采样点的顺序是固定的(从上到下,从左到右),因此可以利用下面的方法快速构建网格:
对于当前三维数据扫描线上的每个采样点,在下一条三维数据扫描线上找到对应的采样点进行连线,这样就将文档页面表示为多个四边形的集合。图6A示意性的示出了三条扫描线、扫描线上的几个采样点、和对这些采样点进行连线所得到的若干四边形。
接着,再将每个四边形分割为两个三角形,优选地,以四边形的较短的对角线作为两个三角形的公共边,这样就将文档页面表示为四边形的数量的二倍多个三角形的集合。图6B示出了将图6A中所示的若干四边形分别分割为两个三角形的示意图。
在完成了三角形化处理之后,就构建好了三维网格。图7示出了在整个文档页面上构建的三维网格的图。
在构建了三维网格之后,在步骤S208中,基于三维网格来估计二维网格。
在一个示例中,可以利用保角变换来估计二维网格。
利用保角变换基于三维网格来估计二维网格,对于本领域普通技术人员来说是已知的,在此不再赘述。
最后,在步骤S210中,利用所估计的二维网格对文档图像进行校正。
在一个示例中,利用纹理映射技术来实现对文档图像进行校正。
具体地,在纹理映射中,将一个三角形划分成两个部分分别进行相应映射,在三角形的每个部分,利用扫描线填充和双线性插值来填充整个三角形区域。图8示出了三角形映射的示意图。
在一个示例中,纹理映射可以基于仿射变换来完成。
利用仿射矩阵和下式(1)
xdst=a*xsrc+b*ysrc+tx
ydst=c*xsrc+d*ysrc+ty (1)
可以求得映射后的区域中的坐标,其中,xsrc和ysrc是二维网格中的点的坐标,xdst和ydst为映射后的区域中的坐标。
纹理映射和仿射变换的技术对于本领域技术人员来说是已知的,在此不做赘述。
图9示出了校正后的文档页面的示意图。可以看到图9中的文档页面得到了展平。
图10示出了根据本发明的另一个实施例的对文档图像进行校正的方法S1000的示例性过程的流程图。
图10中的对文档图像进行校正的方法S1000的步骤S1002、S 1004、 S1006、S1008和S1010与图2中的对文档图像进行校正的方法S200的步骤S202至S210类似,在此不再赘述。
图10中的对文档图像进行校正的方法S1000在步骤S1006之前还包括步骤S1005,在步骤S1005中,对三维空间上的三维数据点进行平滑。
具体地,首先,去除文档页面的边界之外的三维数据点以去除这些点对校正性能的影响。
其次,对同一三维数据扫描线上的三维数据点的三维坐标进行平滑。
例如,可以采用高斯模型进行平滑。
最后,利用相邻的三维数据扫描线对三维数据点的深度信息进行平滑。
图11示出了对三维数据点的深度信息进行平滑的一个示例的示意图。
zi-1,j0、zi,j1和zi+1,j2分别是三条扫描线上对应的三个点的深度值,点(i,j1) 处的平滑后的深度信息szi,j1可以通过下式(2)来求得。
szi,j1=(zi-1,j0+zi,j1+zi+1,j2)/3 (2)
对每个三维数据点进行式(2)的计算,可以对三维数据点的深度信息进行平滑。
通过对扫描线间的三维数据点进行平滑,能够有效的提高校正的性能。
在一个示例中,还可以对文档页面的边界进行改善。
可以看到图9中的校正后的文档图像的边缘存在一些豁口,在一个示例中,可以通过直线拟合对所校正的文档图像中的文档页面的边界进行改善。利用直线拟合的方法来去除校正图像中的背景区域。
具体地,利用校正后的文档页面的边界上的点来拟合一条直线,再经过该边界上的最内部的点确定与该直线平行的一条直线,最后利用改平行的直线对所校正的文档图像的边界进行改善。例如,将该平行的直线以外的部分去除。
从图12可以看出,其中的文档页面右边的边界平滑、没有豁口,视觉上比较美观。
图13是示出根据本发明的一个实施例的对文档图像进行校正的装置 1300的示例性配置的框图。
如图13所示,对文档图像进行校正的装置1300包括输入单元1302、边界提取单元1304、三维网格构建单元1306、二维网格估计单元1308和文档图像校正单元1310。
其中,输入单元1302被配置为输入文档图像及其对应的三维空间上的三维数据点。
边界提取单元1304被配置为利用文档图像提取文档图像包含的文档页面的边界并估计边界上的三维数据点。
三维网格构建单元1306被配置为对三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格。
二维网格估计单元1308被配置为基于三维网格来估计二维网格。
文档图像校正单元1310被配置为利用所估计的二维网格对文档图像进行校正。
其中,边界提取单元1304进一步被配置为:通过假设边界上的点的深度值和与其最接近的三维数据点的深度值相等来估计边界上的三维数据点。
其中,三维网格构建单元1306进一步被配置为:选取一条完全在文档页面内部的三维数据扫描线,在该三维数据扫描线上提取等长度的N个采样点;确定N个采样点和文档页面的垂直于三维数据扫描线的两条边界的消失点的N条连线与每条三维数据扫描线的各个交点;以及用三维数据扫描线上的与各个交点最接近的三维数据点代替各个交点作为采样点。
其中,三维网格构建单元1306再进一步被配置为:对于当前三维数据扫描线上的每个采样点,在下一条三维数据扫描线上找到对应的采样点进行连线,将文档页面表示为四边形的集合;以及将每个四边形分割为两个三角形,其中以四边形的较短的对角线作为两个三角形的公共边。
在一个示例中,对文档图像进行校正的装置1300还包括边界改善单元(图中未示出)。边界改善单元被配置为通过直线拟合对所校正的文档图像中的文档页面的边界进行改善。
其中,边界改善单元进一步被配置为:利用校正后的文档页面的边界上的点来拟合一条直线;经过该边界上的最内部的点确定与一条直线平行的直线;以及利用平行的直线对所校正的文档图像的边界进行改善。
其中,边界提取单元1304进一步被配置为:利用文档图像和三维数据点的深度信息来提取文档图像包含的文档页面的边界。
图14是示出根据本发明的另一个实施例的对文档图像进行校正的装置1400的示例性配置的框图。
如图14所示,对文档图像进行校正的装置1400包括输入单元1402、边界提取单元1404、平滑单元1405、三维网格构建单元1406、二维网格估计单元1408和文档图像校正单元1410。换句话说,图14所示的对文档图像进行校正的装置1400除了包括图13所示的各个部件之外,还包括平滑单元1405。
图14中的输入单元1402、边界提取单元1404、三维网格构建单元 1406、二维网格估计单元1408和文档图像校正单元1410与图13中的输入单元1302、边界提取单元1304、三维网格构建单元1306、二维网格估计单元1308和文档图像校正单元1310类似,在此不再赘述,这里主要描述图14中的平滑单元1405。
平滑单元1405被配置为对三维空间上的三维数据点进行平滑。
具体地,平滑单元被配置为:去除文档页面的边界之外的三维数据点;对同一三维数据扫描线上的三维数据点的三维坐标进行平滑;以及利用相邻的三维数据扫描线对三维数据点的深度信息进行平滑。
关于对文档图像进行校正的装置1300和1400的各个部分的操作和功能的细节可以参照结合图1-12描述的本发明的对文档图像进行校正的方法的实施例,这里不再详细描述。
在此需要说明的是,图13-14所示的装置及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图13-14所示的结构框图进行修改。
本发明提出一种基于3D图像的校正方法来重构和展平扭曲的文档图像。本发明的方法和传统方法相比有如下优点:
1)能够利用深度信息来重构文档图像,对局部畸变比较鲁棒;
2)基于3D信息的风格构建能够有效的估计文档图像的曲面;
3)扫描线间的3D数据平滑能够有效的提高校正的性能。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图15所示的通用计算机1500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图15中,中央处理单元(CPU)1501根据只读存储器(ROM)1502中存储的程序或从存储部分1508加载到随机存取存储器(RAM)1503的程序执行各种处理。在RAM 1503中,也根据需要存储当CPU 1501执行各种处理等等时所需的数据。CPU 1501、ROM 1502和RAM 1503经由总线 1504彼此链路。输入/输出接口1505也链路到总线1504。
下述部件链路到输入/输出接口1505:输入部分1506(包括键盘、鼠标等等)、输出部分1507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1508(包括硬盘等)、通信部分1509 (包括网络接口卡比如LAN卡、调制解调器等)。通信部分1509经由网络比如因特网执行通信处理。根据需要,驱动器1510也可链路到输入/输出接口1505。可拆卸介质1511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1510上,使得从中读出的计算机程序根据需要被安装到存储部分1508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图15所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质 1511。可拆卸介质1511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘 (MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1502、存储部分1508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图15所示的通用计算机1500) 安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1、一种对文档图像进行校正的方法,包括:
输入所述文档图像及其对应的三维空间上的三维数据点;
利用所述文档图像提取所述文档图像中的文档页面的边界并估计所述边界上的三维数据点;
对所述三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格;
基于所述三维网格来估计二维网格;以及
利用所估计的二维网格对所述文档图像进行校正。
附记2、根据附记1所述的方法,其中,对所述三维空间上的三维数据点进行采样之前还包括:对所述三维空间上的三维数据点进行平滑。
附记3、根据附记2所述的方法,其中,对所述三维数据点进行平滑包括:
去除所述文档页面的所述边界之外的三维数据点;
对同一三维数据扫描线上的三维数据点的三维坐标进行平滑;以及
利用相邻的三维数据扫描线对三维数据点的深度信息进行平滑。
附记4、根据附记1所述的方法,其中,通过假设所述边界上的点的深度值和与其最接近的三维数据点的深度值相等来估计所述边界上的三维数据点。
附记5、根据附记1所述的方法,其中,对所述三维数据点进行采样包括:
选取一条完全在所述文档页面内部的三维数据扫描线,在该三维数据扫描线上提取等长度的N个采样点;
确定所述N个采样点和所述文档页面的垂直于所述三维数据扫描线的两条边界的消失点的N条连线与每条三维数据扫描线的各个交点;以及
用三维数据扫描线上的与所述各个交点最接近的三维数据点代替所述各个交点作为采样点。
附记6、根据附记5所述的方法,其中,基于采样的三维数据点构建三维网格包括:
对于当前三维数据扫描线上的每个采样点,在下一条三维数据扫描线上找到对应的采样点进行连线,将所述文档页面表示为四边形的集合;以及
将每个四边形分割为两个三角形,其中以所述四边形的较短的对角线作为两个三角形的公共边。
附记7、根据附记1所述的方法,还包括:
通过直线拟合对所校正的文档图像中的文档页面的边界进行改善。
附记8、根据附记7所述的方法,通过直线拟合对所校正的文档图像中的文档页面的边界进行改善进一步包括:
利用校正后的文档页面的边界上的点来拟合一条直线;
经过该边界上的最内部的点确定与所述一条直线平行的直线;以及
利用所述平行的直线对所校正的文档图像的边界进行改善。
附记9、根据附记1所述的方法,其中,利用所述文档图像提取所述文档图像包含的文档页面的边界包括:利用所述文档图像和三维数据点的深度信息来提取所述文档图像包含的文档页面的边界。
附记10、一种对文档图像进行校正的装置,包括:
输入单元,被配置为输入所述文档图像及其对应的三维空间上的三维数据点;
边界提取单元,被配置为利用所述文档图像提取所述文档图像包含的文档页面的边界并估计所述边界上的三维数据点;
三维网格构建单元,被配置为对所述三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格;
二维网格估计单元,被配置为基于所述三维网格来估计二维网格;以及
文档图像校正单元,被配置为利用所估计的二维网格对所述文档图像进行校正。
附记11、根据附记10所述的装置,还包括:平滑单元,被配置为对所述三维空间上的三维数据点进行平滑。
附记12、根据附记11所述的装置,其中,所述平滑单元进一步被配置为:
去除所述文档页面的所述边界之外的三维数据点;
对同一三维数据扫描线上的三维数据点的三维坐标进行平滑;以及
利用相邻的三维数据扫描线对三维数据点的深度信息进行平滑。
附记13、根据附记10所述的装置,其中,所述边界提取单元进一步被配置为:通过假设所述边界上的点的深度值和与其最接近的三维数据点的深度值相等来估计所述边界上的三维数据点。
附记14、根据附记10所述的装置,其中,所述三维网格构建单元进一步被配置为:
选取一条完全在所述文档页面内部的三维数据扫描线,在该三维数据扫描线上提取等长度的N个采样点;
确定所述N个采样点和所述文档页面的垂直于所述三维数据扫描线的两条边界的消失点的N条连线与每条三维数据扫描线的各个交点;以及
用三维数据扫描线上的与所述各个交点最接近的三维数据点代替所述各个交点作为采样点。
附记15、根据附记14所述的装置,其中,所述三维网格构建单元进一步被配置为:
对于当前三维数据扫描线上的每个采样点,在下一条三维数据扫描线上找到对应的采样点进行连线,将所述文档页面表示为四边形的集合;以及
将每个四边形分割为两个三角形,其中以所述四边形的较短的对角线作为两个三角形的公共边。
附记16、根据附记10所述的装置,还包括:
边界改善单元,被配置为通过直线拟合对所校正的文档图像中的文档页面的边界进行改善。
附记17、根据附记16所述的装置,所述边界改善单元进一步被配置为:
利用校正后的文档页面的边界上的点来拟合一条直线;
经过该边界上的最内部的点确定与所述一条直线平行的直线;以及
利用所述平行的直线对所校正的文档图像的边界进行改善。
附记18、根据附记10所述的装置,其中,所述边界提取单元进一步被配置为:利用所述文档图像和三维数据点的深度信息来提取所述文档图像包含的文档页面的边界。

Claims (10)

1.一种对文档图像进行校正的方法,包括:
输入所述文档图像及其对应的三维空间上的三维数据点;
利用所述文档图像提取所述文档图像中的文档页面的边界并估计所述边界上的三维数据点;
对所述三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格;
基于所述三维网格来估计二维网格;以及
利用所估计的二维网格对所述文档图像进行校正。
2.根据权利要求1所述的方法,其中,对所述三维空间上的三维数据点进行采样之前还包括:对所述三维空间上的三维数据点进行平滑。
3.根据权利要求2所述的方法,其中,对所述三维数据点进行平滑包括:
去除所述文档页面的所述边界之外的三维数据点;
对同一三维数据扫描线上的三维数据点的三维坐标进行平滑;以及
利用相邻的三维数据扫描线对三维数据点的深度信息进行平滑。
4.根据权利要求1所述的方法,其中,通过假设所述边界上的点的深度值和与其最接近的三维数据点的深度值相等来估计所述边界上的三维数据点。
5.根据权利要求1所述的方法,其中,对所述三维数据点进行采样包括:
选取一条完全在所述文档页面内部的三维数据扫描线,在该三维数据扫描线上提取等长度的N个采样点;
确定所述N个采样点和所述文档页面的垂直于所述三维数据扫描线的两条边界的消失点的N条连线与每条三维数据扫描线的各个交点;以及
用三维数据扫描线上的与所述各个交点最接近的三维数据点代替所述各个交点作为采样点。
6.根据权利要求5所述的方法,其中,基于采样的三维数据点构建三维网格包括:
对于当前三维数据扫描线上的每个采样点,在下一条三维数据扫描线上找到对应的采样点进行连线,将所述文档页面表示为四边形的集合;以及
将每个四边形分割为两个三角形,其中以所述四边形的较短的对角线作为两个三角形的公共边。
7.根据权利要求1所述的方法,还包括:
通过直线拟合对所校正的文档图像中的文档页面的边界进行改善。
8.根据权利要求7所述的方法,通过直线拟合对所校正的文档图像中的文档页面的边界进行改善进一步包括:
利用校正后的文档页面的边界上的点来拟合一条直线;
经过该边界上的最内部的点确定与所述一条直线平行的直线;以及
利用所述平行的直线对所校正的文档图像的边界进行改善。
9.根据权利要求1所述的方法,其中,利用所述文档图像提取所述文档图像包含的文档页面的边界包括:利用所述文档图像和三维数据点的深度信息来提取所述文档图像包含的文档页面的边界。
10.一种对文档图像进行校正的装置,包括:
输入单元,被配置为输入所述文档图像及其对应的三维空间上的三维数据点;
边界提取单元,被配置为利用所述文档图像提取所述文档图像包含的文档页面的边界并估计所述边界上的三维数据点;
三维网格构建单元,被配置为对所述三维空间上的三维数据点进行采样并基于采样的三维数据点构建三维网格;
二维网格估计单元,被配置为基于所述三维网格来估计二维网格;以及
文档图像校正单元,被配置为利用所估计的二维网格对所述文档图像进行校正。
CN201510276320.4A 2015-05-26 2015-05-26 对文档图像进行校正的方法和装置 Active CN106296745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510276320.4A CN106296745B (zh) 2015-05-26 2015-05-26 对文档图像进行校正的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510276320.4A CN106296745B (zh) 2015-05-26 2015-05-26 对文档图像进行校正的方法和装置

Publications (2)

Publication Number Publication Date
CN106296745A CN106296745A (zh) 2017-01-04
CN106296745B true CN106296745B (zh) 2019-03-12

Family

ID=57634771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510276320.4A Active CN106296745B (zh) 2015-05-26 2015-05-26 对文档图像进行校正的方法和装置

Country Status (1)

Country Link
CN (1) CN106296745B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018152710A1 (zh) * 2017-02-22 2018-08-30 华为技术有限公司 图像校正的方法及装置
CN111968038B (zh) * 2020-10-23 2021-01-12 网御安全技术(深圳)有限公司 一种图像中消失点快速搜寻方法及其***
CN112509106A (zh) * 2020-11-17 2021-03-16 科大讯飞股份有限公司 文档图片展平方法、装置以及设备
WO2022193310A1 (en) * 2021-03-19 2022-09-22 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Electric device, method of controlling electric device, and computer readable storage medium
CN113723289B (zh) * 2021-08-30 2024-03-08 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN114550186A (zh) * 2022-04-21 2022-05-27 北京世纪好未来教育科技有限公司 文档图像的校正方法、装置、电子设备及存储介质
CN115187995B (zh) * 2022-07-08 2023-04-18 北京百度网讯科技有限公司 文档矫正方法、装置、电子设备和存储介质
CN115760620B (zh) * 2022-11-18 2023-10-20 荣耀终端有限公司 一种文档矫正方法、装置及电子设备
CN115641280B (zh) * 2022-12-16 2023-03-17 摩尔线程智能科技(北京)有限责任公司 图像校正方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342021A (zh) * 2000-09-04 2002-03-27 富士通株式会社 校正输入图象失真的设备与方法
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
CN101520852A (zh) * 2008-02-29 2009-09-02 富士通株式会社 消失点检测装置和检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9071785B2 (en) * 2013-02-15 2015-06-30 Gradeable, Inc. Adjusting perspective distortion of an image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342021A (zh) * 2000-09-04 2002-03-27 富士通株式会社 校正输入图象失真的设备与方法
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
CN101520852A (zh) * 2008-02-29 2009-09-02 富士通株式会社 消失点检测装置和检测方法

Also Published As

Publication number Publication date
CN106296745A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106296745B (zh) 对文档图像进行校正的方法和装置
Huang et al. Edge-aware point set resampling
Orzan et al. Diffusion curves: a vector representation for smooth-shaded images
Tagliasacchi et al. Mean curvature skeletons
Wang et al. Image segmentation using active contours with normally biased GVF external force
Kopf et al. Depixelizing pixel art
Cha et al. The error-amended sharp edge (EASE) scheme for image zooming
Kim et al. Curvature interpolation method for image zooming
JP6007602B2 (ja) 画像処理方法、画像処理装置、スキャナ及びコンピュータプログラム
JP2002064704A (ja) 画像処理装置および方法、並びに記録媒体
Albu et al. A morphology-based approach for interslice interpolation of anatomical slices from volumetric images
WO2005109340A1 (ja) 画像拡大装置、及びプログラム
Tagliasacchi et al. Vase: Volume‐aware surface evolution for surface reconstruction from incomplete point clouds
Cornells et al. Real-time connectivity constrained depth map computation using programmable graphics hardware
Huang et al. Transformation guided image completion
CN103839059B (zh) 用于提取文档图像中的文档边界的装置、方法及电子设备
Zhang et al. Fast as-isometric-as-possible shape interpolation
CN110992370A (zh) 一种胰腺组织的分割方法、装置及终端设备
CN109887009A (zh) 一种点云局部匹配方法
CN103390266B (zh) 一种图像超分辨率方法和装置
Manson et al. Wavelet rasterization
Zhang et al. A GPU-accelerated real-time single image de-hazing method using pixel-level optimal de-hazing criterion
Zhang et al. A 3D multi-grid algorithm for the Chan–Vese model of variational image segmentation
Ning et al. Adaptive image rational upscaling with local structure as constraints
Li et al. Cubic surface fitting to image by combination

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant