CN104182966B

CN104182966B - 一种规则碎纸自动拼接方法

Info

Publication number: CN104182966B
Application number: CN201410340616.3A
Authority: CN
Inventors: 段倩; 金鑫; ***; 李医民; 朱峰
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2014-07-16
Filing date: 2014-07-16
Publication date: 2017-03-29
Anticipated expiration: 2034-07-16
Also published as: CN104182966A

Abstract

本发明属于图像处理技术，具体涉及一种规则碎纸自动拼接的方法。本发明的技术方案通过六步来实现：(1)准备图像数据集并进行预处理；(2)对碎纸按中英文、单双面进行分类；(3)提取每幅图像的局部区域特征，如碎纸片边界像素点的位置和灰度值、上(下)边界高度；对英文碎纸片特征的提取范围进行扩大，附加特征包括：英文碎纸片的行高、英文岁纸片的水平位置、英文碎纸片的行间距；(4)依据步骤(3)提取的特征值，对碎片进行再分类；(5)对碎片进行局部匹配，行匹配和列匹配；(6)将匹配好的图像进行还原。本发明提供的方法能够更加准确地对大量碎纸进行拼接。

Description

一种规则碎纸自动拼接方法

技术领域

本发明属于图像处理技术的应用领域，具体涉及一种规则碎纸自动拼接方法。

背景技术

碎纸拼接技术是数字图像处理技术的一个重要研究分支，它是将一组相互间存在重叠部分的碎纸进行空间匹配对准，从而进行无缝拼接得到完整的、宽视角场景的图像。

碎纸自动拼接复原技术在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。近年来，随着德国斯塔西文件恢复工程的公布，碎纸文件复原技术的研究引起了广泛的关注。

碎纸拼接必须完成的关键是碎片的匹配技术。传统破碎文件的拼接，更多的是使用碎片的边缘形状提取其轮廓曲线并利用计算机算法进行拼接。现如今随着碎纸机的广泛应用，越来越多的破碎纸片拼接问题中，碎纸的边缘形状都大致相同，边缘形状拼接不再适用。对于规则形状的碎纸，则是根据纸片边缘所包含的文字内容，通过图像配准运算确定碎纸边界的参数，对碎片进行匹配，最终实现无缝拼接。但是在实际应用当中，待拼接的纸片数量越大，具有相似文字信息的纸片边缘数量也就越大，且相似程度越高。而计算机扫描形成数字图像的分辨率具有一定的局限性，因此在拼接过程中，会出现一定量的错误拼接。理想的拼接技术所要达到的效果便是“零错误”。就现有的技术现状来看，现有的碎纸拼接方法大都针对于非规则形状，能够有效应用于大型宽幅规则纸片拼接的方法较为少见。

提高碎纸自动拼接质量的技术关键在于如何高质量地获取碎纸上的文字或图像信息。一般来说，碎片上的信息量越小，拼接错误甚至是无法拼接的几率越大。因此迄今为止，在该技术领域对碎纸图像进行自动拼接过程希望能够得到最终高质量的宽幅碎纸拼接存在纸较大的技术难度。

发明内容

本发明的目的是提供一种规则碎纸自动拼接的方法，能够更加准确地对大量碎纸片进行拼接。

本发明是通过以下技术方案实现的，主要包括以下六个步骤：

1.图像数据集的准备和预处理的具体步骤包括：

1.1将碎纸片从左到右、从上到下依次编号，记为1，2，3···n；若需要区分正反面，则正面记为a1，a2，a3···an；反面记为b1，b2，b3···bn；

1.2将图像数字化，以像素点作为最小单位，并提取各像素点的灰度值和所在位置，建立函数矩阵；

1.3将图像进行值化：灰度值为“0”的点为黑色点，灰度值为“255”的点为白色点，“0”与“255”之间的为灰色点；

1.4去噪点：由于原始信息都是连续的模拟信号，数字化处理过后的图像也应该是一个具有连续趋势的间断点图像。针对同一颜色点完全包围异色点的情况，将异色点的颜色同化成周围点的颜色；

2.对碎纸整体进行分类，按中英文、单双面分为4种情况：中文单面、中文双面、英文单面、英文双面；

3.分别提取出每幅图像局部区域的特征，这些特征包括：碎纸片边界像素点的位置和灰度值、上(下)边界高度；对英文碎纸片特征的提取范围进行扩大，附加特征包括：英文碎纸片的行高、英文碎纸片的水平位置、英文碎纸片的行间距；

特征提取的方法具体如下：

i)碎纸片最外层的像素点的位置和灰度值：

定义碎纸片最左(右)端一列像素点为左(右)边界，最顶(底)端一行像素点为上(下)边界，提取各边界像素点的位置和灰度值；

ii)上(下)边界高度：

根据每一张碎片的上下边界是否完全白色分为白色边界高度和黑色边界高度两大类。具体分类方法如下：

以碎片的最底端为x轴，以碎片左边垂直于x轴向上为y轴，x轴与y轴的相交点为原点建立坐标系，将图片上各个像素点向y轴作投影。如图1所示。一个黑色或灰色点的投影记为一次有效投影，投影次数加1，而白色点的投影无效，投影次数不改变。记录与原点之间的距离为h个像素点的投影点上的投影次数f(h)。

当投影次数f(h)小于该行总像素点n的1/10时，将y轴上点h的灰度值g(h)记为“0”；当投影次数f(h)大于或等于该行总像素点n的1/10时，将点h的灰度值g(h)记为“255”。

在投影轴上，从碎片的上边界依次向下进行统计，直至出现颜色不同的点。这一段高度即为上边界高度，下边界高度亦然。

iii)英文碎纸片的行高：

英文字母的高度以及在同一行中所占的位置高度大致相同，因此，按照步骤i)的方式进行投影，灰度值为“1”的区间即是字母有效区间，定义有效区间的高度为行高；

iv)英文碎纸片的水平位置：

经步骤i)投影后，字母的有效投影区间的上下边界，距碎纸片顶部的距离称为该行字母的所在水平位置，用以确定该行字母在碎纸片上的位置；

v)行间距：

提取两水平位置间的垂直距离作为行间距；

4.依据步骤3所提取的特征集，对碎片进行分类：

具体步骤如下：

i)根据纸片边缘是否有文字笔画信息，将碎纸分为三类：上下边界碎片、左右边界碎片和中间碎片；

ii)依据行间距特征，分别对上述三类碎纸片进一步分类，相同行间距分为一类；

iii)依据上(下)边界高度，对步骤i)所形成的三类碎片集进行分类，上(下)边界高度相同或相近的碎片划分为同一碎片集：

划分类别需要遵循一定的条件：

(1)每一类的碎片数量必须等于或略小于纸张的纵切次数；

(2)与其他高度相间隔的类别，若数量小于各类别碎片数量的1/5，则不独立为一个类别；

(3)高度相互连续的几个类别归为同一类；

(4)最终的类别总数为纸张的横切次数；

(5)若还是无法确定类别，则再以同样的方法对底部高度进行辅助判断。

iv)利用水平位置，对步骤ii)所形成的各个碎片集进一步分类，处于同一水平位置的碎片划分为一类；

5.对碎片进行匹配的具体步骤：

5.1对碎片进行局部匹配，即是两碎片之间的匹配，下面以左右匹配为例：

i.定义X_ij为第i张碎片右边界上第j行像素点的灰度值，定义Y_i′j为第i′张碎片左边界上第j行像素点的灰度值(i≠i′)。判定匹配与否的关键在于X_ij和Y_i′j之间的匹配程度，将步骤3提取的特征集，以右边界特征为基准，定义判定标准为：

X_ij为白色，Y_i′j-1、Y_i′j、Y_i′j+1出现灰白黑三色且不全为黑为正常，可进行匹配；

X_ij为灰色，Y_i′j-1、Y_i′j、Y_i′j+1出现任意色均为正常，可进行匹配；

X_ij为黑色，Y_i′j-1、Y_i′j、Y_i′j+1不全为白色为正常，可进行匹配；

其余情况为不正常，不可进行匹配。

X_ij与Y_i′j-1、Y_i′j、Y_i′j+1的关系如图2所示。

其中：X_ij：第i张纸条的最左边一列的第j行像素点的灰度值；

Y_i′j：第i′张纸条的最右边一列的第j行像素点的灰度值；

边界跟踪算法具体流程如下：

(1)选取碎片i和i′

(2)假设碎片i和i′相互匹配；

(3)读取碎片i右边界j行像素点X_ij的灰度值；

(4)扫描碎片i′左边界的第j-1、j、j+1行的像素点Y_i′(j-1)、Y_i′j、Y_i′(j+1)的，判断其是否全为白色；

(5)若全为白色，且超出行范围，则j＝j+1后返回(3)；

(6)若不全为白色，则j＝j+1，读取下一行，判断X_ij是否为白色；

(7)若为白色，则返回(5)；

(8)若不为白色，则判断Y_i′(j-1)、Y_i′j、Y_i′(j+1)是否全为白色；

(9)若全为白色，则返回(5)；

(10)若不为白色，则j＝j+1读取下一行，判断X_ij的颜色；

(11)若为白色，则返回(5)；

(12)若为灰色，则返回(5)；

(13)若为黑色，则判断Y_i′(j-1)、Y_i′j、Y_i′(j+1)是否全为白色；

(14)若不为白色，则返回(5)；

(15)若全为白色，则碎片i和i′匹配过程结束，碎片i和i′不匹配；

(16)若j+1超出行范围，则碎片i和i′匹配过程结束，碎片i和i′匹配。

ii.根据步骤i的判定标准，确定图像匹配指数的数学模型，具体为：

其中：

S_ii′：第i张碎片与第i′张碎片的匹配指数；

N：碎纸片竖直高度上像素点的总数；

X_ij：碎片i右边界j行像素点的灰度值；

T_i′(X_ij)：判断第i张碎纸第j行的右边界特征与对应行的第i′张纸条的左边界特征的匹配指数；

该匹配指数具体表示为：

其中，T₂(X_ij)＝0.

当且仅当S_ii′指数为0时，两碎片才视为可匹配；若不为0则不能进行匹配，且数值越大，匹配程度越差。

5.2步骤5.1已经完成了两碎片之间的局部匹配过程，将步骤5.1获得的符合匹配条件的碎纸片，形成各个小的碎片集，对碎片集进行行匹配和列匹配，i.行匹配的具体过程：

i)以其中一张碎片为基准，若两碎片的局部匹配成功，则将两碎片合并为一张碎纸片，放入新的碎片集；若局部匹配未成功，则保留基准碎片，继续局部匹配。原碎片集中的碎片均无法成功局部匹配时，均放入新碎片集；

ii)新的碎片按照上述步骤重复进行，直至所有碎纸片拼接成完整的碎片行。

ii.根据上述过程，确定图像行匹配指数的数学模型，具体为：

目标函数：

W＝min∑S_ii′

约束条件：

其中，a为S_ii′的个数；

W的最小值为0；

M为碎纸片纵向切割的次数

iii将通过行匹配的碎片集形成碎片行，对碎片行矩阵进行转置，再以同样的方法进行列匹配；

6，将步骤5匹配之后的图像进行还原。

本发明的有效利益是：

可以一次性拼接处理数量较为庞大的碎纸片，并就匹配拼接流程提出了相应的优化解决方案，其主要体现在：

(1)针对中文碎片，仅对边界做特征处理，对边界特征进行数学模型建立，因此，本发明在更新图像样本数据库时，扫描数据库的范围大大缩小，在大量待拼接碎纸的情况下，具有时间优势。

(2)本发明所设计的边界跟踪算法，可以确保碎纸匹配过程中的唯一性，进一步提高了本发明的有效性和可操作性。

附图说明

图1是本发明实施例的碎纸片文字投影图；

图2是本发明实施例的局部匹配图；

图3是本发明实施例的边界跟踪算法流程图。

具体实施方式

下面以中文单面为例，简单地说明本发明的执行过程。本实例共选择了209张碎纸片图像，这209张碎片一张A4纸横切10刀，纵切18刀。具体执行步骤如下：

(1)预处理

(a)进行图像数据集的准备和预处理，包括图像数字化、去噪、二值化；

(b)将碎纸片排列为11行19列的矩阵，按从左向右、从上到下的顺序依次从1到209编号；

(2)提取碎片矩阵的特征集，这些特征包括：碎纸片最外层的像素点的位置和灰度值、上边界高度；

(3)利用特征值对碎片进行分类：

①根据纸片边缘是否有文字笔画信息，将碎纸分为三类：左右边界碎片各11张、上下边界碎片各19张和中间碎片149张；

②根据提取的上边界高度，对碎片进行分类：

一般情况下，同一行碎片的白色上边界高度或黑色上边界高度是大致相同的。计算出每一碎片的边界高度并将具有相同边界高度的碎片归为一类，并统计该类碎片数量。统计结果如表一所示。

表一具有相同上边界高度的碎片数量

从表一中可以看出白色顶部和黑色顶部一共有43组，而图片仅被切割成为了11行，因此，需要对已划分的类别做进一步处理。

划分类别需要遵循一定的条件：

(6)每一类的碎片数量必须等于或略小于19；

(7)与其他高度相间隔的类别，若数量小于10，则不独立为一个类别(例如高度3)；

(8)高度相互连续的几个类别归为同一类；

(9)最终的类别总数为11类；

(10)若还是无法确定类别，则再根据底部高度进行辅助判断。

经过进一步处理过后的分类情况如表二所示：

表二上边界高度的分类及对应的碎片数量

(4)基于边界跟踪算法对碎片进行行、列匹配；

(5)显示拼接后的图像：

表三拼接后的碎片编号表

049	054	065	143	186	002	057	192	178	118	190	095	011	022	129	028	091	188	141
																			061	019	078	067	069	099	162	096	131	079	063	116	163	072	006	177	020	052	036
168	100	076	062	142	030	041	023	147	191	050	179	120	086	195	026	001	087	018
																			038	148	046	161	024	035	081	189	122	103	130	193	088	167	025	008	009	105	074
071	156	083	132	200	017	080	033	202	198	015	133	170	205	085	152	165	027	060
																			014	128	003	159	082	199	135	012	073	160	203	169	134	039	031	051	107	115	176
094	034	084	183	090	047	121	042	124	144	077	112	149	097	136	164	127	058	043
																			125	013	182	109	197	016	184	110	187	066	106	150	021	173	157	181	204	139	145
029	064	111	201	005	092	180	048	037	075	055	044	206	010	104	098	172	171	059
																			007	208	138	158	126	068	175	045	174	000	137	053	056	093	153	070	166	032	196
089	146	102	154	114	040	151	207	155	140	185	108	117	004	101	113	194	119	114

Claims

1.一种规则碎纸自动拼接的方法，其特征在于：该方法主要包括以下六个步骤：

(1)图像数据集的准备和预处理,包括对碎纸进行编号、图像数字化、图像值化、去噪点；

(2)对碎纸整体进行分类，按中英文、单双面分为4种情况：中文单面、中文双面、英文单面、英文双面；

(3)分别提取出每幅图像局部区域的特征，对中文这些特征包括：碎纸片边界像素点的位置和灰度值、上下边界高度；对英文碎纸片特征的提取范围进行扩大，附加特征还包括：英文碎纸片的行高、英文碎纸片的水平位置、英文碎纸片的行间距；

(4)依据步骤3所提取的特征集，对碎片进行分类：首先分为上下边界碎片、左右边界碎片、中间碎片三类；再依据行间距特征、上下边界高度、水平位置特征，将具有相同特征的碎片分为一类；

(5)a：依据边界跟踪算法对碎片进行局部匹配,确定碎片边界特征的匹配指数；b:将步骤a获得的符合匹配条件的碎纸片，利用边界跟踪算法进行行匹配和列匹配；

(6)将步骤5匹配之后的图像进行还原。

2.根据权利要求1所述的一种规则碎纸自动拼接的方法，其特征在于：步骤(1)所述的编号方法为：将碎纸片从左到右、从上到下依次编号,记为1,2,3…n；若需要区分正反面，则正面记为a1,a2,a3…an；反面记为b1,b2,b3…bn；步骤(1)所述的图像数字化是指：以像素点作为最小单位，并提取各像素点的灰度值和所在位置，建立函数矩阵；步骤(1)所述的图像值化是指：灰度值为“0”的点为黑色点，灰度值为“255”的点为白色点，“0”与“255”之间的为灰色点；步骤(1)所述的去噪点是指：针对同一颜色点完全包围异色点，将异色点的颜色同化成周围点的颜色。

3.根据权利要求1所述的一种规则碎纸自动拼接的方法，其特征在于：步骤(3)所述的碎纸片边界像素点的位置和灰度值特征及提取方法为：定义碎纸片最左或最右端一列像素点为左或右边界，最顶或最底端一行像素点为上下边界，提取各边界像素点的位置和灰度值；

步骤(3)所述的上下边界高度特征及提取方法为：根据每一张碎片的上下边界是否完全白色分为白色边界高度和黑色边界高度两大类；具体分类方法如下：

以碎片的最底端为x轴，以碎片左边垂直于x轴向上为y轴，x轴与y轴的相交点为原点建立坐标系，将图片上各个像素点向y轴作横向投影；一个黑色或灰色点的投影记为有效投影，投影次数加1，而白色点的投影无效，投影次数不改变；记录距离原点为h个像素点的投影点上的投影次数f(h)；

g (h) = \{\begin{matrix} 0, f (h) < n / 10 \\ 255, f (h) &GreaterEqual; n / 10 \end{matrix}

当投影次数f(h)小于该行总像素点数n的1/10时，将y轴上点h的灰度值g(h)记为“0”；当投影次数f(h)大于或等于该行总像素点数n的1/10时，将点h的灰度值g(h)记为“255”；

在投影轴上，从碎片的上边界依次向下进行统计，直至出现颜色不同的点；这一段高度即为上边界高度，下边界高度亦然；

步骤(3)所述的英文碎纸片的行高特征及提取方法为：英文字母的高度以及在同一行中所占的位置高度大致相同，因此，对英文碎片进行横向投影后，灰度值为“1”的区间即是字母有效区间，定义有效区间的高度为行高，提取行高；

步骤(3)所述的英文碎片的水平位置特征及提取方法为：对英文碎片进行横向投影后，字母的有效投影区间的上下边界，距碎纸片顶部的距离称为该行字母的所在水平位置，提取水平位置特征；

步骤(3)所述的英文碎纸片的行间距特征及提取方法为：两水平位置的垂直距离定义为行间距，提取行间距特征。

4.根据权利要求1所述的一种规则碎纸自动拼接的方法，其特征在于：步骤(4)所述的依据步骤3所提取的特征集，对碎片进行分类：具体步骤为：

ⅰ)根据纸片边界是否有文字笔画信息，将碎纸分为三类：上下边界碎片、左右边界碎片和中间碎片；

ⅱ)依据行间距特征，分别对上述三类碎纸片进一步分类，相同行间距分为一类；

ⅲ)依据上下边界高度，对步骤ⅰ所形成的三类碎片集进行分类，上下边界高度相同或相近的碎片划分为同一碎片集；

ⅳ)利用水平位置特征，对步骤ⅱ所形成的各个碎片集进一步分类，处于同一水平位置的碎片划分为一类。

5.根据权利要求4所述的一种规则碎纸自动拼接的方法，其特征在于：所述的步骤ⅲ)中划分类别是需要遵守的条件为：

(1)每一类的碎片数量必须等于或略小于纸张的纵切次数；

(3)高度相互连续的几个类别归为同一类；

(4)最终的类别总数为纸张的横切次数；

(5)若还是无法确定类别，则再根据底部高度进行辅助判断。

6.根据权利要求1所述的一种规则碎纸自动拼接的方法，其特征在于：步骤(5)所述的对碎片进行匹配的步骤包括：

a、依据边界跟踪算法对碎片进行局部匹配，即是两碎片之间的匹配，确定碎片边界特征的匹配指数；

b、将步骤a获得的符合匹配条件的碎纸片，形成各个小的碎片集，利用边界跟踪算法对碎片集进行行匹配和列匹配。

7.根据权利要求6所述的一种规则碎纸自动拼接的方法，其特征在于：步骤a所述的局部匹配的判定标准为：定义X_ij为第i张碎片右边界上第j行像素点的灰度值，定义Y_i′j为第i′张碎片左边界上第j行像素点的灰度值(i≠i′)；判定匹配与否的关键在于X_ij和Y_i′j之间的匹配程度，将步骤3提取的特征集，以右边界特征为基准，定义判定标准为：

其余情况为不正常，不可进行匹配；

其中：X_ij：第i张碎片右边界上第j行像素点的灰度值；

Y_i′j：第i′张碎片左边界上第j行像素点的灰度值；

Y_i′j-1：第i′张碎片左边界上第j-1行像素点的灰度值；

Y_i′j+1：第i′张碎片左边界上第j+1行像素点的灰度值。

8.根据权利要求7所述的一种规则碎纸自动拼接方法，其特征在于：根据所述的局部匹配的判定标准，确定图像匹配指数的数学模型，具体为：

S_{{ii}^{'}} = Σ_{j = 1}^{N} T_{i^{'}} (X_{i j})

其中：

S_ii′：第i张碎片与第i′张碎片总的匹配指数；

N：碎纸片垂直高度上像素点的总数；

X_ij：碎片i右边界j行像素点的灰度值；

T_i′(X_ij)：判断第i张碎纸第j行的右边界特征与对应行的第i′张纸条的左边界特征的数据的匹配指数；

该匹配指数具体表示为：

T_{i^{'}} (X_{i j}) = \{\begin{matrix} T_{1} (X_{i j}), & X_{i j} = 0, \\ T_{2} (X_{i j}), & 0 < X_{i j} \leq 255 \end{matrix} .

其中，T₂(X_ij)＝0

9.根据权利要求6所述的一种规则碎纸自动拼接的方法，其特征在于：步骤a所述的边界跟踪算法具体流程如下：

1)选取碎片i和i′；

2)假设碎片i和i′相互匹配；

3)读取碎片i右边界j行像素点X_ij的灰度值；

4)扫描碎片i′左边界与X_ij相邻的j-1、j、j+1行的像素点Y_i′j-1、Y_i′j、Y_i′j+1的像素值，判断其是否全为白色；

5)若全为白色，且超出行范围，则j+1后返回3)；

6)若不全为白色，则j+1读取下一行，判断X_ij是否为白色；

7)若为白色，则返回5)；

8)若不为白色，则判断Y_i′j-1、Y_i′j、Y_i′j+1是否全为白色；

9)若全为白色，则返回5)；

10)若不为白色，则j+1读取下一行，判断X_ij的颜色；

11)若为白色，则返回5)；

12)若为灰色，则返回5)；

13)若为黑色，则判断Y_i′j-1、Y_i′j、Y_i′j+1是否全为白色；

14)若不为白色，则返回5)；

15)若全为白色，则碎片i和i′匹配过程结束，碎片i和i′不匹配；

16)若j+1超出行范围，则碎片i和i′匹配过程结束，碎片i和i′匹配。

10.根据权利要求8所述的一种规则碎纸自动拼接的方法，其特征在于：步骤b所述的进行行匹配和列匹配的具体过程为：

(1)行匹配的具体过程：

ⅰ)以其中一张碎片为基准，若两碎片的局部匹配成功，则将两碎片合并为一张碎纸片，放入新的碎片集；若局部匹配未成功，则保留基准碎片，继续局部匹配；原碎片集中的碎片均无法成功局部匹配时，均放入新碎片集；

ⅱ)新的碎片按照上述步骤重复进行，直至所有碎纸片拼接成整行；

(2)根据上述过程，确定图像行匹配指数的数学模型，具体为：

目标函数：

W＝min∑S_ii′

约束条件：

\{\begin{matrix} S_{{ii}^{'}} = Σ_{j = 1}^{N} T_{i^{'}} (X_{i j}) \\ T_{i^{'}} (X_{i j}) = \{\begin{matrix} T_{1} (X_{i j}), & X_{i j} = 0, \\ T_{2} (X_{i j}), & 0 < X_{i j} \leq 255 \end{matrix} . \\ a &GreaterEqual; M \end{matrix}

其中，a为S_ii′的个数；

W的最小值为0；

M为碎纸片横向切割的次数；

(3)将通过行匹配的碎片集形成碎片行，对碎片行矩阵进行转置，再进行列匹配，列匹配的具体过程与行匹配相同。