CN107644391A

CN107644391A - 一种用于打印文档溯源的数字水印处理方法及装置

Info

Publication number: CN107644391A
Application number: CN201710838786.8A
Authority: CN
Inventors: 杨榆; 陈雨薇; 雷敏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-01-30
Anticipated expiration: 2037-09-18
Also published as: CN107644391B

Abstract

本发明实施例提供了一种用于打印文档溯源的数字水印处理方法及装置，所述方法包括，将文本文档转换为图像，并将图像分割成文本文档中各文字对应的文字图像；计算各文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征；获取各文字图像的待嵌入数字水印信息，并判断数字特征与待嵌入数字水印信息是否相匹配；如果数字特征与待嵌入数字水印信息不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。应用本发明实施例，能够提高纸质涉密文档输出的安全性。

Description

一种用于打印文档溯源的数字水印处理方法及装置

技术领域

本发明涉及信息安全领域，特别是涉及一种用于打印文档溯源的数字水印处理方法及装置。

背景技术

随着电子信息技术的快速发展，社会各界的信息化程度的不断提高，各类多媒体文件如电子文档、图像、视频等被广泛地应用在人们的日常生活中。其中，电子文档具有创建快速、节约空间、运输便利等优点，成为了信息交流的便捷载体。许多企业和单位的日常文件甚至机密信息都是利用电子文档的形式进行存储与传输。这些文档中包含了多种多样的信息，具有巨大的经济价值和应用价值。但是，对于打印后的纸质文档及其复印件，由于缺乏文档溯源追踪信息，而导致无法确定文档打印的源头，造成纸质文档的随意打印、有意或无意的非法传播，进一步加大了文档打印管控的难度。基于该背景出现的数字水印技术，能够对文档版权进行有效保护，并能鉴别产品真伪，被广泛应用于版权保护、隐私通信及访问控制等多个领域，在保证电子文档安全性的同时，也确保了纸质涉密文档输出的安全性。

数字水印技术是一种版权保护技术，对于视频、图像、文档等载体，将水印信息(特定标识)嵌入其中，或者对其某些特定结构进行修改。嵌入后的载体包含了水印信息，水印信息不易被察觉或修改，且载体的原价值不受到影响。水印信息可以被嵌入者进行识别与提取，并且嵌入者根据水印信息能够鉴别该数字作品所有者及授权等信息，还能够判断该作品是否经过修改。

现有的用于打印文档溯源的数字水印处理方法，通过改变文档文本的行间距与字间距来进行数字水印信息的嵌入。具体的，将文档作为载体，对于通过改变文档文本的行间距来进行数字水印信息的嵌入的方法，先计算每行文字的间距，然后计算前后两个相邻行间距的比值，再根据比值确定数字水印信息的嵌入，如果相邻行间距比值与待嵌入的数字水印信息不相符，则通过改变文档文本的行间距来进行数字水印信息的嵌入，例如，规定前后两个相邻行间距的比值大于1时，嵌入的数字水印信息为1，前后两个相邻行间距的比值不大于1时，嵌入的数字水印信息为0，当第一行和第二行文字的间距，与第二行和第三行文字间距的比值为1.2，而待嵌入的数字水印信息为0，则改变第一行和第二行文字的间距，使得第一行和第二行文字的间距，与第二行和第三行文字间距的比值不大于1，从而在第一行和第二行文字之间嵌入数字水印信息0。同样，对于通过改变文档文本的字间距来进行数字水印信息的嵌入的方法，先计算每两个相邻文字的间距，然后计算前后两个相邻字间距的比值，再根据比值确定数字水印信息的嵌入，如果相邻字间距比值与待嵌入的数字水印信息不相符，则通过改变文档文本的字间距来进行数字水印信息的嵌入。

但是，通过现有的用于打印文档溯源的数字水印处理方法，对于行间距算法，其水印容量过小；对于字间距算法，由于嵌入的水印信息是在文本的字间距之间，在打印文档进行复印扫描时，文字边缘的像素可能会进行翻转，造成字间距的改变，另外，复印扫描过程中如果对文档进行缩放，会使字间距差达不到阈值，若想抵抗这些攻击，则需要牺牲水印的透明性，将间距改变调整得较大，这都使得水印信息难以兼顾透明性与鲁棒性，导致水印信息的可用性比较差，降低了纸质涉密文档输出的安全性。

发明内容

本发明实施例的目的在于提供一种用于打印文档溯源的数字水印处理方法及装置，以提高数字水印的可用性，从而提高纸质涉密文档输出的安全性。具体技术方案如下：

本发明实施例公开了一种用于打印文档溯源的数字水印处理方法，所述方法包括：

将文本文档转换为图像，并将所述图像分割成所述文本文档中各文字对应的文字图像；

计算各所述文字图像中的文字的欧拉数，并根据所述欧拉数的奇偶确定所述文字图像对应的数字特征；

获取各所述文字图像的待嵌入数字水印信息，并判断所述数字特征与所述待嵌入数字水印信息是否相匹配；

如果所述数字特征与所述待嵌入数字水印信息不匹配，则改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配。

可选的，所述在改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配之后，所述的方法还包括：

将所述数字特征与所述待嵌入数字水印信息相匹配的文字对应的文字图像合并。

可选的，所述将所述图像分割成所述文本文档中各文字对应的文字图像，包括：

将所述图像二值化，得到二值图像；

从上到下逐行扫描所述二值图像，计算所扫描的每行图像的像素，并根据所述像素获取所述图像的水平投影；

利用所述图像中的每行文字行间的空白间隔在所述水平投影形成的空白空隙，将所述图像分割为不同行，得到行图像；

从左到右扫描各所述行图像，计算所扫描的每行图像中的所有文字的像素，并根据所述像素获取所述图像的垂直投影；

利用各所述行图像中的文字之间的空白间隔在所述垂直投影形成的空白空隙，将所述行图像分割为单个的字符块，所述字符块为所述文本文档中各文字对应的文字图像；

判断相邻两个字符块的间距是否大于预设阈值；

当所述间距不大于所述预设阈值时，将这两个字符块合并为一个字符块。

可选的，所述计算各所述文字图像中的文字的欧拉数，并根据所述欧拉数的奇偶确定所述文字图像对应的数字特征，包括：

使用图像识别算法，识别出各所述文字图像中的文字的连通区域数和孔洞数；

通过所述连通区域数和所述孔洞数的差值，计算所述文字的欧拉数；

当所述欧拉数为奇数时，所述文字图像对应的数字特征为“1”；

当所述欧拉数为偶数时，所述文字图像对应的数字特征为“0”。

可选的，所述如果所述数字特征与所述待嵌入数字水印信息不匹配，则改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配，包括：

如果所述数字特征与所述待嵌入数字水印信息不匹配，则提取所述文字图像中的文字骨架，并在所述文字骨架中确定嵌入数字水印信息的嵌入点，所述嵌入点为文字笔画相交的点；

对所述嵌入点进行膨胀，以断开所述文字笔画相交的点，以改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配。

可选的，所述提取所述文字图像中的文字骨架，并在所述文字骨架中确定嵌入数字水印信息的嵌入点，包括：

利用图像形态学算法，将所述文字图像转换为只有一个像素连接的文字骨架；

提取所述文字骨架的至少一个角点，将所有角点中除位于所述文字图像边缘的角点之外的任一角点作为嵌入信息的嵌入点。

可选的，所述对所述嵌入点进行膨胀，以断开所述文字笔画相交的点，包括：

在所述文字骨架中获取与所述嵌入点相邻的所有直线中最长的一条直线；

利用最长直线斜率构造结构元，通过结构元对所述嵌入点进行膨胀，以断开所述文字笔画相交的点。

本发明实施例还公开了一种用于打印文档溯源的数字水印处理装置，所述装置包括：

分割模块，用于将文本文档转换为图像，并将所述图像分割成所述文本文档中各文字对应的文字图像；

计算模块，用于计算各所述文字图像中的文字的欧拉数，并根据所述欧拉数的奇偶确定所述文字图像对应的数字特征；

获取模块，用于获取各所述文字图像的待嵌入数字水印信息，并判断所述数字特征与所述待嵌入数字水印信息是否相匹配；

处理模块，用于如果所述数字特征与所述待嵌入数字水印信息不匹配，则改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配。

可选的，所述的装置还包括：

合并模块，用于将所述数字特征与所述待嵌入数字水印信息相匹配的文字图像合并。

可选的，所述分割模块，包括：

处理子模块，用于将所述图像二值化，得到二值图像；

第一扫描子模块，用于从上到下逐行扫描所述二值图像，计算所扫描的每行图像的像素，并根据所述像素获取所述图像的水平投影；

第一分割子模块，用于利用所述图像中的每行文字行间的空白间隔在所述水平投影形成的空白空隙，将所述图像分割为不同行，得到行图像；

第二扫描子模块，用于从左到右扫描各所述行图像，计算所扫描的每行图像中的所有文字的像素，并根据所述像素获取所述图像的垂直投影；

第二分割子模块，用于利用各所述行图像中的文字之间的空白间隔在所述垂直投影形成的空白空隙，将所述行图像分割为单个的字符块，所述字符块为所述文本文档中各文字对应的文字图像；

判断子模块，用于判断相邻两个字符块的间距是否大于预设阈值；

合并子模块，用于当所述间距不大于所述预设阈值时，将这两个字符块合并为一个字符块。

可选的，所述计算模块，包括：

识别子模块，用于使用图像识别算法，识别出各所述文字图像中的文字的连通区域数和孔洞数；

计算子模块，用于通过所述连通区域数和所述孔洞数的差值，计算所述文字的欧拉数；

第一确定子模块，用于当所述欧拉数为奇数时，所述文字图像对应的数字特征为“1”；

第二确定子模块，用于当所述欧拉数为偶数时，所述文字图像对应的数字特征为“0”。

可选的，所述处理模块，包括：

提取子模块，用于如果所述数字特征与所述待嵌入数字水印信息不匹配，则提取所述文字图像中的文字骨架，并在所述文字骨架中确定嵌入数字水印信息的嵌入点，所述嵌入点为文字笔画相交的点；

膨胀子模块，用于对所述嵌入点进行膨胀，以断开所述文字笔画相交的点，以改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配。

可选的，所述提取子模块，包括：

转换单元，用于利用图像形态学算法，将所述文字图像转换为只有一个像素连接的文字骨架；

提取单元，用于提取所述文字骨架的至少一个角点，将所有角点中除位于所述文字图像边缘的角点之外的任一角点作为嵌入信息的嵌入点。

可选的，所述膨胀子模块，包括：

获取单元，用于在所述文字骨架中获取与所述嵌入点相邻的所有直线中最长的一条直线；

膨胀单元，用于利用最长直线斜率构造结构元，通过结构元对所述嵌入点进行膨胀，以断开所述文字笔画相交的点。

本发明实施例还公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述一种用于打印文档溯源的数字水印处理方法步骤。

在本发明实施的又一方面，还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的一种用于打印文档溯源的数字水印处理方法。

本发明实施例提供的一种用于打印文档溯源的数字水印处理方法及装置，该数字水印方法先将文本文档转换为图像，并将图像分割为文字图像，然后通过计算每个文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征，再判断该数字特征与待嵌入数字水印信息是否相匹配，如果不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。这种通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，能够抵抗恶意或无意的水印攻击，以使文档泄密时，能够从泄密的文档中提取出水印信息，根据水印信息确定打印文档的来源，完成泄密文档的溯源，提高了数字水印的可用性，从而提高了纸质涉密文档输出的安全性。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于打印文档溯源的数字水印处理方法的流程示意图；

图2为本发明实施例提供的一种用于打印文档溯源的数字水印处理方法的过程示意图；

图3为本发明实施例提供的一种用于打印文档溯源的数字水印处理方法的效果对比图；

图4为本发明实施例提供的一种用于打印文档溯源的数字水印处理装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

数字水印是保护信息安全、实现防伪溯源、版权保护的有效办法，是信息隐藏技术研究领域的重要分支和研究方向。为了使自己的文档不轻易被别人盗用，或者用以广告宣传，我们一般在自己的文档中添加水印。其中，数字水印具有以下特性：1、透明性。水印的透明性是指嵌入水印后的载体是否能够引起人在视觉上的察觉。2、鲁棒性。水印的鲁棒性是衡量水印抵抗各类攻击能力的指标，其中攻击包括压缩、旋转、裁剪等。3、容量。容量是指载体能够容纳水印信息的多少，容量的单位往往为比特。4、安全性。安全性指水印信息隐藏的位置及内容不为人所知，文件格式的变换不会导致水印数据的丢失，非授权用户无法检测和破坏水印。

与一般图像相比，文本图像的颜色、纹理简单，其变换域的冗余程度较低，因此难以使用一般的变换域方法嵌入数字水印信息。基于文档图像黑白像素比例设计的不可见水印嵌入方法虽然解决可见标识一手剪裁攻击问题，但由于打印、复印设备半色调处理算法等***函数存在差异，此类算法的稳健性不足，文稿被多次复印后，水印信息可能被完全去除。基于此，本发明实施例提供的一种用于打印文档溯源的数字水印处理方法，通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，这样，即使文字在嵌入数字水印信息时，不受文字行间距和字间距的影响，即无论行间距和字间距如何改变，所嵌入的数字水印信息是不改变的，不仅提高了数字水印的可用性，也提高了纸质涉密文档输出的安全性。具体过程如下：

参见图1，图1为本发明实施例提供的一种用于打印文档溯源的数字水印处理方法的流程示意图，包括如下步骤：

S101，将文本文档转换为图像，并将所述图像分割成所述文本文档中各文字对应的文字图像。

具体的，由于本发明所提供的一种用于打印文档溯源的数字水印处理方法是基于图像的数字水印处理方法，因此需要先将文本文档转换为图像，即将文档格式转换为图片格式，可以直接将文档保存为图片格式，也可以通过文件格式转换工具将文档转换为图片格式等。

另外，本发明是针对图像中的每个文字进行数字水印处理的，因此将文本文档转换为图像之后，还需要将图像分割成文本文档中各文字对应的文字图像，即对图像中的字符进行分割。由于获得的文本图像不但包含了组成文本的一个个字符，而且包含了字符行间距与字间的空白，甚至还会带有各种标点符号，这就需要将文本中的一个个字符切分出来，形成单个字的图像阵列，以进行单字识别处理。字符分割的任务是把多行或多字符图像中的每个字符从整个图像中分割出来，成为单个字符。这里，将图像分割成文本文档中各文字对应的文字图像，以使更加准确的对分割后的每个文字图像中的文字进行数字水印的嵌入。

S102，计算各所述文字图像中的文字的欧拉数，并根据所述欧拉数的奇偶确定所述文字图像对应的数字特征。

具体的，欧拉数的定义是连通区域数和孔洞数之差。在一副图像中孔洞数为H，物体的连通区域数为C，则欧拉数为：E＝C-H。欧拉数是基于图像几何特征的区域描绘子，且欧拉数不受伸长或旋转变换的影响，因此可认为字符的欧拉数不受打印扫描的影响。在利用文字欧拉数的奇偶来确定文字图像的数字特征时，需要识别文字的欧拉数，规定文字欧拉数被2整除余1代表数字特征“1”，规定欧拉数被2整除余0代表数字特征“0”。

S103，获取各所述文字图像的待嵌入数字水印信息，并判断所述数字特征与所述待嵌入数字水印信息是否相匹配。

具体的，待嵌入数字水印信息用户自己设定的信息。如果数字特征为“1”或者“0”，则待嵌入数字水印信息为“1”或者“0”中的一种。例如，对于文本文档“心态决定一切”的待嵌入数字水印信息是“010110”，数字特征是“001110”，那么通过判断数字特征与待嵌入数字水印信息是否相匹配，可知文本文档中的“态”和“决”字的嵌入数字水印信息与待嵌入数字水印信息不匹配。这里，通过判断数字特征与待嵌入数字水印信息是否相匹配，从而快速确定能否为文字图像嵌入待嵌入数字水印信息，以使所嵌入的数字水印信息与待嵌入数字水印信息相同，提高了数字水印信息的可用性。

S104，如果所述数字特征与所述待嵌入数字水印信息不匹配，则改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配。

具体的，如果数字特征与待嵌入数字水印信息不匹配，则需要改变文字图像中的文字的拓扑结构。通过文字的拓扑结构调整文字的欧拉数，从而使得改变拓扑结构后的文字对应的文字图像所对应的数字特征，与待嵌入数字水印信息一致。

另外，如果数字特征与待嵌入数字水印信息相匹配，则不改变该文字图像。

由此可见，本发明实施例提供的一种用于打印文档溯源的数字水印处理方法，先将文本文档转换为图像，并将图像分割为文字图像，然后通过计算每个文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征，再判断该数字特征与待嵌入数字水印信息是否相匹配，如果相匹配，则不对该文字图像进行处理，如果不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。这种通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，能够抵抗恶意或无意的水印攻击，以使文档泄密时，能够从泄密的文档中提取出水印信息，根据水印信息确定打印文档的来源，完成泄密文档的溯源，提高了数字水印的可用性，从而提高了纸质涉密文档输出的安全性。

在本发明实施例中，在通过文字的拓扑结构调整文字的欧拉数之后，还可以将数字特征与待嵌入数字水印信息相匹配的文字图像合并。

具体的，由于改变拓扑结构后的文字的欧拉数的数字特征与待嵌入数字水印信息相匹配，因此，将数字特征与待嵌入数字水印信息相匹配的文字图像进行合并，得到合并后的文字图像即为嵌入水印信息后的整个文本文档所对应的图像，为保护文档的版权与溯源提供了依据。

在本发明一个可选的实施例中，将图像分割成文本文档中各文字对应的文字图像，具体可以为：

第一步，将图像二值化，得到二值图像。

具体的，由于字符字体存在着多样性，所以在一般的字符识别***中，字符识别之前要先对图像进行二值化，然后再进行行分割，以分割出一个个具体的二值表示的字符图像点阵，作为单字符识别的输入数据。图像的二值化，就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。在数字图像处理中，二值图像占有非常重要的地位，图像的二值化有利于图像的进一步处理，使图像变得简单，而且数据量减小，能凸显出感兴趣的目标的轮廓。

第二步，从上到下逐行扫描二值图像，计算所扫描的每行图像的像素，并根据像素获取图像的水平投影。

具体的，对二值图像中的字符进行行分割和列分割，一般采用投影分割，投影分割是利用字符的间隔，分割单个字符。而投影分割需要先对于输入的二值化文字图像从上到下逐行扫描，然后计算每个扫描行的像素值之和，以获取文字图像的水平投影。

第三步，利用图像中的每行文字行间的空白间隔在水平投影形成的空白空隙，将图像分割为不同行，得到行图像。

具体的，在扫描过程中，文字图像沿行方向的水平投影比较有规律，投影中的每个波峰与图像中的每个文本行相对应，在相邻的两行之间有比较宽的一段投影信息为0，这是对应了相邻两行之间的空白区域，即每行文字行间的空白间隔在水平投影形成的空白空隙。根据这个规律，对行切分比较容易，可以把整幅的文字图像在水平方向投影后，直接对文字图像进行行分割，不仅能够提高行分割的效率，而且能够提高行分割的准确率。

第四步，从左到右扫描各行图像，计算所扫描的每行图像中的所有文字的像素，并根据像素获取图像的垂直投影。

具体的，将图像分割为不同行，得到行图像之后，在每行文本对应的行图像中进行列分割得到一个个单独的字符。而列分割时根据各行图像中的文字之间的空白间隔在垂直投影形成的空白空隙来进行分割的，这就需要先从左到右扫描各行图像，然后计算每列图像中的像素值之和，以此来获取图像的垂直投影。这里，进行列分割时也是将整个图像取反，即由白底黑字变为黑底白字，二值图像黑色像素值为0，白色像素值为1，因此，在投影时，得到字符间隙(空白空隙)处的投影值为0，即间隙处每列像素值之和为0。这样，可以根据间隙处的像素值之和，更加准确的从每行图像中分割出单个文字。

第五步，利用各行图像中的文字之间的空白间隔在垂直投影形成的空白空隙，将行图像分割为单个的字符块，字符块为文本文档中各文字对应的文字图像。

具体的，各行图像中文字与文字之间的空白间隙的垂直投影，会形成的空白间隔，通过这些空白间隔将单个的字符图像切分出来，这样，分割出来的文字图像为单个的文字即单个的字符。

第六步，判断相邻两个字符块的间距是否大于预设阈值。

对于行图像中包含左右结构的文字或者左中右结构的文字，由于通过各行图像中的文字之间的空白间隔在垂直投影形成的空白空隙，将各行图像中的文字分割为单个的字符块，该字符块可能只是一个文字的一部分，例如只是文字的一个偏旁。而两个相邻字符之间的间距比一个字符中的间距大，例如，两个相邻字符“如果”，“如”和“果”之间的间距比“如”字中“女”和“口”之间的间距大。因此，需要判断相邻两个字符块的间距是否大于预设阈值，以此来确保所分割的字符块都是完整的文字，从而对单独的文字进行数字水印信息的嵌入。这里，预设阈值可以根据文本文档中字符之间的间距来设定，也可以根据实际需求来设定。

第七步，当间距不大于预设阈值时，将这两个字符块合并为一个字符块。

具体的，当相邻两个字符块的间距不大于预设阈值时，表明这两个字符块很可能是组成一个文字的两部分，那么将这两个字符块合并为一个字符块，这样，就得到一个完整的字符，由此也得到嵌入数字水印信息的最小单位，以使对单个文字进行水印嵌入的准确性更高。

在本发明一个可选的实施例中，计算各文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征，具体可以为：

第一步，使用图像识别算法，识别出各文字图像中的文字的连通区域数和孔洞数。

具体的，由于在图像处理中，二值图像0对应黑色，为背景，1对应白色，为前景。而实际汉字为黑色，应为前景，白色部分应为背景。因此在识别欧拉数时，文字图像是取反的，将文字的笔画部分取为前景，即文字图像为黑底白字。文字的连通区域指的是该文字中互不相连的白色笔画数，例如“洞”字的文字图像取反后，即“洞”字为黑底白字，“洞”字中互不相连的白色笔画数为6，也就是说“洞”字中的连通区域数是6。文字的孔洞数指的是文字的笔画围起来(闭曲线)的封闭区域数。在本发明中，孔洞数的识别方式可以是如下方式：在白底黑字的文字图像中，识别出其连通区域数，孔洞数为连通区域数减一。

第二步，通过连通区域数和孔洞数的差值，计算文字的欧拉数。

具体的，将识别出的连通区域的数目减去孔洞数目的差值，作为该文字的欧拉数，例如，在一副图像中孔洞数为H，物体的连通区域数为C，则欧拉数为：E＝C-H。

第三步，当欧拉数为奇数时，文字图像对应的数字特征为“1”。

具体的，将连通区域数和孔洞数的差值为奇数的所有文字图像的数字特征确定为“1”。

第四步，当欧拉数为偶数时，文字图像对应的数字特征为“0”。

具体的，将连通区域数和孔洞数的差值为偶数的所有文字图像的数字特征确定为“0”。这里，通过欧拉数的奇偶确定文字图像的数字特征，另一方面，也可以通过改变文字的欧拉数的奇偶，使文字嵌入不同的数字水印信息。

在本发明实施例中，如果数字特征与待嵌入数字水印信息不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，具体可以为：

第一步，如果数字特征与待嵌入数字水印信息不匹配，则提取文字图像中的文字骨架，并在文字骨架中确定嵌入数字水印信息的嵌入点。

具体的，骨架是体现图像连通性和拓扑结构的一种描述，在文本图像中，骨架体现了字符的最主要的信息。字符的拓扑结构反映了字符的最基本信息，因此利用骨架能够更方便地找出笔画交点。如果数字特征与待嵌入数字水印信息不匹配，则需要改变文字图像中的文字的拓扑结构。这就需要先提取文字图像中的文字骨架，并在文字骨架中确定嵌入数字水印信息的嵌入点，例如，对于当前文字“口”，应当嵌入的水印信息为“1”，然而其自身携带的信息(待嵌入水印信息)为“0”，为此需要改变它的欧拉数，首先提取“口”字的骨架，提取的骨架形为四条边粗细只有一个像素的矩形，然后在骨架中提取角点，提取到的角点为矩形的四个角，选择其中一个角点(例如右下角)，判断该角点确实为两笔画交点，则选择该点处进行笔画分割操作。这里，嵌入点为文字笔画相交的点。

第二步，对嵌入点进行膨胀，以断开文字笔画相交的点，以改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。

具体的，在文字骨架中确定嵌入数字水印信息的嵌入点之后，对嵌入点进行膨胀，以断开文字笔画相交的点，这样，断开了文字笔画相交的点，文字的连通区域或孔洞数将会改变，从而导致文字的欧拉数发生改变，通过改变文字的欧拉数的奇偶，使文字嵌入不同的数字水印信息。这种通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，能够抵抗恶意或无意的水印攻击，以使文档泄密时，能够从泄密的文档中提取出水印信息，根据水印信息确定打印文档的来源，完成泄密文档的溯源，提高了数字水印的可用性，从而提高了纸质涉密文档输出的安全性。

在本发明实施例中提供的一种用于打印文档溯源的数字水印处理方法的过程示意图，如图2所示。在图2中左边的一幅文字图像为源文字图像，中间的一幅文字图像为将左边的一幅文字图像二值化后的图像，并在二值图像上显示可嵌入水印信息的嵌入点，分别是图中白色方框所对应的点，右边的一副文字图像为改变文字拓扑结构后的文字图像。其中，右边的一副文字图像是通过中间的一幅文字图像中的嵌入点(“志”字笔画中的第二笔和第三笔作为嵌入点)的膨胀将“志”字笔画中的第二笔和第三笔断开得到的。在得到右边的一副文字图像后，在右边的一副文字图像中的“志”字中笔画中的第二笔和第三笔断开的点可以嵌入待嵌入数字水印信息。这种通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，能够抵抗恶意或无意的水印攻击，以使文档泄密时，能够从泄密的文档中提取出水印信息，根据水印信息确定打印文档的来源，完成泄密文档的溯源，提高了数字水印的可用性，从而提高了纸质涉密文档输出的安全性。

在本发明实施例中提供的一种用于打印文档溯源的数字水印处理方法的效果对比图，如图3所示，图3中上面的一行文字“这是处理方法的效果”是源文本文档，下面的一行文字是嵌入数字水印信息后的文本文档，在源文本文档中，“是”、“处”、“方”、“的”的数字特征与待嵌入数字水印信息不同，因此改变了这些文字的拓扑结构，通过图3中的上面一行文字和下面一行文字对比可以看出，“是”字笔画中的第六笔和第七笔断开了、“处”字笔画中的第一笔和第三笔断开了、“方”字笔画中的第三笔和第四笔断开了、“的”字笔画中的第一笔和第二笔断开了，通过对这些笔画相交的点即嵌入点进行膨胀，断开文字笔画相交的点，以改变文字图像中的文字的拓扑结构，从而对文字嵌入待嵌入数字水印信息。

在本发明一个可选的实施例中，提取文字图像中的文字骨架，并在文字骨架中确定嵌入数字水印信息的嵌入点，具体可以为：

第一步，利用图像形态学算法，将文字图像转换为只有一个像素连接的文字骨架。

具体的，在寻找笔画分割点(嵌入点)时，先利用图像形态学算法对文字进行骨架提取，再基于骨架找出文字笔画分割点，具体包括：保持原文字拓扑结构不变，对其提取骨架，骨架的欧拉数与原文字欧拉数一致；对文字骨架进行角点提取，提取多个角点以做备用；在提取到的角点中，选择除位于文字边缘外的任意一点，将该点作为水印嵌入点，并记录该点坐标。

另外，利用图像形态学算法将文字图像转换为只有一个像素连接的文字骨架，也就是将文字图像细化，文字图像细化一般作为一种图像预处理技术出现，目的是提取源图像的骨架，即将原图像中线条宽度大于1个像素的线条细化成只有一个像素宽，形成“骨架”，形成骨架后能比较容易的分析图像，如提取图像的特征。细化基本思想是“层层剥夺”，即从线条边缘开始一层一层向里剥夺，直到线条剩下一个像素的为止。图像细化大大地压缩了原始图像地数据量，并保持其形状的基本拓扑结构不变，从而为文字识别中的特征抽取等应用奠定了基础。

第二步，提取文字骨架的至少一个角点，将所有角点中除位于所述文字图像边缘的角点之外的任一角点作为嵌入信息的嵌入点。

具体的，每个文字骨架的角点个数不同，先通过提取文字骨架的所有角点，该角点至少为一个，然后选择所有角点中不位于文字图像边缘的角点之外的任意一个角点作为嵌入信息的嵌入点，这样，极大的提高了嵌入的数字水印的可用性。

其中，对嵌入点进行膨胀，以断开文字笔画相交的点，具体可以为：

第一步，在文字骨架中获取与嵌入点相邻的所有直线中最长的一条直线。

具体的，在文字骨架中获取与嵌入点相邻的所有直线中最长的一条直线，这样对嵌入点进行膨胀后，可以提高嵌入的数字水印的可用性。例如“扑”字的嵌入点为右边的竖和点相交的部分，如果要对嵌入点进行膨胀，来断开“扑”字右边的竖和点笔画相交的点，应该在“扑”字中获取与嵌入点相邻的所有直线中最长的一条直线，即右边的竖，而不是“扑”字右边的竖和点相交的部分将笔画竖分为上下两部分的任意一部分。

第二步，利用最长直线斜率构造结构元，通过结构元对嵌入点进行膨胀，以断开文字笔画相交的点。

具体的，利用最长直线斜率构造结构元，通过选择恰当的结构元，对原文字分割点四周的区域进行膨胀操作，膨胀后原先相连的两笔画断开，拓扑结构发生变化，欧拉数的奇偶改变，从而使汉字携带不同的水印信息。这里，结构元是根据最长直线斜率构造的。例如“口”字，欧拉数改变为“0”，需要将其欧拉数改变为“1”，则在右下角点处提取出一条最长的竖直直线，作为膨胀的结构元，通过该直线对“口”右下角进行膨胀，膨胀后横笔画与右边的竖笔画断开，则欧拉数改变为“1”。断开文字笔画相交的点时，使用膨胀的方法使文字笔画断开从而嵌入待嵌入数字水印信息，提高了嵌入的数字水印的可用性。

参见图4，图4为本发明实施例提供的一种用于打印文档溯源的数字水印处理装置的结构示意图，包括如下模块：

分割模块401，用于将文本文档转换为图像，并将图像分割成文本文档中各文字对应的文字图像；

计算模块402，用于计算各文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征；

获取模块403，用于获取各文字图像的待嵌入数字水印信息，并判断数字特征与待嵌入数字水印信息是否相匹配，其中，待嵌入数字水印信息为数字特征中的一种；

处理模块404，用于如果数字特征与待嵌入数字水印信息不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。

由此可见，本发明实施例提供的一种用于打印文档溯源的数字水印处理装置，先通过分割模块将文本文档转换为图像，并将图像分割为文字图像，然后通过计算模块计算每个文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征，再通过获取模块获取各文字图像的待嵌入数字水印信息，并判断该数字特征与待嵌入数字水印信息是否相匹配，如果不匹配，则通过处理模块改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。这种通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，能够抵抗恶意或无意的水印攻击，以使文档泄密时，能够从泄密的文档中提取出水印信息，根据水印信息确定打印文档的来源，完成泄密文档的溯源，提高了数字水印的可用性，从而提高了纸质涉密文档输出的安全性。

进一步的，所述的装置还包括：

合并模块，用于将数字特征与待嵌入数字水印信息相匹配的文字图像合并。

进一步的，分割模块401，包括：

处理子模块，用于将图像二值化，得到二值图像；

第一扫描子模块，用于从上到下逐行扫描二值图像，计算所扫描的每行图像的像素，并根据像素获取图像的水平投影；

第一分割子模块，用于利用图像中的每行文字行间的空白间隔在水平投影形成的空白空隙，将图像分割为不同行，得到行图像；

第二扫描子模块，用于从左到右扫描各行图像，计算所扫描的每行图像中的所有文字的像素，并根据像素获取图像的垂直投影；

第二分割子模块，用于利用各行图像中的文字之间的空白间隔在垂直投影形成的空白空隙，将行图像分割为单个的字符块，字符块为文本文档中各文字对应的文字图像；

合并子模块，用于当间距不大于预设阈值时，将这两个字符块合并为一个字符块。

进一步的，计算模块402，包括：

识别子模块，用于使用图像识别算法，识别出各文字图像中的文字的连通区域数和孔洞数；

计算子模块，用于通过连通区域数和孔洞数的差值，计算文字的欧拉数；

第一确定子模块，用于当欧拉数为奇数时，文字图像对应的数字特征为“1”；

第二确定子模块，用于当欧拉数为偶数时，文字图像对应的数字特征为“0”。

进一步的，处理模块404，包括：

提取子模块，用于如果数字特征与待嵌入数字水印信息不匹配，则提取文字图像中的文字骨架，并在文字骨架中确定嵌入数字水印信息的嵌入点，嵌入点为文字笔画相交的点；

膨胀子模块，用于对嵌入点进行膨胀，以断开文字笔画相交的点，以改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数。

进一步的，提取子模块，包括：

转换单元，用于利用图像形态学算法，将文字图像转换为只有一个像素连接的文字骨架；

提取单元，用于提取文字骨架的至少一个角点，将所有角点中除位于所述文字图像边缘的角点之外的任一角点作为嵌入信息的嵌入点。

进一步的，膨胀子模块，包括：

获取单元，用于在文字骨架中获取与嵌入点相邻的所有直线中最长的一条直线；

膨胀单元，用于利用最长直线斜率构造结构元，通过结构元对嵌入点进行膨胀，以断开文字笔画相交的点。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信。

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

将文本文档转换为图像，并将图像分割成文本文档中各文字对应的文字图像；

计算各文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征；

获取各文字图像的待嵌入数字水印信息，并判断数字特征与待嵌入数字水印信息是否相匹配；

如果数字特征与待嵌入数字水印信息不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由此可见，通过本发明实施例提供的一种电子设备，先将文本文档转换为图像，并将图像分割为文字图像，然后通过计算每个文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征，再判断该数字特征与待嵌入数字水印信息是否相匹配，如果不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。这种通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，能够抵抗恶意或无意的水印攻击，以使文档泄密时，能够从泄密的文档中提取出水印信息，根据水印信息确定打印文档的来源，完成泄密文档的溯源，提高了数字水印的可用性，从而提高了纸质涉密文档输出的安全性。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种用于打印文档溯源的数字水印处理方法。其中，所述的一种用于打印文档溯源的数字水印处理方法包括：

由此可见，通过本发明实施例提供的一种计算机可读存储介质，先将文本文档转换为图像，并将图像分割为文字图像，然后通过计算每个文字图像中的文字的欧拉数，并根据欧拉数的奇偶确定文字图像对应的数字特征，再判断该数字特征与待嵌入数字水印信息是否相匹配，如果不匹配，则改变文字图像中的文字的拓扑结构，并计算改变拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与待嵌入数字水印信息相匹配。这种通过文字的拓扑结构调整文字的欧拉数，来使欧拉数的数字特征与待嵌入数字水印信息相匹配的方法，能够抵抗恶意或无意的水印攻击，以使文档泄密时，能够从泄密的文档中提取出水印信息，根据水印信息确定打印文档的来源，完成泄密文档的溯源，提高了数字水印的可用性，从而提高了纸质涉密文档输出的安全性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用于打印文档溯源的数字水印处理方法，其特征在于，所述方法包括：

获取各所述文字图像的待嵌入数字水印信息，并判断所述数字特征与所述待嵌入数字水印信息是否匹配；

2.根据权利要求1所述的方法，其特征在于，所述在改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配之后，所述的方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述图像分割成所述文本文档中各文字对应的文字图像，包括：

将所述图像二值化，得到二值图像；

判断相邻两个字符块的间距是否大于预设阈值；

4.根据权利要求1所述的方法，其特征在于，所述计算各所述文字图像中的文字的欧拉数，并根据所述欧拉数的奇偶确定所述文字图像对应的数字特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述如果所述数字特征与所述待嵌入数字水印信息不匹配，则改变所述文字图像中的文字的拓扑结构，并计算改变所述拓扑结构后的文字的欧拉数，以使该欧拉数的数字特征与所述待嵌入数字水印信息相匹配，包括：

6.根据权利要求5所述的方法，其特征在于，所述提取所述文字图像中的文字骨架，并在所述文字骨架中确定嵌入数字水印信息的嵌入点，包括：

7.根据权利要求5所述的方法，其特征在于，所述对所述嵌入点进行膨胀，以断开所述文字笔画相交的点，包括：

8.一种用于打印文档溯源的数字水印处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-7任一所述的方法步骤。