CN108805787A

CN108805787A - 一种纸质文档篡改鉴真的方法和装置

Info

Publication number: CN108805787A
Application number: CN201810343739.0A
Authority: CN
Inventors: 李晓妮
Original assignee: Beijing Abb Technology Co Ltd
Current assignee: Beijing Shuke Wangwei Technology Co ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-11-13
Anticipated expiration: 2038-04-17
Also published as: CN108805787B

Abstract

本发明涉及一种纸质文档篡改鉴真的方法和装置。该方法包括：在电子文书中抽取关键的敏感数据信息并进行存储；将电子文书中的***图像进行防伪处理；将电子文书打印输出，同时在打印输出的纸质文书中嵌入水印信息；纸质文书鉴别时，将纸质文书进行数字化处理获得数字影像内容数据，利用关键的敏感数据信息和水印信息进行篡改鉴真；通过对纸质文书的***图像进行真伪鉴别，判断纸质文书是否原件。所述篡改鉴真包括初步篡改鉴真和深度篡改鉴真。本发明解决了目前纸质文档篡改鉴真领域存在的准确率低、速度慢、无法准确定位篡改位置以及纸质文档真伪鉴别等技术难题。

Description

一种纸质文档篡改鉴真的方法和装置

技术领域

本发明属于文档保护领域，涉及一种纸质文档篡改鉴真的方法和装置。

背景技术

随着金融业务的繁荣与发展，纸质载体的金融业务合同及法律文书(后续统一称为纸质文书，相应的电子文档称为电子文书)等重要文件作为契约证明而被广泛使用。但同时随着数码印刷和图像复制设备的快速普及，重要纸质文书的真实性和完整性也受到了前所未有的挑战。每年由于纸质文书被非法篡改而导致金融主体被追责造成巨大损失的案例时有发生，给社会组织和个人带来了恶劣影响。

一般情况下，纸质文书被非法篡改的途径有：合同换页打印、文字挖补叠加复印修改和扫描修改后重新打印等。针对上述问题，合同审查人员需要进行纸质文档合同的完整性和真实性鉴别。常见的方法有：1)人工逐页比对，这种方式效率低，易出错。2)基于OCR识别的图像比对。通过OCR技术将打印的纸质文档进行OCR识别，然后与电子文档中的文字内容进行比对。现有的OCR技术中会存在识别率问题，过度依赖于文字识别结果的纸质文档鉴别会存在很多的误报。3)基于二维条码的对比识别方法。具体过程为：对原电子文档进行摘要处理，得到电子文档的摘要数据；对电子文档的摘要数据进行编码处理；对编码后的摘要数据进行加密处理，得到摘要数据的摘要密文；将摘要数据的摘要密文生成二维条码图片；存储二维条码图片；当需要将电子文档打印成纸质文档时，将二维条码图片切割成与文档的总页数数目相等的局部图片；将局部图片条按顺序标号，把标号与电子文档页码相同的图片条插在相应的文档页的右边的空白处；将电子文档打印成纸质文档；当发现纸质文档与电子内容不相符时，通过验证纸质文档的摘要数据与二维条码图片的解密数据是否一致，检测出是哪一种文档被篡改。该方法的缺点较多，主要有：1)二维条码一般是不允许添加在合同文书中的，尤其不能在每一页文档中都要打印；2)验证纸质文档的摘要数据时需要事先将全页的文本进行OCR识别，同样由于OCR识别的准确率问题，摘要数据很容易发生不一致的情况；3)另外，即使判断出文档已经被非法篡改，也无法准确定位篡改位置。

发明内容

本发明提供一种基于文本数字水印的纸质文档篡改鉴真的方法和装置，通过鲁棒的文本水印算法在每页纸质文档的每个字符中嵌入关键的文档信息，来达到纸质文档内容完整性和真实性验证的目的，解决了目前纸质文档篡改鉴真领域存在的准确率低、速度慢、无法准确定位篡改位置以及纸质文档真伪鉴别等技术难题。

本发明的构思在于，首先，采用鲁棒的文本水印算法在打印的每页纸质文档中事先嵌入必要的文档关键信息，包括电子文书的文档编号、页码信息、敏感数字信息、甲乙方名称以及合同日期等；对电子文书中的***图像做防伪处理后打印输出为纸质文书；在纸质文书鉴真识别时，先将纸质文档进行数字化处理，通过文本水印识别算法进行水印信息初步提取，根据水印信息中包含的电子文书的编号调取电子文书的原始电子文档；依次从每一页文档中的每一行文字深度提取水印信息：若水印信息提取成功，则认为文档没有篡改，否则进行局部图像匹配，再次确认文档内容与电子文书相应内容是否一致；最后通过***图像真伪鉴别判断是否为原件，从而得到一种纸质文档篡改鉴真的方法和装置。

本发明中一种纸质文档篡改鉴真的方法，包括如下步骤：

步骤一，在电子文书中抽取关键的敏感数据信息并进行存储；

步骤二，将电子文书中的***图像进行防伪处理；

步骤三，将电子文书打印输出，同时在打印输出的纸质文书中嵌入水印信息；

步骤四，纸质文书鉴别时，将纸质文书进行数字化处理获得数字影像内容数据，利用关键的敏感数据信息和水印信息进行篡改鉴真；

步骤五，通过对纸质文书的***图像进行真伪鉴别，判断纸质文书是否原件。

较佳地，所述的关键的敏感数据信息，包括电子文书的唯一ID标识信息、页码信息、敏感数字信息、甲乙方名称以及合同日期中的一种或多种；

较佳地，所述的关键的敏感数据信息的存储，是指将从电子文书中抽取的关键的敏感数据信息保存在后台审计信息数据库中，或者将信息编码后保存在二维条码中，打印输出时***到纸质文档的页面中；

较佳地，所述的嵌入水印信息，是指利用不可见文本水印技术，通过修改纸质文书中的字符嵌入水印信息，包括电子文书的唯一ID标识信息和页码信息；

较佳地，所述的嵌入水印信息，所有的字符都要修改，嵌入一遍水印信息后还剩余载体字符时，水印信息会循环重复冗余嵌入；

较佳地，所述的***图像防伪处理，是指在***图像的下面叠加防复印底纹数据，底纹中隐藏了电子文书的唯一ID标识信息；

较佳地，所述篡改鉴真包括初步篡改鉴真和深度篡改鉴真。所述的初步篡改鉴真，具体方法为：

Step1.首先，在每一页数字影像内容数据中进行水印信息提取，若整篇文档都无法正确提取水印信息，则可判定为非原件，否则进行Step2；

Step2.根据水印信息中包含的电子文书的唯一ID标识信息，从电子文书后台数据中自动读取电子文书原件；

Step3.从数字影像内容数据中读取关键的敏感数据信息，与保存在后台审计信息数据库中的数据进行比对，检查是否存在不一致；若不一致，则判定纸质文书的内容进行过篡改。

较佳地，依次在每页纸质文书的数字影像内容数据中做所述的深度篡改鉴真，具体方法为：

Step1，从每一页数字影像内容数据中提取全部的水印信息；

Step2，将从初步篡改鉴真过程中提取的水印信息，依次与Step1中提取的水印信息分段比对，并将水印信息位串不一致的位置标识出来；

Step3，将水印信息位串对比不一致的位置处所对应的字符，与原始的电子文书中相应位置处的字符进行比对：若一致，则判断文档没有被篡改，否则，判断文档被篡改，同时输出篡改位置。

较佳地，所述的对***图像进行真伪鉴别，具体方法为：使用手机APP软件对纸质文书中的***图案进行拍照识别。如果可以正确识别其中的隐藏信息，则可以判断为真件；当文档被复印或者伪造后，***底纹图案会消失或者被严重破坏，再次进行识别时，会被判断为伪件。

基于同一发明构思，本发明还提供了一种纸质文档篡改鉴真的装置，包括：

数据库服务器：用于存储关键的敏感数据信息；

信息抽取模块：负责在电子文书中抽取关键的敏感数据信息并存储在数据库服务器上；

文件服务器：用于存储打印输出前的电子文书文件；

***图像处理模块：负责将电子文书中的***图像进行防伪处理；

文档打印输出模块：负责将***图像处理模块输出的电子文书打印输出，同时在打印输出的纸质文档中嵌入水印信息；

篡改鉴真模块，负责在纸质文书鉴别时，对由纸质文书进行数字化处理获得的数字影像内容数据，利用关键的敏感数据信息和水印信息进行篡改鉴真；

***图像鉴别模块：负责通过对纸质文书的***图像进行真伪鉴别来判断是否原件。

较佳地，所述篡改鉴真模块包括：

初步篡改鉴真模块，负责对由纸质文书进行数字化处理后获得的数字影像内容数据进行初步篡改鉴真；

深度篡改鉴真模块，负责依次在每页纸质文书的数字影像内容数据中做深度篡改鉴真。

本发明的有益效果如下：

由于本发明中，在不影响文档视觉效果的前提下，通过修改纸质文书中的所有字符来嵌入不可见的文本水印信息。当载体字符经过恶意篡改后，所代表的水印信息位串就会发生错误。因此，本方法不但可以准确判断纸质文档是否经过非法篡改，同时在经过篡改的前提下，可以快速准确定位篡改位置。

由于本发明中，在纸质文书的每页文档中嵌入的水印信息包含页码信息，因此可以快速自动跟电子文书的相应页面内容数据进行关联匹配，而不用人工辅助文书鉴别过程，操作过程简单。

由于本发明中，采用了文本水印方法进行文档内容完整性的验证，而不靠传统的OCR文字识别或者图像象素比对，计算方法简单，速度快，准确率高。

由于本发明中，对合同***做了防伪处理，通过***图像的真伪鉴别可以判断纸质文书是否为原件，从而有效区分了原件、复印件和伪造件。

附图说明

图1为实施例中所述的一种纸质文档篡改鉴真方法的实施流程示意图；

图2为实施例中防伪***底纹图案示意图；

图3为实施例中所述的一种纸质文档篡改鉴真的装置结构示意图。

图4为采用本发明方法实现的文档篡改鉴真的效果示意图。

具体实施方式

图1为实施例中所述的一种纸质文档篡改鉴真方法的实施流程示意图。

S101，在电子文书中抽取关键的敏感数据信息并进行存储。

一般的金融业务合同及法律文书等重要的纸质文档中都会包含很多关键的敏感数据信息，包括电子文书的唯一ID标识信息、页码信息、敏感数字信息、甲乙方名称以及合同日期中的一种或多种。这些信息非常重要，一旦被非法篡改，将会直接导致过多的经济损失和矛盾纠纷。为了更快更准地检查比对关键敏感数据信息是否经过篡改，需要事先进行存储，即将从电子文书中抽取的敏感数据信息保存在后台审计信息数据库中，或者将信息编码后保存在二维条码中，打印输出时***到纸质文档的页面中。在进行纸质文档篡改识别时，可以从二维码或者后台数据库中读取后，与正文中的相关信息进行比对检查。

S102，将电子文书中的***图像进行防伪处理。

所述的***图像防伪处理，是指在***图像的下面叠加防复印底纹数据，底纹中隐藏了电子文书的唯一ID标识信息。如图2中的(a)图所示，该底纹数据能够起到较强的防伪效果。在实际打印时防伪底纹数据比较浅，肉眼比较难以识别。用手机APP软件识别打印原件中的防伪底纹数据中的编码信息，从而判断证件文档的真伪。当证件文档被复印或者高精度扫描再打印时，防伪底纹数据就会被破坏。为了说明底纹效果，在本实施例中生成的底纹浓度相对较高。同时可以根据章的形状把底纹进行裁剪，如图2中的(b)图和(c)图分别为处理后的圆形和方形的电子***图案效果示意图。

S103，将电子文书打印输出，同时在打印输出的纸质文档中嵌入水印信息。

为了防止纸质文档的文字字符被篡改，在打印输出时，利用不可见文本水印技术，通过修改纸质文书中的字符嵌入水印信息，包括电子文书的唯一ID标识信息和页码信息。为了准确判断纸质文书是否被篡改，需要拿到原始的电子文档数据进行全面比对。通过纸质文书中嵌入的ID标识信息，可以自动从电子文书文件服务器中检索获取原始的电子文档；另外，通过每页纸质文档中嵌入的页码信息，可以做到不同页数据的自动匹配，而不用刻意在扫描时保持页码顺序或者手工辅助进行图片匹配工作。

水印信息位串的构成如表1所示，其中信息头标识了水印信息位串的开始，有效信息为上述的关键的敏感数据信息，CRC校验为信息头和有效信息合并后的位串信息的校验值，通常为16位或者32位。

表1.水印信息位串的构成

信息头	有效信息	CRC校验
			1100101100101001	10111011......11010110	1110010101001010

文本水印算法的原理为：在常见的计算机字库文件中，按照使用词频的排序从大到小选取一定数量的字符集合Ω；针对字符集Ω中的每个字符，选取字体结构中的特征点，通过对该特征点的修改生成新的字库文件，并记录特征点的位置信息；将新设计的字库文件安装在计算机终端***中，当文档被打印输出时，通过动态替换文档中的字体而嵌入水印信息；利用扫描仪、数码相机或手机拍摄隐藏有水印信息的纸质文档获得文档数字图像数据；分析文档图像中每个字符指定位置的特征点信息，判断每个字符是否包含在修改过的字体文件中，进而提取出所代表的水印信息位串。

在嵌入水印信息时，所有的字符都要修改，嵌入一遍水印信息后还剩余载体字符时，水印信息会循环重复冗余嵌入。如表2所示，水印信息嵌入后，每一个字符经过改变后代表一位的水印信息。这样就在纸质文档篡改鉴真时，如果某个字或者某几个字发生改变，其所代表的水印信息位串就会发生变化，从而能够判定为纸质文档被篡改，并快速定位到具体的篡改位置。

表2.嵌入的水印信息

S104，纸质文书鉴别时，先将纸质文书进行数字化处理获后得数字影像内容数据，并进行初步篡改鉴真。

为了快速进行纸质文书的篡改鉴真，需要通过快速双面扫描设备自动进行纸质文档扫描处理，获取每页数字化的影像内容数据后进行初步篡改鉴真操作，具体方法为：

Step1.首先，在每一页数字影像内容数据中进行水印信息提取，若整篇文档都无法正确提取水印信息，则可判定为非原件，否则进行Step2。

由于每页文档中的水印信息是循环冗余嵌入的，如果从整篇文档中都无法正确提取水印信息，基本可以判定为该页文书是经过换页打印的。

Step2.根据水印信息中包含的电子文书的唯一ID标识信息，从电子文书后台数据中自动读取电子文档原件。

由于进行纸质文书篡改鉴真时，也需要辅助进行扫描图像与原始电子文档的内容比对。这里，通过水印信息中包含的ID标识信息，即可快速在电子文书备份服务器中自动检索得到相应的电子文件。

Step3.从数字影像内容数据中读取关键的敏感数据信息，跟保存在后台审计信息数据库中的数据进行比对，检查是否存在不一致。

电子文书打印输出前，页面内容中的关键敏感数据信息经过抽取后保存在后台审计信息数据或者二维条码中。纸质文书篡改鉴真时，通过OCR识别技术在扫描的数字影像数据中提取识别关键信息，并与后台数据或者二维码中的信息进行比对。若发生不一致情况，则可以判定纸质文档内容进行过篡改，同时给出篡改前的内容数据信息。

S105，依次在每页纸质文书的数字影像内容数据中做深度篡改鉴真。

通过上述步骤可以判定每页纸质文书是否经过整体的换页打印的方式进行篡改，若没有经过换页打印篡改，则需要进一步经过深度水印信息提取，以达到局部内容完整性鉴别以及发生篡改后的位置定位，具体方法为：

Step1，从每一页数字影像内容数据中提取全部的水印信息。

如前所述，所有的字符都会经过修改后嵌入水印信息，并且会重复循环冗余嵌入。因此，为了判断每一个字符是否经过篡改，需要将每一个字符所代表的水印位串都提取出来，从而以页为单位得到一个完整的水印信息位串。如表3所示，标记为“完整串”。

表3.完整串

1	1	0	0	1	0	1	1	0	1
										1	0	1	0	0	1	1	0	0	0
1	1	0	0	1	1	1	0	0	1
										...	...	...	...	...	...	...	...	...	...
0	1	1	0	1	0	0	1	1	1
										1	0	1	1	1	0	1	0	1	1
0	1	0	1	0	0	1	0	1	0

Step2，将从初步篡改鉴真过程中提取的水印信息，依次与Step1中提取的水印信息分段比对，并将水印信息位串不一致的位置标识出来。

初步篡改鉴真过程提取的水印信息位串为一份完整的水印信息，如表4所示，其中水印信息头为“1100101100101001”。该信息标记为“标准串”，并且会在表3循环重复出现。如表5所示，将标准串与完整串一一进行按位比对，若出现了不一致，如最右上角的位串“1”(为了便于说明，将该位信息加大***显示)，原始的信息位串为“0”。通过比较可以判定，该位所在的字符可以列为疑似篡改对象，并标记相应位置。

表4.标准串

1	1	0	0	1	0	1	1	0	0
										1	0	1	0	0	1	1	0	0	0
1	1	0	0	...	1	1	0	0	1
										0	1	1	0	0	1	1	1	0	1

表5.标准串与完整串的按位比对

在进行标准串和完整串逐位信息比对时，需要分别在完整串中根据信息头的标识将整串进行分割。如果通过***或者删除字符进行篡改，则分割后的子串与原始的标准串的长度不一致。在本发明中，采用字符串编辑距离的计算方法进行标准串和分割后子串的比对。

字符串a和b的编辑距离ED(i,j)表示把字符串a转换成b所需要的最少操作次数，这些操作可以是：***一个字符、删除一个字符、替换一个字符。显然，ED(i,j)越小，a和b越相似。其中ED(i,j)的计算方法如下：

ED(i,j)＝0

ED(0,i)＝ED(i,0)＝i

如果ED(i,j)≠0，则存在非法篡改行为。

由于水印信息提取识别也可能会出现一定概率的错误，因此当水印信息位串对比不一致时，还需要比对是否为同样的字。将所有被标记为怀疑对象的字符抽取出来，分别与原始的电子文书中相应位置的字符进行比对。这里，通过该页中提取的水印信息中包含的页码信息，可以快速自动获取电子文书中特定页码的内容数据。通过比较后发现字符不一致，则可判定该字符是经过篡改。

S106，通过纸质文书***图像真伪鉴别判断是否原件。

在纸质文书中，***图像是至关重要的。相应地，***图像的真伪鉴别也非常必要，具体方法为：使用手机APP软件对纸质文书中的***图案进行拍照识别。如果可以正确识别其中的隐藏信息，则可以判断为真件；当文档被复印或者伪造后，***底纹图案会消失或者被严重破坏，再次进行识别时，会被判断为伪件。

如图3所示，基于同一发明构思，本发明还提供了一种纸质文档篡改鉴真的装置，包括：

数据库服务器1：用于存储敏感数据信息；

信息抽取模块2：负责在电子文书中抽取关键的敏感数据信息并存储在数据库服务器上；

文件服务器3：用于存储打印输出前的电子文书文件；

***图像处理模块4：负责将电子文书中的***图像进行防伪处理；

文档打印输出模块5：负责将***图像处理模块输出的电子文书打印输出，同时在打印输出的纸质文档中嵌入水印信息

初步篡改鉴真模块6：负责在纸质文书鉴别时，先将纸质文书进行数字化处理获后得数字影像内容数据，并进行初步篡改鉴真；

深度篡改鉴真模块7：负责依次在每页纸质文书的数字化的影像内容数据中做深度篡改鉴真；

***图像鉴别模块8：负责通过纸质文书***图像真伪鉴别判断是否原件。

采用本方法实现的文档篡改鉴真的效果示意图如图4所示，其中合同乙方的名字、金额以及部分条款发生了改变。本方法不但有效判断了纸质文档是否经过篡改，并且可以精确定位篡改位置，速度块，准确率高。

本发明也可以采用其它实施方式，比如基于本发明所述的方法，在原始电子文书中提取的关键的敏感数据信息本身，或者计算敏感数据信息的MD5指纹摘要后得到的数据保存在二维条码中，进行初步篡改鉴真识别时，需要比对的信息不是从后台数据库中读取，而是从二维条码中直接识读。比如基于本发明所述的方法，可以采用其他的方法进行***防伪处理，比如可以把***图像看成给一个二值图像，采用二值文本图像水印算法，结合数字签名技术，可以解决电子文档和纸制文档的真伪认证功能。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种纸质文档篡改鉴真的方法，其特征在于，包括以下步骤：

步骤二，将电子文书中的***图像进行防伪处理；

2.根据权利要求1所述的方法，其特征在于，所述关键的敏感数据信息，包括电子文书的唯一ID标识信息、页码信息、敏感数字信息、甲乙方名称以及合同日期中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，将所述关键的敏感数据信息保存在后台审计信息数据库中，或者将信息编码后保存在二维条码中，打印输出时***到纸质文档的页面中。

4.根据权利要求1所述的方法，其特征在于，所述嵌入水印信息，是利用不可见文本水印技术，通过修改纸质文书中的字符嵌入水印信息，包括电子文书的唯一ID标识信息和页码信息。

5.根据权利要求4所述的方法，其特征在于，所述嵌入水印信息，所有的字符都要修改，嵌入一遍水印信息后还剩余载体字符时，将水印信息循环重复冗余嵌入。

6.根据权利要求1所述的方法，其特征在于，所述篡改鉴真包括初步篡改鉴真，所述初步篡改鉴真包括以下步骤：

Step1.在每一页数字影像内容数据中进行水印信息提取，若整篇文档都无法正确提取水印信息，则可判定为非原件，否则进行Step2；

7.根据权利要求6所述的方法，其特征在于，所述篡改鉴真还包括深度篡改鉴真，所述深度篡改鉴真包括以下步骤：

Step1.从每一页数字影像内容数据中提取全部的水印信息；

Step2.将从初步篡改鉴真过程中提取的水印信息，依次与Step1中提取的水印信息分段比对，并将水印信息位串不一致的位置标识出来；

Step3.将水印信息位串对比不一致的位置处所对应的字符，与原始的电子文书中相应位置处的字符进行比对：若一致，则判断文档没有被篡改，否则，判断文档被篡改，同时输出篡改位置。

8.根据权利要求1所述的方法，其特征在于，对所述***图像进行防伪处理，是指在***图像的下面叠加防复印底纹数据，底纹中隐藏电子文书的唯一ID标识信息；对所述***图像进行真伪鉴别，是使用手机APP软件对纸质文书中的***图案进行拍照识别，如果能够正确识别其中的隐藏信息，则判断为真件，否则判断为伪件。

9.一种纸质文档篡改鉴真的装置，其特征在于，包括：

数据库服务器，负责存储关键的敏感数据信息；

信息抽取模块，负责在电子文书中抽取关键的敏感数据信息并存储在数据库服务器上；

文件服务器，负责存储打印输出前的电子文书文件；

***图像处理模块，负责将电子文书中的***图像进行防伪处理；

文档打印输出模块，负责将***图像处理模块输出的电子文书打印输出，同时在打印输出的纸质文档中嵌入水印信息；

***图像鉴别模块，负责通过对纸质文书的***图像进行真伪鉴别来判断是否原件。

10.根据权利要求9所述的装置，其特征在于，所述篡改鉴真模块包括：