CN112053275A

CN112053275A - 抗打印扫描攻击的pdf文档水印方法及装置

Info

Publication number: CN112053275A
Application number: CN202010677029.9A
Authority: CN
Inventors: 王道顺; 刘景财; 刘乃熙; 贾星星; 巩林明
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-12-08
Anticipated expiration: 2040-07-14
Also published as: CN112053275B

Abstract

本申请公开了一种抗打印扫描攻击的PDF文档水印方法及装置，其中，方法包括以下步骤：对初始PDF文档进行解析分析，得到初始PDF文档的文本行距信号；将预设水印信息嵌入到文本行距信号中，生成含有水印的行距信号；基于含有水印的行距信号由初始PDF文档生成最终PDF文档；根据最终PDF文档生成文档图像，从文档图像中检测文本行的边界框，并计算最终PDF图像的行距信号，以提取得到水印信息。本申请实施例通过引入文本检测技术不仅可以准确地计算出行距信号，而且能够补偿由打印扫描过程引入的大多数攻击。

Description

抗打印扫描攻击的PDF文档水印方法及装置

技术领域

本申请涉及文本水印技术领域，特别涉及一种抗打印扫描攻击的PDF(PortableDocument Format，便携式文档格式)文档水印方法及装置。

背景技术

打印扫描攻击是指含有水印的文本文档通过打印机输出复印件，然后再经过扫描仪生成文本文档图像的过程。实际上，打印扫描攻击是文本水印中常见的一种复合攻击类型，即由多种类型的攻击组合而成，主要包括噪声攻击、非线性攻击(如伽玛校正和数字半色调)、几何攻击(如旋转、缩放、裁剪)等。

因此，这就要求抗打印扫描攻击的数字水印算法必须对以上这些攻击具有较高的鲁棒性。

申请内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一目的在于提出一种抗打印扫描攻击的PDF文档水印方法，该方法通过引入文本检测技术不仅可以准确地计算出行距信号，而且能够补偿由打印扫描过程引入的大多数攻击。

本申请的第二个目的在于提出一种抗打印扫描攻击的PDF文档水印装置。

为达到上述目的，本申请第一方面实施例提供一种抗打印扫描攻击的PDF文档水印方法，包括以下步骤：对初始PDF文档进行解析分析，得到所述初始PDF文档的文本行距信号；将预设水印信息嵌入到文本行距信号中，生成含有水印的行距信号；基于所述含有水印的行距信号由所述初始PDF文档生成最终PDF文档；根据所述最终PDF文档生成文档图像，从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，以提取得到水印信息。

根据本申请实施例的抗打印扫描攻击的PDF文档水印方法，通过分析打印扫描过程引入的多种攻击，利用文本检测技术补偿打印扫描过程所产生的多种攻击，并尽可能准确地从打印扫描后生成的文档图像中计算出行距信号，提高PDF文档水印算法的鲁棒性。

另外，根据本申请上述实施例的抗打印扫描攻击的PDF文档水印方法还可以具有以下附加的技术特征：

在本申请的一个实施例中，还包括：对所述行距信号基于预设优化量化步长的策略进行量化处理，以抵抗固定增益攻击。

在本申请的一个实施例中，在从所述文档图像中检测文本行的边界框之前，还包括：检测待文本检测的要求；根据所述要求判断符合基于滑动窗口分类文本检测方式或者基于连接成分分析文本检测方式。

在本申请的一个实施例中，在符合所述基于滑动窗口分类文本检测方式时，所述从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，包括：利用多种尺度的窗口在所述文档图像上滑动，且通过分类器将每个窗口标划分为文本段窗口或非文本段窗口；对所述文本段窗口执行形态学操作，确定文本区域。

在本申请的一个实施例中，在符合所述基于连接成分分析文本检测方式时，所述从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，包括：提取所述文档图像的文本字符；基于所述文本字符合成文本片段，并且过滤所述文本片段中非文本段，以将过滤的文本片段合成文本行。

为达到上述目的，本申请第二方面实施例提供一种抗打印扫描攻击的PDF文档水印装置，包括：解析模块，用于对初始PDF文档进行解析分析，得到所述初始PDF文档的文本行距信号；嵌入模块，用于将预设水印信息嵌入到文本行距信号中，生成含有水印的行距信号；生成模块，用于基于所述含有水印的行距信号由所述初始PDF文档生成最终PDF文档；提取模块，用于根据所述最终PDF文档生成文档图像，从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，以提取得到水印信息。

根据本申请实施例的抗打印扫描攻击的PDF文档水印装置，通过分析打印扫描过程引入的多种攻击，利用文本检测技术补偿打印扫描过程所产生的多种攻击，并尽可能准确地从打印扫描后生成的文档图像中计算出行距信号，提高PDF文档水印算法的鲁棒性。

在本申请的一个实施例中，还包括：处理模块，用于对所述行距信号基于预设优化量化步长的策略进行量化处理，以抵抗固定增益攻击。

在本申请的一个实施例中，还包括：检测模块，用于在从所述文档图像中检测文本行的边界框之前，检测待文本检测的要求；判断模块，用于根据所述要求判断符合基于滑动窗口分类文本检测方式或者基于连接成分分析文本检测方式。

在本申请的一个实施例中，在符合所述基于滑动窗口分类文本检测方式时，所述提取模块进一步用于利用多种尺度的窗口在所述文档图像上滑动，且通过分类器将每个窗口标划分为文本段窗口或非文本段窗口，并对所述文本段窗口执行形态学操作，确定文本区域。

在本申请的一个实施例中，在符合所述基于连接成分分析文本检测方式时，所述提取模块进一步用于提取所述文档图像的文本字符，并基于所述文本字符合成文本片段，并且过滤所述文本片段中非文本段，以将过滤的文本片段合成文本行。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种抗打印扫描攻击的PDF文档水印方法的流程图；

图2为根据本申请一个实施例提供的一种抗打印扫描攻击的PDF文档水印方法的流程图；

图3为根据本申请实施例提供的对固定增益攻击和高斯噪声攻击的鲁棒性示意图；

图4为根据本申请实施例提供的对高斯噪声的鲁棒性分析示意图；

图5为根据本申请实施例提供的文本检测流程及效果示意图；

图6为根据本申请实施例的抗打印扫描攻击的PDF文档水印装置的示例图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请希望通过优化两种基于量化索引调制的PDF文档水印算法，使其对打印扫描攻击具有较好的鲁棒性。两种基于量化索引调制的PDF文档水印算法，是利用行移技术来编码水印信息的。因此，水印提取算法必须能够从打印扫描后生成的文档图像中准确地计算出文本行距信息。为了解决这个问题，本申请实施例提出了一种基于文本检测技术的抗打印扫描攻击的PDF文档水印算法及装置。

下面参照附图描述根据本申请实施例提出的抗打印扫描攻击的PDF文档水印方法及装置，首先将参照附图描述根据本申请实施例提出的抗打印扫描攻击的PDF文档水印方法。

具体而言，图1为本申请实施例所提供的一种抗打印扫描攻击的PDF文档水印方法的流程示意图。

如图1所示，该抗打印扫描攻击的PDF文档水印方法包括以下步骤：

在步骤S101中，对初始PDF文档进行解析分析，得到初始PDF文档的文本行距信号。

可以理解的是，如图2所示，PDF文档经解析器分析得到文本行距信号x。

在步骤S102中，将预设水印信息嵌入到文本行距信号中，生成含有水印的行距信号。

可以理解的是，如图2所示，由嵌入器将水印信息m嵌入到x中，得到含有水印的行距信号。

在步骤S103中，基于含有水印的行距信号由初始PDF文档生成最终PDF文档。

可以理解的是，如图2所示，经过生成器输出含有水印的PDF文档。

在步骤S104中，根据最终PDF文档生成文档图像，从文档图像中检测文本行的边界框，并计算最终PDF图像的行距信号，以提取得到水印信息。

可以理解的是，如图2所示，含有水印的PDF文档经过打印机和扫描仪的处理生成文档图像I，由文本检测器从文档图像I中检测出文本行的边界框，进而计算出行距信号，经提取器得到水印信息m。

本申请实施例引入文本检测技术不仅可以准确地计算出行距信号，而且能够补偿由打印扫描过程引入的大多数攻击，除了缩放攻击。实际上，缩放攻击经过文本检测器处理后转换成了固定增益攻击(Fixed Gain Attack)，即打印扫描处理后得到的文档图像的尺寸会发生缩放，导致文本检测器计算出的行距相对于原始文档行距可能放大或是缩小某个固定的倍数。同时，文本检测器由于存在误差也会引入噪声攻击。

因此，本申请实施例将打印扫描攻击转化成两个独立的问题：一是改进PDF文档水印算法，使其对固定增益攻击具有足够的鲁棒性；二是开发或实现一种对噪声攻击、非线性攻击和几何攻击具有较好鲁棒性的高精度的文本检测算法。下面将分别进行详细阐述，具体如下：

在本申请的一个实施例中，还包括：对行距信号基于预设优化量化步长的策略进行量化处理，以抵抗固定增益攻击。

具体而言，固定增益攻击是指接收端收到的载体信号(如行距信号)被乘上一个缩放因子ρ>0，即：

基于量化索引调制及其改进技术的水印算法对固定增益攻击的鲁棒性很弱，这是因为缩放之后的信号很容易偏离原始量化单元。实际上，目前已有不少研究者对基于量化索引调制及其改进技术的水印算法进行优化，以使其能够抵抗固定增益攻击，但是这些算法几乎都是针对图像水印算法，利用Watson感知模型来优化量化步长或嵌入器和提取器表达形式。本申请实施例的算法选择优化量化步长Δ的方式来实现抵抗固定增益攻击，同时保持算法的自适应性，以基于STDM(Statistical Time Division Multiplexing，统计时分多路复用)的PDF文档水印算法为例，其自适应函数的表达式为：

其中，p＝x^Tv是载体信号中第i个子信号x沿向量v的投影，y^i-1是载体信号中第i-1个子信号的输出信号，||y^i-1||_ε是l_ε范数(虽然严格意义上不能称作范数)，即：

其中，L是载体信号分成的不重叠的子信号的长度，H是水印比特的长度，yⁱ是载体信号中第i个子信号的输出信号，为了简化公式的书写形式，在后面的公式推导中将其上标省略。

在只有固定增益攻击的情况下，由公式1可知：

则：

从公式4可知，本申请实施例算法从未受到攻击的输出信号y和受到固定增益攻击后的失真信号中提取出的水印比特是相同的，这就确保了本申请实施例算法在固定增益攻击下的准确性和有效性，下面的问题就是求解β的取值。此时，

所以

令

则公式7可简化为：

进一步地，与基于STDM的PDF文档水印算法类似，基于DM的PDF文档水印算法的自适应函数的表达式为：

其中，x_k是载体信号中第i个子信号x的第k个样本点。同样可以证明，上面的自适应函数对于固定增益攻击是有效的。

基于量化的水印算法RDM(Rational Dither Modulation，比率抖动调制)对固定增益攻击具有很强的鲁棒性，但是对高斯噪声的鲁棒性却很差，如图3所示，本申请实施例提出的两种改进算法STDM-SF和DM-SF对固定增益攻击和高斯噪声攻击的鲁棒性都很强，但是相比传统的STDM算法和改进前算法STDM-SA和DM-SA而言，本申请实施例提出的两种改进算法对高斯噪声攻击的鲁棒性有所下降。

图4显示了以上算法对高斯噪声的鲁棒性随最大失真变化的趋势，有图4可知，在最大失真相同的情况下，基于DM的PDF文档水印算法比基于STDM算法的平均失真都要大，而且本申请实施例提出的两种改进算法比其改进前算法的平均失真都要小，这也是本申请实施例改进算法对高斯噪声的鲁棒性下降的原因。此外，当MXAE小于0.6时，算法STDM-SF对高斯噪声的鲁棒性比算法DM-SF更好，当MXAE大于0.6时，算法DM-SF的鲁棒性更好。

进一步地，在本申请的一个实施例中，在从文档图像中检测文本行的边界框之前，还包括：检测待文本检测的要求；根据要求判断符合基于滑动窗口分类文本检测方式或者基于连接成分分析文本检测方式。

需要说明的是，近些年，场景文本检测技术得到了广泛地研究，特别是随着深度学习技术的兴起，许多研究人员利用现有成熟的深度模型或针对特定文本检测任务开发的深度模型，在复杂的场景图像中定位文本区域的位置。基于深度学习的文本检测方法最大的优势是自动特征学习可使研究人员免于设计和测试大量潜在的手工特征。但是考虑到深度学习方法的复杂性高、计算效率低，而且扫描后得到的PDF文本文档图像相比于复杂的场景图像而言背景颜色单一、文本形状规整,因此本文中使用传统的方法实现文本检测任务。

其中，传统场景文本检测技术大致可分为基于滑动窗口分类(Sliding WindowClassification)的文本检测和基于连接成分分析(Connected Component Analysis)的文本检测两类。

在本申请的一个实施例中，在符合基于滑动窗口分类文本检测方式时，从文档图像中检测文本行的边界框，并计算最终PDF图像的行距信号，包括：利用多种尺度的窗口在文档图像上滑动，且通过分类器将每个窗口标划分为文本段窗口或非文本段窗口；对文本段窗口执行形态学操作，确定文本区域。

具体而言，基于滑动窗口分类的文本检测首先使用多种尺度的窗口在输入图像上滑动，且通过分类器将每个窗口标记为文本段或非文本段，然后通过形态学操作将标记为文本段的窗口组成文本区域。该方法的优点在于简单和自适应的训练检测架构。然而，当使用复杂的分类方法并且需要对大量的窗口进行分类时，计算代价会非常高。基于连接成分分析的文本检测采用一种自下而上的方法，通过不断地将较小的文本成分连接成较大的文本成分来获得所有的文本区域。该方法使用手动设计的规则或自动训练的分类器过滤掉从场景图像中提取出的非文本成分。一般而言，基于连接成分分析的文本检测方法计算效率更高，因为需要处理的文本成分的数量相对较少，而且文本的旋转、缩放和字体变化对其影响不大。

在本申请的一个实施例中，在符合基于连接成分分析文本检测方式时，从文档图像中检测文本行的边界框，并计算最终PDF图像的行距信号，包括：提取文档图像的文本字符；基于文本字符合成文本片段，并且过滤文本片段中非文本段，以将过滤的文本片段合成文本行。

具体而言，本申请实施例使用的文本检测算法是基于连接成分分析方法实现的，其步骤如下：

(1)提取文本字符：MSER(Maximally Stable Extremal Regions，最大稳定极值区域)是一种用于提取视频和自然场景图像中候选文本连接成分(字符或字符的某个部分)的有效方法。假设灰度图像I中低于某个阈值的像素记为“黑色”，而高于或等于该阈值的像素记为“白色”，则随着阈值由小变大，将看到图像I由“全白”逐渐变化为“全黑”的过程。在阈值的某个变化范围内，图像I中存在某些保持不变的区域，这些区域都是极值区域，因为这些区域内的像素强度比区域外的像素高(或低)。图像I中随着阈值变化而保持不变的最大极值区域的集合被定义为MSER。由于PDF文档图像中文本和背景的对比度比较大，因此MSER非常适合于提取PDF文档中的候选文本字符，如图5中的(b)所示。

(2)构造文本段：利用聚类的方法将提取出的候选文本字符合成文本片段，然后通过分类器过滤掉非文本段。本申请实施例使用的文本检测算法同样利用聚类方法来构造文本段，但是通过对提取出的候选文本字符的中心坐标进行空间聚类实现的，如图5中的(c)和(d)所示。

(3)过滤非文本段：构造出的文本段中可能包含一些与文本特征相似的非文本片段(如背景)，可通过分类器或某些规则将非文本段过滤掉。设计规则时可以根据PDF文档中文本的几何特征，过滤掉某些特殊形状的文本段，如宽高比、面积占比很大或很小的文本段，因此使用规则过滤非文本段也被称为几何过滤[50，54]。

(4)构造文本行：打印扫描后得到的文档图像可能会产生一定的旋转角度，因此我们通过投影聚类方法将文本段合成文本行。首先对过滤后得到的宽高比较大的文本段进行分析，计算出文档的旋转角度；然后将所有文本段的中心点坐标沿旋转角度方向进行投影；最后对得到的投影数据进行聚类，从而构造出文本行，如图5中的(e)和(f)所示。

下面将对抗打印扫描攻击的PDF文档水印方法具体应用的实验结果及性能进行分析，具体如下：

本申请实施例所提出改进的PDF文档水印算法使用的基础量化器和抖动信号为：

水印信号和投影向量都是随机生成的。本申请实施例使用WPS 2019编辑文本文档，然后输出为PDF格式，其中文本字体为宋体五号字，行距为22磅，受PDF文档长度的限制，水印比特长度为H＝11，子信号长度为L＝8。实验中使用的打印机和扫描仪为AURORAAD220MC黑白激光多功能一体机，打印机保持默认设置，扫描仪输出格式为JPG图像，颜色为灰色，DPI为300。实验结果如表1所示，其中，表1为打印扫描攻击实验结果表。

表1

本申请实施例分别测试了STDM-SF、DM-SF和RDM三种算法在多种失真条件下对打印扫描攻击的鲁棒性。由表1可知，在最大(或平均)失真较大时，三种算法对打印扫描攻击的鲁棒性都很强。但是随着最大(或平均)失真逐渐降低，即水印的不可感知性逐渐升高，RDM算法的鲁棒性下降最严重，在最差的情况下，错误率超过了50％，因为算法RDM对高斯噪声的鲁棒性很差，当文本文档的失真很小时，很容易受到文本检测器检测误差的干扰，该算法的优势是水印嵌入容量很高；其次是DM-SF算法，在最大失真MXAE为0.1时，错误率为40％左右，因为DM-SF算法在最大失真很小时对高斯噪声的鲁棒性也较差，如图5中的(b)所示；STDM-SF算法是三种算法中性能最好的，在各种失真下水印错误比特数(EB)始终为0。以上三种算法在最大失真为1的情况下，水印的不可感知性也足够好，人眼很难察觉到含有水印的PDF文档与原始文档之间的差异。

综上，本申请实施例的抗打印扫描攻击的PDF文档水印方法，通过分析打印扫描过程引入的多种攻击，利用文本检测技术补偿打印扫描过程所产生的多种攻击，并尽可能准确地从打印扫描后生成的文档图像中计算出行距信号，提高PDF文档水印算法的鲁棒性；并且，为了解决计算出的行距信号相对于原始文本文档行距信号会放大或缩小某个固定的倍数的问题，提出两种对固定增益攻击具有足够鲁棒性的PDF文档水印改进算法，且根据实验结果表明，提出的PDF文档水印方案对打印扫描攻击具有很强的鲁棒性。

其次参照附图描述根据本申请实施例提出的抗打印扫描攻击的PDF文档水印装置。

图6是本申请实施例的抗打印扫描攻击的PDF文档水印装置的方框示意图。

如图6所示，该抗打印扫描攻击的PDF文档水印装置10包括：解析模块100、嵌入模块200、生成模块300和提取模块400。

其中，解析模块100用于对初始PDF文档进行解析分析，得到初始PDF文档的文本行距信号；嵌入模块200用于将预设水印信息嵌入到文本行距信号中，生成含有水印的行距信号；生成模块300用于基于含有水印的行距信号由初始PDF文档生成最终PDF文档；提取模块400用于根据最终PDF文档生成文档图像，从文档图像中检测文本行的边界框，并计算最终PDF图像的行距信号，以提取得到水印信息。本申请实施例的装置10通过引入文本检测技术不仅可以准确地计算出行距信号，而且能够补偿由打印扫描过程引入的大多数攻击。

在本申请的一个实施例中，本申请实施例的装置10还包括：处理模块。其中，处理模块用于对行距信号基于预设优化量化步长的策略进行量化处理，以抵抗固定增益攻击。

在本申请的一个实施例中，本申请实施例的装置10还包括：检测模块和判断模块。其中，检测模块用于在从文档图像中检测文本行的边界框之前，检测待文本检测的要求；判断模块用于根据要求判断符合基于滑动窗口分类文本检测方式或者基于连接成分分析文本检测方式。

在本申请的一个实施例中，在符合基于滑动窗口分类文本检测方式时，提取模块400进一步用于利用多种尺度的窗口在文档图像上滑动，且通过分类器将每个窗口标划分为文本段窗口或非文本段窗口，并对文本段窗口执行形态学操作，确定文本区域。

在本申请的一个实施例中，在符合基于连接成分分析文本检测方式时，提取模块400进一步用于提取文档图像的文本字符，并基于文本字符合成文本片段，并且过滤文本片段中非文本段，以将过滤的文本片段合成文本行。

需要说明的是，前述对抗打印扫描攻击的PDF文档水印方法实施例的解释说明也适用于该实施例的抗打印扫描攻击的PDF文档水印装置，此处不再赘述。

根据本申请实施例提出的抗打印扫描攻击的PDF文档水印装置，通过分析打印扫描过程引入的多种攻击，利用文本检测技术补偿打印扫描过程所产生的多种攻击，并尽可能准确地从打印扫描后生成的文档图像中计算出行距信号，提高PDF文档水印算法的鲁棒性；并且，为了解决计算出的行距信号相对于原始文本文档行距信号会放大或缩小某个固定的倍数的问题，提出两种对固定增益攻击具有足够鲁棒性的PDF文档水印改进算法，且根据实验结果表明，提出的PDF文档水印方案对打印扫描攻击具有很强的鲁棒性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种抗打印扫描攻击的PDF文档水印方法，其特征在于，包括以下步骤：

对初始PDF文档进行解析分析，得到所述初始PDF文档的文本行距信号；

将预设水印信息嵌入到文本行距信号中，生成含有水印的行距信号；

基于所述含有水印的行距信号由所述初始PDF文档生成最终PDF文档；

根据所述最终PDF文档生成文档图像，从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，以提取得到水印信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

对所述行距信号基于预设优化量化步长的策略进行量化处理，以抵抗固定增益攻击。

3.根据权利要求1所述的方法，其特征在于，在从所述文档图像中检测文本行的边界框之前，还包括：

检测待文本检测的要求；

根据所述要求判断符合基于滑动窗口分类文本检测方式或者基于连接成分分析文本检测方式。

4.根据权利要求3所述的方法，其特征在于，在符合所述基于滑动窗口分类文本检测方式时，所述从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，包括：

利用多种尺度的窗口在所述文档图像上滑动，且通过分类器将每个窗口标划分为文本段窗口或非文本段窗口；

对所述文本段窗口执行形态学操作，确定文本区域。

5.根据权利要求3所述的方法，其特征在于，在符合所述基于连接成分分析文本检测方式时，所述从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，包括：

提取所述文档图像的文本字符；

基于所述文本字符合成文本片段，并且过滤所述文本片段中非文本段，以将过滤的文本片段合成文本行。

6.一种抗打印扫描攻击的PDF文档水印装置，其特征在于，包括：

解析模块，用于对初始PDF文档进行解析分析，得到所述初始PDF文档的文本行距信号；

嵌入模块，用于将预设水印信息嵌入到文本行距信号中，生成含有水印的行距信号；

生成模块，用于基于所述含有水印的行距信号由所述初始PDF文档生成最终PDF文档；

提取模块，用于根据所述最终PDF文档生成文档图像，从所述文档图像中检测文本行的边界框，并计算所述最终PDF图像的行距信号，以提取得到水印信息。

7.根据权利要求6所述的装置，其特征在于，还包括：

处理模块，用于对所述行距信号基于预设优化量化步长的策略进行量化处理，以抵抗固定增益攻击。

8.根据权利要求6所述的装置，其特征在于，还包括：

检测模块，用于在从所述文档图像中检测文本行的边界框之前，检测待文本检测的要求；

判断模块，用于根据所述要求判断符合基于滑动窗口分类文本检测方式或者基于连接成分分析文本检测方式。

9.根据权利要求8所述的装置，其特征在于，在符合所述基于滑动窗口分类文本检测方式时，所述提取模块进一步用于利用多种尺度的窗口在所述文档图像上滑动，且通过分类器将每个窗口标划分为文本段窗口或非文本段窗口，并对所述文本段窗口执行形态学操作，确定文本区域。

10.根据权利要求8所述的装置，其特征在于，在符合所述基于连接成分分析文本检测方式时，所述提取模块进一步用于提取所述文档图像的文本字符，并基于所述文本字符合成文本片段，并且过滤所述文本片段中非文本段，以将过滤的文本片段合成文本行。