CN114708133B - 一种通用的文本水印方法和装置 - Google Patents

一种通用的文本水印方法和装置 Download PDF

Info

Publication number
CN114708133B
CN114708133B CN202210100368.XA CN202210100368A CN114708133B CN 114708133 B CN114708133 B CN 114708133B CN 202210100368 A CN202210100368 A CN 202210100368A CN 114708133 B CN114708133 B CN 114708133B
Authority
CN
China
Prior art keywords
watermark
information
file
characters
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210100368.XA
Other languages
English (en)
Other versions
CN114708133A (zh
Inventor
李公宝
丛升日
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoyin Technology Co ltd
Original Assignee
Beijing Guoyin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoyin Technology Co ltd filed Critical Beijing Guoyin Technology Co ltd
Priority to CN202210100368.XA priority Critical patent/CN114708133B/zh
Publication of CN114708133A publication Critical patent/CN114708133A/zh
Application granted granted Critical
Publication of CN114708133B publication Critical patent/CN114708133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种通用的文本水印方法和装置。该方法的步骤包括:根据特定策略对选定字库中一定数目的字符进行分组;根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;生成用户终端水印编码数据,用以标识用户终端的身份认证信息;依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息;获取隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。本发明的文本水印方法的通用性强,兼容性好,稳定性高,水印信息嵌入过程简单。

Description

一种通用的文本水印方法和装置
技术领域
本发明属于文档保护和图像处理技术领域,涉及一种数字水印的嵌入与提取方法和装置,尤其涉及了一种通用的文本水印方法和装置。
背景技术
随着电子商务及电子政务的发展,企事业单位、党政机关以及国家安全等有关部门将处理大量的文字材料,这其中包括合约、涉密等重要文件。研究这些文本文件的版权保护和内容安全是一个重要问题,数字水印技术为上述问题的解决提供了一种途径。另外,很多文本文件不仅以数字形式存在,还会通过打印、复印等途径以纸张的形式传播。而随着数字化技术的迅猛发展,这种方式已经变得相当普遍,这也使得很多重要或者机密信息极易以纸质文件打印输出或电子文件屏幕显示为传播途径而泄漏出去。因此,研究基于文本文件的能够抵抗打印扫描和屏幕拍摄的数字水印技术显得尤为重要。
在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。因此,水印信息的实时加载是基于字体替换的文本水印技术的关键步骤。目前主要通过以下方式实现字库的加载和水印信息嵌入:1)通过钩子HOOK技术。为了能够实时替换字体信息,需要事先获取文本文件的内容数据。一般通过***钩子来截获文件的特定操作,然后获取中间格式文件数据,进行字体替换操作后完成水印信息嵌入,最后再执行正常文件操作。比如通过HOOK电子文本文件的打印操作,可以完成在文档正常打印输出的过程中实时嵌入水印信息;或者在截获文件的打开操作,完成特定文件格式内容数据的解析,并执行字体类型替换嵌入水印信息,最后再打开嵌入水印信息的电子文件。2)通过软件插件机制。为了能够在特定的文件格式内容中替换字库并嵌入水印信息,可以开发相应的软件插件模块完成文件内容解析。比如基于微软Office办公软件的VBA(Visual Basic forApplications)宏或者VSTO(Visual Studio Tools for Office)技术,实现Doc、Docx、Excel或PPT等常见办公格式文件中的水印信息嵌入。当上述格式的电子文件被打开或者打印输出时,office插件会调用软件***提供的接口完成对电子文件内容解析和修改,从而进行字库类型替换后完成水印信息嵌入。
但是上述方法都存在很多问题和缺陷:1)通用差的问题。比如基于HOOK技术可以很好地完成文件打印操作过程中的水印信息嵌入,但是很难截获电子文件的屏幕显示操作,无法在屏幕显示内容中实时进行水印信息嵌入;而基于软件插件机制的嵌入方法又跟特定的软件***相关,并不是所有的软件***都提供了二次开发接口,相关的局限性更大。2)另外现有方法的实现过程比较复杂,尤其基于网页浏览器的插件开发难度更大。3)使用HOOK技术的稳定性较差,跟***软件的兼容性问题较多,安全性能较低。4)目前的水印嵌入算法针对每一页文档数据采用顺序冗余的方式进行水印嵌入,这就要求水印信息内容具有局部完整性。因此,水印算法抵抗裁剪、揉搓、污损和撕裂等恶意攻击的性能比较差。针对上述问题,本发明提供了一种通用性的文本水印解决方案。
发明内容
本发明提供一种基于动态字库生成的通用性文本水印嵌入和提取的方法和装置,在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、***稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题。
本发明的构思在于,首先,根据特定策略将选定字库中一定数目的字符进行均匀分组,每个分组中的所有字符都代表相同的水印信息位串;根据特定规则对每个分组中的所有字符进行变形设计,分别得到每个字符所对应的多个水印字符轮廓曲线数据,并生成水印字符数据临时文件;根据特定规则生成用户终端水印编码数据,用以标识用户终端的身份认证信息;根据水印编码数据,通过水印字符数据临时文件动态生成水印字库文件,该水印字库文件跟***安装的同名字库文件具有相同属性;实时加载水印字库文件并替换***安装的同名字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中实时嵌入水印信息;获取隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。从而得到了一种通用的文本水印嵌入和提取的方法和装置。
本发明中一种通用的文本水印方法,包括文本水印嵌入和提取方法,其中文本水印嵌入包括如下步骤:
步骤一,根据特定策略对选定字库中一定数目的字符进行分组;
步骤二,根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;
步骤三,生成用户终端水印编码数据,用以标识用户终端的身份认证信息;
步骤四,依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;
步骤五,运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。
进一步地,该方法还包括文本水印提取步骤,即步骤六:获取隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。
较佳地,所述的对选定字库中一定数目的字符进行分组的方法为:
首先,按照字频统计结果从高到低对常见字符进行排序,并获取前N个字符组成水印字符集
Figure BDA0003492152240000031
接着,将N个字符初步划分为M组,该M组记为{Ω11,…,ΩM},其中M<N,并且使得任意的
Figure BDA0003492152240000032
0<i,j≤M,i≠j,
Figure BDA0003492152240000033
具体分组过程为:
Step1.先按照字频顺序选取前M个字符
Figure BDA0003492152240000034
依次分到{Ω11,…,ΩM}个各组中,每个分组中增加一个字符;
Step2.再次选取M个字符
Figure BDA0003492152240000035
按照相反的顺序{ΩMM-1,…,Ω1}依次在每个分组中增加一个字符;
Step3.重复执行Step1和Step2直至N个字符分组完毕。
然后,随机选取一定数量的文本训练语料,并将每一份文本训练语料的字符数固定在t个;
最后,统计所有分组{Ω11,…,ΩM}中的字符在t个文本训练语料中出现的概率,并根据概率分布对分组结果进行优化得到最终的分组{Ω′1,Ω′2,…,Ω′M}。
较佳地,所述的根据概率分布对分组结果进行优化得到最终的分组,方法为:
Step1,计算每个分组Ωi,1≤i≤M中的字符在t个文本训练语料中出现的概率,并将所有的概率按照从大到小的顺序进行排序;
Step2,从概率最高的分组中取出字频最小的字符移动到概率最低的分组中,从概率次高的分组中取出字频次小的字符移动到概率次低的分组中,依次重复该过程直至移动全部完成;
Step3,再次重复执行Step1和Step2,直至所有分组的概率方差达到最小,从而得到最终的分组{Ω′1,Ω′2,…,Ω′M}。
较佳地,所述的对每个分组中的所有字符进行变形设计,是指将字符的矢量轮廓曲线数据进行调整得到d个不同的变形,d≥2,不同的轮廓曲线变形代表不同的水印信息位串;
较佳地,所述的水印信息位串,每个分组中的所有字符都代表相同的水印信息位串。
较佳地,所述的生成水印字符数据临时文件,是指将设计生成的字符变形轮廓曲线数据连同字符属性描述信息一起保存在临时文件中,字符属性描述信息包括字体框的宽度、字体框的高度、每个字形在字体框中的偏移量,其中偏移量会随着字形结构的不同从而发生变化。
较佳地,所述的生成用户终端水印编码数据,水印编码数据包括用户终端的身份认证信息和时间信息,具体生成方法包括手工指定和自动分配方式。
较佳地,所述的自动分配方式,方法为:
Step1.在***后台创建用户终端身份标识信息记录表,信息内容包括用户ID、用户登录账号、机器MAC地址、机器IP地址信息,其中用户ID是后台***自动分配并自增的,其余信息为客户端监控程序自动提交。
Step2.运行客户端监控程序,自动获取用户终端身份标识信息并上传至***后台,当上传的标识信息在***后台数据库记录表中存在时,则直接返回用户ID信息,否则,在***后台数据库中增加一条新的记录,并将用户ID加1后返回给客户端。
Step3.客户端监控程接收到***后台返回的用户ID信息后,实时读取***操作时间,将用户ID信息和时间信息进行纠错编码化处理后得到最终的用户终端水印编码数据。
较佳地,所述的纠错编码化处理,是指针对长度Len的水印信息位串,Len为8的倍数,采用奇偶校验的方式进行水印信息纠错编码处理后得到完整的水印编码数据,具体过程为:将水印信息位串排成Len/8行、8列的矩阵;计算每一列信息的奇偶检验码构成第Len/8+1行,则有效的信息码与校验码的总长度是Len+8。
较佳地,所述的动态生成并实时加载水印字库文件,动态生成水印字库文件是指打开水印字符数据临时文件,根据分组策略和用户终端水印编码数据,动态地从水印字符数据临时文件中读取字形轮廓曲线数据,并更新***安装的标准字库中相应的字形结构数据。
较佳地,所述的动态生成并实时加载水印字库文件,实时加载水印字库文件是指根据Windows和Linux操作***的不同,分别完成水印字库的加载:
1)Windows环境。
首先,调用***API函数RemoveFontResource(PCTSTR lpFileName)将***安装的标准字库从***字体表中去除;发送一个WM_FONTCHANG消息给***中的所有顶层窗口,通知这个变化;然后再调用AddFontResource(LPCTSTR lpszFilename)函数将动态生成的水印字库文件资源添加至***字体表,以供Windows应用程序正常使用。
2)Linux环境。
通过从相应的文件夹中删除字体文件来卸载***安装的标准字体。当删除全局字体时,发出fc-cache-fv命令来更新***的字体缓存。再将动态生成的水印字库文件拷贝至相应的文件目录中,并发出fc-cache-fv命令使***知道更改。当fc-cache完成时,***上的所有用户都可以访问新添加的全局字体。
较佳地,所述的进行水印信息提取,主要包括三个步骤:
1)根据字符分组在文档内容中的分布情况,分别提取每个分组内的所有字符所代表的水印信息位串;
2)利用水印信息位串奇偶校验法则,对初步提取的水印信息位串进行校验和纠错;
3)最后将所有分组提取得到的水印信息位串拼接得到最终的完整水印信息位串。
基于同一发明构思,本发明还提供了一种通用的文本水印装置,包括:
字符分组模块:负责根据特定策略对选定字库中一定数目的字符进行分组;
字形设计模块:负责根据特定规则,对字符分组模块处理的每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;
水印编码生成模块:负责生成用户终端水印编码数据,用以标识用户终端的身份认证信息;
字库生成和加载模块:依据水印编码生成模块生成的水印编码数据,并结合字形设计模块处理生成的水印字符数据临时文件和字符分组模块处理得到的分组字符,负责动态生成并实时加载水印字库文件;
水印嵌入模块:负责运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用字库生成和加载模块生成并加载的水印字库文件实时嵌入水印信息;
水印提取模块:负责获取水印嵌入模块处理后得到的隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。
本发明的有益效果如下:
由于本发明中,根据唯一的用户终端水印编码数据信息,在客户端动态生成个性化的水印字库,且每个水印字库嵌入了唯一的ID标识信息。当不同的客户端的用户身份信息不同时,水印字库嵌入的水印信息也不同。而水印字库被实时加载后,客户端所有调用本地字库进行打印输出和屏幕显示的应用软件***则实时在文件内容嵌入了水印信息。因此,本发明所述的文本水印方法的通用性强,兼容性好,稳定性高,水印信息嵌入过程简单。另外,由于采用分组无序的嵌入策略,文本水印方法抵抗裁剪、揉搓、污损和撕裂等恶意攻击的鲁棒性能更高。
附图说明
图1为实施例中所述的一种通用的文本水印嵌入和提取方法的实施流程示意图;
图2为弓形分组方法示意图;
图3为水印字符数据临时文件结构图;
图4为本实施例所述方法中的水印信息纠错编码示意图;
图5为水印字库动态生成过程示意图;
图6为实施例中所述的一种通用的文本水印嵌入和提取的装置结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
图1为实施例中所述的一种通用的文本水印嵌入和提取方法的实施流程示意图。
S101,根据特定策略对选定字库中一定数目的字符进行分组。
在本发明中,为了实现通用性的水印信息嵌入,我们在每个客户端动态生成了唯一的个性化水印字库,即不同的客户端生成的水印字库是不同的(这个有别于现有任何的技术方案,即现有技术方案中每个客户端生成安装的水印字库都是相同的),每个水印字库中嵌入了相应的用户终端身份认证信息。水印字库生成后被实时动态加载并替换操作***中预先安装的标准字库,当客户端所有调用水印字体的应用软件***进行电子文档屏幕显示和打印输出操作时,水印信息被自动实时嵌入至文档内容中。因此,该水印方法的通用性强,实现过程简单,并且跟***及其他应用软件的兼容性好。但是为了保证足够的信息容量和水印提取的效率,我们通过一组字符来代表特定的水印位串,即该分组中的所有字符代表的水印信息位串都相同。当每个分组中至少有一个字符出现在文本内容中时,相应的水印信息位串就可以被正确提取。因此,我们按照特定策略将选定字库中的一定数量的字符进行合理分组,从而保证每个分组中的字符在文本内容中出现的概率相对较高。
具体的分组方法为:
首先,按照字频统计结果从高到低对常见字符进行排序,并获取前N个字符组成水印字符集
Figure BDA0003492152240000061
在本实施例中,N=2000。
接着,将N个字符初步划分为M组{Ω11,…,ΩM},其中M<N,并且使得任意的
Figure BDA0003492152240000062
Figure BDA0003492152240000063
0<i,j≤M,i≠j,
Figure BDA0003492152240000064
在本实施例中,M=28。
具体分组过程为:
Step1.先按照字频顺序选取前M个字符
Figure BDA0003492152240000065
依次分到{Ω11,…,ΩM}个各组中,每个分组中增加一个字符。
Step2.再次选取M个字符
Figure BDA0003492152240000066
按照相反的顺序{ΩMM-1,…,Ω1}依次在每个分组中增加一个字符。
Step3.重复执行Step1和Step2直至N个字符分组完毕。
经过如图2所示的弓形分组方法初步得到了M组{Ω11,…,ΩM},比如分在第一组的字符集合为:
Figure BDA0003492152240000071
然后,随机选取一定数量的文本训练语料,并将每一份文本训练语料的字符数固定在t个,在本实施例中t=200。为了验证每组字符在常见文本文档中出现的概率值,需要收集大量的样本进行训练测试。为此,我们通过互联网爬虫方式下载了近50万篇文章,其中涵盖了政治、军事、新闻、体育、文化、历史、财经等领域。将采集的每篇文章经过内容过滤和裁剪操作后保存为200字的文本训练语料。
最后,统计所有分组{Ω11,…,ΩM}中的字符在t个文本训练语料中出现的概率,并根据概率分布对分组结果进行优化得到最终的分组{Ω′1,Ω′2,…,Ω′M}。
由于上述方法中仅仅采用了基于字频排序的结果进行分组操作,在实际的文本语料训练过程中,也可能会出现概率分布不均匀的情况,因此需要进行特定的优化操作以得到更均衡的分组。具体的分组优化方法为:
Step1,计算每个分组Ωi,1≤i≤M中的字符在训练语料中出现的概率,并将所有的概率按照从大到小的顺序进行排序;
Step2,从概率最高的分组中取出字频最小的字符移动到概率最低的分组中,从概率次高的分组中取出字频次小的字符移动到概率次低的分组中,依次重复该过程直至移动全部完成;
Step3,再次重复执行Step1和Step2,直至所有分组的概率方差达到最小,从而得到最优的分组{Ω′1,Ω′2,…,Ω′M}。
S102,根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件。
所述的字符变形设计特征,是指将字符的矢量轮廓曲线数据进行调整得到d个不同的变形,d≥2,不同的轮廓曲线变形代表不同的水印信息位串。为了能够有效提升水印信息容量,字符变形的数量通常会超过2个,在本实施例中,d=4。即每个字符有4种不同变形,则代表2位水印信息位串。另外,需要说明的是每个分组中的所有字符都代表相同的水印信息位串。
将上述设计生成的字符变形轮廓曲线数据连同字符属性描述信息一起保存在临时文件中,字符属性描述信息包括字体框的宽度、字体框的高度、每个字形在字体框中的偏移量,其中偏移量会随着字形结构的不同从而发生变化。在临时文件中,每个字形数据的存储结构如图3所示。具体的信息描述如下:
字符的UNICODE编码:在临时文件中为该字形结构所代表的字符分配一个唯一的UNICODE编码;
水平布局:包括字形外边框的宽度、字形轮廓线最左边的点到字形左边框的距离;
垂直布局:包括字形外边框的高度、字形轮廓线最顶端的点到字形上边框的距离;
图元数据的大小:表示字形结构的矢量轮廓曲线数据的容量大小,单位为字节;
图元数据:BYTE类型的数组,存储具体的字形结构的矢量轮廓曲线数据,还包括网格的定义以及相关指令数据。
S103,生成用户终端水印编码数据,用以标识用户终端的身份认证信息。
为了有效地实现对客户端泄密事件的追踪溯源,需要为用户终端生成唯一的水印编码数据信息,内容包括用户终端的身份认证信息和时间信息,具体生成方法包括手工指定和自动分配方式。手工指定方式是指在客户端***安装部署时,手工为客户端指定唯一的编码信息。而所述的自动分配水印编码数据特征,方法为:
Step1.在***后台创建用户终端身份标识信息记录表,信息内容包括用户ID、用户登录账号、机器MAC地址、机器IP地址信息,其中用户ID是后台***自动分配并自增的,其余信息为客户端监控程序自动提交;
Step2.运行客户端监控程序,自动获取用户终端身份标识信息并上传至***后台,当上传的标识信息在***后台数据库记录表中存在时,则直接返回用户ID信息,否则,在***后台数据库中增加一条新的记录,并将用户ID加1后返回给客户端。
Step3.客户端监控程接收到***后台返回的用户ID信息后,实时读取***操作时间,将用户ID信息和时间信息进行纠错编码化处理后得到最终的用户终端水印编码数据。
针对长度Len的水印信息位串,Len为8的倍数,采用奇偶校验的方式进行水印信息纠错编码处理后得到完整的水印编码数据,具体过程为:将水印信息位串排成Len/8行、8列的矩阵;计算每一列信息的奇偶检验码构成第Len/8+1行,则有效的信息码与校验码的总长度是Len+8。在本实施例中,取Len=48,水印信息位串的排列方式如图4所示,前6行为有效的水印信息位串,最后一行(图中灰色标注的部分)的每一列的信息均是该信息所在列的前6行信息位串的奇偶校验码,这样最终得到的水印编码数据量为56位。而在本实施例中选择28个分组,每个分组代表2位的水印信息,正好可以嵌入56位的水印编码数据。
S104,依据水印编码数据动态生成并实时加载水印字库文件。
动态生成水印字库过程,是指打开水印字符数据临时文件,根据分组策略和水印编码信息,动态从临时文件中读取字形轮廓曲线数据,并更新***安装的标准字库中相应的字形结构数据。具体过程如图5所示。
Step1.首先,需要解析***安装标准字库文件的关键数据,包括字体信息头、最大需求表、命名表、字体编码映射表、图元位置索引表、字体的水平布局度量表及垂直布局度量表、图元数据等;
Step2.读取包含水印字符轮廓曲线数据的临时文件;
Step3.初始化空的字体编码映射表M和图元位置索引表S、水平布局度量表H和垂直布局度量表V,同时生成一个空的图元数据文件tmp用于存储矢量的图元数据信息;
Step4.依次写入每一个字符数据,设当前处理第i个字符,前面已经处理过的所有i-1个字符对应的图元数据的数据量为dwSi-1,则图元位置索引表中第i-1项的值Si-1=dwSi-1,此时,第i个字符处理过程如下:
1)根据字符在字库中代表的UNICODE编码更新字体编码映射表M;
2)从临时文件中读取字符的水平及垂直布局信息、新图元的数据量dwN,及新图元的矢量轮廓数据,并更新至目标水印字库的相应表中;
3)更新目标水印字库文件的图元位置索引表为:Si=Si-1+dwN
4)将从临时文件中读取的图元数据保存到图元数据文件tmp中。
Step5.按照字体文件的结构依次写入字体文件头信息及相关属性值信息、字体编码映射表、图元位置索引表、水平及垂直布局度量表,最后将图元数据文件tmp中保存的所有图元数据写入新生成字库的图元数据区域中,生成新的水印字库文件。
如前所述,根据水印编码信息生成水印字库后,需要更新至操作***的字体资源表才能完成应用软件***对水印字库的正确调用。根据操作***不同,水印字库的加载过程分为以下两种情况:
1)Windows环境。
首先,调用***API函数RemoveFontResource(PCTSTR lpFileName)将***安装的标准字库从***字体表中去除;发送一个WM_FONTCHANG消息给***中的所有顶层窗口,通知这个变化;然后再调用AddFontResource(LPCTSTR lpszFilename)函数将动态生成的水印字库文件资源添加至***字体表,以供Windows应用程序正常使用。
2)Linux环境。
通过从相应的文件夹中删除字体文件来卸载***安装的标准字体。当删除全局字体时,发出fc-cache-fv命令来更新***的字体缓存。再将动态生成的水印字库文件拷贝至相应的文件目录中,并发出fc-cache-fv命令使***知道更改。当fc-cache完成时,***上的所有用户都可以访问新添加的全局字体。
S105,运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中实时嵌入水印信息。
如前所述,在本发明中,通过动态生成水印字库文件并更新至操作***的字体表中,以替代操作***安装的标准字库文件,使得***的应用程序自动调用新加载的水印字库文件,从而完成水印信息的实时嵌入。
S106,获取隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。
所述的水印信息提取过程主要包括三个步骤:
1)根据字符分组在文档内容中的分布情况,分别提取每个分组内的所有字符所代表的水印信息位串;
2)利用水印信息位串奇偶校验法则,对初步提取的水印信息位串进行校验和纠错;
3)最后将所有分组提取得到的信息串拼接得到最终的完整水印信息位串。
其中需要说明的是,同一个字符出现在文档内容中不同位置时,所代表的水印信息位串是相同的,在文档内容中出现的同属于一个分组的所有字符所代表的水印信息也是相同的。在水印信息提取时,为了考虑处理的效率,会限定每个分组中水印字符提取“个次”阈值p,即在每个分组中最多提取p次水印信息。当该分组中的同一个字符出现的次数超过p,或者所包含的字符数目超过p时,水印提取过程只运行p次。否则,将针对所有出现的字符进行水印提取操作。
如图6所示,基于同一发明构思,本发明还提供了一种通用的文本水印嵌入和提取装置,包括:
字符分组模块1:负责根据特定策略对选定字库中一定数目的字符进行分组;
字形设计模块2:负责根据特定规则,对字符分组模块处理的每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;
水印编码生成模块3:负责生成用户终端水印编码数据,用以标识用户终端的身份认证信息;
字库生成和加载模块4:依据水印编码生成模块生成的水印编码数据,并结合字形设计模块生成的水印字符数据临时文件和字符分组模块处理得到的分组字符,负责动态生成并实时加载水印字库文件;
水印嵌入模块5:负责运行电子格式的文本文件,在文件打印输出或屏幕显示文档内容时,利用字库生成和加载模块生成并加载的水印字库文件实时嵌入水印信息;
水印提取模块6:负责获取水印嵌入模块处理后得到的隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
比如,为了防止动态生成的水印字库被恶意篡改,或者由于用户重新安装相关字体对水印字库带来的破坏,在客户端部署安装水印字库检测服务程序。检测服务程序计算新生成水印字库文件的SHA1值,并记录在***台账中。检测服务程序定时扫描正在加载的水印字库文件,计算当前水印字库文件的SHA1值,并与***台账中记录的值进行比较。若不同,则水印字库文件被毁坏,重新执行水印字库生成和加载过程。
比如,生成的用户终端水印编码数据中包含用户终端的身份认证信息和时间信息。为了能够精确记录每天不同的时间信息,则同样可以在客户端部署安装水印字库生成时间信息监控程序。当操作***重启时,监控程序执行水印字库动态生成和实时加载工作,并记录当前水印字库生效时间。操作***在正常运行期间,监控程序定时检测水印字库生效时间。若当前时间跟生效时间不在同一天,则监控程序重新执行动态生成和实时加载工作,并再次更新水印字库生效时间。
比如,为了提高用户终端水印字库的动态生成效率,在客户端部署安装水印字库生成时间信息监控程序,根据不同的时间段事先生成相应的水印字库。当操作******重启时,监控程序根据***当前的时间段选择相应的水印字库文件,并执行水印字库文件的拷贝和实时加载工作,然后删除已使用的过期水印字库文件。
比如,在字符分组优化过程中,还可以通过拆分词语的方式进一步优化分组策略。例如,在第一个分组中同时出现了字符“目”和“的”,而词语“目的”是一个高频词,也就是说在正常文本内容中,“目”和“的”同时出现的概率比较大。因此,可以将字频相对较低的“目”字移动到当前优化阶段中概率较低的分组,从而可以得到更加概率均衡化的分组结果。
比如,在实施例1所述的水印字库生成方法中,只是将每个字符的其中一个轮廓曲线变形数据更新至标准字符编码区域,这样***应用软件才能正常使用而不产生任何乱码显示等问题。当把每个字符的所有字符变形的轮廓曲线数据拷贝至字库的扩展编码区域,并分别给每个字符变形分配一个唯一的UNICODE编码,在文档打印输出或者外发管理的过程中通过动态替换字符编码,则可以实现在字符较少的文本内容中嵌入更多的水印信息,从而提高了水印信息容量。

Claims (9)

1.一种通用的文本水印方法,其特征在于,包括以下步骤:
根据特定策略对选定字库中一定数目的字符进行分组;
根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;
生成用户终端水印编码数据,用以标识用户终端的身份认证信息;
依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;
运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息;
所述的对选定字库中一定数目的字符进行分组,包括:
首先,按照字频统计结果从高到低对常见字符进行排序,并获取前N个字符组成水印字符集
Figure FDA0003849491710000011
接着,将N个字符初步划分为M组,记为{Ω11,…,ΩM},其中M<N,并且使得任意的
Figure FDA0003849491710000012
0<i,j≤M,i≠j,
Figure FDA0003849491710000013
具体分组过程包括:
Step1.先按照字频顺序选取前M个字符
Figure FDA0003849491710000014
依次分到{Ω11,…,ΩM}个各组中,每个分组中增加一个字符;
Step2.再次选取M个字符
Figure FDA0003849491710000015
按照相反的顺序{ΩMM-1,…,Ω1}依次在每个分组中增加一个字符;
Step3.重复执行Step1和Step2直至N个字符分组完毕;
然后,随机选取一定数量的文本训练语料,并将每一份文本训练语料的字符数固定在t个;
最后,统计所有分组{Ω11,…,ΩM}中的字符在t个文本训练语料中出现的概率,并根据概率分布对分组结果进行优化得到最终的分组{Ω′1,Ω′2,…,Ω′M}。
2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
获取隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。
3.根据权利要求1或2所述的方法,其特征在于,所述的根据概率分布对分组结果进行优化得到最终的分组,包括:
Step1,计算每个分组Ωi,1≤i≤M中的字符在t个文本训练语料中出现的概率,并将所有的概率按照从大到小的顺序进行排序;
Step2,从概率最高的分组中取出字频最小的字符移动到概率最低的分组中,从概率次高的分组中取出字频次小的字符移动到概率次低的分组中,依次重复该过程直至移动全部完成;
Step3,再次重复执行Step1和Step2,直至所有分组的概率方差达到最小,从而得到最终的分组{Ω′1,Ω′2,…,Ω′M}。
4.根据权利要求1或2所述的方法,其特征在于,所述的对每个分组中的所有字符进行变形设计,是指将字符的矢量轮廓曲线数据进行调整得到d个不同的变形,d≥2,不同的轮廓曲线变形代表不同的水印信息位串;每个分组中的所有字符都代表相同的水印信息位串;所述的生成水印字符数据临时文件,是指将设计生成的字符变形轮廓曲线数据连同字符属性描述信息一起保存在临时文件中,字符属性描述信息包括字体框的宽度、字体框的高度、每个字形在字体框中的偏移量,其中偏移量会随着字形结构的不同从而发生变化。
5.根据权利要求1或2所述的方法,其特征在于,所述的用户终端水印编码数据,包括用户终端的身份认证信息和时间信息,采用手工指定或自动分配方式生成用户终端水印编码数据;所述的自动分配方式包括:
Step1.在***后台创建用户终端身份标识信息记录表,信息内容包括用户ID、用户登录账号、机器MAC地址、机器IP地址信息,其中用户ID是后台***自动分配并自增的,其余信息为客户端监控程序自动提交;
Step2.运行客户端监控程序,自动获取用户终端身份标识信息并上传至***后台,当上传的标识信息在***后台数据库记录表中存在时,则直接返回用户ID信息,否则,在***后台数据库中增加一条新的记录,并将用户ID加1后返回给客户端;
Step3.客户端监控程接收到***后台返回的用户ID信息后,实时读取***操作时间,将用户ID信息和时间信息进行纠错编码化处理后得到最终的用户终端水印编码数据。
6.根据权利要求5所述的方法,其特征在于,所述的纠错编码化处理,是指针对长度Len的水印信息位串,Len为8的倍数,采用奇偶校验的方式进行水印信息纠错编码处理后得到完整的水印编码数据,具体过程为:将水印信息位串排成Len/8行、8列的矩阵;计算每一列信息的奇偶检验码构成第Len/8+1行,则有效的信息码与校验码的总长度是Len+8。
7.根据权利要求1或2所述的方法,其特征在于,所述的动态生成并实时加载水印字库文件,动态生成水印字库文件是指打开水印字符数据临时文件,根据分组策略和用户终端水印编码数据,动态地从水印字符数据临时文件中读取字形轮廓曲线数据,并更新***安装的标准字库中相应的字形结构数据;实时加载水印字库文件是指根据Windows和Linux操作***的不同,分别完成水印字库的加载。
8.根据权利要求2所述的方法,其特征在于,所述的进行水印信息提取,包括:
根据字符分组在文档内容中的分布情况,分别提取每个分组内的所有字符所代表的水印信息位串;
利用水印信息位串奇偶校验法则,对初步提取的水印信息位串进行校验和纠错;
最后将所有分组提取得到的水印信息位串拼接得到最终的完整水印信息位串。
9.一种采用权利要求1~8中任一权利要求所述方法的通用的文本水印装置,其特征在于,包括:
字符分组模块,负责根据特定策略对选定字库中一定数目的字符进行分组;
字形设计模块,负责根据特定规则,对字符分组模块处理的每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;
水印编码生成模块,负责生成用户终端水印编码数据,用以标识用户终端的身份认证信息;
字库生成和加载模块,负责依据水印编码生成模块生成的水印编码数据,并结合字形设计模块生成的水印字符数据临时文件和字符分组模块处理得到的分组字符,负责动态生成并实时加载水印字库文件;
水印嵌入模块,负责运行电子格式的文本文件,在文件打印输出或屏幕显示文档内容时,利用字库生成和加载模块生成并加载的水印字库文件实时嵌入水印信息;
水印提取模块,负责获取水印嵌入模块处理后得到的隐藏有水印信息的文档图片数据,并进行水印信息提取,进而进行文档泄密源头追溯。
CN202210100368.XA 2022-01-27 2022-01-27 一种通用的文本水印方法和装置 Active CN114708133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210100368.XA CN114708133B (zh) 2022-01-27 2022-01-27 一种通用的文本水印方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210100368.XA CN114708133B (zh) 2022-01-27 2022-01-27 一种通用的文本水印方法和装置

Publications (2)

Publication Number Publication Date
CN114708133A CN114708133A (zh) 2022-07-05
CN114708133B true CN114708133B (zh) 2022-11-15

Family

ID=82166113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210100368.XA Active CN114708133B (zh) 2022-01-27 2022-01-27 一种通用的文本水印方法和装置

Country Status (1)

Country Link
CN (1) CN114708133B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455966B (zh) * 2022-11-14 2023-03-10 合肥高维数据技术有限公司 安全字库构建方法及其安全码提取方法
CN115455965B (zh) * 2022-11-14 2023-03-10 合肥高维数据技术有限公司 基于字距词链的字符分组方法、存储介质及电子设备
CN115455987B (zh) * 2022-11-14 2023-05-05 合肥高维数据技术有限公司 基于字频词频的字符分组方法、存储介质及电子设备
CN115630343B (zh) * 2022-12-20 2023-04-07 北京国隐科技有限公司 一种电子文档信息的处理方法、装置及设备
CN117891787B (zh) * 2024-03-15 2024-05-28 武汉磐电科技股份有限公司 电流互感器量值溯源数据处理方法、***以及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012132953A (ja) * 2010-12-18 2012-07-12 Kimito Horie 仮想サロゲート・ペアを用いた双曲線暗号の構成方法及び装置
CN103136718A (zh) * 2013-03-13 2013-06-05 上海理工大学 抗几何变换的实用彩色图数字水印技术
CN106570356A (zh) * 2016-11-01 2017-04-19 南京理工大学 基于Unicode编码的文本水印嵌入及提取方法
CN107423629A (zh) * 2017-04-12 2017-12-01 李晓妮 一种文件信息输出防泄密和溯源追踪的方法和***
CN108763879A (zh) * 2018-05-30 2018-11-06 北京溯斐科技有限公司 一种水印字库的自动生成方法和装置
CN110196968A (zh) * 2019-06-06 2019-09-03 北京林业大学 一种基于特定字符串查找的简体中文编码方式自动识别***及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096203A1 (en) * 2004-04-12 2018-04-05 Google Inc. Adding value to a rendered document
CN110674477A (zh) * 2019-09-24 2020-01-10 北京溯斐科技有限公司 一种基于电子文件密级标识的文档溯源方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012132953A (ja) * 2010-12-18 2012-07-12 Kimito Horie 仮想サロゲート・ペアを用いた双曲線暗号の構成方法及び装置
CN103136718A (zh) * 2013-03-13 2013-06-05 上海理工大学 抗几何变换的实用彩色图数字水印技术
CN106570356A (zh) * 2016-11-01 2017-04-19 南京理工大学 基于Unicode编码的文本水印嵌入及提取方法
CN107423629A (zh) * 2017-04-12 2017-12-01 李晓妮 一种文件信息输出防泄密和溯源追踪的方法和***
CN108763879A (zh) * 2018-05-30 2018-11-06 北京溯斐科技有限公司 一种水印字库的自动生成方法和装置
CN110196968A (zh) * 2019-06-06 2019-09-03 北京林业大学 一种基于特定字符串查找的简体中文编码方式自动识别***及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Robust and ReversibleWatermarking Algorithm for a Relational Database Based on Continuous Columns in Histogram;Yan Li,et al.;《mathematics》;20201208;第1-12页 *
Watermarking Techniques for Relational Databases: Survey, Classification and Comparison;Halder Raju,et al.;《Journal of Universal Computer Science》;20101201;第3164-3190页 *
中文水印字库的自动生成方法;孙杉 等;《中国图象图形学报》;20210211;第262-276页 *
基于自动生成字库的中文鲁棒文档水印方法;孙杉;《中国优秀硕士论文全文数据库 信息科技辑》;20210915;I141-44 *

Also Published As

Publication number Publication date
CN114708133A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN114708133B (zh) 一种通用的文本水印方法和装置
US7478325B2 (en) Methods for providing an accurate visual rendition of a text element formatted with an unavailable font
US6560598B2 (en) Internal database validation
DE60029567T2 (de) Digitales datenverwaltungs-und abbildherstellungssystem und verfahren mit gesicherter datenmarkierung
CN110532811B (zh) 一种pdf签章方法及pdf签章***
US7523318B2 (en) Method and system for automated password generation
CN108805787B (zh) 一种纸质文档篡改鉴真的方法和装置
US20050171965A1 (en) Contents reuse management apparatus and contents reuse support apparatus
WO2004040464B1 (en) A method and system for managing confidential information
US7333992B2 (en) System and method for identifying and storing changes made to a table
CN110362542B (zh) 核电站文件编码方法、装置、计算机设备和存储介质
CN112508145A (zh) 电子***生成及验证方法、装置、电子设备及存储介质
CN114356919A (zh) 一种结构化数据库的水印嵌入方法、溯源方法及装置
CN111159497A (zh) 正则表达式的生成方法及基于正则表达式的数据提取方法
CN115630343A (zh) 一种电子文档信息的处理方法、装置及设备
CN114386853A (zh) 基于通用审核模型的数据审核处理方法、装置及设备
CN109886076B (zh) ***存储方法
CN102467664B (zh) 辅助光学字符识别的方法和装置
CN115618809A (zh) 基于二元字符频次的字符分组方法及安全字库构建方法
CN114387429A (zh) 基于rpa及ai的车辆产权证处理方法、装置、设备及介质
US8576049B2 (en) Document authentication and identification
CN115455966B (zh) 安全字库构建方法及其安全码提取方法
Al-Hashim et al. Benchmark database and GUI environment for printed Arabic text recognition research
CN115455987B (zh) 基于字频词频的字符分组方法、存储介质及电子设备
CN113779939B (zh) 一种文档热补丁的生成方法、使用方法及文档热补丁装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant