CN112990178A - 一种基于字符切分的文本数字信息嵌入、提取方法及*** - Google Patents

一种基于字符切分的文本数字信息嵌入、提取方法及*** Download PDF

Info

Publication number
CN112990178A
CN112990178A CN202110392436.XA CN202110392436A CN112990178A CN 112990178 A CN112990178 A CN 112990178A CN 202110392436 A CN202110392436 A CN 202110392436A CN 112990178 A CN112990178 A CN 112990178A
Authority
CN
China
Prior art keywords
character
characters
row
segmentation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110392436.XA
Other languages
English (en)
Other versions
CN112990178B (zh
Inventor
史祎诗
祝玉鹏
吕文晋
陶冶
孙鑫凯
方俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuxin Kunpeng Beijing Information Technology Co ltd
University of Chinese Academy of Sciences
Original Assignee
Fuxin Kunpeng Beijing Information Technology Co ltd
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuxin Kunpeng Beijing Information Technology Co ltd, University of Chinese Academy of Sciences filed Critical Fuxin Kunpeng Beijing Information Technology Co ltd
Priority to CN202110392436.XA priority Critical patent/CN112990178B/zh
Publication of CN112990178A publication Critical patent/CN112990178A/zh
Application granted granted Critical
Publication of CN112990178B publication Critical patent/CN112990178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明涉及一种基于字符切分的文本数字信息嵌入、提取方法及***,该方法包括:对二值化文本图像进行行切分,获得各行的行高阈值;根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距;根据相邻两个字符之间的间距确定最小的间距值;将与标点符号相邻的字符之间的间距标记为非编码区,将非标点符号的字符之间的间距标记为编码区;对待嵌入的信息进行二进制编码;根据二进制编码中字符0或字符1对文本图像中各相邻两个字符之间标记为编码区的间距进行调整:若嵌入字符1,则相邻两个字符之间的间距保持不变,若嵌入字符0,则相邻两个字符之间的间距调整为小于最小的间距值。本发明提高了信息嵌入的鲁棒性和隐藏容量。

Description

一种基于字符切分的文本数字信息嵌入、提取方法及***
技术领域
本发明涉及文本数字水印领域,特别是涉及一种基于字符切分的文本数字信息嵌入、提取方法及***。
背景技术
随着互联网的普及,数字影像产品和电子文档的传播和应用变得越来越便捷。文本数据现阶段是日常生活中人们获取信息的重要媒介,期刊、报纸和书籍等文献极大的丰富了人们的阅读方式。但由于文本文档的信息冗余量相比于图像少的多,所以版权保护成为重中之重,同时许多***门内部人员也有泄露机密的风险,所以在电子文件中嵌入操作人员名称和日期信息可以有效地解决版权和机密文件泄露后溯源等安全问题。
在电子文档中嵌入溯源信息后,存在最难解决的问题是随着文档被多次打印后溯源信息丢失或提取信息时产生错误。现有的抗打印扫描文本文档溯源技术大致分为基于文本图像的算法、基于文本格式的算法和基于文本内容算法三种。第一种方法主要是通过改变切分出字符的边缘像素点来进行信息的嵌入,对于多次打印扫描的过程之后鲁棒性变差;第二种方法大多是改变文本字符的行、列间距或文件格式来隐藏信息,但隐藏的信息量过少,不能在普遍的文本中有效的隐藏信息;第三种方法,主要是改变文本的内容,表现形式为通过同义词的替换来进行信息的嵌入和隐藏,但很多文件的内容被要求是不能进行修改的,适用范围小。
发明内容
本发明的目的是提供一种基于字符切分的文本数字信息嵌入、提取方法及***,提高了信息嵌入的鲁棒性和隐藏容量。
为实现上述目的,本发明提供了如下方案:
一种基于字符切分的文本数字信息嵌入方法,包括:
对文本图像进行二值化处理,获得二值化文本图像;
对所述二值化文本图像进行行切分,获得各行的行高阈值;
根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距;
根据相邻两个字符之间的间距确定最小的间距值;
将与标点符号相邻的字符之间的间距标记为非编码区,将非标点符号的字符之间的间距标记为编码区;
对待嵌入的信息进行二进制编码;
根据所述二进制编码中字符0或字符1对所述文本图像中各相邻两个字符之间标记为所述编码区的间距进行调整:若嵌入字符1,则相邻两个字符之间的间距保持不变,若嵌入字符0,则相邻两个字符之间的间距调整为小于所述最小的间距值。
可选地,所述对所述二值化文本图像进行行切分,获得各行的行高阈值,具体包括:
根据各行的行投影确定各行的行高阈值。
可选地,所述根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距,具体包括:
根据各列的列投影确定字符之间的宽度;
获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分的两个字符之间的间距。
本发明还公开了一种基于字符切分的文本数字信息嵌入***,包括:
二值化文本图像获取模块,用于对文本图像进行二值化处理,获得二值化文本图像;
各行的行高阈值获取模块,用于对所述二值化文本图像进行行切分,获得各行的行高阈值;
列切分模块,用于根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距;
最小的间距值获取模块,用于根据相邻两个字符之间的间距确定最小的间距值;
编码区标记模块,用于将与标点符号相邻的字符之间的间距标记为非编码区,将非标点符号的字符之间的间距标记为编码区;
嵌入信息编码模块,用于对待嵌入的信息进行二进制编码;
信息嵌入模块,用于根据所述二进制编码中字符0或字符1对所述文本图像中各相邻两个字符之间标记为所述编码区的间距进行调整:若嵌入字符1,则相邻两个字符之间的间距保持不变,若嵌入字符0,则相邻两个字符之间的间距调整为小于所述最小的间距值。
可选地,所述各行的行高阈值获取模块,具体包括:
各行的行高阈值确定单元,用于根据各行的行投影确定各行的行高阈值。
可选地,所述列切分模块,具体包括:
第一字符之间宽度确定单元,用于根据各列的列投影确定字符之间的宽度;
第一宽度与行高阈值之间比值确定单元,用于获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
列切分单元,用于若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分的两个字符之间的间距。
本发明还公开了一种基于字符切分的文本数字信息提取方法,所述基于字符切分的文本数字信息提取方法应用于所述的基于字符切分的文本数字信息嵌入方法,包括:
对嵌入信息的文本的打印扫描件进行二值化处理,获得嵌入信息的二值化文本图像;
对所述嵌入信息的二值化文本图像进行行切分,获得各行的行高阈值;
根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计;
根据各字符图像的尺寸提取嵌入信息:若字符图像的宽度与高度的比值在设定范围内则嵌入的二进制信息为1,若字符图像的宽度与高度的比值超出设定范围则嵌入的二进制信息为0。
可选地,所述根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计,具体包括:
根据各列的列投影确定字符之间的宽度;
获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分后各字符的尺寸,各所述字符的尺寸包括字符的宽度和字符的高度。
本发明还公开了一种基于字符切分的文本数字信息提取***,包括:
嵌入信息的二值化文本图像获取模块,用于对嵌入信息的文本的打印扫描件进行二值化处理,获得嵌入信息的二值化文本图像;
行切分模块,对所述嵌入信息的二值化文本图像进行行切分,获得各行的行高阈值;
字符图尺寸统计模块,用于根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计;
嵌入信息提取模块,用于根据各字符图像的尺寸提取嵌入信息:若字符图像的宽度与高度的比值在设定范围内则嵌入的二进制信息为1,若字符图像的宽度与高度的比值超出设定范围则嵌入的二进制信息为0。
可选地,所述字符图尺寸统计模块,具体包括:
第二字符之间宽度确定单元,用于根据各列的列投影确定字符之间的宽度;
第二宽度与行高阈值之间比值确定单元,用于获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
字符尺寸统计单元,用于若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分后各字符的尺寸,各所述字符的尺寸包括字符的宽度和字符的高度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明根据嵌入信息的二进制编码中字符0或字符1对文本图像中各相邻两个字符之间的间距进行调整,降低文本图像受打印扫描的影响,提高了信息嵌入的鲁棒性,且通过对各相邻两个字符之间的间距进行调整的方式嵌入信息,提高了嵌入信息的容量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于字符切分的文本数字信息嵌入方法流程示意图;
图2为本发明一种基于字符切分的文本数字信息嵌入***结构示意图;
图3为本发明一种基于字符切分的文本数字信息提取方法流程示意图;
图4为本发明一种基于字符切分的文本数字信息提取***结构示意图;
图5为本发明实施例信息嵌入之前的文本图像;
图6为本发明实施例信息嵌入之后的文本图像。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于字符切分的文本数字信息嵌入、提取方法及***,提高了信息嵌入的鲁棒性和隐藏容量。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种基于字符切分的文本数字信息嵌入方法流程示意图,如图1所示,一种基于字符切分的文本数字信息嵌入方法包括以下步骤:
步骤101:对文本图像进行二值化处理,获得二值化文本图像;
步骤102:对所述二值化文本图像进行行切分,获得各行的行高阈值。
所述对所述二值化文本图像进行行切分,获得各行的行高阈值,具体包括:
根据各行的行投影确定各行的行高阈值。各行的行投影产生的行高等于各行的行高阈值。
步骤103:根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距;
所述根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距,具体包括:
根据各列的列投影确定字符之间的宽度;
获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分的两个字符之间的间距。
步骤104:根据相邻两个字符之间的间距确定最小的间距值;
步骤105:将与标点符号相邻的字符之间的间距标记为非编码区,将非标点符号的字符之间的间距标记为编码区;
步骤106:对待嵌入的信息进行二进制编码;
步骤107:根据所述二进制编码中字符0或字符1对所述文本图像中各相邻两个字符之间标记为所述编码区的间距进行调整:若嵌入字符1,则相邻两个字符之间的间距保持不变,若嵌入字符0,则相邻两个字符之间的间距调整为小于所述最小的间距值,具体为,将相邻两个字符之间的间距调整为小于所述最小的间距值两个像素。
本发明一种基于字符切分的文本数字信息嵌入方法的技术效果如下:
1.提高了嵌入信息的不可见性:根据图像的分辨率不同,调整的字符间距也对应不同,调整过后的字符间距只比嵌入信息之前的文本最小间距少两个像素,通过试验600dpi的文本图像,证明嵌入信息文本图像的不可见良好。
2.提高了嵌入信息的鲁棒性:降低了打印扫描对文本图像的影响,在一次打印扫描的情况下,嵌入信息的文本图像的溯源成功率为100%;在复印扫描的情况下,嵌入信息的文本图像的溯源成功率为90%。
3.提高了嵌入信息的隐藏容量:由于文本行含有的字符数不同,每次文本图像的隐藏容量略有偏差,针对大量的文档文本图像进行试验,此方法的隐藏容量为100个中文字符的可以嵌入40-50bit的信息量。
图2为本发明一种基于字符切分的文本数字信息嵌入***结构示意图,如图2所示,本发明还公开了一种基于字符切分的文本数字信息嵌入***,包括:
二值化文本图像获取模块201,用于对文本图像进行二值化处理,获得二值化文本图像;
各行的行高阈值获取模块202,用于对所述二值化文本图像进行行切分,获得各行的行高阈值;
所述各行的行高阈值获取模块,具体包括:
各行的行高阈值确定单元,用于根据各行的行投影确定各行的行高阈值。
列切分模块203,用于根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距。
所述列切分模块,具体包括:
第一字符之间宽度确定单元,用于根据各列的列投影确定字符之间的宽度;
第一宽度与行高阈值之间比值确定单元,用于获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
列切分单元,用于若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分的两个字符之间的间距。
最小的间距值获取模块204,用于根据相邻两个字符之间的间距确定最小的间距值;
编码区标记模块205,用于将与标点符号相邻的字符之间的间距标记为非编码区,将非标点符号的字符之间的间距标记为编码区;
嵌入信息编码模块206,用于对待嵌入的信息进行二进制编码;
信息嵌入模块207,用于根据所述二进制编码中字符0或字符1对所述文本图像中各相邻两个字符之间标记为所述编码区的间距进行调整:若嵌入字符1,则相邻两个字符之间的间距保持不变,若嵌入字符0,则相邻两个字符之间的间距调整为小于所述最小的间距值。
图3为本发明一种基于字符切分的文本数字信息提取方法流程示意图,如图3所示,一种基于字符切分的文本数字信息提取方法包括以下步骤:
步骤301:对嵌入信息的文本的打印扫描件进行二值化处理,获得嵌入信息的二值化文本图像;
步骤302:对所述嵌入信息的二值化文本图像进行行切分,获得各行的行高阈值;
步骤303:根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计;
所述根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计,具体包括:
根据各列的列投影确定字符之间的宽度;
获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分后各字符的尺寸,各所述字符的尺寸包括字符的宽度和字符的高度。
步骤304:根据各字符图像的尺寸提取嵌入信息:若字符图像的宽度与高度的比值在设定范围内则嵌入的二进制信息为1,若字符图像的宽度与高度的比值超出设定范围则嵌入的二进制信息为0。
图4为本发明一种基于字符切分的文本数字信息提取***结构示意图,如图4所示,本发明还公开了一种基于字符切分的文本数字信息提取***,包括:
嵌入信息的二值化文本图像获取模块401,用于对嵌入信息的文本的打印扫描件进行二值化处理,获得嵌入信息的二值化文本图像;
行切分模块402,对所述嵌入信息的二值化文本图像进行行切分,获得各行的行高阈值;
字符图尺寸统计模块403,用于根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计;
嵌入信息提取模块404,用于根据各字符图像的尺寸提取嵌入信息:若字符图像的宽度与高度的比值在设定范围内则嵌入的二进制信息为1,若字符图像的宽度与高度的比值超出设定范围则嵌入的二进制信息为0。
所述字符图尺寸统计模块403,具体包括:
第二字符之间宽度确定单元,用于根据各列的列投影确定字符之间的宽度;
第二宽度与行高阈值之间比值确定单元,用于获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
字符尺寸统计单元,用于若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分后各字符的尺寸,各所述字符的尺寸包括字符的宽度和字符的高度。
下面详细说明本发明一种基于字符切分的文本数字信息嵌入及提取方法。
信息嵌入部分:
Step1:输入的文本图像进行二值化处理,然后对二值文本图像使用行切分,依照行切分字符图像的行高h1,h2…hM(M为文本图像的行序号)进行列切分,并记录下字符之间的间距SP1,SP2…SPN(N为当前行的字间距序号),找出最小间距值min_SP;
行切分:根据行投影产生的阈值进行切分,具体操作为对整张图片的每一行的黑点像素进行求和来判断当前行有无字符。
行列切分:根据列投影产生的阈值(字符宽度阈值)进行切分,方法如上。
Step2:记录并筛选去掉行间标点符号后的字符间距SPX…SPY(X,Y为标点符号的位置)。
Step3:对待嵌入的字符信息进行二进制编码,依据嵌入的二进制信息,对相邻的字符间距进行调整,调整策略为隐藏的信息为1,则字符保持不动;隐藏的信息为0,相邻的两字符各自向其中间移动,移动后的字符间隔要小于最小的间距值min_SP;
信息提取部分:
Step1:获取嵌入信息文档文本的打印扫描件,对图像进行二值化处理,首先使用行切分,得到每行图像line1,line2…lineM(M为文本图像的行序号),每行的行高为h1 ,h2 …hM
Step2:对每行图像line1,line2…lineM分别进行列切分,列切分的切分距离为每行的行高h1 ,h2 …hM 乘以合适的比例因子θ。
Step3:对于列切分切分出的字符图像进行尺寸统计。
Step4:由于字符间距的改变,所导致切分出的字符会产生粘连,粘连字符的图像尺寸要大于正常字符的图像尺寸,所以依据各个字符的图像尺寸和每行的行高h1 ,h2 …hM 的差异来判断隐藏的信息是0或者1从而准确地提取嵌入信息。
例如第一行的行高为h1’,基于可用字体库统计,字体的宽度和高度(行高和字符高度大致相同)理论上不会是倍数上的差异,而操作过的粘连字符的宽度明显大于单字符宽度,我们把统计过后的字符宽度和行高进行比较,大于行高h1’的某一特定倍数认为是二进制信息为0,否则为1,信息嵌入之前的文本图像如图5所示,信息嵌入之后的文本图像如图6所示。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于字符切分的文本数字信息嵌入方法,其特征在于,包括:
对文本图像进行二值化处理,获得二值化文本图像;
对所述二值化文本图像进行行切分,获得各行的行高阈值;
根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距;
根据相邻两个字符之间的间距确定最小的间距值;
将与标点符号相邻的字符之间的间距标记为非编码区,将非标点符号的字符之间的间距标记为编码区;
对待嵌入的信息进行二进制编码;
根据所述二进制编码中字符0或字符1对所述文本图像中各相邻两个字符之间标记为所述编码区的间距进行调整:若嵌入字符1,则相邻两个字符之间的间距保持不变,若嵌入字符0,则相邻两个字符之间的间距调整为小于所述最小的间距值。
2.根据权利要求1所述的基于字符切分的文本数字信息嵌入方法,其特征在于,所述对所述二值化文本图像进行行切分,获得各行的行高阈值,具体包括:
根据各行的行投影确定各行的行高阈值。
3.根据权利要求1所述的基于字符切分的文本数字信息嵌入方法,其特征在于,所述根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距,具体包括:
根据各列的列投影确定字符之间的宽度;
获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分的两个字符之间的间距。
4.一种基于字符切分的文本数字信息嵌入***,其特征在于,包括:
二值化文本图像获取模块,用于对文本图像进行二值化处理,获得二值化文本图像;
各行的行高阈值获取模块,用于对所述二值化文本图像进行行切分,获得各行的行高阈值;
列切分模块,用于根据各行的行高阈值对各行进行列切分,获得各相邻两个字符之间的间距;
最小的间距值获取模块,用于根据相邻两个字符之间的间距确定最小的间距值;
编码区标记模块,用于将与标点符号相邻的字符之间的间距标记为非编码区,将非标点符号的字符之间的间距标记为编码区;
嵌入信息编码模块,用于对待嵌入的信息进行二进制编码;
信息嵌入模块,用于根据所述二进制编码中字符0或字符1对所述文本图像中各相邻两个字符之间标记为所述编码区的间距进行调整:若嵌入字符1,则相邻两个字符之间的间距保持不变,若嵌入字符0,则相邻两个字符之间的间距调整为小于所述最小的间距值。
5.根据权利要求4所述的基于字符切分的文本数字信息嵌入***,其特征在于,所述各行的行高阈值获取模块,具体包括:
各行的行高阈值确定单元,用于根据各行的行投影确定各行的行高阈值。
6.根据权利要求4所述的基于字符切分的文本数字信息嵌入***,其特征在于,所述列切分模块,具体包括:
第一字符之间宽度确定单元,用于根据各列的列投影确定字符之间的宽度;
第一宽度与行高阈值之间比值确定单元,用于获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
列切分单元,用于若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分的两个字符之间的间距。
7.一种基于字符切分的文本数字信息提取方法,其特征在于,所述基于字符切分的文本数字信息提取方法应用于权利要求1-3任意一项所述的基于字符切分的文本数字信息嵌入方法,包括:
对嵌入信息的文本的打印扫描件进行二值化处理,获得嵌入信息的二值化文本图像;
对所述嵌入信息的二值化文本图像进行行切分,获得各行的行高阈值;
根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计;
根据各字符图像的尺寸提取嵌入信息:若字符图像的宽度与高度的比值在设定范围内则嵌入的二进制信息为1,若字符图像的宽度与高度的比值超出设定范围则嵌入的二进制信息为0。
8.根据权利要求7所述的基于字符切分的文本数字信息提取方法,其特征在于,所述根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计,具体包括:
根据各列的列投影确定字符之间的宽度;
获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分后各字符的尺寸,各所述字符的尺寸包括字符的宽度和字符的高度。
9.一种基于字符切分的文本数字信息提取***,其特征在于,包括:
嵌入信息的二值化文本图像获取模块,用于对嵌入信息的文本的打印扫描件进行二值化处理,获得嵌入信息的二值化文本图像;
行切分模块,对所述嵌入信息的二值化文本图像进行行切分,获得各行的行高阈值;
字符图尺寸统计模块,用于根据各行的行高阈值对各行进行列切分,并对列切分出的字符图像进行尺寸统计;
嵌入信息提取模块,用于根据各字符图像的尺寸提取嵌入信息:若字符图像的宽度与高度的比值在设定范围内则嵌入的二进制信息为1,若字符图像的宽度与高度的比值超出设定范围则嵌入的二进制信息为0。
10.根据权利要求9所述的基于字符切分的文本数字信息提取***,其特征在于,所述字符图尺寸统计模块,具体包括:
第二字符之间宽度确定单元,用于根据各列的列投影确定字符之间的宽度;
第二宽度与行高阈值之间比值确定单元,用于获得字符之间的宽度与字符对应的行的行高阈值之间的比值;
字符尺寸统计单元,用于若所述比值在设定比值范围内则进行字符之间的列切分,否则不进行列切分,记录进行列切分后各字符的尺寸,各所述字符的尺寸包括字符的宽度和字符的高度。
CN202110392436.XA 2021-04-13 2021-04-13 一种基于字符切分的文本数字信息嵌入、提取方法及*** Active CN112990178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110392436.XA CN112990178B (zh) 2021-04-13 2021-04-13 一种基于字符切分的文本数字信息嵌入、提取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110392436.XA CN112990178B (zh) 2021-04-13 2021-04-13 一种基于字符切分的文本数字信息嵌入、提取方法及***

Publications (2)

Publication Number Publication Date
CN112990178A true CN112990178A (zh) 2021-06-18
CN112990178B CN112990178B (zh) 2022-06-24

Family

ID=76338124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110392436.XA Active CN112990178B (zh) 2021-04-13 2021-04-13 一种基于字符切分的文本数字信息嵌入、提取方法及***

Country Status (1)

Country Link
CN (1) CN112990178B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761231A (zh) * 2021-09-07 2021-12-07 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761686A (en) * 1996-06-27 1998-06-02 Xerox Corporation Embedding encoded information in an iconic version of a text image
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
US20080310672A1 (en) * 2005-09-16 2008-12-18 Donglin Wang Embedding and detecting hidden information
US20150074814A1 (en) * 2013-09-10 2015-03-12 Crimsonlogic Pte Ltd Method and system for embedding data in a text document
CN107248134A (zh) * 2017-04-25 2017-10-13 李晓妮 一种文本文档中的信息隐藏方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761686A (en) * 1996-06-27 1998-06-02 Xerox Corporation Embedding encoded information in an iconic version of a text image
US20080310672A1 (en) * 2005-09-16 2008-12-18 Donglin Wang Embedding and detecting hidden information
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
US20150074814A1 (en) * 2013-09-10 2015-03-12 Crimsonlogic Pte Ltd Method and system for embedding data in a text document
CN107248134A (zh) * 2017-04-25 2017-10-13 李晓妮 一种文本文档中的信息隐藏方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAIXIN ZHANG ET AL.: "《Chinese NER Using Dynamic Meta-Embeddings》", 《IEEE ACCESS》 *
李向辉等: "提高Word文本文档信息隐藏容量的方法研究", 《计算机技术与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761231A (zh) * 2021-09-07 2021-12-07 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Also Published As

Publication number Publication date
CN112990178B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
EP0660275B1 (en) Document copying deterrent method
Brassil et al. Hiding information in document images
US5862270A (en) Clock free two-dimensional barcode and method for printing and reading the same
CN107248134B (zh) 一种文本文档中的信息隐藏方法和装置
US8144361B2 (en) Creation and placement of two-dimensional barcode stamps on printed documents for storing authentication information
US10949509B2 (en) Watermark embedding and extracting method for protecting documents
JP4904175B2 (ja) 低解像度のグリフ・イメージから高忠実度のグリフ・プロトタイプを作成するための方法および装置
CN101119429A (zh) 一种数字水印嵌入与提取的方法及装置
JP5669957B2 (ja) 西洋語の透かし処理をするための透かし画像の分割方法と装置
Antonacopoulos et al. A robust braille recognition system
US20060255141A1 (en) Machine readable data
WO2011112573A2 (en) Paragraph recognition in an optical character recognition (ocr) process
Stojanov et al. A new property coding in text steganography of Microsoft Word documents
CN112990178B (zh) 一种基于字符切分的文本数字信息嵌入、提取方法及***
Chotikakamthorn Document image data hiding technique using character spacing width sequence coding
US20110170133A1 (en) Image forming apparatus, method of forming image and method of authenticating document
Varna et al. Data hiding in hard-copy text documents robust to print, scan and photocopy operations
JP2008085579A (ja) 情報埋め込み装置、情報読み取り装置、情報埋め込み方法、情報読み取り方法、およびコンピュータプログラム
CN112966679A (zh) 一种基于字符最小连通域偏移的信息溯源方法及***
Monsignori et al. Watermarking music sheets while printing
US20240037689A1 (en) Watermarks for text documents
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
Safonov et al. Embedding digital hidden data into hardcopy
EP2119217A1 (en) Document with encoded portion
KITAZAWA et al. An improvement of a single-dot method for an information-hiding method by applying an error-correcting code

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant