CN105741272A - 去除文档图像背面渗透字迹的方法 - Google Patents

去除文档图像背面渗透字迹的方法 Download PDF

Info

Publication number
CN105741272A
CN105741272A CN201610049126.7A CN201610049126A CN105741272A CN 105741272 A CN105741272 A CN 105741272A CN 201610049126 A CN201610049126 A CN 201610049126A CN 105741272 A CN105741272 A CN 105741272A
Authority
CN
China
Prior art keywords
image
writing
level
red
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610049126.7A
Other languages
English (en)
Inventor
刘鹭
黄赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd
Original Assignee
SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd filed Critical SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd
Priority to CN201610049126.7A priority Critical patent/CN105741272A/zh
Publication of CN105741272A publication Critical patent/CN105741272A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及一种去除文档图像背面渗透字迹的方法,包括如下步骤:a.指定地址读入三通道彩色图像;b.按照红、绿、蓝三层将原图像分成三张单通道图像;c.在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T;d.在c基础上,从T到255计算在这些色度级别上每一级的像素点个数,像素点最多的级别值记为t;e.在单通道图像上,0到T级别的所有像素点的值保持不变,T到255级别的像素点的值都置为t;f.将红、绿、蓝三层合并为新的图像;g.新图像写出到指定地址文件。本发明有效地解决了现有反渗处理因纸张特征不同产生的自动处理难题;运算效率高;对待处理图像背景的渗透程度限制小,适应性强;大大提高字迹辨识率,节省加工时间。

Description

去除文档图像背面渗透字迹的方法
技术领域
本发明涉及电子文档处理领域,具体地说是一种去除文档图像背面渗透字迹的方法。
背景技术
参见图1,文档数字化加工时会遇到背面字迹渗透到正面的图像。原因有二:一、纸张太薄、质地不够紧密,导致反面的油墨逐渐的渗透到了正面;二、人为原因造成局部墨迹不均、***部位油墨太多或者书写力度太大,会将反面的字迹渗透到正面。
为了使得图像更加美观,在加工过程中传统的做法是在纸张的背面垫上白纸,重新逐页扫描。这样能够解决一定问题,但无法使用高速扫描仪进行加工图像,造成工作量和加工成本的急剧上升。对于已产生的图像,若是不予重新扫描,常见的处理方法是使用Photoshop等图像处理软件,由人工一点一点抹除,这样加工时间被大大延长,并且对于页面颜色非纯白色的图像也比较难将目标区域处理的与周围区域做到趋于一致和自然。
因此出于保守考虑,常常只能维持原貌。这样图像成品质量自然不够好,直接影响页面美观和正常阅读;若后续图像尚需进行深加工,如对图像OCR提取文字内容,反面渗透的图像会对OCR字符识别产生很大的干扰,使得OCR识别率直线下降,不利于后续利用。
本专利核心方法使用了OTSU(最大类间差)算法,目前关于该算法在用于去除文档图像反渗噪声的应用方面的还未检索到。比较接近的有两个专利,与本专利使用到的算法相同但应用方向不同。
其一是CN201410690319号中国专利,提供了一种基于背景密度估计的***图像提取方法,首先对***灰度图像用OTSU算法进行二值化,并对二值化后的图像进行去噪;其次计算四种二值图积分图像,自适应地计算分形维数窗口尺寸,计算背景密度能量图,估计***位置,依据真实***大小提取***图像,即完成算法目标。该方法使***作为低密度区域,非***部分作为高密度区域,将待鉴定***从简单背景中提取,提高了***图像配准的准确率,使图像配准结果可以作为***鉴定的依据。然而该专利使用OTSU算法对有***的区域的二值图做背景去噪,此专利中图像被二值化丢失三通道信息,最终的效果是***图案的配准而非图案本身的效果。
其二是CN200910109911号中国专利,公开一种彩色图像分割方法,其包括:将待分割图像处理成灰度图像;利用Otsu阈值分割法从灰度图像提取区域轮廓图,并确定最优阈值;以最优阈值作为Canny算子的高门限值,利用Canny算子从灰度图像提取边缘图;融合区域轮廓图和边缘图,输出彩色图像的分割结果。该技术使用OTSU算法在原图的灰度图像上提取区域轮廓用来在彩色图像上控制目标分割结果。
综上所述,上述两个采用相同核心算法的专利提供的技术方案所解决的问题与本专利完全不同,OTSU也仅仅是作为中间处理环节的算法被使用。本技术方案直接在彩色图像上使用OTSU算法,结合保留页面本身颜色的设置处理环节,应用目标则是为了提高图片整体外观的可读性以及提高后续OCR识别率,加工流程也从人工修图提升为批量处理,效果以及速度都有很大的提升。
发明内容
本专利主要用来解决纸质文档数字化加工时,对文档图像中反面渗透过来的字迹或***进行消除的同时保留正面字迹或***的一种去除文档图像背面渗透字迹的方法。
本发明的技术方案包括如下步骤:
a.指定地址读入三通道彩色图像;
b.按照红、绿、蓝三层将原图像分成三张单通道图像;
c.在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T;
d.在c基础上,从T到255计算在这些色度级别上每一级的像素点个数,像素点最多的级别值记为t;
e.在单通道图像上,0到T级别的所有像素点的值保持不变,T到255级别的像素点的值都置为t;
f.将红、绿、蓝三层合并为新的图像;
g.新图像写出到指定地址文件。
其中,步骤c、步骤d和步骤e在红、绿、蓝三层图像上都需要运算。
其中,d步骤中为在c基础上保留0到T之间所有像素的值不变。
其中,c步骤中使用OTSU算法在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T。
相对于现有技术,本发明提出彩色图像红绿蓝三通道OTSU及自适应策略计算出最优阈值,有效地解决了现有反渗处理因纸张特征不同产生的自动处理难题;本发明运算效率高,可在数字化加工领域批量应用,提高加工效率,节约人力成本;本发明对待处理图像背景的渗透程度限制小,适应性强;本发明不仅仅可以用于单纯的页面效果优化,而且加入OCR字符识别的初级预处理步骤后可以大大提高字迹辨识率,节省加工时间。
附图说明
图1为处理前反面存在渗透的文档的示意图;
图2为本发明的流程图;
图3为本发明一个实施例的流程图;
图4为处理后的文档的示意图。
具体实施方式
下面结合实施例对本发明的具体实施方法作进一步描述。该实施例用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参见图1,图1中的文档存在反面印刷内容渗透至文档正面的情况,因此在OPENCV2.4.9开源计算机视觉库的算法平台上,运用如下方法:
a.指定地址读入三通道彩色图像;
b.按照红、绿、蓝三层将原图像分成三张单通道图像;
c.在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T;
d.在c基础上,从T到255计算在这些色度级别上每一级的像素点个数,像素点最多的级别值记为t;
e.在单通道图像上,0到T级别的所有像素点的值保持不变,T到255级别的像素点的值都置为t;
f.将红、绿、蓝三层合并为新的图像;
g.新图像写出到指定地址文件。
其中经过步骤a的读入处理、步骤b的分层处理、步骤c的计算阈值之后得到三通道的OTSU阈值分别为151(红)、156(绿)、164(蓝),此为T值。
例如在红色分量下,T值可以最大程度上将图像分成亮区与暗区,亮区像素点占图像的比例为W0,平均色度值为U0,暗区像素点占图像比例为W1,平均色度值为U1。则图像的总平均红色色度值为U=W0*U0+W1*U1
根据方差公式:
G=W0*W1*(U0-U1)*(U0-U1);
当G值最大的时候,即可认为此时亮区与暗区的背景差异达到最大,此时的T值即为最佳阈值。
在此基础上第d步骤计算从T到255级之间像素点最多所属的级分别是234(红)、237(绿)、244(蓝)。
例如红色分量下,从0到T级对图像做直方图,计算像素点在每一级上出现的总和。
本实施例中在图1中你的图片的红色单通道图像上,前后景的最大类间差阈值为151,背景中落在234色度级上的像素点最多,所以在第e步骤中0到151色度级上的像素点的色度值保持不变以保留正面字迹,152到255色度级上的像素点的色度值都重置为234,这样既抹除了反渗痕迹同时也最大程度保留了纸张的本色。
参见图4,三个通道都做相同的处理之后,通过第f步骤对三通道进行合并。
本发明稍作调整也可适用于灰度图像,工艺步骤相比上述实施例中的彩色图像处理流程只要完成单通道处理即可。即在处理白色页面的文档图像时,可直接将第d步变成在单通道图像上0到T级别的所有像素点的值保持不变,T到255级别的像素点的值都置为255,然后合并三通道即可。
本发明在实现过程中t值可在图片处理之后依照预想结果再由人工做微小调整,t>0表示将保留更多的前景字迹,t<0表示将消除更多的前景字迹。此处需要说明的是在实际加工过程中会出现正面***字迹比较浅,被误判为背景的情况出现,经过阈值微调之后,可以达到既可以保留前景字迹同时消除背景反渗噪声的效果。
本专利是直接在彩色图像上使用OTSU算法,结合保留页面本身颜色的设置处理环节,应用目标则是为了提高图片整体外观的可读性以及提高后续OCR识别率,加工流程也从人工修图提升为批量处理,效果以及速度都有很大的提升。
上述仅为本发明的优选实施方式,应指出的是,对于本行业内的普通技术技术人员而言,在本发明的原理之下可以由一些改进和替换,该改进和替换也应视为本发明的保护范围。

Claims (4)

1.一种去除文档图像背面渗透字迹的方法,其特征在于包含如下步骤:
a.指定地址读入三通道彩色图像;
b.按照红、绿、蓝三层将原图像分成三张单通道图像;
c.在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T;
d.在c基础上,从T到255计算在这些色度级别上每一级的像素点个数,像素点最多的级别值记为t;
e.在单通道图像上,0到T级别的所有像素点的值保持不变,T到255级别的像素点的值都置为t;
f.将红、绿、蓝三层合并为新的图像;
g.新图像写出到指定地址文件。
2.根据权利要求1所述的一种去除文档图像背面渗透字迹的方法,其特征在于:步骤c、步骤d和步骤e在红、绿、蓝三层图像上都需要运算。
3.根据权利要求1或2所述的一种去除文档图像背面渗透字迹的方法,其特征在于:d步骤中为在c基础上保留0到T之间所有像素的值不变。
4.根据权利要求1所述的一种去除文档图像背面渗透字迹的方法,其特征在于:c步骤中使用OTSU算法在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T。
CN201610049126.7A 2016-01-25 2016-01-25 去除文档图像背面渗透字迹的方法 Pending CN105741272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610049126.7A CN105741272A (zh) 2016-01-25 2016-01-25 去除文档图像背面渗透字迹的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610049126.7A CN105741272A (zh) 2016-01-25 2016-01-25 去除文档图像背面渗透字迹的方法

Publications (1)

Publication Number Publication Date
CN105741272A true CN105741272A (zh) 2016-07-06

Family

ID=56247646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610049126.7A Pending CN105741272A (zh) 2016-01-25 2016-01-25 去除文档图像背面渗透字迹的方法

Country Status (1)

Country Link
CN (1) CN105741272A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830133A (zh) * 2018-04-17 2018-11-16 平安科技(深圳)有限公司 合同影像图片的识别方法、电子装置及可读存储介质
CN108965707A (zh) * 2018-07-23 2018-12-07 金展科技(佛山)有限公司 一种自动袪底拍摄***
CN109215098A (zh) * 2018-08-20 2019-01-15 广州视源电子科技股份有限公司 笔迹擦除方法和装置
CN111753607A (zh) * 2019-07-29 2020-10-09 广东小天才科技有限公司 一种书写轨迹检测方法及电子设备
CN112464720A (zh) * 2020-10-27 2021-03-09 中电金信软件有限公司 文档图像处理、模型训练方法、装置和计算机设备
CN113784009A (zh) * 2021-09-10 2021-12-10 北京航星永志科技有限公司 一种纸质文本图像处理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7733354B1 (en) * 2007-05-31 2010-06-08 Adobe Systems Incorporated Anti-aliased rendering
CN102523364A (zh) * 2011-12-02 2012-06-27 方正国际软件有限公司 一种文档图像透印清除方法及***
CN104036469A (zh) * 2014-06-27 2014-09-10 天津大学 一种文档扫描图像透字效应消除方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7733354B1 (en) * 2007-05-31 2010-06-08 Adobe Systems Incorporated Anti-aliased rendering
CN102523364A (zh) * 2011-12-02 2012-06-27 方正国际软件有限公司 一种文档图像透印清除方法及***
CN104036469A (zh) * 2014-06-27 2014-09-10 天津大学 一种文档扫描图像透字效应消除方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DA-ZENG TIAN ET AL.: "Dynamic threshold algorithm for removal of Back-to-Front noises of visual document image", 《PROCEEDINGS OF THE 2011 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》 *
林开颜 等: "彩色图像分割方法综述", 《中国图象图形学报》 *
*** 等: "一种基于遗传算法的彩色图像增强方法", 《微计算机信息》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830133A (zh) * 2018-04-17 2018-11-16 平安科技(深圳)有限公司 合同影像图片的识别方法、电子装置及可读存储介质
CN108830133B (zh) * 2018-04-17 2020-02-21 平安科技(深圳)有限公司 合同影像图片的识别方法、电子装置及可读存储介质
CN108965707A (zh) * 2018-07-23 2018-12-07 金展科技(佛山)有限公司 一种自动袪底拍摄***
CN108965707B (zh) * 2018-07-23 2020-11-13 金展科技(佛山)有限公司 一种自动袪底拍摄***
CN109215098A (zh) * 2018-08-20 2019-01-15 广州视源电子科技股份有限公司 笔迹擦除方法和装置
CN111753607A (zh) * 2019-07-29 2020-10-09 广东小天才科技有限公司 一种书写轨迹检测方法及电子设备
CN112464720A (zh) * 2020-10-27 2021-03-09 中电金信软件有限公司 文档图像处理、模型训练方法、装置和计算机设备
CN112464720B (zh) * 2020-10-27 2021-11-23 中电金信软件有限公司 文档图像处理、模型训练方法、装置和计算机设备
CN113784009A (zh) * 2021-09-10 2021-12-10 北京航星永志科技有限公司 一种纸质文本图像处理方法、装置及电子设备
CN113784009B (zh) * 2021-09-10 2022-10-18 北京航星永志科技有限公司 一种纸质文本图像处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN105741272A (zh) 去除文档图像背面渗透字迹的方法
CN106096610B (zh) 一种基于支持向量机的文档图像二值化方法
CN105374015A (zh) 基于局部对比度和笔画宽度估计的低质量文档图像二值化方法
CN109241973B (zh) 一种纹理背景下的字符全自动软分割方法
CN108146093B (zh) 一种去除票据***的方法
CN108960239B (zh) 一种基于图像处理的激光蚀刻金属***编码字符分割方法
CN111476744B (zh) 一种基于分类及大气成像模型的水下图像增强方法
CN110309830B (zh) 基于数学形态学和区域连通性的甲骨文字自动分割方法
CN110909686A (zh) 一种用于辅助驾驶的低照度图像增强***
CN104036469B (zh) 一种文档扫描图像透字效应消除方法
CN105303190B (zh) 一种基于对比度增强法的降质文档图像二值化方法
CN109272475A (zh) 一种快速有效修复与强化水下图像颜色的方法
CN113763404B (zh) 基于优化标记和边缘约束分水岭算法的泡沫图像分割方法
CN108205678B (zh) 一种含有亮斑干扰的铭牌文字识别处理方法
CN115272362A (zh) 一种数字病理全场图像有效区域分割方法、装置
CN108985287B (zh) 笔记本纸张和分类图标识别方法
CN105373798B (zh) 一种基于k近邻抠图和数学形态学的书法字提取方法
CN103870827B (zh) 一种结合颜色与纹理的车牌检测方法
CN106897989B (zh) 一种基于线密度计算的指纹图像分割方法
CN117058182A (zh) 一种用于视觉测距的目标检测边框优化方法
US10764471B1 (en) Customized grayscale conversion in color form processing for text recognition in OCR
CN111445402A (zh) 一种图像去噪方法及装置
CN107808382A (zh) 一种基于色彩饱和度信息的pcb条码分割方法
CN110807747A (zh) 一种基于前景蒙版的文档图像降噪方法
CN110930358A (zh) 一种基于自适应算法的太阳能面板图像处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160706