CN109460735A - 基于图半监督学习的文档二值化处理方法、***、装置 - Google Patents

基于图半监督学习的文档二值化处理方法、***、装置 Download PDF

Info

Publication number
CN109460735A
CN109460735A CN201811334371.8A CN201811334371A CN109460735A CN 109460735 A CN109460735 A CN 109460735A CN 201811334371 A CN201811334371 A CN 201811334371A CN 109460735 A CN109460735 A CN 109460735A
Authority
CN
China
Prior art keywords
image
node
semi
supervised learning
binaryzation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811334371.8A
Other languages
English (en)
Other versions
CN109460735B (zh
Inventor
殷飞
吴金文
孙俊
刘成林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Fujitsu Ltd filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201811334371.8A priority Critical patent/CN109460735B/zh
Publication of CN109460735A publication Critical patent/CN109460735A/zh
Application granted granted Critical
Publication of CN109460735B publication Critical patent/CN109460735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于模式识别领域,具体涉及一种基于图半监督学习的文档二值化处理方法、***、装置,旨在为了解决古籍文档文本识别准确度较低的问题。本发明方法包括:获取待处理的图像;降采样和k近邻法构图;基于分别从前景和背景中选取样本点作为标记的种子点;采用图半监督学习方法进行结点分类;基于前景结点进行图像恢复;对恢复后的图像进行二值化,得到二值化的图像。本发明可以较好地保留文字的纤细笔画,不仅提提高了文字识别的准确度、也提高了文字细节识别的准确度,对于光照不均和背景复杂的图像也有较好的鲁棒性,同时降采样提高了半监督学习算法求解过程的运行速度。

Description

基于图半监督学习的文档二值化处理方法、***、装置
技术领域
本发明属于模式识别领域,具体涉及一种基于图半监督学习的文档二值化处理方法、***、装置。
背景技术
一些古籍文档由于过度使用或者因保存环境恶劣而导致图像严重的退化(比如缺损、污渍、文字渗透及文字过淡等现象),对于这些古籍文档的文本识别目前常用的方法是通过二值化方法进行文本提取以便识别。当前的文档二值化一般采用基于阈值的方法,其大致可分为三大类:全局阈值法、局部阈值法和混合方法。全局阈值法仅通过一个全局阈值将前、背景区分开,速度较快。局部阈值法根据像素的局部领域窗口计算动态的局部阈值将该像素进行前、背景的划分,虽然相比于全局阈值法计算复杂度更高,但能更好地应对退化和质量较低的图像。
有一些文献使用概率图模型来进行文档二值化,比如文献[1]采用马尔科夫随机场模型(MRF)对文本像素和背景像素进行建模,通过最大化后验概率来判断像素属于前景还是背景。值得注意的是,有少量文献还考虑到了人机交互在二值化中的作用,即由用户标定少量像素来辅助二值化算法对整幅图像的像素进行分类,如文献[2]针对文字渗透(即水印)的问题,用户先标定少量属于文本、水印和背景的像素,然后再通过MRF模型对其它像素进行标定,但该方法没有考虑其它退化因素。文献[3]在采用多种二值化方法的同时将每种方法的结果都与用户提供的信息进行融合,从而更有效地利用用户交互信息。
总的来说,虽然该领域提出了很多二值化方法,但基本是针对具体问题进行的具体设计,直接应用于古籍文档,不能取得理想的结果,识别的准确度不能满足需求。
以下文献是与本发明相关的技术背景资料:
[1]T.Lelore,F.Bouchara,Document image binarization using Markov fieldmodel[C],Proc.10th Int'l Conf.on Document Analysis and Recognition(ICDAR2009),pp.551–555,2009.
[2]H.Yi,M.S.Brown,X.Dong,User-assisted ink-bleed reduction,IEEETrans.Image Process[J].19(10):2646–2658,2010.
[3]F.Deng,Z.Wu,Z.Lu,M.S.Brown,BinarizatioinShop:A userassistedsoftware suite for converting old documents to black-and-white[C].Proc.10thannual joint conference on Digital libraries,pp.255–258,2010
发明内容
为了解决现有技术中的上述问题,即为了解决古籍文档文本识别准确度较低的问题,本发明提供了一种基于图半监督学习的图像二值化处理方法,包括:
步骤S1,获取待处理的图像,作为第一图像;
步骤S2,对所述第一图像进行降采样,然后采用k近邻法构图,得到第二图像;将所述第二图像中的像素点作为结点;
步骤S3,通过边缘提取方法获取所述第二图像中前景和背景,并分别从前景和背景中选取离边缘提取法阈值最远的16%样本点作为标记的种子点;
步骤S4,基于所述标记的种子点,采用图半监督学习方法对所述第二图像中结点进行分类,获取前景结点和背景结点;
步骤S5,基于步骤S4获取的前景结点、步骤S3中降采样的像素间距,进行前景像素点的恢复,得到第三图像;
步骤S6,对所述第三图像进行二值化,得到二值化的图像。
在一些优选的实施例中,所述步骤S5中前景像素点的恢复之后还包括所述第三图像的修正步骤,包括:
步骤S521,获取修正信息;所述修正信息为基于所述第三图像中分类错误的像素点,对所述第二图像对应像素分类修正;
步骤S522,从所述修正信息中选取样本点增入对应类别的标记的种子点,并执行步骤S4。
在一些优选的实施例中,所述第二图像G=(V,E),其中V表示结点集{x1,...,xl,xl+1,...,xl+u},E是图G的边集,边集权重W为基于高斯函数定义的亲和矩阵,该矩阵中的元素(W)ij通过下式获取:
是第i结点和第j结点的RGB三通道的欧氏距离,其中,
在一些优选的实施例中,步骤S4中“采用图半监督学习方法对所述第二图像中结点进行分类”,其方法为:
步骤S41,利用所述第二图像中前景的边集,将所述第二图像中的结点变为单连通,以消除图G中存在的大量冗余的边,减小算法的计算复杂度;
步骤S42,采用迭代的方式优化最小能量函数E(f),获取未标记样本的分类,
E(f)=fT(D-W)f+(f-y)TC(f-y)
f=(fl Tfu T)T,其中,fl为有标记样本,fu为未标记样本上的预测结果,D表示对角阵diag(d1,d2,...,dl+u),di表示亲和矩阵W的第行的元素之和,C为常数对角矩阵,其中Cii≥0,y为样本的标记信息。
在一些优选的实施例中,步骤S41中“将所述第二图像中的结点变为单连通”,其方法为:
采用Kruskal法进行最小生成树的计算,新建图Gnew=(Vnew,Enew),其中Vnew=V,Enew={};
将原图G中的各边按权值的大小从小到大排序,得到更新后的边集E1
对E1进行遍历,如果将这条边加入Enew中会出现环路则跳过这条边,直到Gnew中所有的结点都被连通。
在一些优选的实施例中,步骤S2中“对所述第一图像进行降采样”,包括:
以像素距离gap为间隔对所述第一图像进行像素点等间隔采样作为所述第二图像的结点;其中gap为采样后水平和竖直方向相邻结点像素中心之间的像素距离。
在一些优选的实施例中,所述第一图像为文档图像,所述前景为所述文档中的字符部分,所述背景为非字符图像部分,步骤S3中“通过边缘提取方法获取所述第二图像中前景和背景”,包括:
通过连通域提取并统计字符的平均尺寸,以字符平均尺寸作为局部区域的大小设置滑动窗口进行阈值分割,获取所述第二图像中前景和背景。
在一些优选的实施例中,步骤S5中“进行前景像素点的恢复”,其方法为:
基于前景结点为中心的(2gap+1)*(2gap+1)邻域内非结点像素的颜色与距离进行非结点像素的恢复。
在一些优选的实施例中,步骤S1中所述待处理图像通过对采集图像进行边缘去除后获得。
在一些优选的实施例中,所述边缘去除,其方法为:
以RGB(255,255,255)的白色背景像素替换所述采集图像中边缘的黑色像素。
本发明的另一方面,提出了一种基于图半监督学习的图像二值化处理方法,包括:
对第一图像进行切分,得到一组分块图像;
分别对每一块图像采用上述图像二值化处理方法的步骤S2-步骤S6进行二值化处理,得到各分块图像的二值化图像;
将各分块图像的二值化图像进行合并,得到待处理的图像的二值化图像。
本发明的第三方面,提出了一种基于图半监督学习的图像二值化处理方法,包括:
获取待处理的图像,作为第一图像;
对所述第一图像进行降采样,对降采样后的图像进行切分,得到一组分块图像;分别对每一块图像进行k近邻法构图,然后对各构图采用上述图像二值化处理方法的步骤S3-步骤S6进行二值化处理,得到各分块图像的二值化图像;
将各分块图像的二值化图像进行合并,得到待处理的图像的二值化图像。
本发明的第四方面,提出了一种基于图半监督学习的图像二值化处理***,包括获取模块、降采样及构图模块、标记的种子点选取模块、结点分类模块、像素点恢复模块、二值化模块;
所述获取模块,配置为获取待处理的图像,作为第一图像;
所述降采样及构图模块,配置为对所述第一图像进行降采样,然后采用k近邻法构图,得到第二图像;将所述第二图像中的像素点作为结点;
所述标记的种子点选取模块,配置为通过边缘提取方法获取所述第二图像中前景和背景,并分别从前景和背景中选取样本点作为标记的种子点;
所述结点分类模块,配置为基于所述标记的种子点,采用图半监督学习方法对所述第二图像中结点进行分类,获取前景结点和背景结点;
所述像素点恢复模块,配置为基于结点分类模块得到的前景结点、降采样及构图模块中降采样的像素间距,进行前景像素点的恢复,得到第三图像;
所述二值化模块,配置为对所述第三图像进行二值化,得到二值化的图像。
本发明的第五方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于图半监督学习的图像二值化处理方法。
本发明的第六方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于图半监督学习的图像二值化处理方法。
本发明的有益效果:
(1)本发明基于图半监督学习方法实现二值化,有效利用了图像像素点的颜色与位置信息,可以较好地保留文字的纤细笔画,不仅提高了文字识别的准确度,也提高了文字细节识别的准确度,对于光照不均和背景复杂的图像也有较好的鲁棒性。
(2)使用一种新颖的迭代的方式进行图半监督学习最小能量函数优化问题的求解,结合图像的分块求解及降采样,显著提高半监督学习算法求解过程的运行速度。
(3)输入古籍文档图像,***会自动通过严苛的二值化的方式选取种子点,将图像的二值化问题转化为半监督学习框架下的图的像素快速分类问题,实现少量训练样本条件下的聚类。
(4)在可计算的框架内,将标注修正信息和自动处理算法有机地融合起来,进一步提高了文字识别的准确度和文字细节识别的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于图半监督学习的图像二值化处理方法流程示意图;
图2是图半监督学习原理示意图;
图3是本发明实施例中所输入的古籍文档图像示例;
图4是本发明实施例中古籍文档图像前景部分的示例;
图5是本发明实施例中古籍文档图像人工标记图像示例;
图6是本发明实施例中古籍文档图像处理完成后输出的图像示例。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
现有图像二值化方法很多,但基本是具体问题具体分析,没有一个普适的方法。尤其是对历史文献/文档图像的二值化,由于其具有极大的挑战性,至今的算法都还不能取得理想的结果。一方面,对区分文本和背景的有效特征还没有进行过充分的研究;另一方面,如何在可计算的框架内,将用户提供的信息和自动处理算法有机地融合起来,也没有展开过深入的研究。本发明的技术方案结合这两方面对技术进行改进,提高了图像二值化处理的准确度和鲁棒性。
本发明的一种基于图半监督学习的图像二值化处理方法,包括:
步骤S1,获取待处理的图像,作为第一图像;
步骤S2,对所述第一图像进行降采样,然后采用k近邻法构图,得到第二图像;将所述第二图像中的像素点作为结点;
步骤S3,通过边缘提取方法获取所述第二图像中前景和背景,并分别从前景和背景中选取离边缘提取方法阈值最远的16%样本点作为标记的种子点;
步骤S4,基于所述标记的种子点,采用图半监督学习方法对所述第二图像中结点进行分类,获取前景结点和背景结点;
步骤S5,基于步骤S4获取的前景结点、步骤S3中降采样的像素间距,进行前景像素点的恢复,得到第三图像;
步骤S6,对所述第三图像进行二值化,得到二值化的图像。
为了达到更好的效果,步骤S5中前景像素点的恢复之前***还可以通过人机交互引入所述第三图像的修正步骤,包括:
步骤S521,获取人工修正信息;所述修正信息为基于所述第三图像中分类错误的像素点,对所述第二图像对应像素分类修正;
步骤S522,从所述修正信息中选取样本点增入和修正边缘提取方法获取的标记的种子点,并执行步骤S4。
为了更清晰地对本发明基于图半监督学习的图像二值化处理方法进行说明,下面结合图1对本方发明方法一种实施例中各步骤进行展开详述。下面实施例结合古文献图像的处理进行说明,但并不限定本发明方法适用对象,对其他文档图像、字符图像、图画图像等也同样适用。
本方发明一种实施例的基于图半监督学习的图像二值化处理方法,包括步骤S1-步骤S6,各步骤详细描述如下:
步骤S1,获取待处理的图像,作为第一图像。
由于古文献图像可能不是矩形,扫描录入时会以RGB(0,0,0)的纯黑像素填充图像为矩形,使的图像存在黑色的边缘。在进行二值化前先扫描一遍图像,以RGB(255,255,255)的白色背景像素替换边缘的黑色像素。本发明实施例中的古文献图像如图3所示。
本步骤中,待处理图像可以是所采集的古文献图像进行边缘去除后获得图像,也可以是所采集的古文献图像的原始图像,当为后者时需要在步骤中增加边缘去除的步骤,以RGB(255,255,255)的白色背景像素替换所述采集图像中边缘的黑色像素,消除会影响后续步骤精度的边缘。
步骤S2,对所述第一图像进行降采样,然后采用k近邻法构图,得到第二图像;将所述第二图像中的像素点作为结点。
本步骤包括两部分:降采样、构图。
(1)降采样
以像素距离gap为间隔对所述第一图像进行像素点等间隔采样作为所述第二图像的结点;其中gap为采样后水平和竖直方向相邻结点像素中心之间的像素距离。通过降采样可以减少构图的复杂度。
降采样后,古籍文档图像结点数降低到原始像素数量的1/(gap*gap)。本实施例中设置gap=2,降采样后,古籍文档图像结点数降低到原始像素数量的1/4。
(2)k近邻法构图
以k近邻法(k-nearest neighbor,kNN)构图扫描采样后图像上的结点,计算以目标结点为中心,半径为k*gap以内的结点与其之间边的权重,对于其中的结点i和j,其边的权重如式(1)所示:
其中,(W)ij为边集权重,是结点i和j的RGB三通道的欧式距离(欧式距离,也叫欧几里得度量,指在m维空间中两个点之间的真实距离或者向量的自然长度,在二维和三维空间中代表的就是两点之间的实际距离),其中E为第二图像的边集。较传统方式对灰度图像进行阈值分割,本发明的方式有效利用了图像的颜色信息。
在使用输入图像构图时,利用kNN法构图,计算各结点近邻区域的结点与之相似度,利用到了结点之间的距离关系,而不同于传统方式忽略了像素点相对位置的阈值分割。
由于构建的图为无向图,边集权重(W)ij=(W)ji,因此,对于这样一对结点,只计算一次权重。
步骤S3,通过边缘提取方法获取所述第二图像中前景和背景,并分别从前景和背景中选取样本点作为标记的种子点。
该步骤通过局部自适应的二值化方式选取种子点,使用Canny算子对图像边缘提取,计算图像的局部对比度b1和b2,如式(2)和式(3)所示:
其中,h(i,j)为灰度值,ε>0,是一个极小偏置量以防止maxf(i,j)+minf(i,j)为0时不可计算,设置参数β,β∈[0,1],那么局部的对比度b(x,y)定义如式(4)所示:
b(x,y)=β*b1+(1-β)*b2 式(4)
以中心像素点来表示当前的局部,在遍历图中所有的像素点后就可以得到原图的对比度图,通过边缘图像和对比度图确定字符笔画的边缘。通过连通域提取统计字符的平均大小,以字符平均尺寸n×m作为局部区域的大小设置滑动窗口进行阈值分割,使图像大致准确的得到前景的文字和背景,再对字符笔画和背景部分分别选择少量样本点作为标记的种子点。
步骤S4,基于所述标记的种子点,采用图半监督学习方法对所述第二图像中结点进行分类,获取前景结点和背景结点。
步骤S41,利用所述第二图像中前景的边集,将所述第二图像中的结点变为单连通,以消除第二图像中存在的大量冗余的边,加速运算。
第二图像表示为G,G=(V,E),其中V表示结点集{x1,...,xl,xl+1,...,xl+u},E是图G的边集,是一个基于高斯函数定义的亲和矩阵,该矩阵中的元素为(W)ij。对边集E使用MST(MST,最小生成树法)将图G中的结点依据结点两边的权重进行重新连接,将图G的结点变为单连通,具体包括以下步骤:
(1)采用Kruskal(Kruskal,克鲁斯卡尔,求加权连通图的最小生成树的算法)法进行最小生成树的计算,新建构图Gnew=(Vnew,Enew),其中Vnew=V,Enew={};
(2)将图G中的边按权值的大小从小到大排序,得到更新后的边集E1
(3)对E1进行遍历,如果将这条边加入Enew中会出现环路则跳过这条边,直到Gnew中所有的结点都被连通。
步骤S42,采用迭代的方式优化最小能量函数,获取未标记样本的分类。
使用迭代的方式优化最小能量函数:
E(f)=fT(D-W)f+(f-y)TC(f-y) 式(5)
f=(fl Tfu T)T,其中f为有标记样本fl和未标记样本上的预测结果组成的列向量,D表示对角阵diag(d1,d2,...,dl+u),其中di表示亲和矩阵W的第i行的元素之和,C为常数对角矩阵,其中Cii≥0,y为样本的标记信息。设Δ=D-W,则Δ为拉普拉斯矩阵。式(5)最小能量函数优化使分类函数f更适应图G中结点集V的分类,f=(fl Tfu T)T则提供分类函数f与已标记好种子点的约束,通过求解分类函数f来得到未标记样本的分类。
图2是图半监督学习原理示意图,相较于监督学习的方式,半监督学习只需要少量的已标记样本集Dl,就可以进行模型的训练,并对大量未标记样本集Du的信息进行预测,实现样本点的聚类,但尽管如此,仍需要一定的标记信息。本发明的方式通过利用局部自适应二值化方式在字符笔画骨架及背景提取种子点,实现训练样本集合Dl的标记(即种子点的提取)。将图像的二值化问题转化为半监督学习框架下的图的像素快速分类问题,实现少量训练样本条件下的聚类。
步骤S5,基于结点分类模块得到的前景结点、降采样及构图模块中降采样的像素间距,进行前景像素点的恢复,第三图像。
在本实施例中,采样恢复后,通过人机界面显示,如图4所示,其中图4中的局部放大图并非本发明现实方式的限定,可以采用局部放大图来显示错误标注部分,也可以不采用局部放大图。
对降采样后的图像进行恢复的方法是:计算以被划分为前景的结点为中心的(2gap+1)*(2gap+1)邻域内非结点像素与之颜色相似度与距离的接近程度其中x与y分别表示非结点像素与中心结点像素的水平、竖直像素距离。若接近程度小于设定阈值则将该非结点像素也划分为前景,进而实现非结点像素的恢复。将被分类为前景的像素以原始输入图像对应像素点的颜色进行显示(如图4所示),背景像素则以白色RGB(255,255,255)显示。
若有分类错误,还可以在步骤S5中前景像素点的恢复之后增加设置修正步骤,包括:
步骤S521,获取修正信息;所述修正信息为基于所述第三图像中分类错误的像素点,对所述第二图像对应像素分类修正。
在一些实施例中,可以通过自动化的手段进行识别并标注,也可以通过人机交互***的鼠标用RGB(255,0,0)的来标记前景、RGB(0,0,255)来标记背景,以人工方式通过人机交互端口获取标注修正信息。图4中最下面一行文字中“得”字下方的有部分像素被错误分类为前景点(为了更清晰地显示误判部分,在该图中通过方框标记并进行局部放大),则如图5中最下面一行文字中“得”字下方引入人工修正信息,告知***此处是背景(为了更清晰地说明,在该图中通过方框标记)。
步骤S522,从所述修正信息中选取样本点增入对应类别的标记的种子点,并执行步骤S4。
本实施例中,自动选取种子点后,可直接进行训练得到图像中像素点的分类结果,在人机交互界面中予以显示。人机交互界面会以三通道彩色图像的形式显示分类结果,使之更容易被分辨是否有背景被错误划分为前景,便于识别修正部位,并通过人工录入的方式引入人工信息。
特别是当背景复杂,存在严重的水印、退化和光照不均等情况导致自动选取的种子点不合理而得不到理想情况时,可以调整输入模式,通过人机交互设备录入人工对分类错误的像素用鼠标做简单的标记。***会默认人工录入信息具有较高优先级,将种子点进行重新设置,以得到更好地二值化效果。
步骤S6,对所述第三图像进行二值化,得到二值化的图像。
将最终的图像中前景部分置为黑色RGB(0,0,0)保存并输出最终二值化结果(如图6所示)。由于在步骤S5中已将背景像素置为白色RGB(255,255,255),因此该步骤只需将前景部分置为黑色RGB(0,0,0)即可,也可以采用二值化的方法进行处理,两者实质相同。
传统二值化方式无论是全局阈值法还是局部阈值法都是使用阈值分割的方式将灰度图像的像素点分割成灰度级在阈值之上和之下的部分。而本发明的方法是通过设置种子点,再通过半监督聚类的方式实现与种子点的相似特征输入的结点有相似标记的输出,与传统阈值分割的方式有本质不同。
本发明实施例有效利用了图像像素点的颜色与位置信息,可以较好地保留文字的纤细笔画,对于光照不均和背景复杂的图像也有较好的鲁棒性。
本发明第二实施例的基于图半监督学习的图像二值化处理方法,包括:
对第一图像进行切分,得到一组分块图像;
分别对每一块图像采用上述图像二值化处理方法的步骤S2-步骤S6的方法进行二值化处理,得到各分块图像的二值化图像;
将各分块图像的二值化图像进行合并,得到待处理的图像的二值化图像。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的第二实施例的基于图半监督学习的图像二值化处理方法的步骤S2-步骤S6的具体工作过程及有关说明,可以参考前述第一实施例的基于图半监督学习的图像二值化处理方法步骤对应过程,在此不再赘述。
本发明第三个实施例的基于图半监督学习的图像二值化处理方法,包括:
获取待处理的图像,作为第一图像;
对所述第一图像进行降采样,对降采样后的图像进行切分,得到一组分块图像;分别对每一块图像进行k近邻法构图,然后对各构图采用上述图像二值化处理方法的步骤S3-步骤S6进行二值化处理,得到各分块图像的二值化图像;
将各分块图像的二值化图像进行合并,得到待处理的图像的二值化图像。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的第三实施例的基于图半监督学习的图像二值化处理方法的步骤S3-步骤S6的具体工作过程及有关说明,可以参考前述第一实施例的基于图半监督学习的图像二值化处理方法步骤对应过程,在此不再赘述。
本发明实施例中使用一种新颖的迭代的方式进行图半监督学习最小能量函数优化问题的求解,结合图像的分块求解及降采样,显著提高半监督学习算法求解过程的运行速度,结点为n的图处理的时间复杂度为O(n)。
本发明第二实施例、第三实施例对较大的图像进行处理时,在保证二值化精度的前提下会进行图像的分块处理。其优势在于:
(1)分块处理使构图时,图G的边集E的复杂度大大下降,即使构图时对图像不做采样,单块区域的边集E的复杂度也不会过高,在做学习器的训练时,可以提高单块的处理速度。
(2)分块处理使***更容易进行多线程并行处理,通过多线程对分割的子区域进行单独的处理,大大提高***的运行速度,减少处理较大图片时总体的运行时间。
本发明第四实施例的一种基于图半监督学习的图像二值化处理***,包括获取模块、降采样及构图模块、标记的种子点选取模块、结点分类模块、像素点恢复模块、二值化模块;
所述获取模块,配置为获取待处理的图像,作为第一图像;
所述降采样及构图模块,配置为对所述第一图像进行降采样,然后采用k近邻法构图,得到第二图像;将所述第二图像中的像素点作为结点;
所述标记的种子点选取模块,配置为通过边缘提取方法获取所述第二图像中前景和背景,并分别从前景和背景中选取样本点作为标记的种子点;
所述结点分类模块,配置为基于所述标记的种子点,采用图半监督学习方法对所述第二图像中结点进行分类,获取前景结点和背景结点;
所述像素点恢复模块,配置为基于结点分类模块得到的前景结点、降采样及构图模块中降采样的像素间距,进行前景像素点的恢复,得到第三图像;
所述二值化模块,配置为对所述第三图像进行二值化,得到二值化的图像。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于图半监督学习的图像二值化处理***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第五实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于图半监督学习的图像二值化处理方法。
本发明第六实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于图半监督学习的图像二值化处理方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (15)

1.一种基于图半监督学习的图像二值化处理方法,其特征在于,包括:
步骤S1,获取待处理的图像,作为第一图像;
步骤S2,对所述第一图像进行降采样,然后采用k近邻法构图,得到第二图像;将所述第二图像中的像素点作为结点;
步骤S3,通过边缘提取方法获取所述第二图像中前景和背景,并分别从前景和背景中选取样本点作为标记的种子点;
步骤S4,基于所述标记的种子点,采用图半监督学习方法对所述第二图像中像素点进行分类,获取前景结点和背景结点;
步骤S5,基于步骤S4获取的前景结点、步骤S3中降采样的像素间距,进行前景像素点的恢复,得到第三图像;
步骤S6,对所述第三图像进行二值化,得到二值化的图像。
2.根据权利要求1所述的基于图半监督学习的图像二值化处理方法,其特征在于,所述步骤S5中前景像素点的恢复之后还包括所述第三图像的修正步骤,包括:
步骤S521,获取修正信息;所述修正信息为基于所述第三图像中分类错误的像素点,对所述第二图像对应像素分类修正;
步骤S522,从所述修正信息中选取样本点增入对应类别的标记的种子点,并执行步骤S4。
3.根据权利要求1所述的基于图半监督学习的图像二值化处理方法,其特征在于,所述第二图像G=(V,E),其中V表示结点集{x1,...,xl,xl+1,...,xl+u},E是图G的边集,边集权重W为基于高斯函数定义的亲和矩阵,该矩阵中的元素(W)ij通过下式获取:
是第i结点和第j结点的RGB三通道的欧氏距离,
其中
4.根据权利要求3所述的基于图半监督学习的图像二值化处理方法,其特征在于,步骤S4中“采用图半监督学习方法对所述第二图像中结点进行分类”,其方法为:
步骤S41,利用所述第二图像中前景的边集,将所述第二图像中的结点变为单连通;
步骤S42,采用迭代的方式优化最小能量函数E(f),获取未标记样本的分类,
E(f)=fT(D-W)f+(f-y)TC(f-y)
f=(fl Tfu T)T,其中,fl为有标记样本,fu为未标记样本上的预测结果,D表示对角阵diag(d1,d2,...,dl+u),di表示亲和矩阵W的第i行的元素之和,C为常数对角矩阵,其中Cii≥0,y为样本的标记信息。
5.根据权利要求4所述的基于图半监督学习的图像二值化处理方法,,其特征在于,步骤S41中“将所述第二图像中的结点变为单连通”,其方法为,
采用Kruskal法进行最小生成树的计算,新建图Gnew=(Vnew,Enew),其中Vnew=V,Enew={};
将图G中的各边按权值的大小从小到大排序,得到更新后的边集E1
对E1进行遍历,如果将这条边加入Enew中会出现环路则跳过这条边,直到Gnew中所有的结点都被连通。
6.根据权利要求1所述的基于图半监督学习的图像二值化处理方法,其特征在于,步骤S2中“对所述第一图像进行降采样”,包括:
以像素距离gap为间隔对所述第一图像进行像素点等间隔采样作为所述第二图像的结点;其中gap为采样后水平和竖直方向相邻结点像素中心之间的像素距离。
7.根据权利要求1所述的基于图半监督学习的图像二值化处理方法,其特征在于,所述第一图像为文档图像,所述前景为所述文档中的字符部分,所述背景为非字符图像部分,步骤S3中“通过边缘提取方法获取所述第二图像中前景和背景”,包括:
通过连通域提取并统计字符的平均尺寸,以字符平均尺寸n×m作为局部区域的大小设置滑动窗口进行阈值分割,获取所述第二图像中前景和背景。
8.根据权利要求1所述的基于图半监督学习的图像二值化处理方法,其特征在于,步骤S5中“进行前景像素点的恢复”,其方法为:
基于前景结点为中心的(2gap+1)*(2gap+1)邻域内非结点像素的颜色与距离进行非结点像素的恢复。
9.根据权利要求1-8任一项所述的基于图半监督学习的图像二值化处理方法,其特征在于,步骤S1中所述待处理图像通过对采集图像进行边缘去除后获得。
10.根据权利要求9所述的基于图半监督学习的图像二值化处理方法,其特征在于,所述边缘去除,其方法为:
以RGB(255,255,255)的白色背景像素替换所述采集图像中边缘的黑色像素。
11.一种基于图半监督学习的图像二值化处理方法,其特征在于,包括:
对第一图像进行切分,得到一组分块图像;
分别对每一块图像采用权利要求1-10任一项所述图像二值化处理方法的步骤S2-步骤S6进行二值化处理,得到各分块图像的二值化的图像;
将各分块图像的二值化的图像进行合并,得到待处理的图像的二值化图像。
12.一种基于图半监督学习的图像二值化处理方法,其特征在于,包括:
获取待处理的图像,作为第一图像;
对所述第一图像进行降采样,对降采样后的图像进行切分,得到一组分块图像;分别对每一块图像进行k近邻法构图,然后对各构图采用权利要求1-10任一项所述图像二值化处理方法的步骤S3-步骤S6进行二值化处理,得到各分块图像的二值化的图像;
将各分块图像的二值化的图像进行合并,得到待处理的图像的二值化图像。
13.一种基于图半监督学习的图像二值化处理***,其特征在于,包括获取模块、降采样及构图模块、标记的种子点选取模块、结点分类模块、像素点恢复模块、二值化模块;
所述获取模块,配置为获取待处理的图像,作为第一图像;
所述降采样及构图模块,配置为对所述第一图像进行降采样,然后采用k近邻法构图,得到第二图像;将所述第二图像中的像素点作为结点;
所述标记的种子点选取模块,配置为通过边缘提取方法获取所述第二图像中前景和背景,并分别从前景和背景中选取样本点作为标记的种子点;
所述结点分类模块,配置为基于所述标记的种子点,采用图半监督学习方法对所述第二图像中结点进行分类,获取前景结点和背景结点;
所述像素点恢复模块,配置为基于结点分类模块得到的前景结点、降采样及构图模块中降采样的像素间距,进行前景像素点的恢复,得到第三图像;
所述二值化模块,配置为对所述第三图像进行二值化,得到二值化的图像。
14.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-12任一项所述的基于图半监督学习的图像二值化处理方法。
15.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-12任一项所述的基于图半监督学习的图像二值化处理方法。
CN201811334371.8A 2018-11-09 2018-11-09 基于图半监督学习的文档二值化处理方法、***、装置 Active CN109460735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811334371.8A CN109460735B (zh) 2018-11-09 2018-11-09 基于图半监督学习的文档二值化处理方法、***、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811334371.8A CN109460735B (zh) 2018-11-09 2018-11-09 基于图半监督学习的文档二值化处理方法、***、装置

Publications (2)

Publication Number Publication Date
CN109460735A true CN109460735A (zh) 2019-03-12
CN109460735B CN109460735B (zh) 2021-02-02

Family

ID=65609947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811334371.8A Active CN109460735B (zh) 2018-11-09 2018-11-09 基于图半监督学习的文档二值化处理方法、***、装置

Country Status (1)

Country Link
CN (1) CN109460735B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097059A (zh) * 2019-03-22 2019-08-06 中国科学院自动化研究所 基于生成对抗网络的文档图像二值化方法、***、装置
CN110222144A (zh) * 2019-04-17 2019-09-10 深圳壹账通智能科技有限公司 文本内容提取方法、装置、电子设备及存储介质
CN111428760A (zh) * 2020-03-10 2020-07-17 上海集成电路研发中心有限公司 一种基于特征相似度的自适应聚类方法及应用
CN112837329A (zh) * 2021-03-01 2021-05-25 西北民族大学 一种藏文古籍文档图像二值化方法及***
CN112990374A (zh) * 2021-04-28 2021-06-18 平安科技(深圳)有限公司 图像分类方法、装置、电子设备及介质
CN113989675A (zh) * 2021-11-02 2022-01-28 四川睿迈威科技有限责任公司 基于遥感影像的地理信息提取深度学习训练样本交互制作方法
CN114168817A (zh) * 2021-11-05 2022-03-11 合肥湛达智能科技有限公司 一种半监督学习目标识别方法
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021905A (zh) * 2006-02-15 2007-08-22 中国科学院自动化研究所 一种文档图像二值化方法
CN105373798A (zh) * 2015-11-20 2016-03-02 西北大学 一种基于k近邻抠图和数学形态学的书法字提取方法
CN105931253A (zh) * 2016-05-16 2016-09-07 陕西师范大学 一种基于半监督学习相结合的图像分割方法
CN107862295A (zh) * 2017-11-21 2018-03-30 武汉大学 一种基于WiFi信道状态信息识别面部表情的方法
CN107977683A (zh) * 2017-12-20 2018-05-01 南京大学 基于卷积特征提取和机器学习的联合sar目标识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021905A (zh) * 2006-02-15 2007-08-22 中国科学院自动化研究所 一种文档图像二值化方法
CN105373798A (zh) * 2015-11-20 2016-03-02 西北大学 一种基于k近邻抠图和数学形态学的书法字提取方法
CN105931253A (zh) * 2016-05-16 2016-09-07 陕西师范大学 一种基于半监督学习相结合的图像分割方法
CN107862295A (zh) * 2017-11-21 2018-03-30 武汉大学 一种基于WiFi信道状态信息识别面部表情的方法
CN107977683A (zh) * 2017-12-20 2018-05-01 南京大学 基于卷积特征提取和机器学习的联合sar目标识别方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097059B (zh) * 2019-03-22 2021-04-02 中国科学院自动化研究所 基于生成对抗网络的文档图像二值化方法、***、装置
CN110097059A (zh) * 2019-03-22 2019-08-06 中国科学院自动化研究所 基于生成对抗网络的文档图像二值化方法、***、装置
CN110222144B (zh) * 2019-04-17 2023-03-28 深圳壹账通智能科技有限公司 文本内容提取方法、装置、电子设备及存储介质
CN110222144A (zh) * 2019-04-17 2019-09-10 深圳壹账通智能科技有限公司 文本内容提取方法、装置、电子设备及存储介质
CN111428760A (zh) * 2020-03-10 2020-07-17 上海集成电路研发中心有限公司 一种基于特征相似度的自适应聚类方法及应用
CN111428760B (zh) * 2020-03-10 2023-09-08 上海集成电路研发中心有限公司 一种基于特征相似度的自适应聚类方法及应用
CN112837329A (zh) * 2021-03-01 2021-05-25 西北民族大学 一种藏文古籍文档图像二值化方法及***
CN112837329B (zh) * 2021-03-01 2022-07-19 西北民族大学 一种藏文古籍文档图像二值化方法及***
CN112990374A (zh) * 2021-04-28 2021-06-18 平安科技(深圳)有限公司 图像分类方法、装置、电子设备及介质
CN112990374B (zh) * 2021-04-28 2023-09-15 平安科技(深圳)有限公司 图像分类方法、装置、电子设备及介质
CN113989675A (zh) * 2021-11-02 2022-01-28 四川睿迈威科技有限责任公司 基于遥感影像的地理信息提取深度学习训练样本交互制作方法
CN114168817A (zh) * 2021-11-05 2022-03-11 合肥湛达智能科技有限公司 一种半监督学习目标识别方法
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Also Published As

Publication number Publication date
CN109460735B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN109460735A (zh) 基于图半监督学习的文档二值化处理方法、***、装置
CN109840521B (zh) 一种基于深度学习的一体化车牌识别方法
EP3819859B1 (en) Sky filter method for panoramic images and portable terminal
CN108537146A (zh) 一种印刷体与手写体混合文本行提取***
CN111401353B (zh) 一种数学公式的识别方法、装置及设备
CN111145209A (zh) 一种医学图像分割方法、装置、设备及存储介质
CN110781882A (zh) 一种基于yolo模型的车牌定位和识别方法
CN105868708A (zh) 一种图像目标识别方法及装置
CN109543753B (zh) 基于自适应模糊修复机制的车牌识别方法
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN113191358B (zh) 金属零件表面文本检测方法和***
CN113591866A (zh) 基于db与crnn的特种作业证件检测方法及***
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN113343989A (zh) 一种基于前景选择域自适应的目标检测方法及***
CN115880704A (zh) 一种病例的自动编目方法、***、设备及存储介质
CN109272522B (zh) 一种基于局部特征的图像细化分割方法
CN114581928A (zh) 一种表格识别方法及***
CN114067339A (zh) 图像识别方法及其装置、电子设备、计算机可读存储介质
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111553361B (zh) 一种病理切片标签识别方法
CN111814801A (zh) 一种机械图中标注串的提取方法
CN115063679B (zh) 一种基于深度学习的路面质量评估方法
CN106228553A (zh) 高分辨率遥感图像阴影检测装置与方法
CN114066861B (zh) 一种基于交叉算法边缘检测理论和视觉特征的煤矸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240306

Address after: 95 Zhongguancun East Road, Haidian District, Beijing

Patentee after: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Country or region after: China

Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District

Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Country or region before: China

Patentee before: FUJITSU Ltd.

Country or region before: Japan