CN114565756B - 混合高斯分布和二项分布的两阶段甲骨文字分割方法 - Google Patents

混合高斯分布和二项分布的两阶段甲骨文字分割方法 Download PDF

Info

Publication number
CN114565756B
CN114565756B CN202210127612.1A CN202210127612A CN114565756B CN 114565756 B CN114565756 B CN 114565756B CN 202210127612 A CN202210127612 A CN 202210127612A CN 114565756 B CN114565756 B CN 114565756B
Authority
CN
China
Prior art keywords
area
distribution
gaussian
region
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210127612.1A
Other languages
English (en)
Other versions
CN114565756A (zh
Inventor
宋传鸣
张晋豪
王一琦
史丹
洪飏
王相海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Normal University
Original Assignee
Liaoning Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Normal University filed Critical Liaoning Normal University
Priority to CN202210127612.1A priority Critical patent/CN114565756B/zh
Publication of CN114565756A publication Critical patent/CN114565756A/zh
Application granted granted Critical
Publication of CN114565756B publication Critical patent/CN114565756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种混合高斯分布和二项分布的两阶段甲骨文字分割方法。首先,利用颜色空间转换提取甲骨拓片图像的亮度分量;其次,以混合高斯分布模型建模图像的全局统计特性,联合K‑均值算法和EM算法进行优化求解,进而以相对熵测度为约束,得到抑制了点状噪声的粗分割结果;然后,利用顶帽运算和连通区域分析,去除片状斑纹、盾纹、齿缝以及大面积背景;最后,以二项分布对连通区域的面积进行建模,利用最大类间方差计算该二项分布的方差,进而结合外接矩形分析,实现对残留的兆纹、刻痕和固有纹理的自适应填充,获得甲骨文字的最终分割结果。

Description

混合高斯分布和二项分布的两阶段甲骨文字分割方法
技术领域
本发明涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有效抵抗龟甲和兽骨上存在的点状噪声、片状斑纹和固有纹理的干扰,准确性高、鲁棒性好、处理速度快、自适应能力强、基于混合高斯分布和二项分布的两阶段甲骨文字分割方法。
背景技术
甲骨卜辞文字是镌刻于兽骨或龟甲上的一种古文字。由于甲骨深埋地下数千年受到严重腐蚀,加之挖掘、辗转流传过程中受到损坏,其字形往往模糊不清,字形边缘轮廓大多出现断裂和残缺等情况。另一方面,甲骨文字书写于龟甲和兽骨之上,文字的行分布不够明显,并且其书写载体不够光滑,本身存在齿缝和盾纹,在占卜时还会产生兆纹和钻凿,而这些人工痕迹经过墨拓后形成的白色区域又很容易与甲骨文字重叠。因此,甲骨拓片图像常受到点状噪声、片状斑纹和固有纹理的强烈干扰,这就不可避免地导致人工释读和计算机文字识别工作困难重重。
甲骨文字分割的根本目的是借助计算机数字图像处理技术,在甲骨拓片图像中提取出特征分明且互不交叠的独立文字区域,并对点状噪声、片状斑纹、固有纹理区域以及前景文字与甲骨背景的粘连区域进行填充。它对于保证后续的字模建立和字形复原的质量、提高字形特征提取和自动识别的精度具有基础且重要的意义,也是计算机辅助甲骨文字形研究、碎片缀合、文意释读等研究工作的基础任务之一。
典型的图像分割方法,如阈值分割、区域分割、边缘检测分割、边缘跟踪分割等,均要求前景目标和背景纹理存在明显的亮度差异和清晰界限,其硬阈值分割方式无法应对文字与固有噪声的复杂粘连。并且,由于缺乏对甲骨文字先验特征的特殊考量,这些方法也不能对文字目标和高亮度的片状斑纹、齿缝、盾纹、兆纹、钻凿进行有效区别,其误分割率较高。虽然基于活动轮廓模型的分割方法能够利用能量函数来平衡区域内部、外部的约束力,进而在一定程度上处理区域内外的弱亮度差问题,但是该类方法仍存在对初始轮廓曲线的位置敏感、过度依赖权重参数的选择、不能处理非闭合的物体边界等不足,导致其人工交互和调参工作量较大,实时性差,不易选取适用所有甲骨拓片图像的参数和初始轮廓,尤其是不能对甲骨断裂、残缺处的卜辞文字进行分割。故此,典型图像分割方法在处理甲骨拓片图像时均有明显的局限性。
于是,史小松等人提出一种基于稀疏活动轮廓模型的甲骨拓片图像的目标自动定位算法,首先以目标形状估计作为约束,仅对图像中部分点的位置进行回归,再通过共同勾画算法学习到目标轮廓模型,在待定位图中扫描出与模型匹配度最高的区域,进而利用基于距离约束的Hough变换来降低噪声影响、减少定位时间。黄勇杰等人先利用全局阈值分割法对甲骨拓片进行粗分割,将其划分为背景区域和前景区域,再用形态学方法进行细定位。然而,上述两种方法仅能在图像中定位到拓片的位置,却无法实现甲骨文字的准确提取。
为了达到单个文字的分割目的,何颖等人提出了一种基于二进小波变换与模糊C-均值聚类算法的甲骨文字图像分割方法。该方法先采用传统模糊C-均值聚类算法进行粗分割,然后通过基于二进小波变换的模极大值对图像进行边缘检测,再对检测结果与粗分割结果进行边缘跟踪,在此基础上,利用改进后的模糊C-均值聚类算法分割甲骨文字,取得了一定效果。但是,该算法需要多次迭代聚类和二进小波变换,其时空复杂度较高,且从复杂背景提取前景的能力有限。Huang等人提出了一种基于背景估计的拓片图像二值化自适应分割方法,首先采用中值滤波对输入的拓片图像进行预处理,进而在红色分量上反复施加形态学运算,直到结果图像的无参考质量评价指标BRISQUE达到预设阈值,最终利用大津法阈值分割即可获得处理后的拓片图像。遗憾的是,由于甲骨卜辞文字的拓片图像几乎只含有灰度信息,在红色分量上进行甲骨文字分割的适用场合有限,通用性不强,分割效果也不够理想。顾绍通认为,甲骨文字的笔划具有较为明显的区域连通性,其笔划一般是单连通区域,仅有个别笔段会出现断裂。鉴于此,Shi等人提出了一种基于连通域的文本分割方法。首先,该方法对甲骨拓片图像进行亮度增强和中值滤波,从而在一定程度上抑制点状噪声的影响;其次,利用大津法计算全局阈值,得到一幅二值的甲骨拓片图像;最后,对前景区域的连通域进行标记并统计其连通面积,进而保留面积大于预设阈值的连通域作为文字分割结果。然而,该方法的分割质量对预设的面积阈值存在高度依赖性。若阈值过大,则会导致字段断裂;反之,则既无法避免片状斑纹噪声、固有纹理与甲骨文字的粘连,又不能有效去除离散分布的片状斑纹、齿缝和盾纹。潘振赣提出了一种基于改进快速FCM的拓片图像分割算法,在标准模糊C-均值聚类算法中融入空间信息,并在隶属度函数中引入像素的邻域约束,从而克服粘连所引起的不确定性和模糊性并抑制点状噪声的干扰,却不能分辨较大面积的齿缝、盾纹和钻凿。
综上所述,欲想将甲骨文字从干扰严重的背景中自动、准确地分割出来,仍然是一件比较困难的图像处理任务。目前,尚没有一种可有效抵抗点状噪声、片状斑纹和固有纹理干扰的,准确性高、鲁棒性好、处理速度快、自适应能力强的甲骨文字自动分割方法。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种准确性高、鲁棒性好、处理速度快、自适应能力强、基于数学形态学和区域连通性的甲骨文字自动分割方法。
本发明的技术解决方案是:一种混合高斯分布和二项分布的两阶段甲骨文字分割方法,其特征在于按照如下步骤进行:
步骤1.输入待分割的甲骨卜辞拓片图像I,令其高度为hI像素,宽度为wI像素;
步骤2.将I的颜色空间从RGB转换到HSV,并提取其亮度分量IV
步骤3.统计IV中所有像素值的归一化直方图hV
步骤4.利用混合高斯分布模型和相对熵测度对IV进行粗分割;
步骤4.1根据公式(1)和公式(2),建立混合高斯分布模型f(xi|Π,Θ);
所述xi表示IV的第i个像素且i∈{1,2,3,…,hI×wI},C表示混合高斯分布模型中的成分分布数量,j∈{1,2,…,C},πij表示像素xi属于混合高斯分布模型中第j个高斯分布的先验概率,0≤πij≤1且Pj(xij)表示混合高斯分布模型中第j个高斯分布的概率密度函数,/>表示第j个高斯分布的概率密度函数的参数集,μj和/>分别表示第j个高斯分布的数学期望和方差,Π={πij},Θ={Θ12,…,ΘC};
步骤4.2将IV的全部hI×wI个像素值作为观测值,采用K-均值算法进行聚类,令C等于聚类过程所得到的聚类数量,并令Cj表示第j个聚类中心且j∈{1,2,…,C};
步骤4.3利用C个聚类中心对μj进行初始化,令μj=Cj
步骤4.4根据公式(3),对进行初始化;
步骤4.5根据公式(4),计算像素xi属于第j个聚类的权重
所述Ni表示以像素xi为中心、大小为5×5的邻域,xm表示邻域Ni中的任意像素;
步骤4.6根据公式(5),计算像素xi属于各个聚类的权重之和Γi
步骤4.7根据公式(6),对πij进行初始化;
步骤4.8利用期望最大化算法求解混合高斯分布模型f(xi|Π,Θ),得到其最优参数集Π和Θ;
步骤4.9令t←1,D*←+∞,TZ←1,所述t是一个循环计数器,PB表示反映背景区域像素值分布的高斯概率密度函数集合,PO表示反映甲骨文字区域像素值分布的高斯概率密度函数集合,D*表示最佳的相对熵测度,TZ表示最佳的粗分割阈值;
步骤4.10根据公式(7)和公式(8),建立背景区域的累积直方图pB(t)和甲骨文字区域的累积直方图pO(t);
所述hV(v)表示在直方图hV中亮度值等于v的像素出现的归一化频率;
步骤4.11对于任意的j∈{1,2,…,C},若f(xi|Π,Θ)中第j个高斯分布的概率密度函数Pj(xij)的数学期望μj小于t,则令PB←PB∪Pj(xij),否则,令PO←PO∪Pj(xij),从而利用t将f(xi|Π,Θ)中的C个成分分布划分为两个集合,并设PB集合包含NB个高斯概率密度函数,PO集合包含NO个高斯概率密度函数;
步骤4.12根据公式(9),建立反映背景区域像素值分布的混合高斯概率密度函数
所述x表示像素值且x∈{0,1,2,…,255},表示PB集合的第n个高斯概率密度函数,/>表示/>在f(xi|Π,Θ)中对应的最优的先验概率,/>表示/>在f(xi|Π,Θ)中对应的最优的参数集且/>μBn表示/>的数学期望,表示/>的方差;
步骤4.13根据公式(10),建立反映甲骨文字区域像素值分布的混合高斯概率密度函数
所述表示PO集合的第n个高斯概率密度函数,/>表示/>在f(xi|Π,Θ)中对应的最优的先验概率,/>表示/>在f(xi|Π,Θ)中对应的最优的参数集且/>μOn表示/>的数学期望,/>表示/>的方差;
步骤4.14根据公式(11),计算由多个高斯概率密度函数拟合的归一化先验概率分布pV(v);
所述v表示像素值且v∈{0,1,2,…,255},表示当x=v时混合高斯概率密度函数/>的值,/>表示当x=v时混合高斯概率密度函数/>的值;
步骤4.15根据公式(12),计算pV(v)与hV(v)之间的相对熵测度D(hV|pV);
步骤4.16若D(hV|pV)<D*,则令TZ←t,D*←D(hV|pV),否则,保持D*和TZ不变;
步骤4.17令t←t+1,若t≥255,则转入步骤4.18,否则,令返回步骤4.10;
步骤4.18将IV中像素值不小于TZ的像素判定为甲骨文字区域,将像素值小于TZ的像素判定为背景区域,从而获得粗分割结果I′V,所述I′V是一幅二值图像;
步骤5.采用半径为r个像素的圆盘型结构元素,对I′V进行形态学顶帽运算,从而去除I′V中与甲骨文字相互粘连的、较大面积的片状斑纹、盾纹和齿缝,得到二值图像I″V,所述r是一个预设常量;
步骤6.对I″V中的每个8-连通区域进行标记,并将连通面积小于Aconn的8-连通区域填充为背景,从而去除I″V中残留的离散分布的小面积片状斑纹,得到二值图像I″′V,所述Aconn是一个预设常量;
步骤7.利用基于最大类间方差和二项分布的填充方法对二值图像I″′V进行处理,得到填充后的二值图像
步骤7.1对I″′V中的每个8-连通区域进行标记,令8-连通区域的总数为Ncon
步骤7.2计算I″′V中每个8-连通区域的面积和外接矩形,并令Aα表示第α个8-连通区域的面积,令Amax表示I″′V中所有8-连通区域的最大面积,所述1≤α≤Ncon
步骤7.3统计I″′V中所有8-连通区域的面积直方图,并令表示面积为p的8-连通区域出现的频率,所述p为正整数且1≤p≤Amax
步骤7.4根据公式(13)-公式(17),计算出一个自适应的面积阈值AT
mean+(p)=Average{Aα|Aα≥p,1≤α≤Ncon} (14)
mean-(p)=Average{Aα|Aα<p,1≤α≤Ncon} (15)
所述count+(p)表示面积不小于p的8-连通区域出现的频率之和,count-(p)表示面积小于p的8-连通区域出现的频率之和,mean+(p)表示面积不小于p的8-连通区域的平均面积,mean-(p)表示面积小于p的8-连通区域的平均面积,Average{·}表示求平均值的函数,表示面积为a的8-连通区域出现的频率;
步骤7.5遍历I″′V中的每个8-连通区域,根据公式(18)计算出面积小于AT的所有8-连通区域的平均面积Aavg
Aavg=Average{Aα|Aα<AT,1≤α≤Ncon} (18)
步骤7.6遍历I″′V中的每个8-连通区域,并根据其连通面积进行区域判别,从而对非文字区域进行填充,得到
步骤7.6.1若当前遍历的8-连通区域的面积大于或等于AT,则将该8-连通区域判定为甲骨卜辞文字并保持不变;
步骤7.6.2若当前遍历的8-连通区域的面积小于AT并且大于Aavg,则将该8-连通区域判定为甲骨卜辞文字并保持不变;
步骤7.6.3若当前遍历的8-连通区域的面积小于AT并且小于Aavg,则进一步计算其外接矩形的高宽比Rw_h,若Rw_h≤RT,则将该8-连通区域判定为甲骨卜辞文字的孤立笔划并保持不变,否则将其判定为残留的兆纹和刻痕,将其填充为背景,所述RT是一个预设常量;
步骤8.输出二值图像
本发明与现有技术相比,具有如下优点:第一,利用含有多个高斯概率密度函数的混合高斯模型对甲骨拓片图像的全局统计特性进行建模,并进一步利用粗分割过程的全局阈值将多个高斯概率密度函数分成两个子集,组成了两个混合高斯子模型,分别用于建模前景文字和背景噪声的统计特性,从而能够更加准确地拟合文字区域和点状噪声、片状斑纹、齿缝、盾纹区域所呈现的复杂的像素值分布规律,更加有效地从干扰严重的噪声背景中对甲骨卜辞文字进行分割;第二,以K-均值算法对混合高斯模型的参数进行初始化,在此基础上,采用EM算法对混合高斯模型进行优化求解,利用基于相对熵测度的原则来度量原始拓片图像的真实像素分布与混合高斯分布的距离,进而确定粗分割的最佳全局阈值,既有利于保证两个混合高斯子模型对前景文字和背景噪声的统计建模精度,又能尽可能地减少图像阈值化所引起的信息量损失;第三,利用数学形态学运算充分发掘甲骨文字的连通区域特点和形状特点,并采用二项分布对连通区域的面积进行建模,进而利用最大类间方差来计算该二项分布的方差,实现对点状噪声、片状斑纹以及固有纹理区域的自适应填充,有效抑制其对分割过程的干扰;第四,无需人工交互,可以批量自动处理甲骨文字图像,在时间效率上明显优于人工分割方法和迭代分割方法(如基于偏微分方程或活动轮廓模型的图像分割方法),实验结果表明,本发明的分割准确率高于现有的典型技术。因此,本发明公开的混合高斯分布和二项分布的两阶段甲骨文字分割方法为甲骨文研究者,特别是为基于计算机视觉的甲骨文字识别研究者提供了一种提高自动识别率的有效途径,可有效抵抗龟甲和兽骨上存在的点状噪声、片状斑纹和固有纹理的干扰,具有准确性高、鲁棒性好、处理速度快、自适应能力强的特点。
附图说明
图1是本发明与现有技术对《甲骨文合集》第832号甲骨卜辞拓片图像的文字分割结果对比图。
图2是本发明与现有技术对《甲骨文合集》第1787号甲骨卜辞拓片图像的文字分割结果对比图。
图3是本发明与现有技术对《甲骨文合集》第1093号甲骨卜辞拓片图像的文字分割结果对比图。
具体实施方式
本发明提供一种混合高斯分布和二项分布的两阶段甲骨文字分割方法,按照如下步骤进行;
步骤1.输入待分割的甲骨卜辞拓片图像I,令其高度为hI像素,宽度为wI像素;
步骤2.将I的颜色空间从RGB转换到HSV,并提取其亮度分量IV
步骤3.统计IV中所有像素值的归一化直方图hV
步骤4.利用混合高斯分布模型和相对熵测度对IV进行粗分割;
步骤4.1根据公式(1)和公式(2),建立混合高斯分布模型f(xi|Π,Θ);
所述xi表示IV的第i个像素且i∈{1,2,3,…,hI×wI},C表示混合高斯分布模型中的成分分布数量,j∈{1,2,…,C},πij表示像素xi属于混合高斯分布模型中第j个高斯分布的先验概率,0≤πij≤1且Pj(xij)表示混合高斯分布模型中第j个高斯分布的概率密度函数,/>表示第j个高斯分布的概率密度函数的参数集,μj和/>分别表示第j个高斯分布的数学期望和方差,Π={πij},Θ={Θ12,…,ΘC};
步骤4.2将IV的全部hI×wI个像素值作为观测值,采用K-均值算法进行聚类,令C等于聚类过程所得到的聚类数量,并令Cj表示第j个聚类中心且j∈{1,2,…,C};
步骤4.3利用C个聚类中心对μj进行初始化,令μj=Cj
步骤4.4根据公式(3),对进行初始化;
步骤4.5根据公式(4),计算像素xi属于第j个聚类的权重
所述Ni表示以像素xi为中心、大小为5×5的邻域,xm表示邻域Ni中的任意像素;
步骤4.6根据公式(5),计算像素xi属于各个聚类的权重之和Γi
步骤4.7根据公式(6),对πij进行初始化;
步骤4.8利用期望最大化算法求解混合高斯分布模型f(xi|Π,Θ),得到其最优参数集Π和Θ;
步骤4.9令t←1,D*←+∞,TZ←1,所述t是一个循环计数器,PB表示反映背景区域像素值分布的高斯概率密度函数集合,PO表示反映甲骨文字区域像素值分布的高斯概率密度函数集合,D*表示最佳的相对熵测度,TZ表示最佳的粗分割阈值;
步骤4.10根据公式(7)和公式(8),建立背景区域的累积直方图pB(t)和甲骨文字区域的累积直方图pO(t);
所述hV(v)表示在直方图hV中亮度值等于v的像素出现的归一化频率;
步骤4.11对于任意的j∈{1,2,…,C},若f(xi|Π,Θ)中第j个高斯分布的概率密度函数Pj(xij)的数学期望μj小于t,则令PB←PB∪Pj(xij),否则,令PO←PO∪Pj(xij),从而利用t将f(xi|Π,Θ)中的C个成分分布划分为两个集合,并设PB集合包含NB个高斯概率密度函数,PO集合包含NO个高斯概率密度函数;
步骤4.12根据公式(9),建立反映背景区域像素值分布的混合高斯概率密度函数
所述x表示像素值且x∈{0,1,2,…,255},表示PB集合的第n个高斯概率密度函数,/>表示/>在f(xi|Π,Θ)中对应的最优的先验概率,/>表示/>在f(xi|Π,Θ)中对应的最优的参数集且/>μBn表示/>的数学期望,表示/>的方差;
步骤4.13根据公式(10),建立反映甲骨文字区域像素值分布的混合高斯概率密度函数
所述表示PO集合的第n个高斯概率密度函数,/>表示/>在f(xi|Π,Θ)中对应的最优的先验概率,/>表示/>在f(xi|Π,Θ)中对应的最优的参数集且/>μOn表示/>的数学期望,/>表示/>的方差;
步骤4.14根据公式(11),计算由多个高斯概率密度函数拟合的归一化先验概率分布pV(v);
所述v表示像素值且v∈{0,1,2,…,255},表示当x=v时混合高斯概率密度函数/>的值,/>表示当x=v时混合高斯概率密度函数/>的值;
步骤4.15根据公式(12),计算pV(v)与hV(v)之间的相对熵测度D(hV|pV);
步骤4.16若D(hV|pV)<D*,则令TZ←t,D*←D(hV|pV),否则,保持D*和TZ不变;
步骤4.17令t←t+1,若t≥255,则转入步骤4.18,否则,令返回步骤4.10;
步骤4.18将IV中像素值不小于TZ的像素判定为甲骨文字区域,将像素值小于TZ的像素判定为背景区域,从而获得粗分割结果I′V,所述I′V是一幅二值图像;
步骤5.采用半径为r个像素的圆盘型结构元素,对I′V进行形态学顶帽运算,从而去除I′V中与甲骨文字相互粘连的、较大面积的片状斑纹、盾纹和齿缝,得到二值图像I″V,所述r是一个预设常量,在本实施例中,令r=6;
步骤6.对I″V中的每个8-连通区域进行标记,并将连通面积小于Aconn的8-连通区域填充为背景,从而去除I″V中残留的离散分布的小面积片状斑纹,得到二值图像I″′V,所述Aconn是一个预设常量,在本实施例中,令Aconn=40;
步骤7.利用基于最大类间方差和二项分布的填充方法对二值图像I″′V进行处理,得到填充后的二值图像
步骤7.1对I″′V中的每个8-连通区域进行标记,令8-连通区域的总数为Ncon
步骤7.2计算I″′V中每个8-连通区域的面积和外接矩形,并令Aα表示第α个8-连通区域的面积,令Amax表示I″′V中所有8-连通区域的最大面积,所述1≤α≤Ncon
步骤7.3统计I″′V中所有8-连通区域的面积直方图,并令表示面积为p的8-连通区域出现的频率,所述p为正整数且1≤p≤Amax
步骤7.4根据公式(13)-公式(17),计算出一个自适应的面积阈值AT
mean+(p)=Average{Aα|Aα≥p,1≤α≤Ncon} (14)
mean-(p)=Average{Aα|Aα<p,1≤α≤Ncon} (15)
所述count+(p)表示面积不小于p的8-连通区域出现的频率之和,count-(p)表示面积小于p的8-连通区域出现的频率之和,mean+(p)表示面积不小于p的8-连通区域的平均面积,mean-(p)表示面积小于p的8-连通区域的平均面积,Average{·}表示求平均值的函数,表示面积为a的8-连通区域出现的频率;
步骤7.5遍历I″′V中的每个8-连通区域,根据公式(18)计算出面积小于AT的所有8-连通区域的平均面积Aavg
Aavg=Average{Aα|Aα<AT,1≤α≤Ncon} (18)
步骤7.6遍历I″′V中的每个8-连通区域,并根据其连通面积进行区域判别,从而对非文字区域进行填充,得到
步骤7.6.1若当前遍历的8-连通区域的面积大于或等于AT,则将该8-连通区域判定为甲骨卜辞文字并保持不变;
步骤7.6.2若当前遍历的8-连通区域的面积小于AT并且大于Aavg,则将该8-连通区域判定为甲骨卜辞文字并保持不变;
步骤7.6.3若当前遍历的8-连通区域的面积小于AT并且小于Aavg,则进一步计算其外接矩形的高宽比Rw_h,若Rw_h≤RT,则将该8-连通区域判定为甲骨卜辞文字的孤立笔划并保持不变,否则将其判定为残留的兆纹和刻痕,将其填充为背景,所述RT是一个预设常量,在本实施例中,令RT=200;
步骤8.输出二值图像
从《甲骨文合集》中选取第832号、1787号、1093号甲骨拓片图像进行实验。采用本发明与大津法、基于马尔可夫随机场的分割方法、基于鲁棒自稀疏模糊聚类的分割方法(RSSFCA)对第832号甲骨卜辞拓片图像的分割结果对比如图1所示。其中,(a)为原始甲骨卜辞拓片图像;(b)为大津法的结果;(c)为基于马尔可夫随机场的分割方法的结果;(d)为RSSFCA分割方法的结果;(e)为本发明方法的结果。
采用本发明与大津法、基于马尔可夫随机场的分割方法、基于鲁棒自稀疏模糊聚类的分割方法(RSSFCA)对第1787号甲骨卜辞拓片图像的分割结果对比如图2所示。其中,(a)为原始甲骨卜辞拓片图像;(b)为大津法的结果;(c)为基于马尔可夫随机场的分割方法的结果;(d)为RSSFCA分割方法的结果;(e)为本发明方法的结果。
采用本发明与大津法、基于马尔可夫随机场的分割方法、基于鲁棒自稀疏模糊聚类的分割方法(RSSFCA)对第1093号甲骨卜辞拓片图像的分割结果对比如图3所示。其中,(a)为原始甲骨卜辞拓片图像;(b)为大津法的结果;(c)为基于马尔可夫随机场的分割方法的结果;(d)为RSSFCA分割方法的结果;(e)为本发明方法的结果。
从图1可见,大津法、基于马尔可夫随机场的分割方法、基于鲁棒自稀疏模糊聚类的分割方法既无法抵抗横贯甲骨拓片的齿缝和圆型片状斑纹的干扰,又不能有效区别白色背景和前景文字,而基于鲁棒自稀疏模糊聚类的分割方法甚至将大部分甲骨文字错误地判定为背景。从图2可见,大津法、基于马尔可夫随机场的分割方法对点状噪声的抑制能力非常有限,分割出的甲骨卜辞文字被强烈的点状噪声所干扰,基于鲁棒自稀疏模糊聚类的分割方法几乎不具备文字分割能力,仅仅提取出了“贞”字的下半部分。从图3可见,大津法、基于马尔可夫随机场的分割方法不能去除下边界处的开放式片状斑纹,并且对点状噪声、白色背景的处理能力仍然不足,而基于鲁棒自稀疏模糊聚类的分割方法则错误地将下边界处的开放式片状斑纹判定为文字前景。综合图1至图3的对比结果可知,现有的大津法、基于马尔可夫随机场的分割方法、基于鲁棒自稀疏模糊聚类的分割方法受到了拓片图像固有噪声和背景亮度的严重影响,甚至根本无法做到甲骨文字的分割提取;而与这三种现有技术方法相比,本发明有效地抵抗了齿缝、点状噪声、片状斑纹和甲骨本身纹理的影响,能够准确地提取甲骨拓片图像中的卜辞文字,有利于提高后续的甲骨文字自动识别的精度。

Claims (1)

1.一种混合高斯分布和二项分布的两阶段甲骨文字分割方法,其特征在于按照如下步骤进行:
步骤1.输入待分割的甲骨卜辞拓片图像I,令其高度为hI像素,宽度为wI像素;
步骤2.将I的颜色空间从RGB转换到HSV,并提取其亮度分量IV
步骤3.统计IV中所有像素值的归一化直方图hV
步骤4.利用混合高斯分布模型和相对熵测度对IV进行粗分割;
步骤4.1根据公式(1)和公式(2),建立混合高斯分布模型f(xi|Π,Θ);
所述xi表示IV的第i个像素且i∈{1,2,3,…,hI×wI},C表示混合高斯分布模型中的成分分布数量,j∈{1,2,…,C},πij表示像素xi属于混合高斯分布模型中第j个高斯分布的先验概率,0≤πij≤1且Pj(xij)表示混合高斯分布模型中第j个高斯分布的概率密度函数,/>表示第j个高斯分布的概率密度函数的参数集,μj和/>分别表示第j个高斯分布的数学期望和方差,Π={πij},Θ={Θ1,Θ2,…,ΘC};
步骤4.2将IV的全部hI×wI个像素值作为观测值,采用K-均值算法进行聚类,令C等于聚类过程所得到的聚类数量,并令Cj表示第j个聚类中心且j∈{1,2,…,C};
步骤4.3利用C个聚类中心对μj进行初始化,令μj=Cj
步骤4.4根据公式(3),对进行初始化;
步骤4.5根据公式(4),计算像素xi属于第j个聚类的权重θ(xi,j);
所述Ni表示以像素xi为中心、大小为5×5的邻域,xm表示邻域Ni中的任意像素;
步骤4.6根据公式(5),计算像素xi属于各个聚类的权重之和Γi
步骤4.7根据公式(6),对πij进行初始化;
步骤4.8利用期望最大化算法求解混合高斯分布模型f(xi|Π,Θ),得到其最优参数集Π和Θ;
步骤4.9令t←1,D*←+∞,TZ←1,所述t是一个循环计数器,PB表示反映背景区域像素值分布的高斯概率密度函数集合,PO表示反映甲骨文字区域像素值分布的高斯概率密度函数集合,D*表示最佳的相对熵测度,TZ表示最佳的粗分割阈值;
步骤4.10根据公式(7)和公式(8),建立背景区域的累积直方图pB(t)和甲骨文字区域的累积直方图pO(t);
所述hV(v)表示在直方图hV中亮度值等于v的像素出现的归一化频率;
步骤4.11对于任意的j∈{1,2,…,C},若f(xi|Π,Θ)中第j个高斯分布的概率密度函数Pj(xij)的数学期望μj小于t,则令PB←PB∪Pj(xij),否则,令PO←PO∪Pj(xij),从而利用t将f(xi|Π,Θ)中的C个成分分布划分为两个集合,并设PB集合包含NB个高斯概率密度函数,PO集合包含NO个高斯概率密度函数;
步骤4.12根据公式(9),建立反映背景区域像素值分布的混合高斯概率密度函数
所述x表示像素值且x∈{0,1,2,…,255},表示PB集合的第n个高斯概率密度函数,/>表示/>在f(xi|Π,Θ)中对应的最优的先验概率,/>表示/>在f(xi|Π,Θ)中对应的最优的参数集且/>μBn表示/>的数学期望,/>表示的方差;
步骤4.13根据公式(10),建立反映甲骨文字区域像素值分布的混合高斯概率密度函数
所述表示PO集合的第n个高斯概率密度函数,/>表示/>在f(xi|Π,Θ)中对应的最优的先验概率,/>表示/>在f(xi|Π,Θ)中对应的最优的参数集且μOn表示/>的数学期望,/>表示/>的方差;
步骤4.14根据公式(11),计算由多个高斯概率密度函数拟合的归一化先验概率分布pV(v);
所述v表示像素值且v∈{0,1,2,…,255},表示当x=v时混合高斯概率密度函数的值,/>表示当x=v时混合高斯概率密度函数/>的值;
步骤4.15根据公式(12),计算pV(v)与hV(v)之间的相对熵测度D(hV|pV);
步骤4.16若D(hV|pV)<D*,则令TZ←t,D*←D(hV|pV),否则,保持D*和TZ不变;
步骤4.17令t←t+1,若t≥255,则转入步骤4.18,否则,令返回步骤4.10;
步骤4.18将IV中像素值不小于TZ的像素判定为甲骨文字区域,将像素值小于TZ的像素判定为背景区域,从而获得粗分割结果I′V,所述I′V是一幅二值图像;
步骤5.采用半径为r个像素的圆盘型结构元素,对I′V进行形态学顶帽运算,从而去除I′V中与甲骨文字相互粘连的、较大面积的片状斑纹、盾纹和齿缝,得到二值图像I″V,所述r是一个预设常量;
步骤6.对I″V中的每个8-连通区域进行标记,并将连通面积小于Aconn的8-连通区域填充为背景,从而去除I″V中残留的离散分布的小面积片状斑纹,得到二值图像I″′V,所述Aconn是一个预设常量;
步骤7.利用基于最大类间方差和二项分布的填充方法对二值图像I″′V进行处理,得到填充后的二值图像
步骤7.1对I″′V中的每个8-连通区域进行标记,令8-连通区域的总数为Ncon
步骤7.2计算I″′V中每个8-连通区域的面积和外接矩形,并令Aα表示第α个8-连通区域的面积,令Amax表示I″′V中所有8-连通区域的最大面积,所述1≤α≤Ncon
步骤7.3统计I″′V中所有8-连通区域的面积直方图,并令表示面积为p的8-连通区域出现的频率,所述p为正整数且1≤p≤Amax
步骤7.4根据公式(13)-公式(17),计算出一个自适应的面积阈值AT
mean+(p)=Average{Aα|Aα≥p,1≤α≤Ncon} (14)
mean-(p)=Average{Aα|Aα<p,1≤α≤Ncon} (15)
所述count+(p)表示面积不小于p的8-连通区域出现的频率之和,count-(p)表示面积小于p的8-连通区域出现的频率之和,mean+(p)表示面积不小于p的8-连通区域的平均面积,mean-(p)表示面积小于p的8-连通区域的平均面积,Average{·}表示求平均值的函数,表示面积为a的8-连通区域出现的频率;
步骤7.5遍历I″′V中的每个8-连通区域,根据公式(18)计算出面积小于AT的所有8-连通区域的平均面积Aavg
Aavg=Average{Aα|Aα<AT,1≤α≤Ncon} (18)
步骤7.6遍历I″′V中的每个8-连通区域,并根据其连通面积进行区域判别,从而对非文字区域进行填充,得到
步骤7.6.1若当前遍历的8-连通区域的面积大于或等于AT,则将该8-连通区域判定为甲骨卜辞文字并保持不变;
步骤7.6.2若当前遍历的8-连通区域的面积小于AT并且大于Aavg,则将该8-连通区域判定为甲骨卜辞文字并保持不变;
步骤7.6.3若当前遍历的8-连通区域的面积小于AT并且小于Aavg,则进一步计算其外接矩形的高宽比Rw_h,若Rw_h≤RT,则将该8-连通区域判定为甲骨卜辞文字的孤立笔划并保持不变,否则将其判定为残留的兆纹和刻痕,将其填充为背景,所述RT是一个预设常量;
步骤8.输出二值图像
CN202210127612.1A 2022-02-11 2022-02-11 混合高斯分布和二项分布的两阶段甲骨文字分割方法 Active CN114565756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210127612.1A CN114565756B (zh) 2022-02-11 2022-02-11 混合高斯分布和二项分布的两阶段甲骨文字分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210127612.1A CN114565756B (zh) 2022-02-11 2022-02-11 混合高斯分布和二项分布的两阶段甲骨文字分割方法

Publications (2)

Publication Number Publication Date
CN114565756A CN114565756A (zh) 2022-05-31
CN114565756B true CN114565756B (zh) 2024-04-02

Family

ID=81714713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210127612.1A Active CN114565756B (zh) 2022-02-11 2022-02-11 混合高斯分布和二项分布的两阶段甲骨文字分割方法

Country Status (1)

Country Link
CN (1) CN114565756B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463173B1 (en) * 1995-10-30 2002-10-08 Hewlett-Packard Company System and method for histogram-based image contrast enhancement
CN110309830A (zh) * 2019-06-04 2019-10-08 辽宁师范大学 基于数学形态学和区域连通性的甲骨文字自动分割方法
CN112699713A (zh) * 2019-10-23 2021-04-23 阿里巴巴集团控股有限公司 一种语义线段信息的检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463173B1 (en) * 1995-10-30 2002-10-08 Hewlett-Packard Company System and method for histogram-based image contrast enhancement
CN110309830A (zh) * 2019-06-04 2019-10-08 辽宁师范大学 基于数学形态学和区域连通性的甲骨文字自动分割方法
CN112699713A (zh) * 2019-10-23 2021-04-23 阿里巴巴集团控股有限公司 一种语义线段信息的检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An image NSCT-HMT model based on copula entropy multivariate Gaussian scale mixtures;Wang, Xianghai等;KNOWLEDGE-BASED SYSTEMS;20200406;全文 *
基于高斯函数的LED彩色图像分割方法;刘丹;汪仁煌;高延增;刘洪江;;广东工业大学学报;20071215(第04期);全文 *
甲骨文数字化处理研究述评;顾绍通;;西华大学学报(自然科学版);20100915(第05期);全文 *

Also Published As

Publication number Publication date
CN114565756A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN104751187B (zh) 抄表图像自动识别方法
CN107273896A (zh) 一种基于图像识别的车牌检测识别方法
CN102629322B (zh) 一种基于边界点笔画形状的字符特征提取方法及应用
CN103116751B (zh) 一种车牌字符自动识别方法
CN110619327A (zh) 一种复杂场景下基于深度学习的实时车牌识别方法
CN106650553A (zh) 车牌识别方法及***
CN108596166A (zh) 一种基于卷积神经网络分类的集装箱箱号识别方法
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
CN104751142A (zh) 一种基于笔划特征的自然场景文本检测算法
CN105574531A (zh) 一种基于交点特征提取的数字识别方法
CN106529532A (zh) 一种基于积分特征通道与灰度投影的车牌识别***
CN102096821A (zh) 基于复杂网络理论的强干扰环境下的车牌识别方法
CN114067114B (zh) 一种基于藻类细胞形态的面积核分割计数方法
CN104680130A (zh) 一种身份证汉字识别方法
CN110309830B (zh) 基于数学形态学和区域连通性的甲骨文字自动分割方法
CN112734729B (zh) 适用于夜间补光条件的水尺水位线图像检测方法、装置及存储介质
CN106446925A (zh) 一种基于图像处理的海豚身份识别的方法
Yang et al. An efficient method for vehicle model identification via logo recognition
CN104408721A (zh) 基于背景密度估计的***图像提取方法
CN109271882B (zh) 一种区分颜色的手写体汉字提取方法
Lin et al. License plate location method based on edge detection and mathematical morphology
Shi et al. License plate localization in complex environments based on improved GrabCut algorithm
CN114565756B (zh) 混合高斯分布和二项分布的两阶段甲骨文字分割方法
Kavitha et al. A robust script identification system for historical Indian document images
CN109460763A (zh) 一种基于多层次文本组件定位与生长的文本区域提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant