CN1234094C

CN1234094C - 基于贝叶斯分类器的文字字体判断设备及其方法

Info

Publication number: CN1234094C
Application number: CN 02157957
Authority: CN
Inventors: 徐蔚然; 刘刚; 郭军; 张洪刚
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2002-12-23
Filing date: 2002-12-23
Publication date: 2005-12-28
Anticipated expiration: 2022-12-23
Also published as: CN1438604A

Abstract

本发明公开了一种基于贝叶斯分类器的文字字体判断设备及其方法。所述的设备包括：文字图像输入装置与前端处理装置、特征提取器、训练样本存储器、PCA分析器，PCA变换器、分类器参数估计器、贝叶斯分类器、可信度估计装置、判断结果输出装置和控制处理器。根据训练样本，利用统计处理方法自动学习知识，从而准确判断文字字体的设备。该设备结构化好，操作简单，判别精度高，并且对于被***和底纹严重污染的文字，同样可以获得高精度，只需4～5个汉字即可准确判断字体，而且人工设定参数少，不依赖人的经验，回避了复杂而且容易出错的文字切分步骤，不需要对图像进行二值化。该设备适用于对识别精度要求严格的文字识别***中，如银行支票识别***、信函地址识别***、表格识别***等。

Description

基于贝叶斯分类器的文字字体判断设备及其方法

技术领域

本发明涉及汉字自动识别技术领域，特别涉及待识别文字污染严重的情况下，手写体和印刷体汉字判别的设备和方法。该设备适用于对识别精度要求严格的文字识别***中，如银行支票识别***、信函地址识别***、表格识别***等。

背景技术

字体判断是文字识别领域的基本问题，其重要性至少体现在两个方面：1.把多字体文字识别转化为单一字体识别，从而大幅度提高文字识别精度：2.保留原始文档字体信息，实现自动文档处理***(ADP)打印出原始文档字体的功能。“手写体与印刷体文字字体判别技术”属于一种字体判别技术，该技术是自动文字识别***(例如银行票据大写金额自动识别***)得以实现的关键技术。银行里，手工填写和打印填写的支票是混在一起的。而手写体文字和印刷体文字的识别理论和识别方法完全不同，一种分类器不能同时高精度识别这两种文字。另外，银行支票的大写金额文字受***和支票底纹的污染非常严重，需要文字识别***具备去除污染的功能。但是，由于手写字和印刷字是由不同方式“写”出来的，因而***和支票底纹对两类文字的干扰方式和影响程度也不相同，所以必须应用不同的去污染方法处理两类文字。再考虑到银行支票识别***对精度的严格要求，准确判断待识别文字的字体是实现自动文字识别的关键技术。

由于字体判断的重要性，目前国内外已经开展了多年的研究，也提出了许多方法：①基于聚类的模板匹配方法(J.Hochberg，P.Kelly，T.Thomas，L.Kerms，1997-IEEE PAMI，Automatic Script Identification From Document Images UsingCluster-Based Templates)；②基于旋转不变性纹理特征的字体判别(T.N.Tan，1998-IEEE PAMI，Rotation Invariant Texture Features and Their Use inAutomatic Script Identification)；③基于文字印刷特征的字体识别方法(A.Zramdini，R.Ingold，1998-IEEE PAMI，Optical Font Recognition UsingTypographical Features)；④基于全局纹理分析的字体判别(Y.Zhu，T.N.Tan，Y.H.Wang，2001-IEEE PAMI，Font Recognition Based on Global TextureAnalysis)；⑤基于梯度矢量、灰度直方图和神经网络的日文手写体和印刷体字体判断(S.Imade，S.Tatsuta，1993-Proc.2nd Intl.Conf，Segmentation andclassification for mixed text/image documents using neural network)：⑥基于方向特征、对称特征和神经网络的英文手写体和印刷体字体判断(K.Kuhnke，1995-Int.Conf.Document Analysis and Recognition2，A system for machine-written andhand-written character distinction)，⑦基于文字块版面方差空间特征的繁体汉字手写体和印刷体字体判断(K.C.Fan，L.S.Wang，Y.T.Tu，1997-Pattern Recognition，Classification of of machine-printed and handwritten texts using character block layoutvariance)。

虽然以上这些方法都用于字体判别，但它们也有所不同。①~④方法主要用于判别印刷体文字的不同字体；⑤~⑦虽然专门用于手写体和印刷体字体判断，但它们针对的语言文字分别为日文、英文和繁体汉字。目前还未发现针对简体汉字的手写体和印刷体字体判断的文章和专利。另外，虽然上述方法都各有特色，但是它们也存在如下的共同缺点：都是针对无污染的干净文字图像的处理方法，都需要很多文字，如一段文字，来判别字体，需要较多的人工设定参数和依赖人的经验。

发明内容

本发明的目的是为了更好地解决文字识别中手写体和印刷体文字的字体判断的上述问题，从混合的文档图像中把手写体和印刷体文字区分开。本发明提出了一种基于贝叶斯分类器的文字字体判断设备及其方法。本发明的设备是通过如下的技术方案实现的，所述的设备包括：

文字图像输入装置与前端处理装置，用于从外界输入图像，以及在图像中确定待识别文字的位置；

特征提取器，用于从文字图像输入装置与前端处理装置的测试窗中提取用于判别文字字体的特征；

训练样本存储器，用于把所有学习训练样本的特征保存在一起，以利于贝叶斯分类器的自动学习；

PCA分析器，用于对训练样本存储器所保存的全部训练样本的特征进行主成分分析(Principal Component Analysis)，从而得到PCA变换器；

PCA变换器，用于根据PCA分析器确定的参数对样本的特征进行PCA变换；

分类器参数估计器，用于根据PCA变换器提供的所有学习训练样本来自动估计贝叶斯分类器的全部参数；

贝叶斯分类器，用于根据由分类器参数估计器确定的参数判别字体；

可信度估计装置，用于评估贝叶斯分类器输出结果的可信程度；

判断结果输出装置，用于把本装置的分析结果输出给其它设备；

控制处理器，用于控制上述的各个装置，以便协调不同装置，实现所述装置的自动学习和自动字体判断。

所述的文字图像输入装置与前端处理装置包括文字图像输入装置和测试窗***。

所述的特征提取器包括排字特征提取器、形态特征提取器、灰度梯度分布特征提取器和纹理特征提取器。

所述的排字特征提取器用于提取文字的排列方式上的特征，这些特征包括：文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征。

所述的形态特征提取器用于提取文字笔划形态上的特征，它包括：纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。

所述的灰度梯度分布特征提取器用于提取测试窗的灰度-梯度二维直方图中的特征，它包括第一二维直方图特征和第二二维直方图特征两个特征。

纹理特征提取器，用于提取图像中的纹理特征。

所述的输出结果包括：分析的图像序号，字体判断结果和字体判断的可信程度。

所述的基于贝叶斯分类器的文字字体判断方法，在设备的控制处理器的控制下，该方法包括步骤：

从外界输入图像，以及在图像中确定待识别文字的位置；

从文字图像输入装置与前端处理装置的测试窗中提取用于判别文字字体的特征；

把所有学习训练样本的特征保存在一起，以便于贝叶斯分类器的自动学习；

对训练样本存储器所保存的全部训练样本的特征进行主成分分析，从而得到PCA变换；

根据PCA分析器确定的参数对样本的特征进行PCA变换；

根据PCA变换器提供的所有学习训练样本来自动估计贝叶斯分类器的全部参数；

根据分类器参数估计器确定的参数判别字体；

评估贝叶斯分类器输出结果的可信程度；

将判断分析结果输出给其它设备。

所述的提取用于判别文字字体的特征包括排字特征、形态特征、灰度梯度分布特征和纹理特征。

所述的排字特征表示文字的排列方式上的特征，包括：文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征，它们的计算公式分别为：

其中待识别文字共有N个字，W_i是第i个字的字宽，W_o是印刷体文字的标准宽度，S_i是得到的第i个字间距。

所述的形态特征表示文字笔划形态上的特征，包括：纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。它们的计算公式分别为：

其中P(i)表示测试窗第i列的纵向投影值，T是阈值，m_l和m_g，表示游程长度为l和g的游程数目，N_l和N_g，分别表示水平和垂直方向游程的最大长度。N_t是由经验取定的阈值。

所述的灰度梯度分布特征表示测试窗的灰度-梯度二维直方图中的特征，包括第一二维直方图特征和第二二维直方图特征两个特征。

这两个特征的计算公式分别为：

hist(x，y)表示二维直方图在点(x，y)的取值。

纹理特征表示图像中的纹理特征。

根据训练样本，利用统计处理方法自动学习知识，从而准确判断文字字体的设备。该设备结构化好，操作简单，判别精度高，并且对于被***和底纹严重污染的文字，同样可以获得高精度；只需4~5个汉字即可准确判断字体，而且人工设定参数少，不依赖人的经验；回避了复杂而且容易出错的文字切分步骤；不需要对图像进行二值化。该设备适用于对识别精度要求严格的文字识别***中，如银行支票识别***、信函地址识别***、表格识别***等。

下面结合附图的详细描述，可以更好地理解本发明技术方案的实质内容，附图中相同的标记表示相同的装置。

附图说明

图1是基于贝叶斯分类器的文字字体判断装置框图；

图2是文字图像输入装置与前端处理装置的示意图；

图3是印刷体和手写体文字的图像的示意图，图3(a)为印刷体文字，图3(b)为手写体文字；

图4是图3的文字图像对应的灰度梯度分布图，图4(a)对应印刷体文字，图4(b)对应手写体文字；

图5是每一类纹理特征的模板，图5(a)是纹理特征1的模板，图5(b)是纹理特征2的模板，图5(c)是纹理特征3的模板；

图6是本装置的自动训练学习工作模式流程图；

图7是本装置的自动字体判断工作模式流程图。

具体实施方式

本发明提出的一种基于贝叶斯分类器的文字字体判断设备及其方法是通过如下的技术方案实现的。

图1是基于贝叶斯分类器的文字字体判断设备框图。如图1所示，所述的设备包括：

文字图像输入装置与前端处理装置1，用于从外界输入图像，以及在图像中确定待识别文字的位置。所述的文字图像输入装置的前端接外部设备，外部设备可以是扫描仪或类似功能的图象输入设备。如图2所示，文字图像输入装置与前端处理装置1由文字图像输入装置11和测试窗***12两个基本装置组成。文字图像输入装置11把从外部设备输入的任何格式的图像文件转变成以矩阵形式表示的256级灰度图像。从文字图像输入装置与前端处理装置1输出的灰度图像矩阵既包括待识别的文字，又包括大量的无用图形。测试窗***12为测试窗***，它的功能就是确定测试窗的位置，使得待识别的文字被包括在测试窗当中。

特征提取器2，用于从文字图像输入装置与前端处理装置1的测试窗中提取用于判别文字字体的特征。提取和选择充分且有效的特征非常重要，本装置所提取的特征和提取特征的方法是其具有高精度判别能力的关键。特征提取器2使用4个子装置用以提取4大类，共15种特征。这4个子装置分别是排字特征提取器、形态特征提取器、灰度梯度分布特征提取器和纹理特征提取器。排字特征提取器用于提取文字的排列方式上的特征，这些特征包括：文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征。

它们的计算公式为：

其中待识别文字共有N个字，W_i是第i个字的字宽，W_o是印刷体文字的标准宽度，S_i是得到的第i个字间距。形态特征提取器用于提取文字笔划形态上的特征，包括：纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。它们的计算公式为：

其中P(i)表示测试窗第i列的纵向投影值，T是阈值，m_l和m_g表示游程长度为l和g的游程数目，N_l和N_g分别表示水平和垂直方向游程的最大长度。N_t是由经验取定的阈值。灰度梯度分布特征提取器提取测试窗的灰度-梯度二维直方图中的特征，包括第一二维直方图特征和第二二维直方图特征两个特征。

图3中是印刷体和手写体文字的图像。图中的黑框标出了测试窗。图4是图3的文字图像对应的灰度梯度分布图。图4中的区域1和区域2用于提取第一二维直方图特征和第二二维直方图特征2，这两个特征的计算公式为：

hist(x，y)表示二维直方图在点(x，y)的取值，即图4所示图像。纹理特征提取器用于提取图像中的纹理特征，包括纹理特征1至特征3。纹理特征的值就是测试窗中包含每一类纹理特征模板的数量。每一类纹理特征的模板见图5。

训练样本存储器3，用于把所有学习训练样本的特征保存在一起，以利于贝叶斯分类器7的自动学习；

PCA分析器4，用于对训练样本存储器3所保存的全部训练样本的特征进行主成分分析(Principal Component Analysis)，从而得到PCA变换；

PCA变换器5，用于根据PCA分析器4确定的参数对样本的特征进行PCA变换；

分类器参数估计器6，用于根据PCA变换器5提供的所有学习训练样本来自动估计贝叶斯分类器7的全部参数；

贝叶斯分类器7，用于根据由分类器参数估计器6确定的参数判别字体；

可信度估计装置9，用于评估贝叶斯分类器7输出结果的可信程度；

判断结果输出装置10，用于把本装置的分析结果输出给其它设备；

控制处理器8，用于控制上述的各个装置，以便协调不同装置，实现所述装置的自动学习和自动字体判断。

本发明的基于贝叶斯分类器的文字字体判断设备和方法，通过如下的描述可以更为清楚地理解。基于贝叶斯分类器的文字字体判断设备由上述12个基本装置组成，该设备有两个工作模式：自动训练学习模式和自动字体判断模式。

自动训练学习工作模式需要完成的功能是：对根据学习训练样本进行分析，从而确定PCA变换器的全部参数；根据学习训练样本，估计出贝叶斯分类器的全部参数。在该模式下，参与工作的装置主要有装置1至装置8。

图6是自动训练学习工作模式的流程图。其具体步骤如下：

步骤61从输入装置读入一个学习训练图像，输入装置可以由扫描仪或类似功能的图象输入设备组成，图像可以为彩色、灰度或黑白图像，图像的格式可以是BMP，TIF，JPG，GIF等国际标准格式；

步骤62把输入图像的格式转换成256级灰度的矩阵形式表示，以便于对其进行处理；

步骤63准确确定测试窗口的位置，用以判定字体的全部信息都从测试窗口提取；

步骤64从测试窗口提取4类，共15种特征；

步骤65把该学习训练训练样本的特征存储到训练样本存储器中；

步骤61~步骤65完成从一个训练样本中提取特征，并保存到训练样本存储器中的功能；

步骤66判断是否还有新的训练样本，如果判断结果是“是”，则转到步骤61；如果判断结果是“否”，则转到步骤67；步骤61~步骤66不断的重复，直到所有训练样本的特征都保存到训练样本存储器中；

步骤67对训练样本存储器中的所有训练样本的特征进行主成分分析，从而得到PCA变换器；

步骤68根据训练样本存储器中的所有训练样本，同时利用分类器参数估计器，从而得到贝叶斯分类器，最终完成学习训练过程。

自动字体判断工作模式完成的功能是：根据自动样本学习训练模式所获取的知识，利用贝叶斯分类器判定输入文字图像的字体。在该模式下，参与工作的装置主要有文字图像输入装置与前端处理装置1、特征提取器2、PCA变换器5、贝叶斯分类器7、控制处理器8、可信度估计装置9和判断结果输出装置10构成。由于分类器参数估计器6并不参与工作，所以PCA变换器5的输出直接传到贝叶斯分类器7，作为贝叶斯分类器7的输入。

图7是自动字体判断工作模式的流程图。其具体步骤如下：

步骤71从输入装置读入一个文字图像，输入装置可以由扫描仪或类似功能的图象输入设备组成，图像可以为彩色、灰度或黑白图像，格式可以是BMP，TIF，JPG等；

步骤72把输入图像的格式转换成256级灰度的矩阵形式表示，以便于对其进行处理；

步骤73准确确定测试窗口的位置，用以判定字体的全部信息都从测试窗口提取；

步骤74从测试窗口提取4类，共15种特征；

步骤75对该文字图像的特征进行PCA变换，得到彼此统计独立的新特征；

步骤76利用贝叶斯分类器判断该文字图像的字体，并估计该结果的可信程度；

步骤77输出该文字图像的序号、字体判断结果和结果的可信程度，完成对该文字图像的字体判断。

基于贝叶斯分类器的文字字体判断装置可以在任何的操作***平台下，利用任何一种编程语言，利用软件方式来实现，也可以采用合适的硬件来实现，具有良好的可实现性，并可以灵活的集成到其他的文字识别***中。

以上描述仅仅借助于实施例提供本发明的实现方法。对于本领域的技术人员是显而易见的，本发明不限于上面提供的实施细节，可以在不脱离本发明特征的情况下以另外的实施例实现，实施例中的一些部件进行分解、合并或使用微处理器实现。因此，提供的实施例应当被认为是说明性的，而不是限制性的。因此，实现和使用本发明的可能性是由所附的权利要求限定。因而，由权利要求确定的实现本发明的各种选择包括等效实施例也属于本发明的范围。

Claims

1、一种基于贝叶斯分类器的文字字体判断设备，其特征在于：所述的设备包括：

文字图像输入装置与前端处理装置(1)，用于从外界输入图像，以及在图像中确定待识别文字的位置；

所述的文字图像输入装置与前端处理装置(1)包括文字图像输入装置(11)和测试窗***(12)；

特征提取器(2)，用于从文字图像输入装置与前端处理装置(1)的测试窗中提取用于判别文字字体的特征；

训练样本存储器(3)，用于把所有学习训练样本的特征保存在一起，以利于贝叶斯分类器的自动学习；

PCA分析器(4)，用于对训练样本存储器所保存的全部训练样本的特征进行主成分分析，从而得到PCA变换；

PCA变换器(5)，用于根据PCA分析器(4)确定的参数对样本的特征进行PCA变换；

分类器参数估计器(6)，用于根据PCA变换器(5)提供的所有学习训练样本来自动估计贝叶斯分类器(6)的全部参数；

贝叶斯分类器(7)，用于根据由分类器参数估计器(6)确定的参数判别字体；

可信度估计装置(9)，用于评估贝叶斯分类器(7)输出结果的可信程度；

判断结果输出装置(10)，用于把本装置的分析结果输出给其它设备；

控制处理器(8)，用于控制上述的各个装置，以便协调不同装置，实现所述装置的自动学习和自动字体判断。

2、根据权利要求1的设备，其特征在于：所述的特征提取器包括排字特征提取器、形态特征提取器、灰度梯度分布特征提取器和纹理特征提取器。

3、根据权利要求2的设备，其特征在于：所述的排字特征提取器用于提取文字的排列方式上的特征，这些特征包括：文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征。

4、根据权利要求3的设备，其特征在于：所述的形态特征提取器用于提取文字笔划形态上的特征，它包括：纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征。

5、根据权利要求4的设备，其特征在于：所述的灰度梯度分布特征提取器用于提取测试窗的灰度-梯度二维直方图中的特征，它包括第一二维直方图特征和第二二维直方图特征两个特征。

6、根据权利要求5的设备，其特征在于：所述的纹理特征提取器，用于提取图像中的纹理特征。

7、根据权利要求1或5的设备，其特征在于：所述的输出结果包括：分析的图像序号，字体判断结果和字体判断的可信程度。

8、一种基于贝叶斯分类器的文字字体判断方法，其特征在于：在设备的控制处理器的控制下，该方法包括步骤：

从外界输入图像，以及在图像中确定待识别文字的位置；

从文字图像输入装置与前端处理装置的测试窗提取用于判别文字字体的特征；

根据PCA分析器确定的参数对样本的特征进行PCA变换；

根据PCA变换器提供的所有学习训练样本来自动估计贝叶斯分类器全部参数；

根据分类器参数估计器确定的参数判别字体；

评估贝叶斯分类器输出结果的可信程度；

将判断分析结果输出给其它设备。

9、根据权利要求8的方法，其特征在于：所述的提取用于判别文字字体的特征包括排字特征、形态特征、灰度梯度分布特征和纹理特征。

10、根据权利要求9的方法，其特征在于：所述的排字特征表示文字的排列方式上的特征，包括：文字高度特征、平均字宽特征、字宽绝对差特征、平均字间距特征和最大字间距特征，它们的计算公式分别为：

其中待识别文字共有N个字，W_i是第i个字的字宽，W₀是印刷体文字的标准宽度，S_i是得到的第i个字间距。

11、根据权利要求10的方法，其特征在于：所述的形态特征表示文字笔划形态上的特征，包括：纵向投影值特征、垂直平均游程特征、水平平均游程特征、长游程优势特征和长游程的均值特征，它们的计算公式分别为：

其中P(i)表示测试窗第i列的纵向投影值，T是阈值，m_l和m_g表示游程长度为l和g的游程数目，N_l和N_g分别表示水平和垂直方向游程的最大长度，N_l是由经验取定的阈值。

12、根据权利要求11的方法，其特征在于：所述的灰度梯度分布特征表示测试窗的灰度-梯度二维直方图中的特征，包括第一二维直方图特征和第二二维直方图特征两个特征，

这两个特征的计算公式分别为：

hist(x，y)表示二维直方图在点(x，y)的取值。

13、根据权利要求8或12的方法，其特征在于：所述的输出结果包括：分析的图像序号，字体判断结果和字体判断的可信程度。