CN101276363A

CN101276363A - 文档图像的检索装置及文档图像的检索方法

Info

Publication number: CN101276363A
Application number: CNA2007100906707A
Authority: CN
Inventors: 陈芒; 吴波; 吴亚栋; 许晨
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2007-03-30
Filing date: 2007-03-30
Publication date: 2008-10-01
Anticipated expiration: 2027-03-30
Also published as: US20080240618A1; JP2008257670A; US8027550B2; JP4469873B2; CN101276363B

Abstract

本发明提供一种可提高以文字和图表为主要内容的文档图像的检索精度的文档图像的检索装置及检索方法。本发明的文档图像的检索装置在图像的特征区段的信息中包含有用于图像彼此之间的识别中的特征矢量。具体地讲，将文档图像页中的文字部分连结，而抽出矩形图像，基于该矩形图像的信息，分析页的几何构造，并将文档图像页分割成多个区段，且从其中选择表现文档图像页的特征的多个特征区段，由所选择的这些特征区段的信息构成特征矢量。

Description

文档图像的检索装置及文档图像的检索方法

技术领域

本发明涉及对以文字和图表为主要内容的图像即文档图像，采用图像的特征进行检索的文档图像的检索装置及检索方法。

背景技术

一种利用图像扫描仪等图像输入装置将文档转换成图像，以电子形式进行储存，并且之后能够检索的图像归档***已经步入实用化。在将文档作为图像来读取的图像检索中，可采用图像检索技术。

以往，作为图像检索技术，有基于附加在图像中的文本的检索、和基于图像的视觉内容的检索。

其中，所谓基于附加在图像中的文本的检索，是指作为图像所附属的信息而制作说明图像的文本信息，将该文本信息作为关键词检索图像的技术，作为现有技术，例如有专利文献1、2。

然而，虽然计算机视觉和人工智能技术正在日益发展，但在现阶段还不能依靠它来对图像自动地附加文本。因此，在基于文本的检索中，需要人工来附加文本，因此需要烦琐的作业。

而且，由于由人工来进行，所以有可能加入人的主观意识，在附加的文本中产生意思上的差异。另外，由于对于向图像附加文本的附加方法，还没有制定规则，所以关于关键词的解释也存在一定程度的差异。这些的结果，会导致通过检索所得到的图像不一定是用户的目标图像，对检索的正确率产生影响。

并且，在基于文本的图像的检索技术中，由于一概不使用图像的视觉特征(例如色彩或纹理)，所以不能说是充分表达了图像的信息。

相对于此，由于基于图像的视觉内容的检索是基于图像的特征来检索图像的，且根据图像来检索图像，所以不需要依赖于人工来输入文本，且不需要烦琐的作业，也不会加入人的主观意识。

作为图像的特征，通常采用色彩特征、纹理特征、以及形状特征这3种特征。

色彩特征是图像的整体属性，其利用图像的色彩信息来表现图像的表面性质，作为现有技术，例如有专利文献3、4。

纹理特征是反映图像的局部构造的特征，且表现图像的表面性质的特征，其需要在包含多个像素点的区域内进行局部统计计算。作为现有技术，例如有专利文献5、6。

形状特征是对于图像的特定区域首先进行图像的分割、区域识别，然后从其中抽出与形状特征有关的特征。作为现有技术，例如有专利文献7、8。

专利文献1：CN1851713“基于多图像文本的图像检索及显示方法”

专利文献2：CN1402853“图像检索***及图像检索方法”

专利文献3：CN1365067“基于色彩和图像特征组合的图像检索方法”

专利文献4：CN1426002“不受照明变化影响的图像检索方法和装置”

专利文献5：CN1570972“一种基于图像纹理特征的图像检索方法”

专利文献6：CN1342300“用频域中的伽柏滤波器的纹理描述方法和基于纹理的图像检索方法”

专利文献7：CN1570969“一种基于显著兴趣点的图像检索方法”

专利文献8：CN1570973“一种利用显著边缘进行图像检索的方法”

然而，在上述以往的基于图像的视觉内容的检索中，存在着如下问题。

图像通常受到干扰，受其影响产生变形或歪扭。在以纹理和色彩作为图像特征的检索方法中，若产生变形或歪扭，则不能获得理想的检索效果。

另外，由于色彩相对图像区域的方向和尺寸的变化不敏感，所以根据色彩的特征不能顺利地捕捉到局部特征。

特别是专利文献4，考虑到照明对图像形成时的色彩信息所产生的影响，而对图像去除低亮度和本身的亮度，并将剩余的像素转换成标准亮度空间下的色彩。然而，由于低亮度值的确定标准及确定方法、且本身的亮度的极限值的选择，会直接影响到对图像的后续处理，所以对检索结果产生较大影响。

另外，单纯地利用纹理特征的检索方法中，不能获得高品质的图像内容。而且，如果图像的析像度发生变化，则在由此计算获得的纹理中产生较大的偏差。不仅如此，在图像受到光的照射和反射状况的影响时，形成虚拟纹理，有可能被引导向错误的方向。

另一方面，基于图像的形状特征的检索，对于轮廓不明显的图像基本没有效果。通常，被抽出的形状特征所反映的目标形状的信息，由于与人的直观完全不一致，并且难以制作完全的数学模型，所以难以对特征进行计算，且需要大量的计算时间和存储器。另外，在图像的形状发生变化时，准确性大大降低。

特别是，专利文献8适用于边缘清晰的图像，在本发明作为对象的以文字和图表为主要内容的文档图像中，容易捕捉到图像中的边缘。然而，难以确定能够表现全图像的边缘。

发明内容

本发明的目的是，提供一种可提高文档图像检索精度的文档图像的检索装置和检索方法。

本发明的文档图像的检索装置，为了达到上述的目的，提供一种文档图像的检索装置，其用于以文字和图表为主要内容的文档图像的检索，其特征在于，具有：生成文档图像页的特征矢量的特征矢量生成部；文档图像识别部，其对采用上述特征矢量生成部而生成的识别对象的文档图像页的特征矢量、与储存在检索对象中的文档图像页的特征矢量进行比较，从检索对象中抽出与识别对象的文档图像页对应的文档图像页，上述特征矢量生成部具有：矩形图像抽出部，其将文档图像页中的文字部分连结，而抽出矩形图像；区段分割部，其基于由上述矩形图像抽出部抽出的矩形图像的信息，分析页的几何构造，并将上述文档图像页分割成多个区段；特征区段选择部，其从由上述区段分割部分割的多个区段中，选择出表现该文档图像页的特征的特征区段；特征计算部，其将由上述特征区段选择部选择的多个特征区段的信息，作为该文档图像页的特征来计算出，上述特征矢量生成部将上述特征计算部的计算结果包含在该文档图像页的特征矢量的要素中。

根据上述构成，在矩形图像抽出部和区段分割部等中，综合地利用了色彩的特征(黑像素或白像素)、空间关系的特征(相邻黑像素之间的距离)、和对象的特征。从而，可利用多种图像的特征信息，从而可避免因利用单一特征导致图像信息丢失的情况。另外，由于充分表示图像的内容，所以可有效地提高图像检索精度。

另外，区段分割部使用通过分析页的几何构造来确定表示文档图像的特征的特征区段的方法，而分割成文档图像的行间隔相对均匀的几何区段。由此，即使是对色彩浓度和析像度不同，或多种语言混合的文档图像的检索，也可以确保高的检索精度。

并且，由于不是使用由区段分割部分割的全部区段，而是由特征区段选择部选择并采用表现文档图像页的特征的特征区段，从而表现文档图像页的特征，所以，可去除内容少的区段等影响检索的准确性的要素，从而可提高准确性。

特征计算部将这样选择的多个特征区段的信息作为该文档图像页的特征而计算出，并将其包含在该文档图像页的特征矢量的要素中，因此，在文档图像的特征矢量中，综合了图像的主要特征，从而可表示更全面的文档图像的内容。由此，可进一步提高文档图像的检索精度。另外，综合了各种特征区段的信息的特征矢量，与以往的特征抽出方法相比，更简洁、更直观，并可减少计算量。

另外，由于在文档图像页的特征矢量中包含多个特征区段的信息，所以文档图像识别部在为获得识别图像与检索对象的文档图像页的匹配性而对特征矢量彼此之间进行比较的过程中，对各个特征区段彼此之间进行比较，因此，可避免因图像的局部偏差导致的所谓不能匹配的检索错误，可减少检索误差。

关于本发明的另外其它目的、特征、以及优点，可通过以下的说明得到充分的了解。另外，关于本发明的优点，可通过参照附图的以下说明而清楚。

附图说明

图1表示本发明的一个实施方式，是表示文档图像检索装置的主要部分构成的框图。

图2是表示上述文档图像检索装置中的边缘去除部的处理的流程图。

图3的(a)～(e)是表示基于上述文档图像检索装置中的边缘去除部的效果的说明图。

图4是表示上述文档图像检索装置中的矩形图像抽出部的处理的说明图。

图5的(a)(b)是表示上述文档图像检索装置中的区段分割部的处理的流程图。

图6是表示上述文档图像检索装置中的区段分割部的分割结果的说明图。

图7是表示图6的分割结果中的某个区段的详细的说明图。

图8是表示上述文档图像检索装置中的特征区段选择部的相对图6的分割结果的选择结果的说明图。

图9是表示上述文档图像检索装置中的图像识别部的处理的流程图。

图10是表示图9的流程图中的S32的处理的说明图。

图11是生成归档图像的特征矢量并储存在特征矢量数据库中的特征矢量储存处理的流程图。

图12是生成识别图像的特征矢量并参照特征矢量数据库来比较所储存的特征矢量，从而检索目标图像的检索处理的流程图。

具体实施方式

本发明采用图像的特征，对以文字和图表为主要内容的图像即文档图像进行检索。本发明与以往的图像检索方法不同，从图像内部的文字、图、表等信息相对集中的子区域能够充分表现文档图像的特征的观点出发，对图像确定表示特征的特征区段，采用该特征区段来进行检索。

更具体地讲，对图像实施包括2值化处理的图像预处理，然后，对1页图像分析其几何构造，并分区为子区域，从其中设定表示图像特征的特征区段，基于该特征区段计算图像的区段的特征，而生成该图像的特征矢量，采用该特征矢量进行文档图像的检索。另外，在以下的说明中，在希望明确表示以文字和图表为主要内容的图像的情况下，称作文档图像，对于除此以外的图像只称为图像。

而且，本发明例如可作为文档图像的检索***来独立使用，也可以应用于网络信息的安全、知识产权保护等领域。而且，也可以装入于复印机、图像形成装置以及打印机中，来进行目标图像的检索。

下面，结合图1～图12对本发明涉及的一个实施方式进行说明。本实施方式中，假设被搭载在复合机等中，并作为图像归档***发挥功能。从而，例示出具有对归档对象的图像进行储存并数据库化的功能，且与图像的储存的同时，还一并对图像的特征矢量进行储存并数据库化的功能的构成。但是，本发明不限于此。

图1是表示本发明的一个实施方式的图，是表示文档图像检索装置的功能的功能框图。

如图1所示，本实施方式的文档图像检索装置包括：图像输入部1、图像预处理部2、特征矢量生成部7、特征矢量数据库12、图像识别部13、检索结果显示部14、以及图像数据库15。

图像输入部1用于取得图像，例如是图像扫描仪。但是，图像的取得不限于图像扫描仪，也可以是通过网络取得图像的通信接口。另外，也可以是输入通过数码相机等数字式摄影装置摄影的图像的接口等。

通过图像输入部1，输入归档对象(储存对象)的图像(以下称为归档图像)、和成为用于检索目标图像的关键图像的识别对象图像(以下称为识别图像)。

由图像输入部1输入的归档图像和识别图像被送到图像预处理部2。另外，还将归档图像送到图像数据库15(图像储存部)中。图像数据库15用于储存按如上方式由图像输入部1送来的图像。由图像数据库15构成本发明的文档图像储存部。

图像预处理部2对由图像输入部1送来的归档图像和识别图像实施预处理。图像预处理部2具有将图像转换成黑白2值图像的2值化处理部3、去除在图像数据中包含的噪声的噪声去除部4、修正图像的倾斜的倾斜修正部5、和从图像中去除读取时的阴影的边缘去除部6。

图2表示上述边缘去除部6中的边缘去除处理的步骤。另外，图3(a)～(e)表示基于图2的各个步骤的效果。

虽然基本上是形成在复制件上的复制图像的情况，但有时在图像的外周部形成阴影。边缘去除部6是用于去除该阴影的。首先，除掉图像中的粗线(S1)。由此，如图3(b)所示那样，图3(a)中所示的原图的粗线框被去除。然后，除掉细边缘(边框)的阴影(S2)。由此，如图3(c)所示那样，图3(b)中所示的细边缘的阴影被去除。然后，除掉图像内部所存在的筋状阴影(S3)。由此，如图3(d)所示那样，图3(c)中所示的图像内部所存在的筋状阴影被去除。最后，除掉残余的点状阴影(S4)。由此，如图3(e)所示那样，图3(d)中所示的点状阴影被去除。

在图像的外周部形成有阴影，如果这样的阴影被包含在图像的特征中，则在采用图像的特征来进行检索时不能进行高精度的检索，但是通过这样地通过边缘去除部从文档图像页中除掉阴影，能够扩大处理范围，可适用于复合机和复印机等中。

这样，通过图像预处理部2实施了预处理的归档图像及识别图像被送到特征矢量生成部7。

特征矢量生成部7用于生成图像的特征矢量，其具有矩形图像抽出部8、区段分割部9、特征区段选择部10、和特征计算部11。

被送到特征矢量生成部7的归档图像和识别图像，首先被输入到矩形图像抽出部8中。矩形图像抽出部8采用色彩特征和空间关系特征，进行连结图像的文本区域的处理，并抽出矩形图像。上述色彩特征是指黑像素或白像素，空间关系的特征是指相邻的2个黑像素的距离。

这样，利用多种图像的特征信息，可避免因利用单一特征而导致图像信息丢失的情况。另外，通过充分表达图像的内容，可有效地提高图像检索的精度。

矩形图像抽出部8，在2个相邻黑像素的距离小于预先设定的阈值距离的情况下，将2个相邻像素之间的全部像素，即像素之间所存在的全部白像素设成黑像素。通过反复进行这样的处理，如图4所示，图像中的文字区域成为接近的字符彼此之间相互连结的矩形图像P。图4的例子是横向书写的例子，在这种情况下，形成与行数对应的多个矩形图像P…。另外，在纵向书写的情况下，形成与列数对应的矩形图像。

这样，通过矩形图像抽出部8被转换成由矩形图像P构成的图像的归档图像和识别图像，被送到区段分割部9中。

区段分割部9对这样由矩形图像P构成的归档图像和识别图像，基于矩形图像P的信息，分析1页的图像(文档图像页)整体的几何构造，并将图像分割成多个区段。

上述矩形图像P的信息是指矩形图像P的位置坐标、及矩形图像P的高度和宽度。这里，高度是垂直方向距离，宽度是水平方向距离。基于矩形图像P的这样的信息，可计算出形成在矩形图像P之间的白像素集中区域即背景带(背景区域)W的宽度VWW和高度HWH。背景带W的宽度VWW是指在水平方向相邻的背景带W/W之间的水平方向上的距离，背景带W的高度HWH是指在垂直方向相邻的背景带W/W之间的垂直方向上的距离。

区段分割部9采用这样的背景带W的宽度VWW和高度HWH，将1页的图像分割成多个区段，并且使1个区段内的背景带W的宽度VWW均匀，且高度HWH均匀。

图5(a)(b)表示在区段分割部9的区段分割处理中采用的、在纵方向(垂直方向)和横方向(水平方向)上分区图像的各个流程。其中，图5(a)是在纵方向分区中采用的流程，图5(b)是在横方向分区中采用的流程。

首先，对图5(a)所示的纵方向分区的流程进行说明。基于由矩形图像P构成的图像，进行垂直方向上的投影(S11)。其次，记录M个背景带W的宽度VWW的序列(S12)。其次，计算出垂直方向的极限值(S13)。极限值的计算是首先计算出在序列中包含的背景带W的不同宽度VWW的数量，并将最多的背景带W所具有的宽度VWW作为极限值。

其次，将序列中所包含的背景带W的宽度VWW与极限值比较(S14)，在与极限值近似的情况下，进入S17，进行下一个背景带W的处理，然后返回到S14。在S14中，如果是与极限值不同的值，则画出垂直线(S15)，并记录所形成的子区域的位置坐标(S16)，然后，进入S17，进行下一个背景带W的处理，然后返回到S14。

在对序列中所包含的全部M个背景带W反复了S14～S17的处理之后，对在S16记录的各个子区域，分别使用图5(b)所示的横方向分区流程(S18)。

其次，采用图5(b)来对横方向分区流程进行说明。基于由矩形图像P构成的图像，进行水平方向上的投影(S21)。其次，记录N个背景带W的高度HWH的序列(S22)。其次，计算出水平方向的极限值(S23)。极限值的计算是，首先计算出在序列中包含的背景带W的不同高度HWH的数量，将最多的背景带W所具有的高度HWH设为极限值。

其次，将序列中所包含的背景带W的高度HWH与极限值比较(S24)，在与极限值近似的情况下，进入S27，进行下一个背景带W的处理，然后返回到S24。在S24中，如果是与极限值不同的值，则画出分割线(S25)，记录所形成的子区域的位置坐标(S26)，然后，进入S27，进行下一个背景带W的处理，然后返回到S24。

在对序列中所包含的全部N个背景带W反复了S24～S27的处理之后，对各个子区域，分别使用图5(a)所示的纵方向分区流程(S28)。

利用这样的分区方法，区段分割部9首先选择全部图像，进行图5(a)所示的纵向分区处理，其次，对所处理的各个分区，循环进行图5(b)所示的横向分区和上述的纵向分区，直到图像的分区达到均匀为止。在背景带W的宽度VWW成为均匀时，结束在纵方向分区的处理，在背景带W的高度HWH成为均匀时，结束横方向的分区处理。

图6表示区段分割后的图像。1页的图像被分割成图像的分区均匀的B1～B8的8个区段。

另外，图7表示图6的分割例中的区段B4的详细情况。区段B4位于由垂直的分割线V1分区的右侧区域中。在图中，参照符号100是区段B4的放大图，参照符号101是将区段B4在水平方向投影的结果。在投影的结果101中，2个背景带W1、W2的高度HWH比其它背景带W的高度高。从而，在背景带W1、W2中画出水平的分割线H1、H2。而且，在区段B4中，背景带W1、W2以外的背景带W的高度HWH均匀。在成为这样的状态时，区段分割部9结束横方向的分区。

另外，区段分割的方法不限于图5(a)(b)所示的步骤，只要是能够分割成背景带W的宽度VWW和背景带W的高度HWH分别均匀的子区域的方法即可。

通过区分为文档图像的行间隔相对均匀的几何区段，即使对于色彩浓度和析像度不同，或多种语言混合的文档图像的检索，也能够保证高的检索精度。

这样通过区段分割部9进行了区段分割的归档图像和识别图像被送到特征区段选择部10。

特征区段选择部10从这样分割成多个区段的归档图像、识别图像中，基于一定的规则，选择出规定数量的表示这些图像的特征的特征区段。

作为特征区段，选择图像视觉强度更强，且面积更大的区段。这样的特征区段的选择，可认为比较符合人类的主观判断。

而且，不是使用由区段分割部分割的全部区段，而是由特征区段选择部10选择出表现文档图像页的特征的特征区段，由此，能够除掉内容少的区段等影响检索的准确性的要素，从而可提高准确性。

具体地讲，特征区段选择部10从页内的全部区段中，选择非直线，且面积更大的区段。虽然越增加特征区段的选择数量，检索出目标文档图像的精度越高，但在相似度的计算中需要时间。在本实施方式中，特征区段选择部10选择4个特征区段。也可以构成为能够任意地设定选择的特征区段的数量。

图8表示从图6的例子中的区段B1～B8的8个区段中，将非直线性，且面积更大的区段作为选择条件，选择了4个区段的结果。这里，区段B2、B3、B5、B6的4个区段作为特征区段被选择。而且，对所选择的各个特征区段，按照其大小的顺序，赋予了从第一到第四的顺序号。在本例子中，最大的区段B6是第一特征区段，第二大的区段B5是第二特征区段，第三大的区段B3是第三特征区段，第四大的区段B2是第四特征区段。

另外，这里，虽然按照区段的大小顺序对特征区段赋予了编号，但也可以根据区段的位置信息等来分配编号。

这样，由特征区段选择部10选择了特征区段的归档图像和识别图像，被送到特征计算部11。

特征计算部11基于按如上方式选择了特征区段的归档图像和识别图像，将特征区段的信息作为这些各个图像的特征来计算出。

特征计算部11对各个特征区段求出区段中心的位置坐标、区段的高度(垂直方向的距离)、区段的宽度(水平方向的距离)、区段的紧密度(Tightness)、和区段的密度(Density)的5个值。

区段的紧密度(Tightness)是区段的周长除以区段的面积的值。另外，密度(Density)是区段中所包含的黑像素数量除以区段的面积的值。这里，不是对于被转换成矩形图像P的输入图像，而是对于由图像预处理部2处理后的图像，求出黑像素的数量。由此，在矩形图像P中，即使是黑像素的数量相似的情况，在实际的图像不同的情况下也能够减小相似度。

而且，特征计算部11根据分别对4个特征区段求出的5个值，计算出5项图像的特征。

在5项图像特征中，4项由各个4个特征区段的“区段的高度、区段的宽度、区段的周长除以区段的面积的值、以及区段中所包含的黑像素数量除以区段的面积的值这4个要素”构成。

换言之，是由上述4个要素构成的第一特征区段的信息、由上述4个要素构成的第二特征区段的信息、由上述4个要素构成的第三特征区段的信息、及由上述4个要素构成的第四特征区段的信息。

另外，第五个图像特征是由各个特征区段的区段中心的位置坐标所决定的四边形信息。

特征矢量生成部7将由特征计算部11计算出的5个图像特征包含在归档图像和识别图像的各个特征矢量中。当然，特征矢量的要素也可以只由这5个项目构成。

在这样生成的特征矢量中，图像的主要特征被综合，从而能够表示更全面的文档图像的内容，进一步提高文档图像的检索精度。另外，综合了各个特征区段的信息的特征矢量，与以往的特征抽出方法相比，更简洁、直观，并可减少计算量。

然后，特征矢量生成部7将针对归档图像生成的特征矢量送到特征矢量数据库12，将针对识别图像生成的特征矢量送到图像识别部13。

特征矢量数据库12将送来的归档图像的特征矢量，与储存在图像数据库15中的归档图像相对应地进行储存。由特征矢量生成部7和特征矢量数据库12，构成了生成归档图像的特征矢量，并将其与图像数据库15相对应地进行储存的特征矢量储存部16。

另外，图像识别部13在取得了识别图像的特征矢量时，参照特征矢量数据库12，对所储存的特征矢量与识别对象的特征矢量进行比较，作为目标图像的候补识别出特征矢量的匹配度高的图像，并从图像数据库15中抽出，输出到由显示装置等构成的检索结果显示部14。

在本实施方式中，图像识别部13按照匹配度高的顺序抽出图像，将相似的图像的集合送到检索结果显示部14。由特征矢量生成部7和图像识别部13构成生成识别图像的特征矢量，并从图像数据库15中检索出目标图像的检索部17。

这里，图像识别部13针对识别图像和被储存在图像数据库15内的归档图像，制定特征区段的对应关系。具体地讲，选择识别图像的各个特征区段，从特征矢量数据库12内的4个特征区段中搜索出相似度最高的特征区段，而制作特征区段的一对矩阵。最终，制作2个图像的4个特征区段的一对矩阵，计算出2个图像的距离。

图9表示由图像识别部13进行的识别目标图像的步骤。首先，从特征矢量数据库12中取得1个特征矢量(S31)。然后，如图10所示，先在识别图像102与存储在图像数据库15中的归档图像103之间，使用在特征矢量中所包含的5项图像特征中的四边形信息，对四边形104与四边形105进行比较(S32)，判断是否相似(S33)。这里，在不相似的情况下，转移至S37。

另一方面，在四边形104与四边形105相似的情况下，进入S34，并使用特征矢量中所包含的剩余4项的图像特征，在识别图像与存储在图像数据库15中的图像之间，针对4个特征区段的每一个求出区段之间的距离。

剩余的4个区段的特征是，4个特征区段各自中的“区段的高度(垂直方向距离)、区段的宽度(水平方向的距离)、区段的紧密度(Tightness)、以及区段的密度(Density)”。对这些各个要素，计算出特征区段之间的距离。这里，计算区段之间的距离的计算式如下所示。

(式1)

Dis \tan ce = Σ_{i = 1}^{4} (block_dis \tan c e_{i})

式中，“i”是第一个特征区段，即表示是第i特征区段的情况。该特征区段间的距离为相似度。

如果将第i特征区段间的区段间距离的计算式更具体地表示，则成为下式。

(式2)

block_distance_i＝Height_dist_i+Width_dist_i+Tightness_dist_i+Density_dist_i

其中，

IIeight_dist_i＝2*(Height_(i，input)-Height_{(i，database)})/(Height_(i，input)+Height_{(i，database)})

Width_dist_i＝2*(Width_(i，input)-Width_{(i，database)})/(Width_(i，input)+Width_{(i，database)})

Tightness_dist_i＝Tightness_(i，input)-Tightness_{(i，database)}

Density_dist_i＝Density_(i，input)-Density_{(i，database)}

式中，(i，input)表示识别对象的输入图像的第i特征区段的值，(i，database)表示在所储存的图像数据库15中所存储的图像的第i特征区段的值。

采用上述的计算式，对从第一特征区段到第四特征区段的4个特征区段，分别计算出作为相似度的区段间的距离。

这样，在图像识别部13中，为获得识别图像和检索对象的文档图像之间的匹配性，而对特征矢量彼此之间进行比较的过程中，对各个特征区段彼此进行比较，因此可避免因图像的局部信息偏差而导致的所谓不能匹配的检索错误，可减少检索误差。

另外，作为图像特征的第5个项目，包含连结了4个特征区段的中心的四边形信息，在对4个特征区段的信息进行比较之前，通过S32、S33的处理，根据四边形是否相似，可以对储存在特征矢量数据库12中的特征矢量(即存储在图像数据库中的图像)进行高精度筛选。从而，可减少通过对特征矢量彼此进行比较来判断匹配性的处理的计算量。通过选择3个以上的特征区段，可进行利用了这样的连结了中心的形式的比较。另外，由各个特征区段的信息来表现图像的特征的上述的5个项目，是一例优选例，其并不限于此。

图11表示具有上述构成的本实施方式的文档图像检索装置中的，生成归档图像的特征矢量，并储存到特征矢量数据库12中的特征矢量储存处理的流程。

如上所述，对于被输入的归档图像，首先，由图1所示的图像预处理部2进行预处理。在预处理中，2值化处理部3，首先对图像进行2值化处理(S41)，接着，由噪声去除部4去除噪声(S42)，倾斜修正部5修正倾斜(S43)。然后，由边缘去除部6，如上述那样，按照图2的流程，如图3(a)～(e)所示那样，去除图像的边缘(S44)。

在完成了这样的预处理后，图1所示的特征矢量生成部7生成特征矢量。首先，矩形图像抽出部8进行文本区域的连接处理，形成如图4所示的由矩形图像P构成的图像(S45)。接着，区段分割部9进行1页的几何构造分析，使用图5(a)(b)的流程，如图6所示那样，将1页的图像分割成多个区段(S45)。

其次，特征区段选择部10按照特征区段的选择规则，如图8所示那样，选择4个特征区段(S47)。在这样选择了特征区段后，特征计算部11计算出上述5项的图像特征(S48)。

根据在S48中计算出的5项图像特征，生成该1页的归档图像的特征矢量，并将所生成的特征矢量存储在特征矢量数据库12中(S49)。

图12表示在具有如上构成的本实施方式的文档图像检索装置中的、生成识别图像的特征矢量，并参照特征矢量数据库12对所储存的特征矢量进行比较，而检索出目标图像的检索处理的流程。

对于由图像输入部1输入的识别图像，实施与图11相同的S41～S48的处理，而生成该1页的图像的特征矢量。

在检索处理中，采用所生成的特征矢量，使图1所示的图像识别部13，如上述那样，按照图9的流程，参照特征矢量数据库12，进行图像的识别，抽出目标图像候补(S50)。

检索结果显示部14按照相似度高的顺序，显示在S50中抽出的目标图像候补(S51)。

最后，文档图像检索装置的各个区段，特别是图像预处理部2、特征矢量生成部7、图像识别部13，可以由硬件逻辑电路构成，也可以如下那样采用CPU由软件来实现。

即，文档图像检索装置具有执行实现各种功能的控制程序的指令的CPU(central processing unit)、存储有上述程序的ROM(read onlymemory)、展开上述程序的RAM(random access memory)、存储上述程序和各种数据的存储器等的存储装置(记录媒体)等。而且，本发明的目的也可以通过将实现上述功能的软件即文档图像检索装置的控制程序的程序代码(执行形式程序、中间代码程序、源程序)记录在可被计算机读取的记录媒体中，并将该记录媒体提供给上述文档图像检索装置，该计算机(或CPU、及MPU)读出并执行被记录在记录媒体中的程序代码来实现。

作为上述记录媒体，例如也可以采用，磁带及盒式磁带等磁带类、包括软盘(注册商标)/硬盘等磁盘、及CD-ROM/MO/MD/DVD/CD-R等光盘的盘类、IC卡(包括储存卡)/光卡等卡类、或掩模ROM/EPROM/EEPROM/闪存ROM等半导体存储器类等。

另外，也可以将文档图像检索装置构成为能够与通信网络连接，通过通信网络供给上述程序代码。作为该通信网络，没有特殊的限定，例如可以采用互联网、内联网、备用网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、卫星通信网等。另外，作为构成通信网络的传输媒体，没有特别的限定，例如，可以利用IEEE1394、USB、电力线输送、有线TV线路、电话线、ADSL线路等的有线，也可以利用IrDA及遥控那样的红外线，Bluetooth(注册商标)、802.11无线、HDR、移动电话网、卫星线路、地面波数字网等无线。另外，本发明也能够以将上述程序代码通过电子形式的传输来提供的、嵌入于载波中的计算机数据信号的形式来实现。

本发明不限于上述的实施方式(以及实施例)，在权利要求书中所示的范围内可以进行各种变更。即，对于将权利要求书中所示的范围内进行了适当变更的技术方案进行组合而构成的实施方式，也包含在本发明的技术范围内。

本发明的文档图像的检索装置，为了达到上述的目的，提供一种文档图像的检索装置，该文档图像以文字和图表为主要内容，该检索装置的特征在于，具有：特征矢量生成部，其生成文档图像页的特征矢量；文档图像识别部，其对采用上述特征矢量生成部而生成的识别对象的文档图像页的特征矢量、与储存在检索对象中的文档图像页的特征矢量进行比较，从检索对象中抽出与识别对象的文档图像页对应的文档图像页，上述特征矢量生成部具有：矩形图像抽出部，其将文档图像页中的文字部分连结，并抽出矩形图像；区段分割部，其基于由上述矩形图像抽出部抽出的矩形图像的信息，分析页的几何构造，而将上述文档图像页分割成多个区段；特征区段选择部，其从由上述区段分割部分割的多个区段中，选择出表现该文档图像页的特征的特征区段；特征计算部，其将由上述特征区段选择部选择的多个特征区段的信息，作为该文档图像页的特征来计算出，且上述特征矢量生成部将上述特征计算部的计算结果，包含在该文档图像页的特征矢量的要素中。另外，这里所谓文档图像页是指以页为单位读取的由1页构成的文档图像。

根据上述构成，在矩形图像抽出部和区段分割部等中，综合地利用了色彩的特征(黑像素或白像素)、空间关系的特征(相邻黑像素之间的距离)、和对象的特征。从而，通过利用多种图像的特征信息，可避免因利用单一特征而导致图像信息丢失的情况。另外，由于充分表现图像的内容，所以可有效地提高图像检索精度。

另外，区段分割部使用通过分析页的几何构造来确定表示文档图像的特征的特征区段的方法，而分区成为文档图像的行间隔相对均匀的几何区段。由此，即使是对于色彩浓度和析像度不同，或多种语言混合的文档图像的检索，也可以确保高的检索精度。

并且，由于不是使用由区段分割部分割的全部的区段，而是由特征区段选择部选择表现文档图像页的特征的特征区段，并加以采用，所以，可除掉内容少的区段等影响检索的准确性的要素，从而可提高准确性。

特征计算部将这样选择的多个特征区段的信息作为该文档图像页的特征来计算出，并将其包含在该文档图像页的特征矢量的要素中，因此，在文档图像的特征矢量中，综合了图像的主要特征，从而可表示更全面的文档图像的内容。由此，可进一步提高文档图像的检索精度。另外，综合了各种特征区段的信息的特征矢量，与以往的特征抽出方法相比，更简洁、更直观，并可减少计算量。

另外，由于在文档图像页的特征矢量中包含多个特征区段的信息，所以文档图像识别部在为获得识别图像与检索对象的文档图像页的匹配性而对特征矢量彼此进行比较的过程中，对各个特征区段彼此之间进行比较，因此，可避免因图像的局部偏差导致的所谓不能匹配的检索错误，可减少检索误差。

在本发明的文档图像的检索装置中，可以进一步构成为，上述特征区段选择部将非直线且面积大的区段作为特征区段来选择。非直线且面积大的区段，由于视觉强度强，与人的主观判断比较一致，适合作为表现图像特征的特征区段。

另外，在本发明的文档图像的检索装置中，也可以进一步构成为，上述特征区段选择部选择n(n是大于等于3的整数)个特征区段，上述特征计算部，作为该文档图像页的特征，而在n个特征区段的信息的基础上，计算出以n个特征区段的中心为顶点的n边形(n是大于等于3的整数)的信息，上述文档图像识别部，只针对包含在特征矢量中的文档图像页的特征中的、n边形相似的特征矢量，进行n个特征区段的信息的比较。

以n个特征区段的中心为顶点的n边形表现n个特征区段的配置。从而，通过将这样的信息包含在图像的特征之一中，使文档图像识别部能够在进行n个特征区段的信息的比较之前，根据n边形是否相似，而对储存在检索对象中的文档图像进行高精度筛选，从而可减少对特征矢量彼此进行比较来判断匹配性的处理的计算量。

另外，在此情况下也可以构成为，上述特征计算部，作为计算出的n个特征区段的信息，计算出各个特征区段中的区段高度、区段宽度、区段的周长除以区段的面积的值、及在区段中包含的黑像素数量除以面积的值，这4个特性。已确认了通过由这样的4个特性，对各个特征区段赋予特征并计算出相似度，可高精度抽出目标图像。

另外，在本发明的文档图像的检索装置中，进一步的特征在于，上述区段分割部基于矩形图像的信息，按照如下方式对上述文档图像页进行分割，即：在一个区段内，矩形图像间的背景区域的水平方向尺寸相对均匀，而且，矩形图像间的背景区域的垂直方向尺寸相对均匀的方式。

由此，可以分区成为文档图像的行间隔相对均匀的几何区段。

另外，在本发明的文档图像的检索装置中，进一步的特征在于，上述区段分割部基于矩形图像的信息，交替地且反复地进行以下操作，即，在垂直方向上投影，在矩形图像间的背景区域的水平方向的尺寸与其它背景区域的同方向的尺寸不相似的部位垂直画出分割线的操作、和在水平方向上投影，在矩形图像间的背景区域的垂直方向的尺寸与其它背景区域的同方向的尺寸不相似的部位水平画出分割线的操作，直到由分割线分区的各个区域中的矩形图像间的背景区域的水平方向及垂直方向的尺寸成为均匀为止。

据此，可容易分区成为文档图像的行间隔相对均匀的几何区段。

另外，在本发明的文档图像的检索装置中，优选构成为，在上述特征矢量生成部的前段，进一步设置从上述文档图像页中去除外周部的阴影的边缘去除部。

虽然是以由复印而形成的复印图像为主，但有时在图像的外周部形成有阴影的情况。如果在图像的特征中包含这样的阴影，则在采用图像的特征检索图像时，不能实现高精度的检索。特别是，在本发明的检索装置搭载在复合机或复印机等中的情况下，如果包含这样的阴影，则不能期待高精度的检索。

这样，通过由边缘去除部从文档图像页中去除阴影，可扩大处理范围，且能够将本发明的检索装置适用在复合机和复印机等中。

另外，在本发明的文档图像的检索装置中，特征在于，进一步具有储存文档图像页的文档图像储存部；特征矢量储存部，其采用上述特征矢量生成部，来生成储存在上述文档图像储存部中的文档图像页的特征矢量，并与上述文档图像储存部相对应地进行储存，其中，上述文档图像识别部对识别对象的文档图像页的特征矢量、与储存在上述特征矢量储存部中的特征矢量进行比较，并从上述文档图像储存部中抽出与识别对象的文档图像页对应的文档图像页。

由此，文档图像识别部能够采用储存在特征矢量储存部中的特征矢量，而对在文档图像储存部中储存的文档图像页进行检索，从而可构成适合文档图像的检索的图像归档***。

本发明的文档图像的检索方法，是以文字和图表为主要内容的文档图像的检索方法，其特征在于，包括：生成文档图像页的特征矢量的特征矢量生成步骤；文档图像识别步骤，其将采用上述特征矢量生成步骤生成的识别对象的文档图像页的特征矢量，与储存在检索对象中的文档图像页的特征矢量进行比较，且从检索对象中抽出与识别对象的文档图像页对应的文档图像页，上述特征矢量生成步骤包括：矩形图像抽出步骤，其在文档图像页中，将文字部分连结而抽出矩形图像；区段分割步骤，其基于在上述矩形图像抽出步骤中抽出的矩形图像页的信息，分析页的几何构造，并将上述文档图像页分割成多个区段；特征区段选择步骤，其从在上述区段分割步骤中分割的多个区段中，基于预先设定的条件而选择出多个特征区段；特征计算步骤，其将由上述特征区段选择部所选择的多个特征区段的信息，作为该文档图像页的特征来计算出，并且，将上述特征计算步骤的计算结果，包含在该文档图像页的特征矢量的要素中。

然而，上述文档图像的检索装置可以由硬件来实现，也可以通过使计算机执行程序来实现。具体地讲，本发明涉及的程序是，使计算机作为上述特征矢量生成部、文档图像识别部、矩形图像抽出部、区段分割部、特征区段选择部、特征计算部、文档图像储存部、以及特征矢量储存部而动作的程序，在本发明涉及的记录媒体中记录有该程序。

在由计算机执行这些程序时，该计算机作为上述文档图像的检索装置而动作。从而，可起到与上述文档图像的检索装置同样的作用。

在本发明的详细说明的各项中所说明的具体实施方式或实施例，只是用于明确说明本发明的技术内容的，不应被狭义地解释为本发明仅限于这样的具体例，在本发明的精神和本发明的权利要求各项的范围内，可进行各种变更来实施。

Claims

1. 一种文档图像的检索装置，用于检索以文字和图表为主要内容的文档图像，其特征在于，

该文档图像的检索装置具有：

生成文档图像页的特征矢量的特征矢量生成部；

文档图像识别部，其对采用上述特征矢量生成部而生成的识别对象的文档图像页的特征矢量、与储存在检索对象中的文档图像页的特征矢量进行比较，从检索对象中抽出与识别对象的文档图像页对应的文档图像页，

上述特征矢量生成部具有：

矩形图像抽出部，其将文档图像页中的文字部分连结，而抽出矩形图像；

区段分割部，其基于由上述矩形图像抽出部抽出的矩形图像的信息，分析页的几何构造，并将上述文档图像页分割成多个区段；

特征区段选择部，其从由上述区段分割部分割的多个区段中，选择出表现该文档图像页的特征的特征区段；

特征计算部，其将由上述特征区段选择部选择的多个特征区段的信息，作为该文档图像页的特征来计算出，

上述特征矢量生成部将上述特征计算部的计算结果包含在该文档图像页的特征矢量的要素中。

2. 根据权利要求1所述的文档图像的检索装置，其特征在于，上述特征区段选择部作为特征区段选择非直线且面积大的区段。

3. 根据权利要求1所述的文档图像的检索装置，其特征在于，上述特征区段选择部选择n个特征区段，其中，n是大于等于3的整数，

上述特征计算部，作为该文档图像页的特征，在n个特征区段的信息的基础上，计算出以n个特征区段的中心为顶点的n边形的信息，其中，n是大于等于3的整数，

上述文档图像识别部，只针对包含在特征矢量中的文档图像页的特征中的、n边形相似的特征矢量，进行n个特征区段的信息的比较。

4. 根据权利要求3所述的文档图像的检索装置，其特征在于，上述特征计算部，作为n个特征区段的信息，而计算出各个特征区段中的区段的高度、区段的宽度、区段的周长除以区段的面积的值、以及在区段中包含的黑像素数量除以面积的值，这4个特性。

5. 根据权利要求1所述的文档图像的检索装置，其特征在于，上述区段分割部基于矩形图像的信息，按照如下方式对上述文档图像页进行分割，即：在一个区段内，矩形图像间的背景区域的水平方向尺寸相对均匀，而且，矩形图像间的背景区域的垂直方向尺寸相对均匀的方式。

6. 根据权利要求5所述的文档图像的检索装置，其特征在于，上述区段分割部，基于矩形图像的信息，交替且反复地进行以下操作，即，在垂直方向上投影，在矩形图像间的背景区域的水平方向的尺寸与其它背景区域的同方向的尺寸不相似的部位垂直地画出分割线的操作、和在水平方向上投影，在矩形图像间的背景区域的垂直方向的尺寸与其它背景区域的同方向的尺寸不相似的部位水平地画出分割线的操作，直到由分割线分区的各个区域中的矩形图像间的背景区域的水平方向和垂直方向的尺寸成为均匀为止。

7. 根据权利要求1所述的文档图像的检索装置，其特征在于，在上述特征矢量生成部的前段，设有从上述文档图像页中去除外周部的阴影的边缘去除部。

8. 根据权利要求1所述的文档图像的检索装置，其特征在于，

具有：储存文档图像页的文档图像储存部；特征矢量储存部，其采用上述特征矢量生成部，生成储存在上述文档图像储存部中的文档图像页的特征矢量，并与上述文档图像储存部相对应地进行储存，

上述文档图像识别部，对识别对象的文档图像页的特征矢量、与储存在上述特征矢量储存部中的特征矢量进行比较，而从上述文档图像储存部中抽出与识别对象的文档图像页对应的文档图像页。

9. 一种文档图像的检索方法，用于检索以文字和图表为主要内容的文档图像，其特征在于，

包括：

生成文档图像页的特征矢量的特征矢量生成步骤；

文档图像识别步骤，其对采用上述特征矢量生成步骤生成的识别对象的文档图像页的特征矢量、与储存在检索对象中的文档图像页的特征矢量进行比较，从检索对象中抽出与识别对象的文档图像页对应的文档图像页，

上述特征矢量生成步骤包括：

矩形图像抽出步骤，其从文档图像页中将文字部分连结，而抽出矩形图像；

区段分割步骤，其基于在上述矩形图像抽出步骤中抽出的矩形图像页的信息，分析页的几何构造，并将上述文档图像页分割成多个区段；

特征区段选择步骤，其从在上述区段分割步骤中分割的多个区段中，基于预先设定的条件来选择出多个特征区段；

特征计算步骤，其将在上述特征区段选择步骤中选择的多个特征区段的信息，作为该文档图像页的特征来计算出，

上述特征矢量生成步骤中将上述特征计算步骤的计算结果包含在该文档图像页的特征矢量的要素中。