CN101866366B

CN101866366B - 一种基于内容的图像格式中文文档检索方法

Info

Publication number: CN101866366B
Application number: CN2010102267875A
Authority: CN
Inventors: 夏勇; 王宽全; 左旺孟; 黎捷
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2010-07-15
Filing date: 2010-07-15
Publication date: 2012-01-18
Anticipated expiration: 2030-07-15
Also published as: CN101866366A

Abstract

一种基于内容的图像格式中文文档检索方法，它涉及信息处理技术领域，它解决了现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题。本发明首先对图像格式文档进行字符分割，得到单个字符图像；然后提取字符图像特征矢量；接着基于局部敏感哈希变换原理LSH，构建hash函数，将每个字符图像特征矢量变换为伪码，并建立字符标引数据库；然后输入查询关键词，并获得所述查询关键词的伪码表示，再将查询关键词的伪码与字符标引数据库中伪码进行字符相似度比较，进而获取查询关键词的所有相似词，并按照其在文档中出现的先后顺序输出相似词，完成检索。本发明适用于图像格式的中文文档检索。

Description

一种基于内容的图像格式中文文档检索方法

技术领域

本发明涉及信息处理技术领域，具体涉及一种基于内容的图像格式中文文档检索方法。

背景技术

纸质文档的数字化存储与检索对于信息的获取和办公自动化领域有着深远的意义。对于数据存储而言，一般采用扫描仪或数码相机先将纸质文档转换为图像格式进行保存，即将纸质文档转换为图像格式文档，两个图像格式文档示例如图1所示。如何对大规模图像格式文档数据集进行检索是一个非常具有挑战性的问题，也是最近几年研究领域的一个热点。

对于图像格式文档的检索而言，一般都是利用目前较为成熟的OCR技术，将文档电子化，即转换为ASCII文本。由于OCR会存在识别错误，且会丢失版面的一些原始信息，所以一般利用OCR的文本进行检索，而检索的结果为图像格式的扫描文档的内容。由于OCR会存在识别错误，特别是对于退化文档，识别率很低，此时检索性能会很差。尽管有一些克服OCR识别错误的方法，如识别后处理，提供候选字等，但效果仍然很有限。鉴于目前的研究现状，对退化字符的识别难以在短期内有很大的突破，如何解决低识别率文档的检索就成为了一个非常有意义，也非常有挑战性的问题。

发明内容

为了解决现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题，本发明提供了一种基于内容的图像格式中文文档检索方法。

本发明的一种基于内容的图像格式中文文档检索方法，它包括以下步骤：

步骤一：获取待检索的图像格式中文文档，并对每个图像格式中文文档进行字符分割，进而获取每个图像格式中文文档中的单个字符图像

；

步骤二：根据所获取的单个字符图像

，提取该字符图像的字符图像特征矢量；

步骤三：基于局部敏感哈希变换原理，构建hash函数h，并将所提取的字符图像

的字符图像特征矢量相应变换为伪码

，并根据所述伪码建立字符标引数据库，所述伪码

由L个16位整数

串接而成，其中，

，

，的值由hash函数h和参数k决定；

步骤四：在所述字符标引数据库中输入查询关键词，所述查询关键词的格式为文本格式或图像格式，判断所述查询关键词是否为文本格式，如果是，执行步骤五，否则执行步骤六；

步骤五：设置文本格式的查询关键词的字体和字号，并将所述查询关键词由文本格式转换为图像格式；

步骤六：对图像格式的查询关键词W进行字符分割，进而获取所述查询关键词W的所有字符图像，即，为所述查询关键词W中一个字符图像，，并根据所述字符图像

提取其字符图像特征矢量；

步骤七：基于局部敏感哈希变换原理，将字符图像

的字符图像特征矢量变换为伪码

，所述伪码由L个16位整数

串接而成；

步骤八：令i=1,j=1；

步骤九：获取字符图像

的伪码

与字符标引数据库中字符图像

的伪码

之间的字符相似度S=M/L，其中,M为所述两个伪码之间属性相等的个数；

步骤十：判断所获取的字符相似度S是否小于相似度阈值1/L，如果是，则执行步骤十四，否则，执行步骤十一；

步骤十一：判定字符图像

与字符标引数据库中字符图像相似，将所述字符图像

及步骤九获取的字符相似度S保存；

步骤十二：判断是否存在i=n,如果是，则令i= 1，执行步骤十三,否则令i=i+1,执行步骤十四；

步骤十三：将步骤十一所存储的

与

之间的n个字符组成的词作为有效查询结果保存，并将步骤十一所存储的n个字符相似度S相乘作为所述词相似度保存，然后执行步骤十四；

步骤十四：判断是否存在j<N，如果是，则令j=j+1，返回执行步骤九，否则执行步骤十五；

步骤十五：将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出，完成检索。

本发明的有益效果：本发明的一种基于内容的图像格式中文文档检索方法完全抛弃OCR技术，避免了复杂的OCR算法的设计、样本训练等过程，直接利用字符图像的特征，并基于图像间的相似性进行检索，能够有效处理字符退化严重的图像格式文档；本发明的检索方法简单，速度快，成本低廉；本发明的检索方法具有线性的查找速度，有效的缓解了基于内容检索方法中存在的特征维数过高而导致的维数灾难问题。

附图说明

图1和图2是本发明的一种基于内容的图像格式中文文档检索方法流程图，图3是用扫描仪扫描获得的图像格式文档，图4是用数码相机拍摄获得的图像格式文档，图5是本发明具体实施方式四中，查询关键词为文本格式时图像格式中文文档的检索流程示意图。

具体实施方式

具体实施方式一：根据说明书附图1和2具体说明本实施方式，本实施方式的一种基于内容的图像格式中文文档检索方法，它包括以下步骤：

；

步骤二：根据所获取的单个字符图像

，提取该字符图像的字符图像特征矢量；

的字符图像特征矢量相应变换为伪码

，并根据所述伪码

建立字符标引数据库，所述伪码由L个16位整数

串接而成，其中，

，

，

的值由hash函数h和参数k决定；

步骤六：对图像格式的查询关键词W进行字符分割，进而获取所述查询关键词W的所有字符图像，即

，

为所述查询关键词W中一个字符图像，

，并根据所述字符图像提取其字符图像特征矢量；

步骤七：基于局部敏感哈希变换原理，将字符图像

的字符图像特征矢量变换为伪码，所述伪码

由L个16位整数

串接而成；

步骤八：令i=1,j=1；

步骤九：获取字符图像

的伪码与字符标引数据库中字符图像

的伪码

步骤十一：判定字符图像与字符标引数据库中字符图像

相似，将所述字符图像

及步骤九获取的字符相似度S保存；

步骤十三：将步骤十一所存储的

与

具体实施方式二：本实施方式是对具体实施方式一的进一步说明，具体实施方式一中在步骤三中，构建hash函数h的具体过程为：首先定义m维空间中规则多面体的定点集合

,其中，，并定义旋转矩阵A，然后建立hash函数

，

为单位矢量，所述hash函数

映射的结果集为

。

具体实施方式三：本实施方式是对具体实施方式一或二的进一步说明，具体实施方式一或二中，在步骤三中，伪码

中16位整数

的个数L的范围为1～50。

具体实施方式四：本实施方式与具体实施方式三的进一步说明，具体实施方式三中，伪码

中16位整数

的个数L=20。

本实施方式中的局部敏感哈希变换LSH原理如下：

定义：对于一个矢量集S，一个映射函数集

被称为

敏感，如果对S中任意两个矢量

满足如下条件：

如果

，则

如果，则

这里

表示这两个矢量间的距离，

表示概率，并且。

这里的映射函数H就是一个hash函数，将一个多维的矢量

映射成一个整数

。LSH的基本思想就是通过从LSH函数集中随机选择一个hash函数将每一个矢量映射到hash表中。在最近邻查找时，只将hash表中具有与查找内容具有相同索引值的结果返回。

为了放大特征相似性在hash表中冲突的概率，LSH采用了将多个hash函数直接连接起来相乘的方法，即

，这里

就是从LSH函数集中随机选择的一个满足

敏感的hash函数。这样定义中的hash函数集就改写为

，这里。在最近邻查找时，只需比较查询矢量

与数据库中的矢量

是否满足

即可。由于这种过程是基于概率的逼近最近邻查找的方法，会存在真正的最近邻没有被映射到同一个值而被忽略掉，所以LSH的算法构建了了L个hash表来解决该问题。这样查询时，将

与

逐一进行比较，只要有一项内容相等，则认为相似，并返回该结果。假定两个矢量间的欧氏距离为c时，在经过单个hash函数映射后冲突的概率为

，则经过以上的处理后冲突的概率为

。

本实施方式中，对于字符特征矢量的提取如下：

对于特征提取，仅考虑字符轮廓上的方向线素特征，利用了4个方向的特征，即水平、垂直、正负45倾斜。特征提取过程如下：首先，字符图像被线性归一化到一个64×64的栅格图像上；接着，抽取字符的轮廓图像；然后，轮廓图像被分成7×7个区域，对于每一个区域，具有同一个方向属性的元素被累加，这样，基于这样一种区域划分的特征维数为4×7×7＝196。相似的，我们还可将图像分成6×6和5×5个区域，则特征维数也就分别为4×6×6＝144和4×5×5＝100。最后，将这些特征串行的连接起来就得到了一个440维的特征矢量。

中文的ASCII码由2个字节组成，即一个16位的整数。为了便于与OCR的结果进行融合，这里我们也将

的目标值设定为一个16位的整数。考虑到检索速度，L值也不宜太大，在50以内是比较合理的。在查询时，查询字符的伪码与数据库中字符的伪码的L个元素中只要有一个对应元素相等，则就认为相似，相似度由相等的元素个数决定，即相等的元素越多就说明相似度越高。

在hash函数h的构建过程中，一个hash函数可定义为

，为了简化计算，该函数可改写为

。该hash函数

映射的结果集为

，则

的结果集为

。由于我们期望伪码中每个元素均为一个不超过16位的整数，所以

的最大值

的取值必须满足该条件。在高维空间中，规则多面体有3种，即Simplex，Orthoplex和Hypercube。对于Simplex而言，应满足

；对于Orthoplex而言，应满足

；对于Hypercube而言，应满足。由于

，所以

的取值情况如下：

Simplex：

，

。

Orthoplex：

，

。

Hypercube：

，显然该值过大，远远超出了16位整数的范围。由于Hpercube难以应用，所以只考虑Simplex和Orthoplex这两种情况。对于参数L而言，如果太小，会造成召回率降低；如果太大又会降低检索速度，并会引入一定的噪声。所以L的值应该比较适中，这里我们设定为20，以“自动化”文本作为查询关键词，查询结果如图5所示。本实施方式的检索时间是随着文档文字数量的增多而呈线性增长，而传统的基于欧氏距离匹配的方法的时间是非线性增长的。所以当文字数量较多时，本方法的检索速度要远远高于基于欧氏距离的方法，且精度不会有很明显的损失。本方法的检索速度主要取决于参数L，即L越小，速度越快，当L=1时，其速度与纯文本精确匹配的速度相同。本实施方式中L=20可以在保证有较高的检索精度与召回率的前提下，***有非常出色的速度性能，在不考虑并行计算的情况下，其平均检索速度可达到纯文本精确匹配速度的0.1倍。

Claims

1.一种基于内容的图像格式中文文档检索方法，其特征在于所述检索方法包括以下步骤：

步骤一：获取待检索的图像格式中文文档，并对每个图像格式中文文档进行字符分割，进而获取每个图像格式中文文档中的单个字符图像y_j；

步骤二：根据所获取的单个字符图像y_j，提取该字符图像的字符图像特征矢量；

步骤三：基于局部敏感哈希变换原理，构建hash函数h，并将所提取的字符图像y_j的字符图像特征矢量相应变换为伪码

并根据所述伪码C(y_j)建立字符标引数据库，所述伪码C(y_j)由L个16位整数

串接而成，其中，

t＝1，2，...，L，j＝1，2，...，N，

的值由hash函数h和参数k决定；

步骤六：对图像格式的查询关键词W进行字符分割，进而获取所述查询关键词W的所有字符图像，即W＝{x₁，x₂，...，x_n}，x_i为所述查询关键词W中一个字符图像，i＝1，2，...，n，并根据所述字符图像x_i提取其字符图像特征矢量；

步骤七：基于局部敏感哈希变换原理，将字符图像x_i的字符图像特征矢量变换为伪码

所述伪码C(x_i)由L个16位整数

串接而成；

步骤八：令i＝1，j＝1；

步骤九：获取字符图像x_i的伪码C(x_i)与字符标引数据库中字符图像y_j的伪码C(y_j)之间的字符相似度S＝M/L，其中，M为所述两个伪码之间属性相等的个数；

步骤十：判断所获取的字符相似度S是否小于相似度阈值1/L，如果是，则执行步骤十二，否则，执行步骤十一；

步骤十一：判定字符图像x_i与字符标引数据库中字符图像y_j相似，将所述字符图像y_j及步骤九获取的字符相似度S保存；

步骤十二：判断是否存在i＝n，如果是，则令i＝1，执行步骤十三，否则令i＝i+1，执行步骤十四；

步骤十三：将步骤十一所存储的y_j-n+1与y_j之间的n个字符组成的词作为有效查询结果保存，并将步骤十一所存储的n个字符相似度S相乘作为所述词相似度保存，然后执行步骤十四；

步骤十四：判断是否存在j＜N，如果是，则令j＝j+1，返回执行步骤九，否则执行步骤十五；

步骤十五：将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出，完成检索；

在步骤三中，构建hash函数h的具体过程为：首先定义m维空间中规则多面体的定点集合V＝{v₁，v₂，...，v_N}，其中，||v_i||＝1，并定义旋转矩阵A，然后建立hash函数h_A(p)＝argmax_i(Av_igp)，p为单位矢量，所述hash函数h_A(p)映射的结果集为{1，2，...，N}。

2.根据权利要求1所述的一种基于内容的图像格式中文文档检索方法，其特征在于在步骤三中，伪码C(y_j)中16位整数

的个数L的范围为1～50。

3.根据权利要求2所述的一种基于内容的图像格式中文文档检索方法，其特征在于伪码C(y_j)中16位整数

的个数L＝20。