CN101866366B - 一种基于内容的图像格式中文文档检索方法 - Google Patents
一种基于内容的图像格式中文文档检索方法 Download PDFInfo
- Publication number
- CN101866366B CN101866366B CN2010102267875A CN201010226787A CN101866366B CN 101866366 B CN101866366 B CN 101866366B CN 2010102267875 A CN2010102267875 A CN 2010102267875A CN 201010226787 A CN201010226787 A CN 201010226787A CN 101866366 B CN101866366 B CN 101866366B
- Authority
- CN
- China
- Prior art keywords
- character
- picture
- pseudo
- code
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于内容的图像格式中文文档检索方法,它涉及信息处理技术领域,它解决了现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题。本发明首先对图像格式文档进行字符分割,得到单个字符图像;然后提取字符图像特征矢量;接着基于局部敏感哈希变换原理LSH,构建hash函数,将每个字符图像特征矢量变换为伪码,并建立字符标引数据库;然后输入查询关键词,并获得所述查询关键词的伪码表示,再将查询关键词的伪码与字符标引数据库中伪码进行字符相似度比较,进而获取查询关键词的所有相似词,并按照其在文档中出现的先后顺序输出相似词,完成检索。本发明适用于图像格式的中文文档检索。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于内容的图像格式中文文档检索方法。
背景技术
纸质文档的数字化存储与检索对于信息的获取和办公自动化领域有着深远的意义。对于数据存储而言,一般采用扫描仪或数码相机先将纸质文档转换为图像格式进行保存,即将纸质文档转换为图像格式文档,两个图像格式文档示例如图1所示。如何对大规模图像格式文档数据集进行检索是一个非常具有挑战性的问题,也是最近几年研究领域的一个热点。
对于图像格式文档的检索而言,一般都是利用目前较为成熟的OCR技术,将文档电子化,即转换为ASCII文本。由于OCR会存在识别错误,且会丢失版面的一些原始信息,所以一般利用OCR的文本进行检索,而检索的结果为图像格式的扫描文档的内容。由于OCR会存在识别错误,特别是对于退化文档,识别率很低,此时检索性能会很差。尽管有一些克服OCR识别错误的方法,如识别后处理,提供候选字等,但效果仍然很有限。鉴于目前的研究现状,对退化字符的识别难以在短期内有很大的突破,如何解决低识别率文档的检索就成为了一个非常有意义,也非常有挑战性的问题。
发明内容
为了解决现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题,本发明提供了一种基于内容的图像格式中文文档检索方法。
本发明的一种基于内容的图像格式中文文档检索方法,它包括以下步骤:
步骤三:基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像的字符图像特征矢量相应变换为伪码,并根据所述伪码建立字符标引数据库,所述伪码由L个16位整数串接而成,其中,,,的值由hash函数h和参数k决定;
步骤四:在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤六;
步骤五:设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式转换为图像格式;
步骤八:令i=1,j=1;
步骤十:判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤十四,否则,执行步骤十一;
步骤十二:判断是否存在i=n,如果是,则令i= 1,执行步骤十三,否则令i=i+1,执行步骤十四;
步骤十四:判断是否存在j<N,如果是,则令j=j+1,返回执行步骤九,否则执行步骤十五;
步骤十五:将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出,完成检索。
本发明的有益效果:本发明的一种基于内容的图像格式中文文档检索方法完全抛弃OCR技术,避免了复杂的OCR算法的设计、样本训练等过程,直接利用字符图像的特征,并基于图像间的相似性进行检索,能够有效处理字符退化严重的图像格式文档;本发明的检索方法简单,速度快,成本低廉;本发明的检索方法具有线性的查找速度,有效的缓解了基于内容检索方法中存在的特征维数过高而导致的维数灾难问题。
附图说明
图1和图2是本发明的一种基于内容的图像格式中文文档检索方法流程图,图3是用扫描仪扫描获得的图像格式文档,图4是用数码相机拍摄获得的图像格式文档,图5是本发明具体实施方式四中,查询关键词为文本格式时图像格式中文文档的检索流程示意图。
具体实施方式
具体实施方式一:根据说明书附图1和2具体说明本实施方式,本实施方式的一种基于内容的图像格式中文文档检索方法,它包括以下步骤:
步骤三:基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像的字符图像特征矢量相应变换为伪码,并根据所述伪码建立字符标引数据库,所述伪码由L个16位整数串接而成,其中,,,的值由hash函数h和参数k决定;
步骤四:在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤六;
步骤五:设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式转换为图像格式;
步骤八:令i=1,j=1;
步骤十:判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤十四,否则,执行步骤十一;
步骤十二:判断是否存在i=n,如果是,则令i= 1,执行步骤十三,否则令i=i+1,执行步骤十四;
步骤十四:判断是否存在j<N,如果是,则令j=j+1,返回执行步骤九,否则执行步骤十五;
步骤十五:将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出,完成检索。
具体实施方式二 :本实施方式是对具体实施方式一的进一步说明,具体实施方式一中在步骤三中,构建hash函数h的具体过程为:首先定义m维空间中规则多面体的定点集合,其中,,并定义旋转矩阵A,然后建立hash函数,为单位矢量,所述hash函数映射的结果集为。
本实施方式中的局部敏感哈希变换LSH原理如下:
这里的映射函数H就是一个hash函数,将一个多维的矢量映射成一个整数。LSH的基本思想就是通过从LSH函数集中随机选择一个hash函数将每一个矢量映射到hash表中。在最近邻查找时,只将hash表中具有与查找内容具有相同索引值的结果返回。
为了放大特征相似性在hash表中冲突的概率,LSH采用了将多个hash函数直接连接起来相乘的方法,即,这里就是从LSH函数集中随机选择的一个满足敏感的hash函数。这样定义中的hash函数集就改写为,这里。在最近邻查找时,只需比较查询矢量与数据库中的矢量是否满足即可。由于这种过程是基于概率的逼近最近邻查找的方法,会存在真正的最近邻没有被映射到同一个值而被忽略掉,所以LSH的算法构建了了L个hash表来解决该问题。这样查询时,将与逐一进行比较,只要有一项内容相等,则认为相似,并返回该结果。假定两个矢量间的欧氏距离为c时,在经过单个hash函数映射后冲突的概率为,则经过以上的处理后冲突的概率为。
本实施方式中,对于字符特征矢量的提取如下:
对于特征提取,仅考虑字符轮廓上的方向线素特征,利用了4个方向的特征,即水平、垂直、正负45倾斜。特征提取过程如下:首先,字符图像被线性归一化到一个64×64的栅格图像上;接着,抽取字符的轮廓图像;然后,轮廓图像被分成7×7个区域,对于每一个区域,具有同一个方向属性的元素被累加,这样,基于这样一种区域划分的特征维数为4×7×7=196。相似的,我们还可将图像分成6×6和5×5个区域,则特征维数也就分别为4×6×6=144和4×5×5=100。最后,将这些特征串行的连接起来就得到了一个440维的特征矢量。
中文的ASCII码由2个字节组成,即一个16位的整数。为了便于与OCR的结果进行融合,这里我们也将的目标值设定为一个16位的整数。考虑到检索速度,L值也不宜太大,在50以内是比较合理的。在查询时,查询字符的伪码与数据库中字符的伪码的L个元素中只要有一个对应元素相等,则就认为相似,相似度由相等的元素个数决定,即相等的元素越多就说明相似度越高。
在hash函数h的构建过程中,一个hash函数可定义为,为了简化计算,该函数可改写为。该hash函数映射的结果集为,则的结果集为。由于我们期望伪码中每个元素均为一个不超过16位的整数,所以的最大值的取值必须满足该条件。在高维空间中,规则多面体有3种,即Simplex,Orthoplex和Hypercube。对于Simplex而言,应满足;对于Orthoplex而言,应满足;对于Hypercube而言,应满足。由于,所以的取值情况如下:
Hypercube:,显然该值过大,远远超出了16位整数的范围。由于Hpercube难以应用,所以只考虑Simplex和Orthoplex这两种情况。对于参数L而言,如果太小,会造成召回率降低;如果太大又会降低检索速度,并会引入一定的噪声。所以L的值应该比较适中,这里我们设定为20,以“自动化”文本作为查询关键词,查询结果如图5所示。本实施方式的检索时间是随着文档文字数量的增多而呈线性增长,而传统的基于欧氏距离匹配的方法的时间是非线性增长的。所以当文字数量较多时,本方法的检索速度要远远高于基于欧氏距离的方法,且精度不会有很明显的损失。本方法的检索速度主要取决于参数L,即L越小,速度越快,当L=1时,其速度与纯文本精确匹配的速度相同。本实施方式中L=20可以在保证有较高的检索精度与召回率的前提下,***有非常出色的速度性能,在不考虑并行计算的情况下,其平均检索速度可达到纯文本精确匹配速度的0.1倍。
Claims (3)
1.一种基于内容的图像格式中文文档检索方法,其特征在于所述检索方法包括以下步骤:
步骤一:获取待检索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,进而获取每个图像格式中文文档中的单个字符图像yj;
步骤二:根据所获取的单个字符图像yj,提取该字符图像的字符图像特征矢量;
步骤三:基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像yj的字符图像特征矢量相应变换为伪码并根据所述伪码C(yj)建立字符标引数据库,所述伪码C(yj)由L个16位整数串接而成,其中, t=1,2,...,L,j=1,2,...,N,的值由hash函数h和参数k决定;
步骤四:在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤六;
步骤五:设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式转换为图像格式;
步骤六:对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有字符图像,即W={x1,x2,...,xn},xi为所述查询关键词W中一个字符图像,i=1,2,...,n,并根据所述字符图像xi提取其字符图像特征矢量;
步骤八:令i=1,j=1;
步骤九:获取字符图像xi的伪码C(xi)与字符标引数据库中字符图像yj的伪码C(yj)之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;
步骤十:判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤十二,否则,执行步骤十一;
步骤十一:判定字符图像xi与字符标引数据库中字符图像yj相似,将所述字符图像yj及步骤九获取的字符相似度S保存;
步骤十二:判断是否存在i=n,如果是,则令i=1,执行步骤十三,否则令i=i+1,执行步骤十四;
步骤十三:将步骤十一所存储的yj-n+1与yj之间的n个字符组成的词作为有效查询结果保存,并将步骤十一所存储的n个字符相似度S相乘作为所述词相似度保存,然后执行步骤十四;
步骤十四:判断是否存在j<N,如果是,则令j=j+1,返回执行步骤九,否则执行步骤十五;
步骤十五:将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出,完成检索;
在步骤三中,构建hash函数h的具体过程为:首先定义m维空间中规则多面体的定点集合V={v1,v2,...,vN},其中,||vi||=1,并定义旋转矩阵A,然后建立hash函数hA(p)=argmaxi(Avigp),p为单位矢量,所述hash函数hA(p)映射的结果集为{1,2,...,N}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102267875A CN101866366B (zh) | 2010-07-15 | 2010-07-15 | 一种基于内容的图像格式中文文档检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102267875A CN101866366B (zh) | 2010-07-15 | 2010-07-15 | 一种基于内容的图像格式中文文档检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101866366A CN101866366A (zh) | 2010-10-20 |
CN101866366B true CN101866366B (zh) | 2012-01-18 |
Family
ID=42958094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102267875A Expired - Fee Related CN101866366B (zh) | 2010-07-15 | 2010-07-15 | 一种基于内容的图像格式中文文档检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101866366B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663011B (zh) * | 2012-03-20 | 2013-11-27 | 浙江大学城市学院 | 一种位置敏感的签名索引方法 |
CN103914463B (zh) * | 2012-12-31 | 2017-09-26 | 北京新媒传信科技有限公司 | 一种图片信息的相似性检索方法和装置 |
CN103336801B (zh) * | 2013-06-20 | 2016-08-10 | 河海大学 | 基于多特征lsh索引组合的遥感图像检索方法 |
EP3061253A1 (en) | 2013-10-25 | 2016-08-31 | Microsoft Technology Licensing, LLC | Hash-based block matching in video and image coding |
EP3061233B1 (en) | 2013-10-25 | 2019-12-11 | Microsoft Technology Licensing, LLC | Representing blocks with hash values in video and image coding and decoding |
US10368092B2 (en) | 2014-03-04 | 2019-07-30 | Microsoft Technology Licensing, Llc | Encoder-side decisions for block flipping and skip mode in intra block copy prediction |
WO2015131325A1 (en) | 2014-03-04 | 2015-09-11 | Microsoft Technology Licensing, Llc | Hash table construction and availability checking for hash-based block matching |
CN105706450B (zh) | 2014-06-23 | 2019-07-16 | 微软技术许可有限责任公司 | 根据基于散列的块匹配的结果的编码器决定 |
KR102358276B1 (ko) | 2014-09-30 | 2022-02-04 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 비디오 코딩을 위한 해시 기반 인코더 결정 |
US10390039B2 (en) | 2016-08-31 | 2019-08-20 | Microsoft Technology Licensing, Llc | Motion estimation for screen remoting scenarios |
US11095877B2 (en) | 2016-11-30 | 2021-08-17 | Microsoft Technology Licensing, Llc | Local hash-based motion estimation for screen remoting scenarios |
CN109814947A (zh) * | 2018-12-29 | 2019-05-28 | 新奥特(北京)视频技术有限公司 | 一种辅助字体库调用的方法和*** |
CN109816047B (zh) * | 2019-02-19 | 2022-05-24 | 北京达佳互联信息技术有限公司 | 提供标签的方法、装置、设备及可读存储介质 |
CN109978078B (zh) * | 2019-04-10 | 2022-03-18 | 厦门元印信息科技有限公司 | 字体版权检测方法、介质、计算机设备及装置 |
US11645328B2 (en) * | 2020-03-17 | 2023-05-09 | Adobe Inc. | 3D-aware image search |
US11202085B1 (en) | 2020-06-12 | 2021-12-14 | Microsoft Technology Licensing, Llc | Low-cost hash table construction and hash-based block matching for variable-size blocks |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3803219B2 (ja) * | 1999-12-14 | 2006-08-02 | 三菱電機株式会社 | 全文検索装置及び全文検索方法 |
CN101226596B (zh) * | 2007-01-15 | 2012-02-01 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
JP2009026293A (ja) * | 2007-06-20 | 2009-02-05 | Ricoh Co Ltd | 文書画像検索装置、方法、およびプログラム |
-
2010
- 2010-07-15 CN CN2010102267875A patent/CN101866366B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101866366A (zh) | 2010-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101866366B (zh) | 一种基于内容的图像格式中文文档检索方法 | |
US11048966B2 (en) | Method and device for comparing similarities of high dimensional features of images | |
CN104035949B (zh) | 一种基于局部敏感哈希改进算法的相似性数据检索方法 | |
US8805116B2 (en) | Methods and apparatus for visual search | |
US8571306B2 (en) | Coding of feature location information | |
JP5095534B2 (ja) | ジャンクションを生成するシステム及び方法 | |
US6621941B1 (en) | System of indexing a two dimensional pattern in a document drawing | |
Jain et al. | Logo retrieval in document images | |
KR20010053788A (ko) | 내용기반 이미지 검색 시스템 및 그 방법 | |
JP5121917B2 (ja) | 画像検索装置、画像検索方法及びプログラム | |
CN106815362B (zh) | 一种基于kpca多表索引图像哈希检索方法 | |
CN107341178B (zh) | 一种基于自适应的二进制量化哈希编码的数据检索方法 | |
US20140201219A1 (en) | Method and Apparatus for Searching an Image, and Computer-Readable Recording Medium for Executing the Method | |
WO2010143573A1 (ja) | 物体認識用画像データベースの作成方法、作成装置および作成処理プログラム | |
JP5094830B2 (ja) | 画像検索装置、画像検索方法及びプログラム | |
CN109272440B (zh) | 一种联合文本和图像内容的缩略图生成方法及*** | |
CN114461839B (zh) | 基于多模态预训练的相似图片检索方法、装置及电子设备 | |
CN103092935A (zh) | 一种基于sift量化的近似拷贝图像检测方法 | |
JP4958228B2 (ja) | 文書および/または画像のデータベースへの登録方法およびその検索方法 | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
CN113688702B (zh) | 基于融合多特征的街景图像处理方法及*** | |
Kise et al. | Simple Representation and Approximate Search of Feature Vectors for Large-Scale Object Recognition. | |
Bailloeul et al. | Automatic image tagging as a random walk with priors on the canonical correlation subspace | |
Kathiriya et al. | Word spotting techniques for Indian scripts: a survey | |
WO2023071577A1 (zh) | 特征提取模型训练方法、图片搜索方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120118 Termination date: 20120715 |