CN1503193A - Ocr装置、文件检索***及文件检索程序 - Google Patents

Ocr装置、文件检索***及文件检索程序 Download PDF

Info

Publication number
CN1503193A
CN1503193A CNA031049559A CN03104955A CN1503193A CN 1503193 A CN1503193 A CN 1503193A CN A031049559 A CNA031049559 A CN A031049559A CN 03104955 A CN03104955 A CN 03104955A CN 1503193 A CN1503193 A CN 1503193A
Authority
CN
China
Prior art keywords
literal
file
ocr
hypothesis
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031049559A
Other languages
English (en)
Other versions
CN100351847C (zh
Inventor
永崎健
丸川胜美
藤原茂之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN1503193A publication Critical patent/CN1503193A/zh
Application granted granted Critical
Publication of CN100351847C publication Critical patent/CN100351847C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种作为对纸文件及文件图像进行文件检索的OCR装置、文件检索***及文件检索手段,该手段是应用文字识别技术,检索含有给定关键词的文件群的方法。本发明的发明目的是通过提供一种***,该***将OCR装置和检索装置分离,采用永久性保持文字行提取、文字切出以及文字识别多重假说的文件(OCR读取假说文件)作为OCR的输出形式,构成以该OCR读取假说文件为基础进行关键词检索的机能,实现必要的文件检索和文件分类。

Description

OCR装置、文件检索***及文件检索程序
发明领域
本发明涉及应用文字识别技术,从纸文件群或文件图像群中检索含有给定检索关键字的文件群,取得必要情报的文件检索与处理方法、装置以及文件检索处理程序。
背景技术
即使是在计算机数字情报技术得以普及的现在,纸文件作为情报传递的媒体仍然应用广泛。但是,要想以某一关键词从大量文件中检索到必要的情报,或者对含有特定关键词群的文件进行检索和自动分类,对于这样的要求,纸文件与数字数据相比其处理明显困难得多。为解决这一问题,人们提出了各种各样的方法以进行纸文件的检索和自动处理。
从纸文件或文件图像中检索必要关键词的手段有两种,即每次检索时以OCR(光学读取装置)对纸文件进行识别、检索的在线处理和先以OCR读取然后永久性保持其读取结果再进行检索的离线处理。例如,邮件区分机等装置可以说是属于在线处理。在这一在线处理过程中,因为指定了想要检索的关键词,根据关键词中包含的文字的特性(全角、半角、汉字、英文数字等等)改变文字切出的参数,或者在文字识别时加以文字种类的限定等,通过这样的处理就能提高检索精度。但是,因为每次检索时都必须进行图像解析和文字识别,因而在检索重复进行的情况下,计算时间方面不具备实用性。本发明提出的是基于离线处理的方法。
对纸文件进行离线关键词检索的最基本的方法,是利用OCR将纸文件转换成文本文件,然后对文本文件进行检索。但是,一般情况下以OCR转换的文本文件中有错误,因而简单的文本检索就会产生无法处理的情况。当然,也可以人工修正OCR转换的文本文件,并针对修正结果进行检索。但是,这种人工介入的修正,在处理速度以及成本方面很难说具有实用性。
作为提高OCR读取精度的手段,对OCR识别结果适用词素解析的方法属于公知技术(例如参照专利文献1)。通过词素解析等的知识处理,确实可以订正误读,但即使这样也不可能做到100%的订正。而且,在通常的词素解析中使用的词典是以新闻等一般性文章为对象,对于特殊业务用途的文件如果要做到高精度的校正,则需要追加定义适合该领域的特殊词典。这样,就会产生可维护性与计算量方面的问题。
另外,为了避免文字误读给检索带来的不良影响,有人提出利用OCR容易误读的相似文字的情报进行单词检索的方法(例如参照专利文献2)。还有人提出在OCR的读取结果中允许有多个文字识别候补,从其中选择文字编码检索出单词的方法(例如参照专利文献3)。使用这些技术确实能避免1文字单位的误读给单词检索带来的不良影响。
但是,在上述方法中,由于分离文字和文字间接触等原因,文字结构的边界不能明确确定,因而无法处理错误的文字结构切出的情况。例如,上述专利方法虽然能够处理OCR把写作“ハル”的文字读成“ヘル”的情况,但无法处理读成“ハノレ”的情况。而且,对于结合了图、表的文件、帐票等规线很多且混合在一起的文件,在文字读取之前文字行的检出和辨认往往很困难。上述方法无法处理这一问题,。
专利文献1:特开平05-108891号公报
专利文献2:特开平10-74250号公报
专利文献3:特开平9-134369号公报
发明内容
本发明的目的是提供一种以文字识别结果为基础,从纸文件群中检索必要关键词的单词检索方法和利用该结果进行文件检索、文件分类等处理的文件检索处理***、装置以及记录检索处理程序的记录媒体。
以现有技术对纸文件群进行的文件检索,是对作为OCR读取结果的文本进行检索,但难以处理文字破碎和飞白等导致的文字识别错误、文字结构边界模糊而导致的文字切出错误以及文本-插图-规线混杂而导致的OCR文字行提取错误。本发明的第一个目的是提出一种避免OCR读取引起的文字识别、文字切出、文字行提取错误给单词检索带来的不良影响的方法。
另外,在使用关键词群进行的文件检索、文件分类处理中,一般使用特定关键词与其结合规则(AND与OR)进行处理。例如检索“OCR”和“检索”这两个词共同(AND)出现的文件。在现有的对文本文件的检索中,关键词的有无以1和0两个值确定,因而结合规则的适用可以简单处理。而本发明因与文字识别相关,关键词的有无以取0和1之间连续值的尤度来表示。因此,如果对尤度低的关键词一律适用结合规则进行文件检索,则无法实现足够的命中率,或者如果一律忽视尤度低的关键词进行文件检索,则无法检索出必要的文件。本发明的第二个目的是提出一种利用文字识别尤度,导出单词检索的尤度和结合规则的尤度,通过自动学习来控制文件检索精度的方法。
解决技术问题的技术方案
为实现上述第一个目的,本发明提供了一种***,该***将OCR和检索装置分离,采用永久性保持文字行提取、文字切出以及文字识别多重假说的文件(OCR读取假说文件)作为OCR的输出形式,构成以该OCR读取假说文件为基础进行关键词检索的装置,从而进行必要的文件检索和文件分类。
为实现上述第二个目的,本发明提供了这样一种机构,即在OCR读取假说文件中包含文字识别的类似度、文字结构的位置情报等信息,将被检索关键词的尤度和关键词按规则结合时的尤度作为计算情报加以利用,并依据这些尤度决定接受还是放弃文件检索结果。
附图说明
图1是使用OCR读取假说文件的检索与现有技术的比较概念图。
图2是至输出OCR读取假说文件的流程图。
图3是使用OCR读取假说文件进行检索处理的流程图。
图4是被检索单词路径的检定流程图。
图5是从候补文字网络进行单词提取处理的概念图。
图6是候补文字网络的示意图。
图7是文件检索***的一个屏幕画面构成例。
图8是表示OCR读取假说文件效果的图之一。
图9是表示OCR读取假说文件效果的示意图之二。
图10是文件检索***的一个构成例。
图11是文件检索***中学习流程的概念图。
图12是OCR读取假说文件的数据构成图之一。
图13是OCR读取假说文件的数据构成图之二。
图14是以OCR读取假说文件表示的文字列结构的概念图之一。
图15是以OCR读取假说文件表示的文字列结构的概念图之二。
图16是以OCR读取假说文件表示的文字列结构的概念图之三。
符号说明
101-输入到现有文件检索***的纸文件
102-现有文件检索***中的OCR部分
103-现有文件检索***的OCR输出形式
104-现有文件检索***的单词检索部分
105-现有文件检索***的文件检索部分
106-现有文件检索***的文件检索结果
107-输入到本发明文件检索***的纸文件
108-本发明文件检索***的OCR部分
109-本发明文件检索***的OCR输出形式
110-本发明文件检索***的单词检索部分
111-本发明文件检索***的文件检索部分
112-本发明文件检索***的文件检索结果
113-单词检索中使用的单词数据库部分
114-文件检索中使用的文件检索规则数据库部分
201-OCR装置中的图像输入部分
202-OCR装置中的文件构造解析部分
203-OCR装置中的文字行提取部分
204-OCR装置中的文字结构生成部分
205-OCR装置中的文字识别部分
206-OCR装置中的OCR读取假说文件输出部分
207-OCR装置中输入文件图像时的流向
301-文件检索装置中的OCR读取假说文件输入部分
302-文件检索装置中的单词检索部分
303-文件检索装置中的检索单词检定部分
304-文件检索装置中的检索规则适用部分
305-文件检索装置中的检索文件检定部分
401-文件检索装置中的路径识别尤度计算部分
402-文件检索装置中的文字配置尤度计算部分
403-文件检索装置中的路径配置尤度计算部分
601-候补文字网络中的文字结构
602-候补文字网络中的结构边界
603-候补文字网络中的文字识别结果
604-候补文字网络中的文字识别类似度
605-来自候补文字网络的被检索单词
701-文件检索***屏幕画面的关键词输入栏
702-文件检索***屏幕画面的检索规则指定栏
703-文件检索***屏幕画面的检索文件表示栏
704-文件检索***屏幕画面的检索文件详细情报表示栏
705-文件检索***屏幕画面的检索图像表示栏
706-文件检索***屏幕画面的单词检索结果
1001-OCR装置部分的图像输入装置
1002-OCR装置部分的操作终端装置
1003-OCR装置部分的显示终端装置
1004-OCR装置部分的外部记忆装置
1005-OCR装置部分的存储器
1006-OCR装置部分的CPU
1007-OCR装置部分的通信装置
1008-OCR装置部分的通信总线
1009-网络部分
1010-检索装置部分的操作终端装置
1011-检索装置部分的显示终端装置
1012-检索装置部分的外部记忆装置
1013-检索装置部分的存储器
1014-检索装置部分的CPU
1015-检索装置部分的通信装置
1016-检索装置部分的通信总线
1101-输入文件检索***的纸文件
1102-在文件检索***中形成的OCR读取假说文件
1103-文件检索***的单词检索部分
1104-在文件检索***中得到的单词检索结果
1105-文件检索***的文件检索规则适用部分
1106-在文件检索***中得到的检索文件与非检索文件
1107-检索文件的利用
1108-指定检索文件良否的教师指令
1109-文件检索***的学习部分
1110-文件检索***的检索对象单词
1111-文件检索***的检索对象单词参数
1112-文件检索***的文件检索规则
1113-文件检索***的文件检索规则参数
具体实施方式
以图1为例简要说明现有技术与本发明方法的区别。图1以流程图表示现有单词检索方法和文件检索方法与本发明方法的区别。
首先,在现有技术的流程中,有101所示的纸文件群,把这些纸文件装入102所示的OCR并进行读取。读取结果以103所示文本文件的形式输出。其后输入到104所示的装置中进行单词检索。该流程从单词数据库DB(113)对照作为检索对象的单词。但是,如本来写作“血液化学検查”的词,OCR的读取结果却是“皿液ィヒ学検查”,在这种情况下,难以基于文本文件对“血液化学検查”这样的单词进行检索,检索一般会失败。因此,即使在105所示装置中对被检索单词适用文件检索规则(114)进行处理,因为应适用该规则的单词并不存在,从而导致失败。这样最终无法实现文件的检索和命中。为此,在本发明的处理流程中,首先有107所示的纸文件群,将这些文件装入108所示的OCR进行读取。读取结果以109所示的OCR读取假说文件的形式输出。其次,将读取假说文件输入110所示装置进行单词检索。应检索单词在113所示的单词数据库中定义。在OCR读取假说文件中,因为保持了各种各样的文字行提取候补、文字切出候补、文字识别候补,因而除了“皿液ィヒ学検查”这样的结果以外,还能保持正确的识别结果“血”、“化”,这样单词检索就能容易实现。然后,在111所示装置中,根据记载被检出单词与单词之间关系的文件检索规则,进行文件的检索和命中。文件检索规则记载在114所示的规则数据库中。作为文件检索规则的例子,如同“‘OCR’与‘检索’这两个词同时存在的文件”,考虑的是将多个单词以“OR”、“AND”相连的结构。通过使用OCR读取假说文件,提高了单词检索的精度,且作为读取结果可适用文件检索规则,从而如112所示实现了文件检索和命中。
OCR读取假说文件具有同相应的纸文件或文件图像一一对应的文件ID编码,并能够永久保存在磁记忆装置中。在需要进行文件检索时,使用OCR读取假说文件的检索***从预先存储的OCR读取假说文件中检索必要的关键词、结合对照文件检索规则、记忆符合条件的文件ID编码。检索结果能够与对应文件ID编码的纸文件或文件图像一起表示出来。这样,即使OCR装置与检索装置相分离,也能构成将文件图像和读取数据统一进行处理的文件处理***。
下面说明图2。在本发明实施例的帐票识别装置中,首先,OCR装置为纸文件照相并将其转换成电子图像数据(201)。该处理在原始文件为电子图像数据的情况下可以省略。其次,以电子图像数据为基础,进行规线提取、框架构造解析、读取对象框架的位置推定等的文件构造解析(202)。此时的识别处理可应用公知技术(特开平09-319824、特开2000-251012等)。然后接收文件解析结果,提取作为读取对象的文字行候补(203)。接着从文字行图像中切出文字结构候补(204),并进一步识别各文字的结构候补(205)。从对象文件中提取多个这样的文字行候补、文字结构候补、文字识别候补,构成多重假说。最后,将文字行候补、文字切出结构候补及其识别结果输出到文件(206)。这一输出文件就称为OCR读取假说文件。有关OCR读取假说文件将在后面详述。上述从201到206的处理,表示的是使用光学读取装置等专用装置将纸文件转换成OCR读取假说文件的过程。如果给出的是电子图像数据,则以图像读入(207)来代替201的处理,将其转换成OCR读取假说文件。在这种情况下,一旦有转换程序以及发动转换程序的通用运算装置,就可进行处理。
上述各情报被存储在图10所示OCR装置中的下列位置。从纸文件转换来的图像数据或作为处理对象已经准备好的图像数据,被存储在外部记忆装置1004或存储器1005中。OCR程序存储在外部记忆装置1004或存储器1005中,由中央运算装置1006进行处理。图像数据解析结果得到的框架情报、行情报、候补结构网络、候补文字网络主要在存储器1005上展开。该处理输出的OCR读取假说文件通过外部记忆装置1004或存储器1005或通信装置1007存储到外部装置中。
下面说明图3。图3表示的是使用OCR读取假说文件的文件检索引擎的处理流程。首先,读入对应作为检索对象的纸文件群(或者文件图像群)的OCR读取假说文件群,并针对各自的OCR读取假说作成候补文字网络(301)。其次,输入候补文字网络和作为检索对象的单词群进行单词检索(302)。因为在OCR读取假说文件中含有各种各样的文字行候补、文字切出候补和文字识别候补,因此有必要进行判断检索出的单词是否正确进行处理。最后,利用检索结果和文字识别的尤度、次序及文字结构的排列等情报来计算被检索单词的尤度,决定接受还是放弃单词检索结果(303)。这些有关文字识别的尤度、次序以及文字结构的排列等情报包含在OCR读取假说文件中。有关OCR读取假说文件将在后面详述(结合图12~图16)。然后针对含有被检索单词群的文件适用文件检索规则进行文件检索(304)。最后,针对检索出的文件,考虑被适用规则的检出单词的尤度和适用规则的重要性,决定接受还是放弃文件的检索结果(305)。
下面说明图4。图4是对上述处理303的详细描述。在该处理中,针对被检索单词,利用文字识别的尤度、文字结构的配置情报、单词的对应文件图像的配置情报等,计算检出单词的尤度。在检出单词的尤度计算中,首先考虑文字列路径(被检索单词以文字编码列和文字结构列组的形式表示。这被称作路径。详见图5的说明)上文字结构的识别尤度,计算单词的识别尤度(401)。其次计算有关文字结构配置的补偿(402)。例如有这样的方法:相对路径整体高度的文字高度比、相对路径整体中心线的文字中心线的偏离、平均的文字幅度、相邻文字结构的间隔等,在多大程度上偏离统计平均值,将这一程度作为补偿。然后进一步计算考虑检出单词整***置的补偿(403)。例如使用在文件图像的规定区域内是否有检出单词的情报等。但是,在OCR读取假说文件保持的情报中有若干个阶段的层次(后述),对应这些层次可以省略402及403的处理。有关OCR读取假说文件将在后面详述。
下面说明图5及图6。图5将单词检索的过程以概念图的形式表现出来。图6表示的是候补文字网络的概念图和详细数据。对照图5说明单词检索的流程。将被认为是文字结构的部分从读取对象文字行(a)分别切出,形成候补文字结构,对各候补文字结构进行文字识别得到候补文字网络(b)。候补文字网络至少具有文字结构、文字识别结果得到的有次序的识别编码群和候补文字网络中文字结构间连接关系的情报。OCR读取假说文件含有这些情报的一部分。其形式为二进制形式或使用XML等表示法的文本形式。本发明方法使用了OCR读取假说文件,因而候补文字网络以从文件读取的情报为基础形成。然后利用文字列表示法知识(c),从候补文字网络中计算文字列路径(d)。在图5所示例中,表示的是以记号OR(|)排列单词的文字列表示知识,其意义为指定记号|之间的单词群作为检索对象。作为文字列表示,除该表示法以外还有使用尝试法、上下文无关文法等的方法(特开2001-014311等的记载)。文字候补网络详见图6。文字候补网络表现为以文字结构候补为弧线(601)、以文字结构边界为节点(602)的有向图。在各文字结构中,含有表示左右(纵向书写时为上下)节点(结构边界)的边界ID号、文字识别候补(603)以及识别类似度(604)的情报。单词检索处理是输入文字候补网络和文字列表示知识、找到候补文字网络中含有的单词及其结构列的处理。例如,文字列表示知识中的单词“血液化学检查”,在图6的候补文字网络中,能够通过追踪如605中以黑色圆圈表示的文字编码和文字结构来找到。有关追踪文字编码和文字结构的算法可利用公知技术(特愿平10-28077、特愿平11-18753等)。单词检索的结果确定了文字列路径。所谓文字列路径,是指文字编码列(即文字列)和对应各文字编码的文字结构构成的情报。
上述各种情报存储在图10所示检索装置的下列位置:OCR读取假说文件存储在外部记忆装置1012或存储器1013中。单词检索程序存储在外部记忆装置1012或存储器1013中,并由中央运算装置1014进行处理。由OCR读取假说文件形成的候补文字网络在存储器1013上展开。对此进行单词检索,并且检索结果的情报通过外部记忆装置1012或存储器1013或通信装置1015存储在外部装置中。
下面说明图7。图7表示的是使用本发明方法的文件检索***的一个屏幕画面构成例。这里以处方(レセプト)文件的检索***为例。首先,在输入栏701中指定想要检索的关键词,并在输入栏702中指定以什幺样的规则处理关键字。本图中选择的是意味着找出指定的全部关键词中任意一个的OR规则。输入上述第2个项目,对存储OCR读取假说文件的数据库进行处方(レセプト)文件检索。在表示栏703中,表示的是从检索结果得到的处方(レセプト)(文件)名。表示栏704表示的是检索出的文件中与现在表示的文件相关的数据。在表示栏705中,检索结果以视觉可见的形式表示出来。OCR读取假说文件具有能够与原始纸文件或文件图像一一对应的文件ID编码,因而可以同时表示文件图像与检索结果。此外,被检索单词如706所示以下划线表示其位置所在。在表示文件检索结果时,因为使用了OCR读取假说文件可计算的检出单词尤度和检索文件尤度,可以实现优先标记。
下面说明图8。图8表示的是在使用OCR读取假说文件的检索***中,文字切出和文字识别的多重假说产生的效果。图(a)是作为读取对象的文件(其中的部分图像),以粗框框出的部分相当于一个行假说。图(b)表示在没有特别知识的情况下用通常的OCR来读该部分,本来写作“ルリツド錠”的单词被读成“ノレリソド症”。这是因为“ル”由两个文字结构合成而被分开来读,“ツ”因为飞白使首位识别结果为误读,同样,“錠”的一部分因为破碎使首位识别结果为误读。针对这一问题,在OCR读取假说文件中,如图(c)所示保持了候补文字网络。即,其中既存在将“ル”读成“ノレ”的假说,也存在读成“ル”的假说,对于“ツ”、“錠”等虽然首位文字识别结果误读为“ソ”、“症”,但在下位的识别候补中也含有正确的识别结果“ツ”、“錠”。针对OCR的文本读取结果进行单词检索的情况下,必须从“ノレリソド症”检索“ルリツド錠”这样的单词,但两个文字列的距离以编辑距离进行测试时,1个文字的位置***2个文字就没法读,因而作为单词不能说是类似。另一方面,在使用OCR读取假说文件的检索中,没有文字***和没法读的情况,因而单词检索能够容易实现。结果如图(d)所示检索到正确的单词。
下面说明图9。图9表示的是在使用OCR读取假说文件的检索***中文字行多重假说产生的效果。图(a)是作为读取对象的文件(其中的部分图像)。图(b)是根据单一假说从其中提取文字行时的结果。在该图中,图(a)的中间3行被合在一起作为一行提取出来。这是将文字行投影在横方向上进行切分时,因为各行夹在印刷行之间,并且存在手写行和图章行,投影时切分分界线不明显,因而将其合在一起判断为一行。对此,由于除了单一假说还允许多个行假说,因而将图(b)中粗的文字行进行更细切分形成的文字行也作为假说加入,构成如图(c)所示的文字行假说群。针对这多个行假说展开OCR读取假说文件,对其进行单词检索,结果如图(d)所示检索出正确的单词。在OCR读取假说文件中,不仅存储了文字切出、文字识别情报,还存储有文字行假说情报。有关OCR读取假说文件中包含的情报将在后面详述(图12~图16)。
下面说明图10。图10是根据本发明方法将OCR装置与检索装置分离构成文件检索***的一个构成例。图10的上半部分是OCR装置的一个构成例,图10的下半部分是检索装置的一个构成例。
首先,在上半部分的OCR装置中,由图像输入装置(1001)将文件转换成电子数据,然后将其存储在外部记忆装置(1004)和存储器(1005)中,由中央运算装置(1006)进行读取。文件形式的定义等存储在外部记忆装置(1004)中,在进行文件构造解析时参照存储在这里的定义。这些处理可通过操作终端装置(1002)由人工进行操作,处理结果等通过显示终端装置(1003)进行显示,在外部记忆装置中存储,或者通过通信装置(1007)将数据送往外部装置。OCR读取结果既可以象现有装置那样以文本文件的形式输出,也可以OCR读取假说文件的形式输出。OCR读取假说文件存储在外部记忆装置中,或通过通信装置送往外部装置。此时,OCR读取假说文件被标注上对应OCR所读取文件(或图像)的文件ID编码。利用文件的ID编码,就能实现纸文件或文件图像与OCR读取假说文件的对应。由于实现了与OCR读取假说文件的对应,对于想把检索后的单词在原始文件图像上表示的人来说,能够提供令人愉快的GUI功能,实现选择含有目的单词的文件图像等文件检索功能。例如图7表示的是单词检索中的GUI的一个构成例,文件图像(705)和被检索单词(706)在此同时表示出来。这一表示功能的实现,利用的是OCR读取假说文件中被检索单词的位置情报和对应OCR读取假说文件
ID的图像文件。
图10下半部分的检索装置,利用从OCR功能装置输出的OCR读取假说文件进行检索,具有对于已经形成OCR读取假说文件的文件,能够重复检索任意次(只要假说文件还存在)的功能。该检索装置通过通信装置(1015)及外部记忆装置(1012)读取OCR读取假说文件,并将其写入存储器(1013)中,由中央运算装置(1014)进行检索处理。要检索的单词和文件检索规则可以存储在外部记忆装置中,或者从操作终端装置(1010)输入。单词的检索结果通过显示终端装置(1011)显示,并可通过通信装置将数据送往外部仪器,或者将检索结果存储在外部记忆装置中。这些装置通过内部总线(1008、1009、1016)连接。
下面说明图11。图11是使文件检索***适用于实际业务的自动学习机构示意图。首先,向文件检索***中输入大量的纸文件或文件图像群(1101),形成对应各文件的OCR读取假说文件(1102)。然后利用OCR读取假说文件进行单词检索(1103)。此时,作为检索对象的单词存储在数据库(1110)中,各单词都附有表示该单词重要度和检索时尤度阈值的可能的学习参数(1111)。然后对被检索单词(1104)适用文件检索规则(1105)。此时,文件检索规则存储在数据库(1112)中,各规则都附有表示该规则重要度和适用时尤度阈值的学习参数(1113)。然后根据来自对象文件群的检索尤度等来决定接受还是放弃检索,确定检索文件群(或者作为其补集的、不符合检索条件的文件群,即非检索文件群),并将其结果通过显示器等显示装置显示给用户(1106)。用户以显示结果作为判断依据,直接利用检索结果中必要的文件(1107),并就检索结果中的垃圾(没有意义的检索结果)和没有进入检索结果的文件,向***中加入反馈(1108)。学习机构(1109)针对文件的检索结果,对被判断为检索垃圾的,调整其参数(1111、1113)以降低其检索尤度,对未进入检索候补的文件调整其参数以提高其检索尤度。
对于学习再稍加详述。本发明方法能够针对检出单词,根据识别尤度、文字配置的尤度等计算检出单词的尤度。通过利用检出单词的尤度,检索规则的尤度(适合度)也能计算出来。例如,可根据作为检索对象的单词和if-then规则确定文件检索规则。此时,if-then规则的真假值可利用检出单词的尤度以模糊逻辑值表示。一般情况下if-then规则可分解为下面的逻辑运算:
逻辑积A∩B、逻辑和A∪B、否定~A
将检出单词分别应用于A和B,把单词的识别尤度作为模糊逻辑值,对应上述各要素的模糊运算符可置换为:
尤度(A∩B)=MIN(尤度(A)、尤度(B))
尤度(A∪B)=MAX(尤度(A)、尤度(B))
尤度(~A)=1-尤度(A)
这里所谓的尤度(X)是指计算相对单词X或逻辑式X的尤度的函数。根据该函数,也能反映相对文件检索规则的文字识别尤度,例如对于重要的规则,即使特定单词的识别尤度多少有点低,赋予其重要性并适用规则进行文件检索,则可实现对文件检索的加权。另外,因为单词检索的丢失(作为精度低的单词被放弃的情况)或者规则适合的丢失(作为精度低的规则被放弃),本来应该检出的情报却不能提取出来的情况下,通过调整单词检索时的阈值以及规则适合时的尤度参数,同时微调参数以提高尤度(检出尤度、规则适合尤度),这样可以向着更为实用的检索***学习。
一般情况下,在文件检索中,测试检索性能时使用再现率和适合率两个标准。所谓再现率,是测试本来想要检索的文件通过有关检索引擎检索出的比例为多少的标准。所谓适合率,是测试在通过有关检索引擎检出的文件中,本来想要检索的文件占多少比例的标准。在上述学习过程中,通过利用用户反馈达到提高再现率和适合率的目的。为提高适合率,利用用户反馈的情报:“用户选择了什幺样的文件”,针对用户选择的文件群调整参数以提高检出尤度。为了提高再现率,从图11的1106列出的非检索文件群中,通过随机取样找出漏检的文件群,对此调整参数以提高检出尤度。
具体的学习算法有最急速下降法。将检索单词列表为{W1,W2,,Wn},将这些单词检索时的尤度阈值定为{T1,T2,,Tn}。即,假定单词及其检索尤度阈值对{(W1,T1),,(Wn,Tn)}是检索***的输入。使用OCR读取假说文件进行单词检索的结果,某单词Wk以识别尤度Lk检出(当然,在该尤度的计算中,不仅仅简单考虑文字识别的尤度,也应考虑文字结构的配置情报等)。这样,单词的尤度可以表示为尤度阈值Tk和识别尤度Lk的函数。将其作为单词的检出尤度Fk=F(Tk,Lk)。例如,作为单词的检出尤度,可以考虑识别尤度Lk低于阈值尤度Tk的情况为0,而高于Tk的情况为1这样的离散函数,还可以考虑相对识别尤度和阈值尤度的差分Lk-Tk的S型函数或与其类似的连续函数。
如上所述,对于规则也能够以原始逻辑运算符的尤度函数定义为基础计算逻辑式的尤度。即,因为含有单词Wk的某规则的尤度可作为单词Wk的尤度的函数,因而可将其表示为R(Fk)。而且,如果把它看作参数Tk的函数,则Fk是参数Tk的函数,可表示为R(Fk)=R(Tk)。
学习过程配备有教师,由教师指示应当强化什幺样的规则适用、忽略什幺样的规则适用。例如,如果有应当强化的规则,则应调整有关单词Wk的参数,以提高该规则的尤度R=R(Fk)。例如,如果将上述尤度阈值Tk作为想要学习的参数,向原始参数Tk加入作为参数Tk的函数得到的规则尤度R(Tk)的、与关于参数Tk的偏导数δR/δTk成比例的扰动,则可以提高规则尤度R(Tk)的值。
当然,这是规则尤度R相对参数Tk平滑的情况下可以使用的学习方法。除了此处所述的最急速下降法,还有GA(遗传算法)、SA(退火法)、单形法等也能使用离散函数的参数学习法。这些学习方法是基于这样的原理,调整有关判断算法的参数群,以使表示对象数据判断良否的某种评价标准对于对象数据群整体最优化。本发明所述的依据检出单词的尤度计算规则尤度的构架,能够将上述评价标准的定义以使用规则尤度的明示函数形式表示出来,而且能通过参数调节检出单词的精度等,从而实现了与连续还是离散无关的学习。
下面详述OCR读取假说文件的构成。OCR读取假说文件至少包含与原始纸文件或文件图像一一对应的文件ID编码和多行假说情报及各文字行候补中的多文字切出假说及文字识别假说。下面就行假说情报、文字切出假说和文字识别假说进行描述。
首先描述保持文字行多重假说所必要的情报。文字行多重假说是由多个如图12所示单一文字行的假说情报集合构成。构成文字行假说的情报可分为几个层次考虑。在该图中分为3个阶段。层次1是保持多重行假说所必要的最低限度的情报。它由表示文字行的行ID、有关文字行中包含的文字切出和文字假说以及有关文字行的坐标情报构成。行ID也可用表示行假说结束的分割记号来代替。利用行ID识别文字行单位中情报的结束、根据文字切出和文字识别假说从该文字行检出单词,并利用行坐标情报防止过剩检索的问题(同一检索关键字以多个行假说检出的问题)。层次2是在跨文字行进行单词检索时必要的情报,是表示文字行间连接结构的情报。象处方(レセプト)或帐票文件那样,文章以分条叙述的形式以一行为单位时,这是不必要的情报,但对于象学术文件或一般文件那样比较长的句子
的文件进行检索时是必要的。层次3虽然在保持多重行假说方面不是实质性的情报,但在想以图像情报为基础再次进行文字切出和文字识别时有用。
下面描述为保持各文字行假说中文字切出及文字识别的多重假说所必要的情报。各行中的文字切出及文字识别的多重假说,由多个如图13所示的单一文字结构假说情报集合构成。构成文字切出假说的情报也可以分为同上所述的几个层次考虑。在该图中分为3个阶段。层次1是保持多重切出假说及多重识别假说所必要的最低限度的情报。即,文字切出及文字识别的多重假说以表示文字结构间连接关系的边界ID号cn、nn表示,且文字识别的多重假说由多个识别编码dt构成。文字结构间的连接关系可以如图6所示以网络形式获得。文字结构的切断位置以网络上的节点(图6中的白点)表示,上述边界ID号cn、nn是加在节点上的唯一编号。层次2是针对单词的检索结果计算尤度时可使用的情报。例如,根据文字结构的配置和文字识别的类似度dk,向单词尤度中加入补偿的情况下,该情报是必要的。层次3是在检索后的处理中,需要更详细的文字结构解析时必要的情报。
在OCR读取假说文件中包含上述情报。OCR装置将上述情报对应必要的层次输出到OCR读取假说文件,检索装置从OCR读取假说文件中复原候补文字网络,然后进行单词检索。输出到OCR读取假说文件的情报的层次被分成若干阶段,因而可以对应***调整文件的容量和单词检索的精度。OCR读取假说文件的形式可以是二进制文件或文本文件中的任何一个。在此就使用XML表示法以文本形式记载OCR读取假说文件时的一个实施例进行描述。
在对OCR读取假说文件的XML表示法例进行描述之前,首先描述一下JEITA提倡的相对文字识别多重假说的XML标准。该标准提出一种使用多重文字编码用标记<mc>和标记内在属性v的XML构造。标记mc表示多个文字识别编码,标记内在属性v表示识别类似度。标记内在属性v可以省略。XML表示例描述如下(图14表示文字结构例):
例1)
有内容为“文字”的文字行,各文字结构识别如下:
对于“文”,识别结果为“文交大”,类似度为0.80、0.71、0.60
对于“学”,识别结果为“字宇学”,类似度为0.89、0.00、0.00。
表示例1:
  文<mc>交大</mc>字<mc>宇学</mc>
表示例2:
  文<mc v=″0.80 0.71 0.60″>交大</mc>
  字<mc v=″0.89 0.00 0.00″>宇学</mc>
本发明描述了沿用上述标准的框架的OCR读取假说文件的表示例。首先,向文字切出的多重假说追加标记内在属性cn、nn,以表示出文字间的连接关系。此处的cn、nn表示的是如图13所示文字特征边界的边界ID号。XML表示例如下所示(图15表示的是文字结构例)
例2)
有内容为“文字”的文字行,各文字结构如下进行识别:
对于“文”,识别结果为“文交大”,类似度为0.80、0.71、0.60
对于“字”,识别结果为“字宇学”,类似度为0.89、0.00、0.00
有跨“文字”两个字的结构,识别结果为“対効”,类似度为0.60、0.57
表示例1:
  文<mc cn=1 nn=2>交大</mc>
  字<mc cn=2 nn=3>宇学</mc>
  対<mc cn=1 nn=3>効</mc>
表示例2:
  文<mc cn=1 nn=2v=″0.80 0.71 0.60″>交大</mc>
  字<mc cn=2 nn=3v=″0.89 0.00 0.00″>宇学</mc>
  対<mc cn=1 nn=3v=″0.60 0.57″>効</mc>
然后向文字行切出的多重假说中追加行情报标记<ml>,以表示文字行假说。作为标记间的层次关系,mc标记包含在ml标记内。即规定在<ml>标记和</ml>标记之间,可放入多个以<mc>标记和</mc>标记的汇总。XML表示例表示如下(图16表示文字结构例)。
例3)
以行切出假说1将“文字”作为行提取,包含如下的文字结构:
对于“文”,识别结果为“文交大”,类似度为0.80、0.71、0.60
对于“字”,识别结果为“字宇学”,类似度为0.89、0.00、0.00
有跨“文字”两个字的结构,识别结果为“対効”,类似度为0.60、0.57
而且,以行切出假说2将“多重”作为行提取,包含如下的文字结构:
对于“多”,文字编码为“多名”,类似度为0.80、0.71
对于“重”,文字编码为“重乗”,类似度为0.89、0.70
表示例1:
<ml>文<mc cn=1 nn=2>交大</mc>
    字<mc cn=2 nn=3>宇学</mc>
    対<mc cn=1 nn=3>効</mc></ml>
<ml>多<mc cn=1 nn=2>多名</mc>
    重<mc cn=2 nn=3>重乗</mc></ml>
正如图12所述,可将构成文字行假说的情报分成几个层次来考虑。特别是作为保持多重行假说所必要的最低限度的情报,应考虑表示文字行的行ID、有关文字行中包含的文字切出和文字识别假说以及有关文字行的坐标情报。行ID也可以用表示行假说结束的分割记号来代替。在上述表示法例1中,<ml>标记相当于该分割记号,<ml>标记与</ml>标记之间的部分表示文字切出及文字识别假说。然后,对上述表示例进行扩充以表示行的矩形坐标。行坐标情报是防止过剩检索问题(同一检索关键字以多个行假说检出的问题)的有效情报。为了表示行的矩形坐标,使用标记内在属性l、r、t、b。lrtb分别是包含各行的外接矩形的左端X坐标、右端X坐标、上Y坐标、下Y坐标。坐标的表示方法也可有其他考虑。另外还有以行中心坐标及大小表示的方法、使用行矩形四角的点坐标的方法等等。以下表示的是使用外接矩形坐标时的XML表示例(图16表示文字结构例)
例4)
表示例1:
<ml l=1000 r=1200 t=800 b=850>
     文<mc cn=1 nn=2>交大</mc>
     字<mc cn=2 nn=3>宇学</mc>
     対<mc cn=1 nn=3>効</mc>
</ml>
<ml1=1000 r=1200 t=850 b=900>
    多<mc cn=1 nn=2>多名</mc>
    重<mc cn=2 nn=3>重乗</mc>
</ml>
同样,可针对上述表示例进行扩充以表示行间的连接方式。这种情况下使用的是标记内在属性lc、ln,并规定文字结构和行之间的连接方式。XML表示例如下所示(图16表示文字结构例):
例5)
表示例1:
<ml lc=1 ln=2>
    文<mc cn=1 nn=2>交大</mc>
    字<mc cn=2 nn=3>宇学</mc>
    対<mc cn=1 nn=3>効</mc></ml>
<ml lc=2 ln=3>
    多<mc cn=1 nn=2>多名</mc>
    重<mc cn=2 nn=3>重乗</mc></ml>
以现有技术对纸文件群进行的文件检索,是对作为OCR读取结果的文本进行检索,但难以处理文字破碎和飞白等导致的OCR文字识别错误、文字结构边界模糊而导致的文字切出错误和文本-插图-规线混杂而导致的OCR文字行提取错误。本发明利用保持文字识别、文字切出、文字行提取方法的OCR读取假说文件进行单词检索及文件检索,从而能够避免上述问题。
另外,对于现有技术难以调整的文件检索性能和单词检索性能的折衷关系(如果仅使用文字识别信赖度高的关键词进行文件检索,则无法检索到必要的文件,若同时使用信赖度低的关键词进行文件检索,则在文件检索中产生多余的检索结果),本发明通过使用OCR读取假说文件中包含的文字识别次序、类似度、结构配置尤度等情报,能够依据对应各单词检索结果的尤度和单词检索尤度来计算文件检索尤度,利用针对检索结果良否的用户反馈来提高文件检索结果的精度,进行自动参数学习,从而可以自动构建适合用户检索意图的文件检索***。

Claims (10)

1.由接收记载有文字的图像输入的图像输入装置、中央运算装置和外部记忆装置构成的一种OCR装置,其特征在于,其中所述中央运算装置从输入图像中提取文字行候补和文字切出候补,并对文字切出候补进行文字识别,将文字识别的结果、文字行候补以及文字切出候补组合成读取假说文件,并记忆在所述的外部记忆装置中。
2.如权利要求1所述的OCR装置,其特征在于,所述中央运算装置还提取文字切出候补之间的关系以及文字识别结果的类似度,并将提取出的文字切出候补之间的关系以及文字识别结果的类似度进一步结合到读取假说文件,并记忆在记忆装置中。
3.如权利要求1或2中任一项所述的OCR装置,其特征在于,所述中央运算装置还提取文字切出候补的上下左右坐标值中至少任意一个,并将提取的文字切出候补的坐标值进一步结合组结合到读取假说文件,并记忆在上述的记忆装置中。
4.如权利要求1、2或3中任一项所述的OCR装置,其特征在于,所述中央运算装置还提取文字行候补外接矩形的上下左右顶点坐标值中至少任意一个,并将提取的顶点坐标值进一步结合到读取假说文件中,并记忆在上述的记忆装置中。
5.由包括操作终端装置、外部记忆装置、中央运算装置、显示终端装置、通信装置的检索装置和包括通信装置并与所述检索装置连接的如权利要求1至4中任一项所述的OCR装置构成的一种文件检索***,其特征在于,其中所述OCR装置的中央运算装置通过OCR装置的通信装置发送读取假说文件,所述检索装置的中央运算装置通过检索装置的通信装置接收OCR装置发送的读取假说文件,利用接收到的读取假说文件中的情报,从图像记载的文字中检索与输入到操作终端装置的检索关键字一致的文字列,并将检索结果输出到外部记忆装置或显示终端装置。
6.如权利要求5所述的文件检索***,其特征在于,所述检索装置的中央运算装置还设定检索关键字的权值,并根据该权值改变输入的检索关键字的检索精度。
7.如权利要求6所述的文件检索***,其特征在于,利用在使用所述检索关键字的检索历史中过去的再现率和适合率,设定检索关键字的权值。
8.如权利要求5至7中任一项所述的文件检索***,其特征在于,所述OCR装置的图像输入装置接收多个图像的输入,所述OCR装置的中央运算装置针对各个被输入图像,将与各图像一一对应的文件ID进一步结合到读取假说文件中,记忆在所述记忆装置中;所述检索装置的中央运算装置在检索中利用文件ID鉴别记载有与检索关键字相对应文字列的图像,并输出到所述显示终端装置。
9.包括操作终端装置、记忆装置和显示终端装置的计算机实施的一种通过计算机实现的文件检索的程序,其特征在于,包括接收记载有文字的图像输入的步骤,从图像中提取文字行候补的步骤,从图像提取文字切出候补的步骤,对文字切出候补进行文字识别的步骤,将含有文字识别结果、文字行候补以及文字切出候补的文件以读取假说文件的形式在所述记忆装置中记忆的步骤,接收所述操作终端装置输入的关键字的步骤,从所述记忆装置读出读取假说文件的步骤,利用读取假说文件中的文字切出候补以及行提取候补、从图像记载的文字中检索与检索关键字对应的文字列的步骤,以及将上述检索结果输出到所述记忆装置或显示终端装置的步骤。
10.如权利要求9所述的通过计算机实现的文件检索程序,其特征在于包括:在接收图像输入的步骤中接收多个图像的输入;在记忆读取假说文件的步骤中,针对输入的各个图像,将与各图像一一对应的文件ID进一步结合到读取假说文件中并记忆在所述记忆装置中;在检索中,利用文件ID鉴别记载有与检索关键字相对应文字列的图像并输出到所述显示终端装置的步骤。
CNB031049559A 2002-11-21 2003-02-28 Ocr装置、文件检索*** Expired - Fee Related CN100351847C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002337369 2002-11-21
JP2002337369A JP2004171316A (ja) 2002-11-21 2002-11-21 Ocr装置及び文書検索システム及び文書検索プログラム

Publications (2)

Publication Number Publication Date
CN1503193A true CN1503193A (zh) 2004-06-09
CN100351847C CN100351847C (zh) 2007-11-28

Family

ID=32700898

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031049559A Expired - Fee Related CN100351847C (zh) 2002-11-21 2003-02-28 Ocr装置、文件检索***

Country Status (3)

Country Link
JP (1) JP2004171316A (zh)
CN (1) CN100351847C (zh)
TW (1) TWI285849B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183744A (zh) * 2015-06-29 2015-12-23 努比亚技术有限公司 一种利用手机进行纸质书关键字检索的方法及装置
CN106878632A (zh) * 2017-02-28 2017-06-20 北京知慧教育科技有限公司 一种视频数据的处理方法和装置
CN107391668A (zh) * 2017-07-20 2017-11-24 深圳大普微电子科技有限公司 一种图片文字搜寻***及方法
CN110276236A (zh) * 2018-03-14 2019-09-24 株式会社日立制作所 计算机及模板管理方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8261200B2 (en) * 2007-04-26 2012-09-04 Fuji Xerox Co., Ltd. Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
JP5344338B2 (ja) * 2008-08-01 2013-11-20 国立大学法人東京農工大学 プログラム、情報記憶媒体及び文字列認識装置
CN102779140B (zh) * 2011-05-13 2015-09-02 富士通株式会社 一种关键词获取方法及装置
JP6938228B2 (ja) 2017-05-31 2021-09-22 株式会社日立製作所 計算機、文書識別方法、及びシステム
US11755659B2 (en) * 2018-10-04 2023-09-12 Resonac Corporation Document search device, document search program, and document search method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3689455B2 (ja) * 1995-07-03 2005-08-31 キヤノン株式会社 情報処理方法及び装置
JP3727995B2 (ja) * 1996-01-23 2005-12-21 キヤノン株式会社 文書処理方法及び装置
JPH1069494A (ja) * 1996-08-29 1998-03-10 Canon Inc 画像検索方法とその装置
CA2326901A1 (en) * 1998-04-01 1999-10-07 William Peterman System and method for searching electronic documents created with optical character recognition

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183744A (zh) * 2015-06-29 2015-12-23 努比亚技术有限公司 一种利用手机进行纸质书关键字检索的方法及装置
CN106878632A (zh) * 2017-02-28 2017-06-20 北京知慧教育科技有限公司 一种视频数据的处理方法和装置
CN107391668A (zh) * 2017-07-20 2017-11-24 深圳大普微电子科技有限公司 一种图片文字搜寻***及方法
CN110276236A (zh) * 2018-03-14 2019-09-24 株式会社日立制作所 计算机及模板管理方法
CN110276236B (zh) * 2018-03-14 2023-04-28 株式会社日立制作所 计算机及模板管理方法

Also Published As

Publication number Publication date
CN100351847C (zh) 2007-11-28
TWI285849B (en) 2007-08-21
JP2004171316A (ja) 2004-06-17
TW200409046A (en) 2004-06-01

Similar Documents

Publication Publication Date Title
CN1158627C (zh) 用于字符识别的方法和装置
CN1096036C (zh) 以格阵作关键字的字典检索装置和方法
CN1174332C (zh) 转换表达方式的方法和装置
CN1320485C (zh) 图像检索装置和图像检索装置的关键词赋予方法
CN1871597A (zh) 利用一套消歧技术处理文本的***和方法
CN1209725C (zh) 文件编辑处理方法和文件编辑处理设备
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1542736A (zh) 在自然语言理解***中用于位置的基于规则的语法和用于前终端的统计模型
CN1232226A (zh) 句子处理装置及其方法
CN1573926A (zh) 用于文本和语音分类的区别性语言模型训练
US20110231411A1 (en) Topic Word Generation Method and System
CN1219266C (zh) 一种实现多路对话的人-机汉语口语对话***的方法
CN1368693A (zh) 用于全球化软件的方法和设备
CN101042868A (zh) 群集***、方法、程序和使用群集***的属性估计***
CN1223410A (zh) 相关词抽取设备和方法以及记录相关词抽取程序的媒体
CN1439979A (zh) 解决方案数据编辑处理及自动概括处理装置和方法
CN1841367A (zh) 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法
CN1975858A (zh) 会话控制装置
CN1975857A (zh) 会话控制装置
CN1894688A (zh) 对译判断装置、方法及程序
CN1351310A (zh) 联机文字识别装置、方法及程序和计算机可读存储介质
CN1542649A (zh) 自然语言生成***中用于句子实现中排序的成分结构的语言信息统计模型
CN1217512A (zh) 文件图象处理设备及其方法
CN1571980A (zh) 字符串识别
CN1215457C (zh) 语句识别装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071128

Termination date: 20180228