CN101356541B - 帐票处理装置以及帐票处理方法 - Google Patents
帐票处理装置以及帐票处理方法 Download PDFInfo
- Publication number
- CN101356541B CN101356541B CN2006800509316A CN200680050931A CN101356541B CN 101356541 B CN101356541 B CN 101356541B CN 2006800509316 A CN2006800509316 A CN 2006800509316A CN 200680050931 A CN200680050931 A CN 200680050931A CN 101356541 B CN101356541 B CN 101356541B
- Authority
- CN
- China
- Prior art keywords
- mentioned
- character
- character string
- account ticket
- string candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
自动提取关键字。当输入扫描的帐票图像时,布局识别单元(11)提取帐票图像的读取区域,字符识别单元(13)对该读取区域进行字符识别。在帐票逻辑定义体数据库(14)中存储根据相同种类的帐票中共同的逻辑结构而定义了构成关键字的字符串的帐票逻辑定义体。字符串候选提取单元(15)将字符识别出的字符满足已定义的字符串关系的组合作为字符串候选提取。并且,对应单元(16)将字符串候选根据位置关系进行对应,确定构成关键字的字符串候选的组合。
Description
技术领域
本发明涉及帐票处理程序以及帐票处理装置,尤其涉及用于从扫描的帐票图像中提取规定的关键字的帐票处理的帐票处理程序以及帐票处理装置。
背景技术
一直以来,在对纸文件进行电子化的帐票输入业务中有定型帐票输入和非定型帐票输入两种模式。
在定型帐票输入中,在输入的帐票种类已知的情况下的输入方法中,预先作成记录有输入的帐票的关键字位置等的布局定义体。然后,对扫描的帐票图像进行形式识别,根据与形式对应的布局定义体来自动提取关键字。但是,在定型帐票输入中存在当帐票种类未知时则无法应对的问题。因此,对于作为对象的各个帐票都必须以手动的方式来预先作成布局定义体,不过这需要花费非常大的成本。
另一方面,在非定型帐票输入中,在输入的帐票种类未知的情况下的输入方法中,无法预先作成布局定义体。因此,必须以手动的方式进行输入操作,从而使输入成本增大。
这样,在定型帐票输入以及非定型帐票输入中都存在问题,为了提高帐票输入业务的效率,而需要从非定型的帐票中自动提取关键字的方法。
因此,提出了如下的帐票处理装置,即:识别帐票的图像,根据已预先设定的关键字检索读取区域并进行提取,并且取得该区域内的识别数据(例如,参照专利文献1)。
另外,还提出了如下的图像处理方法,即:为了提高关键字提取的准确度,而从文件图像中提取与格线等的形状对应的虚拟单元区域,对
单元内的图像进行字符识别,根据识别结果来检索与指定关键字对应的字符串,并根据检索出的字符串来确定单元区域(例如,参照专利文献2)。
专利文献1:日本特开平11-238165号公报(段落编号[0009]~[0012],图3)
专利文献2:日本特开2001-312691号公报(段落编号[0013]~[0018],图2)
一直以来,在从非定型帐票中自动提取关键字时,对帐票图像进行布局识别以确定读取区域,并进行已确定的读取区域的字符识别,从识别出的字符串中以单词匹配的方式检索与关键字相当的内容。不过,对没有布局定义的非定型帐票图像进行正确的布局识别和字符识别是困难的,时常有失败的可能性。但是,现有的帐票处理,由于在经过布局识别以及字符识别后提取出的字符串中进行匹配,因此存在当识别不正确时无法提取关键字这样的问题。
举出一例来进行说明。图19是表示由于布局识别失败而无法正确提取关键字的情况的图。(A)是帐票图像,(B)是表示对(A)的帐票图像进行了布局识别的文本块的图。
在图中的例子中,由于帐票的污渍等,而导致在利用扫描仪来读取的帐票图像901内产生噪声902。当对该帐票图像901进行布局识别时,由于在「估计(金额)」和「估计(物名)」之间存在噪声902,所以将这些识别为1个块,从而误提取了含有噪声的文本块903。由此导致「估计」和「金额」以及「估计」和「物名」分离。接着,当对该文本块进行字符识别时,例如,文本块903被字符识别为「估计...和估计」、文本块904被字符识别为「金额」、文本块905被字符识别为「物名」、文本块906被字符识别为「¥120,000」、以及文本块907被字符识别为「个人电脑」。从而,即使在进行匹配检索的关键字中有「估计金额」或「估计物名」,也不能从字符识别结果中来进行检测,所以无法提取关键字。
这样,当在布局识别中失败时,即使正确地识别出字符也不能正确地排列字符,所以存在无法提取关键字这样的问题。另外,即使布局识别正确,但如果字符识别失败则也会产生同样的问题。
此外,关键字有项目和数据这2种要素,不过在现有的帐票处理中,存在有时无法进行项目与数据的正确对应这样的问题。
图20是表示了项目和数据难以对应的情况的图。(A)表示有可能两个项目对应于一个数据的情况,(B)表示有可能两个数据对应于一个项目的情况。
在(A)的情况下,进行对帐票图像910的布局识别处理以及字符识别处理,并取得项目「金额」911、「合计」915、数据「¥40,000」912、「¥42,000」913以及「¥82,000」914。根据各个文本块的位置关系,使垂直方向或水平方向的坐标值大致相等的项目和数据、即视为在垂直方向或水平方向上排列的项目和数据对应。在此图的例子中,「¥40,000」912和「¥42,000」913能够与垂直方向上排列的「金额」911对应。不过,「¥82,000」914能够与垂直方向上排列的「金额」911、和水平方向上排列的「合计」915中的任一个对应。这样,根据位置关系无法判断哪个为正确。
另一方面,在(B)的情况下,通过对帐票图像920的布局识别处理和字符识别处理,能够取得项目「发行日」921、「估计有效期限」923、数据「2005年12月02日」922以及「2005年12月16日」924。根据各个文本块的位置关系,能够使「估计有效期限」923和「2005年12月16日」924对应。不过,水平方向上排列的「2005年12月02日」922和垂直方向上排列的「2005年12月16日」924中的任一个都能与「发行日」921对应。这样,根据位置关系无法判断哪个为正确。另外,对于「2005年12月16日」924,其可以与「发行日」921以及「估计有效期限」923两方构成组。
这样,有时难以正确地对应提取出的关键字的项目和数据,在现有方式中未公开有选择哪个为正确对应的方法。
发明内容
本发明是鉴于这样的问题而作出的,其目的是提供即使识别结果存在欠缺或噪声也能够稳定地进行关键字提取的帐票处理程序。另外,本发明的其他目的在于提供可考虑整体匹配性来决定关键字的项目和数据
的对应关系的帐票处理装置。
本发明中为了解决上述课题,而提供执行如图1所示的处理的帐票处理装置。本发明的执行以下的处理。帐票处理装置1具备:布局识别单元11、字符识别单元13、字符串候选提取单元15以及对应单元16,并从扫描的帐票图像中提取规定的关键字。布局识别单元11识别帐票图像的布局,并提取帐票图像中的字符图像的读取区域。字符识别单元13对提取出的读取区域的字符图像进行字符识别,将识别出的字符作为字符识别结果输出。字符串候选提取单元15根据帐票逻辑定义体,从字符识别结果中提取在帐票逻辑定义体中作为关键字来定义的字符串中所包含的字符,并将提取出的字符间的关系满足基于作为构成关键字的字符串的的字符排列顺序的位置关系的组合作为字符串候选,其中上述帐票逻辑定义体根据相同种类的帐票中共同的逻辑结构而定义了构成关键字的字符串。对应单元16对于由多个要素组成的关键字,根据与要素对应的字符串候选在帐票图像上的位置关系来进行对应,确定构成关键字的字符串候选的组合。
根据这样的帐票处理装置1,当输入扫描的帐票图像时,布局识别单元11进行帐票图像的布局识别,并提取字符图像的读取区域。字符识别单元13对提取的读取区域的字符图像进行字符识别并输出字符识别结果。从而,对布局识别后的字符图像的读取区域进行字符识别,判明在帐票中所记述的字符。在帐票逻辑定义体数据库14中存储了根据相同种类的帐票中共同的逻辑结构而定义了构成关键字的字符串的帐票逻辑定义体。字符串候选提取单元15从字符识别结果中提取在帐票逻辑定义体中作为关键字来定义的字符串中所包含的字符。并且,对于提取出的字符,调查字符间关系的匹配性,将关系满足作为构成关键字的字符串的位置关系的组合作为字符串候选。对应单元16在关键字具有多个要素时,根据位置关系来将字符串候选对应,确定构成关键字的字符串候选的组合。
本发明的帐票处理,不是根据与帐票布局对应的布局定义体、而是根据对帐票具有的逻辑结构进行了定义的帐票逻辑定义体来自动提取关
键字,由此只要是具有相同逻辑结构的帐票,即使布局不同也能够自动提取关键字。另外,在提取关键字时,从字符识别结果中提取作为关键字定义的字符串中所包含的字符,将各字符间的关系满足作为在帐票逻辑定义体中定义的字符串的关系的组合作为字符串候选进行提取,使构成关键字的字符串候选彼此对应。因此,即使与作为关键字定义的字符串完全不一致,只要能视为满足作为字符串的关系,就可以作为关键字进行提取。其结果是,不受布局识别失败或字符识别失败的影响,能够稳定地进行关键字提取。
作为本发明的例子,通过与表示优选实施方式的附图关联的以下说明,使本发明的上述以及其他目的、特征和优点变得更加明确。
附图说明
图1是适用于实施方式的发明的概念图。
图2是表示本实施方式的帐票处理装置的硬件结构例的图。
图3是表示本实施方式的帐票处理装置的软件结构例的图。
图4是表示本实施方式的逻辑定义体的一例的图。
图5是输入到本实施方式的帐票处理装置中的帐票图像的一例。
图6是表示本实施方式中的从字符识别结果中进行字符提取的图。
图7是表示本实施方式中的项目字符串匹配的投票结果的图。
图8是表示在本实施方式中生成的图形的一例的图。
图9是表示本实施方式的帐票处理装置中的匹配性图表的一例的图。
图10是表示本实施方式中的字符配置的适合性验证的一例的图。
图11是表示在多行中的项目字符串的一例的图。
图12是表示本实施方式中的项目提取处理的过程的流程图。
图13是表示本实施方式中的项目字符串匹配处理的过程的流程图。
图14是表示本实施方式中的项目字符串候选确定处理的过程的流程图。
图15是表示本实施方式中的*部提取的一例的图。
图16是表示本实施方式中的数据提取处理的过程的流程图。
图17是表示本实施方式中的数据字符串匹配处理的过程的流程图。
图18是表示本实施方式中的项目/数据对应处理的过程的流程图。
图19是表示由于布局识别失败而无法正确提取关键字的情况的图。
图20是表示项目和数据难以对应的情况的图。
标号说明:
1帐票处理装置;11布局识别单元;12识别辞典数据库(DB);13字符识别单元;14帐票逻辑定义体数据库(DB);15字符串候选提取单元;15a项目字符串候选提取单元;15b数据字符串候选提取单元;16对应单元。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。首先,对适用于实施方式的发明的概念进行说明,然后,对实施方式的具体内容进行说明。
图1是适用于实施方式的发明的概念图。
本发明的帐票处理装置1具有:提取读取区域的布局识别单元11、进行读取区域的字符识别的字符识别单元13、提取字符串候选的字符串候选提取单元15以及进行字符串候选的对应的对应单元16的处理单元;和识别辞典数据库12以及帐票逻辑定义体数据库14的存储单元。另外,帐票处理装置1的各处理单元通过由计算机执行帐票处理程序,来实现其处理功能。
布局识别单元11识别输入的帐票图像的布局,提取包含字符图像的读取区域,并通知给字符识别单元13。布局识别方法有已知的各种各样的方法,这里,可采用其中的任意方法。
识别辞典数据库12可存储用于字符图像的字符识别的识别辞典。
字符识别单元13参照识别辞典数据库12对提取出的读取区域的字符图像进行字符识别,并将识别出的字符作为字符识别结果向字符串候选提取单元15输出。通常,将所有字的种类作为识别对象来进行字符识别处理,不过也可以对在帐票逻辑定义体数据库14的帐票逻辑定义体内所
定义的字符串以及字符种类限定识别对象来进行字符识别。如果限定字符种类,则能够提高字符识别的准确度。
在帐票逻辑定义体数据库14中存储了帐票逻辑定义体,该帐票逻辑定义体根据相同种类的帐票中共同的逻辑结构而定义了构成关键字的字符串。帐票的逻辑结构由意思、项目、数据以及在它们之间成立的关系组成。在帐票逻辑结构定义体中按照每一类别设定有与构成关键字的2种要素即项目和数据相关的定义。项目是与关键字的意思对应的表现,其定义了在帐票中记录的项目字符串。数据是与关键字的意思对应的实际值,其定义了包含在帐票中记录时的正规表现和字符种类等的数据区域属性。
字符串候选提取单元15根据在帐票逻辑定义体数据库14中存储的帐票逻辑定义体,提取被字符识别出的字符满足作为在帐票逻辑定义体内定义的字符串的关系的组合来作为字符串候选。具体来说,项目字符串候选提取单元15a将在帐票逻辑定义体内定义的项目字符串作为关键字,从字符识别结果中提取在已定义的字符串中包含的字符。并且,对构成项目字符串的各个字符进行投票,评价已投票的字符间的位置关系的匹配性,并求出相互满足作为字符串的位置关系的组合。在匹配性的评价中,采用图论理论,例如将已投票的字符作为节点,针对全部的两个节点,对于对应的字符判定与位置相关的匹配性,在判断为有匹配性时,通过利用路径连接这些节点来作成图形。接着,从该图形中,提取图形的极大完全部分图形即团(clique)。构成团的全部节点通过路径与自身以外的节点连接,所以构成团的节点全部满足匹配性。计算各团的评价值并确定最佳的团,由此来决定项目字符串的匹配度。然后,将最佳的匹配度的项目字符串作为项目字符串候选进行输出。另外,数据字符串候选提取单元15b基于在帐票逻辑定义体中定义的数据区域属性,从字符识别结果中提取数据字符串候选。首先,在数据区域属性内所定义的数据的正规表现之中,从字符识别结果中提取表示值的部分,并统一为值部。此外,对所统一的值部和在正规表现中包含的字符串进行与数据字符串候选提取单元15b相同的处理,并确定数据字符串候选。
对应单元16基于帐票逻辑定义体,对作为构成关键字的字符串的、由项目字符串候选提取单元15a所确定的项目字符串候选、和由数据字符串候选提取单元15b所确定的数据字符串候选,进行与位置关系相应的对应,确定项目字符串和数据字符串的组合。例如,根据项目字符串和数据字符串的相对位置关系来生成组合,将已生成的组合作为节点,调查两个组合间的组合上的匹配性,在判断为有匹配性时,通过利用路径来连接这些节点来生成图形。然后,从图形中提取团,并计算各团的评价值,确定最佳的团,由此来确定项目字符串和数据字符串的组合。
对这种结构的帐票处理装置1的动作进行说明。
在帐票逻辑定义体数据库14中预先存储有定义了对象帐票的逻辑结构的帐票逻辑定义体。
当输入帐票图像时,布局识别单元11进行布局识别以提取字符图像的读取区域。字符识别单元13参照在识别辞典数据库12中存储的识别辞典,进行提取出的读取区域的字符识别,并根据识别出的字符来生成字符识别结果。利用以上的处理来字符识别帐票图像上的字符,并作为字符识别结果而向字符串候选提取单元15输出。
项目字符串候选提取单元15a从字符识别结果中提取项目字符串中所包含的字符,并对提取出的各个字符进行投票,其中该项目字符串在存储于帐票逻辑定义体数据库14内的帐票逻辑定义体中被定义。然后,在已投票的字符之间,判定与位置相关的匹配性,求出相互满足作为字符串的关系的组合,并确定项目字符串候选。另一方面,数据字符串候选提取单元15b根据字符识别结果,基于在帐票逻辑定义体中定义的数据区域属性,从字符识别结果中提取出正规表现中表示值的部分,并预先统一为值部。而且,根据字符识别结果,与正规表现的字符串相一致,与项目字符串候选提取单元15a同样地求出相互满足作为字符串的关系的组合,并作为数据字符串候选而提取出。对应单元16根据在帐票逻辑定义体中定义的项目和数据的位置关系,将由字符串候选提取单元15确定的项目字符串候选和数据字符串候选对应起来,确定项目字符串候选和数据字符串候选的组合。
按照每一类别反复以上的处理过程,提取所有类别的关键字。
这样,本发明的帐票处理装置1基于定义了关键字的帐票逻辑定义体,从已字符识别出的各个字符满足作为在帐票逻辑定义体中定义的字符串的关系的组合的字符集合中,选择匹配度最高的字符。因而,即使字符识别结果部分错误,也能够根据其他正确的字符识别结果来进行匹配,所以可构成正确的匹配。另外同样,即使布局识别错误、字符识别结果没有正确地进行排列,都能够正确地进行匹配。并且,即使在认为有多个项目字符串和数据字符串的组合时,也能够取出作为整体最有匹配性的组合,所以可以取得正确的结果。
以下,参照附图对实施方式进行详细的说明。
图2是表示本实施方式的帐票处理装置的硬件结构例的图。
帐票处理装置100中,由CPU(Central Processing Unit:中央处理器)101来控制整个装置。CPU101上经由总线107连接了RAM(Random AccessMemory:随机存储器)102、硬盘驱动器(HDD:Hard Disk Drive:硬盘驱动器)103、图形处理装置104、输入接口105以及通信接口106。
在RAM102中临时存储CPU101执行的OS(Operating System:操作***)的程序或应用程序的至少一部分。另外,在RAM102中存储由CPU101进行的处理所需的各种数据。在HDD103中存储OS或应用程序。在图形处理装置104上连接有监视器108,根据来自CPU101的命令将图像显示到监视器108的画面上。在输入接口105上连接有键盘109a及鼠标109b,将从键盘109a、鼠标109b发送来的信号经由总线107发送到CPU101。通信接口106与扫描仪20连接,如果有扫描仪20读取的帐票图像数据发送来,则经由总线107向CPU101发送。另外,扫描仪20可经由总线107直接连接。
利用这样的硬件结构可实现本实施方式的处理功能。
接着,对实现帐票处理装置100的处理功能的软件结构进行说明。图3是表示本实施方式的帐票处理装置的软件结构例的图。
帐票处理装置100具有:布局识别部110、字符识别部130和关键字提取部140的处理部、以及识别辞典数据库120和逻辑定义体数据库150的数据库。
关键字提取部140具有:提取项目字符串候选的项目提取部160、提取数据字符串候选的数据提取部170、以及将项目字符串候选和数据字符串候选对应起来的对应部180。
布局识别部110是对扫描仪读取出的帐票图像的布局进行识别,提取包含字符图像的读取区域的布局识别单元。
在识别辞典数据库120中存储用于字符识别的辞典信息。
字符识别部130是对布局识别部110提取出的读取区域进行字符识别,输出字符识别结果的字符识别单元。
在逻辑定义体数据库150内存储有对相同种类的帐票中共同的逻辑结构进行定义的帐票逻辑定义体(以下,称为逻辑定义体)。例如如果是估计书则含有「日期信息」、「委托编号」等,这样如果是相同种类的帐票,则即使布局不同,所含有的信息项目等也具有很多相同的地方。归纳了这些所得到的内容为逻辑结构。帐票的逻辑结构具有由意思、项目、数据组成的组和在它们之间成立的关系。意思表示帐票中的表现功能。项目表示在帐票中实际表现与其意思对应的表现功能的字符串。数据表示在与意思对应的表现功能中的实际值。在它们之间成立的关系表示组彼此间的关系,包括对应关系及数学公式成立的关系等。详细内容在后面进行叙述,不过在逻辑定义体数据库150中关于项目定义了项目字符串,关于数据定义了数据区域属性。
项目提取部160通过字符识别结果投票161、图形生成(匹配性评价)162、最大团确定163以及项目字符串候选确定164的模块来实现其处理功能。字符识别结果投票161对照字符识别结果和在逻辑定义体中定义的项目字符串所包含的字符,在检测出的情况下,对构成所定义的项目字符串的字符进行投票。图形生成(匹配性评价)162评价通过字符识别结果投票而取得的各字符间的匹配性,并生成图形。具体来说,将已投票的字符作为节点,并判断在各字符间是否有作为字符串的位置关系的匹配性。例如,根据基于两个字符间的、作为在逻辑定义体数据库150中定义的项目字符串的字符排列顺序的位置关系(当在项目字符串中定义了「预订编号」时,按照字符的排列顺序「编」或「号」配置在「订」的后面
即可)、字符彼此的位置关系(是否位于同一行)等,来判断匹配性,如果有匹配性,则利用路径来连接节点之间。对各个字符(节点)依次执行此过程,生成图形。最大团确定163从通过图形生成(匹配性评价)162作成的图形中提取团,从团中选择适合的团,并确定匹配率最高的最大团。匹配率例如通过包含团的字符集合中所包含的节点的比例等来算出。在一个类别中定义有多个项目字符串时,按照每一个项目字符串来确定最大团。因此,按照类别来选择一个项目字符串候选。项目字符串候选确定164在属于类别的项目字符串中,将由最大团确定163所确定的最大团中的最佳匹配度的团作为项目字符串候选输出。
这里,对图形进行说明。图形的概念是由节点(节点/顶点)的集合和连接节点的路径(枝、边)的集合构成的着眼于「连接方式」而进行抽象化的「点和连接点的线」,探求图形所具有的各种性质是图论理论。另外,在图形中的任意2顶点间扩展路径的顶点集合被称为团,发现团中的最大的团的方法称为最大团提取。从图形中提取最大团的方法是熟知的,例如公开于「C.Bron and J.Ke rbosch,″Finding all cliques of an undirectedgraph″,Commun.ACM,Vol.16,No.9,pp575-577,1973」。
数据提取部170通过*部提取171、字符识别结果投票172、图形生成(匹配性评价)173以及数据字符串候选确定(最大团确定)174的模块来实现其处理功能。与利用固定的字符串来表现的项目不同,无法限定表示数据的字符,不过可以定义表现数据的形式(以下,称为正规表现)和数据的字符种类。例如,日期可表现为「*年*月*日」。*表示任意的数字或记号。以下,将以「*」表示的代替所有字符的记号称为通配符。*部提取171从字符识别结果中统一提取数据的通配符部分,并预先将全体都作为*部。字符识别结果投票172对由字符识别结果提取的数据的正规表现中所包含的字符串、和*部,与字符识别结果投票161同样进行投票处理。然后,在图形生成(匹配性评价)173中,与图形生成(匹配性评价)162同样地作成图形,在数据字符串候选确定(最大团确定)174中,与项目字符串候选确定164同样,将最高匹配率的最大团确定为数据字符串候选。
对应部180通过项目/数据组合181、图形生成(匹配性评价)182、组合
确定(最大团确定)183的模块来实现其处理功能。项目/数据组合181一一列举项目提取部160所提取的项目字符串候选和数据提取部170所提取的数据字符串候选存在对应的可能性。图形生成(匹配性评价)182将一一列举出的组合作为节点,当存在组合的位置关系上的匹配性的情况下,利用路径来连接节点之间,从而作成图形。组合确定183从图形中确定匹配性最高的最大团。即,确定最具有匹配性的项目字符串和数据字符串的组合。
以下,对本发明实施方式的帐票处理装置100的动作以及帐票处理过程进行说明。
首先,对在逻辑定义体数据库150中存储的逻辑定义体进行说明。图4是表示本实施方式的逻辑定义体的一例的图。
逻辑定义体定义了构成帐票逻辑结构的意思、项目以及数据。
关键字根据意思分类为类别201。在图中的例子中定义了日期210和帐票编号220。
关于项目可按照每一类别来定义为表现意思的字符串、项目字符串202。在图中的例子中,在日期210内定义了「年月日」、「发行日」以及「作成日」。另外,在帐票编号220内定义了「预订编号」以及「贵社受理编号」。
关于数据,可按照每一类别来定义在数据中使用的字符203、在数据中使用的正规表现204,作为与意思对应的实际值、数据区域属性。在数据中使用的字符203定义了表示实际值的字符种类。例如,在日期210中定义了以「数字」来表示数据。在数据中使用的正规表现204中定义了数据的表现形式。例如,在日期210中示出了采用「*年*月*日」、「平成*年*月*日」这样的表现形式的情况。
此外,按照每一类别,根据需要而定义从项目中看到的数据的相对位置205及可存在于项目和数据之间的字符206等。例如,在日期210中定义了「右」、「下」。这表示了从配置项目的区域向右方向或下方向配置数据的情况。另外,在可存在于项目和数据之间的字符206中定义了「:」,表示在提取出的项目字符串候选和数据字符串候选之间即使存
在「:」匹配性也成立。
接着,对输入帐票图像之后的处理过程进行说明。当输入帐票图像时,依次执行由布局识别部110进行的布局识别处理、由字符识别部130进行的字符识别处理。以下,采用帐票图像的一例进行说明。
图5是向本实施方式的帐票处理装置输入的帐票图像的一例。
帐票图像300是「估计书」的一部分,布局识别部110输入帐票图像300并进行布局识别处理来提取读取区域。字符识别部130将所有字的种类作为识别对象进行读取区域的字符识别。在帐票图像300的情况下,「估计书」301、「2005年9月25日」302、「B株式会社公启」303、「贵社受理编号」304、「20050925-0101」305、「A株式会社」306、「电话号码」307、「044-123-4445」308作为字符识别结果被输出。
另外,在字符识别中,根据逻辑定义体数据库150的逻辑定义体,可以对识别对象的字符进行限定。例如,图4所示的日期210使用「年」、「月」、「日」、「发」、「行」、「作」、「成」、「平」以及数字来作为字符,所以可知即使将字符种类限定于这些也能够进行字符识别。同样,帐票编号220还可以限定于「预」、「订」、「编」、「号」、「贵」、「社」、「受」、「理」以及数字。这样,取出与全部类别相关的识别对象的字符,取所有类别的和,并将其作为识别对象。从而,提高字符识别的准确度。
接着,关键字提取部140开始处理。关键字提取处理是在项目提取部160提取了项目字符串候选、和数据提取部170提取了数据字符串候选之后,由对应部180进行项目字符串候选和数据字符串候选的对应。
(1)项目提取
在项目提取处理中,基于在逻辑定义体中定义的项目字符串,从字符识别结果中提取表示项目的项目字符串。
首先,字符识别结果投票161基于在逻辑定义体数据库150中存储的逻辑定义体,从字符识别结果中提取已定义的项目字符串中所包含的字符,并进行投票。这里,关于帐票图像300的帐票,定义了「贵社受理编号」、「预订编号」以及「受理No.」来作为项目字符串。因而,从字符
识别结果中提取在项目字符串的定义中所包含的字符。
图6是表示本实施方式中的从字符识别结果提取字符的图。图6是从帐票图像300中选出已提取出字符的位置的图,对与图5相同的内容标注相同的编号。
依次提取与在项目字符串中所包含的字符一致的内容。此时,用字母来方便地标注提取出的字符。例如,从「贵社受理编号」304中提取「贵(a)」、「社(b)」、「受(c)」、「理(d)」、「编(e)」、「号(f)」,从「A株式会社」306中提取「社(g)」,从「电话号码」307中提取「号(h)」「码(i)」,从「B株式会社公启」303中提取「社(j)」。接着,将提取出的字符投票给项目字符串的各字符。
图7是表示本实施方式中的项目字符串匹配的投票结果的图。对与图6相同的内容标注相同的标号。
对于项目字符串「贵社受理编号」310,对「贵」投票a,对「社」投票b、g和j,对「受」投票c,对「理」投票d,对「编」投票e和h,对「号」投票f和i。同样,对于项目字符串「预订编号」320,对「编」投票e和h,对「号」投票f和i,对于「受理No.」330,对「受」投票c,对「理」投票d。
在图形生成(匹配性评价)162中,根据投票结果,生成将被投票的字符作为节点的图形。首先,针对被投票的字符的集合,对全部的两个字符的组调查作为字符串的关系、和与位置相关的匹配性。所谓在两个字符A和B的位置关系中存在匹配性,是指各个字符分别为相应的项目字符串的第i个字符、第j个字符(其中i<j)的时刻是满足如下条件的时刻:A的x坐标<B的x坐标、且A的y坐标与B的y坐标几乎相等。另外,X为水平方向的坐标轴,y为垂直方向的坐标轴。
具体来说,在将平均字符尺寸设为m、yA设为A的y坐标值、yB设为B的y坐标值时,满足以下公式:
|yA-yB |≤m/2...(1)。
平均字符尺寸对于全部字符而言,设为其外接矩形的长边的平均。
另外,在手写字符的情况下,由于A的y坐标和B的y坐标几乎相等这
样的条件过于严格,所以放宽该条件,将公式(1)设为如下的公式来判定匹配性,该公式为:
|yA-yB |≤m ...(2)。
这样,根据帐票而适当设定匹配性的基准。
针对两个字符,在它们的关系的匹配性成立时,通过利用路径连接与这两个字符相当的节点来生成图形。
图8是表示在本实施方式中生成的图形的一例的图。在图6中各节点a、b、c、d、e、f、g、h、i、j表示对字符赋予的字母。
例如,相对于「贵(a)」,判断为位置关系满足公式(1)的、在项目字符串「贵社受理编号」中包含的「社」、「受」、「理」、「编」、「号」具有匹配性。从而,视为「社(b)」、「受(c)」、「理(d)」、「编(e)」、「号(f)」、「社(g)」具有匹配性,并通过路径进行连接。当针对每一节点反复进行了同样的处理时,可获得图8所示的图形。
从这样生成的图形中提取图形的极大完全部分图形即团。构成团的全部节点通过路径与自身以外的节点连接。例如,在图中的例子中,abcdef、ag、ei、hi、j被作为团提取出。
另外,在帐票处理装置100实际进行处理时,图形采用以表形式来表现图8所示的图形的匹配性图表等。图9是表示本实施方式的帐票处理装置中的匹配性图表的一例的图。
在匹配性图表350中,纵、横地配置节点,在相当于交点的栏中设定路径的状态。1表示有路径连接,0表示无路径连接。如果能搜索到设定了1的栏,则能够提取出团。
并且,最大团确定163中,首先,从提取出的团中仅选择适合的团。例如,仅选择构成团的节点个数为某阈值以上的团。从而,针对项目字符串,仅剩下具有一定匹配性以上的匹配性的团。在图中的例子中将阈值设为2时,除去作为团提取的abcdef、ag、ei、hi、j中的j。相对于项目字符串仅有一个字符匹配的团为项目字符串的可能性很低,因此将该团从团中去除。
而且,对剩下的团验证字符配置的适合性。对于与团对应的图像上
的字符集合,将包围它们的区域的长度除以字符数,来计算构成区域的字符的中心点(区域的中心点)。求出计算出的中心点与实际的字符的中心点的偏移,如果超过某阈值,则判断为此团不适合,并删除。具体来说,在将平均字符尺寸设为m、字符数设为n、各字符的偏移设为d时,满足如下的公式:
[数式1]
另外,平均字符尺寸对于全部字符而言设为其外接矩形的长边的平均。下面,举例进行说明。图10是表示本实施方式的字符配置的适合性验证的一例的图。
与团对应的字符集合「估计有效期限:2004年9月30日」400中,「估」401、「计」402以及「日」403匹配。对于字符集合400,将包围该字符集合的外框420的长度除以字符数,使用构成区域的字符的个数来计算字符的中心点。此时,设为算出了外框420的中心431。与此相对,实际上取得匹配的「估」、「计」、「日」的字符中心点432。评价该外框420的中心431和已匹配的字符的中心432的偏移433。在图中的例子中,偏移433根据公式(3)被判定为不适合。
另外,当在与团中相邻的两字符对应的图像上的两字符之间,除了该两字符以外还有字时,判断为该团不适合,并删除。在图中的例子中,当项目字符串为「估计日」时,在「计」402和「日」403之间有其他字符,所以被判断为不适合。
进行以上这样的处理,削除不适合的团。并且,对于剩下的团,将最高匹配率的团作为最大团输出。
而且,项目字符串候选确定164针对每一项目字符串,比较已确定的最大团的匹配率,并将最高匹配率的团确定为项目字符串候选。在多个团具有相同的匹配率时,将这些团全部输出。例如,通过字符集合中所包含的节点数、或字符串匹配的位置的比例等来计算匹配率。
通过以上的处理来确定项目字符串候选。
另外,在对提取出的团进行了基于节点个数、字符配置、噪声的验证后,对于剩下的团还可以通过限定字符种类的再识别来进行评价。具体来说,对构成该项目字符串的字符集合限定识别对象来进行字符识别。在字符识别结果中,仅剩下识别可靠度大于某阈值的情况,除此之外的舍弃。并且,对剩下的字符识别结果进行投票、图形生成、团提取,求出最大团的个数,并将该个数作为团的评价值。并且,输出评价值最大的团。在多个团具有相同评价值的情况下,将这些团全部输出。
另外,在上述说明中,对构成关键字的字符串处于同一行的情况进行了说明,不过还存在由项目分布于多行的布局构成的帐票。此时,在将提取出的团作为节点,在两个节点间匹配性成立的情况下,利用路径来连接节点之间而作成图形,并提取最大团,由此来识别分布于多行的字符串候选及其位置。
图11是表示分布于多行的项目字符串的一例的图。
关于与两个团对应的两个字符串「御估计」501和「编号」502,在上下不重叠、左右重叠的情况下,一方的先头部字符比另一方的最末尾字符靠后,当顺序靠后的字符串满足在图像中位于前一字符串的下方的条件时,判定为具有匹配性。
在图中的例子中,使两个字符串向y方向投影的501y和502y的范围不重叠,所以判断为上下不重叠。另外,因为向X方向投影的501x和502x的范围重叠,所以判断为左右重叠。另外,相对于项目字符串「御估计编号」,顺序靠后的「编号」502位于「御估计」501的后面,位于图像的下方。
这样,在满足条件的节点(团)间设置路径来生成图形。然后,从图形中提取团,并提取最大团。
这里,采用流程图对项目提取处理的过程进行说明。图12是表示本实施方式中的项目提取处理的过程的流程图。
在输入了字符识别结果后,开始处理。
[步骤S11]为了反复进行在逻辑定义体中定义的全部类别的处理,而将处理中的指示第i个类别(设为Ci)的i初始化(i=0)。
[步骤S12]为了反复进行在类别Ci中定义的全部项目字符串的处理,而将处理中的指示第i个项目字符串(Sj)的j初始化(j=0)。
[步骤S13]进行对类别Ci的项目字符串Sj的项目字符串匹配处理。处理的详细内容在后面进行叙述,不过通过匹配处理可确定对于类别Ci的项目字符串Sj的最大团。
[步骤S14]为了进行对下一项目字符串的处理,而使j加1。
[步骤S15]将j与在逻辑定义体中定义的项目字符串的数目进行比较。当j未达到项目字符串的数目时,返回步骤S13,进行对下一项目字符串的匹配处理。当达到时,全部项目字符串结束。
[步骤S16]通过反复进行从步骤S13到步骤S15的处理,来确定与类别Ci的全部项目字符串对应的最大团,所以进行针对类别Ci的项目字符串候选确定处理。处理的详细内容在后面进行叙述。
[步骤S17]为了进行对下一类别的处理,使i加1。
[步骤S18]将i与在逻辑定义体中定义的类别数进行比较。当i未达到类别数时,返回步骤S12,进行下一类别的处理。当全部类别的处理结束时,结束处理。
对项目字符串匹配处理过程进行说明。图13是表示本实施方式中的项目字符串匹配处理的过程的流程图。
在指定了项目字符串Sj后,开始处理。
[步骤S131]基于在逻辑定义体数据库150中存储的逻辑定义体,从字符识别结果中提取在已定义的项目字符串Sj中包含的字符,并进行投票。
[步骤S132]根据投票结果,生成将被投票的字符作为节点的图形。首先,对于被投票的字符的集合,针对全部的两个字符的组调查作为字符串的关系和与位置相关的匹配性,当匹配性成立时通过在节点间设置路径来生成图形。
[步骤S133]从在步骤S132中生成的图形中提取图形的极大完全部分图形即团。构成团的全部节点通过路径与自身以外的节点连接。
[步骤S134]仅选择在步骤S133中提取的团中、构成团的节点个数为
某阈值以上的团。而且,调查团的字符配置的适合性,删除不适合的团。并且,对于剩下的团选择匹配率最高的团,并作为最大团输出。
通过执行以上的处理过程,来提取关于类别Ci的项目字符串Sj的最大团。
接着,对项目字符串候选确定处理过程进行说明。图14是表示本实施方式中的项目字符串候选确定处理的过程的流程图。
确定与属于类别的项目字符串对应的最大团,并开始处理。
[步骤S161]将Pi设为第i个项目字符串的匹配度,将Pt设为最大匹配度,将数组q设为项目字符串候选个数的数组,将n设为项目字符串候选的个数,对各值进行初始化。即,设i=0,n=0,Pt=0,对数组q进行初始化。
[步骤S162]对i和在类别中定义的项目字符串的个数进行比较。如果i等于项目字符串的个数,则结束处理。
[步骤S163]因为i不等于项目字符串的个数,所以对第i个项目字符串的匹配度Pi和最大匹配度Pt进行比较。调查Pi是否大于等于Pt,在小于Pt时,当前设定的Pt的匹配度最高,使处理进入步骤S167。
[步骤S164]在Pi大于等于Pt时,进一步调查Pi是否大于Pt。在Pi不大于Pt时(Pi=Pt)时,使处理进入步骤S166。
[步骤S165]在Pi大于Pt时,对Pt设定Pi(Pt=Pi),将项目字符串候选的个数n设为1,设数组q[0]=i,使处理进入步骤S167。由此,第i个项目字符串在当前时刻成为唯一的项目字符串候选q[0]=i。
[步骤S166]在Pi和Pt相等时,Pt不变,对数组q[n]设定i(q[n]=i),使项目字符串候选的个数n加1。从而,项目字符串候选成为n个,在数组q中排列Pt都为最大的项目字符串的编号。
[步骤S167]使i加1,返回步骤S162进行下一个项目字符串的处理。
通过执行以上的处理过程,取得项目字符串候选的个数n、和项目字符串候选q[i](i满足0≤i<n)。
(2)数据提取处理
在数据提取处理中,基于逻辑定义体的数据正规表现和数据种类,
从字符识别结果中提取以数据正规表现来记述的数据。
帐票中的关键字的数据大部分限定了字符串的种类或配置的结构。在逻辑定义体中数据的属性被记述为正规表现。例如,日期关键字的数据记述为*年*月*日,金额记述为*元,¥*等。*部提取171从逻辑定义体数据库150中读出在正规表现中记述的*部分的种类(数字、字母等)、和其他字符串(「年」、「月」、「日」、「。(句号)」、「-(连字符)」等),从字符识别结果中取出相应的内容。不过,除了句号、连字符以外,还有某大小以上这样的条件。将取出的字符集合设为A。然后,针对属于A的字符的外接矩形,取附近区域(左右空白为m、上下空白为n),在存在于其中的A的要素中,对自身以外的最近的、且投影到y坐标上时重叠的要素设置链路。将利用链路所连接的A的要素进行结合,并作为此区域的*部提取。
以下,举出一例进行说明。图15是表示本实施方式中的*部提取的一例的图。图中示出提取以「*年*月*日」(*为数字)这样的以正规表现来定义的数据的情况。
基于在逻辑定义体中定义的数据的种类和正规表现,从字符识别结果中提取数字、「年」、「月」、「日」。这里,取出「2004年9月30日」这样的字符集合A(601)。设置链路来连接属于A的字符和相邻的字符。当以「2」为例时,对于「2」的外接矩形602设定左右空白取m、上下空白取n的附近区域603,在存在于附近区域中的A的要素中,对自身以外的最近的、且y坐标几乎相等的字符设置链路。此时,对「0」设置链路。另外,y坐标几乎相等是指满足公式(1)的关系。此时,通过反复进行同样的处理,对字符集合A(601)的「2004年9月30日」中包含的全部字符设置链路,并将「2004年9月30日」作为*部提取出。
字符识别结果投票172与项目提取部160的字符识别结果投票161相同,分别对字符部分和在正规表现中以*表示的*部分进行投票。字符部分按照每一个字符进行投票,*部分统一为一个进行投票。如果是字符集合A(601)的例子,则分别对字符部分「年」、「月」、「日」和*部「2004930」进行投票。
图形生成(匹配性评价)173以及数据字符串候选确定(最大团确定)174与项目提取部160的图形生成(匹配性评价)162以及最大团确定163同样,进行图形生成、团提取、最大团的确定。在图形生成中,将被投票的各个字符和*部分作为节点,当基于节点间位置关系的匹配性成立时设置路径。在最大团的提取中仅选择构成团的节点个数为某阈值以上的团。此外,在与团中相邻的两个字符对应的图像上的两个字符之间存在该两个字符以外的字符时,判断为该团不适合,并删除。然后,关于剩下的团,在节点个数大于某阈值时,全部输出与这些团对应的区域和字符。
另外,与项目提取部160同样,也可通过字符种类限定再识别来对已输出的团修改输出字符。
这里,采用流程图对数据提取处理的过程进行说明。图16是表示本实施方式中的数据提取处理的过程的流程图。
在输入了字符识别结果之后,开始处理。
[步骤S21]为了反复进行在逻辑定义体中定义的全部类别的处理,而将处理中的指示第i个类别(设为Ci)的i初始化(i=0)。
[步骤S22]为了反复进行在类别Ci中定义的全部项目字符串的处理,而将处理中的指示第i个正规表现(Rj)的j初始化(j=0)。
[步骤S23]进行对类别Ci的正规表现(Rj)的数据字符串匹配处理。处理的详细内容在后面进行叙述,不过通过匹配处理可确定针对类别Ci的正规表现(Rj)的最大团。
[步骤S24]为了进行对下一个正规表现的处理,而使j加1。
[步骤S25]将j与在逻辑定义体中定义的正规表现的个数进行比较。当j未达到正规表现的个数时,返回步骤S23,进行对下一个正规表现的匹配处理。当达到时,全部正规表现结束。
[步骤S26]为了进行对下一个类别的处理,使i增加1。
[步骤S27]将i与在逻辑定义体中定义的类别数进行比较。当i未达到类别数时,返回步骤S22,进行下一个类别的处理。当全部类别的处理结束时,结束处理。
对数据字符串匹配处理过程进行说明。图17是表示本实施方式中的数据字符串匹配处理的过程的流程图。
在指定了正规表现Rj后,开始处理。
[步骤S231]从字符识别结果中取出以在逻辑定义体数据库150中存储的数据正规表现所记述的*部分的种类、和其他字符串,通过链路来连接相邻的字符,进行字符合并,将合并的字符集合作为*部提取出。
[步骤S232]分别对作为*部提取的字符集合中所包含的字符和在正规表现中以*(数字等)表示的部分进行投票。
[步骤S233]将被投票的各个字符和*部分作为节点,当在节点间匹配性成立时,利用路径来连接节点之间,从而生成图形。
[步骤S234]从在步骤S233中生成的图形中,提取作为图形的极大完全部分图形的团。构成团的全部节点通过路径与自身以外的节点连接。
[步骤S235]仅选择在步骤S234中提取的团中,构成团的节点个数在某阈值以上的团。而且,调查团的字符配置的适合性,删除不适合的团。并且,关于剩下的团,当节点个数大于某阈值时,全部输出与这些团对应的区域和字符。
通过执行以上的处理过程,来提取与类别Ci的数据正规表现Rj对应的数据字符串。
(3)项目/数据对应处理
在项目/数据对应处理中,根据从逻辑定义体所定义的项目中观察到的数据的相对位置等,来一一列举由项目提取部160提取的项目和由数据提取部170提取的数据存在对应关系的可能性,通过考虑全体的匹配性来确定对应关系。另外,与项目提取部160以及数据提取部170同样,生成图形并提取团来进行全体匹配性的评价。
项目/数据组合181针对由项目提取部160提取的项目字符串候选I,当项目字符串候选I为从类别C中求出时,根据在逻辑定义体中记述的类别C的项目和数据的关系(从项目中观察到的数据的相对位置205),设定项目字符串候选I的附近区域。例如,如果定义了「下」,则将附近区域取为项目字符串候选I的区域的下部。另外,如果定义了「右」,则将
附近区域取为项目字符串候选I的区域的右部。并且,针对位于已设定的附近区域中、且满足类别C的数据的正规表现的字符,生成项目字符串候选和数据字符串候选的组合。不过,当在包含项目字符串候选和数据字符串候选双方的外接矩形中,存在可在逻辑定义体所记述的类别C的项目和数据之间存在的字符以外的字符时,不生成该项目字符串候选和数据字符串候选的组合。
在图形生成(匹配性评价)182中,生成将利用项目/数据组合181提取的项目字符串和数据字符串的组合作为节点的图形。针对项目字符串候选和数据字符串候选的组合的集合,对全部的两个组合调查匹配性。所谓两个组合A和B的关系存在匹配性,是指构成各个组合的项目字符串候选和数据字符串候选不重复。对于两个组合,在它们的关系的匹配性成立时,通过利用路径来连接与这两个组合相当的节点来生成图形。
在组合确定(最大团确定)183中,与项目字符串匹配处理同样,进行团提取、最大团确定。在最大团的提取中,输出构成团的节点个数最大的团。
这里,采用流程图来说明项目和数据的对应处理的过程。图18是表示本实施方式中的项目/数据对应处理的过程的流程图。
在提取了项目字符串和数据字符串后,开始处理。
[步骤S31]根据从逻辑定义体所定义的项目中观察到的数据的相对位置,将类别相同的项目字符串候选和数据字符串候选对应起来,并一一列举项目字符串候选和数据字符串候选的组合。
[步骤S32]将在步骤S31中提取出的项目字符串和数据字符串的组合作为节点,对全部的两个组合调查匹配性(构成各个组合的项目字符串候选和数据字符串候选不重复),在匹配性成立的情况下,在节点间设置路径来生成图形。
[步骤S33]从在步骤S32中生成的图形中,提取图形的极大完全部分图形即团。
[步骤S34]从在步骤S33中提取的团中提取最大团。在最大团的提取中,输出构成团的节点个数最大的团。
通过执行以上的处理过程,考虑全体的匹配性来确定项目字符串候选和数据字符串候选的组合。从而,即使在存在多个对应的可能性的情况下,也能够选择正确的对应。
另外,可利用计算机来实现上述处理功能。此时,提供记述了应该具有帐票处理装置的功能的处理内容的程序。通过由计算机来执行该程序,可在计算机上实现上述处理功能。记述了处理内容的程序可预先存储在可利用计算机来读取的记录介质中。作为可利用计算机来读取的记录介质具有:磁记录装置、光盘、光磁记录介质、半导体存储器等。磁记录装置有:硬盘装置(HDD)、软盘(FD)、磁带等。光盘具有:DVD(DigitalVersatile Disc:数字通用盘)、DVD-RAM(Random Access Memory:随机存取存储器)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable:可记录)/RW(可擦写)等。光磁记录介质有MO(Magneto-Optical disk:磁光盘)等。
在使程序流通时,例如,出售记录有该程序的DVD、CD-ROM等移动型记录介质。另外,还可以预先将程序存储在服务器计算机的存储装置中,经由网络,从服务器计算机向其他计算机传输该程序。
执行程序的计算机例如在自身的存储装置中存储被记录在移动型记录介质中的程序或从服务器计算机传输来的程序。并且,计算机从自身的存储装置中读取程序,并执行依据于程序的处理。另外,计算机还可以从移动型记录介质直接读取程序,并执行依据于该程序的处理。另外,计算机还可以在每次从服务器计算机传输来程序时,逐次执行依据于接收的程序的处理。
上述内容仅表示本发明的原理。而且,本领域技术人员可以进行多种变形以及变更,而并非限定于本发明上述示出的准确结构以及应用例,对应的全部变形例以及等同物都视为权利要求书以及其等同物所覆盖的本发明的范围。
Claims (16)
1.一种帐票处理装置,用于从扫描的帐票图像中提取规定的关键字的帐票处理,其特征在于,该帐票处理装置具备:
布局识别单元,其识别上述帐票图像的布局,并提取上述帐票图像中的字符图像的读取区域;
字符识别单元,其对提取出的上述读取区域的字符图像进行字符识别,将识别出的字符作为字符识别结果输出;
字符串候选提取单元,其基于帐票逻辑定义体,从上述字符识别结果中提取在上述帐票逻辑定义体中作为上述关键字来定义的字符串中所包含的字符,并将提取出的字符间的关系满足如下的位置关系的组合作为字符串候选,上述位置关系是基于作为构成上述关键字的字符串的字符排列顺序的位置关系,其中上述帐票逻辑定义体根据相同种类的帐票中共同的逻辑结构而定义了构成上述关键字的字符串;以及
对应单元,其针对由多个要素组成的上述关键字,将与上述要素相应的上述字符串候选根据上述帐票图像上的位置关系进行对应,确定构成上述关键字的上述字符串候选的组合。
2.根据权利要求1所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
在提取出作为上述关键字所定义的字符串之前,反复进行如下处理:在每次从上述字符识别结果中提取出作为上述关键字所定义的字符串中所包含的字符时对该字符进行投票,将被投票的字符作为单位,求出在字符之间相互满足作为字符串的位置关系的组合,进一步将求出的组合作为单位,求出相互满足作为字符串的位置关系的组合。
3.根据权利要求1所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
为了求出满足上述位置关系的组合,采用图论理论,将从上述字符识别结果中提取出的字符或字符组合作为节点,当在上述节点之间基于位置关系的匹配性成立时,利用路径来连接上述节点之间,从而作成图形,并提取出最大团。
4.根据权利要求1所述的帐票处理装置,其特征在于,
上述关键字由项目和数据这两种要素构成,
上述字符串候选提取单元具备:项目字符串候选提取单元,其提取与上述项目相关的项目字符串候选;以及数据字符串候选提取单元,其提取与上述数据相关的数据字符串候选,
上述对应单元执行将上述项目字符串候选和上述数据字符串候选对应起来的处理。
5.根据权利要求4所述的帐票处理装置,其特征在于,
在上述帐票逻辑定义体中定义了与构成上述关键字的项目对应的项目字符串,上述项目字符串候选提取单元执行以下的处理:
在上述字符识别结果中检测出上述项目字符串的字符的情况下,对相应的上述项目字符串的字符进行投票,并将在被投票的字符之间满足作为上述项目字符串的关系的组合作为上述项目字符串候选而提取出。
6.根据权利要求4所述的帐票处理装置,其特征在于,
在上述帐票逻辑定义体中定义了与构成上述关键字的数据对应并包含数据字符种类和数据正规表现的数据区域属性,上述数据字符串候选提取单元执行以下的处理:
在上述字符识别结果中检测出上述数据正规表现中的各要素的情况下,对相应的上述数据正规表现的要素进行投票,并将在被投票的要素之间满足作为上述数据正规表现的关系的组合作为上述数据字符串候选而提取出。
7.根据权利要求6所述的帐票处理装置,其特征在于,
上述数据正规表现利用仅规定上述数据字符种类、且包含用来替代字符的通配符的字符串来表现,
上述数据字符串候选提取单元执行以下的处理:
从上述字符识别结果中提取在上述数据正规表现中记述的上述通配符的数据字符种类,将提取出的字符满足作为字符串的位置关系的组合作为通配符部,从上述字符识别结果中提取在上述数据正规表现中记述的字符串中所包含的字符,并将提取出的字符以及上述通配符部的位置关系满足作为上述数据正规表现的位置关系的组合作为数据字符串候选。
8.根据权利要求4所述的帐票处理装置,其特征在于,
上述对应单元执行以下的处理:
一一列举上述项目字符串候选和上述数据字符串候选对应的可能性,确定使上述项目字符串候选和上述数据字符串候选对应的个数全体上最大的对应关系。
9.根据权利要求1所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
验证构成上述字符串候选的字符的字符配置的适合性,将已验证了适合性的字符作为上述字符串候选。
10.根据权利要求9所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
算出包围字符集合的区域的中心点,该字符集合构成上述字符串候选,并且根据构成上述字符串候选的字符个数算出上述字符串候选的中心点,将包围上述字符集合的区域的中心点和上述字符串候选的中心点进行对照,根据偏移的大小来判定适合性。
11.根据权利要求9所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
当在与上述帐票逻辑定义体中定义的相邻的两个字符对应的、构成上述字符串候选的字符集合的两个字符之间存在其他字符时,判断为构成上述字符串候选的字符集合不适合。
12.根据权利要求1所述的帐票处理装置,其特征在于,
上述字符识别单元执行以下的处理:
根据上述帐票逻辑定义体,对有可能在上述帐票图像中出现的字符种类限定识别对象来进行字符识别。
13.根据权利要求1所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
在提取了上述字符串候选之后,对构成在上述帐票逻辑定义体中针对与上述字符串候选对应的上述关键字所定义的上述字符串的字符集合限定识别对象,来进行字符识别,更新上述字符识别结果,使用已更新的上述字符识别结果,来提取再次进行了字符识别的字符满足作为上述字符串的关系的字符串候选。
14.根据权利要求1所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
将配置在任意行的、满足作为构成上述关键字的字符串的位置关系的组合作为第1字符串单位,将配置在与上述第1字符串单位不同的行的第2组合作为第2字符串单位,并将上述第1字符串单位和上述第2字符串单位满足作为在上述帐票逻辑定义体中定义的字符串的关系的组合作为分布于多行的上述字符串候选来进行提取。
15.根据权利要求14所述的帐票处理装置,其特征在于,
上述字符串候选提取单元执行以下的处理:
针对上述第1字符串单位和上述第2字符串单位,判断是否满足包围上述第1字符串单位的区域和包围上述第2字符串单位的区域的水平方向的坐标值至少一部分重叠、垂直方向的坐标值不重叠这样的条件,在不满足条件时,判断为不是满足作为在上述帐票逻辑定义体中定义的字符串的关系的组合。
16.一种帐票处理方法,用于从扫描的帐票图像中提取规定的关键字的帐票处理,其特征在于,具有如下的步骤:
布局识别单元识别上述帐票图像的布局,并提取上述帐票图像中的字符图像的读取区域;
字符识别单元对提取出的上述读取区域的字符图像进行字符识别,将识别出的字符作为字符识别结果输出;
字符串候选提取单元基于帐票逻辑定义体,从上述字符识别结果中提取在上述帐票逻辑定义体中作为上述关键字所定义的字符串中所包含的字符,并将提取出的字符间的关系满足作为构成上述关键字的字符串的位置关系的组合作为字符串候选,其中上述帐票逻辑定义体根据相同种类的帐票中共同的逻辑结构而定义了构成上述关键字的字符串;以及
对应单元针对由多个要素组成的上述关键字,将与上述要素相应的上述字符串候选根据上述帐票图像上的位置关系进行对应,确定构成上述关键字的上述字符串候选的组合。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2006/300325 WO2007080642A1 (ja) | 2006-01-13 | 2006-01-13 | 帳票処理プログラムおよび帳票処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101356541A CN101356541A (zh) | 2009-01-28 |
CN101356541B true CN101356541B (zh) | 2012-05-30 |
Family
ID=38256057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800509316A Expired - Fee Related CN101356541B (zh) | 2006-01-13 | 2006-01-13 | 帐票处理装置以及帐票处理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8131087B2 (zh) |
JP (1) | JP4750802B2 (zh) |
CN (1) | CN101356541B (zh) |
WO (1) | WO2007080642A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8064703B2 (en) * | 2006-03-17 | 2011-11-22 | Data Trace Information Services, Llc | Property record document data validation systems and methods |
WO2008012845A1 (en) * | 2006-07-26 | 2008-01-31 | Stmicroelectronics S.R.L. | Use of nitroaniline derivatives for the production of nitric oxide |
JP5098504B2 (ja) * | 2007-08-09 | 2012-12-12 | 富士通株式会社 | 文字認識プログラム、文字認識装置および文字認識方法 |
JP4998237B2 (ja) * | 2007-12-06 | 2012-08-15 | 富士通株式会社 | 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法 |
JP5125573B2 (ja) | 2008-02-12 | 2013-01-23 | 富士通株式会社 | 領域抽出プログラム、文字認識プログラム、および文字認識装置 |
JP4825243B2 (ja) * | 2008-06-20 | 2011-11-30 | 富士通フロンテック株式会社 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
JP5462017B2 (ja) * | 2010-02-08 | 2014-04-02 | 沖電気工業株式会社 | 帳票処理システム、エントリ端末および帳票データ処理方法 |
CN102402693B (zh) * | 2010-09-09 | 2014-07-30 | 富士通株式会社 | 处理包含字符的图像的方法和设备 |
CN102509115B (zh) * | 2011-11-22 | 2014-06-25 | 北京京北方信息技术有限公司 | 一种分层带回溯查找机制的票据类型识别方法 |
JP5831420B2 (ja) * | 2012-09-28 | 2015-12-09 | オムロン株式会社 | 画像処理装置および画像処理方法 |
JP6303531B2 (ja) * | 2014-01-22 | 2018-04-04 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
CN106650715B (zh) * | 2016-10-26 | 2019-07-12 | 西安电子科技大学 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
WO2020054067A1 (ja) * | 2018-09-14 | 2020-03-19 | 三菱電機株式会社 | 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム |
JP2020027598A (ja) * | 2018-12-27 | 2020-02-20 | 株式会社シグマクシス | 文字認識装置、文字認識方法及び文字認識プログラム |
JP2020123925A (ja) | 2019-01-31 | 2020-08-13 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7318248B2 (ja) * | 2019-03-20 | 2023-08-01 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
JP7370733B2 (ja) * | 2019-05-30 | 2023-10-30 | キヤノン株式会社 | 情報処理装置、制御方法、及びプログラム |
JP7282603B2 (ja) * | 2019-06-05 | 2023-05-29 | キヤノン株式会社 | 画像処理装置、その制御方法及びプログラム |
US11475688B2 (en) * | 2019-09-06 | 2022-10-18 | Canon Kabushiki Kaisha | Information processing apparatus and information processing method for extracting information from document image |
US10832656B1 (en) * | 2020-02-25 | 2020-11-10 | Fawzi Shaya | Computing device and method for populating digital forms from un-parsed data |
CN111444906B (zh) * | 2020-03-24 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法和相关装置 |
CN111832396B (zh) * | 2020-06-01 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档布局的解析方法、装置、电子设备和存储介质 |
US11593417B2 (en) * | 2021-01-21 | 2023-02-28 | International Business Machines Corporation | Assigning documents to entities of a database |
JP7317886B2 (ja) * | 2021-04-12 | 2023-07-31 | 株式会社プリマジェスト | 情報処理装置及び情報処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1265499A (zh) * | 1999-03-01 | 2000-09-06 | 株式会社日立制作所 | 账票处理方法与账票处理*** |
JP2001312691A (ja) * | 2000-05-01 | 2001-11-09 | Canon Inc | 画像処理方法および装置並びに記憶媒体 |
CN1388474A (zh) * | 1994-12-26 | 2003-01-01 | 株式会社Pfu | 账票输出处理装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0589279A (ja) * | 1991-09-30 | 1993-04-09 | Sharp Corp | 文字認識装置 |
JP3727422B2 (ja) * | 1996-09-03 | 2005-12-14 | 松下電器産業株式会社 | 文字認識装置及びその方法 |
JP3380136B2 (ja) * | 1997-04-22 | 2003-02-24 | 富士通株式会社 | 表画像のフォーマットを識別するフォーマット識別装置および方法 |
US6104500A (en) * | 1998-04-29 | 2000-08-15 | Bcl, Computer Inc. | Networked fax routing via email |
US6614931B1 (en) * | 1998-10-08 | 2003-09-02 | Hewlett-Packard Development Company, Lp. | Handwritten instructions for messaging appliances |
JP3425408B2 (ja) * | 2000-05-31 | 2003-07-14 | 株式会社東芝 | 文書読取装置 |
JP3919617B2 (ja) * | 2002-07-09 | 2007-05-30 | キヤノン株式会社 | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 |
-
2006
- 2006-01-13 JP JP2007553802A patent/JP4750802B2/ja not_active Expired - Fee Related
- 2006-01-13 CN CN2006800509316A patent/CN101356541B/zh not_active Expired - Fee Related
- 2006-01-13 WO PCT/JP2006/300325 patent/WO2007080642A1/ja active Application Filing
-
2008
- 2008-07-08 US US12/216,632 patent/US8131087B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1388474A (zh) * | 1994-12-26 | 2003-01-01 | 株式会社Pfu | 账票输出处理装置 |
CN1265499A (zh) * | 1999-03-01 | 2000-09-06 | 株式会社日立制作所 | 账票处理方法与账票处理*** |
JP2001312691A (ja) * | 2000-05-01 | 2001-11-09 | Canon Inc | 画像処理方法および装置並びに記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US8131087B2 (en) | 2012-03-06 |
CN101356541A (zh) | 2009-01-28 |
WO2007080642A1 (ja) | 2007-07-19 |
JPWO2007080642A1 (ja) | 2009-06-11 |
JP4750802B2 (ja) | 2011-08-17 |
US20080273802A1 (en) | 2008-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101356541B (zh) | 帐票处理装置以及帐票处理方法 | |
US8233751B2 (en) | Method and system for simplified recordkeeping including transcription and voting based verification | |
Talburt | Entity resolution and information quality | |
CN101425132B (zh) | 图像识别装置和识别方法及记录图像识别程序的存储介质 | |
CN100397864C (zh) | 图像处理***及图像处理方法 | |
CN101911067A (zh) | 信息过滤***、信息过滤方法以及信息过滤程序 | |
US20080201131A1 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
CN103838566A (zh) | 信息处理装置和信息处理方法 | |
US6320983B1 (en) | Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein | |
CN112183036A (zh) | 一种格式文档生成方法、装置、设备及存储介质 | |
CN102171708A (zh) | 商业文档处理器 | |
CN102317940A (zh) | 信息处理装置、信息处理方法以及程序 | |
CN103995816A (zh) | 信息处理设备和信息处理方法 | |
CN111125658A (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
JP2018063600A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN101814141A (zh) | 存储介质、字符识别方法以及字符识别设备 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
US11625366B1 (en) | System, method, and computer program for automatic parser creation | |
AU2015204339A1 (en) | Information processing apparatus and information processing program | |
TWI285849B (en) | Optical character recognition device, document searching system, and document searching program | |
CN115908062A (zh) | 一种知识产权全周期管理*** | |
JP7420578B2 (ja) | 帳票仕分システム、帳票仕分方法、及びプログラム | |
CN101425141B (zh) | 图像识别装置和图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120530 Termination date: 20220113 |
|
CF01 | Termination of patent right due to non-payment of annual fee |