CN109344831B - 一种数据表识别方法、装置及终端设备 - Google Patents

一种数据表识别方法、装置及终端设备 Download PDF

Info

Publication number
CN109344831B
CN109344831B CN201810963099.3A CN201810963099A CN109344831B CN 109344831 B CN109344831 B CN 109344831B CN 201810963099 A CN201810963099 A CN 201810963099A CN 109344831 B CN109344831 B CN 109344831B
Authority
CN
China
Prior art keywords
data table
data
character
image
field value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810963099.3A
Other languages
English (en)
Other versions
CN109344831A (zh
Inventor
李亚宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201810963099.3A priority Critical patent/CN109344831B/zh
Publication of CN109344831A publication Critical patent/CN109344831A/zh
Application granted granted Critical
Publication of CN109344831B publication Critical patent/CN109344831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种数据表识别方法、装置及终端设备,适用于数据处理技术领域,该方法包括:对数据表图像进行字符识别确定出数据表图像中数据表的表格名称,并选取出表格名称匹配的表格模板;对数据表图像按照字段值单元格分割为至少一个数据表区域图像;对数据表区域图像进行字符识别,判断字符识别结果是否满足对应的字符串格式要求;若满足,基于字符识别结果对字段值单元格对应的候选字符串库进行字符串匹配,并将匹配出的字符串数据填写至表格模板的字段值单元格中,得到数据表图像对应的数据表识别结果。本发明实施例能保证对数据表识别录入时表格数据识别准确率。

Description

一种数据表识别方法、装置及终端设备
技术领域
本发明属于数据处理技术领域,尤其涉及数据表识别方法及终端设备。
背景技术
现有技术在进行纸质数据表资料电脑录入的时候,都是由人工手动对数据表中的各部分内容进行录入,需要耗费大量的时间,效率十分低下。光学字符识别(OpticalCharacter Recognition,OCR)技术出现后,人们开始使用OCR技术进行纸质数据表资料的识别录入,即利用OCR技术识别数据表各部分内容及其中的字符并在电脑中进行存储,然而实际情况中,由于OCR技术本身对数据表的分析识别效果并非很好,从而使得现有技术对数据表识别录入时表格数据识别准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种数据表识别方法、装置及终端设备,以解决现有技术中对数据表识别录入时表格数据识别准确率较低的问题。
本发明实施例的第一方面提供了一种数据表识别方法,包括:
对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;
对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;
针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;
若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;
根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。
本发明实施例的第二方面提供了一种数据表识别装置,包括:
模板匹配模块,用于对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;
区域图像分割模块,用于对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;
区域图像识别模块,用于针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;
第一数据填充模块,用于若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;
结果生成模块,用于根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。
本发明实施例的第三方面提供了一种数据表识别终端设备,所述数据表识别终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤。
对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;
对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;
针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;
若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;
根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括:存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的数据表识别方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:考虑到现有技术中OCR技术对数据表识别支持并不友好,本发明实施例中首先对所需识别的数据表均设置了对应的表格模板,模板中已经设置好了表格名称、字段名单元格以及字段值单元格等表格框架,同时还预先填写好了字段名单元格中的字段名称,从而使得本发明实施例中只需要填写好字段值单元格的数据,即可完成对数据表的识别。具体地,由于要识别的数据表种类可能不止一种,因此,在本发明实施例中,首先会对数据表图像进行简单的字符识别,确定出其中数据表的名称,以筛选出对应的表格模板。其中,由于实际情况中所需识别的数据表的表格名称都属于有限且已知的且表格名称位置一般较为固定,如在表格上方或者表格第一行,因此,对表格名称的识别相对较为简单且准确率非常高,能够非常准确地确定出所需识别的数据表图像对应的表格模板。在确定出对应的表格模板之后,对数据表图像进行分割确定出其中所包含的每个单元格的区域图像,同时对字段值单元格进行字符识别,以得出初步的字段值单元格的初步识别结果。再在得到字段值单元格初步识别结果后,考虑到实际应用中,很多单元格的内容都是具有一定格式要求且所填写的数据内容都是固定有限种的字符串,如“户籍种类”对应的字段值单元格只能填写中文字符串“城镇”或者“农村”,“出生日期”只能填写固定格式的8位数字字符串,因此,在已知字段值单元格初步识别结果的基础上,利用预设的字段值单元格对应的字符串格式要求来进行识别结果筛选,首先可以保证识别结果的可靠性,再利用字段值单元格对应的候选字符串库进行匹配,如上述说明由于候选字符串的数量有限且已知,因此直接对候选字符串库进行匹配来确定最终识别结果,可以极大地保证得到的字段值单元格的数据的准确性,从而保证了对数据表识别录入时表格数据识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的数据表识别方法的实现流程示意图;
图2是本发明实施例二提供的数据表识别方法的实现流程示意图;
图3是本发明实施例三提供的数据表识别方法的实现流程示意图;
图4是本发明实施例四提供的数据表识别方法的实现流程示意图;
图5是本发明实施例五提供的数据表识别方法的实现流程示意图;
图6是本发明实施例六提供的数据表识别装置的结构示意图;
图7是本发明实施例七提供的数据表识别终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
为了方便理解本申请技术方案,此处先对本发明实施例进行简要说明:
一个标准的数据表至少包含表格名称、字段名单元格以及字段值单元格三部分内容,其中字段名单元格用于填写表格的一些固定属性的字段名称,字段值单元格用于填写与固定属性对应的字段值内容,且在一张数据表中,字段名单元格与字段值单元格的位置关系是固定不变的,如下表1:
表1
其中,“员工基本信息表”就是表1的表格名称,填写有“姓名”、“性别”、“民族”、“电话”、“邮箱”以及“年龄”等固定属性字段名称的单元格即为字段名单元格,而填写有与固定属性对应的字段值内容的单元格即为字段值单元格,如填写有“姓名”对应的“张三”的单元格,且位置关系为字段值单元格均在对应的字段名单元格右侧一格。
实际应用中,对于任何一个数据表而言,在其字段名单元格中的数据内容确定之后,为了保证字段值单元内的数据满足对应的字段名单元格的要求,字段值单元格中的数据内容都是具有一定字符串格式要求的,如字段名单元格“年龄”对应的字段值单元格中的数据内容,就必须是1~3位的数字字符串,而字段名单元格“手机号”对应的字段值单元格中的数据内容,就必须是11位的数字字符串。同时,对于部分字段值单元格而言,其可填写的数据内容属于固定有限的,即其具有对应的候选字符串库,如字段名单元格“民族”对应的字段值单元格中的数据内容,就只能填写有限的民族种类中的一种,又如字段名单元格“性别”对应的字段值单元格中的数据,只能填写“男”和“女”中的一种。因此,对这些可填写的数据内容属于固定有限的字段值单元格而言,用户填写的数据内容在满足对应的字符串格式要求的基础上,还必须是属于对应候选字符串库中的一种结果。
考虑到实际纸质数据表录入工作中,都是对已知的一些表格进行录入,因此,为了提升对纸质数据表录入的效率,本发明实施例中会针对这些需要进行纸质数据表录入的表格,预先创建好对应的表格模板,对表格模板的表格名称以及表格中字段名单元格预先填写好,并对字段值单元格对应的字符串格式要求预先设置好,同时若字段值单元格有对应的候选字符串库的话,还会一并对其对应的候选字符串库进行设置,从而使得后续在进行识别的时候进行调用使用。在已创建好表格模板的基础上,本发明实施例会对扫描纸质数据表得到的数据表图像进行表格名称的识别,以确定并选用对应的表格模板。而在确定出表格模板之后,再对字段值单元格在数据表图像中对应的区域位置进行定位,并对定位确定出的对应的数据表区域图像进行字符串格式验证以保证得到的数据的有效性,最后再利用识别出的结果,从字段值单元格对应的候选字符串库中匹配出最终的识别结果,即可完成对具有候选字符串库的字段值单元格的数据内容准确识别,提升对纸质数据表录入时的识别准确率。
图1示出了本发明实施例一提供的数据表识别方法的实现流程图,详述如下:
S101,对数据表图像进行字符识别,确定出数据表图像中数据表的表格名称,并从预设的表格模板库中选取出表格名称匹配的表格模板,表格模板中包含表格名称、已填写的字段名单元格以及空白的字段值单元格。
为了确定出待识别数据表图像对应的表格模板,本发明实施例中首先会对数据表图像中包含的表格名称进行识别,以对表格模板进行匹配查找。其中,由于实际应用中表格名称一般都是位于表格上方或者表格第一行等固定位置,因此在进行表格名称的字符识别时,可以采用从数据表图像上方开始逐行字符识别并进行表格名称匹配的方式来确定出其对应的表格模板,此时无需对整个数据表图像全部就行字符识别即可完成对表格模板的确定,提升了对表格模板匹配的速度以及准确率。
S102,对数据表图像按照字段值单元格分割为至少一个数据表区域图像。
在确定出数据表图像对应的表格模板之后,需要对表格模板中的字段值单元格进行填写,以完成对数据表的识别。其中,为了对字段值单元格填写,首先需要从数据表图像中确定出字段值数据格对应的数据表区域图像,以为后续的字符识别填写提供基础。
本发明实施例中,为了确定出字段值数据格对应的数据表区域图像,首先会对数据表图像进行单元格的图像区域分割,其中,具体的分割方法此处不予限定,包含但不限于如根据数据表图像中的行列边框来将数据表图像进行划分。其中在进行单元格图像分割时,既可以选择以单个单元格为单位进行分割,此时得到的每张数据表区域图像仅对应一个字段值单元格或者一个字段名单元格,也可以以字段名单元格+对应的字段值单元格为单位进行分割,此时每张数据表区域图像均对应着一个字段名单元格+对应的字段值单元格。
在确定出每个单元格对应的数据表区域图像之后,再对单元格中每个字段值单元格对应的数据表区域图像进行定位,确定出每个字段值单元格一一对应的数据表区域图像,以为后续识别结果检测和填充提供数据。其中,具体的单元格定位方法此处亦不予限定,具体可由技术人员自行设定,包括但不限于如:根据表格模板的整体表格框架来对齐数据表图像,再在对齐后依次确定出每个单元格对应的数据表区域图像,从而确定出每个字段值单元格一一对应的数据表区域图像,或者将表格模板中已填充的字段名单元格内的字段名称跟数据表区域图像进行字符识别后的结果进行匹配,并在确定出每个字段名单元格对应的数据表区域图像后,再根据表格模板中字段名单元格与字段值单元格的位置关系,确定出每个字段值单元格一一对应的数据表区域图像。
S103,针对数据表图像的任一数据表区域图像,对数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足字段值单元格对应的字符串格式要求。
在确定出每个字段值单元格一一对应的数据表区域图像后,开始对数据表区域图像进行字符识别,以确定出字段值单元格对应的具体数据内容。其中,考虑到数据表字段值单元格中所需填写的数据都是具有一定格式要求的,如“手机号”对应的字段值单元格只能填写11位数字字符串,“身份证号码”对应的字段值单元格只能填写17位数字串+1位数字校验码,因此在得到字段值单元格的字符识别结果后,为了保证识别结果准确有效,本发明实施例中会对字符识别结果进行字段值单元格对应的字符串格式校验,以判断是否满足对应的字符串格式要求。
S104,若字符识别结果满足字符串格式要求,将字符识别结果与字段值单元格对应的候选字符串库进行字符串匹配,并将从字符串库中匹配出的字符串数据填写至表格模板的字段值单元格中,得到数据表区域图像的识别结果。
S105,根据至少一个数据表区域图像的识别结果得到数据表图像对应的数据表识别结果。
当字段值单元格的字符识别结果满足对应的字符串格式要求时,理论上已经得到了字段值单元格的数据内容,但实际情况中,仅满足字符串格式要求还难以保证得到的字符识别结果就一定准确无误,如也有可能会存在一些错别字之类的错误。因此,为了进一步提升对字段值单元格数据内容的识别准确率,本发明实施例中还会根据字段值单元格对应的候选字符串库来对字符识别结果进行进一步地匹配,由于候选字符串库中的每个候选字符串都是技术人员根据字段值单元格实际情况预设的标准结果,因此通过对候选字符串库进行匹配确定出对应的字符串数据,可以极大地提升对字段值单元格的识别准确率,提升对数据表识别录入的准确率。
在得到每一个数据表区域图像的识别结果之后,将这些识别结果填充至表格模板中对应的单元格内,即可得到对数据表最终的识别结果。
在本发明实施例中,考虑到现有技术中OCR技术对数据表识别支持并不友好,本发明实施例中首先对所需识别的数据表均设置了对应的表格模板,从而使得本发明实施例中只需要填写好字段值单元格的数据,即可完成对数据表的识别。具体地,由于要识别的数据表种类可能不止一种,因此,在本发明实施例中,首先会对数据表图像进行简单的字符识别,确定出其中数据表的名称并筛选出对应的表格模板。其中,由于实际情况中所需识别的数据表的表格名称都属于有限且已知的且表格名称位置一般较为固定,如在表格上方或者表格第一行,因此,对表格名称的识别相对较为简单且准确率非常高,能够非常准确地确定出所需识别的数据表图像对应的表格模板。在确定出对应的表格模板之后,对数据表图像进行分割确定出其中所包含的每个单元格的区域图像,同时对字段值单元格进行字符识别,以得出初步的字段值单元格的初步识别结果。再在得到字段值单元格初步识别结果后,考虑到实际应用中,很多单元格的内容都是具有一定格式要求且所填写的数据内容都是固定有限种的字符串,因此,在已知字段值单元格初步识别结果的基础上,利用预设的字段值单元格对应的字符串格式要求来进行识别结果筛选,首先可以保证识别结果的可靠性,再利用字段值单元格对应的候选字符串库进行匹配,可以极大地保证得到的字段值单元格的数据的准确性,从而保证了对数据表识别录入时表格数据识别准确率。
作为对字段值单元格进行数据表区域图像定位的一种具体实现方式,由于表格模板中已经有了数据表的整体框架,框架中包含了每个字段值单元格与字段名单元格的具***置关系,如上述表1中每个字段值单元格均在其对应的字段名单元格右侧一格,同时表格模板中还填写好了每个字段名单元格的具体字段名称字符串数据内容,因此,为了确定出每个字段值单元格一一对应的数据表区域图像,如图2所示,本发明实施例中会先对字段名单元格进行定位,再根据字段值单元格与字段名单元格的具***置关系,来推导出字段值单元格对应的数据表区域图像,详述如下,本发明实施例二包括:
S201,对数据表区域图像进行字符识别,并将字符识别得到的数据表区域图像对应的区域字符串,与表格模板中字段名单元格包含的字段名称字符串进行匹配,确定出表格模板中字段名单元格对应的数据表区域图像。
为了实现第一步对字段名单元格的定位,本发明实施例中会对分割得到的数据表区域图像进行字符识别,得到每个数据表区域图像对应的字符识别结果,再根据这些字符识别结果,来对表格模板中每个字段名单元格包含的字段名字符串进行匹配,确定出每个字段名单元格在数据表图像中具体对应的数据表区域图像,此时即可实现对字段名单元格的定位。
S202,基于表格模板中字段名单元格与字段值单元格的位置关系,以及表格模板中字段名单元格对应的数据表区域图像,确定出表格模板中字段值单元格对应的数据表区域图像。
在完成对字段名单元格的定位之后,根据表格模板中记录的字段值单元格与字段名单元格的位置关系,确定出表格模板中字段名单元格对应的字段值单元格,再在数据表图像中按照字段值单元格与字段名单元格的位置关系,确定出与字段值单元格对应的数据表区域图像,即可实现对每个字段值单元格的定位。例如,假设表格模板中字段值单元格与字段名单元格的位置关系为:每个字段值单元格均在其对应的字段名单元格右侧一格,字段名单元格A与字段值单元格a相对应,此时若确定出了字段名单元格A对应着数据表区域图像A,本发明实施例会根据位置关系在表格模板中查找出字段名单元格A对应左侧一格的字段值单元格a,再在数据表图像中,根据位置关系查找出数据表区域图像A对应左侧一格的数据表区域图像a,并将数据表区域图像a确定为字段值单元格a对应的数据表区域图像,以完成对字段值单元格a的定位。
作为本发明实施例三,如图3所示,若字符识别结果满足字符串格式要求,包括:
S301,若字段值单元格不具有对应的候选字符串库,且字符识别结果的字符数大于1,对字符识别结果进行文本纠错处理。
考虑到实际情况中并非所有的字段值单元格都具有对应的候选字符串库,如字段名单元格“自我评价”对应的字段值单元格中,用户可以自行填写任意数据内容,此时字段值单元格对应的数据内容并非有限且已知的,不可能会有对应的候选字符串库。对这些不具有候选字符串库的字段值单元格的识别结果,相对上述的基于候选字符串库匹配得到的标准结果而言,其受到用户个人因素的影响较大,如用户可能会出现写错写漏字等,特别是在所需填写的数据内容的字符数较多时,更是容易出现这些错误,从而导致字段值单元格数据内容字符识别结果准确率难以得到保证。
因此,为了提升对字段值单元格数据内容的字符识别结果的准确性,本发明实施例中会对不具有候选字符串库,且识别结果字符数较多的字段值单元格进行字符识别结果的文本纠错,以保证最终得到的字符识别结果的准确性。其中,具体的文本纠错处理方法此处不予限定,具体可有技术人员自行设定,包括但不限于如决策表方法、贝叶斯学习法以及Winnow学习法等,为了保证文本纠错的效果,优选地,可以选用一些支持纠错种类较多的文本纠错算法来进行此处的文本纠错处理。
S302,将文本纠错处理后的字符识别结果填写至表格模板的字段值单元格中,得到数据表图像对应的数据表识别结果。
在纠错完成后,直接将得到的结果填写至字段值单元格中,即可完成对字段值单元格的填写,得到最终的填写完成的数据表识别结果。
作为本发明实施例四,如图4所示,虽然本发明实施例一至本发明实施例三都提出了对数据表识别的相应处理方法,但考虑到实际情况中,可能会存在用户填写的数据内容本身不满足字段值单元格对应的字符串格式要求,或者字符识别出错导致识别的结果不满足字段值单元格对应的字符串格式要求的情况,此时,会得到字符识别结果不满足字符串格式要求的结果,从而使得本发明实施例一至本发明实施例三无法进行正常的数据表识别。本发明实施例四中,为了尽可能地保证识别得到的数据内容的准确性,具体包括:
S401,若字符识别结果不满足字符串格式要求,更新字段值单元格对应的数据表区域图像的字符识别结果不满足字符串格式要求的总次数。
S402,若总次数小于或等于预设的错误阈值,返回执行对字段值单元格对应的数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足字段值单元格预设对应的字符串格式要求的操作。
S403,若总次数大于错误阈值,将最近一次字段值单元格对应的数据表区域图像的字符识别结果,填写至表格模板的字段值单元格中,得到数据表图像对应的数据表识别结果。
考虑到字符串格式校验失败既可能是字符识别出错导致的,也可能是用户填写的数据内容本身就有误导致的。对于字符识别出错,是可以通过重新识别来纠正,因此,本发明实施例会在校验失败后,重新对字段值单元格进行字符识别以及字符串格式校验。但另一方面,若是用户本身填写的数据内容就有误,此时无论重新识别校验多少次,结果都必然是校验失败,因此,本发明实施例中会同时设置一个校验失败重试的次数阈值,即上述的错误阈值,并在对每个字段值单元格进行字符识别以及字符串格式校验时,都会记录对应的校验错误的次数,如对于字段值单元格a进行字符识别及字符串格式校验时,若校验成功则利用上述本发明实施例进行下一步的处理,若校验失败则会更新记录字段值单元格a校验失败的总次数,在字段值单元格对应的校验失败的总次数达到了设定的错误阈值时,本发明实施例会停止对字段值单元格的字符识别和字符串格式校验,并直接将最近一次的字符识别结果作为最终的数据内容填写至字段值单元格,以防过量的重试给处理器带来不必要的工作负荷,使得对数据表的识别时间过长。其中错误阈值的具体值大小,可由技术人员自行设定。
作为本发明的一个实施例,为了帮助用户了解对数据表识别的具体情况,在步骤S403之后,可以对这些字符串格式校验失败的总次数大于错误阈值的字段值单元格,添加字符串格式校验失败的注释,其中,该注释既可以是直接添加于最终识别得到的数据表中,也可以以其他文件或信息的形式记录输出。
作为对字符识别结果进行文本纠错处理的一种具体实现方式,如图5所示,本发明实施例五,包括:
S501,利用预设的文本纠错算法对字符识别结果进行处理,确定出字符识别结果中的待纠错字符,以及待纠错字符对应的替换概率最大的N个候选替换字符,其中,N为自然数。
S502,对数据表区域图像进行字符图像分割,并确定出与待纠错字符对应的字符图像。
S503,对字符图像的字符识别结果进行字形结构分析,确定出字符图像对应的字形结构信息。
S504,利用N个候选替换字符中字形结构信息与字符图像的字形结构信息匹配度最大,且替换概率最大的候选替换字符,替换对应的待纠错字符,得到文本纠错处理后的字符识别结果。
其中,待纠错字符即为文本纠错处理中识别出的存在错误的字符,字形结构信息是指字符具体的字形结构类型,如独体字、左右结构、上下结构以及镶嵌结构等。
实际应用中,由于受到环境因素以及用户个人因素的影响,如采集图像时光线不足、字被遮挡或部分擦除以及用户的字本身就不清晰等因素影响,使得最终得到的数据表图像中的字难以被准确识别,从而导致字符识别得到的结果中,容易出现字符错误的情况。
为了改善字符识别存在错误的现象,本发明实施例三中提出了使用文本纠错处理来提升最终得到的字符识别结果的准确性,但现有技术的文本纠错算法如上述提到的决策表方法、贝叶斯学习法以及Winnow学习法等,都是根据语法规则或者语义分析等来对字符串进行分析,查找出存在错误的字符,并确定出几个替换概率不等的候选替换字符,再将其中替换概率最大的候选替换字符直接替换掉对应的存在错误的字符,这样虽然一定程度上可以实现对字符识别结果的纠错,但有时可能会得到几个替换概率差不多的候选词,此时直接将替换概率最大的进行替换,难以有效保障纠错的准确率。
因此,为了提升对字符识别结果的文本纠错准确率以提高对字符识别结果的准确率,本发明实施例在现有的一些文本纠错算法的基础上,考虑到实际情况中,图像字符识别即使在字符不清晰或被遮挡等情况下,还是可以获取到较为精确字符字形结构的特点(即整个字符的字体结构信息相对还是较为容易获取到的),对存在错误的字符单独进行字形结构的分析,再基于得到的存在错误的字符的字形结构信息,来对替换概率最大的N个候选替换字符进行筛选,确定出其中满足字形结构信息,且替换概率最大的候选替换字符来进行字符替换。其中,考虑到实际情况中,若数据表图像中的字符由于被遮挡等原因使得其存在缺失的情况时,对字符的字形结构可能会有所改变,因此有时可能会难以直接确定出某个字符的具体字形结构种类,而只能大致确定出其对应的字形结构种类的概率,因此,在本发明实施例利用字形结构信息对后续替换字符进行筛选时,采用的是字形结构信息匹配度最大的条件来进行筛选。N的具体值大小,可由技术人员根据需求自行设定。
对应于上文实施例的方法,图6示出了本发明实施例提供的数据表识别装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图6示例的数据表识别装置可以是前述实施例一提供的数据表识别方法的执行主体。
参照图6,该数据表识别装置包括:
模板匹配模块61,用于对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格。
区域图像分割模块62,用于对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像。
区域图像识别模块63,用于针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求。
第一数据填充模块64,用于若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果。
结果生成模块65,用于根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。
进一步地,区域图像匹配模62,包括:
图像字符串匹配模块,用于对所述数据表区域图像进行字符识别,并将字符识别得到的所述数据表区域图像对应的区域字符串,与所述表格模板中所述字段名单元格包含的字段名称字符串进行匹配,确定出所述表格模板中所述字段名单元格对应的所述数据表区域图像。
图像位置匹配模块,用于基于所述表格模板中所述字段名单元格与所述字段值单元格的位置关系,以及所述表格模板中所述字段名单元格对应的所述数据表区域图像,确定出所述表格模板中所述字段值单元格对应的所述数据表区域图像。
进一步地,该数据表识别装置,还包括:
文本纠错模块,用于若所述字段值单元格不具有对应的所述候选字符串库,且所述字符识别结果的字符数大于1,对所述字符识别结果进行文本纠错处理。
第二数据填充模块,用于将所述文本纠错处理后的所述字符识别结果填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。
进一步地,该数据表识别装置,还包括:
错误次数记录模块,用于若所述字符识别结果不满足所述字符串格式要求,更新所述字段值单元格对应的所述数据表区域图像的字符识别结果不满足所述字符串格式要求的总次数。
错误重试模块,用于若所述总次数小于或等于预设的错误阈值,返回执行所述对所述字段值单元格对应的所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格预设对应的字符串格式要求的操作。
第三数据填充模块,用于若所述总次数大于所述错误阈值,将最近一次所述字段值单元格对应的所述数据表区域图像的字符识别结果,填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。
进一步地,文本纠错模块,包括:
利用预设的文本纠错算法对所述字符识别结果进行处理,确定出所述字符识别结果中的待纠错字符,以及所述待纠错字符对应的替换概率最大的N个候选替换字符,其中,N为自然数。
对所述数据表区域图像进行字符图像分割,并确定出与所述待纠错字符对应的字符图像。
对所述字符图像的字符识别结果进行字形结构分析,确定出所述字符图像对应的字形结构信息。
利用所述N个候选替换字符中字形结构信息与所述字符图像的字形结构信息匹配度最大,且替换概率最大的所述候选替换字符,替换对应的所述待纠错字符,得到所述文本纠错处理后的所述字符识别结果。
本发明实施例提供的数据表识别装置中各模块实现各自功能的过程,具体可参考前述图1所示实施例一的描述,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解的是,虽然术语“第一”、“第二”等在文本中在一些本发明实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如,第一接触可以被命名为第二接触,并且类似地,第二接触可以被命名为第一接触,而不背离各种所描述的实施例的范围。第一接触和第二接触都是接触,但是它们不是同一接触。
图7是本发明一实施例提供的数据表识别终端设备的示意图。如图7所示,该实施例的数据表识别终端设备7包括:处理器70、存储器71,所述存储器71中存储有可在所述处理器70上运行的计算机程序72。所述处理器70执行所述计算机程序72时实现上述各个数据表识别方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至65的功能。
所述数据表识别终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述数据表识别终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是数据表识别终端设备7的示例,并不构成对数据表识别终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述数据表识别终端设备还可以包括输入发送设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述数据表识别终端设备7的内部存储单元,例如数据表识别终端设备7的硬盘或内存。所述存储器71也可以是所述数据表识别终端设备7的外部存储设备,例如所述数据表识别终端设备7上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述数据表识别终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述数据表识别终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经发送或者将要发送的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种数据表识别方法,其特征在于,包括:
对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;
对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像,其中,每张数据表区域图像对应一个字段值单元格和/或一个字段名单元格;
根据所述表格模板的整体表格框架对齐所述数据表图像,在对齐后依次确定出每个单元格对应的数据表区域图像,从而确定出每个字段值单元格一一对应的数据表区域图像,或者将所述表格模板中已填充的字段名单元格内的字段名称跟所述数据表区域图像进行字符识别后的结果进行匹配,并在确定出每个字段名单元格对应的数据表区域图像后,根据表格模板中字段名单元格与字段值单元格的位置关系,确定出每个字段值单元格一一对应的数据表区域图像;
针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;
若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;
根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。
2.如权利要求1所述的数据表识别方法,其特征在于,在所述针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别之前,还包括:
对所述数据表区域图像进行字符识别,并将字符识别得到的所述数据表区域图像对应的区域字符串,与所述表格模板中所述字段名单元格包含的字段名称字符串进行匹配,确定出所述表格模板中所述字段名单元格对应的所述数据表区域图像;
基于所述表格模板中所述字段名单元格与所述字段值单元格的位置关系,以及所述表格模板中所述字段名单元格对应的所述数据表区域图像,确定出所述表格模板中所述字段值单元格对应的所述数据表区域图像。
3.如权利要求1所述的数据表识别方法,其特征在于,若所述字符识别结果满足所述字符串格式要求,还包括:
若所述字段值单元格不具有对应的所述候选字符串库,且所述字符识别结果的字符数大于1,对所述字符识别结果进行文本纠错处理;
将所述文本纠错处理后的所述字符识别结果填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。
4.如权利要求1至3任意一项所述的数据表识别方法,其特征在于,还包括:
若所述字符识别结果不满足所述字符串格式要求,更新所述字段值单元格对应的所述数据表区域图像的字符识别结果不满足所述字符串格式要求的总次数;
若所述总次数小于或等于预设的错误阈值,返回执行对所述字段值单元格对应的所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格预设对应的字符串格式要求的操作;
若所述总次数大于所述错误阈值,将最近一次所述字段值单元格对应的所述数据表区域图像的字符识别结果,填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。
5.如权利要求3所述的数据表识别方法,其特征在于,所述对所述字符识别结果进行文本纠错处理,包括:
利用预设的文本纠错算法对所述字符识别结果进行处理,确定出所述字符识别结果中的待纠错字符,以及所述待纠错字符对应的替换概率最大的N个候选替换字符,其中,N为自然数;
对所述数据表区域图像进行字符图像分割,并确定出与所述待纠错字符对应的字符图像;
对所述字符图像的字符识别结果进行字形结构分析,确定出所述字符图像对应的字形结构信息;
利用所述N个候选替换字符中字形结构信息与所述字符图像的字形结构信息匹配度最大,且替换概率最大的所述候选替换字符,替换对应的所述待纠错字符,得到所述文本纠错处理后的所述字符识别结果。
6.一种数据表识别装置,其特征在于,包括:
模板匹配模块,用于对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;
区域图像分割模块,用于对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像,其中,每张数据表区域图像对应一个字段值单元格和/或一个字段名单元格;根据所述表格模板的整体表格框架对齐所述数据表图像,在对齐后依次确定出每个单元格对应的数据表区域图像,从而确定出每个字段值单元格一一对应的数据表区域图像,或者将所述表格模板中已填充的字段名单元格内的字段名称跟所述数据表区域图像进行字符识别后的结果进行匹配,并在确定出每个字段名单元格对应的数据表区域图像后,根据表格模板中字段名单元格与字段值单元格的位置关系,确定出每个字段值单元格一一对应的数据表区域图像;
区域图像识别模块,用于针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;
第一数据填充模块,用于若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;
结果生成模块,用于根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。
7.如权利要求6所述的数据表识别装置,其特征在于,还包括:
文本纠错模块,用于若所述字段值单元格不具有对应的所述候选字符串库,且所述字符识别结果的字符数大于1,对所述字符识别结果进行文本纠错处理;
第二数据填充模块,用于将所述文本纠错处理后的所述字符识别结果填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。
8.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的数据表识别方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201810963099.3A 2018-08-22 2018-08-22 一种数据表识别方法、装置及终端设备 Active CN109344831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810963099.3A CN109344831B (zh) 2018-08-22 2018-08-22 一种数据表识别方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810963099.3A CN109344831B (zh) 2018-08-22 2018-08-22 一种数据表识别方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN109344831A CN109344831A (zh) 2019-02-15
CN109344831B true CN109344831B (zh) 2024-04-05

Family

ID=65291974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810963099.3A Active CN109344831B (zh) 2018-08-22 2018-08-22 一种数据表识别方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN109344831B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993112B (zh) * 2019-03-29 2021-04-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110083815B (zh) * 2019-05-07 2023-05-23 中冶赛迪信息技术(重庆)有限公司 一种同义变量识别方法和***
CN110297833A (zh) * 2019-07-05 2019-10-01 税安科技(杭州)有限公司 一种业务报表纠错方法
CN110532273A (zh) * 2019-08-30 2019-12-03 北京明略软件***有限公司 数据表的处理方法及装置、存储介质、电子装置
KR20210094483A (ko) * 2020-01-21 2021-07-29 캐논 가부시끼가이샤 문서를 전자화하는 화상 처리 시스템, 그 제어 방법, 및 저장 매체
CN111966794A (zh) * 2020-03-31 2020-11-20 复旦大学附属中山医院 一种诊疗数据的识别方法、***和装置
CN112016424A (zh) * 2020-03-31 2020-12-01 北京来也网络科技有限公司 结合rpa和ai的图像数据处理方法与电子设备
CN111898606B (zh) * 2020-05-19 2023-04-07 武汉东智科技股份有限公司 一种视频图像中叠加透明时间字符的夜间成像识别方法
CN111768565B (zh) * 2020-05-21 2022-03-18 程功勋 一种增值税***中***代码识别后处理方法
CN111767818B (zh) * 2020-06-23 2024-04-26 北京思特奇信息技术股份有限公司 一种业务智能受理的方法和装置
CN111683285B (zh) * 2020-08-11 2021-01-26 腾讯科技(深圳)有限公司 文件内容识别方法、装置、计算机设备及存储介质
CN112149506A (zh) * 2020-08-25 2020-12-29 北京来也网络科技有限公司 结合rpa和ai的图像中的表格生成方法、设备及存储介质
CN112149399B (zh) * 2020-09-25 2024-06-04 北京来也网络科技有限公司 基于rpa及ai的表格信息抽取方法、装置、设备及介质
CN112528832A (zh) * 2020-12-07 2021-03-19 国网青海省电力公司电力科学研究院 对pdf格式的继电保护定值单进行处理的方法和***
CN112926587B (zh) * 2021-02-19 2024-03-29 北京大米未来科技有限公司 一种文本识别的方法、装置、可读存储介质和电子设备
CN112801232A (zh) * 2021-04-09 2021-05-14 苏州艾隆科技股份有限公司 一种应用于处方录入的扫描识别方法及***
CN112995572A (zh) * 2021-04-23 2021-06-18 深圳市黑金工业制造有限公司 一种远程会议***和远程会议中的实物展示方法
CN113128504B (zh) * 2021-04-25 2023-06-20 福州符号信息科技有限公司 一种基于校验规则的ocr识别结果纠错方法、设备
CN114255840B (zh) * 2022-02-25 2022-06-24 广州科犁医学研究有限公司 基于临床研究数据的智能数据处理***
CN114937272A (zh) * 2022-05-26 2022-08-23 中国平安人寿保险股份有限公司 基于文字识别的识别结果检测方法、装置、设备及介质
CN115964989B (zh) * 2023-02-23 2023-09-08 天津联想协同科技有限公司 电子表格的信息显示方法、装置及存储介质
CN116861865A (zh) * 2023-06-26 2023-10-10 江苏常熟农村商业银行股份有限公司 Excel数据处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373791A (zh) * 2015-11-12 2016-03-02 中国建设银行股份有限公司 信息处理方法及信息处理装置
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别***与方法
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN107862303A (zh) * 2017-11-30 2018-03-30 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质
CN108345581A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种信息识别方法、装置和终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373791A (zh) * 2015-11-12 2016-03-02 中国建设银行股份有限公司 信息处理方法及信息处理装置
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别***与方法
CN108345581A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种信息识别方法、装置和终端设备
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN107862303A (zh) * 2017-11-30 2018-03-30 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张艳 等.表格型文档自动识别***及其应用.《***仿真学报》.2009,21(10),第2916-2920页. *

Also Published As

Publication number Publication date
CN109344831A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344831B (zh) 一种数据表识别方法、装置及终端设备
KR102609341B1 (ko) 테이블 식별 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
US10339428B2 (en) Intelligent scoring method and system for text objective question
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
WO2022156066A1 (zh) 文字识别方法、装置、电子设备及存储介质
CN109635305B (zh) 语音翻译方法及装置、设备及存储介质
US11495014B2 (en) Systems and methods for automated document image orientation correction
CN111353501A (zh) 一种基于深度学习的书本点读方法及***
RU2571396C2 (ru) Способ и система для верификации в процессе чтения
CN110728272A (zh) 基于ocr录入证件信息的方法及相关装置
CN111340640A (zh) 一种保险理赔材料审核方法、装置和设备
US20190205463A1 (en) Named entity recognition from short unstructured text
CN112149680B (zh) 错字检测识别方法、装置、电子设备及存储介质
US10242277B1 (en) Validating digital content rendering
US20150003746A1 (en) Computing device and file verifying method
CN112417899A (zh) 文字翻译方法、装置、计算机设备和存储介质
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
US11106908B2 (en) Techniques to determine document recognition errors
CN111104400A (zh) 数据归一方法及装置、电子设备、存储介质
CN111339910B (zh) 文本的处理、文本分类模型的训练方法及装置
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN116860747A (zh) 训练样本的生成方法、装置、电子设备及存储介质
JP2020087112A (ja) 帳票処理装置および帳票処理方法
US11972208B2 (en) Information processing device and information processing method
CN115578736A (zh) 证件信息提取方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant