CN110210455B - 一种打印内容格式化提取方法 - Google Patents

一种打印内容格式化提取方法 Download PDF

Info

Publication number
CN110210455B
CN110210455B CN201910526081.1A CN201910526081A CN110210455B CN 110210455 B CN110210455 B CN 110210455B CN 201910526081 A CN201910526081 A CN 201910526081A CN 110210455 B CN110210455 B CN 110210455B
Authority
CN
China
Prior art keywords
extraction
printing
elements
template
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910526081.1A
Other languages
English (en)
Other versions
CN110210455A (zh
Inventor
夏莫戛
张文静
甘玉涛
樊利红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Jiehong Technology Co ltd
Original Assignee
Shijiazhuang Jiehong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Jiehong Technology Co ltd filed Critical Shijiazhuang Jiehong Technology Co ltd
Priority to CN201910526081.1A priority Critical patent/CN110210455B/zh
Publication of CN110210455A publication Critical patent/CN110210455A/zh
Application granted granted Critical
Publication of CN110210455B publication Critical patent/CN110210455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及文档打印技术领域,具体是一种打印内容格式化提取方法,包括以下步骤:S1.将打印文档的打印内容截取转换为打印元素,生成打印元素集;S2.根据采样的打印元素集设计提取元素,生成提取模版;S3.输入打印元素集和提取模版,利用提取引擎进行运算,生成格式化提取结果。该打印内容格式化提取方法有效解决了纯文本内容提取的不足,可以灵活、高效、准确的提取复杂表单中的内容。对OCR形式进行了有效的补充和优化。对精确坐标提取进行了创新的改进,容器提取元素嵌入基本提取元素的组合可以有效应对复杂的提取表单。可视化的模版设计界面,极大的简化的设计难度,提高了设计的效率。

Description

一种打印内容格式化提取方法
技术领域
本发明涉及文档打印技术领域,具体是一种打印内容格式化提取方法。
背景技术
目前打印输出是各行各业必不可少的一种输出内容方式,但打印输出的内容只适合人眼观看、阅读,无法有效的将输出内容再次数据格式化,不利于数据的二次处理。在当前大数据流行的时代,我们亟需一种方式将其他***的打印输出内容重新数据格式化,这样才能在没有数据接口授权的情况下将公开的有效数据以低成本、高效率的方式重新利用起来。为大数据计算、人工智能等应用提供基础的数据获取解决方案。
现在的内容提取方式主要有三种。第一种,获取纯文本打印内容,针对特殊关键字进行文字分割和查找匹配。第二种,将打印内容完全转换为图片,利用OCR技术提取内容。第三种,解析打印标准,获取到精确的内容和匹配的坐标信息,利用坐标分区提取内容。
三种提取方式各有优缺点:第一种方式的优点是获取基础数据方式简单。缺点是无法精准的提取复杂信息,对于大量不标准表格数据(例如有些行列数据缺失等)极易产生解析错误。第二种方式的优点是可以自由划定提取区域,可对各种形式的打印内容统一转成图片处理。缺点是一般OCR解析内容准确性不高,或依赖大数据训练后获得较高的准确率和性能(技术实现难度高)。第三种方式的优点是内容精确不用解析,内容带坐标方便划分。缺点是不方便将零散的数据组合,对某些原本就是图片内容的数据无法处理。
发明内容
本发明的目的在于提供一种打印内容格式化提取方法,以解决上述背景技术中提出的复杂内容提取困难的问题;主要包括:提取的表单行数不确定,无法准确在提取前确定行数的问题;表单行大小不同对划区提取造成影响的问题;表单数据分页显示提取的问题;提取内容干扰信息去除的问题;图文混排提取方式灵活转换的问题;提取信息浮动定位的问题。
为实现上述目的,本发明提供如下技术方案:
一种打印内容格式化提取方法,包括以下步骤:
S1.将打印文档的打印内容截取转换为打印元素(包括文本内容和相对页面左上角的x、y坐标,还有文本内容显示的高度和宽度信息),生成打印元素集(包括打印文档名称,总共的打印页数,每页的索引号,每页的高度和宽度,每页内包含的打印元素,另外包括每页独立的页面图片);
S2.根据采样的打印元素集设计提取元素(主要包括提取元素类型,关键词,提取范围(提取x、y坐标和高度、宽度,提取元素可以嵌套),和其它一些特殊类型属性信息),生成提取模版;
S3.输入打印元素集和提取模版,利用提取引擎进行运算,生成格式化提取结果(包括所有经过提取元素提取出来的数据,用关键字和提取到的内容组成键值对数据)。
作为本发明进一步的方案:步骤S2中,所述提取模版包括提取模版名称、多个提取元素和一组处理脚本;所述提取元素包括基本提取元素或容器提取元素,提取元素可以嵌套组合。
作为本发明再进一步的方案:所述基本提取元素包括文本提取元素或条码提取元素;所述文本提取元素包含提取键值和一组坐标,一组坐标用于相对于当前页划定一个区域并提取在此区域中的打印元素,提取键值用于将提取到的内容生成键值对。
作为本发明再进一步的方案:所述容器提取元素包括表单提取元素;所述表单提取元素中设置有多个基础的文本提取元素,并且所述文本提取元素的坐标相对于它的父容器表单提取元素。
作为本发明再进一步的方案:步骤S1的具体实现方法为:
S1-1.使用格式化虚拟打印机,将打印文档转换为EMF文件;
S1-2.解析EMF文件,提取坐标和内容,生成打印元素文档;
S1-3.解析每个打印页,转换成页面图片。
作为本发明再进一步的方案:步骤S2的具体实现方法为:
S2-1.使用捷弘打印格式化提取模版设计客户端进行处理;
S2-2.导入打印元素集样本数据;
S2-3.在可视化界面的辅助下,用鼠标拖拽设置提取元素,并设置相关提取参数;
S2-4.测试提取并检查提取结果,如果不满意则重复步骤S2-2至S2-4,直到多个同一格式的打印样本提取结果都满意为止;
S2-5.保存打印提取模版,并上传到打印格式化提取服务器,绑定打印类型。
作为本发明再进一步的方案:步骤S3的具体实现方法为:
S3-1.将生成的打印元素文档和页面图片上传到打印格式化提取服务器;
S3-2.打印格式化提取服务器根据上传的相关打印类型调取已经设计好的打印提取模版;
S3-3.提取引擎根据已知输入信息运算,自动进行格式化提取,并将提取结果保存到数据库中。
作为本发明再进一步的方案:步骤S3-3中,提取引擎运行步骤为:
S3-3-1.遍历所有页面,并将当前页面的打印元素和页面图片封装到一起,作为下面的输入参数;
S3-3-2.在当前页面遍历所有的顶级提取元素,进行提取运算:
S3-3-2-1.如果提取元素是基本提取元素,如文本提取元素或条码提取元素,则直接将此提取元素的提取结果配合此提取元素的关键词组成键值对返回;
S3-3-2-2.如果提取元素是容器提取元素,如表单提取元素,则遍历其所有子提取元素,进行提取,并将子提取元素的提取结果组成队列,配合此容器提取元素的关键词组成键值对返回;
S3-3-3.将所有返回的键值对转换为json格式的格式化提取结果;
S3-3-4.将格式化提取结果以参数的形式传递给处理脚本,由处理脚本进行二次处理,或原封不动的直接返回。
与现有技术相比,本发明的有益效果是:
该打印内容格式化提取方法解决了复杂内容提取困难的问题,主要包括:提取的表单行数不确定,无法准确在提取前确定行数的问题;表单行大小不同对划区提取造成影响的问题;表单数据分页显示提取的问题;提取内容干扰信息去除的问题;图文混排提取方式灵活转换的问题;提取信息浮动定位的问题。
该打印内容格式化提取方法有效解决了纯文本内容提取的不足,可以灵活、高效、准确的提取复杂表单中的内容。对OCR形式进行了有效的补充和优化,精确的划定范围有效的提高了OCR的运算效率。对精确坐标提取进行了创新的改进,容器提取元素嵌入基本提取元素的组合可以有效应对复杂的提取表单,并针对表单内容的多种疑难提取问题进行了有针对的处理。可视化的模版设计界面,极大的简化的设计难度,提高了设计的效率。
附图说明
图1为本发明实施例的流程框图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1,本发明实施例中,一种打印内容格式化提取方法,包括以下步骤:
S1.将打印文档的打印内容截取转换为打印元素(包括文本内容和相对页面左上角的x、y坐标,还有文本内容显示的高度和宽度信息),生成打印元素集(包括打印文档名称,总共的打印页数,每页的索引号,每页的高度和宽度,每页内包含的打印元素,另外包括每页独立的页面图片);
S2.根据采样的打印元素集设计提取元素(主要包括提取元素类型,关键词,提取范围(提取x、y坐标和高度、宽度,提取元素可以嵌套),和其它一些特殊类型属性信息),生成提取模版;
S3.输入打印元素集和提取模版,利用提取引擎进行运算,生成格式化提取结果(包括所有经过提取元素提取出来的数据,用关键字和提取到的内容组成键值对数据)。
进一步的,步骤S2中,所述提取模版包括提取模版名称、多个提取元素和一组处理脚本;所述提取元素包括基本提取元素或容器提取元素,提取元素可以嵌套组合。
具体的,所述基本提取元素包括文本提取元素或条码提取元素;所述文本提取元素包含提取键值和一组坐标,一组坐标用于相对于当前页划定一个区域并提取在此区域中的打印元素,提取键值用于将提取到的内容生成键值对。
具体的,所述容器提取元素包括表单提取元素;所述表单提取元素中设置有多个基础的文本提取元素,并且所述文本提取元素的坐标相对于它的父容器表单提取元素。
具体的,步骤S1的具体实现方法为:
S1-1.使用格式化虚拟打印机,将打印文档转换为EMF文件,具体的,使用捷弘格式化虚拟打印机打印;
S1-2.解析EMF文件,提取坐标和内容,生成打印元素文档(jhcef格式文件);
S1-3.解析每个打印页,转换成页面图片;具体的,可以转换成jpg图片。
具体的,步骤S2的具体实现方法为:
S2-1.使用捷弘打印格式化提取模版设计客户端进行处理;
S2-2.导入打印元素集样本数据;
S2-3.在可视化界面的辅助下,用鼠标拖拽设置提取元素,并设置相关提取参数;
S2-4.测试提取并检查提取结果,如果不满意则重复步骤S2-2至S2-4,直到多个同一格式的打印样本提取结果都满意为止;
S2-5.保存打印提取模版,并上传到打印格式化提取服务器,绑定打印类型。
具体的,步骤S3的具体实现方法为:
S3-1.将生成的打印元素文档和页面图片上传到打印格式化提取服务器;
S3-2.打印格式化提取服务器根据上传的相关打印类型调取已经设计好的打印提取模版;
S3-3.提取引擎根据已知输入信息运算,自动进行格式化提取,并将提取结果保存到数据库中,格式化提取结果文档格式为jhcer。
进一步的,步骤S3-3中,提取引擎运行步骤为:
S3-3-1.遍历所有页面,并将当前页面的打印元素和页面图片封装到一起,作为下面的输入参数;
S3-3-2.在当前页面遍历所有的顶级提取元素,进行提取运算:
S3-3-2-1.如果提取元素是基本提取元素,如文本提取元素或条码提取元素,则直接将此提取元素的提取结果配合此提取元素的关键词组成键值对返回;
S3-3-2-2.如果提取元素是容器提取元素,如表单提取元素,则遍历其所有子提取元素,进行提取,并将子提取元素的提取结果组成队列,配合此容器提取元素的关键词组成键值对返回;
S3-3-3.将所有返回的键值对转换为json格式的格式化提取结果;
S3-3-4.将格式化提取结果以参数的形式传递给处理脚本,由处理脚本进行二次处理,或原封不动的直接返回。
本发明综合利用现有各方案的优点,在合适的环境下使用合适的方案组合,达到最佳的提取格式化效果。本发明根据带坐标的打印元素,设计了提取模版。提取模版中包括多个提取元素,和一组处理脚本。提取元素分为文本提取元素,表单提取元素,条码提取元素。其中文本提取元素是最基本的提取元素,它包含一组坐标可以相对于当前页划定一个区域,用来提取在此区域中的打印元素。另外它还包含提取键值,用来将提取到的内容生成键值对。表单提取元素是一个容器提取元素,它需要在其中设置多个基础的文本提取元素,这些文本提取元素的坐标相对于他的父容器表单提取元素。利用可视化的界面我们可以方便用户通过点击拖拽鼠标设置好这提取模版。然后将打印元素和提取模版交给提取引擎进行计算,计算后将得到json格式的提取结果。该打印内容格式化提取方法有效解决了纯文本内容提取的不足,可以灵活、高效、准确的提取复杂表单中的内容。对OCR形式进行了有效的补充和优化,精确的划定范围有效的提高了OCR的运算效率。对精确坐标提取进行了创新的改进,容器提取元素嵌入基本提取元素的组合可以有效应对复杂的提取表单,并针对表单内容的多种疑难提取问题进行了有针对的处理。可视化的模版设计界面,极大的简化的设计难度,提高了设计的效率。
上面对本发明的较佳实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.一种打印内容格式化提取方法,其特征在于,包括以下步骤:
S1.将打印文档的打印内容截取转换为打印元素,生成打印元素集;
S2.根据采样的打印元素集设计提取元素,生成提取模版;
S3.输入打印元素集和提取模版,利用提取引擎进行运算,生成格式化提取结果;
步骤S2中,所述提取模版包括提取模版名称、多个提取元素和一组处理脚本;所述提取元素包括容器提取元素;
所述容器提取元素包括表单提取元素;所述表单提取元素中设置有多个基础的文本提取元素,并且所述文本提取元素的坐标相对于它的父容器表单提取元素;
步骤S1的具体实现方法为:
S1-1.使用格式化虚拟打印机,将打印文档转换为EMF文件;
S1-2.解析EMF文件,提取坐标和内容,生成打印元素文档;
S1-3.解析每个打印页,转换成页面图片;
步骤S2的具体实现方法为:
S2-1.使用打印格式化提取模版设计客户端进行处理;
S2-2.导入打印元素集样本数据;
S2-3.在可视化界面的辅助下,用鼠标拖拽设置提取元素,并设置相关提取参数;
S2-4.测试提取并检查提取结果,如果不满意则重复步骤S2-2至S2-4,直到多个同一格式的打印样本提取结果都满意为止;
S2-5.保存打印提取模版,并上传到打印格式化提取服务器,绑定打印类型;
步骤S3的具体实现方法为:
S3-1.将生成的打印元素文档和页面图片上传到打印格式化提取服务器;
S3-2.打印格式化提取服务器根据上传的相关打印类型调取已经设计好的打印提取模版;
S3-3.提取引擎根据已知输入信息运算,自动进行格式化提取,并将提取结果保存到数据库中;
步骤S3-3中,提取引擎运行步骤为:
S3-3-1.遍历所有页面,并将当前页面的打印元素和页面图片封装到一起,作为下面的输入参数;
S3-3-2.在当前页面遍历所有的提取元素,进行提取运算;
提取元素是容器提取元素,则遍历其所有子提取元素,进行提取,并将子提取元素的提取结果组成队列,配合此容器提取元素的关键词组成键值对返回;
S3-3-3.将所有返回的键值对转换为json格式的格式化提取结果;
S3-3-4.将格式化提取结果以参数的形式传递给处理脚本,由处理脚本进行二次处理,或原封不动的直接返回。
CN201910526081.1A 2019-06-18 2019-06-18 一种打印内容格式化提取方法 Active CN110210455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910526081.1A CN110210455B (zh) 2019-06-18 2019-06-18 一种打印内容格式化提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910526081.1A CN110210455B (zh) 2019-06-18 2019-06-18 一种打印内容格式化提取方法

Publications (2)

Publication Number Publication Date
CN110210455A CN110210455A (zh) 2019-09-06
CN110210455B true CN110210455B (zh) 2022-03-01

Family

ID=67793281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910526081.1A Active CN110210455B (zh) 2019-06-18 2019-06-18 一种打印内容格式化提取方法

Country Status (1)

Country Link
CN (1) CN110210455B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035076A (zh) * 2020-08-25 2020-12-04 上海中通吉网络技术有限公司 基于json的打印解析方法、装置、设备和打印***
CN113360106B (zh) * 2021-06-30 2022-12-09 建信金融科技有限责任公司 一种网页打印方法和装置
CN114035755A (zh) * 2021-11-16 2022-02-11 上海中通吉网络技术有限公司 图片处理方法和打印方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713884A (zh) * 2010-01-29 2012-10-03 惠普发展公司,有限责任合伙企业 远程打印
CN102819532A (zh) * 2011-06-07 2012-12-12 解玉麟 一种网页表单数据获取及转存方法
US8606010B2 (en) * 2011-03-18 2013-12-10 Seiko Epson Corporation Identifying text pixels in scanned images
CN103890748A (zh) * 2011-10-17 2014-06-25 谷歌公司 基于云的打印服务中的漫游打印
CN104657091A (zh) * 2013-11-20 2015-05-27 航天信息股份有限公司 一种税控***中模板数据格式化打印方法
CN106445426A (zh) * 2016-08-31 2017-02-22 深圳市华阳信通科技发展有限公司 基于打印驱动的文本数据采集与打印控制方法及***
JP2017041073A (ja) * 2015-08-19 2017-02-23 株式会社スプラインネットワーク 印刷データ管理システム、情報処理装置、印刷データ取得プログラム、方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6454381B1 (en) * 2001-04-27 2002-09-24 Hewlett-Packard Company Method and apparatus for providing ink container extraction characteristics to a printing system
AU2002952711A0 (en) * 2002-11-18 2002-11-28 Typefi Systems Pty Ltd A method of formatting documents
JP4328604B2 (ja) * 2003-11-21 2009-09-09 キヤノン株式会社 画像処理方法、画像処理装置及びプログラム
JP4095617B2 (ja) * 2005-02-28 2008-06-04 キヤノン株式会社 文書処理装置及び文書処理方法及びコンピュータプログラム
US8150156B2 (en) * 2006-01-04 2012-04-03 International Business Machines Corporation Automated processing of paper forms using remotely-stored templates
US8085980B2 (en) * 2008-08-13 2011-12-27 Lockheed Martin Corporation Mail piece identification using bin independent attributes
CN102830947A (zh) * 2012-08-13 2012-12-19 南京莱斯信息技术股份有限公司 一种基于报表打印模板格式实现的报表打印控件
US9052863B2 (en) * 2012-08-14 2015-06-09 Seiko Epson Corporation ePOS printing
US9864741B2 (en) * 2014-09-23 2018-01-09 Prysm, Inc. Automated collective term and phrase index
CN105589686B (zh) * 2014-11-14 2021-03-02 航天信息股份有限公司 WinCE平台下基于模板的信息录入、打印方法和装置
US10324926B2 (en) * 2015-05-15 2019-06-18 Microsoft Technology Licensing, Llc System and method for extracting and sharing application-related user data
CN105653216A (zh) * 2015-12-25 2016-06-08 珠海奔图电子有限公司 一种打印控制***和方法
CN107025452A (zh) * 2016-01-29 2017-08-08 富士通株式会社 图像识别方法和图像识别设备
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
JP6887233B2 (ja) * 2016-09-02 2021-06-16 株式会社アイリックコーポレーション 保険証券画像解析システム、記載内容解析装置、携帯端末および携帯端末用のプログラム
CN108334627B (zh) * 2018-02-12 2022-09-23 北京百度网讯科技有限公司 新媒体内容的搜索方法、装置和计算机设备
CN109543690B (zh) * 2018-11-27 2020-04-07 北京百度网讯科技有限公司 用于提取信息的方法和装置
CN109657669B (zh) * 2018-12-13 2023-02-14 江西金格科技有限公司 一种基于图像处理的电子***智能提取方法
CN109840278A (zh) * 2019-01-28 2019-06-04 平安科技(深圳)有限公司 柱状图数据转换控制方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713884A (zh) * 2010-01-29 2012-10-03 惠普发展公司,有限责任合伙企业 远程打印
US8606010B2 (en) * 2011-03-18 2013-12-10 Seiko Epson Corporation Identifying text pixels in scanned images
CN102819532A (zh) * 2011-06-07 2012-12-12 解玉麟 一种网页表单数据获取及转存方法
CN103890748A (zh) * 2011-10-17 2014-06-25 谷歌公司 基于云的打印服务中的漫游打印
CN104657091A (zh) * 2013-11-20 2015-05-27 航天信息股份有限公司 一种税控***中模板数据格式化打印方法
JP2017041073A (ja) * 2015-08-19 2017-02-23 株式会社スプラインネットワーク 印刷データ管理システム、情報処理装置、印刷データ取得プログラム、方法
CN106445426A (zh) * 2016-08-31 2017-02-22 深圳市华阳信通科技发展有限公司 基于打印驱动的文本数据采集与打印控制方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《一招解决PDF打印和内容提取问题》;我心飞翔;《软件与***》;20110331;全文 *
《基于打印指令的打印数据文本信息的提取和追加》;李培然;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160715(第7期);全文 *

Also Published As

Publication number Publication date
CN110210455A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
US20210073531A1 (en) Multi-page document recognition in document capture
CN110210455B (zh) 一种打印内容格式化提取方法
EP3437019B1 (en) Optical character recognition in structured documents
US20200065601A1 (en) Method and system for transforming handwritten text to digital ink
US10120537B2 (en) Page-independent multi-field validation in document capture
Mara et al. GigaMesh and gilgamesh: –3D multiscale integral invariant cuneiform character extraction
US9740995B2 (en) Coordinate-based document processing and data entry system and method
US20130238968A1 (en) Automatic Creation of a Table and Query Tools
US9298685B2 (en) Automatic creation of multiple rows in a table
US10339373B1 (en) Optical character recognition utilizing hashed templates
US9558400B2 (en) Search by stroke
US9396389B2 (en) Techniques for detecting user-entered check marks
CN110363190A (zh) 一种文字识别方法、装置及设备
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
JP5905690B2 (ja) 答案処理装置、答案処理方法、プログラム、およびシール
CN108369647B (zh) 基于图像的质量控制
US20230334889A1 (en) Systems and methods for spatial-aware information extraction from electronic source documents
Lin et al. Automatic receipt recognition system based on artificial intelligence technology
CN111563181B (zh) 数字图像文件查询方法、装置及可读存储介质
CN116798055A (zh) 表单录入方法及装置、电子设备和计算机可读介质
CN113850265A (zh) Pdf文档的解析方法、装置、电子设备及存储介质
TWM607472U (zh) 文字區段標籤系統
US20230121351A1 (en) Systems and processes of extracting unstructured data from complex documents
TWI787651B (zh) 文字區段標籤方法與系統
US9201857B2 (en) Finding multiple field groupings in semi-structured documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant