CN115294588B - 一种基于rpa流程机器人的数据处理方法及*** - Google Patents

一种基于rpa流程机器人的数据处理方法及*** Download PDF

Info

Publication number
CN115294588B
CN115294588B CN202210983630.XA CN202210983630A CN115294588B CN 115294588 B CN115294588 B CN 115294588B CN 202210983630 A CN202210983630 A CN 202210983630A CN 115294588 B CN115294588 B CN 115294588B
Authority
CN
China
Prior art keywords
manager
characters
confidence
area
handwriting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210983630.XA
Other languages
English (en)
Other versions
CN115294588A (zh
Inventor
徐辉
姜勇
黄仁亮
伍小冬
朱雪琼
黄蒙蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Infotech Co ltd
Original Assignee
Hubei Infotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Infotech Co ltd filed Critical Hubei Infotech Co ltd
Priority to CN202210983630.XA priority Critical patent/CN115294588B/zh
Publication of CN115294588A publication Critical patent/CN115294588A/zh
Application granted granted Critical
Publication of CN115294588B publication Critical patent/CN115294588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2455Discrimination between machine-print, hand-print and cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于RPA流程机器人的表格数据处理方法及***,其特征是:S1.读取表格的内容,区分内容中是否包含手写字;S2.根据表格的类型对表格的区域进行模块划分,将手写字所在区域划分为模糊区域;S3.根据表格内的文字中手写字的占比对读取到的表格中文字内容进行置信度赋值;S4.将模糊区域的文字的置信度值与预设的置信度值进行比较,向管理人员输出提示信息。该方案可以对表格文件的文字内容进行自动转化和提取;且能区分表格中的手写字,并对提取到达表格内容的可信度进行自动预判,当预判到可信度较低时,提示管理人员人工对提取到的文字内容进行审核、修改和确认。该方案其可以部分取代人工操作对表格信息自动提取,能显著提高工作效率。

Description

一种基于RPA流程机器人的数据处理方法及***
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于RPA流程机器人的表格数据处理方法及***。
背景技术
RPA机器人流程自动化是指开发人员预先设计流程规则,使得机器人能够模拟人工进行文本输入、复制、粘贴,以及鼠标移动、点击等操作,从而代替或协助人类完整重复性工作。
例如,申请号为CN202111033494.X的中国专利公开了一种基于RPA机器人的数据处理方法及装置,也可用于金融领域,方法包括:通过调用RPA机器人接口获取所述RPA机器人的基础功能组件和相应的业务流程报文,并根据与所述RPA机器人对应的报文规范对所述基础功能组件和所述业务流程报文进行归类抽象处理,得到结构化数据字典并向用户展示;接收所述用户对所述结构化数据字典进行选取后发送的基础功能模块选取指令和业务流程执行指令并生成RPA开发需求;本申请能够有效提升RPA需求挖掘与提出效率。
在电力***中,为了加强业务流程的信息化管理,需要将纸质表格和各种格式的电子表格及在线表格的信息进行提取和集中管理。现有的信息提取主要是采用人工扫描配合手动复制输入的方式,将表格信息输入到管理***中,需要大量的重复性劳动,浪费人力资源,且人工操作容易出现错漏,效率低下,有待改进。
发明内容
基于上述表述,本发明提供了一种RPA流程机器人的表格数据处理方法及***,其可以部分取代人工操作对表格信息自动提取,能提高工作效率。
本发明解决上述技术问题的技术方案如下:
一种基于RPA流程机器人的表格数据处理方法,包括以下步骤:
S1.对表格进行识别和预处理,将表格中的内容转化为可读取内容,对转化后的内容进行读取,区分内容中是否包含手写字,并据此对表格的类型进行定义;
S2.根据表格的类型对表格的区域进行模块划分,将手写字所在区域划分为模糊区域,而其他区域为可信区域;
S3.根据表格内的文字中手写字的占比对读取到的表格中文字内容进行置信度赋值;
S4.将模糊区域的文字的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
作为优选方案:S1步骤中对表格进行识别和预处理,对表格文件的后缀进行读取,判断表格的格式,对于图片或PDF格式的表格对其文字进行OCR识别,得到可读取的文字信息。
作为优选方案:在进行OCR识别时,根据文字的笔划平直度来确定该文字是书写字还是机打字,并对识别到的每个文字进行标记和统计,汇总后计算得手写字在所有文字中的占比。
作为优选方案:当识别到表格中有手写字时,还包括对书写人识别和标记的步骤,在输出提示信息的同时向管理人员输出书写人的识别信息,并弹出可点选的操作窗,提示管理人员对该书写人的手写文字识别度进行赋值,即得到识别度值,多次赋值后计算得到该书写人的平均识别度值,将平均识别度值与模糊区域的文字置信度值进行计算,得到修正置信度,并将修正置信度与所述预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息。
作为优选方案:当识别到表格中有填写区域未填写内容时,向管理人管输出缺失信息,提示管理人员进行确认修改确认。
作为优选方案:向管理人员弹出可点选的操作窗,由管理人员选择所需提示的填写区域,当所需的填写区域未填写内容时,向管理人员输出缺失信息,提示管理人员进行修改确认。
作为优选方案:在向管理人员输出提示信息时,通过颜色和下划线对提示的内容进行标记显示。
一种基于RPA流程机器人的表格数据处理***,包括:
预处理模块,其用于根据表格文件的后缀对表格文件进行识别和分类;
OCR识别模块,其用于对图片类或PDF类表格文件进行OCR识别,并根据笔划的平直度对机打字和手写字进行区分;
标识模块,其用于对OCR识别模块输出的识别文字进行排版和标记,将手写字所在区域定义为模糊区域,将其他区域定义为可信区域,通过颜色或下划线对模糊区域进行标记显示;
读取模块,其用于对OCR识别模块识别到的文字进行读取,汇总并计算手写字在所有识别到的文字中的占比,并输出统计结果;
赋值模块,其用于根据手写字的占比对表格文件的识别内容进行置信度赋值,手写字占比越高,则置信度越低;
比对提示模块,其用于将表格的文字内容的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
作为优选方案:所述赋值模块还包括修正单元,所述读取模块对识别到的文字内容中的签名处的人名进行读取,所述修正单元用于供管理人员对读取到的人名进行识别度赋值,所述修正单元用于将识别度值与置信度值进行计算,得到修正后的置信度值。
与现有技术相比,本申请的技术方案具有以下有益技术效果:该方案可以对表格文件的类型进行区分和定义,对可读取表格文件中的文字内容直接提取,并能对不可读取表格文件的文字内容进行自动转化和提取;且能区分表格中的手写字,并根据提取到的文字内容中的手写字的占比对提取到达表格内容的可信度进行自动预判,当预判到可信度较低时,才提示管理人员人工对提取到的文字内容进行审核、修改和确认,从而能避免出现向管理***输入错误信息。该方案其可以部分取代人工操作对表格信息自动提取,能显著提高工作效率。
附图说明
图1为实施例一中的方法流程框图。
具体实施方式
实施例一:
参照图1,一种基于RPA流程机器人的表格数据处理方法,包括以下步骤:
S1.对表格进行识别和预处理,将表格中的内容转化为可读取内容,对转化后的内容进行读取,区分内容中是否包含手写字,并据此对表格的类型进行定义;
在实际的情况中,表格的文件格式多种多样,结合业务中所用到的几种表格格式,提前将表格格式进行规定,例如规定在业务流程中只能使用后缀为doc、docx、wps、xls、jpg、png、pdf、htm、html格式的表格文件。根据后缀对表格文件进行分类,将表格文件大致分为两类,第一类为可直接读取,第二类为不可直接读取。
doc、docx、wps、xls为标准的文档格式,此类表格文件的内容无需识别就能准确读取;htm、html为网页文档格式,此类表格文件的内容也可以直接读取。
而jpg、png、pdf为图片和PDF格式的表格文件,此类表格文件的内容不能直接读取,因而需要先将此类表格的内容识别和转化为可读取的文件格式,再读取其内容。且由于图片和PDF格式的表格文件中通常含有手写字和签名,即包含手写内容,在对手写内容进行识别和输出时,难以避免存在识别出错的情况。且一个表格文件中手写内容越多时,对手写内容进行识别出错的频次也越高。
本实施例中,当识别到表格文件的后缀为doc、docx、wps、xls、htm、html格式的表格文件时,直接读取并输出表格文件里面的内容;当识别到表格文件的后缀为jpg、png或pdf时,通过对表格文件内容进行OCR识别,识别并输出表格内的文字信息。且在识别过程中通过判断各个文字的笔划平直度来区分该文字是机打字还是手写字。
判断笔划的平直度先是建立坐标系,选取文字的其中几个笔划(OCR识别,白色区域为空白区域,黑色区域为笔划),在每个笔划上选取几个点(即在几处连续的黑色区域选取几个点)并确定几个点的坐标,通过相邻三个点的横纵坐标的差值大小来判断,若出现相邻三个点的横纵坐标等值变化的情况,则认为当前文字为机打字,否则为手写字。
当表格文件中不含手写字时,将其定义为“一类”文件;当表格文件中含有手写字时,将其定义为“二类”文件。
S2.根据表格的类型对表格的区域进行模块划分,将手写字所在区域划分为模糊区域,而其他区域为可信区域;
对于“一类”文件,将其整体划分为可信文件;二对于“二类”文件,将其内容中的手写字区域划分为模糊区域,而其他区域划分为可信区域。
S3.根据表格内的文字中手写字的占比对读取到的表格中文字内容进行置信度赋值;
对“二类”文件,进行OCR识别,在OCR识别的过程中,对手写字、机打字进行区分和统计,并计算手写字在文字中的占比,输出统计结果。由于表格文件中手写内容越多时,对手写内容进行识别出错的频次也越高。所以手写字的占比对表格文件内容整体识别的准确度是有直接影响的,可以简单定义:手写字的占比越高,则整体识别的准确度越低。根据手写字的占比对表格文件的识别置信度赋值,例如:无手写字时,置信度为10;当手写字的占比低于10%时,置信度为9;手写字占比为10%-20%时,置信度为8……手写字占比为80%-90%时,置信度为1;手写字占比大于90%时,置信度为0。
S4.将模糊区域的文字的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
通过预先设定提示规则,例如只有当读取到的表格文件的内容的置信度低于8时,输出读取到的文字内容,提示管理人员对读取到的文字内容进行审阅、修改和确认,在管理人员点击确认后,该表格文件中读取到的文字内容才算有效内容,可以进行后续的流程,否则不能继续后续的流程。
实际上,对于不同的书写人,其手写字的笔迹和工整度都不一样,而书写的笔迹和工整度都会直接影响到OCR识别的准确度,笔迹越清晰、工整度越高,则识别的准确度越高。因此,不对不同的书写人,其手写字的识别准确度是不同的,所以可以根据书写人的手写字识别准确度来对表格文件中读取到的文字内容的置信度进行修正,而不仅仅是参考手写字的占比。对于手写字识别准确度较高的书写人,其手写字可能都能准确识别,因此不必对由包含其手写字的表格文件的内容进行赋值并提示,以减少不必要的提示,提高表格数据处理的效率。
具体实现方式为:在S4在步骤中,当读取到的表格文件的内容置信度低于预设值时,输出读取到的文字内容,输出的文字内容中包含书写人的签名,提示管理人员对输出的文字内容进行人工审核修改和确认,以修正识别错误的文字,管理人员修改完成点击确认后,文字内容才认为是有效内容,才能执行下一步的流程。若输出的文字内容中包含书写人的签名,在管理人员点击完成确认后,还弹出该识别度赋值点选框,提示管理人员对该书写人的手写字的识别度(即识别准确度)输入赋值。管理人员可以根据手动修正的字数给来赋值,修正的字数越多则赋值越低,若书写人的手写字都能准确识别,则其识别度值大于1
对同一书写人的多个表格文件内的手写字识别度进行赋值,计算得到该书写人的平均识别度值,将平均识别度值与模糊区域的文字置信度值进行计算,得到修正置信度,并将修正置信度与所述预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息。
如此,当书写人的手写字都能准确识别时,其修正置信度必然是大于预设的置信度的,对于包含有该书写人手写字的表格文字内容,***将不会输出识别到的文字内容而是自动认为文字内容是有效内容,自动进入下一步流程,无需管理人员进行审核、修改和确认的步骤,减少不必要的提示,提高工作效率。
本实施例中,当识别到表格中有填写区域(OCR识别到表格中的长段下划线,认为该区域为填写区域,若该区域内未识别到文字,则认为未填写)未填写内容时,向管理人管输出缺失信息,提示管理人员进行确认修改确认。具体为向管理人员弹出可点选的操作窗,由管理人员选择所需提示的填写区域。
本实施例中,在向管理人员输出提示信息时,通过颜色和下划线对模糊区域和缺失区域进行标记显示,以便于管理人员快速直观地找到需要审核修改的区域,可以提高操作效率。
实施例二:
一种基于RPA流程机器人的表格数据处理***,其特征是,包括:
预处理模块,其用于根据表格文件的后缀对表格文件进行识别和分类;
OCR识别模块,其用于对图片类或PDF类表格文件进行OCR识别,并根据笔划的平直度对机打字和手写字进行区分;
标识模块,其用于对OCR识别模块输出的识别文字进行排版和标记,将手写字所在区域定义为模糊区域,将其他区域定义为可信区域,通过颜色或下划线对模糊区域进行标记显示;
读取模块,其用于对OCR识别模块识别到的文字进行读取,汇总并计算手写字在所有识别到的文字中的占比,并输出统计结果;
赋值模块,其用于根据手写字的占比对表格文件的识别内容进行置信度赋值,手写字占比越高,则置信度越低;
比对提示模块,其用于将表格的文字内容的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
本实施例中:所述赋值模块还包括修正单元,所述读取模块对识别到的文字内容中的签名处的人名进行读取,所述修正单元用于供管理人员对读取到的人名进行识别度赋值,所述修正单元用于将识别度值与置信度值进行计算,得到修正后的置信度值。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于RPA流程机器人的表格数据处理方法,其特征是,包括以下步骤:
S1.对表格进行识别和预处理,将表格中的内容转化为可读取内容,对转化后的内容进行读取,区分内容中是否包含手写字,并据此对表格的类型进行定义;
S2.根据表格的类型对表格的区域进行模块划分,将手写字所在区域划分为模糊区域,而其他区域为可信区域;
S3.根据表格内的文字中手写字的占比对读取到的表格中文字内容进行置信度赋值;
S4.将模糊区域的文字的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认;当识别到表格中有手写字时,还对书写人识别和标记,在输出提示信息的同时向管理人员输出书写人的识别信息,并弹出可点选的操作窗,提示管理人员对该书写人的手写文字识别度进行赋值,即得到识别度值,多次赋值后计算得到该书写人的平均识别度值,将平均识别度值与模糊区域的文字置信度值进行计算,得到修正置信度,并将修正置信度与所述预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息。
2.根据权利要求1所述的基于RPA流程机器人的表格数据处理方法,其特征是:S1步骤中对表格进行识别和预处理,对表格文件的后缀进行读取,判断表格的格式,对于图片或PDF格式的表格对其文字进行OCR识别,得到可读取的文字信息。
3.根据权利要求2所述的基于RPA流程机器人的表格数据处理方法,其特征是:在进行OCR识别时,根据文字的笔划平直度来确定该文字是书写字还是机打字,并对识别到的每个文字进行标记和统计,汇总后计算得手写字在所有文字中的占比。
4.根据权利要求1所述的基于RPA流程机器人的表格数据处理方法,其特征是:当识别到表格中有填写区域未填写内容时,向管理人管输出缺失信息,提示管理人员进行确认修改确认。
5.根据权利要求1所述的基于RPA流程机器人的表格数据处理方法,其特征是:向管理人员弹出可点选的操作窗,由管理人员选择所需提示的填写区域,当所需的填写区域未填写内容时,向管理人员输出缺失信息,提示管理人员进行修改确认。
6.根据权利要求1所述的基于RPA流程机器人的表格数据处理方法,其特征是:在向管理人员输出提示信息时,通过颜色和下划线对提示的内容进行标记显示。
7.一种基于RPA流程机器人的表格数据处理***,其特征是,包括:
预处理模块,其用于根据表格文件的后缀对表格文件进行识别和分类;
OCR识别模块,其用于对图片类或PDF类表格文件进行OCR识别,并根据笔划的平直度对机打字和手写字进行区分;
标识模块,其用于对OCR识别模块输出的识别文字进行排版和标记,将手写字所在区域定义为模糊区域,将其他区域定义为可信区域,通过颜色或下划线对模糊区域进行标记显示;
读取模块,其用于对OCR识别模块识别到的文字进行读取,汇总并计算手写字在所有识别到的文字中的占比,并输出统计结果;
赋值模块,其用于根据手写字的占比对表格文件的识别内容进行置信度赋值,手写字占比越高,则置信度越低;所述赋值模块还包括修正单元,所述读取模块对识别到的文字内容中的签名处的人名进行读取,所述修正单元用于供管理人员对读取到的人名进行识别度赋值,所述修正单元用于将识别度值与置信度值进行计算,得到修正后的置信度值;
比对提示模块,其用于将表格的文字内容的置信度值与预设的置信度值进行比较,当前者小于后者时,向管理人员输出提示信息,提示管理人员对识别到的模糊区域的信息进行修改确认。
CN202210983630.XA 2022-08-17 2022-08-17 一种基于rpa流程机器人的数据处理方法及*** Active CN115294588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210983630.XA CN115294588B (zh) 2022-08-17 2022-08-17 一种基于rpa流程机器人的数据处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210983630.XA CN115294588B (zh) 2022-08-17 2022-08-17 一种基于rpa流程机器人的数据处理方法及***

Publications (2)

Publication Number Publication Date
CN115294588A CN115294588A (zh) 2022-11-04
CN115294588B true CN115294588B (zh) 2024-04-19

Family

ID=83829855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210983630.XA Active CN115294588B (zh) 2022-08-17 2022-08-17 一种基于rpa流程机器人的数据处理方法及***

Country Status (1)

Country Link
CN (1) CN115294588B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160831A (ja) * 1993-12-09 1995-06-23 Fuji Facom Corp 手書き文字認識結果のリジェクト方法
CN107545391A (zh) * 2017-09-07 2018-01-05 安徽共生物流科技有限公司 一种基于图像识别的物流单据智能分析与自动存储方法
CN112149399A (zh) * 2020-09-25 2020-12-29 北京来也网络科技有限公司 基于rpa及ai的表格信息抽取方法、装置、设备及介质
CN112639818A (zh) * 2018-08-27 2021-04-09 京瓷办公信息***株式会社 Ocr***
CN113191309A (zh) * 2021-05-19 2021-07-30 杭州点望科技有限公司 一种手写汉字的识别、评分、纠错方法及***
CN113377958A (zh) * 2021-07-07 2021-09-10 北京百度网讯科技有限公司 一种文档分类方法、装置、电子设备以及存储介质
CN113378822A (zh) * 2021-07-08 2021-09-10 中教云智数字科技有限公司 一种在试卷中使用特殊标记框标注手写答案区域的***
CN113919303A (zh) * 2021-11-02 2022-01-11 中国工商银行股份有限公司 一种自动生成业务信息表的方法及装置
CN113936130A (zh) * 2021-09-29 2022-01-14 未鲲(上海)科技服务有限公司 基于ocr技术的文档信息智能获取和纠错方法、***及设备
CN114417798A (zh) * 2022-01-19 2022-04-29 广州天维信息技术股份有限公司 文档结构化提取方法、装置、计算机设备及存储介质
CN114581928A (zh) * 2021-12-29 2022-06-03 壹链盟生态科技有限公司 一种表格识别方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157783B2 (en) * 2019-12-02 2021-10-26 UiPath, Inc. Training optical character detection and recognition models for robotic process automation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160831A (ja) * 1993-12-09 1995-06-23 Fuji Facom Corp 手書き文字認識結果のリジェクト方法
CN107545391A (zh) * 2017-09-07 2018-01-05 安徽共生物流科技有限公司 一种基于图像识别的物流单据智能分析与自动存储方法
CN112639818A (zh) * 2018-08-27 2021-04-09 京瓷办公信息***株式会社 Ocr***
CN112149399A (zh) * 2020-09-25 2020-12-29 北京来也网络科技有限公司 基于rpa及ai的表格信息抽取方法、装置、设备及介质
CN113191309A (zh) * 2021-05-19 2021-07-30 杭州点望科技有限公司 一种手写汉字的识别、评分、纠错方法及***
CN113377958A (zh) * 2021-07-07 2021-09-10 北京百度网讯科技有限公司 一种文档分类方法、装置、电子设备以及存储介质
CN113378822A (zh) * 2021-07-08 2021-09-10 中教云智数字科技有限公司 一种在试卷中使用特殊标记框标注手写答案区域的***
CN113936130A (zh) * 2021-09-29 2022-01-14 未鲲(上海)科技服务有限公司 基于ocr技术的文档信息智能获取和纠错方法、***及设备
CN113919303A (zh) * 2021-11-02 2022-01-11 中国工商银行股份有限公司 一种自动生成业务信息表的方法及装置
CN114581928A (zh) * 2021-12-29 2022-06-03 壹链盟生态科技有限公司 一种表格识别方法及***
CN114417798A (zh) * 2022-01-19 2022-04-29 广州天维信息技术股份有限公司 文档结构化提取方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"人工智能在财务共享服务管理中的应用";董屹岭;《 中国新技术新产品》;20210810(第8期);130-132 *

Also Published As

Publication number Publication date
CN115294588A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US5555101A (en) Forms creation and interpretation system
CN101443790B (zh) 数字图像中的非回流内容的有效处理
US6333994B1 (en) Spatial sorting and formatting for handwriting recognition
RU2357284C2 (ru) Способ обработки цифровых рукописных примечаний для распознавания, привязки и переформатирования цифровых рукописных примечаний и система для его осуществления
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
CN101542504B (zh) 后光学字符识别处理中的形状聚类
US20060214937A1 (en) Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
US20040193520A1 (en) Automated understanding and decomposition of table-structured electronic documents
US20070065013A1 (en) Method and apparatus to convert digital ink images for use in a structured text/graphics editor
US8340425B2 (en) Optical character recognition with two-pass zoning
US20080235263A1 (en) Automating Creation of Digital Test Materials
WO2006002009A2 (en) Document management system with enhanced intelligent document recognition capabilities
US11501549B2 (en) Document processing using hybrid rule-based artificial intelligence (AI) mechanisms
US20050160194A1 (en) Method of limiting amount of waste paper generated from printed documents
CN110096275B (zh) 一种页面处理方法及装置
US11615244B2 (en) Data extraction and ordering based on document layout analysis
US11568666B2 (en) Method and system for human-vision-like scans of unstructured text data to detect information-of-interest
US20140334731A1 (en) Methods and systems for evaluating handwritten documents
CN104462068A (zh) 字符转换***和字符转换方法
CN112801084A (zh) 图像处理方法及装置、电子设备和存储介质
KR20180080408A (ko) 정형 및 비정형 데이터 추출 시스템 및 방법
US8687239B2 (en) Relevance based print integrity verification
CN115294588B (zh) 一种基于rpa流程机器人的数据处理方法及***
CN113723063A (zh) 一种rtf转html并在pdf文件实现效果的方法
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant