CN115640952B - 一种数据导入上传的方法及*** - Google Patents

一种数据导入上传的方法及*** Download PDF

Info

Publication number
CN115640952B
CN115640952B CN202211042463.5A CN202211042463A CN115640952B CN 115640952 B CN115640952 B CN 115640952B CN 202211042463 A CN202211042463 A CN 202211042463A CN 115640952 B CN115640952 B CN 115640952B
Authority
CN
China
Prior art keywords
processing platform
field
added
unified processing
electronic form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211042463.5A
Other languages
English (en)
Other versions
CN115640952A (zh
Inventor
刘忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Greyjet Shenzhen Technology Co ltd
Original Assignee
Greyjet Shenzhen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Greyjet Shenzhen Technology Co ltd filed Critical Greyjet Shenzhen Technology Co ltd
Priority to CN202211042463.5A priority Critical patent/CN115640952B/zh
Publication of CN115640952A publication Critical patent/CN115640952A/zh
Application granted granted Critical
Publication of CN115640952B publication Critical patent/CN115640952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本申请提出一种数据导入上传的方法及***,其方法包括:确定目标数据的目标类型,并构建统一处理平台;当目标类型为电子表单类型时,对电子表单自定义添加第一字段,且识别并判断是否需要加入统一处理平台,若需要,将添加第一字段的电子表单加入统一处理平台,并获取补充信息,将第一字段在电子表单对应的详情页的指定位置展示;当目标类型为纸质单据类型时,识别并判断是否需要加入统一处理平台,若需要,基于统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加。对不同类型的数据进行识别判断,并保证不同数据的完整性,极大程度满足标准导入的需求,可以有效的降低用户操作时间,提高工作效率。

Description

一种数据导入上传的方法及***
技术领域
本发明涉及一种数据导入上传的方法及***,属于数据上传技术领域。
背景技术
通常在使用***过程中会有新建数据,比如订单/合同,或其他单据,有时候在没有使 用***前,大部分个人/公司线下都会有纸质单据或其他电子版数据,如果此时能快速导入 就会节约很多时间,效率大大提升;
现有技术方案大概是两种,一种是扫描条码,比如运单条码,一扫就开始打开或上传至 ***,前提是***能识别此条码,并且数据格式是一样的;一种是***有模板,用户下载下 来按此格式补充数据再上传,此前提也是按***给到的字段也是***能识别的字段才可以这样做,比如银行工资转账时,把所有要转的信息按规定格式录入再上传,可以一次新增多人 的工资。
现有的技术方案缺陷是必须是***能识别的数据,如果当中有很多识别不了的,导入到 ***往往会失败。这个问题普遍存在,因为每个公司的表单/单据内容都会有不同,比如A 公司的订单表有图片内容,B公司的不一定有,这个时候在同一个***中,如果要做到A公 司/B公司都能导入其想要的内容,就必须定制化开发。定制化成本在软件行业相当高,一般公司都承受不了。所以提出在同一个平台中能符合A和B导入上传要求,这样能大量减少 用户的操作时间,极大提高工作效率。
因此,本发明提出一种数据导入上传的方法及***。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种数据导入上传的方法及***,通 过确定数据类型,构建统一处理平台,且对不同类型的数据进行识别判断,并基于统一处理 平台接收不同类型数据,最后通过显示不同的字段有效保证数据的完整性,极大程度满足标准导入的需求,可以有效的降低用户操作时间,提高工作效率。
根据本发明的实施方案,提供第一个方案为:一种数据导入上传的方法,包括:
步骤1:确定目标数据的目标类型,并构建统一处理平台;
步骤2:当所述目标类型为电子表单类型时,对所述电子表单自定义添加第一字段,且 识别并判断是否需要加入统一处理平台,若需要,将添加第一字段的电子表单加入所述统一 处理平台,并获取补充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示;
步骤3:当所述目标类型为纸质单据类型时,识别并判断是否需要加入统一处理平台, 若需要,基于所述统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加。
进一步地,对所述电子表单自定义添加第一字段,且识别并判断是否需要加入统一处理 平台,包括:
对所述电子表单进行扫描得到所述电子表单的表单排布;
对所述表单排布进行识别,并根据识别结果,对所述表单排布中的每个表单字符的识别 清晰度进行第一判断以及对每个表单字符的识别完整度进行第二判断;
根据第一判断结果以及第二判断结果,确定对应表单字符的字符识别合格性;
对字符识别合格性大于预设合格性的表单字符进行锁定,并按照锁定结果,得到所述表 单排布的第一子布局以及根据对剩余不合格的表单字符的锁定结果,得到所述表单排布的第 二子布局;
对所述第一子布局基于所述第二子布局的布局位置进行第一分析,并基于所述第二子布 局的第二识别结果对所述第一子布局的第一识别结果进行第二分析;
按照第一分析结果以及第二分析结果,判定是否可以将所述第二子布局剔除;
若可以,将所述第二子布局进行剔除,并对第一子布局的第一识别结果进行保留存储;
若不可以,将所述电子表单导入传输到所述统一处理平台。
进一步地,根据第一判断结果以及第二判断结果,确定对应表单字符的字符识别合格性, 包括:
判断对应表单字符是否为电子字符,如果是电子字符,则按照如下方式确定合格性,包 括:
其中,si1,0表示电子表单未识别之前对应电子字符的第i1笔画的标准线;si1,1表示电子 表单识别之后对应电子字符的第i1笔画的识别线;∝2表示针对电子表单的线条转换系数; e表示指数函数的符号;表示对应电子字符的清晰系数,当基于第二判断结果确定出的识 别清晰度S1与预设清晰度S0的比值在(0.4,1]之间,对应的取值为1,当基于第二判断结果 确定出的整体识别清晰度S1与预设清晰度S0的比值在(0,0.4]之间,对应的取值为0;/>表示第二判断结果确定的第i1笔画的识别完整度;Y表示对应电子字符的识别合格性;n1 表示对应电子字符的笔画总数。
进一步地,判断对应表单字符是否为电子字符,如果不是且此时为手写字符,则按照如 下方式确定合格性,包括:
其中,sim(r0,r1)表示电子表单未识别之前对应手写字符r0与识别之后字符r1的轮廓相似 度;sim(ri2,0,ri2,1)表示电子表单未识别之前对应手写字符的第i2笔画的手写线ri2,0与识别之后 对应i2笔画的识别线ri2,1的相似度;n2表示电子表单未识别之前对应手写字符的笔画总数; Y1表示对应手写字符的识别合格性。
进一步地,将添加第一字段的电子表单加入所述统一处理平台,并获取补充信息,将所 述第一字段在所述电子表单对应的详情页的指定位置展示,包括:
根据每个第一字段,获取补充信息;
获取所述补充信息的关键词,并基于所述统一处理平台,检索与所述关键词匹配的指向 位置;
将与所述关键词匹配的第一字段放置在所述指定位置展示。
进一步地,基于所述统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加,包括:
当所述统一处理平台接收到数据单据时,对所述数据单据的单据线条布局进行识别获取, 并根据线条布局,从布局数据库中匹配得到对应的设置块集合;
基于所述设置块集合依次向展示自定义设置块,且在所述自定义设置块设置添加引导;
当用户在对应的自定义设置块添加第二字段时,向所述统一处理平台发送添加请求,当 请求通过时,自动将对应自定义设置块的添加引导进行放大显示;
同时,对用户自定义添加的第二字段按照对应自定义设置块的块属性进行检查;
若检查通过,对添加的第二字段进行保留;
若检查未通过,获取未通过信息并在对应的自定义设置块拉出显示块,并进行未通过信 息的显示;
建立所述未通过信息与添加引导的关联关系,得到待通过方案,并在所述添加引导中标 注再次引导步骤,并对每个再次引导步骤的先后顺序进行编号显示。
进一步地,建立所述未通过信息与添加引导的关联关系,得到待通过方案,包括:
获取所述未通过信息基于第二字段的第一位置,并对所述第二字段进行序列标准转换, 得到第一信息序列,且在所述第一信息序列中标注出对应第一位置的序列;
确定每个标注序列基于第一信息序列的切割段,并确定对应标注序列基于确定的切割段 的第一关联权重;
获取每个切割段的总关联权重,并筛选总关联权重大于预设权重的第一段;
分别获取每个第一段的段含义,并确定所述段含义与对应添加引导的引导含义的歧义信 息,并根据歧义程度建立关联关系;
基于所有歧义信息以及关联关系,重新整理得到调整步骤,并得到待通过方案。
进一步地,基于所述第二子布局的第二识别结果对所述第一子布局的第一识别结果进行 第二分析,包括:
对所述第二识别结果进行布局解析,并分别获取每个线条块的第一识别内容;
从所述第一识别结果提取对应同个线条块的第二识别内容;
对所述第一识别内容进行单独解析,得到第一语义;
对所述第一识别内容和第二识别内容按照位置组合得到的第三识别内容进行综合解析, 得到第二语义;
当所述第一语义的相似度与第二语义的相似度大于预设相似度时,将对应同个线条块的 第二识别内容保留,并对同个线条块中的第二识别内容进行第一合格标定;
否则,将对应同个线条块的第二识别内容保留,并对同个线条块中的第二识别内容进行 第一不合格标定;
确定所有第一不合格标定结果的第一个数以及所有第一合格标定结果的第二个数;
计算不合格标定结果对所述电子表单的影响值;
其中,m1表示第一个数;m2表示第二个数;dj1表示对应第j1个第一不合格标定结果基 于电子表单的位置权重;dj2表示对应第j2个第一合格标定结果基于电子表单的位置权重; ln表示对数函数的符号;
当影响值大于预设值时,将所述电子表单导入传输到所述统一处理平台;
否则,将所述第二子布局剔除。
进一步地,将添加第一字段的电子表单加入所述统一处理平台的过程中,还包括:
获取第一字段的来源,并按照所述来源的数据结构对所述第一字段进行格式转换;
调用所述第一字段与所述统一处理平台的处理接口,按照所述处理接口的接口结构对格 式转换后的第一字段进行第二格式转换,得到与所述统一处理平台格式匹配的字段。
本发明提供一种数据导入传输的***,包括:
类型确定模块,用于确定目标数据的目标类型,并构建统一处理平台;
电子表单处理模块,用于当所述目标类型为电子表单类型时,对所述电子表单自定义添 加第一字段,且识别并判断是否需要加入统一处理平台,若需要,将添加第一字段的电子表 单加入所述统一处理平台,并获取补充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示;
纸质单据处理模块,用于当所述目标类型为纸质单据类型时,识别并判断是否需要加入 统一处理平台,若需要,基于所述统一处理平台向用户展示自定义设置块,并进行相关第二 字段的添加。
与现有技术相比,本申请的有益效果如下:
通过确定数据类型,构建统一处理平台,且对不同类型的数据进行识别判断,并基于统 一处理平台接收不同类型数据,最后通过显示不同的字段有效保证数据的完整性,极大程度 满足标准导入的需求,可以有效的降低用户操作时间,提高工作效率。
附图说明
图1为本发明实施例中一种数据导入上传的方法的流程图;
图2为本发明实施例中一种数据导入上传的***的结构图。
具体实施方式
为了使本领域的技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中 的附图对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,当元件被称为“固定于”或“设置于”另一个部件上,它可以直接在另 一个部件上或者间接设置在另一个部件上;当一个部件被称为是“连接于”另一个部件,它 可以是直接连接到另一个部件或间接连接至另一个部件上。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、 “竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方 位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或部件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或 者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者 隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”、“若干个”的含义是两个 或两个以上,除非另有明确具体的限定。
须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容, 以供熟悉此技术的人士了解与阅读,并非用以限定本申请可实施的限定条件,故不具技术上 的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本申请所能产生的功效及所能达成的目的下,均应仍落在本申请所揭示的技术内容得能涵盖的范围内。
实施例1:
根据本发明的实施方案,提供第一个方案为:一种数据导入上传的方法,如图1所示, 包括:
步骤1:确定目标数据的目标类型,并构建统一处理平台;
步骤2:当所述目标类型为电子表单类型时,对所述电子表单自定义添加第一字段,且 识别并判断是否需要加入统一处理平台,若需要,将添加第一字段的电子表单加入所述统一 处理平台,并获取补充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示;
步骤3:当所述目标类型为纸质单据类型时,识别并判断是否需要加入统一处理平台, 若需要,基于所述统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加。
该实施例中,目标类型为电子表单类型以及纸质单据类型。
该实施例中,第一字段与第二字段可以与需要对该表单执行何种处理有关或者是对该表 单中识别不清楚的部分进行补充,以此,来保证识别导入数据的效率。
该实施例中,在识别之后不需要加入统一处理平台时,表明对表单或者单据的识别结果 时清楚的,此时,可以将对应的识别结果直接导入相关***,进而实现数据的上传。
该实施例中,在识别之后如果需要加入统一处理平台,此时,就需要对表单或单据进行 相应的识别以及补充处理,来保证表单或单据上数据的完整性。
该实施例中,统一处理平台是基于可以兼容不同数据类型的平台,其中,是包含兼容表 单以及单据类型的平台,主要是为了对数据进行补充。
该实施例中,指定位置展示以及设定块添加,都是为了保留一个相应的补充位置,来保 证统一处理平台对对应位置信息获取的效率,进一步保证数据补充完整的效率。
该实施例中,补充信息上传之后,用户添加的字段在本单据的详情页的具体某个位置展示(***预先 设置版块/页面位置留给用户新加/自定义内容的存放),做到不打乱***原有页面。
上述技术方案的有益效果是:通过确定数据类型,构建统一处理平台,且对不同类型的 数据进行识别判断,并基于统一处理平台接收不同类型数据,最后通过显示不同的字段有效 保证数据的完整性,极大程度满足标准导入的需求,可以有效的降低用户操作时间,提高工作效率。
实施例2:
基于实施例1的基础上,对所述电子表单自定义添加第一字段,且识别并判断是否需要 加入统一处理平台,包括:
对所述电子表单进行扫描得到所述电子表单的表单排布;
对所述表单排布进行识别,并根据识别结果,对所述表单排布中的每个表单字符的识别 清晰度进行第一判断以及对每个表单字符的识别完整度进行第二判断;
根据第一判断结果以及第二判断结果,确定对应表单字符的字符识别合格性;
对字符识别合格性大于预设合格性的表单字符进行锁定,并按照锁定结果,得到所述表 单排布的第一子布局以及根据对剩余不合格的表单字符的锁定结果,得到所述表单排布的第 二子布局;
对所述第一子布局基于所述第二子布局的布局位置进行第一分析,并基于所述第二子布 局的第二识别结果对所述第一子布局的第一识别结果进行第二分析;
按照第一分析结果以及第二分析结果,判定是否可以将所述第二子布局剔除;
若可以,将所述第二子布局进行剔除,并对第一子布局的第一识别结果进行保留存储;
若不可以,将所述电子表单导入传输到所述统一处理平台。
该实施例中,该实施例中,表单排布指的是获取的电子表单的表单格式。
该实施例中,识别清晰度指的是对应字符是否模糊,完整度指的是对应字符笔画是否完 整。
该实施例中,预设合格性是预先设置好的,且不同情况下的字符对应的预设合格性是不 一样的,比如,识别字符包括电子字符或者手写字符。
该实施例中,对字符锁定主要是为了对合格的字符的布局进行第一确定,对不合格的字 符的布局进行第二确定,且布局也就是根据锁定的位置以及锁定的位置基于电子表格整体排 布的一个位置情况来确定的。
该实施例中,第一子布局基于第二子布局的第一分析,主要是为了确定第一子布局与第 二子布局中每个字符的位置情况,且第二子布局的识别结果基于第一子布局的识别结果的识 别影响,来确定是否将第二子布局剔除,主要是为了确定不合格的字符对整个电子表单的影响结果,如果影响几乎不存在,可以将对应布局的内容删除,将第一子布局的识别结果直 接导入传输到对应***,如果存在的话,就需要先经过统一处理平台的处理,来进行数据的 补充完善,最后导入对应***。
上述技术方案的有益效果是:通过对电子表单扫描,并对排布中的每个字符进行识别, 来得到第一子布局以及第二子布局,进而通过位置分析以及结果分析,有效确定第二子布局 是否可以被剔除,保证表单的导入效率。
实施例3:
基于实施例2的基础上,根据第一判断结果以及第二判断结果,确定对应表单字符的字 符识别合格性,包括:
判断对应表单字符是否为电子字符,如果是电子字符,则按照如下方式确定合格性,包 括:
其中,si1,0表示电子表单未识别之前对应电子字符的第i1笔画的标准线;si1,1表示电子 表单识别之后对应电子字符的第i1笔画的识别线;∝2表示针对电子表单的线条转换系数; e表示指数函数的符号;表示对应电子字符的清晰系数,当基于第二判断结果确定出的识 别清晰度S1与预设清晰度S0的比值在(0.4,1]之间,对应的取值为1,当基于第二判断结果 确定出的整体识别清晰度S1与预设清晰度S0的比值在(0,0.4]之间,对应的取值为0;/>表示第二判断结果确定的第i1笔画的识别完整度;Y表示对应电子字符的识别合格性;n1 表示对应电子字符的笔画总数。
该实施例中,电子字符指的是电脑或者手机等输入的字符。
手写字符指的是手动书写的字符,其以图片等的形式在表单中体现。
上述技术方案的有益效果是:通过按照电子字符的清晰系数以及识别完整度,来有效的 确定电子字符是否合格,为后续是否传输到统一处理平台提供有有效基础。
实施例4:
基于实施例3的基础上,判断对应表单字符是否为电子字符,如果不是且此时为手写字 符,则按照如下方式确定合格性,包括:
其中,sim(r0,r1)表示电子表单未识别之前对应手写字符r0与识别之后字符r1的轮廓相似 度;sim(ri2,0,ri2,1)表示电子表单未识别之前对应手写字符的第i2笔画的手写线ri2,0与识别之后 对应i2笔画的识别线ri2,1的相似度;n2表示电子表单未识别之前对应手写字符的笔画总数; Y1表示对应手写字符的识别合格性。
上述技术方案的有益效果是:通过按照手写字符的轮廓比较以及线条比较两者的相似度 来有效的确定手写字符是否合格,为后续是否传输到统一处理平台提供有有效基础。
实施例5:
基于实施例1的基础上,将添加第一字段的电子表单加入所述统一处理平台,并获取补 充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示,包括:
根据每个第一字段,获取补充信息;
获取所述补充信息的关键词,并基于所述统一处理平台,检索与所述关键词匹配的指向 位置;
将与所述关键词匹配的第一字段放置在所述指定位置展示。
该实施例中,在确定第一字段之后,是可以获取到补充信息的,且第一字段也可以是补 充信息,也就是识别不清楚的信息,可以手动录入,也可以是代表一些信息的代表符号,来 保证该部分信息的必须存在,此时,就需要提取补充信息的关键词,比如是:00、11,此时, 就检索该关键信息00、11所匹配的指定位置,比如是页面A1的位置,此时就在位置A1显 示第一字段。
上述技术方案的有益效果是:通过根据第一字段获取补充信息并对补充信息提取关键词, 便于指定位置进行展示,保证补充的完整性,间接提高后续录入的效率。
实施例6:
基于实施例1的基础上,基于所述统一处理平台向用户展示自定义设置块,并进行相关 第二字段的添加,包括:
当所述统一处理平台接收到数据单据时,对所述数据单据的单据线条布局进行识别获取, 并根据线条布局,从布局数据库中匹配得到对应的设置块集合;
基于所述设置块集合依次展示自定义设置块,且在所述自定义设置块设置添加引导;
当用户在对应的自定义设置块添加第二字段时,向所述统一处理平台发送添加请求,当 请求通过时,自动将对应自定义设置块的添加引导进行放大显示;
同时,对用户自定义添加的第二字段按照对应自定义设置块的块属性进行检查;
若检查通过,对添加的第二字段进行保留;
若检查未通过,获取未通过信息并在对应的自定义设置块拉出显示块,并进行未通过信 息的显示;
建立所述未通过信息与添加引导的关联关系,得到待通过方案,并在所述添加引导中标 注再次引导步骤,并对每个再次引导步骤的先后顺序进行编号显示。
该实施例中,比如是存在的线条1、2、3,此时,按照线条1、2、3的布局,来确定即 便是补充内容,补充的内容可以放置的位置,且该位置肯定是基于单据本身的位置,且不同的位置构成的设置块集合。
该实施例中,由于设置块集合中不同的设置块的展示位置是不一样的,因此,每个设置 块中需要展示的内容是需要通过捕捉引导来添加的保证添加的合理性,间接提高后续的导入 效率。
该实施例中,第二字段指的是用户添加的字段,且添加请求通过之后即可在对应的块添 加字段,在添加过程中,对对应添加引导进行放大显示,保证引导可靠性。
该实施例中,块属性指的是对需要对对应设置块进行检查的检查方式,且检查方式是可 以按照块属性确定出来的,从属性-方式数据库中调取得到,且该数据库是包括不同的属性 以及与属性匹配的检查方式在内的。
该实施例中,未通过信息指的是添加信息中不符合添加标准的部分。
该实施例中,比如,添加的信息为:交易金额为10000,此时,对应的10000不符合添加标准,比如应该是大写,不应该是数字表示,进而就可以通过获取再次的引导步骤,来进行引导修改。
上述技术方案的有益效果是:通过根据线条布局确定设置块集合,并通过设置添加引导, 实现对第二字段的有效添加,且在添加过程中通过对添加的内容进行检查,有效确定存在的 添加问题进而通过再次引导,保证添加的合理性,为后续获取完整数据提供有效基础,保证数据导入的高效性。
实施例7:
基于实施例6的基础上,建立所述未通过信息与添加引导的关联关系,得到待通过方案, 包括:
获取所述未通过信息基于第二字段的第一位置,并对所述第二字段进行序列标准转换, 得到第一信息序列,且在所述第一信息序列中标注出对应第一位置的序列;
确定每个标注序列基于第一信息序列的切割段,并确定对应标注序列基于确定的切割段 的第一关联权重;
获取每个切割段的总关联权重,并筛选总关联权重大于预设权重的第一段;
分别获取每个第一段的段含义,并确定所述段含义与对应添加引导的引导含义的歧义信 息,并根据歧义程度建立关联关系;
基于所有歧义信息以及关联关系,重新整理得到调整步骤,并得到待通过方案。
该实施例中,假如第二字段就是为“交易金额为10000”,那么此时,未通过信息为1000,就需要确定10000基于第二字段的第一位置,同时,将第二字段中的每个字符按照标准及逆行转换,是为了进行统一标准的处理,提高处理效率,比如,得到的序列为1234589999,此时,89999即为对应的第一位置的序列,且第一信息序列的切割段为12345为一段89999为一段。
该实施例中,第一关联权重指的是该第一位置基于对应切割段的位置占比,占比越大, 权重越大,当全部占据时,对应的总关联权重为1,比如8的第一关联权重就是0.2。
该实施例中,预设权重一般为0.6。
该实施例中,段含义,比如10000指的是数字形式的交易金额。
该实施例中,比如正常情况下是大写情况的交易金额,此时,为数字形式的交易金额, 进而就会存在歧义,且关联关系就是交易金额的形式不一样,此时,就需要整理调整步骤, 比如是,将数字形式的交易金额转换为大写情况的交易金额,此为待通过方案。
上述技术方案的有益效果是:通过对第二字段进行标准转换,并标准第一位置的序列, 进而确定不同标注序列基于对应切割段的关联权重,进而得到对应切割段的总关联权重,最 后获取相关的待通过方案,实现对字段的修正,保证后续数据导入的合理性。
实施例8:
基于实施例2的基础上,基于所述第二子布局的第二识别结果对所述第一子布局的第一 识别结果进行第二分析,包括:
对所述第二识别结果进行布局解析,并分别获取每个线条块的第一识别内容;
从所述第一识别结果提取对应同个线条块的第二识别内容;
对所述第一识别内容进行单独解析,得到第一语义;
对所述第一识别内容和第二识别内容按照位置组合得到的第三识别内容进行综合解析, 得到第二语义;
当所述第一语义的相似度与第二语义的相似度大于预设相似度时,将对应同个线条块的 第二识别内容保留,并对同个线条块中的第二识别内容进行第一合格标定;
否则,将对应同个线条块的第二识别内容保留,并对同个线条块中的第二识别内容进行 第一不合格标定;
确定所有第一不合格标定结果的第一个数以及所有第一合格标定结果的第二个数;
计算不合格标定结果对所述电子表单的影响值;
其中,m1表示第一个数;m2表示第二个数;dj1表示对应第j1个第一不合格标定结果基 于电子表单的位置权重;dj2表示对应第j2个第一合格标定结果基于电子表单的位置权重; ln表示对数函数的符号;
当影响值大于预设值时,将所述电子表单导入传输到所述统一处理平台;
否则,将所述第二子布局剔除。
该实施例中,布局解析,比如是存在线条1、2、3,此时,线条1和2构成一个线条块,线条2和3构成一个线条块。
在线条块11中存在第一识别内容A以及第二识别内容B,此时,就对内容A进行解析, 来确定其的含义,并对A和B的位置顺序构成的C进行解析,得到对应的语义,来确定两者 语义是否一回事,也就是通过相似度来确定,进而可以确定保留结果以及标定结果。
该实施例中,预设值是预先设置好的,一般取值为0.2。
上述技术方案的有益效果是:通过对同个线条块中的第一识别内容以及第二识别内容的 解析,可以有效的对整个线条块中存在的合格标定数量以及不合格标定数量进行确定,进而 结合不合格标定结果的位置权重,为计算影响值提供有效基础,合理判断是否将第二子布局剔除,为是否导入***还是传输到平台处理提供有效参考。
实施例9:
基于实施例1的基础上,将添加第一字段的电子表单加入所述统一处理平台的过程中, 还包括:
获取第一字段的来源,并按照所述来源的数据结构对所述第一字段进行格式转换;
调用所述第一字段与所述统一处理平台的处理接口,按照所述处理接口的接口结构对格 式转换后的第一字段进行第二格式转换,得到与所述统一处理平台格式匹配的字段。
该实施例中,第一字段的来源可以是用户的手机端、电脑端等,进而按照对应端的格式 转换结构来对第一字段进行格式转换,比如将第一字段转换为格式1的数据;
该实施例中,统一处理平台的处理接口会将格式1的字段转换为格式2的数据。
上述技术方案的有益效果是:通过格式转换,保证不同端与平台之间的传输可靠性。
实施例10:
本发明提供一种数据导入传输的***,如图2所示,包括:
类型确定模块,用于确定目标数据的目标类型,并构建统一处理平台;
电子表单处理模块,用于当所述目标类型为电子表单类型时,对所述电子表单自定义添 加第一字段,且识别并判断是否需要加入统一处理平台,若需要,将添加第一字段的电子表 单加入所述统一处理平台,并获取补充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示;
纸质单据处理模块,用于当所述目标类型为纸质单据类型时,识别并判断是否需要加入 统一处理平台,若需要,基于所述统一处理平台向用户展示自定义设置块,并进行相关第二 字段的添加。
上述技术方案的有益效果是:通过确定数据类型,构建统一处理平台,且对不同类型的 数据进行识别判断,并基于统一处理平台接收不同类型数据,最后通过显示不同的字段有效 保证数据的完整性,极大程度满足标准导入的需求,可以有效的降低用户操作时间,提高工作效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些 实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理 可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的 范围。

Claims (8)

1.一种数据导入上传的方法,其特征在于,包括:
步骤1:确定目标数据的目标类型,并构建统一处理平台;
步骤2:当所述目标类型为电子表单类型时,对所述电子表单自定义添加第一字段,且识别并判断是否需要加入统一处理平台,若需要,将添加第一字段的电子表单加入所述统一处理平台,并获取补充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示;
步骤3:当所述目标类型为纸质单据类型时,识别并判断是否需要加入统一处理平台,若需要,基于所述统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加;
所述基于所述统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加,包括:
当所述统一处理平台接收到数据单据时,对所述数据单据的单据线条布局进行识别获取,并根据线条布局,从布局数据库中匹配得到对应的设置块集合;
基于所述设置块集合依次向展示自定义设置块,且在所述自定义设置块设置添加引导;
当用户在对应的自定义设置块添加第二字段时,向所述统一处理平台发送添加请求,当请求通过时,自动将对应自定义设置块的添加引导进行放大显示;
同时,对用户自定义添加的第二字段按照对应自定义设置块的块属性进行检查;
若检查通过,对添加的第二字段进行保留;
若检查未通过,获取未通过信息并在对应的自定义设置块拉出显示块,并进行未通过信息的显示;
建立所述未通过信息与添加引导的关联关系,得到待通过方案,并在所述添加引导中标注再次引导步骤,并对每个再次引导步骤的先后顺序进行编号显示;
所述建立所述未通过信息与添加引导的关联关系,得到待通过方案,包括:
获取所述未通过信息基于第二字段的第一位置,并对所述第二字段进行序列标准转换,得到第一信息序列,且在所述第一信息序列中标注出对应第一位置的序列;
确定每个标注序列基于第一信息序列的切割段,并确定对应标注序列基于确定的切割段的第一关联权重;
获取每个切割段的总关联权重,并筛选总关联权重大于预设权重的第一段;
分别获取每个第一段的段含义,并确定所述段含义与对应添加引导的引导含义的歧义信息,并根据歧义程度建立关联关系;
基于所有歧义信息以及关联关系,重新整理得到调整步骤,并得到待通过方案。
2.如权利要求1所述的数据导入上传的方法,其特征在于,对所述电子表单自定义添加第一字段,且识别并判断是否需要加入统一处理平台,包括:
对所述电子表单进行扫描得到所述电子表单的表单排布;
对所述表单排布进行识别,并根据识别结果,对所述表单排布中的每个表单字符的识别清晰度进行第一判断以及对每个表单字符的识别完整度进行第二判断;
根据第一判断结果以及第二判断结果,确定对应表单字符的字符识别合格性;
对字符识别合格性大于预设合格性的表单字符进行锁定,并按照锁定结果,得到所述表单排布的第一子布局以及根据对剩余不合格的表单字符的锁定结果,得到所述表单排布的第二子布局;
对所述第一子布局基于所述第二子布局的布局位置进行第一分析,并基于所述第二子布局的第二识别结果对所述第一子布局的第一识别结果进行第二分析;
按照第一分析结果以及第二分析结果,判定是否可以将所述第二子布局剔除;
若可以,将所述第二子布局进行剔除,并对第一子布局的第一识别结果进行保留存储;
若不可以,将所述电子表单导入传输到所述统一处理平台。
3.如权利要求2所述的数据导入上传的方法,其特征在于,根据第一判断结果以及第二判断结果,确定对应表单字符的字符识别合格性,包括:
判断对应表单字符是否为电子字符,如果是电子字符,则按照如下方式确定合格性,包括:
其中,si1,0表示电子表单未识别之前对应电子字符的第i1笔画的标准线;si1,1表示电子表单识别之后对应电子字符的第i1笔画的识别线;∝2表示针对电子表单的线条转换系数;e表示指数函数的符号;表示对应电子字符的清晰系数,当基于第二判断结果确定出的识别清晰度S1与预设清晰度S0的比值在(0.4,1]之间,对应的取值为1,当基于第二判断结果确定出的整体识别清晰度S1与预设清晰度S0的比值在(0,0.4]之间,对应的取值为0;/>表示第二判断结果确定的第i1笔画的识别完整度;Y表示对应电子字符的识别合格性;n1表示对应电子字符的笔画总数。
4.如权利要求3所述的数据导入上传的方法,其特征在于,判断对应表单字符是否为电子字符,如果不是且此时为手写字符,则按照如下方式确定合格性,包括:
其中,sim(r0,r1)表示电子表单未识别之前对应手写字符r0与识别之后字符r1的轮廓相似度;sim(ri2,0,ri2,1)表示电子表单未识别之前对应手写字符的第i2笔画的手写线ri2,0与识别之后对应i2笔画的识别线ri2,1的相似度;n2表示电子表单未识别之前对应手写字符的笔画总数;Y1表示对应手写字符的识别合格性。
5.如权利要求1所述的数据导入上传的方法,其特征在于,将添加第一字段的电子表单加入所述统一处理平台,并获取补充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示,包括:
根据每个第一字段,获取补充信息;
获取所述补充信息的关键词,并基于所述统一处理平台,检索与所述关键词匹配的指向位置;
将与所述关键词匹配的第一字段放置在所述指定位置展示。
6.如权利要求2所述的数据导入上传的方法,其特征在于,基于所述第二子布局的第二识别结果对所述第一子布局的第一识别结果进行第二分析,包括:
对所述第二识别结果进行布局解析,并分别获取每个线条块的第一识别内容;
从所述第一识别结果提取对应同个线条块的第二识别内容;
对所述第一识别内容进行单独解析,得到第一语义;
对所述第一识别内容和第二识别内容按照位置组合得到的第三识别内容进行综合解析,得到第二语义;
当所述第一语义的相似度与第二语义的相似度大于预设相似度时,将对应同个线条块的第二识别内容保留,并对同个线条块中的第二识别内容进行第一合格标定;
否则,将对应同个线条块的第二识别内容保留,并对同个线条块中的第二识别内容进行第一不合格标定;
确定所有第一不合格标定结果的第一个数以及所有第一合格标定结果的第二个数;
计算不合格标定结果对所述电子表单的影响值;
其中,m1表示第一个数;m2表示第二个数;dj1表示对应第j1个第一不合格标定结果基于电子表单的位置权重;dj2表示对应第j2个第一合格标定结果基于电子表单的位置权重;ln表示对数函数的符号;
当影响值大于预设值时,将所述电子表单导入传输到所述统一处理平台;
否则,将所述第二子布局剔除。
7.如权利要求1所述的数据导入上传的方法,其特征在于,将添加第一字段的电子表单加入所述统一处理平台的过程中,还包括:
获取第一字段的来源,并按照所述来源的数据结构对所述第一字段进行格式转换;
调用所述第一字段与所述统一处理平台的处理接口,按照所述处理接口的接口结构对格式转换后的第一字段进行第二格式转换,得到与所述统一处理平台格式匹配的字段。
8.一种数据导入上传的***,其特征在于,包括:
类型确定模块,用于确定目标数据的目标类型,并构建统一处理平台;
电子表单处理模块,用于当所述目标类型为电子表单类型时,对所述电子表单自定义添加第一字段,且识别并判断是否需要加入统一处理平台,若需要,将添加第一字段的电子表单加入所述统一处理平台,并获取补充信息,将所述第一字段在所述电子表单对应的详情页的指定位置展示;
纸质单据处理模块,用于当所述目标类型为纸质单据类型时,识别并判断是否需要加入统一处理平台,若需要,基于所述统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加;所述基于所述统一处理平台向用户展示自定义设置块,并进行相关第二字段的添加,包括:当所述统一处理平台接收到数据单据时,对所述数据单据的单据线条布局进行识别获取,并根据线条布局,从布局数据库中匹配得到对应的设置块集合;基于所述设置块集合依次向展示自定义设置块,且在所述自定义设置块设置添加引导;当用户在对应的自定义设置块添加第二字段时,向所述统一处理平台发送添加请求,当请求通过时,自动将对应自定义设置块的添加引导进行放大显示;同时,对用户自定义添加的第二字段按照对应自定义设置块的块属性进行检查;若检查通过,对添加的第二字段进行保留;若检查未通过,获取未通过信息并在对应的自定义设置块拉出显示块,并进行未通过信息的显示;建立所述未通过信息与添加引导的关联关系,得到待通过方案,并在所述添加引导中标注再次引导步骤,并对每个再次引导步骤的先后顺序进行编号显示;所述建立所述未通过信息与添加引导的关联关系,得到待通过方案,包括:获取所述未通过信息基于第二字段的第一位置,并对所述第二字段进行序列标准转换,得到第一信息序列,且在所述第一信息序列中标注出对应第一位置的序列;确定每个标注序列基于第一信息序列的切割段,并确定对应标注序列基于确定的切割段的第一关联权重;获取每个切割段的总关联权重,并筛选总关联权重大于预设权重的第一段;分别获取每个第一段的段含义,并确定所述段含义与对应添加引导的引导含义的歧义信息,并根据歧义程度建立关联关系;基于所有歧义信息以及关联关系,重新整理得到调整步骤,并得到待通过方案。
CN202211042463.5A 2022-08-29 2022-08-29 一种数据导入上传的方法及*** Active CN115640952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211042463.5A CN115640952B (zh) 2022-08-29 2022-08-29 一种数据导入上传的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211042463.5A CN115640952B (zh) 2022-08-29 2022-08-29 一种数据导入上传的方法及***

Publications (2)

Publication Number Publication Date
CN115640952A CN115640952A (zh) 2023-01-24
CN115640952B true CN115640952B (zh) 2023-09-26

Family

ID=84939783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211042463.5A Active CN115640952B (zh) 2022-08-29 2022-08-29 一种数据导入上传的方法及***

Country Status (1)

Country Link
CN (1) CN115640952B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1818961A (zh) * 2005-02-07 2006-08-16 刘瑞祯 电子票据***
CN101814168A (zh) * 2010-04-12 2010-08-25 福建伊时代信息科技股份有限公司 图像数据的动态交互式管理***及方法
CN103077185A (zh) * 2012-12-18 2013-05-01 厦门雅迅网络股份有限公司 一种基于对象的自定义扩展信息的方法
CN105550929A (zh) * 2015-12-03 2016-05-04 中国建设银行股份有限公司 一种商业汇票一体化处理方法及***
CN106325870A (zh) * 2016-08-25 2017-01-11 金蝶软件(中国)有限公司 一种动态表单api接口的实现方法及装置
CN109657225A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 数据整合方法、装置、终端及存储介质
CN109684957A (zh) * 2018-12-14 2019-04-26 新博卓畅技术(北京)有限公司 一种自动按照纸质表单展现***数据的方法及***
CN110223185A (zh) * 2019-05-20 2019-09-10 中国平安财产保险股份有限公司 一种基于数据处理的信息补传方法及相关设备
CN110941948A (zh) * 2019-10-14 2020-03-31 益萃网络科技(中国)有限公司 单据界面的展示方法、装置、设备及存储介质
CN111489246A (zh) * 2020-04-09 2020-08-04 贵州爱信诺航天信息有限公司 一种增值税***电子化一体化入账的***
CN112818653A (zh) * 2021-02-03 2021-05-18 上海虹迪物流科技有限公司 表单存档方法和装置以及仓库管理***
CN114612919A (zh) * 2022-03-23 2022-06-10 甘肃省农业科学院农产品贮藏加工研究所 一种票据信息处理***及方法、装置
CN114648397A (zh) * 2022-03-25 2022-06-21 金蝶蝶金云计算有限公司 通用对账***、方法、计算机设备和存储介质
CN114676359A (zh) * 2022-03-24 2022-06-28 金蝶软件(中国)有限公司 表单展示方法、装置、计算机设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1818961A (zh) * 2005-02-07 2006-08-16 刘瑞祯 电子票据***
CN101814168A (zh) * 2010-04-12 2010-08-25 福建伊时代信息科技股份有限公司 图像数据的动态交互式管理***及方法
CN103077185A (zh) * 2012-12-18 2013-05-01 厦门雅迅网络股份有限公司 一种基于对象的自定义扩展信息的方法
CN105550929A (zh) * 2015-12-03 2016-05-04 中国建设银行股份有限公司 一种商业汇票一体化处理方法及***
CN106325870A (zh) * 2016-08-25 2017-01-11 金蝶软件(中国)有限公司 一种动态表单api接口的实现方法及装置
CN109657225A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 数据整合方法、装置、终端及存储介质
CN109684957A (zh) * 2018-12-14 2019-04-26 新博卓畅技术(北京)有限公司 一种自动按照纸质表单展现***数据的方法及***
CN110223185A (zh) * 2019-05-20 2019-09-10 中国平安财产保险股份有限公司 一种基于数据处理的信息补传方法及相关设备
CN110941948A (zh) * 2019-10-14 2020-03-31 益萃网络科技(中国)有限公司 单据界面的展示方法、装置、设备及存储介质
CN111489246A (zh) * 2020-04-09 2020-08-04 贵州爱信诺航天信息有限公司 一种增值税***电子化一体化入账的***
CN112818653A (zh) * 2021-02-03 2021-05-18 上海虹迪物流科技有限公司 表单存档方法和装置以及仓库管理***
CN114612919A (zh) * 2022-03-23 2022-06-10 甘肃省农业科学院农产品贮藏加工研究所 一种票据信息处理***及方法、装置
CN114676359A (zh) * 2022-03-24 2022-06-28 金蝶软件(中国)有限公司 表单展示方法、装置、计算机设备和存储介质
CN114648397A (zh) * 2022-03-25 2022-06-21 金蝶蝶金云计算有限公司 通用对账***、方法、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115640952A (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
US9639751B2 (en) Property record document data verification systems and methods
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
US5555101A (en) Forms creation and interpretation system
US8064703B2 (en) Property record document data validation systems and methods
US5251273A (en) Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
US10318804B2 (en) System and method for data extraction and searching
US20050289182A1 (en) Document management system with enhanced intelligent document recognition capabilities
CN111582169B (zh) 图像识别数据纠错方法、装置、计算机设备和存储介质
US10482170B2 (en) User interface for contextual document recognition
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN113569863B (zh) 一种单据稽查的方法、***、电子设备及存储介质
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN111191153A (zh) 一种信息技术咨询服务展示装置
US11080808B2 (en) Automatically attaching optical character recognition data to images
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
CN115640952B (zh) 一种数据导入上传的方法及***
US20070217691A1 (en) Property record document title determination systems and methods
CN112348022B (zh) 一种基于深度学习的自由格式文档识别方法
CN111241955B (zh) 一种票据信息提取方法及***
US11989693B2 (en) Image-processing device, image processing method, and storage medium on which program is stored
CN117688162B (zh) 一种基于ocr识别的全文检索方法及***
KR102561878B1 (ko) 머신러닝 기반의 ai 블루 ocr 판독 시스템 및 판독 방법
CN114091876A (zh) 自动化校验和切割转换银行回单的方法及工具
CN116152480A (zh) 一种数据提取和结构化处理***及实现方法
CN116205672A (zh) 客户信息的管理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant