CN114139526A - 一种新的征信报告pdf解析方法,处理和存储介质 - Google Patents

一种新的征信报告pdf解析方法,处理和存储介质 Download PDF

Info

Publication number
CN114139526A
CN114139526A CN202111184120.8A CN202111184120A CN114139526A CN 114139526 A CN114139526 A CN 114139526A CN 202111184120 A CN202111184120 A CN 202111184120A CN 114139526 A CN114139526 A CN 114139526A
Authority
CN
China
Prior art keywords
report
credit
file
credit investigation
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111184120.8A
Other languages
English (en)
Inventor
黄伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Fangbangbang Internet Technology Co ltd
Original Assignee
Shenzhen Fangbangbang Internet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Fangbangbang Internet Technology Co ltd filed Critical Shenzhen Fangbangbang Internet Technology Co ltd
Priority to CN202111184120.8A priority Critical patent/CN114139526A/zh
Publication of CN114139526A publication Critical patent/CN114139526A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于征信数据处理技术领域,尤其为一种新的征信报告PDF解析方法,处理和存储介质,服务器响应于征信报告查询指令,获取目标征信PDF文件;将所述目标PDF文件转化为word文档,之后将word文档转化为html文档。本发明能够按照信息单元对征信报告文件进行自动解析,将解析结果解析至不同的信息单元文件中,还可以将信息单元文件自动加载至数据库的临时数据区,自动化解析和自动化加载不仅简化了征信报告的解析流程,还提高了征信报告的解析效率;本发明中通过不同文档结构类型的征信报告调用对应的解析模型进行解析,灵活应对不同格式以及不断变化的模块,提高了征信报告的解析时效,满足业务需求。

Description

一种新的征信报告PDF解析方法,处理和存储介质
技术领域
本发明涉及征信数据处理技术领域,尤其涉及一种新的征信报告PDF解析方法,处理和存储介质。
背景技术
个人征信报告是反应个人信用最真实、直观的材料,通过个人征信报告获取个人的信用情况,从而决策是否给予信用贷款是国内金融信贷机构通行的做法。
然而一份征信报告的内容非常多,通常都有十多页以上,如果人工读取全部内容并录入模型,则工作量极其庞大,人工成本较高。并且对于信贷而言该征信报告中并非全部内容均有用,所以,如何快速精准地获取个人征信报告中对信贷有帮助的信息是本领域的技术人员正在研究的技术问题。
因此,我们提出了一种新的征信报告PDF解析方法,处理和存储介质用于解决上述问题。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种新的征信报告PDF解析方法,处理和存储介质。
为了实现上述目的,本发明采用了如下技术方案:一种新的征信报告PDF解析方法,所述方法具体包括:
S1,服务器响应于征信报告查询指令,获取目标征信PDF文件;
S2,将所述目标PDF文件转化为word文档,之后将word文档转化为html文档;
S3,对多个所述html文档和多个所述html文档的文本内容进行训练以获得图像识别模型,以及对多个所述html文档的文本内容和解析报告进行训练以获得文本分类模型;
S4,根据所述文本分类模型对所述目标html文档进行解析,获得用户信息。
优选的,所述征信报告PDF文件解析方法还包括:对文件接收目录进行扫描,将扫描到的征信报告文件移动至文件解析目录下;相应的,按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析,包括:在接收到源***发送的标识文件后,按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。
优选的,所述征信报告PDF的解析方法还包括:所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
优选的,根据所述目标分类模型对所述目标征信报告PDF进行解析,获得用户信息,具体包括:调用所述目标分类模型,对所述目标征信报告PDF进行解析,通过所述目标分类模型中的预设解析器,递归萃取所述目标内容,获得用户信息。
优选的,在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数;相应的,在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区,包括:当解析处理总数等于征信报告文件总数时,将信息单元文件加载至数据库的临时数据区。
优选的,解析报告包括:提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;将所述结构化数据输入到所述文本分类模型以获得待分析的征信报告的解析报告。
优选的,所述文本分类模型包括文件接收模块,用于接收源***发送的征信报告文件;文件解析模块,用于按照征信报告文件中的信息单元对征信报告文件进行解析;结果保存模块,用于将征信报告文件的解析结果保存至预先配置的信息单元文件中;文件加载模块,用于在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区。
一种新的征信报告PDF处理和存储介质,适用于上述任意一条所述的一种新的征信报告PDF解析方法,包括计算机可读存储介质与服务器和服务器,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求上述任一项所述的方法;所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的征信报告解析程序,所述征信报告解析程序适用于权利要求上述任一项所述的征信报告解析的方法的步骤。
优选的,所述处理器包括获取单元,用于获取多个征信报告以及多个所述征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;训练单元,用于对多个所述征信报告和多个所述征信报告的文本内容进行训练以获得图像识别模型,以及对多个所述征信报告的文本内容和解析报告进行训练以获得文本分类模型;第一解析单元,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;第二解析单元,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
优选的,所述存储器还包括保存单元,用于在将所述文本内容输入到所述文本分类模型以获得待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告之前,保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
与现有技术相比,本发明的有益效果是:
1、本发明能够按照信息单元对征信报告文件进行自动解析,将解析结果解析至不同的信息单元文件中,还可以将信息单元文件自动加载至数据库的临时数据区,自动化解析和自动化加载不仅简化了征信报告的解析流程,还提高了征信报告的解析效率;
2、本发明中通过不同文档结构类型的征信报告调用对应的解析模型进行解析,灵活应对不同格式以及不断变化的模块,提高了征信报告的解析时效,满足业务需求。
附图说明
图1为本发明提出的一种新的征信报告PDF解析方法流程图;
图2为本发明提出的一种新的征信报告PDF解析方法中文本分类模型的流程图;
图3为本发明提出的一种新的征信报告PDF处理和存储介质中处理器的结构示意图;
图4为本发明提出的一种新的征信报告PDF解析方法中分类模型的流程图;
图5为本发明提出的一种新的征信报告PDF解析方法,处理和存储介质的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
参考图1-5,本实施例中提出了一种新的征信报告PDF解析方法,所述方法具体包括:
S1,服务器响应于征信报告查询指令,获取目标征信PDF文件;
S2,将所述目标PDF文件转化为word文档,之后将word文档转化为html文档;
S3,对多个所述html文档和多个所述html文档的文本内容进行训练以获得图像识别模型,以及对多个所述html文档的文本内容和解析报告进行训练以获得文本分类模型;
S4,根据所述文本分类模型对所述目标html文档进行解析,获得用户信息。
所述征信报告PDF文件解析方法还包括:对文件接收目录进行扫描,将扫描到的征信报告文件移动至文件解析目录下;相应的,按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析,包括:在接收到源***发送的标识文件后,按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。
所述征信报告PDF的解析方法还包括:所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
根据所述目标分类模型对所述目标征信报告PDF进行解析,获得用户信息,具体包括:调用所述目标分类模型,对所述目标征信报告PDF进行解析,通过所述目标分类模型中的预设解析器,递归萃取所述目标内容,获得用户信息。
在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数;相应的,在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区,包括:当解析处理总数等于征信报告文件总数时,将信息单元文件加载至数据库的临时数据区。
解析报告包括:提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;将所述结构化数据输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
所述文本分类模型包括文件接收模块,用于接收源***发送的征信报告文件;文件解析模块,用于按照征信报告文件中的信息单元对征信报告文件进行解析;结果保存模块,用于将征信报告文件的解析结果保存至预先配置的信息单元文件中;文件加载模块,用于在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区。
一种新的征信报告PDF处理和存储介质,适用于上述任意一条所述的一种新的征信报告PDF解析方法,包括计算机可读存储介质与服务器和服务器,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求上述任一项所述的方法;所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的征信报告解析程序,所述征信报告解析程序适用于权利要求上述任一项所述的征信报告解析的方法的步骤。
所述处理器包括获取单元,用于获取多个征信报告以及多个所述征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;训练单元,用于对多个所述征信报告和多个所述征信报告的文本内容进行训练以获得图像识别模型,以及对多个所述征信报告的文本内容和解析报告进行训练以获得文本分类模型;第一解析单元,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;第二解析单元,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
所述存储器还包括保存单元,用于在将所述文本内容输入到所述文本分类模型以获得待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告之前,保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
本实施例中,每个征信报告文件包括包括多个信息单元,每个信息单元由一个或多个信息段和/或一个或多个数据项构成,可以按照信息单元的分类对征信报告进行解析,并将解析结果分别保存至预先配置一个或多个信息单元文件中;例如,预先配置至少4个信息单元文件,该4个信息单元文件对应的信息单元分别为:贴现账户分机构汇总信息单元、欠息信息单元、信贷交易提示信息单元及借贷账户基本信息段单元。可以按照上述信息单元对每个征信报告进行解析,并将解析到的信息分门别类的保存在上述信息单元中。本领域技术人员可以理解的是,还可以预先配置除上述信息单元之外的其它的信息单元,本发明实施例对此不作特别的限制。另外,可以将上述信息单元(文件)配置在配置文件中,通过修改配置文件修改配置的信息单元(文件)。
本实施例中,计算计获得待分析的征信报告的文本内容后,将该文本内容输入到文本分类模型,该文本分类模型可以先将该文本内容转换为结构性文本,然后从该结构性文本中提取关键词,提取关键词的方法可以是基于机器学习的方式将文本内容中的词语映射到一个更抽象的向量空间中,每一个词语通过高维向量表示,该向量空间中两点之间的距离就对应两个词语的相似程度,根据该相似程度提取关键词,并根据关键词得到词向量,然后将该词向量输入到该文本分类模型,该文本分类模型会输出一个分类标签,该分类标签就是我们需要的解析报告,能够简洁直观地反映该待分析的征信报告中记录的征信状况;例如,该分类模型输出的分类标签为“信用分数80,信用良好”;再如,该分类模型输出的分类标签为“信用分数50,信用较差”;该待分析的征信报告的解析报告能够在贷款环节供信贷机构进行风险控制,最大限度地降低信贷机构的风险。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种新的征信报告PDF解析方法,其特征在于,所述方法具体包括:
S1,服务器响应于征信报告查询指令,获取目标征信PDF文件;
S2,将所述目标PDF文件转化为word文档,之后将word文档转化为html文档;
S3,对多个所述html文档和多个所述html文档的文本内容进行训练以获得图像识别模型,以及对多个所述html文档的文本内容和解析报告进行训练以获得文本分类模型;
S4,根据所述文本分类模型对所述目标html文档进行解析,获得用户信息。
2.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,所述征信报告PDF文件解析方法还包括:对文件接收目录进行扫描,将扫描到的征信报告文件移动至文件解析目录下;相应的,按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析,包括:在接收到源***发送的标识文件后,按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。
3.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,所述征信报告PDF的解析方法还包括:所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
4.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,根据所述目标分类模型对所述目标征信报告PDF进行解析,获得用户信息,具体包括:调用所述目标分类模型,对所述目标征信报告PDF进行解析,通过所述目标分类模型中的预设解析器,递归萃取所述目标内容,获得用户信息。
5.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数;相应的,在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区,包括:当解析处理总数等于征信报告文件总数时,将信息单元文件加载至数据库的临时数据区。
6.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,解析报告包括:提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;将所述结构化数据输入到所述文本分类模型以获得待分析的征信报告的解析报告。
7.根据权利要求1所述的一种新的征信报告PDF解析方法,处理和存储介质,其特征在于,所述文本分类模型包括文件接收模块,用于接收源***发送的征信报告文件;文件解析模块,用于按照征信报告文件中的信息单元对征信报告文件进行解析;结果保存模块,用于将征信报告文件的解析结果保存至预先配置的信息单元文件中;文件加载模块,用于在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区。
8.一种新的征信报告PDF处理和存储介质,适用于权利要求1-7中任意一条所述的一种新的征信报告PDF解析方法,其特征在于,包括计算机可读存储介质与服务器,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法;所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的征信报告解析程序,所述征信报告解析程序适用于权利要求1-7中任一项所述的征信报告解析的方法的步骤。
9.根据权利要求8所述的一种新的征信报告PDF处理和存储介质,其特征在于,所述处理器包括获取单元,用于获取多个征信报告以及多个所述征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;训练单元,用于对多个所述征信报告和多个所述征信报告的文本内容进行训练以获得图像识别模型,以及对多个所述征信报告的文本内容和解析报告进行训练以获得文本分类模型;第一解析单元,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;第二解析单元,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
10.根据权利要求8所述的一种新的征信报告PDF处理和存储介质,其特征在于,所述存储器还包括保存单元,用于在将所述文本内容输入到所述文本分类模型以获得待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告之前,保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
CN202111184120.8A 2021-10-11 2021-10-11 一种新的征信报告pdf解析方法,处理和存储介质 Pending CN114139526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111184120.8A CN114139526A (zh) 2021-10-11 2021-10-11 一种新的征信报告pdf解析方法,处理和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111184120.8A CN114139526A (zh) 2021-10-11 2021-10-11 一种新的征信报告pdf解析方法,处理和存储介质

Publications (1)

Publication Number Publication Date
CN114139526A true CN114139526A (zh) 2022-03-04

Family

ID=80394180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111184120.8A Pending CN114139526A (zh) 2021-10-11 2021-10-11 一种新的征信报告pdf解析方法,处理和存储介质

Country Status (1)

Country Link
CN (1) CN114139526A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345239A (ja) * 1998-06-02 1999-12-14 Nippon Telegr & Teleph Corp <Ntt> 文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体
CN108171600A (zh) * 2018-01-19 2018-06-15 深圳前海大数金融服务有限公司 征信报告解析方法、服务器及存储介质
CN110232328A (zh) * 2019-05-21 2019-09-13 深圳壹账通智能科技有限公司 一种征信报告解析方法、装置及计算机可读存储介质
CN110399453A (zh) * 2019-05-21 2019-11-01 平安普惠企业管理有限公司 征信报告处理方法及装置、电子设备和非暂态存储介质
CN111651413A (zh) * 2020-07-01 2020-09-11 中国银行股份有限公司 征信报告文件解析方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345239A (ja) * 1998-06-02 1999-12-14 Nippon Telegr & Teleph Corp <Ntt> 文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体
CN108171600A (zh) * 2018-01-19 2018-06-15 深圳前海大数金融服务有限公司 征信报告解析方法、服务器及存储介质
CN110232328A (zh) * 2019-05-21 2019-09-13 深圳壹账通智能科技有限公司 一种征信报告解析方法、装置及计算机可读存储介质
CN110399453A (zh) * 2019-05-21 2019-11-01 平安普惠企业管理有限公司 征信报告处理方法及装置、电子设备和非暂态存储介质
CN111651413A (zh) * 2020-07-01 2020-09-11 中国银行股份有限公司 征信报告文件解析方法及装置

Similar Documents

Publication Publication Date Title
US11514698B2 (en) Intelligent extraction of information from a document
US20230401828A1 (en) Method for training image recognition model, electronic device and storage medium
CN109670477B (zh) 面向pdf表格的自动识别***和方法
CN110929580A (zh) 一种基于ocr的财务报表信息快速提取方法及***
Isheawy et al. Optical character recognition (OCR) system
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
CN111898433B (zh) 一种纸质票据数字化方法和装置
RU2702967C1 (ru) Способ и система для проверки электронного комплекта документов
CN115062117A (zh) 一种基于自然语言处理技术的文档自动生成分类的方法
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
CN112464957B (zh) 基于非结构化投标文件内容的结构化数据获取方法及装置
CN117592470A (zh) 大语言模型驱动的低成本公报数据抽取方法
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理***、方法及存储介质
CN117195319A (zh) 保函文件电子件的验真方法、装置、电子设备和介质
CN111414889A (zh) 基于文字识别的财务报表识别方法及装置
CN114139526A (zh) 一种新的征信报告pdf解析方法,处理和存储介质
CN116384344A (zh) 一种文档转换方法、装置及存储介质
Kumar et al. An automated invoice handling method using OCR
US20220319216A1 (en) Image reading systems, methods and storage medium for performing geometric extraction
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN113935296A (zh) 一种使用滑动模板技术进行纸质银行流水信息提取的方法
CN111507236B (zh) 文件处理方法、***、装置及介质
CN117150046B (zh) 基于上下文语义的任务自动分解方法和***
Wei et al. A text extraction framework of financial report in traditional format with OpenCV
CN117216015A (zh) 一种结构化数据提取方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination