CN114139526A

CN114139526A - 一种新的征信报告pdf解析方法，处理和存储介质

Info

Publication number: CN114139526A
Application number: CN202111184120.8A
Authority: CN
Inventors: 黄伟
Original assignee: Shenzhen Fangbangbang Internet Technology Co ltd
Current assignee: Shenzhen Fangbangbang Internet Technology Co ltd
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2022-03-04

Abstract

本发明属于征信数据处理技术领域，尤其为一种新的征信报告PDF解析方法，处理和存储介质，服务器响应于征信报告查询指令，获取目标征信PDF文件；将所述目标PDF文件转化为word文档，之后将word文档转化为html文档。本发明能够按照信息单元对征信报告文件进行自动解析，将解析结果解析至不同的信息单元文件中，还可以将信息单元文件自动加载至数据库的临时数据区，自动化解析和自动化加载不仅简化了征信报告的解析流程，还提高了征信报告的解析效率；本发明中通过不同文档结构类型的征信报告调用对应的解析模型进行解析，灵活应对不同格式以及不断变化的模块，提高了征信报告的解析时效，满足业务需求。

Description

一种新的征信报告PDF解析方法，处理和存储介质

技术领域

本发明涉及征信数据处理技术领域，尤其涉及一种新的征信报告PDF解析方法，处理和存储介质。

背景技术

个人征信报告是反应个人信用最真实、直观的材料，通过个人征信报告获取个人的信用情况，从而决策是否给予信用贷款是国内金融信贷机构通行的做法。

然而一份征信报告的内容非常多，通常都有十多页以上，如果人工读取全部内容并录入模型，则工作量极其庞大，人工成本较高。并且对于信贷而言该征信报告中并非全部内容均有用，所以，如何快速精准地获取个人征信报告中对信贷有帮助的信息是本领域的技术人员正在研究的技术问题。

因此，我们提出了一种新的征信报告PDF解析方法，处理和存储介质用于解决上述问题。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种新的征信报告PDF解析方法，处理和存储介质。

为了实现上述目的，本发明采用了如下技术方案：一种新的征信报告PDF解析方法，所述方法具体包括：

S1，服务器响应于征信报告查询指令，获取目标征信PDF文件；

S2，将所述目标PDF文件转化为word文档，之后将word文档转化为html文档；

S3，对多个所述html文档和多个所述html文档的文本内容进行训练以获得图像识别模型，以及对多个所述html文档的文本内容和解析报告进行训练以获得文本分类模型；

S4，根据所述文本分类模型对所述目标html文档进行解析，获得用户信息。

优选的，所述征信报告PDF文件解析方法还包括：对文件接收目录进行扫描，将扫描到的征信报告文件移动至文件解析目录下；相应的，按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析，包括：在接收到源***发送的标识文件后，按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。

优选的，所述征信报告PDF的解析方法还包括：所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。

优选的，根据所述目标分类模型对所述目标征信报告PDF进行解析，获得用户信息，具体包括：调用所述目标分类模型，对所述目标征信报告PDF进行解析，通过所述目标分类模型中的预设解析器，递归萃取所述目标内容，获得用户信息。

优选的，在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数；相应的，在满足文件加载条件时，将信息单元文件加载至数据库的临时数据区，包括：当解析处理总数等于征信报告文件总数时，将信息单元文件加载至数据库的临时数据区。

优选的，解析报告包括：提取所述文本内容中的关键信息并对所述关键信息进行结构化处理，获取结构化数据；将所述结构化数据输入到所述文本分类模型以获得待分析的征信报告的解析报告。

优选的，所述文本分类模型包括文件接收模块，用于接收源***发送的征信报告文件；文件解析模块，用于按照征信报告文件中的信息单元对征信报告文件进行解析；结果保存模块，用于将征信报告文件的解析结果保存至预先配置的信息单元文件中；文件加载模块，用于在满足文件加载条件时，将信息单元文件加载至数据库的临时数据区。

一种新的征信报告PDF处理和存储介质，适用于上述任意一条所述的一种新的征信报告PDF解析方法，包括计算机可读存储介质与服务器和服务器，所述计算机存储介质存储有程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求上述任一项所述的方法；所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的征信报告解析程序，所述征信报告解析程序适用于权利要求上述任一项所述的征信报告解析的方法的步骤。

优选的，所述处理器包括获取单元，用于获取多个征信报告以及多个所述征信报告中每个征信报告的文本内容和解析报告，其中，所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况；训练单元，用于对多个所述征信报告和多个所述征信报告的文本内容进行训练以获得图像识别模型，以及对多个所述征信报告的文本内容和解析报告进行训练以获得文本分类模型；第一解析单元，用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容；第二解析单元，用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。

优选的，所述存储器还包括保存单元，用于在将所述文本内容输入到所述文本分类模型以获得待分析的征信报告的解析报告之后，根据所述解析报告筛选出符合预设条件的征信报告之前，保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告，以用于下一次训练图像识别模型和文本分类模型。

与现有技术相比，本发明的有益效果是：

1、本发明能够按照信息单元对征信报告文件进行自动解析，将解析结果解析至不同的信息单元文件中，还可以将信息单元文件自动加载至数据库的临时数据区，自动化解析和自动化加载不仅简化了征信报告的解析流程，还提高了征信报告的解析效率；

2、本发明中通过不同文档结构类型的征信报告调用对应的解析模型进行解析，灵活应对不同格式以及不断变化的模块，提高了征信报告的解析时效，满足业务需求。

附图说明

图1为本发明提出的一种新的征信报告PDF解析方法流程图；

图2为本发明提出的一种新的征信报告PDF解析方法中文本分类模型的流程图；

图3为本发明提出的一种新的征信报告PDF处理和存储介质中处理器的结构示意图；

图4为本发明提出的一种新的征信报告PDF解析方法中分类模型的流程图；

图5为本发明提出的一种新的征信报告PDF解析方法，处理和存储介质的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

参考图1-5，本实施例中提出了一种新的征信报告PDF解析方法，所述方法具体包括：

所述征信报告PDF文件解析方法还包括：对文件接收目录进行扫描，将扫描到的征信报告文件移动至文件解析目录下；相应的，按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析，包括：在接收到源***发送的标识文件后，按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。

所述征信报告PDF的解析方法还包括：所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。

根据所述目标分类模型对所述目标征信报告PDF进行解析，获得用户信息，具体包括：调用所述目标分类模型，对所述目标征信报告PDF进行解析，通过所述目标分类模型中的预设解析器，递归萃取所述目标内容，获得用户信息。

在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数；相应的，在满足文件加载条件时，将信息单元文件加载至数据库的临时数据区，包括：当解析处理总数等于征信报告文件总数时，将信息单元文件加载至数据库的临时数据区。

解析报告包括：提取所述文本内容中的关键信息并对所述关键信息进行结构化处理，获取结构化数据；将所述结构化数据输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。

所述文本分类模型包括文件接收模块，用于接收源***发送的征信报告文件；文件解析模块，用于按照征信报告文件中的信息单元对征信报告文件进行解析；结果保存模块，用于将征信报告文件的解析结果保存至预先配置的信息单元文件中；文件加载模块，用于在满足文件加载条件时，将信息单元文件加载至数据库的临时数据区。

所述处理器包括获取单元，用于获取多个征信报告以及多个所述征信报告中每个征信报告的文本内容和解析报告，其中，所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况；训练单元，用于对多个所述征信报告和多个所述征信报告的文本内容进行训练以获得图像识别模型，以及对多个所述征信报告的文本内容和解析报告进行训练以获得文本分类模型；第一解析单元，用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容；第二解析单元，用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。

所述存储器还包括保存单元，用于在将所述文本内容输入到所述文本分类模型以获得待分析的征信报告的解析报告之后，根据所述解析报告筛选出符合预设条件的征信报告之前，保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告，以用于下一次训练图像识别模型和文本分类模型。

本实施例中，每个征信报告文件包括包括多个信息单元，每个信息单元由一个或多个信息段和/或一个或多个数据项构成，可以按照信息单元的分类对征信报告进行解析，并将解析结果分别保存至预先配置一个或多个信息单元文件中；例如，预先配置至少4个信息单元文件，该4个信息单元文件对应的信息单元分别为：贴现账户分机构汇总信息单元、欠息信息单元、信贷交易提示信息单元及借贷账户基本信息段单元。可以按照上述信息单元对每个征信报告进行解析，并将解析到的信息分门别类的保存在上述信息单元中。本领域技术人员可以理解的是，还可以预先配置除上述信息单元之外的其它的信息单元，本发明实施例对此不作特别的限制。另外，可以将上述信息单元(文件)配置在配置文件中，通过修改配置文件修改配置的信息单元(文件)。

本实施例中，计算计获得待分析的征信报告的文本内容后，将该文本内容输入到文本分类模型，该文本分类模型可以先将该文本内容转换为结构性文本，然后从该结构性文本中提取关键词，提取关键词的方法可以是基于机器学习的方式将文本内容中的词语映射到一个更抽象的向量空间中，每一个词语通过高维向量表示，该向量空间中两点之间的距离就对应两个词语的相似程度，根据该相似程度提取关键词，并根据关键词得到词向量，然后将该词向量输入到该文本分类模型，该文本分类模型会输出一个分类标签，该分类标签就是我们需要的解析报告，能够简洁直观地反映该待分析的征信报告中记录的征信状况；例如，该分类模型输出的分类标签为“信用分数80，信用良好”；再如，该分类模型输出的分类标签为“信用分数50，信用较差”；该待分析的征信报告的解析报告能够在贷款环节供信贷机构进行风险控制，最大限度地降低信贷机构的风险。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种新的征信报告PDF解析方法，其特征在于，所述方法具体包括：

2.根据权利要求1所述的一种新的征信报告PDF解析方法，其特征在于，所述征信报告PDF文件解析方法还包括：对文件接收目录进行扫描，将扫描到的征信报告文件移动至文件解析目录下；相应的，按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析，包括：在接收到源***发送的标识文件后，按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。

3.根据权利要求1所述的一种新的征信报告PDF解析方法，其特征在于，所述征信报告PDF的解析方法还包括：所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。

4.根据权利要求1所述的一种新的征信报告PDF解析方法，其特征在于，根据所述目标分类模型对所述目标征信报告PDF进行解析，获得用户信息，具体包括：调用所述目标分类模型，对所述目标征信报告PDF进行解析，通过所述目标分类模型中的预设解析器，递归萃取所述目标内容，获得用户信息。

5.根据权利要求1所述的一种新的征信报告PDF解析方法，其特征在于，在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数；相应的，在满足文件加载条件时，将信息单元文件加载至数据库的临时数据区，包括：当解析处理总数等于征信报告文件总数时，将信息单元文件加载至数据库的临时数据区。

6.根据权利要求1所述的一种新的征信报告PDF解析方法，其特征在于，解析报告包括：提取所述文本内容中的关键信息并对所述关键信息进行结构化处理，获取结构化数据；将所述结构化数据输入到所述文本分类模型以获得待分析的征信报告的解析报告。

7.根据权利要求1所述的一种新的征信报告PDF解析方法，处理和存储介质，其特征在于，所述文本分类模型包括文件接收模块，用于接收源***发送的征信报告文件；文件解析模块，用于按照征信报告文件中的信息单元对征信报告文件进行解析；结果保存模块，用于将征信报告文件的解析结果保存至预先配置的信息单元文件中；文件加载模块，用于在满足文件加载条件时，将信息单元文件加载至数据库的临时数据区。

8.一种新的征信报告PDF处理和存储介质，适用于权利要求1-7中任意一条所述的一种新的征信报告PDF解析方法，其特征在于，包括计算机可读存储介质与服务器，所述计算机存储介质存储有程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法；所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的征信报告解析程序，所述征信报告解析程序适用于权利要求1-7中任一项所述的征信报告解析的方法的步骤。

9.根据权利要求8所述的一种新的征信报告PDF处理和存储介质，其特征在于，所述处理器包括获取单元，用于获取多个征信报告以及多个所述征信报告中每个征信报告的文本内容和解析报告，其中，所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况；训练单元，用于对多个所述征信报告和多个所述征信报告的文本内容进行训练以获得图像识别模型，以及对多个所述征信报告的文本内容和解析报告进行训练以获得文本分类模型；第一解析单元，用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容；第二解析单元，用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。

10.根据权利要求8所述的一种新的征信报告PDF处理和存储介质，其特征在于，所述存储器还包括保存单元，用于在将所述文本内容输入到所述文本分类模型以获得待分析的征信报告的解析报告之后，根据所述解析报告筛选出符合预设条件的征信报告之前，保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告，以用于下一次训练图像识别模型和文本分类模型。