CN115688740B

CN115688740B - 一种银行流水数据自动解析方法及***

Info

Publication number: CN115688740B
Application number: CN202211328657.1A
Authority: CN
Inventors: 汪江舟
Original assignee: Hangzhou Kangaroo Cloud Technology Co ltd
Current assignee: Hangzhou Kangaroo Cloud Technology Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-09-15
Anticipated expiration: 2042-10-27
Also published as: CN115688740A

Abstract

本发明属于数据解析领域，公开了一种银行流水数据自动解析方法及***，该方法具体包括通过文本获取模块从各银行服务器数据库获取各类银行流水数据文件；利用配置规则模块对各类银行流水数据文件进行解析规则配置；利用表头提取模块从银行流水数据文件中提取表头行，确定表头中各个文本信息；通过匹配模块将字段文本信息与预先存储在字典库中的标准字段与非标准字段进行匹配，以确定文本信息对应的标准字段；利用数据解析模块根据所述标准字段对所述流水文件进行流水数据解析。本发明实现不同的流水文件的下载，具有兼容性，灵活性较高，不需要重新进行编码等，成本更低。

Description

一种银行流水数据自动解析方法及***

技术领域

本发明属于数据解析领域，尤其涉及一种银行流水数据自动解析方法及时间精准把控方法。

背景技术

目前各个银行企业网银***已十分成熟，各个银行都有推出了各自的网银***，其中一个重要的功能就是企业的流水对账单文件下载，由于各个银行***的不一致导致了企业获取到的银行流水文件从文件格式，文件内容和字段名称等都不一样。

然而，目前基本的流水数据解析方法都是基于特定的银行的流水模板和特定的文件格式进行编程和解析，通过硬编码等方式写入软件中。因此，计算机设备必须预先获取到银行的流水文件模板，读取文件中特定位置的字段后，根据对应的字段关系找出业务***需要的流水字段信息，由于位置必须预先设定好，灵活性差，不同银行的兼容不够，需要重新进行编码，迭代成本高。

发明内容

针对现有技术存在的问题，本发明提供了一种银行流水数据自动解析方法及***。

本发明是这样实现的，一种银行流水数据自动解析方法及***，其特征在于，所述银行流水数据自动解析方法具体包括：

S1：通过文本获取模块从各银行服务器数据库获取各类银行流水数据文件；

S2：利用配置模块对各类银行流水数据文件进行解析规则配置；

S3：利用表头提取模块从银行流水数据文件中提取表头行，确定表头中各个文本信息；

S4：通过匹配模块将字段文本信息与预先存储在字典库中的标准字段与非标准字段进行匹配，以确定文本信息对应的标准字段；

S5：利用数据解析模块根据所述标准字段对所述流水文件进行流水数据解析。

进一步，所述解析规则配置用于配置读取路径、写入路径、解析规则。

进一步，所述解析规则具体包括：

(1)去除流水数据中的不规则格式；

(2)构建dom树，计算每个节点要求的变量；

(3)根据c计算每个节点的分数，找出分数最大的节点，提取数据，并格式化输出。

进一步，所述构建dom树，计算每个节点要求的变量包括：

(1)计算该节点的文本密度；

(2)计算符号密度为文字数量与符号数量的比值；

(3)计算Dom树标签分数score，score越大，则该结点属于文本内容的可能性较大。

进一步，所述计算该节点的文本密度包括：

设定i为Dom树的一个结点，则该节点的文本密度TDi为：

其中，Ti表示结点i的字符串字数；LTi表示结点i的带链接的字符串字数；TGi表示结点i的标签数；LTG_i表示结点i带链接的标签数。

进一步，所述计算符号密度为文字数量与符号数量的比值的计算公式为：

其中，Ti表示结点i的字符串字数；LTi表示结点i的带链接的字符串字数；Sbi表示符号数量。

进一步，所述字典库中关联存储了标准字段与非标准字段。

本发明另一目的在于提供一种应用所述的银行流水数据自动解析方法的银行流水数据自动解析***，其特征在于，该***具体包括：

文件获取模块，用于从各银行服务器数据库获取各类银行流水数据文件，通过SQL数据库服务获取的各类银行流水数据文件，以SQL文件格式存在，通过SQL数据库服务对文件进行解析，获取其中内容信息，将提取的内容信息以文本数字信号的形式存储；

配置模块，用于对各类银行流水数据文件进行解析规则配置，包括配置读取路径、写入路径、解析规则，并将解析的规则进行正确性验证，验证无误后将规则进行标号存储；

表头提取模块，与文件获取模块、匹配模块连接，用于从银行流水数据文件中提取表头行，确定表头各个文本信息，使用SQL语句命令将表头行提取出来，以文本数字信号的形式进行存储；

匹配模块，与表头提取模块、字典库连接，用于将表头各个文本信息与预先存储的字典库中的标准字段与非标准字段通过分支查找法进行匹配，以确定文本信息对应的标准字段；

字典库，与匹配模块连接，关联存储了标准字段与非标准字段；

数据解析模块，与匹配模块连接，用于根据所述标准字段对所述流水文件进行流水数据解析。

本发明另一目的在于提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述的方法的步骤。

本发明另一目的在于提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述的方法的步骤。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明使用SQL数据服务进行获取银行流水数据，保证了数据传输的效率以及数据的安全性；在获取到银行流水数据文件后，可以仅提取第一预设数量的预设行，这样通过预设提取逻辑来从预设行中确定表头行，从而可以根据表头行中各个字段对应的文本信息以及字典库来确定表头行中各个字段所代表的属性，即标准字段，进而可以根据标准字段对流水文件进行流水数据提取，不需要设置额外的模板等，不仅提升了分析效率，而且分析数据的减少会相应的提高分析的准确率。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明实现不同的流水文件的下载，具有兼容性，灵活性较高，不需要重新进行编码等，成本更低，效果更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种银行流水数据自动解析方法流程图；

图2是本发明实施例提供的一种银行流水数据自动解析***结构图；

图中：1、文件获取模块；2、配置模块；3、表头提取模块；4、匹配模块；5、字典库；6、数据解析模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例是这样实现的，一种银行流水数据自动解析方法及***，其特征在于，所述银行流水数据自动解析方法具体包括：

所述解析规则配置用于配置读取路径、写入路径、解析规则。

所述解析规则具体包括：

(1)去除流水数据中的不规则格式；

(2)构建dom树，计算每个节点要求的变量；

所述构建dom树，计算每个节点要求的变量包括：

(1)计算该节点的文本密度；

(2)计算符号密度为文字数量与符号数量的比值；

所述计算该节点的文本密度包括：

设定i为Dom树的一个结点，则该节点的文本密度TDi为：

所述计算符号密度为文字数量与符号数量的比值的计算公式为：

所述字典库中关联存储了标准字段与非标准字段。

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。

如图2所示，本发明将一种银行流水数据自动解析***应用所述的银行流水数据自动解析方法，该***具体包括：

文件获取模块1，用于从各银行服务器数据库获取各类银行流水数据文件，以SQL文件格式存在，通过SQL数据库服务对文件进行解析，获取其中内容信息，将提取的内容信息以文本数字信号的形式存储；

配置模块2，用于对各类银行流水数据文件进行解析规则配置，包括配置读取路径、写入路径、解析规则，并将解析的规则进行正确性验证，验证无误后将规则进行标号存储；

表头提取模块3，与文件获取模块1、匹配模块2连接，用于提取银行流水数据文件中提取表头行，确定表头各个文本信息，使用SQL语句命令将表头行提取出来，以文本数字信号的形式进行存储；

匹配模块4，与表头提取模块3、字典库5连接，用于将表头各个文本信息与预先存储的字典库中的标准字段与非标准字段通过分支查找法进行匹配，以确定文本信息对应的标准字段；

字典库5，与匹配模块4连接，关联存储了标准字段与非标准字段；

数据解析模块6，与匹配模块4连接，用于根据所述标准字段对所述流水文件进行流水数据解析。

本发明将一种银行流水数据自动解析方法应用于一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述的方法的步骤。

本发明将一种银行流水数据自动解析方法应用于一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述的方法的步骤。

本发明工作时：首先使用文件获取模块1从各银行服务器数据库获取各类银行流水数据文件，然后利用配置模块2对各类银行流水数据文件进行解析规则配置，解析后利用表头提取模块3从银行流水数据文件中提取表头行，确定表头中各个文本信息，然后通过匹配模块4将字段文本信息与预先存储在字典库5中的标准字段与非标准字段进行匹配，以确定文本信息对应的标准字段，最后利用数据解析模块6根据所述标准字段对所述流水文件进行流水数据解析。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种银行流水数据自动解析方法，其特征在于包括：

S5：利用数据解析模块根据所述标准字段对所述流水数据文件进行流水数据解析；

所述解析规则配置用于配置读取路径、写入路径、解析规则；所述解析规则具体包括：

（1）去除流水数据中的不规则格式；

（2）构建dom树，计算每个节点要求的变量；

（3）根据c计算每个节点的分数，找出分数最大的节点，提取数据，并格式化输出；

所述构建 dom树，计算每个节点要求的变量包括：

（1）计算该节点的文本密度；

（2）计算符号密度为文字数量与符号数量的比值；

（3）计算Dom树标签分数score，score越大，则该节点属于文本内容的可能性较大；

所述计算该节点的文本密度包括：

设定i 为 Dom 树的一个节点，则该节点的文本密度 TDi 为：

，

其中，Ti表示节点i的字符串字数；LTi表示节点i的带链接的字符串字数；TGi表示节点i的标签数；LTG_i表示节点i带链接的标签数；

，

其中，Ti表示节点i的字符串字数；LTi表示节点i的带链接的字符串字数；Sbi表示符号数量；

所述字典库中关联存储了标准字段与非标准字段；

数据解析模块，与匹配模块连接，用于根据所述标准字段对所述流水数据文件进行流水数据解析。

2.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1所述的方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。