CN115688740B - 一种银行流水数据自动解析方法及*** - Google Patents
一种银行流水数据自动解析方法及*** Download PDFInfo
- Publication number
- CN115688740B CN115688740B CN202211328657.1A CN202211328657A CN115688740B CN 115688740 B CN115688740 B CN 115688740B CN 202211328657 A CN202211328657 A CN 202211328657A CN 115688740 B CN115688740 B CN 115688740B
- Authority
- CN
- China
- Prior art keywords
- node
- module
- bank
- text
- header
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于数据解析领域,公开了一种银行流水数据自动解析方法及***,该方法具体包括通过文本获取模块从各银行服务器数据库获取各类银行流水数据文件;利用配置规则模块对各类银行流水数据文件进行解析规则配置;利用表头提取模块从银行流水数据文件中提取表头行,确定表头中各个文本信息;通过匹配模块将字段文本信息与预先存储在字典库中的标准字段与非标准字段进行匹配,以确定文本信息对应的标准字段;利用数据解析模块根据所述标准字段对所述流水文件进行流水数据解析。本发明实现不同的流水文件的下载,具有兼容性,灵活性较高,不需要重新进行编码等,成本更低。
Description
技术领域
本发明属于数据解析领域,尤其涉及一种银行流水数据自动解析方法及时间精准把控方法。
背景技术
目前各个银行企业网银***已十分成熟,各个银行都有推出了各自的网银***,其中一个重要的功能就是企业的流水对账单文件下载,由于各个银行***的不一致导致了企业获取到的银行流水文件从文件格式,文件内容和字段名称等都不一样。
然而,目前基本的流水数据解析方法都是基于特定的银行的流水模板和特定的文件格式进行编程和解析,通过硬编码等方式写入软件中。因此,计算机设备必须预先获取到银行的流水文件模板,读取文件中特定位置的字段后,根据对应的字段关系找出业务***需要的流水字段信息,由于位置必须预先设定好,灵活性差,不同银行的兼容不够,需要重新进行编码,迭代成本高。
发明内容
针对现有技术存在的问题,本发明提供了一种银行流水数据自动解析方法及***。
本发明是这样实现的,一种银行流水数据自动解析方法及***,其特征在于,所述银行流水数据自动解析方法具体包括:
S1:通过文本获取模块从各银行服务器数据库获取各类银行流水数据文件;
S2:利用配置模块对各类银行流水数据文件进行解析规则配置;
S3:利用表头提取模块从银行流水数据文件中提取表头行,确定表头中各个文本信息;
S4:通过匹配模块将字段文本信息与预先存储在字典库中的标准字段与非标准字段进行匹配,以确定文本信息对应的标准字段;
S5:利用数据解析模块根据所述标准字段对所述流水文件进行流水数据解析。
进一步,所述解析规则配置用于配置读取路径、写入路径、解析规则。
进一步,所述解析规则具体包括:
(1)去除流水数据中的不规则格式;
(2)构建dom树,计算每个节点要求的变量;
(3)根据c计算每个节点的分数,找出分数最大的节点,提取数据,并格式化输出。
进一步,所述构建dom树,计算每个节点要求的变量包括:
(1)计算该节点的文本密度;
(2)计算符号密度为文字数量与符号数量的比值;
(3)计算Dom树标签分数score,score越大,则该结点属于文本内容的可能性较大。
进一步,所述计算该节点的文本密度包括:
设定i为Dom树的一个结点,则该节点的文本密度TDi为:
其中,Ti表示结点i的字符串字数;LTi表示结点i的带链接的字符串字数;TGi表示结点i的标签数;LTGi表示结点i带链接的标签数。
进一步,所述计算符号密度为文字数量与符号数量的比值的计算公式为:
其中,Ti表示结点i的字符串字数;LTi表示结点i的带链接的字符串字数;Sbi表示符号数量。
进一步,所述字典库中关联存储了标准字段与非标准字段。
本发明另一目的在于提供一种应用所述的银行流水数据自动解析方法的银行流水数据自动解析***,其特征在于,该***具体包括:
文件获取模块,用于从各银行服务器数据库获取各类银行流水数据文件,通过SQL数据库服务获取的各类银行流水数据文件,以SQL文件格式存在,通过SQL数据库服务对文件进行解析,获取其中内容信息,将提取的内容信息以文本数字信号的形式存储;
配置模块,用于对各类银行流水数据文件进行解析规则配置,包括配置读取路径、写入路径、解析规则,并将解析的规则进行正确性验证,验证无误后将规则进行标号存储;
表头提取模块,与文件获取模块、匹配模块连接,用于从银行流水数据文件中提取表头行,确定表头各个文本信息,使用SQL语句命令将表头行提取出来,以文本数字信号的形式进行存储;
匹配模块,与表头提取模块、字典库连接,用于将表头各个文本信息与预先存储的字典库中的标准字段与非标准字段通过分支查找法进行匹配,以确定文本信息对应的标准字段;
字典库,与匹配模块连接,关联存储了标准字段与非标准字段;
数据解析模块,与匹配模块连接,用于根据所述标准字段对所述流水文件进行流水数据解析。
本发明另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的方法的步骤。
本发明另一目的在于提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的方法的步骤。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明使用SQL数据服务进行获取银行流水数据,保证了数据传输的效率以及数据的安全性;在获取到银行流水数据文件后,可以仅提取第一预设数量的预设行,这样通过预设提取逻辑来从预设行中确定表头行,从而可以根据表头行中各个字段对应的文本信息以及字典库来确定表头行中各个字段所代表的属性,即标准字段,进而可以根据标准字段对流水文件进行流水数据提取,不需要设置额外的模板等,不仅提升了分析效率,而且分析数据的减少会相应的提高分析的准确率。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
本发明实现不同的流水文件的下载,具有兼容性,灵活性较高,不需要重新进行编码等,成本更低,效果更好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种银行流水数据自动解析方法流程图;
图2是本发明实施例提供的一种银行流水数据自动解析***结构图;
图中:1、文件获取模块;2、配置模块;3、表头提取模块;4、匹配模块;5、字典库;6、数据解析模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例是这样实现的,一种银行流水数据自动解析方法及***,其特征在于,所述银行流水数据自动解析方法具体包括:
S1:通过文本获取模块从各银行服务器数据库获取各类银行流水数据文件;
S2:利用配置模块对各类银行流水数据文件进行解析规则配置;
S3:利用表头提取模块从银行流水数据文件中提取表头行,确定表头中各个文本信息;
S4:通过匹配模块将字段文本信息与预先存储在字典库中的标准字段与非标准字段进行匹配,以确定文本信息对应的标准字段;
S5:利用数据解析模块根据所述标准字段对所述流水文件进行流水数据解析。
所述解析规则配置用于配置读取路径、写入路径、解析规则。
所述解析规则具体包括:
(1)去除流水数据中的不规则格式;
(2)构建dom树,计算每个节点要求的变量;
(3)根据c计算每个节点的分数,找出分数最大的节点,提取数据,并格式化输出。
所述构建dom树,计算每个节点要求的变量包括:
(1)计算该节点的文本密度;
(2)计算符号密度为文字数量与符号数量的比值;
(3)计算Dom树标签分数score,score越大,则该结点属于文本内容的可能性较大。
所述计算该节点的文本密度包括:
设定i为Dom树的一个结点,则该节点的文本密度TDi为:
其中,Ti表示结点i的字符串字数;LTi表示结点i的带链接的字符串字数;TGi表示结点i的标签数;LTGi表示结点i带链接的标签数。
所述计算符号密度为文字数量与符号数量的比值的计算公式为:
其中,Ti表示结点i的字符串字数;LTi表示结点i的带链接的字符串字数;Sbi表示符号数量。
所述字典库中关联存储了标准字段与非标准字段。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。
如图2所示,本发明将一种银行流水数据自动解析***应用所述的银行流水数据自动解析方法,该***具体包括:
文件获取模块1,用于从各银行服务器数据库获取各类银行流水数据文件,以SQL文件格式存在,通过SQL数据库服务对文件进行解析,获取其中内容信息,将提取的内容信息以文本数字信号的形式存储;
配置模块2,用于对各类银行流水数据文件进行解析规则配置,包括配置读取路径、写入路径、解析规则,并将解析的规则进行正确性验证,验证无误后将规则进行标号存储;
表头提取模块3,与文件获取模块1、匹配模块2连接,用于提取银行流水数据文件中提取表头行,确定表头各个文本信息,使用SQL语句命令将表头行提取出来,以文本数字信号的形式进行存储;
匹配模块4,与表头提取模块3、字典库5连接,用于将表头各个文本信息与预先存储的字典库中的标准字段与非标准字段通过分支查找法进行匹配,以确定文本信息对应的标准字段;
字典库5,与匹配模块4连接,关联存储了标准字段与非标准字段;
数据解析模块6,与匹配模块4连接,用于根据所述标准字段对所述流水文件进行流水数据解析。
本发明将一种银行流水数据自动解析方法应用于一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的方法的步骤。
本发明将一种银行流水数据自动解析方法应用于一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的方法的步骤。
本发明工作时:首先使用文件获取模块1从各银行服务器数据库获取各类银行流水数据文件,然后利用配置模块2对各类银行流水数据文件进行解析规则配置,解析后利用表头提取模块3从银行流水数据文件中提取表头行,确定表头中各个文本信息,然后通过匹配模块4将字段文本信息与预先存储在字典库5中的标准字段与非标准字段进行匹配,以确定文本信息对应的标准字段,最后利用数据解析模块6根据所述标准字段对所述流水文件进行流水数据解析。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种银行流水数据自动解析方法,其特征在于包括:
S1:通过文本获取模块从各银行服务器数据库获取各类银行流水数据文件;
S2:利用配置模块对各类银行流水数据文件进行解析规则配置;
S3:利用表头提取模块从银行流水数据文件中提取表头行,确定表头中各个文本信息;
S4:通过匹配模块将字段文本信息与预先存储在字典库中的标准字段与非标准字段进行匹配,以确定文本信息对应的标准字段;
S5:利用数据解析模块根据所述标准字段对所述流水数据文件进行流水数据解析;
所述解析规则配置用于配置读取路径、写入路径、解析规则;所述解析规则具体包括:
(1)去除流水数据中的不规则格式;
(2)构建dom树,计算每个节点要求的变量;
(3)根据c计算每个节点的分数,找出分数最大的节点,提取数据,并格式化输出;
所述构建 dom树,计算每个节点要求的变量包括:
(1)计算该节点的文本密度;
(2)计算符号密度为文字数量与符号数量的比值;
(3)计算Dom树标签分数score,score越大,则该节点属于文本内容的可能性较大;
所述计算该节点的文本密度包括:
设定i 为 Dom 树的一个节点,则该节点的文本密度 TDi 为:
,
其中,Ti表示节点i的字符串字数;LTi表示节点i的带链接的字符串字数;TGi表示节点i的标签数;LTGi表示节点i带链接的标签数;
所述计算符号密度为文字数量与符号数量的比值的计算公式为:
,
其中,Ti表示节点i的字符串字数;LTi表示节点i的带链接的字符串字数;Sbi表示符号数量;
所述字典库中关联存储了标准字段与非标准字段;
文件获取模块,用于从各银行服务器数据库获取各类银行流水数据文件,通过SQL数据库服务获取的各类银行流水数据文件,以SQL文件格式存在,通过SQL数据库服务对文件进行解析,获取其中内容信息,将提取的内容信息以文本数字信号的形式存储;
配置模块,用于对各类银行流水数据文件进行解析规则配置,包括配置读取路径、写入路径、解析规则,并将解析的规则进行正确性验证,验证无误后将规则进行标号存储;
表头提取模块,与文件获取模块、匹配模块连接,用于从银行流水数据文件中提取表头行,确定表头各个文本信息,使用SQL语句命令将表头行提取出来,以文本数字信号的形式进行存储;
匹配模块,与表头提取模块、字典库连接,用于将表头各个文本信息与预先存储的字典库中的标准字段与非标准字段通过分支查找法进行匹配,以确定文本信息对应的标准字段;
字典库,与匹配模块连接,关联存储了标准字段与非标准字段;
数据解析模块,与匹配模块连接,用于根据所述标准字段对所述流水数据文件进行流水数据解析。
2.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1所述的方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211328657.1A CN115688740B (zh) | 2022-10-27 | 2022-10-27 | 一种银行流水数据自动解析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211328657.1A CN115688740B (zh) | 2022-10-27 | 2022-10-27 | 一种银行流水数据自动解析方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115688740A CN115688740A (zh) | 2023-02-03 |
CN115688740B true CN115688740B (zh) | 2023-09-15 |
Family
ID=85099079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211328657.1A Active CN115688740B (zh) | 2022-10-27 | 2022-10-27 | 一种银行流水数据自动解析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688740B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
CN111723265A (zh) * | 2020-07-01 | 2020-09-29 | 杭州叙简科技股份有限公司 | 一种可扩展的新闻网站通用爬虫方法及*** |
CN113191130A (zh) * | 2021-04-21 | 2021-07-30 | 见知数据科技(上海)有限公司 | 一种银行电子流水数据预处理方法 |
CN114912051A (zh) * | 2022-05-23 | 2022-08-16 | 招商银行股份有限公司 | 数据处理方法、设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330447A (zh) * | 2018-01-19 | 2021-02-05 | 创新先进技术有限公司 | 资金流转方法及装置、电子设备 |
-
2022
- 2022-10-27 CN CN202211328657.1A patent/CN115688740B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
CN111723265A (zh) * | 2020-07-01 | 2020-09-29 | 杭州叙简科技股份有限公司 | 一种可扩展的新闻网站通用爬虫方法及*** |
CN113191130A (zh) * | 2021-04-21 | 2021-07-30 | 见知数据科技(上海)有限公司 | 一种银行电子流水数据预处理方法 |
CN114912051A (zh) * | 2022-05-23 | 2022-08-16 | 招商银行股份有限公司 | 数据处理方法、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115688740A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8112447B2 (en) | System and method for parsing a text file | |
US20070006128A1 (en) | Method for evaluating dynamic expressions | |
CN111125598A (zh) | 数据智能查询方法、装置、设备及存储介质 | |
US11551146B2 (en) | Automated non-native table representation annotation for machine-learning models | |
CN112667775A (zh) | 基于关键词提示的检索方法、装置、电子设备及存储介质 | |
CN115688740B (zh) | 一种银行流水数据自动解析方法及*** | |
CN111581057B (zh) | 一种通用日志解析方法、终端设备及存储介质 | |
US20230099164A1 (en) | Systems and methods for automated data quality semantic constraint identification using rich data type inferences | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN114691907B (zh) | 一种跨模态检索的方法、设备及介质 | |
CN115330350A (zh) | 面向安全持久性内存的财务数据协同管理方法、装置 | |
CN114780098A (zh) | Gauss Db数据库程序语法的检测方法及相关设备 | |
CN112988996B (zh) | 知识库生成方法、装置、设备及存储介质 | |
CN113901811A (zh) | 一种基于掩码语言模型的文献新词发现方法及*** | |
CN112151186A (zh) | 一种在医疗文本中提取疾病诱因、病因的方法及装置及*** | |
CN111966881A (zh) | 一种网页信息提取方法及***、电子设备 | |
CN114637845B (zh) | 模型测试方法、装置、设备和存储介质 | |
CN117951038B (zh) | 基于代码大模型的Rust语言文档测试自动生成方法及装置 | |
CN116910175B (zh) | 自动化移动设备故障层级树构建方法、装置及储存介质 | |
CN116758565B (zh) | 一种基于决策树的ocr文本还原方法、设备及存储介质 | |
CN113537091B (zh) | 网页正文的识别方法、装置、电子设备及存储介质 | |
CN113626385B (zh) | 一种基于文本数据读取的方法和*** | |
CN118313348A (zh) | 文档格式排版方法、装置、计算机设备、存储介质及产品 | |
CN115203604A (zh) | 一种网页正文提取方法及***及装置及介质 | |
CN116089419A (zh) | 产品特性数据的校核方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |