CN116150371A - 基于shardingJDBC的资产还款计划海量数据处理方法 - Google Patents

基于shardingJDBC的资产还款计划海量数据处理方法 Download PDF

Info

Publication number
CN116150371A
CN116150371A CN202310141878.6A CN202310141878A CN116150371A CN 116150371 A CN116150371 A CN 116150371A CN 202310141878 A CN202310141878 A CN 202310141878A CN 116150371 A CN116150371 A CN 116150371A
Authority
CN
China
Prior art keywords
data
feature
semantic
semantic understanding
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310141878.6A
Other languages
English (en)
Inventor
陈粤龙
朱振华
张献力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangyin Consumer Finance Co ltd
Original Assignee
Hangyin Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangyin Consumer Finance Co ltd filed Critical Hangyin Consumer Finance Co ltd
Priority to CN202310141878.6A priority Critical patent/CN116150371A/zh
Publication of CN116150371A publication Critical patent/CN116150371A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据处理领域,其具体地公开了一种基于shardingJDBC的资产还款计划海量数据处理方法,其通过采用基于深度学习的人工智能技术,使用备选切分方案来对于资产还款计划海量数据进行切分,以此来提取出所述资产还款计划海量数据基于全局的切分子数据语义理解特征,并进一步通过所述各个切分子数据的语义理解特征间的语义拓扑关联特征来增强所述各个切分子数据的语义理解特征的表达,以此来提高对于资产还款计划海量数据的语义理解精准度,进而提高对于备选切分方案的合理性判断的准确性。这样,能够对于资产还款计划海量数据进行合理地数据分片,进而提高后续数据库的使用效率。

Description

基于shardingJDBC的资产还款计划海量数据处理方法
技术领域
本申请涉及数据处理领域,且更为具体地,涉及一种基于shardingJDBC的资产还款计划海量数据处理方法。
背景技术
Apache ShardingSphere 是一款分布式的数据库生态***,可以将任意数据库转换为分布式数据库,并通过数据分片、弹性伸缩、加密等能力对原有数据库进行增强。ShardingJDBC作为Apache ShardingSphere的一款产品,既能够独立部署,又支持混合部署配合使用的产品组成。它们均提供标准化的基于数据库作为存储节点的增量功能,可适用于如 Java同构、异构语言、云原生等各种多样化的应用场景。
虽然shardingJDBC的引入对业务代码无侵入,不需要修改任何业务代码逻辑,只需要引入jar包和修改配置文件即可完成分片。但是在具体数据处理中,如何进行数据分片是一个重要的技术问题。现有的数据分片策略为基于人工经验来进行数据切分,但人工经验在面对不熟悉的数据时往往无法很好地基于数据内部信息和数据自身结构来合理分片,影响后续数据库的使用。
因此,期望一种优化的基于shardingJDBC的资产还款计划海量数据处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于shardingJDBC的资产还款计划海量数据处理方法,其通过采用基于深度学习的人工智能技术,使用备选切分方案来对于资产还款计划海量数据进行切分,以此来提取出所述资产还款计划海量数据基于全局的切分子数据语义理解特征,并进一步通过所述各个切分子数据的语义理解特征间的语义拓扑关联特征来增强所述各个切分子数据的语义理解特征的表达,以此来提高对于资产还款计划海量数据的语义理解精准度,进而提高对于备选切分方案的合理性判断的准确性。这样,能够对于资产还款计划海量数据进行合理地数据分片,进而提高后续数据库的使用效率。
根据本申请的一个方面,提供了一种基于shardingJDBC的资产还款计划海量数据处理方法,其包括:
获取待切分资产还款计划海量数据;
基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据;
将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量;
计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵;
将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵;
将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵;
将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵;
对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量;以及
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,所述将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量,包括:对所述多个切分子数据中各个切分子数据进行分词处理以将所述多个切分子数据中各个切分子数据转化为由多个词组成的词序列;使用所述基于转换器的上下文编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述多个切分子数据语义理解特征向量。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,所述使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:将所述词嵌入向量的序列进行一维排列以得到全局词特征向量;计算所述全局词特征向量与所述词嵌入向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词向量进行加权以得到所述多个上下文语义特征向量;将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,所述计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵,包括:以如下公式计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到多个欧式距离;
Figure SMS_1
其中,
Figure SMS_2
表示和/>
Figure SMS_3
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量,/>
Figure SMS_4
表示计算所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量之间的欧式距离,/>
Figure SMS_5
和/>
Figure SMS_6
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量的各个位置的特征值;以及
将所述多个欧式距离进行矩阵化以得到所述语义空间拓扑矩阵。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,所述将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述语义空间分布拓扑特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述语义空间拓扑矩阵。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,所述将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵,包括:所述图神经网络通过可学习的神经网络参数来对所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵进行处理以得到包含不规则的语义空间拓扑关联特征和所述各个切分子数据的高维语义理解特征信息的所述拓扑全局切分子数据语义理解特征矩阵。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,其特征在于,所述对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量,包括:对所述拓扑全局切分子数据语义理解特征矩阵进行矩阵展开以得到展开特征向量;以及,以如下公式对所述展开特征向量进行向量赋范的希尔伯特概率空间化以得到所述分类特征向量,其中,所述公式为:
Figure SMS_7
其中
Figure SMS_9
是所述展开特征向量,/>
Figure SMS_12
表示所述展开特征向量的二范数,/>
Figure SMS_14
表示所述展开特征向量的二范数的平方,/>
Figure SMS_10
是所述展开特征向量的第/>
Figure SMS_11
个特征值,/>
Figure SMS_13
表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,且/>
Figure SMS_15
是所述分类特征向量的第/>
Figure SMS_8
个特征值。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,所述对所述拓扑全局切分子数据语义理解特征矩阵进行矩阵展开以得到展开特征向量,包括:将所述拓扑全局切分子数据语义理解特征矩阵沿着行向量或者列向量进行展开以得到所述展开特征向量。
在上述基于shardingJDBC的资产还款计划海量数据处理方法中,所述将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理,包括:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一方面,提供了一种基于shardingJDBC的资产还款计划海量数据处理***,其包括:
数据获取模块,用于获取待切分资产还款计划海量数据;
切分模块,用于基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据;
上下文编码模块,用于将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量;
欧氏距离计算模块,用于计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵;
卷积模块,用于将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵;
二维矩阵化模块,用于将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵;
图神经网络模块,用于将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵;
特征分布优化模块,用于对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量;以及
分类结果生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于shardingJDBC的资产还款计划海量数据处理方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于shardingJDBC的资产还款计划海量数据处理方法。
与现有技术相比,本申请提供的一种基于shardingJDBC的资产还款计划海量数据处理方法,其通过采用基于深度学习的人工智能技术,使用备选切分方案来对于资产还款计划海量数据进行切分,以此来提取出所述资产还款计划海量数据基于全局的切分子数据语义理解特征,并进一步通过所述各个切分子数据的语义理解特征间的语义拓扑关联特征来增强所述各个切分子数据的语义理解特征的表达,以此来提高对于资产还款计划海量数据的语义理解精准度,进而提高对于备选切分方案的合理性判断的准确性。这样,能够对于资产还款计划海量数据进行合理地数据分片,进而提高后续数据库的使用效率。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法的流程图;
图2为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法的架构示意图;
图3为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法中上下文编码的流程图;
图4为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法中卷积神经网络编码的流程图;
图5为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法中分类过程的流程图;
图6为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理***的框图;
图7为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如背景技术中所言,由于现有的数据分片策略为基于人工经验来进行数据切分,但人工经验在面对不熟悉的数据时往往无法很好地基于数据内部信息和数据自身结构来合理分片,影响后续数据库的使用。因此,期望一种优化的基于shardingJDBC的资产还款计划海量数据处理方案。
具体地,在本申请的技术方案中,提供了一种基于shardingJDBC的资产还款计划海量数据治理方法,其适用于因单表数据量大导致出现数据库性能瓶颈的通用解决方案。其中,shardingJDBC的引入对业务代码无侵入,不需要修改任何业务代码逻辑,只需要引入jar包和修改配置文件即可完成分片;分库分表后拆分的表结构相同,通过解析和路由映射逻辑表和物理表之间的关系;在配置文件完成分库分表策略配置,拆分后业务清晰,达到专库专用;单库(表)数据量得以减少,提高***性能,提高***的稳定性和负载能力;对于高并发场景,为了进一步减小服务器的压力,通过配置策略控制读写分离。
相应地,考虑到虽然shardingJDBC的引入对业务代码无侵入,不需要修改任何业务代码逻辑,只需要引入jar包和修改配置文件即可完成分片。但是在具体数据处理中,如何进行数据分片是一个重要的技术问题。现有的数据分片策略为基于人工经验来进行数据切分,但人工经验在面对不熟悉的数据时往往无法很好地基于数据内部信息和数据自身结构来合理分片,影响后续数据库的使用。
近年来,深度学***。
深度学习以及神经网络的发展为基于数据内部信息和数据自身结构来进行合理的数据分片提供了新的解决思路和方案。
具体地,在本申请的技术方案中,采用基于深度学习的人工智能技术,使用备选切分方案来对于资产还款计划海量数据进行切分,以此来提取出所述资产还款计划海量数据基于全局的切分子数据语义理解特征,并进一步通过所述各个切分子数据的语义理解特征间的语义拓扑关联特征来增强所述各个切分子数据的语义理解特征的表达,以此来提高对于资产还款计划海量数据的语义理解精准度,进而提高对于备选切分方案的合理性判断的准确性。这样,能够对于资产还款计划海量数据进行合理地数据分片,进而提高后续数据库的使用效率。
更具体地,在本申请的技术方案中,首先,获取待切分资产还款计划海量数据。接着,为了探究所述待切分资产还款计划海量数据的数据分片的合理性,以此来提高后续数据库的使用效率,在本申请的技术方案中,进一步基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据。
然后,考虑到在所述多个切分子数据中,所述各个切分子数据是由多个词和数据组成的,并且所述各个词和数据之间都具有着关联性的语义理解特征,因此,在本申请的技术方案中,将所述多个切分子数据中的各个切分子数据分别通过基于转换器的上下文编码器中进行编码,以分别提取出所述各个切分子数据中基于全局的上下文语义理解关联特征信息,从而得到多个切分子数据语义理解特征向量。也就是,基于transformer思想,利用转换器能够捕捉长距离上下文依赖的特性,分别对所述多个切分子数据中的各个切分子数据进行基于全局的上下文语义编码以得到分别以所述各个切分子数据中各个词的整体语义关联为上下文背景的上下文语义关联特征表示,即,所述多个切分子数据语义理解特征向量。应可以理解,在本申请的技术方案中,通过所述基于转换器的上下文编码器可以捕捉所述各个切分子数据中关于各个词的语义理解特征相对于所述各个切分子数据中关于各个词整体的语义理解特征的上下文语义关联特征表示,也就是,所述各个切分子数据的基于全局的高维语义理解特征信息。
进一步地,考虑到在所述多个切分子数据的语义理解特征中,所述各个切分子数据的语义理解特征间具有着关联性关系,因此,在本申请的技术方案中,为了能够提高对于切分方案合理性判断的精准度,进一步以所述各个切分子数据的语义空间拓扑关联特征来增强对于所述待切分资产还款计划海量数据中各个切分子数据的语义理解特征的表达。具体地,计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离,以此来表示所述各个切分子数据的语义理解特征间的相似性关联特征分布信息,从而得到语义空间拓扑矩阵。接着,再将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型中进行特征挖掘,以提取出所述各个切分子数据的语义理解特征间的语义空间拓扑关联特征,从而得到语义空间分布拓扑特征矩阵。
然后,以所述多个切分子数据语义理解特征向量作为节点的特征表示,而以所述语义空间分布拓扑特征矩阵作为节点与节点之间的边的特征表示,将由所述多个切分子数据语义理解特征向量经二维排列得到的全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵。具体地,所述图神经网络模型通过可学习的神经网络参数对所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵进行图结构数据编码以得到包含不规则的语义空间拓扑关联特征和所述各个切分子数据的高维语义理解特征信息的所述拓扑全局切分子数据语义理解特征矩阵。
接着,进一步再将所述分类特征向量通过分类器中进行分类处理,以得到用于表示第一备选切分方案是否合理的分类结果。也就是,在本申请的技术方案中,所述分类器的标签包括所述第一备选切分方案合理,以及,所述第一备选切分方案不合理,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。这样,能够对于备选切分方案的合理性进行准确地判断,进而基于数据内部信息和数据自身结构来对于资产还款计划海量数据进行合理的数据分片,提高后续数据库的使用效率。
特别地,在本申请的技术方案中,将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型得到所述拓扑全局切分子数据语义理解特征矩阵时,所述拓扑全局切分子数据语义理解特征矩阵的每个拓扑全局切分子数据语义理解特征向量,例如行向量表示单个切分子数据的上下文编码语义在语义空间拓扑下的特征表示,因此拼接成的所述拓扑全局切分子数据语义理解特征矩阵在通过分类器进行分类时可能对单一分类结果的依赖性差,影响分类结果的准确性。
因此,对所述拓扑全局切分子数据语义理解特征矩阵进行向量赋范的希尔伯特概率空间化,具体表示为:
Figure SMS_16
Figure SMS_18
是所述拓扑全局切分子数据语义理解特征矩阵展开后得到的特征向量,/>
Figure SMS_22
表示特征向量的二范数,/>
Figure SMS_24
表示其平方,即所述特征向量自身的内积,/>
Figure SMS_19
是所述特征向量/>
Figure SMS_20
的第/>
Figure SMS_23
个特征值,且/>
Figure SMS_25
是优化后的特征向量/>
Figure SMS_17
的第/>
Figure SMS_21
个特征值。
这里,所述向量赋范的希尔伯特概率空间化通过所述拓扑全局切分子数据语义理解特征矩阵展开后得到的特征向量
Figure SMS_26
自身的赋范在定义了向量内积的希尔伯特空间内进行所述特征向量/>
Figure SMS_27
的概率性解释,并降低所述特征向量/>
Figure SMS_28
的特殊的局部分布的类表达对整体希尔伯特空间拓扑的类表达的隐蔽扰动,由此提高所述特征向量/>
Figure SMS_29
的特征分布收敛到预定分类概率的分类回归的鲁棒性,同时依靠度量诱导概率空间结构的建立来提升所述特征向量/>
Figure SMS_30
的特征分布对分类结果的跨分类器的长程依赖。然后,直接将优化后的特征向量
Figure SMS_31
通过分类器进行分类,就提升了所述拓扑全局切分子数据语义理解特征矩阵在通过分类器进行分类时对分类结果的依赖性,改进了分类结果的准确性。这样,能够对于备选切分方案的合理性进行准确地判断,进而对于资产还款计划海量数据进行合理地数据分片,提高后续数据库的使用效率。
基于此,本申请提出了一种基于shardingJDBC的资产还款计划海量数据处理方法,其包括:获取待切分资产还款计划海量数据;基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据;将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量;计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵;将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵;将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵;将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵;对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量;以及,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法的流程图。如图1所示,根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法,包括步骤:S110,获取待切分资产还款计划海量数据;S120,基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据;S130,将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量;S140,计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵;S150,将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵;S160,将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵;S170,将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵;S180,对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量;以及,S190,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。
图2为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法的架构示意图。如图2所示,在该网络结构中,首先,获取待切分资产还款计划海量数据;基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据;再将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量;接着,计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵;将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵;然后,将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵;将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵;对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量;进而,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。
具体地,在步骤S110和步骤S120中,获取待切分资产还款计划海量数据;并基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据。应可以理解,考虑到虽然shardingJDBC的引入对业务代码无侵入,不需要修改任何业务代码逻辑,只需要引入jar包和修改配置文件即可完成分片。但是在具体数据处理中,如何进行数据分片是一个重要的技术问题。现有的数据分片策略为基于人工经验来进行数据切分,但人工经验在面对不熟悉的数据时往往无法很好地基于数据内部信息和数据自身结构来合理分片,影响后续数据库的使用,因此,在本申请的技术方案中,首先,获取待切分资产还款计划海量数据。接着,为了探究所述待切分资产还款计划海量数据的数据分片的合理性,以此来提高后续数据库的使用效率,在本申请的技术方案中,进一步基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据。
具体地,在步骤S130中,将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量。考虑到在所述多个切分子数据中,所述各个切分子数据是由多个词和数据组成的,并且所述各个词和数据之间都具有着关联性的语义理解特征,因此,在本申请的技术方案中,将所述多个切分子数据中的各个切分子数据分别通过基于转换器的上下文编码器中进行编码,以分别提取出所述各个切分子数据中基于全局的上下文语义理解关联特征信息,从而得到多个切分子数据语义理解特征向量。也就是,基于transformer思想,利用转换器能够捕捉长距离上下文依赖的特性,分别对所述多个切分子数据中的各个切分子数据进行基于全局的上下文语义编码以得到分别以所述各个切分子数据中各个词的整体语义关联为上下文背景的上下文语义关联特征表示,即,所述多个切分子数据语义理解特征向量。应可以理解,在本申请的技术方案中,通过所述基于转换器的上下文编码器可以捕捉所述各个切分子数据中关于各个词的语义理解特征相对于所述各个切分子数据中关于各个词整体的语义理解特征的上下文语义关联特征表示,也就是,所述各个切分子数据的基于全局的高维语义理解特征信息。
图3为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法中上下文编码的流程图。如图3所示,在所述上下文编码过程中,包括:S210,对所述多个切分子数据中各个切分子数据进行分词处理以将所述多个切分子数据中各个切分子数据转化为由多个词组成的词序列;S220,使用所述基于转换器的上下文编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;S230,使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,S240,将所述多个全局上下文语义特征向量进行级联以得到所述多个切分子数据语义理解特征向量。其中,所述使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:将所述词嵌入向量的序列进行一维排列以得到全局词特征向量;计算所述全局词特征向量与所述词嵌入向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词向量进行加权以得到所述多个上下文语义特征向量;将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
具体地,在步骤S140中,计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵。考虑到在所述多个切分子数据的语义理解特征中,所述各个切分子数据的语义理解特征间具有着关联性关系,因此,在本申请的技术方案中,为了能够提高对于切分方案合理性判断的精准度,进一步以所述各个切分子数据的语义空间拓扑关联特征来增强对于所述待切分资产还款计划海量数据中各个切分子数据的语义理解特征的表达。具体地,计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离,以此来表示所述各个切分子数据的语义理解特征间的相似性关联特征分布信息,从而得到语义空间拓扑矩阵。在本申请的一个具体示例中,所述计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵,包括:以如下公式计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到多个欧式距离;
Figure SMS_32
其中,
Figure SMS_33
表示和/>
Figure SMS_34
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量,/>
Figure SMS_35
表示计算所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量之间的欧式距离,/>
Figure SMS_36
和/>
Figure SMS_37
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量的各个位置的特征值;以及,将所述多个欧式距离进行矩阵化以得到所述语义空间拓扑矩阵。
具体地,在步骤S150中,将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵。也就是,将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型中进行特征挖掘,以提取出所述各个切分子数据的语义理解特征间的语义空间拓扑关联特征,从而得到语义空间分布拓扑特征矩阵。在一个具体示例中,所述卷积神经网络包括相互级联的多个神经网络层,其中各个神经网络层包括卷积层、池化层和激活层。其中,在所述卷积神经网络的编码过程中,所述卷积神经网络的各层在层的正向传递过程中对输入数据使用所述卷积层进行基于卷积核的卷积处理、使用所述池化层对由所述卷积层输出的卷积特征图进行池化处理和使用所述激活层对由所述池化层输出的池化特征图进行激活处理。
图4为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法中卷积神经网络编码的流程图。如图4所示,在所述卷积神经网络编码的过程中,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:S310,对输入数据进行卷积处理以得到卷积特征图;S320,对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,S330,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述语义空间分布拓扑特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述语义空间拓扑矩阵。
具体地,在步骤S160和步骤S170中,将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵,以及,将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵。在本申请的技术方案中,以所述多个切分子数据语义理解特征向量作为节点的特征表示,而以所述语义空间分布拓扑特征矩阵作为节点与节点之间的边的特征表示,将由所述多个切分子数据语义理解特征向量经二维排列得到的全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵。具体地,所述图神经网络模型通过可学习的神经网络参数对所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵进行图结构数据编码以得到包含不规则的语义空间拓扑关联特征和所述各个切分子数据的高维语义理解特征信息的所述拓扑全局切分子数据语义理解特征矩阵。
具体地,在步骤S180中,对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量。特别地,在本申请的技术方案中,将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型得到所述拓扑全局切分子数据语义理解特征矩阵时,所述拓扑全局切分子数据语义理解特征矩阵的每个拓扑全局切分子数据语义理解特征向量,例如行向量表示单个切分子数据的上下文编码语义在语义空间拓扑下的特征表示,因此拼接成的所述拓扑全局切分子数据语义理解特征矩阵在通过分类器进行分类时可能对单一分类结果的依赖性差,影响分类结果的准确性。因此,对所述拓扑全局切分子数据语义理解特征矩阵进行向量赋范的希尔伯特概率空间化,具体表示为:
Figure SMS_38
其中
Figure SMS_40
是所述展开特征向量,/>
Figure SMS_42
表示所述展开特征向量的二范数,/>
Figure SMS_45
表示所述展开特征向量的二范数的平方,/>
Figure SMS_41
是所述展开特征向量的第/>
Figure SMS_43
个特征值,/>
Figure SMS_46
表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,且/>
Figure SMS_49
是所述分类特征向量的第/>
Figure SMS_39
个特征值。这里,所述向量赋范的希尔伯特概率空间化通过所述拓扑全局切分子数据语义理解特征矩阵展开后得到的特征向量/>
Figure SMS_44
自身的赋范在定义了向量内积的希尔伯特空间内进行所述特征向量/>
Figure SMS_47
的概率性解释,并降低所述特征向量/>
Figure SMS_50
的特殊的局部分布的类表达对整体希尔伯特空间拓扑的类表达的隐蔽扰动,由此提高所述特征向量/>
Figure SMS_48
的特征分布收敛到预定分类概率的分类回归的鲁棒性,同时依靠度量诱导概率空间结构的建立来提升所述特征向量/>
Figure SMS_51
的特征分布对分类结果的跨分类器的长程依赖。然后,直接将优化后的特征向量/>
Figure SMS_52
通过分类器进行分类,就提升了所述拓扑全局切分子数据语义理解特征矩阵在通过分类器进行分类时对分类结果的依赖性,改进了分类结果的准确性。这样,能够对于备选切分方案的合理性进行准确地判断,进而对于资产还款计划海量数据进行合理地数据分片,提高后续数据库的使用效率。
具体地,在步骤S190中,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。也就是,将所述分类特征向量通过分类器中进行分类处理,以得到用于表示第一备选切分方案是否合理的分类结果。在本申请的一个具体示例中,所述将所述分类特征向量通过分类器以得到分类结果,包括:使用所述分类器以如下公式对所述分类特征向量进行处理以获得分类结果,其中,所述公式为:
Figure SMS_53
,其中,/>
Figure SMS_54
到/>
Figure SMS_55
为权重矩阵,/>
Figure SMS_56
到/>
Figure SMS_57
为偏置向量,/>
Figure SMS_58
为分类特征向量。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,使用所述分类器的多个全连接层对所述分类特征向量进行多次全连接编码以得到编码分类特征向量;进而,将所述编码分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到用于表示第一备选切分方案是否合理的分类结果。也就是,在本申请的技术方案中,所述分类器的标签包括所述第一备选切分方案合理,以及,所述第一备选切分方案不合理,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。这样,能够对于备选切分方案的合理性进行准确地判断,进而基于数据内部信息和数据自身结构来对于资产还款计划海量数据进行合理的数据分片,提高后续数据库的使用效率。
图5为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法中分类过程的流程图。如图5所示,在所述分类过程中,包括:S410,使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,S420,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理方法被阐明,其通过采用基于深度学习的人工智能技术,使用备选切分方案来对于资产还款计划海量数据进行切分,以此来提取出所述资产还款计划海量数据基于全局的切分子数据语义理解特征,并进一步通过所述各个切分子数据的语义理解特征间的语义拓扑关联特征来增强所述各个切分子数据的语义理解特征的表达,以此来提高对于资产还款计划海量数据的语义理解精准度,进而提高对于备选切分方案的合理性判断的准确性。这样,能够对于资产还款计划海量数据进行合理地数据分片,进而提高后续数据库的使用效率。
示例性***
图6为根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理***的框图。如图6所示,根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理***300,包括:数据获取模块310;切分模块320;上下文编码模块330;欧氏距离计算模块340;卷积模块350;二维矩阵化模块360;图神经网络模块370;特征分布优化模块380;以及,分类结果生成模块390。
其中,所述数据获取模块310,用于获取待切分资产还款计划海量数据;所述切分模块320,用于基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据;所述上下文编码模块330,用于将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量;所述欧氏距离计算模块340,用于计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵;所述卷积模块350,用于将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵;所述二维矩阵化模块360,用于将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵;所述图神经网络模块370,用于将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵;所述特征分布优化模块380,用于对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量;以及,所述分类结果生成模块390,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。
在一个示例中,在上述基于shardingJDBC的资产还款计划海量数据处理***300中,所述上下文编码模块330,进一步用于:对所述多个切分子数据中各个切分子数据进行分词处理以将所述多个切分子数据中各个切分子数据转化为由多个词组成的词序列;使用所述基于转换器的上下文编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述多个切分子数据语义理解特征向量。其中,所述使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:将所述词嵌入向量的序列进行一维排列以得到全局词特征向量;计算所述全局词特征向量与所述词嵌入向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词向量进行加权以得到所述多个上下文语义特征向量;将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在一个示例中,在上述基于shardingJDBC的资产还款计划海量数据处理***300中,所述欧氏距离计算模块340,进一步用于:以如下公式计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到多个欧式距离;
Figure SMS_59
其中,
Figure SMS_60
表示和/>
Figure SMS_61
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量,/>
Figure SMS_62
表示计算所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量之间的欧式距离,/>
Figure SMS_63
和/>
Figure SMS_64
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量的各个位置的特征值;以及,将所述多个欧式距离进行矩阵化以得到所述语义空间拓扑矩阵。
在一个示例中,在上述基于shardingJDBC的资产还款计划海量数据处理***300中,所述卷积模块350,进一步用于:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述语义空间分布拓扑特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述语义空间拓扑矩阵。
在一个示例中,在上述基于shardingJDBC的资产还款计划海量数据处理***300中,所述图神经网络模块370,进一步用于:所述图神经网络通过可学习的神经网络参数来对所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵进行处理以得到包含不规则的语义空间拓扑关联特征和所述各个切分子数据的高维语义理解特征信息的所述拓扑全局切分子数据语义理解特征矩阵。
在一个示例中,在上述基于shardingJDBC的资产还款计划海量数据处理***300中,所述特征分布优化模块380,进一步用于:对所述拓扑全局切分子数据语义理解特征矩阵进行矩阵展开以得到展开特征向量;以及,以如下公式对所述展开特征向量进行向量赋范的希尔伯特概率空间化以得到所述分类特征向量,其中,所述公式为:
Figure SMS_65
其中
Figure SMS_67
是所述展开特征向量,/>
Figure SMS_70
表示所述展开特征向量的二范数,/>
Figure SMS_72
表示所述展开特征向量的二范数的平方,/>
Figure SMS_66
是所述展开特征向量的第/>
Figure SMS_69
个特征值,/>
Figure SMS_71
表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,且/>
Figure SMS_73
是所述分类特征向量的第/>
Figure SMS_68
个特征值。
在一个示例中,在上述基于shardingJDBC的资产还款计划海量数据处理***300中,所述分类结果生成模块390,进一步用于:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理***300被阐明,其通过采用基于深度学习的人工智能技术,使用备选切分方案来对于资产还款计划海量数据进行切分,以此来提取出所述资产还款计划海量数据基于全局的切分子数据语义理解特征,并进一步通过所述各个切分子数据的语义理解特征间的语义拓扑关联特征来增强所述各个切分子数据的语义理解特征的表达,以此来提高对于资产还款计划海量数据的语义理解精准度,进而提高对于备选切分方案的合理性判断的准确性。这样,能够对于资产还款计划海量数据进行合理地数据分片,进而提高后续数据库的使用效率。
如上所述,根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理***可以实现在各种终端设备中。在一个示例中,根据本申请实施例的基于shardingJDBC的资产还款计划海量数据处理***300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于shardingJDBC的资产还款计划海量数据处理***300可以是该终端设备的操作***中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于shardingJDBC的资产还款计划海量数据处理***300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于shardingJDBC的资产还款计划海量数据处理***300与该终端设备也可以是分立的设备,并且该基于shardingJDBC的资产还款计划海量数据处理***300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于shardingJDBC的资产还款计划海量数据处理方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如分类特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于shardingJDBC的资产还款计划海量数据处理方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于shardingJDBC的资产还款计划海量数据处理方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (9)

1.一种基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,包括:
获取待切分资产还款计划海量数据;
基于第一备选切分方案对所述待切分资产还款计划海量数据进行切分以得到多个切分子数据;
将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量;
计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵;
将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵;
将所述多个切分子数据语义理解特征向量进行二维矩阵化以得到全局切分子数据语义理解特征矩阵;
将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵;
对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量;以及
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理。
2.根据权利要求1所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述将所述多个切分子数据中各个切分子数据通过基于转换器的上下文编码器以得到多个切分子数据语义理解特征向量,包括:
对所述多个切分子数据中各个切分子数据进行分词处理以将所述多个切分子数据中各个切分子数据转化为由多个词组成的词序列;
使用所述基于转换器的上下文编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;
使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及
将所述多个全局上下文语义特征向量进行级联以得到所述多个切分子数据语义理解特征向量。
3.根据权利要求2所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述使用所述基于转换器的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:
将所述词嵌入向量的序列进行一维排列以得到全局词特征向量;
计算所述全局词特征向量与所述词嵌入向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;
分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;
将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;
分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词向量进行加权以得到所述多个上下文语义特征向量;
将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
4.根据权利要求3所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到语义空间拓扑矩阵,包括:
以如下公式计算所述多个切分子数据语义理解特征向量中每两个切分子数据语义理解特征向量之间的欧式距离以得到多个欧式距离;
Figure QLYQS_1
其中,
Figure QLYQS_2
表示和/>
Figure QLYQS_3
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量,/>
Figure QLYQS_4
表示计算所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量之间的欧式距离,/>
Figure QLYQS_5
和/>
Figure QLYQS_6
分别表示所述多个切分子数据语义理解特征向量中任意两个切分子数据语义理解特征向量的各个位置的特征值;以及
将所述多个欧式距离进行矩阵化以得到所述语义空间拓扑矩阵。
5.根据权利要求4所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述将所述语义空间拓扑矩阵通过作为特征提取器的卷积神经网络模型以得到语义空间分布拓扑特征矩阵,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述语义空间分布拓扑特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述语义空间拓扑矩阵。
6.根据权利要求5所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述将所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵通过图神经网络模型以得到拓扑全局切分子数据语义理解特征矩阵,包括:所述图神经网络通过可学习的神经网络参数来对所述全局切分子数据语义理解特征矩阵和所述语义空间分布拓扑特征矩阵进行处理以得到包含不规则的语义空间拓扑关联特征和所述各个切分子数据的高维语义理解特征信息的所述拓扑全局切分子数据语义理解特征矩阵。
7.根据权利要求6所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述对所述拓扑全局切分子数据语义理解特征矩阵进行特征分布优化以得到分类特征向量,包括:
对所述拓扑全局切分子数据语义理解特征矩阵进行矩阵展开以得到展开特征向量;以及
以如下公式对所述展开特征向量进行向量赋范的希尔伯特概率空间化以得到所述分类特征向量,其中,所述公式为:
Figure QLYQS_7
其中
Figure QLYQS_9
是所述展开特征向量,/>
Figure QLYQS_11
表示所述展开特征向量的二范数,/>
Figure QLYQS_13
表示所述展开特征向量的二范数的平方,/>
Figure QLYQS_8
是所述展开特征向量的第/>
Figure QLYQS_12
个特征值,/>
Figure QLYQS_14
表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,且/>
Figure QLYQS_15
是所述分类特征向量的第/>
Figure QLYQS_10
个特征值。
8.根据权利要求7所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述对所述拓扑全局切分子数据语义理解特征矩阵进行矩阵展开以得到展开特征向量,包括:将所述拓扑全局切分子数据语义理解特征矩阵沿着行向量或者列向量进行展开以得到所述展开特征向量。
9.根据权利要求8所述的基于shardingJDBC的资产还款计划海量数据处理方法,其特征在于,所述将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示第一备选切分方案是否合理,包括:
使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及
将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
CN202310141878.6A 2023-02-21 2023-02-21 基于shardingJDBC的资产还款计划海量数据处理方法 Withdrawn CN116150371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310141878.6A CN116150371A (zh) 2023-02-21 2023-02-21 基于shardingJDBC的资产还款计划海量数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310141878.6A CN116150371A (zh) 2023-02-21 2023-02-21 基于shardingJDBC的资产还款计划海量数据处理方法

Publications (1)

Publication Number Publication Date
CN116150371A true CN116150371A (zh) 2023-05-23

Family

ID=86355960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310141878.6A Withdrawn CN116150371A (zh) 2023-02-21 2023-02-21 基于shardingJDBC的资产还款计划海量数据处理方法

Country Status (1)

Country Link
CN (1) CN116150371A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116454772A (zh) * 2023-06-14 2023-07-18 浙江浙能迈领环境科技有限公司 用于集装箱中压配电柜的泄压装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116454772A (zh) * 2023-06-14 2023-07-18 浙江浙能迈领环境科技有限公司 用于集装箱中压配电柜的泄压装置及方法
CN116454772B (zh) * 2023-06-14 2023-08-25 浙江浙能迈领环境科技有限公司 用于集装箱中压配电柜的泄压装置及方法

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
US20220147715A1 (en) Text processing method, model training method, and apparatus
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN115203380A (zh) 基于多模态数据融合的文本处理***及其方法
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN115994177B (zh) 基于数据湖的知识产权管理方法及其***
CN113886571A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN114821169B (zh) 微服务架构下的方法级无侵入调用链路追踪方法
Dourado et al. Bag of textual graphs (BoTG): A general graph‐based text representation model
CN116150371A (zh) 基于shardingJDBC的资产还款计划海量数据处理方法
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN116579618A (zh) 基于风险管理的数据处理方法、装置、设备及存储介质
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN107341152B (zh) 一种参数输入的方法及装置
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN116796288A (zh) 一种面向工业文档的多模态信息提炼方法和***
CN116186708A (zh) 类别识别模型生成方法、装置、计算机设备和存储介质
WO2022262632A1 (zh) 网页搜索方法、装置及存储介质
US11755671B2 (en) Projecting queries into a content item embedding space
CN114201957A (zh) 文本情感分析方法、装置及计算机可读存储介质
CN113704108A (zh) 一种相似代码检测方法及装置、电子设备、存储介质
CN111695031A (zh) 基于标签的搜索方法、装置、服务器及存储介质
CN117972123B (zh) 一种基于5g消息的客服信息***、方法、设备及介质
US20170147707A1 (en) Apparatus and method for managing graph data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230523

WW01 Invention patent application withdrawn after publication