CN115796173A - 针对监管报送需求的数据处理方法和*** - Google Patents

针对监管报送需求的数据处理方法和*** Download PDF

Info

Publication number
CN115796173A
CN115796173A CN202310135089.1A CN202310135089A CN115796173A CN 115796173 A CN115796173 A CN 115796173A CN 202310135089 A CN202310135089 A CN 202310135089A CN 115796173 A CN115796173 A CN 115796173A
Authority
CN
China
Prior art keywords
scale
feature
feature vector
vector
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310135089.1A
Other languages
English (en)
Other versions
CN115796173B (zh
Inventor
钱吕见
王蒙
唐美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangyin Consumer Finance Co ltd
Original Assignee
Hangyin Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangyin Consumer Finance Co ltd filed Critical Hangyin Consumer Finance Co ltd
Priority to CN202310135089.1A priority Critical patent/CN115796173B/zh
Publication of CN115796173A publication Critical patent/CN115796173A/zh
Application granted granted Critical
Publication of CN115796173B publication Critical patent/CN115796173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种针对监管报送需求的数据处理方法和***,其采用基于深度学习的人工智能语言理解算法来提取出监管报送需求的文本描述中基于全局的上下文词语义特征,并基于所述词语义特征在向量维度和样本维度下的小尺度关联特征以及所述词语义特征在向量维度下的进一步小尺度关联特征的融合特征来表示所述监管报送需求的文本描述的词语义特征的多尺度语义理解特征信息,以此来进行对于所述监管报送需求所需汇总的数据项标签的组合判断。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项。

Description

针对监管报送需求的数据处理方法和***
技术领域
本申请涉及智能监管技术领域,且更为具体地,涉及一种针对监管报送需求的数据处理方法和***。
背景技术
集团性企业,监管部门会对各个公司进行监管,例如监管部门会统一监督管理全国银行保险市场、维护市场秩序、保障其合法运行的行为。目前,各个被监管机构(例如银行)从自身不同业务***的数据中进行报送,而监管机构基于监管报送需求来汇总计算相关数据并基于汇总结果来实现监管目标。
但是,监管机构需要依赖专业人士来对监管报送需求进行理解和解读,以确定需要汇总的相关数据项,这一方面导致了监管效率的降低,同时因对专业人士的依赖,引入了人为监管误差。
因此,强调一种针对监管报送需求的数据处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种针对监管报送需求的数据处理方法和***,其采用基于深度学习的人工智能语言理解算法来提取出监管报送需求的文本描述中基于全局的上下文词语义特征,并基于所述词语义特征在向量维度和样本维度下的小尺度关联特征以及所述词语义特征在向量维度下的进一步小尺度关联特征的融合特征来表示所述监管报送需求的文本描述的词语义特征的多尺度语义理解特征信息,以此来进行对于所述监管报送需求所需汇总的数据项标签的组合判断。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项。
根据本申请的一个方面,提供了一种针对监管报送需求的数据处理方法,其包括:
获取监管报送需求的文本描述;
对所述监管报送需求的文本描述进行分词处理以得到词序列;
将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量;
将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量;
将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量;
融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量;以及将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
在上述针对监管报送需求的数据处理方法中,所述将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量,包括:将所述词序列排列为输入向量;将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;将所述标准化自注意关联矩阵输入Softmax激活函数进行激活以得到自注意力特征矩阵;以及,将所述自注意力特征矩阵与以所述词序列中各个词作为值向量分别进行相乘以得到所述多个词语义特征向量。
在上述针对监管报送需求的数据处理方法中,所述将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量,包括:使用所述文本卷积神经网络模型的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述文本卷积神经网络模型的最后一层的输出为所述第一尺度监管报送需求理解特征向量,所述文本卷积神经网络模型的第一层的输入为所述特征矩阵。
在上述针对监管报送需求的数据处理方法中,所述将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量,包括:使用所述一维卷积神经网络模型的各层在层的正向传递中对输入数据分别进行基于一维卷积核的卷积处理和非线性激活处理以由所述一维卷积神经网络模型的最后一层输出所述第二尺度监管报送需求理解特征向量,其中,所述一维卷积神经网络模型的第一层的输入为所述一维特征向量。
在上述针对监管报送需求的数据处理方法中,所述融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量,包括:将所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量进行级联以得到初始分类特征向量;计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,其中,所述小尺度局部衍生特征向量与所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的按位置差分的绝对值有关;以及,计算所述加权特征向量与所述初始分类特征向量之间的按位置点乘以得到所述分类特征向量。
在上述针对监管报送需求的数据处理方法中,所述计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,包括:以如下公式计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为所述加权特征向量;其中,所述公式为:
Figure SMS_1
其中
Figure SMS_2
Figure SMS_3
分别是所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量的第
Figure SMS_4
个位置的特征值,
Figure SMS_5
表示所述加权特征向量的第
Figure SMS_6
个位置的特征值。
在上述针对监管报送需求的数据处理方法中,所述将所述分类特征向量通过分类器以得到分类结果,包括:使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一方面,提供了一种针对监管报送需求的数据处理***,包括:
文本获取模块,用于获取监管报送需求的文本描述;
分词模块,用于对所述监管报送需求的文本描述进行分词处理以得到词序列;
上下文编码模块,用于将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量;
文本编码模块,用于将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量;
一维编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量;
融合模块,用于融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量;以及组合结果生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
在上述针对监管报送需求的数据处理***中,所述上下文编码模块,进一步用于:将所述词序列排列为输入向量;将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;将所述标准化自注意关联矩阵输入Softmax激活函数进行激活以得到自注意力特征矩阵;以及,将所述自注意力特征矩阵与以所述词序列中各个词作为值向量分别进行相乘以得到所述多个词语义特征向量。
在上述针对监管报送需求的数据处理***中,所述文本编码模块,进一步用于:使用所述文本卷积神经网络模型的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述文本卷积神经网络模型的最后一层的输出为所述第一尺度监管报送需求理解特征向量,所述文本卷积神经网络模型的第一层的输入为所述特征矩阵。
在上述针对监管报送需求的数据处理***中,所述一维编码模块,进一步用于:使用所述一维卷积神经网络模型的各层在层的正向传递中对输入数据分别进行基于一维卷积核的卷积处理和非线性激活处理以由所述一维卷积神经网络模型的最后一层输出所述第二尺度监管报送需求理解特征向量,其中,所述一维卷积神经网络模型的第一层的输入为所述一维特征向量。
在上述针对监管报送需求的数据处理***中,所述融合模块,进一步用于:将所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量进行级联以得到初始分类特征向量;计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,其中,所述小尺度局部衍生特征向量与所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的按位置差分的绝对值有关;以及,计算所述加权特征向量与所述初始分类特征向量之间的按位置点乘以得到所述分类特征向量。
在上述针对监管报送需求的数据处理***中,所述组合结果生成模块,包括:全连接编码单元,使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类单元,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的针对监管报送需求的数据处理方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的针对监管报送需求的数据处理方法。
与现有技术相比,本申请提供的针对监管报送需求的数据处理方法和***,其采用基于深度学习的人工智能语言理解算法来提取出监管报送需求的文本描述中基于全局的上下文词语义特征,并基于所述词语义特征在向量维度和样本维度下的小尺度关联特征以及所述词语义特征在向量维度下的进一步小尺度关联特征的融合特征来表示所述监管报送需求的文本描述的词语义特征的多尺度语义理解特征信息,以此来进行对于所述监管报送需求所需汇总的数据项标签的组合判断。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的针对监管报送需求的数据处理方法的流程图。
图2为根据本申请实施例的针对监管报送需求的数据处理方法的架构图。
图3为根据本申请实施例的针对监管报送需求的数据处理方法中将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量的流程图。
图4为根据本申请实施例的针对监管报送需求的数据处理***的框图。
图5为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上述背景技术所言,集团性企业,监管部门会对各个公司进行监管,例如监管部门会统一监督管理全国银行保险市场、维护市场秩序、保障其合法运行的行为。目前,各个被监管机构(例如银行)从自身不同业务***的数据中进行报送,而监管机构基于监管报送需求来汇总计算相关数据并基于汇总结果来实现监管目标。
但是,监管机构需要依赖专业人士来对监管报送需求进行理解和解读,以确定需要汇总的相关数据项,这一方面导致了监管效率的降低,同时因对专业人士的依赖,引入了人为监管误差。因此,强调一种针对监管报送需求的数据处理方案。
目前,深度学***。
近年来,深度学习以及神经网络的发展为监管报送需求的数据处理提供了新的解决思路和方案。
应可以理解,由于目前监管机构需要依赖专业人士来对监管报送需求进行理解和解读,以确定需要汇总的相关数据项,这不仅会降低监管效率,还会因依赖专业人士而造成对监管报送需求的理解有误,进而导致对于监管报送需求所需汇总的数据项确定有误。因此,在本申请的技术方案中,采用基于深度学习的人工智能语言理解算法来提取出监管报送需求的文本描述中基于全局的上下文词语义特征,并基于所述词语义特征在向量维度和样本维度下的小尺度关联特征以及所述词语义特征在向量维度下的进一步小尺度关联特征的融合特征来表示所述监管报送需求的文本描述的词语义特征的多尺度语义理解特征信息,以此来进行对于所述监管报送需求所需汇总的数据项标签的组合判断。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项,实现监管目标。
具体地,在本申请的技术方案中,首先,获取监管报送需求的文本描述。接着,对所述监管报送需求的文本描述进行分词处理以得到词序列,这样,能够避免在后续的特征提取时出现语义混乱而造成对于所述监管报送需求的文本描述的语义理解出现错误。
然后,将所述词序列通过基于转换器的上下文编码器中进行编码处理,以提取出所述监管报送需求的文本描述的词序列的基于全局的上下文语义理解特征,从而得到多个词语义特征向量。也就是,利用转换器能够捕捉长距离上下文依赖的特性,对所述词序列进行基于全局的上下文语义编码,以得到以所述词序列的整体语义关联为上下文背景的上下文语义关联特征表示,即,所述多个词语义特征向量。
进一步地,考虑到在对于所述监管报送需求的文本描述进行语义理解时,由于所述基于转换器的上下文编码器能够对于所述各个词语义理解特征间基于全局的长距离依赖关联特征进行很好的提取,但是,其对于所述各个语义理解特征间的小尺度中短距离依赖关联特征的提取能力较弱。因此,在本申请的技术方案中,为了能够对于监管报送需求的文本描述进行更准确地语义理解,进一步将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型中进行特征挖掘,以提取出所述各个词语义特征的向量维度和样本维度下的小尺度关联特征,从而得到第一尺度监管报送需求理解特征向量。
接着,考虑到在所述监管报送需求的文本描述的各个词语义特征中,为了更聚焦于所述各个词语义特征间的局部小尺度关联特征分布信息,以更准确地进行所述监管报送需求的文本描述的语义理解,还需将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型中进行编码,以提取出所述各个词语义特征在向量维度下进一步的小尺度关联特征,从而得到第二尺度监管报送需求理解特征向量。
进一步地,再融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量来表示所述监管报送需求的文本描述的各个词语义特征间的多尺度语义理解关联特征,并以此作为分类特征向量通过分类器中进行分类处理,从而得到用于表示监管报送需求所需汇总的数据项标签的组合的分类结果。这样,能够对于所述监管报送需求的数据进行智能语义理解分析,以准确地确定所述监管报送需求所需汇总的数据项。
特别地,在本申请的技术方案中,由于文本卷积神经网络模型提取的是词语义特征的向量维度和样本维度下的小尺度关联特征,而一维卷积神经网络模型提取的是词语义特征在向量维度下进一步的小尺度关联特征,因此在融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量得到所述分类特征向量时,期望所述分类特征向量能够强化所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量在小尺度下的特征分布关联。
因此,在融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量时,计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量的小尺度局部衍生特征向量来作为加权向量,表示为:
Figure SMS_7
Figure SMS_8
Figure SMS_9
分别是所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量的第
Figure SMS_10
个位置的特征值。
这里,通过计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征,可以基于所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的相应位置的几何逼近来模仿高维特征之间的互表达的物理性,从而以特征向量间的按位置逐点回归来增强跨特征域位置的局部非线性依赖。这样,通过以所述加权向量对所述分类特征向量进行点乘来进行特征值加权,就可以提高获得的所述分类特征向量的局部非线性表达能力,从而提高所述分类特征向量对所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量在小尺度下的特征分布关联的表达效果,提高所述分类特征向量的分类结果的准确性。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项,实现监管目标。
基于此,本申请提出了一种针对监管报送需求的数据处理方法,其包括:获取监管报送需求的文本描述;对所述监管报送需求的文本描述进行分词处理以得到词序列;将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量;将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量;将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量;融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量;以及,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1为根据本申请实施例的针对监管报送需求的数据处理方法的流程图。如图1所示,根据本申请实施例的针对监管报送需求的数据处理方法,包括:S110,获取监管报送需求的文本描述;S120,对所述监管报送需求的文本描述进行分词处理以得到词序列;S130,将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量;S140,将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量;S150,将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量;S160,融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量;以及,S170,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
图2为根据本申请实施例的针对监管报送需求的数据处理方法的架构图。如图2所示,在该架构中,首先,获取监管报送需求的文本描述。接着,对所述监管报送需求的文本描述进行分词处理以得到词序列。然后,将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量。进而,将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量,同时,将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量。接着,融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量。然后,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
在步骤S110中,获取监管报送需求的文本描述。如上述背景技术所言,集团性企业,监管部门会对各个公司进行监管,例如监管部门会统一监督管理全国银行保险市场、维护市场秩序、保障其合法运行的行为。目前,各个被监管机构(例如银行)从自身不同业务***的数据中进行报送,而监管机构基于监管报送需求来汇总计算相关数据并基于汇总结果来实现监管目标。但是,监管机构需要依赖专业人士来对监管报送需求进行理解和解读,以确定需要汇总的相关数据项,这一方面导致了监管效率的降低,同时因对专业人士的依赖,引入了人为监管误差。因此,强调一种针对监管报送需求的数据处理方案。
应可以理解,由于目前监管机构需要依赖专业人士来对监管报送需求进行理解和解读,以确定需要汇总的相关数据项,这不仅会降低监管效率,还会因依赖专业人士而造成对监管报送需求的理解有误,进而导致对于监管报送需求所需汇总的数据项确定有误。因此,在本申请的技术方案中,采用基于深度学习的人工智能语言理解算法来提取出监管报送需求的文本描述中基于全局的上下文词语义特征,并基于所述词语义特征在向量维度和样本维度下的小尺度关联特征以及所述词语义特征在向量维度下的进一步小尺度关联特征的融合特征来表示所述监管报送需求的文本描述的词语义特征的多尺度语义理解特征信息,以此来进行对于所述监管报送需求所需汇总的数据项标签的组合判断。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项,实现监管目标。具体地,在本申请的技术方案中,首先,获取监管报送需求的文本描述。
在步骤S120中,对所述监管报送需求的文本描述进行分词处理以得到词序列。也就是,所述词序列是由所述监管报送需求的文本描述经分词处理后得到的多个词组成的。这样,能够避免在后续的特征提取时出现语义混乱而造成对于所述监管报送需求的文本描述的语义理解出现错误。
在步骤S130中,将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量。也就是,将所述词序列通过基于转换器的上下文编码器中进行编码处理,以提取出所述监管报送需求的文本描述的词序列的基于全局的上下文语义理解特征,从而得到多个词语义特征向量。也就是,利用转换器能够捕捉长距离上下文依赖的特性,对所述词序列进行基于全局的上下文语义编码,以得到以所述词序列的整体语义关联为上下文背景的上下文语义关联特征表示,即,所述多个词语义特征向量。
具体地,在本申请的一个示例中,所述上下文编码器包括嵌入层和基于转换器(Transformer)的Bert模型。其中,所述嵌入层的作用在于将所述词序列进行向量化转化以将一个词转化为一个嵌入向量,在具体实施例中,所述嵌入层的向量转化器可基于知识图谱来构建。另一方面,通过向量化可将所述词序列转化为更便于计算机进行运算的结构化数据。
所述基于转换器的Bert模型的作用为对所述嵌入向量的序列进行基于全局的上下文语义编码(即,对所述嵌入向量的序列中各个嵌入向量基于所述嵌入向量的序列全局的上下文语义编码)以得到对应于所述嵌入向量的序列的多个词语义特征向量,其中,所述多个词语义特征向量中一个词语义特征向量对应于一个词的语义特征。特别地,通过对所述嵌入向量的序列进行基于全局的上下文语义编码可提取所述多个词的语义特征中各个词的语义特征相对于所述多个词的语义特征的全局语义特征表示。
图3为根据本申请实施例的针对监管报送需求的数据处理方法中将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量的流程图。如图3所示,所述将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量,包括:S210,将所述词序列排列为输入向量;S220,将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;S230,计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;S240,对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;S250,将所述标准化自注意关联矩阵输入Softmax激活函数进行激活以得到自注意力特征矩阵;以及,S260,将所述自注意力特征矩阵与以所述词序列中各个词作为值向量分别进行相乘以得到所述多个词语义特征向量。
在步骤S140中,将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量。考虑到在对于所述监管报送需求的文本描述进行语义理解时,由于所述基于转换器的上下文编码器能够对于所述各个词语义理解特征间基于全局的长距离依赖关联特征进行很好的提取,但是,其对于所述各个语义理解特征间的小尺度中短距离依赖关联特征的提取能力较弱。因此,在本申请的技术方案中,为了能够对于监管报送需求的文本描述进行更准确地语义理解,进一步将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型中进行特征挖掘,以提取出所述各个词语义特征的向量维度和样本维度下的小尺度关联特征,从而得到第一尺度监管报送需求理解特征向量。
具体地,在本申请实施例中,所述将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量,包括:使用所述文本卷积神经网络模型的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述文本卷积神经网络模型的最后一层的输出为所述第一尺度监管报送需求理解特征向量,所述文本卷积神经网络模型的第一层的输入为所述特征矩阵。
在步骤S150中,将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量。考虑到在所述监管报送需求的文本描述的各个词语义特征中,为了更聚焦于所述各个词语义特征间的局部小尺度关联特征分布信息,以更准确地进行所述监管报送需求的文本描述的语义理解,还需将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型中进行编码,以提取出所述各个词语义特征在向量维度下进一步的小尺度关联特征,从而得到第二尺度监管报送需求理解特征向量。
具体地,在本申请实施例中,所述将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量,包括:使用所述一维卷积神经网络模型的各层在层的正向传递中对输入数据分别进行基于一维卷积核的卷积处理和非线性激活处理以由所述一维卷积神经网络模型的最后一层输出所述第二尺度监管报送需求理解特征向量,其中,所述一维卷积神经网络模型的第一层的输入为所述一维特征向量。
在步骤S160中,融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量。进一步地,再融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量来表示所述监管报送需求的文本描述的各个词语义特征间的多尺度语义理解关联特征,并以此作为分类特征向量。
具体地,在本申请实施例中,所述融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量,包括:将所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量进行级联以得到初始分类特征向量;计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,其中,所述小尺度局部衍生特征向量与所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的按位置差分的绝对值有关;以及,计算所述加权特征向量与所述初始分类特征向量之间的按位置点乘以得到所述分类特征向量。
这里,特别地,在本申请的技术方案中,由于文本卷积神经网络模型提取的是词语义特征的向量维度和样本维度下的小尺度关联特征,而一维卷积神经网络模型提取的是词语义特征在向量维度下进一步的小尺度关联特征,因此在融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量得到所述分类特征向量时,期望所述分类特征向量能够强化所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量在小尺度下的特征分布关联。因此,在融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量时,计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量的小尺度局部衍生特征向量来作为加权向量。
具体地,在本申请实施例中,所述计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,包括:以如下公式计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为所述加权特征向量;其中,所述公式为:
Figure SMS_11
其中
Figure SMS_12
Figure SMS_13
分别是所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量的第
Figure SMS_14
个位置的特征值,
Figure SMS_15
表示所述加权特征向量的第
Figure SMS_16
个位置的特征值。
这里,通过计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征,可以基于所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的相应位置的几何逼近来模仿高维特征之间的互表达的物理性,从而以特征向量间的按位置逐点回归来增强跨特征域位置的局部非线性依赖。这样,通过以所述加权向量对所述分类特征向量进行点乘来进行特征值加权,就可以提高获得的所述分类特征向量的局部非线性表达能力,从而提高所述分类特征向量对所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量在小尺度下的特征分布关联的表达效果,提高所述分类特征向量的分类结果的准确性。
在步骤S170中,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。也就是,以所述分类器对所述分类特征向量的高维数据流形进行类边界划分和确定以得到所述分类结果。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项,实现监管目标。
具体地,在本申请实施例中,所述将所述分类特征向量通过分类器以得到分类结果,包括:使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
综上,基于本申请实施例的针对监管报送需求的数据处理方法被阐明,其采用基于深度学习的人工智能语言理解算法来提取出监管报送需求的文本描述中基于全局的上下文词语义特征,并基于所述词语义特征在向量维度和样本维度下的小尺度关联特征以及所述词语义特征在向量维度下的进一步小尺度关联特征的融合特征来表示所述监管报送需求的文本描述的词语义特征的多尺度语义理解特征信息,以此来进行对于所述监管报送需求所需汇总的数据项标签的组合判断。这样,能够对于所述监管报送需求的数据进行智能语义理解分析处理,以准确地确定所述监管报送需求所需汇总的数据项。
示例性***
图4为根据本申请实施例的针对监管报送需求的数据处理***的框图。如图4所示,根据本申请实施例的针对监管报送需求的数据处理***100,包括:文本获取模块110,用于获取监管报送需求的文本描述;分词模块120,用于对所述监管报送需求的文本描述进行分词处理以得到词序列;上下文编码模块130,用于将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量;文本编码模块140,用于将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量;一维编码模块150,用于将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量;融合模块160,用于融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量;以及,组合结果生成模块170,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
在一个示例中,在上述针对监管报送需求的数据处理***100中,所述上下文编码模块130,进一步用于:将所述词序列排列为输入向量;将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;将所述标准化自注意关联矩阵输入Softmax激活函数进行激活以得到自注意力特征矩阵;以及,将所述自注意力特征矩阵与以所述词序列中各个词作为值向量分别进行相乘以得到所述多个词语义特征向量。
在一个示例中,在上述针对监管报送需求的数据处理***100中,所述文本编码模块140,进一步用于:使用所述文本卷积神经网络模型的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述文本卷积神经网络模型的最后一层的输出为所述第一尺度监管报送需求理解特征向量,所述文本卷积神经网络模型的第一层的输入为所述特征矩阵。
在一个示例中,在上述针对监管报送需求的数据处理***100中,所述一维编码模块150,进一步用于:使用所述一维卷积神经网络模型的各层在层的正向传递中对输入数据分别进行基于一维卷积核的卷积处理和非线性激活处理以由所述一维卷积神经网络模型的最后一层输出所述第二尺度监管报送需求理解特征向量,其中,所述一维卷积神经网络模型的第一层的输入为所述一维特征向量。
在一个示例中,在上述针对监管报送需求的数据处理***100中,所述融合模块160,进一步用于:将所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量进行级联以得到初始分类特征向量;计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,其中,所述小尺度局部衍生特征向量与所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的按位置差分的绝对值有关;以及,计算所述加权特征向量与所述初始分类特征向量之间的按位置点乘以得到所述分类特征向量。
在一个示例中,在上述针对监管报送需求的数据处理***100中,所述组合结果生成模块170,包括:全连接编码单元,使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类单元,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
这里,本领域技术人员可以理解,上述针对监管报送需求的数据处理***100中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的针对监管报送需求的数据处理方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的针对监管报送需求的数据处理*** 100可以实现在各种终端设备中,例如针对监管报送需求的数据处理的服务器等。在一个示例中,根据本申请实施例的针对监管报送需求的数据处理*** 100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该针对监管报送需求的数据处理***100可以是该终端设备的操作***中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该针对监管报送需求的数据处理*** 100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该针对监管报送需求的数据处理*** 100与该终端设备也可以是分立的设备,并且该针对监管报送需求的数据处理*** 100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图5来描述根据本申请实施例的电子设备。图5为根据本申请实施例的电子设备的框图。如图5所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的针对监管报送需求的数据处理方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如监管报送需求的文本描述等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的针对监管报送需求的数据处理方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的针对监管报送需求的数据处理方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种针对监管报送需求的数据处理方法,其特征在于,包括:
获取监管报送需求的文本描述;
对所述监管报送需求的文本描述进行分词处理以得到词序列;
将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量;
将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量;
将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量;
融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量;以及将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
2.根据权利要求1所述的针对监管报送需求的数据处理方法,其特征在于,所述将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量,包括:
将所述词序列排列为输入向量;
将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;
计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;
对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;
将所述标准化自注意关联矩阵输入Softmax激活函数进行激活以得到自注意力特征矩阵;以及将所述自注意力特征矩阵与以所述词序列中各个词作为值向量分别进行相乘以得到所述多个词语义特征向量。
3.根据权利要求2所述的针对监管报送需求的数据处理方法,其特征在于,所述将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量,包括:
使用所述文本卷积神经网络模型的各层在层的正向传递中分别进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述文本卷积神经网络模型的最后一层的输出为所述第一尺度监管报送需求理解特征向量,所述文本卷积神经网络模型的第一层的输入为所述特征矩阵。
4.根据权利要求3所述的针对监管报送需求的数据处理方法,其特征在于,所述将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量,包括:
使用所述一维卷积神经网络模型的各层在层的正向传递中对输入数据分别进行基于一维卷积核的卷积处理和非线性激活处理以由所述一维卷积神经网络模型的最后一层输出所述第二尺度监管报送需求理解特征向量,其中,所述一维卷积神经网络模型的第一层的输入为所述一维特征向量。
5.根据权利要求4所述的针对监管报送需求的数据处理方法,其特征在于,所述融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量,包括:
将所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量进行级联以得到初始分类特征向量;
计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,其中,所述小尺度局部衍生特征向量与所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的按位置差分的绝对值有关;以及计算所述加权特征向量与所述初始分类特征向量之间的按位置点乘以得到所述分类特征向量。
6.根据权利要求5所述的针对监管报送需求的数据处理方法,其特征在于,所述计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为加权特征向量,包括:
以如下公式计算所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量之间的小尺度局部衍生特征向量作为所述加权特征向量;
其中,所述公式为:
Figure QLYQS_1
其中
Figure QLYQS_2
Figure QLYQS_3
分别是所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量的第
Figure QLYQS_4
个位置的特征值,
Figure QLYQS_5
表示所述加权特征向量的第
Figure QLYQS_6
个位置的特征值。
7.根据权利要求6所述的针对监管报送需求的数据处理方法,其特征在于,所述将所述分类特征向量通过分类器以得到分类结果,包括:
使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
8.一种针对监管报送需求的数据处理***,其特征在于,包括:
文本获取模块,用于获取监管报送需求的文本描述;
分词模块,用于对所述监管报送需求的文本描述进行分词处理以得到词序列;
上下文编码模块,用于将所述词序列通过基于转换器的上下文编码器以得到多个词语义特征向量;
文本编码模块,用于将所述多个词语义特征向量进行二维排列为特征矩阵后通过文本卷积神经网络模型以得到第一尺度监管报送需求理解特征向量;
一维编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过一维卷积神经网络模型以得到第二尺度监管报送需求理解特征向量;
融合模块,用于融合所述第一尺度监管报送需求理解特征向量和所述第二尺度监管报送需求理解特征向量以得到分类特征向量;以及组合结果生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示监管报送需求所需汇总的数据项标签的组合。
9.根据权利要求8所述的针对监管报送需求的数据处理***,其特征在于,所述上下文编码模块,进一步用于:
将所述词序列排列为输入向量;
将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;
计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;
对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;
将所述标准化自注意关联矩阵输入Softmax激活函数进行激活以得到自注意力特征矩阵;以及将所述自注意力特征矩阵与以所述词序列中各个词作为值向量分别进行相乘以得到所述多个词语义特征向量。
10.根据权利要求9所述的针对监管报送需求的数据处理***,其特征在于,所述文本编码模块,进一步用于:
使用所述文本卷积神经网络模型的各层在层的正向传递中分别进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述文本卷积神经网络模型的最后一层的输出为所述第一尺度监管报送需求理解特征向量,所述文本卷积神经网络模型的第一层的输入为所述特征矩阵。
CN202310135089.1A 2023-02-20 2023-02-20 针对监管报送需求的数据处理方法和*** Active CN115796173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310135089.1A CN115796173B (zh) 2023-02-20 2023-02-20 针对监管报送需求的数据处理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310135089.1A CN115796173B (zh) 2023-02-20 2023-02-20 针对监管报送需求的数据处理方法和***

Publications (2)

Publication Number Publication Date
CN115796173A true CN115796173A (zh) 2023-03-14
CN115796173B CN115796173B (zh) 2023-04-28

Family

ID=85431024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310135089.1A Active CN115796173B (zh) 2023-02-20 2023-02-20 针对监管报送需求的数据处理方法和***

Country Status (1)

Country Link
CN (1) CN115796173B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115951883A (zh) * 2023-03-15 2023-04-11 日照市德衡信息技术有限公司 分布式微服务架构的服务组件管理***及其方法
CN115994177A (zh) * 2023-03-23 2023-04-21 山东文衡科技股份有限公司 基于数据湖的知识产权管理方法及其***
CN116258504A (zh) * 2023-03-16 2023-06-13 广州信瑞泰信息科技有限公司 银行客户关系管理***及其方法
CN116258579A (zh) * 2023-04-28 2023-06-13 成都新希望金融信息有限公司 用户信用评分模型的训练方法及用户信用评分方法
CN116580849A (zh) * 2023-05-30 2023-08-11 杭州医初科技有限公司 医疗数据的采集分析***及其方法
CN116595976A (zh) * 2023-04-26 2023-08-15 杭州睿数科技有限公司 一种科研创新平台控制方法及其***
CN116611057A (zh) * 2023-06-13 2023-08-18 北京中科网芯科技有限公司 数据安全检测方法及其***
CN116663568A (zh) * 2023-07-31 2023-08-29 腾云创威信息科技(威海)有限公司 基于优先级的关键任务识别***及其方法
CN116702156A (zh) * 2023-06-20 2023-09-05 安徽百方云科技有限公司 信息安全风险评价***及其方法
CN116956289A (zh) * 2023-07-21 2023-10-27 上海则一供应链管理有限公司 动态调整潜在黑名单和黑名单的方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200344194A1 (en) * 2019-04-29 2020-10-29 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning
CN112380863A (zh) * 2020-10-29 2021-02-19 国网天津市电力公司 一种基于多头自注意力机制的序列标注方法
CN114633776A (zh) * 2022-03-02 2022-06-17 上海俏晔物流有限公司 用于智能列车的全局监测方法、***和电子设备
CN114757659A (zh) * 2022-05-19 2022-07-15 浙江大学 研发项目智能管理***及其管理方法
CN114758304A (zh) * 2022-06-13 2022-07-15 江苏中腾石英材料科技股份有限公司 一种高纯圆角石英粉的过筛设备及其过筛控制方法
CN114897889A (zh) * 2022-06-27 2022-08-12 浙江旭派动力科技有限公司 电池组点焊自动化全检方法及其***
CN115146488A (zh) * 2022-09-05 2022-10-04 山东鼹鼠人才知果数据科技有限公司 基于大数据的可变业务流程智能建模***及其方法
CN115186673A (zh) * 2022-06-08 2022-10-14 福建华昊信息技术咨询有限公司 科技信息管理***及其管理方法
CN115203380A (zh) * 2022-09-19 2022-10-18 山东鼹鼠人才知果数据科技有限公司 基于多模态数据融合的文本处理***及其方法
CN115375980A (zh) * 2022-06-30 2022-11-22 杭州电子科技大学 基于区块链的数字图像的存证***及其存证方法
CN115392370A (zh) * 2022-08-24 2022-11-25 诸暨市萤朵贸易有限公司 用于火力发电设备的故障诊断方法及其***
CN115410132A (zh) * 2022-09-06 2022-11-29 河南人梯互通科技有限公司 一种电梯维护保养监督数据识别方法及其***
CN115529166A (zh) * 2022-09-05 2022-12-27 浙江御安信息技术有限公司 基于多源数据的网络安全扫描风险管控***及其方法
CN115564203A (zh) * 2022-09-23 2023-01-03 杭州国辰智企科技有限公司 基于多维数据协同的设备实时性能评估***及其方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200344194A1 (en) * 2019-04-29 2020-10-29 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning
CN112380863A (zh) * 2020-10-29 2021-02-19 国网天津市电力公司 一种基于多头自注意力机制的序列标注方法
CN114633776A (zh) * 2022-03-02 2022-06-17 上海俏晔物流有限公司 用于智能列车的全局监测方法、***和电子设备
CN114757659A (zh) * 2022-05-19 2022-07-15 浙江大学 研发项目智能管理***及其管理方法
CN115186673A (zh) * 2022-06-08 2022-10-14 福建华昊信息技术咨询有限公司 科技信息管理***及其管理方法
CN114758304A (zh) * 2022-06-13 2022-07-15 江苏中腾石英材料科技股份有限公司 一种高纯圆角石英粉的过筛设备及其过筛控制方法
CN114897889A (zh) * 2022-06-27 2022-08-12 浙江旭派动力科技有限公司 电池组点焊自动化全检方法及其***
CN115375980A (zh) * 2022-06-30 2022-11-22 杭州电子科技大学 基于区块链的数字图像的存证***及其存证方法
CN115392370A (zh) * 2022-08-24 2022-11-25 诸暨市萤朵贸易有限公司 用于火力发电设备的故障诊断方法及其***
CN115146488A (zh) * 2022-09-05 2022-10-04 山东鼹鼠人才知果数据科技有限公司 基于大数据的可变业务流程智能建模***及其方法
CN115529166A (zh) * 2022-09-05 2022-12-27 浙江御安信息技术有限公司 基于多源数据的网络安全扫描风险管控***及其方法
CN115410132A (zh) * 2022-09-06 2022-11-29 河南人梯互通科技有限公司 一种电梯维护保养监督数据识别方法及其***
CN115203380A (zh) * 2022-09-19 2022-10-18 山东鼹鼠人才知果数据科技有限公司 基于多模态数据融合的文本处理***及其方法
CN115564203A (zh) * 2022-09-23 2023-01-03 杭州国辰智企科技有限公司 基于多维数据协同的设备实时性能评估***及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨志明;王来奇;王泳;: "基于双通道卷积神经网络的问句意图分类研究" *
王义;沈洋;戴月明;: "基于细粒度多通道卷积神经网络的文本情感分析" *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115951883A (zh) * 2023-03-15 2023-04-11 日照市德衡信息技术有限公司 分布式微服务架构的服务组件管理***及其方法
CN116258504B (zh) * 2023-03-16 2024-06-25 广州微明信息科技有限公司 银行客户关系管理***及其方法
CN116258504A (zh) * 2023-03-16 2023-06-13 广州信瑞泰信息科技有限公司 银行客户关系管理***及其方法
CN115994177A (zh) * 2023-03-23 2023-04-21 山东文衡科技股份有限公司 基于数据湖的知识产权管理方法及其***
CN116595976A (zh) * 2023-04-26 2023-08-15 杭州睿数科技有限公司 一种科研创新平台控制方法及其***
CN116595976B (zh) * 2023-04-26 2024-05-24 杭州睿数科技有限公司 一种科研创新平台控制方法及其***
CN116258579A (zh) * 2023-04-28 2023-06-13 成都新希望金融信息有限公司 用户信用评分模型的训练方法及用户信用评分方法
CN116258579B (zh) * 2023-04-28 2023-08-04 成都新希望金融信息有限公司 用户信用评分模型的训练方法及用户信用评分方法
CN116580849A (zh) * 2023-05-30 2023-08-11 杭州医初科技有限公司 医疗数据的采集分析***及其方法
CN116580849B (zh) * 2023-05-30 2024-01-12 华创天成技术有限公司 医疗数据的采集分析***及其方法
CN116611057B (zh) * 2023-06-13 2023-11-03 北京中科网芯科技有限公司 数据安全检测方法及其***
CN116611057A (zh) * 2023-06-13 2023-08-18 北京中科网芯科技有限公司 数据安全检测方法及其***
CN116702156A (zh) * 2023-06-20 2023-09-05 安徽百方云科技有限公司 信息安全风险评价***及其方法
CN116702156B (zh) * 2023-06-20 2024-04-09 任丽娜 信息安全风险评价***及其方法
CN116956289A (zh) * 2023-07-21 2023-10-27 上海则一供应链管理有限公司 动态调整潜在黑名单和黑名单的方法
CN116956289B (zh) * 2023-07-21 2024-04-09 上海则一供应链管理有限公司 动态调整潜在黑名单和黑名单的方法
CN116663568A (zh) * 2023-07-31 2023-08-29 腾云创威信息科技(威海)有限公司 基于优先级的关键任务识别***及其方法
CN116663568B (zh) * 2023-07-31 2023-11-17 腾云创威信息科技(威海)有限公司 基于优先级的关键任务识别***及其方法

Also Published As

Publication number Publication date
CN115796173B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN115796173B (zh) 针对监管报送需求的数据处理方法和***
CN115203380B (zh) 基于多模态数据融合的文本处理***及其方法
CN115783923B (zh) 基于大数据的电梯故障模式识别***
CN115759658B (zh) 适用于智慧城市的企业能耗数据管理***
CN116257406A (zh) 用于智慧城市的网关数据管理方法及其***
CN117251699B (zh) 基于人工智能的医疗大数据分析方法及***
CN116702156B (zh) 信息安全风险评价***及其方法
CN116015837A (zh) 用于计算机网络信息安全的入侵检测方法及***
CN115880036B (zh) 一种车位级动态共享智能管控交易平台
CN116579618B (zh) 基于风险管理的数据处理方法、装置、设备及存储介质
CN116151845A (zh) 基于工业物联网技术的产品全生命周期管理***及其方法
CN115878330A (zh) 线程的运行控制方法及其***
CN115951883A (zh) 分布式微服务架构的服务组件管理***及其方法
CN116759053A (zh) 基于物联网***的医疗体系防控方法及***
CN117474498A (zh) 专利年费自动提醒***及其方法
CN116151604A (zh) 一种web环境下办公***流程分析***及其方法
CN115544560A (zh) 一种敏感信息的脱敏方法、装置、计算机设备及存储介质
CN112800217A (zh) 基于向量关联性矩阵的政务事务处理报告的智能评估方法
CN117316462A (zh) 一种医疗数据管理方法
CN116247824B (zh) 电力设备的控制方法及其***
CN117744855A (zh) 基于机器学习的负荷预测***及方法
CN115827856A (zh) 一种基于计算机的军工领域消息的传递方法
CN112434973A (zh) 基于一维和二维卷积的重点区域安全治理指标评估方法
CN113392278A (zh) 基于工业互联网的设备液体管线流动检测方法
CN117521606B (zh) 用于财务数据的智能报表生成***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant