CN116611903B

CN116611903B - 基于数字金融服务的大数据处理方法、服务器及存储介质

Info

Publication number: CN116611903B
Application number: CN202310879491.0A
Authority: CN
Inventors: 孙家祥; 李代艳
Original assignee: Taicang City Lvdian Information Technology Co ltd
Current assignee: Taicang City Lvdian Information Technology Co ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-09-22
Anticipated expiration: 2043-07-18
Also published as: CN116611903A

Abstract

本发明提供的基于数字金融服务的大数据处理方法、服务器及存储介质，鉴于本发明实施例可以高效获得鲁棒性优化辅助文本样例，因而能够保障整体方案的执行效率。此外，所添加的误导特征的误导性较强，且第三风险语义频繁项图谱的存在能够保障误导特征在整体的文本样例下的重要性和影响力，从而确保鲁棒性优化辅助文本样例的质量，为提高业务风险主题预测子网的鲁棒性提供可靠的调试样例，以改善现有的人工智能技术难以高质量实现业务风险主题预测子网的鲁棒性优化的问题。

Description

基于数字金融服务的大数据处理方法、服务器及存储介质

技术领域

本发明涉及大数据技术领域，具体而言，涉及基于数字金融服务的大数据处理方法、服务器及存储介质。

背景技术

数字金融是指通过互联网及信息技术手段与传统金融服务业态相结合的新一代金融服务。以产业结构进行分类，数字金融包括互联网支付、移动支付、网上银行、金融服务外包及网上贷款、网上保险、网上基金等金融服务。随着数字金融服务的普及，数字金融服务给各行业带来了诸多便利，但随之而来的风险隐患也不容忽视。

发明内容

本发明至少提供基于数字金融服务的大数据处理方法、服务器及存储介质。

本发明提供了一种基于数字金融服务的大数据处理方法，应用于大数据服务器，所述方法包括：

响应于数字金融风控辅助请求，获得待处理在线服务风险描述文本，对所述待处理在线服务风险描述文本进行文本语义挖掘操作，得到第一风险语义频繁项图谱；

依据所述第一风险语义频繁项图谱，获取所述待处理在线服务风险描述文本的第二风险语义频繁项图谱和第三风险语义频繁项图谱；其中，所述第二风险语义频繁项图谱用于表征拟增设至所述待处理在线服务风险描述文本中的伪风险描述文本，所述第三风险语义频繁项图谱中各个分布标签对应不同的语义量化值，各个语义量化值用于表征对应分布标签下风险语义频繁项的贡献评分；

依据所述第二风险语义频繁项图谱和所述第三风险语义频繁项图谱，生成在线服务风险误导文本；

通过所述待处理在线服务风险描述文本与所述在线服务风险误导文本，得到第一鲁棒性优化辅助文本样例。

在一些可选的实施例中，所述对所述待处理在线服务风险描述文本进行文本语义挖掘操作，得到第一风险语义频繁项图谱，包括：

将所述待处理在线服务风险描述文本加载至深层结构化语义模型的文本语义提炼组件进行文本语义挖掘操作，得到所述第一风险语义频繁项图谱，所述第一风险语义频繁项图谱的规模小于所述待处理在线服务风险描述文本；

其中，所述文本语义提炼组件包括滑窗滤波单元和特征表达维持单元，所述特征表达维持单元的位置优先级低于所述滑窗滤波单元；任一特征表达维持单元中皆包含一个特征迁移单元和至少两个滑窗滤波单元，所述任一特征表达维持单元的特征迁移单元由所述任一特征表达维持单元的传入节点指向所述任一特征表达维持单元的生成节点。

在一些可选的实施例中，所述依据所述第一风险语义频繁项图谱，获取所述待处理在线服务风险描述文本的第二风险语义频繁项图谱和第三风险语义频繁项图谱，包括：

将所述第一风险语义频繁项图谱加载至深层结构化语义模型的第一文本语义译码组件进行第一文本语义译码操作，得到初始风险语义误导频繁项图谱；

对所述初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值进行权重削弱，得到所述第二风险语义频繁项图谱，所述第二风险语义频繁项图谱的规模与所述待处理在线服务风险描述文本的规模一致；

其中，所述第一文本语义译码组件包括逆滑窗滤波单元和滑窗滤波单元，所述滑窗滤波单元的位置优先级低于所述逆滑窗滤波单元。

在一些可选的实施例中，所述对所述初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值进行权重削弱，包括：

将所述初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值与设定值进行比对；

对于所述初始风险语义误导频繁项图谱中的任意分布标签，响应于所述任意分布标签的误导语义量化值大于所述设定值，将所述任意分布标签的误导语义量化值更新成所述设定值。

将所述第一风险语义频繁项图谱加载至深层结构化语义模型的第二文本语义译码组件进行第二文本语义译码操作，得到所述待处理在线服务风险描述文本的第三风险语义频繁项图谱；

对所述第三风险语义频繁项图谱中各个分布标签的在线服务风险描述文本语义量化值进行区间数值映射处理，所述第三风险语义频繁项图谱的规模与所述待处理在线服务风险描述文本的规模一致；

其中，所述第二文本语义译码组件包括逆滑窗滤波单元和滑窗滤波单元，所述滑窗滤波单元的位置优先级低于所述逆滑窗滤波单元。

在一些可选的实施例中，所述依据所述第二风险语义频繁项图谱和所述第三风险语义频繁项图谱，生成在线服务风险误导文本，包括：

将所述第二风险语义频繁项图谱与所述第三风险语义频繁项图谱进行基于分布标签的乘法运算，得到所述在线服务风险误导文本。

在一些可选的实施例中，所述深层结构化语义模型还包括业务风险主题预测子网；所述方法还包括：

将所述第一鲁棒性优化辅助文本样例加载到所述业务风险主题预测子网，得到所述业务风险主题预测子网生成的业务风险主题预测结果。

在一些可选的实施例中，所述深层结构化语义模型的调试步骤包括：

获取调试样例集中包括的在线服务风险描述文本样例的第二鲁棒性优化辅助文本样例；

将所述在线服务风险描述文本样例和所述第二鲁棒性优化辅助文本样例一并加载到所述业务风险主题预测子网进行文本语义挖掘操作，得到所述在线服务风险描述文本样例的文本语义信息和所述第二鲁棒性优化辅助文本样例的文本语义信息；

利用所述在线服务风险描述文本样例的文本语义信息和所述第二鲁棒性优化辅助文本样例的文本语义信息，分别生成第一模型训练代价和第二模型训练代价；

获取所述在线服务风险描述文本样例的第三风险语义频繁项图谱，所述在线服务风险描述文本样例的第三风险语义频繁项图谱中各个分布标签对应不同的语义量化值，各个语义量化值用于表征对应分布标签下风险语义频繁项的贡献评分；

利用所述在线服务风险描述文本样例的第三风险语义频繁项图谱，生成第三模型训练代价；

利用所述第一模型训练代价、所述第二模型训练代价和所述第三模型训练代价进行联合调试，得到所述深层结构化语义模型。

在一些可选的实施例中，所述利用所述在线服务风险描述文本样例的文本语义信息和所述第二鲁棒性优化辅助文本样例的文本语义信息，分别生成第一模型训练代价和第二模型训练代价，包括：

在所述在线服务风险描述文本样例的文本语义信息中，拆解出所述在线服务风险描述文本样例的文本特征评估值；

在所述第二鲁棒性优化辅助文本样例的文本语义信息中，拆解出所述第二鲁棒性优化辅助文本样例的文本特征评估值；

利用所述在线服务风险描述文本样例的文本特征评估值和所述第二鲁棒性优化辅助文本样例的文本特征评估值，生成所述第一模型训练代价，所述第一模型训练代价的改进期望是将所述在线服务风险描述文本样例与所述第二鲁棒性优化辅助文本样例之间的文本特征评估差值增大。

在所述在线服务风险描述文本样例的文本语义信息中，拆解出所述在线服务风险描述文本样例的文本语义运算值；

在所述第二鲁棒性优化辅助文本样例的文本语义信息中，拆解出所述第二鲁棒性优化辅助文本样例的文本语义运算值；

利用所述在线服务风险描述文本样例的文本语义运算值和所述第二鲁棒性优化辅助文本样例的文本语义运算值，生成所述第二模型训练代价，所述第二模型训练代价的改进期望是将所述在线服务风险描述文本样例与所述第二鲁棒性优化辅助文本样例之间的文本语义运算差值缩小。

在一些可选的实施例中，所述利用所述第一模型训练代价、所述第二模型训练代价和所述第三模型训练代价进行联合调试，得到所述深层结构化语义模型，包括：

获取所述第二模型训练代价和所述第三模型训练代价的第一加权结果；以及，获取目标预设值与所述第一加权结果的乘法运算结果；

将所述第一加权结果与所述乘法运算结果的第二加权结果，作为全局模型训练代价进行联合调试，得到所述深层结构化语义模型。

在一些可选的实施例中，所述深层结构化语义模型的第一文本语义译码组件和第二文本语义译码组件的组件配置一致。

本发明还提供了一种大数据服务器，包括处理器和存储器；所述处理器和所述存储器通信连接，所述处理器用于从所述存储器中读取计算机程序并执行，以实现上述方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在运行时实现上述的方法。

本发明实施例提供的针对在线服务风险描述文本的处理思路能够快速高效地得到鲁棒性优化辅助文本样例，进一步地，在对待处理在线服务风险描述文本进行文本语义挖掘得到第一风险语义频繁项图谱后，可以根据第一风险语义频繁项图谱，进一步获得待处理在线服务风险描述文本的第二风险语义频繁项图谱和第三风险语义频繁项图谱；其中，第二风险语义频繁项图谱用于表征拟增设至待处理在线服务风险描述文本中且误导性较强的伪风险描述文本，第三风险语义频繁项图谱中各个分布标签对应不同的语义量化值，各个语义量化值用于表征对应分布标签下风险语义频繁项的贡献评分，然后，依据第二风险语义频繁项图谱和所述第三风险语义频繁项图谱生成在线服务风险误导文本，进而通过待处理在线服务风险描述文本与在线服务风险误导文本便能够获得鲁棒性优化辅助文本样例。鉴于本发明实施例可以高效获得鲁棒性优化辅助文本样例，因而能够保障整体方案的执行效率。此外，所添加的误导特征的误导性较强，且第三风险语义频繁项图谱的存在能够保障误导特征在整体的文本样例下的重要性和影响力，从而确保鲁棒性优化辅助文本样例的质量，为提高业务风险主题预测子网的鲁棒性提供可靠的调试样例，以改善现有的人工智能技术难以高质量实现业务风险主题预测子网的鲁棒性优化的问题。

由此可见，本发明实施例能够实现业务风险主题预测子网高质量的鲁棒性调试。换言之，鲁棒性优化辅助文本样例能够用于进一步调试和改进当前的业务风险主题预测子网，以保障当前的业务风险主题预测子网的业务风险主题预测精度。这样可以改善现有的人工智能技术难以准确进行业务风险主题预测的问题。

关于上述大数据服务器、计算机可读存储介质的效果描述参见上述方法的说明。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本发明的实施例，并与说明书一起用于说明本发明的技术方案。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例示出的一种大数据服务器的方框图。

图2是本发明实施例示出的一种基于数字金融服务的大数据处理方法的流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是本发明的一些方面相一致的装置和方法的例子。

图1为本发明实施例提供的大数据服务器10的结构示意图，包括处理器102、存储器104、和总线106。其中，存储器104用于存储执行指令，包括内存和外部存储器，内存也可以理解为内存储器，用于暂时存放处理器102中的运算数据，以及与硬盘等外部存储器交换的数据，处理器102通过内存与外部存储器进行数据交换，当大数据服务器10运行时，处理器102与存储器104之间通过总线106通信，使得处理器102执行本发明实施例的基于数字金融服务的大数据处理方法。

请结合图2，图2是本发明实施例所提供的一种基于数字金融服务的大数据处理方法的流程示意图，应用于大数据服务器，该方法示例性可以包括如下步骤201-步骤204。

步骤201、响应于数字金融风控辅助请求，获得待处理在线服务风险描述文本，对待处理在线服务风险描述文本进行文本语义挖掘操作，得到第一风险语义频繁项图谱。

本发明实施例中，待处理在线服务风险描述文本为数字金融服务风险描述文本。此外，待处理在线服务风险描述文本可以为包括信息盗用风险主题（类别）、大数据杀熟风险主题（类别）等的在线服务风险描述文本。换言之，待处理在线服务风险描述文本记载了数字金融风控任务下所获得的服务风险检测日志或者记录。

在一些示例中，对待处理在线服务风险描述文本进行文本语义挖掘操作，得到第一风险语义频繁项图谱，包括：将待处理在线服务风险描述文本输入深层结构化语义模型（基于结构化语义技术所搭建的对抗模型）的文本语义提炼组件（可以理解为文本语义特征提取组件）进行文本语义挖掘操作，得到第一风险语义频繁项图谱。第一风险语义频繁项图谱可以理解为待处理在线服务风险描述文本的第一风险语义特征图。第一风险语义频繁项图谱的规模小于待处理在线服务风险描述文本。

进一步地，文本语义提炼组件可以是CNN，包括滑窗滤波单元和特征表达维持单元（残差单元），其中，特征表达维持单元的位置在滑窗滤波单元之后。示例性地，文本语义提炼组件可以包括级联的多个滑窗滤波单元和级联的多个残差单元，比如包括3个滑窗滤波单元和6个残差单元。且多个滑窗滤波单元的滑窗滤波算子（卷积核）的尺寸可以一致，也可以不一致。

比如，待处理在线服务风险描述文本的文本规模为a*b，状态维度（可以理解为通道）数为3，则通过第一个滑窗滤波单元后，待处理在线服务风险描述文本的横向尺寸（a）和纵向尺寸（b）更新成最初的1/2，状态维度数从3更新成32，形成一个（a/2）*（b/2）*128的风险语义频繁项图谱；通过第二个滑窗滤波单元后，待处理在线服务风险描述文本的横向尺寸（a）和纵向尺寸（b）更新成最初的1/4，状态维度数从32更新成64，形成一个（a/4）*（b/4）*64的风险语义频繁项图谱；通过第3个滑窗滤波单元后，待处理在线服务风险描述文本的横向尺寸（a）和纵向尺寸（b）更新成最初的1/4，状态维度数从64更新成128，形成一个（a/2）*（b/2）*128的风险语义频繁项图谱；之后，该风险语义频繁项图谱会再通过由6个残差单元组成的子模型，生成新的风险语义频繁项图谱；也即，通过6个残差单元后，得到（a/4）*（b/4）*128的第一风险语义频繁项图谱，该第一风险语义频繁项图谱可以理解为待处理在线服务风险描述文本通过文本语义提炼组件的文本语义挖掘操作后得到的风险语义频繁项图谱。

其中，任一特征表达维持单元中皆包含一个特征迁移单元（映射单元）和至少两个滑窗滤波单元，任一特征表达维持单元的特征迁移单元由任一特征表达维持单元的传入节点指向任一特征表达维持单元的生成节点。比如，任一特征表达维持单元中皆包含一个特征迁移单元和至少两个滑窗滤波单元。其中，一个特征表达维持单元的特征迁移单元由该特征表达维持单元的传入节点指向该特征表达维持单元的生成节点。

步骤202、依据第一风险语义频繁项图谱，获取待处理在线服务风险描述文本的第二风险语义频繁项图谱和第三风险语义频繁项图谱。

其中，第二风险语义频繁项图谱用于表征拟增设至待处理在线服务风险描述文本中的伪风险描述文本，第三风险语义频繁项图谱中各个分布标签对应不同的语义量化值，各个语义量化值用于表征对应分布标签下风险语义频繁项的贡献评分（可以理解为重要程度或者重要性）。

在一些示例中，步骤202通过深层结构化语义模型中的第一文本语义译码组件和第二文本语义译码组件执行。文本语义译码组件可以理解为文本特征译码组件。

在一些可选的实施例中，步骤202可以通过步骤2021至步骤2024实现。

步骤2021、将第一风险语义频繁项图谱加载至深层结构化语义模型的第一文本语义译码组件进行第一文本语义译码操作，得到初始风险语义误导频繁项图谱。

在一些示例中，第一文本语义译码组件包括逆滑窗滤波单元（可以理解为反卷积单元）和滑窗滤波单元（可以理解为卷积单元），其中，滑窗滤波单元的位置在逆滑窗滤波单元之后。比如，第一文本语义译码组件包括两个3*3的逆滑窗滤波单元和一个7*7的滑窗滤波单元。其中，逆滑窗滤波单元的作用是将文本规模较小的风险语义频繁项图谱调整为规模较大的风险语义频繁项图谱。

其中，第一文本语义译码组件输入的风险语义频繁项图谱是由文本语义提炼组件编码后得到的a/4*b/4*128的第一风险语义频繁项图谱，该第一风险语义频繁项图谱通过第一个3*3的逆滑窗滤波单元后更新成a/2*b/2*64的风险语义频繁项图谱；通过第二个3*3的逆滑窗滤波单元后更新成a*b*32的风险语义频繁项图谱；再通过一个7*7的滑窗滤波单元后得到一个a*b*3的风险语义频繁项图谱，即初始风险语义误导频繁项图谱。进一步地，初始风险语义误导频繁项图谱可以理解为初始的噪声语义特征图。噪声语义特征可以理解为实质是不存在风险但是被伪装成存在风险的语义特征。

步骤2022、对初始风险语义误导频繁项图谱中各个分布标签（可以理解为特征位置）的误导语义量化值（可以理解为噪声特征值）进行权重削弱（比如可以是特征抑制、特征贡献削弱等），得到待处理在线服务风险描述文本的第二风险语义频繁项图谱。

示例性的，为了避免误导过于严重，本发明实施例会给初始风险语义误导频繁项图谱的误导语义量化值添加一个约束，进而得到第二风险语义频繁项图谱。其中，对初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值进行权重削弱，包括：将初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值与设定值进行比对；对于初始风险语义误导频繁项图谱中的任意分布标签，响应于任意分布标签的误导语义量化值大于设定值，将任意分布标签的误导语义量化值更新成设定值。进一步地，第二风险语义频繁项图谱的规模与待处理在线服务风险描述文本的规模一致。且该第二风险语义频繁项图谱即为拟增设至待处理在线服务风险描述文本中的误导特征，也即伪风险描述文本。

步骤2023、将第一风险语义频繁项图谱加载至深层结构化语义模型的第二文本语义译码组件进行第二文本语义译码操作，得到待处理在线服务风险描述文本的第三风险语义频繁项图谱。

在一些示例中，第二文本语义译码组件包括逆滑窗滤波单元和滑窗滤波单元，其中，滑窗滤波单元的位置在逆滑窗滤波单元之后。

进一步地，第二文本语义译码组件和第一文本语义译码组件的组件配置一致（网络结构相同）。换言之，关键文本集译码组件和诱导文本集译码组件的组件配置一致，也是由两个3*3的逆滑窗滤波单元和一个7*7的滑窗滤波单元组成。其中，关键文本集译码组件的输入也是第一文本语义提炼组件的输出，关键文本集译码组件的输出则是待处理在线服务风险描述文本的关键文本集的风险语义频繁项图谱。进一步地，第一文本语义译码组件输入的风险语义频繁项图谱是由文本语义提炼组件编码后得到的a/4*b/4*128的第一风险语义频繁项图谱，该第一风险语义频繁项图谱通过第二文本语义译码组件的第一个3*3的逆滑窗滤波单元后更新成a/2*b/2*64的风险语义频繁项图谱；通过第二个3*3的逆滑窗滤波单元后更新成a*b*32的风险语义频繁项图谱；再通过一个7*7的滑窗滤波单元后得到一个a*b*1的风险语义频繁项图谱，即关键文本集的风险语义频繁项图谱。

步骤2024、对第三风险语义频繁项图谱中各个分布标签的在线服务风险描述文本语义量化值进行区间数值映射（可以理解为归一化/标准化）处理。

其中，第三风险语义频繁项图谱的规模与待处理在线服务风险描述文本的规模一致。

在实际应用过程中，输入文本中的部分文本集是相当关键的，而除此之外的其他文本集的关键性较低。因而基于第二文本语义译码组件对第一风险语义频繁项图谱进行译码，得到一个风险语义频繁项图谱，也即关键文本集的风险语义频繁项图谱。之后，将该风险语义频繁项图谱中各个分布标签的在线服务风险描述文本语义量化值均区间数值映射到0~1这个区间。

步骤203、依据第二风险语义频繁项图谱和第三风险语义频繁项图谱，生成在线服务风险误导文本。

在一些示例中，依据第二风险语义频繁项图谱和第三风险语义频繁项图谱，生成在线服务风险误导文本，包括：将通过步骤2022处理后得到的第二风险语义频繁项图谱与通过步骤2024处理后得到的第三风险语义频繁项图谱进行基于分布标签的乘法运算（可以理解为按位相乘处理），得到在线服务风险误导文本。

可以理解，关键文本集的风险语义频繁项图谱中任意分布标签的在线服务风险描述文本的语义量化值越大，表明该分布标签的风险语义频繁项越关键，对应分布标签下的误导语义量化值的存留可能性也就越大，这样可以让扰动尽可能分布在在线服务风险描述文本的关键文本集，提高误导质量。

步骤204、通过待处理在线服务风险描述文本与在线服务风险误导文本，得到第一鲁棒性优化辅助文本样例。

在一些示例中，通过将待处理在线服务风险描述文本与在线服务风险误导文本进行叠加处理，得到待处理在线服务风险描述文本的鲁棒性优化辅助文本样例，该鲁棒性优化辅助文本样例可以理解为第一鲁棒性优化辅助文本样例。换言之，鲁棒性优化辅助文本样例还可以理解为扰动文本样例或者对抗文本样例。这样一来，通过鲁棒性优化辅助文本样例对相关神经网络模型进行训练，能够提高相关神经网络模型的鲁棒性/抗干扰性。

进一步地，深层结构化语义模型中还包括业务风险主题预测子网，在得到第一鲁棒性优化辅助文本样例后，本发明实施例提供的方法还包括如下步骤205。

步骤205、将第一鲁棒性优化辅助文本样例输入业务风险主题预测子网，得到该业务风险主题预测子网生成的业务风险主题预测结果。

示例性的，在得到第一鲁棒性优化辅助文本样例后，可以将第一鲁棒性优化辅助文本样例输入需进行误导的业务风险主题预测子网中，进而用于误导该业务风险主题预测子网。其中，业务风险主题预测子网用于进行业务风险主题（类别）的预测和判别。进一步地，业务风险主题（类别）包括信息窃取类别、业务欺诈类别等。

本发明实施例提供的针对在线服务风险描述文本的处理思路能够快速高效地得到鲁棒性优化辅助文本样例，进一步地，在对待处理在线服务风险描述文本进行文本语义挖掘得到第一风险语义频繁项图谱后，可以根据第一风险语义频繁项图谱，进一步获得待处理在线服务风险描述文本的第二风险语义频繁项图谱和第三风险语义频繁项图谱；其中，第二风险语义频繁项图谱用于表征拟增设至待处理在线服务风险描述文本中且误导性较强的伪风险描述文本，第三风险语义频繁项图谱中各个分布标签对应不同的语义量化值，各个语义量化值用于表征对应分布标签下风险语义频繁项的贡献评分，然后，依据第二风险语义频繁项图谱和所述第三风险语义频繁项图谱生成在线服务风险误导文本，进而通过待处理在线服务风险描述文本与在线服务风险误导文本便能够获得鲁棒性优化辅助文本样例。鉴于本发明实施例可以高效获得鲁棒性优化辅助文本样例，因而能够保障整体方案的执行效率。此外，所添加的误导特征的误导性较强，且第三风险语义频繁项图谱的存在能够保障误导特征在整体的文本样例下的重要性和影响力，从而确保鲁棒性优化辅助文本样例的质量，为提高神经网络模型的鲁棒性提供可靠的调试样例。

由此可见，本发明实施例能够实现业务风险主题预测子网高质量的鲁棒性调试。换言之，鲁棒性优化辅助文本样例能够用于进一步调试和改进当前的业务风险主题预测子网，以保障当前的业务风险主题预测子网的业务风险主题预测精度。

在另一些设计思路下，在模型调试环节，上述深层结构化语义模型的调试步骤包括如下步骤。

步骤301、获取调试样例集中包括的在线服务风险描述文本样例的第二鲁棒性优化辅助文本样例。

在本发明实施例中将在线服务风险描述文本样例的鲁棒性优化辅助文本样例理解为第二鲁棒性优化辅助文本样例。另外，调试样例集中包括的在线服务风险描述文本样例为多个，而每个在线服务风险描述文本样例均对应一个鲁棒性优化辅助文本样例，即第二鲁棒性优化辅助文本样例的数目也为多个。

示例性的，与上述步骤201至步骤204所示的在线服务风险描述文本处理思路相似，对于任一在线服务风险描述文本样例，获取该在线服务风险描述文本样例的第二鲁棒性优化辅助文本样例，包括下述步骤3011-步骤3015。

步骤3011、通过深层结构化语义模型的文本语义提炼组件对该在线服务风险描述文本样例进行文本语义挖掘操作，得到该在线服务风险描述文本样例的第一风险语义频繁项图谱。

步骤3012、将该在线服务风险描述文本样例的第一风险语义频繁项图谱分别加载至深层结构化语义模型的第一文本语义译码组件和第二文本语义译码组件。

步骤3013、通过第一文本语义译码组件对该在线服务风险描述文本样例的第一风险语义频繁项图谱进行第一文本语义译码操作，得到该在线服务风险描述文本样例的初始风险语义误导频繁项图谱；对该在线服务风险描述文本样例的初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值进行权重削弱，得到该在线服务风险描述文本样例的第二风险语义频繁项图谱。

步骤3014、通过第二文本语义译码组件进行第二文本语义译码操作，得到该在线服务风险描述文本样例的第三风险语义频繁项图谱，并对该在线服务风险描述文本样例的第三风险语义频繁项图谱中各个分布标签的在线服务风险描述文本语义量化值进行区间数值映射处理。

步骤3015、依据该在线服务风险描述文本样例的第二风险语义频繁项图谱和第三风险语义频繁项图谱，生成该在线服务风险描述文本样例的在线服务风险误导文本；将该在线服务风险描述文本样例和该在线服务风险描述文本样例的在线服务风险误导文本叠加，得到该在线服务风险描述文本样例的第二鲁棒性优化辅助文本样例。

步骤302、将在线服务风险描述文本样例和第二鲁棒性优化辅助文本样例一并输入业务风险主题预测子网进行文本语义挖掘操作，得到在线服务风险描述文本样例的文本语义信息和第二鲁棒性优化辅助文本样例的文本语义信息。

在模型调试环节，步骤302是将初始在线服务风险描述文本和相应的误导文本一并加载至需进行误导的业务风险主题预测子网中进行文本语义挖掘，得到文本语义信息。

步骤303、基于在线服务风险描述文本样例的文本语义信息和第二鲁棒性优化辅助文本样例的文本语义信息，分别生成第一模型训练代价和第二模型训练代价；以及，基于该在线服务风险描述文本样例的第三风险语义频繁项图谱，生成第三模型训练代价。

在实际应用中，文本特征评估值（文本特征角度）是影响在线服务风险描述文本识别信息的关键，文本语义运算值是影响在线服务风险描述文本变化性的关键。基于此，本发明实施例基于文本特征评估值优化模型训练代价（损失函数）。本发明实施例将文本特征评估值（文本特征角度）和文本语义运算值（文本特征模）进行解耦，设计两个模型训练代价，这样能够提高模型训练调试的质量。

示例性的，基于在线服务风险描述文本样例的文本语义信息和第二鲁棒性优化辅助文本样例的文本语义信息，分别生成第一模型训练代价和第二模型训练代价，包括如下步骤3031-步骤3033。

步骤3031、在在线服务风险描述文本样例的文本语义信息中，拆解出在线服务风险描述文本样例的文本特征评估值；以及，在第二鲁棒性优化辅助文本样例的文本语义信息中，拆解出第二鲁棒性优化辅助文本样例的文本特征评估值。

步骤3032、基于在线服务风险描述文本样例的文本特征评估值和第二鲁棒性优化辅助文本样例的文本特征评估值，生成第一模型训练代价，其中，第一模型训练代价的改进期望是将在线服务风险描述文本样例与第二鲁棒性优化辅助文本样例之间的文本特征评估差值增大。

步骤3033、基于在线服务风险描述文本样例的文本语义运算值和第二鲁棒性优化辅助文本样例的文本语义运算值，生成第二模型训练代价，其中，第二模型训练代价的改进期望是将在线服务风险描述文本样例与第二鲁棒性优化辅助文本样例之间的文本语义运算差值缩小。

步骤304、基于第一模型训练代价、第二模型训练代价和第三模型训练代价进行联合调试，得到深层结构化语义模型。

示例性的，基于第一模型训练代价、第二模型训练代价和第三模型训练代价进行联合调试，得到深层结构化语义模型，包括：获取第二模型训练代价和第三模型训练代价的第一加权结果；以及，获取目标预设值与第一加权结果的乘法运算结果；将第一加权结果与乘法运算结果的第二加权结果，作为全局模型训练代价进行联合调试，得到深层结构化语义模型。其中，加权结果可以是加权和。

在深层结构化语义模型的调试步骤中，本发明实施例通过拆解优化模型训练代价，能够达到在不改变待处理在线服务风险描述文本或初始在线服务风险描述文本的尺寸的情况下，尽可能得更新在线服务风险描述文本识别信息，保障鲁棒性优化辅助文本样例的误导质量，从而提高业务风险主题预测子网的对抗调试质量。

在一些可独立的实施例中，在所述将所述第一鲁棒性优化辅助文本样例加载到所述业务风险主题预测子网，得到所述业务风险主题预测子网生成的业务风险主题预测结果之后，所述方法还包括：在根据所述业务风险主题预测结果、以及预先获取的业务风险主题先验结果确定出业务风险主题预测子网满足调试优化条件时，将选定在线服务风险描述文本加载至所述业务风险主题预测子网，获得所述业务风险主题预测子网输出的选定在线服务风险描述文本的当前业务风险主题。

本发明实施例中，可以根据业务风险主题预测结果与业务风险主题先验结果（真实的、正确的业务风险主题）自检的差异确定相应的损失函数，并通过损失函数的收敛与否来判断业务风险主题预测子网是否满足优化条件，这样可以确保业务风险主题预测子网的对抗训练质量，避免一些字面上存在风险的文本对业务风险主题预测子网的误导。在此基础上，可以利用业务风险主题预测子网准确确定选定在线服务风险描述文本的当前业务风险主题。

在一些可独立的实施例中，在获得所述业务风险主题预测子网输出的选定在线服务风险描述文本的当前业务风险主题之后，所述方法还包括：根据所述当前业务风险主题生成所述选定在线服务风险描述文本所对应的数字金融风控策略。

本发明实施例中，可以基于所得的当前业务风险主题，针对性地实现数字金融风控策略的定制，从而确保数字金融服务运行过程中的安全性。

在一些可独立的实施例中，在所述根据所述当前业务风险主题生成所述选定在线服务风险描述文本所对应的数字金融风控策略之后，所述方法还包括：响应于风控参考处理请求，根据所述选定在线服务风险描述文本、所述当前业务风险主题以及所述数字金融风控策略生成风控参考三元组；将所述风控参考三元组进行关联存储。

本发明实施例中，风控参考处理请求用于进行过往/在先风控信息的确定和存储，从而便于后续快速调用相关信息进行参考，在此基础上，可以将所述选定在线服务风险描述文本、所述当前业务风险主题以及所述数字金融风控策略整合成【选定在线服务风险描述文本-当前业务风险主题-数字金融风控策略】的三元组形式，并将该三元组形式进行结构化的关联存储，如此，不仅可以在存储过程中保留所述选定在线服务风险描述文本、所述当前业务风险主题以及所述数字金融风控策略三者之间的关系，而且能够减少存储资源的占用，并提高后期调用和访问的效率。

在一些可独立的实施例中，所述将所述风控参考三元组进行关联存储，包括：对所述风控参考三元组中的多个信息单元分别进行实体特征挖掘和关系特征挖掘，得到实体特征挖掘结果集和关系特征挖掘结果集；通过第一设定校对指示，对所述实体特征挖掘结果集进行第一校对处理，得到包括有实体特征的第一信息簇；通过第二设定校对指示，对所述关系特征挖掘结果集进行第二校对处理，得到包括有关系特征的第二信息簇；基于所述第一信息簇和所述第二信息簇进行合并操作，得到所述风控参考三元组中与目标特征相匹配的结构化三元组图谱；所述目标特征包括实体特征和关系特征中的最少一种，根据所述结构化三元组图谱对所述风控参考三元组进行结构化关联存储。

本发明实施例中，在进行结构化关联存储时，能够分别挖掘风控参考三元组中的多个信息单元的实体特征和关系特征，从而结合实体特征和关系特征准确确定结构化三元组图谱，以便通过结构化三元组图谱实现风控参考三元组的准确、完整结构化关联存储。

进一步地，还提供了一种可读存储介质，其上存储有程序，该程序被处理器执行时实现上述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述示例性描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本发明所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

Claims

1.一种基于数字金融服务的大数据处理方法，其特征在于，应用于大数据服务器，所述方法包括：

通过所述待处理在线服务风险描述文本与所述在线服务风险误导文本，得到第一鲁棒性优化辅助文本样例；

所述依据所述第一风险语义频繁项图谱，获取所述待处理在线服务风险描述文本的第二风险语义频繁项图谱和第三风险语义频繁项图谱，包括：将所述第一风险语义频繁项图谱加载至深层结构化语义模型的第一文本语义译码组件进行第一文本语义译码操作，得到初始风险语义误导频繁项图谱；对所述初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值进行权重削弱，得到所述第二风险语义频繁项图谱，所述第二风险语义频繁项图谱的规模与所述待处理在线服务风险描述文本的规模一致；其中，所述第一文本语义译码组件包括逆滑窗滤波单元和滑窗滤波单元，所述滑窗滤波单元的位置优先级低于所述逆滑窗滤波单元；

其中，所述对所述初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值进行权重削弱，包括：将所述初始风险语义误导频繁项图谱中各个分布标签的误导语义量化值与设定值进行比对；对于所述初始风险语义误导频繁项图谱中的任意分布标签，响应于所述任意分布标签的误导语义量化值大于所述设定值，将所述任意分布标签的误导语义量化值更新成所述设定值；以及

将所述第一风险语义频繁项图谱加载至深层结构化语义模型的第二文本语义译码组件进行第二文本语义译码操作，得到所述待处理在线服务风险描述文本的第三风险语义频繁项图谱；对所述第三风险语义频繁项图谱中各个分布标签的在线服务风险描述文本语义量化值进行区间数值映射处理，所述第三风险语义频繁项图谱的规模与所述待处理在线服务风险描述文本的规模一致；其中，所述第二文本语义译码组件包括逆滑窗滤波单元和滑窗滤波单元，所述滑窗滤波单元的位置优先级低于所述逆滑窗滤波单元；所述深层结构化语义模型的第一文本语义译码组件和第二文本语义译码组件的组件配置一致；

其中，所述深层结构化语义模型还包括业务风险主题预测子网；所述方法还包括：将所述第一鲁棒性优化辅助文本样例加载到所述业务风险主题预测子网，得到所述业务风险主题预测子网生成的业务风险主题预测结果；

其中，所述深层结构化语义模型的调试步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理在线服务风险描述文本进行文本语义挖掘操作，得到第一风险语义频繁项图谱，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述在线服务风险描述文本样例的文本语义信息和所述第二鲁棒性优化辅助文本样例的文本语义信息，分别生成第一模型训练代价和第二模型训练代价，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述在线服务风险描述文本样例的文本语义信息和所述第二鲁棒性优化辅助文本样例的文本语义信息，分别生成第一模型训练代价和第二模型训练代价，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所述第一模型训练代价、所述第二模型训练代价和所述第三模型训练代价进行联合调试，得到所述深层结构化语义模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述依据所述第二风险语义频繁项图谱和所述第三风险语义频繁项图谱，生成在线服务风险误导文本，包括：

7.一种大数据服务器，其特征在于，包括处理器和存储器；所述处理器和所述存储器通信连接，所述处理器用于从所述存储器中读取计算机程序并执行，以实现上述权利要求1-6任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在运行时实现上述权利要求1-6任一项所述的方法。