CN113673687A - 数据处理方法、装置、设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113673687A
CN113673687A CN202111053251.2A CN202111053251A CN113673687A CN 113673687 A CN113673687 A CN 113673687A CN 202111053251 A CN202111053251 A CN 202111053251A CN 113673687 A CN113673687 A CN 113673687A
Authority
CN
China
Prior art keywords
fusion
data processing
features
feature
target variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111053251.2A
Other languages
English (en)
Inventor
张鹏
陈婷
吴三平
庄伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202111053251.2A priority Critical patent/CN113673687A/zh
Publication of CN113673687A publication Critical patent/CN113673687A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及金融科技技术领域,公开了一种数据处理方法、装置、设备及计算机可读存储介质,获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。本申请通过预训练的深度神经网络模型对基于用户行为数据提取的节点特征与边特征自动进行特征融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。

Description

数据处理方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及金融科技(Fintech)技术领域,尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。
背景技术
对于客户的行为流水数据,现有方案将基于行为流水数据构建变量的整个处理流程(如节点分类、特征提取、特征融合网)分成几个独立的阶段进行,每个阶段均由人工基于业务经验进行处理,最终汇总到客户层级得到所需的变量,以便于后续建模流程使用。但是,现有方案通过人工对行为流水数据进行处理,由于人工处理的局限性,容易导致有价值信息的丢失以及节点分类不准确等问题,使得基于用户行为数据形成的变量的有效性较低。
发明内容
本申请的主要目的在于提供一种数据处理方法、装置、设备及计算机可读存储介质,旨在解决当前基于用户行为数据形成的变量的有效性较低的技术问题。
为实现上述目的,本申请实施例提供一种数据处理方法,所述数据处理方法包括:
获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;
基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。
优选地,所述基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量的步骤包括:
基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征;
对所述融合特征进行权重运算,得到目标变量。
优选地,所述权重参数包括第一权重值、第二权重值与偏置,所述基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征的步骤包括:
基于训练后的神经网络模型中的所述第一权重值与所述节点特征进行第一预设运算,得到第一向量;
基于所述第二权重值与所述边特征进行第二预设运算,得到第二向量;
基于所述第一向量、所述第二向量与所述偏置进行第三预设运算,得到融合特征。
优选地,所述融合特征包含多个特征向量,所述对所述融合特征进行权重运算,得到目标变量的步骤包括:
基于所述深度神经网络模型中的特征融合赋权参数分别确定所述融合特征中多个所述特征向量的融合权重;
基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量。
优选地,所述基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量的步骤包括:
基于各所述融合权重与各所述特征向量进行权重运算,得到融合特征向量;
对所述融合特征向量进行特征拼接,得到目标变量。
优选地,所述基于所述目标变量进行模型应用或机器学习的步骤包括:
基于所述目标变量与训练后的风险预测模型对所述目标用户进行风险预测,以根据风险预测结果生成所述目标用户的风险处理方案。
优选地,所述基于所述目标变量进行模型应用或机器学习的步骤还包括:
基于所述目标变量对待训练风险预测模型进行深度学习得到训练后的风险预测模型,以基于所述风险预测模型对目标用户进行风险预测并根据风险预测结果生成所述目标用户的风险处理方案。
为实现上述目的,本申请还提供一种数据处理装置,所述数据处理装置包括:
特征提取模块,用于获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;
特征融合模块,用于基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。
进一步地,为实现上述目的,本申请还提供一种数据处理设备,所述数据处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现上述的数据处理方法的步骤。
进一步地,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现上述的数据处理方法的步骤。
进一步地,为实现上述目的,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的数据处理方法的步骤。
本申请实施例提供一种数据处理方法、装置、设备及计算机可读存储介质,获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。本申请通过预训练的深度神经网络模型对基于用户行为数据提取的节点特征与边特征自动进行特征融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
附图说明
图1为本申请数据处理方法实施例方案涉及的硬件运行环境的结构示意图;
图2为本申请数据处理方法第一实施例的流程示意图;
图3为本申请数据处理方法第一实施例的场景示意图;
图4为本申请数据处理方法第二实施例的流程示意图;
图5为本申请数据处理装置较佳实施例的功能模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种数据处理方法、装置、设备及计算机可读存储介质,获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。本申请通过预训练的深度神经网络模型对基于用户行为数据提取的节点特征与边特征自动进行特征融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的数据处理设备结构示意图。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本申请实施例数据处理设备可以是PC,也可以是平板电脑、便携计算机等可移动式终端设备。
如图1所示,该数据处理设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的数据处理设备结构并不构成对数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序,并执行以下操作:
获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;
基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。
进一步地,所述基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量的步骤包括:
基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征;
对所述融合特征进行权重运算,得到目标变量。
进一步地,所述权重参数包括第一权重值、第二权重值与偏置,所述基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征的步骤包括:
基于训练后的神经网络模型中的所述第一权重值与所述节点特征进行第一预设运算,得到第一向量;
基于所述第二权重值与所述边特征进行第二预设运算,得到第二向量;
基于所述第一向量、所述第二向量与所述偏置进行第三预设运算,得到融合特征。
进一步地,所述融合特征包含多个特征向量,所述对所述融合特征进行权重运算,得到目标变量的步骤包括:
基于所述深度神经网络模型中的特征融合赋权参数分别确定所述融合特征中多个所述特征向量的融合权重;
基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量。
进一步地,所述基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量的步骤包括:
基于各所述融合权重与各所述特征向量进行权重运算,得到融合特征向量;
对所述融合特征向量进行特征拼接,得到目标变量。
进一步地,所述基于所述目标变量进行模型应用或机器学习的步骤包括:
基于所述目标变量与训练后的风险预测模型对所述目标用户进行风险预测,以根据风险预测结果生成所述目标用户的风险处理方案。
进一步地,所述基于所述目标变量进行模型应用或机器学习的步骤还包括:
基于所述目标变量对待训练风险预测模型进行深度学习得到训练后的风险预测模型,以基于所述风险预测模型对目标用户进行风险预测并根据风险预测结果生成所述目标用户的风险处理方案。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参照图2,本申请第一实施例提供一种数据处理方法的流程示意图。该实施例中,所述数据处理方法包括以下步骤:
步骤S10,获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;
本实施例中数据处理方法可以应用于服务器,服务器通过实施本实施例的数据处理方法,可以通过预训练的深度神经网络模型对基于用户行为数据提取的节点特征与边特征自动进行特征融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。例如本实施例中数据处理方法可以应用于信贷风险建模,具体可以为根据计算得到的目标变量对相应的用户进行信贷风险预测的模型训练以及进行信贷风险预测。
具体地,服务器将当前的用户确定为目标用户,并获取目标用户的行为数据,行为数据在本实施例中可以为用户行为流水数据,用户行为流水数据为人与节点之间进行交互产生的数据,因此获取的行为数据中包括人、节点以及边,其中人可以为用户,在本实施例中即为目标用户;节点为人因为某种原因和需求而发生关联的实物、人、虚拟概念等,例如APP(Application,应用程序)、机构(如银行)等;边即人与节点之间的关联动作,可以包括动作类型、发生和持续时间、动作量(如次数、天数、金额等)等。而本实施例中目标用户的行为数据可以包括若干条以客户-边-节点的形式存在的流水数据,如客户-点击-APP、客户-申请贷款-银行等。如一条以客户-边-节点的形式存在的数据可以为:客户最近一个月不同时段访问APP的次数流水信息,其中人即客户,APP为节点,边为不同时段点击次数,APP可以用数字序号代表(如用1代表APP1、2代表APP2、3代表APP3等)。
在获取到目标用户的行为数据后,***对行为数据进行特征提取,具体地,分别从行为数据中的各流水数据中提取节点特征与边特质,例如可以先从第一条流水数据中提取出一节点特征及一边特征,再从第二条流水数据中提取出一节点特征及一边特征,以此类推,直至提取出行为数据中所有流水数据的节点特征与边特征,其中,节点特征可以是任意的实体属性信息,包括人工的分类结果,或者是文本描述的emb(Embedding)表示,或者是节点网络结构的emb表示,也可以设定成可训练的参数,只要能表达节点的底层特征即可,可以根据具体问题灵活设定,例如节点特征可以为APP1属于A、B、C三个类别中的哪一类,Embedding是一个将离散变量转为连续向量表示的一个方式。边特征主要提取人和节点的交互信息,比如动作类型、动作时间、交互量,可以人工设计各种变量,或者作为可训练的emb参数,只要能反映边的底层特征即可,可以根据具体问题灵活设定,例如可以为对某类型APP的点击次数。通过自动从行为数据中提取出节点特征与边特征,以便于后续基于预训练的深度神经网络模型对节点特征与边特征进行特征融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
步骤S20,基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。
在完成行为数据的节点特征与边特征的提取后,***将提取到的节点特征与边特征输入至预训练的深度神经网络模型中,通过训练后的深度神经网络模型对输入的节点特征与边特征进行特征融合,最后输出包含行为数据中的最优信息的目标变量,其中,深度神经网络模型包含一种机器学习算法,深度神经网络模型包括输入层、隐藏层、输出层,每层包含若干神经元,相邻层之间的神经元有带权边连接得到,前向计算为预测过程,后向计算为训练过程,隐藏层中包含了输入与输出之间的线性关系,线性关系中包含了权重参数,同时隐藏层中还包含了对多条流水数据的融合特征对应的特征向量进行融合的特征融合赋权参数,融合特征参数可以为一个或多个,经不同融合特征参数可以得到不同主题的目标变量,训练过程对深度神经网络模型中初始化的权重参数进行优化使权重参数达到最优,以在预测过程中通过权重参数、特征融合赋权参数结合输入的行为数据进行预测,得到包含行为数据中最优信息的目标变量。可以理解地,本实施例中需要先分别将每一条流水数据对应的节点特征与边特征进行融合,再将融合后多条流水数据对应的特征向量进行融合,得到最终的向量作为目标变量。具体地,***根据训练后的深度神经网络模型中的权重参数对输入的节点特征与边特征进行特征融合,得到融合特征,再对融合特征进行权重运算,得到表征从多条流水数据中提取的最优信息的目标变量。在得到目标变量后,若流程只需要获取到行为数据中的最优信息,***可以将融合得到的目标变量输出,并结束当前的数据处理流程。若需要通过行为数据中的最优信息对模型中的预测网络或新的神经网络模型进行训练,***则将目标变量输入至相应的模型中进行机器学习。若需要通过行为数据中的最优信息对目标用户进行行为预测,***则将目标变量输入至预训练的预测模型中进行模型应用,以通过目标变量对目标用户进行行为预测,可以提高基于用户行为数据形成的变量的有效性。
可以理解地,本实施例中需要预先获取历史用户的历史行为数据及其对应的用户标签作为训练数据集,将训练数据集按照一定的比例(例如8:1:1)划分为训练集、测试集与验证集,再通过训练数据集对预先构建并初始化参数的深度神经网络模型进行训练,在训练完成后得到当前最优的深度神经网络模型。具体地,本实施例中深度神经网络模型的训练过程同监督学习过程,准备好训练样本的x和y,训练样本的x即每个历史客户的不定长行为流水,其中x包括节点和边的特征,y为每一历史客户对应的用户标签,输入变量x后,经过深度神经网络模型的框架处理后输出p值(即预测值),通过p值和y进行损失函数(lossfunction)的计算,并结合反向传播算法对框架中的参数(包括权重参数与特征融合赋权参数)进行计算,不断优化框架中的参数,并在经过若干轮次迭代后,得到深度神经网络模型的最终参数,此时深度神经网络模型训练完毕,可以对输入的节点特征与边特征进行特征融合以得到目标变量。
本实施例建立一个端到端的自动交互分类风险变量构建框架,可以将输入的流水数据和最终的风险预测建模目标直接关联起来,中间处理过程全部参数化处理,无需人工干预即可自动实现信息交互和分类,并提取对于区分目标最有效的信息,以便于根据用户的行为数据中的流水数据对该用户进行风险预测等。如图3所示,图3为本申请数据处理方法第一实施例的场景示意图,图3中先获取人与各节点之间交互的流水数据组成的行为数据,人即客户,点即节点,为人因为某种原因和需求而发生关联的实物、人、虚拟概念,例如图3中的多个点可以分别表示APP1、APP2、APP3、APP4,边为人与点之间的关联动作,例如可以为客户最近一个月不同时段访问APP的次数流水信息。进一步地,从行为数据的多条流水数据中提取点特征(即上述的节点特征)与边特征,其中每一条流水数据均提取出点特征与边特征,再将提取的点特征与边特征输入至预训练的share-DNN中,通过share-DNN中训练好的权重参数对输入的点特征和边特征进行自动交互,得到融合特征。进一步地,对融合特征进行自动赋权,具体地,通过特征融合赋权参数share-u以dot-product(向量点积)的方式分别与融合特征中的各特征向量计算得到融合权重α1、α2、α3、α4,再将融合权重作用到各特征向量上得到赋权特征向量,赋权特征向量相加后,得到赋权融合特征向量值,多个share-u可以得到多种赋权融合特征向量值,将其拼接后,得到目标变量。进一步地,可以将得到的目标变量经模型框架处理后得到p值,再根据p值和y进行损失函数(loss function)的计算,以对模型框架进行训练得到所需的模型,其中训练时使用loss(x,y)。
本实施例提供一种数据处理方法、装置、设备及计算机可读存储介质,获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。本申请通过预训练的深度神经网络模型对基于用户行为数据提取的节点特征与边特征自动进行特征融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
进一步地,参照图4,基于本申请数据处理方法的第一实施例,提出本申请数据处理方法的第二实施例,在第二实施例中,所述基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量的步骤包括:
步骤S21,基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征;
在从目标用户的行为数据中提取出节点特征与边特征后,***将提取的节点特征与边特征输入至预先经过训练的深度神经网络模型中,通过深度神经网络模型中经过训练的权重参数对输入的节点特征与边特征进行特征融合,以此得到节点特征与边特征的融合特征,具体为通过权重参数中与节点特征对应的权重值、与边特征对应的权重值、偏置等参数对节点特征与边特征进行特征融合,得到节点特征与边特征的融合特征。
步骤S22,对所述融合特征进行权重运算,得到目标变量。
进一步地,***通过深度神经网络模型中经过训练的特征融合赋权参数对融合特征中的各特征向量进行权重运算,为各特征向量分配权重后再进行融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
进一步地,所述基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征的步骤包括:
步骤S211,基于训练后的神经网络模型中的所述第一权重值与所述节点特征进行第一预设运算,得到第一向量;
步骤S212,基于所述第二权重值与所述边特征进行第二预设运算,得到第二向量;
步骤S213,基于所述第一向量、所述第二向量与所述偏置进行第三预设运算,得到融合特征。
在将提取的节点特征与边特征输入至预先经过训练的深度神经网络模型后,针对每一条流水数据对应的边特征与节点特征,***通过深度神经网络模型中训练后的第一权重值与节点特征对应的向量进行第一预设运算,具体地,根据第一权重值与节点特征对应的向量进行乘积运算,得到第一向量;同时通过深度神经网络模型中训练后的第二权重值与边特征对应的向量进行第二预设运算,具体地,根据第二权重值与边特征对应的向量进行乘积运算,得到第二向量;再将第一向量、第二向量与偏置进行第三预设运算,具体地,将第一向量与第二向量进行加和,将加和的结果与偏置进行差值运算,得到节点特征与边特征融合后的融合特征,其中差值运算得到的结果为当前流水数据对应的特征向量,由各流水数据的特征向量组成融合特征,第三预设运算可以包括加和运算与差值运算。例如:若训练后的权重参数中第一权重值为0.5,第二权重值为0.5,偏置为0.5,则当其中一条流水数据的节点特征为1、边特征为1时,融合特征中的一个特征向量即为:1*0.5+1*0.5-0.5=0.5。***多次执行上述对节点特征与边特征进行特征融合的过程,直至所有流水数据的节点特征与边特征均完成特征融合,得到由多个特征向量组成的融合特征,以便于后续将多个特征向量再进行融合,得到包含行为数据中的最优信息的目标变量,避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
可以理解地,***还需要通过激活函数对融合后的特征向量进行处理并输出特征向量,本实施例中激活函数可以为Sigmoid、Tanh、ReLU等。例如,本实施例中激活函数可以为ReLU,***通过ReLU对融合后的特征向量进行处理,具体地,若融合后的特征向量大于0,则将输入的特征向量直接输出作为该条流水数据的特征向量;若融合后的特征向量小于或等于0,则输出0作为该条流水数据的特征向量;在完成所有流水数据的处理后,得到由多个特征向量组成的融合特征。
进一步地,所述对所述融合特征进行权重运算,得到目标变量的步骤包括:
步骤S221,基于所述深度神经网络模型中的特征融合赋权参数分别确定所述融合特征的多个所述特征向量的融合权重;
步骤S222,基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量。
在基于预训练的深度神经网络模型的权重参数对节点特征与边特征进行特征融合并得到融合特征后,***通过深度神经网络模型中训练得到的特征融合赋权参数对融合特征中的多个特征向量进行自动赋权,得到各特征向量分别对应的融合权重,具体为将特征融合赋权参数分别与各特征向量输入至预设的用于进行特征赋权的公式中进行运算,运算得到的结果即为各特征向量分别对应的融合权重。其中,预设的用于进行特征赋权的公式如下公式所示:
Figure BDA0003252980160000121
其中,H为融合特征中的特征向量,μ为特征融合赋权参数,特征融合赋权参数可以为一个也可以为多个,
Figure BDA0003252980160000122
为第i个特征融合赋权参数,vi为第i个特征向量的融合权重。
例如,融合特征中3个融合得到的特征向量分别为a1=(0,1,1)、a2=(0,0,0)、a3=(1,1,0),特征融合赋权参数为μ=(1,1,0),μ和a1计算点积为1,a2计算点积为0,a3计算点积为2,则a1的融合权重α1为exp(1)/(exp(1)+exp(0)+exp(2))、a2的融合权重α2为exp(0)/(exp(1)+exp(0)+exp(2))、a3的融合权重α3为exp(2)/(exp(1)+exp(0)+exp(2))。可以理解地,经上述公式计算得到的融合权重为归一化后的权重。
进一步地,***再对融合特征中的各融合权重分别和与各融合权重对应的特征向量进行权重运算,其中每一融合权重对应于一个特征向量。并基于权重运算的结果进行特征拼接,得到包含行为数据中的最优信息的目标变量,避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
进一步地,所述基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量的步骤包括:
步骤S2221,基于各所述融合权重与各所述特征向量进行权重运算,得到融合特征向量;
步骤S2222,对所述融合特征向量进行特征拼接,得到目标变量。
在基于深度神经网络模型中的特征融合赋权参数分别确定融合特征的多个特征向量的融合权重后,每一融合权重都有一个一一对应的特征向量,***将各融合权重分别与各融合权重一一对应的特征向量进行乘积运算,分别得到各特征向量的融合特征向量值,例如将上述的特征向量a1与其对应的融合权重α1进行运算,得到融合特征向量值α1*a1;将特征向量a2与其对应的融合权重α2进行运算,得到融合特征向量值α2*a2,以及将特征向量a3与其对应的融合权重α3进行运算,得到融合特征向量值α3*a3,并由多个融合特征向量值形成融合特征向量,再分别对融合特征向量中的各融合特征向量值进行特征拼接,得到目标变量。具体参照如下公式对各融合特征向量值进行特征拼接,得到目标变量:
v=concati(v0,...,vi,...,vk);
其中,v为目标变量,即将K个融合特征向量值拼接到一起后的结果;v0,v1,...,vi,...,vk为归一化后的各向量;concat为对各融合特征向量值进行拼接。
例如,根据上述公式对融合特征向量值α1*a1、融合特征向量值α2*a2以及融合特征向量值α3*a3进行特征拼接,得到目标变量α1*a1+α2*a2+α3*a3。
本实施例通过预训练的深度神经网络模型中的权重参数,对基于用户行为数据提取的节点特征与边特征自动进行特征融合,得到包含行为数据中的最优信息的目标变量,可以避免人工处理数据时的局限性,以便于根据目标变量进行模型应用或机器学习,提高基于用户行为数据形成的变量的有效性。
进一步地,基于本申请数据处理方法的第一实施例,提出本申请数据处理方法的第三实施例,在第三实施例中,所述基于所述目标变量进行模型应用或机器学习的步骤包括:
步骤A,基于所述目标变量与训练后的风险预测模型对所述目标用户进行风险预测,以根据风险预测结果生成所述目标用户的风险处理方案。
在基于预训练的深度神经网络模型对节点特征与边特征进行特征融合并得到目标变量后,若具有预测需求,***可以将得到的目标变量输入至经过预训练的预测模型进行预测,本实施例中具体可以将目标变量输入至训练后的风险预测模型,由风险预测模型根据输入的目标变量结合其训练得到的参数对目标用户进行风险预测,对目标用户是否会开户、首借、逾期等进行预测,输出风险预测结果,以便于根据输出的风险预测结果生成对目标用户的风险处理方案,例如目标用户可能不会进行开户,则设置开户的激励措施;若用户可能会逾期,则降低该用户的贷款额度等。其中风险预测模型可以与本实施例中的深度神经网络模型同时训练,也可以单独进行训练,训练过程同监督学习过程,其目的是为了使得风险预测模型具有最优风险预测效果,在此不进行赘述。根据预训练的深度神经网络模型对节点特征与边特征进行特征融合得到的目标变量对目标用户进行风险预测,可以提高风险预测模型的预测结果的准确度。
进一步地,所述基于所述目标变量进行模型应用或机器学习的步骤还包括:
步骤B,基于所述目标变量对待训练风险预测模型进行深度学习得到训练后的风险预测模型,以基于所述风险预测模型对目标用户进行风险预测并根据风险预测结果生成所述目标用户的风险处理方案。
在基于预训练的深度神经网络模型对节点特征与边特征进行特征融合并得到目标变量后,若具有模型训练需求,***可以将得到的目标变量输入至根据场景预先构建的待训练模型中进行深度学习,即通过目标变量对待训练模型进行训练,以对待训练模型中的参数进行优化,进一步使待训练模型的预测效果达到最优。具体地,本实施例中***可以将目标变量输入至待训练风险预测模型中进行深度学习,通过目标变量对待训练风险预测模型进行训练,以对待训练风险预测模型中的参数进行优化,进一步使训练后的风险预测模型的预测效果达到最优,通过本实施例中的目标变量对风险预测模型进行训练,可以提高风险预测模型的训练效果与效率,降低训练过程的工作量。并在完成风险预测模型的训练后,通过本实施例中融合得到的目标变量或其他输入数据对目标用户进行风险预测,并输出风险预测结果,以便于根据输出的风险预测结果生成对目标用户的风险处理方案,例如目标用户可能不会进行开户,则设置开户的激励措施;若用户可能会逾期,则降低该用户的贷款额度等。
本实施例在基于预训练的深度神经网络模型对节点特征与边特征进行特征融合并得到目标变量后,可以通过目标变量进行模型应用或机器学习,以提高机器学习的效率以及训练效果,或提高模型预测的准确度。
进一步地,本申请还提供一种数据处理装置。
参照图5,图5为本申请数据处理装置第一实施例的功能模块示意图。
所述数据处理装置包括:
特征提取模块10,用于获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;
特征融合模块20,用于基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。
此外,本申请还提供一种计算机可读存储介质,其上存储有数据处理程序,所述数据处理程序被处理器执行时实现上述数据处理方法各实施例的步骤。
此外,本申请还可以提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法各实施例的步骤。
在本申请数据处理设备、计算机可读介质和计算机程序产品的实施例中,包含了上述数据处理方法各实施例的全部技术特征,说明和解释内容与上述数据处理方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是固定终端,如物联网智能设备,包括智能空调、智能电灯、智能电源、智能路由器等智能家居;也可以是移动终端,包括智能手机、可穿戴的联网AR/VR装置、智能音箱、自动驾驶汽车等诸多联网设备)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,所述数据处理方法包括:
获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;
基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。
2.如权利要求1所述的数据处理方法,其特征在于,所述基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量的步骤包括:
基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征;
对所述融合特征进行权重运算,得到目标变量。
3.如权利要求2所述的数据处理方法,其特征在于,所述权重参数包括第一权重值、第二权重值与偏置,所述基于预训练的深度神经网络模型的权重参数对所述节点特征与所述边特征进行特征融合,得到融合特征的步骤包括:
基于训练后的神经网络模型中的所述第一权重值与所述节点特征进行第一预设运算,得到第一向量;
基于所述第二权重值与所述边特征进行第二预设运算,得到第二向量;
基于所述第一向量、所述第二向量与所述偏置进行第三预设运算,得到融合特征。
4.如权利要求2所述的数据处理方法,其特征在于,所述融合特征包含多个特征向量,所述对所述融合特征进行权重运算,得到目标变量的步骤包括:
基于所述深度神经网络模型中的特征融合赋权参数分别确定所述融合特征中多个所述特征向量的融合权重;
基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量。
5.如权利要求4所述的数据处理方法,其特征在于,所述基于所述融合特征的融合权重与对应的特征向量进行权重运算,得到目标变量的步骤包括:
基于各所述融合权重与各所述特征向量进行权重运算,得到融合特征向量;
对所述融合特征向量进行特征拼接,得到目标变量。
6.如权利要求1所述的数据处理方法,其特征在于,所述基于所述目标变量进行模型应用的步骤包括:
基于所述目标变量与训练后的风险预测模型对所述目标用户进行风险预测,以根据风险预测结果生成所述目标用户的风险处理方案。
7.如权利要求1所述的数据处理方法,其特征在于,所述基于所述目标变量进行机器学习的步骤包括:
基于所述目标变量对待训练风险预测模型进行深度学习得到训练后的风险预测模型,以基于所述风险预测模型对目标用户进行风险预测并根据风险预测结果生成所述目标用户的风险处理方案。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
特征提取模块,用于获取目标用户的行为数据,提取所述行为数据的节点特征与边特征;
特征融合模块,用于基于预训练的深度神经网络模型对所述节点特征与所述边特征进行特征融合,得到目标变量,以基于所述目标变量进行模型应用或机器学习。
9.一种数据处理设备,其特征在于,所述数据处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1-7中任一项所述的数据处理方法的步骤。
CN202111053251.2A 2021-09-08 2021-09-08 数据处理方法、装置、设备及计算机可读存储介质 Pending CN113673687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111053251.2A CN113673687A (zh) 2021-09-08 2021-09-08 数据处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111053251.2A CN113673687A (zh) 2021-09-08 2021-09-08 数据处理方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113673687A true CN113673687A (zh) 2021-11-19

Family

ID=78548874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111053251.2A Pending CN113673687A (zh) 2021-09-08 2021-09-08 数据处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113673687A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708109A (zh) * 2022-03-01 2022-07-05 上海钐昆网络科技有限公司 风险识别模型的训练方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708109A (zh) * 2022-03-01 2022-07-05 上海钐昆网络科技有限公司 风险识别模型的训练方法、装置、设备及存储介质
CN114708109B (zh) * 2022-03-01 2022-11-11 上海钐昆网络科技有限公司 风险识别模型的训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US20210264272A1 (en) Training method and system of neural network model and prediction method and system
CN112270547A (zh) 基于特征构造的金融风险评估方法、装置和电子设备
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN110032551B (zh) 模型生成***、方法及预测***
CN112925911B (zh) 基于多模态数据的投诉分类方法及其相关设备
US11151322B2 (en) Computer-implemented method, system and computer program product for providing an application interface
US20230043882A1 (en) Method for assisting launch of machine learning model
CN112036954A (zh) 物品推荐方法和装置、计算机可读存储介质、电子设备
CN115018190A (zh) 逾期行为预测方法及装置、存储介质及电子设备
CN112328869A (zh) 一种用户贷款意愿的预测方法、装置及计算机***
CN117608650B (zh) 业务流程图生成方法、处理设备及存储介质
CN113673687A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN113034168A (zh) 内容项投放方法、装置、计算机设备及存储介质
CN114330837A (zh) 对象处理方法、装置、计算机设备和存储介质
Mahalingam et al. Predicting financial savings decisions using sigmoid function and information gain ratio
CN110717537B (zh) 训练用户分类模型、执行用户分类预测的方法及装置
CN116578400A (zh) 多任务数据处理方法和装置
CN114742645B (zh) 基于多阶段时序多任务的用户安全等级识别方法及装置
CN112712695B (zh) 一种交通流预测方法、装置及存储介质
CN112529624B (zh) 生成业务预测模型的方法、装置、设备以及存储介质
CN115098698A (zh) 一种构建知识图谱中Schema模型的方法及装置
CN113706298A (zh) 一种延期业务处理方法及装置
CN115203516A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN113688222A (zh) 基于上下文语义理解的保险销售任务话术推荐方法、***以及设备
CN111178535A (zh) 实现自动机器学习的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination