CN109977151A - 一种数据分析方法及*** - Google Patents

一种数据分析方法及*** Download PDF

Info

Publication number
CN109977151A
CN109977151A CN201910245141.2A CN201910245141A CN109977151A CN 109977151 A CN109977151 A CN 109977151A CN 201910245141 A CN201910245141 A CN 201910245141A CN 109977151 A CN109977151 A CN 109977151A
Authority
CN
China
Prior art keywords
feature
derivative
business
essential characteristic
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910245141.2A
Other languages
English (en)
Other versions
CN109977151B (zh
Inventor
张帆
路明奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nine Chapter Yunji Technology Co Ltd Beijing
Original Assignee
Nine Chapter Yunji Technology Co Ltd Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nine Chapter Yunji Technology Co Ltd Beijing filed Critical Nine Chapter Yunji Technology Co Ltd Beijing
Priority to CN201910245141.2A priority Critical patent/CN109977151B/zh
Publication of CN109977151A publication Critical patent/CN109977151A/zh
Application granted granted Critical
Publication of CN109977151B publication Critical patent/CN109977151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据分析方法及***,涉及数据分析领域。该数据分析方法,包括:基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式;根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征;根据所述衍生特征创建业务模型,以执行分析处理操作。上述方案,可以提高业务模型与业务场景和业务需求的契合度,提高数据分析的准确度。

Description

一种数据分析方法及***
技术领域
本发明涉及数据分析领域,特别涉及一种数据分析方法及***。
背景技术
现有的数据分析***,为了提高数据分析结果的准确性,需要针对不同的业务场景和需求训练专门的业务模型,但是现有的业务模型与所述业务场景和业务需求的契合度并不高,无法提高数据分析的准确度。
发明内容
本发明实施例提供一种数据分析方法及***,以解决但是现有的业务模型与业务场景和业务需求的契合度并不高,无法提高数据分析的准确度的问题。
为了解决上述技术问题,本发明实施例提供一种数据分析方法,包括:
基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式;
根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征;
根据所述衍生特征创建业务模型,以执行分析处理操作。
具体地,所述特征衍生方式包括下述至少之一:基于业务目标衍生、基于深度学习衍生、基于特征组合衍生、基于时间变量衍生、基于决策树模型衍生及基于数值转换衍生。
可选地,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
基于业务场景和业务目标,获取与所述业务场景对应的业务经验数据;
根据所述业务经验数据,通过所述基本特征构造与所述业务目标相关的特征,得到衍生特征。
可选地,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
通过稀疏自编码算法、因子分解机算法和深度交叉神经网络算法中的至少之一,对所述基本特征进行深度学习,获取衍生特征。
进一步地,当通过所述稀疏自编码算法对所述基本特征进行深度学习时,所述获取衍生特征,包括:
将所述基本特征输入到稀疏自编码神经网络中,获取所述稀疏自编码神经网络的隐藏层的各单元的激活值组成的向量,将所述向量作为衍生特征。
进一步地,当通过所述因子分解机算法对所述基本特征进行深度学习时,所述获取衍生特征,包括:
获取基于运行所述因子分解机算法模型引入的交叉特征,将所述交叉特征确定为衍生特征。
进一步地,当通过所述深度交叉神经网络算法对所述基本特征进行深度学习时,所述获取衍生特征,包括:
将所述基本特征输入深度交叉神经网络,分别通过交叉网络和深度网络得到第一输入结果和第二输入结果,将所述第一输入结果和第二输入结果进行组合,得到最终的衍生特征。
可选地,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
将所述基本特征进行特征组合,得到衍生特征;
其中,所述特征组合的方式包括:采用多项式的方式、采用数学运算的方式和采用聚合函数的方式中的至少一项。
进一步地,当所述特征组合的方式包括采用多项式的方式时,所述得到衍生特征,包括:
将所述基本特征根据预设度数生成新的特征矩阵,将特征矩阵中每一个组成元素作为一个衍生特征。
进一步地,当所述特征组合的方式包括采用数学运算的方式时,所述得到衍生特征,包括:
利用数据运算规则对所述基本特征进行运算,得到衍生特征;
其中,数据运算规则包括:加法运算、减法运算、乘法运算和除法运算中的至少一项。
进一步地,当所述特征组合的方式包括采用聚合函数的方式时,所述得到衍生特征,包括:
将聚合函数应用于连续变量和离散变量中,生成衍生特征;
其中,所述聚合函数包括:统计个数、均值、求和、最小值、最大值、标准差、中位数、众数、连续事件之间的平均时间、类别型变量不同取值个数、取值为预设值的百分比、偏度和峰度中的至少一项。
进一步地,所述将聚合函数应用于连续变量和离散变量中,生成衍生特征,包括以下方式中的至少一项:
针对数值型变量,采用第一预设聚合函数对主键进行聚合,得到衍生特征;
针对类别型变量,使用第二预设聚合函数对主键进行聚合,得到衍生特征;
其中,所述第一预设聚合函数至少包括:统计个数函数、均值函数、求和函数、最小值函数和最大值函数;
所述第二预设聚合函数至少包括:统计个数函数、均值函数和求和函数。
可选地,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
构造特征衍生函数,结合确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征。
可选地,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括以下至少一项:
基于基本特征之间的关联关系,对一个基本特征衍生多层深度变量,得到衍生特征;
基于所述基本特征的兴趣指标利用深度特征合成的方式,生成衍生特征。
可选地,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
获取所述基本特征中的时间戳变量;
根据所述时间戳变量,生成衍生特征。
进一步地,所述根据所述时间戳变量,生成衍生特征,包括以下方式中的至少一项:
对所述时间戳变量进行不同时间维度的提取,获取衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,将所述滑动窗口衍生变量除以当前时间的指标值得到比值衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的统计类衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的各统计类衍生特征,将所述各统计类衍生特征除以当前时间的指标值得到衍生特征;
基于当前时间与第一时刻的差值获取差分特征,获取针对所述差分特征的滑动窗口衍生变量,所述当前时间晚于所述第一时刻;
其中,获取针对所述时间戳变量的滑动窗口衍生变量的方式为:
基于时间戳变量中的当前时间,按照预设时间窗口滑动,生成相对于当前时间的n个滑动窗口衍生变量,n为预设时间窗口的长度。
可选地,所述根据所述基本特征进行特征衍生,获取衍生特征,包括:
依据进行数据分析处理的业务目标,构建针对所述基本特征的梯度提升决策树模型;
基于所述梯度提升决策树模型将所述基本特征进行组合,得到相应的衍生特征。
可选地,所述根据所述基本特征进行特征衍生,获取衍生特征,包括:
将所述基本特征中的类别型特征转换为数值型特征,将所述数值型特征作为衍生特征;
其中,所述类别型特征包括:类别取值范围小于或等于预设值的特征。
进一步地,将所述类别型特征转换为数值型特征的方式包括:序号编码、独热编码、二进制编码和对比性编码中的至少一项。
可选地,所述根据所述衍生特征创建业务模型,以执行分析处理操作,包括:
对所述衍生特征进行特征筛选,得到筛选后的目标特征;
根据所述目标特征创建业务模型,以运行所述业务模型执行分析处理操作。
本发明实施例提供一种数据分析***,包括:
确定模块,用于基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式;
获取模块,用于根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征;
执行模块,用于根据所述衍生特征创建业务模型,以执行分析处理操作。
具体地,所述特征衍生方式包括下述至少之一:基于业务目标衍生、基于深度学习衍生、基于特征组合衍生、基于时间变量衍生、基于决策树模型衍生及基于数值转换衍生。
可选地,所述获取模块,包括:
第一获取单元,用于基于业务场景和业务目标,获取与所述业务场景对应的业务经验数据;
第二获取单元,用于根据所述业务经验数据,通过所述基本特征构造与所述业务目标相关的特征,得到衍生特征。
可选地,所述获取模块,用于:
通过稀疏自编码算法、因子分解机算法和深度交叉神经网络算法中的至少之一,对所述基本特征进行深度学习,获取衍生特征。
进一步地,当所述获取模块通过稀疏自编码算法对所述基本特征进行深度学习时,所述获取模块,用于:
将所述基本特征输入到稀疏自编码神经网络中,获取所述稀疏自编码神经网络的隐藏层的各单元的激活值组成的向量,将所述向量作为衍生特征。
进一步地,当所述获取模块通过因子分解机算法对所述基本特征进行深度学习时,所述获取模块,用于:
获取基于运行所述因子分解机算法模型引入的交叉特征,将所述交叉特征确定为衍生特征。
进一步地,当所述获取模块通过深度交叉神经网络算法对所述基本特征进行深度学习时,所述获取模块,用于:
将所述基本特征输入深度交叉神经网络,分别通过交叉网络和深度网络得到第一输入结果和第二输入结果,将所述第一输入结果和第二输入结果进行组合,得到最终的衍生特征。
可选地,所述获取模块,用于:
将所述基本特征进行特征组合,得到衍生特征;
其中,所述特征组合的方式包括:采用多项式的方式、采用数学运算的方式和采用聚合函数的方式中的至少一项。
进一步地,当所述特征组合的方式包括采用多项式的方式时,所述获取模块,用于:
将所述基本特征根据预设度数生成新的特征矩阵,将特征矩阵中每一个组成元素作为一个衍生特征。
进一步地,当所述特征组合的方式包括采用数学运算的方式时,所述获取模块,用于:
利用数据运算规则对所述基本特征进行运算,得到衍生特征;
其中,数据运算规则包括:加法运算、减法运算、乘法运算和除法运算中的至少一项。
进一步地,当所述特征组合的方式包括采用聚合函数的方式时,所述获取模块,包括:
第三获取单元,用于将聚合函数应用于连续变量和离散变量中,生成衍生特征;
其中,所述聚合函数包括:统计个数、均值、求和、最小值、最大值、标准差、中位数、众数、连续事件之间的平均时间、类别型变量不同取值个数、取值为预设值的百分比、偏度和峰度中的至少一项。
进一步地,所述第三获取单元,用于实现以下方式中的至少一项:
针对数值型变量,采用第一预设聚合函数对主键进行聚合,得到衍生特征;
针对类别型变量,使用第二预设聚合函数对主键进行聚合,得到衍生特征;
其中,所述第一预设聚合函数至少包括:统计个数函数、均值函数、求和函数、最小值函数和最大值函数;
所述第二预设聚合函数至少包括:统计个数函数、均值函数和求和函数。
可选地,所述获取模块,用于:
构造特征衍生函数,结合确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征。
可选地,所述获取模块,用于实现以下方式中的至少一项:
基于基本特征之间的关联关系,对一个基本特征衍生多层深度变量,得到衍生特征;
基于所述基本特征的兴趣指标利用深度特征合成的方式,生成衍生特征。
可选地,所述获取模块,包括:
第四获取单元,用于获取所述基本特征中的时间戳变量;
生成单元,用于根据所述时间戳变量,生成衍生特征。
进一步地,所述生成单元,用于实现以下方式中的至少一项:
对所述时间戳变量进行不同时间维度的提取,获取衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,将所述滑动窗口衍生变量除以当前时间的指标值得到比值衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的统计类衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的各统计类衍生特征,将所述各统计类衍生特征除以当前时间的指标值得到衍生特征;
基于当前时间与第一时刻的差值获取差分特征,获取针对所述差分特征的滑动窗口衍生变量,所述当前时间晚于所述第一时刻;
其中,获取针对所述时间戳变量的滑动窗口衍生变量的方式为:
基于时间戳变量中的当前时间,按照预设时间窗口滑动,生成相对于当前时间的n个滑动窗口衍生变量,n为预设时间窗口的长度。
可选地,所述获取模块,包括:
构建单元,用于依据进行数据分析处理的业务目标,构建针对所述基本特征的梯度提升决策树模型;
第五获取单元,用于基于所述梯度提升决策树模型将所述基本特征进行组合,得到相应的衍生特征。
可选地,所述获取模块,用于:
将所述基本特征中的类别型特征转换为数值型特征,将所述数值型特征作为衍生特征;
其中,所述类别型特征包括:类别取值范围小于或等于预设值的特征。
进一步地,将所述类别型特征转换为数值型特征的方式包括:序号编码、独热编码、二进制编码和对比性编码中的至少一项。
可选地,所述执行模块,包括:
筛选单元,用于对所述衍生特征进行特征筛选,得到筛选后的目标特征;
执行单元,用于根据所述目标特征创建业务模型,以运行所述业务模型执行分析处理操作。
本发明实施例提供一种数据分析***,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时实现上述的数据分析方法中的步骤。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的数据分析方法中的步骤。
本发明的有益效果是:
上述方案,通过基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式,根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,然后再基于该衍生特征创建业务模型,以执行分析处理操作,可以提高业务模型与业务场景和业务需求的契合度,提高数据分析的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明一实施例提供的数据分析方法的流程图;
图2表示深度交叉神经网络的模型示意图;
图3表示点击预测问题下的梯度提升决策树示意图;
图4表示本发明一实施例提供的数据分析***的模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1是本发明一实施例提供的数据分析方法的流程图,该数据分析方法,应用于数据分析***,包括:
步骤11,基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式;
步骤12,根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征;
步骤13,根据所述衍生特征创建业务模型,以执行分析处理操作。
需要说明的是,衍生特征是指用原始数据进行特征学习得到新的特征。衍生特征一般有两种原因引起:数据自身的变化,使数据中出现很多原来没有的特征;进行特征学习时,算法根据特征之间的某种关系,产生了衍生特征,有时衍生特征更能反应数据特征之间的关系。
特征衍生可基于APS(基于工作流的数据分析***)中创建的预置模块(公共分析模块)来实现,例如预置一特征衍生模块,在利用工作流训练业务模型时,可以基于该特征衍生模块实现特征工程中的特征衍生,以生成更多的强相关特征。
现有的模型训练过程一般包括“数据处理→特征工程→算法选择→参数调优→算法评估”,所述特征工程包括特征衍生和特征筛选,下面分别从不同的特征衍生方式的角度对如何得到衍生特征进行具体说明如下。
需要说明的是,该特征衍生方式包括下述至少之一:基于业务目标衍生、基于深度学习衍生、基于特征组合衍生、基于时间变量衍生、基于决策树模型衍生及基于数值转换衍生。
一、基于业务目标衍生的方式
具体地,在此种情况下,步骤12的具体实现方式为:
基于业务场景和业务目标,获取与所述业务场景对应的业务经验数据;
根据所述业务经验数据,通过所述基本特征构造与所述业务目标相关的特征,得到衍生特征。
需要说明的是,与所述业务目标相关的特征指的是与业务目标强相关的特征,所谓强相关的特征指的是与业务目标相关度达到预设值的特征。
需要说明的是,此种方式一般是针对特定领域、特定业务,凭借相关领域经验构造出与数据分析处理的业务目标强相关的特征,以便对业务模型效果(准确性)有显著提升。
具体的,基于业务经验数据将业务特征量化,以影响最终的结果,也就是针对要解决的业务目标问题,基于基本特征确定哪些新特征(衍生特征)有助于解决业务目标所针对的问题,所述新特征(衍生特征)与要解决的问题强相关。
基本特征与衍生特征的关系:衍生特征是为了解决业务目标的问题生成的自定义特征,也即根据业务含义衍生的特征;而基本特征是已经存在的数据信息,不需要过多处理。
所述进行数据分析处理的业务目标可以是客户流失预测、银行异常交易预警、信贷违约预测、金融产品智能推荐、保险理赔额度预测、***逾期客户预测等。
1、基于客户流失预测的特征衍生
进行银行客户流失预测的目的在于找到有可能流失的客户的流失概率。通过关注高流失概率的客户的需求,持续维护与客户的关系,从而挽留客户以改善客户的流失问题。其中,关注的客户群是高资产的客户,其资产包括存款、理财等。
通常需要根据领域知识构建影响客户流失的相关衍生特征,也即基于经验数据及目标问题自定义衍生特征,无需构建衍生模型,得到最终的衍生特征,例如,最终得到的衍生特征可以为:未来3个月理财产品到期金额、累计购买定期次数、累计购买定期金额、累计贷款次数、累计贷款金额、累计购买理财次数、累计购买理财金额、最近3个月购买理财产品次数、最近3个月购买理财产品金额、最近3个月购买定期产品次数、最近3个月购买定期产品金额;客户交易行为包括,本月交易笔数、本月交易金额、最后一次交易金额、最近3个月交易笔数、最近第4个月至第6个月交易笔数、最近第7个月至第9个月交易笔数、最近第10个月至第12个月交易笔数、最近3个月月平均交易金额、最近第4个月至第6个月月平均交易金额、最近第7个月至第9个月月平均交易金额、最近第10个月至第12个月月平均交易金额、最后一次交易金额、最近3个月网上银行交易次数、最近3个月网上银行交易金额、最近3个月手机银行交易次数、最近3个月手机银行交易金额、最近3个月第三方交易次数、最近3个月第三方交易金额、最近6个月网上银行交易次数、最近6个月网上银行交易金额、最近6个月手机银行交易次数、最近6个月手机银行交易金额、最近6个月第三方交易次数、最近6个月第三方交易金额、最近一年网上银行交易次数、最近一年网上银行交易金额、最近一年手机银行交易次数、最近一年手机银行交易金额、最近一年第三方交易次数、最近一年第三方交易金额等
2、基于银行异常交易预警的特征衍生
例如,在不同场景下,基于交易的上下文(如果设定一个规则,如判断过去24小时实时交易中,所有满足开户、销户且转出超过10W的账号为非法账号,那这里单纯看一笔交易没任何意义,必须基于账号观察24小时内的交易流水,这就是交易上下文),需要用到不同的规则来判断是否异常,例如,在双十一等交易高峰时段,***自动调整规则,提高判断阈值,一定的交易频率和额度,在常规时段会被判断为异常的,在交易高峰时段不会被判断为异常。其中,通过机器学习自动调整规则,例如,基于数据集的动态变化,一分钟之内交易多少笔属于异常,不同的时间段,判断规则不同。
3、基于信贷违约预测的特征衍生
违约信贷场景是基于客户的申请信息、之前在当前贷款机构的申请信息、之前在其它贷款机构的申请信息、分期付款信息、***交易信息、现金贷交易信息来预测客户是否会对当前贷款进行违约,上述信息可视为基于违约信贷场景确定的基本特征。
例如,在此种情况下,通过确定的特征衍生方式对上述基本特征进行衍生得到的衍生特征为:CREDIT_INCOME_PERCENT(信贷金额相对于客户收入占比)、ANNUITY_INCOME_PERCENT(每月分期还款金额相对于客户收入比例)、CREDIT_TERM(每月分期还款金额相对于信贷金额占比)、DAYS_EMPLOYED_PERCENT(客户工作天数相对于客户年龄占比)、INCOME_PER_PERSION(每月家庭成员的平均收入金额)、APP_CREDIT_PERC(申请金额相对于实际信贷金额占比)、PAYMENR_PERC(客户在该期分期中实际付款金额相对于应付金额占比)
4、***逾期客户预测
在该场景中,基本特征包括如身份特征、跨境交易统计、消费稳定性等,计算和衍生上述基本特征的方式如下:
例1,得到身份特征类中的“是否结婚”的衍生特征的计算和衍生逻辑如下:
基于持卡人在母婴类的消费、婚恋行业的消费判断婚姻状态,分为已经结婚、有可能结婚,判断如下:
已经结婚:在童装、母婴商户消费年消费笔数大于5次;小学、少儿辅导机构消费过;中学、少儿商业场所消费过;
有可能结婚:婚介、婚恋网站、婚纱、婚庆、钻石类商户消费过,且单笔大于1000元。
例2,得到跨境交易统计类中的“近一个月外交易币种数”的衍生特征的计算和衍生逻辑如下:
持卡人交易的外币种类(人民币之外的币种),输出外币种类数量。
例3,得到消费稳定性类中的“最长交易天数间隔”的衍生特征的计算和衍生逻辑如下:
过滤单笔金额>50,且月交易笔数大于2的所有交易后,统计持卡人近12月两笔消费间隔的最长天数。
消费稳定性类中的“最常用的交易渠道类型”的特征的计算和衍生逻辑如下:最常用的交易发起方式,如电脑、手机、POS机、ATM等。
二、基于深度学习衍生的方式
具体地,在此种情况下,步骤12的具体实现方式为:
通过稀疏自编码算法、因子分解机算法和深度交叉神经网络算法中的至少之一,对所述基本特征进行深度学习,获取衍生特征。
因采用不同的算法的实现方式不同,下面分别从不同算法的角度对步骤12的具体实现方式进行说明如下。
1、通过稀疏自编码算法对基本特征进行深度学习
在此种情况下,步骤12的具体实现方式为:
将所述基本特征输入到稀疏自编码神经网络中,获取所述稀疏自编码神经网络的隐藏层的各单元的激活值组成的向量,将所述向量作为衍生特征。
需要说明的是,此种方式指的是,将新的特征x输入到训练好的稀疏自编码神经网络中,隐藏层各单元的激活值组成的向量a就可以代表x(因为根据稀疏自编码,可以根据a来恢复x),也就是说a是x在新的特征(即衍生特征)下的特征值。
2、通过因子分解机算法对基本特征进行深度学习
在此种情况下,步骤12的具体实现方式为:
获取基于运行所述因子分解机算法模型引入的交叉特征,将所述交叉特征确定为衍生特征。
需要说明的是,因子分解机解决了在数据稀疏的情况下,特征怎样组合的问题。以广告点击预测为例,在实际过程当中,由于有的类别型变量特征维度(国别/日期/广告类型)会非常大,如果采用One-Hot编码会很容易产生维度***的问题。而因子分解机就是在LR(逻辑回归)模型的基础上,引入交叉项,能够高效的学习特征之间的相互关系,对于稀疏的数据有良好的表达能力。
具体地,算法如公式一所示。
公式一、
其中,y为预测的业务目标;W0为权重值误差;Wi为第i个特征的权重值;Xi为第i个特征;n为特征的个数;<Vi,Vj>为交叉项权重值。
3、通过深度交叉(Deep Cross)神经网络算法对基本特征进行深度学习
在此种情况下,步骤12的具体实现方式为:
将所述基本特征输入深度交叉神经网络,分别通过交叉网络和深度网络得到第一输入结果和第二输入结果,将所述第一输入结果和第二输入结果进行组合,得到最终的衍生特征。
需要说明的是,此种方式指的是,从嵌入层(Embedding Layer)和堆积层(Stacking Layer)开始,接着是一个交叉网络(Cross Network)和与之平行的深度网络(Deep Network),最后是结合两个网络输出的组合层(Combination Output Layer)。DCN(深度交叉神经网络)组合特征的思想是体现在交叉网络中,从图2可以看到,交叉网络的特征结构使交叉特征的程度随着深度的增加而增加。但交叉网络的某些参数限制了模型的容量,为了捕捉高度非线性的相互作用,模型引入了一个并行的深度网络。
三、基于特征组合衍生的方式
具体地,在此种情况下,步骤12的具体实现方式为:
将所述基本特征进行特征组合,得到衍生特征;
其中,所述特征组合的方式包括:采用多项式的方式、采用数学运算的方式和采用聚合函数的方式中的至少一项。
因采用的特征组合的方式不同,步骤12的具体实现方式也不同,下面分别从不同特征组合的方式的角度对步骤12的具体实现方式进行说明如下。
1、特征组合的方式包括采用多项式的方式
在此种情况下,步骤12的具体实现方式为:
将所述基本特征根据预设度数生成新的特征矩阵,将特征矩阵中每一个组成元素作为一个衍生特征。
需要说明的是,构建多项式特征的过程往往是根据指定度数(即上述的预设度数,例如,为2度)生成一个新的特征矩阵,该特征矩阵由特征的所有多项式组合构成。例如,如果输入的样本是二维的,并且是[a,b]的形式,那么2度多项式特征矩阵为[1,a,b,a^2,b^2,ab]。其中ab这样由多个特征组合形成的特征称为交互特征(interaction features),因为它们能捕捉变量之间的交互关系。在某种情景下,单个特征本身可能对目标变量没有很大的影响,但这些单个特征形成的交互特征却可能跟目标变量有较强的相关性。
一阶离散特征的两两组合:为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。以广告点击预估问题为例,如下表1所示,原始数据有语言(中文/英文)和类型(电影/电视剧)两种离散特征,为了提高拟合能力,语言和类型可以组成二阶特征,例如“语言=中文类型=电影”可以作为一个单独的特征。但在推荐问题下,用户数量和物品数量都可以达到千万量级,这时对用户ID和物品ID进行两两组合会产生维度的***,我们需要将用户和物品分别用k维的低维向量表示,然后再进行组合。
表1广告点击预估问题中的衍生特征
2、特征组合的方式包括采用数学运算的方式
在此种情况下,步骤12的具体实现方式为:
利用数据运算规则对所述基本特征进行运算,得到衍生特征;
具体地,数据运算规则包括:加法运算、减法运算、乘法运算和除法运算中的至少一项。
此种方式指的是利用加法、减法、乘法和除法对基本特征进行数学运算,得到新的衍生特征。
3、特征组合的方式包括采用聚合函数的方式
在此种情况下,步骤12的具体实现方式为:
将聚合函数应用于连续变量和离散变量中,生成衍生特征;
其中,所述聚合函数包括:统计个数、均值、求和、最小值、最大值、标准差、中位数、众数、连续事件之间的平均时间、类别型变量不同取值个数、取值为预设值的百分比(例如取值为True的百分比)、偏度和峰度中的至少一项。
通常情况下,根据主键(例如,客户ID、产品ID等)使用聚合函数对连续变量和离散变量快速生成大量衍生特征是特征工程常用的一种方法;所述主键是能够唯一表示数据表中的每个记录的字段或者字段的组合或在一个数据集中唯一确定一行数据的标识。
进一步地,所述将聚合函数应用于连续变量和离散变量中,生成衍生特征,包括以下方式中的至少一项:
A11、针对数值型变量,采用第一预设聚合函数对主键进行聚合,得到衍生特征;
具体地,所述第一预设聚合函数至少包括:统计个数函数、均值函数、求和函数、最小值函数和最大值函数。
A12、针对类别型变量,使用第二预设聚合函数对主键进行聚合,得到衍生特征;
具体地,所述第二预设聚合函数至少包括:统计个数函数、均值函数和求和函数。
四、基于时间变量衍生的方式
具体地,在此种情况下,步骤12的具体实现方式为:
获取所述基本特征中的时间戳变量;
根据所述时间戳变量,生成衍生特征。
需要说明的是,在时间序列问题中,由于数据本身特征数量的稀少性,需要根据时间列变量构造大量的时间类衍生特征,以提高模型的表达能力,引入非线性,增强拟合能力。以单指标异常检测场景为例,原始数据只有四个变量,分别为指标名称、时间戳、指标值、标签(是否异常),我们需要在时间戳的基础上构造大量衍生特征。
进一步地,所述根据所述时间戳变量,生成衍生特征,包括以下方式中的至少一项:
B11、对所述时间戳变量进行不同时间维度的提取,获取衍生特征;
例如,得到的衍生特征为:年、月、日、时、分、秒、属于一周中的第几天、属于一年中的第几天、属于一年中的第几周、是否属于周末等。
B12、获取针对所述时间戳变量的滑动窗口衍生变量,将所述滑动窗口衍生变量除以当前时间的指标值得到比值衍生特征;
需要说明的是,获取针对所述时间戳变量的滑动窗口衍生变量的方式为:
基于时间戳变量中的当前时间,按照预设时间窗口滑动,生成相对于当前时间的n个滑动窗口衍生变量,n为预设时间窗口的长度。
需要说明的是,最终得到的滑动窗口衍生变量的个数是与计时单位相关的;例如,预设时间窗口的长度为2分钟,则将当前时间按照2分钟的时间窗口长度向前滑动,得到针对时间戳变量的2个滑动窗口衍生特征;例如,预设时间窗口的长度为120秒,则将当前时间按照120秒的时间窗口长度向前滑动,得到针对时间戳变量的120个滑动窗口衍生特征。
B13、获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的统计类衍生特征;
需要说明的是,对特征进行统计的方式包括但不限于:均值、中位数、标准差、求和、最大值减最小值、偏度、峰度、指数加权滑动平均均值、指数加权滑动平均方差、大于均值的个数、小于均值的个数、第一次出现最大值的位置、第一次出现最小值的位置、是否有重复值、最大值是否有重复值、最小值是否有重复值、大于均值的最大连续长度、小于均值的最大连续长度、相邻值绝对误差的均值、相邻值误差的均值、方差是否大于标准差、平方和、相邻值绝对误差的求和等。
B14、获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的各统计类衍生特征,将所述各统计类衍生特征除以当前时间的指标值得到衍生特征;
B15、基于当前时间与第一时刻的差值获取差分特征,获取针对所述差分特征的滑动窗口衍生变量;
需要说明的是,所述当前时间晚于所述第一时刻,也就说第一时刻是位于当前时间之前的时刻,将该针对所述差分特征的滑动窗口衍生变量确定为针对所述差分特征的滑动窗口衍生特征;
具体地,获取针对所述差分特征的滑动窗口衍生变量的方式为:
依据差分特征中的当前时间,按照预设时间窗口滑动,生成相对于当前时间的m个滑动窗口衍生变量,m为预设时间窗口的长度。需要说明的是,针对所述差分特征的滑动窗口衍生变量的获取方式与针对所述时间戳变量的滑动窗口衍生变量的获取方式类似,在此不再赘述。
五、基于决策树模型衍生的方式
具体地,在此种情况下,步骤12的具体实现方式为:
依据进行数据分析处理的业务目标,构建针对所述基本特征的梯度提升决策树模型;
基于所述梯度提升决策树模型将所述基本特征进行组合,得到相应的衍生特征。
需要说明的是,在实际问题中,常常需要面对多种高维特征,如果简单地来两两组合,容易存在参数过多、过拟合等问题,因此常常通过梯度提升决策树的方式来进行特征组合的寻找。以点击预测问题为例,如图3所示,假设原始输入特征包含年龄、性别、用户类型和物品类型4个方面的信息,并且根据原始输入和标签构造出了决策树。于是,每一条从根节点到叶节点的路径都可以看成一种特征组合的方式,比如从图3可以看到,“用户类型=付费”且“年龄<=40”就是一个组合特征(即衍生特征),如果用户的原始输入特征里同时满足了这两个条件,该变量则标记为1,否则为0。
六、基于数值转换衍生的方式
具体地,在此种情况下,步骤12的具体实现方式为:
将所述基本特征中的类别型特征转换为数值型特征,将所述数值型特征作为衍生特征;
其中,所述类别型特征包括:类别取值范围小于或等于预设值的特征。
需要说明的是,类别型特征主要是指性别(男/女)、血型(A/B/AB/O)等只在有限选项内取值的特征,如当类别特征指代性别是,类别取值范围小于或等于2类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。
具体地,将所述类别特征转换为数值型特征的方式包括:序号编码、独热编码、二进制编码和对比性编码中的至少一项。
序号编码(Ordinal Encoding)通常用于处理类别间具有大小关系的数据。例如体重可以分为偏低、标准、偏高三挡,并且存在”偏高>标准>偏低”的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值ID,例如偏高表示为3、标准表示为2、偏低表示为1。
独热编码(One-hot Encoding)通常用于处理类别间不具有大小关系的特征。例如生肖,一共有12个取值,独热编码会把生肖变成一个12维向量,生肖鼠表示为(1,0,0,0,0,0,0,0,0,0,0,0)。但对于类别取值较多的情况下使用独热编码需要注意使用稀疏向量来节省空间并配合特征选择来降低维度。
二进制编码(Binary Encoding)分为两步,先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。以偏低、标准、偏高三种血型为例,偏低的ID为1,二进制表示为001;标准ID为2,二进制表示为010;偏高ID为3,二进制表示为100。二进制编码本质上是利用二进制对ID进行哈希映射,最终得到0/1特征向量,而且维数少于独热编码,节省了存储空间。
例如,将血型信息分别采用上述的三种编码方式进行转换得到的数值型特征如表2所示。
表2血型信息利用三种编码方式转换为的数值型特征对比表
还需要说明的是,Helmert对比性编码将分类变量的每个级别与后续级别的平均值进行比较。因此,第一个对比比较了1级的因变量的均值与所有后续级别的平均值(2级,3级...),第2次对比比较了2级的因变量的均值有所有后续级别的平均值(3级,4级...),第3次对比了3级的因变量的平均值与所有后续级别的平均值进行比较(4级...)。
进一步,还需要说明的是,步骤12的实现方式为:
构造特征衍生函数,结合确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征。
这里需要说明的是,此种实现方式利用上述的所提到的特征衍生方式,并结合特征衍生函数对所述基本特征进行衍生,得到衍生特征;该特征衍生函数与上面提到的第一预设聚合函数和第二预设聚合函数是不同的概念。
需要说明的是,此种方式采用的自动特征工程,只需要设置一些基础参数就能生成深层次的衍生特征。
可选地,还需要说明的是,步骤12的实现方式包括以下方式中的至少一项:
C11、基于基本特征之间的关联关系,对一个基本特征衍生多层深度变量,得到衍生特征;
C12、基于所述基本特征的兴趣指标利用深度特征合成的方式,生成衍生特征。
需要说明的是,C11和C12的实现方式是将上述提到的多种特征衍生方式中几种进行结合使用,得到深度衍生特征。
例如,在对金融场景的客户流失进行预测时,可以基于客户流失预测的业务特点选取上述七种特征衍生方法中的几种方法组合成一衍生策略进行相关衍生特征的生成。所述业务特点包括场景涉及的业务特征和属性特点,如时间、交易行为(交易数据、次数、时间)、产品行为、产品持有信息,客户圈关系刻画,RFM属性等。衍生方法的选取个数基于场景和数据确定。
例如,基于衍生策略采用基于进行数据分析处理的业务目标进行的特征衍生,在获取业务目标后,构造相关的衍生特征,例如近三月月均交易金额、最近一次交易时间距当前天数等。基于衍生策略对于一些与预测目标强相关的特征,采用特征组合的方式生成高阶和交互特征;对数值型与类别型变量应用聚合函数的方式(即半自动特征工程的方式),选定指定的聚合函数,例如count/mean/sum,生成大量的衍生特征。基于衍生策略对于时间型变量,采用基于时间戳变量进行的特征衍生的方式,计算两个时间点之前的天数,并且滑动窗口生成统计类衍生特征,比如峰度、偏度等。基于衍生策略对于类别型变量,比如生肖、职业、婚姻状态等,采用特征编码的方式,例如独热编码或二进制编码方法,对类别型变量离散化从而生成特征。
上述各特征衍生方式可以根据业务场景/业务数据进行适应性组合,以从不同维度生成更多的衍生特征,挖掘出更多的特征信息,引入非线性,增强模型的表达能力(模型的训练效果,如准确性)。
进一步地,本发明实施例的步骤13的具体实现方式为:
对所述衍生特征进行特征筛选,得到筛选后的目标特征;
根据所述目标特征创建业务模型,以运行所述业务模型执行分析处理操作。
需要说明的是,对所述衍生特征进行特征筛选,得到筛选后的目标特征的方式可以采用如下实现方式中的一种或多种:
方式A、Filter-相关系数法,使用该方法先要计算各个特征对目标值的相关系数及相关系数的P值;
方式B、Filter-方差选择法,使用该方法先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征;
方式C、Filter-卡方检验,经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距,构建统计量
方式D、Wapper-递归特征消除法,递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练;
方式E、Ebedded-基于惩罚项的特征选择法,将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。典型算法为岭回归(ridge regression)、LASSO回归(LeastAbsolute Shrinkage andSelection Operator)等。使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个,所以没选到的特征不代表不重要。故,可结合L2惩罚项来优化;
方式F、Embedded-基于树模型的特征选择法,主要基于树模型中的GBDT、随机森林等作为基模型进行特征选择;
方式H、PCA-主成分分析(降维),PCA是一种无监督学习,它更像是一个预处理的方法,可以将原本的数据降低维度,而使得降低了维度的数据之间的方差最大。方差这个东西是个很有趣的,有些时候我们会考虑减少方差(比如说训练模型的时候,我们会考虑到方差-偏差的均衡),有的时候我们会尽量的增大方差;
方式I、LDA-线性判别分析,LDA是一种有监督学习,LDA的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。
下面分别从实际应用中对上述实现进行举例说明如下。
1、以客户流失预测为例
基于客户参数与客户流失可能性的相关性、计算资源及成本等,从客户参数中筛选客户特征,输入计算模型。其中,通过对各客户参数的分析获得客户参数与客户流失可能性的相关性,先进行粗筛及进一步的筛选,后续再通过模型计算特征重要性,基于计算出的特征重要性再次调整输入参数。
参数筛选的具体方法包括卡方检验、皮尔森相关系数法、极端树特征选择法、递归特征消除法等,以选出客户参数中与客户流失可能性相关的重要参数以及去除冗余参数,以输入预测模型用于预测。
其中,卡方检验是特征选择方法,计算自变量与目标变量间的卡方统计量,保留卡方值相对较大的变量。另外特征变量的值必须非负。例如,如果一个字段和流失相关性接近于0,我们就认为这个字段没有任何预测能力,不放入模型。
皮尔森相关系数(Pearson Correlation Coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient),是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。例如,如果两个字段相关性接近于1,我们就认为这两个字段是同一个,只会把其中一个字段放入模型。
极端树特征选择法是特征选择中的一类方法(embedded嵌入类方法)。该方法是基于训练好的机器学习模型,根据其特征重要性筛选变量。
递归特征消除法(Recursive Feature Elimination)是一种特征选择方法,基于算法输出的变量系数或者特征重要性,删除重要性小的变量,之后再进行拟合,删除,如此重复。
其中,卡方检验和皮尔森相关系数法是粗筛方法,而极端树和递归特征消除是在粗筛基础上做进一步的筛选。可以先用卡方检验计算各客户参数与客户流失可能性间的相关性,筛选出相关性高的客户参数;再根据皮尔森相关性计算客户参数间的相关性,剔除那些与其它客户参数有强相关性的客户参数;之后又根据极端树特征选择法和递归特征消除法得到的各特征重要性来进一步筛选客户参数。
经过参数筛选,最终输入模型的参数(即客户特征)为M个,M为正整数,例如:成为银行客户的时间长度、性别、年龄、资产总额、存款产品数量、本月理财到期笔数、本月交易金额、最近3个月购买定期产品次数、最近3个月月平均交易金额、最近3个月交易笔数等。
2、以客户流失预测为例
基于客户信息与客户购买可能性的相关性、计算资源及成本等,从客户信息中筛选客户特征。先进行粗筛然后进行进一步的筛选,通过互信息、卡方检验、F检验至少之一以及特征检验进行特征的粗筛,其中特征检验对于不同方法选择出的特征进行一个聚合处理,例如取交集、并集或最优集;然后进行进一步的精细地特征选择:通过递归特征消除、特征模型消除等,两者基于不同的处理机制基于算法模型进行特征选择,具体的,例如,基于极端树、随机森林、贝叶斯等算法模型。
进一步的,完成特征的降维,包括特征正交化、特征的主成分分析、矩阵分解等。
后续再通过模型计算特征重要性,基于计算出的特征重要性再次调整输入特征。
客户信息包括如下信息等:
交易行为特征:本月/本季度等,累计交易次数,银行贷款入账次数,转账转入次数,工资性收入次数,现金存入次数,贷款还款次数,转账转出次数,现金支取次数,消费支出次数,生活缴费支出次数,客户最后一次交易金额;
RFM行为模式(RFM,Recency Frequency Monetary):最近一次购买理财产品时间,最近三月购买理财产品次数,最近三月购买理财产品金额,最近一次购买基金产品时间,最近三月购买基金产品次数,最近三月购买基金产品金额,最近一次消费刷卡距离今日天数,最近三月消费次数,最近三月消费金额,最近三月消费商家类型top1,名下所有账户最近一次动账日期,名下所有账户最近动账距今天数;
客户属性特征:性别,年龄,家庭地址,行业,职务,学历,婚姻状态,家庭总人口,手机号码,归属机构,客户经理,与我行关系年限(成为银行客户的时间长度);
资产负债特征:最大资产集中度,存款时点余额,理财时点余额,基金时点余额,国债时点余额,是否国债签约,是否信托签约,是否贵金属签约,是否第三方存管签约,是否保险签约,存款月日均,理财月日均,基金月日均,国债月日均,存款季日均,理财季日均,基金季日均,国债季日均,存款年日均,理财年日均,基金年日均,国债年日均;
信用属性特征:核心客户号,客户当前等级,客户信用等级,当前贷款五级分类,综合授信额度,客户上次等级,等级变动时间,客户上次信用等级,信用等级变动时间,上次贷款五级分类,贷款分类变动日期,社保余额,公积金月缴纳;
持有行为特征:资产总额,存款余额,持有产品数,存款产品数,贷款产品数,当前借记卡种类数,当前贷记卡种类数,当前借记卡张数,当前贷记卡张数,理财产品数,基金产品数,签约服务类产品数,签约渠道类产品数,累计购买定期次数,累计购买定期金额,持有定期存款产品数,累计贷款次数,累计申请贷款次数,累计购买理财次数,累计购买基金次数,客户前一季度总资产,是否持有定期产品,最大资产余额,最大资产类别;
关系圈刻画:转账用途,是否跨行,本月转入笔数,本月转入金额,本月转出笔数,本月转出金额,对方银行;
所述累计,为基于本月、本季度等进行累计。
基于客户参数与客户购买产品可能性的相关性、计算资源及成本等,从客户信息中筛选客户特征,输入计算模型。其中,通过对各客户信息的分析获得客户信息与客户购买产品可能性的相关程度进行初筛,再进一步由算法选,后续再通过模型计算特征重要性,基于计算出的特征重要性再次调整输入信息。
在粗筛之前,可以根据业务常识(基于业务需求)添加特征(对于预测结果有相关性的字段),因为粗筛前的特征是常规特征,需要添加用户自定义特征(用户基于业务理解和业务需求设计的对于预测目标有强解释性的特征)。例如针对某金融储蓄产品,增加下述新增字段。
新增字段:是否一年期定期目标客户,是否一年期大额目标客户,是否一年期定期新增目标客户,是否一年期大额新增目标客户,是否一年期定期注销目标客户,是否一年期大额注销目标客户,是否一年期定期流失目标客户,是否一年期大额流失目标客户,定活两便产品利率,一天通知存款产品利率,七天通知存款产品利率,一个月期产品利率,三个月期产品利率,六个月期产品利率,九个月期产品利率,一年期产品利率,二年期产品利率,三年期产品利率,五年期产品利率。
针对某金融储蓄产品,最终特征选择出的特征包括:客户前一季度总资产、是否持有定期产品、客户最后一次交易金额、存款月日均变化率、存款年日均、累计购买定期金额、持有定期存款产品数、最大资产余额、最大资产类别等。
需要说明的是,在数据分析处理过程中,在面对海量数据进行数据分析时,通过提供一些用于特征衍生的方式,然后对选取(可以***自动选择,也可以由用户选择)的方式进行排列组合(例如在产品智能推荐场景中,在求得每个订单购买产品的众数后,再去求每个客户对不同订单购买产品的众数),以生成尽可能多的衍生特征,挖掘出更多的特征信息,引入非线性,增强模型的表达能力(模型的训练效果),以此提高了业务模型与业务场景和业务需求的契合度,提高了数据分析的准确度。
参见图4,图4是本发明一实施例提供的数据分析***的模块图。如图4所示,数据分析***40包括:
确定模块41,用于基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式;
获取模块42,用于根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征;
执行模块43,用于根据所述衍生特征创建业务模型,以执行分析处理操作。
具体地,所述特征衍生方式包括下述至少之一:基于业务目标衍生、基于深度学习衍生、基于特征组合衍生、基于时间变量衍生、基于决策树模型衍生及基于数值转换衍生。
可选地,所述获取模块42,包括:
第一获取单元,用于基于业务场景和业务目标,获取与所述业务场景对应的业务经验数据;
第二获取单元,用于根据所述业务经验数据,通过所述基本特征构造与所述业务目标相关的特征,得到衍生特征。
可选地,所述获取模块42,用于:
通过稀疏自编码算法、因子分解机算法和深度交叉神经网络算法中的至少之一,对所述基本特征进行深度学习,获取衍生特征。
进一步地,当所述获取模块通过稀疏自编码算法对所述基本特征进行深度学习时,所述获取模块42,用于:
将所述基本特征输入到稀疏自编码神经网络中,获取所述稀疏自编码神经网络的隐藏层的各单元的激活值组成的向量,将所述向量作为衍生特征。
进一步地,当所述获取模块42通过因子分解机算法对所述基本特征进行深度学习时,所述获取模块42,用于:
获取基于运行所述因子分解机算法模型引入的交叉特征,将所述交叉特征确定为衍生特征。
进一步地,当所述获取模块42通过深度交叉神经网络算法对所述基本特征进行深度学习时,所述获取模块42,用于:
将所述基本特征输入深度交叉神经网络,分别通过交叉网络和深度网络得到第一输入结果和第二输入结果,将所述第一输入结果和第二输入结果进行组合,得到最终的衍生特征。
可选地,所述获取模块42,用于:
将所述基本特征进行特征组合,得到衍生特征;
其中,所述特征组合的方式包括:采用多项式的方式、采用数学运算的方式和采用聚合函数的方式中的至少一项。
进一步地,当所述特征组合的方式包括采用多项式的方式时,所述获取模块,用于:
将所述基本特征根据预设度数生成新的特征矩阵,将特征矩阵中每一个组成元素作为一个衍生特征。
进一步地,当所述特征组合的方式包括采用数学运算的方式时,所述获取模块42,用于:
利用数据运算规则对所述基本特征进行运算,得到衍生特征;
其中,数据运算规则包括:加法运算、减法运算、乘法运算和除法运算中的至少一项。
进一步地,当所述特征组合的方式包括采用聚合函数的方式时,所述获取模块,包括:
第三获取单元,用于将聚合函数应用于连续变量和离散变量中,生成衍生特征;
其中,所述聚合函数包括:统计个数、均值、求和、最小值、最大值、标准差、中位数、众数、连续事件之间的平均时间、类别型变量不同取值个数、取值为预设值的百分比、偏度和峰度中的至少一项。
进一步地,所述第三获取单元,用于实现以下方式中的至少一项:
针对数值型变量,采用第一预设聚合函数对主键进行聚合,得到衍生特征;
针对类别型变量,使用第二预设聚合函数对主键进行聚合,得到衍生特征;
其中,所述第一预设聚合函数至少包括:统计个数函数、均值函数、求和函数、最小值函数和最大值函数;
所述第二预设聚合函数至少包括:统计个数函数、均值函数和求和函数。
可选地,所述获取模块42,用于:
构造特征衍生函数,结合确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征。
可选地,所述获取模块42,用于实现以下方式中的至少一项:
基于基本特征之间的关联关系,对一个基本特征衍生多层深度变量,得到衍生特征;
基于所述基本特征的兴趣指标利用深度特征合成的方式,生成衍生特征。
可选地,所述获取模块42,包括:
第四获取单元,用于获取所述基本特征中的时间戳变量;
生成单元,用于根据所述时间戳变量,生成衍生特征。
进一步地,所述生成单元,用于实现以下方式中的至少一项:
对所述时间戳变量进行不同时间维度的提取,获取衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,将所述滑动窗口衍生变量除以当前时间的指标值得到比值衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的统计类衍生特征;
获取针对所述时间戳变量的滑动窗口衍生变量,基于所述滑动窗口衍生变量构建统计类特征,得到基于滑动窗口的各统计类衍生特征,将所述各统计类衍生特征除以当前时间的指标值得到衍生特征;
基于当前时间与第一时刻的差值获取差分特征,获取针对所述差分特征的滑动窗口衍生变量,所述当前时间晚于所述第一时刻;
其中,获取针对所述时间戳变量的滑动窗口衍生变量的方式为:
基于时间戳变量中的当前时间,按照预设时间窗口滑动,生成相对于当前时间的n个滑动窗口衍生变量,n为预设时间窗口的长度。
可选地,所述获取模块42,包括:
构建单元,用于依据进行数据分析处理的业务目标,构建针对所述基本特征的梯度提升决策树模型;
第五获取单元,用于基于所述梯度提升决策树模型将所述基本特征进行组合,得到相应的衍生特征。
可选地,所述获取模块42,用于:
将所述基本特征中的类别型特征转换为数值型特征,将所述数值型特征作为衍生特征;
其中,所述类别型特征包括:类别取值范围小于或等于预设值的特征。
进一步地,将所述类别型特征转换为数值型特征的方式包括:序号编码、独热编码、二进制编码和对比性编码中的至少一项。
可选地,所述执行模块43,包括:
筛选单元,用于对所述衍生特征进行特征筛选,得到筛选后的目标特征;
执行单元,用于根据所述目标特征创建业务模型,以运行所述业务模型执行分析处理操作。
本发明实时例还提供一种数据分析***,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时实现上述的数据分析方法中的步骤。
本发明实时例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的数据分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式;
根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征;
根据所述衍生特征创建业务模型,以执行分析处理操作。
2.根据权利要求1所述的数据分析方法,其特征在于,所述特征衍生方式包括下述至少之一:基于业务目标衍生、基于深度学习衍生、基于特征组合衍生、基于时间变量衍生、基于决策树模型衍生及基于数值转换衍生。
3.根据权利要求1或2所述的数据分析方法,其特征在于,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
基于业务场景和业务目标,获取与所述业务场景对应的业务经验数据;
根据所述业务经验数据,通过所述基本特征构造与所述业务目标相关的特征,得到衍生特征。
4.根据权利要求1或2所述的数据分析方法,其特征在于,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
通过稀疏自编码算法、因子分解机算法和深度交叉神经网络算法中的至少之一,对所述基本特征进行深度学习,获取衍生特征。
5.根据权利要求1或2所述的数据分析方法,其特征在于,所述根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征,包括:
将所述基本特征进行特征组合,得到衍生特征;
其中,所述特征组合的方式包括:采用多项式的方式、采用数学运算的方式和采用聚合函数的方式中的至少一项。
6.一种数据分析***,其特征在于,包括:
确定模块,用于基于待分析的业务数据和/或业务场景获取基本特征,并确定特征衍生方式;
获取模块,用于根据确定的特征衍生方式对所述基本特征进行衍生,得到衍生特征;
执行模块,用于根据所述衍生特征创建业务模型,以执行分析处理操作。
7.根据权利要求6所述的数据分析***,其特征在于,所述特征衍生方式包括下述至少之一:基于业务目标衍生、基于深度学习衍生、基于特征组合衍生、基于时间变量衍生、基于决策树模型衍生及基于数值转换衍生。
8.根据权利要求6或7所述的数据分析***,其特征在于,所述获取模块,包括:
第一获取单元,用于基于业务场景和业务目标,获取与所述业务场景对应的业务经验数据;
第二获取单元,用于根据所述业务经验数据,通过所述基本特征构造与所述业务目标相关的特征,得到衍生特征。
9.根据权利要求6或7所述的数据分析***,其特征在于,所述获取模块,用于:
通过稀疏自编码算法、因子分解机算法和深度交叉神经网络算法中的至少之一,对所述基本特征进行深度学习,获取衍生特征。
10.根据权利要求6或7所述的数据分析***,其特征在于,所述获取模块,用于:
将所述基本特征进行特征组合,得到衍生特征;
其中,所述特征组合的方式包括:采用多项式的方式、采用数学运算的方式和采用聚合函数的方式中的至少一项。
CN201910245141.2A 2019-03-28 2019-03-28 一种数据分析方法及*** Active CN109977151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910245141.2A CN109977151B (zh) 2019-03-28 2019-03-28 一种数据分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910245141.2A CN109977151B (zh) 2019-03-28 2019-03-28 一种数据分析方法及***

Publications (2)

Publication Number Publication Date
CN109977151A true CN109977151A (zh) 2019-07-05
CN109977151B CN109977151B (zh) 2020-02-07

Family

ID=67081387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910245141.2A Active CN109977151B (zh) 2019-03-28 2019-03-28 一种数据分析方法及***

Country Status (1)

Country Link
CN (1) CN109977151B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569428A (zh) * 2019-08-08 2019-12-13 阿里巴巴集团控股有限公司 一种推荐模型的构建方法、装置及设备
CN110598845A (zh) * 2019-08-13 2019-12-20 中国平安人寿保险股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN110647943A (zh) * 2019-09-26 2020-01-03 西北工业大学 基于演化数据聚类分析的切削刀具磨损监测方法
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
CN110781174A (zh) * 2019-10-15 2020-02-11 支付宝(杭州)信息技术有限公司 一种使用pca和特征交叉的特征工程建模方法和***
CN110868404A (zh) * 2019-11-05 2020-03-06 北京航空航天大学 一种基于tcp/ip指纹的工控设备自动识别方法
CN111325405A (zh) * 2020-03-02 2020-06-23 贵州电网有限责任公司 一种抱怨敏感度建模预测方法
CN111460323A (zh) * 2020-06-17 2020-07-28 腾讯科技(深圳)有限公司 基于人工智能的焦点用户挖掘方法和装置
CN111539532A (zh) * 2020-04-01 2020-08-14 深圳市魔数智擎人工智能有限公司 一种面向模型构建的特征自动化衍生方法
CN111738331A (zh) * 2020-06-19 2020-10-02 北京同邦卓益科技有限公司 用户分类方法及装置、计算机可读存储介质、电子设备
CN111752903A (zh) * 2020-06-23 2020-10-09 深圳前海微众银行股份有限公司 一种数据存储空间可使用时间的预测方法
CN111784040A (zh) * 2020-06-28 2020-10-16 平安医疗健康管理股份有限公司 政策模拟分析的优化方法、装置及计算机设备
CN111930756A (zh) * 2020-09-18 2020-11-13 同盾控股有限公司 用于源数据的特征构建方法、装置、电子设备及介质
CN112037013A (zh) * 2020-08-25 2020-12-04 成都榕慧科技有限公司 人行征信变量衍生方法及装置
CN112380215A (zh) * 2020-11-17 2021-02-19 北京融七牛信息技术有限公司 一种基于交叉聚合的自动特征生成方法
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及***
CN112488871A (zh) * 2020-10-23 2021-03-12 广西电网有限责任公司电力科学研究院 一种电网原始输入特征冗余数据剔除方法及***
CN112541711A (zh) * 2020-12-29 2021-03-23 广东电网有限责任公司广州供电局 模型构建方法、装置、计算机设备和存储介质
CN113052678A (zh) * 2021-04-06 2021-06-29 北京明略昭辉科技有限公司 趋势性变量的自动衍生方法、***、存储介质及电子设备
CN113065028A (zh) * 2021-03-22 2021-07-02 北京顶象技术有限公司 时间序列数据的特征衍生方法、装置及电子设备
CN113340874A (zh) * 2020-03-02 2021-09-03 中国科学院沈阳自动化研究所 一种基于结合岭回归和递归特征消除的定量分析方法
WO2021189976A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN113568947A (zh) * 2021-07-21 2021-10-29 众安在线财产保险股份有限公司 数据处理方法、***以及计算机存储介质
CN113792800A (zh) * 2021-09-16 2021-12-14 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质
CN115438101A (zh) * 2022-10-13 2022-12-06 中国兵器工业计算机应用技术研究所 一种基于特征形态和数据关系的数据特征构建***和方法
CN115458162A (zh) * 2022-11-10 2022-12-09 四川京炜数字科技有限公司 基于机器学习的骨关联疾病治疗方案预测***和方法
CN116167285A (zh) * 2023-02-27 2023-05-26 北京市生态环境保护科学研究院 有机污染物运移的预测方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302911A (zh) * 2015-11-10 2016-02-03 珠海多玩信息技术有限公司 一种数据筛选引擎建立方法及数据筛选引擎
US20170124089A1 (en) * 2011-07-29 2017-05-04 Linkedin Corporation Suggesting candidate profiles similar to a reference profile
CN107609147A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 一种从日志流中自动提取特征的方法和***
CN108765004A (zh) * 2018-05-28 2018-11-06 贵州黔驰信息股份有限公司 一种基于数据挖掘识别用户窃电行为的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124089A1 (en) * 2011-07-29 2017-05-04 Linkedin Corporation Suggesting candidate profiles similar to a reference profile
CN105302911A (zh) * 2015-11-10 2016-02-03 珠海多玩信息技术有限公司 一种数据筛选引擎建立方法及数据筛选引擎
CN107609147A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 一种从日志流中自动提取特征的方法和***
CN108765004A (zh) * 2018-05-28 2018-11-06 贵州黔驰信息股份有限公司 一种基于数据挖掘识别用户窃电行为的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
无: ""特征工程:特征抽象、特征衍生"", 《布布扣-HTTP://WWW.BUBUKO/COM/INFODETAIL-2964388.HTML》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569428A (zh) * 2019-08-08 2019-12-13 阿里巴巴集团控股有限公司 一种推荐模型的构建方法、装置及设备
CN110569428B (zh) * 2019-08-08 2023-10-20 创新先进技术有限公司 一种推荐模型的构建方法、装置及设备
CN112398779B (zh) * 2019-08-12 2022-11-01 中国科学院国家空间科学中心 一种网络流量数据分析方法及***
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及***
CN110598845A (zh) * 2019-08-13 2019-12-20 中国平安人寿保险股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN110647943A (zh) * 2019-09-26 2020-01-03 西北工业大学 基于演化数据聚类分析的切削刀具磨损监测方法
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
CN110781174A (zh) * 2019-10-15 2020-02-11 支付宝(杭州)信息技术有限公司 一种使用pca和特征交叉的特征工程建模方法和***
CN110868404A (zh) * 2019-11-05 2020-03-06 北京航空航天大学 一种基于tcp/ip指纹的工控设备自动识别方法
CN110868404B (zh) * 2019-11-05 2020-11-24 北京航空航天大学 一种基于tcp/ip指纹的工控设备自动识别方法
CN111325405A (zh) * 2020-03-02 2020-06-23 贵州电网有限责任公司 一种抱怨敏感度建模预测方法
CN113340874B (zh) * 2020-03-02 2023-07-18 中国科学院沈阳自动化研究所 一种基于结合岭回归和递归特征消除的定量分析方法
CN113340874A (zh) * 2020-03-02 2021-09-03 中国科学院沈阳自动化研究所 一种基于结合岭回归和递归特征消除的定量分析方法
WO2021189976A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN111539532A (zh) * 2020-04-01 2020-08-14 深圳市魔数智擎人工智能有限公司 一种面向模型构建的特征自动化衍生方法
CN111460323A (zh) * 2020-06-17 2020-07-28 腾讯科技(深圳)有限公司 基于人工智能的焦点用户挖掘方法和装置
CN111460323B (zh) * 2020-06-17 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的焦点用户挖掘方法和装置
CN111738331A (zh) * 2020-06-19 2020-10-02 北京同邦卓益科技有限公司 用户分类方法及装置、计算机可读存储介质、电子设备
CN111752903A (zh) * 2020-06-23 2020-10-09 深圳前海微众银行股份有限公司 一种数据存储空间可使用时间的预测方法
CN111752903B (zh) * 2020-06-23 2024-06-07 深圳前海微众银行股份有限公司 一种数据存储空间可使用时间的预测方法
CN111784040B (zh) * 2020-06-28 2023-04-25 平安医疗健康管理股份有限公司 政策模拟分析的优化方法、装置及计算机设备
CN111784040A (zh) * 2020-06-28 2020-10-16 平安医疗健康管理股份有限公司 政策模拟分析的优化方法、装置及计算机设备
CN112037013A (zh) * 2020-08-25 2020-12-04 成都榕慧科技有限公司 人行征信变量衍生方法及装置
CN111930756A (zh) * 2020-09-18 2020-11-13 同盾控股有限公司 用于源数据的特征构建方法、装置、电子设备及介质
CN111930756B (zh) * 2020-09-18 2021-02-12 同盾控股有限公司 用于源数据的特征构建方法、装置、电子设备及介质
CN112488871A (zh) * 2020-10-23 2021-03-12 广西电网有限责任公司电力科学研究院 一种电网原始输入特征冗余数据剔除方法及***
CN112380215A (zh) * 2020-11-17 2021-02-19 北京融七牛信息技术有限公司 一种基于交叉聚合的自动特征生成方法
CN112541711A (zh) * 2020-12-29 2021-03-23 广东电网有限责任公司广州供电局 模型构建方法、装置、计算机设备和存储介质
CN113065028A (zh) * 2021-03-22 2021-07-02 北京顶象技术有限公司 时间序列数据的特征衍生方法、装置及电子设备
CN113065028B (zh) * 2021-03-22 2024-07-05 北京顶象技术有限公司 时间序列数据的特征衍生方法、装置及电子设备
CN113052678A (zh) * 2021-04-06 2021-06-29 北京明略昭辉科技有限公司 趋势性变量的自动衍生方法、***、存储介质及电子设备
CN113568947A (zh) * 2021-07-21 2021-10-29 众安在线财产保险股份有限公司 数据处理方法、***以及计算机存储介质
CN113792800B (zh) * 2021-09-16 2023-12-19 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质
CN113792800A (zh) * 2021-09-16 2021-12-14 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质
CN115438101A (zh) * 2022-10-13 2022-12-06 中国兵器工业计算机应用技术研究所 一种基于特征形态和数据关系的数据特征构建***和方法
CN115458162A (zh) * 2022-11-10 2022-12-09 四川京炜数字科技有限公司 基于机器学习的骨关联疾病治疗方案预测***和方法
CN116167285A (zh) * 2023-02-27 2023-05-26 北京市生态环境保护科学研究院 有机污染物运移的预测方法、装置和电子设备

Also Published As

Publication number Publication date
CN109977151B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN109977151A (zh) 一种数据分析方法及***
TW580627B (en) System and method for efficiently providing due diligence knowledge and a computer therefor
Zigrand Systems and systemic risk in finance and economics
CN107644375A (zh) 一种专家模型与机器学习模型融合的小商户信用评估方法
CN106447434A (zh) 个人信用生态平台
TW530236B (en) Cross correlation tool for automated portfolio descriptive statistics
MXPA01008622A (es) Evaluacion rapida de portafolios de activos tales como instrumentos financieros.
MXPA01008620A (es) Modelos de prediccion de valoracion en situaciones con entradas perdidas.
MXPA01008619A (es) Metodos y sistemas para optimizar el valor de devolucion y el presente.
Bach et al. Selection of variables for credit risk data mining models: preliminary research
Sarfaraz et al. Analyzing the Investment Behavior in the Iranian Stock Exchange during the COVID‐19 Pandemic Using Hybrid DEA and Data Mining Techniques
Chen et al. Forecasting PGR of the financial industry using a rough sets classifier based on attribute-granularity
Kudyba Managing data mining: advice from experts
CN111292118A (zh) 基于深度学习的投资者画像构建方法和装置
US20150348201A1 (en) Automated tool for investment technologies
Wang et al. Neural learning of online consumer credit risk
Miori et al. Clustering Uniswap v3 traders from their activity on multiple liquidity pools, via novel graph embeddings
Zhang et al. Alternative Data and Artificial Intelligence Techniques
Kovalova et al. Innovate forms of project financing under the conditions of globalization
Itoo et al. Loan products and credit scoring by commercial banks (India)
Matkowski Prediction of individual income: A machine learning approach
Mendes Forecasting bitcoin prices: ARIMA vs LSTM
Groß-Klußmann Learning deep news sentiment representations for macro-finance
Volkovska Modeling the Predictive Performance of Credit Scoring by Logistic Regression and Ensemble Learning
Mejía From A to Z in P2P: Credit Risk Analysis for the Fintech Lending Paradigm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant