CN115222177A - 业务数据处理方法、装置、计算机设备和存储介质 - Google Patents
业务数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115222177A CN115222177A CN202110441885.9A CN202110441885A CN115222177A CN 115222177 A CN115222177 A CN 115222177A CN 202110441885 A CN202110441885 A CN 202110441885A CN 115222177 A CN115222177 A CN 115222177A
- Authority
- CN
- China
- Prior art keywords
- characteristic
- variable
- variables
- feature
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种业务数据处理方法、装置、计算机设备和存储介质。所述方法包括:从数据库中获取业务数据的特征变量;根据特征变量得到离散特征变量;再对信息增益率进行排序、主成分分析处理和信息量计算得到一维特征变量;将一维特征变量作为待处理特征变量进行信息增益率排序、主成分分析处理和信息量计算,得到筛选特征变量;然后进行交叉组合获得特征组合变量;若信息增益率不满足预设条件,则将特征组合变量和一维特征变量作为新的待处理特征变量,经过信息增益率排序、主成分分析处理、信息量计算和交叉组合得到特征组合变量;若满足预设条件,则将特征组合变量作为业务数据的目标组合变量。采用本方法能够提升业务模型的预测能力与准确度。
Description
技术领域
本申请涉及计算机技术应用领域,特别是涉及一种业务数据处理方法、装置、计算机设备和存储介质。
背景技术
随着金融业务建模技术的发展,在实际业务中,拥有几个到几十个不等的基础变量,由于多数变量没有实际含义,例如用户地址,该变量为多属性值的分类变量,不利于直接用于建模。
在相关技术中,为了解决业务中没有实际含义的变量问题,采用特征工程的特征衍生技术,该技术将没有实际含义的变量经过一定的变化或组合后,能够具有较强的信息价值,从而能够运用在业务建模中。
然而,采用特征工程的特征衍生技术对一定数量的业务数据的特征变量进行特征衍生时,多个特征变量进行交叉组合,导致组合数量***,衍生效率过低。
发明内容
基于此,有必要针对上述技术问题,提供一种业务数据处理方法、装置、计算机设备和存储介质。
一种业务数据处理方法,该方法包括:
从业务数据所在数据库中获取该业务数据的特征变量;根据该特征变量得到离散特征变量;对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量;将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量;通过该筛选特征变量进行交叉组合获得特征组合变量;若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量;若该特征组合变量的信息增益率满足预设条件,则将该特征组合变量作为该业务数据的目标组合变量。
在其中一个实施例中,根据该特征变量得到离散特征变量,包括:
当该特征变量为连续特征变量时,将该连续特征变量转换为离散特征变量。
在其中一个实施例中,对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量,包括:
将该离散特征变量输入第一决策树计算该离散特征变量的信息增益率,并对该信息增益率排序获得第一排序特征变量;对该离散特征变量进行主成分分析处理获得第一关键特征变量;根据该第一关键特征变量对该第一排序特征变量进行筛选及信息量计算得到一维特征变量,该一维特征变量的维度与该第一决策树的深度一致。
在其中一个实施例中,根据该第一关键特征变量对该第一排序特征变量进行筛选及信息量计算得到一维特征变量,包括:
从该第一排序特征变量中获取排名在该第一关键特征变量之前的特征变量,得到第一特征变量,该第一特征变量中包括该第一关键特征变量;获取该第一排序特征变量中除该第一特征变量之外的剩余特征变量,该剩余特征变量的排名在该第一关键特征变量之后;从该剩余特征变量中获得第二特征变量;将该第一特征变量和该第二特征变量作为一维特征变量。
在其中一个实施例中,从该剩余特征变量中获得第二特征变量,包括:
比较该剩余特征变量的信息量与信息量阈值,将信息量大于信息量阈值的剩余特征变量作为第二特征变量。
在其中一个实施例中,将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量,包括:
将该一维特征变量作为待处理特征变量,将该待处理特征变量输入第二决策树计算该待处理特征变量的信息增益率,并对该信息增益率排序获得第二排序特征变量;对该待处理特征变量进行主成分分析处理获得第二关键特征变量;根据该第二关键特征变量对该第二排序特征变量进行筛选及信息量计算得到筛选特征变量,该第二决策树的深度与该筛选特征变量的维度一致。
在其中一个实施例中,该预设条件为信息增益率为零;若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量,包括:
若该特征组合变量的信息增益率不为零,则将该特征组合变量和一维特征变量作为新的待处理特征变量;将上一次决策树深度增加一个深度单位获得当前决策树的深度,并将该新的待处理特征变量输入该当前决策树计算该新的待处理特征变量的信息增益率;对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合获得特征组合变量,该特征组合变量维度与该当前决策树的深度一致。
一种业务数据处理装置,该装置包括:
第一特征获取模块,用于从业务数据所在数据库中获取该业务数据的特征变量;
第二特征获取模块,用于根据该特征变量得到离散特征变量;
第一处理模块,用于对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量;
第二处理模块,用于将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量;
组合模块,用于通过该筛选特征变量进行交叉组合获得特征组合变量;
该第二处理模块还用于若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量;
判定模块,用于若该特征组合变量的信息增益率满足预设条件,则将该特征组合变量作为该业务数据的目标组合变量。
在其中一个实施例中,根据该特征变量得到离散特征变量,该第二特征获取模块,具体用于:
当该特征变量为连续特征变量时,将该连续特征变量转换为离散特征变量。
在其中一个实施例中,对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量,该第一处理模块,具体用于:
将该离散特征变量输入第一决策树计算该离散特征变量的信息增益率,并对该信息增益率排序获得第一排序特征变量;对该离散特征变量进行主成分分析处理获得第一关键特征变量;根据该第一关键特征变量对该第一排序特征变量进行筛选及信息量计算得到一维特征变量,该一维特征变量的维度与该第一决策树的深度一致。
在其中一个实施例中,根据该第一关键特征变量对第一排序特征变量进行筛选及信息量计算得到一维特征变量,该第一处理模块,具体用于:
从该第一排序特征变量中获取排名在该第一关键特征变量之前的特征变量,得到第一特征变量,该第一特征变量中包括该第一关键特征变量;获取该第一排序特征变量中除该第一特征变量之外的剩余特征变量,该剩余特征变量的排名在该第一关键特征变量之后;从该剩余特征变量中获得第二特征变量;将该第一特征变量和该第二特征变量作为一维特征变量。
在其中一个实施例中,从该剩余特征变量中获得第二特征变量,该第一处理模块,具体用于:
比较该剩余特征变量的信息量与信息量阈值,将信息量大于信息量阈值的剩余特征变量作为第二特征变量。
在其中一个实施例中,将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量,该第二处理模块,具体用于:
将该一维特征变量作为待处理特征变量,将该待处理特征变量输入第二决策树计算该待处理特征变量的信息增益率,并对该信息增益率排序获得第二排序特征变量;对该待处理特征变量进行主成分分析处理获得第二关键特征变量;根据该第二关键特征变量对该第二排序特征变量进行筛选及信息量计算得到筛选特征变量,该第二决策树的深度与该筛选特征变量的维度一致。
在其中一个实施例中,预设条件为信息增益率为零;若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量,该第二处理模块,具体用于:
若该特征组合变量的信息增益率不为零,则将该特征组合变量和一维特征变量作为新的待处理特征变量;将上一次决策树深度增加一个深度单位获得当前决策树的深度,并将该新的待处理特征变量输入该当前决策树计算该新的待处理特征变量的信息增益率;对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合获得特征组合变量,该特征组合变量维度与该当前决策树的深度一致。
一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行时实现如上述任一所述的业务数据处理方法。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一所述的业务数据处理方法。
上述业务数据处理方法、装置、计算机设备和存储介质,通过从业务数据所在数据库中获取该业务数据的特征变量;根据该特征变量得到离散特征变量;对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量;将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量;通过该筛选特征变量进行交叉组合获得特征组合变量;若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量;若该特征组合变量的信息增益率满足预设条件,则将该特征组合变量作为该业务数据的目标组合变量。因此,能够大大削减预测价值低的衍生变量,提高衍生效率,且能增加特征交叉衍生的作用和效果,从而提升业务模型的预测能力与准确度。
附图说明
图1为一个实施例中业务数据处理方法的流程示意图;
图2为一个实施例中获得一维特征变量步骤的流程示意图;
图3为另一个实施例中获得一维特征变量步骤的流程示意图;
图4为一个实施例中获得筛选特征变量步骤的流程示意图;
图5为一个实施例中获得特征组合变量步骤的流程示意图;
图6为一个实施例中业务数据处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的业务数据处理方法,可以应用于建立理财产品营销响应模型的应用环境中。该模型为二分类模型,该模型得出结果为客户是否会购买产品,其中响应表示购买该产品,通常用1表示,未响应表示不会购买该产品,通过用0表示。通过构建理财产品营销模型能够预测客户购买该理财产品的概率,根据得出的概率对客户进行有针对性的营销活动或方法使更多的客户购买该产品。建模过程中,关于特征部分包括收集数据、描述数据、探索数据、数据质量检验、数据准备,关于建模部分包括选择建模次数、生成测试设计、构建模型、评估模型,关于模型验证部分包括线下业务验证、反馈、迭代。
其中,该业务数据主要分为四大类特征,即客户基本信息、营销反馈信息、宏观数据、过往营销特征。其中,客户基本信息特征包括年龄、职业、学历、婚姻状况、违约情况、房贷、个人贷款,营销反馈信息特征包括联系方式、联系时间的月份、联系时间的星期、通话时长,宏观数据特征包括就业变动率、居民消费价格指数、消费者信心指数、银行间同业拆借利率、就业人数,过往营销特征包括营销联系次数、前次营销次数、前次营销间隔、过往营销次数、过往营销是否成功等。
其中,建模前要对数据处理,例如,对类型变量进行独热编码以适应算法要求,而针对样本不平衡的情况,可以采用分层抽样进行训练集和验证集的构建,并且通过SMOTENC方法上采样正例样本,缓解样本不平衡状况,从而提高模型区分正负样本的能力。该业务模型采用LR(Logistic Regression,逻辑回归模型)模型,根据该模型得到评估结果并记录该评估结果,其中该模型也可以采用其他模型构建例如线性回归、SVM(Support VectorMachine,支持向量机)等。采集的业务数据通过使用LR模型能够得到评估结果,其中,评估指标包括AUC(Area Under the Curve,ROC曲线下与坐标轴围成的面积)和KS(Kolmogorov-Smirnov)值,例如KS值为0.32时则该模型有好的预测准确性。通过评估指标判断是否存在过拟合或者欠拟合的情况。
在一个实施例中,如图1所示,提供了一种业务数据处理方法,以该方法应用于计算机设备上,包括以下步骤:
步骤102,从业务数据所在数据库中获取该业务数据的特征变量。
具体地,计算机设备对数据库中的业务数据进行处理,得到建模需要的数据宽表,获取数据宽表中业务数据的特征变量。其中,数据宽表是指业务主题相关指标、维度、属性关联在一起的数据库表。例如,以构建理财产品营销响应模型为例,在构建理财产品营销响应模型时,从理财产品的数据库中获取业务数据并得到数据宽表,从数据宽表中获取与理财产品相关的特征变量,例如客户基本信息特征、营销反馈信息特征、宏观数据特征、过往营销特征。
步骤104,根据该特征变量得到离散特征变量。
其中,离散特征变量能够通过枚举离散属性取值,即离散特征变量的取值可以一一有限列出。
具体地,计算机设备获取数据宽表中业务数据为离散特征变量的特征变量。例如,在构建理财产品营销模型时,特征变量为客户基本信息中的违约情况,该特征变量有两种属性取值,即客户存在违约情况和不存在违约情况。
步骤106,对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量。
其中,针对信息增益率,特征A对训练数据集D的信息增益率定义为信息增益与训练数据集D关于特征A的值的熵之比。该信息增益率用于C4.5算法,该C4.5算法是ID3算法的一种延伸和优化。在决策树的分类问题中,信息增益是针对一个特定的分支标注T,计算原有数据的信息熵与引入该分支标准后的信息熵之差。其中,信息集的信息熵公式如下:
当计算特征A,对于数据集D的经验条件熵H(D|A)公式如下:
信息增益计算公式如下:
Gain(D,A)=H(D)-H(D|A)
则信息增益率计算公式如下:
上述HA(D)为训练数据集D关于特征A的熵,该计算公式为:
上述公式中训练数据集为D,|D|为样本容量。设有K个类CK(k=1,2,……,K),|CK|为属于类CK的样本数。设特征A有n个不同的取值{a1,a2,……,an},根据特征A的取值将训练数据集D划分为n个子集D1,D2,……,Dn,|Di|为Di的样本的个数。记子集Di中属于类CK的样本的集合为DiK,|DiK|为DiK的样本个数。HA(D)也可以称为特征A的固有值,n是特征A取值的个数。
其中,针对主成分分析PCA(Principal Components Analysis),是用于在减少需要分析的特征变量时,尽量减少原指标包含信息的损失,从而达到对所手机数据全面分析的目的。由于各个变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,即将n个特征变量映射到k个特征变量,这k个特征变量是全新的正交特征(主成分),是在原有n个特征的基础上重新构造出来的k个特征变量。例如,输入数据集X={x1,x2,x3,……,xn},通过PCA算法能够得到k个特征变量,即首先将每一位特征减去各自的平均值来实现平均值,然后计算协方差矩阵,再通过SVD(Singular Value Decomposition,奇异值分解)计算协方差举止的特征值与特征向量,在将特征值从大到小排序,选择其中最大的K个,将其对应的K个特征向量分别作为列向量组成特征向量矩阵,再将数据转换到K个特征向量构建的新空间中。
其中,针对信息量(Information Value,简称IV)计算,首先要计算WOE(weight ofevidence,证据权重),即对于第i组的WOE计算公式如下:
上述公式中是该组中响应客户在该组中的比例,是该组中未响应客户在该组中的比例,yi是该组中响应客户数据量,ni是该组中未响应客户数据量,yT是该组中响应客户总数据量,nT是该组中未响应客户总数据量。在获取了第i组的WOE后通过如下公式计算IV:
需要说明的是,通过上述信息增益率计算方法、主成分分析计算方法和信息量计算方法进行筛选特征变量获得预测能力强的特征组合时,主成分分析处理获得的结果在筛选过程中所占的权重比例最大。
具体地,对通过数据宽表获取的离散特征变量进行信息增益率计算,然后进行信息增益率的排序,并且对离散特征变量进行PCA处理计算,然后根据信息增益率排序结果和PCA结果进行IV计算,根据信息增益率排序结果、PCA结果和IV计算结果得到一维特征变量。例如,根据理财产品营销的业务数据确定样本容量为10000,其中业务数据中特征变量有100个,特征变量有客户的基本信息(例如客户年龄、职业、学历、婚姻状况、违约情况、房贷、个人贷款)、营销反馈信息(例如联系方式、联系时间的月份、联系时间的星期、通话时长)、宏观数据就业变动率、居民消费价格指数、消费者信心指数、银行间同业拆借利率)、过往营销特征(营销联系次数、前次营销间隔、过往营销次数、过往营销是否成功),统计各个特征中响应(购买产品)数量和未响应(未购买产品)数量。然后计算各个特征变量的信息增益率,然后对计算获得的信息增益率进行排序,并且各个特征变通过PCA算法获得计算结果,再结合信息增益率排序结果和PCA计算结果进行IV计算,最后综合信息增益排序结果、PCA结果和IV计算结果获得一维特征变量,该一维特征变量可以为居民消费价格指数、过往营销是否成功、房贷、个人贷款、违约情况、婚姻状况、……、客户年龄、学历。
步骤108,将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量。
具体地,将一维特征变量作为待处理特征变量,然后对该待处理特征变量进行信息增益率计算,根据获得的信息增益率计算结果进行排序,并且对该待处理特征变量进行PCA处理计算,根据信息增益率排序结果和PCA结果进行IV计算,根据信息增益率排序结果、PCA结果和IV计算结果得到筛选特征变量。例如获得的一维特征变量为居民消费价格指数、过往营销是否成功、房贷、个人贷款、违约情况、婚姻状况、……、客户年龄、学历(含有50个),计算该一维特征变量的信息增益率,然后对计算得到的信息增益率进行排序,并且对50个一维特征变量进行PCA计算获得PCA计算结果,再结合信息增益率排序结果和PCA计算结果进行IV计算,最终综合信息增益排序结果、PCA计算结果和IV计算结果获得筛选特征变量,该筛选特征变量可以为居民消费价格指数、过往营销是否成功、房贷、……、消费者信心指数。
步骤110,通过该筛选特征变量进行交叉组合获得特征组合变量。
其中,交叉组合可以为特征变量之间做交、并、补、笛卡尔积运算、暴力交叉等方法。
具体地,通过该筛选特征变量和筛选特征变量进行交叉组合获得特征组合变量。例如,筛选特征变量有10个,即X1、X2、X3、……、X10,分别对应的特征变量为居民消费价格指数、过往营销是否成功、房贷、……、消费者信心指数,则通过交叉组合获得的特征组合变量有[X1,X2]、[X1,X3]、……、[X9,X10],即根据居民消费价格指数和过往营销是否成功经过交叉组合确定为一个特征组合变量,居民消费价格指数和房贷经过交叉组合确定为一个特征组合变量等,此时,获得的特征组合变量为二维组合特征变量。
步骤112,若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量。
具体地,计算获得的特征组合变量的信息增益率,当计算得到的信息增益率不满足预设条件时,将特征组合变量和一维特征变量作为新的待处理特征变量,再对新的待处理特征变量的信息增益率进行排序,并且进行PCA处理计算,根据信息增益率排序结果和PCA结果进行IV计算,根据信息增益率排序结果、PCA结果和IV计算结果得到特征组合变量,例如,在构建理财产品营销模型时,当特征组合变量为[X1,X2]、[X1,X3]、……、[X9,X10],比如[X1,X2]为居民消费价格指数和过往营销是否成功经过交叉组合确定为一个特征组合变量,对每一个特征组合变量计算信息增益率,当计算获得的信息增益率不满足预设条件时,将特征组合变量和一维特征组合变量作为新的待处理特征变量,再对新的待处理特征变量的信息增益率进行排序、进行PCA处理计算,根据信息增益率排序结果和PCA结果进行IV计算,根据信息增益率排序结果、PCA结果和IV计算结果得到特征组合变量,此时特征组合变量为[X1,X2,X3]、[X2,X3,X4]……,(比如[X1,X2,X3]为居民消费价格指数、过往营销是否成功和房贷进行交叉组合获得)。
步骤114,若该特征组合变量的信息增益率满足预设条件,则将该特征组合变量作为该业务数据的目标组合变量。
具体地,计算机设备计算获得的特征组合变量的信息增益率,当计算得到的信息增益率满足预设条件时,将获得的特征组合变量作为该业务数据的目标组合变量,例如,计算特征组合变量[X1,X2]、[X1,X3]、……、[X9,X10]的信息增益率满足预设条件时,将组合特征变量作为该构建理财产品营销模型的目标组合变量,即目标衍生变量,该目标衍生变量是根据两个一维特征变量交叉组合获得,然后将该目标组合变量输入LR模型中得到的模型评估结果,该评估结果得到了较大的提升。
上述业务数据处理方法中,通过从业务数据所在数据库中获取该业务数据的特征变量;根据该特征变量得到离散特征变量;对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量;将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量;通过该筛选特征变量进行交叉组合获得特征组合变量;若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量;若该特征组合变量的信息增益率满足预设条件,则将该特征组合变量作为该业务数据的目标组合变量。因此,能够大大削减预测价值低的衍生变量,提高衍生效率,且能增加特征交叉衍生的作用和效果,从而提升业务模型的预测能力与准确度。
在一个实施例中,在构建电商平台根据用户喜好推荐产品的模型时,从电商平台的数据库中获取业务数据的特征变量,例如不同用户的性别、不同用户的年龄、不同用户的职业、点击电商平台的时刻、浏览电商平台花费的时间段、点击率、页面分享率、页面商品基本信息、客户购买历史、居民消费价格指数等,然后将获得的连续特征变量离散化获得离散特征变量,比如将连续特征变量点击率离散为三个类别的离散特征变量,如可以划分为第一点击率特征变量、第二点击率特征变量、第三点击率特征变量,其中第一点击率特征变量为点击率大于或等于第一点击率阈值的特征变量,即高频点击率特征变量;第二点击率特征变量为点击率大于第二点击率阈值且小于或等于第一点击率阈值的特征变量,即中频点击率特征变量;第三点击率特征变量为点击率大于第三点击率阈值且小于或等于第一点击率阈值的特征变量,即低频点击率特征变量,再通过深度为1的决策树对所有离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算获得一维特征变量,其中获得100个一维特征变量,分别为客户购买A类产品历史、A类产品点击率、B款页面分享率、……、用户性别、点击电商平台的时刻,再将一维特征变量作为待处理的特征变量,再通过深度为2的决策树进行信息增益率排序、主成分分析处理和信息量计算得到筛选特征变量,其中,获得20个筛选特征变量,该筛选特征变量可以为客户A类产品历史、A类产品点击率、……、居民消费价格指数,再通过获得的筛选特征变量进行交叉组合获得特征组合变量,其中,特征组合为筛选特征变量之间的交叉组合,比如将A类产品历史和A类产品点击率的交叉组合获得特征组合变量,若特征组合变量的信息增益率不满足预设条件时,将特征组合变量和一维特征变量作为新的待处理特征变量,再将上一次决策树深度增加一个深度单位获得当前决策树深度,将该新的待处理特征变量输入当前决策树进行信息增益率计算、主成分分析处理和信息量计算得到特征组合变量,当特征组合变量的信息增益率满足预设条件时,该组合特征变量为用户使用电商平台的业务数据的目标组合变量,将该目标组合变量输入到构建的模型中后能够提升增加特征交叉衍生的作用和效果,从而提升电商平台根据用户喜好推荐产品的模型的预测能力与准确度。
在一个实施例中,在构建某款视频APP(Application,应用程序)预测客户喜好推荐视频模型时,可以从该APP的数据库中获取视频属性的特征变量,视频属性可以包括用户性别、用户年龄、用户职业、用户爱好、用户每次使用APP在线时长、用户每周使用视频次数、评论视频次数、播放视频次数、点赞视频次数、分享视频次数等等,其中视频包括不同类型视频,可以是新闻、体育等等,然后将连续特征变量转换为离散特征变量,比如连续特征变量为播放视频次数,可以将播放视频次数特征变量划分为三个类别的离散特征变量,如可以划分为第一播放特征变量、第二播放特征变量和第三播放特征变量,其中,第一播放特征变量为播放次数大于或等于第一播放阈值的特征变量,即高频播放特征变量;第二播放特征变量为播放次数大于第二播放阈值且小于或等于第一播放阈值的特征变量,即中频播放特征变量;第三播放特征变量为播放次数大于第三播放阈值且小于第二播放阈值的特征变量,即低频播放特征变量。再通过深度为1的决策树对所有离散特征变量进行信息增益率计算并排序、主成分分析处理和信息量计算获得一维特征变量,即第一播放特征变量、分享体育特征变量、用户每周使用视频次数、用户评论赛事视频次数、性别、职业等等30个一维特征变量,再通过深度为2的决策树将一维特征变量作为待处理的特征变量,进行信息增益率排序、主成分分析处理和信息量计算得到筛选特征变量,其中,获得的15个筛选特征变量可以为第一播放特征变量、分享体育特征变量、……、用户分享新闻特征变量、用户职业,再将筛选特征变量交叉组合获得组合特征变量,如第一播放特征变量和分享体育特征变量交叉组合获得组合特征变量,若特征组合变量的信息增益率不满足预设条件时,将特征组合变量和一维特征变量作为新的待处理特征变量,再将上一次决策树深度增加一个深度单位获得当前决策树深度,将该新的待处理特征变量输入当前决策树进行信息增益率计算、主成分分析处理和信息量计算得到特征组合变量,当特征组合变量的信息增益率满足预设条件时,该组合特征变量为某视频APP客户观看视频的业务数据的目标组合变量,将该目标组合变量输入到构建的模型中后能够提升增加特征交叉衍生的作用和效果,从而提升该款视频APP预测客户喜好推荐视频模型的预测能力与准确度。
在一个实施例中,根据该特征变量得到离散特征变量,包括:当该特征变量为连续特征变量时,将该连续特征变量转换为离散特征变量。其中,连续特征变量可无限取值,当建立理财产品营销响应模型时采用LR模型建立。当对数据库中的业务数据进行处理,当存在连续特征变量(年龄、通话时长、此次营销联系次数、前次营销间隔、过往营销次数、就业变动率、居民消费价格指数、消费者信心指数、银行间同业拆借利率、就业人数均属于数值型)可以通过分箱将连续特征变量转换为离散特征变量。可以通过使用目标信息来创建箱或间隔的监督方法来实现离散化,针对决策树离散化的监督方法是用待离散化的特征变量作为单一变量放入决策树模型中拟合目标变量,使得信息熵作为判断指标选择最优特征进行划分,将最终返回的概率值作为分箱类别。比如,将连续特征变量就业变动率通过决策树分箱划分为三个区间,即分为第一就业变动率特征变量、第二就业变动率特征变量、第三就业变动率特征变量,其中,第一就业变动率特征变量为就业变动率大于或等于第一就业变动率阈值的特征变量,即高就业变动率特征变量;第二就业变动率特征变量为就业变动率大于第二就业变动率阈值且小于或等于第一就业变动率阈值的特征变量,即中就业变动率特征变量;第三就业变动率特征变量为就业变动率大于第三就业变动率阈值且小于或等于第二就业变动率阈值的特征变量,即低就业变动率特征变量,从而将连续特征变量转换为离散特征变量。其中,使用决策树进行分解包括使用决策树来识别将确定分箱或连续区间的最佳分割点:先通过离散变量来训练有限深度的决策树以预测目标,然后将原始变量值替换为树返回概率,对于单个区间内的所有观察,概率是相同的,因此使用概率替换等同于在决策树决定的截止内对观察结果进行分组。
在本实施例中,将连续特征变量转化为离散特征变量能够更好的进行特征组合和计算,从而易于模型的迭代。
在一个实施例中,如图2所示,对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量,包括:
步骤202,将该离散特征变量输入第一决策树计算该离散特征变量的信息增益率,并对该信息增益率排序获得第一排序特征变量。
其中,决策树为一种树形结构,其每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。通过具有一定深度的决策树进行对应次数的划分,能够筛选出优质特征,并且通过决策树构建树模型的过程中,选取叶子节点以上的子路径的特征进行计算获得对应的特征变量。根据决策树来评价项目的风险和判断项目可行性决策分析方法。
具体地,将离散特征变量输入深度为1的决策树中计算离散特征变量的信息增益率,根据信息增益率进行1次特征划分,再根据信息增益率排序获得第一排序特征变量。例如,将理财产品营销响应模型中年龄、职业、学历等100个特征变量中连续特征变量都转换为离散特征变量后,将100个离散特征变量进行信息增益率计算,并将信息增益率进行排序获得第一排序特征变量,即X1、X2、X3、……、X100,分别对应的特征变量为居民消费价格指数、过往营销是否成功、房贷、……、联系方式。
步骤204,对该离散特征变量进行主成分分析处理获得第一关键特征变量。
具体地,将业务模型中的离散特征变量进行主成分分析计算处理获得第一关键特征变量。例如,将理财产品营销响应模型中100个离散特征变量进行主成分分析计算处理获取9个第一关键特征变量,即X1、X3、X4、X7、X8、X13、X25、X28、X47,分别对应居民消费价格指数、房贷、个人贷款、就业变动率等等,其中利用主成分分析相当于减少了特征变量,但经过主成分分析能够得到涵盖大部分特征信息的特征,能够避免特征稀疏的问题。
步骤206,根据该第一关键特征变量对该第一排序特征变量进行筛选及信息量计算得到一维特征变量,该一维特征变量的维度与该第一决策树的深度一致。
具体地,根据通过进行主成分分析获得第一关键特征变量对第一排序特征变量进行筛选,并且根据筛选后的特征变量进行信息量计算获得一维特征变量,其中,一维特征变量的维度与第一决策树深度一致。例如,基于理财产品的业务数据结合上述步骤获得第一排序特征变量(即X1、X2、X3、……、X100)和第一关键特征变量(即X1、X3、X4、X7、X8、X13、X25、X28、X47),其中根据前文所述,第一排序特征变量为居民消费价格指数、过往营销是否成功、房贷……、联系方式,第一关键特征变量为居民消费价格指数、房贷、个人贷款、就业变动率、职业等等,根据第一关键特征变量对第一排序特征变量进行筛选及信息量计算得到50个一维特征变量,即X1、X2、X3、……、X47、X53、X49、X70。因此,根据第一关键特征变量、第一排序特征变量进行筛选和信息量计算获得一维特征变量减少了特征变量,从而能够为后续交叉组合大大减少运行时间,以此提高组合效率。
在本实施例中,通过第一决策树对离散特征变量的信息增益率进行计算并排序获得第一排序特征变量,再通过主成分分析计算处理获得第一关键特征变量,其中经过主成分分析处理后的第一关键特征变量数量大大减少,能够避免特征稀疏的问题,然后再根据数量降低但能涵盖大部分特征信息的第一关键特征变量对第一排序特征变量进行筛选及信息量计算得到一维特征变量,能够减少后续交叉组合的运行时间,以此提高交叉组合的效率。
在一个实施例中,如图3所示,根据该第一关键特征变量对该第一排序特征变量进行筛选及信息量计算得到一维特征变量,包括:
步骤302,从该第一排序特征变量中获取排名在该第一关键特征变量之前的特征变量,得到第一特征变量,该第一特征变量中包括该第一关键特征变量。
具体地,根据第一排序特征变量中的顺序从该第一排序特征变量中保留排名在第一关键特征变量之前的特征变量,得到第一特征变量,其中第一特征变量中包括第一关键特征变量。例如,基于理财产品的业务数据对离散特征变量进行信息增益计算并排序获得第一排序特征变量,即X1、X2、X3、……、X100,并且根据主成分分析获得第一关键特征变量第一关键特征变量为居民消费价格指数、房贷、个人贷款、就业变动率、职业等等(即X1、X3、X4、X7、X8、X13、X25、X28、X47),然后基于第一关键特征变量,保留第一排序特征变量中与第一关键特征变量相同的9个特征变量,并且获取排名在第一关键特征变量之前的特征变量,也就是说保留第一关键特征变量为营销次数特征变量,即保留X47以前的所有特征变量,最后获得第一特征变量,即X1、X2、X3、X4、X5、X6、X7……、X47。
步骤304,获取该第一排序特征变量中除该第一特征变量之外的剩余特征变量,该剩余特征变量的排名在该第一关键特征变量之后。
具体地,根据第一排序特征变量和获取的第一特征变量,获取该第一排序特征变量中除去第一特征变量之外的剩余特征变量,其中剩余特征变量排序在第一关键特征变量之后。例如,基于理财产品的业务数据获得的第一排序特征变量(即X1、X2、X3、……、X100)和获取的第一特征变量(即X1、X2、X3、X4、X5、X6、X7……、X47),得到剩余特征变量,即X48、X49、X50、……、X100。
步骤306,从该剩余特征变量中获得第二特征变量。
具体地,根据获取的剩余特征变量获取第二特征变量。例如基于理财产品的业务数据获取的剩余特征变量,即X48、X49、X50、……、X100,从剩余特征变量中获得第二特征变量,该第二特征变量为过往营销次数、客户年龄、学历,即X53、X49、X70。
步骤308,将该第一特征变量和该第二特征变量作为一维特征变量。
具体地,根据获得第一特征变量和第二特征变量,将该第一特征变量和第二特征变量组合作为一维特征变量。例如,基于理财产品的业务数据获取第一特征变量(即X1、X2、X3、X4、X5、X6、X7……、X47)和第二特征变量(即X53、X49、X70),将第一特征变量和第二特征变量作为一维特征变量,基于前文所述指代的特征变量,该一维特征变量为居民消费价格指数、过往营销是否成功、房贷、个人贷款、违约情况、婚姻状况、……、客户年龄、学历,即X1、X2、X3、……、X47、X53、X49、X70。
在本实施例中,先从第一排序特征变量中获取排名在第一关键特征变量之前的特征变量,得到第一特征变量,其中第一特征变量中包括第一关键特征变量,然后获取第一排序特征变量中除去第一特征变量之外的剩余特征变量,该剩余特征变量的排名在第一关键特征变量之后,再从剩余变量中获得第二特征变量,最后将该第一特征变量和第二特征变量作为一维特征变量。从而能够获得优质的一维特征变量,便于后续交叉组合所有预测能力强的特征组合,以此提升业务模型的预测能力与准确度。
在一个实施例中,从该剩余特征变量中获得第二特征变量,包括:比较该剩余特征变量的信息量与信息量阈值,将信息量大于信息量阈值的剩余特征变量作为第二特征变量。其中,信息量(IV值)是衡量某一个变量预测能力的大小,如表1所示:
表1信息量值区间与预测能力的关系
如上述表1所示信息量与预测能力的关系,当信息量小于等于0.02是该特征变量没有预测能力,此时需要舍弃,并且当特征变量的信息增益率排序靠后,但信息量在0.3到0.5之间时,重点保留预测能力在0.3到0.5的特征变量。例如,基于理财产品的业务数据获取的剩余特征变量,即X48、X49、X50、……、X100,根据信息量的计算公式计算剩余变量的信息量,然后比较剩余特征变量的信息量与信息量阈值0.02进行比较,若计算获得剩余变量中只有过往营销次数、客户年龄、学历的特征变量大于阈值,即X53、X49、X70的特征变量是大于0.02,虽然特征变量X53、X49、X70的信息增益率排名靠后,但信息量都在0.3到0.5之间,并且X53的IV值大于X49,在实际筛选过程中,由于要重点保留预测能力在0.3到0.5之间的X53、X49、X70。其他剩余特征变量的信息量均小于0.02,即没有预测能力,,最后,将X53、X49、X70作为第二特征变量。
在本实施例中,通过比较剩余变量的信息量与信息量阈值筛选获得具有预测能力的特征变量,从而能够提升模型的预测能力与准确度。
在一个实施例中,如图4所示,将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量,包括:
步骤402,将该一维特征变量作为待处理特征变量,将该待处理特征变量输入第二决策树计算该待处理特征变量的信息增益率,并对该信息增益率排序获得第二排序特征变量。
具体地,将一维特征变量作为待处理特征变量,将待处理特征变量输入深度为2的第二决策树中计算待处理特征变量的信息增益率,根据信息增益率进行2次划分,再根据信息增益率排序获得第二排序特征变量。例如,对理财产品的业务数据进行处理获得一维特征变量,即X1、X2、X3、……、X47、X53、X49、X70,其中包含有50个特征变量。将该一维特征变量作为待处理特征变量输入深度为2的决策树中计算信息增益率,并且根据信息增益率排序获得的第二排序特征变量,基于前文指代的特征变量,第二排序特征变量可以为居民消费价格指数、过往营销是否成功、房贷、…、营销次数、客户年龄、过往营销次数、学历,即X1、X2、X3、……、X47、X49、X53、X70。
步骤404,对该待处理特征变量进行主成分分析处理获得第二关键特征变量。
具体地,将一维特征变量作为待处理的特征变量进行主成分分析计算处理获得第二关键特征变量。例如,对理财产品的业务数据进行处理获得一维特征变量(即X1、X2、X3、……、X47、X53、X49、X70)进行主成分分析计算获取2个第二关键特征变量,即通过主成分分析处理减少特征变量的个数,得到第二关键特征变量就业变动率和银行间同业拆借利率,即X7、X9,通过主成分分析处理再次减少了特征变量,但经过主成分分析处理后得到的特征变量能够包含大部分的特征信息的特征,能够避免特征稀疏的问题。
步骤406,根据该第二关键特征变量对该第二排序特征变量进行筛选及信息量计算得到筛选特征变量,该第二决策树的深度与该筛选特征变量的维度一致。
具体地,根据通过进行主成分分析获得第二关键特征变量对第二排序特征变量进行筛选,根据筛选后的特征变量进行信息量计算获得筛选特征变量,其中,二维组合特征变量的维度与第二决策树深度一致。例如,基于理财产品的业务数据结合上述步骤获得第二排序特征变量(即X1、X2、X3、……、X47、X49、X53、X70)和第二关键特征变量(即X7、X9),保留第二排序特征变量中与第二关键特征变量相同的两个特征变量,并且获取排名在第二关键特征变量之前的特征变量,即保留排名在X9以前的所有特征变量,然后对第二排序特征变量中X9以后的特征变量进行信息量计算,若X10的信息量在0.3到0.5之间,且X10以后的信息量均小于0.02,则获取X10特征变量,最后获得10个筛选特征变量,分别为居民消费价格指数、过往营销是否成功、房贷、……、消费者信心指数,即X1、X2、X3、……、X10。
在本实施例中,将一维特征变量作为待处理特征变量输入深度为2的决策树中计算待处理特征变量的信息增益率,并对信息增益率排序获得第二排序特征变量,然后将待处理特征变量进行主成分分析处理获得第二关键特征变量,最后根据第二关键特征变量对第二排序特征变量进行筛选及信息量计算得到筛选特征变量,从而能够获得更加优质的特征变量,便于后续交叉组合获得预测能力强的特征组合,提高业务模型的预测能力与准确度。
在一个实施例中,如图5所示,预设条件为信息增益率为零;若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量,包括:
步骤502,若该特征组合变量的信息增益率不为零,则将该特征组合变量和一维特征变量作为新的待处理特征变量。
具体地,计算特征组合变量的信息增益率,若该特征组合变量的信息增益不为零,即不满足预设条件时,将该特征组合变量和一维特征变量作为新的待处理特征变量。例如,基于理财产品的业务数据,通过两两交叉组合(比如居民消费价格指数X1与过往营销是否成功X2交叉组合获得组合变量[X1,X2])获取的特征组合变量有[X1,X2]、[X1,X3]、……、[X9,X10],并且一维特征变量有X1、X2、X3、……、X47、X53、X49、X70,将特征组合变量和一维特征变量作为新的待处理特征变量,即[X1,X2]、[X1,X3]、……、[X9,X10]、X1、X2、X3、……、X47、X53、X49、X70。
步骤504,将上一次决策树深度增加一个深度单位获得当前决策树的深度,并将该新的待处理特征变量输入该当前决策树计算该新的待处理特征变量的信息增益率。
具体地,将上一次决策树深度增加一个深度单位获得当前决策树的深度,即上一次决策树与当前决策树的深度相差1。将新的待处理特征变量输入当前决策树计算新的待处理特征变量的信息增益率。例如,将基于理财产品的业务数据获得的新的待处理特征变量(即[X1,X2]、[X1,X3]、……、[X9,X10]、X1、X2、X3、……、X47、X53、X49、X70)输入第三决策树中计算信息增益率。
步骤506,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合获得特征组合变量,该特征组合变量维度与该当前决策树的深度一致。
具体地,将新的待处理特征变量输入一定深度决策树计算得到的信息增益率,并进行信息增益率排序、主成分分析处理、信息量计算和交叉组合获得对应维度的特征组合变量,即该特征组合变量维度与当前决策树深度一致。例如,将上述新的待处理特征变量[X1,X2]、[X1,X3]、……、[X9,X10]、X1、X2、X3、……、X47、X53、X49、X70进行信息增益率排序、主成分分析处理、信息量计算和交叉组合后获得三维组合特征变量,如获得三维组合特征变量为[X1,X2,X3]、[X2,X3,X4]……,其中,基于前文所述指代的特征变量含义,X1和X2和X3分别表示居民消费价格指数、过往营销是否成功、房贷,组合特征变量[X1,X2,X3]表示为特征变量X1和X2和X3交叉组合获得。
在本实施例中,当特征组合变量的信息增益率不为零时,首先将特征组合变量和一维特征变量作为新的待处理特征变量,然后将上一次决策树深度增加一个深度单位获得当前决策树深度,并将新的待处理特征变量输入当前决策树计算新的待处理特征变量的信息增益率,最后对新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合或的特征组合变量,依次迭代完成所有的特征交叉组合以衍生获得所有优质的特征组合,使得衍生获得的所有优质的特征组合在LR模型中获得的KS值为0.43,相对于在没有衍生获得特征组合时通过LR模型构建理财产品营销响应模型获得的KS值为0.32,衍射获得的所有优质的特征组合具有更好的拟合效果,能够提高模型评估指标的值,从而提升业务模型的预测能力与准确度。
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种业务数据处理装置,该装置600包括:第一特征获取模块602、第二特征获取模块604、第一处理模块606、第二处理模块608、组合模块610和判定模块612,其中:
第一特征获取模块602,用于从业务数据所在数据库中获取该业务数据的特征变量。
第二特征获取模块604,用于根据该特征变量得到离散特征变量。
第一处理模块606,用于对该离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量。
第二处理模块608,用于将该一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量。
组合模块610,用于通过该筛选特征变量进行交叉组合获得特征组合变量。
该第二处理模块608还用于若该特征组合变量的信息增益率不满足预设条件,则将该特征组合变量和一维特征变量作为新的待处理特征变量,对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量。
判定模块612,用于若该特征组合变量的信息增益率满足预设条件,则将该特征组合变量作为该业务数据的目标组合变量。
在一个实施例中,该第二特征获取模块604,具体用于当该特征变量为连续特征变量时,将该连续特征变量转换为离散特征变量。
在一个实施例中,该第一处理模块606,具体用于将该离散特征变量输入第一决策树计算该离散特征变量的信息增益率,并对该信息增益率排序获得第一排序特征变量;对该离散特征变量进行主成分分析处理获得第一关键特征变量;根据该第一关键特征变量对该第一排序特征变量进行筛选及信息量计算得到一维特征变量,该一维特征变量的维度与该第一决策树的深度一致。
在一个实施例中,该第一处理模块606,具体用于从该第一排序特征变量中获取排名在该第一关键特征变量之前的特征变量,得到第一特征变量,该第一特征变量中包括该第一关键特征变量;获取该第一排序特征变量中除该第一特征变量之外的剩余特征变量,该剩余特征变量的排名在该第一关键特征变量之后;从该剩余特征变量中获得第二特征变量;将该第一特征变量和该第二特征变量作为一维特征变量。
在一个实施例中,该第一处理模块606,具体用于比较该剩余特征变量的信息量与信息量阈值,将信息量大于信息量阈值的剩余特征变量作为第二特征变量。
在一个实施例中,该第二处理模块608,具体用于将该一维特征变量作为待处理特征变量,将该待处理特征变量输入第二决策树计算该待处理特征变量的信息增益率,并对该信息增益率排序获得第二排序特征变量;对该待处理特征变量进行主成分分析处理获得第二关键特征变量;根据该第二关键特征变量对该第二排序特征变量进行筛选及信息量计算得到筛选特征变量,该第二决策树的深度与该筛选特征变量的维度一致。
在一个实施例中,该第二处理模块608,具体用于若该特征组合变量的信息增益率不为零,则将该特征组合变量和一维特征变量作为新的待处理特征变量;将上一次决策树深度增加一个深度单位获得当前决策树的深度,并将该新的待处理特征变量输入该当前决策树计算该新的待处理特征变量的信息增益率;对该新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合获得特征组合变量,该特征组合变量维度与该当前决策树的深度一致。
关于业务数据处理装置的具体限定可以参见上文中对于业务数据处理方法的限定,在此不再赘述。上述业务数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种业务数据处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种业务数据处理方法,其特征在于,所述方法包括:
从业务数据所在数据库中获取所述业务数据的特征变量;
根据所述特征变量得到离散特征变量;
对所述离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量;
将所述一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量;
通过所述筛选特征变量进行交叉组合获得特征组合变量;
若所述特征组合变量的信息增益率不满足预设条件,则将所述特征组合变量和一维特征变量作为新的待处理特征变量,对所述新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量;
若所述特征组合变量的信息增益率满足预设条件,则将所述特征组合变量作为所述业务数据的目标组合变量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征变量得到离散特征变量,包括:
当所述特征变量为连续特征变量时,将所述连续特征变量转换为离散特征变量。
3.根据权利要求1所述的方法,其特征在于,所述对所述离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量,包括:
将所述离散特征变量输入第一决策树计算所述离散特征变量的信息增益率,并对所述信息增益率排序获得第一排序特征变量;
对所述离散特征变量进行主成分分析处理获得第一关键特征变量;
根据所述第一关键特征变量对所述第一排序特征变量进行筛选及信息量计算得到一维特征变量,所述一维特征变量的维度与所述第一决策树的深度一致。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一关键特征变量对所述第一排序特征变量进行筛选及信息量计算得到一维特征变量,包括:
从所述第一排序特征变量中获取排名在所述第一关键特征变量之前的特征变量,得到第一特征变量,所述第一特征变量中包括所述第一关键特征变量;
获取所述第一排序特征变量中除所述第一特征变量之外的剩余特征变量,所述剩余特征变量的排名在所述第一关键特征变量之后;
从所述剩余特征变量中获得第二特征变量;
将所述第一特征变量和所述第二特征变量作为一维特征变量。
5.根据权利要求4所述的方法,其特征在于,所述从所述剩余特征变量中获得第二特征变量,包括:
比较所述剩余特征变量的信息量与信息量阈值,将信息量大于信息量阈值的剩余特征变量作为第二特征变量。
6.根据权利要求1所述的方法,其特征在于,所述将所述一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量,包括:
将所述一维特征变量作为待处理特征变量,将所述待处理特征变量输入第二决策树计算所述待处理特征变量的信息增益率,并对所述信息增益率排序获得第二排序特征变量;
对所述待处理特征变量进行主成分分析处理获得第二关键特征变量;
根据所述第二关键特征变量对所述第二排序特征变量进行筛选及信息量计算得到筛选特征变量,所述第二决策树的深度与所述筛选特征变量的维度一致。
7.根据权利要求1所述的方法,其特征在于,所述预设条件为信息增益率为零;所述若所述特征组合变量的信息增益率不满足预设条件,则将所述特征组合变量和一维特征变量作为新的待处理特征变量,对所述新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量,包括:
若所述特征组合变量的信息增益率不为零,则将所述特征组合变量和一维是特征变量作为新的待处理特征变量;
将上一次决策树深度增加一个深度单位获得当前决策树的深度,并将所述新的待处理特征变量输入所述当前决策树计算所述新的待处理特征变量的信息增益率;
对所述新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合获得特征组合变量,所述特征组合变量维度与所述当前决策树的深度一致。
8.一种业务数据处理装置,其特征在于,所述装置包括:
第一特征获取模块,用于从业务数据所在数据库中获取所述业务数据的特征变量;
第二特征获取模块,用于根据所述特征变量得到离散特征变量;
第一处理模块,用于对所述离散特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到一维特征变量;
第二处理模块,用于将所述一维特征变量作为待处理特征变量,对待处理特征变量的信息增益率进行排序、主成分分析处理和信息量计算,得到筛选特征变量;
组合模块,用于通过所述筛选特征变量进行交叉组合获得特征组合变量;
所述第二处理模块还用于若所述特征组合变量的信息增益率不满足预设条件,则将所述特征组合变量和一维特征变量作为新的待处理特征变量,对所述新的待处理特征变量进行信息增益率排序、主成分分析处理、信息量计算和交叉组合以得到特征组合变量;
判定模块,用于若所述特征组合变量的信息增益率满足预设条件,则将所述特征组合变量作为所述业务数据的目标组合变量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441885.9A CN115222177A (zh) | 2021-04-23 | 2021-04-23 | 业务数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441885.9A CN115222177A (zh) | 2021-04-23 | 2021-04-23 | 业务数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222177A true CN115222177A (zh) | 2022-10-21 |
Family
ID=83606129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110441885.9A Pending CN115222177A (zh) | 2021-04-23 | 2021-04-23 | 业务数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222177A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544902A (zh) * | 2022-11-29 | 2022-12-30 | 四川骏逸富顿科技有限公司 | 药店风险等级识别模型生成方法及药店风险等级识别方法 |
-
2021
- 2021-04-23 CN CN202110441885.9A patent/CN115222177A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544902A (zh) * | 2022-11-29 | 2022-12-30 | 四川骏逸富顿科技有限公司 | 药店风险等级识别模型生成方法及药店风险等级识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111815415B (zh) | 一种商品推荐方法、***及设备 | |
CN110503531B (zh) | 时序感知的动态社交场景推荐方法 | |
Kant et al. | Merging user and item based collaborative filtering to alleviate data sparsity | |
CN106251174A (zh) | 信息推荐方法及装置 | |
US20190213194A1 (en) | System and method for information recommendation | |
Maldonado et al. | Advanced conjoint analysis using feature selection via support vector machines | |
Kim et al. | Recommendation system for sharing economy based on multidimensional trust model | |
Wang et al. | Modeling uncertainty to improve personalized recommendations via Bayesian deep learning | |
Ben-Shimon et al. | An ensemble method for top-N recommendations from the SVD | |
CN112070559A (zh) | 状态获取方法和装置、电子设备和存储介质 | |
Al-Otaibi et al. | Hybrid immunizing solution for job recommender system | |
Choi et al. | Quality evaluation and best service choice for cloud computing based on user preference and weights of attributes using the analytic network process | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN111475744A (zh) | 一种基于集成学习的个性化位置推荐方法 | |
Chen et al. | DPM-IEDA: dual probabilistic model assisted interactive estimation of distribution algorithm for personalized search | |
CN111178986A (zh) | 用户-商品偏好的预测方法及*** | |
CN115222177A (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
Guan et al. | Enhanced SVD for collaborative filtering | |
Lilhore et al. | Hybrid weighted random forests method for prediction & classification of online buying customers | |
Kilani et al. | Using artificial intelligence techniques in collaborative filtering recommender systems: Survey | |
Gao et al. | [Retracted] Construction of Digital Marketing Recommendation Model Based on Random Forest Algorithm | |
Saha et al. | A modified Brown and Gibson model for cloud service selection | |
CN113269610A (zh) | 银行产品的推荐方法、装置及存储介质 | |
Mendikowski et al. | Creating customers that never existed: Synthesis of e-commerce data using CTGAN | |
Satu et al. | Modeling online customer purchase intention behavior applying different feature engineering and classification techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |