CN108510003A - 车联网大数据风控组合特征提取方法、装置及存储介质 - Google Patents
车联网大数据风控组合特征提取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN108510003A CN108510003A CN201810296845.8A CN201810296845A CN108510003A CN 108510003 A CN108510003 A CN 108510003A CN 201810296845 A CN201810296845 A CN 201810296845A CN 108510003 A CN108510003 A CN 108510003A
- Authority
- CN
- China
- Prior art keywords
- feature
- car networking
- air control
- assemblage characteristic
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种车联网大数据风控组合特征提取方法,包括以下步骤:通过获取车联网用户的基础数据,并根据所述基础数据生成初始特征集,计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集,然后提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集,进一步地,根据上述迭代过程,输出符合预设阶数的高阶组合特征。本发明还公开了一种车联网大数据风控组合特征提取装置及存储介质。本发明通过获取笛卡尔乘积的方法构造线性和非线性特征,以提高风控结果的准确性。
Description
技术领域
本发明涉及大数据风控技术领域,尤其涉及车联网大数据风控组合特征提取方法、装置及存储介质。
背景技术
金融风控是当前大数据技术应用最突出的领域之一,借助大数据金融风控可以准确识别逾期用户、评价用户逾期风险,帮助公司、机构在贷前评定用户信用等级、贷中实时监控用户风险趋势及贷后预测用户逾期风险,防控整个金融借贷过程中的未知风险、降低贷款逾期率。
车联网中存在用户图像信息和丰富的行车信息,可以收集用于用户信用评定、用户风险评定及风险预测的基础数据。但是这些数据的特征一般达到数百、甚至上千维,需要采用合理、有效的方法进行特征提取,过滤掉冗余、信息量较低及无效的特征,以筛选出数据集的最佳表达特征。
在现有技术中,通常采用过滤式、“模型+策略”或深度学习的方法,实现特征提取的目的,但过滤式方法只能计量两个特征之间的变化关系,无法衡量多个特征间的联系;“模型+策略”方法只能根据特定问题构造特定的组合特征,不具备通用性与可扩展性,无法满足多任务的要求;深度学习方法的实现过程采用“黑盒”处理方法,无法得到具有良好解释性的组合特征,对于模型最终的输出结果无法从初始特征的角度进行说明。
发明内容
本发明的主要目的在于提供一种车联网大数据风控组合特征提取方法、装置及存储介质,旨在解决衡量多维特征间的联系时,无法从初始特征的角度进行说明的技术问题。
为实现上述目的,本发明提供一种车联网大数据风控组合特征提取方法,所述车联网大数据风控组合特征提取方法包括以下步骤:
获取车联网用户的基础数据,并根据所述基础数据生成初始特征集;
计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集;
提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集;
根据上述迭代过程,输出符合预设阶数的高阶组合特征。
优选地,所述获取车联网用户的基础数据,并根据所述基础数据生成初始特征集的步骤包括:
获取车联网用户基础数据;
通过统计方法计算所述基础数据的离散程度、分布情况及变化趋势,并结合时间维度,生成基础数据特征;
根据所述基础数据特征生成初始特征集。
优选地,所述选取所述二阶组合特征集中符合预设要求的组合特征,生成二阶候选特征集的步骤包括:
通过预定算法获取所述二阶组合特征集中的所述二阶组合特征的性能指标;
提取所述性能指标满足预设阈值的所述二阶组合特征,组成所述二阶候选特征集。
优选地,所述通过预定算法获取所述二阶组合特征集中的所述二阶组合特征的性能指标的步骤包括:
通过回归算法获取所述二阶组合特征集中的所述二阶组合特征的分类能力,或通过机器学习分类算法获取所述二阶组合特征集中的所述二阶组合特征的预测能力。
优选地,所述候选特征集由上一次迭代的笛卡尔积中符合预设条件的所述组合特征组成。
优选地,根据上述迭代过程,输出符合预设要求的高阶组合特征的步骤包括:
在生成一个所述候选特征集时,判断所述候选特征集中的组合特征是否达到预设阶数;
在达到所述预设阶数时,输出所述候选特征集中的组合特征。
优选地,所述根据上述迭代过程,输出符合预设要求的高阶组合特征的步骤之后,还包括:
将所述达到预设阶数要求的高阶组合特征输入风控模型中;
输出风险评定及/或风险预测结果。
此外,为实现上述目的,本发明还提供一种车联网大数据风控组合特征提取装置,其特征在于,所述车联网大数据风控组合特征提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征提取程序,所述特征提取程序被所述处理器执行时实现如上所述的车联网大数据风控组合特征提取方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,其特征在于,所述存储介质上存储有特征提取程序,所述特征提取程序被处理器执行时实现如上所述的车联网大数据风控组合特征提取方法的步骤。
本发明实施例提出的一种车联网大数据风控组合特征提取方法、装置及存储介质,通过获取车联网用户的基础数据,并根据所述基础数据生成初始特征集,然后计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集,进一步地,提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集,最后根据上述迭代过程,输出符合预设阶数的高阶组合特征。由于每一次提升组合特征的复杂度(即阶数)时,都是以初始特征为基础,这样既提高了组合特征的复杂度,又可以从初始特征的角度对组合特征进行解释。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明车联网大数据风控组合特征提取方法第一实施例的流程示意图;
图3为本发明车联网大数据风控组合特征提取方法第二实施例的流程示意图;
图4为本发明车联网大数据风控组合特征提取方法第三实施例的流程示意图;
图5为本发明车联网大数据风控组合特征提取方法第四实施例的流程示意图;
图6为本发明车联网大数据风控组合特征提取方法第五实施例的流程示意图;
图7为本发明车联网大数据风控组合特征提取方法第六实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:
获取车联网用户的基础数据,并根据所述基础数据生成初始特征集;
计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集;
提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集;
根据上述迭代过程,输出符合预设阶数的高阶组合特征。
由于现有技术提取特征的方法通常为过滤式方法和深度学习方法,过滤式方法只能计量两个特征之间的变化关系,无法衡量多个特征间的联系,而深度学习方法最终的输出结果无法从初始特征的角度进行说明,因而无法提取可从初始特征角度进行解释的高复杂度组合特征。
本发明提供一种解决方案,通过获取车联网用户的基础数据,并根据所述基础数据生成初始特征集,然后计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集,进一步地,提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集,最后根据上述迭代过程,输出符合预设阶数的高阶组合特征。由于每一次提升组合特征的复杂度(即阶数)时,都是以初始特征为基础,这样既提高了组合特征的复杂度,又可以从初始特征的角度对组合特征进行解释。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是便携计算机或服务器等终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、鼠标等,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及特征提取程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的特征提取程序,并执行以下操作:
获取车联网用户的基础数据,并根据所述基础数据生成初始特征集;
计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集;
提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集;
根据上述迭代过程,输出符合预设阶数的高阶组合特征。
进一步地,处理器1001可以调用存储器1005中存储的特征提取程序,还执行以下操作:
获取车联网用户基础数据;
通过统计方法计算所述基础数据的离散程度、分布情况及变化趋势,并结合时间维度,生成基础数据特征;
根据所述基础数据特征生成初始特征集。
进一步地,处理器1001可以调用存储器1005中存储的特征提取程序,还执行以下操作:
通过预定算法获取所述二阶组合特征集中的所述二阶组合特征的性能指标;
提取所述性能指标满足预设阈值的所述二阶组合特征,组成所述二阶候选特征集。
进一步地,处理器1001可以调用存储器1005中存储的特征提取程序,还执行以下操作:
通过回归算法获取所述二阶组合特征集中的所述二阶组合特征的分类能力,或通过机器学习分类算法获取所述二阶组合特征集中的所述二阶组合特征的预测能力。
进一步地,处理器1001可以调用存储器1005中存储的特征提取程序,还执行以下操作:
在生成一个所述候选特征集时,判断所述候选特征集中的组合特征是否达到预设阶数;
在达到所述预设阶数时,输出所述候选特征集中的组合特征。
进一步地,处理器1001可以调用存储器1005中存储的特征提取程序,还执行以下操作:
将所述达到预设阶数要求的高阶组合特征输入风控模型中;
输出风险评定及/或风险预测结果。
参照图2,本发明车联网大数据风控组合特征提取方法第一实施例,所述车联网大数据风控组合特征提取方法包括:
步骤S10,获取车联网用户的基础数据,并根据所述基础数据生成初始特征集;
在本实施例中,基础数据来源于车联网,其中,基础数据可以包括车联网用户的年龄、性别、地区、车辆的品牌及/或车辆的颜色等个人信息数据,上述基础数据还可以包括位置信息、行车轨迹、行车时段、常驻地点及/或车载设备安装情况等行车数据。在或取到基础数据后,对上述基础数据进行处理,以生成初始特征集。
具体地,在获取到用户的基础数据时,通过统计方法处理所述基础数据。比如,计算众数、平均数表征数据的集中趋势,计算方差、标准系数表征数据的离散程度,计算偏态和顺势指标表征数据的分布情况和变化趋势。再结合不同的时间维度,以获取高维度基础数据特征。再根据所述基础数据特征生成初始特征集。
步骤S20,计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集;
在本实施例中,通过计算所述初始特征集与自身的笛卡尔乘积,以获取二阶组合特征集。
具体地,假定Feature_set代表所述初始特征,获取初始特征集与自身的笛卡尔乘积,即{Feature_set}×{Feature_set},生成二阶组合特征Cset。
步骤S30,提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集;
在本实施例中,选择上述二阶组合特征Cset中满足预设条件的二阶组合特征作为候选特征Top-K_set,再计算由Top-K_set组成的候选特征集与由Feature_set组成的初始特征集的笛卡尔乘积{Top-K_set}×{Feature_set},以获取三阶组合特征。
步骤S40,根据上述迭代过程,输出符合预设阶数的高阶组合特征。
在本实施例中,每一次迭代后,获得更高一阶的组合特征。当要输出m阶组合特征时,根据上述步骤S20和步骤S30所述的过程,在经过m-1次迭代后,输出m阶组合特征。
在第一实施例中,先通过车联网获取初始特征,再以计算笛卡尔积的方式提升初始特征的阶数(即复杂度),以获得高阶组合特征。这样,实现了关联多个特征计算风控预测结果,并且风控预测结果可从初始特征的角度进行解释。
进一步地,参照图3,本发明车联网大数据风控组合特征提取方法第二实施例,基于上述第一实施例,所述步骤S10包括:
步骤S11,获取车联网用户基础数据;
在本实施例中,基础数据来源于车联网,通过数据采集及处理,可以从车联网的购车贷前申请数据中获取个人基本信息及车辆信息,包括用户的年龄、性别、所在地区及所购车辆的品牌、颜色等,还可以获取贷款金额、分期数等金融数据;根据车联网用户贷后的用车数据,可以挖掘出用户的用车时段、行程、常驻地点及行驶轨迹等。
步骤S12,通过统计方法计算所述基础数据的离散程度、分布情况及变化趋势,并结合时间维度,生成基础数据特征;
在本实施例中,对上述基础数据的数据采用统计方法,比如计算众数、平均数表征基础数据的的集中趋势,计算方差、标准系数表征基础数据的离散程度,计算偏态和顺势指标表征基础数据的分布情况和变化趋势等,再在结合不同的时间维度,可以挖掘出高维度的基础数据特征。
步骤S13,根据所述基础数据特征生成初始特征集。
在本实施例中,通过步骤S11、S12挖掘出高维度的基础数据特征后,可以采用递归特征消除(Recursive Feature Elimination)贪心算法和PCA获取初始特征集。
具体地,比如采用PCA降维算法获取初始特征集可以根据如下方法进行:
从数据D中提取n个样本x1,x2,…,xn,xi∈Rp,构成如下数据矩阵:
其中,D代表上述基础数据特征集。
令yj=(x1j,x2j,…,xnj)表示X的列项量(j=1,2,…,p),则所有向量组成的线性组合可以表示为:
Fl=al1y1+al2y2+L+alpyp
其中,系数al=(al1,al2,L,alp),满足以下条件:
(1)即单位向量;
(2)cov(Fl,Ft)=0,线性组合不相关。
其中,F1为第一主成分,表示所有线性组合中方差最大的线性组合,以此类推,F2为第二主成分。通过计算系数矩阵的特征值得到主成分方差贡献,方差贡献与主成分对基础数据的解释程度成正比。另外,PCA方法在实现降维的同时,能够生成相互独立的特征。
RFE底层模型使用L2/Ridge正则化的线性回归,即损失函数添加正则化约束,其计算公式如下:
其中T=αI,I为单位矩阵。通过添加正则化,提取稳定的最优特征子集,以作为初始特征。
在第二实施例中,从车联网获取基础数据,再通过统计方法对基础数据进行计算,进一步地,从所述基础数据特征提取最优特征子集作初始特征,这样就从车联网中获取了可以用于预测用户风险的初始特征,保障了风控模型源数据的可靠性。
进一步地,参照图4,本发明车联网大数据风控组合特征提取方法第三实施例,基于上述第一至第二实施例,所述步骤S30包括:
步骤S31,通过预定算法获取所述二阶组合特征集中的所述二阶组合特征的性能指标;
在本实施中,获取上述初始特征集与自身的笛卡尔乘积后,进一步地,得到了二阶组合特征,在获得上述二阶组合特征后,选取底层模型作为迭代过程中最优特征的弱筛选器,比如采用线性回归和因子分解机模型,获取所述二阶组合特征的表征性排序,或者根据筛弱器的预测或分类输出结果,计算对应二阶组合特征集的AUC值,排序选取前K个最优作为该阶生成的组合特征,筛弱器的分类或预测结果即为新的组合特征向量。
需要说明的是,上述性能指标表可以包括分类能力,也可以包括预测能力,以此来判断上传二阶组合特征的表征性。
步骤S32,提取所述性能指标满足预设阈值的所述二阶组合特征,组成所述二阶候选特征集。
在本实施例中,选取上述表征性排序中的前K个二阶组合特征,作为二阶候选特征Top-K_set。
需要说明的是,在每一次迭代过后,都会对获得的高阶组合特征进行选优操作,以组成候选特征集。
在第三实施例中,先选取底层模型作为迭代过程中最优特征的筛弱器,以提取上一次迭代产生的高阶组合特征组成候选特征集,这样达到有效的剪枝目的,避免进行低效率的全局搜索。
进一步地,参照图5,本发明车联网大数据风控组合特征提取方法第四实施例,基于上述第一至第三实施例,所述步骤S31包括:
步骤S311,通过回归算法获取所述二阶组合特征集中的所述二阶组合特征的分类能力,或通过机器学习分类算法获取所述二阶组合特征集中的所述二阶组合特征的预测能力。
在本实施例中,为实现提取同阶最优组合特征,组成候选特征集的目的,可以通过回归算法获取所述二阶组合特征集中的所述二阶组合特征的分类能力,或通过机器学习分类算法获取所述二阶组合特征集中的所述二阶组合特征的预测能力。以确定可以提取组成候选特征集的目标组合特征。
具体地,比如因子分解机具有处理稀疏数据的能力,通过应用隐因子变量,有助于挖掘出特征之间的复杂的关联性。假设x∈Rp表示因子分解机模型的p维实值特征向量,则2维因子分解机模(FMs)可定义为:
其中模型参数,ω0∈R,ω0∈w∈Rp,vi∈V∈Rp×k(i=1,…,p,j=1,…,p),参数集Θ={ω0,w,V}。FMs类似于n元二次回归模型,因此能够反映出特征之间交叉作用效果,适用于组合特征筛选,并且其计算复杂度降至线性程度,也有利于针对大规模数据集进行特征组合。在组合特征生成过程中,使用AUC作为衡量候选特征子集性能的指标,阈值ε选取AUC均值,其中,ε可以根据以下公式:
Featureoptimal={f∈Featurecandidate:fAUC>ε}
然后,提取优于AUC均值的高阶组合特征,组成候选特征集。
在第四实施例中,获取同阶最优组合特征组成候选特征集,这样实现了有效的剪枝目的,避免了低效率的全局搜索。
进一步地,参照图6,本发明车联网大数据风控组合特征提取方法第五实施例,基于上述第一至第四实施例,所述步骤S40包括:
步骤S41,在生成一个所述候选特征集时,判断所述候选特征集中的组合特征是否达到预设阶数;
在本实施例中,当生成一个候选特征集时,将所述候选特征集中的组合特征的阶数与预设阶数m作比较,当上述候选特征集中的组合特征的阶数等于或者大于m时,判定所述候选特征集中的组合特征阶数达到预设阶数。
步骤S42,在达到所述预设阶数时,输出所述候选特征集中的组合特征。
在本实施例中,当判定上述候选特征集中的组合特征达到预设阶数时,将所述候选特征集中的组合特征输出且保存至存储介质中,并停止迭代过程。然后再将输出的达到预设阶数的组合特征输入风控模型中。
在第五实施例中,先判断候选特征集中的组合特征是否达到预设阶数,当判定所述组合特征达到预设阶数时,输出所述候选特征集中的组合特征,这样,保障了输出的组合特征的复杂度为预设复杂度,也确定了迭代过程的停止终点。
进一步地,参照图7,本发明车联网大数据风控组合特征提取方法第六实施例,基于上述第一至第五实施例,所述步骤S40之后,还包括:
步骤S50,将所述达到预设阶数要求的高阶组合特征输入风控模型中;
在本实施例中,将上述步骤S42中输出的达到预设复杂度(即阶数)的组合特征输入风控模型中,通过风控模型对所述达到预设复杂度的组合特征的计算,得出与之对应的风险评定及/或风险预测结果。
步骤S60,输出风险评定及/或风险预测结果。
控制用户接口模块输出所述风险评定及/或风险预测结果,在需要从初始特征角度对所述风险评定及/或风险预测结果进行解释时,从存储介质中调用与之对应的组合特征,以对结果进行解释。
此外,本发明实施例还提出一种车联网大数据风控组合特征提取装置,所述车联网大数据风控组合特征提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征提取程序,所述特征提取程序被所述处理器执行时实现如上各个实施例所述的车联网大数据风控组合特征提取方法的步骤。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有特征提取程序,所述特征提取程序被处理器执行时实现如上各个实施例所述的车联网大数据风控组合特征提取方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种车联网大数据风控组合特征提取方法,其特征在于,所述车联网大数据风控组合特征提取方法包括以下步骤:
获取车联网用户的基础数据,并根据所述基础数据生成初始特征集;
计算所述初始特征集与自身的笛卡尔积,并生成二阶组合特征集;
提取所述二阶组合特征集中符合预设条件的二阶组合特征,组成二阶候选特征集,并计算所述二阶候选特征集与所述初始特征集的笛卡尔积,以生成三阶组合特征集;
根据上述迭代过程,输出符合预设阶数的高阶组合特征。
2.如权利要求1所述的车联网大数据风控组合特征提取方法,其特征在于,所述获取车联网用户的基础数据,并根据所述基础数据生成初始特征集的步骤包括:
获取车联网用户基础数据;
通过统计方法计算所述基础数据的离散程度、分布情况及变化趋势,并结合时间维度,生成基础数据特征;
根据所述基础数据特征生成初始特征集。
3.如权利要求1所述的车联网大数据风控组合特征提取方法,其特征在于,所述选取所述二阶组合特征集中符合预设要求的组合特征,生成二阶候选特征集的步骤包括:
通过预定算法获取所述二阶组合特征集中的所述二阶组合特征的性能指标;
提取所述性能指标满足预设阈值的所述二阶组合特征,组成所述二阶候选特征集。
4.如权利要求3所述的车联网大数据风控组合特征提取方法,其特征在于,所述通过预定算法获取所述二阶组合特征集中的所述二阶组合特征的性能指标的步骤包括:
通过回归算法获取所述二阶组合特征集中的所述二阶组合特征的分类能力,或通过机器学习分类算法获取所述二阶组合特征集中的所述二阶组合特征的预测能力。
5.如权利要求1所述的车联网大数据风控组合特征提取方法,其特征在于,所述候选特征集由上一次迭代的笛卡尔积中符合预设条件的所述组合特征组成。
6.如权利要求1所述的车联网大数据风控组合特征提取方法,其特征在于,根据上述迭代过程,输出符合预设要求的高阶组合特征的步骤包括:
在生成一个所述候选特征集时,判断所述候选特征集中的组合特征是否达到预设阶数;
在达到所述预设阶数时,输出所述候选特征集中的组合特征。
7.如权利要求1所述的车联网大数据风控组合特征提取方法,其特征在于,所述根据上述迭代过程,输出符合预设要求的高阶组合特征的步骤之后,还包括:
将所述达到预设阶数要求的高阶组合特征输入风控模型中;
输出风险评定及/或风险预测结果。
8.一种车联网大数据风控组合特征提取装置,其特征在于,所述车联网大数据风控组合特征提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征提取程序,所述特征提取程序被所述处理器执行时实现如权利要求1至7中任一项所述的车联网大数据风控组合特征提取方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有特征提取程序,所述特征提取程序被处理器执行时实现如权利要求1至7中任一项所述的车联网大数据风控组合特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810296845.8A CN108510003A (zh) | 2018-03-30 | 2018-03-30 | 车联网大数据风控组合特征提取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810296845.8A CN108510003A (zh) | 2018-03-30 | 2018-03-30 | 车联网大数据风控组合特征提取方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108510003A true CN108510003A (zh) | 2018-09-07 |
Family
ID=63380389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810296845.8A Pending CN108510003A (zh) | 2018-03-30 | 2018-03-30 | 车联网大数据风控组合特征提取方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108510003A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414786A (zh) * | 2019-06-21 | 2019-11-05 | 深圳壹账通智能科技有限公司 | 风控评分的测试方法、装置、设备及可读存储介质 |
CN110569271A (zh) * | 2019-09-17 | 2019-12-13 | 第四范式(北京)技术有限公司 | 用于抽取特征的数据处理方法和*** |
CN111782932A (zh) * | 2019-12-03 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 数据关联的建立方法、装置和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2724323A1 (de) * | 2011-06-21 | 2014-04-30 | Bundesdruckerei GmbH | Verfahren und vorrichtung zum erstellen eines dokumentenreferenzdatensatzes anhand eines dokumentes |
CN107392319A (zh) * | 2017-07-20 | 2017-11-24 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及*** |
CN107704871A (zh) * | 2017-09-08 | 2018-02-16 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及*** |
-
2018
- 2018-03-30 CN CN201810296845.8A patent/CN108510003A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2724323A1 (de) * | 2011-06-21 | 2014-04-30 | Bundesdruckerei GmbH | Verfahren und vorrichtung zum erstellen eines dokumentenreferenzdatensatzes anhand eines dokumentes |
CN107392319A (zh) * | 2017-07-20 | 2017-11-24 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及*** |
CN107704871A (zh) * | 2017-09-08 | 2018-02-16 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414786A (zh) * | 2019-06-21 | 2019-11-05 | 深圳壹账通智能科技有限公司 | 风控评分的测试方法、装置、设备及可读存储介质 |
CN110569271A (zh) * | 2019-09-17 | 2019-12-13 | 第四范式(北京)技术有限公司 | 用于抽取特征的数据处理方法和*** |
CN110569271B (zh) * | 2019-09-17 | 2022-11-15 | 第四范式(北京)技术有限公司 | 用于抽取特征的数据处理方法和*** |
CN111782932A (zh) * | 2019-12-03 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 数据关联的建立方法、装置和计算机可读存储介质 |
CN111782932B (zh) * | 2019-12-03 | 2023-12-05 | 北京沃东天骏信息技术有限公司 | 数据关联的建立方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和*** | |
CN107818344B (zh) | 用户行为进行分类和预测的方法和*** | |
CN107578332A (zh) | 一种推荐现金商品的方法、装置、设备及存储介质 | |
CN108648074A (zh) | 基于支持向量机的贷款评估方法、装置及设备 | |
CN109685635A (zh) | 金融业务的风险评估方法、风控服务端及存储介质 | |
CN107679946A (zh) | 基金产品推荐方法、装置、终端设备及存储介质 | |
CN107220217A (zh) | 基于逻辑回归的特征系数训练方法和装置 | |
CN105491599B (zh) | 预测lte网络性能指标的新型回归*** | |
CN110288459A (zh) | 贷款预测方法、装置、设备及存储介质 | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN110084627A (zh) | 预测目标变量的方法和装置 | |
CN108510003A (zh) | 车联网大数据风控组合特征提取方法、装置及存储介质 | |
CN107203772B (zh) | 一种用户类型识别方法及装置 | |
CN110288460A (zh) | 基于前向传播的催收预测方法、装置、设备及存储介质 | |
CN113674087A (zh) | 企业信用等级评定方法、装置、电子设备和介质 | |
CN112070559A (zh) | 状态获取方法和装置、电子设备和存储介质 | |
CN116911994B (zh) | 对外贸易风险预警*** | |
CN114331728A (zh) | 一种证券分析管理*** | |
CN115222177A (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
Thompson | Data mining methods and the rise of big data | |
CN117094817B (zh) | 一种信用风险控制智能预测方法及*** | |
Lorenz | Method of selecting borrowers’ features for credit risk assessment | |
CN116523546B (zh) | 智能读者行为分析预测***数据采集分析的方法和装置 | |
Yang et al. | A novel hybrid data mining framework for credit evaluation | |
Guo et al. | Customer Churn Prediction in the Broadband Service on Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518000 1402, building 1, Chongwen Park, Nanshan wisdom Park, 3370 Liuxian Avenue, Fuguang community, Taoyuan Street, Nanshan District, Shenzhen, Guangdong Province Applicant after: Shenzhen Guanglian Saixun Co.,Ltd. Address before: Room 701, unit 3, building C, Kexing Science Park, No. 15, Keyuan Road, high tech park, Nanshan District, Shenzhen City, Guangdong Province Applicant before: SHENZHEN AUTONET Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |
|
RJ01 | Rejection of invention patent application after publication |