CN110909085A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110909085A CN110909085A CN201911177388.1A CN201911177388A CN110909085A CN 110909085 A CN110909085 A CN 110909085A CN 201911177388 A CN201911177388 A CN 201911177388A CN 110909085 A CN110909085 A CN 110909085A
- Authority
- CN
- China
- Prior art keywords
- adjusted
- binning
- characteristic
- data
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000000694 effects Effects 0.000 claims description 19
- 230000004044 response Effects 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000000926 separation method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 230000002452 interceptive effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明涉及金融科技领域,本发明公开了一种数据处理方法、装置、设备及存储介质,所述数据处理方法包括:获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。本发明解决传统的分箱数据调整方法面对海量数据时,数据响应不及时导致数据处理效率低下的技术问题。
Description
技术领域
本发明涉及金融科技技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
特征分箱是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。在现实使用过程中,用户会根据业务经验调整分箱结果,而分箱调整会导致箱子分位点发生变化,引起箱子内统计信息发生变化,从而需要重新统计。然而,当面对海量数据时,重新统计大量数据将导致统计过程变得繁重,使得统计过程过于耗时,大大降低了特征分箱的数据响应速度,造成数据响应不及时,导致运行性能大幅度降低,从而降低了***的数据处理效率。
发明内容
本发明的主要目的在于提供一种数据处理方法、装置、设备及存储介质,旨在解决传统的分箱数据调整方法面对海量数据时,数据响应不及时导致数据处理效率低下的技术问题。
为实现上述目的,本发明实施例提供一种数据处理方法,所述数据处理方法包括:
获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
可选地,所述按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系,包括:
对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果,包括:
在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
可选地,所述在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,包括:
在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;
根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。
可选地,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:
若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;
获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。
可选地,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:
若所述指令类型为分箱合并类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行合并处理,以获得目标合并分箱,以及所述目标合并分箱对应的目标合并数据块;
获取待调整分箱的第二统计信息,并对所述第二统计信息进行相加汇总,以生成目标统计信息;
根据所述目标合并数据块和所述目标统计信息,生成缓存调整结果。
可选地,所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果之后,还包括:
统计调整处理结果中各特征分箱的信息价值;
若信息价值大于或等于预设值,则确认调整处理效果合格;
若信息价值小于预设值,则确认调整处理效果不合格。
可选地,所述统计调整处理结果中各特征分箱的信息价值,包括:
统计调整处理结果中各特征分箱的event值和non-event值,以获得woe值;
根据所述event值、所述non-event值和所述woe值,以获得信息价值。
本发明还提供一种数据处理装置,所述数据处理装置包括:
关系模块,用于获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
确定模块,用于若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
调整模块,用于对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
可选地,所述关系模块包括:
缓存处理单元,用于对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
所述调整模块包括:
缓存调整单元,用于在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
可选地,所述缓存调整单元包括:
指令类型子单元,用于在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;
缓存调整子单元,用于根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。
可选地,可选地,所述缓存调整子单元用于:
若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;
获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。
可选地,可选地,所述缓存调整子单元用于:
若所述指令类型为分箱合并类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行合并处理,以获得目标合并分箱,以及所述目标合并分箱对应的目标合并数据块;
获取待调整分箱的第二统计信息,并对所述第二统计信息进行相加汇总,以生成目标统计信息;
根据所述目标合并数据块和所述目标统计信息,生成缓存调整结果。
可选地,所述数据处理装置还包括:
统计模块,用于统计调整处理结果中各特征分箱的信息价值;
合格模块,用于若信息价值大于或等于预设值,则确认调整处理效果合格;
不合格模块,用于若信息价值小于预设值,则确认调整处理效果不合格。
可选地,所述统计模块包括:
统计单元,用于统计调整处理结果中各特征分箱的event值和non-event值,以获得woe值;
信息价值单元,用于根据所述event值、所述non-event值和所述woe值,以获得信息价值。
此外,为实现上述目的,本发明还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,其中:
所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供计算机存储介质;
所述计算机存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上述的数据处理方法的步骤。
本发明获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。本发明可应用于大数据环境下海量数据的特征交互式分箱,对待调整特征数据直接进行调整,而不用对无需调整的数据块作任何操作,这样可减少大量无关数据块的统计步骤,减少统计耗时,大大提升了特征分箱的数据响应速度,进而简化统计流程,提高海量数据的统计效率,在确保结果准确无误的前提下,显著地提升运行性能和响应速度,优化了交互式分箱体验,大大地提高了数据处理效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明数据处理方法一实施例的流程示意图;
图3为本发明数据处理方法中分箱数据分块示意图;
图4为本发明数据处理方法中分箱数据块合并示意图;
图5为本发明数据处理方法中分箱数据块拆分示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序,并执行下述数据处理方法各个实施例中的操作。
本发明实施例方案的主要思路是:获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。本发明可应用于大数据环境下海量数据的特征交互式分箱,对待调整特征数据直接进行调整,而不用对无需调整的数据块作任何操作,这样可减少大量无关数据块的统计步骤,减少统计耗时,大大提升了特征分箱的数据响应速度,进而简化统计流程,提高海量数据的统计效率,在确保结果准确无误的前提下,显著地提升运行性能和响应速度,优化了交互式分箱体验,大大地提高了数据处理效率。
本发明实施例考虑到,由于现有技术中,用户会根据业务经验调整分箱结果,而分箱调整会导致箱子分位点发生变化,引起箱子内统计信息发生变化,从而需要重新统计。然而,当面对海量数据时,重新统计大量数据将导致统计过程变得繁重,并过多地消耗***资源,响应不及时,极大地降低了***的数据处理效率。
本发明提供一种解决方案,可应用于大数据环境下海量数据的特征交互式分箱,对待调整特征数据直接进行调整,而不用对无需调整的数据块作任何操作,这样可减少大量无关数据块的统计步骤,减少统计耗时,大大提升了特征分箱的数据响应速度,进而简化统计流程,提高海量数据的统计效率,在确保结果准确无误的前提下,显著地提升运行性能和响应速度,优化了交互式分箱体验,大大地提高了数据处理效率。
基于上述硬件结构,提出本发明数据处理方法实施例。
本发明属于金融科技领域(Fintech),本发明提供一种数据处理方法,
在数据处理方法一实施例中,参照图2,所述数据处理方法包括:
步骤S10,获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
步骤S20,若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
步骤S30,对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
该数据处理方法可应用于设备上,具体内容如下:
步骤S10,获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
各特征分箱对应有各自的分箱分位点,分箱分位点对应其所在特征分箱的数据分界线。例如当前存在一组年龄特征分箱:特征分箱A(0-10岁),特征分箱B(10-20岁),特征分箱C(20-30岁)和特征分箱D(30-40岁)。每组特征分箱都保存有该年龄特征的相关特征数据块。***设备获取到所有特征分箱,并将所有特征分箱按照分箱分位点进行特征数据块的分组。参照图3,图3中左边内容为分箱1......分箱n,根据各个分箱内特征值的取值范围,对特征数据块进行了分组,即在各个分箱取值范围内的数据映射到同一组,组内的数据不需要进行排序,参照图3右边内容。同一组的数据可以存储在同一个计算节点或多个计算节点,同时多个分组数据也可以存储在同一个计算节点,做好标记区分即可。这种分组处理可以将各个分箱与分箱范围内的数据形成对应关系,事先快速读取匹配。例如,将特征分箱A中的特征数据块全部映射到分箱1数据块,将特征分箱B中的特征数据块全部映射到分箱2数据块等等,从而形成分箱1数据块,分箱2数据块......分箱n数据块等各特征分箱数据块,即各特征分箱与特征数据块之间形成了对应关系。因此特征分箱n与分箱数据块n之间互为映射对应关系,分箱数据块n是特征分箱n的缓存数据块,包含了特征分箱n的所有特征数据块。
步骤S20,若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
在检测到分箱调整指令时,证明当前存在对特征分箱的业务调整需求,而业务调整需求对应着要调整的分箱,而根据对应关系可从各特征分箱中定位到待调整分箱以及对应的待调整特征数据块。例如分箱调整指令要求对10-20岁的特征分箱B进行拆分调整,则获取到特征分箱B作为待调整分箱以及对应的待调整特征数据块。
本实施例可通过分箱调整指令中确定了要调整的待调整分箱。例如特征分箱中包括了0-10岁区间的特征分箱A,10-20岁区间的特征分箱B,20-30岁区间的特征分箱C和30-40岁区间的特征分箱D。而分箱调整指令中要调整的是25岁的特征数据,则通过25的分位点以及对应关系中该分位点对应的特征分箱,可定位到待调整分箱为20-30岁区间的特征分箱C以及对应的待调整特征数据块。
步骤S30,对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
调整处理的方式可以是合并分箱,也可以是拆分分箱,具体根据实际情况而定。具体地,所述按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系,包括:
对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果,包括:
在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
本实施例采用缓存分组机制,在缓存中实现数据的分箱数据的调整,避免海量数据统计过程中对***资源的过度消耗,提高响应速度和数据处理效率。具体地,假设当前根据业务调整需求需要对特征分箱进行调整,此时设备***将获取到所有特征分箱,并将所有特征分箱映射到缓存当中。
进一步地,所述在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,包括:
步骤A1,在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;
获取待调整特征数据的待调整分位点,所述待调整特征数据以数据块的形式表征,例如当前有4个待调整特征数据:0-10岁区间的数据块A,10-20岁区间的数据块B,20-30岁区间的数据块C和30-40岁区间的数据块D。根据数据块可得到所有数据块的分位点列表为[10,20,30,40],因此待调整特征数据的待调整分位点即可根据缓存中的分位点列表确定。例如待调整特征数据为30-40岁区间的数据块D,则对应的待调整分位点为40。
可以理解的是,分箱调整指令包括两种类型,分箱拆分类型和分箱合并类型,为避免调整流程出错,需要对分箱调整指令进行类型区分,得到指令类型。
步骤A2,根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。
指令类型的不同代表调整流程的不同,而待调整分位点和目标分位点可定位到待调整对象,因此根据指令类型,待调整分位点和目标分位点,可对待调整特征数据进行调整处理,获得目标特征数据块。
进一步地,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:
步骤A21,若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;
若指令类型为分箱拆分类型,证明当前的分箱调整指令是将所有特征分箱中的某个具体分箱进行拆分,此时待调整特征数据块即为待拆分对象。
分箱拆分需将待调整分箱拆分成两个分箱,将待调整特征数据块拆分为两个数据块,即新生成两个分箱,以及对应的特征数据块,再将原分箱编号大于k+1的分箱编号加一,对应的特征数据编号也加一即可。具体参照图4,假设分箱k数据块为待调整特征数据块,k为待调整分位点,而k+1为目标分位点,因此根据k(即待调整分位点)和k+1(即目标分位点),即可将分箱k数据块(即待调整特征数据块)拆分为分箱k数据块和分箱k+1数据块(即多个目标拆分数据块),而分箱k数据块映射着对应的特征分箱k,意味着将特征分箱k拆分为特征分箱k和特征分箱k+1。也就是说,将待调整特征数据块进行拆分时,只针对当前待调整特征数据块进行调整,无需对其他数据进行任何操作。
步骤A22,获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。
每个目标拆分数据块中都保存着相应的统计信息,例如目标拆分数据块将原待调整特征数据块中的特征数据等信息进行分配,那么原待调整特征数据块中的统计信息(如event信息和non-event信息)也将重新分配,这样即可获得每个目标拆分数据块对应的统计信息。而各目标拆分数据块以及对应的统计信息,即可生成缓存调整结果。
需要说明的是,分箱调整的本质是生成新的数据分位点信息,例如原来分箱分位点是[10,20,30,40],调整后箱子分位点是[10,30,40]。随着分箱分位点发生变化,导致各个箱子内的统计信息发生变化,故需要遍历所有数据重新计算各箱子内的分箱统计信息。
进一步地,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:
步骤A23,若所述指令类型为分箱合并类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行合并处理,以获得目标合并分箱,以及所述目标合并分箱对应的目标合并数据块;
步骤A24,获取待调整分箱的第二统计信息,并对所述第二统计信息进行相加汇总,以生成目标统计信息;
步骤A25,根据所述目标合并数据块和所述目标统计信息,生成缓存调整结果。
若指令类型为分箱合并类型,证明当前的分箱调整指令是将所有特征分箱中的某个具体分箱进行合并,则涉及到多个特征分箱,此时待调整特征数据即为待合并对象,并且待调整特征数据为多个。
分箱合并需将多个对应数据合并成一个数据块,即将两个或两个以上数据块合并,再将原分箱编号大于k+1的分箱编号减一,对应的数据编号也减一即可。具体参照图5,假设分箱k数据块和分箱k+1数据块为待调整特征数据块,k和k+1为待调整分位点,而k为分箱分位点,因此根据k和k+1(即待调整分位点)和k(即分箱分位点),即可将分箱k数据和分箱k+1(即待调整特征数据)合并为分箱k数据(即目标合并数据),而在缓存中进行合并的分箱k数据块和分箱k+1数据块映射着对应的特征分箱k和特征分箱k+1,意味着将特征分箱k和特征分箱k+1合并为特征分箱k。也就是说,在缓存当中将待调整特征数据块进行合并时,只针对当前待调整特征数据块进行调整,无需对其他数据块进行任何操作。
各待调整特征数据块的统计信息需要全部获取到再进行相加汇总,得到目标统计信息。获取待调整特征数据块中原有的统计信息,由于待调整特征数据块进行合并,因此对应的统计信息也需要进行合并,本实施例将统计信息进行相加汇总,生成目标统计信息。例如A数据块的a统计信息,以及B数据块的b统计信息,随着A和B数据块的合并,a统计信息和b统计信息也将合并,从而生成目标统计信息。
数据块完成合并后,原分箱编号大于k+1的分箱编号减一,对应的数据块编号也减一即可。合并过程定义公式为:
获取到目标合并数据块和目标统计信息之后,将二者进行组合,即可生成目标特征数据块。
本发明获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。本发明可应用于大数据环境下海量数据的特征交互式分箱,对待调整特征数据直接进行调整,而不用对无需调整的数据块作任何操作,这样可减少大量无关数据块的统计步骤,减少统计耗时,大大提升了特征分箱的数据响应速度,进而简化统计流程,提高海量数据的统计效率,在确保结果准确无误的前提下,显著地提升运行性能和响应速度,优化了交互式分箱体验,大大地提高了数据处理效率。
进一步地,基于第一实施例,提出本发明数据处理方法的第二实施例,在该实施例中,所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果之后,还包括:
步骤a,统计调整处理结果中各特征分箱的信息价值;
所述信息价值为IV值,IV的全称是Information Value,可以衡量变量预测能力,IV值越大,其代表的分箱处理效果就越好。本实施例中将统计调整处理结果中各特征分箱的信息价值。
具体地,统计目标特征分箱列表中各特征分箱的信息价值,包括:
步骤a1,统计调整处理结果中各特征分箱的event值和non-event值,以获得woe值;
步骤a2,根据所述event值、所述non-event值和所述woe值,以获得信息价值。
具体地,可参照以下算法:
特征:X;
分箱个数:n,表示将特征X在排序后分割的段数目;
箱子:Xi,1<=i<=n,表示特征X在排序之后的一段数据;
分箱分位点:S,包含n-1个不同值,依次Si,1<=i<=n-1,且Si<Si+1;
根据以上算法中的event值和non-event值,可计算获得目标特征分箱对应的woe值,并基于woe值获得目标特征分箱的IV值,所述IV值即为信息价值。
步骤b,若信息价值大于或等于预设值,则确认调整处理效果合格;
步骤c,若信息价值小于预设值,则确认调整处理效果不合格。
本实施例中预设了信息价值的参照标准为预设值,具体可根据实际业务需求进行设定。如信息价值大于或等于预设值,证明当前的调整处理结果的分箱处理效果合格,若信息价值小于预设值,证明当前的调整处理结果的分箱处理效果不合格。例如,假设预设值为a,信息价值为b,若b大于a,则证明当前的分箱调整处理具有明显的趋势效果,***设备将确认调整处理结果的分箱处理效果合格;若b小于a,则证明当前的分箱调整处理的趋势效果不明显,***设备将确认调整处理结果的分箱处理效果不合格。
此外,本发明实施例还提出一种数据处理装置,所述数据处理装置包括:
关系模块,用于获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
确定模块,用于若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
调整模块,用于对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
可选地,所述关系模块包括:
缓存处理单元,用于对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
所述调整模块包括:
缓存调整单元,用于在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
可选地,所述缓存调整单元包括:
指令类型子单元,用于在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;
缓存调整子单元,用于根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。
可选地,可选地,所述缓存调整子单元用于:
若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;
获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。
可选地,可选地,所述缓存调整子单元用于:
若所述指令类型为分箱合并类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行合并处理,以获得目标合并分箱,以及所述目标合并分箱对应的目标合并数据块;
获取待调整分箱的第二统计信息,并对所述第二统计信息进行相加汇总,以生成目标统计信息;
根据所述目标合并数据块和所述目标统计信息,生成缓存调整结果。
可选地,所述数据处理装置还包括:
统计模块,用于统计调整处理结果中各特征分箱的信息价值;
合格模块,用于若信息价值大于或等于预设值,则确认调整处理效果合格;
不合格模块,用于若信息价值小于预设值,则确认调整处理效果不合格。
可选地,所述统计模块包括:
统计单元,用于统计调整处理结果中各特征分箱的event值和non-event值,以获得woe值;
信息价值单元,用于根据所述event值、所述non-event值和所述woe值,以获得信息价值。
此外,本发明实施例还提出一种设备,设备包括:存储器109、处理器110及存储在存储器109上并可在处理器110上运行的数据处理程序,所述数据处理程序被处理器110执行时实现上述的数据处理方法各实施例的步骤。
此外,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述数据处理方法各实施例的步骤。
本发明设备及存储介质(即计算机存储介质)的具体实施方式的拓展内容与上述数据处理方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述数据处理方法包括:
获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
2.如权利要求1所述的数据处理方法,其特征在于,所述按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系,包括:
对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果,包括:
在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
3.如权利要求2所述的数据处理方法,其特征在于,所述在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,包括:
在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;
根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。
4.如权利要求3所述的数据处理方法,其特征在于,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:
若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;
获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。
5.如权利要求3所述的数据处理方法,其特征在于,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:
若所述指令类型为分箱合并类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行合并处理,以获得目标合并分箱,以及所述目标合并分箱对应的目标合并数据块;
获取待调整分箱的第二统计信息,并对所述第二统计信息进行相加汇总,以生成目标统计信息;
根据所述目标合并数据块和所述目标统计信息,生成缓存调整结果。
6.如权利要求1所述的数据处理方法,其特征在于,所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果之后,还包括:
统计调整处理结果中各特征分箱的信息价值;
若信息价值大于或等于预设值,则确认调整处理效果合格;
若信息价值小于预设值,则确认调整处理效果不合格。
7.如权利要求6所述的数据处理方法,其特征在于,所述统计调整处理结果中各特征分箱的信息价值,包括:
统计调整处理结果中各特征分箱的event值和non-event值,以获得woe值;
根据所述event值、所述non-event值和所述woe值,以获得信息价值。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
关系模块,用于获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
确定模块,用于若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
调整模块,用于对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。
9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177388.1A CN110909085A (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177388.1A CN110909085A (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909085A true CN110909085A (zh) | 2020-03-24 |
Family
ID=69819759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911177388.1A Pending CN110909085A (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909085A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506485A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN111507479A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325825A1 (en) * | 2012-05-29 | 2013-12-05 | Scott Pope | Systems And Methods For Quantile Estimation In A Distributed Data System |
US20160133145A1 (en) * | 2014-11-10 | 2016-05-12 | Xerox Corporation | Method and apparatus for defining performance milestone track for planned process |
CN109815267A (zh) * | 2018-12-21 | 2019-05-28 | 天翼征信有限公司 | 数据建模中特征的分箱优化方法及***、存储介质及终端 |
CN110084376A (zh) * | 2019-04-30 | 2019-08-02 | 成都四方伟业软件股份有限公司 | 对数据自动分箱的方法及装置 |
CN110245140A (zh) * | 2019-06-12 | 2019-09-17 | 同盾控股有限公司 | 数据分箱处理方法及装置、电子设备和计算机可读介质 |
-
2019
- 2019-11-25 CN CN201911177388.1A patent/CN110909085A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325825A1 (en) * | 2012-05-29 | 2013-12-05 | Scott Pope | Systems And Methods For Quantile Estimation In A Distributed Data System |
US20160133145A1 (en) * | 2014-11-10 | 2016-05-12 | Xerox Corporation | Method and apparatus for defining performance milestone track for planned process |
CN109815267A (zh) * | 2018-12-21 | 2019-05-28 | 天翼征信有限公司 | 数据建模中特征的分箱优化方法及***、存储介质及终端 |
CN110084376A (zh) * | 2019-04-30 | 2019-08-02 | 成都四方伟业软件股份有限公司 | 对数据自动分箱的方法及装置 |
CN110245140A (zh) * | 2019-06-12 | 2019-09-17 | 同盾控股有限公司 | 数据分箱处理方法及装置、电子设备和计算机可读介质 |
Non-Patent Citations (3)
Title |
---|
COX, NICHOLAS J.: "Speaking Stata: Matrices as look-up tables", 《STATA JOURNAL》, 5 February 2013 (2013-02-05), pages 748 - 758 * |
夏晨琦: "局部最优分箱及其在评分卡模型中的应用", 《统计与决策》, 31 July 2019 (2019-07-31), pages 63 - 67 * |
林一帆: "基于机器学习的信用评分模型研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 September 2019 (2019-09-15), pages 140 - 133 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506485A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN111507479A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN111506485B (zh) * | 2020-04-15 | 2021-07-27 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN111507479B (zh) * | 2020-04-15 | 2021-08-10 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11755452B2 (en) | Log data collection method based on log data generated by container in application container environment, log data collection device, storage medium, and log data collection system | |
US11915104B2 (en) | Normalizing text attributes for machine learning models | |
CN108776934B (zh) | 分布式数据计算方法、装置、计算机设备及可读存储介质 | |
US10402427B2 (en) | System and method for analyzing result of clustering massive data | |
CN111695675B (zh) | 联邦学习模型训练方法及相关设备 | |
EP3961384A1 (en) | Automatic derivation of software engineering artifact attributes from product or service development concepts | |
CN111507479B (zh) | 特征分箱方法、装置、设备及计算机可读存储介质 | |
CN107016115B (zh) | 数据导出方法、装置、计算机可读存储介质及电子设备 | |
CN111897660B (zh) | 模型部署方法、模型部署装置及终端设备 | |
CN113312361A (zh) | 轨迹查询方法、装置、设备、存储介质及计算机程序产品 | |
CN113468226A (zh) | 一种业务处理方法、装置、电子设备和存储介质 | |
CN110909085A (zh) | 数据处理方法、装置、设备及存储介质 | |
WO2021258512A1 (zh) | 数据的聚合处理装置、方法和存储介质 | |
CN113449854A (zh) | 网络模型的混合精度量化方法、设备及计算机存储介质 | |
CN110222046B (zh) | 列表数据的处理方法、装置、服务器和存储介质 | |
US9380126B2 (en) | Data collection and distribution management | |
US20150106522A1 (en) | Selecting a target server for a workload with a lowest adjusted cost based on component values | |
CA3131106A1 (en) | Method, device and system for processing service data by merging sorting algorithm | |
WO2023071566A1 (zh) | 数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品 | |
CN116089367A (zh) | 动态分桶方法、装置、电子设备和介质 | |
CN104090895B (zh) | 获取基数的方法、装置、服务器及*** | |
US20200133930A1 (en) | Information processing method, information processing system, and non-transitory computer readable storage medium | |
CN115564578B (zh) | 欺诈识别模型生成方法 | |
CN112115316B (zh) | 一种分箱方法、装置、电子设备及存储介质 | |
CN113434273A (zh) | 数据处理方法、装置、***及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |