CN111738356A - 特异化数据的对象特征生成方法、装置、设备及存储介质 - Google Patents
特异化数据的对象特征生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111738356A CN111738356A CN202010714437.7A CN202010714437A CN111738356A CN 111738356 A CN111738356 A CN 111738356A CN 202010714437 A CN202010714437 A CN 202010714437A CN 111738356 A CN111738356 A CN 111738356A
- Authority
- CN
- China
- Prior art keywords
- data
- features
- object features
- feature
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了特异化数据的对象特征生成方法、装置、设备及存储介质,包括:获取所述特异化数据并进行预处理;对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并获取每个因子中的隐性对象特征;根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征;输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果。本发明实施例避免了后续再利用该对象特征生成更多无效特征,在特征生成的基础上进行特征筛选减少了误差的传递和累积,提升了数据的质量和模型的精度,节省了计算机资源。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种特异化数据的对象特征生成方法、装置、设备及存储介质。
背景技术
在通过机器学习获取数据的特征结果时,需要进行数据对象特征生成和筛选来提高机器学习的精准度,从而得到满足条件的对象特征生成结果,现有机器学习的特征生成方法没有针对特异化的数据进行优化,而是直接调用特征生成工具自动生成大量的对象特征。
发明人意识到,现有技术存在以下几点问题:
通过现有的特征生成方法或者工具生成特征时,其对象特征的增长有时会接近于指数增长,从而生成成千上万的对象特征,在计算时会耗费大量的计算资源,这些对象特征往往含有大量的无意义以及强相关的变量,这些强相关的变量不仅会占用***内存,还会影响机器学习的精度。而且基于生成的全部对象特征进行特征筛选增加了误差传递的概率。
发明内容
有鉴于此,本发明提出一种特异化数据的对象特征生成方法、装置、设备及存储介质,能够在生成对象特征时,优化对象特中大量的无意义以及强相关的变量,节省计算机资源,同时提高机器学习的精度和降低误差。
首先,为实现上述目的,本发明提出一种特异化数据的对象特征生成方法,所述方法包括:
获取所述特异化数据并进行预处理;
对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并获取每个因子中的隐性对象特征;
根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征;
输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果。
进一步的,所述获取所述特异化数据并进行预处理包括:
当所述特异化数据的字段数据值超过预设范围值时,将所述数据值置空;
当所述特异化数据的字段数据值缺失高于预设阈值时,将所述数据值删除;
当所述特异化数据的字段数据值缺失不高于预设阈值时,将所述数据值用所述数据值的均值替换以及执行归一化。
进一步的,所述对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并提取不同因子中的隐性对象特征包括:
对所述特异化数据进行适合度检验以得到检验值;
当所述检验值满足预设条件时进行所述因子分析;
根据预设或输入的因子个数提取多个因子,并获取每个因子对应的所述隐性对象特征数据。
进一步的,所述根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征包括:
自定义对象特征的生成阶数;
根据所述生成阶数对不同因子的所述特异化数据进行聚合和转换以生成多个初始对象特征;
当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征;
当所述生成阶数为多阶时拼接每一阶生成的所述第一对象特征以得到第二对象特征;
输出所述第一对象特征和所述第二对象特征以得到所述优化对象特征。
进一步的,所述根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征还包括:
自定义对象特征的生成函数;
根据所述生成函数生成所述多个初始对象特征;
所述当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征还包括:
当所述生成函数为多个时进行进行共线性计算;
当所述共线性计算结果满足预设条件时对所述多个初始对象特征进行增加或部分删除以得到所述第一对象特征数据。
进一步的,所述当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征还包括:
计算所述多个初始对象特征的贡献度和F统计量;
当所述多个初始对象特征的贡献度和F统计量满足预设条件时对所述多个初始对象特征进行增加或部分删除以得到所述第一对象特征数据。
进一步的,所述当所述生成阶数为多阶时拼接每一阶生成的所述第一对象特征以得到第二对象特征数据包括:
拼接每一阶生成的所述第一对象特征;
对所述第一对象特征进行共线性计算和逐步回归计算以得到所述第二对象特征数据;
所述输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果还包括:
将所述对象特征结果上传至区块链中。
为实现上述目的,本发明还提供一种特异化数据的对象特征生成装置,包括:
数据输入模块,用于获取所述特异化数据并进行预处理;
因子分析模块,用于对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并获取每个因子中的隐性对象特征;
生成筛选模块,用于根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征;
特征输出模块,用于输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果。
为实现上述目的,本发明还提供一种特异化数据的对象特征生成装置,所述特异化数据的对象特征生成装置包括:
为实现上述目的,本发明还提供一种设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
相较于传统技术,本发明实施例的特异化数据的对象特征生成方法、装置、设备及存储介质,在进行对象特征生成之前,利用因子分析可以减少大量强相关性的对象特征的生成,在生成对象特征的过程中进行筛选可以删除掉过程中产生的无效的强相关的对象特征,避免了后续再利用该对象特征生成更多无效特征,在特征生成的基础上进行特征筛选减少了误差的传递和累积,提升了数据的质量和模型的精度,节省了计算机资源。
附图说明
图1为本发明实施例的应用环境示意图;
图2为本发明实施例一的特异化数据的对象特征生成方法的流程示意图;
图3为图2中获取所述特异化数据并进行预处理的流程示意图;
图4为图2中对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并提取不同因子中的隐性对象特征的流程示意图;
图5为图2中对不同因子的所述特异化数据生成多个初始对象特征,并对生成的所述多个初始对象特征进行筛选以得到优化对象特征的流程示意图;
图6为图5中当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征的流程示意图;
图7为图5中当所述生成阶数为多阶时拼接每一阶生成的所述第一对象特征以得到第二对象特征数据的流程示意图;
图8为本发明特异化数据的对象特征生成装置之实施例二的程序模块示意图;
图9为本发明设备之实施例三的硬件结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1,示出了本发明实施例的实施环境示意图。该实施环境包括:用户端10和服务器12。
用户端10是具有网络访问功能的电子设备,该设备可以是智能手机、平板电脑或者个人计算机等。
其中,用户端10安装有可以访问服务器12的程序11,用户在程序11通过账号和密码登录访问服务器12后,即可对服务器12执行特定操作和输入。
服务器12是一台服务器、若干服务器构称的服务器集群或者云计算中心。服务器12中存储了程序13,程序13包括前端模块和后端模块,前端模块和后端模块可通过接口互相调用,用户在程序11通过账号和密码登录或者通过账号和密码登录访问服务器12的程序13后,即可对程序13执行特定操作和输入。
用户端10和服务器12通过网络连接,网络中可包括多个网络节点,网络可以是互联网,局域网或者区块链网络。
本发明实施例的特异化数据的对象特征生成方法、装置、设备及存储介质,可单独应用于程序11或程序13中,也可以分布式的同时应用于程序11和程序13中,或者以区块链形式存储于网络的多个节点中。
实施例一
本实施例的一种特异化数据的对象特征生成方法,通过利用数据本身的特异化信息以及在现有的特征生成方法或者工具自动特征生成过程种进行特征筛选,减少了特征生成过程种误差的传递和累积,提升了机器学习输出数据的质量和精度,其中,在进行对象特征生成之前,利用因子分析可以减少大量强相关性的对象特征的生成,在生成对象特征的过程中进行筛选可以删除掉过程中产生的无效的强相关的对象特征,避免了后续再利用该对象特征生成更多无效特征。
请参考图2,本实施例的一种前后端特异化数据的对象特征生成方法包括以下步骤:
步骤S100,获取所述特异化数据并进行预处理。
具体的,在本实施例中,不同于一般的数据,所述特异化数据是数据本身包含特异化信息的数据,例如在医疗健康领域,数据之间具有非常强的隐含相关关系,这种特异化数据在进行特征生成之前,就已经具有了一定的特征解释性。
请参考图3,具体的,步骤S100,获取所述特异化数据并进行预处理包括:
步骤S110,当所述特异化数据的字段数据值超过预设范围值时,将所述数据值置空。
步骤S120,当所述特异化数据的字段数据值缺失高于预设阈值时,将所述数据值删除。
步骤S130,当所述特异化数据的字段数据值缺失不高于预设阈值时,将所述数据值用所述数据值的均值替换以及执行归一化。
具体的,输入数据可能为单表数据,也可能多表数据,首先需要对输入的数据进行数据清洗我的操作,主要的操作为:
常值处理:当字段的数据值超过该字段的范围值时,说明该数据值是异常的,将该数据值置空。
缺失值替换:输入数据的某些字段的数据值虽然有缺失,但是缺失率不超过 20%,对于这些字段的缺失值进行均值填充。对于缺失率高于20%的字段进行删除。
数据归一化:数据的单位不一会使得字段的初始权重不一样,从而导致分类误差,因此对缺失率不高于20%的字段进行数据归一化。
经过上述处理之后,我们便得到一份经过清洗之后的数据,经过清洗后的数据需要进行特征生成以及特征筛选。
步骤S200,对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并获取每个因子中的隐性对象特征。
现有的特征生成方法为基于现有已知特征手动生成一些特征,并且在用户输入多表的明细数据时,需要大量的多表连接操作,但是这种方法生成的特征是非常有限的,并且无法保证生成的特征是重要的并且有效的。
本申请实施例基于现有特征生成工具Featuretools框架进行改进后进行特征生成,Featuretools是一个执行自动特征工程的框架,它可以将单个数据集以及互相关联的数据集转换为特征矩阵,通过转化和聚合两种方式进行自动特征生成。
其中,Featuretools是暴力生成特征,这样非常浪费计算资源和存储资源,并且没有结合数据本身的特性。
在实际的特异性数据中,例如医疗健康数据中,对象的数据往往具有隐含的关系,如果不利用这种隐性的关系,生成的对象特征大多是解释性较差的,因此需要利用因子分析提取出隐藏在一组测量到的对象特征中的一些更基本的,但又无法直接测量到的隐性对象特征。
请参考图4,具体的,在本实施例中,步骤S200对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并提取不同因子中的隐性对象特征包括:
步骤S210,对所述特异化数据进行适合度检验以得到检验值。
因为并不是所有的数据都能够进行因子分析,因此首先需要做适合度检验,一般采用KMO检验,KMO的计算公式为:
步骤S220,当所述检验值满足预设条件时进行所述因子分析。
具体的,在本实施例中,KMO的度量标准如下表1:
表1
由上表看出,当数据的KMO值大于0.6时,适合做因子分析,当KMO小于0.6时,不适合做因子分析。
步骤S230,根据预设或输入的因子个数提取多个因子,并获取每个因子对应的所述隐性对象特征数据。
对于适合做因子分析的数据来说,每个因子的解释能力都是有限的,它只能反映原变量中一部分的变化信息。因此需要确定因子的个数。
本实施例采用方差解释率来确定因子的个数,即使确定的p个因子对原始对象特征的方差解释率能够达到预设值,例如90%。
设有p个原始变量Xi(i=1,2,3…,p),他们可能相关也可能独立,将Xi标准化得到Zi,则可以得到因子分析公式:
其中F称为公共因子,即隐性的对象特征。
属于同一因子的对象特征其具有相关性的,若对同一因子之间的对象特征进行生成生成,则会产生大量的相关性的变量,给数据增加了噪声。因此特征生成需要在不同的因子的对象特征之间进行才能生成给数据带来新的信息。
对适合做因子分析的先进行因子分析,再对各个因子的对象进行特征生成和筛选,最后将各个因子的对象特征生成结果拼接起来,对不适合做因子分析的数据直接进行后续的特征生成和筛选。
步骤S300,根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征。
在Featuretools上进行改进,Featuretools是先暴力生成特征,再进行特征的筛选,如果生成的对象特征多于对象的样本数,那么任何的特征筛选方法都是失效的。并且原始的Featuretools没有结合数据本身的特性,本实施例结合统计学知识对Featuretools进行改进,实现一边生成即筛选的模式。这样可以大大减少无效的对象特征的生成。
请参考图5,具体的,步骤S300:根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征包括:
步骤S310,自定义对象特征的生成阶数和自定义对象特征的生成函数。
在对象特征生成过程中,需要定义对象特征的生成函数以及生成对象特征的阶数,对象特征生成函数表示使用什么函数对对象特征进行函数变换,其中包含对对象特征进行两两组合计算以及对单个对象特征进行函数变换。
对象特征生成的阶数表示使用对象特征对对象特征进行多少轮的计算,每一轮计算都是基于前一轮的计算结果进行计算的。例如,对象特征为人的年龄(Age)和身高(height),对象特征生成函数为[add_numeric(加运算), multiply_numeric (乘运算)],则对象特征的一阶生成结果为(Age+height,Age*height),对象特征生成的二阶生成结果则是在一阶生成的结果上再次进行二阶计算,生成的对象特征为[(Age+height)+(Age*height), (Age+height)*(Age*height)]。三阶则是在二阶的基础上进行对象特征生成的。
从过程中可以发现,对象特征生成函数的个数以及阶数是影响对象特征快速增长的重要原因。根据对象特征生成的阶数个数和函数的个数可以将问题分为四种情况进行处理,分别为一阶单个函数、一阶多个函数、多阶单个函数、多阶多个函数。对每一种情况都能够在生成对象特征的基础上进行筛选,避免了很多无效的对象特征的生成。
步骤S320,根据所述生成阶数和生成函数对不同因子的所述特异化数据进行聚合和转换以生成多个初始对象特征。
本申请实施例基于现有特征生成工具Featuretools框架进行改进后进行特征生成,Featuretools是一个执行自动特征工程的框架,它可以将单个数据集以及互相关联的数据集转换为特征矩阵,通过转化和聚合两种方式进行自动特征生成。
步骤S330,当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征。
具体的,执行的对一阶单个函数的对象特征进行生成和筛选。
当对象特征生成的阶数为一阶时,当需要对对象特征进行特征生成时,如果只是对原有的对象特征进行暴力枚举,将会增加计算资源消耗以及增加对象特征的噪声。这时就需要在一阶对象特征生成的过程中进行特征筛选与控制,结合对象特征本身的特征以及对象特征生成函数的特性可以有效的减少无效的对象特征生成。
请参考图6,具体的,步骤S330,当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征还包括:
步骤S331,当所述生成函数为多个时进行进行共线性计算。
首先利用相关方法计算出数据中对象特征的相关性,可使用皮尔森相关系数进行对象特征相关性判别。
根据得到的相关系数得到对象特征的相关性结果。
具体的,在本实施例中,相关系数r的绝对值在0.8以上,表示对象特征之间有强的相关性。0.3到0.8之间,表示对象特征之间有弱的相关性。0.3以下,对象特征之间没有相关性。
对相关系数满足预设值得弱相关的对象特征进行一般线性运算。
对于每个定义的对象特征生成函数都会设置其是否为线性运算(加、减、乘、除等)。如果两个强相关的对象特征进行一般线性运算,其生成的对象特征也是具有强相关的,因此对于强相关(皮尔森相关系数>0.8)的对象特征不进行一般线性变换,这样就大大减少了特征生成的个数。
当使用上述单阶单个函数对每一个函数进行生成,如果将其不做任何处理,暴力连接起来,仍然会引入大量的共线性变量,这是我们不希望看到的,因此在连接的过程中我们需要对每加入一个函数的生成结果进行共线性分析程度计算。
具体的,使用方差膨胀因子(VIF)判断加入一个生成函数的生成结果是否会造成共线性,方差膨胀因子的计算公式为:
Ri表示自变量Xi对其余自变量作回归分析的负相关系数。
步骤S332,当所述共线性计算结果满足预设条件时对所述多个初始对象特征进行增加或部分删除以得到所述第一对象特征数据。
根据共线性分析程度计算结果判断加入一个生成函数的生成结果是否会造成共线性。
当VIF大于预设值,例如10时,表明加入该生成函数的生成结果会给模型带来严重的共线性问题。因此选择不加入。当VIF小于10时,表明加入该生成函数的生成结果带来的共线性问题并不严重。
当共线性分析程度计算结果满足预设条件时进行逐步回归计算以进行对象特征的增加和部分删除。
当VIF小于10时,虽然共线性问题不严重,但是并不是该生成函数的生成结果所有的对象特征的增加都能够给模型带来新的重要信息,这时就需要利用逐步回归的思路进行对象特征的增加和部分删除,保证生成函数的生成结果每个对模型贡献大的变量都能够添加到模型中。
具体的,在本实施例中,步骤S330,所述当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征还包括:
步骤333,计算所述多个初始对象特征的贡献度和F统计量。
决定一个对象特征的去留重要的定量判断指标就是相关系数,假设相关系数矩阵为:
计算对象特征的贡献度,根据相关系数定义一个对象特征的贡献,其第j个对象特征对目标特征的贡献为:
计算对象特征的贡献度统计量以进行贡献度检验,根据对象特征的贡献值决定变量是否应该引入和删除,在对对象特征进行引入和删除时,还应该进行F检验,对象特征是否应该引入的和删除的F检验的公式为:
步骤334,当所述多个初始对象特征的贡献度和F统计量满足预设条件时对所述多个初始对象特征进行增加或部分删除以得到所述第一对象特征数据。
根据得到的贡献度检验值引入或删除变量。
根据设置的显著性水平a查出F的临界值,根据变量的F值最终决定是否应该引入和删除对象特征,规则如下:
Fin > Fa(该对象特征应该引入)
Fout < Fa(该对象特征应该被删除)
对需要引入的所有对象特征进行逐步回归分析,直到所有该引入的变量都引入,该剔除的变量都删除为止。
每个对模型贡献小的变量都能够在这一步骤进行删除,能够有效防止后续的对象特征的生成再利用该变量生成更多的无效的对象特征。
步骤S340,当所述生成阶数为多阶时拼接每一阶生成的所述第一对象特征以得到第二对象特征。
请参考图7,具体的,步骤S340,当所述生成阶数为多阶时拼接每一阶生成的所述第一对象特征以得到第二对象特征包括:
步骤S341,拼接每一阶生成的所述第一对象特征。
步骤S342,对所述第一对象特征进行共线性计算和逐步回归计算以得到所述第二对象特征。
对多阶单个函数的对象特征进行生成和筛选,在多阶单个函数的情况下,每一阶的对象特征生成都需要在前一阶的结果上进行生成,需要将每一阶的结果进行连接起来,因此在连接的过程中我们需要对每加入一阶的生成结果进行评估,其思路与单阶多个函数的连接相同。不同的是单阶多个函数每次增加的是对象特征生成函数,而多阶单个函数每次增加的阶数,对每一阶的生成结果的引入进行共线性分析和逐步回归特征筛选。防止后续的每一阶对象特征的生成再利用该对象特征生成更多无效的对象特征。
对多阶多个函数的对象特征进行生成和筛选,多阶多个函数的对象特征生成可以将其简化为先生成单阶多个函数的结果,再对生成结果进行多阶单个函数的计算与引入,引入的思路参考上述单阶多个函数以及多阶单个函数的引入标准。对单阶多个函数以及多阶单个函数的结果进行分步筛选,减少了误差的传递和累积。
步骤S350,输出所述第一对象特征和所述第二对象特征以得到所述优化对象特征。
步骤S400,输出所述隐性对象特征和所述优化对象特征以得到所述特异化数据的对象特征结果。
具体的,输出因子分析中完成每个因子对象特征生成的对象特征数据,以及因子分析中未完成每个因子对象特征生成但经过相关性分析计算得到的强相关性变量数据和完成逐步回归优化的对象特征数据。
在本实施例中,步骤S400,输出所述隐性对象特征和所述优化对象特征以得到所述特异化数据的对象特征结果还包括将所述对象特征结果上传至区块链中。
具体的,基于所述对象特征结果得到对应的摘要信息,具体来说,摘要信息由对象特征结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证对象特征结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例的方法可以有效的利用数据本身的信息以及Featuretools框架一边自动特征生成的基础上同时进行特征筛选。在进行对象特征生成之前,利用因子分析可以减少大量强相关性的对象特征的生成。在生成对象特征的过程中进行筛选可以进一步有效的删除掉过程中产生的无效的强相关的对象特征,避免了后续再利用该对象特征生成更多无效特征,在特征生成的基础上进行特征筛选减少了误差的传递和累积,提升了数据的质量和模型的精度,节省了计算机资源。
实施例二
请继续参阅图8,示出了本发明特异化数据的对象特征生成装置的程序模块示意图。在本实施例中,特异化数据的对象特征生成装置20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述企业资产数据画像的生成方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述特异化数据的对象特征生成装置20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
数据输入模块202,用于获取所述特异化数据并进行预处理;
因子分析模块204,用于对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并获取每个因子中的隐性对象特征;
生成筛选模块206,用于根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征;
特征输出模块208,用于输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果。
实施例三
参阅图9,是本发明实施例三之设备的硬件架构示意图。本实施例中,所述设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图9所示,所述设备2至少包括,但不限于,可通过***总线相互通信连接存储器21、处理器22、网络接口23、以及特异化数据的对象特征生成装置20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是设备2的内部存储单元,例如该设备2的硬盘或内存。在另一些实施例中,存储器21也可以是设备2的外部存储设备,例如该设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于设备2的操作***和各类应用软件,例如上述实施例所述的特异化数据的对象特征生成装置20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行特异化数据的对象特征生成装置20,以实现上述实施例的企业资产数据画像的生成方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述设备2与外部终端相连,在所述设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(GlobalSystem of Mobile communication,GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图9仅示出了具有部件20-23的设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述特异化数据的对象特征生成装置20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储特异化数据的对象特征生成装置20,被处理器执行时实现上述实施例所述的企业资产数据画像的生成方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种特异化数据的对象特征生成方法,其特征在于,所述方法包括:
获取所述特异化数据并进行预处理;
对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并获取每个因子中的隐性对象特征;
根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征;
输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果。
2.如权利要求1所述的特异化数据的对象特征生成方法,其特征在于,所述获取所述特异化数据并进行预处理包括:
当所述特异化数据的字段数据值超过预设范围值时,将所述数据值置空;
当所述特异化数据的字段数据值缺失高于预设阈值时,将所述数据值删除;
当所述特异化数据的字段数据值缺失不高于预设阈值时,将所述数据值用所述数据值的均值替换以及执行归一化。
3.如权利要求1或2所述的特异化数据的对象特征生成方法,其特征在于,所述对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并提取不同因子中的隐性对象特征包括:
对所述特异化数据进行适合度检验以得到检验值;
当所述检验值满足预设条件时进行所述因子分析;
根据预设或输入的因子个数提取多个因子,并获取每个因子对应的所述隐性对象特征数据。
4.如权利要求3所述的特异化数据的对象特征生成方法,其特征在于,所述根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征包括:
自定义对象特征的生成阶数;
根据所述生成阶数对不同因子的所述特异化数据进行聚合和转换以生成多个初始对象特征;
当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征;
当所述生成阶数为多阶时拼接每一阶生成的所述第一对象特征以得到第二对象特征;
输出所述第一对象特征和所述第二对象特征以得到所述优化对象特征。
5.如权利要求4所述的特异化数据的对象特征生成方法,其特征在于,所述根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征还包括:
自定义对象特征的生成函数;
根据所述生成函数生成所述多个初始对象特征;
所述当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征还包括:
当所述生成函数为多个时进行进行共线性计算;
当所述共线性计算结果满足预设条件时对所述多个初始对象特征进行增加或部分删除以得到所述第一对象特征数据。
6.如权利要求5所述的特异化数据的对象特征生成方法,其特征在于,所述当所述生成阶数为一阶时对所述多个初始对象特征进行相关性计算以生成第一对象特征还包括:
计算所述多个初始对象特征的贡献度和F统计量;
当所述多个初始对象特征的贡献度和F统计量满足预设条件时对所述多个初始对象特征进行增加或部分删除以得到所述第一对象特征数据。
7.如权利要求4所述的特异化数据的对象特征生成方法,其特征在于,所述当所述生成阶数为多阶时拼接每一阶生成的所述第一对象特征以得到第二对象特征数据包括:
拼接每一阶生成的所述第一对象特征;
对所述第一对象特征进行共线性计算和逐步回归计算以得到所述第二对象特征数据;
所述输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果还包括:
将所述对象特征结果上传至区块链中。
8.一种特异化数据的对象特征生成装置,其特征在于,所述特异化数据的对象特征生成装置包括:
数据输入模块,用于获取所述特异化数据并进行预处理;
因子分析模块,用于对所述特异化数据进行因子分析以得到所述特异化数据不同因子,并获取每个因子中的隐性对象特征;
生成筛选模块,用于根据所述不同因子生成所述特异化数据的多个初始对象特征,并对所述多个初始对象特征进行筛选生成优化对象特征;
特征输出模块,用于输出所述隐性对象特征和所述优化对象特征,以得到所述特异化数据的对象特征结果。
9.一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述特异化数据的对象特征生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述特异化数据的对象特征生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714437.7A CN111738356A (zh) | 2020-07-23 | 2020-07-23 | 特异化数据的对象特征生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714437.7A CN111738356A (zh) | 2020-07-23 | 2020-07-23 | 特异化数据的对象特征生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111738356A true CN111738356A (zh) | 2020-10-02 |
Family
ID=72657356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010714437.7A Pending CN111738356A (zh) | 2020-07-23 | 2020-07-23 | 特异化数据的对象特征生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738356A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380205A (zh) * | 2020-11-17 | 2021-02-19 | 北京融七牛信息技术有限公司 | 一种分布式架构的特征自动生成方法和*** |
CN112434032A (zh) * | 2020-11-17 | 2021-03-02 | 北京融七牛信息技术有限公司 | 一种自动特征生成***和方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876487A (zh) * | 2018-08-29 | 2018-11-23 | 盈盈(杭州)网络技术有限公司 | 一种基于大数据及智能决策机制的工业地块估计方法 |
CN111435463A (zh) * | 2019-01-11 | 2020-07-21 | 华为技术有限公司 | 数据处理方法及相关设备、*** |
-
2020
- 2020-07-23 CN CN202010714437.7A patent/CN111738356A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876487A (zh) * | 2018-08-29 | 2018-11-23 | 盈盈(杭州)网络技术有限公司 | 一种基于大数据及智能决策机制的工业地块估计方法 |
CN111435463A (zh) * | 2019-01-11 | 2020-07-21 | 华为技术有限公司 | 数据处理方法及相关设备、*** |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380205A (zh) * | 2020-11-17 | 2021-02-19 | 北京融七牛信息技术有限公司 | 一种分布式架构的特征自动生成方法和*** |
CN112434032A (zh) * | 2020-11-17 | 2021-03-02 | 北京融七牛信息技术有限公司 | 一种自动特征生成***和方法 |
CN112380205B (zh) * | 2020-11-17 | 2024-04-02 | 北京融七牛信息技术有限公司 | 一种分布式架构的特征自动生成方法和*** |
CN112434032B (zh) * | 2020-11-17 | 2024-04-05 | 北京融七牛信息技术有限公司 | 一种自动特征生成***和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943186B2 (en) | Machine learning model training method and device, and electronic device | |
CN107025596B (zh) | 一种风险评估方法和*** | |
CN112365070B (zh) | 一种电力负荷预测方法、装置、设备及可读存储介质 | |
CN113626241B (zh) | 应用程序的异常处理方法、装置、设备及存储介质 | |
CN111738356A (zh) | 特异化数据的对象特征生成方法、装置、设备及存储介质 | |
CN112181430B (zh) | 代码变更统计方法、装置、电子设备及存储介质 | |
US10803403B2 (en) | Method for adaptive tuning via automated simulation and optimization | |
CN113205230A (zh) | 基于模型集合的数据预测方法、装置、设备及存储介质 | |
CN117035416A (zh) | 企业风险评估方法、企业风险评估装置、设备及存储介质 | |
CN116166967B (zh) | 基于元学习与残差网络的数据处理方法、设备和存储介质 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN112148880A (zh) | 一种客服对话语料聚类方法、***、设备及存储介质 | |
CN115437965B (zh) | 适用于测试管理平台的数据处理方法 | |
CN108961071B (zh) | 自动预测组合业务收益的方法及终端设备 | |
CN116611916A (zh) | 基于ai模型识别的数字金融反欺诈处理方法及*** | |
CN112650741B (zh) | 异常数据的识别与修正方法、***、设备及可读存储介质 | |
CN114913008A (zh) | 基于决策树的债券价值分析方法、装置、设备及存储介质 | |
CN114881761A (zh) | 相似样本的确定方法与授信额度的确定方法 | |
CN110351330B (zh) | 数据上传方法、装置、计算机设备及存储介质 | |
CN113988670A (zh) | 综合性企业信用风险预警方法及*** | |
CN112597162A (zh) | 数据集采集方法、***、设备及存储介质 | |
CN112686677A (zh) | 基于组合特征与注意力机制的客户资质评估方法及装置 | |
CN111861701A (zh) | 风控模型优化方法、装置、计算机设备及存储介质 | |
CN116955504B (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN117056663B (zh) | 一种数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210128 Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Shenzhen, Guangdong 510000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201002 |