CN108875815A - 特征工程变量确定方法及装置 - Google Patents

特征工程变量确定方法及装置 Download PDF

Info

Publication number
CN108875815A
CN108875815A CN201810564705.4A CN201810564705A CN108875815A CN 108875815 A CN108875815 A CN 108875815A CN 201810564705 A CN201810564705 A CN 201810564705A CN 108875815 A CN108875815 A CN 108875815A
Authority
CN
China
Prior art keywords
variable
characteristic variable
feature
characteristic
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810564705.4A
Other languages
English (en)
Inventor
徐靖然
姜凤英
罗晓生
林庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Credit Micro Loan Co Ltd
Original Assignee
Shenzhen Research Credit Micro Loan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Credit Micro Loan Co Ltd filed Critical Shenzhen Research Credit Micro Loan Co Ltd
Priority to CN201810564705.4A priority Critical patent/CN108875815A/zh
Publication of CN108875815A publication Critical patent/CN108875815A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

一种特征工程变量确定方法及装置,其中,所述方法包括:获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。增强了特征变量的可解释性,丰富了特征变量所包含的信息,从而,在从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合,可以包含更丰富和更强解释性的数据信息,继而,优化了用于机器学习的特征变量,使得后期建模时可以利用优质的特征组合来提高模型的准确。

Description

特征工程变量确定方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种特征工程变量确定方法及装置。
背景技术
随着人类收集、存储、传输、处理数据的能力快速提升,社会各行各业积累了大量的数据,亟需有效地对数据进行分析,而机器学习恰顺应了大时代的迫切需求,被广泛应用于各行各业的数据处理与分析。特征工程是机器学习的重要一环,其质量会影响模型的效果,特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
特征工程就是一个把原始数据转变成可用于机器学习的特征变量的过程,这些特征变量可以全方位多角度的描述原始数据信息和特点,并且利用它们建立的模型具有良好的泛化能力,即在未知数据上的表现性能可以达到最优(或者接近最佳性能)。现有技术中,特征工程通常根据建模人员的专业技能,手动识别数据,根据模型的算法和应用场景,人工选择相应的预处理方式,并根据建模人员的专家经验进行特征衍生,对于衍生完毕的特征过滤式特征选择。整个流程需要大量的人为接入进行阈值设定或者阈值选择。现有技术中,特征工程变量的筛选对人工依附性较大,容易造成误差,并且,随着数据量越来越大,传统的特征工程计算耗费的时间将越来越长,且对建模人员的经验和能力要求越来越高,严重制约了建模的效率和大数据量对模型准确性的提升作用。
因此,如何优化特征工程以提高模型的准确性成为亟待解决的技术问题,如何提高特征工程效率成为亟待解决的第二技术问题。
发明内容
本发明要解决的技术问题在于如何优化特征工程以提高模型的准确性。
为此,根据第一方面,本发明实施例公开了一种特征工程变量确定方法,包括:
获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
可选地,基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集包括:根据选定的特征变量的类型提取与该类型相匹配的衍生规则;基于与该类型相匹配的衍生规则对选定的特征变量进行衍生得到选定的特征变量扩充后的多个特征变量作为扩充数据集中的扩充特征变量。
可选地,从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合包括:查询扩充数据集中各个特征变量的特征组合;从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。
可选地,从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合包括:获取用于表征用于机器学习的特征变量组合的重要度指标;从不同的特征组合中选取与重要度指标关联的特征组合作为用于机器学习的特征变量组合。
可选地,在获取用于机器学习的特征变量数据集合和基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集之间,还包括:对不同类型的特征变量进行预处理得到特征变量数据集合。
根据第二方面,本发明实施例公开了一种特征工程变量确定装置,包括:
数据获取模块,用于获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;特征衍生模块,用于基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;特征筛选模块,从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
可选地,特征衍生模块包括:规则提取单元,用于根据选定的特征变量的类型提取与该类型相匹配的衍生规则;特征扩充单元,用于基于与该类型相匹配的衍生规则对选定的特征变量进行衍生得到选定的特征变量扩充后的多个特征变量作为扩充数据集中的扩充特征变量。
可选地,还包括:组合查询模块,用于查询扩充数据集中各个特征变量的特征组合;组合确定模块,用于从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。
可选地,组合确定模块包括:指标获取单元,用于获取用于表征用于机器学习的特征变量组合的重要度指标;组合选取单元,用于从不同的特征组合中选取与重要度指标关联的特征组合作为用于机器学习的特征变量组合。
可选地,还包括:预处理模块,用于对不同类型的特征变量进行预处理得到特征变量数据集合。
根据第三方面,本发明实施例公开了一种计算机装置,包括处理器,处理器用于执行存储器中存储的计算机程序实现如下方法:
获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
根据第四方面,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,处理器用于执行存储介质中存储的计算机程序实现如下方法:
获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
本发明技术方案,具有如下优点:
本发明实施例提供的特征工程变量确定方法及装置,在获取用于机器学习的特征变量数据集合后,基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集,增强了特征变量的可解释性,丰富了特征变量所包含的信息,从而,在从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合,可以包含更丰富和更强解释性的数据信息,继而,优化了用于机器学习的特征变量,使得后期建模时可以利用优质的特征组合来提高模型的准确性。
此外,基于预设规则对各种类型的特征变量进行衍生,而后从扩充数据集中筛选特征变量进行组合,能够实现特征变量自动衍生和筛选组合的操作,因此,实现了自动化特征工程,提高了特征工程效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种特征工程变量确定方法流程图;
图2为本发明实施例公开的一种特征工程变量确定装置结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为了优化特征工程以及提高特征工程效率,本实施例公开了一种特征工程变量确定方法,请参考图1,为本实施例公开的一种特征工程变量确定方法流程图,该特征工程变量确定方法包括:
步骤S100,获取用于机器学习的特征变量数据集合。在具体实施例中,可以从数据前端例如移动终端、PC端获取特征变量,也可以从外部存储器获取特征变量数据集合。本实施例中,特征变量数据集合包含多种不同类型的特征变量,具体地,特征变量可以是字符型变量、时间型变量、分类型变量和数值型变量。在具体实施例中,在获取特征变量数据集合后,可以自动识别特征变量的数据类型,以便进行不同的数据处理。在具体实施过程中,可以采用现有的识别方法来识别特征变量的数据类型。
步骤S200,基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集。本实施例中,由原始特征变量进行变化而生成新的特征变量,这些新的特征变量即为原始特征变量衍生后得到的扩充特征变量,以此增强特征变量的可解释性。在具体实施例中,针对不同类型的特征变量采用不同的衍生方式来衍生得到各类型特征变量的扩充特征变量。具体地,对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集包括:根据选定的特征变量的类型提取与该类型相匹配的衍生规则;基于与该类型相匹配的衍生规则对选定的特征变量进行衍生得到选定的特征变量扩充后的多个特征变量作为扩充数据集中的扩充特征变量。作为例子,对时间特征变量,可以采用进行时间切分的衍生规则来进行衍生扩充特征变量;对连续特征变量,可以采用统计的方法进行衍生扩充特征变量;对数值型特征变量,可以采用例如取平均、中位数、增长率及加减乘除运算等衍生出新的特征变量。
步骤S300,从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。本实施例中,可以根据机器学习所需要的特征变量的属性来自动筛选特征变量,而后对筛选出来的特征变量进行组合得到特征变量组合。由于根据机器学习所需要的属性来筛选特征变量,使得筛选出来的特征变量更贴合机器学习的需要,更具针对性,因此能够提高模型的准确性。
在可选的实施例中,在执行步骤S300时,从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合包括:查询扩充数据集中各个特征变量的特征组合;从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。在具体实施过程中,可以通过枚举遍历的方式来生成所有可能的特征变量组合,例如采用排列组合的方式枚举所有可能的特征组合,例如n个特征变量,可以产生2n-1个特征变量组合;当然,也可以是通过设置相关系数阈值的方式来组合特征变量,例如某两个特征变量的相关系数超过设定的阈值时,则表明该两个特征变量关联性较大,可以进行组合。需要说明的是,在具体实施例中,可以是特征变量两两组合,也可以是多个特征变量的组合。在从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合时,可以获取用于表征用于机器学习的特征变量组合的重要度指标,从不同的特征组合中选取与重要度指标关联的特征组合作为用于机器学习的特征变量组合。作为例子,在机器学习中,实现线性分析时,线性系数K为相对重要的指标,可以选取与线性系数K相关的特征组合作为用于机器学习的特征变量组合。在选取与重要度指标关联的特征组合时,可以利用退火算法、遗传算法等算法筛选出对机器学习模型提升最大的特征组合。
为了提高数据处理效率和准确性,在可选的实施例中,在执行步骤S100和步骤S200之间,还可以包括:
步骤S400,对不同类型的特征变量进行预处理得到特征变量数据集合。本实施例中,可以根据具体特征变量的类型来对特征变量进行预处理。为便于本领域技术人员理解,下文分别针对数值型特征变量、分类型特征变量、时间类型特征变量以及字符型特征变量的预处理进行说明。
(1)对于数值型特征变量数据。可以自动进行无量纲化、缺失值修正、离散化等预处理,其中:无量纲化将不同规格的数据转换到同一规格,例如标准化、区间缩放、数据正则化等;缺失值修正处理可以是删除缺失值、数据补全、忽略缺失值等;离散化处理可以是特征分箱、特征二元化等,特征分箱根据数值不同取值切分成不同水平的类别变量,特征二元化的过程是将数值型数据转换为布尔型属性,设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。
(2)对于分类型特征变量数据。可以自动进行类别合并、数值化编码等预处理,其中:类别合并可以是分箱、二元化等,即通过将高维分类变量合并成低维变量;数值化编码可以是哑变量化、独热编码(one-hot)等,哑变量化采用N位状态寄存器对N个可能的取值进行编码,N为正整数,每个状态都由独立的寄存器位来表示,并且在任意时刻只有其中一位有效,假设某个属性的取值为非数值的离散集合[离散值1,离散值2,…,离散值m],m为正整数,则针对该属性的编码为一个m元的元组,且该元组的分量有且只有一个为1,其余都为0,而独热编码使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效,从而可以实现类别合并。
(3)对于时间类型特征变量数据。可以进行转换和切分,时间类型特征变量可转换距离基准日多少天(也可以是小时、分等计时单位),可切分为不同时间段。需要说明的是,在将时间类型特征变量转换为距离基准时间的间隔后,这些时间类型特征变量可以转变为数值型特征变量,而后也可以采用上述数值型特征变量数据对转换后的时间类型数据进行预处理,在此不再赘述。
(4)对于字符型特征变量数据,可对字符型数据进行分类和切分。具体地,可以进行例如断词、语义拆分等。
本实施例还公开了一种特征工程变量确定装置,请参考图2,为本实施例公开的一种特征工程变量确定装置结构示意图,该特征工程变量确定装置包括:数据获取模块100、特征衍生模块200和特征筛选模块300,其中:
数据获取模块100用于获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;特征衍生模块200用于基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;特征筛选模块300从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
在可选的实施例中,特征衍生模块200包括:规则提取单元用于根据选定的特征变量的类型提取与该类型相匹配的衍生规则;特征扩充单元用于基于与该类型相匹配的衍生规则对选定的特征变量进行衍生得到选定的特征变量扩充后的多个特征变量作为扩充数据集中的扩充特征变量。
在可选的实施例中,该特征工程变量确定装置还包括:组合查询模块用于查询扩充数据集中各个特征变量的特征组合;组合确定模块用于从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。
在可选的实施例中,组合确定模块包括:指标获取单元,用于获取用于表征用于机器学习的特征变量组合的重要度指标;组合选取单元,用于从不同的特征组合中选取与重要度指标关联的特征组合作为用于机器学习的特征变量组合。
在可选的实施例中,该特征工程变量确定装置还包括:预处理模块400,预处理模块400用于对不同类型的特征变量进行预处理得到特征变量数据集合。
此外,本实施例还公开了一种计算机装置,包括处理器,处理器用于执行存储器中存储的计算机程序实现如下方法:
获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
在可选的实施例中,基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集包括:根据选定的特征变量的类型提取与该类型相匹配的衍生规则;基于与该类型相匹配的衍生规则对选定的特征变量进行衍生得到选定的特征变量扩充后的多个特征变量作为扩充数据集中的扩充特征变量。
在可选的实施例中,从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合包括:查询扩充数据集中各个特征变量的特征组合;从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。
在可选的实施例中,从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合包括:获取用于表征用于机器学习的特征变量组合的重要度指标;从不同的特征组合中选取与重要度指标关联的特征组合作为用于机器学习的特征变量组合。
在可选的实施例中,在获取用于机器学习的特征变量数据集合和基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集之间,还包括:对不同类型的特征变量进行预处理得到特征变量数据集合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机处理器用于执行存储介质中存储的计算机程序实现以下方法:
获取用于机器学习的特征变量数据集合,特征变量数据集合包含多种不同类型的特征变量;基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
在可选的实施例中,基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集包括:根据选定的特征变量的类型提取与该类型相匹配的衍生规则;基于与该类型相匹配的衍生规则对选定的特征变量进行衍生得到选定的特征变量扩充后的多个特征变量作为扩充数据集中的扩充特征变量。
在可选的实施例中,从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合包括:查询扩充数据集中各个特征变量的特征组合;从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。
在可选的实施例中,从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合包括:获取用于表征用于机器学习的特征变量组合的重要度指标;从不同的特征组合中选取与重要度指标关联的特征组合作为用于机器学习的特征变量组合。
在可选的实施例中,在获取用于机器学习的特征变量数据集合和基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集之间,还包括:对不同类型的特征变量进行预处理得到特征变量数据集合。
本实施例提供的特征工程变量确定方法及装置,在获取用于机器学习的特征变量数据集合后,基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集,增强了特征变量的可解释性,丰富了特征变量所包含的信息,从而,在从扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合,可以包含更丰富和更强解释性的数据信息,继而,优化了用于机器学习的特征变量,使得后期建模时可以利用优质的特征组合来提高模型的准确性。
此外,基于预设规则对各种类型的特征变量进行衍生,而后从扩充数据集中筛选特征变量进行组合,能够实现特征变量自动衍生和筛选组合的操作,因此,实现了自动化特征工程,提高了特征工程效率。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (12)

1.一种特征工程变量确定方法,其特征在于,包括:
获取用于机器学习的特征变量数据集合,所述特征变量数据集合包含多种不同类型的特征变量;
基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;
从所述扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
2.如权利要求1所述的特征工程变量确定方法,其特征在于,所述基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集包括:
根据选定的特征变量的类型提取与该类型相匹配的衍生规则;
基于与该类型相匹配的衍生规则对所述选定的特征变量进行衍生得到所述选定的特征变量扩充后的多个特征变量作为所述扩充数据集中的扩充特征变量。
3.如权利要求1所述的特征工程变量确定方法,其特征在于,所述从所述扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合包括:
查询所述扩充数据集中各个特征变量的特征组合;
从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。
4.如权利要求3所述的特征工程变量确定方法,其特征在于,所述从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合包括:
获取用于表征用于机器学习的特征变量组合的重要度指标;
从不同的特征组合中选取与所述重要度指标关联的特征组合作为用于机器学习的特征变量组合。
5.如权利要求1-4任意一项所述的特征工程变量确定方法,其特征在于,在所述获取用于机器学习的特征变量数据集合和所述基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集之间,还包括:
对不同类型的特征变量进行预处理得到所述特征变量数据集合。
6.一种特征工程变量确定装置,其特征在于,包括:
数据获取模块,用于获取用于机器学习的特征变量数据集合,所述特征变量数据集合包含多种不同类型的特征变量;
特征衍生模块,用于基于预设规则对各种类型的特征变量分别进行衍生得到扩充特征变量后的扩充数据集;
特征筛选模块,从所述扩充数据集中筛选特征变量进行组合得到用于机器学习的特征变量组合。
7.如权利要求6所述的特征工程变量确定装置,其特征在于,所述特征衍生模块包括:
规则提取单元,用于根据选定的特征变量的类型提取与该类型相匹配的衍生规则;
特征扩充单元,用于基于与该类型相匹配的衍生规则对所述选定的特征变量进行衍生得到所述选定的特征变量扩充后的多个特征变量作为所述扩充数据集中的扩充特征变量。
8.如权利要求6所述的特征工程变量确定装置,其特征在于,还包括:
组合查询模块,用于查询所述扩充数据集中各个特征变量的特征组合;
组合确定模块,用于从不同的特征组合中确定优选特征组合作为用于机器学习的特征变量组合。
9.如权利要求8所述的特征工程变量确定装置,其特征在于,所述组合确定模块包括:
指标获取单元,用于获取用于表征用于机器学习的特征变量组合的重要度指标;
组合选取单元,用于从不同的特征组合中选取与所述重要度指标关联的特征组合作为用于机器学习的特征变量组合。
10.如权利要求6-9任意一项所述的特征工程变量确定装置,其特征在于,还包括:
预处理模块,用于对不同类型的特征变量进行预处理得到所述特征变量数据集合。
11.一种计算机装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序实现如权利要求1-5任意一项的所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,处理器用于执行存储介质中存储的计算机程序实现如权利要求1-5任意一项所述的方法。
CN201810564705.4A 2018-06-04 2018-06-04 特征工程变量确定方法及装置 Pending CN108875815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564705.4A CN108875815A (zh) 2018-06-04 2018-06-04 特征工程变量确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564705.4A CN108875815A (zh) 2018-06-04 2018-06-04 特征工程变量确定方法及装置

Publications (1)

Publication Number Publication Date
CN108875815A true CN108875815A (zh) 2018-11-23

Family

ID=64336210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564705.4A Pending CN108875815A (zh) 2018-06-04 2018-06-04 特征工程变量确定方法及装置

Country Status (1)

Country Link
CN (1) CN108875815A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657723A (zh) * 2018-12-20 2019-04-19 四川新网银行股份有限公司 一种增强高维类别特征表达能力的方法
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
CN111985553A (zh) * 2020-08-18 2020-11-24 北京云从科技有限公司 一种特征构造方法、装置、机器可读介质及设备
WO2021084471A1 (en) * 2019-10-31 2021-05-06 International Business Machines Corporation Artificial intelligence transparency
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions
WO2021196843A1 (zh) * 2020-03-31 2021-10-07 支付宝(杭州)信息技术有限公司 用于风险识别模型的衍生变量选择方法和装置
CN113496287A (zh) * 2020-04-07 2021-10-12 广州华工弈高科技有限公司 一种基于地域数据的自动化特征工程方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式***中的性能异常预测方法及***
CN105786860A (zh) * 2014-12-23 2016-07-20 华为技术有限公司 一种数据建模中的数据处理方法及装置
CN107168965A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 特征工程策略确定方法及装置
CN107392217A (zh) * 2016-05-17 2017-11-24 上海点融信息科技有限责任公司 计算机实现的信息处理方法及装置
CN107688865A (zh) * 2017-07-31 2018-02-13 上海恺英网络科技有限公司 识别网络游戏中潜在高消费用户的方法及设备
CN107784322A (zh) * 2017-09-30 2018-03-09 东软集团股份有限公司 异常数据检测方法、装置、存储介质以及程序产品
CN107808246A (zh) * 2017-10-26 2018-03-16 上海维信荟智金融科技有限公司 征信数据的智能评估方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式***中的性能异常预测方法及***
CN105786860A (zh) * 2014-12-23 2016-07-20 华为技术有限公司 一种数据建模中的数据处理方法及装置
CN107168965A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 特征工程策略确定方法及装置
CN107392217A (zh) * 2016-05-17 2017-11-24 上海点融信息科技有限责任公司 计算机实现的信息处理方法及装置
CN107688865A (zh) * 2017-07-31 2018-02-13 上海恺英网络科技有限公司 识别网络游戏中潜在高消费用户的方法及设备
CN107784322A (zh) * 2017-09-30 2018-03-09 东软集团股份有限公司 异常数据检测方法、装置、存储介质以及程序产品
CN107808246A (zh) * 2017-10-26 2018-03-16 上海维信荟智金融科技有限公司 征信数据的智能评估方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KEDAR POTDAR: "A Comparative Study of Categorical Variable Encoding Techniques for Neural Network Classifiers", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 *
江鹏: "面向非平衡数据集的多簇IB算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions
CN109657723A (zh) * 2018-12-20 2019-04-19 四川新网银行股份有限公司 一种增强高维类别特征表达能力的方法
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
WO2021084471A1 (en) * 2019-10-31 2021-05-06 International Business Machines Corporation Artificial intelligence transparency
US11651276B2 (en) 2019-10-31 2023-05-16 International Business Machines Corporation Artificial intelligence transparency
WO2021196843A1 (zh) * 2020-03-31 2021-10-07 支付宝(杭州)信息技术有限公司 用于风险识别模型的衍生变量选择方法和装置
CN113496287A (zh) * 2020-04-07 2021-10-12 广州华工弈高科技有限公司 一种基于地域数据的自动化特征工程方法及装置
CN111985553A (zh) * 2020-08-18 2020-11-24 北京云从科技有限公司 一种特征构造方法、装置、机器可读介质及设备

Similar Documents

Publication Publication Date Title
CN108875815A (zh) 特征工程变量确定方法及装置
JP6307169B2 (ja) 迅速なデータ解析のためのシステム及び方法
CN108399748B (zh) 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN109697456A (zh) 业务分析方法、装置、设备及存储介质
CN105786860A (zh) 一种数据建模中的数据处理方法及装置
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN106503175A (zh) 相似文本的查询、问题扩展方法、装置及机器人
CN109308303B (zh) 一种基于马尔可夫链的多表连接在线聚集方法
CN104598632A (zh) 热点事件检测方法和装置
CN108304509A (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN109033322A (zh) 一种多维数据的测试方法和装置
CN108763536A (zh) 数据库访问方法及装置
CN111737555A (zh) 热点关键词的选取方法、设备和存储介质
CN110348647A (zh) 一种全球贸易大数据智能分析***及方法
CN104050291A (zh) 一种账户余额数据的并行处理方法和***
CN114022051A (zh) 一种指标波动分析方法,存储介质和电子设备
CN106055645A (zh) 一种用于高维数据分析的维度重要性评估方法
CN117078049A (zh) 一种国土空间规划评估方法及***
CN112634004A (zh) 征信数据的血缘图谱分析方法与***
CN105373473B (zh) 基于原始信令解码的cdr准确性测试方法及测试***
CN103500071B (zh) 一种定量存储性能指标数据的方法及其装置
CN103714049B (zh) 动态确认样本相似的方法及装置
CN115827618A (zh) 一种全局数据整合方法及装置
CN108446342A (zh) 一种环境质量评价***、方法、装置及存储装置
CN109543712A (zh) 时态数据集上的实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Fengying

Inventor after: Lin Qingzhi

Inventor before: Xu Jingran

Inventor before: Jiang Fengying

Inventor before: Luo Xiaosheng

Inventor before: Lin Qingzhi

CB03 Change of inventor or designer information
CB02 Change of applicant information

Address after: 518000 Unit A, B, C, D, Unit 21, Unit A, Unit 22, Unit C, Unit D, Block 11, Keyuan Road, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen feidai small loan Co., Ltd

Address before: 518000 Unit A, B, C, D, Unit 21, Unit A, Unit 22, Unit C, Unit D, Block 11, Keyuan Road, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN YANXIN PETTY LOAN Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123

RJ01 Rejection of invention patent application after publication