CN110334720A - 业务数据的特征提取方法、装置、服务器和存储介质 - Google Patents

业务数据的特征提取方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN110334720A
CN110334720A CN201810289688.8A CN201810289688A CN110334720A CN 110334720 A CN110334720 A CN 110334720A CN 201810289688 A CN201810289688 A CN 201810289688A CN 110334720 A CN110334720 A CN 110334720A
Authority
CN
China
Prior art keywords
rule
business datum
target
feature
dimensionality reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810289688.8A
Other languages
English (en)
Inventor
刘昊骋
丁磊
徐西孟
宫健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810289688.8A priority Critical patent/CN110334720A/zh
Publication of CN110334720A publication Critical patent/CN110334720A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种业务数据的特征提取方法、装置、服务器和存储介质,该方法包括:确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项;其中,所述目标编码规则是从预先提供的各候选编码规则中确定的,所述目标归一化规则是从预先提供的各候选特征归一化规则中确定的,所述目标降维规则是从预先提供的各候选降维规则中确定;依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量。本发明实施例通过修改特征工程的配置参数,即可完成业务数据对应的特征向量的自动生成。实现了特征工程的模块化、自动化和可复用性,提高特征向量的生成效率和准确性。

Description

业务数据的特征提取方法、装置、服务器和存储介质
技术领域
本发明实施例涉及机器学习技术领域,尤其涉及一种业务数据的特征提取方法、装置、服务器和存储介质。
背景技术
随着计算机技术和大数据应用的不断发展,越来越多的技术领域都会基于大数据进行机器学习建模,以模仿人类的思维模式,使各类电子产品提供更人性化的用户体验。
机器学***台提供了便于研发人员进行开发的图形操作界面,研发人员虽然不用编写大量的程序代码进行业务数据处理,但是在进行特征工程获取特征向量的过程,对业务数据做字段特征提取、特征编码和降维等操作时,仍需要根据业务概念人工逐一处理,人工进行特征编码、归一化和降维的特征工程。
然而,特征工程的人工处理方式局限性很大。特征维度较小的业务数据还在人工能够处理的范围内,但是一旦特征维度增加,人工进行特征工程的方式将耗费大量人力和时间,且用户需要多次尝试特征工程各方法以优化模型。同时不均衡或异常的样本数据还会对建模效果产生不良的影响。进而研发人员需要花大量的时间做重复性的特征工程和样本分析,使得模型上线周期很长,无法快速满足业务需求和模型迭代。
发明内容
本发明实施例提供了一种业务数据的特征提取方法、装置、服务器和存储介质,能够实现特征工程的模块化、自动化和可复用性,提高特征向量的生成效率和准确性。
第一方面,本发明实施例提供了一种业务数据的特征提取方法,包括:
确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项;以及
依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量。
第二方面,本发明实施例提供了一种业务数据的特征提取装置,包括:
规则配置模块,用于确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项;
特征生成模块,用于依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量。
第三方面,本发明实施例提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的业务数据的特征提取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的业务数据的特征提取方法。
本发明实施例通过根据业务数据的特点修改特征工程的配置参数,确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,依据确定的规则生成业务数据的特征向量。本发明实施例使得研发人员仅需从业务角度或***生成的最优配置角度修改特征工程的配置参数,将业务数据和特征工程关联,即可完成业务数据对应的特征向量的自动生成。实现了特征工程的模块化、自动化和可复用性,提高特征向量的生成效率和准确性。
附图说明
图1为本发明实施例一提供的一种业务数据的特征提取方法的流程图;
图2为本发明实施例二提供的一种业务数据的特征提取方法的流程图;
图3为本发明实施例二提供的各特征数据处理环节可配置规则的示例图;
图4为本发明实施例二提供的基于特征工程自动化平台的模型训练方式的流程图;
图5为本发明实施例三提供的一种业务数据的特征提取装置的结构示意图;
图6为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种业务数据的特征提取方法的流程图,本实施例可适用于对业务数据进行特征工程以生成特征向量的情况,该方法可由业务数据的特征提取装置来执行。该方法具体包括如下步骤:
S110、确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项。
在本发明具体实施例中,业务数据是指用于构建机器学习模型的待分析数据,例如某网站的注册用户信息,包含各用户的年龄、职业和收入等数据信息,可以通过爬虫技术或访问数据库等多种方式获取所需的业务数据。
目标编码规则、目标归一化规则和目标降维规则是指有针对性的为该业务数据配置的数据处理规则。其中,目标编码规则定义了该业务数据的特征编码方法。目标编码规则实现将原始的业务数据的属性特征转化为计算机可以识别的数值标识。例如One-Hot编码即一位有效编码、数值映射以及区间映射等多种特征编码方法。目标归一化规则定义了该业务数据的特征归一化方法。目标归一化规则实现将特征数据按比例缩放,使之落入一个小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。例如最典型的数据归一化处理就是将数据统一映射到[0,1]区间上。目标降维规则定义了该业务数据的特征降维方法。目标降维规则实现对原有的特征进行重新组合或删除,以降低特征的维度,减少由于特征维数过大或冗余而对机器模型产生不良的影响。例如主成分分析方法(Principal Components Analysis,PCA)把多指标转化为少数几个综合指标。
在一个实施例中,目标编码规则可以从预先提供的各候选编码规则中确定,目标归一化规则可以从预先提供的各候选特征归一化规则中确定的,同理目标降维规则也可以从预先提供的各候选降维规则中确定。其中,候选编码规则、候选特征归一化规则和候选降维规则可以是以业务数据所属的业务字段和/或业务场景为依据,预先打包好供研发人员选择的。
值得注意的是,***根据历史建模经验,为特征工程设置了默认的配置方式。在依据业务数据进行特征工程的规则配置时,需要确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,以使特征工程能够根据配置的规则对数据进行处理。
示例性的,***根据历史建模经验,为特征工程设置了默认的配置方式,年龄特征采用区间映射编码方法,将各年龄区间转换为对应的标量值。例如,采用数值1表示年龄区间[0,18),采用数值2表示年龄区间[18,30),采用数值3表示年龄区间[30,40),以此类推;职业特征采用One-Hot编码方法,例如存在三种职业包括[教师,医生,警察],则One-Hot编码后,[1,0,0]表示教师,[0,1,0]表示医生,[0,0,1]表示警察;特征收入和存款采用阿特曼Z-score模型进行特征归一化。研发人员进行建模时,可以根据自身业务修改配置。同时,***会自动“尝试”其它配置。例如,修改年龄区间映射关系为采用数值1表示年龄区间[0,25),采用数值2表示年龄区间[25,45),采用数值3表示年龄区间[45,65),以此类推;职业特征修改采用证据权重(Weight of Evidence,WOE)编码;收入和存款特征使用Min-Max即最小-最大规范化方法进行特征的归一化处理。
S120、依据业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定业务数据的特征向量。
在本发明具体实施例中,在进行特征工程规则的配置后,***即可根据已经配置的规则实现对业务数据的自动化特征处理。其中,自动化特征处理大致包括以下四个步骤。
第一步为数据预处理:同上述规则的配置流程,同样可以为数据预处理配置相应的预处理规则,利用数据预处理引擎实现对业务数据的行列过滤和数据清洗。其中,行可以代表特征的类别,不同的行表示不同的数据属性;相应的列可以代表特征,不同数据属性因个体特征而存在差异,反之亦然。通过配置行列过滤筛选条件,对所有特征数据进行读取和筛选,以清除异常数据和垃圾数据。
示例性的,以2017年某银行的用户数据做风控模型为例,用户业务数据包括性别、年龄、学历、职业、收入、消费、不动产、债务等,研发人员可以配置各字段的合理区间,例如年龄为[0,120],性别必为男或女,收入不为负。进而在数据清洗时可以把异常数据,例如年龄为200岁或收入为-5万的数据,以及垃圾数据,例如重复数据或者性别字段为空的数据进行清除。
第二步为特征编码:通过配置的目标编码规则,利用特征编码引擎实现将原始的业务数据的属性特征转化为计算机可以识别的数值标识。示例性的,性别特征采用One-Hot编码方法,即对于两种性别,编码后性别男为10,性别女为01。学历特征采用数值映射的编码方法,学历包含以下五种,即[高中以下,专科,本科,硕士,博士],编码后依次对应标量数值[1,2,3,4,5]。年龄特征采用区间映射方法,即采用数值1表示年龄区间[0,18),采用数值2表示年龄区间[18,30),采用数值3表示年龄区间[30,40),则年龄25可以编码为2。
第三步为特征归一化:通过配置的目标归一化规则,利用特征归一化引擎实现将特征数据按比例缩放并转化为无量纲的纯数值。例如,收入和存款特征采用阿特曼Z-score模型进行特征归一化。
第四步为特征降维:通过配置的目标降维规则,利用特征降维选择引擎实现对原有的特征进行重新组合或删除,以降低特征的维度。示例性的,若采用PCA和因子分析方法,可配置成将10个特征综合用4个特征表示,并将业务数据转成4维特征,其中多特征组合可配置成将职业和收入合成一个特征,例如高收入职业。同时可以依据特征的重要性,将对模型影响较小的特征删去。
本实施例通过上述四个步骤的特征处理过程,即可根据配置特征工程的各项规则,实现对业务数据的自动化特征处理。
本实施例的技术方案,通过根据业务数据的特点修改特征工程的配置参数,确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,依据确定的规则生成业务数据的特征向量。本发明实施例使得研发人员仅需从业务角度或***生成的最优配置角度修改特征工程的配置参数,将业务数据和特征工程关联,即可完成业务数据对应的特征向量的自动生成。实现了特征工程的模块化、自动化和可复用性,提高特征向量的生成效率和准确性,大幅减少特征工程的人力和时间成本。
实施例二
本实施例在上述实施例一的基础上,提供了一种业务数据的特征提取方法的一个优选实施方式,能够利用自动化生成的特征向量进行机器学习模型的构建。图2为本发明实施例二提供的一种业务数据的特征提取方法的流程图,如图2所示,该方法包括以下具体步骤:
S210、依据业务数据所属的业务字段和/或业务场景,为业务数据提供候选编码规则、候选特征归一化规则和候选降维规则中的至少一项。
在本发明具体实施例中,业务字段和业务场景是指业务数据的属性特征,其中业务字段是指业务的本身属性,业务场景是指业务所应用场景的属性特征。综合业务数据所属的业务字段和/或业务场景,归结业务数据特征,从而可以以此为依据为业务数据提供候选编码规则、候选特征归一化规则和候选降维规则中的至少一项。示例性的,按照特征处理流程,可以为数据预处理引擎配置预处理规则,例如行列过滤规则和数据清洗规则等;可以为特征编码引擎配置编码规则,例如One-Hot编码、数值映射、区间映射、WOE、Logistic回归(LOG)以及数值离散等;可以为特征归一化引擎配置归一化规则,例如Min-Max缩放、Z-score、数据标准化以及二值转换等;可以为特征降维选择引擎配置降维规则,例如PCA、因子分析、多特征组合以及特征重要性等。这些候选规则可以是以业务数据所属的业务字段和/或业务场景为依据,预先打包好供研发人员选择的。
S220、确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项。
在本发明具体实施例中,特征工程参数的配置可以包括业务数据字段定义、业务场景、引擎规则参数以及模型分数。其中,业务数据字段定义和业务场景可以为业务数据处理时提供配置规则的选择依据,在业务数据字段定义和业务场景关联的候选规则中,为特征处理各引擎配置对应的规则参数。同时还可以接收历史机器学习模型反馈的模型质量数据即模型分数,以此依据建模效果选择最优的配置参数。***根据历史建模经验,为特征工程设置了默认的配置方式。在依据业务数据进行特征工程的规则配置时,需要从候选规则中确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,以使特征工程能够根据配置的规则对数据进行处理。
S230、依据业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定业务数据的特征向量。
在本发明具体实施例中,在进行特征工程规则的配置后,***即可根据已经配置的规则实现对业务数据的自动化特征处理。其中,自动化特征处理大致包括以下四个步骤,包括数据预处理、特征编码、特征归一化以及特征降维。按照研发人员配置的各项规则对业务数据进行处理,以生成能够充分代表业务数据的特征向量,供后期建模使用。
S240、采用业务数据的特征向量构建机器学习模型。
在本发明具体实施例中,通过模块化、自动化和可复用性的特征工程,实现为业务数据配置相应的特征处理规则,以根据确定的目标编码规则、目标归一化规则和目标降维规则中的至少一项,高效地生成业务数据的特征向量,且准确率较高。最终以自动化生成的特征向量进行机器学习模型的构建。
优选的,从预先提供的候选样本均衡规则中确定业务数据的目标样本均衡规则;采用目标样本均衡规则对业务数据进行筛选;采用筛选的业务数据对应的特征向量构建机器学习模型。
在本发明具体实施例中,除了上述四个特征处理之外,在进行模型构建之前,还需要对不均衡的样本进行处理。同上述特征处理规则的配置流程,同样可以为样本调节配置相应的规则,利用样本调节引擎实现对不均衡的业务数据进行筛选。具体的,样本不均衡是指样本中存在某个或某些特征类别下的样本数量远大于另一些特征类别下的样本数量,即样本集中每个特征类别下的样本数量相差很大,无法满足模型的构建要求。因此在构建模型之前,为了达到更好的机器学习模型的构建效果,需要对样本不均衡性问题进行处理。示例性的,对于模型构建前业务数据的处理流程,各环节中可配置的规则如图3所示。其中,数据预处理、特征编码、特征归一化以及特征降维四个环节中的候选规则如上所述,此处不再赘述。而针对样本不均衡的处理,可以配置随机采样方法或者合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)与编辑最近邻(Edited NearestNeighbor,ENN)之一或两者结合的方法实现样本的均衡。最终,采用筛选的业务数据即均衡的样本数据对应的特征向量构建机器学习模型。
S250、若机器学习模型的质量高于业务数据的历史机器学习模型,则将所述机器学习模型关联的目标编码规则、目标归一化规则和目标降维规则中的至少一项更新为所述业务数据的默认配置规则。
在本发明具体实施例中,经过上述五个特征处理步骤,最终得到的业务数据将用于训练优化模型,并根据模型效果反馈至特征自动化平台,更新各引擎的默认配置规则。在模型构建之后,如果通过新配置规则生成的特征向量训练出的模型效果更好,即最新构建的机器学习模型的质量高于该业务数据的历史机器学习模型,则将新配置规则即该新机器学习模型关联的目标编码规则、目标归一化规则和目标降维规则中的至少一项更新为该业务数据的默认配置规则,下次来该业务的新业务数据时直接按照默认配置规则做特征工程,提高特征向量的生成效率和准确度。
综上所述,基于特征工程自动化平台的模型训练方式的流程如图4所示。研发人员只需将业务数据及其业务字段和/业务场景与特征工程绑定,特征工程在候选配置规则的基础上,进行人工设定配置参数或者按照默认配置规则进行自动设定配置参数,以使特征工程自动化平台根据业务数据和配置的数据处理规则即可实现自动化的特征数据处理,从而高效地获得能够进行模型训练的业务数据对应的特征向量,且特征向量的准确度较高。最终依据特征向量进行模型的训练和评估,并将模型效果反馈至特征自动化平台,获取最优模型对应的配置参数更新为各引擎的默认配置规则。
本实施例的技术方案,通过根据业务数据所属的业务字段和业务场景,预先为业务数据提供了特征处理各个环节对应的多个候选规则,从而在对业务数据进行自动化的特征向量生成时,从候选规则中挑选出任一规则进行配置,实现根据业务数据的特点修改特征工程的配置参数,依据确定的规则自动生成业务数据的特征向量;并对样本数据进行均衡处理,利用筛选出的均衡样本对应的特征向量进行机器学***台,以此将质量最高的模型对应的配置规则设置为该类业务数据的默认配置规则。
本发明实施例降低了建模人员的机器学习相关技术门槛,使得相关业务人员都可以进行数据的挖掘和建模,仅需从业务角度或***生成的最优配置角度修改特征工程的配置参数,将业务数据和特征工程关联,即可完成业务数据对应的特征向量的自动生成;且将建模效果较好的特征向量对应的配置参数更新设置为特征工程默认的配置参数。实现了特征工程的模块化、自动化和可复用性,提高特征向量的生成效率和准确性,大幅减少特征工程的人力和时间成本,提升模型的构建效果和效率。
实施例三
图5为本发明实施例三提供的一种业务数据的特征提取装置的结构示意图,本实施例可适用于对业务数据进行特征工程以生成特征向量的情况,该装置可实现本发明任意实施例所述的业务数据的特征提取方法。该装置具体包括:
规则配置模块510,用于确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项;其中,所述目标编码规则是从预先提供的各候选编码规则中确定的,所述目标归一化规则是从预先提供的各候选特征归一化规则中确定的,所述目标降维规则是从预先提供的各候选降维规则中确定;
特征生成模块520,用于依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量。
进一步的,所述装置包括:
规则供应模块530,用于在所述确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项之前,依据所述业务数据所属的业务字段和/或业务场景,为所述业务数据提供候选编码规则、候选特征归一化规则和候选降维规则中的至少一项。
进一步的,所述装置还包括:
模型构建模块540,用于在所述依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量之后,采用所述业务数据的特征向量构建机器学习模型;
默认规则更新模块550,用于若所述机器学习模型的质量高于所述业务数据的历史机器学习模型,则将所述机器学习模型关联的目标编码规则、目标归一化规则和目标降维规则中的至少一项更新为所述业务数据的默认配置规则。
优选的,所述模型构建模块540,包括:
均衡规则确定单元,用于从预先提供的候选样本均衡规则中确定所述业务数据的目标样本均衡规则;
数据筛选单元,用于采用所述目标样本均衡规则对所述业务数据进行筛选;
模型构建单元,用于采用筛选的业务数据对应的特征向量构建机器学习模型。
本实施例的技术方案,通过各个功能模块之间的相互配合,实现了特征工程参数的配置、业务数据与特征工程的关联、特征向量的自动化生成、机器学习模型的构建、模型效果的反馈以及特征工程默认配置的更新等功能。本发明实施例使得研发人员仅需从业务角度或***生成的最优配置角度修改特征工程的配置参数,将业务数据和特征工程关联,即可完成业务数据对应的特征向量的自动生成;且将建模效果较好的特征向量对应的配置参数更新设置为特征工程默认的配置参数。实现了特征工程的模块化、自动化和可复用性,提高特征向量的生成效率和准确性,大幅减少特征工程的人力和时间成本,提升模型的构建效果和效率。
实施例四
图6为本发明实施例四提供的一种服务器的结构示意图,图6示出了适于用来实现本发明实施例实施方式的示例***器的框图。图6显示的服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
图6显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的业务数据的特征提取方法。
实施例五
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行一种业务数据的特征提取方法,该方法包括:
确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项;以及
依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明实施例不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明实施例构思的情况下,还可以包括更多其他等效实施例,而本发明实施例的范围由所附的权利要求范围决定。

Claims (10)

1.一种业务数据的特征提取方法,其特征在于,包括:
确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项;以及
依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量。
2.根据权利要求1所述的方法,其特征在于,在所述确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项之前,所述方法还包括:
依据所述业务数据所属的业务字段和/或业务场景,为所述业务数据提供候选编码规则、候选特征归一化规则和候选降维规则中的至少一项。
3.根据权利要求1所述的方法,其特征在于,在所述依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量之后,所述方法还包括:
采用所述业务数据的特征向量构建机器学习模型;
若所述机器学习模型的质量高于所述业务数据的历史机器学习模型,则将所述机器学习模型关联的目标编码规则、目标归一化规则和目标降维规则中的至少一项更新为所述业务数据的默认配置规则。
4.根据权利要求3所述的方法,其特征在于,所述采用所述业务数据的特征向量构建机器学习模型,包括:
从预先提供的候选样本均衡规则中确定所述业务数据的目标样本均衡规则;
采用所述目标样本均衡规则对所述业务数据进行筛选;
采用筛选的业务数据对应的特征向量构建机器学习模型。
5.一种业务数据的特征提取装置,其特征在于,包括:
规则配置模块,用于确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项;
特征生成模块,用于依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量。
6.根据权利要求5所述的装置,其特征在于,所述装置包括:
规则供应模块,用于在所述确定业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项之前,依据所述业务数据所属的业务字段和/或业务场景,为所述业务数据提供候选编码规则、候选特征归一化规则和候选降维规则中的至少一项。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
模型构建模块,用于在所述依据所述业务数据的目标编码规则、目标归一化规则和目标降维规则中的至少一项,确定所述业务数据的特征向量之后,采用所述业务数据的特征向量构建机器学习模型;
默认规则更新模块,用于若所述机器学习模型的质量高于所述业务数据的历史机器学习模型,则将所述机器学习模型关联的目标编码规则、目标归一化规则和目标降维规则中的至少一项更新为所述业务数据的默认配置规则。
8.根据权利要求7所述的装置,其特征在于,所述模型构建模块,包括:
均衡规则确定单元,用于从预先提供的候选样本均衡规则中确定所述业务数据的目标样本均衡规则;
数据筛选单元,用于采用所述目标样本均衡规则对所述业务数据进行筛选;
模型构建单元,用于采用筛选的业务数据对应的特征向量构建机器学习模型。
9.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至4中任一项所述的业务数据的特征提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的业务数据的特征提取方法。
CN201810289688.8A 2018-03-30 2018-03-30 业务数据的特征提取方法、装置、服务器和存储介质 Pending CN110334720A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810289688.8A CN110334720A (zh) 2018-03-30 2018-03-30 业务数据的特征提取方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810289688.8A CN110334720A (zh) 2018-03-30 2018-03-30 业务数据的特征提取方法、装置、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN110334720A true CN110334720A (zh) 2019-10-15

Family

ID=68139901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810289688.8A Pending CN110334720A (zh) 2018-03-30 2018-03-30 业务数据的特征提取方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN110334720A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522797A (zh) * 2020-04-27 2020-08-11 支付宝(杭州)信息技术有限公司 用于基于业务数据库构建业务模型的方法和装置
CN111581305A (zh) * 2020-05-18 2020-08-25 北京字节跳动网络技术有限公司 特征处理方法、装置、电子设备和介质
CN113010510A (zh) * 2019-12-20 2021-06-22 ***通信集团安徽有限公司 业务识别方法、装置、***及计算设备
CN113158022A (zh) * 2021-01-29 2021-07-23 北京达佳互联信息技术有限公司 业务推荐方法、装置、服务器及存储介质
RU2785764C1 (ru) * 2019-10-31 2022-12-13 Биго Текнолоджи Пте. Лтд. Способ рекомендации информации, устройство, сервер рекомендаций и запоминающее устройство

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103743486A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于海量烟叶数据的自动定级***和方法
CN103854063A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种基于互联网开放信息的事件发生风险预测并预警方法
CN104156562A (zh) * 2014-07-15 2014-11-19 清华大学 银行后台运维***的故障预测方法及***
CN104239856A (zh) * 2014-09-04 2014-12-24 电子科技大学 基于Gabor特征和自适应线性回归的人脸识别方法
CN104268595A (zh) * 2014-09-24 2015-01-07 深圳市华尊科技有限公司 通用物件检测方法及***
CN104468711A (zh) * 2014-10-31 2015-03-25 上海融军科技有限公司 物联网通用的数据管理编码方法及***
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN105302911A (zh) * 2015-11-10 2016-02-03 珠海多玩信息技术有限公司 一种数据筛选引擎建立方法及数据筛选引擎
CN105426356A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种目标信息识别方法和装置
CN106682067A (zh) * 2016-11-08 2017-05-17 浙江邦盛科技有限公司 一种基于交易数据的机器学习反欺诈监测***
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学***台
CN107025141A (zh) * 2017-05-18 2017-08-08 成都海天数联科技有限公司 一种基于大数据混合作业模型的调度方法
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103854063A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种基于互联网开放信息的事件发生风险预测并预警方法
CN103743486A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于海量烟叶数据的自动定级***和方法
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN104156562A (zh) * 2014-07-15 2014-11-19 清华大学 银行后台运维***的故障预测方法及***
CN104239856A (zh) * 2014-09-04 2014-12-24 电子科技大学 基于Gabor特征和自适应线性回归的人脸识别方法
CN104268595A (zh) * 2014-09-24 2015-01-07 深圳市华尊科技有限公司 通用物件检测方法及***
CN104468711A (zh) * 2014-10-31 2015-03-25 上海融军科技有限公司 物联网通用的数据管理编码方法及***
CN105426356A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种目标信息识别方法和装置
CN105302911A (zh) * 2015-11-10 2016-02-03 珠海多玩信息技术有限公司 一种数据筛选引擎建立方法及数据筛选引擎
CN106682067A (zh) * 2016-11-08 2017-05-17 浙江邦盛科技有限公司 一种基于交易数据的机器学习反欺诈监测***
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学***台
CN107025141A (zh) * 2017-05-18 2017-08-08 成都海天数联科技有限公司 一种基于大数据混合作业模型的调度方法
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2785764C1 (ru) * 2019-10-31 2022-12-13 Биго Текнолоджи Пте. Лтд. Способ рекомендации информации, устройство, сервер рекомендаций и запоминающее устройство
CN113010510A (zh) * 2019-12-20 2021-06-22 ***通信集团安徽有限公司 业务识别方法、装置、***及计算设备
CN113010510B (zh) * 2019-12-20 2024-03-19 ***通信集团安徽有限公司 业务识别方法、装置、***及计算设备
CN111522797A (zh) * 2020-04-27 2020-08-11 支付宝(杭州)信息技术有限公司 用于基于业务数据库构建业务模型的方法和装置
CN111522797B (zh) * 2020-04-27 2023-06-02 支付宝(杭州)信息技术有限公司 用于基于业务数据库构建业务模型的方法和装置
CN111581305A (zh) * 2020-05-18 2020-08-25 北京字节跳动网络技术有限公司 特征处理方法、装置、电子设备和介质
CN111581305B (zh) * 2020-05-18 2023-08-08 抖音视界有限公司 特征处理方法、装置、电子设备和介质
CN113158022A (zh) * 2021-01-29 2021-07-23 北京达佳互联信息技术有限公司 业务推荐方法、装置、服务器及存储介质
CN113158022B (zh) * 2021-01-29 2024-03-12 北京达佳互联信息技术有限公司 业务推荐方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
JP6708847B1 (ja) 機械学習装置及び方法
CN110334720A (zh) 业务数据的特征提取方法、装置、服务器和存储介质
CN108804641A (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN104077303B (zh) 用于呈现数据的方法和装置
CN110852785B (zh) 用户分级方法、装置及计算机可读存储介质
CN109726661A (zh) 图像处理方法及装置、介质和计算设备
CN113590863A (zh) 图像聚类方法、装置及计算机可读存储介质
CN111027600A (zh) 图像类别预测方法和装置
CN113850666A (zh) 业务调度的方法、装置、设备及存储介质
CN114168795B (zh) 建筑三维模型映射及存储方法、装置、电子设备及介质
CN117057852A (zh) 一种基于人工智能技术的互联网营销***及方法
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN111126629A (zh) 模型的生成方法、刷单行为识别方法、***、设备和介质
CN108629381A (zh) 基于大数据的人群筛选方法及终端设备
US11620550B2 (en) Automated data table discovery for automated machine learning
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
WO2023164312A1 (en) An apparatus for classifying candidates to postings and a method for its use
US20210357791A1 (en) System and method for storing and processing data
CN116187675A (zh) 任务分配方法、装置、设备及存储介质
CN115293275A (zh) 数据识别方法、装置、电子设备和存储介质
CN113377951A (zh) 智能客服机器人的语料构建方法及装置
CN111259138A (zh) 一种税务领域短文本的情感分类方法及装置
CN109858532A (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN117708351B (zh) 基于深度学习的技术标辅助评审方法、***及存储介质
US12014428B1 (en) Apparatus and a method for the generation of provider data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015

RJ01 Rejection of invention patent application after publication