CN105183914A

CN105183914A - 数据特征格式化方法及装置

Info

Publication number: CN105183914A
Application number: CN201510660660.7A
Authority: CN
Inventors: 章岑; 杨田; 雷龙艳; 周盛; 潘柏宇; 王冀
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: 1Verge Internet Technology Beijing Co Ltd
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2015-12-23

Abstract

本发明涉及数据挖掘技术领域，公开了一种数据特征格式化方法及装置。该方法包括步骤：获取第一配置文件，根据第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序；获取第二配置文件，根据第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义；根据各个属性的格式化顺序及属性中待格式化特征的特征顺序确定各个特征的特征序号，根据实际样本的属性值及特征值含义确定对应特征的特征值；将各个实际样本按照特征序号及特征值格式化为特征向量。本发明技术方案无需预先为每个特征设置既定的顺序来固定特征序号，处理的属性/特征还可以随时进行增删，可大幅提升特征格式化的效率。

Description

数据特征格式化方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种数据特征格式化方法及装置。

背景技术

在网络大数据环境下，数据挖掘工作的主要任务就是从海量信息中发现数据的共同特征以便进行数据统计和分析。依赖人工进行大数据的数据挖掘显然是不可取的，而依赖机器进行的数据挖掘在识别率上又有天然的缺陷；故现有技术中主要通过基于模型训练的机器学习来提高自动挖掘的识别率。在有关机器学习的过程中，往往需要从原始数据中抽取一些特征来表示一个样本，然后把每个样本的特征集合表示成算法能够识别的格式，以便算法能够读取这些样本特征来进行模型训练。

目前，现有的机器学习算法库，如libsvm、xgboost、sparkmllib等，都基于共识格式对训练数据进行格式化。在共识格式中，首先对全部特征设定序号，随后以“特征序号:特征值”方式来数字化表示和记录样本的各个特征。为节省空间，通常只需存储特征值不为0的特征，但相应地，各特征的序号及含义必须固定，以便通过序号即可确定特征的真实含义。

然而，在实际工程中，由于特征空间维度很大(几百上千，甚至万亿维特征也很常见)，在格式化之前为每个样本的特征设定一个既定顺序的难度很大，而且实际数据处理过程中还有可能随时新增特征或删除特征，所以采用现有技术确定特征的共识格式需要耗费大量的时间和精力，如何高效地进行特征格式化是一个比较困难的问题。

发明内容

基于现有技术的缺陷，本发明的目的是提供一种数据特征格式化方法及装置，以高效地进行数据的特征格式化。

根据本发明的一个方面，提供了一种数据特征格式化方法，包括步骤：

获取第一配置文件，根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序；

获取第二配置文件，根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义；

根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号，根据实际样本的属性值及所述特征值含义确定对应特征的特征值；

将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。

优选地，所述开关设置包括：属性开关标记或属性记录情况；所述格式化顺序依照所述实际样本原始数据的自然属性顺序或根据模型训练的需要自由指定。

优选地，所述特征配置包括：离散化开关和所述属性的格式化方式。

优选地，所述离散化开关和所述属性的格式化方式视模型训练的算法模型的需求而自由设置。

优选地，所述特征向量中只选取特征值不为0的特征进行存储。

根据本发明的另一个方面，还提供了一种数据特征格式化装置，包括：

第一配置模块，用于获取第一配置文件，根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序；

第二配置模块，用于获取第二配置文件，根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义；

特征处理模块，用于根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号，根据实际样本的属性值及所述特征值含义确定对应特征的特征值；

格式化模块，用于将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。

优选地，所述第一配置模块包括：

属性开关模块，用于根据属性开关标记或属性记录情况确定本次格式化需要处理的属性；

属性顺序模块，用于依照所述实际样本原始数据的自然属性顺序或根据模型训练的需要自由指定的顺序确定各个属性的格式化顺序。

优选地，所述第二配置模块包括：

离散化开关模块，用于根据离散化开关确定是否需要进行离散化；

格式化配置模块，用于配置所述属性的格式化方式。

优选地，所述离散化开关模块和所述格式化配置模块视模型训练的算法模型的需求而自由设置。

优选地，所述格式化模块包括：向量处理模块，用于只选取特征值不为0的特征生成所述特征向量并进行存储。

本发明实施例提供了一种数据特征格式化方法及装置，其技术方案通过两级配置可自由设定需处理的属性及其特征表示形式，从而可实现按需执行的特征格式化和模型训练，由于本发明实施例的技术方案无需预先为每个特征设置既定的顺序来固定特征序号，处理的属性/特征还可以随时进行增删，因而可大幅提升特征格式化的效率。

附图说明

图1是本发明一个实施例中数据特征格式化方法的基本流程示意图；

图2是本发明一个实施例中数据特征格式化装置的模块结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在模型训练中，数据特征格式化往往是必不可少的一步，只有经过特征格式化的数据才能在模型训练时被快速而高效地识别、归类和分析。现有技术的特征格式化主要基于共识格式进行，顾名思义，使用共识格式的前提是需要就全体特征达成共识，即使用前需要识别全部特征且为每一特征安排序号，这无形中给特征格式化带来了极大的压力，严重影响了数据特征格式化的效率。

在本发明实施例中，通过使用特征配置文件来辅助识别特征，确定特征及其属性的应用方式，从而可灵活地选择特征进行相对自由的格式化，提高了数据特征格式化的效率。如图1所示，在本发明实施例中，数据特征格式化方法包括步骤：

S1，获取第一配置文件，根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序；

S2，获取第二配置文件，根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义；

S3，根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号，根据实际样本的属性值及所述特征值含义确定对应特征的特征值；

S4，将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。

具体地，在本发明实施例中，需要将多个实际样本分别格式化为多个特征向量。每个实际样本的原始数据是采用带有具体属性值的多个属性表示，比如样本“用户A”的原始数据为“性别:男年龄:24客户端类型:PC端”；而每个特征向量则是包括多个形式为“特征序号:特征值”的数字化表示，比如样本“用户A”格式化后的特征向量可能为“2:1.06:1.013:1.0”。要完成一个样本的格式化需要实现原始数据到数字化表示的转换，而要统一完成全部样本的格式化则需要确定统一的转换方式。

首先，步骤S1中，第一配置文件优选为特征开关配置文件，其中提供了样本中需要处理的属性的开关。该第一配置文件中可以是全部属性的开关，比如在初始化过程中，将本次格式化需要处理的属性的开关标记设置为打开状态(比如置1)，将本次格式化无需处理的属性的开关标记设置为关闭状态(比如置0)；也可以仅仅记录本次格式化要处理的属性，未记录的则视为无需处理。第一配置文件中还同时设置了各个属性的格式化顺序，在格式化时按照该顺序将特征排列成特征向量；格式化顺序可以依照样本原始数据的自然属性顺序，也可以根据模型训练的需要自由指定。

步骤S2中，第二配置文件优选为各个属性的特征配置文件中。特征配置文件中首先标明了该属性的特征是否需要离散化(比如将离散化开关置1)，在需要离散化时进一步标明了该属性的格式化方式：特征维度、属性值对应特征含义以及对应特征的内部顺序。比如，对于“性别”属性，其特征配置文件中首先标明了该属性的特征需要离散化，其次标明了离散化时该属性的特征占3个维度，其中0表示女性、1表示男性、2表示未知，生成特征向量时根据样本实际属性将对应维度置1。若无需离散化(比如将离散化开关置0)，则该属性的格式化方式为：特征只有1个维度(特征顺序为0或最优先)，属性值即为实际特征值；比如，“年龄”属性无需离散化时，“年龄:24”的特征值即为“24”；若需要离散化，进一步假设其离散化占8个维度，其中，0为无法分段、1为18岁以下、2为18-24岁、3为25-29岁、4为30-34岁、5为35-39岁、6为40-49岁、7为50岁以上，则“年龄:24”的特征值即为将维度2(即第3维度)置1。

步骤S3中，根据各属性的格式化顺序及各属性中特征顺序依次分配特征序号，同时根据属性值与特征值含义的对应关系将属性值与具体特征序号的特征值相关联。比如，假设属性格式化顺序为“性别”→“年龄”→“客户端类型”，三个属性均离散化，“性别”和“年龄”的离散化方式如上文所述，“客户端类型”离散化占3个维度，0为移动App端、1为PC端、2为未知；则在特征向量中，1-3维为“性别”属性的特征，对应分配特征序号1-3，4-11维为“年龄”属性的特征，对应分配特征序号4-11，12-14维为“客户端类型”属性的特征，对应分配特征序号12-14；相应特征序号的特征值置1时表示实际属性值与该特征序号/维度相符。

步骤S4中，按照上述方式将各个样本格式化为特征向量。具体地，比如上述“用户A”样本，由“性别:男”的属性值将第2维(即特征序号2)的特征值置1，由“年龄:24”的属性值将第6维(即特征序号6)的特征值置1，由“客户端类型:PC端”的属性值将第13维(即特征序号13)的特征值置1；只选取特征值不为0的特征进行存储，则上述“用户A”样本格式化后的特征向量表示为“2:1.06:1.013:1.0”。

在本发明实施例中，可自由设定格式化需要处理的属性及属性的特征表示形式，从而可以根据模型训练的需求自由选择特定特征进行统计分析。更重要的是，本发明实施例中，无需预先为每个特征设置既定的顺序来固定特征序号，处理的属性/特征还可以随时进行增删，因而可大幅提升特征格式化的效率。

具体地，在很多机器学习问题比如点击率预估模型中可能用到很多种属性特征，有些属性天然具有离散性质，比如“性别”属性；而某些属性则具备连续性质，比如“年龄”或“视频时长”等属性。对连续特征进行格式化需要视算法模型的选择而做不同的改变，这里以“视频时长”属性为例分别描述对连续特征不同的格式化方式：第一种，需要离散化；比如广告素材时长一般在5秒到1分钟不等，可以将时长以5秒为一小段进行分段离散，在第二配置文件(即该属性的特征配置文件)中设置特征离散时的维度、特征含义及内部顺序：其中，0为0-4秒、1为5-9秒、2为10-14秒、3为15-19秒、…、11为55-59秒、12为1分钟以上，最终该属性的特征在特征向量空间里占据13个维度，每一个样本在这13个维度里只有一个维度的特征值为1。第二种，不需要离散化；这种情况下的素材时长将直接作为一个特征维度的特征值加入特征向量中，配置文件中可以写入素材ID与长度的对应表，在做特征抽取的时候查找该表得到具体的素材时长特征值。

离散化可利于在模型训练时进行分类统计，而非离散化的连续特征则可准确分析样本，同时可降低特征向量的维度。具体地，如果使用线性模型比如逻辑回归模型，则有必要对连续特征进行离散化；如果使用非线性的比如树模型，则可以不进行离散化。本发明实施例中进一步通过在配置文件中自由设定是否进行离散化以及如何进行离散化，可针对不同的算法需求进行格式化和模型训练，也大幅提高了特征格式化的自由度和适用性。

如图2所示，本发明实施例还同时提供了一种数据特征格式化装置1，包括：

第一配置模块101，用于获取第一配置文件，根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序；

第二配置模块102，用于获取第二配置文件，根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义；

特征处理模块103，用于根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号，根据实际样本的属性值及所述特征值含义确定对应特征的特征值；

格式化模块104，用于将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。

本领域相关技术人员可以理解，与上述方法一一对应地，本发明实施例的装置中也同时存在与各方法步骤相对应的各功能模块，在此不再一一赘述。在实际应用中，上述数据特征格式化装置可以是独立的计算设备，也可以是由计算设备加载的独立功能单元，还可以是计算设备直接实现的虚拟/实体单元。同样，装置中的各模块均可由位于计算设备中的中央处理器CPU、微处理器MPU、数字信号处理器DSP或现场可编程门阵列FPGA等实现，上述装置及模块的实现手段不应视为对本发明具体实施方式的限制。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种数据特征格式化方法，其特征在于，所述方法包括步骤：

2.根据权利要求1所述的方法，其特征在于，所述开关设置包括：属性开关标记或属性记录情况；

所述格式化顺序依照所述实际样本原始数据的自然属性顺序或根据模型训练的需要自由指定。

3.根据权利要求1所述的方法，其特征在于，所述特征配置包括：离散化开关和所述属性的格式化方式。

4.根据权利要求3所述的方法，其特征在于，所述离散化开关和所述属性的格式化方式视模型训练的算法模型的需求而自由设置。

5.根据权利要求1所述的方法，其特征在于，所述特征向量中只选取特征值不为0的特征进行存储。

6.一种数据特征格式化装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一配置模块包括：

8.根据权利要求6所述的装置，其特征在于，所述第二配置模块包括：

格式化配置模块，用于配置所述属性的格式化方式。

9.根据权利要求8所述的装置，其特征在于，所述离散化开关模块和所述格式化配置模块视模型训练的算法模型的需求而自由设置。

10.根据权利要求6所述的装置，其特征在于，所述格式化模块包括：

向量处理模块，用于只选取特征值不为0的特征生成所述特征向量并进行存储。