CN111435463B - 数据处理方法及相关设备、*** - Google Patents
数据处理方法及相关设备、*** Download PDFInfo
- Publication number
- CN111435463B CN111435463B CN201910028386.XA CN201910028386A CN111435463B CN 111435463 B CN111435463 B CN 111435463B CN 201910028386 A CN201910028386 A CN 201910028386A CN 111435463 B CN111435463 B CN 111435463B
- Authority
- CN
- China
- Prior art keywords
- data set
- data
- feature
- candidate
- candidate data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 230000009466 transformation Effects 0.000 claims abstract description 360
- 238000011156 evaluation Methods 0.000 claims abstract description 350
- 238000000034 method Methods 0.000 claims abstract description 139
- 238000010801 machine learning Methods 0.000 claims description 227
- 238000012549 training Methods 0.000 claims description 215
- 238000009826 distribution Methods 0.000 claims description 103
- 230000015654 memory Effects 0.000 claims description 85
- 230000000875 corresponding effect Effects 0.000 claims description 82
- 238000012545 processing Methods 0.000 claims description 73
- 238000012360 testing method Methods 0.000 claims description 64
- 238000000844 transformation Methods 0.000 claims description 54
- 238000004364 calculation method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 25
- 238000004891 communication Methods 0.000 description 46
- 238000004422 calculation algorithm Methods 0.000 description 35
- 239000011159 matrix material Substances 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000013500 data storage Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000010606 normalization Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000000546 chi-square test Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 230000001131 transforming effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013138 pruning Methods 0.000 description 5
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 241000039077 Copula Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种数据处理方法及相关设备、***。涉及人工智能领域,具体涉及自动特征工程领域,该方法包括:执行设备对获取到的第一组数据集中的多个数据特征进行多阶特征变换,并从多个特征变换得到的数据集中选择出最优的数据集;其中,在进行第n阶特征变换时,针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集;计算该多个候选数据集中每一个候选数据集的第一评估值;进而,根据每一个候选数据集的第一评估值确定进入到下一阶特征变换的第n+1组数据集,该第n+1组数据集中数据集的个数小于该多个候选数据集的个数。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法及相关设备、***。
背景技术
随着工业4.0的到来,传统行业正逐步向数字化服务转型。然而,部分传统行业缺乏在大数据处理、云计算以及人工智能(artificial intelligence,AI)等方面的技术积累,不具备应用AI技术转型的能力。而云计算作为数字经济的重要服务平台,基于云提供自动机器学***台的核心竞争力。
特征工程(feature engineering)是自动机器学习的重要环节,特征工程是将原始数据集通过特征变换,得到多个候选数据集,并通过对多个候选数据集进行评估,得到最优数据集,该最优数据集包括可用于机器学习的数据特征,这些数据特征可以全方位多角度的描述原始数据集的特点,并且利用它们建立的模型可表现良好的性能。
目前,通过迭代特征变换的方式得到高阶特征为自动特征工程得到多个候选数据集的主要手段,然而,在特征变换操作较多时,变换得到的候选数据集出现指数级增长,而且,每个变换出数据集均需进行性能评估,造成确定最优数据集耗时较长,特征工程自动化效率低。
发明内容
本申请实施例提供一种数据处理方法及相关设备、***,解决了现有技术中在特征变换操作较多时,变换得到的候选数据集出现指数级增长的缺陷,提高特征工程自动化的效率。
第一方面,本申请实施例提供了一种数据处理方法,可应用于执行设备,包括:执行设备获取第一组数据集,该第一组数据集包括多个数据特征;对第一组数据集中的多个数据特征进行多阶特征变换,进而,从第一集合中确定目标数据集,该第一集合包括多阶特征变换过程中每一阶特征变换得到的数据集。其中,多阶特征变换中第n阶特征变换的实现具体为:针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集,该第n组数据集为第一数据集经过n-1阶特征变换后得到的数据集的集合,n为大于1的整数;分别计算该多个候选数据集中每一个候选数据集的第一评估值,该第一评估值用于评价通过候选数据集训练得到的模型的准确度;进而,根据多个候选数据集种每一个候选数据集的第一评估值确定第n+1组数据集,该第n+1组数据集进入到下一阶的特征变换,该第n+1组数据集中数据集的个数小于该多个候选数据集的个数。
其中,第一数据集可以是为用户向执行设备提交或发送的原始数据集,或该原始数据集经过预处理后的数据。上述第一组数据集包括多个样本,目标数据集为特征工程中确定的最优数据集,通过该最优数据集训练得到的模型更优。
其中,“多阶特征变换”指将本次特征变换得到的数据集作为下一次特征变换的基础,并进行多次的特征变换。
应理解,执行设备在得到目标数据集后,还可以得到变换得到该目标数据集的目标特征变换算法,执行设备还可以通过目标数据集训练新建的机器学习模型得到目标机器学习模型,进而,通过执行设备的通信接口将该目标机器学习模型和目标特征变换算法发送至用户侧的设备。
还应理解,上述执行设备可以是终端设备、服务器,也可以是虚拟机等可实现数据计算的设备,对此,不作限定。
上述方法,在第n阶特征变换的得到的多个候选数据集中仅选择部分的候选数据集作为第n+1组数据集进行下一阶特征变换,避免了数据集个数的指数级增长,提高了数据处理速度,进而提高特征工程自动化的效率。
作为一种可能的实施方式,第一候选数据集为多个候选数据集中的任一个数据集,第一候选数据集的第一评估值的计算方法可以是:执行设备根据第一候选数据集计算第一候选数据集的元特征,该元特征用于表示第一候选数据集的属性;将元特征输入到第一机器学习模型,以预测第一候选数据集的第二评估值,第一候选数据集的第二评估值用于评价所述第一候选数据集训练得到的模型的准确度;进而,根据第一候选数据集的第二评估值确定第一候选数据集的第一评估值。
应理解,由于第一机器学习模型以数据集的元特征为训练数据得到的,由于元特征是描述数据集的属性,与数据集中数据特征的物理意义以及数据特征的取值无关,因此,该第一机器学习模型可以离线训练得到且适用于所有的数据集的评估。
现有技术中,候选数据集的评估方法需要针对每一个候选数据集进行训练和测试,在线训练耗时大。而,上述方法中第一机器学习模型为离线训练好的模型,可以根据元特征直接预测该元特征对应的数据集的评估值,基于该第一评估值对筛选得到的候选数据集进行进一步地筛选,仅保留少量的候选数据集进入下一阶的特征变换,加速特征变换的过程,可快速得到目标数据集。
作为一种可能的实施方式,第一候选数据集包括多个数据特征和一个标签,第一候选数据集的元特征的计算方法可以是:执行设备根据第一候选数据集计算第一信息,该第一信息可以包括第一候选数据集的多个数据特征中每两个数据特征的数据相似度、分布相似度,第一候选数据集的多个数据特征中每一个数据特征与标签的数据相似度、分布相似度,第一候选数据集的多个数据特征中每一个数据特征的数据分布信息、标签的数据分布信息等中至少一种;进而,根据第一信息计算第一候选数据集的元特征。
可选地,第一候选数据集的元特征可以包括:第一候选数据集的基本特征、第一候选数据集的多个数据特征中连续型数据特征的特征、第一候选数据集的多个数据特征中离散型数据特征的特征、标签的特征、数据相似度的特征、分布相似度的特征、数据特征的分布信息的特征等中的至少一种。
可选地,第一数据特征和第二数据特征为所述第一候选数据集的多个数据特征中任意两个数据特征,第一特征与第二特征的数据相似度的计算方法可以是:执行设备根据第一候选数据集中第一数据特征的数据和第二数据特征的数据,计算第一数据特征与第二数据特征的互信息,进而根据该互信息确定第一数据特征与第二数据特征的数据相似度。例如,第一数据特征与第二数据特征的数据相似度即为第一数据特征与第二数据特征的互信息。
其中,互信息(mutual information,MI)是信息论里一种信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。因此,互信息可以描述数据特征之间的数据相似度,当数据特征之间相关性较强时,对应的互信息值较大,反之较小
进一步地,还可以计算第一数据特征与标签的互信息,进而得到第一数据特征与标签的数据相似度。
可选地,第一数据特征和第二数据特征为所述第一候选数据集的多个数据特征中任意两个数据特征,第一数据特征与所述第二数据特征的分布相似度的计算方法可以是:执行设备根据第一数据特征的数据和第二数据特征的数据,通过卡方检验计算第一数据特征与第二数据特征的卡方值或通过T检验计算第一数据特征与第二数据特征t统计量,该卡方值或t统计量即为第一数据特征与第二数据特征的分布相似度。
进一步地,还可以计算第一数据特征与标签的卡方值或t统计量,进而得到第一数据特征与标签的分布相似度。
可选地,第一数据特征为第一候选数据集的多个数据特征中任意一个数据特征,第一数据特征的分布信息的计算方法可以是:执行设备可以根据第一数据特征的数据计算第一数据特征的偏度和峰度,该第一数据特征的分布信息包括上述偏度和峰度。
进一步地,还可以计算标签的偏度和峰度。其中,偏度(skewness)是指数据分布的不对称程度或偏斜程度,是统计数据分布偏斜方向和程度的量度;峰度(kurtosis)是指数据的集中程度和分布曲线的陡峭(或平坦)程度。
作为一种可能的实施方式,在根据第一候选数据集的第二评估值确定第一候选数据集的第一评估值的第一种实现中:第一候选数据集的第一评估值即为第一候选数据集的第二评估值。
作为一种可能的实施方式,第一候选数据集为第一数据集通过第一特征变换得到,第一数据集为第n组数据集中的一个数据集。在根据第一候选数据集的第二评估值确定第一候选数据集的第一评估值的第二种实现中:第一候选数据集的第一评估值可以为第一数据项和第二数据项之和;其中,第一数据项与第一候选数据集的第二评估值正相关,第二数据项由第一特征变换的历史增益次数的决定。
应理解,在前n组数据集中通过第一特征变换后的数据集的第一评估值大于通过第一特征变换前的数据集的第一评估值,则第一特征变换发生一次增益。
相对于仅仅通过第二评估值来评估候选数据集,上述方法,通过第一候选数据集的第二评估值和产生该第一候选数据集的第一特征变换的历史增益次数,共同调节第一候选数据集的第一评估值,考虑了特征变换的历史增益次数,可避免变换陷入局部最优。
作为一种可能的实施方式,根据多个候选数据集中第一评估值确定第n+1组数据集的第一种实现可以是:执行设备选择所述多个候选数据集中第一评估值大于第一阈值的候选数据集作为第n+1组数据集。
作为一种可能的实施方式,根据多个候选数据集中第一评估值确定第n+1组数据集的第二种实现可以是:执行设备选择多个候选数据集中评估值排序的前m个第一评估值分别对应的候选数据集作为第n+1组数据集,评估值排序为由大到小的排列的多个候选数据集分别对应的第一评估值,m为正整数。
作为一种可能的实施方式,根据多个候选数据集中第一评估值确定第n+1组数据集的第三种实现可以是:执行设备选择多个候选数据集中第一评估值满足第一条件的候选数据集;进而,对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到该满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值;进一步地,选择该满足第一条件的候选数据集中第三评估值满足第二条件的候选数据集作为第n+1组数据集。
上述第三种实现,首先基于第一评估值筛选的候选数据集,减少训练和测试的候选数据集的数量,进一步地,对筛选出的候选数据集进行更精准地评估,基于精确的评估值,进一步筛选候选数据集,进一步减少分支,降低特征变换的复杂度,提高数据处理效率。
可选地,多个候选数据集中第一评估值满足第一条件的候选数据集可以是多个候选数据集中第一评估值大于第二阈值的候选数据集;或,多个候选数据集中评估值排序的前g个第一评估值分别对应的候选数据集,该评估值排序为由大到小的排列的多个候选数据集分别对应的第一评估值,g为正整数。
可选地,第二候选数据集为满足第一条件的候选数据集中任意一个候选数据集,该第二候选数据集包括训练数据集和测试数据集,其中,训练数据集和所述测试数据集中的任意一个样本包括多个数据特征和一个标签;第二候选数据集的第三评估值的计算方法可以是:执行设备根据该训练数据集训练第二机器学习模型;将测试数据集中每一个样本的多个数据特征输入到所述第二机器学习模型,得到测试数据集中每一个样本的预测标签;进而,根据测试数据集中每一个样本的标签和预测标签计算第二候选数据集的第三评估值。
应理解,该第三评估值可以是F1分数(F1score)、平均准确率(mean averageprecision,MAP)、AUC(area under roc curve)、均方误差(mean-square error,MSE)、均方根误差(root mean square error)、查全率、查准率等,对此,不作限定。
作为一种可能的实施方式,在将元特征输入到第一机器学习模型,预测第一候选数据集的第二评估值之前,该方法还可以包括:执行设备获取多个第一样本,该多个第一样本中任意一个第一样本包括第三数据集的元特征以及第三数据集的评估值;根据多个第一样本训练所述第一机器学习模型。
其中,元特征的计算方法可以参见上述第一方面中相关描述,本申请实施例不再赘述。
应理解,第一机器学习模型可以用于根据输入的数据集的元特征预测该数据集的评估值该评估值即为上述第一方面中的第二评估值。
需要说明的是,上述第一机器学习模型训练方法也可以由训练设备执行,执行设备也可以与训练设备为同一个设备,对此,不作限定。
上述方法,离线训练的第一机器学习模型可以适用于所有的数据集,可以基于候选数据集的元特征预测该候选数据集的第二评估值,进而基于该第二评估值对候选数据集进行筛选,去除劣的候选数据集,进一步限制数据集个数的增长,提高数据处理效率。
作为一种可能的实施方式,执行设备在针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集之前,执行设备还可以根据第n组数据集中的数据集的选择适用于该数据集的特征变换算法,具体实现可以是:执行设备可以将第三数据集的元特征输入到第三机器学习模型,预测得到B种特征变换分别对应的第四评估值,其中,第二特征变换对应的第四评估值用于评价第三数据集经过第二特征变换得到的候选数据集训练得到模型的准确性,第三数据集为所述第n组数据集中任一个数据集,第二特征变换为B种特征变换中任意一个特征变换,B为正整数;在B种特征变换中选择满足第四条件的第四评估值对应的特征变换为A种特征变换,A为不大于B的正整数;此时,执行设备针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集的一种实施方式可以是:执行设备针对所述第三数据集进行A种特征变换,得到A个候选数据集。
应理解,由于第三机器学习模型以数据集的元特征为训练数据得到的,由于元特征是描述数据集的属性,与数据集中数据特征的物理意义以及数据特征的取值无关,因此,该第三机器学习模型可以离线训练得到且适用于所有的数据集的评估。
上述方法,在对第n组数据集中的数据集进行特征变换之间,通过离线训练的第三机器学习模型估算各个特征变换分别对应的第四评估值,并基于第四评估值筛选出能使各个数据集的产生优的数据集的特征变换,仅对通过筛选出的特征变换对数据集进行特征变换,减少特种变换和第一评估值的计算,通过变换前的预剪枝,加速数据处理。
作为一种可能的实施方式,执行设备在将第三数据集的元特征输入到第三机器学习模型,预测得到B种特征变换分别对应的第四评估值之前,该方法还包括:训练第三机器学习模型。该训练方法可以包括如下两种实现:
第一种实现:
执行设备获取多个第二样本,所述多个第二样本中任意一个第二样本包括第四数据集的元特征以及第四数据集经过第二特征变换后的数据集的评估值与第四数据集的评估值之前的差值,第二特征变换为所述B种特征变换中的任意一种特征变换;根据所述多个第二样本训练所述第三机器学习模型。
此时,A种特征变换具体可以是在B种特征变换中选择取值大于0的第四评估值对应的特征变换。
第二种实现:
执行设备获取多个第三样本,多个第三样本中任意一个第三样本包括第四数据集的元特征以及所述第二数据集经过第二特征变换后的数据集的第四评估值;根据多个第三样本训练所述第三机器学习模型。
此时,A种特征变换具体可以是在B种特征变换中选择取值大于所述数据集的第一评估值的第三评估值对应的特征变换为所述Ai种特征变换。
上述方法,离线训练的第三机器学习模型可以适用于所有的数据集,可以基于数据集的元特征预测特征变换得到的候选数据集的优劣,进而避免对劣的数据集进行特征变换,限制数据集的个数的增长,提高数据处理效率。
第二方面,本申请实施例提供了一种数据处理***,该***可以包括:
第一获取单元,用于获取第一组数据集,所述第一组数据集包括多个数据特征;
变换单元,用于对所述第一组数据集中的多个数据特征进行多阶特征变换;
第一选择单元,用于从第一集合中确定目标数据集,所述第一集合包括所述多阶特征变换的过程中每一阶特征变换得到的数据集;
其中,所述变换单元具体用于:针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集,所述第n组数据集为所述第一数据集经过n-1阶特征变换后得到的数据集,n为大于1的整数;
所述***还包括:
第一评估单元,用于计算所述多个候选数据集中每一个候选数据集的第一评估值,所述第一评估值用于评价通过所述候选数据集训练得到的模型的准确度;
第一筛选单元,用于根据所述多个候选数据集中每一个候选数据集的第一评估值确定第n+1组数据集,所述第n+1组数据集中数据集的个数小于所述多个候选数据集的个数。
需要指出的是,***还可以包括其他用于实现如第一方面所述的数据处理方法的功能单元,可参见上述第一方面所述的数据计算方法中相关描述,在此,不再赘述。
应理解,上述***中各个功能单元可以被设置在执行设备等可实现数据计算的一个或多个计算设备,例如,上述执行设备可以是一个或多个服务器、一个或多个计算机等,对此,不作限定。
第三方面,本申请实施例还提供的一种执行设备,该执行设备可以包括处理器和存储器、所述存储器用于存储数据和程序代码,所述处理器用于调用所述存储器中的数据和程序代码,执行:
获取第一组数据集,所述第一组数据集包括多个数据特征;
对所述第一组数据集中的所述多个数据特征进行多阶特征变换;
从第一集合中确定目标数据集,所述第一集合包括所述多阶特征变换的过程中每一阶特征变换得到的数据集;
其中,所述对所述第一组数据集中的多个数据特征进行多阶特征变换,包括:
针对第n组数据集中的每一个数据集中的数据特征分别进行特征变换,得到多个候选数据集,所述第n组数据集为所述第一数据集经过n-1阶特征变换后得到的数据集,n为大于1的整数;
计算所述多个候选数据集中每一个候选数据集的第一评估值;所述第一评估值用于评价通过所述候选数据集训练得到的模型的准确度;
根据所述多个候选数据集中每一个候选数据集的第一评估值确定第n+1组数据集,所述第n+1组数据集中数据集的个数小于所述多个候选数据集的个数。
需要指出的是,处理器还可以执行如第一方面所述的数据处理方法,可参见上述第一方面所述的数据计算方法中相关描述,在此,不再赘述。
在本申请实施例的一种实现中,上述处理器可以是通用的中央处理器(CentralProcessing Unit,CPU),微处理器,应用专用集成电路(Application SpecificIntegrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)、人工智能处理器或者一个或多个集成电路等。
在本申请实施例的另一种实现中,执行设备还可以包括人工智能处理器,人工智能处理器可以是神经网络处理器(network processing unit,NPU),张量处理器(tensorprocessing unit,TPU),或者图形处理器(graphics processing unit,GPU)等一切适合用于大规模异或运算处理的处理器。人工智能处理器可以作为协处理器挂载到主CPU(HostCPU)上,由主CPU为其分配任务。
应理解,上述计算设备或执行设备可以是一个或多个服务器、一个或多个计算机等,对此,不作限定。
第四方面,本申请实施例还提供了一种计算机存储介质,所述计算机存储介质用于计算机软件指令,所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面所述的任一种数据处理方法。
第五方面,本申请实施例还提供了一种计算机程序,所述计算机程序包括计算机软件指令,所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面所述的任一种数据处理方法。
第六方面,本申请实施例还提供了一种机器学习模型的训练方法,可应用于训练设备,该方法包括:训练设备获取多个第一样本,所述多个第一样本中任意一个第一样本包括第二数据集的元特征以及所述第二数据集的评估值;根据所述多个第一样本训练第一机器学习模型。
可选地,元特征的计算方法同上述第一方面中第一候选数据集的元特征的计算方法相同,可参见第一方面中相关描述,本申请实施例不再赘述。
需要说明的是,上述训练得到的第一机器学习模型用于对输入到模型的数据集的元特征进行处理,得到第二评估值,该第二评估值用于评价该数据集训练得到模型的准确性。
上述方法,训练得到的第一机器学习模型可以适用于所有的数据集,可以基于数据集的元特征预测该数据集的评估值,通过评估值来评价数据集,进而避免针对需要预测评估值的每一个数据集都进行的训练和测试,提高数据集评估效率。
第七方面,本申请实施例还提供了一种机器学习模型的训练方法,可应用于训练设备,该方法包括:训练设备获取多个第二样本,所述多个第二样本中任意一个第二样本包括第四数据集的元特征以及所述第四数据集经过第二特征变换后的数据集的评估值与所述第四数据集的评估值之间的差值,第二特征变换为所述B种特征变换中的任意一种特征变换;根据所述多个第二样本训练所述第三机器学习模型。
可选地,第四数据集的元特征的计算方法同上述第一方面中第一候选数据集的元特征的计算方法相同,可参见第一方面中相关描述,本申请实施例不再赘述。
需要说明的是,训练得到的第三机器学习模型用于对输入到模型的数据集的元特征进行处理,得到与B种特征变换一一对应的第四评估值,其中,第四评估值用于评价数据集通过该第四评估值对应的特征变换得到的候选数据集训练得到模型的准确性。
上述方法,训练得到的第三机器学习模型可以适用于所有的数据集,可以基于数据集的元特征预测该数据集经过特征变换后产生的候选数据集的评估值是否有增益,进而在特征变换之前,预测得到适用于该数据集的特征变化(即评估值有增益的候选数据集对应的特征变换),进而避免进行不必要的特征变换,加快数据处理效率。
第八方面,本申请实施例还提供了一种机器学习模型的训练方法,可应用于训练设备,该方法包括:训练设备获取多个第三样本,多个第三样本中任意一个第三样本包括第四数据集的元特征以及所述第二数据集经过第二特征变换后的数据集的第四评估值;根据多个第三样本训练所述第三机器学习模型。
可选地,第四数据集的元特征的计算方法同上述第一方面中第一候选数据集的元特征的计算方法相同,可参见第一方面中相关描述,本申请实施例不再赘述。
上述方法,训练得到的第三机器学习模型可以适用于所有的数据集,可以基于数据集的元特征预测该数据集经过特征变换后产生的候选数据集的评估值,进而在特征变换之前,预测得到适用于该数据集的特征变化,进而避免进行不必要的特征变换,加快数据处理效率。
需要说明的是,上述第六方面、第七方面或第八方面所述的训练设备可以是一个或多个服务器、一个或多个计算机等,对此,不作限定。
第九方面,本申请实施例还提供了一种训练设备,该训练设备可以包括处理器和存储器、所述存储器用于存储数据和程序代码,所述处理器用于调用所述存储器中的数据和程序代码,执行如上述第六方面所述的机器学习模型的训练方法。
第十方面,本申请实施例还提供了一种训练设备,该训练设备可以是训练设备,该计算设备可以包括处理器和存储器,所述存储器用于存储数据和程序代码,所述处理器用于调用所述存储器中的数据和程序代码,执行如上述第七方面或第八方面所述的机器学习模型的训练方法。
上述第九方面或第十方面中处理器可以是通用的中央处理器(CentralProcessing Unit,CPU),微处理器,应用专用集成电路(Application SpecificIntegrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)、人工智能处理器或者一个或多个集成电路等。
在本申请实施例的另一种实现中,上述第七方面或第八方面中训练设备还可以包括人工智能处理器,人工智能处理器可以是神经网络处理器(network processing unit,NPU),张量处理器(tensor processing unit,TPU),或者图形处理器(graphicsprocessing unit,GPU)等一切适合用于大规模异或运算处理的处理器。人工智能处理器可以作为协处理器挂载到主CPU(Host CPU)上,由主CPU为其分配任务。
第十一方面,本申请实施例还提供了一种计算机存储介质,所述计算机存储介质用于计算机软件指令,所述计算机软件指令当被计算机执行时使所述计算机执行如第六方面所述的任一种机器学习模型的训练方法。
第十二方面,本申请实施例还提供了一种计算机程序,所述计算机程序包括计算机软件指令,所述计算机软件指令当被计算机执行时使所述计算机执行如第六方面所述的任一种机器学习模型的训练方法。
第十三方面,本申请实施例还提供了一种计算机存储介质,所述计算机存储介质用于计算机软件指令,所述计算机软件指令当被计算机执行时使所述计算机执行如第七方面或第八方面所述的任一种机器学习模型的训练方法。
第十四方面,本申请实施例还提供了一种计算机程序,所述计算机程序包括计算机软件指令,所述计算机软件指令当被计算机执行时使所述计算机执行如第七方面或第八方面所述的任一种机器学习模型的训练方法。
第十五方面,本申请实施例还提供了一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行第一方面中的数据处理方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面中的数据处理方法,第六方面、第七方面或第八方面中机器学习模型的训练方法中任一方面所述的方法。
第十六方面,本申请实施例还提供一种电子设备,该电子设备包括上述第二方面、第三方面中的任意一个方面中的数据处理***或执行设备。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例中一种***的示意性框图;
图2为本申请实施例中另一种***示意性框图;
图3为本申请实施例中一种图形用户界面的界面示意图;
图4为本申请实施例中一种数据集的元特征的计算方法的流程示意图;
图5为本申请实施例中一种数据处理方法的流程示意图;
图6A为本申请实施例中一种第n阶的特征变换和选择的流程示意图;
图6B为本申请实施例中一种数据处理方法的流程示意图;
图6C为本申请实施例中一种特征变换和筛选的示意性说明图;
图7为本申请实施例中一种数据处理***的示意性框图;
图8为本申请实施例中一种执行设备的示意性框图;
图9为本申请实施例中一种训练设备的示意性框图;
图10为本申请实施例中一种训练设备的示意性框图;
图11为本申请实施例中一种芯片的示意性框图。
具体实施方式
首先介绍本申请中涉及的概念。
本申请实施例中,“机器学习模型”也称“模型”,如“第一机器学习模型”、“第二机器学习模型”或“第三机器学习模型”,可以接收输入数据,并根据接收的输入数据和当前的模型参数生成预测输出。该机器学习模型可以是回归模型、神经网络(artificial neuralnetwork,ANN)、深度神经网络(deep neural network,DNN)、支持向量机(support vectormachine,SVM)或其他的机器学习模型等。
本申请实施例中,“原始数据集”为用户向云平台或很仔细设备提交或发送的原始数据集。该原始数据集用于训练建立的机器学习模型,获得可实现一定功能的机器学习模型。原始数据集中数据可以是结构化数据,例如,通过“表格”来表示该原始数据集。原始数据集中包括M个样本,每个样本可以包括多个数据特征以及标签。
本申请实施例中,通过对原始数据集进行数据预处理得到第一组数据集,该第一组数据集可以包括M个样本,M个样本中任意一个样本包括N1个数据特征和标签。其中,预处理的可以包括数据清洗(data cleaning)、格式化、特征数字化等中的一种或多种。例如,需要将数据集中“男”、“女”进行编码,例如独热编码(one-hot encoder)、平均数编码(meanencoder)等编码操作,通过向量来描述该数据特征。应理解,在对数据集进行特征变换时,仅仅对样本中的数据特征进行变换,数据集中的标签不进行变换,特征变换可以产生新的数据特征。即,特征变换得到的数据集或候选数据集中各个样本的数据特征的个数、数据特征指代的含义会发生变化。
处理得到的各个组的“数据集”、候选数据集都包括M个样本,不同的数据集或候选数据集中的样本可以包括不同的数据特征、不同的个数的数据特征等。需要说明的是各个样本对应的标签不变。即,数据集经过特征变换得到的新的数据集,新的数据集中样本的特征产生了变换,比例出现更高阶的数据特征等,但各个样本对应的标签不变。
本申请实施例中,数据集之间可以存在层级关系,可以通过“组”来描述数据集之间关系,各个组数据集可以包括一个或多个数据集,也可以通过树结构(也称搜索树)来描述本申请实施例中多个组的数据集之间的关系。第1组数据集(第1层节点,也称根节点)分别进行多种特征变换得到多个候选数据集,从该多个候选数据集中选择评估值较优的多个候选数据集作为第2组数据集(第2层节点对应的数据集);进而,针对第2组数据集中每一个数据集,在分别进行多种特征变换,得到多个候选数据集,在从该多个候选数据集中选择评估值较优的部分候选数据集作为第3组数据集(第3层节点对应的数据集),依次类推。可见,第2层节点为第1层节点的子节点,同理,第3层节点为第2层节点的子节点。另外,第1组数据集包括一个数据集,该数据集可以是原始数据集经过初步处理后的数据集,该初步处理的方式可以包括编码(例如,one-hot、meanencoder等编码操作)、归一化操作等中的一种或多种,此处,不作限定。
本申请实施例中“剪枝”是指通过筛选减少各阶特征变换数据结构中数据集的个数,避免一些不必要的特征变换,形象的说,就是剪去了搜索树中的某些“枝条”。
数据集或候选数据集可以划分为训练数据集和测试数据集,其中,训练数据集用于进行模型的训练,得到训练后的模型;利用训练后的模型对测试数据集进行预测,将预测结果与测试数据的真实结果进行对比,对比的评估称之为评估值,也称之为模型在该数据集上得到的性能。应理解,该上述数据集的评估过程基于通过该数据集训练得到的模型进行评估,得到的评估值可靠性高。
数据可以分为连续型数据(continuous data)、离散型数据(discrete data)等;也可以根据数据的计量尺度划分为定距型数据(scale date)、定序型数据(ordinaldate)、定类型数据(nominal date)等。根据数据的数据类型可以将数据特征分为连续型数据特征和离散型数据特征,执行设备可以根据数据特征的类型筛选出适合该数据特征的特征变换算法。
例如,“费用”为连续型数据特征,该特征“费用”对应的变换可以包括归一化、log、开方、平方等;又例如,“性别”为离散型数据特征,该数据特征“性别”对应的变换可以包括one-hot、meanencoder等编码操作、频次操作(Freg)。
本申请实施例中,“特征变换”指通过特征变换算法对特征的数据进行处理,以得到新的特征或者更高阶的特征。可以针对单个特征进行变换操作,也可以针对多个特征进行变换操作,对此,不作限定。
特征变换可以包括针对一个数据特征进行的变换(也可以称为单特征变换)、针对两个数据特征进行的特征变换(也可以称为二元变换)和针对两个以上的数据特征进行的变换(也可以称为多元变换)。对于单特征变换来说,针对连续型数据特征的特征变换算法可以包括归一化操作、非线性操作、离散化操作等中的一种或多种。其中,归一化方法可以包括最大最小归一(min max normalization)、0-1标准化(0-1normalization)、线性函数归一化或离差标准化等;非线性操作可以包括取对数(log)、平方(square)、开方(sqrt)、S型函数(sigmoid函数)和双曲正切(tanh函数)等中的一种或多种;离散化操作可以包括基于等宽(equal width)或等频(equal frequency)的离散化操作、基于最小描述长度原则(minimum description length principle)进行的有监督的离散化操作和取整操作(例如,round函数等)中的一种或多种。针对离散型数据特征的特征变换操作可包括频次(Frequency),即统计数据特征取值为特定值的样本个数。二元变换或多元变换可以包括针对多个数据特征的基本数学运算(例如加、减、乘、除等)、聚合操作(groupby)和时间聚合(group by time)操作等中的一种或多种。
需要说明的是,上述仅示例性地对一些特征变换进行描述,本申请实施例还可以包括其他的特征变换方法,对此,本申请实施例不作限定。
本申请实施例中,“多阶特征变换”指将本次特征变换得到的数据集作为下一次特征变换的基础,进行多次特征变换。即,第一组数据集经过第一阶特征变换得到第二组数据集,第二组数据集经过第二阶特征变换得到第三组数据集,依次类推,在满足停止变换的条件时,不在进行特征变换。需要说明的是,各阶特征变换采用的特征变换算法可以相同或者不同。
本申请实施例中“评估值”(第一评估值、第二评估值、第三评估值、第四评估值等)用于评价数据集或候选数据集优劣,通常被用于描述通过该数据集训练得到模型的性能(准确性、泛化能力等)。
本申请实施例中“数据特征”用于描述数据集或候选数据集中的样本,“元特征(meta-features,)”用于描述数据集或候选数据集。其中,“元特征”通过单个特征来描述数据集或候选数据集的一般属性,可以表征数据集或候选数据集的复杂性。
例如,数据集包括多个样本,每个样本包括数据特征“年龄”、“学历”、“毕业院校”、“性别”、“出生日期”、“职业”、“工作年限”等数据特征,样本对应的标签为“工资”。可见,用户的目的在于通过数据集训练得到可以预测工资的机器学习模型。该数据集的元特征可以包括样本的个数、数据特征的个数、每一个数据特征与标签的数据相似度、每一个数据特征的取值的分布信息、标签的信息熵等。
下面结合图1介绍本申请实施例设计的一种***架构,该***10可以包括训练设备110、执行设备120、客户设备130、终端设备140、数据存储***150等。其中:
数据存储***150可以存储大量用于第一机器学习模型、第三机器学习模型训练的样本数据,训练设备110用于执行模型训练方法的程序代码,以训练机器学习模型;执行设备120用于执行数据处理方法的程序代码,数据集,数据集通过特征变换产生的候选数据集,候选数据集训练得到的第二机器学习模型等。
训练设备110可以获取数据存储***150中的样本数据以训练第一机器学习模型、第三机器学习模型,具体的训练方法可以参见下述第一机器学习模型的训练方法的实施例或第三机器学习模型的训练方法的实施例中相关描述,本申请实施例不再赘述。训练设备110将训练出的第一机器学习模型和第三机器学习模型发送至执行设备120。
训练得到的第一机器学习模型用于对输入到模型的数据集的元特征进行处理,得到第二评估值,该第二评估值用于评价该数据集训练得到模型的准确性。训练得到的第三机器学习模型用于对输入到模型的数据集的元特征进行处理,得到与B种特征变换一一对应的第四评估值,其中,第四评估值用于评价数据集通过该第四评估值对应的特征变换得到的候选数据集训练得到模型的准确性。
由于第一机器学习模型和第三机器学习模型皆以数据集的元特征为训练数据得到的,由于元特征是描述数据集的属性,与数据集中数据特征的物理意义以及数据特征的取值无关,因此,该第一机器学习模型和第三机器学习模型可以适用于所有的数据集的评估。
在一种情况下,客户可以指定输入执行设备120中的数据(例如本申请实施例中原始数据集),例如,在执行设备120的I/O接口提供的界面中操作。另一种情况下,客户设备130可以自动地向I/O接口输入数据并获得结果,如果客户设备130自动输入数据需要获得用户的授权,客户可以在客户设备130中设置相应权限。客户设备130向执行设备120请求针对该该原始数据集使用自动机器学习服务,以得到用户需要的机器学习模型(本申请实施例中也称目标机器学习模型)。客户可以在客户设备130查看执行设备120输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户可以通过客户设备130向执行设备120输入数据,例如原始数据集。客户设备130也可以作为数据采集端将采集到数据集存入数据存储***150。
执行设备120由一个或多个服务器实现,可选的,与其它计算设备配合,例如:数据存储、路由器、负载均衡器等设备;执行设备120可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备120可以使用数据存储***150的数据,或者调用数据存储***150中的程序代码实现本申请实施例所述的数据处理方法,具体地,执行设备120对于接收到的原始数据集进行数据预处理得到第一组数据集(例如客户设备130发送的原始数据集),进而通过多阶特征变换和选择得到最优的数据集(本申请实施例中也称为目标数据集)和该最优的数据集对应的特征变换算法(也称目标特征变换算法)。进一地,执行设备可以通过最优的数据集训练建立的机器学习模型,得到目标机器学习模型。其中,在进行多阶特征变换的过程中可以使用离线训练第一机器学习模型和第三机器学习模型来实现特征变换和选择的加速。
其中,执行设备120在对数据集进行特征变换之前,可以将数据集的元特征输入到第三机器学习模型,得到与B种特征变换一一对应的第四评估值,基于从B种特征变换中筛选出较大的第四评估值对应的特征变换,进而仅仅对数据集进行筛选出的特征变换,进而避免对数据集所有的特征变换。
其中,执行设备120在对数据集进行特征变换得到多个候选数据集后,可以将该多个候选数据集输入到第一机器学习模型,该多个候选数据集中每一个候选数据集的第二评估值,基于第二评估值可以对该候选数据集进行筛选,以进一步减少候选数据集的数量。候选数据集可以被划为训练数据集和测试数据集,执行设备120可以通过训练数据集训练第二机器学习模型,进而通过测试数据集对第二机器学习模型进行测试和评估,得到用于评价该候选数据集训练得到第二机器学习模型的准确性的第三评估值。由于该第三评估值是通过评估候选数据集中训练数据集训练得到的模型得到的,可更准确地评估候选数据集。执行设备120可以基于该第三评估值对筛选得到的候选数据集进行进一步地筛选,仅保留少量的候选数据集进入下一阶的特征变换,大大减少数据集的数量,提高特征变换效率。具体实现可以参见本申请实施例中数据处理方法的实施例中相关描述,此处,不在赘述。
进一步地,执行设备120在多阶特征变换之后得到多个数据集,进而,可以根据多个数据集的第三评估值确定该多个数据集中目标数据集(本申请实施例中也称最优数据集)以及原始数据集变换该目标数据集采用的目标特征变换算法,进而通过该目标数据集进行模型训练,得到第一用户需要的目标机器学习模型。
更进一步地,执行设备120还可以将目标特征变换算法和目标机器学习模型发送给用户设备130。
用户可以操作各自的终端设备140通过任何通信机制/通信标准的通信网络与执行设备120或客户设备130进行信息交互,以使用目标特征变换算法和目标机器学习模型进行预测的服务。通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
例如,原始数据集为如表1所示:
表1
则训练得到的目标机器学习模型具有预测工资能力。终端设备140向执行设备120发送第一请求,该请求携带第一对象的信息,该第一对象的信息包括性别、学历、出生日期、专业、工作年限。执行设备120通过目标特征变换算法对该第一对象的信息进行特征变换,并将特征变换后的数据输入到目标机器学习模型,得到第一对象的预测工资。执行设备120可以将预测工资发送至终端设备140。
需要说明的是,附图1仅是本发明实施例提供的一种***架构的示意图,图1中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在附图1中,数据存储***150相对执行设备120是外部存储器,在其它情况下,也可以将数据存储***150置于执行设备120中。
还需要说明的是,本申请实施例中训练设备110和执行设备120可以是同一设备,或者不同设备。训练设备110和/或执行设备120可以是终端、如手机终端,平板电脑,笔记本电脑,AR/VR,车载终端等,还可以是服务器或者虚拟机等,还可以是一个或多个服务器和/或计算机等组成的分布式计算机***等,本申请实施例不作限定。客户设备130可以是服务器、计算机或终端设备等。终端设备140可以包括智能手机、平板电脑、个人计算机、台式计算机、车载单元(on board unit,OBU)、虚拟现实设备、人工智能设备(例如机器人等)或智能可穿戴设备等,本申请实施例不作限定。
下面结合图2所示的***和图3所示的图形用户界面介绍本申请实施例设计的应用场景。云***可以包括云平台210和云主机,云平台可以在云主机上创建虚拟机,虚拟机在云主机上运行时需要占用云主机的计算资源,该计算资源可以是云主机的中央处理器(central processing unit,CPU)、神经网络处理器(network processing unit,NPU)和/或内存等资源。
本申请实施例中,云平台210可以实现图1中执行设备120和/或训练设备110的功能。
云平台210向用户提供自动机器学***台210进行信息交互。图3为云平台210向用户提供的图形用户界面,该图形用户界面300可以显示于客户设备220上,用于向用户提供自动机器学习服务。该图形用户界面可以包括至少一个控件,响应于检测到的针对控件的用户操作,显示该控件关联的用户界面。
客户设备220响应于用户针对第一控件(如图3中标注“读取数据”的图标301)的操作,可以显示导入数据窗口,以读取原始数据集,该导入数据窗口可以包括存储于该客户设备220内的文件和/或文件夹,响应于用户针对第一文件(例如包含原始数据集的文件或包含第一组数据集的文件)输入的用户操作,将第一文件上传到云平台210。
客户设备220响应于用户针对第二控件(例如图2中标注“修改原始数据”的图标302),显示数据修改窗口,以对上述导入的原始数据集进行数据的修改。数据修改窗口可以包括针对原始数据集中每一个数据特征和/或标签的多个修改操作。应理解,云平台210可以自动对原始数据集进行修改,用户也可以自主选择预处理的方式对原始数据集进行修改,以得到符合要求的数据集。修改操作可包括数值类型的转换、指定标签数据等,本申请实施例不作限定。
客户设备220响应于用户针对第三控件(如图2中标注“自动建模”的图标303)输入的用户操作,向云平台210发送建模指令,该指令指示云平台210通过本申请实施例提供的数据处理方法对原始数据集经过修改后的数据进行处理,即进行特征预处理、多阶特征变换及选择,得到最优数据集(本申请实施例中也称目标数据集)。具体地,云平台210可以包括接收模块211、预处理模块212、特征变换模块213、数据集确定模块214、训练模块215、发送模块216等。其中,云平台210可以通过接收模块211接收客户设备220发送原始数据集,通过预处理模块212对原始数据集进行数据预处理,得到第一组数据集(即根节点数据集),进而通过特征变换模块213对该第一组数据集进行多阶特征变换,得到多个数据集以及该多个数据集中每一个数据集的评估值(例如本申请实施例得到的该数据集的第一评估值、第二评估值和/或第三评估值),通过数据集确定模块214根据多个数据集的评估值找出最优数据集以及该得到该最优数据集的目标特征变换算法。训练模块215基于该最优数据集确定机器学习模型的超参数并建立机器学习模型,进而通过最优数据集训练该建立的机器学习模型得到用户需要具备一定功能的目标机器学习模型。
客户设备220响应于用户针对第四控件(如图2标注“保存模型”的图标304)输入的用户操作,向云平台210发送用于指示将目标特征变换算法和目标机器学***台210可以保存目标机器学习模型以及目标特征变换算法,也可以通过发送模块216将目标机器学习模型以及目标特征变换算法发送至客户设备220。
该图形用户界面还可以包括第五控件,响应于检测到的针对第五控件(如图2标注“拆分数据”的图标305)输入的用户操作,将用户上传的数据划分为训练数据和测试数据,其中,训练数据即为上述原始数据集或第一组数据集,测试数据用于实现对目标机器学习模型的评估。
客户设备220响应于用户针对第六控件(如图2标注“模型应用”的图标306)输入的用户操作,客户设备220向云平台210发送用于指示将对得到模型进行预测的指令。云平台210在接收到该指令后,通过目标特征变换算法对测试数据进行特征变换,并将特征变换后的数据输入到目标机器学***台210可以将该预测结果发送至客户设备220。
客户设备220响应于用户针对第七控件(如图2标注“模型评估”的图标307)输入的用户操作,用户设备220向云平台210发送用于指示将对得到模型进行评估的指令。云平台210在接收到该指令后,将预测结果与真实结果(即测试样本中标签)进行比较,得到用于评价目标机器学***台210还可以将该评估值发送至客户设备220,客户设备220可以显示该评估值。
客户设备220响应于用户针对第八控件(如图2标注“保存数据到数据集”的图标308)输入的用户操作,客户设备220向云平台210发送用于指示将预测结果进行保存的指令。在另一种实现中,云平台210也可以对其他的数据进行保存,例如多阶特征变换过程中得到的数据集或候选数据集的元特征,以及元特征对应的评估值(例如第三评估值),关于元特征、第三评估值可以参见下述元特征计算方法和数据处理方法的实施例中相关描述,本申请实施例不在赘述。
需要说明的是,图2仅示例性的说明如何实现人机交互的过程,在实际应用中,还可以包括其他形式的图形用户界面,人机交互过程还可以包括其他实现方式,此处,不作限定。还需要说明的是,客户设备220可以是是上述图1中的客户设备130。云平台210可以是上述图1中执行设备120。
应理解,数据的预处理可以将接收到原始数据集进行格式转换,转化该自动机器学习服务要求的格式,例如,数据转换为宽表数据,即每一行表示一个样本,每一列表示一个数据特征,包括标签列。
还应理解,训练得到的机器学习模型的性能(例如,预测的准确性、泛化能力等)依赖于训练该机器机器模型的最优数据集和算法等。本申请的目的在于根据用户发送的原始数据集得到目标数据集,该目标数据集可以用于超参数的确定或用户需要的机器学习模型的训练。
下面示例性描述具体的应用场景。
第一应用场景:
移动通信运营商希望挖掘更多的预付费用户转换为后付费用户,需要从预付费用户中识别潜在的后付费用户。此时,移动通信的运营商可以基于自动机器学***台210上传样本数据(原始数据集)该原始数据集包括多个预付费用户的信息,一个用户的信息表示一个样本,用户的信息可以包括用户的年龄、使用套餐、月均话费、月均数据流量、SIM卡使用时长等数据特征,将该用户在预设时长之后的用户类型(用户类型包括预付费用户和后付费用户)指定为标签。
云平台210可以应用本申请实施例提供的数据处理方法对包括大量预付费用户的信息的原始数据集中数据特征进行处理,得到该应用场景下的目标数据集以及该目标数据集对应的目标特征变换算法,进而,通过该目标数据集确定超参数并建立机器学习模型,以目标数据集的数据特征作为输入,通过监督用户类型训练建立的机器学习模型,最终得到目标机器学习模型。通过上述目标特征变换算法和目标机器学习模型可以在已知预付费用户的数据特征,预测该用户是否为潜在后付费用户。
第二应用场景:
通信运营商希望预测出用于L个月之后用户的套餐,此时可以将用户在第一时间的套餐使用信息作为特征,用户在第二时间使用的套餐作为标签,构建宽表数据,以此作为可实现运维中心(service operation center,SOC)套餐推荐的机器学习模型的训练数据。其中,第二时间可以是第一时间经过L个月之后时间,第一时间和第二时间可以以月为单位,L为正整数。
其中,训练数据(即为本申请实施例中的原始数据集)包括的多个数据特征可以是:用户标识(identity,ID)、在第一时间时用户是否使用固移融合套餐、截止到第一时间用户的在网时长、第一时间所在月的总出账额度、第一时间所在月的累计流量、连续四个月超套标识、合约时长、第一时间所在月的本地语音主叫时长等。
上述原始数据集通过本申请实施例提供的数据处理方法,可以得到目标数据集和目标特征变换算法,该目标数据集可以用于机器学习模型的训练得到目标机器学习模型,通过目标数据集采用的目标特征变换算法和该训练得到目标机器学习模型可以基于用户当前的套餐使用情况预测用户未来的套餐,进而,向该用户推荐预测出的套餐,以实现网络优化。
第三应用场景:
通信运营商希望识别网络行为的OTT(over-the-top)业务类型,可以以数据流的特征最为训练数据,以OTT业务类型作为标签,构建宽表数据,以此作为可实现OTT业务识别的机学习模型的训练数据。其中,OTT业务类别可以包括视频业务、网页浏览业务、语音通话业务、视频通话业务、音乐下载业务等。
其中,训练数据(即为本申请实施例中的原始数据集)包括的多个数据特征可以是:流数据包个数分布、流数据包的大小分布、流数据包的间隔分布、上行流数据包个数分布、上行流数据包的大小分布、上行流数据包的间隔分布、下行流数据包个数分布、下行流数据包的大小分布、下行流数据包的间隔分布等中的至少一种。应理解,第一时长(比如20秒、30秒等)的数据为一个数据流,本申请实施例中,以一个数据流为单元,一个数据流包括多个数据包,该多个数据包可以分为上行数据包和下行数据包。还应理解,流数据包个数分布可以是一个数据流在一个时间段(该时间段小于第一时长,可以是1秒、0.5秒、0.01秒等)内流数据包个数的平均值、标准差、方差等。同理,流数据包的大小分布可以是一个数据流在一个时间段内流数据包大小的平均值、标准差、方差等;流数据包的间隔分布可以是连个相邻的数据包的间隔的平均值、标准差、方差等。
上述原始数据集通过本申请实施例提供的数据处理方法,可以得到目标数据集和目标特征变换算法,该目标数据集可以用于机器学习模型的训练得到目标机器学习模型,通过目标数据集采用的目标特征变换算法和该训练得到目标机器学习模型可以基于用户当前的数据流的特征预测该数据流的OTT业务类别。
第四应用场景:
通信运营商希望预测小区流量,以进行网络规划和优化。此时,针对每一个小区,可以统计基站的流量,以小区的多个连续时间段内的流量为数据特征,该多个连续时间段之后的一个时间段以作为标签,构建宽表数据,以此作为可实现未来时间段内小区流量预测的机器学习模型的训练数据。
其中,训练数据(即为本申请实施例中的原始数据集)包括的多个数据特征可以是:第一小区在第一时间段的流量、第一小区在第二时间段的流量、…、第一小区在第N个时间段的流量,标签为第一小区在第N+K个时间段的流量,其中,N、K为正整数。该多个时间段具有相等的时长,例如天或月等。例如,训练数据(即为本申请实施例中的原始数据集)包括的多个数据特征可以是:第一小区在第一个月份的流量、第一小区在第二个月份的流量、第一小区在第三个月份的流量、第一小区在第四个月份的流量、第一小区在第五个月份的流量、第一小区在第六个月份的流量,标签为第一小区在第七个月份的流量。也就是说,通过该训练数据得到的机器学习模型可以根据第一小区前六个月的流量预测下一个月的流量。
上述原始数据集通过本申请实施例提供的数据处理方法,可以得到目标数据集和目标特征变换算法,该目标数据集可以用于机器学习模型的训练得到目标机器学习模型,通过目标数据集采用的目标特征变换算法和该训练得到目标机器学习模型可以基于第一小区在多个连续时间段的流量预测第一小区未来时间段的流量,进而,使得通信运营商可以提前根据预测得到第一小区在未来时间段的流量规划和优化网络。
应理解,本申请实施例仅以第一小区为例来说明,第一小区可以是需要进行流量预测的小区中任意一个小区,可以理解,不同的小区对应不同的目标特征变换算法和目标机器学习模型。
第五应用场景:
通信运营商希望预测用户未来是否会有离网行为(即不再使用其通信网络服务)。此时可以将用户在第一时间的网络使用信息作为特征,用户在第二时间是否离网作为标签,构建宽表数据,以此作为可实现运维中心(service operation center,SOC)识别潜在离网用户的机器学习模型的训练数据。其中,第二时间可以是第一时间经过L个月之后时间,第一时间和第二时间可以以月为单位,L为正整数。
其中,训练数据(即为本申请实施例中的原始数据集)包括的多个数据特征可以是:用户标识(identity,ID)、在第一时间时用户是否使用固移融合套餐、截止到第一时间用户的在网时长、第一时间所在月的总出账额度、第一时间所在月的累计流量、连续四个月超套标识、合约时长、第一时间所在月的本地语音主叫时长等。
上述原始数据集通过本申请实施例提供的数据处理方法,可以得到目标数据集和目标特征变换算法,该目标数据集可以用于机器学习模型的训练得到目标机器学习模型,通过目标数据集采用的目标特征变换算法和该训练得到目标机器学习模型可以基于用户当前的网络使用情况预测用户未来的是否会离网。
由于云平台接收到的用户提供的数据集多种多样,针对同一数据集变换得到的多个候选数据集之间也各不相同,现有技术在对候选数据集进行评估时需要根据该候选数据进行模型的在线训练和测试,针对每一个候选数据集都需要进行一次模型的在线训练和测试,耗时大,造成自动特征工程的效率低下。
为避免或减少对候选数据集的在线训练和测试,本申请实施例提供了一种通过数据集的元特征进行候选数据集的评估方法。其中,元特征与候选数据集的具体数据无关,用于描述数据集或候选数据集的属性,可以表征数据集或候选数据集的复杂性,是实现特征变换和选择加速、提高特征变换效率的主要因素之一。下面结合图4介绍以数据集的为例来说明本申请实施例涉及的各种数据集的元特征的计算方法,该元特征的计算方法可以由执行设备执行,可以包括如下部分或全部步骤:
S42:根据数据集计算第一信息,数据集包括M个样本,M个样本中每一个样本包括N个数据特征和一个标签,该第一信息包括N个数据特征中每两个数据特征的数据相似度、分布相似度,N个数据特征每一个数据特征与标签的数据相似度、分布相似度,N个数据特征中每一个数据特征的数据分布信息、标签的数据分布信息等中的至少一种,M、N为正整数。
应理解,在不同的数据集或候选数据集中,N取值不同,例如,在计算第一候选数据集的元特征时,N即为N2;又例如,在计算根节点的数据集时,N即为N1。
下面分别对第一信息中包括的各个数据量进行描述。
(一)数据相似度:
第一数据特征和第二数据特征为该数据集中N个数据特征中任意两个数据特征。以第一数据特征和第二数据特征为例来说明,N个数据特征中任意两个数据特征的数据相似度的计算方法,第一数据特征与第二数据特征的数据相似度是基于数据集中第一数据特征的数据的集合与第二数据特征的数据的集合的得到。在本申请的一种具体实现中,可以通过第一数据特征和第二数据特征的互信息(mutual information,MI)来表示第一数据特征和第二数据特征的数据相似度。
互信息是信息论里一种信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。因此,互信息可以描述数据特征之间的数据相似度,当数据特征之间相关性较强时,对应的互信息值较大,反之较小。可见,两个数据特征的数据相似度能够较好地反映数据特征之间的冗余,数据特征与标签的数据相似度能够反映该特征对标签提供的信息大小。
其中,第一数据特征和第二数据特征的互信息I(X;Y)可以表示为:
公式(1),X为数据集中第一数据特征的取值的集合;Y为数据集中第二数据特征的取值的集合;p(x)表示数据集中第一数据特征的取值为x的概率,即第一数据特征的取值为x的样本个数与总样本数M的比值;p(y)表示数据集中第二数据特征的取值为y的概率,即第二数据特征的取值为y的样本个数与总样本数M的比值;p(x,y)表示数据集中第一特征的取值为x且第二数据特征的取值为y的概率,即第一数据特征的取值为x且第二数据特征取值为y的样本个数与总样本数M的比值。从数学角度来说,p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。
同理,将上述第二数据特征替换为标签,则Y为数据集中标签的取值的集合,可以计算数据特征与标签的互信息。
可见,可计算得到的N个数据特征中任意两个数据特征的互信息以及N个数据特征分别与标签的互信息。
应理解,本申请数据相似度还可以包括其它实现方式,例如皮尔逊积矩相关系数(Pearson correlation coefficient)、最大信息系数(maximal informationcoefficient,MIC)、斯皮尔曼等级相关系数(Spearman correlation)、典型关联分析(canonical correlation analysis,CCA)、秩相关系数(coefficient of rankcorrelation)等,对此,不作限定。
(二)分布相似度:
以第一数据特征和第二数据特征为例来说明,N个数据特征中任意两个数据特征的分别相似度的计算方法,第一数据特征与第二数据特征的分布相似度是基于数据集中第一数据特征的数据的集合与第二数据特征的数据的集合的得到。在本申请的一种具体实现中,可以通过第一数据特征和第二数据特征的卡方值和/或t统计量来表示第一数据特征和第二数据特征的分相似度。为方便描述,本申请实施例中,将通过卡方检验(Chi-squaretest)得到的分布相似度称为第一分布相似度,将通过T检验(T test)得到的分布相似度称为第二分布相似度。第一信息可以包括第一数据特征和第二数据特征的第一分布相似度(也称卡方值)和/或第二分布相似度(也称t统计量)。
需要说明的是,T检验只在连续型数据特征之间进行,或在连续型数据特征与表示回归问题的标签之间进行。卡方检验可以在两个离散型数据特征之间、或离散型数据特征与表示分类问题的标签之间,也可在连续型数据特征和/或表示回归问题的标签进行离散化后再进行卡方检验。
本申请实施例通过卡方检验或T检验统计样本的第一数据特征与第二数据特征之间的偏离程度。第一数据特征与第二数据特征之间的偏离程度就决定卡方值的大小,卡方值越大,两者的数据分布越不一致;相反,卡方值越小,偏差越小,两者的数据分布越趋于一致。可见,利用卡方检验比较两个特征的分布,可以判断数据存在的冗余度。同样的,当某个特征与目标分布较为相似时,该特征能够较好地区分目标。
第一数据特征和第二数据特征的第一分布相似度χ2为;
公式(2)中,Xk为数据集中第一数据特征的取值为水平k的频数(也称概率),Yk为数据集中第二数据特征的取值为水平k的频数,K为取值格数(即第一数据特征或第二数据特征被划分的水平个数),k、K为正整数,1≤k≤K。
例如,数据集中第一数据特征的取值的集合中最大值与最小值之差为U,则水平k即为区间[Xmin+(k-1)*U/K,Xmin+k*U/K],Xk即为第一数据特征的取值在区间[Xmin+(k-1)*U/K,Xmin+k*U/K]的样本个数与总样本数M的比值,其中,Xmin为数据集中第一数据特征的取值的集合中最小的取值。
同理,将上述第二数据特征替换为标签,可以计算数据特征与标签的卡方值(第一分布相似度)。
第一数据特征和第二数据特征的第二分布相似度t为;
公式(3)中,di=|xi-yi|,μ0是T检验参数;i为数据集中样本的索引,1≤i≤M,xi为数据集中样本i对应的第一数据特征的取值,yi为数据集中样本i对应的第二数据特征的取值,M为数据集中样本的个数,M为正整数。
同理,将上述第二数据特征替换为标签,可以计算数据特征与标签的t统计量(第二分布相似度)。
可见,可计算得到的N个数据特征中任意两个离散型数据特征的卡方值以及离散型数据特征分别与标签的卡方值,以及,N个数据特征中任意两个连续型数据特征的t统计量以及连续型数据特征分别与标签的t统计量。
应理解,本申请中分布相似度还可以包括其它实现方式,例如KL散度(Kullback–Leibler divergence,KLD)、布雷曼散度(Bregman divergence)、最大均值差异(maximummean discrepancy,MMD)、基于Copula函数的尾部相关性(Copula&tail-dependence)等,对此,不作限定。
(三)分布信息:
在分类或者回归问题中,数据特征的分布越集中,对应的区分度越小;反之,数据特征的分布越平坦,区分不同类别的可能性越大。数据特征的分布信息可以采用偏度、峰度两个指标来表示该数据特征的分布。
偏度(skewness)是指数据分布的不对称程度或偏斜程度,是统计数据分布偏斜方向和程度的量度,偏态分布分左偏(负偏)和右偏(正偏)两种。通常,定义偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)。
峰度(kurtosis)是指数据的集中程度和分布曲线的陡峭(或平坦)程度。峰度的度量通常以正态分布的曲线为比较标准,一般将峰度分为正太峰度、尖顶分布、平顶分布。分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系,以四阶中心矩为基础,为消除量纲的影响,再除以标准差的四次方所得到的相对数即可用于度量峰度。而,正态分布曲线的四阶中心矩m4与标准差的四次方之比等于3。
以第一数据为例来说明,N个数据特征中任意一个数据特征的分别相似度的计算方法。其中,数据集中的第一数据特征的偏度γ1为:
数据集中的第一数据特征的峰度γ2为:
其中,i为数据集中样本的索引,1≤i≤M,M为样本个数;μ为数据集中第一数据特征的取值的平均值,xi为数据集中样本i对应的第一数据特征的取值。
应理解,本申请中分布信息还可以通过均值、方差、变异系数(coefficient ofvariation,CV)、突变点位置、信息熵、基尼系数等中的一种或多种来表示,对此,不作限定。
同理,将上述第一数据特征替换为标签,可以计算标签的卡方值、t统计量。
综上,上述得到的N个数据特征中每两个数据特征的互信息以及N个数据特征分别与标签的互信息、N个数据特征中每两个离散型数据特征的卡方值、N个数据特征中每一个离散型数据特征分别与标签的卡方值,以及,N个数据特征中每两个连续型数据特征的t统计量、N个数据特征中每一个连续型数据特征分别与标签的t统计量、N个数据特征中每一个数据特征的分布信息、标签的分布信息等组成第一信息(本申请实施例中也称数据熵矩阵)。
S44:根据第一信息计算数据集的元特征。
数据集的元特征可以包括该数据集的基本特征、连续型数据特征的特征、离散型数据特征的特征、标签的特征、数据相似度的特征、分布相似度的特征、数据特征的分布信息的特征等中的至少一种。基于上述得到的第一信息采用统计、关联分析、数据复杂度计算等方式对数据熵矩阵进行进一步地计算,最终形成数据集的表征特征,即元特征。
其中,该数据集的基本特征用于描述数据集的基本情况,可以包括样本的总数、数据特征的总数、标签的类别总数、数据特征的总数数与样本的总数的比例等中的至少一种;连续型数据特征的特征为基于连续型数据特征的数据提取得到的特征,用于描述该连续型数据特征的集合的属性,可以包括连续型数据特征的总数、连续型数据特征的总数与数据特征的总数的比值等中的至少一种;离散型数据特征的特征为基于离散型数据特征的数据提取得到的特征,用于描述该离散型数据特征的集合的属性,可以包括离散型数据特征的总数、离散型数据特征的总数与数据特征的总数的比值等中的至少一种;标签的特征为基于标签的数据提取到的特征,用于描述该标签的属性,可以包括标签的信息熵、标签的基尼系数(Gini coefficient)、标签类别的平均样本占比、标签的峰度、标签的偏度等中的至少一种;数据相似度的特征为基于数据特征之间的数据相似度和/或数据特征与标签之间的数据相似度提取的特征,用于描述上述数据相似度的集合的属性,可以包括标签与数据特征的数据相似度的最大值、均值、标准差,两个数据特征之间的数据相似度的最大值、均值、标准差等中的至少一种;分布相似度的特征为基于数据特征之间的分布相似度和/或数据特征与标签之间的分布相似度提取的特征,用于描述上述分布相似度的集合的属性,可以包括标签与数据特征的分布相似度的最大值、均值、标准差,两个数据特征的分布相似度的最大值、均值、标准差等中的至少一种等;分布信息的特征为基于数据特征的分布信息(比如峰度、偏度等)提取到的特征,用于表述分布信息的集合的属性,可以包括最大峰值、最小峰值、平均峰值、最大偏度、最小偏度和平均偏度等中的至少一种。
其中,标签的信息熵表示标签中信息的平均量。
例如,标签的信息熵的计算方式:
其中,i为标签类别的索引,P(zi)为M个样本中标签类别为zi的概率,b为对数所使用的底,通常为10或者自然常数e。
又例如,标签类别的平均样本占比:标签可以分为多个类别,例如,当标签为性别时,该模型要解决的问题为预测“男”、“女”的问题,标签包括两个类别,即“男”和“女”,则标签类别的平均样本占比为0.5。
又例如,两个数据特征的数据相似度的均值的计算方法为:将得到的N个特征中每两个数据特征的数据相似度求和,再除以数据相似度的个数。
应理解,元特征还可以包括包括其他的描述数据集的属性的数据项,本申请实施例不作限定。
需要说明的是,本申请实施例中,任意一组数据集中任意一个数据集对应的元特征、数据集通过特征变换得到的候选数据集对应的元特征、用于训练第一机器学习模型的第一样本包括的元特征、用于训练第三机器学习模型的第二样本中包括的元特征都可以通过上述元特征的计算方法进行计算。
下面介绍本申请实施例中涉及的第一机器学习模型的训练方法,应理解,该第一机器学习模型用于预测候选数据集的第二评估值,该第二机器学习模型可以离线训练,该训练方法具体可以包括:训练设备获取多个第一样本,该多个第一样本中任意一个第一样本包括第二数据集的元特征以及所述第二数据集的评估值(本申请实施例中称为第三评估值,也可以称为真实评估值或者可信评估值,其可靠性高);进而,以第一样本的元特征作为输入,通过监督评估值,训练第一机器学习模型。
其中,第二数据集为公开的数据集,包括多个数据特征和标签。应理解,不同第一样本中元特征对应的第三数据集不同,具体表现在数据特征的个数、含义不同、标签不同。
通过上述元特征的计算方法,可以计算得到第二数据集的元特征;针对该第二数据集训练得到的机器学习模型,计算评估值(例如AUC(area under roc curve))。大量的第二数据集的元特征和每一个元特征分布对应的评估值,构成用于训练第一机器学习模型的多个第一样本。
可见,训练得到的第一机器学习模型可以基于数据集的元特征预测数据集的评估值(本申请实施例中称为第二评估值,也可以称为估算评估值,为估算结果,精确度底)。
应理解,元特征与数据集的具体数据无关,表示的是数据集的属性,因此,基于元特征训练的第一机器学习模型可以适用于所有的数据集,即针对所有用户发送的数据集、各阶变换产生的数据集或候选数据集,在计算得到上述各个数据集的元特征后,都可以通过第一机器学习模型估算上述各个数据集的第二评估值。该第二评估值可以反映数据集的训练得到模型的准确度、泛化能力等。
下面介绍本申请实施例中涉及的第三机器学习模型的训练方法,应理解,该第三机器学习模型用于预测数据集在特征变换后的数据集的第四评估值,该第三机器学习模型可以离线训练,该训练方法具体可以包括如下两种实现方式:
实现方式(1):
训练设备可以获取多个第二样本,该多个第二样本中任意一个第二样本包括第四数据集的元特征以及第四数据集经过第二特征变换后得到的数据集的评估值与第四数据集的评估值差值,第二特征变换为B种特征变换中的任意一种特征变换;进而,第二样本的元特征作为输入,通过监督差值,训练第二机器学习模型。
可见,实现方式(1)得到的第三机器学习模型可以基于数据集的元特征预测经过B种特征变换后的数据集的评估值的增益,进而在特征变换之前,预测到特征变换后数据集的评估值是否有提升。
实现方式(2):
训练设备可以获取多个第三样本,该多个第三样本中任意一个第三样本包括第四数据集的元特征以及第四数据集经过第二特征变换后得到的数据集的评估值,第二特征变换为B种特征变换中的任意一种特征变换;进而,第三样本的元特征作为输入,通过监督评估值,训练第二机器学习模型。
可见,实现方式(2)得到的第二机器学习模型可以基于元特征预测经过B种特征变换后的数据集的评估值(在本发明实施例的中也称第三评估值),进而在特征变换之前,预测得到特征变换后数据集的评估值。
其中,第四数据集为公开的数据集,包括多个数据特征和标签。应理解,不同第二样本中元特征对应的第四数据集不同,具体表现在数据特征的个数、含义不同、标签不同。
通过上述元特征的计算方法,可以计算得到第四数据集的元特征,针对该第四数据集训练得到的机器学习模型,计算评估值AUC1;针对第四数据集经过特征变换后的候选数据集训练得到的机器学习模型,计算评估值AUC2。大量的第四数据集的元特征和每一个元特征分布对应的AUC2与AUC1的差值,构成实现方式(1)第三机器学习模型的多个第二样本。大量的第四数据集的元特征和每一个元特征分布对应的评估值AUC2,构成实现方式(2)第三机器学习模型的多个第三样本。
应理解,第三机器学习模型还可以包括其他训练方法,本申请实施例不再赘述。
还应理解,元特征与数据集的具体数据无关,表示的是数据集的属性,因此,基于元特征训练的第一机器学习模型可以适用于所有的数据集,即针对所有用户发送的数据集、各阶变换产生的数据集,在计算得到上述各个数据集的元特征后,都可以通过第三机器学习模型估算上述各个数据集分别进行B种特征变换,并分别得到B个候选数据集的第四评估值。该第四评估值可以指示B个候选数据集的训练得到模型的准确度、泛化能力,或准确度、泛化能力是否有增益等。
下面结合图5所示的数据处理方法的流程示意图介绍本申请实施例提供的一种数据处理方法,该方法可以由图1中执行设备120、图2中云平台210执行,也可以由执行设备中处理器执行。该方法可以包括如下部分或全部步骤。
S52:获取第一组数据集。
其中,第一组数据集包括一个数据集,为树结构的根节点对应的数据集。该第一组数据集可以包括M个样本,该M个样本中任意一个样本包括N1个数据特征和标签,M、N1为正整数。
该第一组数据集可以是用户设备发送给执行设备(云平台)的原始数据集在经过数据预处理后的数据。其中,对原始数据集的预处理可以包括数据清洗、采样、格式化和特征数字化等中的一种或多种。
S54:对第一组数据集中的N1个数据特征进行多阶特征变换。
应理解,在对数据集进行特征变换时,仅仅对数据集中的数据特征进行变换,数据的标签不进行变换。其中,第n阶特征变换为上述多阶特征变换中的一个特征变换过程,第n阶特征变换可以参见下述图6A、图6B和图6C描述的第n阶的特征变换,此处不再赘述。
执行设备可以设定特征变换的停止条件,在满足停止条件后,执行设备停止进行特征变换,执行步骤S56。在一种具体实现中,执行设备可以设置特征变换的阶数,例如,8阶,执行设备在进行完第8阶特征变换后,停止特征变换。在另一种具体实现中,执行设备可以判断当前阶的特征变换是否产生增益。例如,执行设备判断通过当前特征变换得到的数据集的第一评估值计算得到的平均值是否大于根据上一次特征变换得到的数据集的第一评估值计算得到的平均值,如果是,则当前阶的特征变换产生增益,可以进行下一阶的特征变换;否者,执行设备可以停止特征变换。
应理解,本申请实施例还可以包括其他的停止条件,对此,不作限定。
在第n组数据集的第一评估值的平均值小于上一次特征变换得到的数据集的第一评估值的平均值
S56:从第一集合中确定目标数据集,第一集合包括多阶特征变换的过程中每一阶特征变换得到的数据集。
在本申请实施例的一种实现中,可以确定第一集合中最大的第一评估值对应的数据集为目标数据集,第一集合包括多阶特征变换过程中每一阶特征变换得到的数据集。
在本申请实施例的另一种实现中,可以确定第一集合中最大的第三评估值对应的数据集为目标数据集。
上述目标数据集即为执行设备根据用户发送的原始数据确定的最优数据集,也即为特征工程对变换的数据特征进行选择的结果。该目标数据可以用于模型的建立和训练,以得到用户所需要的模型。
模型的建立和训练可以采用现有技术中模型建立和训练方法,本申请实施例不作限定。
本申请实施例以第n阶特征变换为例来说明第n阶特征变换的过程,n为正整数。结合图6A所示的第n阶特征变换的流程示意图、图6B所示的第n阶特征变换过程的示意性说明图和图6C所示的树结构说明第n阶的特征变换的具体实现,包括如下部分或全部步骤:
S541:针对第n组数据集中的每一个数据集Di,将数据集Di的元特征输入到第三机器学习模型,预测得到B种特征变换分别对应的第四评估值,并在B种特征变换中选择满足第四条件的第四评估值对应的特征变换为Ai种特征变换。
其中,第一特征变换对应的第四评估值用于评价数据集Di经过第一特征变换得到的候选数据集的准确性,第一特征变换为B种特征变换中任意一个特征变换,B为正整数;第n组数据集为第n-1阶特征变换得到的数据集的集合,i为第n组数据集中数据集的索引,i为正整数。应理解,可以通过上述元特征的计算方法计算数据集Di的元特征,具体实现可以参见上述元特征计算方法的实施例中相关描述;第三机器学习模型为上述第三机器学习模型训练方法训练得到的机器学习模型,具体实现可以参见上述第三机器学习模型训练方法的实施例中相关描述,此处,不再赘述。
需要说明的是,在图6C中以第n组数据集包括两个数据集(即D1、D2)为例来说明。
对应于实施方式(1)得到的第三机器学习模型,S542的一种具体实现可以是:执行设备在B种特征变换中选择取值大于0的第四评估值对应的特征变换为Ai种特征变换,即,选择评估值可产生增益的特征变换,舍去评估值不产生增益的特征变换。
对应于实施方式(2)得到的第三机器学习模型,S542的一种具体实现可以是:执行设备在B种特征变换中选择取值大于数据集的第一评估值的第四评估值对应的特征变换为Ai种特征变。S542的另一种具体实现可以是:在B种特征变换中选择取值大于预设阈值的第四评估值对应的特征变换为Ai种特征变换,或者,选择排名前Ai个第四评估值对应个特征变换为Ai种特征变换,其中,排名是按第四评估值从大到小排列。
应理解,S542还可以包括其他实现方式,此处不再赘述。还应理解,第n组数据集中不同的数据集选择的特征变换的种类和数目均可以不同。
通过上述步骤S541和S542,在数据集进行特征变换之间,通过离线训练的第三机器学习模型估算各个特征变换产生的数据集的第四评估值,并基于第四评估值筛选出特征变换,仅对通过筛选出的特征变换对数据集进行特征变换,即通过预剪枝,减少特种变换的种类和第一评估值的计算,提高评估效率。对应于图6C中①所去除的分支。
S542:对第n组数据集中的每一个数据集Di分别进行Ai种的特征变换,得到多个候选数据集。
应理解,关于特征变换的算法可以参见上述实施例中相关描述,本申请实施例不再赘述。还应理解,执行设备可以识别数据集中数据特征的类型,并基于数据特征的类型确定高数据特征可进行的特征变换。
还应理解,步骤S541不是本申请实施例必须的步骤,在本申请另一实施例中,Ai可以是固定值,例如,Ai可以等于B,即不进行特征变换前的预剪枝操作,而对数据集Di进行所提供的B种特征变换中该数据集Di适用的所有特征变换。
本申请实施例中,候选数据集Di,j为第n组数据集中数据集Di通过特征变换Tj得到的候选数据集。其中,j为Ai中特征变换中特征变换的索引,1≤j≤Ai,j为正整数。
如图6C中数据集D1进行A1(图6C中A1为5)种特征变换得到的候选数据集为D1,1、D1,2、D1,3、D1,4、D1,5,数据集D2进行A2(图6C中A2为5)种特征变换得到的候选数据集为D2,1、D2,2、D2,3、D2,4、D2,5。
S543:计算多个候选数据集中每一个候选数据集的第一评估值。
其中数据集的第一评估值用于评价该数据集的训练得到模型的准确度。
本发明实施例以候选数据集Di,j(对应于本申请实施例中第一候选数据集)为例来说明,多个候选数据集中每一个候选数据集的第一评估值的计算方法,如下为候选数据集Di,j的第一评估值的计算方法:
第一评估值的第一种计算方法:
步骤S5431:根据候选数据集Di,j计算候选数据集Di,j的元特征,该元特征用于表示候选数据集Di,j的属性。
其中,候选数据集Di,j的元特征的计算方法可以参见上述元特征的计算方法的实施例中相关描述,此处不再赘述。需要说明的是,经过n阶特征变换得到的候选数据集Di,j中数据特征与第一组数据集的数据特征的个数和指代的含义可能都发生变换,但在n阶特征变换过程中标签始终不进行特征变换,n+1组数据集中每一个数据集以及其变换得到的候选数据集都包括相同的标签数据。
步骤S5432:将元特征输入到第一机器学习模型,以预测候选数据集Di,j的第二评估值。
第一机器学习模型为离线训练的机器学习模型,其被被配置为输入数据为元特征,输出为该元特征的第二评估值。该候选数据集Di,j的第二评估值用于指示候选数据集Di,j训练得到的模型的性能,比如准确度。该准确度为候选数据集Di,j训练得到的模型对输入数据的预测的准确程度。
应理解,第二评估值为估算的评估值,相比于通过候选数据集训练模型所测试得到的评估值(第三评估值),其精确度较低。
步骤S5433:根据候选数据集Di,j的第二评估值确定候选数据集Di,j的第一评估值。
在本申请实施例的一种具体实现中,用于候选数据集筛选的第一评估值可以为第二评估值,即执行设备可以直接根据各个候选数据集的第二评估值进行筛选。
在本申请实施例的另一种具体实现中,用于候选数据集筛选的第一评估值可以是基于第二评估值计算得到的。可选地,候选数据集Di,j的第一评估值可以通过第一数据项和第二数据项运算得到,例如为第一数据项和第二数据项之和;其中,第一数据项与候选数据集Di,j的第一评估值正相关,第二数据项由特征变换Tj的历史增益次数的决定。
其中,该历史增益次数为前n组数据集中第一数据集的个数,其中,第一数据集为第二数据集通过特征变换Tj得到,第二数据集为前n组数据集中的一个数据集,第二数据集的第二评估值小于第一数据集的第二评估值。
应理解,若通过上述前n组数据集和当前候选数据集中,为采用特征变换Tj得到的,且其第二评估值大于其父亲节点数据集的第二评估值,则认为特征变换Tj产生增益。
例如,候选数据集Di,j的第一评估值为:
公式(6)中,P′(Di,j)为所述候选数据集Di,j的第一评估值,P(Di,j)为候选数据集Di,j的第二评估值;N(Tj)为得到前n组数据集中采用特征变换Tj并产生第二评估值的增益数据集的个数;N′(Tj)为前n组数据集和第n组数据集的候选数据集中采用特征变换Tj并产生第二评估值的增益数据集的个数。
相对于仅仅通过第二评估值筛选候选数据集,上述计算方法,通过候选数据集的第一评估值和产生该候选数据集的特征变换的历史增益次数共同调节候选数据集第二评估值,该第二评估值的计算考虑了特征变换的历史增益次数,可以避免特征变换陷入局部最优。
S544:根据多个候选数据集中每一个候选数据集的第一评估值确定第n+1组数据集。其中,第n+1组数据集中数据集的个数小于多个候选数据集的个数。
从多个候选数据集中筛选出作为第n+1组数据集(也可以称为第n+1层节点)的具体实现可以包括如下三种实现方式:
第一实现方式:
执行设备可以选择多个候选数据集中第一评估值大于第一阈值的候选数据集作为第n+1组数据集。其中,第一阈值可以是固定值;也可以对多个候选数据集分别对应的第一评估值进行统计分析,得到适用于该第n阶特征变换的第一阈值。例如,第一阈值可以是多个候选数据集分别对应的第一评估值的平均值。
第二实现方式:
执行设备可以选择多个候选数据集中评估值排序的前m个第一评估值分别对应的候选数据集作为第n+1组数据集,该评估值排序为由大到小的排列的多个候选数据集分别对应的第一评估值,m为正整数。
第三实现方式:
S5441:执行设备选择多个候选数据集中第一评估值满足第一条件的候选数据集。
从多个候选数据集中筛选出满足第一条件的候选数据集(即基于第一评估值的第一次筛选过程)的实现可以是:执行设备从多个候选数据集中选择第一评估值大于第二阈值的候选数据集;或者,执行设备从多个候选数据集中选择评估值排序的前g个第一评估值分别对应的候选数据集,该评估值排序为由大到小的排列的多个候选数据集分别对应的第一评估值。同上述第一实现方式中第一阈值类似,第二阈值可以是固定值,或通过对多个候选数据集分别对应的第一评估值进行统计分析得到的第二阈值,g为正整数。
在图6B中假设满足第一条件的候选数据集为F个候选数据集分别表示为(候选数据集1、候选数据集2、…、候选数据集f、…、候选数据集F),f为上述满足第一条件的候选数据集中候选数据集的索引,f不大于F,f、F为正整数。
上述剪枝过程,对于图6C中②所去除的分支。
S5442:对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值。
其中,第三评估值为利用候选数据集通过训练和测试模型得到,其第三评估值的可靠性更高。因而,该通过该第三评估值确定的。
以第二候选数据集为例来说明,第二候选数据集为上述满足第二条件的候选数据集中任意一个候选数据集。其中,第二候选数据集包括训练数据集和测试数据集,训练数据集和测试数据集中的任意一个样本包括N3个数据特征和标签(也称真实标签),N3为正整数。
第二候选数据集的第三评估值的具体实现可以是:执行设备根据训练数据集训练第二机器学习模型;将测试数据集中每一个样本的N3个数据特征输入到第二机器学习模型,得到测试数据集中每一个样本的预测标签;根据每一个样本的真实标签和预测标签计算第二候选数据集的第三评估值。
第二候选数据集的第三评估值为根据M个样本的真实标签和预测标签的差异进行统计分析得到。
其中,第三评估值可以通过如下一个或多个指标来表示,例如F1分数(F1score)、平均准确率(mean average precision,MAP)、AUC(area under roc curve)、均方误差(mean-square error,MSE)、均方根误差(root mean square error)、查全率、查准率等,对此,不作限定。
在本申请实施例的另一种实现中,可以将第二候选数据集划分为多份(例如4份),其中,三份作为训练数据集,一份作为测试数据集。将上述三份训练数据集分别进行训练得到3个机器学***均值。
应理解,不同的候选数据集,其训练得到的第二机器学习模型不同,测试得到的第二评估值也不同。在图6B中,通过第二机器学习模型f来表示候选数据集f中训练数据集训练得到的第二机器学习模型。
S5443:选择满足第一条件的候选数据集中第三评估值满足第二条件的候选数据集作为第n+1组数据集。
从选择满足第一条件的候选数据集中筛选出满足第二条件的候选数据集的实现可以是:执行设备从满足第一条件的候选数据集中选择第三评估值大于第三阈值的候选数据集;或者,执行设备从满足第一条件的候选数据集中选择评估值排序的前h个第三评估值分别对应的候选数据集,该评估值排序为由大到小的排列的多个候选数据集分别对应的第三评估值。同上述第一实现方式中第一阈值类似,第三阈值可以是固定值,或通过对多个候选数据集分别对应的第三评估值进行统计分析得到的第三阈值,h为正整数,h<g。
应理解,上述基于第三评估值的第二次筛选过程,对应于图6C中③所去除的分支。
在本申请实施例的另一种实现中,也可以不包括步骤S5441,在步骤S5442中也可以对多个候选数据集都进行第三评估值的计算,进一步地,通过步骤S5443筛选出第n+1组数据集(也可以称为树结构的第n+1层节点。
应理解,在候选数据集满足第二条件和第三条件,则该候选数据集满足第一条件。
请参阅图7所示的数据处理***,该数据处理***可以设置于执行设备,该执行设备可以有一个或多个服务器、计算机等组成,该***700可以包括如下单元:
第一获取单元701,用于获取第一组数据集,所述第一组数据集包括多个数据特征;
变换单元702,用于对所述第一组数据集中的多个数据特征进行多阶特征变换;
第一选择单元704,用于从第一集合中确定目标数据集,所述第一集合包括所述多阶特征变换的过程中每一阶特征变换得到的数据集;
其中,所述变换单元702具体用于:针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集,所述第n组数据集为第n-1阶特征变换得到的数据集的集合,n为大于1的整数;
所述***700还包括:
第一评估单元703,用于:分别计算所述多个候选数据集中每一个候选数据集的第一评估值,所述第一评估值用于评价通过所述候选数据集训练得到的模型的准确度;
第一筛选单元705,用于根据所述多个候选数据集中每一个候选数据集的第一评估值确定第n+1组数据集,所述第n+1组数据集中数据集的个数小于所述多个候选数据集的个数。
作为一种可能的实施方式,第一候选数据集为所述多个候选数据集中的任一个数据集;
所述***还包括元特征计算单元706,用于:根据所述第一候选数据集计算所述第一候选数据集的元特征,所述元特征用于表示所述第一候选数据集的属性;
所述第一评估单元703具体用于:将所述元特征输入到第一机器学习模型,以预测所述第一候选数据集的第二评估值,所述第一候选数据集的第二评估值用于评价所述第一候选数据集训练得到的模型的准确度;以及,根据所述第一候选数据集的第二评估值确定所述第一候选数据集的第一评估值。
作为一种可能的实施方式,所述第一候选数据集包括多个数据特征和一个标签,所述元特征计算单元706,具体用于:
根据所述第一候选数据集计算第一信息,所述第一信息包括所述第一候选数据集的多个数据特征中每两个数据特征的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征与标签的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征的数据分布信息、所述标签的数据分布信息中至少一种;
根据所述第一信息计算所述第一候选数据集的元特征。
作为一种可能的实施方式,所述第一候选数据集的元特征包括:所述第一候选数据集的基本特征、所述第一候选数据集的多个数据特征中连续型数据特征的特征、所述第一候选数据集的多个数据特征中离散型数据特征的特征、所述标签的特征、数据相似度的特征、分布相似度的特征、所述数据特征的分布信息的特征中的至少一种。
作为一种可能的实施方式,所述第一候选数据集为第一数据集通过第一特征变换得到,所述第一数据集为所述第n组数据集中的一个数据集,所述所述第一候选数据集的第一评估值为第一数据项和第二数据项之和;其中,所述第一数据项与所述第一候选数据集的第二评估值正相关,所述第二数据项由所述第一特征变换的历史增益次数的决定。
作为一种可能的实施方式,所述第一筛选单元705还用于:选择所述多个候选数据集中第一评估值满足第一条件的候选数据集;
所述***还包括第二评估单元707,用于:对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到所述满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值;
所述第一筛选单元705还用于:选择所述满足第一条件的候选数据集中第三评估值满足第二条件的候选数据集作为所述第n+1组数据集。
作为一种可能的实施方式,第二候选数据集为满足第一条件的候选数据集中任意一个候选数据集,所述第二候选数据集包括训练数据集和测试数据集,所述训练数据集和所述测试数据集中的任意一个样本包括多个数据特征和一个标签;所述第二评估单元707具体用于:
根据所述训练数据集训练第二机器学习模型;
将所述测试数据集中每一个样本的多个数据特征输入到所述第二机器学习模型,得到所述测试数据集中每一个样本的预测标签;
根据所述测试数据集中每一个样本的标签和预测标签计算所述第二候选数据集的第三评估值。
作为一种可能的实施方式,所述***700还包括:
第二获取单元708,用于获取多个第一样本,所述多个第一样本中任意一个第一样本包括第二数据集的元特征以及所述第二数据集的评估值;
第一训练单元709,用于根据所述多个第一样本训练所述第一机器学习模型。
作为一种可能的实施方式,所述***还包括:
第三评估单元710,用于:在变换评估模块针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集之前,将第三数据集的元特征输入到第三机器学习模型,预测得到第四评估值,所述第四评估值用于评价所述第三数据集经过所述第二特征变换得到的候选数据集训练得到模型的准确性,所述第三数据集为所述第n组数据集中任一个数据集,所述第二特征变换为B种特征变换中任意一个特征变换,B为正整数;
第二筛选单元711,用于在所述B种特征变换中选择满足第四条件的第四评估值对应的特征变换为所述A种特征变换,A为不大于B的正整数;
所述变换单元702具体用于:针对所述第三数据集进行A种特征变换,得到A个候选数据集。
作为一种可能的实施方式,所述***700还包括:
第二获取单元712,用于获取多个第二样本,所述多个第二样本中任意一个第二样本包括第四数据集的元特征以及所述第四数据集经过第二特征变换后的数据集的评估值与所述第四数据集的评估值之间的差值,第二特征变换为所述B种特征变换中的任意一种特征变换;
第二训练单元713,用于根据所述多个第二样本训练所述第三机器学习模型。
需要说明的是,上述第一获取单元701、变换单元702、第一评估单元703、第一选择单元704、第一筛选单元705、元特征计算单元706、第二评估单元707、第三评估单元710和第二筛选单元711可以设置于执行设备侧。第二获取单元708、第一训练单元709、第二获取单元712和第二训练单元713可以设置于训练设备侧。
还需要说明的是,上述***中的各个装置还可以包括其他单元,各个设备、单元的具体实现可以参见上述方法实施例中相关描述,此处,不再赘述。
如图8所示执行设备,该执行设备800可以包括:处理器801、存储器802、通信总线803和通信接口804,处理器801通过所述通信总线连接所述存储器802和所述通信接口803。
处理器801可以是中央处理单元(Central Processing Unit,CPU),该处理器801还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器801也可以是任何常规的处理器等。
处理器801还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的数据处理方法的各个步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801还可以是通用处理器、数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801,处理器801读取存储器802中的信息,结合其硬件完成本申请实施例的云平台210中包括的预处理模块212、特征变换模块213、数据集确定模块214和训练模块215单元所需执行的功能,或者执行本申请方法实施例的数据处理方法。
存储器802可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)或其他存储器。本申请实施例中,存储器802用于存储数据以及各种软件程序,例如本申请实施例中原始数据集、各个组的数据集用于实现本申请实施例中数据处理方法的程序等。
通信接口804使用例如但不限于收发器一类的收发装置,来实现执行设备800与其他设备或通信网络之间的通信。例如,可以通过通信接口903获取原始数据集、第一组数据集等,以实现与训练设备、客户设备、用户设备或者终端设备的信息交互。
可选地,该执行设备还可以包括人工智能处理器805,人工智能处理器805可以是神经网络处理器(network processing unit,NPU),张量处理器(tensor processingunit,TPU),或者图形处理器(graphics processing unit,GPU)等一切适合用于大规模异或运算处理的处理器。人工智能处理器805可以作为协处理器挂载到主CPU(Host CPU)上,由主CPU为其分配任务。人工智能处理器805可以实现上述数据处理方法中涉及的一种或多种运算。例如,以NPU为例,NPU的核心部分为运算电路,通过控制器控制运算电路提取存储器802中的矩阵数据并进行乘加运算。
所述处理器801用于调用所述存储器中的数据和程序代码,执行:
获取第一组数据集,所述第一组数据集包括多个数据特征;
对所述第一组数据集中的所述多个数据特征进行多阶特征变换;
从第一集合中确定目标数据集,所述第一集合包括所述多阶特征变换的过程中每一阶特征变换得到的数据集;
其中,所述对所述第一组数据集中的多个数据特征进行多阶特征变换,包括:
针对第n组数据集中的每一个数据集中的数据特征分别进行特征变换,得到多个候选数据集,所述第n组数据集为所述第一数据集经过n-1阶特征变换后得到的数据集,n为大于1的整数;
计算所述多个候选数据集中每一个候选数据集的第一评估值;所述第一评估值用于评价通过所述候选数据集训练得到的模型的准确度;
根据所述多个候选数据集中每一个候选数据集的第一评估值确定第n+1组数据集,所述第n+1组数据集中数据集的个数小于所述多个候选数据集的个数。
其中,获取第一组数据集可以通过通信接口804接收客户设备发送的原始数据集,进而对原始数据集进行预处理,得到第一组数据集。
在执行设备800得到目标数据集后,可以获取第一组数据集变换得到目标数据集采用的目标特征变换算法,并通过目标数据集训练新建的机器学习模型得到目标机器学习模型。进一步地,执行设备800通过通信节后804向客户设备发送该目标特征变换算法和目标机器学习模型。
作为一种可能的实施方式,第一候选数据集为所述多个候选数据集中的任一个数据集,所述处理器801执行所述分别计算所述多个候选数据集中每一个候选数据集的第一评估值,包括执行:
根据所述第一候选数据集计算所述第一候选数据集的元特征,所述元特征用于表示所述第一候选数据集的属性;
将所述元特征输入到第一机器学习模型,以预测所述第一候选数据集的第二评估值,第一候选数据集的第二评估值用于评价所述第一候选数据集训练得到的模型的准确度;
根据所述第一候选数据集的第二评估值确定所述第一候选数据集的第一评估值。
作为一种可能的实施方式,所述第一候选数据集包括多个数据特征和一个标签,所述根据所述第一候选数据集计算所述第一候选数据集的元特征,具体包括:
根据所述第一候选数据集计算第一信息,所述第一信息包括所述第一候选数据集的多个数据特征中每两个数据特征的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征与标签的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征的数据分布信息、所述标签的数据分布信息中至少一种;
根据所述第一信息计算所述第一候选数据集的元特征。
作为一种可能的实施方式,所述第一候选数据集的元特征包括:所述第一候选数据集的基本特征、所述第一候选数据集的多个数据特征中连续型数据特征的特征、所述第一候选数据集的多个数据特征中离散型数据特征的特征、所述标签的特征、数据相似度的特征、分布相似度的特征、所述数据特征的分布信息的特征中的至少一种。
作为一种可能的实施方式,所述第一候选数据集为第一数据集通过第一特征变换得到,所述第一数据集为所述第n组数据集中的一个数据集,所述处理器801执行所述根据所述第一候选数据集的第二评估值确定所述第一候选数据集的第一评估值,具体包括执行:
所述第一候选数据集的第一评估值为第一数据项和第二数据项之和;其中,所述第一数据项与所述第一候选数据集的第二评估值正相关,所述第二数据项由所述第一特征变换的历史增益次数的决定。
作为一种可能的实施方式,所述处理器801执行所述根据所述多个候选数据集中第一评估值确定第n+1组数据集,具体包括执行:
选择所述多个候选数据集中第一评估值满足第一条件的候选数据集;
对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到所述满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值;
选择所述满足第一条件的候选数据集中第三评估值满足第二条件的候选数据集作为所述第n+1组数据集。
作为一种可能的实施方式,第二候选数据集为满足第一条件的候选数据集中任意一个候选数据集,所述第二候选数据集包括训练数据集和测试数据集,所述训练数据集和所述测试数据集中的任意一个样本包括多个数据特征和一个标签;所述处理器801执行所述对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到所述满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值,包括执行:
根据所述训练数据集训练第二机器学习模型;
将所述测试数据集中每一个样本的多个数据特征输入到所述第二机器学习模型,得到所述测试数据集中每一个样本的预测标签;
根据所述测试数据集中每一个样本的标签和预测标签计算所述第二候选数据集的第三评估值。
作为一种可能的实施方式,所述处理器801还用于执行还包括:
获取多个第一样本,所述多个第一样本中任意一个第一样本包括第二数据集的元特征以及所述第二数据集的评估值;
根据所述多个第一样本训练所述第一机器学习模型。
作为一种可能的实施方式,所述处理器801执行所述针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集之前,所述处理器801还用于执行:
将第三数据集的元特征输入到第三机器学习模型,预测得到第四评估值,所述第四评估值用于评价所述第三数据集经过所述第二特征变换得到的候选数据集训练得到模型的准确性,所述第三数据集为所述第n组数据集中任一个数据集,所述第二特征变换为B种特征变换中任意一个特征变换,B为正整数;
在所述B种特征变换中选择满足第四条件的第四评估值对应的特征变换为所述A种特征变换,A为不大于B的正整数;
所述针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集,包括:针对所述第三数据集进行A种特征变换,得到A个候选数据集。
作为一种可能的实施方式,所述处理器801还用于执行:
获取多个第二样本,所述多个第二样本中任意一个第二样本包括第四数据集的元特征以及所述第四数据集经过第二特征变换后的数据集的评估值与所述第四数据集的评估值之间的差值,第二特征变换为所述B种特征变换中的任意一种特征变换;
根据所述多个第二样本训练所述第三机器学习模型。
应理解,各个器件的实现还可以对应参照上述方法实施例中的相应描述,本申请实施例不再赘述。
应理解,数据处理***700中的各个单元可以相当于处理器802。
如图9所示,本申请实施例提供的一种训练设备,该训练设备可以包括处理器901、存储器902、通信总线903和通信接口904,所述处理器901通过所述通信总线连接所述存储器902和所述通信接口903。
处理器901可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)、神经网络处理器(network processing unit,NPU)或者一个或多个集成电路,用于执行相关程序,以执行本申请方法实施例的第一机器学习模型的训练方法。
处理器901还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的第一机器学习模型的训练方法的各个步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801还可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901,处理器901读取存储器902中的信息,结合其硬件执行本申请方法实施例的第一机器学习模型的训练方法。
存储器902可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器902可以存储程序和数据,例如本申请实施例中多个第一样本、用于实现本申请实施例中第一机器学习模型的训练方法的程序等。当存储器901中存储的程序被处理器902执行时,处理器901和通信接口904用于执行本申请实施例的第一机器学习模型的训练方法的各个步骤。
例如,本申请实施例中用于实现本申请实施例中第一机器学习模型的训练方法的程序等。
通信接口904使用例如但不限于收发器一类的收发装置,来实现训练设备900与其他设备或通信网络之间的通信。例如,可以通过通信接口904获取多个第一样本,以实现与执行设备、客户设备、用户设备或者终端设备等的信息交互。
可选地,该执行设备还可以包括人工智能处理器905,人工智能处理器905可以是神经网络处理器(network processing unit,NPU),张量处理器(tensor processingunit,TPU),或者图形处理器(graphics processing unit,GPU)等一切适合用于大规模异或运算处理的处理器。人工智能处理器905可以作为协处理器挂载到主CPU(Host CPU)上,由主CPU为其分配任务。人工智能处理器905可以实现上述第一机器学习模型的训练方法中涉及的一种或多种运算。例如,以NPU为例,NPU的核心部分为运算电路,通过控制器控制运算电路提取存储器902中的矩阵数据并进行乘加运算。
所述处理器901用于调用所述存储器中的数据和程序代码,执行:
获取多个第一样本,所述多个第一样本中任意一个第一样本包括第二数据集的元特征以及所述第二数据集的评估值;
根据所述多个第一样本训练所述第一机器学习模型。
可选地,元特征的计算方法同上述第一方面中第一候选数据集的元特征的计算方法相同,可参见第一方面中相关描述,本申请实施例不再赘述。
应理解,各个器件的实现还可以对应参照上述第一机器学习模型的训练方法实施例中的相应描述,本申请实施例不再赘述。
如图10所示,本申请实施例提供的一种训练设备,该训练设备可以包括至处理器1001、存储器1002、通信总线1003和通信接口1004,所述处理器1001通过所述通信总线连接所述存储器1002和所述通信接口1003。
处理器1001可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的第三机器学习模型的训练设备中的单元所需执行的功能,或者执行本申请方法实施例的第三机器学习模型的训练方法。
处理器1001还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的第三机器学习模型的训练方法的各个步骤可以通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1001还可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002,处理器1001读取存储器1002中的信息,结合其硬件执行本申请方法实施例的第三机器学习模型的训练方法。
存储器1002可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器1002可以存储程序和数据,例如本申请实施例中多个第二样本或第三样本、用于实现本申请实施例中第三机器学习模型的训练方法的程序等。当存储器1001中存储的程序被处理器1002执行时,处理器1001和通信接口1004用于执行本申请实施例的第三机器学习模型的训练方法的各个步骤。
通过通信接口1004接收多个第二样本或第三样本,以实现与执行设备、客户设备、用户设备或者终端设备等的信息交互。
可选地,该执行设备还可以包括人工智能处理器1005,人工智能处理器1005可以是神经网络处理器(network processing unit,NPU),张量处理器(tensor processingunit,TPU),或者图形处理器(graphics processing unit,GPU)等一切适合用于大规模异或运算处理的处理器。人工智能处理器1005可以作为协处理器挂载到主CPU(Host CPU)上,由主CPU为其分配任务。人工智能处理器1005可以实现上述第三机器学习模型的训练方法中涉及的一种或多种运算。例如,以NPU为例,NPU的核心部分为运算电路,通过控制器控制运算电路提取存储器1002中的矩阵数据并进行乘加运算。
所述处理器1001用于调用所述存储器中的数据和程序代码,执行:
获取多个第二样本,所述多个第二样本中任意一个第二样本包括第四数据集的元特征以及所述第四数据集经过第二特征变换后的数据集的评估值与所述第四数据集的评估值之间的差值,第二特征变换为所述B种特征变换中的任意一种特征变换;根据所述多个第二样本训练所述第三机器学习模型。
或者执行:
获取多个第三样本,多个第三样本中任意一个第三样本包括第四数据集的元特征以及所述第二数据集经过第二特征变换后的数据集的第四评估值;根据多个第三样本训练所述第三机器学习模型。
可选地,第四数据集的元特征的计算方法同上述第一方面中第一候选数据集的元特征的计算方法相同,可参见第一方面中相关描述,本申请实施例不再赘述。
应理解,各个器件的实现还可以对应参照上述第三机器学习模型的训练方法实施例中的相应描述,本申请实施例不再赘述。
下面介绍本申请实施例提供的一种芯片硬件结构。
图11为本发明实施例提供的一种芯片硬件结构,该芯片包括人工智能处理器110。该芯片可以被设置在如图1所示的执行设备120、图8所示的执行设备700中,用以完成执行设备的数据处理工作中的部分或全部工作。该芯片也可以被设置在如图1所示的训练设备110、图8所示的执行设备800或图9-10所示的训练设备900和1000中,用以完成训练设备的训练工作并输出第一机器学习模型或第三机器学习模型。
人工智能处理器110可以是NPU,TPU,或者GPU等一切适合用于大规模异或运算处理的处理器。以NPU为例:NPU可以作为协处理器挂载到主CPU(Host CPU)上,由主CPU为其分配任务。NPU的核心部分为运算电路1103,通过控制器1104控制运算电路1103提取存储器中的矩阵数据并进行乘加运算。
在一些实现中,运算电路1103内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1103是二维脉动阵列。运算电路1103还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1103是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路1103从权重存储器1102中取矩阵B的权重数据,并缓存在运算电路1103中的每一个PE上。运算电路1103从输入存储器1101中取矩阵A的输入数据,根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1108中。
统一存储器1106用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(DMAC,Direct Memory Access Controller)1105,被搬运到权重存储器1102中。输入数据也通过DMAC被搬运到统一存储器1106中。
总线接口单元(BIU,Bus Interface Unit)1110,用于DMAC和取指存储器(Instruction Fetch Buffer)1109的交互;总线接口单元1101还用于取指存储器1109从外部存储器获取指令;总线接口单元1101还用于存储单元访问控制器1105从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1106中,或将权重数据搬运到权重存储器1102中,或将输入数据搬运到输入存储器1101中。
向量计算单元1107多个运算处理单元,在需要的情况下,对运算电路1103的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。向量计算单元1107主要用于神经网络中非卷积层,或全连接层(FC,fully connected layers)的计算,具体可以处理:Pooling(池化),Normalization(归一化)等的计算。例如,向量计算单元1107可以将非线性函数应用到运算电路1103的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1107生成归一化的值、合并值,或二者均有。
在一些实现中,向量计算单元1107将经处理的向量存储到统一存储器1106。在一些实现中,经向量计算单元1107处理过的向量能够用作运算电路1103的激活输入,例如用于神经网络中后续层中的使用。
控制器1104连接的取指存储器(instruction fetch buffer)1109,用于存储控制器1104使用的指令;
统一存储器1106,输入存储器1101,权重存储器1102以及取指存储器1109均为On-Chip存储器。外部存储器独立于该NPU硬件架构。
其中,第一机器学习模型、第二机器学习模型或第三机器学习模型为神经网络时,神经网络中各层的运算可以由运算电路1103或向量计算单元1107执行。
应注意,尽管图8、图9和图10所示的执行设备800、训练设备900和1000仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,执行设备800、训练设备900和1000还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,执行设备800、训练设备900和1000还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,执行设备800、训练设备900和1000也可仅仅包括实现本申请实施例所必须的器件,而不必包括图8、图9或图10中所示的全部器件,例如,通信接口和通信总线不是图8、图9或图10中所示设备必须的部件,图8、图9或图10中所示设备可以不包括通信接口和/或通信总线。
可以理解,本领域普通技术人员可以意识到,结合本申请各个实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域技术人员能够领会,结合本申请各个实施例中公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (22)
1.一种数据处理方法,其特征在于,包括:
执行设备接收来自客户设备发送的请求,所述请求包括原始数据集,所述请求用于请求所述执行设备基于所述原始数据集生成机器学习模型;
所述执行设备对所述原始数据集进行预处理得到第一组数据集,所述第一组数据集包括多个数据特征;所述多个数据特征包括用户的信息、用户在第一时间的套餐使用信息、OTT业务数据流的特征、小区的多个连续时间段内的流量或用户在第一时间的网络使用信息;
所述执行设备对所述第一组数据集中的所述多个数据特征进行多阶特征变换;
所述执行设备从第一集合中确定目标数据集,所述第一集合包括所述多阶特征变换的过程中每一阶特征变换得到的数据集;
所述执行设备基于所述目标数据集训练机器学习模型,得到目标机器学习模型;
所述执行设备向所述客户设备发送所述目标机器学习模型;
其中,所述对所述第一组数据集中的多个数据特征进行多阶特征变换,包括:
所述执行设备针对第n组数据集中的每一个数据集中的数据特征分别进行特征变换,得到多个候选数据集,所述第n组数据集为所述第一组数据集经过n-1阶特征变换后得到的数据集,n为大于1的整数;
所述执行设备计算所述多个候选数据集中每一个候选数据集的第一评估值;所述第一评估值用于评价通过所述候选数据集训练得到的模型的准确度;
所述执行设备根据所述多个候选数据集中每一个候选数据集的第一评估值确定第n+1组数据集,所述第n+1组数据集中数据集的个数小于所述多个候选数据集的个数。
2.根据权利要求1所述的方法,其特征在于,第一候选数据集为所述多个候选数据集中的任一个数据集,所述计算所述多个候选数据集中每一个候选数据集的第一评估值,包括:
所述执行设备计算所述第一候选数据集的元特征,所述元特征用于表示所述第一候选数据集的属性;
所述执行设备将所述元特征输入到第一机器学习模型,以预测所述第一候选数据集的第二评估值,所述第一候选数据集的第二评估值用于评价所述第一候选数据集训练得到的模型的准确度;
所述执行设备根据所述第一候选数据集的第二评估值确定所述第一候选数据集的第一评估值。
3.根据权利要求2所述的方法,其特征在于,所述第一候选数据集包括多个数据特征和一个标签,所述根据所述第一候选数据集计算所述第一候选数据集的元特征,具体包括:
所述执行设备根据所述第一候选数据集计算第一信息,所述第一信息包括所述第一候选数据集的多个数据特征中每两个数据特征的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征与标签的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征的数据分布信息、所述标签的数据分布信息中至少一种;
所述执行设备根据所述第一信息计算所述第一候选数据集的元特征。
4.根据权利要求3所述的方法,其特征在于,所述第一候选数据集的元特征包括:所述第一候选数据集的基本特征、所述第一候选数据集的多个数据特征中连续型数据特征的特征、所述第一候选数据集的多个数据特征中离散型数据特征的特征、所述标签的特征、数据相似度的特征、分布相似度的特征、所述数据特征的分布信息的特征中的至少一种。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述第一候选数据集为第一数据集通过第一特征变换得到,所述第一数据集为所述第n组数据集中的一个数据集,所述根据所述第一候选数据集的第二评估值确定所述第一候选数据集的第一评估值,具体包括:
所述第一候选数据集的第一评估值为第一数据项和第二数据项之和;其中,所述第一数据项与所述第一候选数据集的第二评估值正相关,所述第二数据项由所述第一特征变换的历史增益次数决定。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述多个候选数据集中第一评估值确定第n+1组数据集,具体包括:
所述执行设备选择所述多个候选数据集中第一评估值满足第一条件的候选数据集;
所述执行设备对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到所述满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值;
所述执行设备选择所述满足第一条件的候选数据集中第三评估值满足第二条件的候选数据集作为所述第n+1组数据集。
7.根据权利要求6所述的方法,其特征在于,第二候选数据集为满足第一条件的候选数据集中任意一个候选数据集,所述第二候选数据集包括训练数据集和测试数据集,所述训练数据集和所述测试数据集中的任意一个样本包括多个数据特征和一个标签;所述对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到所述满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值,包括:
所述执行设备根据所述训练数据集训练第二机器学习模型;
所述执行设备将所述测试数据集中每一个样本的多个数据特征输入到所述第二机器学习模型,得到所述测试数据集中每一个样本的预测标签;
所述执行设备根据所述测试数据集中每一个样本的标签和预测标签计算所述第二候选数据集的第三评估值。
8.根据权利要求2-4任一项所述的方法,其特征在于,所述方法还包括:
所述执行设备获取多个第一样本,所述多个第一样本中任意一个第一样本包括第二数据集的元特征以及所述第二数据集的评估值;
所述执行设备根据所述多个第一样本训练所述第一机器学习模型。
9.根据权利要求1-4和7中任一项所述的方法,其特征在于,所述针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集之前,所述方法还包括:
所述执行设备将第三数据集的元特征输入到第三机器学习模型,预测得到第四评估值,所述第四评估值用于评价所述第三数据集经过第二特征变换得到的候选数据集训练得到模型的准确性,所述第三数据集为所述第n组数据集中任一个数据集,所述第二特征变换为B种特征变换中任意一个特征变换,B为正整数;
所述执行设备在所述B种特征变换中选择满足第四条件的第四评估值对应的特征变换为A种特征变换, A为不大于B的正整数;
所述针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集,包括:针对所述第三数据集进行A种特征变换,得到A个候选数据集。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
所述执行设备获取多个第二样本,所述多个第二样本中任意一个第二样本包括第四数据集的元特征以及所述第四数据集经过第二特征变换后的数据集的评估值与所述第四数据集的评估值之间的差值,第二特征变换为所述B种特征变换中的任意一种特征变换;
所述执行设备根据所述多个第二样本训练所述第三机器学习模型。
11.一种数据处理***,其特征在于,包括:
第一获取单元,用于接收来自客户设备发送的请求,所述请求包括原始数据集,所述请求用于请求执行设备基于所述原始数据集生成机器学习模型;对所述原始数据集进行预处理得到第一组数据集,所述第一组数据集包括多个数据特征;所述多个数据特征包括用户的信息、用户在第一时间的套餐使用信息、OTT业务数据流的特征、小区的多个连续时间段内的流量或用户在第一时间的网络使用信息;
变换单元,用于对所述第一组数据集中的多个数据特征进行多阶特征变换;
第一选择单元,用于从第一集合中确定目标数据集,所述第一集合包括所述多阶特征变换的过程中每一阶特征变换得到的数据集;
处理单元,用于基于所述目标数据集训练机器学习模型,得到目标机器学习模型;
发送单元,用于向所述客户设备发送所述目标机器学习模型;
其中,所述变换单元具体用于:针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集,所述第n组数据集为所述第一组数据集经过n-1阶特征变换后得到的数据集,n为大于1的整数;
所述***还包括:
第一评估单元,用于计算所述多个候选数据集中每一个候选数据集的第一评估值;所述第一评估值用于评价通过所述候选数据集训练得到的模型的准确度;
第一筛选单元,用于根据所述多个候选数据集中每一个候选数据集的第一评估值确定第n+1组数据集,所述第n+1组数据集中数据集的个数小于所述多个候选数据集的个数。
12.根据权利要求11所述的***,其特征在于,第一候选数据集为所述多个候选数据集中的任一个数据集;
所述***还包括元特征计算单元,用于:根据所述第一候选数据集计算所述第一候选数据集的元特征,所述元特征用于表示所述第一候选数据集的属性;
所述第一评估单元具体用于:将所述元特征输入到第一机器学习模型,以预测所述第一候选数据集的第二评估值,所述第一候选数据集的第二评估值用于评价所述第一候选数据集训练得到的模型的准确度;以及,根据所述第一候选数据集的第二评估值确定所述第一候选数据集的第一评估值。
13.根据权利要求12所述的***,其特征在于,所述第一候选数据集包括多个数据特征和一个标签,所述元特征计算单元,具体用于:
根据所述第一候选数据集计算第一信息,所述第一信息包括所述第一候选数据集的多个数据特征中每两个数据特征的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征与标签的数据相似度、分布相似度,所述第一候选数据集的多个数据特征中每一个数据特征的数据分布信息、所述标签的数据分布信息中至少一种;
根据所述第一信息计算所述第一候选数据集的元特征。
14.根据权利要求13所述的***,其特征在于,所述第一候选数据集的元特征包括:所述第一候选数据集的基本特征、所述第一候选数据集的多个数据特征中连续型数据特征的特征、所述第一候选数据集的多个数据特征中离散型数据特征的特征、所述标签的特征、数据相似度的特征、分布相似度的特征、所述数据特征的分布信息的特征中的至少一种。
15.根据权利要求12-14任一项所述的***,其特征在于,所述第一候选数据集为第一数据集通过第一特征变换得到,所述第一数据集为所述第n组数据集中的一个数据集,所述第一候选数据集的第一评估值为第一数据项和第二数据项之和;其中,所述第一数据项与所述第一候选数据集的第二评估值正相关,所述第二数据项由所述第一特征变换的历史增益次数决定。
16.根据权利要求11-14任一项所述的***,其特征在于,
所述第一筛选单元还用于:选择所述多个候选数据集中第一评估值满足第一条件的候选数据集;
所述***还包括第二评估单元,用于:对满足第一条件的候选数据集中每一个候选数据集分别进行模型的训练和测试,得到所述满足第一条件的候选数据集中每一个候选数据集分别对应的第三评估值;
所述第一筛选单元还用于:选择所述满足第一条件的候选数据集中第三评估值满足第二条件的候选数据集作为所述第n+1组数据集。
17.根据权利要求16所述的***,其特征在于,第二候选数据集为满足第一条件的候选数据集中任意一个候选数据集,所述第二候选数据集包括训练数据集和测试数据集,所述训练数据集和所述测试数据集中的任意一个样本包括多个数据特征和一个标签;所述第二评估单元具体用于:
根据所述训练数据集训练第二机器学习模型;
将所述测试数据集中每一个样本的多个数据特征输入到所述第二机器学习模型,得到所述测试数据集中每一个样本的预测标签;
根据所述测试数据集中每一个样本的标签和预测标签计算所述第二候选数据集的第三评估值。
18.根据权利要求12-14任一项所述的***,其特征在于,所述***还包括:
第二获取单元,用于获取多个第一样本,所述多个第一样本中任意一个第一样本包括第二数据集的元特征以及所述第二数据集的评估值;
第一训练单元,用于根据所述多个第一样本训练所述第一机器学习模型。
19.根据权利要求11-14和17中任一项所述的***,其特征在于,所述***还包括:
第三评估单元,用于:在变换评估模块针对第n组数据集中的每一个数据集,分别进行特征变换,得到多个候选数据集之前,将第三数据集的元特征输入到第三机器学习模型,预测得到第四评估值,所述第四评估值用于评价所述第三数据集经过第二特征变换得到的候选数据集训练得到模型的准确性,所述第三数据集为所述第n组数据集中任一个数据集,所述第二特征变换为B种特征变换中任意一个特征变换,B为正整数;
第二筛选单元,用于在所述B种特征变换中选择满足第四条件的第四评估值对应的特征变换为A种特征变换, A为不大于B的正整数;
所述变换单元具体用于:针对所述第三数据集进行A种特征变换,得到A个候选数据集。
20.根据权利要求19所述的***,其特征在于,所述***还包括:
第三获取单元,用于获取多个第二样本,所述多个第二样本中任意一个第二样本包括第四数据集的元特征以及所述第四数据集经过第二特征变换后的数据集的评估值与所述第四数据集的评估值之间的差值,第二特征变换为所述B种特征变换中的任意一种特征变换;
第二训练单元,用于根据所述多个第二样本训练所述第三机器学习模型。
21.一种执行设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述处理器用于调用所述计算机程序代码,执行如权利要求1-10任一项所述的数据处理方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序代码,当所述计算机程序代码在处理器上运行时,使得所述处理器执行如权利要求1-10任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910028386.XA CN111435463B (zh) | 2019-01-11 | 2019-01-11 | 数据处理方法及相关设备、*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910028386.XA CN111435463B (zh) | 2019-01-11 | 2019-01-11 | 数据处理方法及相关设备、*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111435463A CN111435463A (zh) | 2020-07-21 |
CN111435463B true CN111435463B (zh) | 2024-07-05 |
Family
ID=71580423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910028386.XA Active CN111435463B (zh) | 2019-01-11 | 2019-01-11 | 数据处理方法及相关设备、*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111435463B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738356A (zh) * | 2020-07-23 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 特异化数据的对象特征生成方法、装置、设备及存储介质 |
CN112053558A (zh) * | 2020-08-25 | 2020-12-08 | 青岛海信网络科技股份有限公司 | 一种交通拥堵状态识别方法及装置和设备 |
CN114338416B (zh) * | 2020-09-29 | 2023-04-07 | ***通信有限公司研究院 | 一种时空多指标预测方法、装置和存储介质 |
CN112200667B (zh) * | 2020-11-30 | 2021-02-05 | 上海冰鉴信息科技有限公司 | 一种数据处理方法、装置及计算机设备 |
CN112668723B (zh) * | 2020-12-29 | 2024-01-02 | 杭州海康威视数字技术股份有限公司 | 一种机器学习方法及*** |
CN113792952A (zh) * | 2021-02-23 | 2021-12-14 | 北京沃东天骏信息技术有限公司 | 用于生成模型的方法和装置 |
CN113449958B (zh) * | 2021-05-09 | 2022-05-10 | 武汉兴得科技有限公司 | 一种智慧防疫运维管理方法及*** |
CN115730640A (zh) * | 2021-08-31 | 2023-03-03 | 华为技术有限公司 | 数据处理方法、装置和*** |
CN114490697B (zh) * | 2022-03-28 | 2022-09-06 | 山东国赢大数据产业有限公司 | 一种基于区块链的数据协同处理方法及设备 |
CN114818516B (zh) * | 2022-06-27 | 2022-09-20 | 中国石油大学(华东) | 一种井筒腐蚀形态剖面智能预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730131A (zh) * | 2012-10-12 | 2014-04-16 | 华为技术有限公司 | 语音质量评估的方法和装置 |
CN106485259A (zh) * | 2015-08-26 | 2017-03-08 | 华东师范大学 | 一种基于高约束高分散主成分分析网络的图像分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6277818B2 (ja) * | 2014-03-26 | 2018-02-14 | 日本電気株式会社 | 機械学習装置、機械学習方法、及びプログラム |
WO2016004073A1 (en) * | 2014-06-30 | 2016-01-07 | Amazon Technologies, Inc. | Machine learning service |
CN108090570A (zh) * | 2017-12-20 | 2018-05-29 | 第四范式(北京)技术有限公司 | 用于选择机器学习样本的特征的方法及*** |
-
2019
- 2019-01-11 CN CN201910028386.XA patent/CN111435463B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730131A (zh) * | 2012-10-12 | 2014-04-16 | 华为技术有限公司 | 语音质量评估的方法和装置 |
CN106485259A (zh) * | 2015-08-26 | 2017-03-08 | 华东师范大学 | 一种基于高约束高分散主成分分析网络的图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111435463A (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111435463B (zh) | 数据处理方法及相关设备、*** | |
CN110806954B (zh) | 评估云主机资源的方法、装置、设备及存储介质 | |
WO2021068513A1 (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN107220217A (zh) | 基于逻辑回归的特征系数训练方法和装置 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN110264270B (zh) | 一种行为预测方法、装置、设备和存储介质 | |
CN114066073A (zh) | 电网负荷预测方法 | |
CN116760772B (zh) | 汇聚分流器的管控***及其方法 | |
CN105472631A (zh) | 一种业务数据量和/或资源数据量的预测方法及预测*** | |
CN113037877A (zh) | 云边端架构下时空数据及资源调度的优化方法 | |
CN113610240A (zh) | 利用嵌套机器学习模型来执行预测的方法及*** | |
CN112766402A (zh) | 算法选择方法、装置和电子设备 | |
CN115562940A (zh) | 负载能耗监控方法、装置、介质及电子设备 | |
CN115983497A (zh) | 一种时序数据预测方法和装置、计算机设备、存储介质 | |
CN116684330A (zh) | 基于人工智能的流量预测方法、装置、设备及存储介质 | |
CN113344257B (zh) | 一种国土空间云平台中图层分析响应时间的预测方法 | |
CN116841753B (zh) | 一种流处理和批处理的切换方法及切换装置 | |
Almomani et al. | Selecting a good stochastic system for the large number of alternatives | |
CN113723712B (zh) | 风电功率预测方法、***、设备及介质 | |
CN111654853B (zh) | 一种基于用户信息的数据分析方法 | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
CN113760407A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
Singh et al. | A feature extraction and time warping based neural expansion architecture for cloud resource usage forecasting | |
CN112836770B (zh) | Kpi异常定位分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |