CN102521656A

CN102521656A - 非平衡样本分类的集成迁移学习方法

Info

Publication number: CN102521656A
Application number: CN201110452050XA
Authority: CN
Inventors: 于重重; 谭励; 田蕊; 刘宇; 吴子珺
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2012-06-27
Anticipated expiration: 2031-12-29
Also published as: CN102521656B

Abstract

一种非平衡样本分类的集成迁移学***衡数据的分类问题提供了新的方法，保证了分类中数量少的负样本在分类训练中的作用，有效地提高了负样本的贡献率，提高了分类的效率和精度。

Description

非平衡样本分类的集成迁移学习方法

技术领域

本发明属于机器学***衡的辅助训练数据，提出了一种改进集成迁移学习算法，利用这些辅助训练数据迁移帮助目标数据进行分类。

背景技术

迁移学习是近年来机器学习领域研究的热门，它针对新任务中标记数据量小的特点，提出有效地利用已过时的数据迁移应用到新的任务中：虽然大量过时数据与待解决问题领域有所差异，但是其中肯定会存在一些对新的分类问题有所帮助的数据。为了能够找到这些有用的数据，利用少量已被分类的新数据，来挖掘旧数据中的有价值信息。最后根据两部分数据中所有的有用信息来训练一个较高效的分类模型，实现旧数据到新数据的知识迁移。

目前，针对不同迁移学习任务有多种解决方法：

Q.Yang等人提出将朴素贝叶斯分类器(Naive Bayes Classifier)推广成一个支持跨领域文本分类的分类器，实现了不同领域文本之间知识的迁移。(WDai，G.-R.Xue，QYang，andYYu.Transferring naive bayes classifiers for text classification[A].The Twenty-Second NationalConference on Artificial Intelligence[C]，2007.540-545.)

Dai等人提出将集成学习应用到迁移学习中，通过boosting技术将弱学习算法“提升”为强学习的算法-TrAdaboost，该算法将迁移辅助数据和目标数据这两部分数据集直接组合在一起，组成一个混合数据集作为训练集，然后在这个数据集上利用TrAdaboost算法训练分类模型。(YLiu and PStone.Value-function-based transfer for reinforcement learning using structuremapping[A].In Proceedings of theTwenty-First National Conference on Artificial Intelligence[C]，2006.877-882.)

将集成学习算法应用到迁移学习中，可以在不改变弱分类器分类精度的情况下，通过集成将弱学习算法“提升”为强学习算法，从而有效提升迁移学习效果，然而该方法也存在一些问题：

TrAdaboost算法适用于解决基于对称的二分类问题，正负数据同等看待。然而，在现实世界中表征两类不同类别的样本分布上有可能是极度不平衡的，并且重要性也存在很大的差异。

另外，辅助数据中往往存在大量冗余数据，这些数据可能与目标数据集很不相似，它们的存在不但会影响模型的训练速度，还会导致分类精度的下降。

发明内容

本发明的目的是提供一种新的方法，通过优化样本权重分配及调整策略，提高数据量小、信息量大的一类样本(负样本)的贡献率；并在训练过程中动态剔除“不相关”数据，根据设定好的样本阈值下限，淘汰权重值过小的那部分数据，经过T轮的迭代训练，辅助训练数据将不断趋于优化。

本发明的原理是：利用迁移的方法，针对正负样本不平衡的数据进行分类，首先将辅助训练数据与目标数据提取出的特征属性向量混合成训练集，然后将该训练集上的每维特征属性分别应用弱学习算法。在初始化时，将正负样本赋予不同的权重，保证占总样本比例小但信息量大的负样本初始权重大。每轮训练过程中按比例抽取部分样本作为训练子集进行训练，训练结束后，从若干个简单分类器中选择误差最小的那个，作为一个弱分类器h，并按照冗余数据动态剔除算法调整训练数据集。这样，经过T轮迭代后就可以得到一个弱分类器序列(h₁，h₂，...，h_T)，最终的分类函数f(x)采用一种投票方式产生，即将多个弱分类器通过一定的方法叠加(boost)起来组合成一个强分类器。方法流程如图5所示。

本发明提供的技术方案如下：

一种非平衡样本分类的集成迁移学习方法，其特征是，包括如下步骤：

1)将迁移辅助数据集A与目标数据集O按比例混合成训练数据集C；

2)初始化样本权重；

3)求出归一化样本权重；

设迭代总次数为T，从1到T每轮迭代训练依次完成下面4)～9)步：

4)随机抽取训练子集D；

5)如果训练子集D中含有正负两类样本，则执行第6)步；否则，在不包含的另一类中抽取部分样本填入训练子集D，以确保训练子集D中存在正负两类样本；

6)在训练子集D上，用弱学习算法P，训练基分类器并集成求和得到弱分类器；

7)计算弱分类器h_t在目标训练数据上的训练错误率，其中t为迭代因子；

8)根据分类错误率调整样本权值；

9)动态剔除冗余数据；

10)得到最终集成分类器输出正样本和负样本。

步骤1)中，分别在迁移辅助数据集A与目标数据集O中抽取部分数据按比例混合成训练数据集C，C＝{(X₁，Y₁)，(X₂，Y₂)，…，(X_N，Y_N)}，其中(X_i，Y_i)是由样本特征属性向量和样本类别组合成的训练样本，i＝1，2，…，N；训练数据集C中前n个样本为A中数据，剩下的m个样本为O中的数据，n+m＝N；其中X_i∈X，X为输入样本数据，X_i是样本的特征属性向量，维数为q，Y_i∈{0，+1}是样本的类别标签。

步骤3)中，归一化样本权重的计算方法为：将每个样本的初始化权重除以总的样本权重，即得到归一化后的样本权重。

步骤4)中，抽取的训练子集D中所含样本数量为C中的一半。

步骤6)中，所述弱学习算法为决策树，人工神经网络，SVM。

步骤7)中，弱分类器h_t在目标训练数据上的训练错误率ε_t如下计算：

ϵ_{t} = Σ_{i = n + 1}^{n + m} \frac{ω_{i}^{t} | h_{t} (x_{i}) - y_{i} |}{Σ_{i = n + 1}^{n + m} ω_{i}^{t}}

其中

是第i个样本在第t次迭代时的权重，h_t(x_i)是第i个样本在第t次迭代时的输出，y_i是第i个样本的真实类别标签；如果计算出的ε_t大于1/2，则将其值设置为1/2，即ε_t不大于1/2。

步骤9)中，每轮训练结束后当训练样本的权重值低于设定好的阈值下限时被视为冗余数据，从训练样本删除该部分数据。

步骤9)中，当训练样本总数小于等于设定好的最低样本个数时停止训练，即停止步骤4)～9)的迭代。

步骤10)中，最终的集成分类器输出为

即以多数弱分类器的投票结果作为最终分类结果；其中取值1代表在不平衡数据中占多数的一类样本，取值0则代表占少数的另一类样本；x为训练样本，T为总迭代次数，t为迭代因子，h_t(x)是样本x在第t次迭代时的输出，

将前面所述集成迁移学习方法应用于桥梁监测，对于最终的集成分类器输出值Z，Z为1表示该样本为正样本，表征桥梁健康状况良好；Z为0表示该样本为副样本，表征桥梁为损伤状态。

本发明的有益效果：利用本发明提供的技术方案，可以有效利用已有旧数据的分类规律找出近似分布的新数据的分类规律，尤其是针对分类不平衡数据的分类问题提供了新的方法，保证了分类中数量少的负样本在分类训练中的作用，有效地提高了负样本的贡献率，提高了分类的效率和精度。

附图说明

图1实施例步骤框图

图2本发明在训练数据及测试数据上的错误率

图3TrAdaboost随训练数据增加相对误差

图4本发明随训练数据增加相对误差

图5本发明方法流程图

表1输入数据

表2训练数据组成成分

表3TrAdaboost算法与本发明算法的测试结果

具体实施方式

本发明提供的非平衡样本分类的集成迁移学习方法(称之为UBITLA)，步骤如下(参图1)：

1.输入：输入数据源于两部分：迁移辅助数据集A，目标数据集O。分别在这两部分数据中抽取部分数据按比例混合成训练数据集C＝{(X₁，Y₁)，(X₂，Y₂)，…，(X_N，Y_N)}，其中(X_i，Y_i)是由样本特征属性向量和样本类别组合成的训练样本。i＝1，2，…，N。C中前n个样本为A中数据，C中剩下的m个样本为O中的数据(n+m＝N)。预定的迭代次数为T。其中X_i∈X，X为输入样本数据，X_i是样本的特征属性向量，维数为q，Y_i∈{0，+1}是样本的类别标签。

2.初始化样本权重：

其中，

为第i个样本的初始化权重，其中的1表示该权值是初始化状态，i₀表示该初始化权重值未经归一化处理，其中i＝1，2，…，N。d，l分别为A和O中正样本数量。

3.求出归一化样本权重：

ω_{i}^{1} = \frac{ω_{i_{0}}^{1}}{Σ_{i = 1}^{N} ω_{i_{0}}^{1}}

是第i个样本经过归一化的样本权重，分别将每个样本的初始化权重除以总的样本权重，即得到归一化后的样本权重。

设迭代总次数为T，从1到T每轮迭代训练依次完成4-9步：

4.随机抽取训练子集D(其中D中所含样本数为C中的一半，D从C中随机抽取。)

5.判断训练子集D中是否含有正负两类样本。如果含有两类样本则执行第6步，如果只含其中一类样本，则直接在另一类中抽取部分样本并填入训练子集D。确保训练子集中存在正负两类样本。

6.在训练子集D上，用弱学习算法P(如决策树，人工神经网络，SVM等基本分类算法)，训练每一维特征属性的基分类器j＝1，2，…，q，其中h表示由基本分类算法训练构造的基分类器，q表示特征属性向量的维数，t表示第t轮迭代。由基分类器求和得到弱分类器：

h_{t} = Σ_{j = 1}^{q} h_{t}^{j}

7.计算弱分类器h_t在目标训练数据上的训练错误率：

ϵ_{t} = Σ_{i = n + 1}^{n + m} \frac{ω_{i}^{t} | h_{t} (x_{i}) - y_{i} |}{Σ_{i = n + 1}^{n + m} ω_{i}^{t}}

其中

是第i个样本在第t次迭代时的权重，h_t(x_i)是第i个样本在第t次迭代时的输出，y_i是第i个样本的真实类别标签。

如果计算出的ε_t大于1/2，则需要将其值设置为1/2。即ε_t不大于1/2。

8.调整样本权值：

如果y_i＝0并且h_t(x)≠y_i，其中1≤i≤n，则

ω_{i}^{t + 1} = ω_{i}^{t} β^{| h_{t} (x_{i}) - y_{i} |} + dr \times ω_{i}^{t}

(0≤dr≤1)

否则

ω_{i}^{t + 1} = \{\begin{matrix} ω_{i}^{t} β^{| h_{t} (x_{i}) - y_{i} |}, & 1 \leq i \leq n \\ ω_{i}^{t} β_{t}^{- | h_{t} (x_{i}) - y_{i} |}, & n + 1 \leq i \leq m + n \end{matrix}

令

如果第i个样本为负样本，并且与第t次分类器的输出不等时，按照上述第一个公式调整权重，否则按照第二个公式进行调整。其中，dr是一个衰减因子，作用是使被分错的负样本权值调整具有记忆功能，保证其不致迅速变小。

9.动态剔除冗余数据：

每轮训练结束后当训练样本的权重值低于设定好的阈值下限r时被视为冗余数据，从训练样本删除该部分数据。当训练样本总数低于设定好的最低样本个数时停止训练。

10.输出：最终的集成分类器输出为：

即以多数弱分类器的投票结果为最终分类结果，其中1代表在不平衡数据中占多数的一类样本，0则代表占少数的另一类样本。

实施例采用一座已有两年监测历史的跨海大桥监测数据集(DataS1)和一座新建公路桥监测数据集(DataS2)作为研究对象，从两座桥的实际监测应变数据中按照早，中，晚高峰时段和上下午低峰时段分别抽取一定比例的数据作为迁移辅助训练数据集和目标数据集，数据组成成分如表2所示。其中正、负样本比例为5∶1，分别采用两座桥的桥板上14个关键监测点静应变数据，作为14维输入数据。输出数据：1代表正常，0代表损伤。在每轮的训练过程中随机抽取1/2的数据作为训练数据子集，同样随机抽取一部分目标数据作为测试数据子集。

在上述第1步中，实际输入部分数据见表1，其中，辅助训练数据与目标数据的比例约为5∶1，正负类别比例约为5∶1，样本总数6000个。第10步，输出为1表示正样本，表征桥梁健康状况良好；输出为0表示负样本，表征桥梁为损伤状态。

本实施例将非平衡样本分类的集成迁移学***衡的特点，合理利用已过时的数据帮助新数据进行分类，可以有效地提高数据量小但信息量大的桥梁损伤数据的贡献率，从而提高正负样本的识别率，可以有效指导相关人员对产生损伤数据的桥梁结构进行更密切监测，及时采取相应修护措施。

图2说明迁移数据辅助建立分类模型的有效性。图3，图4说明通过优化辅助训练样本集可以提高最终分类器精度。有此例证明本发明能优化辅助训练数据集，从而达到效率和精度的双赢，提升了迁移学习效果。

	1	2	3	4	5	6	7	8	9	10	11	12	13	输出
															样本1	44	53.7	20.8	24.8	26.8	30.8	33.7	31.9	30	29.2	71.3	43.8	89.6	0
样本2	23	24.3	43.8	55.7	20.2	25	27.1	30.6	33.3	31.7	20.7	29.9	70.9	1
															样本3	42.6	89.4	26.3	21.8	67.9	48.8	54.8	22.1	30.8	70.6	42.5	89.4	26.5	1
样本4	20.8	23.8	42.8	58.9	19	25.8	28.5	30.6	32.1	30.7	31	31.5	69.6	1
															样本5	32.9	46.8	20.1	14.7	39.4	50.7	14.3	18.1	21.9	28.9	28.5	28.1	40.7	1
样本6	44.9	53.6	20.1	22.1	41.8	51.7	19	23.5	29.1	27.9	31.7	30.1	19.5	1
															样本7	20.5	17.5	58.5	32.2	46.6	21.1	14.2	41.2	48.4	15.3	16.8	20.7	28.9	0
样本8	29.9	70.9	42.6	89.4	26.3	21.8	67.9	48.8	54.8	22.1	30.8	70.6	42.5	1
															样本9	31.5	69.6	41.3	88.6	26.5	20.7	66.1	47.2	53.6	20.8	23.5	42.5	59.7	0
样本10	32.6	79.1	55.2	95.2	32.3	27.3	76.6	54.1	59.1	18.3	33.9	78.7	54.4	1

表1输入数据

表2训练数据组成成分

表3TrAdaboost算法与本发明算法的测试结果

Claims

1.一种非平衡样本分类的集成迁移学习方法，其特征是，包括如下步骤：

2)初始化样本权重；

3)求出归一化样本权重；

4)随机抽取训练子集D；

8)根据分类错误率调整样本权值；

9)动态剔除冗余数据；

10)得到最终集成分类器输出正样本和负样本。

2.如权利要求1所述的集成迁移学习方法，其特征是，步骤1)中，分别在迁移辅助数据集A与目标数据集O中抽取部分数据按比例混合成训练数据集C，C＝{(X₁，Y₁)，(X₂，Y₂)，…，(X_N，Y_N)}，其中(X_i，Y_i)是由样本特征属性向量和样本类别组合成的训练样本，i＝1，2，…，N；训练数据集C中前n个样本为A中数据，剩下的m个样本为O中的数据，n+m＝N；其中X_i∈X，X为输入样本数据，X_i是样本的特征属性向量，维数为q，Y_i∈{0，+1}是样本的类别标签。

3.如权利要求1所述的集成迁移学习方法，其特征是，步骤3)中，归一化样本权重的计算方法为：将每个样本的初始化权重除以总的样本权重，即得到归一化后的样本权重。

4.如权利要求1所述的集成迁移学习方法，其特征是，步骤4)中，抽取的训练子集D中所含样本数量为C中的一半。

5.如权利要求1所述的集成迁移学习方法，其特征是，步骤6)中，所述弱学习算法为决策树，人工神经网络，SVM。

6.如权利要求2所述的集成迁移学习方法，其特征是，步骤7)中，弱分类器h_t在目标训练数据上的训练错误率ε_t如下计算：

ϵ_{t} = Σ_{i = n + 1}^{n + m} \frac{ω_{i}^{t} | h_{t} (x_{i}) - y_{i} |}{Σ_{i = n + 1}^{n + m} ω_{i}^{t}}

其中

7.如权利要求1所述的集成迁移学习方法，其特征是，步骤9)中，每轮训练结束后当训练样本的权重值低于设定好的阈值下限时被视为冗余数据，从训练样本删除该部分数据。

8.如权利要求1所述的集成迁移学习方法，其特征是，步骤9)中，当训练样本总数小于等于设定好的最低样本个数时停止训练，即停止步骤4)～9)的迭代。

9.如权利要求6所述的集成迁移学习方法，其特征是，步骤10)中，最终的集成分类器输出为

10.将权利要求1～9所述的集成迁移学习方法应用于桥梁监测，对于最终的集成分类器输出值Z，Z为1表示该样本为正样本，表征桥梁健康状况良好；Z为0表示该样本为副样本，表征桥梁为损伤状态。