CN113642660A

CN113642660A - 一种道面多维检测数据的信息增益表征方法

Info

Publication number: CN113642660A
Application number: CN202110962394.9A
Authority: CN
Inventors: 李聪; 赵梦珍; 邓卫东; 袁明园; 陈飞; 阎宗岭; 徐霈; 李明; 辛顺超
Original assignee: China Merchants Chongqing Communications Research and Design Institute Co Ltd
Current assignee: China Merchants Chongqing Communications Research and Design Institute Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-12
Anticipated expiration: 2041-08-20
Also published as: CN113642660B

Abstract

本发明涉及一种道面多维检测数据的信息增益表征方法，属于道面检测领域，包括S1：定义道面多维检测数据分类学习算法的信息增益指标；S2：计算基于优先度指标的信息增益表征；S3：计算基于集中度指标的信息增益表征。本发明结合数据样本集中类别的模糊性与“属性—类别”的关联性，定义并构造了“信息熵变”新指标，即“模糊关联信息增益G(A_j)”与“模糊关联信息增益率GR(A_j)”，为依托多维检测数据的道面运维群体科学决策，奠定了坚实的基础。

Description

一种道面多维检测数据的信息增益表征方法

技术领域

本发明属于道面检测领域，涉及一种道面多维检测数据的信息增益表征方法。

背景技术

开展道路设施(如道面)全面、准确的检测评价是高效实施运维策略的基础条件，但目前业内通过主流检测方法或手段所获取的数据，具有数量大、维度高、信息冗杂等特点，即“富数据—贫知识”矛盾突出，给有效实施运维策略带来了极大的挑战，近年来兴起的数据挖掘与知识发现技术为此提供了有益的借鉴。此项技术从前期采集的原始数据中梳理和凝练出隐藏的、潜在的映射关系、预测模式，进而构建起推理规则和决策准则，用以指导实践。而“信息特征指标构建及其精准表征”成为设计适宜挖掘算法的关键问题之一，学术界通常采用“信息熵”度量数据(或信息)***不确定性程度，***越有序，信息熵越低，反之越高；***有没有某项特征，信息量是有差异的，差值就是这项特征给***带来的信息量，即信息增益，因此，往往采用“信息增益”定量表征数据***的特征。

信息增益指标最具代表性的应用是针对数据***中的各类属性，选择增益值最大的属性，作为分类学习算法的***度量指标，如决策树模型构建所用到的两种经典算法，即ID3算法和C4.5算法，其中，ID3算法采用的是增益绝对指标，而C4.5算法采用的是增益相对指标。

目前，基于信息增益指标构造的决策树分类算法(ID3算法、C4.5算法等)已在信号识别、结构诊断等领域得到广泛应用，一些学者也针对算法的效益、时间成本以及运算复杂度，进行了改进与优化。但在多元因素影响下增益指标本身更加完备的表征，也即对数据蕴含的信息差异进行更深层次挖掘，更为全面利用方面的研究与应用，还很缺乏。

发明内容

有鉴于此，本发明的目的在于结合其它不确定性度量，如数据样本中类别的模糊性与“属性—类别”的关联性，进一步提升基于信息增益指标的分类学习算法的普适性与精准性，为依托多维检测数据的道面运维决策奠定坚实基础。

为达到上述目的，本发明提供如下技术方案：

一种道面多维检测数据的信息增益表征方法，包括：

S1：定义道面多维检测数据分类学习算法的信息增益指标；

S2：计算基于优先度指标的信息增益表征；

S3：计算基于集中度指标的信息增益表征。

进一步，所述步骤S1具体包括：

S101：获取给定类别标记的训练元组数据集

a_ij{a_uj} (1)

a_ij为针对属性A_j(j＝1,2,...,n)，第i(i＝1,2,...,m)个数据训练元组或样本的属性值，其值为集合{a_uj}中的任意一个元素；{a_uj}为A_j的属性值集合，通常为离散数据(数值数据和非数值数据均可)集合，{a_uj}＝{a_1j,a_2j,...,a_vj}(u＝1,2,...,v)，其中，v为属性值集合的元素个数；

S102：获取第i个样本的类别标记

c_i{c_s} (2)

c_i为第i个样本的类别标记，其值为集合{c_s}中的任意一个元素；{c_s}为类别标记集合，通常也为离散数据集合，{c_s}＝{c₁,c₂,...,c_t}(s＝1,2,...,t)，其中，t为类别标记集合的元素个数；

S103：按照类别标记，对样本集进行分类的期望信息度量指标为I₀(c_s)：

式中，p_s为样本标记为类别c_s的概率，即类别标记为c_s的样本数m_s与样本总数m的比值，p_s＝m_s/m。

S104：选择属性A_j，完成样本集分类需要的信息量化指标为E₀(A_j)：

式中，p(A_uj)为针对A_j，属性值取a_uj的样本数与样本总数m的比值；m_uj为针对A_j，属性值取a_uj的样本数；m_s,uj为针对A_j，属性值取a_uj且类别标记为c_s的样本数，

p_s,uj为针对A_j，属性值取a_uj的样本子集，其类别标记为c_s的概率，

S105：定义信息增益绝对指标G₀(A_j)如下：

G₀(A_j)＝I₀(c_s)-E₀(A_j) (5)

定义***信息度量指标S₀(A_j)如下：

S106：定义信息增益相对指标，即信息增益率GR₀(A_j)如下：

G₀(A_j)与GR₀(A_j)即为道面多维检测数据分类学习算法的信息增益指标。

进一步，步骤S2具体包括以下步骤：

S201：将道面运维决策样本集中类别标记集合表示为：

{c_s}＝{c₁，c₂}＝{修，不修} (8)

S202：引入群体决策模式，由多位决策专家参与抉择，构造类别标记判断函数：

式中，b_iq为依据路段i(i＝1，2，...，m)的检测数据，专家q(q＝1，2，...，p)给出的养护建议(“修”或“不修”)；当建议“修”时，b_iq＝1，当建议“不修”时，b_iq＝0；

S203：针对路段i，构造养护优先度指标f_i：

式中，b_i为针对路段i，p位专家给出的养护建议值(“1”或“0”)之和；p为专家个数；0≤f_i≤1，f_i越大，表明该路段越需实施养护；

S204：计算各检测路段养护优先度指标之和f_T：

指标f_T反映的是样本集(所有检测路段)标记为c₁类别(养护策略为“修”)的模糊概率之和，等价于类别标记为c₁的样本数m₁，称为c₁类别的模糊样本数；(m-f_T)反映的是样本集(所有检测路段)标记为c₂类别(养护策略为“不修”)的模糊概率之和，等价于类别标记为c₂的样本数m₂，称为c₂类别的模糊样本数；

S205：将式(3)展开为：

式中，p₁、p₂为样本(检测路段)标记为类别c₁、c₂的概率，即类别标记为c₁、c₂的样本数m₁、m₂与样本总数m的比值，p₁＝m₁/m，p₂＝m₂/m；

S206：利用f_T、(m-f_T)代替m₁、m₂，式(12)变换为：

S207：将式(4)展开为：

式中，m_1,uj、m_2,uj为针对检测指标A_j，取值a_uj且类别标记为c₁、c₂的样本数，m_uj＝m_1,uj+m_2,uj；p_1，uj、p_2,uj为针对A_j，取值a_uj的样本子集，其类别标记为c₁、c₂的概率，

S208：指标A_j取值a_uj时，计算各检测路段养护优先度指标之和f_T，uj：

S209：利用f_T，uj、(m_uj-f_T，uj)代替m_1,uj、m_2,uj，式(14)变换为：

S210：将式(6)展开为：

S211：模糊信息增益G₁(A_j)定义为：

G₁(A_j)＝I₁(c_s)-E₁(A_j) (18)

S212：模糊信息增益率GR₁(A_j)定义为：

进一步，步骤S3具体包括以下步骤：

S301：定义集中度指标r_j：

式中，f_T，jmax＝max(f_T，1j，f_T，2j，...，f_T，uj，...，f_T，vj)；e_T，jmax＝max(e_T,1j，e_T,2j，...，e_T,uj，...，e_T,vj)；

集中度指标表征的是检测指标A_j取不同值时，样本倾向于归为某一类别的程度，反映了A_j与类别标记的整体关联性；

S302：定义模糊关联信息增益G(A_j)：

G(A_j)＝I₁(c_s)-(1-r_j)E₁(A_j) (21)

S303：定义模糊关联信息增益率GR(A_j)：

G(A_j)与GR(A_j)即为考虑样本集中类别模糊性与“属性-类别”关联性的信息增益新指标。

本发明的有益效果在于：决策树模型是目前机器学习领域最具代表性的分类算法，实践中往往选择信息增益值最大的属性(或指标)作为***度量指标，因此，信息增益精细表征对提高决策树模型分类准确性等具有重要意义。基于此，本发明结合数据样本集中类别的模糊性与“属性-类别”的关联性，定义并构造了“信息熵变”新指标，即“模糊关联信息增益G(A_j)”与“模糊关联信息增益率GR(A_j)”，为依托多维检测数据的道面运维群体科学决策，奠定了坚实的基础。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为道面多维检测数据信息增益表征方法流程示意图；

图2为优先度指标f_i的信息含义；

图3为优先度指标之和f_T,uj的信息含义(属性A_j取值a_uj)

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明拟结合其它不确定性度量，如数据样本中类别的模糊性与“属性—类别”的关联性，进一步提升基于信息增益指标的分类学习算法的普适性与精准性，为依托多维检测数据的道面运维决策奠定坚实基础。

分类学习算法的信息增益指标

分类学习算法是在给定类别标记的训练元组数据集(或样本集)中，如表1所示，根据属性与类别之间现有的一一对应关系，通过样本集之外的属性组合推测可能类别的监督学习算法。

表1给定类别标记的训练元组数据集

a_ij∈{a_uj} (1)

a_ij为针对属性A_j(j＝1，2，...，n)，第i(i＝1，2，...，m)个数据训练元组(或样本)的属性值，其值为集合{a_uj}中的任意一个元素；{a_uj}为A_j的属性值集合，通常为离散数据(数值数据和非数值数据均可)集合，{au_j}＝{a_1j，a_2j，...，a_vj}(u＝1，2，...，v)，其中，v为属性值集合的元素个数，例如，路面结构强度的属性值集合可归纳为{好，中，差}，该集合元素个数为3个。

c_i∈{c_s} (2)

c_i为第i个样本的类别标记，其值为集合{c_s}中的任意一个元素；{c_s}为类别标记集合，通常也为离散数据集合，{c_s}＝{c₁，c₂，...，c_t}(s＝1，2，...，t)，其中，t为类别标记集合的元素个数，例如，路面维修养护策略的标记集合可归纳为{不修，小修，中修，大修，重建}，该集合元素个数为5个。

按照类别标记，对样本集进行分类的期望信息度量指标为I₀(c_s)：

选择属性A_j，完成样本集分类需要的信息量化指标为E₀(A_j)：

综上，定义信息增益绝对指标G₀(A_j)如下：

G₀(A_j)＝I₀(c_s)-E₀(A_j) (5)

定义***信息度量指标S₀(A_j)如下：

进一步，定义信息增益相对指标，即信息增益率GR₀(A_j)如下：

G₀(A_j)与GR₀(A_j)即为分类学习算法中常用的“信息熵变”指标。

基于优先度指标的信息增益表征

道面运维决策面临的首要问题便是“针对目标路段，到底要不要实施养护维修措施？”，因此，“运维决策”样本集中类别标记集合可明确为：

{c_s}＝{c₁，c₂}＝{修，不修} (8)

与传统的个体决策模式不同，为更好契合道面运维实际决策过程，本发明引入群体决策模式，即由多位决策者(如专家)参与抉择。具体而言，构造类别标记判断函数，如式(9)所示：

式中，b_iq为依据路段i(i＝1，2，...，m)的检测数据，专家q(q＝1，2，...，p)给出的养护建议(“修”或“不修”)；当建议“修”时，b_iq＝1，当建议“不修”时，b_iq＝0。

表2“道面运维决策”样本集

表2是多位专家参与道面运维群体决策的样本集，可知，此时类别标记不能简单地采用“修”或“不修”表示，即类别标记具有模糊属性，为此，针对路段i，构造养护优先度指标f_i：

式中，b_i为针对路段i，p位专家给出的养护建议值(“1”或“0”)之和；p为专家个数；0≤f_i≤1，f_i越大，表明该路段越应该实施养护，反之亦然。

指标f_i反映的是一个样本(一个检测路段)标记为c₁(养护策略为“修”)类别的模糊概率，即归属于c₁的度量，反之，(1-f_i)反映的是归属于c₂的度量，如图2所示。

进一步，计算各检测路段养护优先度指标之和f_T：

指标f_T反映的是样本集(所有检测路段)标记为c₁类别(养护策略为“修”)的模糊概率之和，等价于类别标记为c₁的样本数m₁，可称为c₁类别的模糊样本数；对应的，(m-f_T)反映的是样本集(所有检测路段)标记为c₂类别(养护策略为“不修”)的模糊概率之和，等价于类别标记为c₂的样本数m₂，可称为c₂类别的模糊样本数。

将式(3)展开为：

式中，p₁、p₂为样本(检测路段)标记为类别c₁、c₂的概率，即类别标记为c₁、c₂的样本数m₁、m₂与样本总数m的比值，p₁＝m₁/m，p₂＝m₂/m。

如前所述，利用f_T、(m-f_T)代替m₁、m₂，式(12)可变换为：

将式(4)展开为：

如图3所示，指标A_j取值a_uj时，计算各检测路段养护优先度指标之和f_T，uj：

利用f_T，uj、(m_uj-f_T，uj)代替m_1,uj、m_2,uj，式(14)可变换为：

将式(6)展开为：

因此，模糊信息增益G₁(A_j)可定义为：

G₁(A_j)＝I₁(c_s)-E₁(A_j) (18)

模糊信息增益率GR₁(A_j)可定义为：

基于集中度指标的信息增益表征

决策树分类模型中的ID3算法应用广泛，但该算法偏向于选择取值个数较多的属性作为***指标，即存在多值偏向问题。

为此，本发明基于“属性-类别”的关联性，构造集中度指标，改进模糊信息增益指标，如式(18)所示，有效解决ID3算法的多值偏向问题。

表3“道面运维决策”各类别的模糊样本数

检测指标A<sub>j</sub>取值	c<sub>1</sub>类别的模糊样本数f<sub>T，uj</sub>	c<sub>2</sub>类别的模糊样本数e<sub>T,uj</sub>
			a<sub>1j</sub>	f<sub>T，1j</sub>	e<sub>T,1j</sub>＝m<sub>1j</sub>-f<sub>T，1j</sub>
a<sub>2j</sub>	f<sub>T，2j</sub>	e<sub>T,2j</sub>＝m<sub>2j</sub>-f<sub>T，2j</sub>
			…	…	…
a<sub>uj</sub>	f<sub>T，uj</sub>	e<sub>T，uj</sub>＝m<sub>uj</sub>-f<sub>T，uj</sub>
			…	…	…
a<sub>vj</sub>	f<sub>T，vj</sub>	e<sub>T,vj</sub>＝m<sub>vj</sub>-f<sub>T，vj</sub>

检测指标A_j取不同值时，“道面运维决策”样本集中各类别的模糊样本数如表3所示，据此，定义集中度指标r_j：

式中，f_T，jmax＝max(f_T，1j，f_T，2j，...，f_T，uj，...，f_T，vj)；e_T，jmax＝max(e_T,1j，e_T,2j，...，e_T,uj，...，e_T,vj)

集中度指标表征的是检测指标A_j取不同值时，样本倾向于归为某一类别的程度，反映了A_j与类别标记的整体关联性。

进一步，定义模糊关联信息增益G(A_j)：

G(A_j)＝I₁(c_s)-(1-r_j)E₁(A_j) (21)

定义模糊关联信息增益率GR(A_j)：

G(A_j)与GR(A_j)即为考虑样本集中类别模糊性与“属性-类别”关联性的“信息熵变”新指标。

决策树模型是目前机器学习领域最具代表性的分类算法，实践中往往选择信息增益值最大的属性(或指标)作为***度量指标，因此，信息增益精细表征对提高决策树模型分类准确性等具有重要意义。基于此，本发明结合数据样本集中类别的模糊性与“属性-类别”的关联性，定义并构造了“信息熵变”新指标，即“模糊关联信息增益G(A_j)”与“模糊关联信息增益率GR(A_j)”，为依托多维检测数据的道面运维群体科学决策，奠定了坚实的基础。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种道面多维检测数据的信息增益表征方法，其特征在于：包括：