CN113642660A - 一种道面多维检测数据的信息增益表征方法 - Google Patents

一种道面多维检测数据的信息增益表征方法 Download PDF

Info

Publication number
CN113642660A
CN113642660A CN202110962394.9A CN202110962394A CN113642660A CN 113642660 A CN113642660 A CN 113642660A CN 202110962394 A CN202110962394 A CN 202110962394A CN 113642660 A CN113642660 A CN 113642660A
Authority
CN
China
Prior art keywords
index
class
samples
information gain
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110962394.9A
Other languages
English (en)
Other versions
CN113642660B (zh
Inventor
李聪
赵梦珍
邓卫东
袁明园
陈飞
阎宗岭
徐霈
李明
辛顺超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Chongqing Communications Research and Design Institute Co Ltd
Original Assignee
China Merchants Chongqing Communications Research and Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Chongqing Communications Research and Design Institute Co Ltd filed Critical China Merchants Chongqing Communications Research and Design Institute Co Ltd
Priority to CN202110962394.9A priority Critical patent/CN113642660B/zh
Publication of CN113642660A publication Critical patent/CN113642660A/zh
Application granted granted Critical
Publication of CN113642660B publication Critical patent/CN113642660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种道面多维检测数据的信息增益表征方法,属于道面检测领域,包括S1:定义道面多维检测数据分类学习算法的信息增益指标;S2:计算基于优先度指标的信息增益表征;S3:计算基于集中度指标的信息增益表征。本发明结合数据样本集中类别的模糊性与“属性—类别”的关联性,定义并构造了“信息熵变”新指标,即“模糊关联信息增益G(Aj)”与“模糊关联信息增益率GR(Aj)”,为依托多维检测数据的道面运维群体科学决策,奠定了坚实的基础。

Description

一种道面多维检测数据的信息增益表征方法
技术领域
本发明属于道面检测领域,涉及一种道面多维检测数据的信息增益表征方法。
背景技术
开展道路设施(如道面)全面、准确的检测评价是高效实施运维策略的基础条件,但目前业内通过主流检测方法或手段所获取的数据,具有数量大、维度高、信息冗杂等特点,即“富数据—贫知识”矛盾突出,给有效实施运维策略带来了极大的挑战,近年来兴起的数据挖掘与知识发现技术为此提供了有益的借鉴。此项技术从前期采集的原始数据中梳理和凝练出隐藏的、潜在的映射关系、预测模式,进而构建起推理规则和决策准则,用以指导实践。而“信息特征指标构建及其精准表征”成为设计适宜挖掘算法的关键问题之一,学术界通常采用“信息熵”度量数据(或信息)***不确定性程度,***越有序,信息熵越低,反之越高;***有没有某项特征,信息量是有差异的,差值就是这项特征给***带来的信息量,即信息增益,因此,往往采用“信息增益”定量表征数据***的特征。
信息增益指标最具代表性的应用是针对数据***中的各类属性,选择增益值最大的属性,作为分类学习算法的***度量指标,如决策树模型构建所用到的两种经典算法,即ID3算法和C4.5算法,其中,ID3算法采用的是增益绝对指标,而C4.5算法采用的是增益相对指标。
目前,基于信息增益指标构造的决策树分类算法(ID3算法、C4.5算法等)已在信号识别、结构诊断等领域得到广泛应用,一些学者也针对算法的效益、时间成本以及运算复杂度,进行了改进与优化。但在多元因素影响下增益指标本身更加完备的表征,也即对数据蕴含的信息差异进行更深层次挖掘,更为全面利用方面的研究与应用,还很缺乏。
发明内容
有鉴于此,本发明的目的在于结合其它不确定性度量,如数据样本中类别的模糊性与“属性—类别”的关联性,进一步提升基于信息增益指标的分类学习算法的普适性与精准性,为依托多维检测数据的道面运维决策奠定坚实基础。
为达到上述目的,本发明提供如下技术方案:
一种道面多维检测数据的信息增益表征方法,包括:
S1:定义道面多维检测数据分类学习算法的信息增益指标;
S2:计算基于优先度指标的信息增益表征;
S3:计算基于集中度指标的信息增益表征。
进一步,所述步骤S1具体包括:
S101:获取给定类别标记的训练元组数据集
aij{auj} (1)
aij为针对属性Aj(j=1,2,...,n),第i(i=1,2,...,m)个数据训练元组或样本的属性值,其值为集合{auj}中的任意一个元素;{auj}为Aj的属性值集合,通常为离散数据(数值数据和非数值数据均可)集合,{auj}={a1j,a2j,...,avj}(u=1,2,...,v),其中,v为属性值集合的元素个数;
S102:获取第i个样本的类别标记
ci{cs} (2)
ci为第i个样本的类别标记,其值为集合{cs}中的任意一个元素;{cs}为类别标记集合,通常也为离散数据集合,{cs}={c1,c2,...,ct}(s=1,2,...,t),其中,t为类别标记集合的元素个数;
S103:按照类别标记,对样本集进行分类的期望信息度量指标为I0(cs):
Figure BDA0003222752240000021
式中,ps为样本标记为类别cs的概率,即类别标记为cs的样本数ms与样本总数m的比值,ps=ms/m。
S104:选择属性Aj,完成样本集分类需要的信息量化指标为E0(Aj):
Figure BDA0003222752240000022
式中,p(Auj)为针对Aj,属性值取auj的样本数与样本总数m的比值;muj为针对Aj,属性值取auj的样本数;ms,uj为针对Aj,属性值取auj且类别标记为cs的样本数,
Figure BDA0003222752240000023
ps,uj为针对Aj,属性值取auj的样本子集,其类别标记为cs的概率,
Figure BDA0003222752240000024
S105:定义信息增益绝对指标G0(Aj)如下:
G0(Aj)=I0(cs)-E0(Aj) (5)
定义***信息度量指标S0(Aj)如下:
Figure BDA0003222752240000031
S106:定义信息增益相对指标,即信息增益率GR0(Aj)如下:
Figure BDA0003222752240000032
G0(Aj)与GR0(Aj)即为道面多维检测数据分类学习算法的信息增益指标。
进一步,步骤S2具体包括以下步骤:
S201:将道面运维决策样本集中类别标记集合表示为:
{cs}={c1,c2}={修,不修} (8)
S202:引入群体决策模式,由多位决策专家参与抉择,构造类别标记判断函数:
Figure BDA0003222752240000033
式中,biq为依据路段i(i=1,2,...,m)的检测数据,专家q(q=1,2,...,p)给出的养护建议(“修”或“不修”);当建议“修”时,biq=1,当建议“不修”时,biq=0;
S203:针对路段i,构造养护优先度指标fi
Figure BDA0003222752240000034
式中,bi为针对路段i,p位专家给出的养护建议值(“1”或“0”)之和;p为专家个数;0≤fi≤1,fi越大,表明该路段越需实施养护;
S204:计算各检测路段养护优先度指标之和fT
Figure BDA0003222752240000035
指标fT反映的是样本集(所有检测路段)标记为c1类别(养护策略为“修”)的模糊概率之和,等价于类别标记为c1的样本数m1,称为c1类别的模糊样本数;(m-fT)反映的是样本集(所有检测路段)标记为c2类别(养护策略为“不修”)的模糊概率之和,等价于类别标记为c2的样本数m2,称为c2类别的模糊样本数;
S205:将式(3)展开为:
Figure BDA0003222752240000041
式中,p1、p2为样本(检测路段)标记为类别c1、c2的概率,即类别标记为c1、c2的样本数m1、m2与样本总数m的比值,p1=m1/m,p2=m2/m;
S206:利用fT、(m-fT)代替m1、m2,式(12)变换为:
Figure BDA0003222752240000042
S207:将式(4)展开为:
Figure BDA0003222752240000043
式中,m1,uj、m2,uj为针对检测指标Aj,取值auj且类别标记为c1、c2的样本数,muj=m1,uj+m2,uj;p1,uj、p2,uj为针对Aj,取值auj的样本子集,其类别标记为c1、c2的概率,
Figure BDA0003222752240000044
S208:指标Aj取值auj时,计算各检测路段养护优先度指标之和fT,uj
Figure BDA0003222752240000045
S209:利用fT,uj、(muj-fT,uj)代替m1,uj、m2,uj,式(14)变换为:
Figure BDA0003222752240000046
S210:将式(6)展开为:
Figure BDA0003222752240000047
S211:模糊信息增益G1(Aj)定义为:
G1(Aj)=I1(cs)-E1(Aj) (18)
S212:模糊信息增益率GR1(Aj)定义为:
Figure BDA0003222752240000051
进一步,步骤S3具体包括以下步骤:
S301:定义集中度指标rj
Figure BDA0003222752240000052
式中,fT,jmax=max(fT,1j,fT,2j,...,fT,uj,...,fT,vj);eT,jmax=max(eT,1j,eT,2j,...,eT,uj,...,eT,vj);
集中度指标表征的是检测指标Aj取不同值时,样本倾向于归为某一类别的程度,反映了Aj与类别标记的整体关联性;
S302:定义模糊关联信息增益G(Aj):
G(Aj)=I1(cs)-(1-rj)E1(Aj) (21)
S303:定义模糊关联信息增益率GR(Aj):
Figure BDA0003222752240000053
G(Aj)与GR(Aj)即为考虑样本集中类别模糊性与“属性-类别”关联性的信息增益新指标。
本发明的有益效果在于:决策树模型是目前机器学习领域最具代表性的分类算法,实践中往往选择信息增益值最大的属性(或指标)作为***度量指标,因此,信息增益精细表征对提高决策树模型分类准确性等具有重要意义。基于此,本发明结合数据样本集中类别的模糊性与“属性-类别”的关联性,定义并构造了“信息熵变”新指标,即“模糊关联信息增益G(Aj)”与“模糊关联信息增益率GR(Aj)”,为依托多维检测数据的道面运维群体科学决策,奠定了坚实的基础。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为道面多维检测数据信息增益表征方法流程示意图;
图2为优先度指标fi的信息含义;
图3为优先度指标之和fT,uj的信息含义(属性Aj取值auj)
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明拟结合其它不确定性度量,如数据样本中类别的模糊性与“属性—类别”的关联性,进一步提升基于信息增益指标的分类学习算法的普适性与精准性,为依托多维检测数据的道面运维决策奠定坚实基础。
分类学习算法的信息增益指标
分类学习算法是在给定类别标记的训练元组数据集(或样本集)中,如表1所示,根据属性与类别之间现有的一一对应关系,通过样本集之外的属性组合推测可能类别的监督学习算法。
表1给定类别标记的训练元组数据集
Figure BDA0003222752240000071
aij∈{auj} (1)
aij为针对属性Aj(j=1,2,...,n),第i(i=1,2,...,m)个数据训练元组(或样本)的属性值,其值为集合{auj}中的任意一个元素;{auj}为Aj的属性值集合,通常为离散数据(数值数据和非数值数据均可)集合,{auj}={a1j,a2j,...,avj}(u=1,2,...,v),其中,v为属性值集合的元素个数,例如,路面结构强度的属性值集合可归纳为{好,中,差},该集合元素个数为3个。
ci∈{cs} (2)
ci为第i个样本的类别标记,其值为集合{cs}中的任意一个元素;{cs}为类别标记集合,通常也为离散数据集合,{cs}={c1,c2,...,ct}(s=1,2,...,t),其中,t为类别标记集合的元素个数,例如,路面维修养护策略的标记集合可归纳为{不修,小修,中修,大修,重建},该集合元素个数为5个。
按照类别标记,对样本集进行分类的期望信息度量指标为I0(cs):
Figure BDA0003222752240000072
式中,ps为样本标记为类别cs的概率,即类别标记为cs的样本数ms与样本总数m的比值,ps=ms/m。
选择属性Aj,完成样本集分类需要的信息量化指标为E0(Aj):
Figure BDA0003222752240000073
式中,p(Auj)为针对Aj,属性值取auj的样本数与样本总数m的比值;muj为针对Aj,属性值取auj的样本数;ms,uj为针对Aj,属性值取auj且类别标记为cs的样本数,
Figure BDA0003222752240000081
ps,uj为针对Aj,属性值取auj的样本子集,其类别标记为cs的概率,
Figure BDA0003222752240000082
综上,定义信息增益绝对指标G0(Aj)如下:
G0(Aj)=I0(cs)-E0(Aj) (5)
定义***信息度量指标S0(Aj)如下:
Figure BDA0003222752240000083
进一步,定义信息增益相对指标,即信息增益率GR0(Aj)如下:
Figure BDA0003222752240000084
G0(Aj)与GR0(Aj)即为分类学习算法中常用的“信息熵变”指标。
基于优先度指标的信息增益表征
道面运维决策面临的首要问题便是“针对目标路段,到底要不要实施养护维修措施?”,因此,“运维决策”样本集中类别标记集合可明确为:
{cs}={c1,c2}={修,不修} (8)
与传统的个体决策模式不同,为更好契合道面运维实际决策过程,本发明引入群体决策模式,即由多位决策者(如专家)参与抉择。具体而言,构造类别标记判断函数,如式(9)所示:
Figure BDA0003222752240000085
式中,biq为依据路段i(i=1,2,...,m)的检测数据,专家q(q=1,2,...,p)给出的养护建议(“修”或“不修”);当建议“修”时,biq=1,当建议“不修”时,biq=0。
表2“道面运维决策”样本集
Figure BDA0003222752240000091
表2是多位专家参与道面运维群体决策的样本集,可知,此时类别标记不能简单地采用“修”或“不修”表示,即类别标记具有模糊属性,为此,针对路段i,构造养护优先度指标fi
Figure BDA0003222752240000092
式中,bi为针对路段i,p位专家给出的养护建议值(“1”或“0”)之和;p为专家个数;0≤fi≤1,fi越大,表明该路段越应该实施养护,反之亦然。
指标fi反映的是一个样本(一个检测路段)标记为c1(养护策略为“修”)类别的模糊概率,即归属于c1的度量,反之,(1-fi)反映的是归属于c2的度量,如图2所示。
进一步,计算各检测路段养护优先度指标之和fT
Figure BDA0003222752240000093
指标fT反映的是样本集(所有检测路段)标记为c1类别(养护策略为“修”)的模糊概率之和,等价于类别标记为c1的样本数m1,可称为c1类别的模糊样本数;对应的,(m-fT)反映的是样本集(所有检测路段)标记为c2类别(养护策略为“不修”)的模糊概率之和,等价于类别标记为c2的样本数m2,可称为c2类别的模糊样本数。
将式(3)展开为:
Figure BDA0003222752240000094
式中,p1、p2为样本(检测路段)标记为类别c1、c2的概率,即类别标记为c1、c2的样本数m1、m2与样本总数m的比值,p1=m1/m,p2=m2/m。
如前所述,利用fT、(m-fT)代替m1、m2,式(12)可变换为:
Figure BDA0003222752240000095
将式(4)展开为:
Figure BDA0003222752240000101
式中,m1,uj、m2,uj为针对检测指标Aj,取值auj且类别标记为c1、c2的样本数,muj=m1,uj+m2,uj;p1,uj、p2,uj为针对Aj,取值auj的样本子集,其类别标记为c1、c2的概率,
Figure BDA0003222752240000102
如图3所示,指标Aj取值auj时,计算各检测路段养护优先度指标之和fT,uj
Figure BDA0003222752240000103
利用fT,uj、(muj-fT,uj)代替m1,uj、m2,uj,式(14)可变换为:
Figure BDA0003222752240000104
将式(6)展开为:
Figure BDA0003222752240000105
因此,模糊信息增益G1(Aj)可定义为:
G1(Aj)=I1(cs)-E1(Aj) (18)
模糊信息增益率GR1(Aj)可定义为:
Figure BDA0003222752240000106
基于集中度指标的信息增益表征
决策树分类模型中的ID3算法应用广泛,但该算法偏向于选择取值个数较多的属性作为***指标,即存在多值偏向问题。
为此,本发明基于“属性-类别”的关联性,构造集中度指标,改进模糊信息增益指标,如式(18)所示,有效解决ID3算法的多值偏向问题。
表3“道面运维决策”各类别的模糊样本数
检测指标A<sub>j</sub>取值 c<sub>1</sub>类别的模糊样本数f<sub>T,uj</sub> c<sub>2</sub>类别的模糊样本数e<sub>T,uj</sub>
a<sub>1j</sub> f<sub>T,1j</sub> e<sub>T,1j</sub>=m<sub>1j</sub>-f<sub>T,1j</sub>
a<sub>2j</sub> f<sub>T,2j</sub> e<sub>T,2j</sub>=m<sub>2j</sub>-f<sub>T,2j</sub>
a<sub>uj</sub> f<sub>T,uj</sub> e<sub>T,uj</sub>=m<sub>uj</sub>-f<sub>T,uj</sub>
a<sub>vj</sub> f<sub>T,vj</sub> e<sub>T,vj</sub>=m<sub>vj</sub>-f<sub>T,vj</sub>
检测指标Aj取不同值时,“道面运维决策”样本集中各类别的模糊样本数如表3所示,据此,定义集中度指标rj
Figure BDA0003222752240000111
式中,fT,jmax=max(fT,1j,fT,2j,...,fT,uj,...,fT,vj);eT,jmax=max(eT,1j,eT,2j,...,eT,uj,...,eT,vj)
集中度指标表征的是检测指标Aj取不同值时,样本倾向于归为某一类别的程度,反映了Aj与类别标记的整体关联性。
进一步,定义模糊关联信息增益G(Aj):
G(Aj)=I1(cs)-(1-rj)E1(Aj) (21)
定义模糊关联信息增益率GR(Aj):
Figure BDA0003222752240000112
G(Aj)与GR(Aj)即为考虑样本集中类别模糊性与“属性-类别”关联性的“信息熵变”新指标。
决策树模型是目前机器学习领域最具代表性的分类算法,实践中往往选择信息增益值最大的属性(或指标)作为***度量指标,因此,信息增益精细表征对提高决策树模型分类准确性等具有重要意义。基于此,本发明结合数据样本集中类别的模糊性与“属性-类别”的关联性,定义并构造了“信息熵变”新指标,即“模糊关联信息增益G(Aj)”与“模糊关联信息增益率GR(Aj)”,为依托多维检测数据的道面运维群体科学决策,奠定了坚实的基础。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种道面多维检测数据的信息增益表征方法,其特征在于:包括:
S1:定义道面多维检测数据分类学习算法的信息增益指标;
S2:计算基于优先度指标的信息增益表征;
S3:计算基于集中度指标的信息增益表征。
2.根据权利要求1所述的道面多维检测数据的信息增益表征方法,其特征在于:所述步骤S1具体包括:
S101:获取给定类别标记的训练元组数据集
aij∈{auj} (1)
aij为针对属性Aj(j=1,2,...,n),第i(i=1,2,...,m)个数据训练元组或样本的属性值,其值为集合{auj}中的任意一个元素;{auj}为Aj的属性值集合,{auj}={a1j,a2j,...,avj}(u=1,2,...,v),其中,v为属性值集合的元素个数;
S102:获取第i个样本的类别标记
ci∈{cs} (2)
ci为第i个样本的类别标记,其值为集合{cs}中的任意一个元素;{cs}为类别标记集合,{cs}={c1,c2,...,ct}(s=1,2,...,t),其中,t为类别标记集合的元素个数;
S103:按照类别标记,对样本集进行分类的期望信息度量指标为I0(cs):
Figure FDA0003222752230000011
式中,ps为样本标记为类别cs的概率,即类别标记为cs的样本数ms与样本总数m的比值,ps=ms/m。
S104:选择属性Aj,完成样本集分类需要的信息量化指标为E0(Aj):
Figure FDA0003222752230000012
式中,p(Auj)为针对Aj,属性值取auj的样本数与样本总数m的比值;muj为针对Aj,属性值取auj的样本数;ms,uj为针对Aj,属性值取auj且类别标记为cs的样本数,
Figure FDA0003222752230000013
ps,uj为针对Aj,属性值取auj的样本子集,其类别标记为cs的概率,
Figure FDA0003222752230000021
S105:定义信息增益绝对指标G0(Aj)如下:
G0(Aj)=I0(cs)-E0(Aj) (5)
定义***信息度量指标S0(Aj)如下:
Figure FDA0003222752230000022
S106:定义信息增益相对指标,即信息增益率GR0(Aj)如下:
Figure FDA0003222752230000023
G0(Aj)与GR0(Aj)即为道面多维检测数据分类学习算法的信息增益指标。
3.根据权利要求2所述的道面多维检测数据的信息增益表征方法,其特征在于:步骤S2具体包括以下步骤:
S201:将道面运维决策样本集中类别标记集合表示为:
{cs}={c1,c2}={修,不修} (8)
S202:引入群体决策模式,由多位决策专家参与抉择,构造类别标记判断函数:
Figure FDA0003222752230000024
式中,biq为依据路段i(i=1,2,...,m)的检测数据,专家q(q=1,2,...,p)给出的养护建议;当建议“修”时,biq=1,当建议“不修”时,biq=0;
S203:针对路段i,构造养护优先度指标fi
Figure FDA0003222752230000025
式中,bi为针对路段i,p位专家给出的养护建议值之和;p为专家个数;0≤fi≤1,fi越大,表明该路段越需实施养护;
S204:计算各检测路段养护优先度指标之和fT
Figure FDA0003222752230000026
指标fT反映的是样本集标记为c1类别的模糊概率之和,等价于类别标记为c1的样本数m1,称为c1类别的模糊样本数;(m-fT)反映的是样本集标记为c2类别的模糊概率之和,等价于类别标记为c2的样本数m2,称为c2类别的模糊样本数;
S205:将式(3)展开为:
Figure FDA0003222752230000031
式中,p1、p2为样本标记为类别c1、c2的概率,即类别标记为c1、c2的样本数m1、m2与样本总数m的比值,p1=m1/m,p2=m2/m;
S206:利用fT、(m-fT)代替m1、m2,式(12)变换为:
Figure FDA0003222752230000032
S207:将式(4)展开为:
Figure FDA0003222752230000033
式中,m1,uj、m2,uj为针对检测指标Aj,取值auj且类别标记为c1、c2的样本数,muj=m1,uj+m2,uj;p1,uj、p2,uj为针对Aj,取值auj的样本子集,其类别标记为c1、c2的概率,
Figure FDA0003222752230000034
S208:指标Aj取值auj时,计算各检测路段养护优先度指标之和fT,uj
Figure FDA0003222752230000035
S209:利用fT,uj、(muj-fT,uj)代替m1,uj、m2,uj,式(14)变换为:
Figure FDA0003222752230000036
S210:将式(6)展开为:
Figure FDA0003222752230000041
S211:模糊信息增益G1(Aj)定义为:
G1(Aj)=I1(cs)-E1(Aj) (18)
S212:模糊信息增益率GR1(Aj)定义为:
Figure FDA0003222752230000042
4.根据权利要求3所述的道面多维检测数据的信息增益表征方法,其特征在于:步骤S3具体包括以下步骤:
S301:定义集中度指标rj
Figure FDA0003222752230000043
式中,fT,jmax=max(fT,1j,fT,2j,...,fT,uj,...,fT,vj);eT,jmax=max(eT,1j,eT,2j,...,eT,uj,...,eT,vj);
集中度指标表征的是检测指标Aj取不同值时,样本倾向于归为某一类别的程度,反映了Aj与类别标记的整体关联性;
S302:定义模糊关联信息增益G(Aj):
G(Aj)=I1(cs)-(1-rj)E1(Aj) (21)
S303:定义模糊关联信息增益率GR(Aj):
Figure FDA0003222752230000044
G(Aj)与GR(Aj)即为考虑样本集中类别模糊性与“属性-类别”关联性的信息增益新指标。
CN202110962394.9A 2021-08-20 2021-08-20 一种道面多维检测数据的信息增益表征方法 Active CN113642660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110962394.9A CN113642660B (zh) 2021-08-20 2021-08-20 一种道面多维检测数据的信息增益表征方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110962394.9A CN113642660B (zh) 2021-08-20 2021-08-20 一种道面多维检测数据的信息增益表征方法

Publications (2)

Publication Number Publication Date
CN113642660A true CN113642660A (zh) 2021-11-12
CN113642660B CN113642660B (zh) 2023-06-23

Family

ID=78423192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110962394.9A Active CN113642660B (zh) 2021-08-20 2021-08-20 一种道面多维检测数据的信息增益表征方法

Country Status (1)

Country Link
CN (1) CN113642660B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5740509B1 (ja) * 2014-04-21 2015-06-24 ジオ・サーチ株式会社 鋼床版舗装の損傷を探査する方法
CN108520278A (zh) * 2018-04-10 2018-09-11 陕西师范大学 一种基于随机森林的路面裂缝检测方法及其评价方法
CN108733966A (zh) * 2017-04-14 2018-11-02 国网重庆市电力公司 一种基于决策树群的多维电能表现场状态检验方法
CN109637126A (zh) * 2018-12-06 2019-04-16 重庆邮电大学 一种基于v2x终端的交通对象识别***及其方法
CN110135734A (zh) * 2019-05-16 2019-08-16 招商局重庆交通科研设计院有限公司 一种道路结构服役性态低维评价方法
CN110390125A (zh) * 2019-05-15 2019-10-29 南京金蓝智慧城市规划设计有限公司 基于关联模型的沥青路面破坏分析方法
CN111046930A (zh) * 2019-12-01 2020-04-21 国家电网有限公司客户服务中心 一种基于决策树算法的供电服务满意度影响因素识别方法
CN111310786A (zh) * 2020-01-15 2020-06-19 青岛海信网络科技股份有限公司 基于随机森林分类器的交通检测器异常诊断方法及装置
CN113177611A (zh) * 2021-05-24 2021-07-27 河北工业大学 基于力学指标和人工神经网络的路面病害快速巡检方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5740509B1 (ja) * 2014-04-21 2015-06-24 ジオ・サーチ株式会社 鋼床版舗装の損傷を探査する方法
CN108733966A (zh) * 2017-04-14 2018-11-02 国网重庆市电力公司 一种基于决策树群的多维电能表现场状态检验方法
CN108520278A (zh) * 2018-04-10 2018-09-11 陕西师范大学 一种基于随机森林的路面裂缝检测方法及其评价方法
CN109637126A (zh) * 2018-12-06 2019-04-16 重庆邮电大学 一种基于v2x终端的交通对象识别***及其方法
CN110390125A (zh) * 2019-05-15 2019-10-29 南京金蓝智慧城市规划设计有限公司 基于关联模型的沥青路面破坏分析方法
CN110135734A (zh) * 2019-05-16 2019-08-16 招商局重庆交通科研设计院有限公司 一种道路结构服役性态低维评价方法
CN111046930A (zh) * 2019-12-01 2020-04-21 国家电网有限公司客户服务中心 一种基于决策树算法的供电服务满意度影响因素识别方法
CN111310786A (zh) * 2020-01-15 2020-06-19 青岛海信网络科技股份有限公司 基于随机森林分类器的交通检测器异常诊断方法及装置
CN113177611A (zh) * 2021-05-24 2021-07-27 河北工业大学 基于力学指标和人工神经网络的路面病害快速巡检方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LISA YANG等: "urban roads network detection from high resolution remote sensing" *
徐霈等: "基于因子分析法的路面技术状况评价指标体系CPF构建" *
齐兰: "高速公路路面检测数据采集分析***的设计与实现" *

Also Published As

Publication number Publication date
CN113642660B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Liu et al. Uncertainty and confidence in land cover classification using a hybrid classifier approach
Han et al. Intelligent decision model of road maintenance based on improved weight random forest algorithm
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及***
CN105243255A (zh) 一种软基处理方案的评价方法
CN110990718B (zh) 一种公司形象提升***的社会网络模型构建模块
CN103927394A (zh) 一种基于svm的多标签主动学习分类方法及***
CN102298663A (zh) 中医自动识别证型的检测方法
CN116957838A (zh) 一种基于知识图表示学习的农作物生长环境监测方法
CN102073882A (zh) 高光谱遥感影像的dna计算光谱匹配分类方法
Pumpuang et al. Comparisons of classifier algorithms: Bayesian network, C4. 5, decision forest and NBTree for Course Registration Planning model of undergraduate students
CN116739376A (zh) 一种基于数据挖掘的公路路面预防性养护决策方法
CN109145951B (zh) 一种基于贝叶斯网络的隧道衬砌结构服役状况评价方法
CN113610444A (zh) 一种基于指标关联度的农业现代化发展水平的评价方法
CN113569946A (zh) 开源地图与专业数据源路网自适应匹配法
CN113642660A (zh) 一种道面多维检测数据的信息增益表征方法
Khotimah Performance of the K-nearest neighbors method on identification of maize plant nutrients
CN113657726B (zh) 基于随机森林的人员的危险性分析方法
Yao et al. Floor heating customer prediction model based on random forest
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
CN112785004A (zh) 一种基于粗糙集理论和d-s证据理论的温室智能决策方法
CN110136778A (zh) 微生物群中物种的关联性挖掘方法
Yusuf et al. Hyper-parameter optimization and evaluation on selected machine learning algorithm using hepatitis dataset
CN104636636A (zh) 蛋白质远程同源性检测方法及装置
Zhao et al. Outlier detection for partially labeled categorical data based on conditional information entropy
Ali et al. Residential building energy performance prediction at an urban scale using ensemble machine learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant