CN105488585A - 一种基于信息熵等值的扩容样本容量优化方法 - Google Patents

一种基于信息熵等值的扩容样本容量优化方法 Download PDF

Info

Publication number
CN105488585A
CN105488585A CN201510818372.XA CN201510818372A CN105488585A CN 105488585 A CN105488585 A CN 105488585A CN 201510818372 A CN201510818372 A CN 201510818372A CN 105488585 A CN105488585 A CN 105488585A
Authority
CN
China
Prior art keywords
sample
sigma
dilatation
omega
information entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510818372.XA
Other languages
English (en)
Inventor
章林柯
李和君
魏娜
胡恒宾
李大坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201510818372.XA priority Critical patent/CN105488585A/zh
Publication of CN105488585A publication Critical patent/CN105488585A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种基于信息熵等值的扩容样本容量优化方法,在准确度量扩容样本可信度的基础上,分别计算真实样本和异可信度的扩容样本的融合概率密度分布,通过采用信息熵来度量高维不相关故障样本包含信息量的大小,根据扩容样本所包含的信息量与真实样本等值的原则,建立扩容样本容量的信息熵优化模型,从而控制扩容样本容量,最终达到提高故障识别率的目的。本发明通过对高维不相关样本的容量优化控制,指导扩容样本的正确选择,可避免发生“信息对冲”,提高小样本条件下故障源识别率。

Description

一种基于信息熵等值的扩容样本容量优化方法
技术领域
本发明涉及样本容量优化控制方法领域,具体涉及一种基于信息熵等值的扩容样本容量优化方法。
背景技术
在工程应用中经常会遇到样本容量优化控制问题。张湘平等推导了样本容量、验前信息以及Bayes决策风险三者关系式,以此确定导弹落点样本量。刘军等针对小样本情况下辨识分类问题提出了基于相对熵最小的补充试验样本容量优化方法,通过样本容量优化设计以提高辨识分类识别率,此外,Nyamundanda等为解决代谢组学研究中的实验次数优化问题,提出了MetSizeR方法。
这些样本容量控制方法基本是针对一维样本或高维不相关样本展开优化设计,而工程实际中大量样本是高维相关的时间序列,例如船舶声学故障源扩容样本,对于这类扩容样本若没有合适的容量控制方法,将导致扩容样本信息过多从而与真实样本发生对冲,造成分类器识别性能下降。
发明内容
本发明的目的是提供一种基于信息熵等值的扩容样本容量优化方法,通过对高维不相关样本的容量优化控制,指导扩容样本的正确选择,避免发生“信息对冲”,提高小样本条件下故障源识别率。
为了实现上述目的,本发明采用的技术方案如下:
一种基于信息熵等值的扩容样本容量优化方法,在准确度量扩容样本可信度的基础上,分别计算真实样本和异可信度的扩容样本的融合概率密度分布,通过采用信息熵来度量高维不相关故障样本包含信息量的大小,根据扩容样本所包含的信息量与真实样本等值的原则,建立扩容样本容量的信息熵优化模型,从而控制扩容样本容量。
根据以上方案,所述扩容样本可信度的大小采用基于核函数的样本可信度度量方法(KBCM方法)来度量,并且进行从大到小的排列。
根据以上方案,所述基于核函数的样本可信度度量方法的计算公式为:
q j = 1 1 + K ( y j , y j ) - 2 M Σ i = 1 M K ( y j , x i ) + 1 M 2 Σ i = 1 M Σ k = 1 M K ( x i , x k )
式中,qj:扩容样本可信度;K(·,·):核函数表达式;M:真实样本集所含样本数量。
根据以上方案,包括如下具体步骤为:
(1)计算真实样本和扩容样本的概率密度分布:
a、计算真实样本的概率密度分布
b、假设第k个扩容样本yk属于扩容样本子集Y(J(k)),该子集对应的可信度为ωJ,则前k个扩容样本的融合概率密度分布为:
π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) = Σ j = 1 J ( k ) ω i π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) , Σ j = 1 J ( k ) ω j = 1
其中同可信度下扩容样本Y(j)的服从概率分布
(2)计算真实样本的信息熵H0
H 0 = H ( x 1 , ... , x M ) = - Σ i 1 , ... , i d = 1 M π 1 ( x i 1 , ... , x i d ) logπ 1 ( x i 1 , ... , x i d )
(3)使用基于核函数的样本可信度度量方法计算扩容样本可信度:
ω j = 1 1 + φ ( y j ) · φ ( y j ) - 2 M φ ( y j ) · Σ i = 1 M φ ( x i ) + 1 M 2 Σ i = 1 M φ ( x i ) · Σ i = 1 M φ ( x i ) = 1 1 + K ( y j , y j ) - 2 M Σ i = 1 M K ( y j , x i ) + 1 M 2 Σ i = 1 M Σ k = 1 M K ( x i , x k )
将可信度按从大到小排列。
(4)对于排序后的前k个扩容样本yk,k=1,...,N,计算信息熵:
H ( Y ) = - Σ i 1 , ... , i d = 1 n j π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) log ( Σ i 1 , ... , i d = 1 n j π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) ) = - Σ i i , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) log ( Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) )
(5)按照信息熵等值方法,搜索满足真实样本集信息熵与扩容样本子集信息熵差值最小的优化样本量k*
k * = arg min k = 1 , ... , N | H 0 + Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) log ( Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) ) |
(6)根据优化样本量搜索结果确定参与训练的扩容样本。
KBCM方法的有优点在于可凸现数据特征差异、算法复杂度不受输入和特征空间维数限制、可信度度量准确度高等。
本发明的有益效果是:
本发明结合样本可信度、概率密度分布和样本信息熵三者间的关系,设计容量控制模型满足真实样本和扩容样本信息熵等值,从而实现样本的容量优化,指导扩容样本的正确选择,避免发生“信息对冲”,提高小样本条件下故障源识别率。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合附图与实施例对本发明的技术方案进行说明。
本发明提供一种基于信息熵等值的扩容样本容量优化方法,包括如下具体步骤为(如图1所示):
(1)计算真实样本和扩容样本的概率密度分布:
a、计算真实样本的概率密度分布
b、假设第k个扩容样本yk属于扩容样本子集Y(J(k)),该子集对应的可信度为ωJ,则前k个扩容样本的融合概率密度分布为:
π ( y i 1 , ... , y i d , ω 1 , .... , ω J ( k ) ) = Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) , Σ j = 1 J ( k ) ω j = 1
其中同可信度下扩容样本Y(j)的服从概率分布
(2)计算真实样本的信息熵H0
H 0 = H ( x 1 , ... , x M ) = - Σ i 1 , ... , i d = 1 M π 1 ( x i 1 , ... , x i d ) logπ 1 ( x i 1 , ... , x i d )
(3)使用基于核函数的样本可信度度量方法计算扩容样本可信度:
ω j = 1 1 + φ ( y j ) · φ ( y j ) - 2 M φ ( y j ) · Σ i = 1 M φ ( x i ) + 1 M 2 Σ i = 1 M φ ( x i ) · Σ i = 1 M φ ( x i ) = 1 1 + K ( y j , y j ) - 2 M Σ i = 1 M K ( y j , x i ) + 1 M 2 Σ i = 1 M Σ k = 1 M K ( x i , x k )
将可信度按从大到小排列。
(4)对于排序后的前k个扩容样本yk,k=1,...,N,计算信息熵:
H ( Y ) = - Σ i 1 , ... , i d = 1 n j π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) log ( Σ i 1 , ... , i d = 1 n j π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) ) = - Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) log ( Σ i 1 , ... , i d = 1 n j ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) )
(5)按照信息熵等值方法,搜索满足真实样本集信息熵与扩容样本子集信息熵差值最小的优化样本量k*
k * = arg min k = 1 , ... , N | H 0 + Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) log ( Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) ) |
(6)根据优化样本量搜索结果确定参与训练的扩容样本。
将本发明应用于声学故障样本识别试验中分类器的识别性能。建模噪声源数据为N维正态分布N(μI,Σ),真实噪声源样本由两类数据组成。根据本发明对样本量寻优,得出当两类扩容样本数分别取时,满足样本信息熵相差最小。据此选择不同组合的训练样本来设计对比试验:
试验1:15个真实样本
试验2:15个真实样本+前个扩容样本
试验3:15个真实样本+倒数个扩容样本
试验4:15个真实样本+前个扩容样本
试验5:15个真实样本+前个扩容样本
参与训练时分类器的识别正确率结果如表1所示。
表1不同扩容样本参与训练时分类器的识别正确率
项目 第一类识别正确率 第二类识别正确率 总体识别正确率
试验1 0.6100 0.6000 0.6050
试验2 0.7600 0.9300 0.8450
试验3 0.4700 0.7600 0.6150
试验4 0.7300 0.8700 0.8000
试验5 0.5400 0.8400 0.6900
通过表1可以看出,针对高维不相关样本的容量控制,考虑样本可信度因素的信息熵等值容量优化方法(试验2)具有明显效果,能指导分类器选择合适数目的训练样本参与训练,提高故障识别正确率。
以上实施例仅用以说明而非限制本发明的技术方案,尽管上述实施例对本发明进行了详细说明,本领域的相关技术人员应当理解:可以对本发明进行修改或者同等替换,但不脱离本发明精神和范围的任何修改和局部替换均应涵盖在本发明的权利要求范围内。

Claims (4)

1.一种基于信息熵等值的扩容样本容量优化方法,其特征在于,在准确度量扩容样本可信度的基础上,分别计算真实样本和异可信度的扩容样本的融合概率密度分布,通过采用信息熵来度量高维不相关故障样本包含信息量的大小,根据扩容样本所包含的信息量与真实样本等值的原则,建立扩容样本容量的信息熵优化模型,从而控制扩容样本容量。
2.根据权利要求1所述的基于信息熵等值的扩容样本容量优化方法,其特征在于,所述扩容样本可信度的大小采用基于核函数的样本可信度度量方法来度量,并且进行从大到小的排列。
3.根据权利要求2所述的基于信息熵等值的扩容样本容量优化方法,其特征在于,所述基于核函数的样本可信度度量方法的计算公式为:
q j = 1 1 + K ( y j , y j ) - 2 M Σ i = 1 M K ( y j , x i ) + 1 M 2 Σ i = 1 M Σ k = 1 M K ( x i , x k )
式中,qj:扩容样本可信度;K(·,·):核函数表达式;M:真实样本集所含样本数量。
4.根据权利要求1或2所述的基于信息熵等值的扩容样本容量优化方法,其特征在于,包括如下具体步骤为:
(1)计算真实样本和扩容样本的概率密度分布:
a、计算真实样本的概率密度分布
b、假设第k个扩容样本yk属于扩容样本子集Y(J(k)),该子集对应的可信度为ωJ,则前k个扩容样本的融合概率密度分布为:
π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) = Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) , Σ j = 1 J ( k ) ω j = 1
其中同可信度下扩容样本Y(j)的服从概率分布
(2)计算真实样本的信息熵H0
H 0 = H ( x 1 , ... , x M ) = - Σ i 1 , ... , i d = 1 M π 1 ( x i 1 , ... , x i d ) logπ 1 ( x i 1 , ... , x i d )
(3)使用基于核函数的样本可信度度量方法计算扩容样本可信度:
ω j = 1 1 + φ ( y j ) · φ ( y j ) - 2 M φ ( y j ) · Σ i = 1 M φ ( x i ) + 1 M 2 Σ i = 1 M φ ( x i ) · Σ i = 1 M φ ( x i ) = 1 1 + K ( y j , y j ) - 2 M Σ i = 1 M K ( y j , x i ) + 1 M 2 Σ i = 1 M Σ k = 1 M K ( x i , x k )
将可信度按从大到小排列。
(4)对于排序后的前k个扩容样本yk,k=1,...,N,计算信息熵:
H ( Y ) = - Σ i 1 , ... , i d = 1 n j π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) log ( Σ i 1 , ... , i d = 1 n j π ( y i 1 , ... , y i d , ω 1 , ... , ω J ( k ) ) ) = - Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) log ( Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) )
(5)按照信息熵等值方法,搜索满足真实样本集信息熵与扩容样本子集信息熵差值最小的优化样本量k*
k * = arg min k = 1 , ... , N | H 0 + Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) log ( Σ i 1 , ... , i d = 1 n j Σ j = 1 J ( k ) ω j π 2 ( y i 1 ( j ) , ... , y i d ( j ) ) ) |
(6)根据优化样本量搜索结果确定参与训练的扩容样本。
CN201510818372.XA 2015-12-21 2015-12-21 一种基于信息熵等值的扩容样本容量优化方法 Pending CN105488585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510818372.XA CN105488585A (zh) 2015-12-21 2015-12-21 一种基于信息熵等值的扩容样本容量优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510818372.XA CN105488585A (zh) 2015-12-21 2015-12-21 一种基于信息熵等值的扩容样本容量优化方法

Publications (1)

Publication Number Publication Date
CN105488585A true CN105488585A (zh) 2016-04-13

Family

ID=55675554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510818372.XA Pending CN105488585A (zh) 2015-12-21 2015-12-21 一种基于信息熵等值的扩容样本容量优化方法

Country Status (1)

Country Link
CN (1) CN105488585A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129481A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种指纹锁控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129481A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种指纹锁控制方法

Similar Documents

Publication Publication Date Title
CN107590247B (zh) 一种基于群体知识诊断的智能组卷方法
CN101587155B (zh) 一种油浸式变压器的故障诊断方法
CN105046277B (zh) 特征显著性在图像质量评价中的鲁棒机理研究方法
CN106227718A (zh) 基于cnn的陆空通话语义一致性校验方法
CN103941244B (zh) 一种雷达目标一维距离像局部最优子空间识别方法
CN103336992A (zh) 一种模糊神经网络学习算法
CN109508740B (zh) 基于高斯混合噪声生成式对抗网络的物体硬度识别方法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN106295153A (zh) 一种基于孪生支持向量机的航空发动机气路故障诊断方法
CN105279691A (zh) 基于随机森林模型的金融交易检测方法和设备
CN104536881A (zh) 基于自然语言分析的众测错误报告优先级排序方法
CN101833951A (zh) 用于说话人识别的多背景模型建立方法
CN105956768A (zh) 一种基于组合赋权和改进topsis的发电企业竞争力评估方法
CN106022954A (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN105426955A (zh) 一种基于扰动的精英反向学习粒子群优化的实现方法
CN107766668A (zh) 一种基于神经网络的复杂仿真模型验证方法
CN103631758A (zh) 一种改进和声搜索算法求解非线性规划及绝对值方程的方法
CN103400190A (zh) 一种使用遗传算法优化极限学习机的集成框架方法
CN110414415A (zh) 面向课堂场景的人体行为识别方法
CN103559542A (zh) 基于先验知识的可拓神经网络模式识别方法
CN105447520A (zh) 一种基于加权投影对支持向量机的样本分类方法
CN108388113B (zh) 基于分布估计局部优化的最小二乘支持向量机软测量建模方法
CN103440275A (zh) 一种基于普利姆的k均值聚类方法
CN104714977B (zh) 一种实体与知识库项的关联方法及装置
CN108388745A (zh) 基于分布并行局部优化参数的最小二乘支持向量机软测量方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413