CN105488585A

CN105488585A - 一种基于信息熵等值的扩容样本容量优化方法

Info

Publication number: CN105488585A
Application number: CN201510818372.XA
Authority: CN
Inventors: 章林柯; 李和君; 魏娜; 胡恒宾; 李大坤
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-04-13

Abstract

本发明提供一种基于信息熵等值的扩容样本容量优化方法，在准确度量扩容样本可信度的基础上，分别计算真实样本和异可信度的扩容样本的融合概率密度分布，通过采用信息熵来度量高维不相关故障样本包含信息量的大小，根据扩容样本所包含的信息量与真实样本等值的原则，建立扩容样本容量的信息熵优化模型，从而控制扩容样本容量，最终达到提高故障识别率的目的。本发明通过对高维不相关样本的容量优化控制，指导扩容样本的正确选择，可避免发生“信息对冲”，提高小样本条件下故障源识别率。

Description

一种基于信息熵等值的扩容样本容量优化方法

技术领域

本发明涉及样本容量优化控制方法领域，具体涉及一种基于信息熵等值的扩容样本容量优化方法。

背景技术

在工程应用中经常会遇到样本容量优化控制问题。张湘平等推导了样本容量、验前信息以及Bayes决策风险三者关系式，以此确定导弹落点样本量。刘军等针对小样本情况下辨识分类问题提出了基于相对熵最小的补充试验样本容量优化方法，通过样本容量优化设计以提高辨识分类识别率，此外，Nyamundanda等为解决代谢组学研究中的实验次数优化问题，提出了MetSizeR方法。

这些样本容量控制方法基本是针对一维样本或高维不相关样本展开优化设计，而工程实际中大量样本是高维相关的时间序列，例如船舶声学故障源扩容样本，对于这类扩容样本若没有合适的容量控制方法，将导致扩容样本信息过多从而与真实样本发生对冲，造成分类器识别性能下降。

发明内容

本发明的目的是提供一种基于信息熵等值的扩容样本容量优化方法，通过对高维不相关样本的容量优化控制，指导扩容样本的正确选择，避免发生“信息对冲”，提高小样本条件下故障源识别率。

为了实现上述目的，本发明采用的技术方案如下：

一种基于信息熵等值的扩容样本容量优化方法，在准确度量扩容样本可信度的基础上，分别计算真实样本和异可信度的扩容样本的融合概率密度分布，通过采用信息熵来度量高维不相关故障样本包含信息量的大小，根据扩容样本所包含的信息量与真实样本等值的原则，建立扩容样本容量的信息熵优化模型，从而控制扩容样本容量。

根据以上方案，所述扩容样本可信度的大小采用基于核函数的样本可信度度量方法(KBCM方法)来度量，并且进行从大到小的排列。

根据以上方案，所述基于核函数的样本可信度度量方法的计算公式为：

q_{j} = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}}

式中，q_j：扩容样本可信度；K(·,·)：核函数表达式；M：真实样本集所含样本数量。

根据以上方案，包括如下具体步骤为：

(1)计算真实样本和扩容样本的概率密度分布：

a、计算真实样本的概率密度分布

b、假设第k个扩容样本y_k属于扩容样本子集Y^(J(k))，该子集对应的可信度为ω_J，则前k个扩容样本的融合概率密度分布为：

π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)}) = Σ_{j = 1}^{J (k)} ω_{i} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}), Σ_{j = 1}^{J (k)} ω_{j} = 1

其中同可信度下扩容样本Y^(j)的服从概率分布

(2)计算真实样本的信息熵H₀：

H_{0} = H (x_{1}, ..., x_{M}) = - Σ_{i_{1}, ..., i_{d} = 1}^{M} π_{1} (x_{i_{1}}, ..., x_{i_{d}}) {logπ}_{1} (x_{i_{1}}, ..., x_{i_{d}})

(3)使用基于核函数的样本可信度度量方法计算扩容样本可信度：

\begin{matrix} ω_{j} = \frac{1}{1 + \sqrt{φ (y_{j}) \cdot φ (y_{j}) - \frac{2}{M} φ (y_{j}) \cdot Σ_{i = 1}^{M} φ (x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} φ (x_{i}) \cdot Σ_{i = 1}^{M} φ (x_{i})}} \\ = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}} \end{matrix}

将可信度按从大到小排列。

(4)对于排序后的前k个扩容样本y_k,k＝1,...,N,计算信息熵：

\begin{matrix} H (Y) = - Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)})) \\ = - Σ_{i_{i}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)})) \end{matrix}

(5)按照信息熵等值方法，搜索满足真实样本集信息熵与扩容样本子集信息熵差值最小的优化样本量k^*：

k^{*} = \arg \min_{k = 1, ..., N} | H_{0} + Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)})) |

(6)根据优化样本量搜索结果确定参与训练的扩容样本。

KBCM方法的有优点在于可凸现数据特征差异、算法复杂度不受输入和特征空间维数限制、可信度度量准确度高等。

本发明的有益效果是：

本发明结合样本可信度、概率密度分布和样本信息熵三者间的关系，设计容量控制模型满足真实样本和扩容样本信息熵等值，从而实现样本的容量优化，指导扩容样本的正确选择，避免发生“信息对冲”，提高小样本条件下故障源识别率。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合附图与实施例对本发明的技术方案进行说明。

本发明提供一种基于信息熵等值的扩容样本容量优化方法，包括如下具体步骤为(如图1所示)：

(1)计算真实样本和扩容样本的概率密度分布：

a、计算真实样本的概率密度分布

π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ...., ω_{J (k)}) = Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}), Σ_{j = 1}^{J (k)} ω_{j} = 1

其中同可信度下扩容样本Y^(j)的服从概率分布

(2)计算真实样本的信息熵H₀：

H_{0} = H (x_{1}, ..., x_{M}) = - Σ_{i_{1}, ..., i_{d} = 1}^{M} π_{1} (x_{i_{1}}, ..., x_{i_{d}}) {logπ}_{1} (x_{i_{1}}, ..., x_{i_{d}})

\begin{matrix} ω_{j} = \frac{1}{1 + \sqrt{φ (y_{j}) \cdot φ (y_{j}) - \frac{2}{M} φ (y_{j}) \cdot Σ_{i = 1}^{M} φ (x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} φ (x_{i}) \cdot Σ_{i = 1}^{M} φ (x_{i})}} \\ = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}} \end{matrix}

将可信度按从大到小排列。

(4)对于排序后的前k个扩容样本y_k,k＝1,...,N,计算信息熵：

\begin{matrix} H (Y) = - Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)})) \\ = - Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)})) \end{matrix}

k^{*} = \arg \min_{k = 1, ..., N} | H_{0} + Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)})) |

(6)根据优化样本量搜索结果确定参与训练的扩容样本。

将本发明应用于声学故障样本识别试验中分类器的识别性能。建模噪声源数据为N维正态分布N(μI,Σ)，真实噪声源样本由两类数据组成。根据本发明对样本量寻优，得出当两类扩容样本数分别取时，满足样本信息熵相差最小。据此选择不同组合的训练样本来设计对比试验：

试验1：15个真实样本

试验2：15个真实样本+前个扩容样本

试验3：15个真实样本+倒数个扩容样本

试验4：15个真实样本+前个扩容样本

试验5：15个真实样本+前个扩容样本

参与训练时分类器的识别正确率结果如表1所示。

表1不同扩容样本参与训练时分类器的识别正确率

项目	第一类识别正确率	第二类识别正确率	总体识别正确率
				试验1	0.6100	0.6000	0.6050
试验2	0.7600	0.9300	0.8450
				试验3	0.4700	0.7600	0.6150
试验4	0.7300	0.8700	0.8000
				试验5	0.5400	0.8400	0.6900

通过表1可以看出，针对高维不相关样本的容量控制，考虑样本可信度因素的信息熵等值容量优化方法(试验2)具有明显效果，能指导分类器选择合适数目的训练样本参与训练，提高故障识别正确率。

以上实施例仅用以说明而非限制本发明的技术方案，尽管上述实施例对本发明进行了详细说明，本领域的相关技术人员应当理解：可以对本发明进行修改或者同等替换，但不脱离本发明精神和范围的任何修改和局部替换均应涵盖在本发明的权利要求范围内。

Claims

1.一种基于信息熵等值的扩容样本容量优化方法，其特征在于，在准确度量扩容样本可信度的基础上，分别计算真实样本和异可信度的扩容样本的融合概率密度分布，通过采用信息熵来度量高维不相关故障样本包含信息量的大小，根据扩容样本所包含的信息量与真实样本等值的原则，建立扩容样本容量的信息熵优化模型，从而控制扩容样本容量。

2.根据权利要求1所述的基于信息熵等值的扩容样本容量优化方法，其特征在于，所述扩容样本可信度的大小采用基于核函数的样本可信度度量方法来度量，并且进行从大到小的排列。

3.根据权利要求2所述的基于信息熵等值的扩容样本容量优化方法，其特征在于，所述基于核函数的样本可信度度量方法的计算公式为：

q_{j} = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}}

4.根据权利要求1或2所述的基于信息熵等值的扩容样本容量优化方法，其特征在于，包括如下具体步骤为：

(1)计算真实样本和扩容样本的概率密度分布：

a、计算真实样本的概率密度分布

π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)}) = Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}), Σ_{j = 1}^{J (k)} ω_{j} = 1

其中同可信度下扩容样本Y^(j)的服从概率分布

(2)计算真实样本的信息熵H₀：

H_{0} = H (x_{1}, ..., x_{M}) = - Σ_{i_{1}, ..., i_{d} = 1}^{M} π_{1} (x_{i_{1}}, ..., x_{i_{d}}) {logπ}_{1} (x_{i_{1}}, ..., x_{i_{d}})

\begin{matrix} ω_{j} = \frac{1}{1 + \sqrt{φ (y_{j}) \cdot φ (y_{j}) - \frac{2}{M} φ (y_{j}) \cdot Σ_{i = 1}^{M} φ (x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} φ (x_{i}) \cdot Σ_{i = 1}^{M} φ (x_{i})}} \\ = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}} \end{matrix}

将可信度按从大到小排列。

(4)对于排序后的前k个扩容样本y_k,k＝1,...,N,计算信息熵：

\begin{matrix} H (Y) = - Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} π (y_{i_{1}}, ..., y_{i_{d}}, ω_{1}, ..., ω_{J (k)})) \\ = - Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)})) \end{matrix}

k^{*} = \arg \min_{k = 1, ..., N} | H_{0} + Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)}) \log (Σ_{i_{1}, ..., i_{d} = 1}^{n_{j}} Σ_{j = 1}^{J (k)} ω_{j} π_{2} (y_{i_{1}}^{(j)}, ..., y_{i_{d}}^{(j)})) |

(6)根据优化样本量搜索结果确定参与训练的扩容样本。