CN100520817C - 存在仪器噪声和测量误差时人工神经网络模型改进的性能 - Google Patents

存在仪器噪声和测量误差时人工神经网络模型改进的性能 Download PDF

Info

Publication number
CN100520817C
CN100520817C CNB028024966A CN02802496A CN100520817C CN 100520817 C CN100520817 C CN 100520817C CN B028024966 A CNB028024966 A CN B028024966A CN 02802496 A CN02802496 A CN 02802496A CN 100520817 C CN100520817 C CN 100520817C
Authority
CN
China
Prior art keywords
input
noise
output
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB028024966A
Other languages
English (en)
Other versions
CN1571982A (zh
Inventor
巴斯卡·戴特雷·库卡尼
桑吉夫·史瑞克瑞士纳·塔姆比
贾亚瑞姆·布哈吉·劳纳瑞
尼拉姆库马·维勒查
桑雷·瓦桑特劳·戴史姆克
巴范尼史安卡·希诺伊
希瓦拉玛·拉维克安德兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Council of Scientific and Industrial Research CSIR
Original Assignee
Council of Scientific and Industrial Research CSIR
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Council of Scientific and Industrial Research CSIR filed Critical Council of Scientific and Industrial Research CSIR
Publication of CN1571982A publication Critical patent/CN1571982A/zh
Application granted granted Critical
Publication of CN100520817C publication Critical patent/CN100520817C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

描述了一种方法,在存在包含仪器噪声和/或测量误差的输入-输出例子数据时,用于改进人工神经网络模型的预测精度和推广性能,用于训练网络模型输入-输出例子数据中噪声和误差的存在造成在精确学习输入和输出之间非线性关系的困难,网络有效学习噪声关系,该方法设法使用计算机模拟生成大规模的噪声-叠加采样输入-输出数据集,这里高斯噪声专用量被添加到例子集中的每一输入/输出变量,并由此生成的扩大的采样数据集用作为训练集,用于构造人工数据网络模型,被添加的噪声量对输入/输出变量是专用的,并使用随机搜索和优化技术即遗传算法确定其优化值,对噪声叠加扩大的训练集所训练的网络表现出其预测精度和推广性能明显的改进,所发明的方法通过其成功用于来自工业聚合反应器和连续搅拌反应器(CSTR)包含仪器误差和/或测量噪声的例子数据所例证。

Description

存在仪器噪声和测量误差时人工神经网络模型改进的性能
技术领域
本发明涉及用于在存在含有仪器噪声和/或测量误差的输入-输出数据的改进人工神经网络模型预测精度和推广性能的方法。
背景技术
人工神经网络(ANN)由于其能够以任意精确度逼近非线性关系而适合对复杂的的多输入-多输出非线性过程建模(Poggio,T.and Girosi,F.Regularization algorithms for learning that are equivalent tomultilayer networks.Science,247,978,1990)。其结果是,ANN已经广泛用于多种工业,进行过程变量的在线和离线预测。ANN的工业应用包括过程识别,稳态和动态过程建模,故障检测和诊断,软检测器研发,及非线性过程控制和监视。这些ANN应用已经由Tambe h共同作者进行了全面的综述(Tambe,S.S.,Kulkarmi,B.D.,Deshpande,P.B.Elements of Artificial Neural Networks with Selected Applicationsin Chemical Engineering,and Chemical & Biological Sciences,Simulation & Advanced Controls Inc.:Louisville,USA,1996)。在任何过程操作期间,产生大量的过程输入-输出数据,这些数据能够用来研发事先预测过程输出变量值的ANN模型。所希望的ANN模型特性是:(i)应当精确预测包含在用于其构成的输入-输出例子数据集中的输出,以及(ii)应当具有良好的推广的可能性。传统上,使用尽可能减小预定成本(误差)函数的适当的权重-调节算法训练ANN模型。例如,最广泛使用误差反向传播(EBP)(Rumelhart,D.,Hinton,G.,William,R.,Learning representations by backpropagating errors.Nature,323,533,1986)算法进行均方根误差(RMSE)函数的最小化。在任何大的过程数据集中,都会有仪器噪声和/或测量误差的存在。在用于网络训练的输入-输出数据中噪声和/或误差的存在生成了对于模型预测精度的阈值极限,并由模型显示的推广的性能。这主要是因为网络试图逼近(学***均关系而发生的。由于网络忽略数据中的噪声和误差,因而由它所俘获的平均关系充满了不精确性。由于关于过程操作的重要的控制数和方针决策基于由模型作出的预测,因而预测中的不精确性,如果它们是重要的,则是不能容许的。例如,在聚合反应器中,质量变量的预测,诸如熔体流指标(MFI),应力指数(Sex)等在决定生产的聚合物等级中是重要的。能够推广的ANN模型不仅精确预测用于其研发的数据(例子集)中的输出,而且还对应于新的或新型的输入数据。非常重要的是ANN模型不仅具有优秀的预测精度,而且有良好的推广性质。
已经由Gorp和同事们观察到(Gorp,J.V.,Schoukens,J.,Pintelon,R.,Learning neural networks with noisy input using theerrors-in-variables approach,Transaction on Neural Networks A.180,1-14,1999),在商业软件中,大部分ANN模型是使用简单的输出误差(OE)代价函数训练的,并且当输入数据有噪声时,这可能导致网络预测的输出严重的偏差。作者证明,噪声的存在实际上抑制了ANN模型的转移函数较高阶的导数,并如果采用传统的最小二乘法代价函数,则还引入偏差。于是,用于改进ANN推广性能的方法推荐以新型的代价函数例如变量中的误差(EIV)代价函数代替RMSE代价函数(Gorp,J.V.,Schoukens,J.,Pintelon,R.,Learning neural networks with noisyinput using the errors-in-variables approach,Transaction on NeuralNetworks A.180,1-14,1999)。EIV方法的缺陷是其实现需要关于输入和输出变化的知识。在许多实际的设置中,这种信息是不可得的,这样严重限制了EIV方法的使用。该方法论虽然对于噪声测量可较好地工作,但还是需要大量的存储器并可能导致局部最小。另一些方法,诸如:(i)使用EIV方法作为在施加OE方法之后的后处理工具,(ii)使用被测的输入和输出值代替估计值,以及(iii)修改的学习和优化方案,被多样化地提出和展示(Gorp,J.V.,Schoukens,J.,Pintelon,R.,Theerrors in variables cost function for learning neural networks withnoisy inputs.Intelligent Engineering Systems Through ArtificialNeural Networks,8,141-146,1998)。
报道添加噪声对ANN模型性能的影响的文献相对少,并至今只进行了很少的***研究。一般知道,对训练数据添加噪声有助于获得具有较好推广性能的模型。Sietsma与Dow报告(Sietsma,J.,Dow,R.,J.,Creating artificial neural networks that generalize,Neural Networks 4,67-79,1991)噪声和添加的伪-高斯分布噪声对训练模式(向量)的每一元素有益的效果。他们证明,使用添加噪声的数据训练改进了多层感知机(MLP)网络的分类能力。研究还揭示了需要较高数目的网络结点,且每一结点对解独立贡献;还可能是对网络输出没有重要贡献的少量的单元能够通过适当的网络修剪技术被去除。这种观点还由Minai和Williams共有(Minai,A.A.,Williams,R.D.,Perturbation response infeedforward network,Neural Networks,7(5),783-796,1994),他们提出产生较大的网络,其中每一结点在较小程度上对整体计算贡献。在另一彻底的研究中,An研究了(An,G.,The effects of adding noiseduring backprogation training on a generalization performance.Neural Comput.,8,643-674,1996)噪声添加对基于EBP网络训练推广性能的影响。这样,An的研究分别分析了输入、权重、和输出中噪声对网络预测性能的影响。研究表明,输出中的噪声没有改进推广,但在输入和权重中的噪声是有帮助的。还观察到,使用Langevin噪声的网络训练导致整体极小化,这类似于使用模拟退火方法所获得的网络训练。在理论研究中,Bishop(Bishop,C.M.,Training with noice isequivalent to Tikhonov regularization,Neural Comput.,7,108-116,1995)声称由噪声引起的误差项对应于一类推广调节器。调节(Poggio,T.,Girosi,F.Regularization algorithms for learning that areequivalent to multilayer networks,Science,247,978,1990)通过损失项的添加而修改误差函数,并控制由网络产生的变化。实际上,训练数据中噪声的添加提供了一种平滑的形式,并且该方法起作用是因为通过ANN被学***滑的,或至少在有限数的区域中是分段连续的。该命题包括以下假设,对于适定的问题存在唯一的解,并且数据的小扰动应当只产生解的小的变化。换言之,对于两个类似地输入,预期有两个类似地输出。这样,对于给定的例子数据集,通过叠加小量的噪声能够产生附加的网络训练模式。虽然太小的噪声量将导致没有结果的不明显的变化,但由于大量的噪声将明显地破坏输入和和输出之间的固有关系,因而噪声量必须小。紧接下来是必须确切地量化要被叠加到输入-输出例子数据的‘小’噪声量。可以注意到,在在制造和加工业中大量存在的非线性***中,输入变量变化影响输出变量的敏感性,可能显著不同。因而必须对每一输入和输出变量添加噪声变化的程度。确定要向每一输入-输出变量添加的确切的噪声量是一复杂的问题,并且本发明就这一问题提供了基于遗传算法的有效解。
遗传算法(Goldberg,D.E.,Generic Algorithms in Search,Optimization,and Machine Learning,Addison-Wesley:New York,1989,Holland,J.,Adaptation in Natural and Artificial System,University of Michigan Press,Ann Arbor,MI,USA)是一类称为随机优化算法’的函数最小/最大形式体系的成员。它们基于在生物机体的达尔文进化论中起重要作用的自然选择和遗传机制。已知GA在搜索噪声、非连续的、多模和非凸解空间中是有效的,并且其特性是:(i)它们是第零’阶搜索技术,意味着GA只需要标量值而不是被优化的目标函数的导数,(ii)GA进行整体的搜索,因而它们在目标函数表面上通常收敛到整体最优值,(iii)由GA使用的搜索过程是随机性的,因而它们能够在不特别涉及诸如关于对象函数的形式的平滑性,可微性,及连续性假设之下被采用(由于这一特性,GA能够用来解决使用经典基于梯度的算法所不能解决的优化问题,经典算法要求目标函数同时满足上述准则),以及(iv)GA过程能够被并行化,这有助于有效而快速地搜索大的多维解空间。本发明公开了基于遗传算法的方法,用于达到向例子集的每一输入/输出变量所添加的噪声优化水平,从而生成在ANN训练中使用的扩大的噪声叠加采样数据集,诸如改进预测精度的训练网络过程和推广性能。
在GA过程中,搜索表示在例子集合中输入/输出变量上被叠加的噪声的允许值的优化解向量(又称为决策向量),从概率(候选)解的随机初始化随机母体开始。然后通常以二进制串(染色体)形式编码的解被测试,以测量其在满足优化目标即函数最小化或最大化中的适配性。接下来,候选解按其适配性得分的降序排序,并对排序解执行包括选择、交叉和变异的GA运算的主循环。循环的实现产生候选解新的母体,它与当前母体比较可更好满足优化目标。在重复上述循环若干次之后演化成的最佳串,形成优化问题的解。在评估解向量的适配性时,包含在其中的输入/输出变量特定噪声允许值用来产生对应于例子集中每一模式的大量的噪声叠加样品输入/输出模式;然后所得的放大数据集用来以最小化最小二乘代价函数诸如RMSE的观点训练神经网络。使用基于梯度或其它适当的权重更新形式方法进行ANN的训练。由此获得的RMSE的大小用来计算包括噪声允差的候选向量解的适配值。对使用GA-优化噪声允差值产生的数据所训练的网络更好地逼近存在仪器噪声和/或测量误差的真实的输入-输出关系,因而具有良好的由此精度和推广性能。
本发明基于考虑两个例子,即(i)工业聚合反应器基于ANN的建模,及(ii)连续搅拌桶反应器基于ANN-的建模,其中发生发热连续A→B→C反应。使用所发明的方法获得的预测精度与使用通常所使用的网络训练过程获得的预测精度比较。
本发明的目标
本发明的主要目标是要提供一种方法,用于在存在包含仪器噪声和/或测量误差的输入-输出数据时,改进人工神经网络模型的预测精度和推广性能。特别地,发明了一种方法,使用计算机生成要在网络训练中使用的高斯噪声叠加扩大采样输入-输出数据集,其中使用基于遗传算法(GA)的策略优化添加到每一输入-输出变量的噪声量。通过以下原则即两个类似的输入结果应当是两个类似的输出,基于GA的方法调整要添加到例子数据输入-输出变量的噪声优化水平。
发明内容
本发明采用人工生成的噪声叠加输入-输出数据模式。用于构成具有改进的预测精度和推广性能的ANN模型。实质上,本发明提出的方法是迫使ANN学习在其输入与输出之间存在的噪声关系。在发明的方法使用输入-输出变量特定噪声允差值,用于生成噪声叠加扩大采样数据集供网络的训练。具体来说,已知允差的高斯噪声被添加到例子集的每一输入和输出变量,并以这种方式产生对应于例子集中每一模式的多个噪声叠加模式。本发明中,使用称为‘遗传算法’的一种新型进化随机优化形式方法优化每一输入/输出变量特定的允差值。已经发现对噪声叠加扩大采样数据训练的ANN模型具有改进的预测精度和推广的能力。
于是,当称为例子集的可用于构成网络模型的输入-输出数据包括仪器噪声和/或测量误差时,本发明提供了用于改进非线性人工神经网络模型的预测精度和推广性能的方法,所述方法包括以下步骤:
(a)使用计算机模拟产生高斯分布随机数,
(b)确定被叠加到所述例子集中的一个输入-输出模式上的准确高斯噪声量;
(c)将上述确定的高斯噪声量叠加到所述输入-输出模式上以生成噪声-叠加的扩大的输入-输出采样数据;
(d)对于所述例子集中的每个输入-输出模式重复步骤(a)-(c),以便生成噪声-叠加的扩大的输入-输出采样数据集;
(e)使用在步骤(d)中获得的噪声-叠加的扩大的输入-输出采样数据集作为‘训练集’,用于构建非线性人工神经网络模型;
其中在步骤(b)中,专用于所述输入-输出模式的噪声允差值被确定,并且所述被叠加到所述输入-输出模式上的准确高斯噪声量被使用随机搜索和优化技术确定;
并且在步骤(c)中,所述噪声-叠加的扩大的输入-输出采样数据包括M个数目的模式。
本发明的一个实施例,其中通过遗传算法确定的被添加到例子集的每一输入输出变量准确的高斯噪声量,是整体(非局部)优化的。
本发明的另一实施例,其中例子集用作为‘测试集’,用于监视人工神经网络模型的推广性能。
本发明又一实施例,其中人工神经网络模型结构是从输入层向输出层前馈’的,即网络内的信息流是单向的。
本发明的另一实施例,其中前馈的神经网络结构包括多层感知机(MLP)网络,径向基函数网络(RBFN),及反向传播神经网络(CPNN)。
本发明的又一实施例,其中用于构成或训练人工神经网络模型的算法包括误差反向传播,共轭梯度,Quickprop和RPROP。
本发明的另一实施例,其中用来优化噪声允差的随机搜索和优化技术涉及遗传算法和相关方法,即模拟退火(SA)、同时扰动随机逼近(SPSA)、进化算法(EA)和memetic算法(MA)。
本发明的又一实施例,其中使用计算机模拟从小规模例子输入-输出集生成扩大的噪声叠加采样输入-输出数据集。
进而以以下实施例的形式说明本发明。
考虑表示例子集的P数目的输入-输出模式对[(x1,y1),(x2,y2),...,(xp,yp),...,(xp,yp)]。N-维输入向量xp和对应的K-维输出向量yp之间的相互关系由定义为yp=f(xp)的K-维非线性函数向量f支配。xp,和yp向量也分别称为输入模式及对应的输出(目标)模式。第p个N-维输入向量定义为[xp1,xp2,...xpN]T及对应的K-维目标输出yp向量[yp1,yp2,...ypK]T。前馈神经网络(FFNN),诸如MLP(参见图1),逼近xp,和yp之间的如下给出的非线性关系
yp=f(xp,WH,WO)   (1)
其中矩阵WH和WO分别表示对MLP的输入和隐藏层结点之间,以及隐藏和输出结点之间的连接的权重。训练MLP网络的整体目标是要使适当的最小平方最小化。
误差函数,例如如下定义的均方根误差(RMSE)(Nandi,S.,Ghosh,S.,Tambe,S.S.,Kulkarni,B.D.,Artificial neural-network-assistedstochastic process optimization stategies.AIChE J.,47,126,2001):
RMSE = Σ i = 1 N pat 2 E i N pat × K - - - ( 2 )
权重i表示输入模式的下标(i=1,2,...,Npat);K表示输出结点数,而Ei表示如下定义的平方和误差(SSE):
E i = 1 2 Σ k = 1 K ( o i k - y i k ) 2 - - - ( 3 )
其中yi k表示当第i个输入模式施加到网络输入层时,第k个输出结点的实际输出,oi k表示对应的目标输出。RMSE最小化的任务是使用适当的梯度下降技术实现的,诸如基于广义德尔塔规则(GDR)的误差反向传播(EBP),共轭梯度,或更先进的方法即Quickprop(Fahlman,S.E.,Faster-learning variations on back-propagation:Proceedings ofthe 1988 Connectionist Models Summer School,D.S.Touretzky,G.E.Hinton,and T.J.Sejnowski,Eds.,pp.38-51,Morgan Kaufmann,SanMateo,CA,1998),和弹性反向传播(RPROP)(Riedmiller,M.,BraunH.,A direct adaptive method for faster backpropagation learning:The RPROP algorithm.Proc.of IEEE Int.Conf.On Neural Net,SanFransisco,CA,March 28-april 1,1993)。网络训练过程是以初始化权重矩阵WH和WO随机开始的迭代过程。训练迭代由两类即前向和反向通过网络层的传送组成。在前向传送中,来自训练数据集的输入模式施加到输入结点,且评价隐藏结点的输出。为了计算所述的输出,首先计算对隐藏结点的输入加权和,然后使用非线性激励函数,诸如;逻辑s形曲线。隐藏结点的输出形成到输出层结点的输入,其输出以类似于隐藏结点的的方式被评估。输出层结点的输出,其也称为网络输出,与目标输出比较,并以反向传送,网络和目标输出之间的差(预测误差)用于更新权重矩阵WH和WO。当对训练集中所有的模式重复时权重更新过程完成一个训练迭代。可注意到,权重矩阵WH和WO可以使用各种方法被更新,诸如EBP,共轭梯度,Quickprop及RPROP。本发明提出一种方法,从而从例子集生成用作为训练数据的噪声叠加扩大采样输入-输出数据集,且其中使用遗传算法确定被添加到每一输入/输出变量的噪声优化量,使得结果的ANN模型具有改进的预测精度和推广性能。以下说明所发明的优化被添加到例子集的每一输入/输出变量的噪声量的方法。
考虑在例子集中作为[PxN]输入矩阵X的P数目的N-维输入向量,以及作为[PxK]输出矩阵Y的相等数目的对应的的K-维输出向量。本发明分别生成矩阵X和Y的噪声叠加矩阵版本
Figure C02802496D0012084343QIETU
Figure C02802496D0012084351QIETU
,它们用作为用于ANN训练的训练输入和输出集。待添加的高斯(正太分布)噪声量是对输入/输出变量特定的,并以允差百分比刻画。用作为在输入矩阵X和输出矩阵Y中引入噪声的噪声允差向量分别定义为εI和ε0。刻画被添加到N-维输入向量的每一元素的N-维噪声允差向量定义为:
ϵ I = [ ϵ 1 I , ϵ 2 I , . . . , ϵ n I , . . . , ϵ N I ] T - - - ( 4 )
并且其第n个元素εI n用来在输入矩阵X的第n个列元素{xpn}:p=1,2,...,p中引入工组。噪声允差值εI n定义为
ϵ n I = ( 3.09 × 100 ) × ( σ pn I / x pn ) ; n = 1,2 , . . . , N - - - ( 5 )
其中xpn和σI pn标记高斯分布的平均与标准偏差。重新排布方程式5,标准偏差可被计算为
σ pn I = ( ϵ n I × x pn ) / ( 3.09 × 100 ) - - - ( 6 )
使用xpn(n=1,2,...,N)作为平均,σI pn(n=1,2,...,N)作为高斯分布的标准偏差,产生(使用计算机模拟)M数目的噪声叠加采样输入模式,对应于例子集中第p(p=1,2,...,P)个输入模式。所得的噪声叠加引起的输入矩阵(
Figure C02802496D00124
)具有维数[(MP)xN]。
类似于对于输入的噪声允差向量εI,我们定义K-维输出噪声允差向量ε0
ϵ 0 = [ ϵ 1 0 , ϵ 2 0 , . . . , ϵ k 0 , . . . , ϵ K 0 ] T - - - ( 7 )
这一允差向量的第K个元素ε0 k用来在目标输出矩阵Y的第K列元素{ypk},P=1,2,...,P中引入高斯噪声。允差向量元素ε0 k定义为
ϵ k 0 = ( 3.09 × 100 ) × ( σ pk 0 / y pk ) - - - ( 8 )
其中ypk和σ0 pk分别表示高斯分布的平均和标准分布。重新编排方程式8,标准偏差可估计为为
σ pk 0 = ( ϵ k 0 × y pk ) / ( 3.09 × 100 ) - - - ( 9 )
类似于矩阵X^的方式使用计算机模拟产生噪声叠加采样输出矩阵
Figure C02802496D00134
这里ypk(k=1,2,...,K)和σ0 pk(k=1,2,...,K)分别用作为高斯分别的平均和标准偏差,形成对应于例子集中第p个(p=1,2,...,P)目标输出模式的M数目的噪声叠加采样输出模式。所得的噪声叠加引起的输入矩阵(Y)具有维数[(MP)xK]。在ANN训练期间,矩阵
Figure C02802496D0013084532QIETU
Figure C02802496D0012084351QIETU
用作为输入-输出训练数据,同时矩阵X和Y用作为测试输入-输出数据以便监视网络的推广性能。
在其输入与输出之间的关系为非线性的***中,相关的(输出)变量呈现出对临时(输入)变量变化的敏感性变化程度。这样,被添加到例子集中(由允差向量εI和ε0定义)每一输入/输出变量的噪声的准确量的确定称为关键问题。本发明引入了基于GA的方法优化被添加到例子数据集的输入-输出元素的准确的噪声量。当在训练网络中使用时,噪声叠加数据结果得到具有改进的预测精度和推广性能的网络模型。在以下,提供用于优化被添加到例子集的输入-输出元素的准确的噪声量的基于GA的方法的说明。
基于GA的优化任务描述为:找到输入/输出变量特定噪声允差的优化值,使得使用噪声允差值生成的噪声叠加扩大训练集结果得到具有改进的预测精度和推广能力的的网络模型。实质上,GA的任务是找到优化的输入和输出噪声允差训向量, ϵ I * = [ ϵ 1 I * , ϵ 2 I * , . . . , ϵ n I * , . . . , ϵ N I * ] T ϵ 0 * = [ ϵ 1 0 * , ϵ 2 0 * , . . . , ϵ k 0 * , . . . , ϵ K 0 * ] T , 使得当它们用来产生噪声叠加扩大输入-输出训练集时,对于测试集的RMSE误差最小化。于是,通过GA被最小化的目标函数是由以下定义的测试集RMSE:
RMSE tst = Σ i = 1 N tst 2 E i N tst × K - - - ( 10 )
其中i标记测试输入模式的的下标(i=1,2,...,Ntst);K表示MLP结构中的输出结点数,Ntst表示测试集中模式数,而Ei表示对应于第i个测试模式的平方和误差(SSE)。RMSEtst最小化中涉及的遗传算法步骤为:
(1)候选解母体的初始化:设代下标(Ngen)为零,并随机产生Npop二进制串(染色体)的母体;具有总共lchr位的每一串被划分与待优化的决策变量数目(N+K)同样多的段。注意,一个串的(N+K)个二进制段的十进制等效值表示候选解向量,其前面的N个元素表示对应于N个输入变量的噪声允差,之后的K个元素表示对应于与输出变量同样多的噪声允差。这样,Npop个候选解的母体可表示为输入-输出噪声允差的一组合的集合:
{ ϵ ln o , ϵ lk o } ; l = 1,2 , . . . , N pop ; n = 1,2 , . . . , N ; k = 1,2 . . . . . K - - - ( 11 )
(2)适配性计算:采样在包括输入-输出噪声允差的向量对的当前母体中第1个(1=1,2,...,Npop)候选解,计算该解的适配性值。具体来说,使用输入-输出噪声允差值通过稍早概述的以下过程生成高斯噪声叠加扩大向量集这样生成的训练集用来调节适当的学习算法框架,诸如EBP,共轭梯度,Quickprop和RPROP的网络权重矩阵WH和WO。在训练期间,例子的输入-输出集用作为测试集,且对应的RMSE值(RMSEtst(1))用来计算第j个候选解的适配性(ξ1),使用
ξl=1/(1+RMSEtst(l));l=1,2,,...,Npop   (12)
注意,方程式12定义的适配性函数的形式是可用来评估适配性ξ1的几个形式之一。也可使用涉及损失项的适配性函数(Deb,K.,Optimization for Engineering Design,Algorithms and Examples,Prentice-Hall,New Delhi,1995)。适配性评估之后,候选串按其适配性值降序排列。
(3)母类的选择:从当前母体选择Npop数目的母类染色体以便形成配对组。这一组的成员是这样选择的,使得具有相对高的适配得分,并且它们用来产生支系串。通常使用的母类选择技术是Roullete-Wheel(RW)方法,以及RW方法更多的稳定变种,称为随机剩余选择(SRS)(Goldberg,D.E.Genetic Algorithms in Search,Optimzation,and Machine Learning,Addison-Wesley:New York,1989)。
(4)交叉:从配对组随机选择Npop/2数目的的母类对,并对每一对以等于Pcr(0<Pcr≤1.0)的交叉概率进行交叉运算。在交叉中,母类对的每一成员在相同的随机选择的交叉点处被切割。结果是,从每一母类串形成两个子串;子串在母类之间被相互交换并组合而获得两个支系染色体。当对所有母类-对执行时,被称为单点交叉’这一交叉运算结果是包括Npop数目支系串的母体。
(5)变异:对支系串进行变异(位-颠倒)运算,其中受到颠倒(零到一或反之)的位的概率等于pmut;推荐的范围是pmut[0.01-0.05]。
(6)使代下标增加一(Ngen=Ngen+1),并对新产生的支系串重复步骤2-5,直到达到收敛。GA收敛的基准可以是:Ngen超过其最大极限(Ngen max),或在变异支系母体中的最佳串适配性得分经过相继的代有很小的或没有变化。在达到GA-收敛之后,具有最高适配性值的串被解码而获得优化的解。通常大数目的代必定获得优化解向量[εI*,ε0*],这导致最小的RMSEtst量值。
虽然以下描述本发明的优选实施例,但本发明能够有各种变形和修改。这样,本发明的范围不限于用来展示其效果的各例子的机器的细节。
在本发明的一实施例中,使用噪声-叠加扩大的输入-输出数据集对用来进行非线性建模和分类的人工神经网络进行训练,其中使用称为遗传算法的随机优化形式方法确定被添加的例子集的每一输入/输出变量的最优噪声量,遗传算法使网络能够具有改进的预测降低和推广性能。
在本发明的另一实施例中,当包含引起噪声和/或测量误差称为‘例子集’的输入-输出数据已经或是在线或是离线被收集时,该方法被证明可使用。
在本发明的另一实施例中,该方法对于其实现不需要过程监视***、过程类型和传感器硬件等的知识。
在本发明的又一实施例中,使用其它随机优化技术,诸如同时扰动随机逼近(SPSA),模拟退火(SA),蚂蚁群体方法,及memetic算法,能够确定被添加的例子数据的优化噪声。
在本发明另一实施例中,能够在输入和输出例子数据之间的关系为非线性的情形下,使用该方法建立人工神经网络模型。
在本发明的另一实施例中,所发明的形式方法可用于各种确定性的和随机性的人工神经网络训练方案,诸如误差反向传播,共轭梯度,Quickprop及RPROP。
于是,本发明提供了一种方法,用于改进人工神经网络模型在包含仪器噪声和/或测量误差数据存在之下的预测精度和推广性能,该方法包括步骤(参见图2):
(a)以临时(输入)变量的[PxN]矩阵(X)、及相关的(输出)变量对应的[PxK]矩阵(Y)的形式,编辑进程数据(例子数据)。
(b)预处理例子数据集,即去除明显的和非明显的异常值,抛弃包含丢失数据的模式,有故障的传感器读数等。
(c)通过随机产生大小Npop串的候选解母体,开始GA搜索及优化过程(代数Ngen=0),其中每一解为[N+K]维决策变量向量,描述N个输入噪声允差(εI),及K个输出噪声允差(ε0)。
(d)使用第1个(1=1,2,...,Npop)候选解执行以下步骤:
(i)对应于例子集中第p个(p=1,2,..,P)输入-输出模式,使用计算机模拟产生M个数高斯噪声叠加采样输入-输出模式。分别使用方程式6和9计算用于产生输入和输出采样模式的标准偏差值(σI,σO)。结果所得采样输入矩阵
Figure C02802496D0017084915QIETU
和输出矩阵分别为[(MP),N]及[(MP),K]维。
(ii)使用适当的训练算法,例如误差反向传播,共轭梯度,Quick-prop或RPROP,训练前馈ANN,诸如MLP,包括N数目的输入结点,NH数目的隐藏结点,每一输入和隐藏层中的偏移结点,及K数目的输出结点。在训练期间,使用噪声叠加采样输入-输出矩阵
Figure C02802496D0017084915QIETU
Figure C02802496D0017084935QIETU
分别调节网络权重矩阵WH和WO,并使用例子输入-输出矩阵
Figure C02802496D0017084946QIETU
和Y作为测试数据衡量网络的推广性能。网络训练的目的是要对于测试集(RMSEtst)最小化RMSE。为了达到这一目的,必须优化数个隐藏层,每一隐藏层中的数个结点,及训练算法专用参数,例如EBP算法中的学习率和动量系数。对应于第1候选解的最小化的测试集RMSE值定义为RMSEtst(1)。
(e)使用在上一步骤获得的最小化RMSEtst(1)值计算候选解的适配性值ξ1:1=1,2,...,Npop。诸如以下给出的适当的适配性函数可用于计算适配性值:
ξl=1/(1+RMSEtst(l));l=1,2,...,Npop   (13)
其中ξ1表示第1个候选解的适配性得分,而RMSEtst(1)标记当第1个解用来产生噪声叠加扩大训练数据时的最小化测试集RMSE值。在评估它们的适配性值之后,候选解按适配性得分的降序排列。
(f)如稍早详述,对当前排序的候选解母体执行选择、交叉和变异运算,以获得新一代的解(Ngen=Ngen+1)。
(g)对新一代候选解执行步骤(d)到(f),直到达到收敛。成功收敛的基准是或者GA已经在大量的代上演化(Ngen≥Ngen max),或者最佳解的适配性值显示可被忽略或在相继的代中没有变化。在收敛母体中具有最高适配性值的候选解表示GA-优化解(εI*,ε0*),且对应于这一解的权重矩阵(WH和WO)表示具有改进的预测精度和推广性能的ANN模型优化权重。
附图的简要说明
图1:表示典型的前馈神经网络诸如多层感知机(MLP)的示意图
图2:表示详细说明本发明中步骤的流程图
以下以示例的方式给出使用本发明的例子,因而这不应构成对本发明范围的限制。
例子1
在所发明的方法的第一示例中使用的数据是取自运行的工业聚合工艺过程。该工艺过程数据由九个输入和一个输出组成;输入描述了工艺过程的条件,而输出表示聚合物质量参数。总共有28个输入-输出模式(例子集)用于ANN建模。这些数据含有仪器噪声和测量误差。使用MLP作为ANN范例,使用各种训练算法诸如EBP,共轭梯度,Quickprop和RPROP,开发前面七个网络模型为预测聚合物质量参数。在开发基于MLP模型时,严格研究了各种网络结构参数的效果,诸如隐藏层的数目,每一隐藏层结点数,学***均百分比误差和相关系数(CC)并也列于表2中。可以观察到,当噪声叠加数据用于网络训练时CC值已经增加。较小的训练和测试集RMSE值分别指示,对噪声叠加数据训练的网络模型改进的预测精度和推广性能。而且网络预测输出与它们的希望的量值之间的平均百分比误差模型降低。这样能够推断,本发明已经成功地改进了网络模型的预测精度和推广性能。
表格1:对于工业聚合工艺过程使用基于GA策略获得的输入-输出变量的优化噪声允差值
表格2:比较使用非噪声叠加和噪声叠加训练数据集获得的RMSE值,相关系数和平均预测误差
Figure C02802496D00201
例子2
这例子中,涉及有套非等温连续搅拌桶反应器(CSTR)的工艺过程,其中考虑顺序发生的两个一级反应A→B→C。工艺过程数据包括六个CSTR操作变量(输入),而其中单个的输出变量稳态值描述产品质量变量对应的稳态值。总共50个输入-输出数据模式(例子集)可用于基于ANN的建模;数据包含仪器噪声和/或策略误差。首先采样例子集作为训练数据形成一MLP模型,用于预测输出变量值,为此使用各种训练算法,诸如EBP,共轭梯度,Quickprop或RPROP。在形成MLP网络模型时,研究了各种结构参数的效果,例如隐藏层数目,每一隐藏层中结点数,学***均预测误差(%)值也支持这一推断。这样能够断定,本发明在改进对于CSTR的ANN模型的预测精度和推广性能上是成功的。
表格3:对于CSTR工艺过程使用基于GA策略获得的输入-输出变量的优化噪声允差值
Figure C02802496D00212
表格4:比较对于CSTR工艺过程使用非噪声叠加和噪声叠加训练数据集获得的RMSE值,相关系数,和平均预测误差
Figure C02802496D00213
Figure C02802496D00221
优点:
(1)易于在存在包含仪器噪声和/或测量误差施加到数据之下,实现形式方法以构成非线性人工神经网络模型。
(2)该方法由于专门通过计算机模拟产生扩大的训练数据集,因而是节省成本的,并从而避免收集附加的工艺过程数据,用于改进人工神经网络模型的预测精度和推广能力。
(3)所发明的方法产生噪声-叠加训练数据,用于改进人工神经网络模型的预测精度和推广性能,其中被添加到每一输入-输出变量的噪声量不是任意选择的,而是使用新型和有力的随机优化技术即遗传算法。
(4)遗传算法的使用允许获得被添加到例子数据的每一输入/输出变量噪声的整体(而不是局部)优化量。
(5)所发明的方法,由于使用噪声-叠加技术生成附加的训练数据,故甚至在例子数据不适于进行ANN训练时也能工作。
(6)该方法有充分的通用性,以保证其用于对多输入-多输出非线性***的建模和分类。
(7)所发明的方法能够实时用于涉及基于人工神经网络建模和分类。
(9)所发明的方法对于使用并行计算机的实现能够被有效地并行化。
(10)本发明的实现是完全自动化的,很少或不需要人工干涉。

Claims (9)

1.一种方法,当称为例子集的可用于构成网络模型的输入-输出数据包括仪器噪声和/或测量误差时,用于改进非线性人工神经网络模型的预测精度和推广性能,所述方法包括以下步骤:
(a)使用计算机模拟产生高斯分布随机数,
(b)确定被叠加到所述例子集中的一个输入-输出模式上的准确高斯噪声量;
(c)将上述确定的高斯噪声量叠加到所述输入-输出模式上以生成噪声-叠加的扩大的输入-输出采样数据;
(d)对于所述例子集中的每个输入-输出模式重复步骤(a)-(c),以便生成噪声-叠加的扩大的输入-输出采样数据集;
(e)使用在步骤(d)中获得的噪声-叠加的扩大的输入-输出采样数据集作为‘训练集’,用于构建非线性人工神经网络模型;
其中在步骤(b)中,专用于所述输入-输出模式的噪声允差值被确定,并且所述被叠加到所述输入-输出模式上的准确高斯噪声量被使用随机搜索和优化技术确定;
并且在步骤(c)中,所述噪声-叠加的扩大的输入-输出采样数据包括M个数目的模式。
2.根据权利要求1的方法,其中通过遗传算法确定的被叠加到所述例子集的每一输入-输出模式的所述准确高斯噪声量是整体优化的。
3.根据权利要求1的方法,其中所述例子集用作为‘测试集’,用于监视所述人工神经网络模型的推广性能。
4.根据权利要求1的方法,其中所述人工神经网络模型结构是‘前馈’的,即所述网络内的信息流从输入层向输出层是单向的。
5.根据权利要求4的方法,其中所述前馈神经网络结构包括多层感知机网络、径向基函数网络和反向传播神经网络。
6.根据权利要求1的方法,其中用于构建或训练所述人工神经网络模型的算法包括误差反向传播和共轭梯度。
7.根据权利要求1的方法,其中用来优化噪声允差的所述随机搜索和优化技术涉及遗传算法和相关方法。
8.根据权利要求7的方法,其中所述相关方法是模拟退火、同时扰动随机逼近和进化算法。
9.根据权利要求1的方法,其中使用计算机模拟从小规模输入-输出例子集生成噪声-叠加的扩大的采样输入-输出数据集。
CNB028024966A 2002-03-26 2002-03-26 存在仪器噪声和测量误差时人工神经网络模型改进的性能 Expired - Fee Related CN100520817C (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2002/001147 WO2003081527A1 (en) 2002-03-26 2002-03-26 Improved performance of artificial neural network models in the presence of instrumental noise and measurement errors

Publications (2)

Publication Number Publication Date
CN1571982A CN1571982A (zh) 2005-01-26
CN100520817C true CN100520817C (zh) 2009-07-29

Family

ID=28053165

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028024966A Expired - Fee Related CN100520817C (zh) 2002-03-26 2002-03-26 存在仪器噪声和测量误差时人工神经网络模型改进的性能

Country Status (7)

Country Link
EP (1) EP1382012B1 (zh)
JP (1) JP4157477B2 (zh)
KR (1) KR100869516B1 (zh)
CN (1) CN100520817C (zh)
AU (1) AU2002247918A1 (zh)
DE (1) DE60217663T2 (zh)
WO (1) WO2003081527A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7840287B2 (en) * 2006-04-13 2010-11-23 Fisher-Rosemount Systems, Inc. Robust process model identification in model based control techniques
CN103324085B (zh) * 2013-06-09 2016-03-02 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN104347066B (zh) * 2013-08-09 2019-11-12 上海掌门科技有限公司 基于深层神经网络的婴儿啼哭声识别方法及***
US10466266B2 (en) * 2014-08-14 2019-11-05 University Of North Dakota Flight parameter prediction using neural networks
CN106019359A (zh) * 2016-05-17 2016-10-12 浪潮集团有限公司 一种基于神经网络的地震预测***
US10558204B2 (en) * 2016-09-19 2020-02-11 Palo Alto Research Center Incorporated System and method for scalable real-time micro-object position control with the aid of a digital computer
CN108108506B (zh) * 2016-11-24 2021-05-14 南方电网科学研究院有限责任公司 一种多端直流工程主回路参数的优化方法
KR101877161B1 (ko) * 2017-01-09 2018-07-10 포항공과대학교 산학협력단 문서 문맥정보를 고려하는 상황기반 추천 방법 및 장치
US10997492B2 (en) 2017-01-20 2021-05-04 Nvidia Corporation Automated methods for conversions to a lower precision data format
US10832135B2 (en) * 2017-02-10 2020-11-10 Samsung Electronics Co., Ltd. Automatic thresholds for neural network pruning and retraining
CN107007279B (zh) * 2017-03-17 2019-11-05 浙江大学 一种基于堆栈式自编码器的无创心内异常激动点定位方法
CN107389732B (zh) * 2017-07-14 2019-08-27 中国计量大学 一种激光扫描热成像裂纹检测方法
CN108104807A (zh) * 2017-12-16 2018-06-01 中国石油大学(华东) 一种海洋油气资源勘探***及其使用方法
CN110162807B (zh) * 2018-02-12 2023-09-12 沈阳理工大学 基于改进蚁群优化bp神经网络弹药贮存可靠性评估方法
CN110222834B (zh) * 2018-12-27 2023-12-19 杭州环形智能科技有限公司 一种基于噪声遮蔽的发散式人工智能记忆模型***
SG10201900755WA (en) * 2019-01-28 2020-08-28 Wilmar International Ltd Methods and system for processing lipid contents of at least one oil sample and simulating at least one training sample, and for predicting a blending formula, amongst others
CN110006664A (zh) * 2019-04-03 2019-07-12 上海好耐电子科技有限公司 基于神经网络的汽车制动噪声专家检测方法
CN110942144B (zh) * 2019-12-05 2023-05-02 深圳牛图科技有限公司 集自动化训练、校验、重构于一体的神经网络构建方法
CN111062442B (zh) * 2019-12-20 2022-04-12 支付宝(杭州)信息技术有限公司 解释业务处理模型的业务处理结果的方法和装置
CN111030180B (zh) * 2019-12-26 2023-08-25 河南牧业经济学院 基于无线传感器网络的双馈风电机组风能集成控制方法
CN111160667B (zh) * 2020-01-02 2023-05-30 北京工商大学 一种提高食品安全预测模型鲁棒性的方法及装置
KR102648937B1 (ko) * 2020-09-14 2024-03-20 한국전력공사 전력망 상태예측 모델 성능 관리 장치 및 방법
US11893327B2 (en) 2020-12-14 2024-02-06 Xerox Corporation System and method for machine-learning enabled micro-assembly control with the aid of a digital computer
US11921488B2 (en) 2020-12-15 2024-03-05 Xerox Corporation System and method for machine-learning-enabled micro-object density distribution control with the aid of a digital computer
CN113221436A (zh) * 2021-03-13 2021-08-06 宁波大学科学技术学院 一种基于改进型rbf神经网络的污水悬浮物浓度软测量方法
CN113243915A (zh) * 2021-05-10 2021-08-13 西北工业大学 一种基于音频注入的烦恼感抑制定量评价方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5313559A (en) * 1991-02-15 1994-05-17 Hitachi, Ltd. Method of and system for controlling learning in neural network
US5412256A (en) * 1994-01-06 1995-05-02 Bell Communications Research, Inc. Neuron for use in self-learning neural network

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992007325A1 (en) * 1990-10-15 1992-04-30 E.I. Du Pont De Nemours And Company Apparatus and method for on-line prediction of unmeasurable process information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5313559A (en) * 1991-02-15 1994-05-17 Hitachi, Ltd. Method of and system for controlling learning in neural network
US5412256A (en) * 1994-01-06 1995-05-02 Bell Communications Research, Inc. Neuron for use in self-learning neural network

Also Published As

Publication number Publication date
EP1382012B1 (en) 2007-01-17
KR20040099092A (ko) 2004-11-26
JP2005521167A (ja) 2005-07-14
JP4157477B2 (ja) 2008-10-01
EP1382012A1 (en) 2004-01-21
AU2002247918A1 (en) 2003-10-08
KR100869516B1 (ko) 2008-11-19
DE60217663T2 (de) 2007-11-22
CN1571982A (zh) 2005-01-26
DE60217663D1 (de) 2007-03-08
WO2003081527A1 (en) 2003-10-02

Similar Documents

Publication Publication Date Title
CN100520817C (zh) 存在仪器噪声和测量误差时人工神经网络模型改进的性能
Ciaburro et al. Neural Networks with R: Smart models using CNN, RNN, deep learning, and artificial intelligence principles
Boussabaine The use of artificial neural networks in construction management: a review
Stach et al. Numerical and linguistic prediction of time series with the use of fuzzy cognitive maps
Rotshtein et al. Fuzzy evidence in identification, forecasting and diagnosis
US7313550B2 (en) Performance of artificial neural network models in the presence of instrumental noise and measurement errors
Giannakoglou et al. Aerodynamic shape design using evolutionary algorithms and new gradient-assisted metamodels
Jadav et al. Optimizing weights of artificial neural networks using genetic algorithms
Azadeh et al. An integrated artificial neural network fuzzy C-means-normalization algorithm for performance assessment of decision-making units: The cases of auto industry and power plant
Mahmoodi et al. A developed stock price forecasting model using support vector machine combined with metaheuristic algorithms
Buragohain Adaptive network based fuzzy inference system (ANFIS) as a tool for system identification with special emphasis on training data minimization
Jastrzebska et al. Fuzzy cognitive map-driven comprehensive time-series classification
Yeganeh et al. Using evolutionary artificial neural networks in monitoring binary and polytomous logistic profiles
Lemke et al. Self-organizing data mining for a portfolio trading system
Fountas et al. Single and multi-objective optimization methodologies in CNC machining
Mahmoodi et al. Develop an integrated candlestick technical analysis model using meta-heuristic algorithms
Janikova et al. Prediction of production line performance using neural networks
Saen The use of artificial neural networks for technology selection in the presence of both continuous and categorical data
Abd et al. A methodology for fuzzy multi-criteria decision-making approach for scheduling problems in robotic flexible assembly cells
Benaddy et al. Evolutionary prediction for cumulative failure modeling: A comparative study
Alcalá et al. Learning and tuning fuzzy rule-based systems for linguistic modeling
JP3287738B2 (ja) 関係関数探索装置
Peralta et al. Adann: automatic design of artificial neural networks
Rahaman et al. Artificial neural network for solving the inventory control problem in fuzzy environments
Marnus Integrated feedstock optimisation for multi-product polymer production

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090729

Termination date: 20210326