CN102282559A

CN102282559A - 数据分析方法和***

Info

Publication number: CN102282559A
Application number: CN2009801426244A
Authority: CN
Inventors: G·巴尔; L·兰卡施里
Original assignee: Nottingham Trent University
Current assignee: Nottingham Trent University
Priority date: 2008-10-20
Filing date: 2009-10-20
Publication date: 2011-12-14
Also published as: GB2464677A; EP2353120A1; US20110282819A1; US8788444B2; WO2010046697A1; GB0819221D0; WO2010046625A1

Abstract

本发明涉及用于鉴别输入数据和一个或多个条件之间的关系的数据分析。分析这种数据的一个方法是通过使用神经网络，神经网络是非线性统计数据建模工具，神经网络的结构可基于在训练阶段中通过网络的信息而变化。影响神经网络的已知问题是：当网络的容量明显超过所需参数时在过复杂或超特化***中出现的过训练问题。本发明提供一种利用神经网络分析数据的方法，所述神经网络具有减轻与现有技术相关的问题的受约束结构。

Description

数据分析方法和***

技术领域

本发明涉及一种分析数据的方法，并且特别地涉及使用人工神经网络(ANN)来分析数据并识别输入数据和一个或多个条件之间的关系。

背景技术

人工神经网络(ANN)或“神经网络”是包含相互连接的一组神经元的数学模型或计算模型，该数学模型或计算模型能够处理信息，以便对输入和输出之间的关系进行建模或者发现数据中的模式。

因此，神经网络可以被看作一种非线性统计数据建模工具并且通常为能够基于在训练阶段流过网络的外部或内部信息来改变其结构的自适应***。网络中的连接的强度或权重在训练期间可以更改，以便生成期望的信号流。

可以构造各种类型的神经网络。例如，前馈神经网络是最简单类型的ANN中的一种，在前馈神经网络中信息仅沿一个方向移动，并且递归网络为具有双向数据流动的模型。可使用许多其它神经网络类型。

前馈网络的一种特殊变型是多层感知器，所述多层感知器使用具有非线性激活函数的三层或多层神经元(节点)，并且多层感知器比单层感知器模型更强大之处在于多层感知器能够判别非线性可分的数据。

在学习阶段训练神经网络的能力使得网络的各个节点/神经元之间的加权函数能被改变，使得网络能够用于对输入数据进行处理或分类。各种不同的学习模型可以用于训练神经网络，例如“监督学习”，在监督学习中，与一个或多个结果或条件相关的一组实施例数据用于训练网络，使得网络能够例如对于任何给定的输入数据来预测结果。因此，监督学习可以被看作输入数据和一个或多个结果之间的映射关系的推理。

训练一个人工神经网络可包含：将网络输出与期望输出进行比较，并且利用两个输出之间的误差来调节网络的节点之间的权重。在一种学习模型中，可定义代价函数C，并且训练可包括：改变节点权重，直到不再能使函数C进一步最小化。通过这种方式，可以获得输入数据和结果或一系列结果之间的关系。代价函数的实施例可以为C＝E[(f(x)-y)²]，此处(x，y)为从某分布D取得的数据对。

在一个应用中，可以用来自从健康的患者以及从患有癌症的患者所取到的组织的基因表达数据来训练神经网络。在这个实施例中网络的训练可判别出为癌症的生物标记的基因或基因组。训练的网络可用于基于组织样本的分析结果来预测给定人患癌症的可能性。

可使用人工神经网络的另一个技术领域是气象学，例如，在一段时间内一系列地点处的温度或压力数据可用于确定在给定时间、给定地点发生降雨的可能性。

使用人工神经网络的已知问题是：当网络的容量显著超过所需自由参数时在过复杂或超特化***中出现过训练问题。该问题可能导致神经网络建议特定参数是重要的，而实际上特定参数不重要。这是由于具有较高重要性的一组参数的判别以及参数的错误检测引起的。当对未见数据/情况进行分类时，这些参数可能具有较差的性能。

本发明的一个目的是提供一种利用克服或基本减轻上述问题的神经网络来分析数据的方法。

发明概述

根据本发明的第一个方案，提供一种确定输入数据和一个或多个条件之间的关系的方法，所述方法包括如下步骤：接收被分类成一个或多个预定类别的条件的输入数据；使用输入数据训练人工神经网络，所述人工神经网络包括：输入层，所述输入层具有设置为接收输入数据的一个或多个输入节点；隐含层，所述隐含层包括两个或多个隐含节点，所述隐含层的节点通过可调节权重的连接连接至输入层的一个或多个节点；以及输出层，所述输出层具有设置为输出与一个或多个条件相关的数据的输出节点，所述输出节点通过可调节权重连接至所述隐含层的节点；确定输入数据和一个或多个条件之间的关系，其中所述人工神经网络具有受约束结构，其中，(i)隐含层内的隐含节点的数量受约束；并且(ii)节点之间的连接的初始权重受限制。

本发明提供一种分析方法，所述分析方法强调输入数据中的尤其对于预测是否可得到给定结果有用的那些参数。换句话说，与现有技术***相比，本发明的方法有效地增大了各种输入参数之间的差别或“对照”，从而识别出从预测能力的观点看最相关的参数。

本发明提供一种利用人工神经网络来确定输入数据和一个或多个条件之间的关系的方法。本发明中使用的ANN具有受约束结构，其中，ANN的隐含层内的节点的数量受约束，并且其中节点之间的连接的初始权重受限制。

因此，本发明的方法提出了一种与现有技术的普通教导相反地运行的ANN结构。在现有技术***中，隐含层的大小在所使用的处理***的约束最大化，而在本发明中使结构有意受约束以便增加网络的预测能力的有效性和高维***内的相关和非相关的标记之间的对照。与已知***相比较，本发明提供的优点在于，提高了对于识别的标记的预测性能，并且由根据本发明的方法所识别的那些标记与***内的基本处理相关。

优选地，为了使本发明的预测有效性最大化，隐含节点的数量在两个至五个的范围内。更优选地，隐含节点的数量设定为两个。

优选地，节点之间的连接的初始权重具有在0.01至0.5的范围内的标准差。注意的是，降低标准差使得人工神经网络的预测性能较差。提升标准差减少了对网络的约束。更优选地，节点之间的连接的初始权重具有0.1的标准差。

方便的是，输入数据包括被分类成一个或多个条件(例如，癌性或健康)的数据对(例如，基因或基因表达数据)。在基因数据的实施例中，那么基因可以被看作参数和作为相关参数值的表达数据。此外，输入数据可以被分组成多个样本，每个样本具有等同选择的数据对(例如，基因和基因表达数据可以细分多个个体的条件-健康/癌性)。

神经网络的训练可以方便地包括：在每个样本中选择特定参数(即，每个样本中的相同参数)，并且然后使用与所选择参数相关联的参数值来训练网络。可为所选择参数记录网络的性能，并且然后可依次为样本中的每个参数重复该过程。

本发明的第一个方案的确定步骤可包括针对已知条件对每个选择参数的记录性能进行分级，并且然后可以选出最佳表现参数。

一旦已经确定多个样本中的最佳表现参数，那么进一步的选择步骤可包括将该最佳表现参数与剩余参数中的一个配对。然后，可以使用与一对所选择参数相关的参数值进一步训练网络并且记录网络的性能。如之前所述，最佳表现参数随后可以依次与剩余参数中的每一个配对。

然后，可以重复选择、训练和记录步骤，依次将一个参数添加到已知最佳表现参数中，直到不获得性能的进一步实质的增加。

方便的是，注意的是输入数据可以被分组成多个样本，每个样本具有等同选择的数据对，每个数据对被分类成一个或多个条件并且包括参数和相关的参数值，并且本发明的第一个方案的训练和确定步骤可包括：在输入数据内选择参数，使用对应的参数值来训练人工神经网络并且记录人工神经网络的性能；对于输入数据内的每个参数重复；确定输入数据中的最佳表现参数；以及重复选择、重复和确定，每次重复将剩余参数中的一个添加到最佳表现参数组合中，直到人工神经网络的性能不再提高。

在根据本发明的一个实施方案的方法的一个应用中，参数可表示基因，并且参数值可表示基因表达数据。在另一应用中，参数可表示蛋白质，并且参数值可表示活性函数。

在根据本发明的一个实施方案的方法的其它应用中，参数可表示气象参数，例如给定地点处的温度或降雨量，并且参数值可表示相关的温度值或降雨量值。

然而，注意的是，根据本发明的方法可应用于存在在一段之间内在不同状态下出现的大量相互作用因素的任何复杂***。

根据本发明的第二个方案，提供一种确定输入数据和一个或多个条件之间的关系的方法，所述方法包括：接收被分类成一个或多个预定类别的条件的输入数据；利用神经网络来确定输入数据和一个或多个条件之间的关系，人工神经网络包括：输入层，所述输入层具有设置为接收输入数据的一个或多个输入节点；隐含层，所述隐含层包括两个或多个隐含节点，隐含层的节点通过可调节权重的连接连接至输入层的一个或多个节点；以及输出层，所述输出层具有设置为输出与一个或多个条件相关的数据的输出节点，所述输出节点通过可调节权重的连接连接至隐含层的节点，其中人工神经网络具有如下受约束结构：(i)隐含层内的隐含节点的数量受约束；以及(ii)节点之间的连接的初始权重受限制。

根据本发明的第三个方案，提供一种用于确定输入数据和一个或多个条件之间的关系的人工神经网络，所述人工神经网络包括：输入层，所述输入层具有设置为接收被分类成一个或多个预定类别的条件的输入数据的一个或多个输入节点；隐含层，所述隐含层包括两个或多个隐含节点，所述隐含层的节点通过可调节权重的连接连接至输入层的一个或多个节点；以及输出层，所述输出层具有设置为输出与一个或多个条件相关的数据的输出节点，所述输出节点通过可调节权重的连接连接至隐含层的节点；其中，所述人工神经网络具有如下受约束结构：(i)隐含层内的隐含节点的数量受约束；以及(ii)节点之间的连接的初始权重受限制。

本发明延伸到用于确定输入数据和一个或多个条件之间的关系的计算机***，所述计算机***包括根据本发明的第三个方案的人工神经网络。

将理解的是，可在本发明的第二个和第三个方案中、以及任一个方案单独或在适当的组合中提供本发明的第一个方案的优选的和/或任选的特征。

附图说明

为了更易于理解本发明，现在通过实施例的方式参考附图，其中：

图1示出了典型(已知)人工神经网络的表示；

图2图示了神经网络学习的机制；

图3为要与依据本发明的一个实施方案的人工神经网络相结合地使用的基因表达数据的表示；

图4示出了依据本发明的一个实施方案的人工神经网络；

图5为对并入依据本发明的一个实施方案的人工神经网络的***的运行进行详述的流程图；

图6示出了在使用输入数据集时依据本发明的人工网络如何发展；

图7(a)-(g)示出了来自本发明的逐步式ANN建模软件的屏幕快照图。每个图(a)-(g)表示用于模型构建和分析的软件内可提供的不同任选屏幕。

图8为示出在分析已吸收缩氨酸数据的每个步骤中添加的离子的逐步概述的曲线图；阶段IV黑素瘤对控制。标记有◆点的线表示具有表示为误差条的95％置信间隔的每个步骤的均方误差值。标记有■点的线表示具有表示为误差条的四分位间范围的在分析的每个步骤处的平均模型精度。

图9为示出患病组对控制样本的逐步式模型性能的总体概述的曲线图；

图10为示出患病组对控制样本的逐步式模型性能的另一总体概述的曲线图；

图11(a)-(c)为示出利用由ANN逐步式方法所识别的生物标记离子的主成分分析的散点图。按点的式样来区分样本组。

图12为示出由ANN识别的缩氨酸生物标记离子的平均组强度的柱状图。示出了横跨不同阶段的全部关键生物标记。

图13为对于阶段II和阶段III的黑素瘤离子861对离子903的散点图。方形■表示阶段III的样本，而圆圈●表示阶段II的样本。

图14为示出在分析过程中添加每个输入的情况下模型性能的曲线图。带有■点的线表示具有表示为误差条的下四分位间范围和上四分位间范围的平均模型精度。带有◆点的线表示在误差条表示95％的置信间隔的情况下在每个步骤中预测的均方误差。

图15(a)-(b)为示出在对于(a)***受体蛋白(ER)状况和(b)***(LN)状况的分析过程中添加每个输入的情况下模型性能的曲线图。带有■点的线表示具有表示为误差条的下四分位间范围和上四分位间范围的平均模型精度。带有▲点的线表示在误差条表示95％的置信间隔的情况下在每个步骤中预测的均方误差。

图16(a)-(b)为示出对于(a)ER和(b)LN状况对在步骤1中识别的最上面十个基因进行逐步式分析的概述的曲线图。

图17为示出随机生成模型的正态分布的曲线图。

图18(a)-(c)为示出随机模型与使用本发明的逐步式方法所生成的模型的性能比较的盒式图。

发明详述

传统线性基ANN模型的一个缺陷是，模型通常不能够对问题进行很好地泛化，并且因此模型可能仅适应于模型最初应用的数据集。仿真实验已经表明，逐步式逻辑回归在小数据集中选择重要变量方面能力有限并且因此具有过拟合的风险(Steyerberg，E.W.，Eijkemans，M.J.和Habbema，J.D.(1999)，在小数据集中的选择：逻辑回归分析中的偏差的仿真研究，J ClinEpidemiol，52，935-942)。另外，自动选择程序为非主观性的并且忽略了逻辑约束。由于已经表明模型可应用于用于验证的单个数据集并且因此能够泛化新数据，并且因此当使用这种方法时没有观察到过拟合，应用的本发明的神经网络逐步式方法不分担现有技术的限制。

图1为人工神经网络1的依赖树形表示。可以看出，图中所描绘的网络1分成三个基本层：输入层3，其接收输入数据；隐含层5；以及输出层7，其返回结果。在图1中的实施例中，存在三个输入级节点、n个隐含层节点(为了简洁起见，仅示出了其中的五个)以及两个输出级节点。

注意的是，隐含层的数量可以变化。

通过连接箭头9表示图1中节点之间的各种相互连接。对于输入层中的第一个节点，分配到与隐含层节点的连接的各个权重由权重w₁、w₂、w₃、w₄和w_n表示。为了简洁，在该图中未示出其余连接上的权重。

神经网络被设置为使得输入数据被馈送到输入层3并且随后在从输入层3传递到隐含层5时乘以相互连接的权重。在隐含层5内，数据被合计，然后由非线性函数(例如，双曲正切函数或反曲传递函数)处理。在处理的数据离开隐含层到输出层7时，数据再次乘以连接权重，随后在输出层内进行合计和处理以生成神经网络的输出。

对于多层感知器和许多其它神经网络而言最流行的训练算法中的一个是称为反向传播的算法。通过反向传播，输入数据重复地提供给神经网络。通过每次提供，神经网络的输出与期望输出进行比较，并且计算出误差。该误差随后反馈(反向传播)给神经网络并且用于调节权重，使得误差随着每次迭代而减小并且神经模型越来越靠近生成期望输出。该过程称为“训练”。

图2为神经网络1的训练的表示。在训练期间，网络重复地被供给输入数据11(在这种情况下，为排斥或数据、异或数据)。在每次供给数据11时，计算出网络输出15和期望输出17之间的误差13并且反馈给神经网络1。神经网络1利用该误差来调节其权重以使误差减小。通常重复事件的这一顺序，直到已达到可接受误差或直到网络不再表示为学习。

当训练神经网络时，学习率是在许多学习算法中发现的参数，该参数改变网络到达最小解的速度。如果速率太高，那么网络可能围绕解振荡或者背离解。如果速率太低，那么网络可能花费太多时间到达解。

在训练人工神经网络期间可改变的另一参数是动量参数，所述动量参数用于防止网络收敛到局部最小值或鞍点上。过高的动量参数过调最小值的风险。太低的动量参数可导致网络不能可靠地避开局部最小值。

已经讨论了人工神经网络的使用和训练，下面讨论在本发明的实施方案的背景下神经网络的应用。注意的是，尽管下面讨论的实施例与生物信息学相关，本文说明的发明适应于其它技术领域，例如，气象预测、污染预测、环境预测等。

图3为10个个体(样本)的高度概括的一组基因和基因表达数据。对于每个样本，相同组的基因及其相关的基因表达数据连同条件或状态一起被细分，在此情况下为“健康”或“癌性”。与图5中的流程图以及图4和图6的网络表示相关联地说明在本发明的背景下对该数据集的处理。

图4描绘了结合本发明的方法使用的人工神经网络20的最初形式。从图中可以看出，与在现有技术***中发现的20+节点相对，隐含层22仅包括两个节点(24，26)。最初，存在单一输入节点28，但是下面与图5和图6相关联地说明，输入节点的数量逐渐增加，直到神经网络的性能不能得到进一步提高。

如上所述，关于神经网络的已知问题是如下事实：神经网络可被过训练，从而实际上对于所有的输入数据参数能够获得输入数据和输出数据之间的关系。

在依据本发明的实施方案的人工神经网络中，网络被设置为提高网络识别最相关输入参数的能力。为此目的，隐含层内的节点的数量受限制，优选地在五个节点以下，尤其限制为两个节点。除此之外，节点之间的相互连接的初始权重之间的标准差也受约束。优选地，相互连接的初始权重的标准差σ置于0.01至0.5的范围内，最优值为0.1。

图5为示出依据本发明的实施方案分析图3中的数据集的方法的流程图。

在步骤40中，识别要用于分析方法中的输入变量和输出变量。在图3的数据集的实施例中，输入数据为与基因相关的基因表达数据，并且输出数据为条件(即，健康对癌性)数据。注意的是，输出节点将返回在“0”至“1”的范围内的数值输出，并且***可被设置为使得“0”对应于健康且“1”对应于癌性。

在步骤42中，选择输入(即，特定基因，例如基因C)作为对图4中所示的ANN的输入(输入1)。

在步骤44中，利用随机样本交叉验证来训练ANN。换句话说，总体数据集的子集用于训练神经网络，“训练子集”。在图3的数据集的背景下，这可能意味着，对于从样本1-3和8-10中选出的基因(基因C)的基因表达数据用于训练网络。在该训练阶段中，来自网络的输出条件(健康对癌性)可与真实条件比较。

在步骤46中，记录并存储对于输入1人工神经网络的性能。

在步骤48中，选择另一基因作为唯一输入来训练神经网络，并且***再次循环回到步骤44，从而利用该新数据再次从初始状态训练网络。例如，基因H可为要选择的下一个输入，并且然后来自样本1-3和8-10的对于基因H的基因表达数据可再次用于训练网络。

然后，对于作为网络的唯一输入的每个输入(即，图3的实施例中基因及其相关表达数据)重复步骤44和46(经由箭头50表示)，并且对于每个输入记录网络性能。

一旦训练子集中的每个输入已用作输入，***进行到步骤52，在步骤52中，根据来自真实结果的误差对各个输入分级，并且选出最佳表现输入。

在步骤54中，***继续用一对输入来训练网络，一对输入中的一个为在步骤52中识别的最佳表现输入，并且另一个是来自训练子集的其余输入中的一个。记录使用该对输入得到的网络性能。

然后，***依次使用来自训练子集的其余输入中的每一个来重复该过程(经由箭头56表示)，即，其余输入中的每一个依次与在步骤48中识别的最佳表现唯一输入配对。

一旦已经使用其余输入中的每一个，***在步骤58中识别最佳表现输入对。

然后，***返回到步骤42(经由箭头60表示)并且重复整个过程，持续地添加输入，直到未检测到人工神经网络的性能的进一步提高(步骤62)。在这点上，人工神经网络已经识别到与结果最紧密相关的输入。在图3的基因/基因表达数据实施例的情况下，***已经识别出样本个体中指向患有癌症的数据集的基因生物标记。

图6a-c示出了通过图5的流程图的前几个循环人工神经网络20的发展。在图6a中，神经网络如图4中所示。为与输入1相关的基因表达数据提供单个输入28。

在图6b中，已经基于未见(模型未见)验证集的性能选出最佳表现单一输入(步骤52)，并且***已经进行到测试输入对的性能。因此，输入层中的节点的数量增加为两个节点(28，30)。隐含层中的节点的数量仍限制为两个，并且相互连接的初始权重类似地受约束(按照图4中的设置)以便优化网络性能。

在图6c中，已经选出最佳表现输入对(包括来自图6a的最佳唯一输入以及在图6b中识别的另一个输入)，并且***已经继续到测试三个输入(28，30，32)的性能。隐含节点和初始权重构造保持不变。

继续添加另一个输入节点，直到未识别到网络性能的进一步提高。

本发明的ANN表明了在分析从不同源生成的复杂数据集方面重大的技术利用。在使用本发明的一个实施例中，分析来自癌症患者的临床数据，以便确定癌症的诊断性和预后性基因指示。在使用本发明的另一个实施例中，分析气象测量值以便提供另外天气模式的预测。本发明表明了在洋流测量、金融数据分析、流行病、气候变化预测、社会经济数据的分析和车辆交通移动的领域中的进一步利用，仅列举了几个领域。

癌症预测：

癌症在美国为死亡的第二主要原因。估计10.1百万美国人之前被诊断出患有癌症而生活着。在2002年，在美国一百万以上的人最新诊断出患有癌症(来自疾病控制防治中心的信息，2004年和2004年，以及国家癌症研究院，2005年)。根据UK的癌症研究，在2005年，在英国超过150,000的人由于癌症而死亡。在疾病发展的早期阶段中检测出癌症是使得能有效地处理疾病以及延长感染个体的寿命的关键因素。癌症筛查试图检测人群中的(未诊断)癌症，以使能进行早期的治疗干预。用于检测和/或预测癌症的筛查有利地适用于测试大量的对象；可普及；安全；非侵入性；以及精确(即，呈现出低比率的错误肯定)。

当前，对于转移性黑素瘤不存在临床性验证标记。已经由来自带有黑素瘤的患者在各个患病阶段的人血清样本的质谱分析(MS)蛋白轮廓获得数据。利用本发明的逐步式ANN方法，已经识别出蛋白质离子来以超过90％的精度将阶段IV黑素瘤患者与健康控制区分开。利用相同的方法来分析吸收缩氨酸的蛋白轮廓，离子被识别出，这以100％的精度预测样本的验证子集。这里识别的离子组以难以置信高的灵敏度和特异性将阶段IV转移性黑素瘤与健康控制区分开。当理解到常规S-100ELISA通过例行临床和放射照相研究通常在带有可检测转移灶的患者中产生报告的20％‘错误否定’率时，这点甚至更加重要。

之前已经报告了利用SELDI芯片由质谱分析法得到的潜在血清蛋白质黑素瘤生物标记离子(Mian等人(2005)，血清蛋白指纹法区分临床阶段并且预测黑素瘤患者的疾病进展，J Clin Oncol，23，5088-5093)，其中约11,700的质量区域提供了阶段I和阶段IV黑素瘤样本之间的在强度上高度显著的统计差别。在本发明的实施例中，下面更加详细地说明，MALDIMS方法用于生成具有较高分辨率的更快速数据分析。这些数据随后经过逐步式ANN分析，并且九个离子被识别出来区分黑素瘤阶段IV和健康控制血清。由血清蛋白质的ANN进行的这种分析在区分来自阶段IV黑素瘤和控制患者的血清时产生了92％的平均精度(四分位间范围89.4％-94.8％)。在m/z 12000处的顶离子能够以64％的平均预测精度(四分位间范围58.7％-69.2％)来区分类别。该离子在质量上与还是对于之前报告的阶段IV转移性癌症(Mian等人，2005)利用SELDI技术报告的m/z 11700的生物标记离子类似。差别可归因于如下事实：当用于区分阶段I黑素瘤对阶段IV患者时，发现该离子是重要的，而在这里当在IV黑素瘤和未感染健康控制个体之间进行分类时，识别出在m/z 12000处报告的离子。此外，在Mian及其同事的原稿(Mian等人，2005)中，预测性能主要基于利用低分辨率MS装备从与内在低分辨率读出相关的CiphergenSELDI芯片平台获得的谱，而这里利用较高分辨率的MALDI-MS分析仪来执行蛋白质生物标记检测，因此11700的m/z值可具有与其相关联的某个变型。尽管两个研究使用了ANN，所应用的方法是不同的；在这里，使用了新颖的逐步式分析方法，这使得可以高预测性能来识别个体质量离子，而SELDI分析(Mian等人，2005)使用了较大的质量范围来识别轮廓的在区分组时重要的区域。因此，重要的是，考虑不同的数据挖掘技术可推导出具有不同重要性的不同标记。

六个预测性缩氨酸的生物信息序列分析识别出属于阿尔法1-酸糖蛋白(AGP)前体1/2(AAG 1/2)的两个缩氨酸离子，当在预测模型中一起使用时，该两个缩氨酸离子可解释95％(47/50)的转移性黑素瘤患者。另外，识别出缩氨酸离子中的另一个并且确认与补体C3组分相关联。两个蛋白质之前已经在其它类型的癌症中与转移性疾病相关联(Djukanovic，D等人(2000)，S100蛋白质和作为恶性黑素瘤的血清标记的MIA蛋白质的比较，Anticancer Res，20，2202-2207)。这进一步确认了在本发明中取得的方法的值。其他研究也已表明，在癌症中发现了AGP的增长级别(例如，参见Duche，J.C.等人(2000)，癌症中人阿尔法-1-酸糖蛋白的遗传学变型的表达，Clin Biochem，33，197-202)。AGP，高异质性糖蛋白，为主要在肝中产生的急性期蛋白质。然而，AGP的生理重要性尚未完全理解，并且因此AGP不代表期望的黑素瘤生物标记。

为了进一步评估本发明的方法是否也可被执行用于分析与蛋白性数据相对的基因表达数据，依据本发明来分析两个公共可获得的数据集。这两个数据集与乳腺癌相关。第一个是由van’t Veer及其合作者公布的数据集(van’t Veer等人(2002)，基因表达轮廓预测乳腺癌的临床结果，Nature，415，530-536)，并且这里使用的目的是识别基因的子集，这可将在五年内发展了远转移灶的患者和在五年内没有发展远转移灶的患者精确地区分开。由van’t Veer及其合作者进行的最初分析(van’t Veer等人，2002)使用了一种形式的非监督聚类和监督分类，由此通过带有疾病结果的表达的相关系数来选择基因。这种方法使得识别出一个70基因分类器，该70基因分类器正确地预测疾病结果达到83％的精度。本发明的ANN逐步式方法使得识别出了二十个基因，这在多个随机样本交叉验证重采样事件中对于盲数据精确地预测患者预后达到100％的平均精度。构成这种表达标志的基因中的一些之前已经与癌症结果相关联。例如，由我们的模型识别出的第一个基因为碳酸酐酶(Carbonic Anhydrase)IX，并且能够通过其自身对70％的样本进行正确地预测。由于碳酸酐酶IX(CA IX)对结肠直肠肿瘤增强了表达和异常定位，碳酸酐酶IX(CA IX)已被建议功能性地包含在发病机理中(Saamio，J.等人(1998)，用于表达电位值作为细胞增殖的标记的新颖跨膜碳酸酐酶MN/CA IX的结肠直肠肿瘤的免疫组织化学研究，Am J Pathol，153，279-285)。由于CA IX的表达与颈细胞癌相关，CA IX还已被建议用作诊断性生物标记(Liao，S.Y.等人(1994)，识别MN抗原作为颈上皮鳞屑和腺瘤形成和颈肿瘤的诊断性生物标记，AM J Pathol，145，598-609)。意外的是，由本发明的ANN方法识别为重要的二十个基因中的七个代表表达序列标签(EST’s)，并且因此相关的基因具有未知的功能。然而，假定这些基因关于残存具有新发现的预测能力，现在证实进一步的临床分析。

另一个数据集由West等人公布(West，M.等人(2001)，利用基因表达轮廓来预测人乳腺癌的临床状况，Proc Natl Acad Sci USA，98，11462-11467)，并且本发明的ANN逐步式方法应用于该数据集以便识别基因组来精确地预测患者的***受体蛋白(ER)状况和***(LN)状况。West及其合作者的最初分析使用了回归模型，以便计算出对于各种结果的分类概率。在他们的研究中，当分析ER状况时，识别出一个100基因分类器，该分类器精确地且可信地预测了在训练集中使用的38个样本中的34个，并且在交叉验证中表现良好。利用相同的方法，作者识别出一个100基因分类器，该分类器可根据在训练集中使用的样本的***状况对样本的训练集进行分类。然而，这种方法在交叉验证期间在预测LN状况方面不太成功，其中所有的LN+情况具有近似0.5的估计概率，表明这些预测包含了很多的不确定性，可能是由于这些样本的表达轮廓的变化的高级别。利用本发明的逐步式方法，识别出两个基因表达标志。第一个将关于对于ER而言样本是否为正或负的情况100％正确地区分开，并且第二个预测肿瘤是否已扩散到腋***，也是100％的精度。这里所报告的精度是来自于多个单独验证数据拆分，使用随机样本交叉验证在50个模型中将样本处理为盲数据。

显然，本发明的逐步式ANN方法提供了优于之前使用的技术的显著优点，不仅以提高的预测能力对生物标记进行离子识别，而且识别出用于诊断性和预后性癌症预测的新颖生物标记。

作物产量预测

本发明的运算方法还可应用于作物生产率的应力效应的预测。自然环境包含了许多在一段时间内相互作用的因素，这些因素可对作物产量有影响。这些因素包括：气候因素，诸如温度、光和湿度；土壤因素，诸如养分、pH、盐度、和可用水；空气、水和土壤中的污染物；虫害和疾病。这显然是在一段时间内在不同状态下发生极大量的相互作用因素的复杂***。因素还是非线性的并且可以彼此相互作用。在该背景内，根据本发明的ANN方法可应用于对这些相互作用及其对作为生产率的影响进行去卷积并且因此在给定的一组条件下预测产量。

这里所说明的方法的优点在于，该方法可识别出可用其预测产量的参数的最优子集。这些参数可有助于作物管理和产量最优化的应用。

通过下面的非限制性实施例进一步阐述本发明。

实施例

采用计算方法来分析染色体组数据，以便识别出对应于患有癌症的患者的预后性结果的基因、蛋白质或基因/蛋白质标志。遗传型性状且随后表型性状确定细胞行为，并且在为癌症的情况下，支配细胞对治疗的感受性。由于肿瘤细胞在遗传上是不稳定的，假定细胞的子种群出现的情况是：假设更具攻击性的表型，能够满足侵入和转移所需的要求。表示肿瘤攻击的生物标记的检测应当是显然的，并且因此对这些生物标记的识别将对于早期疾病诊断、预后和对治疗的响应具有相当重要的价值。

本发明已研究出了用于确定用于在临床实际时间段内预测癌症且不要求过大处理功率的最优染色体组/蛋白形标志的新方法。该方法利用ANN并且以类似于逐步式逻辑回归的形式依次包括：基于预测性能和误差选择输入神经元并且将神经元添加到网络中，以便识别出最优癌症生物标记子集。

三个数据集用于测试和验证本发明的方法。第一个询问带有不同阶段黑素瘤的人血清样本。从德国癌症研究中心(DKFZ，Heidelberg，Germany)收集到的样本，在诺丁汉特伦特大学(Nottingham Trent Universitiy)(特伦特，英国)通过MALDI-TOF MS对样本进行分析。其余的两个数据集为公共可获得的数据集，两个均源自于从乳腺癌患者获取的基因表达数据。

第一个数据集从用于黑素瘤血清样本的MALDI MS分析中获取。在这里的目的是首先将健康控制患者与那些处于四个不同的临床阶段I、II、III和IV的患有黑素瘤的患者进行比较，从而识别出表示阶段的生物标记离子。其次，对相邻阶段进行比较性地分析，目的是识别出代表疾病进展的潜在生物标记。然后，在单独从第一个生成的第二组样本轮廓上对开发的所有模型进行验证。该数据集在每个样本中包含了24,000个变量。

由van’t Veer等人公布的第二个数据集(van’t Veer等人，2002)使用了微动脉造影技术来分析与转移的发展相关的主要乳腺瘤组织。作者在78个乳腺癌患者的组群中通过基因表达分析生成了数据，78乳腺癌患者中的34个在五年内发展成远转移，并且44个在至少五年之后保持不患病。每个患者具有24,482个对应变量，这些对应变量指定单个已知基因或表达序列标签(EST)的Log₁₀表达率。

由West等人(West等人，2001)公布的第三个数据集使用微动脉造影技术，假设提供与转移状态有关的信息，首先分析与***受体蛋白(ER)状况相关的主要乳腺肿瘤，其次评估肿瘤是否已扩散到腋***(LN)。该数据集包含13个ER+/LN+肿瘤、12个ER-/LN+肿瘤、12个ER+/LN-肿瘤、和12个ER-/LN-肿瘤，每个样本具有7,129个对应基因表达值。然后，使用第二个数据集(Huang等人，2003)在不同的微动脉造影芯片上运行来验证这里说描述的方法，使得第二个数据集的与第一个数据集相同的组可用，并且第二个数据集包含不同种群的患者。

逐步式方法方法论

人工神经网络结构

ANN建模使用监督学习方法，具有反曲传递函数的多层感知器结构，其中通过反向传播算法来更新权重。学习率和动量分别设定为0.1和0.5。在训练数据之前，使用最小值和最大值在0和1之间线性地按比例缩放数据。这种结构在单个隐含层中使用了两个隐含节点，并且初始权重在0和1之间随机取值。之前已经表明这种方法是在诸如该***的高维***内突出关键输入的重要性、同时生成了具有精确预测度的泛化模型的成功方法(Ball等人，2002)。

人工神经网络模型的开发

遍及所有数据集应用相同的方法，唯一的区别是样本的数量和输入变量。这里，作为一个实施例，将对应用于van’t Veer数据集的方法进行说明。按其原始形式采用来自微动脉造影实验的数据。该数据包含78个样本，每个样本具有指定每个单基因的表达率的24,482个对应变量。在训练每个模型之前，将数据随机地分成三个子集；60％用于训练，20％用于测试(在训练过程中评估模型的性能)，并且20％用于验证(在先前未见的数据上独立地验证模型)。该过程称为随机样本交叉验证并且使得能对于单独盲数据集的预测生成置信间隔，从而生成鲁棒的、泛化的模型。

最初，来自微动脉造影数据集的每个基因在网络中用作个体输入，从而生成n(24,482)个个体模型。然后，在50个随机选择的子集上训练这些n个模型并进行网络预测，并且关于单个验证集对于每个模型计算出这些预测的均方误差值。基于盲数据的均方误差值按升序对输入进行分级，并且选择表现出最低误差的模型用于进一步训练。因此，在模型开发的每个步骤中训练和测试1,224,100个模型。

接下来，然后将剩余输入中的每一个依次添加到之前的最佳输入，生成n-1个模型，每个模型包含两个输入。重复训练并评估性能。然后，选择对数据建模表现出最佳能力的模型并重复该过程，生成n-2个模型，每个模型包含三个输入。重复该过程，直到不再从进一步输入的添加获得显著的提高，使得最终的模型包含对数据进行最精确地建模的基因表达标志。

该过程需要对可能的无数个模型进行训练和测试。为便于实现这点，已经利用微软可视基本生成了自动运行程序的软件。在这里，自动地添加输入，在每个步骤中选择最佳竞争者生物标记。图7(a)-(g)示出了可用于ANN设计和分析的各个选项进行详述的软件设计(注意的是，图7(a)至7(g)的屏幕快照仅为表示性的，并且实际的布局可以不同)。运行算法的整个过程可概述如下：

1.识别输入变量和输出变量

2.以输入1作为模型的第一个输入开始，输入₁

3.利用随机样本交叉验证来训练ANN

4.记录对于输入₁网络的性能

5.利用所有输入输入₂…输入₃…输入₄…输入_n作为ANN模型的唯一输入来重复步骤3和4

6.基于测试数据拆分的误差按升序对输入进行分级，以便确定在该步骤中的最佳表现输入，输入_i

7.与输入_i依次使用ANN模型中的每个输入从步骤2重复

8.为该步骤确定最佳表现输入组合

从步骤3重复这整个过程，持续地添加输入，直到不再从进一步输入的添加获得提高。

结果

黑素瘤数据集的分析

控制和阶段IV疾病样本的分析：蛋白质和缩氨酸数据

因为转移性黑素瘤不存在确认性血液标记，我们尝试利用相同的逐步式ANN方法来开发经验证的、鲁棒的和可再现的MALDI MS方法论来描绘血清蛋白质和胰蛋白酶吸收的缩氨酸。将该方法论应用于从MALDI MS分析获取的数据，代表(i)蛋白质，以及(ii)来自控制和患病样本的吸收缩氨酸数据。对这些数据集实施各种分析，以便识别出表示表1中所示的类别的生物标记离子。

表1：所做分析的总结(i)

分析	类别1	类别2
			蛋白质离子分析1	健康控制	阶段IV黑素瘤
胰蛋白酶缩氨酸离子分析1	健康控制	阶段IV黑素瘤

包含来自蛋白质数据的9个离子和来自吸收缩氨酸的6个离子的生物标记模式被识别出，当组合使用时，该生物标记模式正确地区分控制样本和阶段IV样本分别达到92.3％(四分位间范围89.4％-94.8％)和100％(四分位间范围96.7％-100％)的平均精度。表2a-b示出了在对蛋白质和缩氨酸数据分析的每个步骤中模型的性能。这表明，随着连续的添加关键离子，总体提高了与模型对于盲数据的预测能力相关的误差以及对于样本正确分类的平均精度。由于通过进一步添加离子未见预测性能有显著提高，九个离子被确定为对于蛋白质数据产生最佳模型性能的生物标记离子的最有效子集。对于缩氨酸数据来说，超过步骤6不进行进一步的步骤，因为在这些步骤之后不能获得性能的显著提高。因此，这些模型被认为包含了代表蛋白质或吸收缩氨酸的离子的对数据进行最精确建模的子集。图8示出了当将逐步式方法用于生物标记识别时缩氨酸数据的误差和性能进展。

表2a：在分析的每个步骤中识别的阶段IV对控制蛋白质离子的总结

步骤	蛋白质离子	平均精度(％)	四分位间范围
				1	12000	64.1	58.7-69.2
2	14847	73.2	69.8-75.8
				3	1649	80.4	77.4-83.3
4	15477	80	77.9-84
				5	13255	82.7	79.1-85.2
6	3031	83.8	79.8-86.1
				7	4791	87	83.9-90.4
8	9913	86.6	83.2-89.8
				9	4835	92.3	89.4-94.8
10	15269	90.4	87.2-92.6
				11	2730	90.3	87.1-92.2
12	9919	90.4	87.3-92.5
				13	9971	91.9	88.3-94
14	11735	90.4	87.1-92.5

表2b：在分析的每个步骤中识别的阶段IV对控制吸收缩氨酸离子的总结

步骤	缩氨酸离子	平均精度(％)	四分位间范围
				1	1753	77.8	74.4-83.2
2	1161	93.3	90.2-96.4
				3	1505	93.7	92.4-96.7
4	854	96.7	95.8-100
				5	1444	100	96.5-100
6	1093	100	96.7-100

吸收缩氨酸数据的分析：患病阶段I、II、III和控制样本

接下来，因为缩氨酸数据的分析为随后的蛋白质识别提供了可能，决定在对有差异的生物标记离子的研究中分析这些缩氨酸MALDI MS轮廓，有差异的生物标记离子将代表首先是疾病阶段(通过针对控制种群分析单个阶段)、其次是疾病进展(通过生成对相邻疾病阶段之间进行分类的预测模型)。在研究的这一部分中所做的分析总结在表3中。

最初，为了识别代表疾病阶段的离子，应用逐步式方法来识别生物标记离子的可预测疾病阶段和控制样本的子集。因此，这将提供与哪些缩氨酸离子正表现出专属于所关心疾病阶段的有差异强度有关的重要信息。表4示出了在每个模型中识别的生物标记子集，以及当在50个随机样本交叉验证重采样事件中预测数据的验证子集时这些生物标记子集的平均性能。图9示出了对于分析的每个步骤遍及所有模型的逐步式分析概述。如所期望的，以最小精度(80％)预测阶段I对控制的模型建议，由于早期阶段的疾病为非穿透皮肤表面团，与在疾病的高级阶段中相比，血清在蛋白质级发生的变化较不显著。尽管如此，观察到利用血清预测阶段I黑素瘤的发生率达到80％的精度的能力在临床上显著。有趣的是，注意到在通过该方法识别的生物标记离子中，在几个实例中，遍及不同的模型出现了相同的离子。发现离子1299和3430(3432)在阶段I和阶段II疾病二者对控制样本之间是有差异的。发现离子1251和1283(1285)在阶段II和阶段III疾病二者对控制之间是有差异的，而在阶段III和阶段IV患病二者对被控模型中识别出离子1753(1754)。

表3：所做分析的总结

分析	类别1	类别2
			胰蛋白酶缩氨酸离子分析2	健康控制	阶段I黑素瘤
胰蛋白酶缩氨酸离子分析3	健康控制	阶段II黑素瘤
			胰蛋白酶缩氨酸离子分析4	健康控制	阶段III黑素瘤
胰蛋白酶缩氨酸离子分析5	阶段I黑素瘤	阶段II黑素瘤
			胰蛋白酶缩氨酸离子分析6	阶段II黑素瘤	阶段III黑素瘤
胰蛋白酶缩氨酸离子分析7	阶段III黑素瘤	阶段IV黑素瘤

考虑在50个随机样本交叉验证重采样事件中在分析的每个步骤对3500个个体离子进行训练和测试，假定相信这些离子代表在处于不同患病阶段的患者中表现出强度的真正变化的蛋白质，看起来不可能的是：在给定步骤中将这些个体离子一致地识别为最重要离子将是偶然的结果。

相邻患病组的分析

一旦已经确定代表单个疾病阶段的生物标记离子，决定分析相邻疾病阶段组是重要的，这将可能识别出在疾病发展时代表那些不同响应的生物标记离子并且给将预测并表示疾病阶段。表5示出了在每个模型中识别出的生物标记子集，以及当生物标记子集在50个随机样本交叉验证重采样事件中预测数据的验证子集时的平均性能。有趣地发现，可识别出能够预测阶段达到非常高的精度的离子的子集；对于阶段I对阶段II为98％，并且对于阶段II对阶段III以及阶段III对阶段IV为100％。此外，仅需要两个缩氨酸生物标记离子，以便使用这些离子中的一个903将阶段II和阶段III完美地区分开，该离子在对阶段III对阶段IV进行分类时也是重要的，表明该离子可能对于进展到高级阶段的疾病是重要的，并且在黑素瘤阶段从阶段II前进到阶段IV时，该离子表现为减量调节，这仅可通过进一步的研究进行确认。

表4.来自吸收缩氨酸分析阶段I、II、III和IV对控制的总体结果的总结，以粗体突出显示的缩氨酸离子代表与多个组对应的离子

表5.来自吸收缩氨酸分析阶段I、II、III和IV对控制的总体结果的总结，以粗体突出表示的缩氨酸离子代表与多个组对应的离子

在图10中可以看到这里所进行的逐步式分析的总体概述。为了使这些样本所占据的特征空间可视化以及理解这些模式生成的决策面，利用由ANN逐步式方法所识别的离子的子集进行PCA。图11(a)-(c)分别示出了对于阶段I对阶段II、阶段II对阶段III以及阶段III对阶段IV模型的PCA。显然可知，当使用由ANN识别的生物标记离子时，可利用PCA将样本分离成不同的聚类，最清楚的分离为阶段II对阶段III模型的分离。有趣地注意在阶段I对阶段II模型中由箭头和圆圈所强调的样本(图11(a))。这些样本中的第一个识别为阶段I样本，但是根据其轮廓，PCA使其更加表示阶段II。有趣的是，ANN模型也将该样本预测为阶段II样本，表明该样本具有与比医师所分类的阶段I样本更加对应的阶段II样本的强特征。类似地，ANN也预测在图11(b)上突出强调的表现为位于决策面的边界上的样本的区域接近于0.5的决策阈值，再次表明根据这些样本的蛋白形轮廓这些样本表现出两个类别的特性。根据图11(c)阶段III和阶段IV样本的特征空间的相对靠近表明，这些样本的蛋白形轮廓相似，并且当利用ANN建模时不能像使用PCA清晰分离那样进行分离，因此要求非线性决策面对处于更高级疾病阶段的这一组群样本进行正确地分类。此外，已经分析了这些离子的平均组强度，总结示于图12中。图12表示了在不同的疾病阶段中识别为在区别样本组方面非常重要的生物标记离子如何变化。从图12中显然的是，不是所有的这些生物标记离子在疾病进展时被增量调节。在阶段I对阶段II分析中识别的全部五个离子表示，在统计上强度显著(p＝＜0.05)增加。在阶段II对阶段III模型中，当疾病更加高级时，两个生物标记离子表现为减量调节，离子861显著地减量调节。生成了在该模型中识别的两个离子861和903的散点图(图13)，并且阶段II和阶段III样本的清楚分离是显而易见的，阶段III样本清晰地表示离子861的较小级。这使得能够获取两个类别之间的假想决策边界。在阶段III对阶段IV模型中，在疾病进展时，所有离子(除了离子2754之外)表现出强度的显著增大或减小，在疾病进展到阶段IV时，离子1625表现出强度的极显著增大。

模型验证

为了研究在多个实验中该程序的稳定性问题以及评估质谱分析的批量到批量可再现性，在两种单独的情形下按组运行蛋白质和缩氨酸，并且第二个实验的结果用于验证逐步式方法论。该数据集通过不同的操作员且在不同的日期获得。然后，将第二个样本集输入到开发的ANN模型中以便将第二个样本集盲分类为用于类别分配的第二阶盲数据。对于蛋白质数据，模型将这些盲样本中的85％进行了正确地分类，灵敏度和特异值分别为82％和88％，当用ROC曲线进行评估时AUC值为0.9。对于缩氨酸，模型将源自于控制患者的47个样本中的43个以及来自癌症患者的43个样本中的43个进行正确地分类。这得到了95.6％的总体模型精度，灵敏度和特异值分别为100％和91.5％，AUC值为0.98。这表明，对于这个第二批量的质谱分析，缩氨酸数据比蛋白质数据更易于再现。合作者随后利用各种质谱分析技术对预测性缩氨酸离子进行排序和识别，结果识别出两个蛋白质；阿尔法1-酸糖蛋白(AGP)前体1/2(AAG 1/2)以及补体C3组分。

van’t Veer等人的数据集的分析

分析的目的是使用本发明的新颖的逐步式ANN建模方法来识别基因表达标志，该基因表达标志将精确地预测患者在五年时间段内是否发展远转移，并且因此识别潜在标记并且对疾病病原学具有深刻见解。遵从建议应当使用拟合数据的最简单模型的节俭规则，利用逻辑回归进行初步分析(Subasi和Ercelebi(2005)，计算方法程序，Biomed.78(2)：87-99)。该方法具有差的预测性能，平均精度仅为53％(四分位间范围为47％-61％)。利用逻辑回归，可能的缺点是数据集内大量独立变量之间的自相关，这可能是差的预测性能的原因所在，表明了该数据集是非线性可分的。

应用该方法使得识别出了包含二十个基因的基因表达标志，该基因表达标志预测患者预后达到100％的平均精度(四分位间范围为100％-100％，均方误差为0.085)，其中利用随机样本交叉验证在50个模型中将样本处理为盲数据。整个筛查过程评估了一千万以上的单个模型。当使用ROC曲线进行评估时，模型具有0.971的AUC值，灵敏度和特异值分别为98％和94％。图14示出了在分析的每个步骤中模型的性能。显然的是，连续添加关键基因使得模型的预测能力总体提高。模型在步骤10和11处表现出性能下降，这可能是由于存在于这些步骤中的基因与模型中的一个或多个其他基因之间可能的相互作用。在这点之后，模型仍进一步提高，直到步骤二十，因此步骤二十被认为包含了对数据最精确地建模的基因。由于不能获得性能的显著提高，因此不进行进一步的步骤。在表6中给出了在每个步骤中模型的性能的总结以及基因(已知的)的强度。

表6.在模型开发的每个步骤中在基因表达标志中使用的二十个基因的总结

示出了平均精度、下四分位间范围和上四分位间范围、基因名称(已知的)及其描述。

为了进一步验证模型，选择另外一组19个样本，与原稿中相同(van’tVeer等人，2002)。该组包含了保持无转移的7个患者，以及在五年之内发展转移的12个患者。已正确识别的20个基因表达标志正确地诊断了共19个样本，进一步强调了本模型的预测能力。

West等人的数据集的分析

这里的目的是识别出基因表达标志，所述基因表达标志将首先精确地预测***受体蛋白(ER)状况，其次是判定是否可以生成包含有基于***(LN)状况将患者进行区分的基因的鲁棒模型。如之前所述，利用逻辑回归进行了初步分析，再次得到差的预测性能，对于ER数据，平均精度为78％(四分位间范围为67％-88％)，而对于LN数据集，仅为56％(四分位间范围为44％-67％)，这与利用随机分类器所得到的预测相当。

在这里，利用逐步式方法，识别出两个基因表达标志。第一个对于基因表达标志对于ER是否为正或负的情况做出了100％正确地区分，并且第二个预测是否已发生肿瘤向腋***的转移，达到了100％的精度。再次，报告的精度来自于单独验证数据拆分，利用随机样本交叉验证在50个模型中将样本处理为盲数据。整个筛查过程评估了五百万以上的单个模型。当使用ROC曲线进行评估时，模型具有在1.0曲线值以下的面积，对于ER和LN状况而言，灵敏度和特异值分别均为100％和100％。图15(a)-(b)示出了在分析的每个步骤中模型的性能。显然的是，连续添加关键基因使得与模型对于盲数据的预测能力相关的误差总体提高。在分别对于ER和LN数据的步骤8和步骤7之后，由于不能获得性能的显著提高，不进行进一步的步骤，因此这些模型被认为包含了对数据最精确地建模的基因。在表7a-b中给出了在每个步骤中模型的性能的总结，以及这些模型的鉴定。

利用由所描述的方法识别出的基因子集开发的模型应用于来自Huang及其同事的88个样本(Huang等人(2003)Lancet，361，1590-1596)。然后，如同第一个数据集一样，基于ER和LN状况对这些样本进行分类。基于ER状况可对样本中的88.6％进行正确地分类，灵敏度和特异值分别为90.4％和80％。基于LN状况可对样本中的83％进行正确地分类，灵敏度为86.7％，并且特异值为80％。对于ER和LN基因子集模型，ROC曲线的AUC值分别为0.874和0.812。期望的是，当模型应用于这个另外的数据集时，预测精度将减小，但是由于较大的样本大小、样本特性的差别以及上述微动脉造影分析这里所报告的精度保持得非常好。以比LN状况较高的速率预测ER状况的能力表明，与ER相比，对于LN状况基因表达轮廓存在较大级别的变化。

表7a-b.对于(a)ER状况和(b)LN状况，在模型开发的每个步骤中基因表达标志中使用的基因的总结

(a)

示出了平均精度、下四分位间范围和上四分位间范围、基因附属编号、基因描述。

(b)

多个生物标记子集的识别

上述逐步式方法论便于识别出生物标记中对于给定的复杂数据集能够精度地建模并预测样本类别的子集。为了便于更快速地进行生物标记子集分析，所描述的逐步式方法仅在分析的每个步骤中添加了最佳表现生物标记。尽管这看起来是生物标记识别的非常鲁棒的方法，问题在于是否有生物标记的存在于数据集内的另外的子集，该另外的子集也能够以高精度预测类别。如果这点为真，那么这将引起对被建模***的进一步的理解，并且如果多个生物标记要出现在多于一个的模型子集中，那么这将进一步验证它们的鉴别，并且增强了它们在保证进一步调查的疾病状况中潜在的作用。

为了达到这些目的，如之前一样使用相同的West数据集(West等人，2001)。从表8a-b中可以看出，除了在步骤一中分级的一个生物标记的编号(该生物标记随后用作之前说明的基因生物标记标志的基础)之外，存在其它几个潜在候选的生物标记，这些生物标记本身能够将样本种群的大部分分类到它们各自的类别。因此，对于ER和LN状况，对在分析的步骤一中识别的其余前十个基因中的每一个进行单独的逐步式分析。

结果

表8a-b.对于(a)ER和(b)LN状况步骤1分析的总结。表示出了在分析的步骤1中识别的排名前10的基因的基因表达和各自的预测性能。

(a)

级号	基因ID	盲性能
			1	GATA3	89.8
2	ESR1	87.6
			3	SLC39A6	85.5
4	EST	85.3
			5	HSD17B4	83.3
6	EST	84.2
			7	AR	83.0
8	LAD1	84.0
			9	SCNN1A	84.2
10	MAPT	80.2

(b)

级号	基因ID	盲性能
			1	EST	80.4
2	GYPA/B	70.9
			3	BLM	71.2
4	ACVR1B	70.4
			5	EST	64.3
6	WNT5A	66.7
			7	RELB	61.3
8	GK	64.1
			9	PDE4B	64.3
10	TLE1	64.7

图16(a)-(b)示出了对于(a)ER和(b)LN状况对所有这些基因的分析的每个步骤中的网络性能。显然的是，所有这些子集具有以极高精度对样本的盲子集进行预测的能力，各个模型之间无显著差别。这表明，可能存在多个基因响应于疾病状况而起作用，随后改变各个通路并且改变许多其他基因的表达级别。值得注意的是，这些基因中的一些在许多模型中被识别出(表9)，例如，EST出现在十个模型中的七个中，进一步强调了EST在LN状况上的潜在重要性。这表明了，不一定仅存在与所关心的特定疾病状况有关联的一组生物标记，而是可存在多组，并且当生物标记中的一个特定子集以其表示疾病状况这样的方式受影响时，那么该特定子集最终可能对许多其他生物标记具有级联影响，以类似的方式改变这些生物标记的表达。

表9.在(a)ER和(b)LN状况中在多于一个的模型中发生的在多个逐步式建模中识别的基因的总结

(a)

基因ID	真实基因名称	出现次数
			CYP2B6	细胞色素p450多肽6	3
CTSC	组织蛋白酶c	3
			GATA3	Gata结合蛋白质3	2
EST	EST	2
			CYP2A7	细胞色素p450多肽7	2
LRRC17	亮氨酸强重复	2
			NFKBIE	负唇须节的核因素	2
COX6C	细胞色素c氧化酶	2
			HLF	肝白血病因素	2
IGLC	免疫球蛋白蓝达	2
			ZBTB16	锌指	2
RTN1	网状细胞1	2

(b)

逐步式分析验证

为了提供通过逐步式方法在上述所有分析中识别的生物标记子集不是由于数据集的高维度而随机的进一步证据和置信，进行两个验证练习。首先，从数据集中随机地选出十个输入并且在与逐步式方法相同的ANN模型中在50个随机样本交叉验证事件中对十个输入进行训练。该过程重复1,000次，并且在表10中呈现了总结的结果。

从表10中显然可知，通过这些随机输入子集生成的模型之间的变化小，表明随机生成的模型对于盲数据预测样本类别的精度能够在64％的区内。这些模型几乎不能预测得显著高于该值，在图17中突出显示，图17详述了遍及各个模型模型性能的分布。数据服从正态分布，因此，随机模型不可能产生输入的能够具有极高分类精度的子集，表明这里所描述的使用逐步式ANN方法进行建模选择的是能够以生物相关的方式将所关心的组区分开的输入。

图18(a)-(c)强调了随机生成的模型的性能与使用逐步式方法为van’tVeer和West基因表达数据集(van’t Veer等人，2002；West等人，2001)所开发的模型的性能之间显著性。

这些结果表明，随机分类器将真正按照期望得到接近于随机的分类精度，并且因此可以这样讲，逐步式方法真正识别出了输入的对未见数据进行很好预测的子集。

现在，需要调查的是，如果在几个不同的情形下运行分析，每次以相同的数据集开始，这种逐步式方法是否将识别出相同的输入。为实现这点，在van’t Veer数据集上运行并训练逐步式分析，并且随后进行训练，样本随机地划分成训练子集、测试子集和验证子集10次、20次、50次和100次。然后，重复该过程五次来计算各个输入的级别关于模型性能一致的程度。对于前五十个最重要的输入计算该一致度，并且该一致度是基于模型的平均误差的实际级别与多次运行的平均级别的比率。在表11中对上述这些情况进行了总结。

表10：随机输入选择的总结结果

汇总统计	验证数据精度	验证数据误差
			平均	64％	0.495
标准差	0.024	0.014
			标准误差	0.0000245	0.0000141
95％置信间隔	0.0000489	0.0000282
			平均	64％	0.495
四分位间范围	62-66％	0.485-0.504

表11.在分析的步骤1中利用变化随机样本交叉验证数据拆分将输入识别为重要的一致度的总结

RSCV数据拆分的次数	平均组一致度	95％ci
			10	0.547	0.009
20	0.708	0.009
			50	0.859	0.010
100	0.880	0.013

当从10增加到20(p＝0.000)以及20增加到50RSCV数据拆分(p＝0.000)时，输入的性能之间的一致度显著增大，而当从50增加到100(p＝0.2213)时，输入的性能之间的一致度未显著增大。有趣的是，对于所有的分析，相同的两个输入每次被分级为第一和第二，级别变化主要出现在朝向前50个列表的底部，这说明了在50和100RSCV事件模型中分别为14％和12％的变化。这表明步骤1在多个分析中重要输入识别上非常一致。

然后，对于步骤2执行相同的程序，使在步骤1中遍及所有模型识别为最重要的输入用于形成第二个步骤的基础。表12示出了步骤2的平均一致比率。

显然，多次重复分析的一致度显示出显著的下降，仅100RSCV模型保持了其输入识别的一致，并且在每次增加时一致输入性能的提高在统计上显著(p＝0.000)。50RSCV模型和100RSCV模型均识别相同的输入作为第一级别，并且因此显然的是，50RSCV数据拆分的最小值是优选的，以便确保在80％-90％的分析中相同的输入多次一致地识别为重要。

表12.在分析的步骤2中利用变化随机样本交叉验证数据拆分将输入识别为重要的一致度的总结

RSCV数据拆分的次数	平均组一致度	95％ci
			10	0.140	0.004
20	0.487	0.011
			50	0.657	0.009
100	0.811	0.009

结论

本实施例证实了本发明的新颖逐步式ANN方法用于代表应用于不同数据集的疾病状况的生物标记离子的数据挖掘的一个方案。这种用于数据挖掘的基于ANN的逐步式方法提供了用于识别生物标记的具有预后性和诊断性潜在可能的定义子集的可能。这些生物标记在数据空间内彼此有序，并且可以通过在开发过程的每个步骤中为生物标记检验模型的性能来识别出另外的标记。为了评估这种方法在生物标记发现中的潜在应用可能，分析了三个数据集。这些数据集均来自生成大量数据的不同平台，即，质谱分析数据和基因表达微动脉造影数据。

本技术能够支持医学领域中的临床决策，并且能够改善基于个体的患者照顾和管理(所谓的“个性化医疗”)。还表明了，基因表达轮廓能够用作用于确定能够将患乳腺癌的不同状况的患者区分开的最重要基因的基础。与van’t Veer等人(West等人，2001)一致，证实尽管单个基因能够将不同的疾病状态区分开，组合的多个基因增强了这些模型的预测能力。除此之外，结果提供了进一步的证据证明，ER+肿瘤和ER-肿瘤显示出了显著不同的基因表达模式，并且甚至能够被区分开，而无需ER基因本身。这表明了，这些表现型不仅由ER基因来解释，而且其他基因的组合不一定主要包含在ER的响应中，而是可以某未知方式与ER表达相互作用以及调整ER表达。与一些分析方法不同，本ANN逐步式方法在分析时考虑到每个基因，并且不是利用各个截断值来确定显著的基因表达，这克服了之前的数据分析限制。然后，这些模型能够形成将来利用这些基因来开发较简单预后性测试的研究的基础，或者用作用于开发新颖性治疗法的候选治疗目标，特别的焦点是确定这些基因可能对ER表达和***转移的发展的影响。假定由该方法识别的基因的相关性以及应用到较广泛的种群，该方法为识别基因标记的与疾病特性相关的子集的有效方式。由于这些基因中的许多基因与癌症具有已知的相关性，又进一步提高了识别出的基因的置信度。

结论是，本实施例证实，通过使用新颖性ANN方法，可以开发出有力的工具，以便在各种分析中识别出生物标记的预测疾病状况的子集。作为使用识别的生物标记子集的结果，由于高的预测精度，该方法的潜能是显而易见的。随后表明当用于对另外的验证数据集进行预测时这些生物标记子集能够具有高分类精度，并且甚至这些生物标记子集能够用于预测来源与在重要基因子集的识别中使用的数据集非常不同的数据集的ER和LN状况。该方法与已经进行的各种验证练习相结合表明，由于该方法表现出处理样本变化的鲁棒性以及遍及不同样本研究的可再现性，这些生物标记具有生物相关性，并且这些生物标记的选择不是任意的或者不是***的高维度的人为现象。

应当理解的是，上面说明的实施方案仅通过实施例的方式给出，并且目的不是要限制本发明，在所附权利要求中限定本发明的范围。还应当理解的是，说明的实施方案可独立使用或组合使用。

Claims

1.一种确定输入数据和一个或多个条件之间的关系的方法，所述方法包括下列步骤：

接收被分类成一个或多个预定类别的条件的输入数据；

使用所述输入数据来训练人工神经网络，所述人工神经网络包括：输入层，其具有设置为接收输入数据的一个或多个输入节点；隐含层，其包括两个或多个隐含节点，所述隐含层的节点通过可调节权重的连接连接至所述输入层的所述一个或多个节点；以及输出层，其具有设置为输出与一个或多个条件相关的数据的输出节点，所述输出节点通过可调节权重的连接连接至所述隐含层的节点；

确定所述输入数据和所述一个或多个条件之间的关系，其中，所述人工神经网络具有如下受约束结构：

(i)所述隐含层内隐含节点的数量受约束；以及

(ii)节点之间的连接的初始权重受限制。

2.如权利要求1所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述隐含层中的节点的数量在两个至五个的范围内。

3.如权利要求2所述的确定输入数据和一个或多个条件之间的关系的方法，其中，在所述隐含层中存在两个隐含节点。

4.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法，其中，节点之间的连接的初始权重具有在0.01至0.5的范围内的标准差。

5.如权利要求4所述的确定输入数据和一个或多个条件之间的关系的方法，其中，节点之间的连接的初始权重具有在0.1的标准差。

6.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述输入数据包括数据对，每个数据对被分类成所述一个或多个条件并且包括参数和相关的参数值。

7.如权利要求6所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述输入数据被分组成多个样本，每个样本具有等同选择的数据对。

8.如权利要求7所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述训练步骤包括：

(i)在第一个选择步骤中，在每个样本中选择相同的参数；

(ii)使用与所选参数相关的参数值来训练所述人工神经网络；

(iii)对于所选的参数，记录人工神经网络的性能；

(iv)对于每个参数，依次重复选择和记录的步骤。

9.如权利要求8所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述确定步骤进一步包括：

(i)基于记录的性能，对于每个所选的参数，对所述人工神经网络的性能进行分级，以及；

(ii)在第二个选择步骤中，选择最佳表现参数。

10.如权利要求9所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述训练步骤进一步包括：

(i)在另一个选择步骤中，与所述最佳表现参数或者来自之前选择步骤中的参数相结合地从其余的参数选择参数；

(ii)使用与所选参数相关的参数值来训练所述人工神经网络；

(iii)在另一个记录步骤中，对于所选参数，记录人工神经网络的性能，以及；

(iv)对于其余参数中的每一个，依次重复另一个选择和记录的步骤。

11.如权利要求10所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述训练步骤进一步包括：重复权利要求10中的步骤(i)-(iv)，直到不获得性能的进一步实质提高。

12.如权利要求10所述的确定输入数据和一个或多个条件之间的关系的方法，其中，在所述重复步骤之前，所述确定步骤包括：基于记录的性能对于每个所选的参数设置对人工神经网络的性能进行分级，并且选出最佳表现参数。

13.如权利要求10至12中任一项所述的确定输入数据和一个或多个条件之间的关系的方法，其中，每次输入参数的数量增加，输入节点的数量增加一个节点。

14.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法，其中，所述输入数据被分组成多个样本，每个样本具有等同选择的数据对，每个数据对被分离成所述一个或多个条件并且包括参数和相关的参数值，所述训练和确定步骤包括：

(i)在所述输入数据内选择参数，使用对应的参数值训练所述人工神经网络并且记录人工神经网络的性能；

(ii)对于所述输入数据内的每个参数进行重复；

(iii)确定所述输入数据中的最佳表现参数；

(iv)重复步骤(i)至(iii)，每次重复将其余参数中的一个添加到最佳表现参数的组合中，直到人工神经网络的性能不提高。

15.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法，其中，参数代表基因，并且参数值代表基因表达数据。

16.如权利要求1至14中任一项所述的确定输入数据和一个或多个条件之间的关系的方法，其中，参数代表蛋白质，并且参数值代表活性函数。

17.一种确定输入数据和一个或多个条件之间的关系的方法，所述方法包括：

接收被分类成一个或多个预定类别的条件的输入数据；

利用神经网络来确定所述输入数据和所述一个或多个条件之间的关系，人工神经网络包括：输入层，其具有设置为接收输入数据的一个或多个输入节点；隐含层，其包括两个或多个隐含节点，所述隐含层的节点通过可调节权重的连接连接至所述输入层的一个或多个节点；以及输出层，其具有设置为输出与所述一个或多个条件相关的输出的输出节点，所述输出节点通过可调节权重的连接连接至所述隐含层的节点，

其中，所述人工神经网络具有如下受约束结构：

(i)所述隐含层内的隐含节点的数量受约束；以及

(ii)节点之间的连接的初始权重受限制。

18.一种用于确定输入数据和一个或多个条件之间的关系的人工神经网络，所述人工神经网络包括：

输出层，其具有设置为接收输入数据的一个或多个输入节点，所述输入数据被分类成一个或多个预定类别的条件；

隐含层，其包括两个或多个隐含节点，所述隐含层的节点通过可调节权重的连接连接至所述输入层的一个或多个节点；以及

输出层，其具有设置为输出与所述一个或多个条件相关的输出的输出节点，所述输出节点通过可调节权重的连接连接至所述隐含层的节点；

其中，所述人工神经网络具有如下受约束结构：

(i)所述隐含层内的隐含节点的数量受约束；以及

(ii)节点之间的连接的初始权重受限制。

19.一种用于确定输入数据和一个或多个条件之间的关系的计算机***，所述计算机***包括如权利要求18中所述的人工神经网络。