具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。在附图中,相同的标号表示相同或者相似的组件或者元素。
在本文中,向量是某患者提供的各种指标集合,模型f是一个映射函数:x→{0,1,2,....,n},n例如取值3、4、或者其他整数。即,给定患者指标向量x,模型预测该患者的肝纤维化病理分期为f(x),f(x)的取值为集合{0,1,2,....,n}n种离散值中的一个。特定的指标以及分类模型是该技术的重要内容。下面将介绍本专利所采用的指标以及分类模型。
图1示出根据本发明的肝纤维化检测设备的第一实施例的结构图。如图1所示,该实施例中肝纤维化检测设备包括输入装置11、分类器12和输出装置13。其中,输入装置11用于接收年龄和血清生化指标,该血清生化指标至少包括血小板、透明质酸(HA)、血清直接胆红素(DBIL)、凝血酶原时间(PT)、血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT)和血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)。分类器12根据输入装置11接收的年龄和血清生化指标进行肝纤维化分期,将肝纤维化分期结果发送给输出装置13;分类器12根据接收的血小板、血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT)和血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)三个指标获得两个专家引入的比值:血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)/血小板和血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)/血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT),替代血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)、血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT)作为分类器的输入参数。输出装置13输出分类器12的肝纤维化分期结果。对于分类器12,可以是支持向量机分类器、基于决策器模型的分类器、支持向量回归模型的分类器、logistic regression(逻辑回归分析)分类器、Adaboost集成分类器、或PCA(PrincipalComponent Analysis,主成分分析)+KNN(K Nearest Neighbor,K近邻)模型分类器。分类器12可以通过软件在计算设备上实现,或者通过专用硬件、电路、或设备实现。
上述实施例中,分类器通过年龄和选择的血清生化指标进行肝纤维化的检测,可以获得比现有技术的检测方法更准确的检测效果,由于血清生化指标血小板、透明质酸(HA)、血清直接胆红素(DBIL)、凝血酶原时间(PT)、血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT)和血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)的检测比较普及,一般医院都能实现,因此,可以扩大该方案的应用和普及,以及降低整个检测的成本和难度。此外,可以根据实际需要选择不同的分类器,从而提高实际中的分类器的准确率。
本发明中的肝纤维化检测设备,可根据临床需求,采用多种实现形式。根据本发明的一个实施例,该输入装置、分类器和输出装置位于一计算机上,输入装置和输出装置对应于计算机的键盘、触摸屏、鼠标、设备接口等输入设备和显示屏、音频输出设备、输出接口等输出设备;分类器可以通过软件实现,或者通过与主板相连的专用分类器电路实现。通过计算机实现该检测设备,可以充分利用计算机普及率高的特性,降低该检测设备的实现成本。根据本发明的另一个实施例,输入装置、分类器和输出装置位于同一便携式手持设备上,该手持设备可以是通用手持电脑,或者是用于肝纤维化诊断的专用设备。将检测设备以手持设备的方式实现,提高了该设备使用的便利性和灵活性。根据本发明的一个实施例,该肝纤维化检测设备也可以通过在线诊断***的方式实现,下面结合图2介绍一种在线诊断***的具体实现。
根据本发明的一个实施例,血清生化指标还包括血清碱性磷酸酶(ALP;AKP)、血清胆碱酯酶(ChE)、活动度(PTA)三者,或者上述三个指标中的任意一个或两个。
根据本发明的一个实施例,血清生化指标还包括转化生长因子β1(TGF-β1)和α2巨球蛋白(AMG);分类器用于根据输入装置接收的年龄、和血清生化指标进行肝纤维化分期。
上述实施例中,分类器通过年龄和选择的血清生化指标进行肝纤维化的检测,可以获得比现有技术的检测方法更准确的检测效果。
图2示出根据本发明的肝纤维化检测设备的第二实施例的结构图。如图2所示,输入装置21可以是计算机、平板电脑、PDA等设备,作为输入装置的设备可以通过有线、无线等方式和分类器22相连,分类器22可以是服务器、计算机或者专用设备;分类器22输出的肝纤维化分期结果可以通过输出装置23输出,也可以通过输入装置21输出给用户。通过在线诊断***的方式实现该检测设备,只需要一个位于后台的分类器,可以包括多个输入端和输出端,从而可以实现对更多诊断部门的检测支持,从而降低了单位检测成本。
根据本发明的一个实施例,分类器的输入除了上述实施例提到的年龄和血清生化指标,还可以包括肝组织的瞬时弹性成像数据,即通过瞬时弹性成像设备获得的肝组织的硬度值。
图3示出根据本发明的肝纤维化检测***的第三实施例的结构图。如图3所示,该实施例中肝纤维化检测***包括输入装置31、分类器32、输出装置33和瞬时弹性成像设备34。输入装置31和输出装置33可以参见上述实施例的描述,为简洁起见在此不再详细描述。瞬时弹性成像设备34能够获取肝组织的瞬时弹性成像数据;分类器33从瞬时弹性成像设备34接收肝组织的瞬时弹性成像数据,根据年龄、血清生化指标和肝组织的瞬时弹性成像数据进行肝纤维化分期。瞬时弹性成像设备34例如是FibroScan,获得肝组织的FibroScan硬度值。
上述实施例中,结合年龄、血清生化指标和肝组织的瞬时弹性成像数据进行肝纤维化分期,可以充分利用各种检测结果,使得肝纤维化分期的结果更准确。
根据本发明的一个实施例,该***还包括血清生化指标检测设备,血清生化指标检测设备对试剂盒中的样品进行检测,获得血清生化指标数据,通过输入装置发送到分类器。
图4示出瞬时弹性成像设备及其探头的一个实施例的示意图。如图4所示,该弹性成像设备44包括探头接口(Probe Socket)441,用于连接超声探头45,还包括数据传输接口442,用于连接计算机或者网络以传输数据。超声探头45包括超声传感器(Ultrasound transducer)443、开关按钮(Button)444、电动转换器(electrodynamicstransducer)445、传输线(Connection cable)446和插座(Jack)447。
如果训练分类器参数的数据样本数较少,依赖单个模型很可能出现over-fitting的问题,即使在已有的样本上可以得到很好的正确率,可能不具有好的推广性能,难以正确地预测未知的样本。
为了解决这个问题,可以采用Bagging的方法:训练多个独立的分类器,最后的分类结果根据多个分类器的结果投票得到。这样在某种程度上可以解决只用单独一个模型进行预测时的不鲁棒性。跟传统的Bagging方法不完全相同,使用类似交叉验证的方法,每一次将样本随机划分为n等分,用其中的n-1份训练分类器(参数也在这个时候通过网格搜索法确定),剩下的一份进行预测。这样,根据预测的结果进行模型的筛选。通过重复若干次这样的随机划分,每一次随机划分都能选出一定的模型。最后,将得到的所有模型融合在一起,通过投票的方式进行最后分类结果的确定。
图5示出根据本发明的肝纤维化检测***的第四实施例的结构图。如图5所示,该实施例中肝纤维化检测***包括输入装置31、分类器52、输出装置33和瞬时弹性成像设备34。其中,输入装置31、输出装置33和瞬时弹性成像设备34可以参见上述实施例的描述,为简洁起见在此不再详细描述。分类器52包括表决器523、两个或者两个以上子分类器如第一子分类器521、第二子分类器522、...等。每个子分类器521、522等根据年龄、血清生化指标和肝组织的瞬时弹性成像数据进行肝纤维化分期获得各自的肝纤维化分期结果,并将其肝纤维化分期结果输出到表决器523,表决器523根据各个子分类器的肝纤维化分期结果通过例如投票的方式确定输出的肝纤维化分期结果。
图6示出根据本发明的肝纤维化检测设备的第五实施例的结构图。如图6所示,该实施例中肝纤维化检测设备包括输入装置31、分类器32、输出装置33和瞬时弹性成像设备34和参数训练器65。参数训练器65接收训练样本数据,根据训练样本数据确定分类器的参数;其中,训练样本数据可以包括年龄、血清生化指标数据和对应的肝纤维化分期;或者,训练样本数据可以包括年龄、血清生化指标数据、肝组织的瞬时弹性成像数据和对应的肝纤维化分期。根据已有的样本,可以训练得到肝纤维化分类模型。考虑到样本可能不断丰富,因此,设计了一种模型的自学习策略。将以上模型的学习策略完全写成自动的训练过程,输入接口就是样本集;输出接口则为最终使用的预测函数。因此,一旦更新了样本集之后,只需要调用程序的自动训练功能,就可以完成模型的自学习过程。同时,旧的模型也会相应地被备份保存,以应对突发情况下的模型恢复工作。
下面结合支持向量机的具体例子对分类模型进行介绍。下面我们将详细说明该分类模型的训练策略;涉及到特征向量时,统一用向量x表示。
1.模型的“分解-合并“策略
分解
原问题需要预测一个样本属于5类硬度值中的哪一类,直接做比较复杂,首先把分类问题分解为四个子问题:
SubProblem1:S>=1 vs S<1
SubProblem2:S>=2 vs S<2
SubProblem3:S>=3 vs S<3
SubProblem4:S>=4 vs S<4
(1)
每一个子问题都是一个二值分类问题。比如子问题1,意思就是给定一个样本,要判断它的硬度值是要大于等于1,还是要小于1。其余的同理。
对每一个子问题(两类分类问题),采用支持向量机(SupportVector Machine,SVM)分类模型进行训练。最后一共学习到四个子模型fi(x),i=1,2,3,4。fi(x)的输出为0或者1。
关于支持向量机,详细的介绍见下一小节。
合并
在完成上述四个子问题模型之后,就可把子问题合并为最终的决策规则。四个子模型预测的结果为一个序列(f1,f2,f3,f4),序列的每一个值取值为0或者1,因此共有16种可能的序列取值。每一种取值对应的最终预测结果按照表2的规则进行决策。
表1:子模型合并规则
2.支持向量机(Support Vector Machine,SVM)分类模型
上面提及,每一个模型分解为四个子模型,每一个子模型是一个两类分类问题。我们采用的是支持向量机作为基本分类器。
支持向量机是一种优秀的分类模型,它根据最大化分类间隔(margin maximization)原理将样本空间中的样本进行分类,在获得较小的训练错误率的同时,保证较好的推广性能(对未知样例进行预测的能力)。
图7给出了在线性可分情况下SVM分类器的一个示意图。
图7:最大间隔SVM分类超平面示意图。实心和空心两堆点代表两类样本点。中间实线的分类面比其余所有的虚线分类面具有更大的分类间隔,因而具有更好的推广性能。
线性SVM
简单来看,SVM是一种线性分类器。对于一个两类分类问题,给定训练数据集
这里x
i∈R
d,i=1,2,..n是特征向量,y
i∈{+1,-1},i=1,2,..n是样本的标签。分类的规则为:
x是待分类的新样本,
是SVM分类器模型分类的结果。sign(x)是符号函数,当x>=0,sign(x)=1;当x<0,sign(x)=-1。
这里决定分类器的两个变量是,它们需要从数据中训练出来。具体来说由下述方程式求解得到:
其中C是一个权衡训练错误率和推广性能的参数,一般通过交叉验证确定。
事实上,方程1确定的优化问题可以转化为如下的对偶问题:
s.t.:0≤α≤C,αTy=0 (3)
这里α=[α
1,...,α
n]
T,y=[y
1,...,y
n]
T,D=(D
ij),
求解对偶问题得到对偶变量α的值之后,原问题的解(w,b)可以直接得到:
因此最终的分类器可以写成:
非线性SVM
SVM也可以学习出非线性模型。它利用核方法(kernel method)使用特定的非线性映射将样本从原空间映射到一个更高维的特征空间,使得在原始空间线性不可分的数据可以在高维空间线性可分。这样,在高维空间设计一个线性模型,就等价于在原始空间设计出的非线性模型。图8给出了一个通过多项式核函数将二维的样本升维到三维空间,从而使得原始现行不可分的样本在高维空间线性可分的示意图。
图8:非线性SVM算法示意图。原始样本线性不可分。通过如下公式进行变化:
Φ:R2→R3
使用kernel方法将原始方法升维到高维空间,在高维空间线性可分,这等价于在原始空间非线性可分。
从前面的线性SVM可以看到,不管是SVM的对偶形式还是最后的分类器解,都可以写成样本内积的形式
因此,使用kernel方法进行样本的非线性映射Φ:x →Φ(x)。这样在映射后的高维空间,样本之间的内积可以很容易地计算:Φ(x
i)
TΦ(x
j)=K(x
i,x
j)。K就是kernel函数,比如高斯核函数:
因此,非线性SVM的分类器可以写成
其中,对偶变量可以通过求解对偶问题6得到:
s.t.:0≤α≤C,αTy=0 (6)
这里α=[α1,...,αn]T,e=[1,....,1]T,y=[y1,...,yn]T,
核函数(Kernel function)一般来说需要满足Mercer条件,常见的核函数有三种:
1)多项式核函数:K(xi,xj)=(xTy+c)p,c∈R
2)高斯核函数:K(xi,xj)=exp(-(xi-xj)2/(2σ2))
3)Sigmoid核函数:K(xi,xj)=tanh(kxTy-δ)
可以采用非线性SVM作为最基本的分类器,kernel选择高斯核。
上述采用的生化指标和模型获得优选参数。事实上,采用上述的策略,还延伸得到了另外几组参数:
1.指标参数
表2
下面对上述模型使用的特征的序号进行医学含义的标注:
表3
上述特征5和8是根据专家建议引入的两个比值特征,它们涉及到三个特征2、14、15,特征2在上表中已经出现过了,特征14、15如下:
表4
表5
表6
表7
注意,特征不分先后顺序。各种模型涉及到13种不同的特征,分为三种类型:年龄、血清生化指标和FibroScan硬度值;血清生化指标包括血小板、透明质酸(HA)、血清直接胆红素(DBIL)、凝血酶原时间(PT)、血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT)和血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)、转化生长因子β1(TGF-β1)、α2巨球蛋白(AMG),获取它们所需的代价是不同的。
采用不同的特征,可以训练得到不同的模型。
1)模型一用的特征最少,使用的全部都是检测比较普及,一般医院都能实现的生化指标特征,因而模型最简单;
2)模型四使用了全部的特征,模型精度相对最高,但是由于使用的特征涉及到FibroScan硬度值和血清生化指标转化生长因子β1(TGF-β1)、α2巨球蛋白(AMG),因而特征的采集上代价较大;
3)模型二和模型三相应的采取了权衡策略,综合考虑了模型的精度和特征采集的所需的代价,是两种折衷的方案。
下表8示出了上述4个模型的试验结果数据:
表8
本发明的实施例依据“金标准”设计了基于血清生化指标和FibroScan指标等医学指标的分类模型,无损地对肝纤维化分期进行预测。通过对患者进行特定生化指标的化验,获得患者病况的特征向量。模型根据特征向量,预测病人现在的病理分期S0-S4(或F0-F4)(级别越高,代表肝纤维化越严重)。
本发明的技术方案从众多个参数中筛选,主要数据有:性别、年龄、乙肝病毒DNA载量、各种肝酶指标、相关胆固醇和几乎所有的生化指标、肝纤维化特殊检测指标、FibroScan硬度值等。通过对以上所有的参数进行分析处理和演算,最终确定临床与肝纤维化相关性最好的n个血清生化指标,并结合FS检测结果得出肝纤维化肝硬化诊断模型。
考虑到各医院设备和生化检测水平不统一的情况,为方便不同医院的检测,还分为两个版本。
1)FS+生化检测模型):用于肝病专科医院/门诊,指标涵盖FS硬度值和血清生化指标血小板、透明质酸(HA)、血清直接胆红素(DBIL)、凝血酶原时间(PT)、血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT)和血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)。
2)FS+所有相关生化指标的检测模型):用于有检测设备,科研水平较高的肝病专科医院/门诊,深度解决诊断问题。指标涵盖血清生化指标血小板、透明质酸(HA)、血清直接胆红素(DBIL)、凝血酶原时间(PT)、血清谷(氨酸)丙(酮酸)转氨酶(ALT;GPT)和血清谷(氨酸)草(酰乙酸)转氨酶(AST;GOT)、FS硬度值和血清生化指标转化生长因子β1(TGF-β1)、α2巨球蛋白(AMG)。
本发明实施例的肝纤维化检测***具有无创、实用性强、方法简便、价格、安全性好等优点:
(1)无风险。根据FibroScan无创诊疗设备及相关血生化结果,诊断***可以通过模型分析,判断肝病患者的肝纤维化程度,几乎不存在任何风险,也不会对病人有任何创伤。
(2)综合费用低。由于做肝穿刺除了需要血液化验外,还需要做穿刺手术与后期创伤治疗,所以综合费用要高于无创诊断的方法。
(3)方法简便易行、临床应用范围广。Fibroscan的操作者获得证书所需时间较短,且简便易操作;生化指标检测无需再进行特殊培训,医院本身已具备条件;两者相结合的无创模型,临床应用范围广泛。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。