CN113539473A - 一种仅使用血常规检验数据诊断布氏杆菌病的方法及*** - Google Patents

一种仅使用血常规检验数据诊断布氏杆菌病的方法及*** Download PDF

Info

Publication number
CN113539473A
CN113539473A CN202110519657.9A CN202110519657A CN113539473A CN 113539473 A CN113539473 A CN 113539473A CN 202110519657 A CN202110519657 A CN 202110519657A CN 113539473 A CN113539473 A CN 113539473A
Authority
CN
China
Prior art keywords
data
brucellosis
sample
layer
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110519657.9A
Other languages
English (en)
Inventor
陈超
宋彪
王哲
罗祎斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Weishu Data Technology Co ltd
Original Assignee
Inner Mongolia Weishu Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Weishu Data Technology Co ltd filed Critical Inner Mongolia Weishu Data Technology Co ltd
Priority to CN202110519657.9A priority Critical patent/CN113539473A/zh
Publication of CN113539473A publication Critical patent/CN113539473A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请提出了一种仅使用血常规检验数据诊断布氏杆菌病的方法及***,属于医学检验领域。其总体架构为:数据获取层、数据处理层、模型预测层、强化学习层,本申请旨在仅使用血常规检验数据,基于随机森林算法构建分类模型,得出最终诊断结果。弥补传统检测方式耗时长、操作复杂、准确性低等不足,以满足布氏杆菌病的大批量筛查工作的要求,使医学检验更加智能化、自动化。

Description

一种仅使用血常规检验数据诊断布氏杆菌病的方法及***
技术领域
本发明涉及检验医学领域,具体涉及一种仅使用血常规检验数据诊断布氏杆菌病的方法及***。
背景技术
布氏杆菌病,也被称为布鲁氏杆菌病、布氏病,是由布鲁氏杆菌感染引起的一种流行范围广、危害性大的人畜共患病。目前,病原学检查主要是从患者的血液、骨髓、其他组织或体液中直接分离出布氏杆菌,这是确诊布病的金标准。其检查过程与样本中的病菌含量、病菌分离及培养方法、疾病所处阶段、是否用过抗生素等因素密切相关。这种传统方法依赖于细菌样本的获取质量,同时由于细菌培养周期较长,从血液中或骨髓中分离培养出细菌通常需要5天甚至更久,而且在疾病慢性期或使用抗生素后检查成功率很低,不仅如此,对患者组织的处理还增加了实验室技术员感染布氏病的风险。另外,受实验环境以及医生经验因素影响较大,漏诊的现象也频频发生。总之目前在总体上针对布病的诊断仍存在速度慢、准确性低、操作复杂、成本高的特点,这对布病的及时诊治、大面积筛查和流行病学调查工作带来不利影响。
发明内容
有鉴于此,本发明建立了一种便捷、快速、灵敏、经济适用的布氏杆菌实验室检测方法及***,目的在于解决现有的针对布氏杆菌病的诊断方法疾病识别效率和准确率低,成本以及经验依赖较高,无法满足医疗资源不平衡现状下的布氏病防治需求,为临床早期确诊布氏杆菌病提供有力依据。
为了达到上述目的,本发明提供的仅使用血常规检验数据诊断布氏杆菌病的方法及***,整体框架分为四层:数据获取层、数据处理层、模型预测层、强化学习层。
其中数据获取层负责采集患者血常规检验项目的数据标本,包括22项指标数据。
数据处理层:对检验样本数据进行影响因素分析,实现特征维度确定和提取,去除特殊值、统一单位量纲、离群值过滤、数据正太标准化、特征强化,对检验样本数据维度缺失值进行填补。
模型预测层:基于标准的样本数据产生一个或多个适用于布氏杆菌病智能识别的分类器并部署至医院lis***,接收实时检验数据以完成布氏杆菌病的智能识别。
强化学习层:在实际应用中,将诊断为布氏杆菌病的样本作为阳性样本对训练集进行实时扩充,当积累到一定程度,可以自动训练更新模型参数,以提升模型精度。
其中,分类器根据检验指标的历史诊断结果将样本数据分为阳性数据组和阴性数据组,配对后组建训练集、验证集和测试集。基于随机森林算法训练模型,通过网格搜索法调节参数,并采用ROC曲线下面积AUC对模型进行评价。
本发明相对于现有技术具有的有益效果:可进一步提高对布氏杆菌病阳性的识别性能,降低检查成本,简化检查过程,降低布氏杆菌病管控的漏诊风险。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明***框架。
图2为随机森林算法框架。
图3为随机森林算法流程。
图4为本发明一个实施例的在医院线上场景的效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的医学检测中,血清学虎红平板试验,SAT实验常规方法仍然是各国诊断布氏杆菌病的主要方法,这种传统方法依赖于细菌样本的获取质量,同时由于细菌培养周期较长,受实验环境以及医生经验等因素的影响较大,检测成本高,且容易发生漏诊。
为解决上述技术问题,本发明提供仅使用血常规检验数据诊断布氏杆菌病的方法及***。通过获取检验样本数据,产生一个或多个适用于布氏杆菌病智能识别的分类器,将分类器部署至医院检验科信息***(Laboratory Information System,LIS)平台,接收实时检验数据以完成布氏杆菌病的实时识别。本发明通过积累阳性和阴性对照组强化实验,从而提高布氏杆菌病分类器的分类准确率,同时采用ROC曲线下的面积AUC对所列参数的模型进行评价,训练出最佳分类器对检测数据进行智能分类,降低了布氏杆菌病疾病识别、诊断、预防的成本,并进一步提高布氏杆菌病识别的准确率。
本发明的仅使用血常规检验数据诊断布氏杆菌病的方法及***,包括以下步骤:
1) 获取检验样本数据并进行数据预处理及建立特征工程,其中,所述的检验样本数据根据历史诊断结果进行阳性和阴性的分类;
2) 基于检验样本数据产生一个或多个适用于布氏杆菌病的智能识别分类器;
3) 将分类器部署至医院LIS平台,接收实时检验数据以完成布氏杆菌病的实时识别。
在本发明的一个实施例中,检验样本数据是从LIS中提取三年内的患者。进一步的,为提高基于血常规检验数据的布氏杆菌病智能识别这一方法的精度,样本数据选择时参考历史诊断结果,选择诊断结果前三天和诊断结果后两个月以内的血常规22项指标检验数据。
在获取检验样本数据之后进行数据预处理,以使样本数据满足分类器训练的需要。数据预处理包括对检验样本数据进行区域转置、变量筛选以及缺失值填补。为处理众多的检验指标数据,本实施例采用PCA进行变量筛选,缺失值填补在覆盖传统中位数、均值、众数等方法基础上,采用对抗策略生成缺失数据。
进一步的,数据过滤是特征工程的一个关键步骤。根据临床数据特征,将数据分为高峰分布数据和低峰分布数据。对于高峰分布数据,样本在一定阈值内的数值聚合程度密度较大;对于低峰分布数据,同一值阈值内的数值聚合度相对较低。低峰值分布数据的误差检测速度比高峰值分布数据的误差检测速度低,数据过滤可以提升算法的计算效率。本发明选择了一种相对保守的数据过滤方法,即孤立森林算法,以最大限度地提高有效的计算数据量,并确保在临床场景中的泛化性。
进一步的,采用孤立森林算法进行数据过滤,其中的数据过滤比通过异常控制比(阈值)的超参数进行控制。将标注好的阳性和阴性数据组进行配对,以7:1:2的比例随机分为训练集、验证集和测试集。
本实施例采用随机森林算法,通过参数网格搜索法最终确定分类器的参数。
随机森林算法是分类分析中最常用的算法之一,由Leo Breiman和Adele Cutler提出,结合了“Bootstrap aggregating”方法和“random subspace method”方法构建决策树集合,每棵决策树都将进行独立的学习和不剪枝生长进而做出相应预测。然后将这些决策树通过组合的策略,用来解决单一的分类预测任务。因此,随机森林的预测结果要优于其任何一棵决策树的分类预测。
随机森林的框架如图2所示,包含了多个决策树分类器,输出结果的类别由所有决策树分类结果的众数而定。在构建单个决策树时,随机森林算法使用了两次随机选择过程:第一次是随机选择训练样本,第二次是随机选择样本的特征属性。在所有的决策树构建完毕后,通过权重投票的方式决策出最终的分类结果。随机森林算法具有准确度高、性能优良、可以评估特征的重要性、可以均衡非平衡分类资料的误差、学习速度快和抗过拟合的优点。
如图3所示的随机森林算法流程,首先确定随机森林模型的输入类别数、树大小、深度、超参数属性过滤规则、终止规则;利用bootstrap法,给每棵树有放回的选择大小为N的训练集;在节点处随机选择k个特征,比较并选择最佳特征,划分数据集;递归生成每棵决策树,不进行剪枝操作,进一步得到随机森林分类器模型。
在测试集中,未知样本x分类为c的概率为:
Figure 142437DEST_PATH_IMAGE002
,其中k为树数;采用多数投票法确定类别:
Figure 653053DEST_PATH_IMAGE004
,并同时计算分类误差。
在对随机森林算法的优化过程中,主要针对影响性较大的树的个数和树深度进行列举。从多个深度下的实验结果中寻优。数的个数以50~500,10为步长进行遍历,树的深度以50~500,10为步长进行遍历,统计每个排列组合下的ROC曲线下面积AUC作为评价指标进行评价。
在根据对分类器进行评价的过程中,当AUC>0 .8则判断分类器训练成功,当AUC<0 .8则判断分类器训练不成功,重新回到数据获取阶段获取数据并训练分类器。
在本发明的一个实施例中,当完成分类器的训练后,分类器部署于医院的LIS平台。实验室的各检测设备通过中间件将数据数传输至LIS平台,分类器对检测数据进行实时布氏杆菌病智能识别。
在布氏杆菌病智能识别过程中,***对患者从血常规各项目指标数据进行采集并预测,当分类器检测出布氏杆菌病阳性时,则实时在LIS平台相关界面输出为“疑似布氏杆菌病”,结合检验医师常规检验手段进行对比,如果两者结果不一致,则***提示检验医师可能出现漏诊问题,并建议检验人员进行复检排除各种因素可能出现的问题。当分类器未检测出布氏杆菌病阳性,则实时在LIS平台相关界面不做任何反应,表示检验数据中没有表现出布氏杆菌病特征。将诊断为布氏杆菌病的样本作为阳性样本对训练集进行实时扩充,当积累到一定程度,可以自动训练更新模型参数,以提升模型精度。
采用本发明的仅使用血常规检验数据诊断布氏杆菌病的方法及***,可弥补传统检测方式耗时长、操作复杂、准确性低等不足,以满足布鲁氏菌病的大批量筛查工作的要求,使医学检验更加智能化、自动化,大大提高布氏杆菌病的检测准确率,提高布氏杆菌病识别的效率,并降低漏报的风险,同时也降低检验人员的工作量。
以上实施例仅用以说明本申请的技术方案,而非对本申请保护范围的限制,尽管参照较佳实施例对本申请作了详细地说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或者等同替换,而不脱离本申请技术方案的实质和范围。

Claims (7)

1.一种仅使用血常规检验数据诊断布氏杆菌病的方法及***,其特征在于,所述***包括:
数据获取层:用于采集患者血常规检验项目的数据标本,包括22项指标数据;
数据处理层:用于对检验样本数据进行影响因素分析,去除特殊值、统一单位量纲、离群值过滤、数据正太标准化、特征强化,对检验样本数据维度缺失值进行填补;
模型预测层:用于通过标准的样本数据产生一个或多个适用于布氏杆菌病智能识别的分类器,并部署至医院LIS***,接收实时检验数据以完成布氏杆菌病的智能识别;
强化学习层:用于在实际应用中,将诊断为布氏杆菌病的样本作为阳性样本对训练集进行实时扩充,积累到一定程度后自动训练更新模型参数,以提升模型精度。
2.根据权利要求1所述的一种仅使用血常规检验数据诊断布氏杆菌病的方法及***,其特征在于,所述数据获取层中,所述数据具体为:其单位量纲是按照国际、国内相关指标科学确定的标准。
3.在训练模型的场景下,选择诊断结果前三天和诊断结果后两个月以内的血常规22项指标检验数据做为数据源,参考历史诊断结果做为标签;在实时检测场景下,仅采集患者血常规检验项目的数据标本,包括22项指标数据。
4.根据权利要求1所述的一种仅使用血常规检验数据诊断布氏杆菌病的方法及***,其特征在于,所述数据处理层中,数据预处理包括对检验样本数据进行区域转置、变量筛选以及缺失值填补;其中,缺失值填补在覆盖传统中位数、均值、众数等方法基础上,采用对抗策略生成缺失数据;建立特征工程过程采用孤立森林算法对数据过滤。
5.根据权利要求1所述的一种仅使用血常规检验数据诊断布氏杆菌病的方法及***,其特征在于,所述模型预测层中,采用随机森林算法训练模型,通过参数网格搜索法调节树数、深度等分类器参数,统计每个排列组合下的ROC曲线下面积AUC作为评价指标进行评价。
6.在布氏杆菌病智能识别过程中,当分类器检测出布氏杆菌病阳性时,则判断疑似布氏杆菌病,结合检验医师常规检验手段进行对比,如果两者结果不一致,则判断检验医师可能出现漏诊问题;当分类器未检测出布氏杆菌病阳性,则判断检验数据中没有表现出布氏杆菌病特征。
7.根据权利要求1所述的一种仅使用血常规检验数据诊断布氏杆菌病的方法及***,其特征在于,所述强化学习层中,将诊断为布氏杆菌病的样本作为阳性样本对训练集进行实时扩充,当积累到一定程度,可以自动训练更新模型参数,以提升模型精度。
CN202110519657.9A 2021-05-12 2021-05-12 一种仅使用血常规检验数据诊断布氏杆菌病的方法及*** Pending CN113539473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110519657.9A CN113539473A (zh) 2021-05-12 2021-05-12 一种仅使用血常规检验数据诊断布氏杆菌病的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110519657.9A CN113539473A (zh) 2021-05-12 2021-05-12 一种仅使用血常规检验数据诊断布氏杆菌病的方法及***

Publications (1)

Publication Number Publication Date
CN113539473A true CN113539473A (zh) 2021-10-22

Family

ID=78095405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110519657.9A Pending CN113539473A (zh) 2021-05-12 2021-05-12 一种仅使用血常规检验数据诊断布氏杆菌病的方法及***

Country Status (1)

Country Link
CN (1) CN113539473A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019916A (zh) * 2022-05-27 2022-09-06 山东大学 血流感染致病菌预测方法及***
CN115223709A (zh) * 2022-07-26 2022-10-21 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112635069A (zh) * 2020-12-14 2021-04-09 内蒙古卫数数据科技有限公司 一种基于常规检验数据的肺结核智能识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112635069A (zh) * 2020-12-14 2021-04-09 内蒙古卫数数据科技有限公司 一种基于常规检验数据的肺结核智能识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019916A (zh) * 2022-05-27 2022-09-06 山东大学 血流感染致病菌预测方法及***
CN115223709A (zh) * 2022-07-26 2022-10-21 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法
CN115223709B (zh) * 2022-07-26 2024-01-23 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法

Similar Documents

Publication Publication Date Title
CN112951413B (zh) 一种基于决策树和改进smote算法的哮喘病诊断***
CN108389201A (zh) 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法
CN107066791A (zh) 一种基于病人检验结果的辅助疾病诊断方法
CN108511055B (zh) 基于分类器融合及诊断规则的室性早搏识别***及方法
CN108304887A (zh) 基于少数类样本合成的朴素贝叶斯数据处理***及方法
CN112652361B (zh) 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用
CN112635069A (zh) 一种基于常规检验数据的肺结核智能识别方法
CN113539473A (zh) 一种仅使用血常规检验数据诊断布氏杆菌病的方法及***
CN107169284A (zh) 一种生物医学关键属性选择方法
CN111370126B (zh) 基于惩罚集成模型的icu死亡率预测方法及***
CN113744869B (zh) 基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用
CN113392894A (zh) 一种多组学数据的聚类分析方法和***
CN113470816A (zh) 一种基于机器学习的糖尿病肾病预测方法、***和预测装置
WO2023198224A1 (zh) 一种精神障碍类磁共振图像初步筛查模型构建方法
CN114970637A (zh) 一种轻量级基于深度学习的心律失常分类方法
CN117116477A (zh) 基于随机森林和XGBoost的***癌患病风险预测模型的构建方法及***
Nagadeepa et al. Artificial intelligence based cervical cancer risk prediction using m1 algorithms
CN112767349B (zh) 一种网织红细胞识别方法和***
Ingle et al. Lung cancer types prediction using machine learning approach
CN111257558B (zh) 基于机器学习的慢性淋巴细胞白血病肿瘤细胞识别方法
CN112116559A (zh) 一种基于深度学习的数字病理图像智能分析方法
CN109003659A (zh) 胃幽门螺旋杆菌感染病理诊断支持***和方法
Beaulah et al. Lung Melanoma Recognition through Platelet Count Composition Using Supervised ML Technique
CN117116475A (zh) 缺血性脑卒中的风险预测方法、***、终端及存储介质
CN114821176B (zh) 一种儿童脑部mr图像病毒性脑炎分类***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211022