CN109360657B - 一种医院感染数据的样本选取的时间段推理方法 - Google Patents
一种医院感染数据的样本选取的时间段推理方法 Download PDFInfo
- Publication number
- CN109360657B CN109360657B CN201811129775.3A CN201811129775A CN109360657B CN 109360657 B CN109360657 B CN 109360657B CN 201811129775 A CN201811129775 A CN 201811129775A CN 109360657 B CN109360657 B CN 109360657B
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- time period
- infection
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本发明公开了一种医院感染数据的样本选取的时间段推理方法,在进行数据采样的过程中,以记录的诊断日期为基准,选取真实感染日期或者是真实感染日期最近几天的样本,其中以基准往前的“前时间段”和往后的“后时间段”推理的时间单位长度内抽取样本,并求取平均值进行估值。其有益效果为:采用时间段推理的方法解决样本选取的问题,有效获取处于感染状态的那段时间的感染样本,且该方法具备可推广性,对于时间序列的数据均可以进行尝试,此方法的使用具备的基本条件要类似于基本经验。
Description
技术领域
本发明涉及一种医院感染数据挖掘技术,尤其涉及一种应用于医院感染大数据分析和建模过程中医院感染数据的样本选取的时间段推理方法。
背景技术
在医院感染领域,每年因医院感染造成了大量的经济损失和人员伤亡,医院感染数据的分析建模是医疗数据分析建模中较为棘手的问题,医院感染数据质量差、样本构建难度大,数据的分析和建模也没有较好的先例作为指导,然而,随着医院感染事件逐步受到重视,构建出一种监测预警模型,对医院感染的病例进行实时的监测预警,从而帮助临床医生进行及时干预和救治就成为一个极具价值的问题。近年来,各大医院都开始建立自己的医院感染监测信息***,不过,这些监测预警***良莠不齐,效果也差强人意,导致这些问题的原因多在于医院感染大数据分析建模的难度较大,没有很成功的案例作为指导和参考,且每一个案例都是解决某一小部分问题,较难全面阐述和分析医院感染建模的难点。已有文献资料中也提出了对数据建模的解决方案,但是存在各种各样的问题。
例如,文献(林予松,王培培,刘炜,等.医疗体检数据预处理方法研究[J].计算机应用研究,2017,34(4):1089-1092.)提出了一种数据清洗的方法,通过线性函数的数据变换等方式消除了数据重复等问题,然而,在医院感染数据中,更常见的是数据缺失问题,并且不同属性的数据缺失情况也不一样,比如体温基本不会出现大量缺失,而实验室检查可能连续一周都缺失,通过一种固定的模式去对所有数据进行“一刀切”式的处理是不合理的。
再如,文献(Kotsiantis S B,Kanellopoulos D,Pintelas P E.Datapreprocessing for supervised leaning[J].International Journal of ComputerScience,2006,1(2):111-117.)将机器学习领域中数据缺失、数据错误等常见的一些处理办法都进行了介绍,对于缺失值可以采用使用均值、特殊值等办法,然而,从建模的目的而言,这些方法并不是很适合,因为建模的最终目的是要对医院感染的病人进行提前预警或者是实时监测,最重要的是要对最终预警出来的病人给出预警依据,这些依据一般是要展示病人真实的数值而不是处理后的值,这样才便于医生进行合理诊断,所以直接修改值或者使用特殊值的方式是不太适合这种情况的。
再如,文献(李红,梁沛枫,潘东峰,等.自回归滑动平均混合模型在医院感染发病率预测中的应用研究[J].中华医院感染学杂志,2013,23(11):2693.)提出了一种时间序列模型,能够对医院感染的发展趋势进行监测,目的是早期预警,降低医院感染风险。但是,该预警模型有两个较为明显的缺点,一是该模型是通过间接监测医院感染发病率的,这一般属于事后的回顾性研究,很难起到提前、实时的监测,无法及时对医院感染进行干预和治疗,二是该模型属于公式型的计算模型,不具备可解释性,较难去分析原因,且模型使用的数据基于宁夏人民医院建立的,未经其他医院的大量测试,在是否具备可推广性还有待检验。
在进行医院感染大数据分析建模的过程中,遇到的难点主要包括以下几种:
(1)医院感染数据缺失的问题。医院感染数据具备时效性的特点,这一特点决定了使用数据时必须考虑到病人这些检测数据的时间范围,而医院感染数据存在缺失的难题,增加了医院感染大数据分析建模的难度;
(2)医院感染数据正反例样本划分的问题。医院感染数据样本主要分为两类,一类是感染样本,一类是非感染样本,如何划分这两类样本使其成为正反例是一个较为重要的问题。然而,实际问题较为复杂,非感染样本是较容易取得的,只需要从那些没发生医院感染的病人中随机抽取几天的数据作为非感染样本即可,感染样本的选取有一个难点,就是发生医院感染的病人多数住院时间较长,真正处于感染状态的可能就只有一段时间,其他时间都是正常的,如何获取这一段感染状态的数据就较为困难。在医院感染中,已经确诊或者是上报为医院感染的病人一般都会有一个经医生诊断的“感染日期”,此处称为“诊断日期”,用于确定病人那天发生了感染,最简单的做法自然是取该“诊断日期”这一天作为感染样本,但是,实际调查发现,这个日期是医生的一个推断日期,多数并不准,病人真实发生感染的日期有可能在此日期之前也有可能在此日期之后,在日期把握上并不十分严格,文献(张晓炜,孟黎辉,郑佳,等.医院感染漏报率不同统计方法的探讨[J].中华医院感染学杂志,2006,1.)中已经就类似问题进行了阐述。
因此,医院感染大数据分析和建模的过程中需要针对上述缺陷需要对现有技术进行改进。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种医院感染数据的样本选取的时间段推理方法,以解决医院感染大数据分析和建模过程中医院感染数据样本选取的问题。
在进行发明内容阐述之前,需要对文件中出现的术语进行解释和定义。
有效时间范围:指对病人/患者检测数据的时效时间范围的统称,例如,对于像体温、大便次数、心率和呼吸频率等数据具备较高的时效性,基本上每天都会有差异,那么数据使用就可以24小时作为范围,超过24小时的数据就不再考虑使用,而像微生物检查和实验室检查具备较低时效性,三天到五天内的数据都可以认为有效,那么就可以使用72或者120小时为范围,这种范围为统称“有效时间范围”。“有效时间范围”一般根据经验或者是参考文献中的资料来确定,也可以根据实际的建模目的来确立,标准参考《医院感染诊断标准(试行)》中部分特征的作用时间。
诊断日期:在医院感染中,已经确诊或者是上报为医院感染的病人一般都会有一个经医生诊断的“感染日期”,此处称为“诊断日期”。
感染日期:病人真实发生感染的日期为感染日期。
前时间段:以诊断日期为基准日期选取感染样本,往前推理的时间单位长度为前时间段。
后时间段:以诊断日期为基准日期选取感染样本,往后推理的时间单位长度为后时间段。
为了解决上述问题,本发明提供了一种医院感染数据样本选取的时间段推理方法,包括如下步骤:
步骤1,确定医院感染数据的特征,并将特征按照“有效时间范围”进行归类,特征集合记作F,k表述在集合F中的第k个特征;
步骤2,所有病人组成的集合记作S,在集合S中得到病人m,并对病人m生成正反例样本集合N;
步骤3,步骤2中生成正反例样本集合N后,将医院感染病人集合记为C,感染病人的诊断日期组成的集合记为Cd;
步骤4,从集合C中随机抽取n个病人,并获得n个病人对应的诊断日期;
步骤5,对步骤4中的n个病人进行诊断,取得n个病人“前时间段”和“后时间段”的数据组成的数组A_pre和A_end;
步骤6,对步骤5中的两个数组分别求和后再求平均,分别取得两个平均值avg_pre=sum(A_pre)/n,avg_end=sum(A_end)/n;这两个平均值作为集合C中所有病人的时间段推理的两个参数,近似估计集合C中所有病人的“前时间段”和“后时间段”;
步骤7,更新数据生成样本集合D并根据样本集合D进行建模测试;
步骤8,根据测试结果不断微调avg_pre和avg_end,以得到最终需求的值。
需要说明的是,步骤2中的正例样本为发生医院感染的病人m样本,反例样本为未发生医院感染的病人m样本。
进一步的,若m为正例样本中的病人,则m记为S中的第m个病人;若m为反例样本中的病人,则m为随机抽取的病人。
进一步的,步骤7中更新数据的方法采用增量式更新方法,包括如下步骤:
步骤7a,按照时间由前到后的序列对步骤2中的正反例样本集合N进行升序排序,以保证在增量式更新的过程中,时间都是从前到后排列的,从而保证更新时总是新值覆盖旧值;
步骤7b,将样本集合N中时间最早的样本i,存入到样本集合D中,并按步骤1中确定的医院感染数据的特征对应存入集合T中,分别记录Tk_v和Tk_date,表示集合N中的样本i对应的集合T中的第k个特征的值和该值的日期;
步骤7c,对样本集合N中的第二条及以后所有的样本i进行缺失值判断,对缺失值进行更新,对未缺失值进行保留;若样本i的特征Tk的值Tk_v为缺失值,则在样本集合D中逆序找到该特征Tk的值Tk_v和Tk_date,若样本集合D中该值不为空,且Tk_date与i中的Tk_date的差值不超过“有效时间范围”,则将该值取出更新到样本i的Tk_v中来代替缺失值,此处要求逆序遍历是为了保证集合D中的遍历的样本在时间上总是最靠近当前样本的,以下相同;若样本集合D中该值不为空,但是超过“有效时间范围”则推出遍历保持样本i第k个特征的缺失状态;若样本集合D中该值为空,则继续遍历下一个值。
步骤7d,将完成更新或保留的样本存入到样本集合D中,按照步骤5顺序读取后续样本并保存样本数据;
步骤7e,当重复步骤7c和步骤7d得到i=N时,读取完成,样本集合D构建完成。
本发明还提供一种通过时间段推理的方法解决医院感染数据样本取样的分析建模方法,包括如下步骤:
步骤A1,确定医院感染数据的特征,并将特征按照“有效时间范围”进行归类;
步骤A2,确定生成正反例样本的病人,其中正例样本为发生医院感染的病人样本,反例样本为未发生医院感染的病人样本;
步骤A3,采用时间段推理的方式来划分正反例样本,具体实现方式如前述步骤1-步骤8所述;
步骤A4,采用“增量式更新”的方法来生成样本集,具体实现方式如前述步骤7a-7e所述;
步骤A5,对最终样本集进行分析建模。
本发明还提供一种通过时间段推理的方法解决医院感染数据样本取样的分析建模***,至少包括一数据库,该数据库中存储有所有病人集合S以及集合S内病人的病例数据;一样本生成模块,根据样本生成条件生成样本集合,例如根据病人感染情况生成感染病人集合和非感染病人集合;一样本划分模块,将前述样本生成模块生成的样本集合划分为分析建模所需样本集合;以及一数据更新模块,该数据更新模块通过前述步骤1-步骤7实现数据缺失值的更新。
本发明还提供一种通过时间段推理的方法解决医院感染数据样本取样的分析建模***的实现方法,包括如下步骤:
步骤B1,根据数据库的信息,整理和明确医院感染数据中所需要的病人数据项并设计出对应的XML存储结构;
步骤B2,样本生成模块将病人的数据按设定采样周期为样本、按数据项为特征整理为所需数据的样本格式,生成所需样本集合;
在上述步骤B2中,将医院感染的数据整理为样本,这些样本中每一条均是一个病人在设定采样周期的数据,按照前述所述的增量式更新的方法对样本中的特征进行增量式更新,最终会产生若干病人在设定采样周期的样本所组成的样本集合。
步骤B3,样本划分模块按照最终分类的标签对样本集合进行划分,生成最终感染样本和非感染样本区分后的样本集合;
步骤B4,划分后的样本集合通过数据更新模块进行增量式更新;
步骤B5,样本集合更新完成后,按照建模的一般方法进行建立模型。
进一步的,步骤B1中,文件以XML的方式进行存储,里面包含了病人的基本信息,如病例号、性别、年龄、感染日期等,包含了病人的入院基本信息,如入院诊断、入院科室、入院日期等,包含了病人在院期间设定采样周期的信息,如体温、医嘱、实验室检查、微生物检查、影像检查和病程记录等;该存储方案除了对病人的信息具备存储的功能外,最主要的是便于数据的组织和应用,XML里面的每一项都可以单独取出来并与其他项组合使用,并且里面每项都有准确的时间,也可以按照时间序列进行组织,使用方式取决于开发者的需求。
本发明还提供一种计算机可读介质,该计算机可读介质用于通过计算机网络解决医院感染数据样本取样和医院感染数据分析和建模,包括一组指令,当执行时,该指令会导致至少一个计算机执行解决医院感染数据分析建模过程中的医院感染数据样本取样的问题以及取样后数据分析和建模。
通过实施上述本发明提供的通过时间段推理的方法解决医院感染数据样本取样的方法,具有如下技术效果:
(1)采用时间段推理的方式解决了因感染日期不准较难划分样本的问题。之前医院感染的样本划分采用以病人为单位的情况较多,且感染数据的采集需要大量人工的审核,该方法通过以天为单位划分感染样本和非感染样本且通过“时间段”的方式来区分两类样本解决了样本选取较难、划分样本较难的问题,有效获取处于感染状态的那段时间的感染样本。
(2)采用增量式更新方式解决了缺失数据或者是实时数据利用的问题。之前对医院感染的缺失数据和实时数据的处理办法中,较多数是对数据的缺失值进行评估,对于缺失较多的样本直接进行删除不再利用,这样并不是很合理,因为虽然缺失值较多,但是里面少数值如果是实时数据是具备参考价值的,该方法采用增量式更新基本可以解决多数数据缺失的问题。
(3)提出了按照“有效时间范围”将不同特征进行归类的办法解决不同特征时间有效性长短不一的问题。
(4)采用XML的方式进行存储,解决了医院数据复杂难以利用的问题。之前对医院感染数据进行处理的方法中,多数还是通过数据库和相关程序导出的数据进行处理和分析,并未单独对数据存储和处理去设计一种比较通用的数据结构。该方法除了具备存储和处理方便的优势外,还能把数据以病人为单位进行管理,每个病人的所有具体信息全都归总到一个文件中,即有利于数据的管理,又方便研发工作者对数据进行回顾性研究,极大的方便了数据的应用。
(5)较为明确的描述了“医院感染大数据分析建模”的基本流程及几处难点,为医院感染数据的分析和建模理清了基本思路。
附图说明
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
图1是本发明实施例中医院感染数据分析建模流程图;
图2是本发明实施例中时间段推理流程图;
图3是本发明实施例中增量式更新流程图;
图4是本发明实施例中分析建模***实现方法流程图;
图5是本发明实施例中《医院感染诊断标准(试行)》中部分特征归类表。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下实施方式中提到的“有效时间范围”指对病人/患者检测数据的时效时间范围的统称,例如,对于像体温、大便次数、心率和呼吸频率等数据具备较高的时效性,基本上每天都会有差异,那么数据使用就可以24小时作为范围,超过24小时的数据就不再考虑使用,而像微生物检查和实验室检查具备较低时效性,三天到五天内的数据都可以认为有效,那么就可以使用72或者120小时为范围,这种范围为统称“有效时间范围”。“有效时间范围”一般根据经验或者是参考文献中的资料来确定,也可以根据实际的建模目的来确立,标准参考《医院感染诊断标准(试行)》中部分特征的作用时间。
“诊断日期”指在医院感染中,已经确诊或者是上报为医院感染的病人一般都会有一个经医生诊断的“感染日期”,此处称为“诊断日期”。
“感染日期”指病人真实发生感染的日期为感染日期。
“前时间段”指以诊断日期为基准日期选取感染样本,往前推理的时间单位长度为前时间段。
“后时间段”指以诊断日期为基准日期选取感染样本,往后推理的时间单位长度为后时间段。
如图1所示是医院感染数据分析建模流程,包括如下步骤:
步骤A1,确定医院感染数据的特征,如体温、脉搏和C反应蛋白等,形成医院感染的特征集合记为F,k表示集合F中第k个特征;将特征集合F按“有效时间范围”进行归类生成集合T,Tk表示第k个特征所属的类别;
其中,“有效时间范围”的目的在于不同特征对人体影响的时间长度是不同的,一般根据经验或者是参考文献中的资料来确定,也可以根据自己实际的建模目的来确立,标准建议参考《医院感染诊断标准(试行)》中部分特征的作用时间,如图5所示,本实施例给出了部分归类,可以用于参考。
其中,特征集合的确定主要依靠《医院感染诊断标准(试行)》中总结出来的部分特征和从论文或者是医生那里得到的部分特征,这部分工作主要在需求调查和分析阶段完成。
步骤A2,确定生成正反例样本的病人,该步骤是将数据按病人为单位进行划分,其中正例样本为发生医院感染的病人样本,反例样本为未发生医院感染的病人样本;首先,需要取得发生医院感染的病人,这部分较容易取得,因为发生医院感染的病人都有医院的诊断或者已经进行了上报,直接拿到这部分病人和这部分病人对应的“诊断日期”即可,然后,非医院感染的病人则可以取医院中那些没有被诊断为医院感染的病人,由于这部分病人较多,所以采用分层抽样和随机抽样相结合的方式,该方法是将医院的病人按照科室进行分层,然后每一层再采用随机抽样的方式抽取部分病人,最终抽取的病人数目一般不超过发生医院感染病人数目的10倍;
需要注意的是,该步骤是用来确定哪些病人是医院感染,哪些病人是非医院感染,这些并不是用于建模的样本,因为一个病人是不适合作为一条样本的,每个病人在住院期间的某段时间是处于感染状态,而其他时间是正常的,只有处于感染状态的那段时间才能作为感染样本,即样本是具备时间序列性质的。
步骤A3,采用时间段推理的方式来划分正反例样本;医院感染病人和非医院感染的病人确定以后,就可以按时间序列来生成正反例样本了。本案例主要是以天为单位生成样本,所以每个病人在院期间的每一天都可以作为一条样本,然而,并不是病人在院每一天的数据都要生成样本,对于非医院感染的病人,可以按照随机抽样的方式来抽取病人在院期间的某几天的数据,对于医院感染的病人,可以应用“时间段推理”的方法来抽取对应时间段的数据,其中时间段推理的“前时间段”和“后时间段”在划分正反例样本的时候需要多次尝试找到合理的值,两个时间段一般建议不超过5天;采用时间推理的流程如图2所示,包括:
步骤A3a,将医院感染病人集合记为C,其诊断日期组成的集合记作Cd;
步骤A3b,从集合C中随机抽取n个病人,并得到这n个病人对应的诊断日期;
步骤A3c,依据《医院感染诊断标准(试行)》对这n个病人进一步诊断,并得到这n个病人“前时间段”和“后时间段”组成的数组A_pre和A_end,并对这n个病人两个数组分别求和再平均,得到两组数值的平均值分别为avg_pre=sum(A_pre)/n和avg_end=sum(A_end)/n,这两个平均值就可以作为所有病人C的时间段推理的两个参数;
步骤A3d,采用增量式更新的办法生成样本集合并进行建模测试;
步骤A3e,根据测试结果不断微调avg_pre和avg_end,如同时+1或者-1,等方式来优化集合最终得到效果较好的值。
步骤A4,正反例样本划分完成后,采用“增量式更新”的方法来生成样本集;该步骤与前述步骤A3d的步骤相同,此处需要按照步骤1数据特征所属的“有效时间范围”来将不同特征进行增量式更新,需要注意的是医院感染病人应用时间段推理得到的正例样本由于在时间上是连续的,所以该方法能解决多数数据缺失问题,然而,非医院感染病人由于采用随机抽样,较难保证时间上一定连续,此处的“增量式更新”未必能解决数据缺失的问题,对于这种情况需要根据实际情况去处理,若缺失值过多,则可以考虑在选取非医院感染病人样本时选择随机抽取连续几天即可;采用“增量式更新”的方法来对样本缺失值进行处理如图3所示,具体步骤包括:
步骤A4a,将前述步骤A3中所有病人的组成的集合记作S,m表示S中第m个病人;
步骤A4a,遍历集合S,得到S中的某个医院感染病人m,并对m进行“时间段推理”生成正反例样本集合N,并对N按当天日期升序排序,排序的目的是保证在增量式更新的时候时间是从小到大排列的,从而保证更新时总是新值覆盖旧值,若病人m是非感染病人,则采用随机抽样的方法来生成样本集合N;
步骤A4b,开始遍历样本集合N,第一条样本i是时间最小的样本,直接存入样本集合D,并将该样本i的特征归类到集合T中,记录Tk_v和Tk_date,表示样本i第k个特征的值和该值的日期;
步骤A4c,开始遍历第二条及后面所有的样本i,对于i中每一个特征Tk的值Tk_v进行判断,如果该值为缺失值,则进行第5步,否则该值保留,不做任何处理;
步骤A4d,若样本i的特征Tk的值Tk_v为缺失值,则在样本集合D中逆序找到该特征Tk的值Tk_v和Tk_date,若D中该值不为空且Tk_date与i中的Tk_date的差值不超过“有效时间范围”则将该值取出更新到样本i的Tk_v中来代替缺失值,若D中该值不为空但是超过“有效时间范围”则推出遍历保持样本i第k个特征的缺失状态,若D中该值也为空则继续遍历下一个值。此处要求逆序遍历是为了保证集合D中的遍历的样本在时间上总是最靠近当前样本的;
步骤A4e,完成更新或者是保留后,将这条样本存入样本集合D中并进行下一条样本的读取,即i=i+1;
步骤A4f,判断i=N是否成立,若成立,完成遍历,样本集合D构建完成,若不成立继续进行下一步。
步骤A5,对最终样本集进行分析建模、测试及优化;该步骤与前述步骤A3e相同;样本集生成以后,基本上就解决了医院感染数据最主要的几个难点,在进行分析建模的时候,基本上按照数据分析和机器学习的基本过程就可以完成后续工作了,不过,需要注意的是机器学习算法的选择并不是任意选择的,医院感染监测预警模型的预警结果一般需要具备可解释性,即有理有据,所以,算法必须选择具备解释性质的算法,像决策树、随机森林和逻辑回归等,而深度学习、支持向量机等算法不建议使用;建模和测试的过程如图3所示,这部分依旧采用传统的算法和步骤,步骤如下:
步骤A5a,对样本集合D进行建模,建议选取决策树、随机森林和逻辑回归等算法,该算法具备可解释性,并记录该算法在测试集合上的敏感性和特异性指标;
步骤A5b,记录敏感性及特异性指标后,微调avg_pre和avg_end,再次进行建模和测试,记录两个指标;
步骤A5c,多次建模测试,并找到效果最好的两个指标,此时avg_pre和avg_end基本上就是最佳值;
最终模型构建后,就可以上线集成了,这部分根据不同的***会有较大差别,但是模型基本具备通用性。
本发明还提供一种基于增量式更新方法解决医院感染数据缺失的分析建模***,至少包括一数据库,该数据库中存储有所有病人集合S以及集合S内病人的病例数据;一样本生成模块,根据样本生成条件生成样本集合,例如根据病人感染情况生成感染病人集合和非感染病人集合;一样本划分模块,将前述样本生成模块生成的样本集合划分为分析建模所需样本集合;以及一数据更新模块,该数据更新模块通过前述步骤A4a-步骤步骤A4f实现数据缺失值的更新。
一种基于增量式更新方法解决医院感染数据缺失的分析建模***的实现方法,如图4所示,包括如下步骤:
步骤B1,根据数据库的信息,整理和明确医院感染数据中所需要的病人数据项并设计出对应的XML存储结构;
步骤B2,样本生成模块将病人的数据按设定采样周期为样本、按数据项为特征整理为所需数据的样本格式,生成所需样本集合;
在上述步骤B2中,将医院感染的数据整理为样本,这些样本中每一条均是一个病人在设定采样周期的数据,按照前述所述的增量式更新的方法对样本中的特征进行增量式更新,最终会产生若干病人在设定采样周期的样本所组成的样本集合。
步骤B3,样本划分模块按照最终分类的标签对样本集合进行划分,生成最终感染样本和非感染样本区分后的样本集合;
步骤B4,划分后的样本集合通过数据更新模块进行增量式更新;
步骤B5,样本集合更新完成后,按照建模的一般方法进行建立模型。
进一步的,步骤B1中,文件以XML的方式进行存储,里面包含了病人的基本信息,如病例号、性别、年龄、感染日期等,包含了病人的入院基本信息,如入院诊断、入院科室、入院日期等,包含了病人在院期间设定采样周期的信息,如体温、医嘱、实验室检查、微生物检查、影像检查和病程记录等;该存储方案除了对病人的信息具备存储的功能外,最主要的是便于数据的组织和应用,XML里面的每一项都可以单独取出来并与其他项组合使用,并且里面每项都有准确的时间,也可以按照时间序列进行组织,使用方式取决于开发者的需求。
一种计算机可读介质,该计算机可读介质用于通过计算机网络选取样本集合和医院感染数据分析和建模,包括一组指令,当执行时,该指令会导致至少一个计算机执行解决医院感染数据分析建模过程中的样本集合选取的问题以及选取样本集合后的数据分析和建模。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种医院感染数据的样本选取的时间段推理方法,其特征在于,包括如下步骤:
步骤1,确定医院感染数据的特征,并将特征按照“有效时间范围”进行归类,特征集合记作F,k表述在集合F中的第k个特征,所述“有效时间范围”为病人/患者检测数据的时效时间范围的统称;
步骤2,所有病人组成的集合记作S,在集合S中得到病人m,并对病人m生成正反例样本集合N;
步骤3,步骤2中生成正反例样本集合N后,将医院感染病人集合记为C,感染病人的诊断日期组成的集合记为Cd;
步骤4,从集合C中随机抽取n个病人,并获得n个病人对应的诊断日期;
步骤5,对步骤4中的n个病人进行诊断,取得n个病人“前时间段”和“后时间段”的数据组成的数组A_pre和A_end,其中“前时间段”是通过以诊断日期为基准日期选取感染样本,往前推理的时间单位长度,“后时间段”是通过以诊断日期为基准日期选取感染样本,往后推理的时间单位长度;
步骤6,对步骤5中的两个数组分别求和后再求平均,分别取得两个平均值avg_pre=sum(A_pre)/n,avg_end=sum(A_end)/n;这两个平均值作为集合C中所有病人的时间段推理的两个参数,近似估计集合C中所有病人的“前时间段”和“后时间段”;
步骤7,更新数据生成样本集合D并根据样本集合D进行建模测试;
步骤8,根据测试结果不断微调avg_pre和avg_end,以得到最终需求的值;
其中,步骤2中的正例样本为发生医院感染的病人m样本,反例样本为未发生医院感染的病人m样本。
2.如权利要求1所述的时间段推理方法,其特征在于,若m为正例样本中的病人,则m记为S中的第m个病人;若m为反例样本中的病人,则m为随机抽取的病人。
3.如权利要求1所述的时间段推理方法,其特征在于,步骤7中更新数据的方法采用增量式更新方法,包括如下步骤:
步骤7a,按照时间由前到后的序列对步骤2中的正反例样本集合N进行升序排序,以保证在增量式更新的过程中,时间都是从前到后排列的,从而保证更新时总是新值覆盖旧值;
步骤7b,将样本集合N中时间最早的样本i,存入到样本集合D中,并按步骤1中确定的医院感染数据的特征对应存入集合T中,分别记录Tk_v和Tk_date,表示集合N中的样本i对应的集合T中的第k个特征的值和该值的日期;
步骤7c,对样本集合N中的第二条及以后所有的样本i进行缺失值判断,对缺失值进行更新,对未缺失值进行保留;
步骤7d,将完成更新或保留的样本存入到样本集合D中,按照步骤5顺序读取后续样本并保存样本数据;
步骤7e,当重复步骤7c和步骤7d得到i=N时,读取完成,样本集合D构建完成。
4.如权利要求3所述的时间段推理方法,其特征在于,步骤7c中,若样本i的特征Tk的值Tk_v为缺失值,则在样本集合D中逆序找到该特征Tk的值Tk_v和Tk_date,若样本集合D中该值不为空,且Tk_date与i中的Tk_date的差值不超过“有效时间范围”,则将该值取出更新到样本i的Tk_v中来代替缺失值。
5.如权利要求3所述的时间段推理方法,其特征在于,步骤7c中,若样本i的特征Tk的值Tk_v为缺失值,则在样本集合D中逆序找到该特征Tk的值Tk_v和Tk_date,若样本集合D中该值不为空,但是超过“有效时间范围”则推出遍历保持样本i第k个特征的缺失状态。
6.如权利要求3所述的时间段推理方法,其特征在于,步骤7c中,若样本i的特征Tk的值Tk_v为缺失值,则在样本集合D中逆序找到该特征Tk的值Tk_v和Tk_date,若样本集合D中该值为空,则继续遍历下一个值。
7.一种通过如权利要求1-6任一项所述的时间段推理方法解决医院感染数据样本选取的分析建模方法,包括如下步骤:
步骤A1,确定医院感染数据的特征,并将特征按照“有效时间范围”进行归类;
步骤A2,确定生成正反例样本的病人,其中正例样本为发生医院感染的病人样本,反例样本为未发生医院感染的病人样本;
步骤A3,采用时间段推理的方式来划分正反例样本,具体实现方式如前述步骤1-步骤8所述;
步骤A4,采用“增量式更新”的方法来生成样本集,具体实现方式如步骤7a-7e所述;
步骤A5,对最终样本集进行分析建模。
8.一种通过如权利要求1-6任一项所述的时间段推理方法解决医院感染数据样本选取的分析建模***,至少包括一数据库,该数据库中存储有所有病人集合S以及集合S内病人的病例数据;一样本生成模块,根据样本生成条件生成样本集合;一样本划分模块,将前述样本生成模块生成的样本集合划分为分析建模所需样本集合;以及一数据更新模块,该数据更新模块通过前述步骤1-步骤8实现数据缺失值的更新。
9.一种通过如权利要求8所述的时间段推理方法解决医院感染数据样本选取的分析建模***的实现方法,包括如下步骤:
步骤B1,根据数据库的信息,整理和明确医院感染数据中所需要的病人数据项并设计出对应的XML存储结构;
步骤B2,样本生成模块将病人的数据按设定采样周期为样本、按数据项为特征整理为所需数据的样本格式,生成所需样本集合;
在上述步骤B2中,将医院感染的数据整理为样本,这些样本中每一条均是一个病人在设定采样周期的数据,按照权利要求3所述的增量式更新的方法对样本中的特征进行增量式更新,最终会产生若干病人在设定采样周期的样本所组成的样本集合;
步骤B3,样本划分模块按照最终分类的标签对样本集合进行划分,生成最终感染样本和非感染样本区分后的样本集合;
步骤B4,划分后的样本集合通过数据更新模块进行增量式更新;
步骤B5,样本集合更新完成后,按照建模的一般方法进行建立模型。
10.一种计算机可读介质,该计算机可读介质用于通过计算机网络选取样本集合和医院感染数据分析和建模,其特征在于,包括一组指令,当执行时,该指令会导致至少一个计算机执行解决如权利要求1-6任一项所述的医院感染数据分析建模过程中的样本选取的问题以及样本选取后的数据分析和建模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811129775.3A CN109360657B (zh) | 2018-09-27 | 2018-09-27 | 一种医院感染数据的样本选取的时间段推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811129775.3A CN109360657B (zh) | 2018-09-27 | 2018-09-27 | 一种医院感染数据的样本选取的时间段推理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109360657A CN109360657A (zh) | 2019-02-19 |
CN109360657B true CN109360657B (zh) | 2022-06-03 |
Family
ID=65347853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811129775.3A Active CN109360657B (zh) | 2018-09-27 | 2018-09-27 | 一种医院感染数据的样本选取的时间段推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109360657B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312346B (zh) * | 2020-01-21 | 2023-04-18 | 杭州杏林信息科技有限公司 | 住院患者新发生感染人数的统计方法、设备和存储介质 |
CN111312404B (zh) * | 2020-01-21 | 2023-04-18 | 杭州杏林信息科技有限公司 | 统计新发中央血管导管相关血流感染人数的方法、设备及存储介质 |
CN112002383B (zh) * | 2020-06-30 | 2024-03-08 | 杭州杏林信息科技有限公司 | 特定时段处于医院感染状态人数的自动管理方法及*** |
CN112037893A (zh) * | 2020-07-08 | 2020-12-04 | 杭州杏林信息科技有限公司 | 指定时间点处于医院感染状态人数的自动管理方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002065135A3 (en) * | 2001-02-15 | 2003-05-30 | Affitech As | Determination of level of immunoglobulin modification |
CN1598858A (zh) * | 2004-05-13 | 2005-03-23 | 郑州市疾病预防控制中心 | 数字化医院信息一体化管理*** |
CN105893725A (zh) * | 2014-11-13 | 2016-08-24 | 北京众智汇医科技有限公司 | 一种医院感染预防与控制全流程管理***及其方法 |
CN106390117A (zh) * | 2009-10-16 | 2017-02-15 | 奥默罗斯公司 | 通过抑制masp‑2依赖性补体活化治疗弥散性血管内凝血的方法 |
CN107658023A (zh) * | 2017-09-25 | 2018-02-02 | 泰康保险集团股份有限公司 | 疾病预测方法、装置、介质和电子设备 |
-
2018
- 2018-09-27 CN CN201811129775.3A patent/CN109360657B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002065135A3 (en) * | 2001-02-15 | 2003-05-30 | Affitech As | Determination of level of immunoglobulin modification |
CN1598858A (zh) * | 2004-05-13 | 2005-03-23 | 郑州市疾病预防控制中心 | 数字化医院信息一体化管理*** |
CN106390117A (zh) * | 2009-10-16 | 2017-02-15 | 奥默罗斯公司 | 通过抑制masp‑2依赖性补体活化治疗弥散性血管内凝血的方法 |
CN105893725A (zh) * | 2014-11-13 | 2016-08-24 | 北京众智汇医科技有限公司 | 一种医院感染预防与控制全流程管理***及其方法 |
CN107658023A (zh) * | 2017-09-25 | 2018-02-02 | 泰康保险集团股份有限公司 | 疾病预测方法、装置、介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
医院感染监测基本数据集的建立及作用;付强等;《中华医院感染学杂志》;20161231;第26卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109360657A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109360657B (zh) | 一种医院感染数据的样本选取的时间段推理方法 | |
US20200337580A1 (en) | Time series data learning and analysis method using artificial intelligence | |
US20200178825A1 (en) | System and method for identifying cardiac arrhythmias with deep neural networks | |
EP3692903A1 (en) | Artificial intelligence self-learning-based automatic electrocardiography analysis method and apparatus | |
US20100217144A1 (en) | Diagnostic and predictive system and methodology using multiple parameter electrocardiography superscores | |
CN112365978B (zh) | 心动过速事件早期风险评估的模型的建立方法及其装置 | |
Shi et al. | Inter-patient heartbeat classification based on region feature extraction and ensemble classifier | |
Linker | Accurate, automated detection of atrial fibrillation in ambulatory recordings | |
WO2019161611A1 (zh) | 心电信息处理方法和心电工作站 | |
CN108492877B (zh) | 一种基于ds证据理论的心血管病辅助预测方法 | |
CN110680326A (zh) | 基于深度卷积神经网络的尘肺病鉴别及分级判定方法 | |
CN113995419B (zh) | 一种基于心跳节律信号的房颤发生风险预测***及其应用 | |
Udawat et al. | An automated detection of atrial fibrillation from single‑lead ECG using HRV features and machine learning | |
CN111584021A (zh) | 病案信息校验方法、装置、电子设备及存储介质 | |
CN111951965A (zh) | 基于时序知识图谱的全景式健康动态监测与预测*** | |
CN115563484A (zh) | 一种基于生理唤醒识别的街道绿化品质检测方法 | |
CN112932498A (zh) | 一种基于深度学习的强泛化能力的t波形态分类*** | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
CN109461480B (zh) | 一种医院感染数据缺失的增量式更新方法 | |
CN115607166B (zh) | 一种心电信号智能分析方法及***、智能心电辅助*** | |
Rashmi et al. | MRI image based Ensemble Voting Classifier for Alzheimer's Disease Classification with Explainable AI Technique | |
Roobini et al. | Diagnosis of Alzheimer Disease using Classification Algorithms | |
Lin et al. | Algorithm for clustering analysis of ECG data | |
Manilo et al. | ECG database of short fragments with arrhythmias classification according to the degree of danger to the patient’s life | |
Firoz et al. | Detection of myocardial infarction using hybrid CNN-LSTM model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230824 Address after: 200032 No. 136, Xuhui District Medical College, Shanghai Patentee after: ZHONGSHAN HOSPITAL, FUDAN University Patentee after: SHANGHAI LILIAN INFORMATION TECHNOLOGY CO.,LTD. Address before: 200444 room 1536, building 1, No. 668, SHANGDA Road, Baoshan District, Shanghai Patentee before: SHANGHAI LILIAN INFORMATION TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |