CN115798708A

CN115798708A - 基于长时间序列的急救伤情分类方法

Info

Publication number: CN115798708A
Application number: CN202211496521.1A
Authority: CN
Inventors: 刘天; 叶琳
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-14

Abstract

本发明公开了一种基于长时间序列的急救伤情判别的伤情分类方法，包括：根据eICU急诊数据库中APACHE IV的预测死亡率指标构建包含四种伤情类别的数据集；对数据集进行数据清洗、标准化、特征筛选的系列预处理；采用深度学习对时序特征进行智能建模，然后针对需求稀疏化输入特征，使模型通过最少的关键特征实现较高的性能；选取多种针对长时间序列的深度学习模型，通过模型融合得到最终的分类模型。该方法最终所涉及到的特征组合以及融合模型下的伤情分类准确率可达到92％，为战场救治策略提供了有效的参考方法。

Description

基于长时间序列的急救伤情分类方法

技术领域

本发明属于医学信号处理技术领域，涉及到一种基于长时间序列的急救伤情分类方法。

背景技术

随着科技的进步，现代化战争俨然演变成了数字化、智能化、高科技的战争模式。在新的战争模式下，传统的士兵作战单元的概念已经产生了质的飞跃，单兵***的作战能力高低直接决定了战场上整体战斗力的强弱。在现代战场救护中，迅速及时的救治对降低士兵死亡率有着极其重要的作用，则需要根据伤员的伤情决定救治的先后顺序，以达到最优的救治效率，所以快速准确的评估士兵伤情严重程度尤为关键。

目前，大多数伤情评估***通过对伤员进行规范问答式交流并结合传感器采集的生理参数进行评分，采取的简易战伤计分法，并把得出的综合分数与伤票结合得出伤情类别。

简易战伤计分法涉及的生理指数有：心率、收缩压、呼吸频率、体温和意识等。心率正常范围是在51～100(次/min)，收缩压正常范围值是在101～199(mmHg)，呼吸频率正常值是在9～14(次/min)，体温正常值是在35～38.4(℃)。偏离正常值越多，分值越高。分值越高，伤情越严重。

而且，简易战伤计分法非专业医护人员不易掌握，且存在信息不准确、不快捷等问题。

发明内容

为了解决上述现有的伤情评估技术中存在的缺陷或不足，本发明的目的在于，提供一种基于长时间序列的急救伤情分类方法，该方法能够结合受伤士兵各项生理参数快速准确的判断伤员伤情类型，协助医生对伤员进行快速准确施救，进而减少士兵伤亡情况。

为了实现上述任务，本发明采用如下的技术解决方案：

一种基于长时间序列的急救伤情分类方法，其特征在于，按下列步骤实施：

步骤一，对合作研究数据库(eICU Collaborative Research Database，eICU)进行预处理以构建用于模型训练和测试的数据集；

步骤二，采用深度学习进行智能建模，实现基于静态和动态时序特征的伤情分级。

步骤三，稀疏化特征输入，使模型能在尽可能少的特征数量下实现较高的性能。

步骤四，选取多种主流的深度学习模型(LSTM、TCN、Transformer、Informer)，通过模型融合得到最终的分类模型。

根据本发明，步骤一的具体实现步骤为：

步骤101：根据合作研究数据库中apachePatientResult列表中APACHE IV的预测ICU死亡率指标来划分伤情数据集；其中：

死亡率在0-10％以内的划分为轻伤，死亡率在10％-30％以内的划为中伤，死亡率在40％-60％以内的划为重伤，死亡率在70％以上的划为危重伤。

步骤102：根据伤情数据集中病人的id，在patient列表里提取了病人的性别、年龄两个静态特征。在nurseCharting列表里提取心率、呼吸、血氧、收缩压、舒张压、平均压、体温、格拉斯哥昏迷指数(GCS)等生理特征。一共提取26485个样本，11个特征，100个时间点。

步骤103：针对样本存在特征缺失的情况的处理：

1)样本某特征存在少数值缺失，如某样本特征t时刻存在缺失，则填充t-1时刻的值。

2)样本存在某个特征缺失，则填充该样本所在类别的平均值。

3)对于异常值的处理，针对不同的生理特征，参考专家给出的合理值上下界进行样本过滤，对于某一样本的任一特征值在不在合理范围内则弃用该样本。

步骤104：对特征进行标准化处理

计算各个特征在整个数据集维度上的均值和标准差，利用计算出的均值和标准差对特征值进行标准化以消除不同特征量纲的影响；对于样本总数为m的数据集公式如下：

式中，x_i为数据集中的第i个样本的特征。

步骤105：按照6：2：2的比例划分训练集、验证集和测试集。

具体的，在步骤二中，为了充分利用样本在长时间节点上的多维度特征信息，本方法首先采用基于自注意力机制的长时序预测模型Informer，在构建好的数据集上对时序特征进行智能建模，并通过多种评价指标对模型的性能进行量化评估；具体步骤如下：

步骤201：模型训练及验证

模型采用两层Informer编码器和一层解码器结构，使用Adam优化器进行优化，其中超参数β₁和β₂分别设定为0.99和0.9。损失函数采用多分类交叉熵损失，其数学表示如下：

式中，M为类别的数量，y_ic为符号函数,p_ic为观测样本i属于类别c的预测概率。

训练时，静态特征通过复制转换成与时序特征向量长度相同的一维特征向量，然后将其与k组长度为100的时序特征向量沿通道维拼接形成二维特征图

作为输入。训练的批大小为64，学习率为0.00005，每训练20轮学习率下降10倍，最大训练轮数为30。保存最后一轮模型作为最优模型。

步骤202：模型测试

加载步骤201中保存的最优模型权重，在测试集上计算各个类别的准确率(accuracy rating，ACC)、F1分数(F1-score，F1)以及受试者工作特征曲线(receiveroperating characteristic curve，ROC)下面积，其中ACC和F1分数的计算公式如下：

式中，TP、TN、FP、FN分别代表真阳性率、真阴性率、假阳性率、以及假阴性率，则R和P分别为召回率和精确率。

进一步地，在步骤三中，考虑到战场环境容易监测的生理特征有限，需要使用尽可能少的生理特征达到较高的性能。将每个样本的性别(Gender,G)和年龄(Age,A)作为固定静态特征，心率(Heart Rate，HR)、呼吸率(Respiratory Rate，RR)、体温(BodyTemperature，BT)、血氧饱和度(O2Saturation，O2)、收缩压(Systolic Pressure,SP)、舒张压(Diastolic Pressure，DP)以及格拉斯哥昏迷评分(GCS)等指标作为时序特征。根据不同特征组合在Informer模型上的性能表现，针对需求稀疏化输入特征，选取性能最高的特征组合作为最终模型的输入，具体步骤为：

步骤301：设定特征集合θ，具体组合如下：

步骤302：以不同特征组合为模型输入，重复步骤二，得到各个模型在测试集上的性能表现。

进一步地，步骤四中，为了进一步提升伤情分类模型的准确性和鲁棒性，选取评估主流的针对长时间序列的神经网络模型并通过模型融合得到最终模型的分类结果，具体实现步骤为：

步骤401：网络结构融合。选择时域卷积网络(Temporal Convolutional Network，TCN)和Informer作为基本模型，删除两个模型原有输出层，将最后一层隐藏层神经元输出的特征向量展平，并沿通道维度拼接形成新的特征向量。通过全连接层融合并输出最终类别特征向量。

步骤402：模型训练配置参照步骤二，训练时同时输入两组相同的时序特征序列，分别通过TCN和Informer两条路径提取特征，最终利用多层感知机进行不同模型间的特征融合并输出预测结果。

步骤403：在测试集上测试训练模型好的模型，最终模型。

步骤404：最终通过TCN和Informer融合后的网络模型，特征为(A,G,HR,R,BT,CS)组合下，得到的分类准确率为92％，平均ROC曲线下面积为99％。ROC曲线如图2所示。

本发明的基于长时间序列的急救伤情分类方法，带来的技术创新在于：

第一，融合了静态维度和动态维度的数据作为特征，根据Apache IV的预测死亡率值划分伤情严重程度数据集；

第二，为了充分利用样本在长时间节点上的多维度特征信息，本方法首先采用基于自注意力机制的长时序预测模型Informer，在构建好的数据集上对时序特征进行智能建模，并通过多种评价指标对模型的性能进行量化评估；

第三，尝试多种特征组合，选取尽可能少的特征数据达到较高的性能。

第四，为了进一步提升伤情分类模型的准确性和鲁棒性，选取针对长时间序列性能较好的神经网络模型并通过模型融合得到最终模型的分类结果。

根据申请人的实验表明，该方法最终所涉及到的特征组合以及融合模型下的伤情分类准确率可达到92％，为战场救治策略提供了有效的参考方法。

附图说明

图1表示本发明的基于长时间序列的急救伤情分类方法的流程示意图。

图2表示模型融合后的测试集分类ROC曲线，其中(a)图为危重伤ROC曲线(等级面积98.17％)，(b)图为重伤ROC曲线(等级面积98.90％)，(c)图为中伤ROC曲线(等级面积99.92％)，(d)图为轻伤ROC曲线(等级面积99.92％)。

以下将结合附图和实施例对本发明做出进一步的详细说明。

具体实施方式

参见图1，本实施例给出一种基于长时间序列的急救伤情分类方法，包括以下内容：

1)将合作研究数据库(eICU Collaborative Research Database，eICU)根据Apache IV预测死亡率划分数据集并进行预处理，步骤为：

步骤101：根据eICU中apachePatientResult列表中APACHE IV的预测ICU死亡率指标来划分伤情数据集；其中死亡率在0-10％以内的划分为轻伤，死亡率在10％-30％以内的划为中伤，死亡率在40％-60％以内的划为重伤，死亡率在70％以上的划为危重伤。

步骤103：针对样本存在特征缺失情况的处理：

(1)样本某特征存在少数值缺失，如某样本特征t时刻存在缺失，则填充t-1时刻的值。

(2)样本存在某个特征缺失，则填充该样本所在类别的平均值。

(3)对于异常值的处理，针对不同的生理特征，参考专家给出的合理值上下界进行样本过滤，对于某一样本的任一特征值在不在合理范围内则弃用该样本。

步骤104：对特征进行标准化处理。计算各个特征在整个数据集维度上的均值和标准差，利用计算出的均值和标准差对特征值进行标准化以消除不同特征量纲的影响。对于样本总数为m的数据集公式如下：

式中，x_i为数据集中的第i个样本的特征。

步骤105：按照6：2：2的比例划分训练集、验证集和测试集。

2)为了充分利用样本在长时间节点上的多维度特征信息，在构建好的数据集上对时序特征进行智能建模，并评估模型性能的步骤为：

步骤201：模型训练及验证

式中M为类别的数量，y_ic为符号函数,p_ic为观测样本i属于类别c的预测概率。

步骤202：模型测试

3)为稀疏化特征输入，使模型能在尽可能少的特征数量下实现较高的性能的步骤为：

步骤301：设定特征集合θ，具体组合如下：

4)为了进一步提升伤情分类模型的准确性和鲁棒性，选取评估主流的针对长时间序列的神经网络模型并通过模型融合得到最终模型的分类结果：

步骤401：网络结构融合

选择时域卷积网络(Temporal Convolutional Network，TCN)和Informer作为基本模型，删除两个模型原有输出层，将最后一层隐藏层神经元输出的特征向量展平，并沿通道维度拼接形成新的特征向量。通过全连接层融合并输出最终类别特征向量。

步骤403：在测试集上测试训练模型好的模型，最终模型。

本实施例给出的基于长时间序列的急救伤情分类方法，涉及到三个技术层面：

(1)为了充分利用样本在长时间节点上的多维度特征信息，首先采用基于自注意力机制的长时序预测模型Informer，在构建好的数据集上对时序特征进行智能建模，并通过多种评价指标对模型的性能进行量化评估；

(2)尝试多种特征组合，选取尽可能少的特征数据达到较高的性能。

(3)为了进一步提升伤情分类模型的准确性和鲁棒性，选取针对长时间序列性能较好的神经网络模型并通过模型融合得到最终模型的分类结果。

结果表明，在新的特征组合下，融合后的模型呈现出了较高的性能，能较为准确快速的判断出患者的伤情严重程度，对后续采取相应的敏捷救治策略提供了参考依据。

Claims

1.一种基于长时间序列的急救伤情分类方法，其特征在于，按下列步骤实施：

步骤一，对合作研究数据库进行预处理以构建用于模型训练和测试的数据集；

步骤二，采用深度学习进行智能建模，实现基于静态和动态时序特征的伤情分级；

步骤四，选取多种主流的深度学习模型，通过模型融合得到最终的分类模型。

2.如权利要求1所述的方法，其特征在于，步骤一的具体实现步骤为：

步骤101：根据合作研究数据库中apachePatientResult列表中APACHEIV的预测ICU死亡率指标来划分伤情数据集，其中：

死亡率在0-10％以内的划分为轻伤，死亡率在10％-30％以内的划为中伤，死亡率在40％-60％以内的划为重伤，死亡率在70％以上的划为危重伤；

步骤102：根据伤情数据集中病人的id，在patient列表里提取病人的性别、年龄两个静态特征；在nurseCharting列表里提取下列生理特征：心率、呼吸、血氧、收缩压、舒张压、平均压、体温、格拉斯哥昏迷指数；一共提取了26485个样本，11个特征，100个时间点；

步骤103：针对样本存在特征缺失情况的处理

1)样本某特征存在少数值缺失，即某样本特征t时刻存在缺失，则填充t-1时刻的值；

2)样本存在某个特征缺失，则填充该样本所在类别的平均值；

3)对于异常值的处理，针对不同的生理特征，参考专家给出的合理值上下界进行样本过滤，对于某一样本的任一特征值在不在合理范围内则弃用该样本；

步骤104：对特征进行标准化处理

式中，x_i为数据集中的第i个样本的特征；

步骤105：按照6：2：2的比例划分训练集、验证集和测试集。

3.如权利要求1所述的方法，其特征在于，步骤二中，为了充分利用样本在长时间节点上的多维度特征信息，在构建好的数据集上对时序特征进行智能建模，并通过多种评价指标对模型的性能进行量化评估，具体步骤为：

步骤201：模型训练及验证

模型采用两层Informer编码器和一层解码器结构，使用Adam优化器进行优化，其中超参数β₁和β₂分别设定为0.99和0.9；损失函数采用多分类交叉熵损失，其数学表示如下：

式中，M为类别的数量，y_ic为符号函数，p_ic为观测样本i属于类别c的预测概率；

作为输入；训练的批大小为64，学习率为0.00005，每训练20轮学习率下降10倍，最大训练轮数为30；保存最后一轮模型作为最优模型；

步骤202：模型测试

加载步骤201中保存的最优模型权重，在测试集上计算各个类别的准确率、F1分数以及受试者工作特征曲线下面积，其中ACC和F1分数的计算公式如下：

4.如权利要求1所述的方法，其特征在于，步骤三的具体实现步骤为：

步骤301：设定特征集合θ，具体组合如下：

5.如权利要求1所述的方法，其特征在于，步骤四的具体实现步骤为：

步骤401：网络结构融合

选择时域卷积网络(Temporal Convolutional Network，TCN)和Informer作为基本模型，删除两个模型原有输出层，将最后一层隐藏层神经元输出的特征向量展平，并沿通道维度拼接形成新的特征向量，通过全连接层融合并输出最终类别特征向量；

步骤402：模型训练配置参照步骤二，训练时同时输入两组相同的时序特征序列，分别通过TCN和Informer两条路径提取特征，最终利用多层感知机进行不同模型间的特征融合并输出预测结果；

步骤403：在测试集上测试训练模型好的模型，最终模型；

步骤404：最终通过TCN和Informer融合后的网络模型，特征为(A,G,HR,R,BT,CS)组合下，得到的分类准确率为92％，平均ROC曲线下面积为99％。