CN116451110A - 基于信号能量特征和脉搏周期的血糖预测模型构建方法 - Google Patents
基于信号能量特征和脉搏周期的血糖预测模型构建方法 Download PDFInfo
- Publication number
- CN116451110A CN116451110A CN202310227933.3A CN202310227933A CN116451110A CN 116451110 A CN116451110 A CN 116451110A CN 202310227933 A CN202310227933 A CN 202310227933A CN 116451110 A CN116451110 A CN 116451110A
- Authority
- CN
- China
- Prior art keywords
- signal
- features
- pulse wave
- value
- blood glucose
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000008280 blood Substances 0.000 title claims abstract description 61
- 210000004369 blood Anatomy 0.000 title claims abstract description 61
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 title claims abstract description 40
- 239000008103 glucose Substances 0.000 title claims abstract description 40
- 238000010276 construction Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 27
- 239000002245 particle Substances 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 102000017011 Glycated Hemoglobin A Human genes 0.000 claims description 2
- 108010014663 Glycated Hemoglobin A Proteins 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000010989 Bland-Altman Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 241001491815 Idaea Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000010241 blood sampling Methods 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/145—Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
- A61B5/14532—Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue for measuring glucose, e.g. by tissue impedance measurement
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
- A61B5/024—Detecting, measuring or recording pulse rate or heart rate
- A61B5/02416—Detecting, measuring or recording pulse rate or heart rate using photoplethysmograph signals, e.g. generated by infrared radiation
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7225—Details of analog processing, e.g. isolation amplifier, gain or sensitivity adjustment, filtering, baseline or drift compensation
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7253—Details of waveform analysis characterised by using transforms
- A61B5/726—Details of waveform analysis characterised by using transforms using Wavelet transforms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Veterinary Medicine (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Physiology (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Cardiology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Power Engineering (AREA)
- Fuzzy Systems (AREA)
- Emergency Medicine (AREA)
- Optics & Photonics (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Abstract
本发明涉及一种基于信号能量特征和脉搏周期的血糖预测模型构建方法,属于生物医学信号处理技术领域。该方法包括:S2:初筛:提取PPG信号质量的Kaiser‑Teager能量特征以及对数能量熵特征,输入SVM分类器划分信号质量;精筛:筛选脉搏波间隔周期不符合阈值设定的信号并剔除;根据脉搏波波形特征以及精筛信号能量特征,合并人体的生理参数的特征构成41维度的特征向量;根据xgboost获取特征的重要性排名,依次添加重要程度高的特征,构建血糖估计数据集;将构建的数据集输入粒子群BP神经网络,构建无创血糖估计模型。本发明信号质量筛选方法运算简单,计算量小,可提高穿戴式设备血糖估计模型的稳定性、适用性。
Description
技术领域
本发明属于生物医学信号处理技术领域,涉及一种基于信号能量特征和脉搏周期的血糖预测模型构建方法。
背景技术
目前对于血糖测量有生化仪检测法和快速血糖仪测量法,前一种主要用于医院等场所,采集需要的血样需求量大、检测时间长以及设备体积较大;第二种主要用于家用场景,仅需采集1-3μL的血样即可短时间内通过微型血糖仪计算出血糖浓度测量值。
无论生化分析仪还是指尖采血,均属于有创测量方法。频繁地进行血糖浓度的测量,对于患者来说是一件非常繁琐且痛苦的事情,而且还伴随感染的风险。并且,对于家用的微型血糖仪来说,血糖试纸的价格也是一笔不小的费用。实际上,大多数糖尿病患者由于血糖浓度检测繁琐、痛苦等原因无法实现血糖浓度的连续监测,使得糖尿病患者无法接受到合适的治疗措施,血糖浓度无法得到有效的控制。因此,实现一种真正的无创血糖浓度检测方法具有非常重要的现实意义。
基于PPG信号的无创血糖检测技术因其信号获取方便脱颖而出,PPG信号是血管中血流的反射,可通过受试者的指尖采集获得。PPG信号不仅可以用于评估心血管疾病,还可以用于预测血压和血糖。目前许多穿戴式的设备兼容监测PPG信号,利用PPG信号提取特征构建血糖预测模型是一个非常有前景的方向。
但是穿戴设备采集的信号或多或少会因为穿戴不合适以及患者运动导致信号质量不佳,筛选信号的质量可以剔除异常信号对后续结果的影响,也可以减少数据计算量。部分采集的PPG信号可能存在完全没有脉搏或者存在较多畸变的情况,这部分信号提取的特征存在错误甚至完全无法提取特征,严重影响模型的训练效率以及预测精度。对于算法的开发和实际的使用,信号质量的筛选都是一项重要的步骤。
发明内容
有鉴于此,本发明的目的在于提供一种基于信号能量特征和脉搏周期的信号质量筛选方法,一种简单快速的PPG信号质量筛选方法,保证后续特征提取的PPG信号的质量,为后续模型构建提供高质量的PPG信号,从而提高无创血糖估计模型的稳定性和高精度。
为达到上述目的,本发明提供如下技术方案:
一种基于信号能量特征以及脉搏周期的血糖预测模型构建方法,具体包括以下步骤:
S1:对采集的PPG信号进行高频噪声去除;
S2:初步筛选PPG信号质量:通过Kaise-Teager算子和熵的方法提取步骤S1去噪后PPG信号的Kaiser-Teager能量特征以及对数能量熵特征,并将其输入SVM分类器划分信号质量,分为好和坏两种;
S3:对步骤S2中初步筛选的好质量PPG信号进行精确筛选,筛选其中脉搏波间隔周期不符合阈值设定的信号,从数据集中剔除;
S4:根据脉搏波波形特征、自回归系数、心率以及步骤S3中筛选的信号能量特征,共39个特征,并合并2个人体的生理参数的特征构成41维度的特征向量;
S5:根据xgboost回归器获取特征的重要性排名,分别对比特征重要排名较高的特征,依次添加重要程度高的特征,构建血糖估计数据集;
S6:将步骤S5中构建的数据集输入粒子群BP神经网络,构建无创血糖估计模型。
进一步,步骤S2中,所述Kaiser-Teager能量特征的提取方法主要是用于确定信号的瞬时能量分布,以指示信号是有噪声的还是干净的,有助于判断信号是否保留;在离散域中,能量算子只需要信号的三个相邻值即可计算,其计算复杂度低,时间分辨率高。PPG信号的采样率为64Hz,连续血糖仪间隔5分钟采集一次血糖值,提取每次血糖采集前30秒的PPG信号对应一次血糖数值,一段的PPG信号SW包含1920个点,将其分为帧长Lframe=64的不同帧信号Sf(τ,n),其中τ表示每一帧的不同信号(τ=1,…,Lframe),n表示帧的编号(n=1,…,30),Kaiser-Teager特征KTE(τ,n)计算如下式所示:
对于每一帧计算的KTE(τ,n)(τ=2,3,…,Lframe-1),计算均值、方差、百分位数以及偏度,综合所有帧(n=1,2,…,30)的均值得到4个特征的Kaiser-Teager能量特征。
进一步,步骤S2中,所述对数能量熵特征是一种时域熵度量,根据全频带能量谱计算:
计算对数能量熵序列的统计特征,得到其均值、方差以及百分位数,得到3个特征。合并两种方法提取的特征,构建得到7个特征向量作为SVM信号质量初筛分类器的输入特征。
进一步,步骤S3具体包括:通过差分阈值法获取初步筛选的好质量PPG信号的谷底,通过三次样条插值法拟合出PPG信号的基线漂移,将原始信号减去基线漂移,获取去除基线漂移的PPG信号。
通过差分阈值法定位脉搏波的峰值及谷底,计算峰值间隔和谷底间隔以及峰值和谷底数量,设置阈值在心率范围(50,140)内,不满足阈值的信号剔除;差分阈值法定位的主要步骤如下:
(1)获取PPG信号的差分信号,并将小于零的部分置为0,得到PPGdiff;
(2)获取PPGdiff的极大值坐标peaks,并计算作为判断极大值是否满足的阈值条件;
(3)遍历判断极大值坐标peaks,对应差分信号PPGdiff(peaks)>diffmean,并且当前极大值坐标peaks(i)-peaks(i-1)的差值满足心率要求范围,则将当前peaks(i)添加到峰值最后的结果中,得到筛选后的极大值坐标peaks2;
(4)极值坐标peaks2和原始PPG信号的峰值存在一定的偏移,根据差分极值peaks2后向搜索1/3个心率周期,获取峰值坐标rpeaks;
(5)去重rpeaks,最终得到PPG信号的峰值;
(6)根据峰值rpeaks前向搜索1/2个周期,获取极小值的坐标得到谷底valleys。
以上是本发明使用的差分阈值法获取脉搏波的峰值以及谷底,并根据峰值间隔作为主要判断标准,判断峰值间隔周期是否存在两个及两个以上的周期不满足心率要求范围(50,140),如果不满足,则标识该信号存在较大跳变,剔除该信号;如果满足,则保留该信号,并计算该信号的心率特征,作为后续模型的一个输入特征。
进一步,步骤S4中,根据脉搏波波形,提取脉搏波波形特征总共包括25个特征。提取脉搏波波形特征的方法是:首先,根据步骤S3中采用差分阈值法得到的脉搏波信号的谷底序列,将脉搏波信号划分为单个脉搏波周期的信号;然后,对于每个脉搏波周期的信号提取脉搏波波形特征,得到25个特征构成特征向量。
进一步,步骤S4中,自回归系数的提取方法是通过自回归模型来实现的,具体通过自回归模型利用脉搏波p时刻前的点来预测当前点的值,得到该自回归模型的系数来表征脉搏波的特征;自回归模型可以用以下公式描述:
其中,S(τ,n)表示第n帧PPG信号第τ个值,e(n)表示自回归模型预测和真实的误差,p表示回归阶数,ARi表示自回归模型的系数,b表示偏置项,这里设置p=5,加上偏置项,那么自回归系数总共有6个特征。
进一步,根据脉搏波平均时间间隔,计算心率,得到1个特征。
进一步,步骤S4中,所述41维度的特征向量包括:4个Kaiser-Teager能量特征、3个对数能量熵序列的统计特征、25个脉搏波波形特征、6个自回归系数特征、1个心率特征以及性别和糖化血红蛋白特征2个特征。
进一步,步骤S5具体包括:构建xgboost回归器获取特征的重要性排名,依次添加特征,查看对应特征构成数据集的模型指标,直到模型的性能指标不再提升;最终得到10个特征的数据集;利用PSO-BP神经网络构建无创血糖估计模型。特征重要性排名方法以及血糖估计模型构建的主要步骤包括:
S51:对于筛选后的信号提取41个特征的特征向量,构建数据集;
S52:数据集进行Z-score标准化;特征中可能存在一些超出取值范围的离群数值,为避免其影响,采用Z-score标准化,即原数据和均值的差除以方差:
S53:将标准化后的数据按照7:1:2的比例分别划分训练集、验证集和测试集,通过xgboost获得特征重要性得分;Xgboost也就是梯度提升树,在提升树创建后,可以相对直接地获取每个特征的重要性得分,重要性得分衡量了特征在模型中提示决策树创建的价值。一个特征越多的被用来在模型中创建决策树,它的重要性就相对越高。根据特征重要性得分,从高到低对特征进行排名;
S54:根据S53中得到的特征排名,依次添加排名高的特征,然后构建xgboost模型查看不同特征数量的模型精度,得到最终最优模型精度的特征组合。
进一步,步骤S6具体包括:
S61:根据步骤S54中重要性排名构建的数据集构建粒子群BP神经网络,首先利用粒子群算法优化BP神经网络的权重,随机选取5%的数据集,以BP神经网络预测血糖和真实血糖的误差作为适应度函数,优化BP神经网络权重;
S62:利用优化的权重作为BP神经网络的初始权重值,对剩下95%的数据集按照7:1:2的比例划分训练集、验证集和测试集,训练BP神经网络,得到血糖估计模型。
本发明的有益效果在于:
1)本发明充分考虑了脉搏波信号的能量特征进行初步的信号质量筛选,然后通过脉搏周期进行进一步的筛选,可以剔除大部分的无用信号,减少计算量并且大大提高模型预测精度。
2)本发明方法建模的过程中考虑脉搏波的能量特征以及波形特征,提取了脉搏波的大部分信息,使得无创血糖估计模型更加稳定和精确。
3)本发明信号质量筛选方法运算简单,计算量小,可以在嵌入式设备实现快速计算,为穿戴式设备的脉搏波信号处理提供基础,可以进一步推动穿戴式设备血糖估计模型的稳定性、适用性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的信号质量筛选方法的流程图;
图2为脉搏波波形特征点示意图;
图3为SVM质量分类器AUC曲线(AUC分数为0.996);
图4为随机截取的10段原始PPG信号;
图5为经过预处理(即去噪、筛选以及去基线漂移)的PPG信号;
图6为不同特征数量模型指标曲线图;
图7为xgboost特征重要性前10个特征排名;
图8为PSO-BP模型的Clarke误差网格分析结果示意图;
图9为PSO-BP模型的Bland-Altman一致性分析结果示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图9,本发明提供一种基于脉搏波能量特征的脉搏波信号质量筛选以及结合脉搏波波形特征的无创血糖预测方法,具体流程图如图1所示,首先通过小波阈值去噪去除PPG信号采集的高频干扰,然后利用脉搏波能量特征进行脉搏波信号质量初步评估,然后再次通过差分阈值法检测的脉搏周期进行阈值判断,满足阈值的脉搏波信号为高质量的PPG信号。最后再提取脉搏波的波形特征,如表3所示,再添加信号的能量特征组成PPG信号的输入特征。为了减少特征向量,将组成的每个特征和有创血糖值对比,取其中相关性排名高的10个特征组成输入特征,最后通过粒子群BP神经网络构建无创血糖预测模型。
对于便携式设备来说,经常存在信号畸变甚至信号缺失的情况,精确地判断分类信号的质量,剔除无效、低质量的信号,可以极大地提高PPG信号的利用率和后续算法的准确性。对于PPG信号质量的判断,基于PPG信号的能量特征以及脉搏波波形特征两个方面,进行PPG信号质量评估,可以快速便捷地筛选出PPG的信号质量。
本方法提取PPG信号的能量特征有两种:一是用于跟踪信号瞬时能量分布的Kaiser-Teager能量算子;二是提取对数能量熵特征,计算信号整体的变化特征,合并两者能量特征,手动构建一个信号质量分类的数据集。通过SVM分类器训练PPG信号质量初步分类的模型。具体的实施步骤如下所示:
(1)手动筛选出324条PPG信号,人工标准PPG信号质量,波形明显,无明显畸变的PPG信号设置为标签1,表示高质量PPG信号;而对于存在较多失真,畸变的PPG信号设置为标签0,表示低质量的PPG信号。其中90条数据为高质量PPG信号,234条数据为低质量PPG信号;
(2)提取筛选出PPG信号的能量特征,作为SVM质量分类器的输入特征,其中70%的数据作为训练集,30%的数据作为测试集;
(3)评估SVM分类器在测试集的性能指标,因为存在数据样本不均衡的情况,需要评估多个指标来对比分类器的性能,主要通过混淆矩阵(表1所示为二分类混淆矩阵)的结果来评估;
表1二分类混淆矩阵
通过混淆矩阵计算二分类器的性能指标,计算方式如下表2所示:
表2二分类器指标计算
对于正负样本分布不均衡的情况来说,需要另外一个评估方式:ROC曲线。ROC曲线可以在正负样本出现类不平衡的情况,例如本方法中出现负样本远远多于正样本的时候,ROC曲线可以保持不变。可以很好地反映敏感性和特异性连续变量的综合指标。对于ROC曲线的计算通过以下两个变量表示:
FPR表示所有的负样本中预测为正样本的比例,也称为假正率,TPR表示所有的正样本中预测为正样本的比例,也称为真正率。对于分类算法来说,一般预测的结果是一个概率值,可以设置一个阈值,超过这个预测就预测为其中一类,不超过这个阈值,定义为另一类。所以,不同的阈值,对抗不同的假正率和真正率,这个曲线就是ROC曲线,ROC曲线下的面积就是AUC分数。分类器各项性能指标见表3,AUC曲线见图3所示。
表3SVM质量分类器性能指标
本实施例使用的数据集来自于BIG IDEAS的开源数据集,参与者通过可穿戴式设备Empatica E4腕带连续采集10天的PPG信号,采样率为64Hz,同步地使用Dexcom 6连续血糖监测仪间隔5分钟采集一次脉搏波信号。首先通过每次血糖采集的时间,提取血糖采集前30秒的脉搏波数据,构建一个初步的数据集,再进行本方法中叙述的算法。采集获得原始PPG信号如图4所示。大多数的脉搏波信号存在较多噪声、基线漂移以及畸变等,需要进行PPG信号质量判断才可进行后续的处理。
信号的预处理阶段包括:首先对原始采集的PPG信号进行小波阈值处理去除原始信号的高频噪声;然后通过SVM信号质量分类器划分信号质量,保留分类为高质量的PPG信号;再通过差分阈值法定位的波峰获取PPG信号的脉搏周期,将符合设定阈值要求的PPG信号保留,其他则剔除,最终获得高质量的PPG信号,方便或许进行特征提取已经提高模型的准确率;最终通过三次样条差值拟合PPG信号的波谷得到基线,减去基线漂移,得到去噪、去基漂的PPG信号,如图5所示。
对脉搏波信号进行预处理后,总共得到满足质量要求的PPG信号总共5752条,利用差分阈值法定位PPG信号的波谷,将其划分为单个脉搏波,并判断单个脉搏波长度是否满足设定的阈值要求,不满足的去除;满足要求的,则提取对应的脉搏波波形特征,见表5所示。并且提取该PPG信号的能量特征,包括Kaiser-Teager特征以及对数熵能量特征,如表4所示,组成输入的特征向量,总共41维度的特征向量。
总共提取的特征向量维度较大,包含有41个维度的数据,大多数特征存在线性相关或者与无创血糖的关联性不大,需要进行特征筛选,以便提高模型的准确性以及稳定性。本方法采用xgboost进行特征重要性筛选。筛选的步骤是:
(1)将提取的特征进行标准化,使用xgboost构建一个全特征向量的模型;
(2)依次添加特征重要程度高的特征,找到模型精度和特征数量平衡的点,最终得到10特征的模型。
对于梯度提升算法来说,在提升树被创建后,可以相对直接地得到每个属性的重要性得分,该重要性分数衡量了特征在模型中提升决策树构建中的价值,一个特征越多地被用来在模型中构建决策树,特征重要性就相对越高。利用xgboost获得排名前10的特征向量如图7所示,其中特征编号同表4及表5。
表4脉搏波能量特征
表5脉搏波波形特征
为了验证特征参数具体的选择数量,依次添加重要排名靠前的特征,构建模型查看效果,找到添加特征之后模型精度不再提升的平衡点,最终得到最优的特征组合,然后在该特征组合的数据集的基础上,利用粒子群BP神经网络进行模型训练。为了优化BP神经网络容易陷入局部最优的情况,首先挑选少量的数据(5%的数据集),用于粒子群优化BP神经网络的初始权重,剩下的数据集(95%的数据集)根据7:3划分训练集和测试集;利用随机梯度下降方法训练粒子群初始化权重的BP神经网络。训练粒子群BP神经网络的具体步骤是:
(1)首先根据选择的权重数量确定BP神经网络的架构,本方法使用的BP神经网络架构是一个单隐含层的BP神经网络,输入层Nin与选择的特征数量相关,输出层Nout为1,隐含层Nhidden的大小由输入层确定Nhidden=2×Nin+1;
(2)根据步骤1中确定的BP神经网络架构初始化粒子,粒子表示的是BP神经网络的所有权重;
(3)设置适应度函数为粒子群作为BP神经网络权重的输出值和真实血糖的均方根误差;
(4)迭代粒子群算法,直到误差满足要求或者迭代次数达到上限,得到粒子群优化的BP神经网络权重;
(5)利用剩下的数据集在粒子群优化权重的BP神经网络进行训练,得到pso-BP神经网络。
在PSO-BP模型上训练筛选特征之后的数据集,然后分别从平均绝对误差(MAE)、均方根误差(RMSE)、均方误差(MSE)评估模型性能指标(如表6所示),结合Clarke网格误差分析评估无创血糖估计模型在医学领域的精度,然后通过Bland-Altman一致性分析判断无创血糖估计模型与真实血糖值的一致性。
表6PSO-BP模型性能指标
最终通过粒子群优化的BP神经网络在筛选特征的数据集构建模型,克拉克误差网格分析如图8所示,Bland-Altman一致性分析如图9所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于信号能量特征和脉搏周期的血糖预测模型构建方法,其特征在于,该方法具体包括以下步骤:
S1:对采集的PPG信号进行高频噪声去除;
S2:初步筛选PPG信号质量:通过Kaise-Teager算子和熵的方法提取步骤S1去噪后PPG信号的Kaiser-Teager能量特征以及对数能量熵特征,并将其输入SVM分类器划分信号质量,分为好和坏两种;
S3:对步骤S2中初步筛选的好质量PPG信号进行精确筛选,筛选其中脉搏波间隔周期不符合阈值设定的信号,从数据集中剔除;
S4:根据脉搏波波形特征、自回归系数、心率以及步骤S3中筛选的信号能量特征,共39个特征,并合并2个人体的生理参数的特征构成41维度的特征向量;
S5:根据xgboost回归器获取特征的重要性排名,依次添加重要程度高的特征,构建血糖估计数据集;
S6:将步骤S5中构建的数据集输入粒子群BP神经网络,构建无创血糖估计模型。
2.根据权利要求1所述的血糖预测模型构建方法,其特征在于,步骤S2中,所述Kaiser-Teager能量特征的提取方法是用于确定信号的瞬时能量分布,以指示信号是有噪声的还是干净的;PPG信号的采样率为64Hz,连续血糖仪间隔5分钟采集一次血糖值,提取每次血糖采集前30秒的PPG信号对应一次血糖数值,一段的PPG信号SW包含1920个点,将其分为帧长Lframe=64的不同帧信号Sf(τ,n),其中τ表示每一帧的不同信号(τ=1,…,Lframe),n表示帧的编号(n=1,…,30),Kaiser-Teager特征KTE(τ,n)计算如下式所示:
对于每一帧计算的KTE(τ,n)(τ=2,3,…,Lframe-1),计算均值、方差、百分位数以及偏度,综合所有帧(n=1,2,…,30)的均值得到4个特征的Kaiser-Teager能量特征。
3.根据权利要求2所述的血糖预测模型构建方法,其特征在于,步骤S2中,所述对数能量熵特征是一种时域熵度量,根据全频带能量谱计算:
计算对数能量熵序列的统计特征,得到其均值、方差以及百分位数,得到3个特征。
4.根据权利要求3所述的血糖预测模型构建方法,其特征在于,步骤S3具体包括:通过差分阈值法获取初步筛选的好质量PPG信号的谷底,通过三次样条插值法拟合出PPG信号的基线漂移,将原始信号减去基线漂移,获取去除基线漂移的PPG信号。
5.根据权利要求3或4所述的血糖预测模型构建方法,其特征在于,步骤S3具体包括:通过差分值法定位脉搏波的峰值及谷底,计算峰值间隔和谷底间隔以及峰值和谷底数量,设置阈值在心率范围(50,140)内,不满足阈值的信号剔除;差分阈值法定位的步骤如下:
(1)获取PPG信号的差分信号,并将小于零的部分置为0,得到PPGdiff;
(2)获取PPGdiff的极大值坐标peaks,并计算作为判断极大值是否满足的阈值条件;
(3)遍历判断极大值坐标peaks,对应差分信号PPGdiff(peaks)>diffmean,并且当前极大值坐标peaks(i)-peaks(i-1)的差值满足心率要求范围,则将当前peaks(i)添加到峰值最后的结果中,得到筛选后的极大值坐标peaks2;
(4)极值坐标peaks2和原始PPG信号的峰值存在偏移,根据差分极值peaks2后向搜索1/3个心率周期,获取峰值坐标rpeaks;
(5)去重rpeaks,最终得到PPG信号的峰值;
(6)根据峰值rpeaks前向搜索1/2个周期,获取极小值的坐标得到谷底valleys。
6.根据权利要求5所述的血糖预测模型构建方法,其特征在于,步骤S4中,提取脉搏波波形特征的方法是:首先,根据步骤S3中采用差分阈值法得到的脉搏波信号的谷底序列,将脉搏波信号划分为单个脉搏波周期的信号;然后,对于每个脉搏波周期的信号提取脉搏波波形特征,得到25个特征构成特征向量。
7.根据权利要求1所述的血糖预测模型构建方法,其特征在于,步骤S4中,自回归系数的提取方法是通过自回归模型来实现的,具体通过自回归模型利用脉搏波p时刻前的点来预测当前点的值,得到该自回归模型的系数来表征脉搏波的特征;自回归模型用以下公式描述:
其中,S(τ,n)表示第n帧PPG信号的第τ个值,e(n)表示自回归模型预测和真实的误差,p表示回归阶数,ARi表示自回归模型的系数,b表示偏置项。
8.根据权利要求1所述的血糖预测模型构建方法,其特征在于,步骤S4中,所述41维度的特征向量包括:4个Kaiser-Teager能量特征、3个对数能量熵序列的统计特征、25个脉搏波波形特征、6个自回归系数特征、1个心率特征以及性别和糖化血红蛋白特征2个特征。
9.根据权利要求8所述的血糖预测模型构建方法,其特征在于,步骤S5具体包括:构建xgboost回归器获取特征的重要性排名,依次添加特征,查看对应特征构成数据集的模型指标,直到模型的性能指标不再提升;最终得到10个特征的数据集;特征重要性排名方法的步骤包括:
S51:对于筛选后的信号提取41个特征的特征向量,构建数据集;
S52:数据集进行Z-score标准化;
S53:将标准化后的数据按照7:1:2的比例分别划分训练集、验证集和测试集,通过xgboost获得特征重要性得分;根据特征重要性得分,从高到低对特征进行排名;
S54:根据S53中得到的特征排名,依次添加排名高的特征,然后构建xgboost模型查看不同特征数量的模型精度,得到最终最优模型精度的特征组合。
10.根据权利要求9所述的血糖预测模型构建方法,其特征在于,步骤S6具体包括:
S61:根据步骤S54中重要性排名构建的数据集构建粒子群BP神经网络,首先利用粒子群算法优化BP神经网络的权重,随机选取5%的数据集,以BP神经网络预测血糖和真实血糖的误差作为适应度函数,优化BP神经网络权重;
S62:利用优化的权重作为BP神经网络的初始权重值,对剩下95%的数据集按照7:1:2的比例划分训练集、验证集和测试集,训练BP神经网络,得到血糖估计模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310227933.3A CN116451110A (zh) | 2023-03-10 | 2023-03-10 | 基于信号能量特征和脉搏周期的血糖预测模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310227933.3A CN116451110A (zh) | 2023-03-10 | 2023-03-10 | 基于信号能量特征和脉搏周期的血糖预测模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116451110A true CN116451110A (zh) | 2023-07-18 |
Family
ID=87122783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310227933.3A Pending CN116451110A (zh) | 2023-03-10 | 2023-03-10 | 基于信号能量特征和脉搏周期的血糖预测模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116451110A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116803344A (zh) * | 2023-07-27 | 2023-09-26 | 迈德医疗科技(深圳)有限公司 | 基于多范数聚类和双层离散网络的血糖分类方法及*** |
CN117918831A (zh) * | 2024-01-25 | 2024-04-26 | 广东食品药品职业学院 | 基于特征优化的机器学习血糖无创检测方法,***及模型 |
-
2023
- 2023-03-10 CN CN202310227933.3A patent/CN116451110A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116803344A (zh) * | 2023-07-27 | 2023-09-26 | 迈德医疗科技(深圳)有限公司 | 基于多范数聚类和双层离散网络的血糖分类方法及*** |
CN116803344B (zh) * | 2023-07-27 | 2024-02-13 | 迈德医疗科技(深圳)有限公司 | 基于多范数聚类和双层离散网络的血糖分类方法及*** |
CN117918831A (zh) * | 2024-01-25 | 2024-04-26 | 广东食品药品职业学院 | 基于特征优化的机器学习血糖无创检测方法,***及模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107951485B (zh) | 基于人工智能自学习的动态心电图分析方法和装置 | |
CN109833035B (zh) | 脉搏波血压测量装置的分类预测数据处理方法 | |
Dey et al. | InstaBP: cuff-less blood pressure monitoring on smartphone using single PPG sensor | |
CN109961017A (zh) | 一种基于卷积循环神经网络的心音信号分类方法 | |
CN116451110A (zh) | 基于信号能量特征和脉搏周期的血糖预测模型构建方法 | |
US20220093215A1 (en) | Discovering genomes to use in machine learning techniques | |
CN107595249B (zh) | 基于脉搏波的怀孕女性筛查方法 | |
CN105868532B (zh) | 一种智能评估心脏衰老程度的方法及*** | |
CN112806977B (zh) | 基于多尺度融合网络的生理参数测量方法 | |
Gupta et al. | Higher order derivative-based integrated model for cuff-less blood pressure estimation and stratification using PPG signals | |
CN110558960A (zh) | 一种基于ptt和miv-ga-svr的连续血压无创监测方法 | |
CN115089139A (zh) | 结合生物特征识别的个性化生理参数测量方法 | |
CN112120711B (zh) | 一种基于光电容积脉搏波的无创糖尿病预测***及方法 | |
KR20240015709A (ko) | 기계학습을 이용한 비침습적 당화혈색소 또는 혈당 추정 방법 및 장치 | |
CN116172531B (zh) | 一种基于小波散射变换的血压变化趋势估计方法 | |
CN108338777A (zh) | 一种脉搏信号检测分析方法及装置 | |
CN114145725B (zh) | 一种基于无创连续血压测量的ppg采样率估算方法 | |
CN116451129A (zh) | 一种脉象分类识别方法及*** | |
CN115633957A (zh) | 一种基于高阶和分数低阶统计量的血糖预测方法及*** | |
Quanyu | Pulse signal analysis based on deep learning network | |
Lu et al. | Pulse waveform analysis for pregnancy diagnosis based on machine learning | |
CN113425298A (zh) | 一种通过穿戴设备采集数据分析抑郁程度的方法 | |
Rahmaniar et al. | Classification of Hypertension Levels Based on Photoplethysmography Signals Using Convolutional Neural Network (CNN) | |
CN117883076B (zh) | 一种基于大数据的人体运动能量消耗监测***及方法 | |
Zhang et al. | Evaluation of single-lead ECG signal quality with different states of motion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |