CN113035363A - 一种概率密度加权的遗传代谢病筛查数据混合采样方法 - Google Patents
一种概率密度加权的遗传代谢病筛查数据混合采样方法 Download PDFInfo
- Publication number
- CN113035363A CN113035363A CN202110320400.0A CN202110320400A CN113035363A CN 113035363 A CN113035363 A CN 113035363A CN 202110320400 A CN202110320400 A CN 202110320400A CN 113035363 A CN113035363 A CN 113035363A
- Authority
- CN
- China
- Prior art keywords
- positive
- sampling
- data
- samples
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002068 genetic effect Effects 0.000 title claims abstract description 25
- 238000012216 screening Methods 0.000 title claims abstract description 25
- 208000030159 metabolic disease Diseases 0.000 title claims abstract description 22
- 208000016097 disease of metabolism Diseases 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000004885 tandem mass spectrometry Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 208000016245 inborn errors of metabolism Diseases 0.000 claims description 2
- 230000002503 metabolic effect Effects 0.000 claims 3
- 201000010099 disease Diseases 0.000 abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 208000015978 inherited metabolic disease Diseases 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种概率密度加权的遗传代谢病筛查数据混合采样方法,该方法利用基于特征惩罚的方法估计每个特征的重要性,在采样时对特征空间的各个方向进行加权;同时,估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,使得采样生成的样本与整体阳性样本分布较为一致。本发明的方法能够根据不同疾病的特征重要性在特征空间上进行加权,且所生成的阳性样本更加符合真实的人口统计学分布情况。相比于现有采样方法,采用本发明所生成的数据进行建模,初筛阳性率能降低约0.5%左右。
Description
技术领域
本发明属于采样方法技术领域,涉及一种混合采样方法,尤其涉及一种概率密度加权的遗传代谢病筛查数据混合采样方法。
背景技术
串联质谱技术是一种高敏感性、高选择性和高通量的血液生化物质浓度检测技术,在一次实验室检验中,串联质谱法可以同时测定几十种遗传代谢病相关代谢物的血液浓度(筛查指标),对几十种遗传代谢病做出同步诊断。随着人工智能技术的发展,近年来越来越多的学术研究和商业化产品将机器学习、数据挖掘等方法应用于医疗行业,旨在打造新一代智慧医疗模式,让机器更加精准高效地辅助医生判读和诊断疾病。然而,遗传代谢病的人群发病率较低,使得各医院或筛查中心积攒的阳性样本数量十分有限,无法满足许多机器学习特别是深度学习方法对数据量的要求,导致模型无法达到实际性能,甚至预测失败。
目前针对正负样本不均衡和阳性样本过少的问题,采样方法是一个常用的解决手段。现有的采样方法大多使用欧氏距离对正负样本点进行度量,这默认了特征空间的所有方向具有相同的重要性,但在遗传代谢病筛查数据中,病种对特征的响应各不相同,简单地使用欧式距离对数据采样反而容易产生噪音数据;另外,现有的采样方法一般随机地对数据进行采样,或者特别关注正负样本边界的情况,但在遗传代谢病筛查数据中,这些假设没有考虑人群分布规律,不符合实际情况,随机采样产生的数据将导致数据集的分布出现变化,容易对模型产生负面影响。在遗传代谢病筛查这个场景中,现有采样方法存在两个问题:特征空间的所有方向重要性相同、采样的随机性影响数据分布,导致采样生成的样本不符合数据的实际分布,影响建模的效果。
发明内容
本发明的目的在于针对现有技术的不足,提供一种概率密度加权的遗传代谢病筛查数据混合采样方法,利用基于特征惩罚的方法估计每个特征的重要性,在采样时对特征空间的各个方向进行加权;同时,估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,使得采样生成的样本与整体阳性样本分布较为一致。最终使生成的采样数据更符合人口统计学的真实情况,从而提高建模的准确度。
本发明采用的技术方案如下:
一种概率密度加权的遗传代谢病筛查数据混合采样方法,包括:首先针对一种遗传代谢病,计算历史数据库中串联质谱检测数据的阳性样本数量、阴性样本数量,并分割获得训练数据集、测试集,确定混合采样的迭代次数和每次迭代的采样数量;使用串联质谱检测数据对逻辑回归算法进行训练,基于特征惩罚的方法估计每个特征的重要性;估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,根据采样概率随机生成阳性样本,获得混合采样结果。
具体的,所述混合采样方法包括如下:
首先确定全局参数
对于每次迭代,重复进行以下步骤:
(1)数据特征重要性评估
其中J为交叉熵函数,X为训练数据集,y为数据标签,y=1表示阳性数据,y=0表示阴性数据,W为数据特征对应的权重,λ>0为惩罚系数。
上述逻辑回归算法使用随机梯度下降法作为模型优化器,该模型迭代次数由输入数据量的大小及拟合曲线决定。
上述逻辑回归算法完成模型参数优化后,将每个特征的最优权重值W作为面向D的数据特征重要性评估。
(2)阳性样本分布估计
D的阳性样本先验分布设定为:
Xpos~Np(μ,Σ)
其中p表示样本Xpos=(X1,…,Xp)中筛查指标的数量,μ,Σ为待确定参数。
(3)单个阳性样本生成方法
对于一个阳性样本X(m),执行以下步骤:
计算该阳性样本与剩余所有阳性样本之间的距离,距离的计算方法为:
其中标量δ的取值范围为(0,1)。
(4)阳性样本生成方法
对于一个备选阳性样本X*,计算相应的采样概率R*:
其中F表示标准正态分布的累积分布函数。
(5)混合采样
本发明的有益效果是:
本发明设计了一种针对遗传代谢病筛查场景的数据混合采样方法,能够根据不同疾病的特征重要性在特征空间上进行加权,同时基于分布估计方法的采样所生成的阳性样本更加符合真实的人口统计学分布情况。相比于现有采样方法,采用本发明所生成的数据进行建模,初筛阳性率能降低约0.5%左右。
附图说明
图1是本发明方法的流程示意图;
具体实施方式
下面结合附图和具体实例对本发明做进一步的说明。
本发明的一种概率密度加权的遗传代谢病筛查数据混合采样方法,利用基于特征惩罚的方法估计每个特征的重要性,在采样时对特征空间的各个方向进行加权;同时,估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,如图1所示,本发明方法具体包括如下:
一、确定全局参数
确定混合采样的迭代次数i,i越大采样方法的计算速度越慢,得到采样结果的分布越符合真实情况;i越小采样方法的计算速度越快,得到采样结果包含的噪音数据越多;(本实例中i=1000)
二、对于每次迭代,重复进行以下步骤:
(1)数据特征重要性评估
其中J为交叉熵函数,X为训练数据集,y为数据标签(y=1表示阳性数据,y=0表示阴性数据),W为数据特征对应的权重,λ>0为惩罚系数。(本实例中λ=0.1)
上述逻辑回归算法使用随机梯度下降法作为模型优化器,该模型迭代次数由输入数据量的大小及拟合曲线决定。
上述逻辑回归算法完成模型参数优化后,将每个特征的最优权重值W作为面向D的数据特征重要性评估。
(2)阳性样本分布估计
D的阳性样本先验分布设定为:
Xpos~Np(μ,Σ)
其中p表示样本Xpos=(X1,…,Xp)中筛查指标的数量,μ,Σ为待确定参数。
(3)单个阳性样本生成方法
对于一个阳性样本X(m),执行以下步骤:
计算该阳性样本与剩余所有阳性样本之间的距离,距离的计算方法为:
其中标量δ的取值范围为(0,1)。(本实例中k=5)
(4)阳性样本生成方法
对于一个备选阳性样本X*,计算相应的采样概率R*:
其中F表示标准正态分布的累积分布函数。
(5)混合采样
采用本发明所生成的数据进行建模,初筛阳性率能降低约0.5%左右。
Claims (6)
1.一种概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,包括:首先针对一种遗传代谢病,计算历史数据库中串联质谱检测数据的阳性样本数量、阴性样本数量,并分割获得训练数据集、测试集,确定混合采样的迭代次数和每次迭代的采样数量;使用串联质谱检测数据对逻辑回归算法进行训练,基于特征惩罚的方法估计每个特征的重要性;估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,根据采样概率随机生成阳性样本,获得混合采样结果。
4.根据权利要求3所述的概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,每次迭代中,在数据特征重要性评估后,进行阳性样本分布估计并生成单个阳性样本:
D的阳性样本先验分布设定为:
Xpos~Np(μ,∑)
其中p表示样本Xpos=(X1,…,Xp)中筛查指标的数量,μ,∑为待确定参数;
对于一个阳性样本X(m),执行以下步骤:
计算该阳性样本与剩余所有阳性样本之间的距离,距离的计算方法为:
其中标量δ的取值范围为(0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110320400.0A CN113035363B (zh) | 2021-03-25 | 2021-03-25 | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110320400.0A CN113035363B (zh) | 2021-03-25 | 2021-03-25 | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035363A true CN113035363A (zh) | 2021-06-25 |
CN113035363B CN113035363B (zh) | 2024-01-02 |
Family
ID=76473765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110320400.0A Active CN113035363B (zh) | 2021-03-25 | 2021-03-25 | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035363B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN110033860A (zh) * | 2019-02-27 | 2019-07-19 | 杭州贝安云科技有限公司 | 一种基于机器学习的遗传代谢病检出率提升方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN112151193A (zh) * | 2020-10-22 | 2020-12-29 | 浙江大学 | 一种基于二次过滤的遗传代谢病特异性指标挖掘方法 |
-
2021
- 2021-03-25 CN CN202110320400.0A patent/CN113035363B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN110033860A (zh) * | 2019-02-27 | 2019-07-19 | 杭州贝安云科技有限公司 | 一种基于机器学习的遗传代谢病检出率提升方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN112151193A (zh) * | 2020-10-22 | 2020-12-29 | 浙江大学 | 一种基于二次过滤的遗传代谢病特异性指标挖掘方法 |
Non-Patent Citations (2)
Title |
---|
李涛;郑尚;邹海涛;于化龙;: "基于概率密度估计的SMOTE改进算法研究", 南京师大学报(自然科学版), no. 01 * |
闫慈;田翔华;阿拉依・阿汗;张伟文;曹明芹;: "基于重采样技术在医学不平衡数据分类中的应用研究", 中国卫生统计, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN113035363B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596327B (zh) | 一种基于深度学习的地震速度谱人工智能拾取方法 | |
CN106022954B (zh) | 基于灰色关联度的多重bp神经网络负荷预测方法 | |
CN108399434B (zh) | 基于特征提取的高维时间序列数据的分析预测方法 | |
CN112001422B (zh) | 一种基于深度贝叶斯学习的图像标记估计方法 | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
CN113065702B (zh) | 基于st-seep分段法和时空arma模型的滑坡位移多线性预测方法 | |
CN111881954A (zh) | 基于渐进式簇净化网络的转导推理小样本分类方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及*** | |
CN114266289A (zh) | 一种复杂装备健康状态评估方法 | |
CN115982141A (zh) | 一种针对时序数据预测的特征优化方法 | |
CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
CN116304546A (zh) | 基于声音信号的供热***热力站故障诊断方法及*** | |
CN111783242A (zh) | 一种基于rvm-kf的滚动轴承剩余寿命预测方法及装置 | |
CN111401444A (zh) | 红酒原产地的预测方法、装置、计算机设备及存储介质 | |
CN109460474B (zh) | 用户偏好趋势挖掘方法 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN117636183A (zh) | 一种基于自监督预训练的小样本遥感图像分类方法 | |
CN117408167A (zh) | 基于深度神经网络的泥石流灾害易发性预测方法 | |
CN116303786B (zh) | 一种基于多维数据融合算法的区块链金融大数据管理*** | |
CN112926251A (zh) | 一种基于机器学习的滑坡位移高精度预测方法 | |
CN112651168B (zh) | 基于改进神经网络算法的建设用地面积预测方法 | |
CN113035363A (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN115083511A (zh) | 基于图表示学习与注意力的***基因调控特征提取方法 | |
Zhang et al. | Multivariate discrete grey model base on dummy drivers | |
CN114626594A (zh) | 一种基于聚类分析和深度学习的中长期电量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |