CN112164468A - 一种孕期检查数据的缺失数据处理方法 - Google Patents

一种孕期检查数据的缺失数据处理方法 Download PDF

Info

Publication number
CN112164468A
CN112164468A CN202011073364.4A CN202011073364A CN112164468A CN 112164468 A CN112164468 A CN 112164468A CN 202011073364 A CN202011073364 A CN 202011073364A CN 112164468 A CN112164468 A CN 112164468A
Authority
CN
China
Prior art keywords
data
data set
processing
pregnancy
filled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011073364.4A
Other languages
English (en)
Other versions
CN112164468B (zh
Inventor
路新喜
杨英
尚涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011073364.4A priority Critical patent/CN112164468B/zh
Publication of CN112164468A publication Critical patent/CN112164468A/zh
Application granted granted Critical
Publication of CN112164468B publication Critical patent/CN112164468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种孕期检查数据的缺失数据处理方法,包括:S1:将孕期数据集进行筛选,并对筛选后的数据集进行划分;S2:将经过步骤S1处理得到的数据集进行标准化处理;S3:利用卷积神经网络对经过标准化处理的数据集进行深度学习,输出填补后的结果;S4:对填补后的结果进行优化,输出最终填补结果;本发明能更有效地利用孕检数据的时序性和数据间的非线性关系,提供更高质量的数据集。

Description

一种孕期检查数据的缺失数据处理方法
技术领域
本发明涉及信息数据处理技术领域,更具体的说是涉及一种孕期检查数据的缺失数据处理方法。
背景技术
目前,孕妇在孕期容易出现妊娠期并发症,包括妊娠糖尿病、妊娠高血压、妊娠贫血等症状。因此,需要对孕妇的健康状况进行实时、连续的监测和管理。
但是,孕检数据有着纬度高、数据量大、时序性、缺失率高等特点;目前对缺失数据处理的技术有多种,如最普通的有均值填补,利用样本整体的均值进行缺失值填补;先验值填补,通过医学专家补充缺失值。此外还有以下等在效果和适用场景更有优势的填补技术,如回归填补,利用各指标数据与孕周的关系建立回归模型进行插值;KNN(K-NearestNeighbors)填补,基于某种相似度度量算法,选取待填补样本的K个最相似的样本,以这些样本的完整数据的加权平均值来填补缺失数据;矩阵补全算法,通过原始数据分解为两个低秩矩阵,然后使用梯度下降法求解近似值来还原缺失值。但由于孕检数据有着维度大,缺失率高,时序性、包含较多非线性关系等特点,这些方法自身的局限性使得无法更有效的对数据进行处理。
因此,如何提供一种能够解决上述问题的孕检数据缺失填补方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种孕期检查数据的缺失数据处理方法,能更有效地利用孕检数据的时序性和数据间的非线性关系,提供更高质量的数据集。
为了实现上述目的,本发明采用如下技术方案:
一种孕期检查数据的缺失数据处理方法,包括:
S1:将孕期数据集进行筛选,并对筛选后的数据集进行划分;
S2:将经过步骤S1处理得到的数据集进行标准化处理;
S3:利用卷积神经网络对经过标准化处理的数据集进行深度学习,输出填补后的结果;
S4:对填补后的结果进行优化,输出最终填补结果。
优选的,所述卷积神经网络包括:输入层、卷积网络层、长短时记忆网络训练层、线性处理层以及输出层,所述输入层、所述卷积网络层、所述长短时记忆网络训练层、所述线性处理层以及所述输出层依次级联。
优选的,所述步骤S1具体包括:剔除样本量低于200的孕期数据集,并对剔除后的数据集划分为标记数据集及训练数据集。
优选的,所述步骤S2具体为:对所述标记数据集及所述训练数据集进行标准化处理。
优选的,所述步骤S3具体包括:
S31:设缺失序列为X={x1,x2,...,xi,...,xn},其中ai表示序列X中时刻数据xi的可忽略度,并将ai的结果记为序列A={a1,a2,...,ai,...,an},
其中
Figure BDA0002715930260000021
Figure BDA0002715930260000022
同时将bi的结果记为序列B={b1,b2,...,bi,...,bn},
对于上述序列,被划分为标记数据集的概率如式(1)表示:
pi=α*ai+β*bi(1)
式中,α和β为和为1的参数;
S32:对经过步骤S2得到的标准化处理的训练数据集与缺失序列、孕周数据进行结合,并输入到所述卷积神经网络进行训练,得到填补后的数据集。
优选的,所述步骤S4具体包括:
S41:计算填补后的数据集的均方误差以及标记数据集的均方误差进行优化;
S42:利用正则化缓解过拟合对填补后的数据集和标记数据集进行拟合,最终输出利用缺失值填补后的数据
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种孕期检查数据过程中的缺失数据的处理方法,通过使用大数据分析技术,可以对孕期检查数据进行分析,通过训练深度学习模型对数据的缺失值进行填补处理,相较于常规的均值填补、回归填补、KNN填补、矩阵补全等缺失数据填补技术能更有效的利用孕检数据的时序性和数据间的非线性关系,提供更高质量的数据集,为后续孕期疾病相关的研究和分析提供便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种孕期检查数据的缺失数据处理方法的执行流程图;
图2附图为本发明提供的卷积神经网络的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1所示,本发明实施例公开了一种孕期检查数据的缺失数据处理方法,包括:
S1:将孕期数据集进行筛选,并对筛选后的数据集进行划分;
S2:将经过步骤S1处理得到的数据集进行标准化处理;
S3:利用卷积神经网络对经过标准化处理的数据集进行深度学习,输出填补后的结果;
S4:对填补后的结果进行优化,输出最终填补结果。
具体的,在步骤S1中,可以对孕期数据集进行相关性分析,具体过程如下:
(1)按照孕检指标的类型划分数据集,比如妊娠图-腹围、妊娠图宫高、血常规-血小板计数、尿常规-pH等,根据妊娠结局的标注划分为正样本(被标记为不良妊娠结局的样本)和负样本(被标记为正常妊娠结局的样本);
(2)剔除样本数量低于200的特征和对应的数据;
(3)对于每一个特征,划分出1/20极差长度的等长区间,分别计算正例和反例样本在该区间的频率分布,得到第一频率向量P和第二频率向量Q;
(4)计算每个特征的正例反例分布的JS散度,并将计算结果进行排序,计算公式为:
Figure BDA0002715930260000041
Figure BDA0002715930260000042
式1.1-1.2中,x为划分的多个等长区间的某个区间,P(x)、Q(x)为数据分布在该区间的频率,P、Q表示两个不同的频率分布。
JS散度越大说明该指标的数据集分布差异越大,即该部分特征与不良妊娠结局相关性更高,是后续建立深度学习模型适合选取的特征。
(5)在指标随孕周变化趋势与不良妊娠结局的相关性分析中,通过计算各特征时间序列的正负样本的中心(即样本的均值)距离,来衡量各指标变化趋势与妊娠结果的相关性,处理过程如下:
A.根据孕检数据关于孕周的缺失情况,截取第10周(包含第10周)到第40周(包含第40周)的数据;
B.对于每一个指标,计算对应样本的中心距离(即样本的均值),对于每一个指标,如果开始周数大于10,则对第10周到开始周的部分使用最临近插值,对结束周小于40的指标,对结束周和第40周也使用最临近插值,对于开始周和结束周中间缺失的部分使用三次样条插值法,其中三次样条插值法属于现有技术。
C.用Min-Max标准化处理数据,消除数据在不同指标上度量不一致的影响,计算公式为:
Figure BDA0002715930260000051
式中,X为指标序列数据,设X={x1,x2,x3,...,xn},min与max分别为计算该序列的最大值和最小值,k为缩放系数此处取值为1。
D.使用分段聚合近似方法平滑指标时间序列曲线,降低抖动;
E.使用DTW(DynamicTimeWarping,动态时间弯曲)方法进行时间序列的相似性度量,计算公式如式(1.4)所示:
C(n,m)=(xn-ym)2 (1.4)
式中,xn、yn为长度分别为的序列。
F.对于两个时间序列,利用欧式距离计算每两点间的距离,然后通过一下公式计算出一条距离代价最小的路径,得出最终的累加距离,计算公式如式(1.5)所示:
Figure BDA0002715930260000052
式中,x、y为长度分别为N、M的序列,xk表示序列中的第k个值。
距离越大则说明该指标的变化在正负样本中差异越大,该指标与不良妊娠结局的相关性越高。
本实施例中相关性分析用于孕检数据分析和孕检数据建模等的前置工作,孕检数据的相关性分析可用于特征的选择,然后使用缺失数据处理方法填补缺失值,两者的目的都是为了提高数据集的质量。
在一个具体的实施例中,所述卷积神经网络包括:输入层、卷积网络层、长短时记忆网络训练层、线性处理层以及输出层,所述输入层、所述卷积网络层、所述长短时记忆网络训练层、所述线性处理层以及所述输出层依次级联。
在一个具体的实施例中,所述步骤S1具体包括:剔除样本量低于200的孕期数据集,并对剔除后的数据集划分为标记数据集及训练数据集,可以提高
在一个具体的实施例中,所述步骤S2具体为:对所述标记数据集及所述训练数据集进行标准化处理。
在一个具体的实施例中,所述步骤S3具体包括:
S31:设缺失序列为X={x1,x2,...,xi,...,xn},其中ai表示序列X中时刻数据xi的可忽略度,并将ai的结果记为序列A={a1,a2,...,ai,...,an},
其中
Figure BDA0002715930260000061
Figure BDA0002715930260000062
同时将bi的结果记为序列B={b1,b2,...,bi,...,bn},
对于上述序列,被划分为标记数据集的概率如式(1)表示:
pi=α*ai+β*bi(1)
式中,α和β为和为1的参数,用于调整两部分概率的影响。
S32:对经过步骤S2得到的标准化处理的训练数据集与缺失序列、孕周数据进行结合,并输入到所述卷积神经网络进行训练,得到填补后的数据集。
具体的,步骤S2的处理过程为:
设经过剔除和划分的标记数据集及训练数据集中均包含有N个样本,设每个数据集均包含有x个样本,则x个样本的第i维为x(i),计算所有样本第i维的均值及标准差,然后进行标准化处理。
在一个具体的实施例中,所述步骤S4具体包括:
S41:计算填补后的数据集的均方误差以及标记数据集的均方误差进行优化;
S42:利用正则化缓解过拟合对填补后的数据集和标记数据集进行拟合,最终输出利用缺失值填补后的数据。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种孕期检查数据的缺失数据处理方法,其特征在于,包括:
S1:将孕期数据集进行筛选,并对筛选后的数据集进行划分;
S2:将经过步骤S1处理得到的数据集进行标准化处理;
S3:利用卷积神经网络对经过标准化处理的数据集进行深度学习,输出填补后的结果;
S4:对填补后的结果进行优化,输出最终填补结果。
2.根据权利要求1所述的一种孕期检查数据过程中的缺失数据的处理方法,其特征在于,所述卷积神经网络包括:输入层、卷积网络层、长短时记忆网络训练层、线性处理层以及输出层,所述输入层、所述卷积网络层、所述长短时记忆网络训练层、所述线性处理层以及所述输出层依次级联。
3.根据权利要求1所述的一种孕期检查数据过程中的缺失数据的处理方法,其特征在于,所述步骤S1具体包括:剔除样本量低于200的孕期数据集,并对剔除后的数据集划分为标记数据集及训练数据集。
4.根据权利要求2所述的一种孕期检查数据过程中的缺失数据的处理方法,其特征在于,所述步骤S2具体为:对所述标记数据集及所述训练数据集进行标准化处理。
5.根据权利要求4所述的一种孕期检查数据过程中的缺失数据的处理方法,其特征在于,所述步骤S3具体包括:
S31:设缺失序列为X={x1,x2,...,xi,...,xn},其中ai表示序列X中时刻数据xi的可忽略度,并将ai的结果记为序列A={a1,a2,...,ai,...,an},
其中
Figure FDA0002715930250000011
Figure FDA0002715930250000012
同时将bi的结果记为序列B={b1,b2,...,bi,...,bn},
对于上述序列,被划分为标记数据集的概率如式(1)表示:
pi=α*ai+β*bi (1)
式中,α和β为和为1的参数;
S32:对经过步骤S2得到的标准化处理的训练数据集与缺失序列、孕周数据进行结合,并输入到所述卷积神经网络进行训练,得到填补后的数据集。
6.根据权利要求5所述的一种孕期检查数据过程中的缺失数据的处理方法,其特征在于,所述步骤S4具体包括:
S41:计算填补后的数据集的均方误差以及标记数据集的均方误差进行优化;
S42:利用正则化缓解过拟合对填补后的数据集和标记数据集进行拟合,最终输出利用缺失值填补后的数据。
CN202011073364.4A 2020-10-09 2020-10-09 一种孕期检查数据的缺失数据处理方法 Active CN112164468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011073364.4A CN112164468B (zh) 2020-10-09 2020-10-09 一种孕期检查数据的缺失数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011073364.4A CN112164468B (zh) 2020-10-09 2020-10-09 一种孕期检查数据的缺失数据处理方法

Publications (2)

Publication Number Publication Date
CN112164468A true CN112164468A (zh) 2021-01-01
CN112164468B CN112164468B (zh) 2023-04-07

Family

ID=73866487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011073364.4A Active CN112164468B (zh) 2020-10-09 2020-10-09 一种孕期检查数据的缺失数据处理方法

Country Status (1)

Country Link
CN (1) CN112164468B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223709A (zh) * 2022-07-26 2022-10-21 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273429A (zh) * 2017-05-19 2017-10-20 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及***
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN110942831A (zh) * 2019-11-26 2020-03-31 北京航空航天大学 基于自注意力机制的孕期数据建模方法
US10733515B1 (en) * 2017-02-21 2020-08-04 Amazon Technologies, Inc. Imputing missing values in machine learning models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733515B1 (en) * 2017-02-21 2020-08-04 Amazon Technologies, Inc. Imputing missing values in machine learning models
CN107273429A (zh) * 2017-05-19 2017-10-20 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及***
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN110942831A (zh) * 2019-11-26 2020-03-31 北京航空航天大学 基于自注意力机制的孕期数据建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张网娟等: "基于卷积神经网络的缺失数据填充方法", 《微电子学与计算机》 *
郭蕴颖等: "基于CNN和LSTM联合预测并修正的电量缺失数据预测", 《计算机***应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223709A (zh) * 2022-07-26 2022-10-21 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法
CN115223709B (zh) * 2022-07-26 2024-01-23 内蒙古卫数数据科技有限公司 基于布病诊断神经网络模型的缺失值填补迁移学习方法

Also Published As

Publication number Publication date
CN112164468B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN106228185B (zh) 一种基于神经网络的通用图像分类识别***及方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN109783879B (zh) 一种雷达辐射源信号识别效能评估方法及***
CN108959895B (zh) 一种基于卷积神经网络的脑电信号eeg身份识别方法
CN109993236A (zh) 基于one-shot Siamese卷积神经网络的少样本满文匹配方法
CN112446891A (zh) 基于U-Net网络脑胶质瘤的医学图像分割方法
CN112529886B (zh) 一种基于Attention DenseUNet的MRI神经胶质瘤分割方法
CN116012337A (zh) 一种基于改进YOLOv4的热轧带钢表面缺陷检测方法
CN109325410B (zh) 一种基于卷积神经网络的脑电信号eeg特征提取方法
CN115601751B (zh) 一种基于领域泛化的眼底图像语义分割方法
CN112164468B (zh) 一种孕期检查数据的缺失数据处理方法
CN112263224B (zh) 一种基于fpga边缘计算的医学信息处理方法
CN114298659A (zh) 评价对象指标的数据处理方法、装置、计算机设备
CN117591905A (zh) 基于高光谱特征的猪肉安全性检测方法
CN113313682A (zh) 基于时空多尺度分析的无参考视频质量评价方法
CN108830460B (zh) 一种基于分步动态填充缓解推荐***数据稀疏性的方法
CN116503593A (zh) 一种基于深度学习的视网膜oct图像积液分割方法
CN111652238A (zh) 一种多模型集成方法及***
CN109741313A (zh) 独立成分分析和卷积神经网络的无参考图像质量评价方法
CN113435488B (zh) 一种图像采样概率提升方法及其应用
Manimegalai et al. Deep Learning Based Approach for Identification of Parkinson’s Syndrome
CN116402116B (zh) 神经网络的剪枝方法、***、设备、介质及图像处理方法
CN112073147B (zh) 一种基于网络结构特征选择的***违约预测方法
Naim et al. An Improved Diabetic Retinopathy Image Classification by Using Deep Learning Models
CN111914212B (zh) 面向数据降维的邻域重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant