CN112164468A

CN112164468A - 一种孕期检查数据的缺失数据处理方法

Info

Publication number: CN112164468A
Application number: CN202011073364.4A
Authority: CN
Inventors: 路新喜; 杨英; 尚涛
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-01
Anticipated expiration: 2040-10-09
Also published as: CN112164468B

Abstract

本发明公开了一种孕期检查数据的缺失数据处理方法，包括：S1：将孕期数据集进行筛选，并对筛选后的数据集进行划分；S2：将经过步骤S1处理得到的数据集进行标准化处理；S3：利用卷积神经网络对经过标准化处理的数据集进行深度学习，输出填补后的结果；S4：对填补后的结果进行优化，输出最终填补结果；本发明能更有效地利用孕检数据的时序性和数据间的非线性关系，提供更高质量的数据集。

Description

一种孕期检查数据的缺失数据处理方法

技术领域

本发明涉及信息数据处理技术领域，更具体的说是涉及一种孕期检查数据的缺失数据处理方法。

背景技术

目前，孕妇在孕期容易出现妊娠期并发症，包括妊娠糖尿病、妊娠高血压、妊娠贫血等症状。因此，需要对孕妇的健康状况进行实时、连续的监测和管理。

但是，孕检数据有着纬度高、数据量大、时序性、缺失率高等特点；目前对缺失数据处理的技术有多种，如最普通的有均值填补，利用样本整体的均值进行缺失值填补；先验值填补，通过医学专家补充缺失值。此外还有以下等在效果和适用场景更有优势的填补技术，如回归填补，利用各指标数据与孕周的关系建立回归模型进行插值；KNN(K-NearestNeighbors)填补，基于某种相似度度量算法，选取待填补样本的K个最相似的样本，以这些样本的完整数据的加权平均值来填补缺失数据；矩阵补全算法，通过原始数据分解为两个低秩矩阵，然后使用梯度下降法求解近似值来还原缺失值。但由于孕检数据有着维度大，缺失率高，时序性、包含较多非线性关系等特点，这些方法自身的局限性使得无法更有效的对数据进行处理。

因此，如何提供一种能够解决上述问题的孕检数据缺失填补方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种孕期检查数据的缺失数据处理方法，能更有效地利用孕检数据的时序性和数据间的非线性关系，提供更高质量的数据集。

为了实现上述目的，本发明采用如下技术方案：

一种孕期检查数据的缺失数据处理方法，包括：

S1：将孕期数据集进行筛选，并对筛选后的数据集进行划分；

S2：将经过步骤S1处理得到的数据集进行标准化处理；

S3：利用卷积神经网络对经过标准化处理的数据集进行深度学习，输出填补后的结果；

S4：对填补后的结果进行优化，输出最终填补结果。

优选的，所述卷积神经网络包括：输入层、卷积网络层、长短时记忆网络训练层、线性处理层以及输出层，所述输入层、所述卷积网络层、所述长短时记忆网络训练层、所述线性处理层以及所述输出层依次级联。

优选的，所述步骤S1具体包括：剔除样本量低于200的孕期数据集，并对剔除后的数据集划分为标记数据集及训练数据集。

优选的，所述步骤S2具体为：对所述标记数据集及所述训练数据集进行标准化处理。

优选的，所述步骤S3具体包括：

S31：设缺失序列为X＝{x₁,x₂,...,x_i,...,x_n}，其中a_i表示序列X中时刻数据x_i的可忽略度，并将a_i的结果记为序列A＝{a₁,a₂,...,a_i,...,a_n}，

其中

同时将b_i的结果记为序列B＝{b₁,b₂,...,b_i,...,b_n}，

对于上述序列，被划分为标记数据集的概率如式(1)表示：

p_i＝α*a_i+β*b_i(1)

式中，α和β为和为1的参数；

S32：对经过步骤S2得到的标准化处理的训练数据集与缺失序列、孕周数据进行结合，并输入到所述卷积神经网络进行训练，得到填补后的数据集。

优选的，所述步骤S4具体包括：

S41：计算填补后的数据集的均方误差以及标记数据集的均方误差进行优化；

S42：利用正则化缓解过拟合对填补后的数据集和标记数据集进行拟合，最终输出利用缺失值填补后的数据

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种孕期检查数据过程中的缺失数据的处理方法，通过使用大数据分析技术，可以对孕期检查数据进行分析，通过训练深度学习模型对数据的缺失值进行填补处理，相较于常规的均值填补、回归填补、KNN填补、矩阵补全等缺失数据填补技术能更有效的利用孕检数据的时序性和数据间的非线性关系，提供更高质量的数据集，为后续孕期疾病相关的研究和分析提供便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种孕期检查数据的缺失数据处理方法的执行流程图；

图2附图为本发明提供的卷积神经网络的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1所示，本发明实施例公开了一种孕期检查数据的缺失数据处理方法，包括：

S2：将经过步骤S1处理得到的数据集进行标准化处理；

S4：对填补后的结果进行优化，输出最终填补结果。

具体的，在步骤S1中，可以对孕期数据集进行相关性分析，具体过程如下：

(1)按照孕检指标的类型划分数据集，比如妊娠图-腹围、妊娠图宫高、血常规-血小板计数、尿常规-pH等，根据妊娠结局的标注划分为正样本(被标记为不良妊娠结局的样本)和负样本(被标记为正常妊娠结局的样本)；

(2)剔除样本数量低于200的特征和对应的数据；

(3)对于每一个特征，划分出1/20极差长度的等长区间，分别计算正例和反例样本在该区间的频率分布，得到第一频率向量P和第二频率向量Q；

(4)计算每个特征的正例反例分布的JS散度，并将计算结果进行排序，计算公式为：

式1.1-1.2中，x为划分的多个等长区间的某个区间，P(x)、Q(x)为数据分布在该区间的频率，P、Q表示两个不同的频率分布。

JS散度越大说明该指标的数据集分布差异越大，即该部分特征与不良妊娠结局相关性更高，是后续建立深度学习模型适合选取的特征。

(5)在指标随孕周变化趋势与不良妊娠结局的相关性分析中，通过计算各特征时间序列的正负样本的中心(即样本的均值)距离，来衡量各指标变化趋势与妊娠结果的相关性，处理过程如下：

A.根据孕检数据关于孕周的缺失情况，截取第10周(包含第10周)到第40周(包含第40周)的数据；

B.对于每一个指标，计算对应样本的中心距离(即样本的均值)，对于每一个指标，如果开始周数大于10，则对第10周到开始周的部分使用最临近插值，对结束周小于40的指标，对结束周和第40周也使用最临近插值，对于开始周和结束周中间缺失的部分使用三次样条插值法，其中三次样条插值法属于现有技术。

C.用Min-Max标准化处理数据，消除数据在不同指标上度量不一致的影响，计算公式为：

式中，X为指标序列数据，设X＝{x₁,x₂,x₃,...,x_n}，min与max分别为计算该序列的最大值和最小值，k为缩放系数此处取值为1。

D.使用分段聚合近似方法平滑指标时间序列曲线，降低抖动；

E.使用DTW(DynamicTimeWarping，动态时间弯曲)方法进行时间序列的相似性度量，计算公式如式(1.4)所示：

C(n,m)＝(x_n-y_m)² (1.4)

式中，x_n、y_n为长度分别为的序列。

F.对于两个时间序列，利用欧式距离计算每两点间的距离，然后通过一下公式计算出一条距离代价最小的路径，得出最终的累加距离，计算公式如式(1.5)所示：

式中，x、y为长度分别为N、M的序列，x_k表示序列中的第k个值。

距离越大则说明该指标的变化在正负样本中差异越大，该指标与不良妊娠结局的相关性越高。

本实施例中相关性分析用于孕检数据分析和孕检数据建模等的前置工作，孕检数据的相关性分析可用于特征的选择，然后使用缺失数据处理方法填补缺失值，两者的目的都是为了提高数据集的质量。

在一个具体的实施例中，所述卷积神经网络包括：输入层、卷积网络层、长短时记忆网络训练层、线性处理层以及输出层，所述输入层、所述卷积网络层、所述长短时记忆网络训练层、所述线性处理层以及所述输出层依次级联。

在一个具体的实施例中，所述步骤S1具体包括：剔除样本量低于200的孕期数据集，并对剔除后的数据集划分为标记数据集及训练数据集，可以提高

在一个具体的实施例中，所述步骤S2具体为：对所述标记数据集及所述训练数据集进行标准化处理。

在一个具体的实施例中，所述步骤S3具体包括：

其中

同时将b_i的结果记为序列B＝{b₁,b₂,...,b_i,...,b_n}，

对于上述序列，被划分为标记数据集的概率如式(1)表示：

p_i＝α*a_i+β*b_i(1)

式中，α和β为和为1的参数，用于调整两部分概率的影响。

具体的，步骤S2的处理过程为：

设经过剔除和划分的标记数据集及训练数据集中均包含有N个样本，设每个数据集均包含有x个样本，则x个样本的第i维为x⁽ⁱ⁾，计算所有样本第i维的均值及标准差，然后进行标准化处理。

在一个具体的实施例中，所述步骤S4具体包括：

S42：利用正则化缓解过拟合对填补后的数据集和标记数据集进行拟合，最终输出利用缺失值填补后的数据。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种孕期检查数据的缺失数据处理方法，其特征在于，包括：

S2：将经过步骤S1处理得到的数据集进行标准化处理；

S4：对填补后的结果进行优化，输出最终填补结果。

2.根据权利要求1所述的一种孕期检查数据过程中的缺失数据的处理方法，其特征在于，所述卷积神经网络包括：输入层、卷积网络层、长短时记忆网络训练层、线性处理层以及输出层，所述输入层、所述卷积网络层、所述长短时记忆网络训练层、所述线性处理层以及所述输出层依次级联。

3.根据权利要求1所述的一种孕期检查数据过程中的缺失数据的处理方法，其特征在于，所述步骤S1具体包括：剔除样本量低于200的孕期数据集，并对剔除后的数据集划分为标记数据集及训练数据集。

4.根据权利要求2所述的一种孕期检查数据过程中的缺失数据的处理方法，其特征在于，所述步骤S2具体为：对所述标记数据集及所述训练数据集进行标准化处理。

5.根据权利要求4所述的一种孕期检查数据过程中的缺失数据的处理方法，其特征在于，所述步骤S3具体包括：

其中

同时将b_i的结果记为序列B＝{b₁,b₂,...,b_i,...,b_n}，

对于上述序列，被划分为标记数据集的概率如式(1)表示：

p_i＝α*a_i+β*b_i (1)

式中，α和β为和为1的参数；

6.根据权利要求5所述的一种孕期检查数据过程中的缺失数据的处理方法，其特征在于，所述步骤S4具体包括：