CN114023407A

CN114023407A - 一种健康档案缺失值补全方法、***以及存储介质

Info

Publication number: CN114023407A
Application number: CN202111134114.1A
Authority: CN
Inventors: 石秀峰; 潘春伟; 邓志豪; 胡迪
Original assignee: Zhejiang Helian Network Technology Co ltd
Current assignee: Zhejiang Helian Network Technology Co ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-02-08

Abstract

本发明为一种健康档案缺失值补全方法、***以及存储介质，包括S1：根据医学知识图谱获取健康档案中的数据；S2：将健康档案的数据代入补全策略中的预定义量策略、统计方法策略以及预测模型策略进行补全；S3：若用户信息满足策略要求，输出补全值；S4：若不符合策略要求则进行下一策略进行补全；S5：若到最后一个策略仍无满足策略要求，则补全失败，不进行补全；预定义量策略由预定义量匹配模块进行处理、统计方法策略由统计量计算模块处理、预测模型策略由深度学习预测模块处理。本发明有效解决健康档案数据缺失问题，补全缺失的数据，从而提高健康档案信息的完整度，为后续的健康评估和健康改善提供保障。

Description

一种健康档案缺失值补全方法、***以及存储介质

技术领域

本发明涉及健康档案缺失补全技术领域，具体为一种健康档案缺失值补全方法、***以及存储介质。

背景技术

随着社会的发展与全民健康意识的提高，健康管理服务逐渐走进了每个人的生活，通过体检、问卷调查、设备采集等多种手段可以整合用户的健康数据，形成一份专属于用户的健康档案，从而对健康管理服务的决策提供依据。可是由于收集渠道、存储整理、传递传输等多个环节的潜在问题，都可能导致健康档案中的数据丢失遗漏或者发生明显的错误，这时这些数据的缺失会导致后续的健康管理服务可行性降低，无法给出相对可靠的健康管理策略，影响十分巨大。传统的缺失值补全只能利用数据集中的众数或者算术平均值进行补充，死板且较为极端，并未根据用户本身的已有信息进行补全。

为了解决上述问题，本领域工作人员健康档案缺失值补全方法、***进行了不同的研究：

中国专利申请201911001636.7公开了基于LSTM的电子健康记录缺失数据补全方法及***，包括：从患者电子病历数据集中，提取患者体检指标作为数据特征；对数据特征进行预处理，对预处理后的数据特征进行归一化处理；构造新的数据集，所述新的数据集包括若干患者编号，每个患者编号均设有对应的数据特征；标记每个数据特征的测量时间；如果患者S的部分数据特征均存在缺失值，mn为第n个数据特征；n为正整数，则将患者S的非缺失数据特征和每个非缺失数据特征对应的测量时间输入到预先训练好的LSTM模型中，输出患者S的所有缺失数据特征的预测值和每个预测值对应的测量时间；将缺失值更新为对应测量时间的预测值。然而，该技术方案中的补全方法单一，已无法满足健康管理服务机构的多样化需求和用户日益增长的健康管理需求，在此我们提出了基于多种补全策略，能够充分利用用户当前信息的补全***和方法，此***和方法还利用了图处理算法和深度学习算法，能够在不同统计维度，不同用户群体、不同机构需求的情况下进行灵活科学地数据补全。

因此有必要对健康档案缺失值补全方法、***以及存储介质进行进一步的改进，以解决上述的各种不端。

发明内容

本申请的目的：在于解决和克服现有技术和应用的不足，提供一种健康档案缺失值补全方法、***以及存储介质，有效解决健康档案数据缺失问题，能够利用健康档案中的已有数据，补全健康档案中部分缺失的数据，从而提高健康档案信息的完整度，为后续的健康评估和健康改善提供保障。

本申请的目的是通过如下技术方案来完成的，一种健康档案缺失值补全方法，包括以下步骤：

S1：根据医学知识图谱获取健康档案中的数据；

S2：将所述健康档案的数据代入所述补全策略中的预定义量策略、统计方法策略以及预测模型策略进行补全；

S3：若用户信息满足策略要求，输出补全值；

S4：若不符合策略要求则进行下一策略进行补全；

S5：若到最后一个策略仍无满足策略要求，则补全失败，不进行补全；

所述预定义量策略、统计方法策略以及预测模型策略的补全顺序根据机构本身的用户规模、数据质量以及管理经验来进行选择。

优选地，所述预定义量策略由预定义量匹配模块进行处理、所述统计方法策略由统计量计算模块处理、所述预测模型策略由深度学习预测模块处理。

本发明还一种健康档案缺失值补全***，包括：

预定义量匹配模块，利用配置条件的匹配对缺失值进行补全，所述配置条件包括运算符、比较符以及操作数，所述运算符对已有数据进行计算处理；例如一元运算符有：绝对值运算符、取反运算符、符号提取运算符等等，二元运算符有：四则运算运算符，幂运算符等等，也可以通过函数接口自定义运算符，比较符用于对条件进行比较，一般用来限制运算数的范围或者类别，例如大于、等于、小于、不等于、属于，不属于等等；比较符和运算符的输入为操作数，多个条件之间也可以通过逻辑运算符来进行组合；例如AND运算符、OR运算符、XOR运算符等等；配置好的条件可以自动补全匹配的预定义补全值，预定义量匹配模块通过人工定义其他字段条件，且通过其他字段条件的匹配得到对应的补全值；即预定义补全值由人工给出，依赖配置人员的经验，一般作为策略回退链的保底策略，放置在回退链的末端；

统计量计算模块，利用统计学中的群体统计量来近似估计缺失值，以统计学的大数定律为基础，通过在大量数据上统计量的观察值作为补全值；统计量计算的数据集采用全局用户或分层局部用户，统计量的数据集基于医学图谱利用图算法进行相似度匹配；

统计量计算的范围可以进行选择，可以选择全局用户，或者分层局部用户例如地域(浙江省、杭州市、中国西北省份)、职业性质(金融、公务员、重体力劳动者)、甚至机构、企业等不同级别的分层局部用户作为统计量计算的数据集。统计量的选择一般为平均值或众数。除了根据分层用户作为统计量的样本数据集，也可以利用图算法进行相似度的匹配，即把所有的用户都看做医学知识图谱中的一类节点，它们之间根据健康档案的信息，能够与生物医学知识构建出各种各样的关联关系，利用这些关系能够对不同的用户之间的相似度进行度量，相似度高的用户之间天然具有更高的数据匹配度。先对用户在全局数据中进行相似度匹配，然后利用相似度高的用户作为样本数据集进行统计量的计算，其为一种可行性极高的补全策略，kNN算法看成本策略在以众数为统计量下的一个特例，与传统机器学习中的kNN算法不同的是，本策略以图数据为主，相似度的度量较普通数据相似度的度量有一定的区别；

深度学习预测模块处理，利用深度学习方法对缺失值进行预测，对于类别型数据，采取分类模型进行概率计算，对于其他的数值型数据，采取回归模型进行数值预测；预测模型的训练也可以根据健康管理机构的需求进行不同的配置，如果健康管理机构的数据量较大，可以把健康管理机构记录的用户数据作为数据集进行模型的优化，如果健康管理机构的体量较小，数据量难以支撑模型的训练评测，则可以根据地域或者其他维度构建数据集；一般地，数据集的处理需要经过严格的脱敏处理，保证用户健康隐私信息的安全和保密。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可以被计算机处理器执行实现如权利要求1至2中的任意一项所述方法的计算机可读指令。

本申请与现有技术相比，至少具有以下明显优点和效果：

1、在本发明中，通过知识图谱与深度学习技术的结合，利用健康档案中已有的数据，补全健康档案中部分缺失的数据，从而提高健康档案信息的完整度，为后续的健康评估和健康改善提供保障。

2、在本发明中，利用了图处理算法和深度学习算法，能够在不同统计维度，不同用户群体、不同机构需求的情况下进行灵活科学地数据补全。

附图说明

图1是本申请的整体架构图。

图2是本申请中策略回退链的处理流程图。

图3是本申请中的深度学习预测模块的结构示意图。

具体实施方式

结合附图和以下说明描述了本申请的特定实施例以教导本领域技术人员如何制造和使用本申请的最佳模式。为了教导申请原理，已简化或省略了一下常规方面。本领域技术人员应该理解源自这些实施例的变形落在本申请的范围内。本领域技术人员应该理解下述特征能够以各种方式结合以形成本申请的多个变型。本申请中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。由此，本申请并不局限于下述特定实施例，而仅由权利要求和它们的等同物限定。

图1至图3示出，本申请的健康档案缺失值补全方法、***以及存储介质的一种具体实施例。

本发明为一种健康档案缺失值补全方法、***以及存储介质，包括S1：根据医学知识图谱获取健康档案中的数据；S2：将健康档案的数据代入补全策略中的预定义量策略、统计方法策略以及预测模型策略进行补全；S3：若用户信息满足策略要求，输出补全值；S4：若不符合策略要求则进行下一策略进行补全；S5：若到最后一个策略仍无满足策略要求，则补全失败，不进行补全，如图2所示：S1至S5形成一条策略回退链。预定义量策略由预定义量匹配模块进行处理、统计方法策略由统计量计算模块处理、预测模型策略由深度学习预测模块处理。本发明有效解决健康档案数据缺失问题，补全缺失的数据，从而提高健康档案信息的完整度，为后续的健康评估和健康改善提供保障。

根据医学知识图谱获取健康档案中的数据，健康档案数据包括已经统计到的用户的健康信息，其作为缺失值补全的基础信息，以及需要补全的缺失字段清单其作为***输出依据。

假定有用户的一份健康档案中“是否高糖饮食”(类别型指标)和“每日平均酒精摄入量(ml)”(数值型指标)两个指标缺失，需要进行补全。

首先对预定义量策略、统计方法策略以及预测模型策略的补全顺序进行选择，根据机构本身的用户规模、数据质量以及管理经验来进行选择。例如高糖饮食的补全可以定义优先进行深度学***均值进行补全，最后使用预定义匹配模块的条件匹配，例如40-50岁的男性使用90ml的预定义值，女性使用22.5ml的预定义值。

其次是各个模块的构建；

预定义量匹配模块的构建最为简单，首先需要定义条件组合，其次需要根据经验和医学知识，定义补全数值，条件组合的定义，可以使用可视化界面或者配置文件进行配置，然后由条件解析引擎解析为计算机可以理解的格式。例如40-50岁的男性使用90ml的预定义值，可以配置条件为“AGE BETWEEN(40，50)AND SEX＝MALE”。

统计量计算模块的构建对数据的要求较高，需要对当前数据仓库中的数据维度进行较多层次的整理，这样才能保证配置在各个维度上能够进行分组，能够取得可用的数据。其次需要构建能够工具数据集快速计算统计量的计算工具，对于平均值、众数的计算，根据使用量的多少进行缓存配置，定期进行提前计算，减少实时计算的必要。

如图3所示：深度学习预测模块的构建对算法的要求较高。针对不同的指标字段，需要首先进行输入特征向量，然后进行数据样本的筛选，其次进行预测算法的选择，对于类别型预测结果(例如阴阳性指标或者加减号复合指标)，采取分类模型进行概率计算，对于其他的数值型预测结果，采取回归模型进行数值预测。输入特征和预测算法可以根据实际评测结果的性能表现进行变换，如果进行在线数据的补全，需要考虑响应性能，倾向于选择维度少，算法模型结构简单的解决方案。如果进行离线数据的分析补全，则可以提高数据的维度和算法结构的复杂度或者参数空间，这样能更加准确的对样本数据进行拟合。

实现上述实施例中的全部或部分流程，是通过计算机程序来指令相关的硬件来完成，计算机软件产品存储在一个计算机可读存储介质中，所述计算机可读存储介质可以为任意可携带计算机程序代码实体装置或设备，例如，所述计算机可读存储介质可以是U盘、移动磁盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器等。

本发明有效解决健康档案数据缺失问题，能够利用健康档案中的已有数据，补全健康档案中部分缺失的数据，从而提高健康档案信息的完整度，为后续的健康评估和健康改善提供保障。

由于本领域技术人员能够很容易想到，利用申请的构思和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种健康档案缺失值补全方法，其特征在于，包括以下步骤：

S1：根据医学知识图谱获取健康档案中的数据；

S3：若用户信息满足策略要求，输出补全值；

S4：若不符合策略要求则进行下一策略进行补全；

2.根据权利要求1所述一种健康档案缺失值补全方法，其特征在于：所述预定义量策略由预定义量匹配模块进行处理、所述统计方法策略由统计量计算模块处理、所述预测模型策略由深度学习预测模块处理。

3.一种健康档案缺失值补全***，其特征在于，包括：

预定义量匹配模块，利用配置条件的匹配对缺失值进行补全，所述配置条件包括运算符、比较符以及操作数，所述运算符对已有数据进行计算处理；

统计量计算模块，利用统计学中的群体统计量来近似估计缺失值，以统计学的大数定律为基础，通过在大量数据上统计量的观察值作为补全值；

深度学习预测模块处理，利用深度学习方法对缺失值进行预测，对于类别型数据，采取分类模型进行概率计算，对于其他的数值型数据，采取回归模型进行数值预测。

4.根据权利要求3所述的一种健康档案缺失值补全***，其特征在于，所述预定义量匹配模块通过人工定义其他字段条件，且通过其他字段条件的匹配得到对应的补全值。

5.根据权利要求3所述的一种健康档案缺失值补全***，其特征在于，所述统计量计算的数据集采用全局用户或分层局部用户。

6.根据权利要求3所述的一种健康档案缺失值补全***，其特征在于，所述统计量的数据集基于医学图谱利用图算法进行相似度匹配。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序可以被计算机处理器执行实现如权利要求1至2中的任意一项所述方法的计算机可读指令。