CN114334171A

CN114334171A - 基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及***

Info

Publication number: CN114334171A
Application number: CN202111478566.1A
Authority: CN
Inventors: 张抒扬; 金晔; 张磊; 张敏; 李佳玉
Original assignee: Tsinghua University; Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Current assignee: Tsinghua University; Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-12

Abstract

本发明提出一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法和***，包括：获取多种罕见病及其对应的查询关键词，根据查询关键词分析搜索引擎的查询信息，得到罕见病搜索的查询日志，并根据查询日志统计提取各罕见病在搜索引擎中的搜索特征，且搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名；统计提取各罕见病在病例登记***数据中的确诊特征，且确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名；比对融合搜索特征、确诊特征和病例登记***数据，得到罕见病流行病学数据库。通过上述内容，本发明丰富完善了罕见病病例登记***。

Description

基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及***

技术领域

本发明涉及数据挖掘和罕见病统计技术领域，并特别涉及一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及***。

背景技术

罕见病是一组发病率和患病率极低的疾病，因罕见病患者分布分散，针对疾病的研究存在较大困难，特别是流行病学研究。传统通过普查形式获得疾病患病特点和趋势，需要投入大量人力、物力和时间，不适用于罕见病的流行病学信息获取。因此在很多情况下,仍缺乏对患病人数的清晰了解，从而对孤儿药研发、医疗资源配置等都带来极大影响。同时，由于罕见病疾病种类多、中国人口基数大，尽管发病率低，保守估计总体患者人数巨大。因此针对罕见病的流行病学分析研究，是医疗卫生和社会保障事业中一个非常重要且亟需解决的难题。

罕见病直报***和注册登记***是国家罕见病病例登记平台，第一批罕见病目录已纳入121种罕见病。但是一方面病例登记***搭建时间尚短、病例还在积累阶段，另一方面罕见病常常诊断困难，部分未确诊或漏诊病例是无法通过病例登记***上报，因此目前国家罕见病病例登记平台数据和实际情况仍存在偏差，存在数据缺失的情况，急需一种丰富扩充罕见病病例登记***数据的方法。而与此同时，由于搜索引擎的普及，发明人发现人们往往会通过搜索引擎进行相关信息检索，具有实时性、覆盖人群面广和低成本等优点。这就为罕见病流行病学研究提供了新的思路，可以将来自于搜索引擎的互联网数据和病例登记***数据进行对比融合，以构建数据库，指导适用于不同特点的罕见病病种流行病学研究策略，为解决当前公共医疗卫生领域的挑战性难题提供新的方法。这在罕见病领域尚无应用。

发明内容

本发明基于病例登记***和搜索引擎大数据的挖掘，将来自于搜索引擎的互联网数据和病例登记***数据进行对比融合，以指导适用于不同特点的罕见病病种流行病学研究策略，为解决当前公共医疗卫生领域的挑战性难题提供新的方法。

针对现有技术的不足，本发明提出一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其中包括：

步骤1、获取多种罕见病及其对应的查询关键词，根据该查询关键词分析搜索引擎的查询信息，得到该罕见病搜索的查询日志，并根据该查询日志统计提取各罕见病在该搜索引擎中的搜索特征，且该搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名；

步骤2、统计提取各罕见病在病例登记***数据中的确诊特征，且该确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名；

步骤3、比对融合该搜索特征、该确诊特征和该病例登记***数据，得到罕见病流行病学数据库。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其中还包括步骤4，对于病例登记***中排名低于搜索引擎中排名的罕见病，针对性地寻求提高其诊断水平的方法，包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法，从而对该罕见病流行病学数据库进行补充。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其中该查询关键词包括：罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其中还包括：

步骤5、对于病例登记***中排名高于搜索引擎中排名的罕见病，通过进一步优化检索策略，构建并训练针对罕见病的患病人数预测模型，以预测后续罕见病的患病人数；

其中优化检索策略包括调整该查询关键词，以及调整该患病人数预测模型的结构和连接关系。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其中该步骤1包括：获取搜索患者的罕见病历史搜索数据间的关联性，若关联性大于阈值，则判定其属于当前罕见病的患者，保存其搜索数据并用于统计该搜索特征，否则判定其不属于当前罕见病的患者，从该查询日志中剔除其查询数据。

本发明还提出了一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其中包括：

搜索特征提取模块，用于获取多种罕见病及其对应的查询关键词，根据该查询关键词分析搜索引擎的查询信息，得到该罕见病搜索的查询日志，并根据该查询日志统计提取各罕见病在该搜索引擎中的搜索特征，且该搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名；

确诊特征提取模块，用于统计提取各罕见病在病例登记***数据中的确诊特征，且该确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名；

数据库构建模块，用于比对融合该搜索特征、该确诊特征和该病例登记***数据，得到罕见病流行病学数据库。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其中还包括数据库补充模块，用于对于病例登记***中排名低于搜索引擎中排名的罕见病，针对性地寻求提高其诊断水平的方法，包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法，从而对该罕见病流行病学数据库进行补充。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其中该查询关键词包括：罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法名称。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其中还包括：

预测模块，用于对于病例登记***中排名高于搜索引擎中排名的罕见病，通过进一步优化检索策略，构建并训练针对罕见病的患病人数预测模型，以预测后续罕见病的患病人数；

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其中该搜索特征提取模块，用于获取搜索患者的罕见病历史搜索数据间的关联性，若关联性大于阈值，则判定其属于当前罕见病的患者，保存其搜索数据并用于统计该搜索特征，否则判定其不属于当前罕见病的患者，从该查询日志中剔除其查询数据。

本发明还提出了一种存储介质，用于存储执行所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法的程序。

本发明还提出了一种客户端，用于所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***。

由以上方案可知，本发明的优点在于：

本发明通过上述内容完善了罕见病病例登记***数据，其通过病例登记***和搜索引擎大数据进行罕见病流行病学数据挖掘，为解决当前公共医疗卫生领域的挑战性难题提供新的方法，在领域填补了罕见病流行病学研究中的空白。通过这一方法，可对病例登记***和搜索引擎***的数据进行比对融合，指导后续适用于不同特点的罕见病病种的流行病学研究策略。

附图说明

图1为搜索估计患者人数变化趋势示意图；

图2为罕见病搜索热度地区分布情况示意图；

图3为年度罕见病病种比较图；

图4为本发明流程图。

具体实施方式

具体来说，为了通过分析搜索引擎，扩充病例登记***，得到新的罕见病数据库，如图4所示，本发明提出了以下步骤：

(1)构建搜索引擎罕见病查询关键词：

构建合适的查询关键词对搜索引擎结果分析至关重要。既要减少因匹配度要求过高而导致的遗漏，也要避免因检索词匹配度过低，而导致的混杂信息增多，影响分析精度。因此，本发明以国家第一批121种罕见病目录中确认的疾病名称、或其同义词、或英文名称、或特异性诊断指标(如突变基因)、或特异性治疗方法(如药物)作为匹配搜索日志的关键词，以兼顾查询准确性和特异性。并且关键词的选取可以是一个逐步优化的过程，可根据不同疾病、不同算法再做相应调整。

(2)针对不同罕见病，分析搜索引擎***和病例登记***中患者分布的时空特点：

根据关键词提取搜索引擎查询信息后，分析搜索引擎***和病例登记***中，不同罕见病的患者人数随时间、空间的变化情况。

搜索数据方面，在时间维度上，分析展示:i.根据罕见病搜索的查询日志统计得到121种罕见病的搜索估计患者人数的年度变化情况；ii.不同罕见病的年度搜索估计患者人数排名及变化情况；iii.不同罕见病在不同时间段的搜索增长率排名及变化情况，其中增长率计算方法如下：当年搜索估计患者人数x₁，前一年搜索估计患者人数x₂，则增长率为α＝(x₁-x₂)/x₂。在空间维度上，在中国地图上绘制热力图，可视化展示各个地区不同时间段的罕见病搜索热度及年度变化情况。

病例登记数据方面，我们同样通过时间和空间维度，分析展示病例登记***中121种罕见病患者人数年度变化情况、不同罕见病的年度患者人数排名及变化情况、以及各个地区不同时间段的罕见病直报人数及变化情况(绘制热力图)。

由此，获得不同罕见病在搜索引擎***和病例登记***中的患者人数和分布特征。

(3)比较病例登记***数据与搜索引擎数据的相关性特征：

以年为单位，比较病例登记***数据与搜索引擎数据中各罕见病病种人数/排名差异，获得两个***数据的整体相关性特征。并进一步比较搜索人数/排名较高、或是直报人数/排名较高这两类疾病相邻两年间的病种交集，获得年度变化趋势特征。

(4)将病例登记***数据和搜索引擎数据进行对比融合，以指导适用于不同特点的罕见病病种流行病学研究策略：

以年为单位，比较病例登记***与搜索引擎***中各罕见病患者的人数差异，获得不同罕见病在病例登记***和搜索引擎***中的排名特征。依据各罕见病在两个***中的排名差异，将罕见病区分为两类：在病例登记***中排名较高的疾病，和在搜索***中排名较高的疾病。区分出这两类疾病，可对后续具体病种的流行病学研究策略提供指导。

具体来说：i.对于在病例登记***中排名较高的疾病，推测现有病例登记***已较为全面，后续可通过进一步优化检索策略，构建针对不同罕见病的患病人数预测模型。ii.对于搜索***中排名较高的疾病，一方面针对受关注程度高、社会热点相关的病种，需进一步从多样的搜索人群中识别出真正患有罕见病的病例，再与病例登记***数据进行比对融合；另一方面针对诊断困难的病种，可有针对性地寻求提高诊断水平的方法，包括推广针对热点突变的基因诊断技术，简化的功能诊断方法，以及病理诊断方法，从而对病例登记***进行补充。

其中从多样的搜索人群中识别出真正患有罕见病的病例，根据搜索患者的罕见病历史搜索数据间的关联性，若关联性大于阈值，则判定其属于当前罕见病的患者，保存其搜索数据并用于统计该搜索特征，否则判定其不属于当前罕见病的患者。搜索患者的罕见病历史搜索数据中关联性很低，例如仅包括某类特定罕见病关键词，则认定其属于罕见病的患者，否则关联性高于预设值时，例如包括的特定罕见病关键词类别或数量大于预设值，代表其检索的词汇包括多种其他疾病，则其可能是出于工作需要或者好奇而搜索罕见病信息，而非某类罕见病的患者。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

(1)构建搜索引擎罕见病查询关键词

构建关键词是一个逐步优化的过程。我们目前的做法是以国家第一批121种罕见病目录中确认的疾病名称和/或疾病名称同义词和/或疾病英文名称和/或特异性诊断指标(如突变基因等)和/或特异性治疗方法(如药物等)，作为匹配搜索日志的关键词，兼顾查询准确性和特异性。表1列举了2种代表性疾病的查询关键词选取方法。

表1.关键词选取方法举例

根据关键词提取搜索引擎查询信息后，分析搜索引擎***中针对不同罕见病的患者估算人数和分布特征。以下结果以搜索数据为例，展示患者分布的时空特征。病例登记***中不同罕见病的患者人数和分布特征分析展示方法类似。

i.在2016-2019四年间，根据搜索罕见病的查询日志计算得到搜索估计罕见病患者人数的年度变化情况如图1所示意。

ii.2016-2019年间，将不同疾病的年度搜索估计患者人数进行排名，结果如表2所示意。

表2. 121种罕见病的搜索估计患者人数年度排名

iii.2016-2019年间，将不同疾病的搜索增长率进行排名，如表3所示意。

表3. 2016-2019年间121种罕见病的搜索增长率排名

iv.2016-2019年罕见病整体搜索热度，以及年度搜索热度的地区分布情况如图2所示，图中A、B、C、D…分别代表不同地区，颜色深浅代表搜索热度的差异。各地区每年的搜索热度为该地区指定罕见病的搜索热度之和，2016-2019年罕见病整体搜索热度为该地区四年的指定罕见病的平均搜索热度。

(3)比较病例登记***数据与搜索引擎数据的相关性特征

以不同疾病的患者人数排名为指标，比较121种罕见病在病例登记***和搜索***中的年度差异。结果显示，各病种在两个***中的患者人数排名是较为稳定的，某些疾病总是病例登记***高，而另一些总是搜索***高。整体上，4年间搜索人数排名总是较高的疾病、和病例登记人数排名总是较高的疾病均占比较高。进一步，以韦恩图的形式，分别展示这两大类疾病(搜索排名高于病例登记排名，病例登记排名高于搜索排名)相邻两年间的病种交集变化，如图3所示。结果显示，相邻两年间的病种交集较大，表明发展趋势稳定。

(4)将病例登记***数据和搜索引擎数据进行对比融合，以指导适用于不同特点的罕见病病种流行病学研究策略

以年为单位，比较病例登记***与搜索引擎***中各罕见病患者的人数差异，获得不同罕见病在病例登记***和搜索引擎***中的排名特征,如表4所示意。整体上两个***间存在较高一致性，但也存在特异性。

表4. 121种罕见病的年度搜索人数和直报人数排名差异

依据各罕见病在两个***中的排名差异，将罕见病区分为两类：i.在病例登记***中排名较高的疾病，ii.在搜索***中排名较高的疾病。区分出这两类疾病，可对后续具体病种的流行病学研究策略提供指导。具体来说：i.对于在病例登记***中排名较高的疾病，推测现有病例登记***已较为全面，后续可通过进一步优化检索策略，构建针对不同罕见病的患病人数预测模型。ii.对于搜索热度较高而登记病例较少的疾病，一方面针对受关注程度高、社会热点相关的病种，需进一步从多样的搜索人群中识别出真正患有罕见病的病例，再与病例登记***数据进行比对融合；另一方面针对诊断困难的病种，可有针对性地寻求提高诊断水平的方法，从而对病例登记***进行补充。

以下为与上述方法实施例对应的***实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

预测模块，用于对病例登记***中排名高于搜索引擎中排名的罕见病，通过优化查询关键词和构建预测模型，以预测后续该类罕见病的患病人数，对该罕见病流行病学数据库进行补充。

所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其中该搜索特征提取模块，用于获取搜索患者的罕见病历史搜索数据间的关联性，若关联性大于阈值，则判定其属于当前罕见病的搜索患者，保存其搜索数据并用于统计该搜索特征，否则判定其不属于当前罕见病的患者，从该查询日志中剔除其查询数据。

Claims

1.一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其特征在于，包括：

2.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其特征在于，还包括步骤4，对于病例登记***中排名低于搜索引擎中排名的罕见病，针对性地寻求提高其诊断水平的方法，包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法，从而对该罕见病流行病学数据库进行补充。

3.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其特征在于，该查询关键词包括：罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法。

4.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其特征在于，还包括：

步骤5、对病例登记***中排名高于搜索引擎中排名的罕见病，通过优化查询关键词和构建预测模型，以预测后续该类罕见病的患病人数，对该罕见病流行病学数据库进行补充。

5.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法，其特征在于，该步骤1包括：获取搜索者的罕见病历史搜索数据间的关联性，若关联性大于阈值，则判定其属于当前罕见病的搜索患者，保存其搜索数据并用于统计该搜索特征，否则判定其不属于当前罕见病的患者，从该查询日志中剔除其查询数据。

6.一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其特征在于，包括：

7.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其特征在于，还包括数据库补充模块，用于对于病例登记***中排名低于搜索引擎中排名的罕见病，针对性地寻求提高其诊断水平的方法，包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法，从而对该罕见病流行病学数据库进行补充。

8.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其特征在于，该查询关键词包括：罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法名称。

9.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其特征在于，还包括：

10.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***，其特征在于，该搜索特征提取模块，用于获取搜索患者的罕见病历史搜索数据间的关联性，若关联性大于阈值，则判定其属于当前罕见病的搜索患者，保存其搜索数据并用于统计该搜索特征，否则判定其不属于当前罕见病的患者，从该查询日志中剔除其查询数据。

11.一种存储介质，用于存储执行如权利要求1到5所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法的程序。

12.一种客户端，用于权利要求6至10中任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***。