CN114334171A - 基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及*** - Google Patents
基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及*** Download PDFInfo
- Publication number
- CN114334171A CN114334171A CN202111478566.1A CN202111478566A CN114334171A CN 114334171 A CN114334171 A CN 114334171A CN 202111478566 A CN202111478566 A CN 202111478566A CN 114334171 A CN114334171 A CN 114334171A
- Authority
- CN
- China
- Prior art keywords
- search
- rare
- search engine
- case registration
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000035977 Rare disease Diseases 0.000 title claims abstract description 191
- 238000010276 construction Methods 0.000 title claims abstract description 39
- 238000003745 diagnosis Methods 0.000 claims abstract description 49
- 238000012790 confirmation Methods 0.000 claims abstract description 7
- 201000010099 disease Diseases 0.000 claims description 50
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 14
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 6
- 238000010827 pathological analysis Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000002560 therapeutic procedure Methods 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005180 public health Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提出一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法和***,包括:获取多种罕见病及其对应的查询关键词,根据查询关键词分析搜索引擎的查询信息,得到罕见病搜索的查询日志,并根据查询日志统计提取各罕见病在搜索引擎中的搜索特征,且搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名;统计提取各罕见病在病例登记***数据中的确诊特征,且确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名;比对融合搜索特征、确诊特征和病例登记***数据,得到罕见病流行病学数据库。通过上述内容,本发明丰富完善了罕见病病例登记***。
Description
技术领域
本发明涉及数据挖掘和罕见病统计技术领域,并特别涉及一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及***。
背景技术
罕见病是一组发病率和患病率极低的疾病,因罕见病患者分布分散,针对疾病的研究存在较大困难,特别是流行病学研究。传统通过普查形式获得疾病患病特点和趋势,需要投入大量人力、物力和时间,不适用于罕见病的流行病学信息获取。因此在很多情况下,仍缺乏对患病人数的清晰了解,从而对孤儿药研发、医疗资源配置等都带来极大影响。同时,由于罕见病疾病种类多、中国人口基数大,尽管发病率低,保守估计总体患者人数巨大。因此针对罕见病的流行病学分析研究,是医疗卫生和社会保障事业中一个非常重要且亟需解决的难题。
罕见病直报***和注册登记***是国家罕见病病例登记平台,第一批罕见病目录已纳入121种罕见病。但是一方面病例登记***搭建时间尚短、病例还在积累阶段,另一方面罕见病常常诊断困难,部分未确诊或漏诊病例是无法通过病例登记***上报,因此目前国家罕见病病例登记平台数据和实际情况仍存在偏差,存在数据缺失的情况,急需一种丰富扩充罕见病病例登记***数据的方法。而与此同时,由于搜索引擎的普及,发明人发现人们往往会通过搜索引擎进行相关信息检索,具有实时性、覆盖人群面广和低成本等优点。这就为罕见病流行病学研究提供了新的思路,可以将来自于搜索引擎的互联网数据和病例登记***数据进行对比融合,以构建数据库,指导适用于不同特点的罕见病病种流行病学研究策略,为解决当前公共医疗卫生领域的挑战性难题提供新的方法。这在罕见病领域尚无应用。
发明内容
本发明基于病例登记***和搜索引擎大数据的挖掘,将来自于搜索引擎的互联网数据和病例登记***数据进行对比融合,以指导适用于不同特点的罕见病病种流行病学研究策略,为解决当前公共医疗卫生领域的挑战性难题提供新的方法。
针对现有技术的不足,本发明提出一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其中包括:
步骤1、获取多种罕见病及其对应的查询关键词,根据该查询关键词分析搜索引擎的查询信息,得到该罕见病搜索的查询日志,并根据该查询日志统计提取各罕见病在该搜索引擎中的搜索特征,且该搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名;
步骤2、统计提取各罕见病在病例登记***数据中的确诊特征,且该确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名;
步骤3、比对融合该搜索特征、该确诊特征和该病例登记***数据,得到罕见病流行病学数据库。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其中还包括步骤4,对于病例登记***中排名低于搜索引擎中排名的罕见病,针对性地寻求提高其诊断水平的方法,包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法,从而对该罕见病流行病学数据库进行补充。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其中该查询关键词包括:罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其中还包括:
步骤5、对于病例登记***中排名高于搜索引擎中排名的罕见病,通过进一步优化检索策略,构建并训练针对罕见病的患病人数预测模型,以预测后续罕见病的患病人数;
其中优化检索策略包括调整该查询关键词,以及调整该患病人数预测模型的结构和连接关系。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其中该步骤1包括:获取搜索患者的罕见病历史搜索数据间的关联性,若关联性大于阈值,则判定其属于当前罕见病的患者,保存其搜索数据并用于统计该搜索特征,否则判定其不属于当前罕见病的患者,从该查询日志中剔除其查询数据。
本发明还提出了一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中包括:
搜索特征提取模块,用于获取多种罕见病及其对应的查询关键词,根据该查询关键词分析搜索引擎的查询信息,得到该罕见病搜索的查询日志,并根据该查询日志统计提取各罕见病在该搜索引擎中的搜索特征,且该搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名;
确诊特征提取模块,用于统计提取各罕见病在病例登记***数据中的确诊特征,且该确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名;
数据库构建模块,用于比对融合该搜索特征、该确诊特征和该病例登记***数据,得到罕见病流行病学数据库。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中还包括数据库补充模块,用于对于病例登记***中排名低于搜索引擎中排名的罕见病,针对性地寻求提高其诊断水平的方法,包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法,从而对该罕见病流行病学数据库进行补充。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中该查询关键词包括:罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法名称。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中还包括:
预测模块,用于对于病例登记***中排名高于搜索引擎中排名的罕见病,通过进一步优化检索策略,构建并训练针对罕见病的患病人数预测模型,以预测后续罕见病的患病人数;
其中优化检索策略包括调整该查询关键词,以及调整该患病人数预测模型的结构和连接关系。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中该搜索特征提取模块,用于获取搜索患者的罕见病历史搜索数据间的关联性,若关联性大于阈值,则判定其属于当前罕见病的患者,保存其搜索数据并用于统计该搜索特征,否则判定其不属于当前罕见病的患者,从该查询日志中剔除其查询数据。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法的程序。
本发明还提出了一种客户端,用于所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***。
由以上方案可知,本发明的优点在于:
本发明通过上述内容完善了罕见病病例登记***数据,其通过病例登记***和搜索引擎大数据进行罕见病流行病学数据挖掘,为解决当前公共医疗卫生领域的挑战性难题提供新的方法,在领域填补了罕见病流行病学研究中的空白。通过这一方法,可对病例登记***和搜索引擎***的数据进行比对融合,指导后续适用于不同特点的罕见病病种的流行病学研究策略。
附图说明
图1为搜索估计患者人数变化趋势示意图;
图2为罕见病搜索热度地区分布情况示意图;
图3为年度罕见病病种比较图;
图4为本发明流程图。
具体实施方式
具体来说,为了通过分析搜索引擎,扩充病例登记***,得到新的罕见病数据库,如图4所示,本发明提出了以下步骤:
(1)构建搜索引擎罕见病查询关键词:
构建合适的查询关键词对搜索引擎结果分析至关重要。既要减少因匹配度要求过高而导致的遗漏,也要避免因检索词匹配度过低,而导致的混杂信息增多,影响分析精度。因此,本发明以国家第一批121种罕见病目录中确认的疾病名称、或其同义词、或英文名称、或特异性诊断指标(如突变基因)、或特异性治疗方法(如药物)作为匹配搜索日志的关键词,以兼顾查询准确性和特异性。并且关键词的选取可以是一个逐步优化的过程,可根据不同疾病、不同算法再做相应调整。
(2)针对不同罕见病,分析搜索引擎***和病例登记***中患者分布的时空特点:
根据关键词提取搜索引擎查询信息后,分析搜索引擎***和病例登记***中,不同罕见病的患者人数随时间、空间的变化情况。
搜索数据方面,在时间维度上,分析展示:i.根据罕见病搜索的查询日志统计得到121种罕见病的搜索估计患者人数的年度变化情况;ii.不同罕见病的年度搜索估计患者人数排名及变化情况;iii.不同罕见病在不同时间段的搜索增长率排名及变化情况,其中增长率计算方法如下:当年搜索估计患者人数x1,前一年搜索估计患者人数x2,则增长率为α=(x1-x2)/x2。在空间维度上,在中国地图上绘制热力图,可视化展示各个地区不同时间段的罕见病搜索热度及年度变化情况。
病例登记数据方面,我们同样通过时间和空间维度,分析展示病例登记***中121种罕见病患者人数年度变化情况、不同罕见病的年度患者人数排名及变化情况、以及各个地区不同时间段的罕见病直报人数及变化情况(绘制热力图)。
由此,获得不同罕见病在搜索引擎***和病例登记***中的患者人数和分布特征。
(3)比较病例登记***数据与搜索引擎数据的相关性特征:
以年为单位,比较病例登记***数据与搜索引擎数据中各罕见病病种人数/排名差异,获得两个***数据的整体相关性特征。并进一步比较搜索人数/排名较高、或是直报人数/排名较高这两类疾病相邻两年间的病种交集,获得年度变化趋势特征。
(4)将病例登记***数据和搜索引擎数据进行对比融合,以指导适用于不同特点的罕见病病种流行病学研究策略:
以年为单位,比较病例登记***与搜索引擎***中各罕见病患者的人数差异,获得不同罕见病在病例登记***和搜索引擎***中的排名特征。依据各罕见病在两个***中的排名差异,将罕见病区分为两类:在病例登记***中排名较高的疾病,和在搜索***中排名较高的疾病。区分出这两类疾病,可对后续具体病种的流行病学研究策略提供指导。
具体来说:i.对于在病例登记***中排名较高的疾病,推测现有病例登记***已较为全面,后续可通过进一步优化检索策略,构建针对不同罕见病的患病人数预测模型。ii.对于搜索***中排名较高的疾病,一方面针对受关注程度高、社会热点相关的病种,需进一步从多样的搜索人群中识别出真正患有罕见病的病例,再与病例登记***数据进行比对融合;另一方面针对诊断困难的病种,可有针对性地寻求提高诊断水平的方法,包括推广针对热点突变的基因诊断技术,简化的功能诊断方法,以及病理诊断方法,从而对病例登记***进行补充。
其中从多样的搜索人群中识别出真正患有罕见病的病例,根据搜索患者的罕见病历史搜索数据间的关联性,若关联性大于阈值,则判定其属于当前罕见病的患者,保存其搜索数据并用于统计该搜索特征,否则判定其不属于当前罕见病的患者。搜索患者的罕见病历史搜索数据中关联性很低,例如仅包括某类特定罕见病关键词,则认定其属于罕见病的患者,否则关联性高于预设值时,例如包括的特定罕见病关键词类别或数量大于预设值,代表其检索的词汇包括多种其他疾病,则其可能是出于工作需要或者好奇而搜索罕见病信息,而非某类罕见病的患者。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
(1)构建搜索引擎罕见病查询关键词
构建关键词是一个逐步优化的过程。我们目前的做法是以国家第一批121种罕见病目录中确认的疾病名称和/或疾病名称同义词和/或疾病英文名称和/或特异性诊断指标(如突变基因等)和/或特异性治疗方法(如药物等),作为匹配搜索日志的关键词,兼顾查询准确性和特异性。表1列举了2种代表性疾病的查询关键词选取方法。
表1.关键词选取方法举例
(2)针对不同罕见病,分析搜索引擎***和病例登记***中患者分布的时空特点:
根据关键词提取搜索引擎查询信息后,分析搜索引擎***中针对不同罕见病的患者估算人数和分布特征。以下结果以搜索数据为例,展示患者分布的时空特征。病例登记***中不同罕见病的患者人数和分布特征分析展示方法类似。
i.在2016-2019四年间,根据搜索罕见病的查询日志计算得到搜索估计罕见病患者人数的年度变化情况如图1所示意。
ii.2016-2019年间,将不同疾病的年度搜索估计患者人数进行排名,结果如表2所示意。
表2. 121种罕见病的搜索估计患者人数年度排名
iii.2016-2019年间,将不同疾病的搜索增长率进行排名,如表3所示意。
表3. 2016-2019年间121种罕见病的搜索增长率排名
iv.2016-2019年罕见病整体搜索热度,以及年度搜索热度的地区分布情况如图2所示,图中A、B、C、D…分别代表不同地区,颜色深浅代表搜索热度的差异。各地区每年的搜索热度为该地区指定罕见病的搜索热度之和,2016-2019年罕见病整体搜索热度为该地区四年的指定罕见病的平均搜索热度。
(3)比较病例登记***数据与搜索引擎数据的相关性特征
以不同疾病的患者人数排名为指标,比较121种罕见病在病例登记***和搜索***中的年度差异。结果显示,各病种在两个***中的患者人数排名是较为稳定的,某些疾病总是病例登记***高,而另一些总是搜索***高。整体上,4年间搜索人数排名总是较高的疾病、和病例登记人数排名总是较高的疾病均占比较高。进一步,以韦恩图的形式,分别展示这两大类疾病(搜索排名高于病例登记排名,病例登记排名高于搜索排名)相邻两年间的病种交集变化,如图3所示。结果显示,相邻两年间的病种交集较大,表明发展趋势稳定。
(4)将病例登记***数据和搜索引擎数据进行对比融合,以指导适用于不同特点的罕见病病种流行病学研究策略
以年为单位,比较病例登记***与搜索引擎***中各罕见病患者的人数差异,获得不同罕见病在病例登记***和搜索引擎***中的排名特征,如表4所示意。整体上两个***间存在较高一致性,但也存在特异性。
表4. 121种罕见病的年度搜索人数和直报人数排名差异
依据各罕见病在两个***中的排名差异,将罕见病区分为两类:i.在病例登记***中排名较高的疾病,ii.在搜索***中排名较高的疾病。区分出这两类疾病,可对后续具体病种的流行病学研究策略提供指导。具体来说:i.对于在病例登记***中排名较高的疾病,推测现有病例登记***已较为全面,后续可通过进一步优化检索策略,构建针对不同罕见病的患病人数预测模型。ii.对于搜索热度较高而登记病例较少的疾病,一方面针对受关注程度高、社会热点相关的病种,需进一步从多样的搜索人群中识别出真正患有罕见病的病例,再与病例登记***数据进行比对融合;另一方面针对诊断困难的病种,可有针对性地寻求提高诊断水平的方法,从而对病例登记***进行补充。
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中包括:
搜索特征提取模块,用于获取多种罕见病及其对应的查询关键词,根据该查询关键词分析搜索引擎的查询信息,得到该罕见病搜索的查询日志,并根据该查询日志统计提取各罕见病在该搜索引擎中的搜索特征,且该搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名;
确诊特征提取模块,用于统计提取各罕见病在病例登记***数据中的确诊特征,且该确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名;
数据库构建模块,用于比对融合该搜索特征、该确诊特征和该病例登记***数据,得到罕见病流行病学数据库。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中还包括数据库补充模块,用于对于病例登记***中排名低于搜索引擎中排名的罕见病,针对性地寻求提高其诊断水平的方法,包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法,从而对该罕见病流行病学数据库进行补充。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中该查询关键词包括:罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法名称。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中还包括:
预测模块,用于对病例登记***中排名高于搜索引擎中排名的罕见病,通过优化查询关键词和构建预测模型,以预测后续该类罕见病的患病人数,对该罕见病流行病学数据库进行补充。
所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其中该搜索特征提取模块,用于获取搜索患者的罕见病历史搜索数据间的关联性,若关联性大于阈值,则判定其属于当前罕见病的搜索患者,保存其搜索数据并用于统计该搜索特征,否则判定其不属于当前罕见病的患者,从该查询日志中剔除其查询数据。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法的程序。
本发明还提出了一种客户端,用于所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***。
Claims (12)
1.一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其特征在于,包括:
步骤1、获取多种罕见病及其对应的查询关键词,根据该查询关键词分析搜索引擎的查询信息,得到该罕见病搜索的查询日志,并根据该查询日志统计提取各罕见病在该搜索引擎中的搜索特征,且该搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名;
步骤2、统计提取各罕见病在病例登记***数据中的确诊特征,且该确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名;
步骤3、比对融合该搜索特征、该确诊特征和该病例登记***数据,得到罕见病流行病学数据库。
2.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其特征在于,还包括步骤4,对于病例登记***中排名低于搜索引擎中排名的罕见病,针对性地寻求提高其诊断水平的方法,包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法,从而对该罕见病流行病学数据库进行补充。
3.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其特征在于,该查询关键词包括:罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法。
4.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其特征在于,还包括:
步骤5、对病例登记***中排名高于搜索引擎中排名的罕见病,通过优化查询关键词和构建预测模型,以预测后续该类罕见病的患病人数,对该罕见病流行病学数据库进行补充。
5.如权利要求1所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建方法,其特征在于,该步骤1包括:获取搜索者的罕见病历史搜索数据间的关联性,若关联性大于阈值,则判定其属于当前罕见病的搜索患者,保存其搜索数据并用于统计该搜索特征,否则判定其不属于当前罕见病的患者,从该查询日志中剔除其查询数据。
6.一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其特征在于,包括:
搜索特征提取模块,用于获取多种罕见病及其对应的查询关键词,根据该查询关键词分析搜索引擎的查询信息,得到该罕见病搜索的查询日志,并根据该查询日志统计提取各罕见病在该搜索引擎中的搜索特征,且该搜索特征包括各时间点和/或地区对应的搜索患者人数、搜索患者人数排名和搜索增长率排名;
确诊特征提取模块,用于统计提取各罕见病在病例登记***数据中的确诊特征,且该确诊特征包括罕见病在各时间点和/或地区对应的确诊患者人数、确诊患者人数排名和确诊增长率排名;
数据库构建模块,用于比对融合该搜索特征、该确诊特征和该病例登记***数据,得到罕见病流行病学数据库。
7.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其特征在于,还包括数据库补充模块,用于对于病例登记***中排名低于搜索引擎中排名的罕见病,针对性地寻求提高其诊断水平的方法,包括推广针对热点突变的基因诊断技术、简化功能诊断方法以及病理诊断方法,从而对该罕见病流行病学数据库进行补充。
8.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其特征在于,该查询关键词包括:罕见病目录中疾病名称和/或疾病名称同义词和/或特异性诊断指标和/或特异性治疗方法名称。
9.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其特征在于,还包括:
预测模块,用于对病例登记***中排名高于搜索引擎中排名的罕见病,通过优化查询关键词和构建预测模型,以预测后续该类罕见病的患病人数,对该罕见病流行病学数据库进行补充。
10.如权利要求6所述的基于病例登记和搜索引擎的罕见病流行病学数据库构建***,其特征在于,该搜索特征提取模块,用于获取搜索患者的罕见病历史搜索数据间的关联性,若关联性大于阈值,则判定其属于当前罕见病的搜索患者,保存其搜索数据并用于统计该搜索特征,否则判定其不属于当前罕见病的患者,从该查询日志中剔除其查询数据。
11.一种存储介质,用于存储执行如权利要求1到5所述任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建方法的程序。
12.一种客户端,用于权利要求6至10中任意一种基于病例登记和搜索引擎的罕见病流行病学数据库构建***。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478566.1A CN114334171A (zh) | 2021-12-06 | 2021-12-06 | 基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478566.1A CN114334171A (zh) | 2021-12-06 | 2021-12-06 | 基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114334171A true CN114334171A (zh) | 2022-04-12 |
Family
ID=81048484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111478566.1A Pending CN114334171A (zh) | 2021-12-06 | 2021-12-06 | 基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114334171A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116598004A (zh) * | 2023-07-17 | 2023-08-15 | 清华大学 | 患病率的预测方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017106686A1 (en) * | 2015-12-18 | 2017-06-22 | Pointright Inc. | Systems and methods for providing personalized prognostic profiles |
CN109102897A (zh) * | 2018-07-19 | 2018-12-28 | 贵州省人民医院 | 一种用于疾病大数据的数据库建立及信息检索方法 |
RU2698007C1 (ru) * | 2018-08-27 | 2019-08-21 | Михаил Борисович Богданов | Автоматическая система поддержки медицинских решений при сочетанной патологии |
CN112071385A (zh) * | 2020-09-23 | 2020-12-11 | 广州瀚信通信科技股份有限公司 | 基于人工智能的罕见病辅助分析方法、装置及存储介质 |
CN112687397A (zh) * | 2020-12-31 | 2021-04-20 | 四川大学华西医院 | 罕见病知识库的处理方法及装置、可读存储介质 |
CN113327682A (zh) * | 2020-02-28 | 2021-08-31 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词搜索时间序列的传染病疫情预测与监控***、方法及其应用 |
-
2021
- 2021-12-06 CN CN202111478566.1A patent/CN114334171A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017106686A1 (en) * | 2015-12-18 | 2017-06-22 | Pointright Inc. | Systems and methods for providing personalized prognostic profiles |
CN109102897A (zh) * | 2018-07-19 | 2018-12-28 | 贵州省人民医院 | 一种用于疾病大数据的数据库建立及信息检索方法 |
RU2698007C1 (ru) * | 2018-08-27 | 2019-08-21 | Михаил Борисович Богданов | Автоматическая система поддержки медицинских решений при сочетанной патологии |
CN113327682A (zh) * | 2020-02-28 | 2021-08-31 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词搜索时间序列的传染病疫情预测与监控***、方法及其应用 |
CN112071385A (zh) * | 2020-09-23 | 2020-12-11 | 广州瀚信通信科技股份有限公司 | 基于人工智能的罕见病辅助分析方法、装置及存储介质 |
CN112687397A (zh) * | 2020-12-31 | 2021-04-20 | 四川大学华西医院 | 罕见病知识库的处理方法及装置、可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116598004A (zh) * | 2023-07-17 | 2023-08-15 | 清华大学 | 患病率的预测方法、装置、计算机设备和存储介质 |
CN116598004B (zh) * | 2023-07-17 | 2023-11-28 | 清华大学 | 患病率的预测方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180181573A1 (en) | Search method and device for asking type query based on deep question and answer | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
US20070043774A1 (en) | Method and Apparatus for Incremental Computation of the Accuracy of a Categorization-by-Example System | |
CN105843850B (zh) | 搜索优化方法和装置 | |
US7548903B2 (en) | Method and apparatus for automatic recommendation and selection of clustering indexes | |
Burel et al. | Automatic identification of best answers in online enquiry communities | |
US7089238B1 (en) | Method and apparatus for incremental computation of the accuracy of a categorization-by-example system | |
CN109065173B (zh) | 知识路径的获取方法 | |
Gómez‐Núñez et al. | Updating the SCI mago journal and country rank classification: A new approach using W ard's clustering and alternative combination of citation measures | |
CN111143689A (zh) | 根据用户需求和用户画像构建推荐引擎的方法 | |
CN114334171A (zh) | 基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及*** | |
CN112598184A (zh) | 一种戒毒人员复吸风险预测的方法和装置 | |
CN116541480A (zh) | 一种基于多标签驱动的专题数据构建方法及*** | |
JP6522042B2 (ja) | 検索結果内に添付された情報データベースに基づいた検索リスト及び検索語順位の提供方法及びシステム | |
CN113094514A (zh) | 一种基于领域知识图谱的水务数据智能发现方法 | |
CN112184021A (zh) | 一种基于相似支持集的答案质量评估方法 | |
CN115659046B (zh) | 基于ai大数据的技术交易推荐***及方法 | |
CN116467286A (zh) | 一种建筑工程造价咨询数据库的建立方法及*** | |
CN116307792A (zh) | 一种面向城市体检主题场景的评估方法及装置 | |
CN116089448A (zh) | 一种基于多维感知建立人口画像的实时人口管理*** | |
CN115357727A (zh) | 一种农业供需信息匹配方法及*** | |
Biolcati-Rinaldi et al. | Assessing the reliability and validity of Google Scholar indicators. The case of social sciences in Italy | |
AT&T | ||
Yousaf et al. | How to identify appropriate key-value pairs for querying osm | |
Kazai et al. | Construction of a test collection for the focussed retrieval of structured documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220412 |