CN108417274A - 流行病预测方法、***及设备 - Google Patents

流行病预测方法、***及设备 Download PDF

Info

Publication number
CN108417274A
CN108417274A CN201810184185.4A CN201810184185A CN108417274A CN 108417274 A CN108417274 A CN 108417274A CN 201810184185 A CN201810184185 A CN 201810184185A CN 108417274 A CN108417274 A CN 108417274A
Authority
CN
China
Prior art keywords
data
prediction
search
internet
cleansing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810184185.4A
Other languages
English (en)
Inventor
王桥
唐家博
刘文东
陆建
丁嘉沼
鲍倡俊
胡建利
霍翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU DISEASE PREVENTION CONTROL CENTRAL
Southeast University
Original Assignee
JIANGSU DISEASE PREVENTION CONTROL CENTRAL
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU DISEASE PREVENTION CONTROL CENTRAL, Southeast University filed Critical JIANGSU DISEASE PREVENTION CONTROL CENTRAL
Priority to CN201810184185.4A priority Critical patent/CN108417274A/zh
Publication of CN108417274A publication Critical patent/CN108417274A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种流行病预测方法、***及设备,涉及流行病预测技术领域,该方法包括:获取流行病相关数据;相关数据包括:互联网数据、天气数据和智能终端采集的生物信息数据;互联网数据包括搜索数据和社交网络数据;对相关数据进行数据清洗;根据数据清洗后的相关数据建立组合预测模型;根据组合预测模型进行预测,并输出预测结果。本发明实施例提供的流行病预测方法、***及设备,数据来源更加广泛,预测效果更佳,预测精度更高,成本更加低廉,实效性更强,并且可以更早地预测出可能的流行病暴发。

Description

流行病预测方法、***及设备
技术领域
本发明涉及流行病预测技术领域,尤其是涉及一种流行病预测方法、***及设备。
背景技术
传染病一直是人类健康和生命安全的主要威胁。对于传染病突发事件,只有尽早发现、及时预警,才能为实施各种应对措施赢得时间,把事件控制在萌芽状态,最大限度地降低事件的危害程度。当下运用最为广泛的流行病预测预警***是基于医院上报的病例数据进行的,例如2004年建立的全国法定传染病网络直报***(NIDRIS),其成本较高,需要投入大量的人力和物力,并且时效性不高,很难实现疾病暴发的早期预警。
在上述预警***以外,还有基于互联网数据的流行病预测***,例如谷歌公司推出的GFT(Google Flu Trend,谷歌流感趋势预测工具)。然而现有的基于互联网数据进行流行病预测的***,存在预测精度不高的问题。针对上述问题,目前尚未提出有效的技术方案。
发明内容
有鉴于此,本发明的目的在于提供一种流行病预测方法、***及设备,成本更加低廉,实效性更强,预测性能更佳,预测精度更高。
第一方面,本发明实施例提供了一种流行病预测方法,包括:获取流行病相关数据;相关数据包括:互联网数据、天气数据和智能终端采集的生物信息数据;互联网数据包括搜索数据和社交网络数据;对相关数据进行数据清洗;根据数据清洗后的相关数据建立组合预测模型;根据组合预测模型进行预测,并输出预测结果。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对相关数据进行数据清洗的步骤,包括:对社交网络数据进行语义分类,以对社交网络数据进行清洗;获取搜索数据对应浏览器的搜索历史,并过滤无效的搜索数据以对搜索数据进行清洗。
结合第一方面或第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,对相关数据进行数据清洗的步骤,包括:根据互联网数据的地理坐标对互联网数据进行清洗;和/或,对生物信息数据中异常离群点进行去除操作。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,根据数据清洗后的相关数据建立组合预测模型的步骤,包括:结合分布滞后非线性模型计算相关数据与医院数据的延迟天数;根据延迟天数拟合相关数据与是医院数据,并建立包括多个预测基模型的预测基模型库;根据预设的模型组合方式从预测基模型库中选择多个预测基模型,以结合成组合预测模型。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,结合分布滞后非线性模型计算相关数据与医院数据的延迟天数的步骤,包括:将相关数据标记为x,其包含m维数据,记为x1、x2…xm;将x1、x2…xm与医院数据y进行斯皮尔曼等级相关系数分析,筛选出与医院数据呈显著相关的维度,记为数据xf,包含mf个维度;结合分布滞后非线性模型计算xf1、xf2...xfmf与医院数据y的延时关系,将xf各个维度对y影响最大时的延时天数记为n1、n2…nmf,并通过下式计算最终确定的延时天数
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,还包括:根据预测结果进行定时预警预测或实时预警预测。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,根据预测结果进行定时预警预测或实时预警预测的步骤,包括:将预测结果按照预设的显示方式输出至可视化界面,以进行定时预警预测;将预测结果按照易感人群与不易感人群,分别进行预警消息实时推送。
第二方面,本发明实施例还提供了一种流行病预测***,包括:数据获取模块,用于获取流行病相关数据;相关数据包括:互联网数据、天气数据和智能终端采集的生物信息数据;互联网数据包括搜索数据和社交网络数据;数据清洗模块,用于对相关数据进行数据清洗;预测模型建立模块,用于根据数据清洗后的相关数据建立组合预测模型;预测模块,用于根据组合预测模型进行预测,并输出预测结果。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,数据清洗模块还用于:对社交网络数据进行语义分类,以对社交网络数据进行清洗;获取搜索数据对应浏览器的搜索历史,并过滤无效的搜索数据以对搜索数据进行清洗;根据互联网数据的地理坐标对互联网数据进行清洗;对生物信息数据中异常离群点进行去除操作。
第三方面,本发明实施例还提供了一种流行病预测设备,包括处理器和机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述第一方面及其各可能的实施方式之一提供的方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的流行病预测方法、***及设备,数据来源包括互联网数据、天气数据和智能终端采集的生物信息数据,数据来源更加广泛,预测效果更佳;通过对相关数据进行数据清洗并建立组合预测模型,预测性能更佳,预测精度更高;同时针对不同的流行病可以采用不同的预测模型,针对性更强;成本更加低廉,实效性更强,并且可以更早地预测出可能的流行病暴发。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种流行病预测方法的流程示意图;
图2为本发明实施例提供的一种对社交网络数据进行清洗的方法的流程示意图;
图3为本发明实施例提供的一种对搜索数据进行清洗的方法的流程示意图;
图4为本发明实施例提供的stack-net的实现示意图;
图5为本发明实施例提供的地理形式的流行病发病预测趋势示意图;
图6为本发明实施例提供的时间形式的流行病发病预测趋势示意图;
图7为本发明实施例提供的一种流行病预测***的结构示意图;
图8为本发明实施例提供的另一种流行病预测***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前流行病预测预警***主要包括NIDRIS和基于互联网数据的流行病预测***,详细介绍如下:
1、NIDRIS
疾病发病异常是指某地区的疾病发病水平超出了当地的正常期望值,早期探测疾病发病异常并快速采取控制措施是预防疾病更大范围内流行和降低发病以及死亡的前提。2003年发生传染性非典型肺炎(SARS)疫情后,就致力于加强传染病监测能力,并于2004年成功建立了基于互联网的NIDRIS。该***使得全国范围内的所有医疗卫生机构均可以通过互联网进行法定传染病的病例个案信息的实时上报,大大缩短了传染病报告的时限,使病例从诊断到报告的平均时间间隔不到1天。相对而言,成本较高,需要投入大量的人力和物力,并且时效性不高,很难时限疾病暴发的早期预警。
2、基于互联网数据的流行病预测***
基于互联网大数据进行疾病预测的先驱主要是美国谷歌公司,其方法是利用搜索引擎的搜索量数据对可能暴发的疾病进行预测,并推出了GFT。其后,相关研究还加入了社交网络的数据,与搜索引擎的数据相结合,提高了疾病预测的准确性和泛化能力。基于互联网大数据对流行病的暴发趋势进行预测,相较于传统的疾病预测方式,此方法具有成本较低廉、时效性高等特点。因为互联网数据的获取相比于传统方法,数据的获取简单高效,不需要大量的人力与财力的投入。另外,人们倾向于在前往医院之前,就在网上搜索与疾病相关的信息,这就使得互联网数据往往比医院更早地感知到可能的暴发,能够***疾病的暴发。
由于社交网络的数据往往以文本内容呈现,而搜索引擎的数据往往以数字形式呈现,所有现有的技术只能做到对社交网络数据进行清洗工作,缺乏对搜索数据的清洗的能力,数据的准确性不高。同时单单依靠互联网数据信息不够全面,需要增加信息的维度,提高预测的精度;并且现有的方案往往缺少有效及时的疾病暴发的预警信息推送机制,尤其是针对特定区域和特定人群的消息推送。
基于此,本发明实施例提供的流行病预测方法、***及设备,与传统的NIDRIS相比,成本更加低廉,实效性更强,并且可以更早地预测出可能的流行病暴发;与传统的基于互联网数据进行疾病预测***相比,数据来源不仅包含社交网络和搜索引擎等,还将天气数据、智能终端采集的用户数据结合起来,数据来源更加广泛,模型效果也更佳;在针对社交网络的文本数据进行清洗的基础上,还可以针对搜索数据进行清洗、包括利用地理坐标进行数据清洗;其中的预测模型采用组合预测的方式,预测性能更佳,预测精度更高;同时针对不同的流行病可以采用不同的预测模型,针对性更强。
以下对本发明的实施例进行详细说明。
实施例1
本发明实施例提供了一种流行病预测方法,参见图1所示的流行病预测方法的流程示意图,该方法包括如下步骤:
步骤S102,获取流行病相关数据。其中,相关数据包括互联网数据、天气数据和智能终端采集的生物信息数据。该互联网数据包括搜索数据和社交网络数据。该搜索数据包括搜索引擎的搜索量数据,包括但不限于百度、谷歌等;该社交网络数据,包括但不限于微博、微信等。
在收集互联网的相关数据时,使用的关键词主要包括与疾病相关的关键词、以及与疾病症状相关的关键词等。以流感为例,关键词可以包括:流感、感冒、流行性感冒、高烧、肌肉关节酸痛、乏力等。在收集互联网数据时可以采用现有的数据收集方式,例如利用互联网爬虫的方式进行抓取,也可以利用API(Application Programming Interface,应用程序编程接口)对相关数据进行获取,本实施例对此不作限定。
本实施例的方法还需要收集相关的天气数据,天气数据可以包括:天气状况(阴晴雨雪等)、风向风速、气温(最低最高温度等)、湿度等。此外,还需要通过智能终端采集用户的生物信息数据,例如通过用户佩戴诸如智能手环等移动智能终端,或者家庭、医疗机构中的各种检测设备,收集用户的生物信息数据,例如医学数据中的血压、心跳、体温等数据。
将上述数据结合起来进行预测,由于数据来源更加广泛,最终模型效果也更佳。
步骤S104,对相关数据进行数据清洗。
对于互联网数据的清洗,包括两个步骤:第一步包括对社交网络获得的文本数据的清洗以及对搜索引擎的搜索量数据进行清洗,去除非与流行病语义不相关的数据;第二步包括利用用户的定位信息,结合地理坐标对数据进行清洗操作。对于智能终端获取的生物信息数据,将结合医学常识确定数据范围阈值,对超出该数据范围的离群点进行去除操作。对相关数据进行数据清洗可以包括以下步骤:对社交网络数据进行语义分类,以对社交网络数据进行清洗;获取搜索数据对应浏览器的搜索历史,并过滤无效的搜索数据以对搜索数据进行清洗;根据互联网数据的地理坐标对互联网数据进行清洗;对生物信息数据中异常离群点进行去除操作。
例如,对社交网络数据进行清洗的主要原因是汉字词汇的二义性导致的,诸如“我今天感冒了”和“我对你不感冒”,前者是预测需要的文本数据,后者是不需要的,需要对后者进行识别并去除。可以采用训练分类模型的方式进行。
例如,对搜索引擎数据进行清洗工作,目的在于保留用户主动进行的搜索操作,而不是受到诱导感兴趣后进行的搜索操作。比如某用户感冒了,在百度上搜索感冒药的这个搜索行为是预测需要的,而某用户看到新闻报道某地暴发了流感,然后该用户去搜索流感的这个行为是不需要不关心的,需要对后者进行识别并去除。可以基于浏览器的浏览历史进行识别去除,当用户进行搜索的时候,确定最近一段时间内搜索历史网页内容中是否有当前用户搜索的关键词,如果有则记录频数,频数越高,权重越低,若使用n表示关键词出现的频数,则权重为e-n。比如最近一个小时内的浏览历史的全部网页中,出现当前搜索的关键词次数越多,本次数据赋予权重越低。
例如,结合地理信息对数据进行进一步的处理,当发现数据源的上传地址来自医学院等医学教育相关地点时,则需要对该地区的数据降低权重,进行去噪。
例如,对智能终端获取的数据进行清洗,目的是去除离群点,可以利用聚类算法、比如DBSCAN((Density-Based Spatial Clustering of Applications with Noise,基于密度的聚类算法)进行聚类,然后去除噪声点。
步骤S106,根据数据清洗后的相关数据建立组合预测模型。
建立组合预测模型的过程可以按照以下步骤执行:
(一)结合分布滞后非线性模型(DLNM)计算相关数据与医院数据的延迟天数。可以包括:将相关数据标记为x,其包含m维数据,记为x1、x2…xm;将x1、x2…xm与医院数据y进行斯皮尔曼等级相关系数分析,筛选出与医院数据呈显著相关的维度,记为数据xf,包含mf个维度;结合分布滞后非线性模型计算xf1、xf2...xfmf与医院数据y的延时关系,将xf各个维度对y影响最大时的延时天数记为n1、n2…nmf,并通过下式计算最终确定的延时天数
(二)根据延迟天数拟合相关数据与是医院数据,并建立包括多个预测基模型的预测基模型库。
(三)根据预设的模型组合方式从预测基模型库中选择多个预测基模型,以结合成组合预测模型。
步骤S108,根据组合预测模型进行预测,并输出预测结果。
依据上述预测模型获得预测结果后,可以分别建立定时与实时预警预测***。基于定时预警预测***,可以将预测结果按照预设的显示方式输出至可视化界面,以进行定时预警预测,为决策者和***用户提供更加精确的参考信息。基于实时预警预测***而得到的预测数据,将预测结果按照易感人群与不易感人群,分别进行预警消息实时推送,当该结果大于预先设定的阈值后,对相关的用户进行针对性的消息推送,例如发短信等。
本发明实施例提供的流行病预测方法,数据来源包括互联网数据、天气数据和智能终端采集的生物信息数据,数据来源更加广泛,预测效果更佳;通过对相关数据进行数据清洗并建立组合预测模型,预测性能更佳,预测精度更高;同时针对不同的流行病可以采用不同的预测模型,针对性更强;成本更加低廉,实效性更强,并且可以更早地预测出可能的流行病暴发。
对社交网络获得的文本数据的清洗,参见图2所示的一种对社交网络数据进行清洗的方法的流程示意图,包括以下步骤:
步骤S202,对社交网络数据中的文本数据进行分词。
步骤S204,进行TF-IDF加权矢量化。其中TF-IDF(term frequency–inversedocument frequency,词频-逆向文件频率)为一种用于信息检索与数据挖掘的加权技术。
步骤S206,训练分类模型,并进行数据清洗。具体步骤为建立一个已经人为进行分类后的训练文本数据库,并通过步骤S202和步骤S204后获得训练文本对应的TF-IDF矢量,利用这些分类后的矢量数据训练机器学习的相关模型,例如朴素贝叶斯,但不限于朴素贝叶斯算法。对于需要分类的文本,同样需要经过步骤S202和步骤S204后获得TF-IDF矢量,然后利用训练好后的分类模型对新的文本进行,以达到对数据进行清洗的目的。
步骤S208,计算数值并保存结果。在获取社交网络的相关文本数据,采用按天的方式进行获取,并利用步骤S206中的分类模型,对该天内的文本进行分类,并统计有效文本的数据,并作为最终数据进行保存。
对搜索引擎的搜索量数据的清洗,参见图3所示的一种对搜索数据进行清洗的方法的流程示意图,包括以下步骤:
步骤S302,收集用户的coockie,获取用户的浏览记录。其中浏览记录包括用户的历史网络信息。
步骤S304,对比分析用户搜索词与历史网页信息。
步骤S306,过滤搜索数据中无效的搜索记录。
以下对组合预测模型的建立进行详细介绍如下:
通过收集和清洗过后的大数据标记为x,其包含m维数据,记为x1、x2…xm,首先需要对数据进行筛选,将x1、x2…xm分别与医院数据y进行Spearman相关系数分析,筛选出与医院数据呈显著相关的维度,记为数据xf,包含mf个维度。
结合DLNM模型,计算出xf1、xf2...xfmf与医院数据y的延时关系,即当xf各个维度数据延迟多少天时对y的影响最大,并将xf各个维度对y影响最大时的延时天数记为n1、n2…nmf,并记:
为最终确定的大数据延时天数,即可以提前天感知到可能的流行病暴发。然后将xf延迟天后拟合医院数据,并建立j个预测基模型(base model)组成的预测基模型库,记这些基模型为Model1、Model2...Modelj,每个基模型的预测结果记为:
其中,为第mf个模型的预测值,t表示天数,表示延时天后的xf。
上述基模型包括但不限于线性回归、广义线性回归(如Poisson Regression)、回归与决策树、支持向量机、神经网络、随机森林、GBDT、Catboost等常见的机器学习与统计模型。
最后利用组合预测的方式对流行病的发病数据进行预测,模型组合方式包括但不限于模型选择器、stack-net等方式,将Model1、Model2...Modelj若干模型结合起来,提高模型预测的准确性与泛化能力。并且针对不同的流行病,可以建立不同的疾病预测模型。
基于模型选择器的组合预测,可以包括以下步骤:输入数据;模型选择器根据上述输入数据计算最优模型;从模型池中选择最优模型进行预测,并输出预测结果。
基于模型选择器的组合预测,可以参见图4所示的stack-net的实现示意图,通过次级预测模型在基模型池的预测结果的基础上再次预测,再输出给下一级的预测模型,形成一个组合预测网络,可以实现非线性的模型组合预测。
首先是定时预警预测***,主要实现的功能是以天为单位的预测数据可视化呈现功能。该可视化界面,包括地理信息与时间序列信息,可以查看指定区域的不同流行病发病预测趋势,可以参见图5所示的地理形式的流行病发病预测趋势示意图和图6所示的时间形式的流行病发病预测趋势示意图。
基于实时的疾病预测***,建立的功能主要是面向特定区域、特定人群的信息推送功能。结合用户的智能终端采集到的医学数据与这些用户的既往病史、健康状况,对用户标注为易感人群与不易感人群,采用分级消息推送的方式。
对于易感人群,当预测的发病人数达到以下阈值时进行消息预警推送:
其中,C易感为针对易感人群设置的阈值,incidence为以往数年的医院发病数据,为以往发病数据的均值,Sincidence为以往发病数据的标准差。
对于非易感人群,当预测的发病人数达到以下阈值时进行消息预警推送:
其中,C非易感为针对非易感人群设置的阈值。
本发明实施例提供的方法与传统的NIDRIS相比,成本更加低廉,实效性更强,并且可以比其更早地预测出可能地流行病地暴发。与传统的基于互联网数据进行疾病预测***相比,数据来源不仅包含社交网络和搜索引擎等,还将天气数据、智能终端采集的用户数据结合起来,数据来源更加广泛,模型效果也更佳。相比一般的互联网***,只针对社交网络的文本数据进行清洗不同,同时还可以针对搜索数据进行清洗,以及针对地理坐标的数据清洗。本发明实施例的预测模型采用组合预测的方式,性能更佳;同时针对不同的流行病采用不同的预测模型,针对性更强。本发明实施例采用分级的信息推送机制,可以更加个性化地为本***地用户发送预警,同时也减少了由于过于频繁发送信息带来的用户的厌恶情绪。
实施例2
本发明实施例提供了一种流行病预测***,参见图7所示的流行病预测***的结构示意图,包括:
数据获取模块71,用于获取流行病相关数据;相关数据包括:互联网数据、天气数据和智能终端采集的生物信息数据;互联网数据包括搜索数据和社交网络数据;
数据清洗模块72,用于对相关数据进行数据清洗;
预测模型建立模块73,用于根据数据清洗后的相关数据建立组合预测模型;
预测模块74,用于根据组合预测模型进行预测,并输出预测结果。
上述数据清洗模块72还用于:对社交网络数据进行语义分类,以对社交网络数据进行清洗;获取搜索数据对应浏览器的搜索历史,并过滤无效的搜索数据以对搜索数据进行清洗;根据互联网数据的地理坐标对互联网数据进行清洗;对生物信息数据中异常离群点进行去除操作。
上述预测模型建立模块73还用于:结合分布滞后非线性模型计算相关数据与医院数据的延迟天数;根据延迟天数拟合相关数据与是医院数据,并建立包括多个预测基模型的预测基模型库;根据预设的模型组合方式从预测基模型库中选择多个预测基模型,以结合成组合预测模型。
上述预测模型建立模块73还用于:将相关数据标记为x,其包含m维数据,记为x1、x2…xm;将x1、x2…xm与医院数据y进行斯皮尔曼等级相关系数分析,筛选出与医院数据呈显著相关的维度,记为数据xf,包含mf个维度;结合分布滞后非线性模型计算xf1、xf2...xfmf与医院数据y的延时关系,将xf各个维度对y影响最大时的延时天数记为n1、n2…nmf,并通过下式计算最终确定的延时天数
参见图8所示的流行病预测***的结构示意图,上述***还包括预警模块81,用于根据预测结果进行定时预警预测或实时预警预测。上述预警模块81还用于:将预测结果按照预设的显示方式输出至可视化界面,以进行定时预警预测;将预测结果按照易感人群与不易感人群,分别进行预警消息实时推送。
本发明实施例提供的流行病预测***,与上述实施例提供的流行病预测方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供了一种流行病预测设备,包括处理器和机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述第一方面及其各可能的实施方式之一提供的方法。
本发明实施方式还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述实施方式的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施方式上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施方式,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施方式对本公开进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施方式所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施方式技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种流行病预测方法,其特征在于,包括:
获取流行病相关数据;所述相关数据包括:互联网数据、天气数据和智能终端采集的生物信息数据;所述互联网数据包括搜索数据和社交网络数据;
对所述相关数据进行数据清洗;
根据数据清洗后的所述相关数据建立组合预测模型;
根据所述组合预测模型进行预测,并输出预测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述相关数据进行数据清洗的步骤,包括:
对所述社交网络数据进行语义分类,以对所述社交网络数据进行清洗;
获取所述搜索数据对应浏览器的搜索历史,并过滤无效的搜索数据以对所述搜索数据进行清洗。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述相关数据进行数据清洗的步骤,包括:
根据所述互联网数据的地理坐标对所述互联网数据进行清洗;和/或,
对所述生物信息数据中异常离群点进行去除操作。
4.根据权利要求1所述的方法,其特征在于,所述根据数据清洗后的所述相关数据建立组合预测模型的步骤,包括:
结合分布滞后非线性模型计算所述相关数据与医院数据的延迟天数;
根据所述延迟天数拟合所述相关数据与是医院数据,并建立包括多个预测基模型的预测基模型库;
根据预设的模型组合方式从所述预测基模型库中选择多个预测基模型,以结合成组合预测模型。
5.根据权利要求4所述的方法,其特征在于,所述结合分布滞后非线性模型计算所述相关数据与医院数据的延迟天数的步骤,包括:
将所述相关数据标记为x,其包含m维数据,记为x1、x2…xm
将x1、x2…xm与医院数据y进行斯皮尔曼等级相关系数分析,筛选出与所述医院数据呈显著相关的维度,记为数据xf,包含mf个维度;
结合分布滞后非线性模型计算xf1、xf2...xfmf与所述医院数据y的延时关系,将xf各个维度对y影响最大时的延时天数记为n1、n2…nmf,并通过下式计算最终确定的延时天数
6.根据权利要求1所述的方法,其特征在于,还包括:根据所述预测结果进行定时预警预测或实时预警预测。
7.根据权利要求6所述的方法,其特征在于,所述根据所述预测结果进行定时预警预测或实时预警预测的步骤,包括:
将所述预测结果按照预设的显示方式输出至可视化界面,以进行定时预警预测;
将所述预测结果按照易感人群与不易感人群,分别进行预警消息实时推送。
8.一种流行病预测***,其特征在于,包括:
数据获取模块,用于获取流行病相关数据;所述相关数据包括:互联网数据、天气数据和智能终端采集的生物信息数据;所述互联网数据包括搜索数据和社交网络数据;
数据清洗模块,用于对所述相关数据进行数据清洗;
预测模型建立模块,用于根据数据清洗后的所述相关数据建立组合预测模型;
预测模块,用于根据所述组合预测模型进行预测,并输出预测结果。
9.根据权利要求8所述的***,其特征在于,所述数据清洗模块还用于:
对所述社交网络数据进行语义分类,以对所述社交网络数据进行清洗;
获取所述搜索数据对应浏览器的搜索历史,并过滤无效的搜索数据以对所述搜索数据进行清洗;
根据所述互联网数据的地理坐标对所述互联网数据进行清洗;
对所述生物信息数据中异常离群点进行去除操作。
10.一种流行病预测设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述权利要求1至7任一项所述的方法。
CN201810184185.4A 2018-03-06 2018-03-06 流行病预测方法、***及设备 Pending CN108417274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810184185.4A CN108417274A (zh) 2018-03-06 2018-03-06 流行病预测方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810184185.4A CN108417274A (zh) 2018-03-06 2018-03-06 流行病预测方法、***及设备

Publications (1)

Publication Number Publication Date
CN108417274A true CN108417274A (zh) 2018-08-17

Family

ID=63130064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810184185.4A Pending CN108417274A (zh) 2018-03-06 2018-03-06 流行病预测方法、***及设备

Country Status (1)

Country Link
CN (1) CN108417274A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273082A (zh) * 2018-10-30 2019-01-25 北京雪扬科技有限公司 一种用于肿瘤检测的身体检测***
CN109346177A (zh) * 2018-09-10 2019-02-15 昆明理工大学 一种基于改进ga-bp算法的疾病症状数量预测方法
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
CN110321424A (zh) * 2019-06-14 2019-10-11 电子科技大学 一种基于深度学习的艾滋病人员行为分析方法
CN111081383A (zh) * 2020-01-20 2020-04-28 罗晖 一种基于云计算的流行病监控***
CN111415752A (zh) * 2020-03-01 2020-07-14 集美大学 一种融合气象因素和搜索指数的手足口病预测方法
WO2020215671A1 (zh) * 2019-08-19 2020-10-29 平安科技(深圳)有限公司 数据智能分析方法、装置、计算机设备及存储介质
CN111916218A (zh) * 2020-08-10 2020-11-10 重庆邮电大学 一种新型冠状病毒肺炎疫情多级预警方法及***
CN111933300A (zh) * 2020-09-28 2020-11-13 平安科技(深圳)有限公司 疫情防控效果预测方法、装置、服务器及存储介质
CN112185566A (zh) * 2020-10-14 2021-01-05 上海玺翎智能科技有限公司 一种基于机器学习预测预警感染性疾病就医人数突增的方法
CN112185586A (zh) * 2020-11-17 2021-01-05 北京嘉和海森健康科技有限公司 一种传染病监测预警方法及装置
CN112992375A (zh) * 2021-04-25 2021-06-18 南京汉卫公共卫生研究院有限公司 一种疾病的预警方法、预警装置、设备及介质
CN113744888A (zh) * 2021-09-02 2021-12-03 深圳万海思数字医疗有限公司 区域流行病趋势预测预警方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678080A (zh) * 2016-01-11 2016-06-15 浪潮集团有限公司 通过大数据搜寻分析预测流感爆发可能性的方法
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理***及方法
CN107180152A (zh) * 2016-03-09 2017-09-19 日本电气株式会社 疾病预测***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678080A (zh) * 2016-01-11 2016-06-15 浪潮集团有限公司 通过大数据搜寻分析预测流感爆发可能性的方法
CN107180152A (zh) * 2016-03-09 2017-09-19 日本电气株式会社 疾病预测***及方法
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
康燕等: "《2010-2014年广州市气象因子与流感发病关联的时间序列研究》", 《中国病毒病杂志》 *
王永斌等: "《变权组合模型在我国手足口病发病率预测中的应用》", 《中国卫生统计》 *
肖屹等: "《利用搜索引擎数据模拟疾病空间分布》", 《测绘通报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346177A (zh) * 2018-09-10 2019-02-15 昆明理工大学 一种基于改进ga-bp算法的疾病症状数量预测方法
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
CN109273082A (zh) * 2018-10-30 2019-01-25 北京雪扬科技有限公司 一种用于肿瘤检测的身体检测***
CN110321424B (zh) * 2019-06-14 2021-07-27 电子科技大学 一种基于深度学习的艾滋病人员行为分析方法
CN110321424A (zh) * 2019-06-14 2019-10-11 电子科技大学 一种基于深度学习的艾滋病人员行为分析方法
WO2020215671A1 (zh) * 2019-08-19 2020-10-29 平安科技(深圳)有限公司 数据智能分析方法、装置、计算机设备及存储介质
CN111081383A (zh) * 2020-01-20 2020-04-28 罗晖 一种基于云计算的流行病监控***
CN111415752A (zh) * 2020-03-01 2020-07-14 集美大学 一种融合气象因素和搜索指数的手足口病预测方法
CN111415752B (zh) * 2020-03-01 2023-05-12 集美大学 一种融合气象因素和搜索指数的手足口病预测方法
CN111916218A (zh) * 2020-08-10 2020-11-10 重庆邮电大学 一种新型冠状病毒肺炎疫情多级预警方法及***
CN111916218B (zh) * 2020-08-10 2022-07-22 重庆邮电大学 一种新型冠状病毒肺炎疫情多级预警方法及***
CN111933300A (zh) * 2020-09-28 2020-11-13 平安科技(深圳)有限公司 疫情防控效果预测方法、装置、服务器及存储介质
CN111933300B (zh) * 2020-09-28 2021-02-12 平安科技(深圳)有限公司 疫情防控效果预测方法、装置、服务器及存储介质
WO2021139336A1 (zh) * 2020-09-28 2021-07-15 平安科技(深圳)有限公司 疫情防控效果预测方法、装置、服务器及存储介质
CN112185566B (zh) * 2020-10-14 2021-08-13 上海玺翎智能科技有限公司 一种基于机器学习预测预警感染性疾病就医人数突增的方法
CN112185566A (zh) * 2020-10-14 2021-01-05 上海玺翎智能科技有限公司 一种基于机器学习预测预警感染性疾病就医人数突增的方法
CN112185586A (zh) * 2020-11-17 2021-01-05 北京嘉和海森健康科技有限公司 一种传染病监测预警方法及装置
CN112992375A (zh) * 2021-04-25 2021-06-18 南京汉卫公共卫生研究院有限公司 一种疾病的预警方法、预警装置、设备及介质
CN113744888A (zh) * 2021-09-02 2021-12-03 深圳万海思数字医疗有限公司 区域流行病趋势预测预警方法及***
CN113744888B (zh) * 2021-09-02 2023-09-22 深圳万海思数字医疗有限公司 区域流行病趋势预测预警方法及***

Similar Documents

Publication Publication Date Title
CN108417274A (zh) 流行病预测方法、***及设备
Siriyasatien et al. Dengue epidemics prediction: A survey of the state-of-the-art based on data science processes
Hassan Zadeh et al. Social media for nowcasting flu activity: spatio-temporal big data analysis
CN103297503B (zh) 基于分层次信息提取服务器的移动终端群智感知***
Fienberg et al. Statistical issues and challenges associated with rapid detection of bio‐terrorist attacks
Zhou et al. Real-time news cer tification system on sina weibo
Amato et al. Extreme events management using multimedia social networks
Noor et al. Analysis of public reactions to the novel Coronavirus (COVID-19) outbreak on Twitter
Abraham et al. Investigative profiling with computer forensic log data and association rules
US20060294220A1 (en) Diagnostics and resolution mining architecture
CN110349372B (zh) 居家养老人员活动异常预警方法和装置
Chan et al. Daily forecast of dengue fever incidents for urban villages in a city
Elzinga et al. Analyzing chat conversations of pedophiles with temporal relational semantic systems
Collier Towards cross-lingual alerting for bursty epidemic events
CN109347808A (zh) 一种基于用户群行为活动的安全分析方法
Cesare et al. How well can machine learning predict demographics of social media users?
Xiong et al. Establishment of epidemic early warning index system and optimization of infectious disease model: Analysis on monitoring data of public health emergencies
Ponisio Pyrodiversity promotes interaction complementarity and population resistance
Lima et al. Temporal and spatiotemporal arboviruses forecasting by machine learning: a systematic review
Arslan et al. Artificial Intelligence and Telehealth may provide early warning of epidemics
Liu et al. Enhancing fine-grained intra-urban dengue forecasting by integrating spatial interactions of human movements between urban regions
Adje et al. Smart City Based on Open Data: A Survey
Müngen et al. A novel method for event recommendation in meetup
Robinson et al. Novel techniques for mapping infectious diseases using point of care diagnostic sensors
Chimphlee et al. A rough-fuzzy hybrid algorithm for computer intrusion detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180817

RJ01 Rejection of invention patent application after publication