CN109545386A - 一种基于深度学习的流感时空预测方法及装置 - Google Patents

一种基于深度学习的流感时空预测方法及装置 Download PDF

Info

Publication number
CN109545386A
CN109545386A CN201811300983.5A CN201811300983A CN109545386A CN 109545386 A CN109545386 A CN 109545386A CN 201811300983 A CN201811300983 A CN 201811300983A CN 109545386 A CN109545386 A CN 109545386A
Authority
CN
China
Prior art keywords
influenza
convolutional neural
neural networks
data
networks model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811300983.5A
Other languages
English (en)
Other versions
CN109545386B (zh
Inventor
奚桂锴
尹凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201811300983.5A priority Critical patent/CN109545386B/zh
Publication of CN109545386A publication Critical patent/CN109545386A/zh
Application granted granted Critical
Publication of CN109545386B publication Critical patent/CN109545386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及时空数据挖掘领域和深度学习领域,具体涉及一种基于深度学习的流感时空预测方法及装置,该方法及装置先收集区域内门诊流感样病例数据;根据收集到的区域内门诊流感样病例数据构建流感时空特征矩阵;根据流感时空特征矩阵生成数据集;构建卷积神经网络模型;使用生成的数据集对构建的卷积神经网络模型进行训练,得到卷积神经网络模型的参数信息;利用训练后的卷积神经网络模型对当前输入的门诊流感样病例数据进行预测。该方法及装置从时间和空间两个维度挖掘流感的时空特征,有效地提高流感的预测性能。本发明利用卷积神经网络的优越性能,提取该区域下各子区域流感之间的空间相关性和时间相关性,并用于各子区域未来流感趋势的预测。

Description

一种基于深度学习的流感时空预测方法及装置
技术领域
本发明涉及时空数据挖掘领域和深度学习领域,具体而言,涉及一种基于深度学习的流感时空预测方法及装置。
背景技术
流感具有传染性和流行性,是影响人类健康的重要因素之一。在过去的10年里,季节性流感所引发的呼吸道疾病直接导致了全球范围内65万人死亡。因此,高效的流感早期预测方法对于分析流感的流行性趋势以及保护公众健康至关重要。
目前,大部分地区均已建立了相对完善的流感病毒学监测***和流感门诊病例监测***。尽管流感病毒学监测***可以帮助我们获取确切的流感确诊病例以分析流感趋势,但流感病毒学的监测需耗费较长的时间。这直接导致了流感病毒学监测***发布的数据具有数周甚至数月的时间滞后,并不利于流感趋势的及时预测。现有研究大多关注于流感门诊病例监测***发布的数据,利用门诊的流感样病例百分比历史数据来预测流感未来的流行性趋势。虽然流感门诊病例监测***发布的数据也具有一到两周的时间滞后,现有研究则是通过利用其他实时数据来帮助修正流感预测的滞后性。
在现有的研究中,大多数是以预测单个地区的流感流行性趋势作为研究目标。这些研究的基本思想是利用该地区流感样病例百分比的历史数据,同时结合该地区的其他实时数据,如搜索数据、气象数据等,通过构建一个回归模型或者人工神经网络模型,实现对该地区未来一周流感样病例百分比的预测,从而用于分析未来一周流感的流行性趋势。当面对多个地区的流感预测问题时,现有研究也是将各个地区进行独立研究和建模预测,通过单独预测各个地区的流感流行性趋势,从而实现对多个地区流感趋势的预测。
现有技术主要是针对于在一个粗粒度的空间尺度上预测流感趋势,如国家、省、城市或者地区。但是,在这种粗粒度的空间尺度上预测流感趋势很难用于细粒度空间尺度下的流感流行性分析和干预,如城市内部的流感趋势分析和干预。在细粒度的空间尺度上,由于法律法规等种种限制,往往也无法获取对应该细粒度空间尺度的其他实时数据,如搜索数据和社交媒体数据等。此时,利用细粒度空间尺度对应的其他实时网络数据来修正流感预测就变得不可能,及时的流感预测也因此变得十分困难。在针对一个区域内多个子区域的流感预测问题时,现有技术大多是将各个子区域分别当成一个独立的子区域进行研究,因此同样存在上述问题。
发明内容
本发明实施例提供了一种基于深度学习的流感时空预测方法及装置,利用流感的时空特征,能够有效改善不同空间尺度的流感趋势预测效果,还能同时实现对多个子区域的流感趋势预测。
根据本发明的实施例,提供了一种基于深度学习的流感时空预测方法,包括以下步骤:
收集区域内门诊流感样病例数据;
根据收集到的区域内门诊流感样病例数据构建流感时空特征矩阵;
根据流感时空特征矩阵生成数据集;
构建卷积神经网络模型;
使用生成的数据集对构建的卷积神经网络模型进行训练,得到卷积神经网络模型的参数信息;
利用训练后的卷积神经网络模型对当前输入的门诊流感样病例数据进行预测。
进一步地,方法还包括:
评估训练后卷积神经网络模型的预测性能。
进一步地,收集区域内门诊流感样病例数据包括:
将区域A按照地理边界或经纬度范围划分为多个子区域Aij,其中i、j均为大于等于1的整数,收集区域A中各个子区域Aij内对应的各医院和社康中心的门诊流感样病例数据。
进一步地,根据收集到的区域内门诊流感样病例数据构建流感时空特征矩阵包括:
根据各个子区域Aij内各医院和社康中心的门诊流感样病例数据计算得出各个子区域Aij内门诊流感样病例百分比数据的时间序列:
其中为第t-k周时子区域Aij的门诊流感样病例百分比,为子区域Aij截止至第t-k周、过去共s周的门诊流感样病例百分比数据的时间序列,k为1或2;
由区域A中各个子区域Aij的门诊流感样病例百分比数据的时间序列构成一个三维的时空特征矩阵
进一步地,流感时空特征矩阵生成数据集包括:
在时间维度上滑动窗口,根据流感时空特征矩阵生成多个(X,Y)数据集,其中对于第m个样本,有
进一步地,卷积神经网络模型包括卷积层部分和可选的池化层,卷积层部分包括依次设置的第一卷积层、多个残差单元、第二卷积层;卷积神经网络模型对由多个残差单元输出的数据使用线性整流函数relu进行处理,对由第二卷积层输出的数据使用双曲正切函数tanh进行处理。
进一步地,使用生成的数据集对构建的卷积神经网络模型进行训练,得到卷积神经网络模型的参数信息包括:
将(X,Y)数据集进行归一化并进行打乱,并按照预先设置的比例对(X,Y)数据集进行划分,划分为训练集和验证集,利用当前得到的训练集对构建的卷积神经网络模型进行训练,再通过验证集对构建的卷积神经网络模型进行验证,经训练得到卷积神经网络模型的最佳参数。
进一步地,评估训练后卷积神经网络模型的预测性能包括:
将(X,Y)验证集中的X输入至卷积神经网络模型,再将输出进行反归一化,得到模型预测的Y,将(X,Y)验证集中真实的Y和模型预测得到的Y计算平均绝对百分比误差MAPE和平均绝对误差MAE,通过平均绝对百分比误差MAPE和平均绝对误差MAE评估卷积神经网络模型预测结果的准确性,其中:
平均绝对百分比误差的公式为:
平均绝对误差的公式为:
Yi代表样本对应的真实值,代表样本对应的预测值,n代表样本的数量。
根据本发明的另一实施例,提供了一种基于深度学习的流感时空预测装置,包括:
数据收集单元,用于收集区域内门诊流感样病例数据;
时空特征矩阵生成单元,用于根据收集到的区域内门诊流感样病例数据构建流感时空特征矩阵;
数据集生成单元,用于根据流感时空特征矩阵生成数据集;
模型构建单元,用于构建卷积神经网络模型;
模型训练单元,用于使用生成的数据集对构建的卷积神经网络模型进行训练,得到卷积神经网络模型的参数信息;
模型预测单元,用于利用训练后的卷积神经网络模型对当前输入的门诊流感样病例数据进行预测。
进一步地,装置还包括:
模型评估单元,用于评估训练后卷积神经网络模型的预测性能。
本发明实施例中的基于深度学习的流感时空预测方法及装置,针对上述技术方法存在的不足,本发明在预测各子区域未来的流感趋势时,不再将各子区域当成一个独立的子区域进行分析和预测。相反,本发明在预测区域内各子区域未来的流感趋势时,不仅在时间维度上利用了各子区域过去一段时间内的流感样病例百分比数据,同时还在空间维度上引入了附近的子区域过去一段时间内的流感样病例百分比数据,从时间和空间两个维度挖掘流感的时空特征,有效地提高流感的预测性能。本发明还利用了基于深度学习的技术,利用卷积神经网络的优越性能,提取该区域内各子区域流感趋势之间的空间相关性和时间相关性,并用于各子区域未来流感趋势的预测。本发明不仅能够用于粗粒度的流感预测,还能用于细粒度如城市内部的流感预测,能够有效地利用流感的空间相关性来改善流感的预测性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于深度学习的流感时空预测方法的流程图;
图2为本发明基于深度学习的流感时空预测方法的优选流程图;
图3为本发明中区域A的示意图;
图4为本发明中数据集的生成示意图;
图5为本发明中卷积神经网络模型的示意图;
图6为本发明基于深度学习的流感时空预测装置的模块图;
图7为本发明基于深度学习的流感时空预测装置的优选模块图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明一实施例,提供了一种基于深度学习的流感时空预测方法,其流程如图1所示,以细粒度预测为例,包括:
步骤1:收集区域内门诊流感样病例数据;
步骤2:根据收集到的区域内门诊流感样病例数据构建流感时空特征矩阵;
步骤3:根据流感时空特征矩阵生成数据集;
步骤4:构建卷积神经网络模型;
步骤5:使用生成的数据集对构建的卷积神经网络模型进行训练,得到卷积神经网络模型的参数信息;
步骤7:利用训练后的卷积神经网络模型对当前输入的门诊流感样病例数据进行预测。
本发明实施例中的基于深度学习的流感时空预测方法,在预测各子区域未来的流感趋势时,不再将各子区域当成一个独立的子区域进行分析和预测。相反,本发明在预测区域内各子区域未来的流感趋势时,不仅在时间维度上利用了各子区域过去一段时间内的流感样病例百分比数据,同时还在空间维度上引入了附近的子区域过去一段时间内的流感样病例百分比数据,从时间和空间两个维度挖掘流感的时空特征,有效地提高流感的预测性能。本发明还利用了基于深度学习的技术,利用卷积神经网络的优越性能,提取该区域下各子区域流感之间的空间相关性和时间相关性,并用于各子区域未来流感趋势的预测。本发明不仅能够用于粗粒度的流感预测,还能用于细粒度如城市内部的流感预测,能够有效地利用流感的空间相关性来改善流感的预测性能。
作为优选的技术方案中,参见图2,方法还包括:
步骤6:评估训练后卷积神经网络模型的预测性能。以此来对训练后卷积神经网络模型的预测结果进行评估。
作为优选的技术方案中,收集区域内门诊流感样病例数据包括:
将区域A按照地理边界或经纬度范围划分为多个子区域Aij,其中i、j均为大于等于1的整数,收集区域A中各个子区域Aij内各医院和社康中心的门诊流感样病例数据。
具体的,步骤1:收集区域内各医院和社康中心的门诊流感样病例数据。如图3所示,假设有区域A,包含多个子区域Aij,其中i、j均为大于等于1的整数。假设所指的区域A是一座城市,那么对应的子区域Aij既可以是按照边界划分的地理区划,如行政区或街区等,又可以是按经纬度范围划分的地理单元。根据区域A中所有医院和社康中心对应的经纬度信息或区划信息,可以分别得到位于各子区域医院和社康中心关于流感样病例的数据。
作为优选的技术方案中,根据收集到的区域内门诊流感样病例数据构建流感时空特征矩阵包括:
根据各个子区域Aij内各医院和社康中心的门诊流感样病例数据计算得出各个子区域Aij内门诊流感样病例百分比数据的时间序列:
其中为第t-k周时子区域Aij的门诊流感样病例百分比,为子区域Aij截止至第t-k周、过去共s周的门诊流感样病例百分比数据的时间序列,由于疾病防控部门发布的数据一般具有一到两周的时间滞后,假设当前是第t周,k一般为1或2,优选为2;
由区域A中各个子区域Aij的门诊流感样病例百分比数据的时间序列构成一个三维的时空特征矩阵
其中为具体的,步骤2:流感时空特征矩阵的构建。对于每一个子区域Aij,均可以得到该子区域内所有医院和社康中心统计的关于流感样病例百分比数据的时间序列。由于疾病防控部门发布的数据一般具有一到两周的时间滞后,因此对于第t周来说,最及时的数据来自于第t-2周及其之前。
对于子区域Aij,该区域关于流感样病例百分比数据的时间序列可表示为其中指的是第t-2周时子区域Aij的流感样病例百分比,则代表子区域Aij截止至第t-2周、过去共s周的流感样病例百分比数据组成的时间序列。由区域A中所有子区域关于流感样病例百分比数据所组成的时间序列可构成一个三维的时空特征矩阵如图3所示。同时,假设第t-2周该区域A所有子区域流感样病例百分比数据所组成的二维空间矩阵可表示为则该三维时空特征矩阵亦可理解为截止至第t-2周过去s周的二维空间矩阵所组成的时间序列,可表示为
作为优选的技术方案中,流感时空特征矩阵生成数据集包括:
在时间维度上滑动窗口,根据流感时空特征矩阵生成多个(X,Y)数据集,其中对于第m个样本,有
具体的,步骤3:采用窗口的方式滑动生成数据集。具体的,如图4所示,可在时间维度上滑动窗口,生成足够的(X,Y)数据集。对于第m个样本,有
作为优选的技术方案中,卷积神经网络模型包括卷积层部分和可选的池化层,卷积层部分包括依次设置的第一卷积层C1、多个残差单元、第二卷积层C2;卷积神经网络模型对由多个残差单元输出的数据使用线性整流函数relu进行处理,对由第二卷积层输出的数据使用双曲正切函数tanh进行处理。
具体的,步骤4:构建卷积神经网络模型。卷积神经网络模型可包含卷积层和可选的池化层。其中,卷积层主要用于非线性的时空特征学习,用于学习区域内流感的时空依赖,池化层则主要用于下采样,减少模型的过拟合。在不同的卷积神经网络模型结构中,两者的组合方式和数量并不相同,本发明在一定的实践基础上构建了如图5的模型结构,但本发明的模型结构不应仅限于此。其中,卷积神经网络模型由L个残差单元堆叠,残差单元的个数L应根据实际问题的预测难度决定,可通过步骤5的模型训练结果进行调整。另外,该卷积神经网络模型还使用了线性整流函数relu和双曲正切函数tanh。
作为优选的技术方案中,使用生成的数据集对构建的卷积神经网络模型进行训练,得到卷积神经网络模型的参数信息包括:
将(X,Y)数据集进行归一化并进行打乱,并按照预先设置的比例对(X,Y)数据集进行划分,划分为训练集和验证集,利用当前得到的训练集对构建的卷积神经网络模型进行训练,再通过验证集对构建的卷积神经网络模型进行验证,经训练得到卷积神经网络模型的最佳参数。
具体的,步骤5:训练卷积神经网络模型。利用该(X,Y)数据集对该卷积神经网络模型进行训练。具体的,首先将(X,Y)数据集进行归一化并进行打乱,并按照预先设置的比例对该(X,Y)数据集进行划分,可划分为训练集和验证集。期间,利用当前得到的训练集对构建的卷积神经网络模型进行训练,再通过验证集对卷积神经网络模型进行验证,经训练可得到卷积神经网络模型的最佳参数。
作为优选的技术方案中,评估训练后卷积神经网络模型的预测性能包括:
将(X,Y)验证集中的X输入至卷积神经网络模型,再将输出进行反归一化,得到模型预测的Y,将(X,Y)验证集中真实的Y和模型预测得到的Y计算平均绝对百分比误差MAPE和平均绝对误差MAE,通过平均绝对百分比误差MAPE和平均绝对误差MAE评估卷积神经网络模型预测结果的准确性,其中:
平均绝对百分比误差的公式为:
平均绝对误差的公式为:
Yi代表样本对应的真实值,代表样本对应的预测值,n代表样本的数量。
具体的,步骤6:
将(X,Y)验证集中的X输入至卷积神经网络模型,再将输出进行反归一化,得到模型预测的Y,将(X,Y)验证集中真实的Y和模型预测得到的Y计算平均绝对百分比误差MAPE和平均绝对误差MAE。
评估该卷积神经网络模型的预测性能,具体的,将(X,Y)验证集中的X输入至卷积神经网络模型,再将输出进行反归一化,得到模型预测的Y,根据(X,Y)验证集中真实的Y和模型预测得到的Y获取平均绝对百分比误差(MAPE)和平均绝对误差(MAE),通过这两个指标评估其预测结果的准确性,该评估指标包括平均绝对百分比误差(MAPE)和平均绝对误差(MAE)。
具体的,该平均绝对百分比误差的公式为:
具体的,该平均绝对误差的公式为:
其中,Yi代表该样本对应的真实值,代表该样本对应的预测值,n则代表样本的数量。
步骤7:利用该卷积神经网络模型进行预测。根据当前时间点获取对应的X,将当前的X归一化后输入到经过已训练的卷积神经网络模型中,再反归一化便可得到预测结果。
实施例2
根据本发明的另一实施例,提供了一种基于深度学习的流感时空预测装置,包括:
数据收集单元10,用于收集区域内门诊流感样病例数据;
时空特征矩阵生成单元20,用于根据收集到的区域内门诊流感样病例数据构建流感时空特征矩阵;
数据集生成单元30,用于根据流感时空特征矩阵生成数据集;
模型构建单元40,用于构建卷积神经网络模型;
模型训练单元50,用于使用生成的数据集对构建的卷积神经网络模型进行训练,得到卷积神经网络模型的参数信息;
模型预测单元70,用于利用训练后的卷积神经网络模型对当前输入的门诊流感样病例数据进行预测。
具体的,如图6,本发明的一种基于深度学习的流感时空预测装置,以细粒度预测为例,其结构包含:
数据收集单元10:收集区域内各医院和社康中心的门诊流感样病例数据。如图3所示,假设有区域A,包含多个子区域Aij,其中i、j均为大于等于1的整数。假设所指的区域A是一座城市,那么对应的子区域Aij既可以是按照边界划分的地理区划,如行政区或街区等,又可以是按经纬度范围划分的地理单元。根据区域A中所有医院和社康中心对应的经纬度信息或区划信息,可以分别得到位于各子区域医院和社康中心关于流感样病例的数据。
时空特征矩阵生成单元20:构建流感时空特征矩阵,对于每一个子区域Aij,均可以得到该子区域内所有医院和社康中心统计的关于流感样病例百分比数据的时间序列。由于疾病防控部门发布的数据一般具有一到两周的时间滞后,因此对于第t周来说,最及时的数据来自于第t-2周及其之前。
对于子区域Aij,该区域关于流感样病例百分比数据的时间序列可表示为其中指的是第t-2周时子区域Aij的流感样病例百分比,则代表子区域Aij截止至第t-2周、过去共s周的流感样病例百分比数据组成的时间序列。由区域A中所有子区域关于流感样病例百分比数据所组成的时间序列可构成一个三维的时空特征矩阵如图3所示。同时,假设第t-2周该区域A所有子区域流感样病例百分比数据所组成的二维空间矩阵可表示为则该三维时空特征矩阵亦可理解为截止至第t-2周过去s周的二维空间矩阵所组成的时间序列,可表示为
数据集生成单元30:采用窗口的方式滑动生成数据集。具体的,如图4所示,可在时间维度上滑动窗口,生成足够的(X,Y)数据集。对于第m个样本,有
模型构建单元40:构建卷积神经网络模型。卷积神经网络模型可包含卷积层和可选的池化层。其中,卷积层主要用于非线性的时空特征学习,用于学习区域内流感的时空依赖,池化层则主要用于下采样,减少模型的过拟合。在不同的卷积神经网络模型结构中,两者的组合方式和数量并不相同,本发明在一定的实践基础上构建了如图5的模型结构,但本发明的模型结构不应仅限于此。其中,卷积神经网络模型由L个残差单元堆叠,残差单元的个数L应根据实际问题的预测难度决定,可通过步骤5的模型训练结果进行调整。另外,该卷积神经网络还使用了线性整流函数relu和双曲正切函数tanh。
模型训练单元50:训练卷积神经网络模型。利用该(X,Y)数据集对该卷积神经网络模型进行训练。具体的,首先将(X,Y)数据集进行归一化并进行打乱,并按照预先设置的比例对该(X,Y)数据集进行划分,可划分为训练集和验证集。期间,利用当前得到的训练集对构建的卷积神经网络模型进行训练,再通过验证集对卷积神经网络模型进行验证,经训练可得到模型的最佳参数。
模型预测单元70:利用该卷积神经网络模型进行预测。根据当前时间点获取对应的X,将当前的X归一化后输入到经过已训练的卷积神经网络模型中,再反归一化便可得到预测结果。
作为优选的技术方案中,参见图7,装置还包括:模型评估单元60,用于评估训练后卷积神经网络模型的预测性能。
具体的,模型评估单元60:评估该卷积神经网络模型的预测性能,具体的,先将(X,Y)验证集中的X输入至卷积神经网络模型,再将输出进行反归一化,得到模型预测的Y,将(X,Y)验证集中真实的Y和模型预测得到的Y计算平均绝对百分比误差MAPE和平均绝对误差MAE,通过这两个指标评估其预测结果的准确性,该评估指标包括平均绝对百分比误差(MAPE)和平均绝对误差(MAE)。
具体的,该平均绝对百分比误差的公式为:
具体的,该平均绝对误差的公式为:
其中,Yi代表该样本对应的真实值,代表该样本对应的预测值,n则代表样本的数量。
本发明不仅从时间维度提取流感的特征,还从空间维度提取不同子区域之间的流感特征,在预测区域内每个子区域未来的流感趋势时,融合了流感的时空特征,有效地改善了流感的预测性能。本发明利用深度学习提取深度非线性特征的优越性,通过卷积神经网络来提取流感时空特征,以对输入数据做出对应的预测。
本发明的有益效果至少包括如下:
1.区别于只利用流感的时间维度特征,本发明挖掘了区域内不同子区域流感的时空特征,增加了流感预测的先验知识,不仅能够改善流感的细粒度预测,也能改善流感的粗粒度预测。
2.本发明利用了深度学习对于提取深度非线性特征的优越性,有效地改善流感的预测性能,提高了流感预测的准确性。
经过实验,本发明的可行性较高。在以深圳10个行政区为例的实验中,本发明所提出的方法以及装置在预测2016/9/1-2017/8/30期间的流感趋势时,能够在总体上改善流感的预测性能。具体见下表。
表1不同方法在深圳市10个区流感预测性能的比较(MAE)
表2不同方法在深圳市10个区流感预测性能的比较(MAPE)
其中,LR指的是线性回归(linear regression),ANN指的是人工神经网络(artificial neural network),LSTM指的是长短时记忆神经网络(long short-termmemory),ST-LSTM指的是时空(spatial-temporal)的LSTM,ST-CNN指的是时空的卷积神经网络(convolutional neural network,CNN)。其中,LR和ANN是现有技术,曾被用于流感趋势预测,另外的LSTM和ST-LSTM目前暂未被公开用于流感趋势的预测,是本发明在实践过程中所做的一些尝试。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的***实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于深度学习的流感时空预测方法,其特征在于,包括以下步骤:
收集区域内门诊流感样病例数据;
根据收集到的区域内所述门诊流感样病例数据构建流感时空特征矩阵;
根据所述流感时空特征矩阵生成数据集;
构建卷积神经网络模型;
使用生成的所述数据集对构建的所述卷积神经网络模型进行训练,得到所述卷积神经网络模型的参数信息;
利用训练后的所述卷积神经网络模型对当前输入的门诊流感样病例数据进行预测。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
评估训练后所述卷积神经网络模型的预测性能。
3.根据权利要求2所述的方法,其特征在于,所述收集区域内门诊流感样病例数据包括:
将区域A按照地理边界或按照经纬度范围划分为多个子区域Aij,其中i、j均为大于等于1的整数,收集区域A中各个子区域Aij对应的各医院和社康中心的门诊流感样病例数据。
4.根据权利要求3所述的方法,其特征在于,所述根据收集到的区域内所述门诊流感样病例数据构建流感时空特征矩阵包括:
根据各个子区域Aij内各医院和社康中心的门诊流感样病例数据计算得出各个子区域Aij内门诊流感样病例百分比数据的时间序列:
其中为第t-k周时子区域Aij的门诊流感样病例百分比,为子区域Aij截止至第t-k周、过去共s周的门诊流感样病例百分比数据的时间序列,k为1或2;
由区域A中各个子区域Aij的门诊流感样病例百分比数据的时间序列构成一个三维的时空特征矩阵
5.根据权利要求4所述的方法,其特征在于,所述流感时空特征矩阵生成数据集包括:
在时间维度上滑动窗口,根据所述流感时空特征矩阵生成多个(X,Y)数据集,其中对于第m个样本,有
6.根据权利要求5所述的方法,其特征在于,所述卷积神经网络模型包括卷积层部分和可选的池化层,所述卷积层部分包括依次设置的第一卷积层、多个残差单元、第二卷积层;所述卷积神经网络模型对由多个所述残差单元输出的数据使用线性整流函数relu进行处理,对由第二卷积层输出的数据使用双曲正切函数tanh进行处理。
7.根据权利要求6所述的方法,其特征在于,所述使用生成的所述数据集对构建的所述卷积神经网络模型进行训练,得到所述卷积神经网络模型的参数信息包括:
将(X,Y)数据集进行归一化并进行打乱,并按照预先设置的比例对(X,Y)数据集进行划分,划分为训练集和验证集,利用当前得到的训练集对构建的所述卷积神经网络模型进行训练,再通过验证集对构建的所述卷积神经网络模型进行验证,经训练得到所述卷积神经网络模型的最佳参数。
8.根据权利要求7所述的方法,其特征在于,所述评估训练后所述卷积神经网络模型的预测性能包括:
将(X,Y)验证集中的X输入至所述卷积神经网络模型,再将输出进行反归一化,得到模型预测的Y,将(X,Y)验证集中真实的Y和模型预测得到的Y计算平均绝对百分比误差MAPE和平均绝对误差MAE,,通过平均绝对百分比误差MAPE和平均绝对误差MAE评估所述卷积神经网络模型预测结果的准确性,其中:
平均绝对百分比误差的公式为:
平均绝对误差的公式为:
Yi代表样本对应的真实值,代表样本对应的预测值,n代表样本的数量。
9.一种基于深度学习的流感时空预测装置,其特征在于,包括:
数据收集单元,用于收集区域内门诊流感样病例数据;
时空特征矩阵生成单元,用于根据收集到的区域内所述门诊流感样病例数据构建流感时空特征矩阵;
数据集生成单元,用于根据所述流感时空特征矩阵生成数据集;
模型构建单元,用于构建卷积神经网络模型;
模型训练单元,用于使用生成的所述数据集对构建的所述卷积神经网络模型进行训练,得到所述卷积神经网络模型的参数信息;
模型预测单元,用于利用训练后的所述卷积神经网络模型对当前输入的门诊流感样病例数据进行预测。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
模型评估单元,用于评估训练后所述卷积神经网络模型的预测性能。
CN201811300983.5A 2018-11-02 2018-11-02 一种基于深度学习的流感时空预测方法及装置 Active CN109545386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811300983.5A CN109545386B (zh) 2018-11-02 2018-11-02 一种基于深度学习的流感时空预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811300983.5A CN109545386B (zh) 2018-11-02 2018-11-02 一种基于深度学习的流感时空预测方法及装置

Publications (2)

Publication Number Publication Date
CN109545386A true CN109545386A (zh) 2019-03-29
CN109545386B CN109545386B (zh) 2021-07-20

Family

ID=65846413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811300983.5A Active CN109545386B (zh) 2018-11-02 2018-11-02 一种基于深度学习的流感时空预测方法及装置

Country Status (1)

Country Link
CN (1) CN109545386B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测***及预测方法
CN110288140A (zh) * 2019-06-14 2019-09-27 西北大学 一种基于地理相关性模型的阿片类药物空间传播预测方法
CN110610767A (zh) * 2019-08-01 2019-12-24 平安科技(深圳)有限公司 发病率监测方法、装置、设备及存储介质
CN111554408A (zh) * 2020-04-27 2020-08-18 中国科学院深圳先进技术研究院 城市内部登革热时空预测方法、***及电子设备
CN111695048A (zh) * 2020-05-09 2020-09-22 珠海中科先进技术研究院有限公司 疫情溯源方法及介质
CN111968755A (zh) * 2020-08-21 2020-11-20 上海海洋大学 一种基于lstm深度学习网络模型的疫情预测模型
CN113436751A (zh) * 2021-06-29 2021-09-24 山东健康医疗大数据有限公司 一种周ili占比趋势预测***及方法
CN113539509A (zh) * 2020-04-21 2021-10-22 香港理工大学深圳研究院 新发传染病发病风险预测方法、装置、终端设备及介质
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
CN114049966A (zh) * 2022-01-12 2022-02-15 中国科学院计算机网络信息中心 一种基于链接预测的食源性疾病暴发识别方法和***
CN116110588A (zh) * 2022-05-10 2023-05-12 北京理工大学 基于动态邻接矩阵和时空注意力的医学时间序列预测方法
CN116485041A (zh) * 2023-06-14 2023-07-25 天津生联智慧科技发展有限公司 一种燃气数据的异常检测方法及装置
CN117059102A (zh) * 2023-10-12 2023-11-14 广州市零脉信息科技有限公司 一种智能儿童玩具对话***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及***
CN107133901A (zh) * 2017-05-05 2017-09-05 中国科学院深圳先进技术研究院 一种传染病防控方法及***
CN107871538A (zh) * 2016-12-19 2018-04-03 平安科技(深圳)有限公司 基于宏观因子的大数据预测方法及***
CN108288502A (zh) * 2018-04-11 2018-07-17 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
CN108648829A (zh) * 2018-04-11 2018-10-12 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及***
CN107871538A (zh) * 2016-12-19 2018-04-03 平安科技(深圳)有限公司 基于宏观因子的大数据预测方法及***
CN107133901A (zh) * 2017-05-05 2017-09-05 中国科学院深圳先进技术研究院 一种传染病防控方法及***
CN108288502A (zh) * 2018-04-11 2018-07-17 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
CN108648829A (zh) * 2018-04-11 2018-10-12 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄达沧: "基于搜索引擎数据的手足口病监测", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测***及预测方法
CN110288140A (zh) * 2019-06-14 2019-09-27 西北大学 一种基于地理相关性模型的阿片类药物空间传播预测方法
CN110288140B (zh) * 2019-06-14 2023-04-07 西北大学 一种基于地理相关性模型的阿片类药物空间传播预测方法
CN110610767A (zh) * 2019-08-01 2019-12-24 平安科技(深圳)有限公司 发病率监测方法、装置、设备及存储介质
WO2021017733A1 (zh) * 2019-08-01 2021-02-04 平安科技(深圳)有限公司 发病率监测方法、装置、设备存储介质
CN113539509A (zh) * 2020-04-21 2021-10-22 香港理工大学深圳研究院 新发传染病发病风险预测方法、装置、终端设备及介质
CN113539509B (zh) * 2020-04-21 2022-06-07 香港理工大学深圳研究院 新发传染病发病风险预测方法、装置、终端设备及介质
CN111554408A (zh) * 2020-04-27 2020-08-18 中国科学院深圳先进技术研究院 城市内部登革热时空预测方法、***及电子设备
CN111554408B (zh) * 2020-04-27 2024-04-19 中国科学院深圳先进技术研究院 城市内部登革热时空预测方法、***及电子设备
CN111695048A (zh) * 2020-05-09 2020-09-22 珠海中科先进技术研究院有限公司 疫情溯源方法及介质
CN111695048B (zh) * 2020-05-09 2023-06-02 珠海中科先进技术研究院有限公司 疫情溯源方法及介质
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
CN111968755A (zh) * 2020-08-21 2020-11-20 上海海洋大学 一种基于lstm深度学习网络模型的疫情预测模型
CN113436751A (zh) * 2021-06-29 2021-09-24 山东健康医疗大数据有限公司 一种周ili占比趋势预测***及方法
CN114049966A (zh) * 2022-01-12 2022-02-15 中国科学院计算机网络信息中心 一种基于链接预测的食源性疾病暴发识别方法和***
CN116110588A (zh) * 2022-05-10 2023-05-12 北京理工大学 基于动态邻接矩阵和时空注意力的医学时间序列预测方法
CN116110588B (zh) * 2022-05-10 2024-04-26 北京理工大学 基于动态邻接矩阵和时空注意力的医学时间序列预测方法
CN116485041A (zh) * 2023-06-14 2023-07-25 天津生联智慧科技发展有限公司 一种燃气数据的异常检测方法及装置
CN116485041B (zh) * 2023-06-14 2023-09-01 天津生联智慧科技发展有限公司 一种燃气数据的异常检测方法及装置
CN117059102A (zh) * 2023-10-12 2023-11-14 广州市零脉信息科技有限公司 一种智能儿童玩具对话***

Also Published As

Publication number Publication date
CN109545386B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN109545386A (zh) 一种基于深度学习的流感时空预测方法及装置
Joshi et al. Improving governance for the post-2015 sustainable development goals: scenario forecasting the next 50 years
Lu et al. Bayesian areal wombling via adjacency modeling
Jaiswal et al. Earthquake casualty models within the USGS Prompt Assessment of Global Earthquakes for Response (PAGER) system
CN110827543A (zh) 一种基于深度学习和时空数据融合的短时交通流控制方法
Wen et al. Identifying geographical variations in poverty-obesity relationships: empirical evidence from Taiwan
Yu et al. Crime forecasting using spatio-temporal pattern with ensemble learning
Python et al. A Bayesian approach to modelling subnational spatial dynamics of worldwide non-state terrorism, 2010–2016
Halstead et al. Using a species-centered approach to predict bird community responses to habitat fragmentation
Coppola et al. Learning temporal context for activity recognition
Goovaerts Combining area-based and individual-level data in the geostatistical mapping of late-stage cancer incidence
Hagenauer et al. Contextual neural gas for spatial clustering and analysis
Wagale et al. Socio-economic impacts of low-volume roads using a mixed-method approach of PCA and Fuzzy-TOPSIS
CN116205383B (zh) 一种基于元学习的静态动态协同图卷积交通预测方法
Gupta et al. Comparative analysis of epidemiological models for COVID-19 pandemic predictions
CN114912354B (zh) 一种预测蚊媒传染病风险的方法、装置及介质
Tessier et al. Omnidirectional and omnifunctional connectivity analyses with a diverse species pool
Vølstad et al. Combining biological indicators of watershed condition from multiple sampling programs—a case study from Maryland, USA
Huddleston et al. A statistical threat assessment
Williams The influence of probability of detection when modeling species occurrence using GIS and survey data
Martin et al. Investigating the spatial linkage of primary school performance and catchment characteristics
CN109740069A (zh) 一种用户间亲密关系的识别方法及装置
Zhang et al. Neighborhood impacts on household participation in payments for ecosystem services programs in a Chinese nature reserve: A methodological exploration
McEachron Reef Fish Spatial Distributions Throughout the Florida Keys in the Context of Matrix Effects, Trophic Dynamics, and Complementary Modeling Techniques
Chan et al. Modelling refugees escaping violent events: a feasibility study from an input data perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yin Ling

Inventor after: Xi Guijie

Inventor before: Xi Guijie

Inventor before: Yin Ling

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant