CN116798650A

CN116798650A - 一种基于大数据的流行病学密切接触者查找方法

Info

Publication number: CN116798650A
Application number: CN202310490805.8A
Authority: CN
Inventors: 魏瀚磊; 郭玉; 陶晓龙; 于振业; 黄涛
Original assignee: China Telecom Wanwei Information Technology Co Ltd
Current assignee: China Telecom Wanwei Information Technology Co Ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-09-22

Abstract

本发明涉及大数据处理技术领域，具体为一种基于大数据的流行病学密切接触者查找方法，主要包括有数据准备和大数据分析找人模型开发，本方法依托于当下的计算机信息化技术，主要是大数据技术，模型通过对人们日常生活中的信息采集和计算，分析得出可疑接触者，能够帮助流调队员缩短找人、控人时间，从而降低了疫情蔓延的风险。本发明结合了现有大数据信息化技术手段，不光通过数据关联查询找到风险人员，而且将疫情传播人员风险通过分析模型进行了量化，量化后结合对比分析、趋势分析手段不断校正，使得找到的风险人员越来越准确。

Description

一种基于大数据的流行病学密切接触者查找方法

技术领域

本发明涉及大数据处理技术领域，具体为一种基于大数据的流行病学密切接触者查找方法。

背景技术

流调溯源是流行病学调查的简称，是传染病防控当中非常重要的一项工作。有序的流调，能迅速锁定传染源及密切接触者，可以很大程度地减少传染几率，让可能的感染者尽快得到排查和及时的救治，是切断疾病传播途径、防止更多人被传染的关键措施。现有技术的流行病防控期间，发生传染病的地区以高质量核酸检测为抓手发现传染病感染者，以密接次密接查找为重点切断传播链，严格落实各项防控措施，迅速遏制本土传染病的扩散蔓延。然而在过程中以密接次密接查找为重点切断传播链出现了如下问题：1、查找对象不明确，无法快速精准锁定风险人群，增加了传播风险扩散的可能性。传统方式只能通过打电话询问的方式去查找可疑接触者，特别是遇到陌生人的时候，当事人无法对陌生人进行有效信息描述，无法确定风险人员身份信。2、感染者及其密接者、次密接者人员接触关系复杂，人员众多，传统流调核实工作复杂，会出现重复流调、统计难的问题，都一定程度上影响了传染病防控工作的完成效率，增大了传染病扩散的风险。

现有技术传染病防控流调溯源工作中，采用人工电话流调的方式进行流调排查，多依赖于人工进行找人，容易遗漏、执行效率低、数据准确性不足，不能够满足传染病防控快速精准的要求。

发明内容

本发明的目的在于提供一种基于大数据的流行病学密切接触者查找方法，采用大数据技术，结合多个大数据模型分析计算，能够精准、快速、高效分析得出可疑接触者，从而提高流调溯源工作效率，进一步降低疫情扩散的风险。

本发明一种基于大数据的流行病学密切接触者查找方法，包括有如下步骤：

S1.数据准备：

S1-1.数据汇聚，汇聚涉疫数据，主要包括：人口数据、信令数据、场所码扫码数据、公交车乘车数据、出租车乘车数据、WIFI探针访问数据、宾馆住宿数据、网吧上网登记数据和核酸数据；人口数据主要字段包括有姓名、身份证号码、电话号码、户籍地址和现住地址；信令数据主要字段包括有基站名称、基站编号、电话号码、访问开始时间和访问结束时间；场所码扫码数据主要字段包括有姓名、电话号码、场所码扫码时间、场所码编号和场所码名称；公交车乘车数据主要字段包括有姓名、身份证号码、电话号码、刷卡时间和公交车车牌号；出租车乘车数据主要字段包括有：姓名、电话号码、扫乘车码时间和出租车车车牌号；WIFI探针访问数据主要字段包括有电话号码、连接开始时间、连接结束时间和WIFI探针编号；宾馆住宿数据主要字段包括有姓名、身份证号码、电话号码、入住时间、退房时间、宾馆编码和宾馆编号；网吧上网登记数据主要字段包括有姓名、身份证号码、电话号码、上网开始时间、上网结束时间、网吧编码和网吧名称；核酸数据主要字段包括有姓名、身份证号码、电话号码、采样时间、采样点编号、采样人和采样序列号；

S1-2.分析数据并制定数据标准：

S1-2-1.数据分析，在了解步骤S1-1所有汇聚数据的基础上，掌握各类数据的数据意义、数据量、数据变化量、字段意义、字段属性域和字段语义相关性；

S1-2-2.制定标准，依据数据意义，制定数据表名统一的命名规范，数据表名命名规范原则为：表名要全局唯一，字面含义明确；依据数据量和数据变化量制定数据存储策略，采用单表存储或多表存储，数据库类型使用MySQL、SqlServer或Oracle；字段命名规则依据字段意义和字段语义相关性，制定字段统一命名规范，原则是字段名称意义相同的要统一，同一张表内字段名称不能重复；依据字段属性域对有意义的分类字段建设数据字典，把分类属性用统一的数字或者字母映射存储在一张分类表当中；

S1-3.搭建大数据平台底座框架：

S1-3-1.Hbase数据库部署；

S1-3-2.Hadoop框架部署；

S1-3-3.Spark并行计算框架部署；

S1-3-4.Hive数据仓库部署；

S1-3-5.kafka消息队列部署；

S1-4.按照数据标准进行数据治理：数据治理主要对接入的多源异构数据进行标准化处理；通过对接入的源数据按照数据分析后制定的数据标准约定，进行提取、清洗、比对、关联和标识的规范化流程处理，以过滤掉业务不关心的数据，提高数据关联度和业务紧密度，进而提升数据价值密度，实现数据增值；

S1-4-1.数据提取：数据提取是根据数据定义，从源格式数据中提取出目的格式数据，主要根据数据组织或业务需要，按照数据定义中的数据映射关系、运算规则等数据提取策略，对数据进行格式映射、转换及整合，获得按照目的格式组织的数据；按照数据标准，从策略和配置中心获取提取结构化策略和规则，对源数据中的各类数据进行关键信息提取，主要包括提取知识库数据和提取结构化数据集；

S1-4-2.数据清洗：数据清洗是根据数据定义结果进行数据过滤、去重、格转和校验操作，生成满足标准及质量要求的数据；结构化数据清洗通过数据处理平台-标准化实现；

S1-4-3.数据关联：根据提取规则，将数据和其他知识数据、业务数据进行关联，并输出关联消息；数据的多源性导致不同来源的数据之间的关系是离散的，需要对这些离散关系进行匹配或联接；数据关联提取的目的在于通过对原始库数据的数据关联处理为资源库各种关联关系数据进行准备；数据关联回填的目的在于通过对原始库中人员身份、车辆物品、时空关联、认证账号、手机注册以及活动场所的信息进行回填补充，方便业务应用；数据关联处理在数据处理***中通过可视化的操作或者代码脚本来实现；

S1-4-4.数据对比：按照规则对结构化数据和非结构化数据进行相同比较或相似度计算，对于命中规则的数据，支持按照输出描述进行输出，常用于信息布控和信息订阅；

S1-4-5.数据标识：对数据、数据集进行某一特性、特征的识别和认定。对数据进行标识化可以增加数据维度，拓展数据的属性，提供建立于数据之上的抽象。其主要是基于标签知识库，利用标签引擎对数据进行比对分析、模型计算，并对其打上标签，为上层应用提供支撑，数据标识主要分为通用标识和业务标识；

S2.大数据分析找人模型开发：大数据分析找人模型开发，首先定义风险人的字段属性，包括姓名、电话、户籍地址、现住地址、风险系数、接触次数、接触类型、接触类型数；

S2-1.基本人员信息补全：

根据传入人员的身份证号码信息，在人口数据表中进行查询关联，为需要汇聚的主要数据；主要包括姓名、电话、户籍地址和现住地址；

S2-2.同住接触人员子模型开发：根据传入人员的身份证号码，通过编写代码在人口数据表中进行查询关联，找到该人员的户籍地址对应的户号，在人口数据库中查找关联相同户号找到同户直接接触者，并且给这些人员接触类型属性赋予“同户直接接触”类型，并且风险系数属性设置为20-30，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-3.同户接触人员子模型开发：根据传入人员的身份证号码，通过编写代码在人口数据表中进行查询关联，找到现住地址对应的现住地址编号，在人口数据库中查找关联相同现住地址编号找到同住直接接触者，并且给这些人员接触类型属性赋予“同住直接接触”类型，并且风险系数属性性设置为20-30，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-4.信令接触人员子模型开发：根据传入人员的身份证号码，通过编写代码在人口数据表中进行查询关联，找到电话号码，在信令数据中查找关联相同时间段内访问同一基站的直接接触者，并且给这些人员接触类型属性赋予“信令直接接触”类型，并且风险系数属性设置为1-5，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-5.场所码接触人员子模型开发：根据传入人员的身份证号码和电话号码，通过编写代码在场所码扫码数据表中查找关联相同时间段内访问同一场所的直接接触者，并且给这些人员接触类型属性赋予“场所码直接接触”类型，并且风险系数属性设置为20-30，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-6.公交车乘车接触人员子模型开发：根据传入人员的身份证号码和电话号码，通过编写代码在公交乘车数据表中查找关联相同时间段内同一场乘公交的直接接触者，并且给这些人员接触类型属性赋予“公交车直接接触”类型，并且风险系数属性设置为5-10，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-7.出租车乘车接触人员子模型开发：根据传入人员的身份证号码和电话号码，通过编写代码在出租车乘车数据表中查找关联相同时间段内同一场乘公交的直接接触者，并且给这些人员接触类型属性赋予“出租车直接接触”类型，并且风险系数属性设置为5-10，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-8.宾馆住宿接触人员子模型开发：根据传入人员的身份证号码和电话号码，通过编写代码在宾馆住宿数据表中查找关联相同时间段内入住同一宾馆或者房间的直接接触者，并且给这些人员接触类型属性赋予“宾馆住宿直接接触”类型，并且风险系数属性设置为5-10，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-9.网吧上网接触人员子模型开发：根据传入人员的身份证号码和电话号码，通过编写代码在网吧上网数据表中查找关联相同时间段内同一网吧上网的直接接触者，并且给这些人员接触类型属性赋予“网吧直接接触”类型，并且风险系数属性设置为5-10，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-10.核酸采集接触人员子模型开发：根据传入人员的身份证号码和电话号码，通过编写代码在核酸数据表中查找关联相同时间段内同一队伍连续做核酸的直接接触者，并且给这些人员接触类型属性赋予“核酸直接接触”类型，并且风险系数属性设置为5-10，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数；

S2-11.风险评估模型开发：基于S2-2至S2-10的子模型分析计算结果，按照人员身份证号码进行汇总统计接触类型字段、风险系数字段。接触类型按照字符串间隔逗号的方式拼接汇总、同时统计接触类型数，风险系数按照数值累加，接触次数按照数值累加。接触类型数值越大，说明该风险人员被多种途径判定为有接触风险；风险系数，根据不同接触方式风险系数不一样，累加值越大则该人员被传染的风险可能性越大；接触次数，是该人员被风险者接触的次数，数值越大，则被感染的机会越大；

S2-12.模型锻炼校正及阀值：将所有大数据筛查出的人员与实际现实生活中的流调结果进行比对和分析：通过身份证号码关联的方式，对比大数据筛查出来的风险人员和实际生活中流调确诊的人员，找出符合人数a，超出人数b，遗漏人数c；记录每次的对比结果，统计符合人数比率，计算方法为：实际流调确认的密接人数除以大数据筛查疑似密接人员人数；根据符合人数比率调整各模型风险系数范围数值，对于风险系数值在属性范围内适当增加或者减少，使得对比结果中符合人数比率接近1。

进一步的，步骤S1-4-1中的提取结构化数据集是指将海量日志类信息通过提取，去重，形成价值密度较高、格式规范化的数据的过程叫做结构化提取；步骤S1-4-1中的提取知识库数据是指来源数据中有部分信息，经过标准化后可提取至知识库中，供各环节进行使用。

进一步的，所述的S1-4-2包括有：

S1-4-2-1.数据过滤：通过对信息进行辨别和分离，实现冗余数据及垃圾数据的滤除，主要包括基于数据标准和过滤规则对不符合标准及规则的数据过滤，基于样本分析对冗余或垃圾信息进行辨别、分离和过滤，被识别为冗余或垃圾信息的数据可以直接滤除，或标识后照常处理并交由后端模块判断如何进一步处理；

S1-4-2-1-1.垃圾邮件过滤：根据用户提供的垃圾邮件样本，对接入的邮件数据进行标识或过滤；

S1-4-2-1-2.黑名单规则过滤：根据特定的黑名单对接入数据进行过滤，***支持证件号码、手机号码、硬件特征串、网络帐号、关键词和文件MD5值类型的黑名单；

S1-4-2-1-3.其他过滤规则和形式包括有无价值短息过滤、字段值精确匹配过滤、URL过滤和附件过滤；

S1-4-2-2.数据去重：在各类场景下设定相应的数据重复判别规则以及合并、清除策略，对数据进行重复性辨别，并对重复数据进行合并或清除处理；主要包括结构化数据去重及非结构化数据去重；

S1-4-2-2-1.结构化数据去重：根据数据定义环节定义好的重复规则判定结构化数据是否重复，如果数据重复，则直接滤除或者进入问题库；

S1-4-2-2-2.非结构化数据去重：非结构化数据去重是根据大数据平台统一要求的散列函数对非结构化数据进行计算，计算结果相同的非结构化数据直接滤除，只保留一份原始数据；

S1-4-2-3.格式转换：根据数据标准把非标数据转换成统一的标准格式进行输出；针对不同来源的同类数据按照统一规则进行转换；

S1-4-2-3-1.代码转换：将不同来源数据中的用代码表示的数据，统一转换成符合大数据标准的代码规范内容；

S1-4-2-3-2.格式统一：为规范数据元素查询、布控的统一格式，在保留原始数据源的基础上，对数据执行数据规范化策略；包括的内容有：身份证号归一化、手机号码归一化、MAC地址归一化、URL归一化、特定字符归一化、IMEI归一化、IMSI归一化、邮箱地址归一化、基站号码归一化、经纬度归一化、时间格式统一和日期格式统一；

S1-4-2-3-3.数据校验：根据数据质量检核规则对数据进行校验，符合标准的数据直接入库，不符合标准的数据可进入问题数据库以便进一步分析处理，校验主要包括数据的完整性校验、规范性校验和一致性校验；常用的校验规则有空值校验、取值范围校验、公民身份证号码/手机号/车牌号/IMEI/MAC/IP地址等校验、数值校验、长度校验和精度校验；此外，还有更为复杂的多字段条件校验和业务规则校验；

常用规则校验细分如下：

a.空值检验：关键字段为空值时，直接将数据过滤，此条数据进入问题数据库；

b.取值范围校验：字段值超出了字段范围，将超出范围的数据流入问题数据库；

c.常用规则校验：身份证号码、手机号、车牌号、MAC、IMEI、IMSI、经纬度、数值、IP地址、长度和精度；

d.同时支持数据校验、长度校验、精度校验、多字段条件校验和业务规则校验。

进一步的，所述的S1-4-4中的结构化比对通过将规则条件与指定字段取值进行相同比较或相似度计算，在结构化数据中实时发现满足条件的相关信息；支持完全匹配、模糊匹配和范围匹配；1).完全匹配是检索比对目标内容与比对源字段内容完全相同；2).模糊匹配是比对目标内容在比对源字段内容中出现，则匹配成功；3).范围匹配是比对目标内容与比对源指定的字段进行对比，指定的字段内容在比对目标内容区间，则匹配成功；将接入数据与下发的线索按照布控输出策略进行比对，将中标数据存储得到指定目的地；支持千万级的手机号、身份证号、MAC、ADSL等线索的比对，支持顽疾关键词线索的比对；数据比对主要分为3个部分：普通线索比对，字典类线索比对和IP范围线索比对；

a.普通线索比对：布控中心下发到管理平台的线索是普通单字段结构化数据情况，将数据中的相应字段与下发的线索规则进行比对，筛选出符合规则的数据，支持完全匹配和模糊匹配；

b.字典类线索比对：布控中心下发到管理平台的线索是字典类结构化数据情况，例如涉控、涉暴等，支持完全匹配和模糊匹配；

c.IP范围线索比对：布控中心下发到管理平台的线索是IP的情况，将接入数据中的相应的IP字段与线索规则进行比对，接入数据中的相应字段在线索规则范围内为中标。

进一步的，所述的S1-4-5中通用标识是数据自身所蕴含的特定含义的显性化，通常由数据的自身定义或由预处理关联、比对结果等来确定；业务标识是根据不同的知识库形成具有明确业务含义的标签，对数据进行业务标识，支撑业务资源库的形成及模型分析；

数据标识的功能包括以下方面：

1).规则解析：解析标签规则，获取响应的参数信息；

2).规则路由：根据规则制定执行平台或根据打标类型、数据分布、***可用资源等智能选择合适的执行平台；

3).规则编译：编译生成执行平台能够识别的打标任务；

4).规则执行：使用对应的执行平台执行打标任务，包括任务调度、状态反馈。

本发明的有益效果是：本方法依托于当下的计算机信息化技术，主要是大数据技术，模型通过对人们日常生活中的信息采集和计算，分析得出可疑接触者，能够帮助流调队员缩短找人、控人时间，从而降低了疫情蔓延的风险。本发明结合了现有大数据信息化技术手段，不光通过数据关联查询找到风险人员，而且将疫情传播人员风险通过分析模型进行了量化，量化后结合对比分析、趋势分析手段不断校正，使得找到的风险人员越来越准确。

具体实施方式

S1.数据准备：

S1-1.数据汇聚，汇聚涉疫数据，主要包括：人口数据、信令数据、场所码扫码数据、公交车乘车数据、出租车乘车数据、WIFI探针访问数据、宾馆住宿数据、网吧上网登记数据和核酸数据；

人口数据主要字段包括有姓名、身份证号码、电话号码、户籍地址和现住地址；信令数据主要字段包括有基站名称、基站编号、电话号码、访问开始时间和访问结束时间；场所码扫码数据主要字段包括有姓名、电话号码、场所码扫码时间、场所码编号和场所码名称；公交车乘车数据主要字段包括有姓名、身份证号码、电话号码、刷卡时间和公交车车牌号；出租车乘车数据主要字段包括有：姓名、电话号码、扫乘车码时间和出租车车车牌号；WIFI探针访问数据主要字段包括有电话号码、连接开始时间、连接结束时间和WIFI探针编号；宾馆住宿数据主要字段包括有姓名、身份证号码、电话号码、入住时间、退房时间、宾馆编码和宾馆编号；网吧上网登记数据主要字段包括有姓名、身份证号码、电话号码、上网开始时间、上网结束时间、网吧编码和网吧名称；核酸数据主要字段包括有姓名、身份证号码、电话号码、采样时间、采样点编号、采样人和采样序列号；

S1-2.分析数据并制定数据标准：

S1-2-2.制定标准，依据数据意义，制定数据表名统一的命名规范，例如：人口数据业务表，yw_rksj,“yw_”为所有业务表的前缀，“rksj”为表数据意义汉语拼音首字母的简写；数据表名命名规范原则为：表名要全局唯一，字面含义明确；依据数据量和数据变化量制定数据存储策略，采用单表存储或多表存储，数据库类型使用MySQL、SqlServer或Oracle；字段命名规则依据字段意义和字段语义相关性，制定字段统一命名规范，例如：“姓名”字段，可以用“XM”,“XM”字段意义汉语拼音首字母的简写，原则是字段名称意义相同的要统一，同一张表内字段名称不能重复；依据字段属性域对有意义的分类字段建设数据字典，把分类属性用统一的数字或者字母映射存储在一张分类表当中；MySQL、SqlServer或者Oracle为当前已公开的成熟关系型数据库，在此不再进行展开详细说明；

S1-3.搭建大数据平台底座框架：

S1-3-1.Hbase数据库部署；通过使用该数据库提供高可靠性、高性能、列存储、可伸缩、多版本的NoSQL的分布式数据存储***，实现对大型数据的实时、随机的读写访问，用来管理和存储海量数据。Hbase数据库技术已经成熟公开，部署方法可参考现有已公布的Hbase部署说明文档；

S1-3-2.Hadoop框架部署；Hadoop实现了一个分布式文件***，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streamingaccess）文件***中的数据。Hadoop技术已经成熟公开，部署方法可参考现有已公布的Hadoop部署说明文档；

S1-3-3.Spark并行计算框架部署；Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同应用。而且Spark支持交互式的Python和Scala的Shell，这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法，而不是像以前一样，需要打包、上传集群、验证等。这对于原型开发非常重要。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（通用SparkSQL）、实时流处理（通过SparkStreaming）、机器学习（通过SparkMLlib）和图计算（通过SparkGraphX）。Spark非常方便的与其他开源产品进行融合。比如，Spark可以使用Hadoop的YARN和ApacheMesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassanda等。这对于已部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark强大的处理能力。此外Spark还提供了在EC2上部署Standalone的Spark集群的工具。Spark并行计算框架技术已经成熟公开，部署方法可参考现有已公布的Spark并行计算框架部署说明文档；

S1-3-4.Hive数据仓库部署；HIVE是建立在Hadoop基础上的开源的数据仓库，提供类似SQL的Hive QL语言操作结构化数据存储服务和基本的数据分析服务。HIVE可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的工具进行数据提取转化加载，用来存储、查询和分析存储在Hadoop中的大规模数据集，并支持UDF（User-Defined Function）、UDAF(User-Defined AggregateFunction)和UDTF（User-DefinedTable-Generating Function），也可以实现对map和reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性。Hive数据仓库技术已经成熟公开，部署方法可参考现有已公布的Hive数据仓库部署说明文档；

S1-3-5.kafka消息队列部署；Apache Kafka是一个由Apache基金会开发的开源消息***，由Scala写成。它是一个分布式的、分区的、多副本、可靠的消息发布-订阅***，目前越来越多的开源分布式处理***（如Cloudera、Apache Storm、Spark）都支持与Kafka集成。它提供了类似于JMS的特性，但在设计上完全不同，它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费，支持多种数据源的流数据输入，如常规的消息收集、网站活性跟踪、聚合统计***运营数据（监控数据）、日志收集等大量数据的互联网服务的数据收集场景。kafka消息队列技术已经成熟公开，部署方法可参考现有已公布的kafka消息队列部署说明文档；

S1-4-1.数据提取：数据提取是根据数据定义，从源格式数据中提取出目的格式数据，主要根据数据组织或业务需要，按照数据定义中的数据映射关系、运算规则等数据提取策略，对数据进行格式映射、转换及整合，获得按照目的格式组织的数据；按照数据标准，从策略和配置中心获取提取结构化策略和规则，对源数据中的各类数据进行关键信息提取，主要包括提取知识库数据和提取结构化数据集；提取结构化数据集是指将海量日志类信息通过提取，去重，形成价值密度较高、格式规范化的数据的过程叫做结构化提取，例如，从确诊及疑似病例中提取病例姓名、手机号、身份证等信息；提取知识库数据是指来源数据中有部分信息，经过标准化后可提取至知识库中，供各环节进行使用；

S1-4-2.数据清洗：数据清洗是根据数据定义结果进行数据过滤、去重、格转和校验操作，生成满足标准及质量要求的数据；结构化数据清洗通过数据处理平台-标准化实现；由于数据来源较为庞杂，海量的来源数据存在许多不完整、不一致、有缺失、有重复、有异常的数据，直接进入各库会大幅降低数据质量，甚至会影响基于这些数据进行的各类分析的执行效率，甚至可能导致分析结果的偏差，所以进行数据清洗显得尤为重要；

S1-4-2-1-1.垃圾邮件过滤：根据用户提供的垃圾邮件样本，对接入的邮件数据如SMTP、POP3、Webmail等进行标识或过滤；

S1-4-2-1-2.黑名单规则过滤：根据特定的黑名单对接入数据进行过滤，例如根据垃圾邮件账号黑名单，对发件邮箱账号在黑名单内的邮件数据进行过滤，***支持证件号码、手机号码、硬件特征串、网络帐号、关键词和文件MD5值类型的黑名单；

S1-4-2-3.格式转换：根据数据标准把非标数据转换成统一的标准格式进行输出；针对不同来源的同类数据按照统一规则进行转换；如对公民身份号码、手机号、IP地址、时间、经纬度、数据字典、单位部门、地址门牌等属性进行标准化转换；

常用规则校验细分如下：

d.同时支持数据校验、长度校验、精度校验、多字段条件校验和业务规则校验；

针对流调溯源融合治理大数据平台接入的数据资源中的公卫数据中的确诊及疑似病例中可以提取出疑似病例的姓名、手机号码、身份证等信息，再与一码通数据中的场所码、交通数据中的出租车、公交车、铁路订票、长途客运乘车人等信息进行关联，即可获得涉疫人员的行程轨迹信息以及在特定时间范围内的同时空人员信息，可进一步获取涉疫人员疑似病例及其密接人员详细地址信息；而非本地人员，可依靠14天人员轨迹信息，确定涉疫及密接人员的轨迹详情，业务人员可通过流调溯源平台应用进一步核查人员流动情况，助力流调工作的顺利开展；

结构化比对通过将规则条件与指定字段取值进行相同比较或相似度计算，在结构化数据中实时发现满足条件的相关信息；支持完全匹配、模糊匹配和范围匹配；1).完全匹配是检索比对目标内容与比对源字段内容完全相同；2).模糊匹配是比对目标内容在比对源字段内容中出现，则匹配成功；3).范围匹配是比对目标内容与比对源指定的字段进行对比，指定的字段内容在比对目标内容区间，则匹配成功，比如IP范围、经纬度范围内的比对；将接入数据与下发的线索按照布控输出策略进行比对，将中标数据存储得到指定目的地；支持千万级的手机号、身份证号、MAC、ADSL等线索的比对，支持顽疾关键词线索的比对；数据比对主要分为3个部分：普通线索比对，字典类线索比对和IP范围线索比对；

c.IP范围线索比对：布控中心下发到管理平台的线索是IP的情况，将接入数据中的相应的IP字段与线索规则进行比对，接入数据中的相应字段在线索规则范围内为中标；

所述的S1-4-5中通用标识是数据自身所蕴含的特定含义的显性化，通常由数据的自身定义或由预处理关联、比对结果等来确定，如语言、区域等；业务标识是根据不同的知识库形成具有明确业务含义的标签，对数据进行业务标识，支撑业务资源库的形成及模型分析；

数据标识的功能包括以下方面：

1).规则解析：解析标签规则，获取响应的参数信息；

3).规则编译：编译生成执行平台能够识别的打标任务；

4).规则执行：使用对应的执行平台执行打标任务，包括任务调度、状态反馈；

S2-1.基本人员信息补全：

S2-6.公交车乘车接触人员子模型开发：根据传入人员的身份证号码和电话号码，通过编写代码在公交乘车数据表中查找关联相同时间段内同一场乘公交的直接接触者，并且给这些人员接触类型属性赋予“公交车直接接触”类型，并且风险系数属性设置为5-10，同时按照查询结果查询到的次数统计接触次数并赋值给接触次数：

进一步的，所述的S1-4-2包括有：

S1-4-2-3-2.格式统一：为规范数据元素查询、布控的统一格式，在保留原始数据源的基础上，对数据执行数据规范化策略；包括的内容有：身份证号归一化、手机号码归一化、MAC地址归一化、URL归一化、特定字符归一化、IMEI归一化、IMSI归一化、邮箱地址归一化、基站号码归一化、经纬度归一化、时间格式统一和日期格式统一。

常用规则校验细分如下：

本发明数据汇聚主要字段如下表1-表9所示：

表1：人口数据主要字段。

表2：信令数据主要字段。

表3：场所码扫码数据主要字段。

表4：公交车乘车数据主要字段。

表5：出租车乘车数据主要字段。

表6：WIFI探针访问数据主要字段。

表7：宾馆住宿数据主要字段。

表8：网吧上网登记数据主要字段。

/>

表9：核酸数据主要字段。

本发明直接接触风险系数范围表如下表10：

表10.模型直接接触风险系数范围表。

本发明大数据分析找人模型如下表11：

表11.大数据分析找人模型表。

在五次流调任务，分别用大数据筛查发现可疑接触者和人工询问的方式发现可疑接触者的用时对比，5次任务大数据筛查都在10分钟之内找到可疑接触者，人工方式流调溯源则是通过电话沟通的方式，前3次任务大概在2小时左右找到可疑接触者，后两次任务由于当事人记忆力模糊、去过多处场所、与周围陌生人不熟等原因，导致找全可疑接触者已经耗费了2-3天时间。

五次流调任务时间对比如下表12：

表12.本发明方法与现有技术人工核查方法流调任务时间对比表。

本方法依托于当下的计算机信息化技术，主要是大数据技术，现在大数据技术也比较成熟，可以完全支撑本方法中涉及的找人模型，模型通过对人们日常生活中的信息采集和计算，分析得出可疑接触者，能够帮助流调队员缩短找人、控人时间，从而降低了疫情蔓延的风险。本发明结合了现有大数据信息化技术手段，不光通过数据关联查询找到风险人员，而且将疫情传播人员风险通过分析模型进行了量化，量化后结合对比分析、趋势分析手段不断校正，使得找到的风险人员越来越准确。

Claims

1.一种基于大数据的流行病学密切接触者查找方法，其特征在于：包括有如下步骤：

S1.数据准备：

S1-2.分析数据并制定数据标准：

S1-3.搭建大数据平台底座框架：

S1-3-1.Hbase数据库部署；

S1-3-2.Hadoop框架部署；

S1-3-3.Spark并行计算框架部署；

S1-3-4.Hive数据仓库部署；

S1-3-5.kafka消息队列部署；

S1-4-5.数据标识：对数据、数据集进行某一特性、特征的识别和认定，对数据进行标识化可以增加数据维度，拓展数据的属性，提供建立于数据之上的抽象，其主要是基于标签知识库，利用标签引擎对数据进行比对分析、模型计算，并对其打上标签，为上层应用提供支撑，数据标识主要分为通用标识和业务标识；

S2-1.基本人员信息补全：

S2-11.风险评估模型开发：基于S2-2至S2-10的子模型分析计算结果，按照人员身份证号码进行汇总统计接触类型字段、风险系数字段，接触类型按照字符串间隔逗号的方式拼接汇总、同时统计接触类型数，风险系数按照数值累加，接触次数按照数值累加，接触类型数值越大，说明该风险人员被多种途径判定为有接触风险；风险系数，根据不同接触方式风险系数不一样，累加值越大则该人员被传染的风险可能性越大；接触次数，是该人员被风险者接触的次数，数值越大，则被感染的机会越大；

2.根据权利要求1所述的一种基于大数据的流行病学密切接触者查找方法，其特征在于：步骤S1-4-1中的提取结构化数据集是指将海量日志类信息通过提取，去重，形成价值密度较高、格式规范化的数据的过程叫做结构化提取；步骤S1-4-1中的提取知识库数据是指来源数据中有部分信息，经过标准化后可提取至知识库中，供各环节进行使用。

3.根据权利要求1所述的一种基于大数据的流行病学密切接触者查找方法，其特征在于：所述的S1-4-2包括有：

常用规则校验细分如下：

4.根据权利要求1所述的一种基于大数据的流行病学密切接触者查找方法，其特征在于：所述的S1-4-4中的结构化比对通过将规则条件与指定字段取值进行相同比较或相似度计算，在结构化数据中实时发现满足条件的相关信息；支持完全匹配、模糊匹配和范围匹配；1).完全匹配是检索比对目标内容与比对源字段内容完全相同；2).模糊匹配是比对目标内容在比对源字段内容中出现，则匹配成功；3).范围匹配是比对目标内容与比对源指定的字段进行对比，指定的字段内容在比对目标内容区间，则匹配成功；将接入数据与下发的线索按照布控输出策略进行比对，将中标数据存储得到指定目的地；支持千万级的手机号、身份证号、MAC、ADSL等线索的比对，支持顽疾关键词线索的比对；数据比对主要分为3个部分：普通线索比对，字典类线索比对和IP范围线索比对；

5.根据权利要求1所述的一种基于大数据的流行病学密切接触者查找方法，其特征在于：所述的S1-4-5中通用标识是数据自身所蕴含的特定含义的显性化，通常由数据的自身定义或由预处理关联、比对结果等来确定；业务标识是根据不同的知识库形成具有明确业务含义的标签，对数据进行业务标识，支撑业务资源库的形成及模型分析；

数据标识的功能包括以下方面：

1).规则解析：解析标签规则，获取响应的参数信息；

3).规则编译：编译生成执行平台能够识别的打标任务；