CN111524609A - 生成筛查模型、筛查传染病高风险感染人群的方法及*** - Google Patents

生成筛查模型、筛查传染病高风险感染人群的方法及*** Download PDF

Info

Publication number
CN111524609A
CN111524609A CN202010323348.XA CN202010323348A CN111524609A CN 111524609 A CN111524609 A CN 111524609A CN 202010323348 A CN202010323348 A CN 202010323348A CN 111524609 A CN111524609 A CN 111524609A
Authority
CN
China
Prior art keywords
user
sample
base station
infectious disease
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010323348.XA
Other languages
English (en)
Other versions
CN111524609B (zh
Inventor
罗远飞
蔡恒兴
钟润兴
李京
花彬
涂威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202210473295.9A priority Critical patent/CN115171910A/zh
Priority to CN202010323348.XA priority patent/CN111524609B/zh
Publication of CN111524609A publication Critical patent/CN111524609A/zh
Application granted granted Critical
Publication of CN111524609B publication Critical patent/CN111524609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种生成筛查模型、筛查传染病高风险感染人群的方法及***。生成传染病高风险感染人群筛查模型的方法包括:获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。

Description

生成筛查模型、筛查传染病高风险感染人群的方法及***
技术领域
本发明总体说来涉及人工智能领域,更具体地讲,涉及一种生成传染病高风险感染人群筛查模型的方法及***、筛查传染病高风险感染人群的方法及***。
背景技术
目前,新型冠状病毒肺炎在全球大范围传染,随着时间的推进,世界多个国家已出现感染人群。此次疫情具有影响范围大,潜伏期长,重症率高等特点。从当前确诊人群来看,此次疫情的感染人群在年龄和性别上没有特别的分布,主要的传播途径是人与人之间的近距离传播。
快速准确地判断出高风险感染人群进行观察是最有效控制疫情发展的手段之一。
发明内容
本发明的示例性实施例在于提供一种生成筛查模型、筛查传染病高风险感染人群的方法及***,其能够用于快速准确地筛查某种传染病的高风险感染人群。
根据本发明的示例性实施例,提供一种生成传染病高风险感染人群筛查模型的方法,其中,所述方法包括:获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
可选地,所述用户轨迹信息包括:用户的移动终端在每个时间段所使用的基站的基站标识,其中,各个时间段是按预设时间粒度划分特定时间跨度得到的。
可选地,用户的移动终端在每个时间段所使用的基站为:用户的移动终端在每个时间段内使用时间最长的基站或用户的移动终端在每个时间段内的指定时间点所使用的基站。
可选地,所述训练数据集包括以下数据表中的至少一项:已确诊用户表,包括正样本用户的用户id及其确诊时间;用户轨迹表,包括用户id及用户的移动终端在每个时间段所使用的基站的基站id;用户信息表,包括用户id及用户的属性信息;基站表,包括基站id及基站的地理位置信息;用户通信记录表,包括用户id及用户使用移动终端与其他移动终端的用户的通信记录;用户通讯录信息表,包括用户id及用户的移动终端的至少一个应用的通讯录中的联系人的用户id。
可选地,基于所述训练数据集为所述样本表中的各条样本分别提取特征的步骤包括:将所述训练数据集所包括的数据表中的信息直接处理为与各个用户id分别对应的基础特征;和/或,基于所述训练数据集所包括的数据表中的信息生成与各个用户id分别对应的衍生特征,其中,所述衍生特征包括以下项之中的至少一项:关于用户的活动活跃程度的聚合特征、关于用户与正样本用户的社交亲密度的聚合特征、关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征、关于用户出现在易感染区域的聚合特征,其中,用户在一时间段出现的基站区域为该用户的移动终端在该时间段所使用的基站所对应的区域,易感染区域为各个正样本用户在各个时间段出现过的基站区域。
可选地,关于用户的活动活跃程度的聚合特征包括以下项之中的至少一项:用于指示该用户在特定时间之前出现过的所有基站区域的数量的特征、用于指示该用户在特定时间之前出现过的所有省/市的数量的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最小值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最小值的特征、用于指示该用户在特定时间之前的活动距离的特征、用于指示该用户是否为外省人的特征;关于用户与正样本用户的社交亲密度的聚合特征包括:关于与该用户具有不同社交亲密度的正样本用户的数量的统计值的特征,其中,用户间的社交亲密度是基于用户间的通话记录和/或用户的通讯录信息确定的;关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征包括:关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征;关于用户出现在易感染区域的聚合特征包括以下项之中的至少一项:关于该用户出现在每个易感染区域的次数的统计值的特征、关于该用户出现在不同危险程度的易感染区域的次数的统计值的特征,其中,易感染区域的危险程度与正样本用户出现过的次数有关,其中,如果该用户为正样本用户,则其对应的特定时间为该用户的确诊时间;如果该用户为负样本用户,则其对应的特定时间为按特定规则赋予该用户的时间。
可选地,生成关于用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征的步骤包括:基于所述用户轨迹表和所述已确诊用户表,构造关于所有正样本用户在其确诊时间之前的所有活动轨迹的字典,其中,所述字典中的每个元素分别为一个用于表征一个正样本用户在一个时间段出现在一个基站区域的轨迹点;针对每个用户,判断该用户的轨迹点是否与所述字典中确诊时间在特定时间之前的正样本用户的轨迹点相重合,并对重合的轨迹点进行统计,以得到关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征。
可选地,所述用户信息表包括用户的以下属性信息中的至少一项:套餐资费、套餐流量、套餐通话时长、套餐短信条数、月使用的上网流量、月通话时长、月使用的短信条数、月话费、平均每月通话时长、平均每月使用的上网流量、平均每月使用的短信条数、平均每月的话费、是否为集团用户、手机号注册地、入网年限、年龄、性别。
可选地,获取训练数据集的步骤包括:获取所述特定时间跨度内的用户的移动终端与基站通信的信令数据;基于所述信令数据获取每个用户的移动终端在所述特定时间跨度的每个时间段所使用的基站的基站id。
可选地,所述机器学习算法为模型融合算法。
可选地,按所述特定规则赋予该用户的特定时间为所述特定时间跨度的最后一天,或者,按所有正样本用户的确诊时间的分布情况来统一设置所有负样本用户分别对应的特定时间。
根据本发明的另一示例性实施例,提供一种筛查传染病高风险感染人群的方法,其中,所述方法包括:获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的;基于所述预测数据集,为各个待筛查用户分别提取特征;利用通过执行如上所述的生成传染病高风险感染人群筛查模型的方法而生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度;输出预测的用户感染所述指定类型传染病的风险程度。
可选地,输出预测的用户感染所述指定类型传染病的风险程度的步骤包括:按照预测的风险程度从高到低的顺序,输出用户的排序结果;和/或,仅输出预测的风险程度满足预设条件的用户的风险程度。
根据本发明的另一示例性实施例,提供一种生成传染病高风险感染人群筛查模型的***,其中,所述***包括:数据集获取装置,适于获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;样本表建立装置,适于建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;特征提取装置,适于基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;训练装置,适于使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
可选地,所述用户轨迹信息包括:用户的移动终端在每个时间段所使用的基站的基站标识,其中,各个时间段是按预设时间粒度划分特定时间跨度得到的。
可选地,用户的移动终端在每个时间段所使用的基站为:用户的移动终端在每个时间段内使用时间最长的基站或用户的移动终端在每个时间段内的指定时间点所使用的基站。
可选地,所述训练数据集包括以下数据表中的至少一项:已确诊用户表,包括正样本用户的用户id及其确诊时间;用户轨迹表,包括用户id及用户的移动终端在每个时间段所使用的基站的基站id;用户信息表,包括用户id及用户的属性信息;基站表,包括基站id及基站的地理位置信息;用户通信记录表,包括用户id及用户使用移动终端与其他移动终端的用户的通信记录;用户通讯录信息表,包括用户id及用户的移动终端的至少一个应用的通讯录中的联系人的用户id。
可选地,特征提取装置适于将所述训练数据集所包括的数据表中的信息直接处理为与各个用户id分别对应的基础特征;和/或,基于所述训练数据集所包括的数据表中的信息生成与各个用户id分别对应的衍生特征,其中,所述衍生特征包括以下项之中的至少一项:关于用户的活动活跃程度的聚合特征、关于用户与正样本用户的社交亲密度的聚合特征、关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征、关于用户出现在易感染区域的聚合特征,其中,用户在一时间段出现的基站区域为该用户的移动终端在该时间段所使用的基站所对应的区域,易感染区域为各个正样本用户在各个时间段出现过的基站区域。
可选地,关于用户的活动活跃程度的聚合特征包括以下项之中的至少一项:用于指示该用户在特定时间之前出现过的所有基站区域的数量的特征、用于指示该用户在特定时间之前出现过的所有省/市的数量的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最小值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最小值的特征、用于指示该用户在特定时间之前的活动距离的特征、用于指示该用户是否为外省人的特征;关于用户与正样本用户的社交亲密度的聚合特征包括:关于与该用户具有不同社交亲密度的正样本用户的数量的统计值的特征,其中,用户间的社交亲密度是基于用户间的通话记录和/或用户的通讯录信息确定的;关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征包括:关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征;关于用户出现在易感染区域的聚合特征包括以下项之中的至少一项:关于该用户出现在每个易感染区域的次数的统计值的特征、关于该用户出现在不同危险程度的易感染区域的次数的统计值的特征,其中,易感染区域的危险程度与正样本用户出现过的次数有关,其中,如果该用户为正样本用户,则其对应的特定时间为该用户的确诊时间;如果该用户为负样本用户,则其对应的特定时间为按特定规则赋予该用户的时间。
可选地,特征提取装置适于基于所述用户轨迹表和所述已确诊用户表,构造关于所有正样本用户在其确诊时间之前的所有活动轨迹的字典;针对每个用户,判断该用户的轨迹点是否与所述字典中确诊时间在特定时间之前的正样本用户的轨迹点相重合,并对重合的轨迹点进行统计,以得到关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征,其中,所述字典中的每个元素分别为一个用于表征一个正样本用户在一个时间段出现在一个基站区域的轨迹点。
可选地,所述用户信息表包括用户的以下属性信息中的至少一项:套餐资费、套餐流量、套餐通话时长、套餐短信条数、月使用的上网流量、月通话时长、月使用的短信条数、月话费、平均每月通话时长、平均每月使用的上网流量、平均每月使用的短信条数、平均每月的话费、是否为集团用户、手机号注册地、入网年限、年龄、性别。
可选地,数据集获取装置适于获取所述特定时间跨度内的用户的移动终端与基站通信的信令数据;并基于所述信令数据获取每个用户的移动终端在所述特定时间跨度的每个时间段所使用的基站的基站id。
可选地,所述机器学习算法为模型融合算法。
可选地,按所述特定规则赋予该用户的特定时间为所述特定时间跨度的最后一天,或者,按所有正样本用户的确诊时间的分布情况来统一设置所有负样本用户分别对应的特定时间。
根据本发明的另一示例性实施例,提供一种筛查传染病高风险感染人群的***,其中,所述***包括:数据集获取装置,适于获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的;特征提取装置,适于基于所述预测数据集,为各个待筛查用户分别提取特征;预测装置,适于利用如上所述的生成传染病高风险感染人群筛查模型的***所生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度;输出装置,适于输出预测的用户感染所述指定类型传染病的风险程度。
可选地,输出装置适于按照预测的风险程度从高到低的顺序,输出用户的排序结果;和/或,输出装置适于仅输出预测的风险程度满足预设条件的用户的风险程度。
根据本发明的另一示例性实施例,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的***,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的生成传染病高风险感染人群筛查模型的方法和/或如上所述的筛查传染病高风险感染人群的方法。
根据本发明的另一示例性实施例,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的生成传染病高风险感染人群筛查模型的方法和/或如上所述的筛查传染病高风险感染人群的方法。
根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的方法及***,能够基于移动终端的用户的活动轨迹生成用于预测用户感染某种传染病的风险程度的预测模型,此外,在基于多维度数据生成基础特征之外,还构建了大量的衍生特征,从而提高生成的筛查模型的预测效果。根据本发明示例性实施例的筛查传染病高风险感染人群的方法及***,能够快速、有效、且节省人力地预测移动终端的用户感染某种传染病的风险程度。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的方法的流程图;
图2示出根据本发明示例性实施例的筛查传染病高风险感染人群的方法的流程图;
图3示出根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的***的框图;
图4示出根据本发明示例性实施例的筛查传染病高风险感染人群的***的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的方法的流程图。通过所述方法生成的传染病高风险感染人群筛查模型能够预测移动终端的用户感染指定类型传染病的风险程度,作为示例,所述指定类型传染病可为主要传播途径是人与人之间的近距离接触的传染病,例如,可为新型冠状病毒肺炎或者非典型冠状病毒肺炎。
参照图1,在步骤S10中,获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的。
作为示例,所述用户轨迹信息是能够体现用户的活动轨迹的信息,例如,可以是能够体现用户在各个时间点所在的位置的信息。
作为示例,用户的移动终端相关数据可为能够用于确定移动终端的位置的数据。例如,用户的移动终端相关数据可包括:移动终端的定位数据和/或通信数据,例如,所述通信数据可以是用户的移动终端与基站通信的信令数据。
此外,作为示例,所述训练数据集还可包括其他的基于用户的移动终端相关数据获得的信息,例如,所述训练数据集还可包括用户使用移动终端与其他移动终端的用户的通信记录和/或用户的移动终端的通讯录信息。
作为示例,所述用户轨迹信息可包括:用户的移动终端在每个时间段所使用的基站的基站标识,其中,各个时间段是按预设时间粒度划分特定时间跨度得到的。
作为示例,用户的移动终端在每个时间段所使用的基站可指:用户的移动终端在每个时间段内使用时间最长的基站或用户的移动终端在每个时间段内的指定时间点所使用的基站。例如,每个时间段内的指定时间点可为该时间段的端点和/或中间的某时间点。
所述特定时间跨度即与训练数据相应的时间跨度。例如,所述特定时间跨度可为一定日期范围。作为示例,可根据实际情况和需求设置所述预设时间粒度,例如,所述预设时间粒度可为15分钟,例如,所述训练数据集可包括用户的移动终端在每个15分钟内使用时间最长的基站的基站标识,实际上,该信息可体现移动终端的用户在每个15分钟内所处时间最长的区域(也即,后面所说的基站区域),从而能够在一定程度上体现用户在所述特定时间跨度内的活动轨迹。例如,所述训练数据集可包括:用户的移动终端每隔所述预设时间粒度时(例如,每隔15分钟时)所使用的基站的基站标识。
作为示例,可获取所述特定时间跨度内的用户的移动终端与基站通信的信令数据;并基于所述信令数据获取每个用户的移动终端在所述特定时间跨度的每个时间段所使用的基站的基站id。例如,基于所述信令数据可确定用户的移动终端在每个时间段内所使用过的基站及使用的时长,进而可确定用户的移动终端在每个时间段内使用时间最长的基站的基站id。例如,可基于每隔所述预设时间粒度时用户的移动终端与基站通信的信令数据,确定用户的移动终端在每个时间段内的指定时间点所使用的基站的基站id。
作为示例,所述训练数据集可包括以下数据表中的至少一项:已确诊用户表、用户轨迹表、用户信息表、基站表、以及用户通信记录表、用户通讯录信息表。应该理解,所述训练数据集还可包括其他类型的数据表,本发明对此不作限制。后面将会详细举例说明各个数据表。
在步骤S20中,建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签。
这里,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户,正常的负样本用户也即未确诊为感染或疑似感染所述指定类型传染病的用户。
作为示例,所述用户标识可为用户id。
作为示例,可基于训练数据集所包括的数据表建立样本表。例如,可基于已确诊用户表和用户轨迹表来建立样本表。
在步骤S30,基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表。
作为示例,可将所述训练数据集所包括的数据表中的信息直接处理为与各个用户id分别对应的基础特征;和/或,基于所述训练数据集所包括的数据表中的信息生成与各个用户id分别对应的衍生特征。即,提取的特征可包括基础特征和/或衍生特征。后面将会详细举例说明提取的基础特征和衍生特征。
进一步地,作为示例,可基于用户id将提取的基础特征和/或衍生特征拼接到对应的样本上,以得到并入了特征的样本表。
在步骤S40中,使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
应该理解,可使用各种适当的机器学习算法来训练所述机器学习模型。作为示例,所述机器学习算法可为模型融合(stacking)算法。
模型融合算法是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为样本表,第二层的模型则是以第一层基学习器的输出作为训练集进行再训练,从而得到完整的stacking模型。换言之,就是选择多个不同的模型分别进行预测,然后在各个模型的预测结果之上建立一个预测模型,来得到最终的预测结果。模型融合可以结合不同模型的优点,进一步提升模型效果,例如,本发明的示例性实施例所使用的模型融合算法可采用逻辑回归、GBDT(Gradient Boosting Decision Tree)梯度提升迭代决策树等算法进行模型融合。
下面将详细举例说明训练数据集所包括的数据表。
具体说来,已确诊用户表可包括正样本用户的用户id及其确诊时间。
用户轨迹表为时序表,可包括用户id及用户的移动终端在每个时间段所使用的基站的基站id,且用户id为表主键。
用户信息表为静态表,可包括用户id及用户的属性信息。作为示例,所述属性信息可包括以下信息中的至少一项:套餐资费、套餐流量、套餐通话时长、套餐短信条数、月使用的上网流量(例如,所述特定时间跨度所涉及的每个月份的上网流量)、月通话时长、月使用的短信条数、月话费、平均每月(例如,所述特定时间跨度所涉及的所有月份的平均每月)通话时长(MOU)、平均每月使用的上网流量(DOU)、平均每月使用的短信条数、平均每月的话费(ARPU)、是否为集团用户、手机号注册地(例如,可具体到省市区县)、入网年限、年龄、性别。其中,用户id为表主键。
基站表为静态表,可包括基站id及基站的地理位置信息。例如,基站的地理位置信息可包括以下项之中的至少一项:基站的经度、基站的纬度、基站所处的省市区县。其中,基站id为表主键。
用户通信记录表可包括用户id及用户使用移动终端与其他移动终端的用户的通信记录。例如,这里的通信可指电话通信、短信通信、网络通信等能够被基站记载通信历史的通信方式。作为示例,可基于用户的移动终端与基站通信的信令数据,获取用户使用移动终端与其他移动终端的用户的通信记录。
用户通讯录信息表可包括用户id及用户的移动终端的至少一个应用的通讯录中的联系人的用户id。例如,所述至少一个应用可包括拨号应用和/或即时聊天应用。
作为示例,将所述训练数据集所包括的数据表中的信息直接处理为的基础特征可包括以下项之中的至少一项:用于指示年龄的特征、用于指示性别的特征、用于指示月话费的特征、用于指示平均每月通话时长(MOU)的特征、用于指示平均每月使用的上网流量(DOU)的特征、用于指示基于入网年限得到的入网时长的特征、用于指示平均每月的话费(ARPU)的特征。应该理解,所述基础特征还可包括其他的能够通过对所述训练数据集所包括的数据表中的信息进行直接处理而得到的特征。
下面将详细举例说明为各条样本分别生成的衍生特征。
作为示例,所述衍生特征可包括以下项之中的至少一项:关于用户的活动活跃程度的聚合特征、关于用户与正样本用户的社交亲密度的聚合特征、关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征、关于用户出现在易感染区域的聚合特征。应该理解,所述衍生特征还可包括能够基于用户的移动终端相关数据而得到的其他类型的特征。
这里,用户在一时间段出现的基站区域为该用户的移动终端在该时间段所使用的基站所对应的区域,换言之,该用户在该时间段在该基站区域停留过,从而在一定程度上可以用该基站区域来表征该用户在该时间段的活动地点。例如,基站所对应的区域可理解为当用户的移动终端进入该区域,将会使用该基站。
易感染区域为各个正样本用户在各个时间段出现过的基站区域,也即,在某个时间段曾出现过正样本用户的基站区域,换言之,所有正样本用户在各个时间段出现的基站区域的集合即为易感染区域。
作为示例,关于用户的活动活跃程度的聚合特征可包括以下项之中的至少一项:用于指示该用户在特定时间之前n天内出现过的所有基站区域的数量的特征、用于指示该用户在特定时间之前n天内出现过的所有省/市的数量的特征、用于指示该用户在特定时间之前n天内出现过的所有基站区域的经度最大值的特征、用于指示该用户在特定时间之前n天内出现过的所有基站区域的经度最小值的特征、用于指示该用户在特定时间之前n天内出现过的所有基站区域的纬度最大值的特征、用于指示该用户在特定时间之前n天内出现过的所有基站区域的纬度最小值的特征、用于指示该用户在特定时间之前n天内的最大活动距离(例如,横向距离/纵向距离/欧式距离等)的特征、用于指示该用户是否为外省人的特征。其中,n为大于0的整数,例如,可令n依次为多个值,例如,可依次为1,2,……,7。
作为示例,如果该用户为正样本用户,则其对应的特定时间可为该用户的确诊时间;如果该用户为负样本用户,则其对应的特定时间可为按特定规则赋予该用户的时间。作为示例,按所述特定规则赋予该用户的特定时间可为所述特定时间跨度的最后一天,或者,可按所有正样本用户的确诊时间的分布情况来统一设置所有负样本用户分别对应的特定时间,例如,可使所有负样本用户对应的特定时间的分布情况与所有正样本用户的确诊时间的分布情况一致。
作为示例,可根据用户的手机号注册地与主要活动地是否相同,来确定该用户是否为外省人。作为示例,基站区域的经度和维度可根据基站的地理位置信息确定,进而可确定用户出现过的所有基站区域的经度最大值、经度最小值、纬度最大值、纬度最小值、用户的最大活动距离、用户的主要活动地等。作为示例,基站区域所在的省/市可根据基站的地理位置信息确定,进而可确定用户出现过的所有省/市。
作为示例,可令n依次为1,2,……,7,例如,用于指示该用户在特定时间之前n天内出现过的所有基站区域的数量的特征可包括:用于指示该用户在特定时间之前1天内的各个时间段出现过的不同基站区域的总数的特征、用于指示该用户在特定时间之前2天内的各个时间段出现过的不同基站区域的总数的特征、……、用于指示该用户在特定时间之前7天内的各个时间段出现过的不同基站区域的总数的特征。
作为示例,关于用户与正样本用户的社交亲密度的聚合特征可包括:关于与该用户具有不同社交亲密度的正样本用户的数量的统计值的特征,其中,用户间的社交亲密度是基于用户间的通话记录和/或用户的通讯录信息确定的。
作为示例,用户间的社交亲密度可使用用户间的最短社交距离来表征,且用户间的最短社交距离越短,说明用户间的社交亲密度越高。作为示例,关于与该用户具有不同社交亲密度的正样本用户的数量的统计值的特征可包括以下项之中的至少一项:用于指示与该用户的最短社交距离为i的正样本用户的数量的特征、用于指示与该用户的最短社交距离为i的正样本用户的数量占与该用户的最短社交距离为i的用户的总数的比例的特征,其中,i为大于0的整数,可令i依次为多个值,例如,可为1,2,……,7。
作为示例,可基于用户间的通信记录和/或用户的通讯录中记录的其他用户,构造关于该用户与其他用户之间的最短社交距离的社交距离图,例如,如果用户之间直接有通信记录或被记录在对方的通讯录中,即两者直接相邻,则可定义两者之间的最短社交距离为1,如果用户之间没有直接相邻而是间接地通过另一用户有社交关系,则可定义两者之间的最短社交距离为2。
此外,除了可基于该用户直接与其他用户的通信记录、与该用户有通信记录的用户(直接或再经过与其有通信记录的用户间接地)与其他用户的通信记录来确定用户间的社交亲密度,还可进一步地基于用户间的通信次数确定用户间的社交亲密度,且通信次数越多,社交亲密度越高。
根据本发明的实施例,考虑到传染病很大可能在彼此之间社交亲密度比较高的用户(例如,亲人、同事、朋友)间传播,因此,将关于用户与正样本用户的社交亲密度的聚合特征用于模型,以提高模型的预测效果。
作为示例,关于用户出现在易感染区域的聚合特征可包括以下项之中的至少一项:关于该用户出现在每个易感染区域的次数的统计值的特征、关于该用户出现在不同危险程度的易感染区域的次数的统计值的特征,其中,易感染区域的危险程度与正样本用户出现过的次数有关,所有正样本用户出现过的总次数越多,易感染区域的危险程度越高。
作为示例,关于该用户出现在每个易感染区域的次数的统计值的特征可包括以下项之中的至少一项:用于指示该用户出现在不同易感染区域的总次数的特征、用于指示该用户出现在不同易感染区域的次数的平均值的特征、用于指示该用户出现在不同易感染区域的次数的最大值的特征、用于指示该用户出现在不同易感染区域的次数的最小值的特征、用于指示该用户出现在不同易感染区域的次数的标准差的特征。应该理解,用户出现在不同易感染区域的次数可能不同或不同。
作为示例,关于该用户出现在不同危险程度的易感染区域的次数的统计值的特征可包括以下项之中的至少一项:用于指示该用户出现在正样本用户曾累计出现过m次的不同易感染区域的总次数的特征、用于指示该用户出现在正样本用户曾累计出现过m次的不同易感染区域的次数的平均值的特征、用于指示该用户出现在正样本用户曾累计出现过m次的不同易感染区域的次数的最大值的特征、用于指示该用户出现在正样本用户曾累计出现过m次的不同易感染区域的次数的最小值的特征、用于指示该用户出现在正样本用户曾累计出现过m次的不同易感染区域的次数的标准差的特征。其中,m为大于0的整数,应该理解,可令m依次为多个值。作为示例,一个正样本用户在一个时间段曾出现在一个基站区域,可记为正样本用户曾出现过一次。正样本用户曾累计出现过m次的不同易感染区域即所有正样本用户曾累计出现过m次的易感染区域之中的各个易感染区域。
作为示例,关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征可包括:关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征。
作为示例,生成关于用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征的步骤可包括:基于所述用户轨迹表和所述已确诊用户表,构造关于所有正样本用户在其确诊时间之前的所有活动轨迹的字典;然后针对每个用户,判断该用户的轨迹点是否与所述字典中确诊时间在特定时间之前的正样本用户的轨迹点相重合,并对重合的轨迹点进行统计,以得到关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征。其中,所述字典中的每个元素分别为一个用于表征一个正样本用户在一个时间段出现在一个基站区域的轨迹点。实际上,由时间段和基站区域两者可定义用户的一个轨迹点。应该理解,每个用户对应的特定时间可按照前述实施例来得到。
作为示例,关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征可包括以下项之中的至少一项:用于指示该用户与不同正样本用户在同一时间段出现在同一基站区域的总次数的特征、用于指示该用户与不同正样本用户在同一时间段出现在同一基站区域的次数的均值的特征、用于指示该用户与不同正样本用户在同一时间段出现在同一基站区域的次数的方差的特征、用于指示与该用户连续在k个时间段出现在同一基站区域(即,相同基站区域)的正样本用户的总数的特征。其中,k为大于0的整数,应该理解,可令k依次为多个值,例如,可依次为1、2、……,7。
考虑到移动终端的基站定位数据能够从用户粒度描述个体的活动轨迹,对发现可能感染某种传染病的高危人群有重要意义,根据本发明的示例性实施例基于基站定位数据并补充其他相关维度的数据,通过计算关于每个用户的活动轨迹、活动范围、活跃程度、与已确诊用户接触的时间长短及活动地点远近、是否到过易感染区域、与已确诊用户的社交数据、以及用户本身的基本信息(例如,年龄,性别,经济状况等)等特征,构建了一个能够精准筛查传染病高风险感染人群的机器学习模型,从而可以快速有效地找出所有移动终端的用户中最有可能被感染的人群,以实现及时发现、及时隔离、有效防止疾病继续扩散。
此外,作为示例,根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的方法还可包括:在步骤S30之前,对训练数据集所包括的每个数据表中的数据进行基础检查和清洗。
作为示例,对每个数据表中的数据进行基础检查和清洗的步骤可包括以下处理中的至少一项:
对每个数据表进行行清洗,例如,可针对每个数据表,检查数据表的每行的列数是否相同、是否有重复、缺失、错位等情况;
对每个数据表进行列清洗,例如,可针对每个数据表,检查数据表的每一列是否变量类型相同,并统计最大值、最小值、均值、标准差、对缺失值统计填充率;
对每个数据表进行时间检查,例如,可针对每个数据表,检查数据表的时间列是否在规定的时间范围内,例如,是否为连续的20天数据;
对每个数据表进行字符编码,例如,可针对每个数据表,对字符类数据先统一大小写,然后进行编码处理;
对每个数据表的缺失值进行处理,例如,可针对每个数据表,对缺失值填充均值或0,但对时序数据填充均值时要注意时间窗口不能向后开。
图2示出根据本发明示例性实施例的筛查传染病高风险感染人群的方法的流程图。
参照图2,在步骤S50中,获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的。
应该理解,在步骤S50中获取关于待筛查用户的预测数据集的方式与在步骤S10中获取训练数据集的方式类似,在此不再赘述。
在步骤S60中,基于所述预测数据集,为各个待筛查用户分别提取特征。
应该理解,在步骤S60中的特征提取方式与在步骤S30中的特征提取方式一致,在此不再赘述。
在步骤S70中,利用通过执行如上述示例性实施例所述的生成传染病高风险感染人群筛查模型的方法而生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度。
具体说来,将提取的与每个待筛查用户对应的特征输入到所述筛查模型,并获取所述筛查模型输出的用户感染所述指定类型传染病的风险程度。
在步骤S80中,输出预测的用户感染所述指定类型传染病的风险程度。从而,只需对风险程度较高的用户进行观察和诊断即可。
作为示例,还可按照预测的风险程度从高到低的顺序,输出用户的排序结果。
作为另一示例,可仅输出预测的风险程度满足预设条件的用户的风险程度。例如,所述预设条件可为风险程度高于预设阈值,或者,风险程度在所有待筛查用户中处于前N或前M%,其中,N为大于0的整数,M为大于0的数。
作为另一示例,可仅输出预测的风险程度满足所述预设条件的待筛查用户的风险程度,且按照预测的风险程度从高到低的顺序,输出排序结果。
图3示出根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的***的框图。
如图3所示,根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的***包括:数据集获取装置10、样本表建立装置20、特征提取装置30、以及训练装置40。
具体说来,数据集获取装置10适于获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的。
样本表建立装置20适于建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户。
特征提取装置30适于基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表。
训练装置40适于使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
作为示例,所述用户轨迹信息可包括:用户的移动终端在每个时间段所使用的基站的基站标识,其中,各个时间段是按预设时间粒度划分特定时间跨度得到的。
作为示例,用户的移动终端在每个时间段所使用的基站可为:用户的移动终端在每个时间段内使用时间最长的基站或用户的移动终端在每个时间段内的指定时间点所使用的基站。
作为示例,数据集获取装置10可适于获取所述特定时间跨度内的用户的移动终端与基站通信的信令数据;并基于所述信令数据获取每个用户的移动终端在所述特定时间跨度的每个时间段所使用的基站的基站id。
作为示例,所述训练数据集可包括以下数据表中的至少一项:已确诊用户表,包括正样本用户的用户id及其确诊时间;用户轨迹表,包括用户id及用户的移动终端在每个时间段所使用的基站的基站id;用户信息表,包括用户id及用户的属性信息;基站表,包括基站id及基站的地理位置信息;用户通信记录表,包括用户id及用户使用移动终端与其他移动终端的用户的通信记录;用户通讯录信息表,包括用户id及用户的移动终端的至少一个应用的通讯录中的联系人的用户id。
作为示例,所述用户信息表可包括用户的以下属性信息中的至少一项:套餐资费、套餐流量、套餐通话时长、套餐短信条数、月使用的上网流量、月通话时长、月使用的短信条数、月话费、平均每月通话时长、平均每月使用的上网流量、平均每月使用的短信条数、平均每月的话费、是否为集团用户、手机号注册地、入网年限、年龄、性别。
作为示例,特征提取装置30可适于将所述训练数据集所包括的数据表中的信息直接处理为与各个用户id分别对应的基础特征;和/或,基于所述训练数据集所包括的数据表中的信息生成与各个用户id分别对应的衍生特征。
作为示例,所述衍生特征可包括以下项之中的至少一项:关于用户的活动活跃程度的聚合特征、关于用户与正样本用户的社交亲密度的聚合特征、关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征、关于用户出现在易感染区域的聚合特征,其中,用户在一时间段出现的基站区域为该用户的移动终端在该时间段所使用的基站所对应的区域,易感染区域为各个正样本用户在各个时间段出现过的基站区域。
作为示例,关于用户的活动活跃程度的聚合特征可包括以下项之中的至少一项:用于指示该用户在特定时间之前出现过的所有基站区域的数量的特征、用于指示该用户在特定时间之前出现过的所有省/市的数量的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最小值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最小值的特征、用于指示该用户在特定时间之前的活动距离的特征、用于指示该用户是否为外省人的特征。
作为示例,如果该用户为正样本用户,则其对应的特定时间可为该用户的确诊时间;如果该用户为负样本用户,则其对应的特定时间可为按特定规则赋予该用户的时间。进一步地,作为示例,按所述特定规则赋予该用户的特定时间可为所述特定时间跨度的最后一天,或者,可按所有正样本用户的确诊时间的分布情况来统一设置所有负样本用户分别对应的特定时间。
作为示例,关于用户与正样本用户的社交亲密度的聚合特征可包括:关于与该用户具有不同社交亲密度的正样本用户的数量的统计值的特征,其中,用户间的社交亲密度是基于用户间的通话记录和/或用户的通讯录信息确定的。
作为示例,关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征可包括:关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征。
作为示例,关于用户出现在易感染区域的聚合特征可包括以下项之中的至少一项:关于该用户出现在每个易感染区域的次数的统计值的特征、关于该用户出现在不同危险程度的易感染区域的次数的统计值的特征,其中,易感染区域的危险程度与正样本用户出现过的次数有关。
作为示例,特征提取装置30可适于基于所述用户轨迹表和所述已确诊用户表,构造关于所有正样本用户在其确诊时间之前的所有活动轨迹的字典;针对每个用户,判断该用户的轨迹点是否与所述字典中确诊时间在特定时间之前的正样本用户的轨迹点相重合,并对重合的轨迹点进行统计,以得到关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征,其中,所述字典中的每个元素分别为一个用于表征一个正样本用户在一个时间段出现在一个基站区域的轨迹点。
作为示例,所述机器学习算法可为模型融合算法。
应该理解,根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的***的具体实现方式可参照结合图1描述的相关具体实现方式来实现,在此不再赘述。
图4示出根据本发明示例性实施例的筛查传染病高风险感染人群的***的框图。
如图4所示,根据本发明示例性实施例的筛查传染病高风险感染人群的***可包括:数据集获取装置50、特征提取装置60、预测装置70、以及输出装置80。
具体说来,数据集获取装置50适于获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的。
特征提取装置60适于基于所述预测数据集,为各个待筛查用户分别提取特征。
预测装置70适于利用如上所述的生成传染病高风险感染人群筛查模型的***所生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度。
输出装置80适于输出预测的用户感染所述指定类型传染病的风险程度。
作为示例,输出装置80可适于按照预测的风险程度从高到低的顺序,输出用户的排序结果。
作为另一示例,输出装置80可适于仅输出预测的风险程度满足预设条件的用户的风险程度。
应该理解,根据本发明示例性实施例的筛查传染病高风险感染人群的***的具体实现方式可参照结合图2描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的***所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
根据本发明示例性实施例的筛查传染病高风险感染人群的***所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种生成传染病高风险感染人群筛查模型的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
应理解,根据本发明示例性实施例的筛查传染病高风险感染人群的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种筛查传染病高风险感染人群的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的;基于所述预测数据集,为各个待筛查用户分别提取特征;利用通过执行如上述示例性实施例所述的方法而生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度;输出预测的用户感染所述指定类型传染病的风险程度。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1和图2进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的***可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个***通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的***所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
应注意,根据本发明示例性实施例的筛查传染病高风险感染人群的***可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个***通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的筛查传染病高风险感染人群的***所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行生成传染病高风险感染人群筛查模型的方法和/或筛查传染病高风险感染人群的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制***或***管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
根据本发明示例性实施例的筛查传染病高风险感染人群的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的生成传染病高风险感染人群筛查模型的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
根据本发明示例性实施例的筛查传染病高风险感染人群的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的筛查传染病高风险感染人群的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的;基于所述预测数据集,为各个待筛查用户分别提取特征;利用通过执行如上述示例性实施例所述的方法而生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度;输出预测的用户感染所述指定类型传染病的风险程度。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种生成传染病高风险感染人群筛查模型的方法,其中,所述方法包括:
获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;
建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;
基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;
使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
2.如权利要求1所述的方法,其中,所述用户轨迹信息包括:用户的移动终端在每个时间段所使用的基站的基站标识,
其中,各个时间段是按预设时间粒度划分特定时间跨度得到的。
3.如权利要求2所述的方法,其中,用户的移动终端在每个时间段所使用的基站为:用户的移动终端在每个时间段内使用时间最长的基站或用户的移动终端在每个时间段内的指定时间点所使用的基站。
4.如权利要求2所述的方法,其中,所述训练数据集包括以下数据表中的至少一项:
已确诊用户表,包括正样本用户的用户id及其确诊时间;
用户轨迹表,包括用户id及用户的移动终端在每个时间段所使用的基站的基站id;
用户信息表,包括用户id及用户的属性信息;
基站表,包括基站id及基站的地理位置信息;
用户通信记录表,包括用户id及用户使用移动终端与其他移动终端的用户的通信记录;
用户通讯录信息表,包括用户id及用户的移动终端的至少一个应用的通讯录中的联系人的用户id。
5.如权利要求4所述的方法,其中,基于所述训练数据集为所述样本表中的各条样本分别提取特征的步骤包括:
将所述训练数据集所包括的数据表中的信息直接处理为与各个用户id分别对应的基础特征;
和/或,基于所述训练数据集所包括的数据表中的信息生成与各个用户id分别对应的衍生特征,其中,所述衍生特征包括以下项之中的至少一项:关于用户的活动活跃程度的聚合特征、关于用户与正样本用户的社交亲密度的聚合特征、关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征、关于用户出现在易感染区域的聚合特征,
其中,用户在一时间段出现的基站区域为该用户的移动终端在该时间段所使用的基站所对应的区域,易感染区域为各个正样本用户在各个时间段出现过的基站区域。
6.一种筛查传染病高风险感染人群的方法,其中,所述方法包括:
获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的;
基于所述预测数据集,为各个待筛查用户分别提取特征;
利用通过执行如权利要求1至5之中任一权利要求所述的方法而生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度;
输出预测的用户感染所述指定类型传染病的风险程度。
7.一种生成传染病高风险感染人群筛查模型的***,其中,所述***包括:
数据集获取装置,适于获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;
样本表建立装置,适于建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;
特征提取装置,适于基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;
训练装置,适于使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。
8.一种筛查传染病高风险感染人群的***,其中,所述***包括:
数据集获取装置,适于获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的;
特征提取装置,适于基于所述预测数据集,为各个待筛查用户分别提取特征;
预测装置,适于利用如权利要求7所述的***所生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度;
输出装置,适于输出预测的用户感染所述指定类型传染病的风险程度。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的***,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的生成传染病高风险感染人群筛查模型的方法和/或如权利要求6所述的筛查传染病高风险感染人群的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的生成传染病高风险感染人群筛查模型的方法和/或如权利要求6所述的筛查传染病高风险感染人群的方法。
CN202010323348.XA 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及*** Active CN111524609B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210473295.9A CN115171910A (zh) 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及***
CN202010323348.XA CN111524609B (zh) 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010323348.XA CN111524609B (zh) 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及***

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210473295.9A Division CN115171910A (zh) 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及***

Publications (2)

Publication Number Publication Date
CN111524609A true CN111524609A (zh) 2020-08-11
CN111524609B CN111524609B (zh) 2022-04-08

Family

ID=71903494

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210473295.9A Pending CN115171910A (zh) 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及***
CN202010323348.XA Active CN111524609B (zh) 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及***

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210473295.9A Pending CN115171910A (zh) 2020-04-22 2020-04-22 生成筛查模型、筛查传染病高风险感染人群的方法及***

Country Status (1)

Country Link
CN (2) CN115171910A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150411A (zh) * 2020-08-28 2020-12-29 刘军 一种信息处理的方法及装置
CN112185582A (zh) * 2020-09-14 2021-01-05 清华大学 一种基于主动报送数据的传染病防控方法和***
CN112699317A (zh) * 2020-12-31 2021-04-23 曜立科技(北京)有限公司 一种提高瓣膜病筛查质量的***及方法
CN113382402A (zh) * 2021-05-31 2021-09-10 中科苏州智能计算技术研究院 基于泛基站的人口特征分析方法及其应用
CN114446485A (zh) * 2020-11-02 2022-05-06 上海博泰悦臻网络技术服务有限公司 传染病危害评估区域生成方法及***、存储介质及平台
CN115002697A (zh) * 2021-02-26 2022-09-02 中移(苏州)软件技术有限公司 待核查用户的接触用户识别方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740615A (zh) * 2016-01-28 2016-07-06 中山大学 利用手机轨迹追踪传染源和预测传染病流行趋势的方法
CN107133901A (zh) * 2017-05-05 2017-09-05 中国科学院深圳先进技术研究院 一种传染病防控方法及***
CN108520343A (zh) * 2018-03-26 2018-09-11 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN108986921A (zh) * 2018-07-04 2018-12-11 泰康保险集团股份有限公司 疾病预测方法、装置、介质及电子设备
CN109360660A (zh) * 2018-10-31 2019-02-19 河南省疾病预防控制中心 一种疾控与出行信息互联的防控方法及防控***
US10376211B2 (en) * 2015-10-29 2019-08-13 Jean Fuh Method for continuously detecting body physiological information trajectories and establishing disease prevention using a personal wearable device
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备
CN110993103A (zh) * 2019-11-28 2020-04-10 阳光人寿保险股份有限公司 疾病风险预测模型的建立方法和疾病保险产品的推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10376211B2 (en) * 2015-10-29 2019-08-13 Jean Fuh Method for continuously detecting body physiological information trajectories and establishing disease prevention using a personal wearable device
CN105740615A (zh) * 2016-01-28 2016-07-06 中山大学 利用手机轨迹追踪传染源和预测传染病流行趋势的方法
CN107133901A (zh) * 2017-05-05 2017-09-05 中国科学院深圳先进技术研究院 一种传染病防控方法及***
CN108520343A (zh) * 2018-03-26 2018-09-11 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN108986921A (zh) * 2018-07-04 2018-12-11 泰康保险集团股份有限公司 疾病预测方法、装置、介质及电子设备
CN109360660A (zh) * 2018-10-31 2019-02-19 河南省疾病预防控制中心 一种疾控与出行信息互联的防控方法及防控***
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备
CN110993103A (zh) * 2019-11-28 2020-04-10 阳光人寿保险股份有限公司 疾病风险预测模型的建立方法和疾病保险产品的推荐方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150411A (zh) * 2020-08-28 2020-12-29 刘军 一种信息处理的方法及装置
CN112150411B (zh) * 2020-08-28 2023-12-15 刘军 一种信息处理的方法及装置
CN112185582A (zh) * 2020-09-14 2021-01-05 清华大学 一种基于主动报送数据的传染病防控方法和***
CN114446485A (zh) * 2020-11-02 2022-05-06 上海博泰悦臻网络技术服务有限公司 传染病危害评估区域生成方法及***、存储介质及平台
CN112699317A (zh) * 2020-12-31 2021-04-23 曜立科技(北京)有限公司 一种提高瓣膜病筛查质量的***及方法
CN115002697A (zh) * 2021-02-26 2022-09-02 中移(苏州)软件技术有限公司 待核查用户的接触用户识别方法、装置、设备及存储介质
CN115002697B (zh) * 2021-02-26 2024-01-26 中移(苏州)软件技术有限公司 待核查用户的接触用户识别方法、装置、设备及存储介质
CN113382402A (zh) * 2021-05-31 2021-09-10 中科苏州智能计算技术研究院 基于泛基站的人口特征分析方法及其应用

Also Published As

Publication number Publication date
CN115171910A (zh) 2022-10-11
CN111524609B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111524609B (zh) 生成筛查模型、筛查传染病高风险感染人群的方法及***
CN112084422B (zh) 一种账号数据智能处理方法和装置
Cochrane Public Health Group et al. Digital contact tracing technologies in epidemics: a rapid review
CN109960761B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
US20190080063A1 (en) De-identification architecture
CN108650614B (zh) 一种自动推断社会关系的移动用户位置预测方法与装置
US20220277106A1 (en) Method and apparatus for de-identification of personal information
CN109344326B (zh) 一种社交圈的挖掘方法和装置
JP2013506204A (ja) コミュニティ内の接続を決定するためのソーシャルグラフデータ解析用システムおよび方法
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
CN111143665B (zh) 一种欺诈的定性方法、装置及设备
CN112543926A (zh) 确定网络设备的地理位置
CN112365007B (zh) 模型参数确定方法、装置、设备及存储介质
CN112954626A (zh) 手机信令数据分析方法、装置、电子设备及存储介质
CN112669188A (zh) 危机事件预警模型构建、危机事件预警方法和电子设备
CN107451249B (zh) 事件发展趋势的预测方法及装置
CN108984339A (zh) 数据恢复方法及相关产品
CN112465565A (zh) 一种基于机器学习的用户画像预测的方法及装置
CN110502549B (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN115082999A (zh) 合影图像人物分析方法、装置、计算机设备和存储介质
CN110148011B (zh) 基于大数据的活跃量下降分析方法、装置、设备及介质
CN114997259A (zh) 图像聚类方法、图像聚类模型训练方法和电子设备
CN112257111A (zh) 动态数值脱敏方法、装置及存储介质
US20190335326A1 (en) Aggregating network cell data to address user privacy
CN116415237B (zh) 风险设备识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant