CN113010572A

CN113010572A - 基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法

Info

Publication number: CN113010572A
Application number: CN202110292515.3A
Authority: CN
Inventors: 马汉杰; 董慧; 许永恩; 刘烈宏; 李柏睿
Original assignee: Hangzhou Maquan Information Technology Co ltd
Current assignee: Hangzhou Maquan Information Technology Co ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-22
Anticipated expiration: 2041-03-18
Also published as: CN113010572B

Abstract

本发明公开了一种基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法，通过对公共数字生活中的一些重点生活场景中的多源异构数据进行数据分析、提取，生成信息和行为要素特征库，将其与用户数字画像结合，构建个性化规则机制，及时准确地对不同重点生活场景做出预测预警，为事前干预做出有力支撑，可应用于公共安全卫生预警、心理健康预警、校园欺凌事件预警等。

Description

基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法

技术领域

本发明属于大数据分析技术领域，具体涉及一种基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法。

背景技术

随着云计算、大数据等互联网技术的更新迭代以及生活水平的不断提高，人们对于基础教育、公共卫生、公共交通、养老等公共服务需求不断扩大，各级政府部门也在时刻思考、关注在互联网+的时代背景下创新政府公共服务模式，推进公共生活数字化，提供生活便利。在公共数字生活中，一些重点生活场景如经济纠纷事件、火灾等场景，一旦出现问题，将会对人民群众的利益和社会稳定造成严重影响，在这些重点生活场景中，做出预测预警，提前发现能避免重大损失。而另外一些生活场景如路线规划、智能推荐等场景，进行精准分析和预测，可为人民群众提供极大的便利，提高人民生活幸福感；因此，能够及时准确地对不同重点生活场景做出预测预警、为事前干预做出有力支撑已成为迫切需要解决的问题。

现有的预测预警技术，仍然是基于单一维度或少数维度的特征对人们的行为进行分析预测，有分析特征不够全面，预测准确率较低等缺点。公开号为 CN106709606A的中国专利提供了一种个性化场景预测方法及装置，其首先基于位置服务获取用户的地理位置信息，所述地理位置信息包括与时间相关联的POI 信息，接着对用户在预设期间内所有的地理位置信息进行聚类分析，获取生活***台，包括顺次链接的预警***、通信模块、云数据平台和信息接收终端，预警***包括自然灾害预警***、事故灾难预警***、公共卫生事件预警***、社会安全事件预警***，信息接收终端包括PC端或移动终端，且PC端或移动终端分别通过预警应用程序界面显示预警信息，其将自然灾害预警***、事故灾难预警***、公共卫生事件预警***和社会安全事件预警***监测到的预警信息通过通信模块传输至云数据平台，并发送至PC端或移动终端，经预警应用程序界面显示预警信息，使得公众与预警***能够较好的衔接，仅通过一个预警应用程序就能够及时知晓预警信息，方便快捷。公开号为CN109711613A的中国专利提供了一种基于人员关系模型和事件关联模型的预警方法及***，该方法从公共安全大数据提取模型信息数据，对模型信息数据进行过滤处理；根据人员身份数据对模型信息数据进行统计分析，提取出多次反映事件的人员创建人员关系模型；根据事件数据对模型信息数据进行语义要素的抽取，提取出人员多次反映的事件创建事件关系模型；根据一个人反映事件的次数设置人员预警阈值；根据多人反映一件事的次数设置事件预警阈值，对超出预警阈值的人员和事件进行预警。

综上分析，一个优质的预警***要能够准确及时地对不同重点生活场景做出预测预警，同时还要融合用户的多维属性，打破局限、关联各维属性，根据各维属性特征使用相对应的处理方法，使预警***更加及时，更加准确。

发明内容

鉴于上述，本发明提供了一种基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法，能够及时准确地对不同重点生活场景做出预测预警，为事前干预做出有力支撑。

一种基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法，包括如下步骤：

(1)通过物联网、应用端、业务***三种接入途径获取海量多源异构数据，并建立数据库；

(2)对数据库进行分层，构建人、企、地、事、物五个基础要素主题库；

(3)采用批流式大数据实时处理技术对多源异构数据进行处理；

(4)将上述五个基础要素主题库与具体的应用场景相结合，构建具体应用场景下用户数字画像的五个维度：人口属性、生活属性、社交属性、消费特征、心理属性；

(5)根据处理过后的多源异构数据，通过数据挖掘分析用户标签构建用户数字画像；

(6)针对具体应用场景，利用用户数字画像信息通过对深度贝叶斯网络进行训练，得到该场景下的事件风险预测模型，进而利用该模型对目标事件存在的风险进行预测预警。

进一步地，所述步骤(1)中的多源异构数据包括结构化数据和非结构化数据，结构化数据包括了以房屋、地址等基本信息在内的基础数据以及以车辆出入信息和物联感知信息在内的扩展数据，非结构化数据包括了人员采集的生活事件信息、摄像头等设备采集的视频监控数据、音频类以及图像类数据。

进一步地，所述步骤(3)中的批流式大数据实时处理技术包括了数据采集、数据加载、数据总线、数据分析、业务服务五个功能模块，数据采集模块负责使用物联网采集、应用端采集的方式实时接入流数据；数据加载模块负责加载历史离线数据以及从业务***中接入流数据；数据总线模块负责将各类数据按照统一的格式放入指定通道进行传输；数据分析模块负责对实时数据进行抽取、加工和产品数据的推送服务；当收到业务***发出的实时查询请求时，数据分析模块能够利用内部的分析处理模型在完整大数据集上实时计算出相应的指标并进行判断，将结果通过业务服务模块反馈给业务***。

进一步地，所述步骤(4)中的人口属性用于描述用户社会层面基本特征信息，帮助各个重点生活应用场景了解用户的基本情况(具体包括姓名、性别、年级专业、学号、宿舍号、身高、年龄、婚否、联系方式、职业等等)；所述生活属性用于了解用户的生活状况，包括生活活动范围(包括食堂、教学楼、宿舍楼、商场、公交车站、火车站等)和出行方式(包括自行车、共享单车、电动车、公交车、自驾车等)，以便后续给用户提供精准的服务；所述社交属性用于描述用户的社交图谱、家庭成员、朋友圈、兴趣爱好(具体包括室友、同学、学生、老师、较为亲密、喜欢去图书馆等等)，这些信息往往代表用户的社会关系网，通过社交信息可以尽可能完整地了解用户，以便为用户提供个性化的服务；所述消费特征用于描述用户主要消费习惯和消费偏好(包括有车族、购物类型、购买周期、品牌偏好等等)，用于挖掘相关消费服务的***，依据用户消费特点推荐相关产品和服务，提高推荐转化率；所述心理属性用于关注用户的心理状况信息(如性格、能力、气质、价值观、情感、思维等)，通过匿名问卷调查或相似用户聚类的方式获取用户心理情况，根据其心理状况提供相应的心理服务或进行重点关注。

进一步地，所述步骤(5)中针对多源异构数据中的非视频数据和视频数据，分别采用基于原始数据挖掘的用户标签构建方式以及基于视频结构化技术的用户标签构建方式；对于非视频数据，基于原始数据挖掘的用户标签构建方式融合了自然语言处理、用户意图识别、关联规则、聚类分析以及轨迹相似度五种方法；对于特定用户特定维度数据缺失的情况，则使用协同过滤算法通过对其他相似用户的分析补全特征，保证用户标签的完备性；对于视频数据，基于视频结构化技术的用户标签构建方式融合了目标检测、OpenCV+CNN情绪识别、 GaitSet步态识别三种方法。

进一步地，所述自然语言处理过程采用TF-IDF算法计算文本之间的相似度，进而根据相似度采用fastText分类器对文本进行归类，最后采用Word2Vec提取文本中的词向量，利用LSTM将各词向量融合成句向量并输入至预先训练好的递归神经网络或循环神经网络，从而预测分析出同类文本所展现的情感。

进一步地，所述用户意图识别即根据用户的搜索记录或者已分析出的用户标签对用户的行为意图进行判断，具体实现过程中采用TF-IDF算法对数据进行向量化，利用词频、卡方和互信息的方式进行特征选择，最后采用预先训练好的决策树CART(Classificationand Regression Trees)、包含多个决策树的随机森林、逻辑回归或贝叶斯模型对用户的行为意图进行判断。

进一步地，所述关联规则即用于发掘表面看似无规律的数据间的关联性，从而发现数据之间的规律性和发展趋势，具体实现过程中则采用Apriori或 FP-Growth算法；所述聚类分析即用于将相似的数据归为一类，原则上是使每一类数据的相似性最大，聚类作为无监督算法，适合对高维度数据进行分析；所述轨迹相似度即从时间域和空间域上分析行为轨迹，从历史行为轨迹中挖掘用户的日常行为规律和偏好，并为其打上标签。

进一步地，所述OpenCV+CNN情绪识别用于检测出视频图像中人脸的表情状态，具体实现过程首先是人脸的检测与定位，然后是面部表情特征的提取，最后使用预先训练好的卷积神经网络CNN用于人脸表情的分类与判断。

进一步地，所述GaitSet步态识别用于检测出视频图像中人的行走姿态，具体实现过程中首先将图像输入卷积神经网络CNN中以提取特征，再集合多特征池化的方式为将图像中的特征聚合成一个特征向量，同时采用Horizontal Pyramid Pooling(水平金字塔池化，HPP)使得特征更具鉴别性，在预测计算上则采用双流法即包含两个通道：一个是RGB图像通道用于建模空间信息，另一个是光流通道用于RNN建模时序信息，两者联合训练并进行信息融合，最后将特征输入训练好的模型中从而实现步态识别。

进一步地，所述步骤(6)中深度贝叶斯网络的训练及预测过程为：首先分析具体应用场景中的用户数字画像信息，获取事件涉及的各类信息要素以及行为要素，了解事件各要素之间的关联关系，建立基于事件信息要素和行为要素的特征样本库；然后将特征样本与专家意见(即作为真值)相结合，确定网络节点的先验概率即风险概率的初始证据；进而将特征样本和初始证据输入到网络结构中，利用EM算法推测网络中非根节点的条件概率分布；最后基于贝叶斯算法准则，将先验概率和条件概率转化为后验概率，即目标事件发生风险的概率预测结果。

本发明公共数字生活场景规则模型预测预警方法通过对公共数字生活中的一些重点生活场景中的多源异构数据进行数据分析、提取，生成信息和行为要素特征库，将其与用户数字画像结合，构建个性化规则机制，可及时准确地对不同重点生活场景做出预测预警，为事前干预做出有力支撑。

附图说明

图1为本发明公共数字生活场景规则模型预测预警方法的流程示意图。

图2为本发明公共数字生活数据基础要素主题库示意图。

图3为本发明批流式大数据实时处理模块的具体数据处理流程示意图。

图4为本发明用户画像构建框架示意图。

图5为本发明个性化特征模型构建框架示意图。

图6为本发明事件异常预测预警模型路线示意图。

图7为本发明各类事件风险评估流程示意图。

图8为本发明针对公共安全预警技术路线示意图。

图9为本发明贝叶斯网络结构示意图。

图10(a)为本发明针对班级社交的贝叶斯网络示意图。

图10(b)为本发明针对性别社交的贝叶斯网络示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明的总体流程如图1所示，可应用于校园、小区、园区和乡村等场景。以下我们以校园场景为具体实例，介绍本发明基于深度贝叶斯网络的公共数字生活场景规则模型与预测预警方法，具体过程如下：

(1)多源异构数据接入。多源异构数据主要包括两个特征：一是数据来源具有多源性，例如摄像头、人闸、车闸等的图像采集，政府各部门的***数据接入；二是数据种类及形态具有复杂性即异构性。数据源主要包括两类数据，分别是结构化数据和非结构化数据，其中结构化数据以房屋、地址等基本信息为基础数据，扩展数据包括人脸数据、车辆出入数据和物联感知数据；非结构化数据包括：人员采集的生活事件信息、摄像头等设备采集的视频监控数据、音频类和图像类数据。在校园场景中，本实例从摄像头、人闸、车闸等物联设备，微信、微博、GPS等移动端以及校园一卡通数据、学生登记数据、出入记录、消费记录、校园wifi接入日志和一卡通等业务***数据中接入海量多源异构数据。

(2)构建基础要素主题库。对数据进行维度分解，构建人、企、地、事、物五个基础要素主题库，如图2所示。在校园场景中，要素主题库中的“人”可细化为学生、教职工、家长、访客等；“企”可细化为超市、小卖部、打印店、眼镜店等；“事”可细化为学生出入记录、陌生人访问记录、传染病情况等；“地”可细化为图书馆、食堂、教学楼等。

(3)数据处理。本实例结合批处理大数据计算框架和流处理大数据计算框架搭建一个批流式大数据实时处理模块，实现并行实时处理海量数据文件。

批流式大数据实时处理模块的具体数据处理流程如图3所示，模块内部分为数据采集、数据加载、数据总线、数据分析、业务服务等小模块。其中，数据采集模块负责使用物联网采集、应用端采集等方式实时的接入流数据；数据加载模块负责加载历史离线数据、以及从具体业务***中接入流数据；数据总线模块负责将各类数据按照统一的格式放入指定通道进行传输；数据分析模块负责对实时数据进行抽取、加工和产品数据的推送服务。当批流式大数据实时处理模块收到业务***发出的实时查询请求时，批流式大数据实时处理模块能够根据数据分析小模块中的分析处理模型在完整大数据集上实时计算出相应的指标，并进行判断，将结果通过业务服务模块反馈给业务***。

(4)构建用户画像的维度。将基础要素主题库中的数据与校园场景深度结合，如图4所示，提出构建围绕校园场景下用户画像的五大维度：人口属性、生活属性、社交属性、消费特征、心理属性，具体地：

人口属性用于描述用户社会层面基本特征信息，帮助各个重点生活应用场景知道用户的基本情况，具体包括：姓名、性别、年级专业、学号、宿舍号、身高、年龄、婚否、联系方式、职业等等。

生活属性用于了解用户的生活状况，如生活活动范围、出行方式等，以便后续给用户提供精准的服务，具体包括：生活活动范围、出行方式等；其中生活活动范围包括：食堂、教学楼、宿舍楼、商场、公交车站、火车站等，出行方式包括：自行车、共享单车、电动车、公交车、自驾车等。

社交属性用于描述用户的社交图谱、家庭成员、朋友圈、兴趣爱好等，这些信息往往代表用户的社会关系网，通过社交信息，可以尽可能完整的了解用户，以便为用户提供个性化的服务，具体包括：室友、同学、学生、老师、较为亲密、喜欢去图书馆等等。

消费特征用于描述用户主要消费习惯和消费偏好，用于消费相关服务的***，依据用户消费特点推荐相关产品和服务，转化率将非常高，消费特征包括：有车族、购物类型、购买周期、品牌偏好等等。

心理属性用于关注用户的心理状况信息，如性格、能力、气质、价值观、情感、思维等，通过匿名问卷调查或相似用户聚类获取其心理情况，根据其心理状况提供相应的心理服务，或者进行重点关注。

(5)构建用户数字画像。根据数据是属于非视频数据还是视频数据，提出了基于原始数据挖掘的用户标签构建、基于视频结构化技术的用户标签构建这两种用户画像标签构建方式，如图4所示。

对于非视频数据，使用主要使用数据挖掘算法中的自然语言处理(NLP)、聚类、分类、关联规则算法对五个要素主题库的数据等进行综合分析和计算，挖掘不同用户群体行为规律的差异，为用户打上标签。

通过非视频数据，无法直接获取用户出行的详细信息，例如行为方式和着装信息等。因此，为了解决这个问题，本实例采用结合传统算法和深度学习算法的视频结构化技术。

视频结构化技术是指将视频通过视频图像处理技术、文本分析技术等领域的算法提取出不同层次的关键信息，并对不同层次的关键信息进行相应的语义描述，最后通过视频标准化描述将关键的视频图像信息和对应的语义信息进行结构化存储，便于记录和检索视频的关键信息。该方法主要涉及到了目标检测、行为识别、情绪识别等技术，使得视频图像中的信息能够被有效的表达出来，并且能够对每一张图像生成相应的描述句，即文本标签；而对于数据不充分、难以确定的属性，本实例通过协同过滤算法，根据相似用户的对应属性进行补值。

本实例将主要从学生个人的角度构建学生画像，学生画像是丰富多元化的，譬如“学霸”、“学弱”、“运动达人”、“勤奋”以及“性格外向”等等。

(6)基于事件特征的深度贝叶斯网络规则模型构建方法：首先分析校园场景中的用户数字画像信息，获取事件涉及的各类信息要素以及行为要素，支撑事件特征模型构建，如图5所示。信息要素具体包括时间信息、地点信息、轨迹信息、人物信息、时间信息、学习成绩等；行为要素包括购置、出行、通信、逗留等。每一类重点生活场景都可以通过对事件进行本体解析，从中尽可能多的抽离出该类事件所特有的虚实空间甚至思维空间的信息要素和行为要素，在对多个同类事件进行分析的基础上，归纳该类事件的共性特点和共现行为，构建形成该类事件所特有的信息要素和行为要素特征库，支撑校园生活场景的风险预测预警分析。

(7)预测预警分析。各类事件对象在不同阶段所产生的行为多具有异常特征，一方面其行为较普通人的多数行为表现出异常性，另一方面其行为较自身的日常行为表现出异常性。针对目标对象的虚实空间的数据信息进行分析，包括基本信息、通信行为、网络行为、经济行为、消费痕迹、住宿痕迹等。如图6 所示，本实例通过分析目标对象的行为习惯，并结合实际情境与目标对象的日常行为或者其他普通人的行为展开比对挖掘，使用深度贝叶斯网络进行综合研判，识别异常行为，支撑对事件的异常感知。

在深度贝叶斯网络规则模型构建中，针对发生概率高、影响差的几类事件进行重点关注，如公共安全卫生异常、校园欺凌事件、心理健康异常事件等。采用深度贝叶斯网络进行预测预警分析，其基本原理是在已知先验概率及条件概率密度表达式的前提下，针对各类事件风险这一不确定性问题，通过样本的统计学习推断条件概率密度函数，并使用贝叶斯算法准则转化为后验概率。

深度贝叶斯网络(Deep Bayesian network)是对不确定性知识概率关系的描述，它将经典的概率论(Probability Theory)与图论(Graph Theory)结合起来，既具有概率论作为坚实的数理基础，同时又具有图论的形象直观表达。在深度贝叶斯网络中，如果网络中任一节点的状态确定，网络本身就可以利用贝叶斯规则在网络中进行正向或逆向推理，从而得出网络中任一节点的后验概率，这就是深度贝叶斯网络建立预测预警***的关键机理。

基于深度贝叶斯网络的预测预警模型搭建包括四个步骤：①基于事件的信息要素和行为要素特征库，了解事件个要素之间的关联关系，构建深度贝叶斯网络结构模型。②将历史样本数据与专家意见相结合，确定网络节点的先验概率，即风险概率的初始证据。③将样本数据和初始证据输入网络结构模型，利用参数学习算法推测网络非根节点的条件概率分布；由于事件发生的动态性及不确定性，样本数据往往存在部分无法观测的隐性变量，故本实例采用针对样本有缺失值的迭代收敛算法——EM算法进行参数学习，通过多次迭代使得模型参数不断趋向于最大似然估计，最终得到条件概率分布。④基于贝叶斯算法准则，将先验概率、条件概率转化为后验概率，即模型中目标事件发生的风险概率。如图7所示。

基于深度贝叶斯网络的预测预警模型，在校园场景下的异常预警功能模块根据后台模型基于大数据判断的结果将可能存在异常的学生显示出来，并通过图模型给出导致异常的关键因素，对于教育监管者及时有效管理学生有至关重要的作用。***中的异常主要分为公共安全卫生异常、心理健康异常、事件异常，对应为公共安全卫生预警、心理健康预警、校园欺凌事件预警。

实施例1——公共卫生安全预警

1.1技术路线

传统的传染病暴发风险预测主要包括以下四个方面：(1)选择传染病类型和研究区域；(2)选择与传染病发病相关的病理、环境和气候因素；(3)选择合适的模型来建立传染病暴发风险评估模型；(4)预测传染病疫情在各种情况下的概率并验证所建立模型的准确性。本实例在此基础上做了适当的修改，具体的技术路线如图8所示。

其中，传染病的时空规律探究主要采用了统计学、数学和GIS方法，传染病空间聚集性探测在本实例中主要体现为高低风险区聚类，选取的方法是多指标面板数据的聚类方法，传染病时间聚集性探测方法主要采用的是移动百分位数法，选取的风险因子主要有气象因子、经济、人口密度因子等。贝叶斯模型的建立则主要包括四步，即数据的离散化、贝叶斯结构学习、参数学习、以及网络验证，当验证结果不理想时，要重新返回结构学习，重新构造贝叶斯网络结构；最后则是对所采用方法的不确定性分析，主要包括数据处理的不确定性，面板数据聚类分析时的不确定性，移动百分位数法对传染病暴发等级划分时的不确定性以及基于贝叶斯网络建立早期预警模型过程中的不确定性。

1.2基于时空面板模型的聚类算法

面板数据(Panel Data)也叫做时间序列-横截面混合数据，主要是指具有时间序列的样本数据，在其时间序列上取多个截面进行实验的数据；面板数据一般包括时间序列特征和截面特征，同时还包括空间和时间两个维度的特征。

一般的线性面板数据回归模型为：

y_ij＝X_itβ+μ_i+ε_it

其中：i∈[1，2，…，N]，指N个不同的空间个体，t∈[1，2，…，T]指时间的变化，y_it指因变量观测值，X_it是K维解释变量行向量，β为K维系数的列向量，μ_i代表空间单元个体效应，ε_it是随机误差项。

如果一个空间单元的某种现象或者某一属性与另一个空间单元的该现象或其属性的相似程度很高，则这两个空间单元存在着一定的空间相关性，空间面板数据按其指标的多少也分为单指标空间面板数据和多指标空间面板数据。其中，单指标面板数据通过一张二维表或矩阵表示，具体如下：

设总体由N个样品，X表示每个样品的一个特征指标，T为时间长度，则 X_i(t)表示第i个样品在t时间的指标值。

因为实际情况过于复杂，在实际研究时研究的对象往往是多指标面板数据，它的结构比传统的面板数据结构要复杂，通常情况下用三维表来表示其时间和空间特性，有时候也可以用矩阵形式来表示。

假设一个总体样本X，其中包括N个样品，每个样品有Р个特征指标，T 为时间长度，那么一个多指标面板样本X的矩阵表示为：

总体样本X实际上包含有空间(样品总数)、时间和多个指标三个维度的数据，它可以在在空间维度上进行降维，即可以表示为一组“空间样品”，也就是将三维表在空间上以二维表的形式展开，即X^S＝[X₁,...,X_i,...,X_N]^T，样本X的一个空间样品X_i是的矩阵表示为：

其中：1≤i≤N，1≤j≤P，1≤t≤T，

表示第i个样品第j个指标在t时间的指标值。

样本X在指标维度上可表示为一组指标，也就是将三维表按指标顺序展开为二维表，即X^V＝[X¹,...,X^j,...,X^P]，样本X的一个指标X^j的矩阵表示为：

样本X在时间维度上可表示为一组“有序样品”，也就是将三维表按时间顺序展开为二维表，即：

X^O＝[X(1),...,X(t),...,X(T)]

样本X的一个有序样品X(t)的矩阵表示为：

其中，其数字特征主要包括：

①第j个指标在t时间的均值：

②第j个指标的均值：

③第j个指标在t时间的方差：

④第j个指标的方差：

因为时空面板数据与传统的时间序列和横截面数据相比，有着更准确更快速的预测未来一段时间的情况，在与贝叶斯网络结合，即可更快速的在不确定性领域提高预测预警的准确度。

1.3基于贝叶斯网络的时空预警算法

利用已有的知识建立基于贝叶斯网络的传染病预警模型，其主要包括数据预处理、传染病暴发风险的贝叶斯网络的建立、传染病暴发风险概率的计算以及网络的验证等。其中，贝叶斯网络的建立是至关重要的一步，它是预警模型建立成功与否的关键；当寻找到一个最贴合实际发病状况的网络结构时，开始计算各节点的联合概率分布，从而去预测传染病的暴发风险。

由于一种传染病的发生绝不仅仅是一种因素引起的，通常情况下，会有很多相关的流行病学要素、经济要素、气象要素或者环境要素等共同结合导致的，当这些因素不能完全获取到时，我们就考虑先从一部分数据着手，对他们进行相关性分析，从而寻找到和传染病暴发和流行最相关的要素进行分析。又因为贝叶斯模型的建立只能处理等级和离散数据，对于大多数连续型变量的影响要素来说，只能通过对它们进行数据的离散化，我们在此采用等距法来进行离散化，首先需要指定若干个区间数目，然后按照宽度相等的计算办法将值域分为若干个子区间，从而得到离散结果。

然后采用基于独立测试的网络结构学习算法来进行，该方法的主要步骤如下：

①首先，初始化图形结构G<V,E>；其中，V为节点＝{所有属性字段的数据集}，E＝{}，S＝p，R＝p；

②对于每一个节点对(v_i，v_j)，其中，v_i,v_j∈V，i≠j，计算他们的交互信息I(v_i,v_j)，当I值大于某个固定阈值时，将他们按照大小顺序依次加入数据集S中；

③标记并移除数据集S中第一个节点对，将相应的两条边放入边集合A中；

④在剩余的数据集S中，选中第一个节点对，如果其节点没有联通路径，该节点④对加入到边集合A中，否则，将其放入R中；

⑤重复④，直到S为空；

⑥R中第一个节点对被标记；

⑦取出该节点对，并对其进行条件独立性测试，如果这两个节点仍旧相互依赖，将其加入到边集合A中；

⑧重复直到R为空；

⑨对于E中任意一条边，如果节点之间还存在一条边以外的边，将其暂时从E中删除；然后用条件依赖性检验来检测两点是否条件依赖，如果是，则永久删除这条边，否则重新加入E。

弗里德曼在理论上证明了基于独立测试的学习算法存在着网络的语义特性，且在实际应用中达到有效的结果。如图9所示，贝叶斯网络是一种图形化的结构，每一个变量都是其中的一个节点，它所包含的信息表现为一个或多个概率分布。如果一个变量没有任何弧线与之相连，则表示它和其他变量没有任何依赖性，如果有，则表示如果它有相关的子节点或者父节点，则它有与之相关的概率分布。

1.4传染病爆发风险概率估计

当基于贝叶斯网络预警模型的结构已经构建完成后，下一步的工作即为计算网络结构中相关节点的条件概率分布表。本实例主要采用贝叶斯公式的方法来进行贝叶斯网络的参数学习，该方法是在假设数据集中的变量均是离散且没有缺失值，而且网络中各节点都是相互独立的情况下进行的，其主要步骤如下：

①首先定义数据集N和D，其中N中有n个变量，且变量X有r个可能的样本分段值，即

数据集D有m条记录，是记录传染病暴发风险等级的数据集，且D中每条记录均有Z中所有变量的信息；又定义贝叶斯网络结构B，其中包含N中所有变量。

②在结构B_G中，每个节点X_i都会有一组父节点π_i；定义w_ij表示π_i里D中的第j(j＝1,2,...,q_i)个样本分段取值，N_ijk表示变量X_i为v_ik，其父节点π_i为w_ij时D 中的数据记录数目，那么

③定义网络条件概率θ_ijk为条件概率P(X_i＝v_ik|π_i＝w_ij)，它代表当节点X_i的父节点π_i的值为w_ij，X_i的值为v_ik，k∈[1，r_i]时的概率。

④给定数据集D和贝叶斯网络结构B_G时，θ_ijk的期望值的计算公式为：

θ_ijk的方差的计算公式为：

在进行参数学习时，通常需要计算P(N₁|N₂)来推断事件发生的概率，其中 N₁和N₂表示两个不同的变量集，N₁表示为传染病暴发风险等级，N₂代表与该传染病的暴发相关的环境、气候和经济因子变量，即计算各种相关因子变量出现的情况下，传染病暴发各种风险等级对应的概率值。假如N₂已知，计算此概率值的期望值E[P(N₁|N₂)]，它仅取决于N₁的似然值；那么，当给定数据集D和贝叶斯网络结构B_G时，E[P(N₁|N₂)]的计算公式如下：

E[P(N₁|N₂)|D,B_G]＝P(N₁|N₂,D,B_G)

其中P(N₁|N₂,D,B_G)的计算可以通过贝叶斯网络中的贝叶斯计算公式和反复的乘积和求和公式计算得到，同时网络中每个节点即变量的概率估计值均可以通过此种方法计算得到，而估算结构则是其期望值。

1.5相关数据介绍

①病原学指标：一般为病毒检出率与重症死亡发生率等数据，需要专业机构提供。

②人口学指标：为易感染人群人口密度(易感染人总数/区域面积)，可根据具体区域人口流动进行分区域调整。

③气象学指标：日照日数、气温差、平均气温、平均风速等气象指标进行研究，数据主要来源于中国气象数据共享服务网，是在全国756个台站数据的基础上用反距离加权插值方法所得。

④经济条件指标：经济代表一个地区的发展情况，在一定程度上也影响着疾病的流行与传播。本实例主要考虑城市化水平(城镇人口/总人口)，并以此作为其经济指标，其数据来源于中国经济统计数据库。

1.6空间聚集性预测结果指标

手足口病发病情况按照地区分布在不同月份各不相同，因此需要进行空间聚集性探测。综合考虑其发病率S及重症率Q两个指标，本实例利用多指标空间面板聚类分析的方法，利用SPSS分析软件下进行聚类，综合考虑以下三方面的信息：

①发病率和重症率数据本身，即手足口病发病实际状况。

②发病率和重症率随时间的变化情况，即增量指标，代表发病率和重症率的随时间的变化情况。

③发病率和重症率的增量的变化率或变化的快慢程度，即发病率和重症率的增量变化情况，综合考虑两者的水平指标、增量指标和增量变化率指标的时间序列，其主要公式如下：

单水平指标，即数据本身S和Q，即：

增量指标，即：

增量变化率指标，即：

计算其欧式距离进行***聚类，即可得出风险等级相似的区域，并根据气象学指标和人口流动情况计算出该类疾病的风险等级。

实施例2——心理健康预警

在线问卷的形式可对学生进行抑郁症的有效的筛查，使用在线健康问卷-抑郁量表(PHQ-9)线上可收集学生的自我评估数据，但费时费力、缺乏实时性和可靠性、所收集的数据质和量都不高。心理学家研究表明，利用微信、微博等社交媒体的数据对抑郁症进行实时筛查是可行且准确的。

因此，本实例结合学生的特点，利用社交媒体的数据构建学生词云，在此基础上结合一卡通数据、互联网数据和移动终端数据、出入记录、消费记录、视频监控、GPS、校园wifi接入日志等数据获取时空信息，分析学生的行为轨迹，在学生词云和行为轨迹的基础上构建学生画像以及信息行为要素。

最后根据学生社交网络、词云、以及信息行为要素等数据使用深度贝叶斯模型进行预警，预警值超过阈值的学生信息展示出来，作为学校关注对象，提早发现学生心理或行为异常，做好疏导和防范工作。

2.1构建词云

1)情感词典构建

在现有较完善的通用情感词典的基础上，构建与抑郁症有关的情感词典，情感词典中分为积极词典和消极词典。

爬取抑郁超话和抑郁症超话中的内容作为备选消极词典，然后随机爬取微博内容作为备选积极词典，之后对备选的消极词典和积极词典进行数据清洗，并保留了表情字符，以此提高对微博表情和网络热词的分析能力；将清洗后的数据与情感词典中的数据使用TF-IDF算法进行文本比对，相似度高的词语纳入相应的词典。

对于文本部分，首先调用学生的登记的基本信息，爬取其微博内容和微信朋友圈内容；然后进行数据预处理操作：去除微博话题和朋友圈广告和链接等信息，把图片放入图片库；最后使用自然语言处理中分词技术对微博和朋友圈文字分词，之后同样使用TF-IDF算法与情感词典进行文本比对，优化消极词典和积极词典。

2)基于LSTM的文本情感分析

本实例使用开源语义框架Word2Vec，用高维向量进行词表示，并把相近意思的词语放在相近的位置，之后用欧氏距离或余弦相似度找出两个具有相近意思的词语，以此解决了“一义多词”问题。

将分好的词向量与句子组合成矩阵，并使用递归神经网络或循环神经网络(RNNs)，将矩阵形式的输入编码为较低维度的一维向量，而保留大多数有用信息，并结合情感词典，实现文本情感分析。

3)图像情感分析

对于图片库中的数据，对其进行人工标记，标签为消极和积极，然后使用计算机视觉技术中的图像分类模型VGGNet对其进行模型训练，获得图片情感分类模型。

本实例对情感词典和图片库按照7:3的比例划分为训练集和测试集，训练获得文本情感分析模型和图片情感分析模型。

基于上述方法，结合情感词典和图片库对学生朋友圈和微博内容进行情感分析，构建词云。

4)情感值计算方法

对于该学生的词云，本实例使用加权平均法计算某学生朋友圈和微博的情感值：

其中：N_p、N_n分别代表积极和消极的词汇数目，wp_i、wp_j分别代表积极和消极词汇的权重，M_p、M_n分别代表积极和消极的词汇数目，wp_a、wp_b分别代表积极和消极词汇的权重。

2.2学生轨迹

根据学生或教职工的出入记录、消费记录、视频监控，移动端GPS、校园 wifi接入日志和一卡通等数据分析学生或教职工的行为轨迹，并根据Hausdorff 距离计算轨迹相似度，一般相似性越高，则表明他们的关系越亲密。将每个用户的移动轨迹序列进行两两计算，得到他们之间的亲密度值，然后根据亲密度阈值0.4进行密度聚类，分类出多个具有社会关系的用户群体，并对其打上标签，构建学生数字画像和表征学生的行为模式，如学生的行为***、网络行为以及学习状态等。

其中轨迹之间的相似性度量是轨迹数据挖掘和查询的基础，对于任意两条轨迹T_a和T_b，设T_a和T_b之间的距离为Dist(T_a,T_b)，距离为0代表这两条轨迹完全相同，距离越大表示两条轨迹的相似度越低或相异度越高。CPD(Closest-Pfair Distance)是以两条轨迹中位置点间的最小距离作为这两条轨迹之间距离的一种度量方法，T_a和T_b之间的CPD值计算如下：

其中：Dist(loc,loc′)表示两个位置点loc和loc′之间的欧氏距离。

2.3社交网络

以学生为神经网络的节点，节点之间建立连接的阈值条件为两个学生之间的轨迹相似度超过0.5，节点之间连接的权重即为二者之间的轨迹相似度。由此得到的全部学生构成的社交网络如图10(a)所示，图中的节点代表每一个学生，节点不同深浅的颜色表示学生的班级，节点的大小反映节点的度即与节点存在连接的节点数量；需要注意的是，图中展示的是学生社交网络的网络拓扑关系而并非学生向量在二维平面内的映射，从图中可以明显的发现绝大多数学生以班级为单位呈簇状网络分布，但是也有较为孤立的学生存在，并且从节点的大小分布可以看出学生个人的社交性存在较大的差异，既有在簇中央的大节点也有孤立到几乎难以发现的渺小节点。而图10(b)展现的是以学生性别为颜色区分的社交网络图，可以看出男生或者女生社交的圈子基本是分离开的，除去校园情侣关系之外，男生女生基本上各自成簇。

结合常识以及图10(a)和图10(b)也可以侧面验证学生向量计算的准确性，学生社交网络可以展示学生的孤立性，本实例中将学生孤独性的计算转化为基于深度贝叶斯网络的心理健康预警。

2.4心理健康预警方法

参考1.4风险概率估计的方法构建深度贝叶斯网络，对该学生构建的词云情感、社交网络和用户画像设置不同的权重，作为深度贝叶斯网络的输入特征，训练模型；心理健康预警值在0～1之间，超过0.6则预警。

实施例3——校园欺凌事件预警

根据2.1～2.3方法获取分析以往校园欺凌事件的行为要素和信息要素，结合学生信息，分析其性格、消费情况、行为习惯、学习状态、心理状况等，构建欺凌学生用户画像。

参考1.4风险概率估计的方法构建深度贝叶斯网络，根据学生用户画像及其行为要素和信息要素特征构建特征向量，训练获得校园欺凌预警模型；风险值超过0.5则告警，对相关学生进行相应的关注，若需要则进行心理疏导、家访或者惩处。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明，熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法，包括如下步骤：

2.根据权利要求1所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述步骤(1)中的多源异构数据包括结构化数据和非结构化数据，结构化数据包括了以房屋、地址等基本信息在内的基础数据以及以车辆出入信息和物联感知信息在内的扩展数据，非结构化数据包括了人员采集的生活事件信息、摄像头等设备采集的视频监控数据、音频类以及图像类数据。

3.根据权利要求1所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述步骤(3)中的批流式大数据实时处理技术包括了数据采集、数据加载、数据总线、数据分析、业务服务五个功能模块，数据采集模块负责使用物联网采集、应用端采集的方式实时接入流数据；数据加载模块负责加载历史离线数据以及从业务***中接入流数据；数据总线模块负责将各类数据按照统一的格式放入指定通道进行传输；数据分析模块负责对实时数据进行抽取、加工和产品数据的推送服务；当收到业务***发出的实时查询请求时，数据分析模块能够利用内部的分析处理模型在完整大数据集上实时计算出相应的指标并进行判断，将结果通过业务服务模块反馈给业务***。

4.根据权利要求1所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述步骤(4)中的人口属性用于描述用户社会层面基本特征信息，帮助各个重点生活应用场景了解用户的基本情况；所述生活属性用于了解用户的生活状况，包括生活活动范围和出行方式，以便后续给用户提供精准的服务；所述社交属性用于描述用户的社交图谱、家庭成员、朋友圈、兴趣爱好，这些信息往往代表用户的社会关系网，通过社交信息可以尽可能完整地了解用户，以便为用户提供个性化的服务；所述消费特征用于描述用户主要消费习惯和消费偏好，用于挖掘相关消费服务的***，依据用户消费特点推荐相关产品和服务，提高推荐转化率；所述心理属性用于关注用户的心理状况信息，通过匿名问卷调查或相似用户聚类的方式获取用户心理情况，根据其心理状况提供相应的心理服务或进行重点关注。

5.根据权利要求1所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述步骤(5)中针对多源异构数据中的非视频数据和视频数据，分别采用基于原始数据挖掘的用户标签构建方式以及基于视频结构化技术的用户标签构建方式；对于非视频数据，基于原始数据挖掘的用户标签构建方式融合了自然语言处理、用户意图识别、关联规则、聚类分析以及轨迹相似度五种方法；对于特定用户特定维度数据缺失的情况，则使用协同过滤算法通过对其他相似用户的分析补全特征，保证用户标签的完备性；对于视频数据，基于视频结构化技术的用户标签构建方式融合了目标检测、OpenCV+CNN情绪识别、GaitSet步态识别三种方法。

6.根据权利要求5所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述自然语言处理过程采用TF-IDF算法计算文本之间的相似度，进而根据相似度采用fastText分类器对文本进行归类，最后采用Word2Vec提取文本中的词向量，利用LSTM将各词向量融合成句向量并输入至预先训练好的递归神经网络或循环神经网络，从而预测分析出同类文本所展现的情感。

7.根据权利要求5所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述用户意图识别即根据用户的搜索记录或者已分析出的用户标签对用户的行为意图进行判断，具体实现过程中采用TF-IDF算法对数据进行向量化，利用词频、卡方和互信息的方式进行特征选择，最后采用预先训练好的决策树CART、包含多个决策树的随机森林、逻辑回归或贝叶斯模型对用户的行为意图进行判断。

8.根据权利要求5所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述关联规则即用于发掘表面看似无规律的数据间的关联性，从而发现数据之间的规律性和发展趋势，具体实现过程中则采用Apriori或FP-Growth算法；所述聚类分析即用于将相似的数据归为一类，原则上是使每一类数据的相似性最大，聚类作为无监督算法，适合对高维度数据进行分析；所述轨迹相似度即从时间域和空间域上分析行为轨迹，从历史行为轨迹中挖掘用户的日常行为规律和偏好，并为其打上标签。

9.根据权利要求5所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述OpenCV+CNN情绪识别用于检测出视频图像中人脸的表情状态，具体实现过程首先是人脸的检测与定位，然后是面部表情特征的提取，最后使用预先训练好的卷积神经网络CNN用于人脸表情的分类与判断；所述GaitSet步态识别用于检测出视频图像中人的行走姿态，具体实现过程中首先将图像输入卷积神经网络CNN中以提取特征，再集合多特征池化的方式为将图像中的特征聚合成一个特征向量，同时采用Horizontal Pyramid Pooling使得特征更具鉴别性，在预测计算上则采用双流法即包含两个通道：一个是RGB图像通道用于建模空间信息，另一个是光流通道用于RNN建模时序信息，两者联合训练并进行信息融合，最后将特征输入训练好的模型中从而实现步态识别。

10.根据权利要求1所述的公共数字生活场景规则模型预测预警方法，其特征在于：所述步骤(6)中深度贝叶斯网络的训练及预测过程为：首先分析具体应用场景中的用户数字画像信息，获取事件涉及的各类信息要素以及行为要素，了解事件各要素之间的关联关系，建立基于事件信息要素和行为要素的特征样本库；然后将特征样本与专家意见相结合，确定网络节点的先验概率即风险概率的初始证据；进而将特征样本和初始证据输入到网络结构中，利用EM算法推测网络中非根节点的条件概率分布；最后基于贝叶斯算法准则，将先验概率和条件概率转化为后验概率，即目标事件发生风险的概率预测结果。