CN109635003B - 一种基于多数据源的社区人口信息关联的方法 - Google Patents

一种基于多数据源的社区人口信息关联的方法 Download PDF

Info

Publication number
CN109635003B
CN109635003B CN201811493200.XA CN201811493200A CN109635003B CN 109635003 B CN109635003 B CN 109635003B CN 201811493200 A CN201811493200 A CN 201811493200A CN 109635003 B CN109635003 B CN 109635003B
Authority
CN
China
Prior art keywords
data
information
imsi
association
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811493200.XA
Other languages
English (en)
Other versions
CN109635003A (zh
Inventor
石屹
王玉玉
耿俊伟
徐慧
郭欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Howso Technology Co ltd
Original Assignee
Nanjing Howso Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Howso Technology Co ltd filed Critical Nanjing Howso Technology Co ltd
Priority to CN201811493200.XA priority Critical patent/CN109635003B/zh
Publication of CN109635003A publication Critical patent/CN109635003A/zh
Application granted granted Critical
Publication of CN109635003B publication Critical patent/CN109635003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多数据源的社区人口信息关联的方法,包括以下步骤:(1)设备部署:基于小区场景的布点和楼栋场景的布点原则进行设备部署;(2)数据采集:通过有线或无线方式连接步骤(1)中的所述设备,进行小区内实体数据的采集;(3)数据处理:基于分布式架构的集群进行数据的处理;(4)数据关联分析:基于已采集的数据内容,运用关联算法模型,基于时空维度进行数据分析和关联,输出一一对应的关联关系;(5)应用分析:基于关联的数据进行可视化应用分析,并对异常状态进行预警。该方法实现小区常住/非常住人口的识别与分析;实现重点人员的识别并对重点关注对象进行画像分析及异常状态预警。

Description

一种基于多数据源的社区人口信息关联的方法
技术领域
本发明属于新一代信息技术领域,尤其是涉及一种基于多数据源的社区人口信息关联的方法。
背景技术
近年来,随着改革的持续深化、城市人口规模的扩大,公安部门对人口管理工作规范性的逐渐增强,社区人口信息管理工作业务急剧增大。传统的人工统计方法已无法满足当前的人口管理;以及社区内盗窃等事件的发生,造成群众的财产损失,导致不安定因素发酵,影响着社区的治安。因此为确保居民的生命财产安全,切实加强社区的治安和综合治理水平;提高出租屋管理水平和流动人口管理水平;提高安全防范能力,降低发案率,增强破案手段等等需求,有必要开发一种基于多数据源的社区人口信息关联的方法,以实现社区常住/非常住人口的识别与分析;实现重点人员的识别,并对重点关注对象(个人或团体)进行画像分析及异常状态预警,实时掌握小区人口变化、动态跟踪可疑人员以及实时推送嫌疑人员信息等。
发明内容
本发明要解决的技术问题是,提供一种基于多数据源的社区人口信息关联的方法,实现社区常住/非常住人口的识别与分析、重点人员的识别与分析以及异常智能预警。
为解决上述技术问题,本发明采用的技术方案是:基于多数据源的社区人口信息关联的方法,包括以下步骤:
(1)设备部署:基于小区场景的布点和楼栋场景的布点原则进行设备部署;
(2)数据采集:通过有线或无线方式连接步骤(1)中的所述设备,进行小区内实体数据的采集;
(3)数据处理:基于分布式架构的集群进行数据的处理,以保证数据的稳定性、可扩展性、容错性;
(4)数据关联分析:基于已采集的数据内容,运用关联算法模型,基于时空维度进行数据分析和关联,输出一一对应的关联关系;
(5)应用分析:基于关联的数据进行可视化应用分析,并对异常状态进行预警。基于多数据源的社区人口信息关联的方法进行数据关联,并进行可视化应用分析,其主要应用包含:短期驻留分析、活动规律分析、伴随人群分析、常住人口/非常住人口分析、重点人员识别与预警以及重点区域的人群异常聚集预警。以实时掌握小区人口变化、动态跟踪可疑人员以及实时推送嫌疑人员信息等,提高小区的治安和综合治理水平。
本发明进一步改进在于,所述步骤(1)中的设备包括WIFI热点或/和微侦码或/和摄像头;所述步骤(1)的设备部署中具体包括以下步骤:
S11基于小区场景的布点:于车辆出入口附近部署WIFI热点、微侦码和摄像头;优选的是设置2个摄像头,主要是分别抓取小区入口和出口的车辆信息和人的图像信息;
S21基于楼栋场景的布点:位于识别的楼栋周边部署WIFI热点,运用WIFI热点覆盖重叠方式,取其WIFI热点设备重叠覆盖交叉的人口信息;同时位于单元楼出入口安装摄像头采集单元楼住户图像。
本发明进一步改进在于,所述步骤(4)数据关联分析中已采集的数据内容主要包含用户的MAC地址、IMSI、车牌号、人脸图像等。
作为本发明的优选技术方案,所述WIFI热点是针对终端MAC的无线空口侦测设备;它通过对空中接口无线信号的截取和处理,实现对覆盖区域手机信息的采集、处理和管控;所述WIFI热点可以获取的数据信息包括终端MAC地址、AP MAC地址和时间戳。
作为本发明的优选技术方案,所述微侦码是针对全网制式终端的无线空口侦测设备;它通过对空中接口无线信号的截获和处理,实现对覆盖区域手机信息的采集、处理和管控;所述微侦码可获取覆盖区域内手机的IMSI、TMSI、IMEI、RSRP和时间数据信息。
作为本发明的优选技术方案,所述摄像头实时自动采集过往人物信息和车辆信息,并识别出每个实体的图像信息和车辆信息,并输出结构化、半结构化、非结构化的数据。
作为本发明的优选技术方案,所述步骤(4)中的关联算法具体包括:S41信息整合:根据时间,将多种设备采集的信息通过特定并集、合并等方法整合到一个列表中,保证每一行中无重复项,其中每一行代表在同一时间点、同一地点,多种设备采集到的所有信息,当采用IMSI号和MAC地址时如下式所示:
L=Lt1+s1={{IMSI1,IMSI2,IMSI3,MAC1,MAC2,MAC3,MAC4,MAC5,MAC6},
{IMSI4,IMSI5,IMSI6,MAC4,MAC5,MAC6},
{IMSI1,IMSI2,IMSI3,MAC1,MAC2,MAC3}};
S42挖掘频繁项集:包括生成一阶频繁项集和挖掘二阶频繁项集,采用IMSI号与MAC地址的匹配时,频繁项就是在庞大的数据集中,统计那些同时同地出现的IMSI号与MAC的频次,若频次大于最小频次,则视以该IMSI号与MAC组成的集合为频繁项集;
利用FP-growth算法生成一阶频繁项集,具体方法步骤如下:
S421-1:输入S41中信息整合后的列表L和最小频次S,满足最小频次S的项集则为频繁项集;
S421-2:对列表L进行一次扫描、过滤和排序,具体包括利用一次扫描统计出列表L中各元素项的频次,过滤掉不满足最小频次的项,对剩余的项按频次排序,得到一阶频繁项集表L1;
S421-3:对经过S421-2处理后的L1构建FP树用来挖掘关于IMSI和MAC的二阶频繁项集;
S422挖掘二阶频繁项集:
在WIFI热点采集的数据远多于其他两种设备所采集的数据的情况下,传统的关联分析会导致出现很多MAC互相匹配的现象,而不是项目所期望的三种信息一一对应的匹配结果;这是因为,在生成多项候选集时,传统的关联分析不会考虑数据特征;除了匹配结果不理想,由于数据量大,如果不考虑数据特征,传统的关联分析会带来非常大的计算成本;
IMSI串为15位的整型数据,人脸ID为36位的字符串数据,MAC地址为15位的字符串,车牌号为省份、编码和5位或6位字符组成的字符串;利用FP-growth算法挖掘二阶频繁项集,具体方法步骤如下:
S422-1:从S421-3构建的FP树获得关于IMSI和MAC条件模式基;
S422-2:利用条件模式基构建属于IMSI和MAC条件FP树;
S422-3:在条件FP树中按照最小频次过滤挖掘出二阶频繁项集,在挖掘的过程中,根据同类型不进行关联的原则,设置只有不同类型的二阶频繁项集会被挖掘,最终生成不同类型关联的二阶频繁项集,如{IMSI1,MAC1},{IMSI2,MAC2},{IMSI3,MAC3};
S43生成关联规则:在步骤S42挖掘频繁项的过程中,会出现许多一对多,多对多的匹配结果,无法得到唯一的匹配结果;针对该现象,依据Apriori算法中支持度和置信度的计算原理计算出关联规则的支持度和置信度,最后通过置信度筛选来找出最终唯一的匹配结果,生成关联规则具体步骤如下:
S431计算支持度:一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度;支持度反映了项集出现的概率,关联规则的支持度等于频繁集的支持度;采用IMSI号和MAC地址时:
Figure GDA0002918065640000041
Figure GDA0002918065640000042
Figure GDA0002918065640000043
其中,N表示S41中信息整合后的列表L的总行数,support_count{IMSI}表示该IMSI出现的频次,support_count{MAC}表示该MAC出现的频次,support_count{IMSI∪MAC}表示该IMSI和MAC同时出现的频次;
公式(1)得到该IMSI号在整个项集中出现的概率,公式(2)得到该MAC地址在整个项集中出现的概率,公式(3)得到该IMSI号和MAC地址在整个项集中同时出现的概率;
S432计算置信度:计算置信度即计算频繁项集中,某一个元素产生的条件下,产生另一个元素的概率,即条件概率。也可以说是某一个元素可推导出另外一个元素的概率,采用IMSI号与MAC地址时:
Figure GDA0002918065640000044
Figure GDA0002918065640000051
其中,support{IMSI}、support{MAC}和support{IMSI,MAC}分别由公式(1)(2)(3)计算得到;
公式(4)得到IMSI推导出MAC的概率,公式(5)得到MAC推导出IMSI的概率;
最后设置一个最小置信度,保留所有满足最小置信度的关联规则。
S433置信度筛选:对步骤S432得到的关联规则及其置信度根据一定规则进一步筛选匹配结果;
置信度计算后得到的结果并不是唯一的匹配结果,因此需要通过最终的置信度筛选来达到唯一结果,此前分别得出了IMSI号与MAC地址、人脸、车牌号一一对应匹配的结果;以IMSI配MAC地址为例,存在一个IMSI配多个MAC,即{IMSI1,MAC1},{IMSI1,MAC2},{IMSI1,MAC3},{IMSI2,MAC1},{IMSI2,MAC2},{IMSI3,MAC2},{IMSI4,MAC4}...};也存在多个IMSI配一个MAC,即{{MAC1,IMSI1},{MAC1,IMSI2},{MAC1,IMSI3},{MAC2,IMSI1},{MAC2,IMSI2},{MAC2,IMSI3},{MAC4,IMSI4}...};
S433-1:设置初步筛选条件,过滤掉单向匹配的结果,仅保留含有双向匹配的结果;
以S433中一对多匹配为例,保留{{IMSI1,MAC1},{MAC1,IMSI1},{IMSI1,MAC2},{MAC2,IMSI1},{IMSI2,MAC1},{MAC1,IMSI2},{IMSI2,MAC2},{MAC2,IMSI2},{IMSI3,MAC2},{MAC2,IMSI3},{IMSI4.MAC4},{MAC4,IMSI4}};
S433-2:将S433-1中正反匹配的结果相加,得到{{IMSI1,MAC1},{IMSI1,MAC2},{IMSI2,MAC1},{IMSI2,MAC2},{IMSI3,MAC2},{IMSI4,MAC4}};
S433-3:将S433-2结果以IMSI为关键字分组继续过滤,得到{{IMSI1,MAC1},{IMSI1,MAC2}}、{{IMSI2,MAC1},{IMSI2,MAC2}}、{{IMSI3,MAC2}}和{{IMSI4,MAC4}},将单个数量的匹配如:{IMSI3,MAC2}和{IMSI4,MAC4}加入到列表LIST1中;
S433-4:对S433-3剩余的每个分组进行置信度对比筛选,选择置信度高的匹配,得到{IMSI1,MAC1}和{IMSI2,MAC2},加入到列表LIST1中;
S433-5:现有LIST1为{{IMSI1,MAC1},{IMSI2,MAC2},{IMSI3,MAC2},{IMSI4,MAC4}},将S433-4处理后的LIST1以MAC为关键字分组继续过滤,得到{{IMSI1,MAC1}},、{{IMSI2,MAC2},{IMSI3,MAC2}}和{{IMSI4,MAC4}},将单个数量的匹配如:{IMSI1,MAC1}和{IMSI4,MAC4}加入到列表LIST2中;
S433-6:对S433-5剩余的每个分组进行置信度对比筛选,选择置信度高的匹配,得到{IMSI2,MAC2},加入到列表LIST2中;
S433-7:得到最终结果列表LIST2:{{IMSI1,MAC1},{IMSI2,MAC2},{IMSI4,MAC4}}。
经过上述步骤,可以得出一些较为理想的结果,将进出小区的用户的手机IMSI号、手机MAC地址、人脸图像及车牌图像进行一对一关联;但实际情况中,仍存在某些一对多、多对多的现象;例如,实际情况中可能会出现,一个IMSI号与两个MAC地址都互相关联,且置信度大于最小置信度;因此我们需要保留confidence{IMSI→MAC}与confidence{MAC→IMSI}相加之和最大的组合,并且在这个基础上进行置信度筛选的过程。通常情况下,字段关联依赖于共有信息,而该基于多数据源的社区人口信息关联的方法中的三种设备的共有信息只有时间,且三种设备的采集范围也不同;然而,在设备采集范围不同的情况下,同一时刻,三个设备采集的信息量并不对等,很难根据时间来对这三种数据进行一对一关联,因此采用上述的关联算法,可以将三种设备采集的信息进行一对一的关联。
作为本发明的优选技术方案,所述车辆信息包括车牌号、车身颜色、车辆型号和时间信息等;所述人物信息包括人脸、年龄、性别、是否戴眼镜、是否戴帽子、肤色、时间信息等。
与现有技术相比,通过部署设备采集用户信息,实时上报进出小区的用户信息,并将不同设备采集的信息进行关联,从而实现小区常住/非常住人口的识别与分析;实现重点人员的识别,并对重点关注对象(个人或团体)进行画像分析及异常状态预警,实时掌握小区人口变化、动态跟踪可疑人员以及实时推送嫌疑人员信息等;
附图说明
下面结合附图和本发明的实施方式进一步详细说明:
图1是基于多数据源的社区人口信息关联的方法的关联算法的流程示意图;
图2是基于多数据源的社区人口信息关联的方法的信息采集和关联的流程图。
具体实施方式
基于多数据源的社区人口信息关联的方法,如图2所示,包括以下步骤:
(1)设备部署:基于小区场景的布点和楼栋场景的布点原则进行设备部署;设备包括WIFI热点或/和微侦码或/和摄像头;所述步骤(1)的设备部署中具体包括以下步骤:
S11基于小区场景的布点:于车辆出入口附件部署1个WIFI热点、1个微侦码和2个摄像头;设置2个摄像头的目的是分别抓取小区入口和出口的车辆信息和人的图像信息;
S21基于楼栋场景的布点:位于识别的楼栋周边部署WIFI热点,运用WIFI热点覆盖重叠方式,取其WIFI热点设备重叠覆盖交叉的人口信息;同时位于单元楼出入口安装摄像头采集单元楼住户图像;
将进出小区的用户的手机IMSI号、手机MAC地址、人脸图像及车牌图像进行一对一关联;下面人脸和车牌统称为图像;所述WIFI热点是针对终端MAC的无线空口侦测设备;它通过对空中接口无线信号的截取和处理,实现对覆盖区域手机信息的采集、处理和管控;所述WIFI热点可以获取的数据信息包括终端MAC地址、AP MAC地址和时间戳。
所述微侦码是针对全网制式终端的无线空口侦测设备,通过对空中接口无线信号的截获和处理,实现对覆盖区域手机信息的采集、处理和管控;所述微侦码可获取覆盖区域内手机的IMSI、TMSI、IMEI、RSRP和时间数据信息;
所述摄像头实时自动采集过往人物信息和车辆信息,并识别出每个实体的图像信息和车辆信息,并结构化、半结构化、非结构化的数据;所述车辆信息包括车牌号、车身颜色、车辆型号和时间戳;所述人物信息包括人脸、年龄、性别、是否戴眼镜、是否戴帽子、肤色、时间戳;
(2)数据采集:通过有线或无线方式连接步骤(1)中的所述设备,进行小区内实体数据的采集;
(3)数据处理:基于分布式架构的集群进行数据的处理;以保证数据的稳定性、可扩展性、容错性;
(4)数据关联分析:基于已采集的数据内容,运用关联算法模型,基于时空维度进行数据分析和关联,输出一一对应的关联关系;所述步骤(4)数据关联分析中已采集的数据内容包含用户的MAC地址、IMSI、车牌号、人脸图像;
(5)应用分析:基于关联的数据进行可视化应用分析,并对异常状态进行预警。
其中所述步骤(4)中的关联算法如图1所示,在这些大规模采集的数据中,可以通过关联分析来挖掘出三种设备采集的信息的一一对应关系。然而由于数据来源的特殊性,关联分析并不完全适用于本项目,因此需要根据项目需求对关联分析算法进行适当的修改,考虑到设备的搭建情况,并不是所有地点都已搭建三种设备,多为两种设备的组合;为使模型适用于不同的地点,算法只需考虑多种设备采集的信息的一对一匹配即可;例如,可先对IMSI号与MAC地址进行关联、再对MAC地址与图像关联,根据共有的MAC地址,即可从两种关联结果中生成三种设备采集的信息的一一对应匹配;整个算法步骤如下:S41信息整合:根据时间,将多种设备采集的信息通过特定并集、合并等方法整合到一个列表中,保证每一行中无重复项,其中每一行代表在同一时间点、同一地点,多种设备采集到的所有信息,以IMSI和MAC为例如下所示:
L=Lt1+s1={{IMSI1,IMSI2,IMSI3,MAC1,MAC2,MAC3,MAC4,MAC5,MAC6},
{IMSI4,IMSI5,IMSI6,MAC4,MAC5,MAC6},
{IMSI1,IMSI2,IMSI3,MAC1,MAC2,MAC3}};
S42挖掘频繁项集:包括生成一阶频繁项集和挖掘二阶频繁项集,以IMSI号与MAC的匹配为例,频繁项就是在庞大的数据集中,统计那些同时同地出现的IMSI号与MAC的频次,若频次大于最小频次,则视以该IMSI号与MAC组成的集合为频繁项集;
利用FP-growth算法生成一阶频繁项集,具体方法步骤如下:
S421-1:输入S41中信息整合后的列表L和最小频次S(满足最小频次的项集则为频繁项集);
S421-2:对列表L进行一次扫描、过滤和排序,具体包括利用一次扫描统计出列表L中各元素项的频次,过滤掉不满足最小频次的项,对剩余的项按频次排序,得到一阶频繁项集表L1;
S421-3:对经过S421-2处理后的L1构建FP树用来挖掘关于IMSI和MAC的二阶频繁项集;
S422挖掘二阶频繁项集:
在WIFI热点采集的数据远多于其他两种设备所采集的数据的情况下,传统的关联分析会导致出现很多MAC互相匹配的现象,而不是项目所期望的三种信息一一对应的匹配结果;这是因为,在生成多项候选集时,传统的关联分析不会考虑数据特征;除了匹配结果不理想,由于数据量大,如果不考虑数据特征,传统的关联分析会带来非常大的计算成本;
IMSI串为15位的整型数据,人脸ID为36位的字符串数据,MAC地址为15位的字符串,车牌号为省份、编码和5位或6位字符组成的字符串;利用FP-growth算法挖掘二阶频繁项集,具体方法步骤如下:
S422-1:从S421-3构建的FP树获得关于IMSI和MAC条件模式基;
S422-2:利用条件模式基构建属于IMSI和MAC条件FP树;
S422-3:在条件FP树中按照最小频次过滤挖掘出二阶频繁项集,在挖掘的过程中,根据同类型不进行关联的原则,设置只有不同类型的二阶频繁项集会被挖掘,最终生成不同类型关联的二阶频繁项集,如{IMSI1,MAC1},{IMSI2,MAC2},{IMSI3,MAC3};
S43生成关联规则:在步骤S42挖掘频繁项的过程中,会出现许多一对多,多对多的匹配结果,无法得到唯一的匹配结果;针对该现象,依据Apriori算法中支持度和置信度的计算原理计算出关联规则的支持度和置信度,最后通过置信度筛选来找出最终唯一的匹配结果,生成关联规则具体步骤如下:S431计算支持度:一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度。支持度反映了项集出现的概率,关联规则的支持度等于频繁集的支持度。以IMSI号和MAC地址为例:
Figure GDA0002918065640000101
Figure GDA0002918065640000102
Figure GDA0002918065640000103
其中,N表示S41中信息整合后的列表L的总行数,support_count{IMSI}表示该IMSI出现的频次,support_count{MAC}表示该MAC出现的频次,support_count{IMSI∪MAC}表示该IMSI和MAC同时出现的频次;
公式(1)得到该IMSI号在整个项集中出现的概率,公式(2)得到该MAC地址在整个项集中出现的概率,公式(3)得到该IMSI号和MAC地址在整个项集中同时出现的概率;
S432计算置信度:计算置信度即计算频繁项集中,某一个元素产生的条件下,产生另一个元素的概率,即条件概率。也可以说是某一个元素可推导出另外一个元素的概率,以IMSI号与MAC地址为例:
Figure GDA0002918065640000104
Figure GDA0002918065640000105
其中,support{IMSI}、support{MAC}和support{IMSI,MAC}分别由公式(1)(2)(3)计算得到;
公式(4)得到IMSI推导出MAC的概率,公式(5)得到MAC推导出IMSI的概率;
最后设置一个最小置信度,保留所有满足最小置信度的关联规则。
S433置信度筛选:对步骤S432得到的关联规则及其置信度根据一定规则进一步筛选匹配结果;
置信度计算后得到的结果并不是唯一的匹配结果,因此需要通过最终的置信度筛选来达到唯一结果,此前分别得出了IMSI号与MAC地址、人脸、车牌号一一对应匹配的结果;以IMSI配MAC地址为例,存在一个IMSI配多个MAC,即{IMSI1,MAC1},{IMSI1,MAC2},{IMSI1,MAC3},{IMSI2,MAC1},{IMSI2,MAC2},{IMSI3,MAC2},{IMSI4,MAC4}...};也存在多个IMSI配一个MAC,即{{MAC1,IMSI1},{MAC1,IMSI2},{MAC1,IMSI3},{MAC2,IMSI1},{MAC2,IMSI2},{MAC2,IMSI3},{MAC4,IMSI4}...};
S433-1:设置初步筛选条件,过滤掉单向匹配的结果,仅保留含有双向匹配的结果;
以S433中一对多匹配为例,保留{{IMSI1,MAC1},{MAC1,IMSI1},{IMSI1,MAC2},{MAC2,IMSI1},{IMSI2,MAC1},{MAC1,IMSI2},{IMSI2,MAC2},{MAC2,IMSI2},{IMSI3,MAC2},{MAC2,IMSI3},{IMSI4.MAC4},{MAC4,IMSI4}};
S433-2:将S433-1中正反匹配的结果相加,得到{{IMSI1,MAC1},{IMSI1,MAC2},{IMSI2,MAC1},{IMSI2,MAC2},{IMSI3,MAC2},{IMSI4,MAC4}};
S433-3:将S433-2结果以IMSI为关键字分组继续过滤,得到{{IMSI1,MAC1},{IMSI1,MAC2}}、{{IMSI2,MAC1},{IMSI2,MAC2}}、{{IMSI3,MAC2}}和{{IMSI4,MAC4}},将单个数量的匹配如:{IMSI3,MAC2}和{IMSI4,MAC4}加入到列表LIST1中;
S433-4:对S433-3剩余的每个分组进行置信度对比筛选,选择置信度高的匹配,得到{IMSI1,MAC1}和{IMSI2,MAC2},加入到列表LIST1中;
S433-5:现有LIST1为{{IMSI1,MAC1},{IMSI2,MAC2},{IMSI3,MAC2},{IMSI4,MAC4}},将S433-4处理后的LIST1以MAC为关键字分组继续过滤,得到{{IMSI1,MAC1}},、{{IMSI2,MAC2},{IMSI3,MAC2}}和{{IMSI4,MAC4}},将单个数量的匹配如:{IMSI1,MAC1}和{IMSI4,MAC4}加入到列表LIST2中;
S433-6:对S433-5剩余的每个分组进行置信度对比筛选,选择置信度高的匹配,得到{IMSI2,MAC2},加入到列表LIST2中;
S433-7:得到最终结果列表LIST2:{{IMSI1,MAC1},{IMSI2,MAC2},{IMSI4,MAC4}};最后真实结果见表1。
表1得到的结果
IMSI MAC CON
4600**********0 1C-**-**-**-**-**-C2 2.00000
4600**********1 EC-**-**-**-**-**-88 1.66667
4600**********2 4C-**-**-**-**-**-18 1.66667
4600**********3 6C-**-**-**-**-**-83 1.51136
4600**********4 0C-**-**-**-**-**-C8 1.51136
4600**********5 20-**-**-**-**-**-47 1.50000
注:其中CON代表confidence{IMSI→MAC}与confidence{MAC→IMSI}的相加之和。
经过上述步骤,可以得出一些较为理想的结果,将进出小区的用户的手机IMSI号、手机MAC地址、人脸图像及车牌图像进行一对一关联;但实际情况中,仍存在某些一对多、多对多的现象;例如,实际情况中可能会出现,一个IMSI号与两个MAC地址都互相关联,且置信度大于最小置信度;因此我们需要保留confidence{IMSI→MAC}与confidence{MAC→IMSI}相加之和最大的组合,并且在这个基础上进行置信度筛选的过程。通常情况下,字段关联依赖于共有信息,而该基于多数据源的社区人口信息关联的方法中的三种设备的共有信息只有时间,且三种设备的采集范围也不同;然而,在设备采集范围不同的情况下,同一时刻,三个设备采集的信息量并不对等,很难根据时间来对这三种数据进行一对一关联,因此采用上述的关联算法,可以将三种设备采集的信息进行一对一的关联。
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于多数据源的社区人口信息关联的方法,其特征在于,包括以下步骤:
(1)设备部署:基于小区场景的布点和楼栋场景的布点原则进行设备部署;
(2)数据采集:通过有线或无线方式连接步骤(1)中的所述设备,进行小区内实体数据的采集;
(3)数据处理:基于分布式架构的集群进行数据的处理;
(4)数据关联分析:基于已采集的数据内容,运用关联算法模型,基于时空维度进行数据分析和关联,输出一一对应的关联关系;
(5)应用分析:基于关联的数据进行可视化应用分析,并对异常状态进行预警;
所述步骤(1)中的设备包括WIFI热点或/和微侦码或/和摄像头;所述步骤(1)的设备部署中具体包括以下步骤:
S11基于小区场景的布点:于车辆出入口附近部署WIFI热点、微侦码和摄像头;
S21基于楼栋场景的布点:位于识别的楼栋周边部署WIFI热点,运用WIFI热点覆盖重叠方式,取其WIFI热点设备重叠覆盖交叉的人口信息;同时位于单元楼出入口安装摄像头采集单元楼住户图像;
所述步骤(4)数据关联分析中已采集的数据内容主要包含用户的MAC地址、IMSI、车牌号、人脸图像;
所述步骤(4)中的关联算法具体包括:
S41信息整合:根据时间,将多种设备采集的信息整合到一个列表中,其中每一行代表在同一时间点、同一地点的多种设备采集到的所有信息,采用IMSI和MAC地址时如下式所示:
L=Lt1+s1={{IMSI1,IMSI2,IMSI3,MAC1,MAC2,MAC3,MAC4,MAC5,MAC6},
{IMSI4,IMSI5,IMSI6,MAC4,MAC5,MAC6},
{IMSI1,IMSI2,IMSI3,MAC1,MAC2,MAC3}};
S42挖掘频繁项集:包括生成一阶频繁项集和挖掘二阶频繁项集,采用IMSI号与MAC地址的匹配时,频繁项就是在庞大的数据集中,统计那些同时同地出现的IMSI号与MAC的频次,若频次大于最小频次,则视以该IMSI号与MAC组成的集合为频繁项集;
S421生成一阶频繁项集:
利用FP-growth算法生成一阶频繁项集,具体方法步骤如下:
S421-1:输入S41中信息整合后的列表L和最小频次S,满足最小频次S的项集则为频繁项集;
S421-2:对列表L进行一次扫描、过滤和排序;
S421-3:对经过S421-2处理后的L1构建FP树用来挖掘IMSI、MAC的二阶频繁项集;
S422挖掘二阶频繁项集:
S422-1:从S421-3构建的FP树获得关于IMSI和MAC的条件模式基;
S422-2:利用条件模式基构建属于IMSI和MAC的条件FP树;
S422-3:在条件FP树中按照最小频次过滤挖掘出二阶频繁项集;
S43生成关联规则:在步骤S42挖掘频繁项的过程中,会出现许多一对多,多对多的匹配结果,无法得到唯一的匹配结果;针对该现象,依据Apriori算法中支持度和置信度的计算原理计算出关联规则的支持度和置信度,最后通过置信度筛选来找出最终唯一的匹配结果,生成关联规则具体步骤如下:
S431计算支持度:一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度;支持度反映了项集出现的概率,关联规则的支持度等于频繁集的支持度;采用IMSI号和MAC地址时:
Figure FDA0002906771440000021
Figure FDA0002906771440000022
Figure FDA0002906771440000023
其中,公式(1)得到该IMSI号在整个项集中出现的概率,公式(2)得到该MAC地址在整个项集中出现的概率,公式(3)得到该IMSI号和MAC地址在整个项集中同时出现的概率;
S432计算置信度:计算置信度即计算频繁项集中,某一个元素产生的条件下,产生另一个元素的概率,即条件概率;或某一个元素可推导出另外一个元素的概率,采用IMSI号与MAC地址时:
Figure FDA0002906771440000024
Figure FDA0002906771440000031
其中,公式(4)得到IMSI推导出MAC的概率,公式(5)得到MAC推导出IMSI的概率;
最后设置一个最小置信度,保留所有满足最小置信度的关联规则;
S433置信度筛选:对步骤S432得到的关联规则及其置信度根据一定规则进一步筛选匹配结果;
S433-1:对一对多匹配设置初步筛选条件,过滤掉单向匹配的结果,仅保留含有双向匹配的结果;
S433-2:将S433-1中双向匹配的结果相加;
S433-3:将S433-2结果以IMSI为关键字分组继续过滤;
S433-4:对S433-3剩余的每个分组进行置信度对比筛选,选择置信度高的匹配;
S433-5:将S433-4处理后的数据再以MAC为关键字分组继续过滤;
S433-6:对S433-5剩余的每个分组进行置信度对比筛选,选择置信度高的匹配结果即为最终结果。
2.根据权利要求1所述的基于多数据源的社区人口信息关联的方法,其特征在于,所述WIFI热点是针对终端MAC的无线空口侦测设备;它通过对空中接口无线信号的截取和处理,实现对覆盖区域手机信息的采集、处理和管控;所述WIFI热点可以获取的数据信息包括终端MAC地址、AP MAC地址和时间信息。
3.根据权利要求2所述的基于多数据源的社区人口信息关联的方法,其特征在于,所述微侦码是针对全网制式终端的无线空口侦测设备;它通过对空中接口无线信号的截获和处理,实现对覆盖区域手机信息的采集、处理和管控;所述微侦码可获取覆盖区域内手机的IMSI、TMSI、RSRP和时间信息。
4.根据权利要求3所述的基于多数据源的社区人口信息关联的方法,其特征在于,所述摄像头实时自动采集过往人物信息和车辆信息,并识别出每个实体的图像信息和车辆信息,并输出结构化、半结构化、非结构化的数据。
5.根据权利要求4所述的基于多数据源的社区人口信息关联的方法,其特征在于,所述车辆信息包括车牌号、车身颜色、车辆型号和时间戳;所述人物信息包括人脸、年龄、性别、是否戴眼镜、是否戴帽子、肤色、时间戳。
CN201811493200.XA 2018-12-07 2018-12-07 一种基于多数据源的社区人口信息关联的方法 Active CN109635003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811493200.XA CN109635003B (zh) 2018-12-07 2018-12-07 一种基于多数据源的社区人口信息关联的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811493200.XA CN109635003B (zh) 2018-12-07 2018-12-07 一种基于多数据源的社区人口信息关联的方法

Publications (2)

Publication Number Publication Date
CN109635003A CN109635003A (zh) 2019-04-16
CN109635003B true CN109635003B (zh) 2021-03-16

Family

ID=66071798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811493200.XA Active CN109635003B (zh) 2018-12-07 2018-12-07 一种基于多数据源的社区人口信息关联的方法

Country Status (1)

Country Link
CN (1) CN109635003B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110341554B (zh) * 2019-06-24 2021-05-25 福建中科星泰数据科技有限公司 可控式环境调节***
CN110475206B (zh) * 2019-06-28 2020-11-13 安徽四创电子股份有限公司 一种基于wifi日志的监控预警方法
CN110544008A (zh) * 2019-07-26 2019-12-06 苏州颢裕智能科技有限公司 一种非封闭社区的实有人口采集管理方法
CN110874369A (zh) * 2019-10-25 2020-03-10 广州纳斯威尔信息技术有限公司 一种多维数据融合侦查***及其方法
CN110852372B (zh) * 2019-11-07 2022-05-31 北京爱笔科技有限公司 一种数据关联方法、装置、设备及可读存储介质
CN110933195A (zh) * 2019-11-25 2020-03-27 福建金石电子有限公司 基于人像、mac、imsi以及车牌的匹配方法、装置以及设备
CN111163490B (zh) * 2019-12-13 2022-10-04 南京华苏软件有限公司 一种基于手机mac进行家庭住户分析方法
CN112256667B (zh) * 2020-09-16 2024-03-22 珠海市新德汇信息技术有限公司 多生物特征归一方法
CN114257490B (zh) * 2020-09-22 2023-08-15 ***通信集团设计院有限公司 无线网络性能告警分析方法及装置
CN112654035B (zh) * 2020-11-20 2023-12-05 深圳市先创数字技术有限公司 基于移动终端特征码的图码关联方法、***及存储介质
CN112766243A (zh) * 2021-04-07 2021-05-07 南京烽火星空通信发展有限公司 一种基于FP tree-Clique演进算法的多维数据融合方法
CN113536256B (zh) * 2021-07-27 2023-02-24 江西高创保安服务技术有限公司 一种人口流动数据的统计分析方法、装置及电子设备
CN114238433B (zh) * 2021-11-24 2022-09-16 北京融信数联科技有限公司 一种基于大数据的人口监测方法、***和存储介质
CN116662682B (zh) * 2023-05-22 2024-02-20 全景智联(武汉)科技有限公司 目标人群的确定方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927373A (zh) * 2014-04-24 2014-07-16 湖北航云端科技有限公司 基于增量式关联规则技术的动态大数据模型高效建立方法
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700607B2 (en) * 2005-08-02 2014-04-15 Versata Development Group, Inc. Applying data regression and pattern mining to predict future demand
CN107526735B (zh) * 2016-06-20 2020-12-11 杭州海康威视数字技术股份有限公司 一种关联关系的识别方法及装置
CN106776781B (zh) * 2016-11-11 2018-08-24 深圳云天励飞技术有限公司 一种人群关系网络分析方法及装置
CN108156037B (zh) * 2017-12-29 2020-12-15 ***通信集团江苏有限公司 告警关联分析方法、装置、设备及介质
CN108345959A (zh) * 2018-01-11 2018-07-31 佛山市顺德区中山大学研究院 一种基于移动互联网技术的小区门禁报警预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927373A (zh) * 2014-04-24 2014-07-16 湖北航云端科技有限公司 基于增量式关联规则技术的动态大数据模型高效建立方法
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法

Also Published As

Publication number Publication date
CN109635003A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635003B (zh) 一种基于多数据源的社区人口信息关联的方法
US20190166480A1 (en) Emergency messaging system and method of responding to an emergency
Maccari et al. Do we need a contact tracing app?
CN106304015B (zh) 用户设备的确定方法及装置
WO2019104949A1 (zh) 一种实现人员大数据采集分析的住宅门禁***
EP3241368B1 (en) Method and system for a real-time counting of a number of participants at a public happening
EP3132592B1 (en) Method and system for identifying significant locations through data obtainable from a telecommunication network
CN107273833B (zh) 用于监测流动人口的方法及其***
US10375516B2 (en) Method and system for a real-time counting of a number of persons in a crowd by means of aggregated data of a telecommunication network
CN103026378A (zh) 汇集人口统计分布信息
US20130073577A1 (en) Statistical information generation system and statistical information generation method
CN108810470B (zh) 一种智能门铃、智能播报方法及装置
CN109816404B (zh) 基于dbscan算法的电信诈骗团伙聚类方法及电信诈骗团伙聚类***
CN112002431A (zh) 一种利用电磁信号发现特定用户的密切接触者的方法及***
CN111163490B (zh) 一种基于手机mac进行家庭住户分析方法
CN109407530A (zh) 一种基于区块链的智能家居***
Zhu et al. Big data driven anomaly detection for cellular networks
CN109979586A (zh) 一种基于图像识别的快速定位养老院监控***
Determe et al. Monitoring large crowds with WiFi: A privacy-preserving approach
Ades et al. Is poverty concentration expanding to the suburbs? Analyzing the intra-metropolitan poverty distribution and its change in Montreal, Toronto and Vancouver
Kanjo et al. CrowdTracing: overcrowding clustering and detection system for social distancing
CN113423065B (zh) 一种基于手机信令数据确定交通小区人口岗位数据的方法
Liu et al. Location-aware smart campus security application
CN110727688A (zh) 重点人员网格化服务管理***
CN110807052B (zh) 用户群分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant