CN107944498A - 一种基于多标签的室内人群聚类方法 - Google Patents

一种基于多标签的室内人群聚类方法 Download PDF

Info

Publication number
CN107944498A
CN107944498A CN201711280844.6A CN201711280844A CN107944498A CN 107944498 A CN107944498 A CN 107944498A CN 201711280844 A CN201711280844 A CN 201711280844A CN 107944498 A CN107944498 A CN 107944498A
Authority
CN
China
Prior art keywords
mac address
time
region
tag
subscript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711280844.6A
Other languages
English (en)
Other versions
CN107944498B (zh
Inventor
戚荣志
李水艳
安纪存
毛莺池
平萍
黄倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201711280844.6A priority Critical patent/CN107944498B/zh
Publication of CN107944498A publication Critical patent/CN107944498A/zh
Application granted granted Critical
Publication of CN107944498B publication Critical patent/CN107944498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/618Details of network addresses
    • H04L2101/622Layer-2 addresses, e.g. medium access control [MAC] addresses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/69Types of network addresses using geographic information, e.g. room number

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多标签的室内人群聚类方法。该方法包括以下步骤:(1)通过AP设备得到区域内移动终端设备的访问状态;(2)计算出每个移动终端的多类标签,标签包含:①访问时段:以分钟为单位得到访问区域最频繁的进入时间;②平均访问时长:过滤掉极短的停留时间,移动终端在区域内停留的平均时间;③平均回访周期:当天时间内,终端设备距离上次访问该区域的时间;(3)以每个标签为一个维度将每个终端映射为多维坐标系下的点;(4)任选一个点,规定一个相似半径K,依次计算每个点与选中点的加权余弦距离d,将加权余弦距离小于相似半径的点归为一类,如果群体中半数以上的点与目标点相似,那么认为目标点属于该群体。

Description

一种基于多标签的室内人群聚类方法
技术领域
本发明涉及一种基于多标签的室内人群聚类方法,属于数据分析技术领域。
背景技术
当前环境下,随着智能手机的用户量增长和Wi-Fi网络的普及,几乎每个商场、写字楼、酒店等公共区域内都遍布着Wi-Fi网络。经过这些区域内的人群均可以连接相应的网络访问互联网。当前区域内人流的访问情况以及访问群体的类别信息成为了宝贵的财富。当前区域内人群聚类算法大部分是基于位置密度的距离算法或者是根据人工调查后的年龄、性别等标签进行聚类。基于密度的聚类方法不适用于小范围流动性大的区域,而年龄、性别等容易涉及到个人隐私。
因此有必要提出一种采集移动设备信息作为数据源、多标签的室内人群聚类方法。该方法仅仅使用获取到的MAC地址、RSSI信号强弱等信息来进行人群的聚类,不涉及到个人隐私,也无需对个人信息和采集到的信息进行精确匹配,可以有效地保护区域内人流的隐私,也不需要个人主动提供信息。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于多标签的室内人群聚类方法。
技术方案:一种基于多标签的室内人群聚类方法,包括以下步骤:
步骤1:通过AP设备探测当前区域内拥有Wi-Fi模块的移动终端设备的MAC地址、信号强度RSSI和采集时间;
步骤2:AP设备将采集到的数据发送给服务器,服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储;
步骤3:针对每个MAC地址,根据其状态序列得到停留该区域时间最长的一个时段的访问时间;
步骤4:针对每个MAC地址,根据其状态序列得到每次驻留该区域的平均时间;
步骤5:针对每个MAC地址,根据其状态序列得到回访周期的平均值;
步骤6:规定相似阈值K,任选一个MAC地址与其他所有MAC地址对应的标签依次计算加权余弦距离,重复选择所有的MAC地址进行上述计算,使所有的MAC地址之间都有一个余弦距离;
步骤7:根据K值和余弦距离对所有MAC地址进行群体划分。
步骤1中AP设备采集到区域内所有的移动终端的MAC地址和RSSI值,每隔一秒采集一次然后发送到服务器中。
步骤2中服务器程序根据RSSI的强弱判断该移动终端的是否在区域内,如果在区域内则状态为1,不在区域内状态为0,如果采集不到数据也为0。每个MAC地址所对应的状态序列样例为:00001111111111111110000….111100,然后将状态序列进行存储。
步骤3中针对每个MAC地址计算其停留时间最长的时间段的访问时间,在状态序列中,取出连续的由“1”组成的最长序列的起始时间即为访问时间。
步骤4中针对每个MAC地址计算其平均驻留时长,在状态序列中,过滤掉小于30秒的访问时间,其余访问时长取平均值得到平均访问时长。
步骤5中针对每个MAC地址计算其平均回访周期,在状态序列中,获取状态为连续0的序列的时长,去掉第一个连续0序列和最后一个连续0序列,剩余的0序列取平均值得到平均回访周期。
步骤6中,手动设置阈值为K,可根据具体场景进行调整,余弦距离权重A、B、C也为人工设定,每个MAC地址对应的三个标签的数值分别为a、b、c,使用一个二维数组d[N][N],N表示所有MAC地址的数量,d[i][j]表示第i个MAC地址与第j个MAC地址的加权余弦距离。
步骤7中,根据K值和二维数组d[N][N]划分不同的群体,具体包括如下步骤:
步骤S1:i设置为0,j设置为1;
步骤S2:x为i群体中所有MAC地址的下标,循环判断d[x][j]是否超过半数小于K值,如果是,则进入步骤S3,否则进入步骤S4;
步骤S3:将i、j归为一个群体,j标记为已归类;
步骤S4:j设置为下一个未归类的下标;
步骤S5:重复步骤S2-S4直到j等于N;
步骤S6:遍历未归类的所有下标y,再次判断y是否属于i群体,如果是进入步骤S7,否则进入步骤S8;
步骤S7:将y与i归为一个群体,y标记为已归类;
步骤S8:y设为下一个未归类的下标;
步骤S9:重复步骤S6-S8直到第一次遍历完未归类的下标;
步骤S10:设置i为第一个未归类的下标;
步骤S11:设置j为第二个未归类的下标;
步骤S12:重复步骤S2-S9,直到所有的数值计算完成,或者只留下一个未归类的下标。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例中群体聚类方法流程图;
图3为本发明实例实施中聚类效果图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多标签的室内人群聚类方法,包括如下步骤:
步骤1:AP设备将区域范围内的移动终端的MAC地址、RSSI值和采集时间发送到服务器中,采集时间间隔1秒。
步骤2:服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储,状态序列为一个只包含0或1的字符串,该字符串从左至右每一位表示1秒,如果当前位为1表示在这一秒中,持有该设备的个体处于区域内,如果当前位为0表示在这一秒中,持有该设备的个体处于区域外。例如下面的字符串“000001111100000”表示某个个体在前5秒处于区域外,然后进入区域后停留5秒钟,然后离开该区域。
步骤3:针对每个MAC地址,根据其状态序列得到停留该区域时间最长的一个时段的访问时间。在状态序列中,匹配到最长的全1字符串,然后获取到该字符串的首字母坐标,即可换算出访问时间。例如字符串“00111011000110010”为一个状态序列,那么该状态序列对应的访问时间为第3秒。
步骤4:针对每个MAC地址,根据其状态序列得到每次驻留该区域的平均时间,在状态序列中,过滤掉所有极短的停留时间,例如只停留了几秒,或者十几秒的情况。将其他的所有停留时间,即其他所有连续1的字符串的长度取平均值,经过换算即可得到平均停留时长。
步骤5:针对每个MAC地址,根据其状态序列得到回访周期的平均值,回访周期为距离上次访问的时间,在状态序列中表示为两个连续1字符串之间的距离,即连续0字符串的长度。除了状态序列的首位两个字符串,其余的字符串即为回访周期的具体数值,对这些字符串表示的长度取平均数,即可得到平均访问周期。
步骤6:计算所有MAC地址之间的加权余弦距离,三类标签的权重分别为A、B、C,第i个MAC地址对应的三类标签的值为ai、bi、ci,根据标准的余弦距离计算公式:
其中,下标i表示第i个点,下标j表示第j个点,ai、bi、ci分别表示第i个点三类标签的具体数值,aj、bj、cj分别表示第j个点三类标签的具体数值。
对标准公式进行变形,增加权重公式,然后进行取倒数运算,得到新的加权余弦距离公式如下:
根据新的加权余弦距离公式得到的加权余弦距离,随着数值的增大,表示相似度减小。公式中A、B、C的取值根据具体场景具体指定。同样根据场景指定距离阈值即相似半径K。当加权余弦距离dij小于相似半径K时,表示i、j两个MAC地址相似。
分别计算每两个MAC地址之间的加权余弦距离使用二维数组d[i][j]来表示。
步骤7:已知MAC地址两两之间的加权余弦距离和相似半径K,即可对所有的MAC地址进行聚类。聚类的思路是将MAC地址映射为虚拟坐标系中的点,两点之间的距离为加权余弦距离,不用对虚拟坐标系进行物理上的表示,只进行数学上的分析。每个群体由1个或多个点组成,选择一个群体和一个待测点,如果群体中,超过半数的点与待测点的距离小于K,那么认为待测点属于该群体。重复进行计算直到无法为该群体增加更多的点,然后再次选取另外一个群体进行比较,直到所有的点被归类到不同的群体中。K值的调整可以影响群体的密度和容错性。该聚类方法映射到二维平面的效果图如图3所示。
聚类的计算过程流程图如图2所示,主要包含计算某一点是否属于某群体的S1子程序,和整体计算过程的流程图。计算步骤如下:
步骤S1:i设置为0,j设置为1;
步骤S2:x为i群体中所有MAC地址的下标,循环判断d[x][j]是否超过半数小于K值,如果是,则进入步骤S3,否则进入步骤S4;
步骤S3:将i、j归为一个群体,j标记为已归类;
步骤S4:j设置为下一个未归类的下标;
步骤S5:重复步骤S2-S4直到j等于N;
步骤S6:遍历未归类的所有下标y,再次判断y是否属于i群体,如果是进入步骤S7,否则进入步骤S8;
步骤S7:将y与i归为一个群体,y标记为已归类;
步骤S8:y设为下一个未归类的下标;
步骤S9:重复步骤S6-S8直到第一次遍历完未归类的下标;
步骤S10:设置i为第一个未归类的下标;
步骤S11:设置j为第二个未归类的下标;
步骤S12:重复步骤S2-S9,直到所有的数值计算完成,或者只留下一个未归类的下标。

Claims (8)

1.一种基于多标签的室内人群聚类方法,其特征在于:通过AP设备采集每一秒钟进入区域内的MAC地址,针对每个MAC地址,根据其当日的所有状态数据计算出对应的多类标签数值;任意选取一个MAC地址,计算它与其他MAC地址的余弦相似度,如果相似度小于预定义阈值即归为一类,如果该群体内半数以上的MAC地址与待比较的MAC地址相似,那么也归为一类,最后得到多个不同的群体。
包括以下步骤:
步骤1:通过AP设备探测当前区域内拥有Wi-Fi模块的移动终端设备的MAC地址、信号强度RSSI和采集时间;
步骤2:AP设备可以将采集到的数据发送给服务器,服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储;
步骤3:针对每个MAC地址,根据其状态序列得到停留该区域时间最长的一个时段的访问时间;
步骤4:针对每个MAC地址,根据其状态序列得到每次驻留该区域的平均时间;
步骤5:针对每个MAC地址,根据其状态序列得到回访周期的平均值;
步骤6:规定相似阈值K,任选一个MAC地址与其他所有MAC地址对应的标签依次计算加权余弦距离,重复选择所有的MAC地址进行上述计算,使所有的MAC地址之间都有一个余弦距离;
步骤7:根据K值和余弦距离对所有MAC地址进行群体划分。
2.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤1中AP设备采集到区域内所有的移动终端的MAC地址和RSSI值,每隔一秒采集一次然后发送到服务器中。
3.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤2中服务器程序根据RSSI的强弱判断该移动终端的是否在区域内,如果在区域内则状态为1,不在区域内状态为0,如果采集不到数据也为0,然后将状态序列进行存储。
4.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤3中针对每个MAC地址计算其停留时间最长的时间段的访问时间,在状态序列中,取出连续的由“1”组成的最长序列的起始时间即为访问时间。
5.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤4中针对每个MAC地址计算其平均驻留时长,在状态序列中,过滤掉小于30秒的访问时间,其余访问时长取平均值得到平均访问时长。
6.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤5中针对每个MAC地址计算其平均回访周期,在状态序列中,获取状态为连续0的序列的时长,去掉第一个连续0序列和最后一个连续0序列,剩余的0序列取平均值得到平均回访周期。
7.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤6中,手动设置阈值为K,可根据具体场景进行调整,余弦距离权重A、B、C也为人工设定,每个MAC地址对应的三个标签的数值分别为a、b、c,使用一个二维数组d[N][N],N表示所有MAC地址的数量,d[i][j]表示第i个MAC地址与第j个MAC地址的加权余弦距离。
8.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤7中,根据K值和二维数组d[N][N]划分不同的群体,具体包括如下步骤:
步骤S1:i设置为0,j设置为1;
步骤S2:x为i群体中所有MAC地址的下标,循环判断d[x][j]是否超过半数小于K值,如果是,则进入步骤S3,否则进入步骤S4;
步骤S3:将i、j归为一个群体,j标记为已归类;
步骤S4:j设置为下一个未归类的下标;
步骤S5:重复步骤S2-S4直到j等于N;
步骤S6:遍历未归类的所有下标y,再次判断y是否属于i群体,如果是进入步骤S7,否则进入步骤S8;
步骤S7:将y与i归为一个群体,y标记为已归类;
步骤S8:y设为下一个未归类的下标;
步骤S9:重复步骤S6-S8直到第一次遍历完未归类的下标;
步骤S10:设置i为第一个未归类的下标;
步骤S11:设置j为第二个未归类的下标;
步骤S12:重复步骤S2-S9,直到所有的数值计算完成,或者只留下一个未归类的下标。
CN201711280844.6A 2017-12-06 2017-12-06 一种基于多标签的室内人群聚类方法 Active CN107944498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711280844.6A CN107944498B (zh) 2017-12-06 2017-12-06 一种基于多标签的室内人群聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711280844.6A CN107944498B (zh) 2017-12-06 2017-12-06 一种基于多标签的室内人群聚类方法

Publications (2)

Publication Number Publication Date
CN107944498A true CN107944498A (zh) 2018-04-20
CN107944498B CN107944498B (zh) 2021-08-31

Family

ID=61945056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711280844.6A Active CN107944498B (zh) 2017-12-06 2017-12-06 一种基于多标签的室内人群聚类方法

Country Status (1)

Country Link
CN (1) CN107944498B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639452A (zh) * 2018-10-31 2019-04-16 深圳大学 社交关系模型训练方法、装置、服务器及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615730A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种多标签分类方法及装置
US20160150459A1 (en) * 2014-11-19 2016-05-26 Qualcomm Incorporated Techniques to support heterogeneous network data path discovery
CN106131959A (zh) * 2016-08-11 2016-11-16 电子科技大学 一种基于Wi‑Fi信号空间划分的两级定位方法
CN106535283A (zh) * 2016-11-25 2017-03-22 南京科技职业学院 一种基于信标分簇的室内定位方法
CN107302794A (zh) * 2017-06-27 2017-10-27 哈尔滨工业大学深圳研究生院 利用wifi信号作为移动定位与导航的方法
US20170331742A1 (en) * 2016-05-12 2017-11-16 International Business Machines Corporation Resilient active-active data link layer gateway cluster

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160150459A1 (en) * 2014-11-19 2016-05-26 Qualcomm Incorporated Techniques to support heterogeneous network data path discovery
CN104615730A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种多标签分类方法及装置
US20170331742A1 (en) * 2016-05-12 2017-11-16 International Business Machines Corporation Resilient active-active data link layer gateway cluster
CN106131959A (zh) * 2016-08-11 2016-11-16 电子科技大学 一种基于Wi‑Fi信号空间划分的两级定位方法
CN106535283A (zh) * 2016-11-25 2017-03-22 南京科技职业学院 一种基于信标分簇的室内定位方法
CN107302794A (zh) * 2017-06-27 2017-10-27 哈尔滨工业大学深圳研究生院 利用wifi信号作为移动定位与导航的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639452A (zh) * 2018-10-31 2019-04-16 深圳大学 社交关系模型训练方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN107944498B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘***及其方法
CN107862022B (zh) 文化资源推荐***
CN105760439B (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN103617235B (zh) 一种基于粒子群算法的网络水军账号识别方法及***
CN106844614A (zh) 一种户型图功能区域快速识别***
CN109165556A (zh) 一种基于grnn身份识别方法
CN106940794A (zh) 一种目标采集侦码伴随***
CN106776930B (zh) 一种融入时间和地理位置信息的地点推荐方法
CN106503742A (zh) 一种可见光图像绝缘子识别方法
CN108062366B (zh) 公共文化信息推荐***
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN105760547A (zh) 一种基于用户聚类的图书推荐方法及***
CN102324038A (zh) 一种基于数字图像的植物种类识别方法
CN107180245A (zh) 一种室内外场景识别方法及装置
CN109033944A (zh) 一种全天空极光图像分类与关键局部结构定位方法及***
CN110019703A (zh) 数据标记方法及装置、智能问答方法及***
CN106506528A (zh) 一种大数据环境下的网络安全分析***
CN111723257A (zh) 基于用水规律的用户画像方法与***
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及***
CN111325056A (zh) 流动人口分析方法及相关产品
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN107133689A (zh) 一种位置标记方法
CN113158084B (zh) 移动轨迹数据处理的方法、装置、计算机设备及存储介质
Yin et al. ADPR: An attention-based deep learning point-of-interest recommendation framework
CN107944498A (zh) 一种基于多标签的室内人群聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant