CN109977132B - 一种基于无监督聚类模式的学生异常行为模式分析方法 - Google Patents

一种基于无监督聚类模式的学生异常行为模式分析方法 Download PDF

Info

Publication number
CN109977132B
CN109977132B CN201910101560.9A CN201910101560A CN109977132B CN 109977132 B CN109977132 B CN 109977132B CN 201910101560 A CN201910101560 A CN 201910101560A CN 109977132 B CN109977132 B CN 109977132B
Authority
CN
China
Prior art keywords
abnormal
class
individuals
student
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910101560.9A
Other languages
English (en)
Other versions
CN109977132A (zh
Inventor
孔德慧
于沁杨
张勇
李新海
代晋玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910101560.9A priority Critical patent/CN109977132B/zh
Publication of CN109977132A publication Critical patent/CN109977132A/zh
Application granted granted Critical
Publication of CN109977132B publication Critical patent/CN109977132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于无监督聚类模式的学生异常行为模式分析方法,包括如下步骤:步骤1:提取学生异常行为关键特征;步骤2:使用无监督聚类分析进行学生异常行为类提取;步骤3:分组别度量学生异常类中异常行为个体;步骤4:利用学生时空关联图检测具有相似行为的异常群体。采用本发明的技术方案,可实现对校园内存在的学生异常行为进行精准分析,帮助校园管理人员精准、快速分析学生行为。

Description

一种基于无监督聚类模式的学生异常行为模式分析方法
技术领域
本发明属于数据异常检测技术领域,尤其涉及一种基于无监督聚类模式的学生异常行为模式分析方法。
背景技术
随着我国教育事业蓬勃发展,根据国家***2016年教育类数据显示我国普通高等学校在校生人数已经达到2548万,如此一个庞大的学生团体的学习、生活问题逐渐成为社会不得不重视的问题。一方面,近几年学生问题频发,特别是高校大学生问题屡见不鲜;另一方面,学生团体作为国家新兴发展基础力量,应当给予充分的重视与保证。
由于RFID技术的逐渐发展,获取学生数据并加以存储成为一个简单的事情,这为本项研究带来更大的支持。此外由于校园学生团体基数大,学生活动自由性强,对学生个体行为的监控难以实现,对学生学习行为分析研究较为复杂,目前研究中缺少具体针对学生个体及群体的学习行为模式分析,对于学生群体与个体关联性缺少直观的可视化展示,校园生活中对异常个体排查与分析工作难以开展。因此,对于学生群体及个体行为规律挖掘、分析及可视化将为现代化教育教学管理做出巨大贡献。
然而历年针对校园数据挖掘的研究并非提出一种有效的检测异常方法,更多侧重于通过对异常数据的挖掘,例如根据学生一卡通消费数据,通过把学生的日常消费情况做综合分析,结合早餐预警平台去分析在校学生的圈存机数据。从而可以关联分析这名在校学生是否是家庭困难的,进而可以提醒学生会或其他团体有尺度的帮助,避免学生的抵触情绪;又如通过对学校内部学生校园卡以及校园用电数据的分析与归纳,定义了学生生活中异常用电模型,并以此为模型挖掘了真实的用电情况,并运用可视化方法进行异常用电可视展示并形成可视应用,此方法为校园内部有关部门提供了重要的监测方法与平台。
为了提高现代化教育教学模式下对学生管理及监护能力,有必要挖掘学生群体及个体行为规律加以展示及监督。本发明旨在通过对校园大数据进行采集、分析、处理,挖掘数据间隐藏规律,通过可视化技术展示学生学习、生活行为规律,学生日常行为的关联性分析,完成对学生群体及个体间特征展示,异常学生个体筛选。预期通过本发明完成对学生群体及个体间规律挖掘以及对异常个体准确判断,并能根据已验证异常个体,根据其行为规律以及日常活动行为进行关联分析,实现自动检测异常群体功能。本发明研究成果,可应用于公共教育机构,为校园管理者提供更为快捷科学的判断方法。
发明内容
针对现有技术中存在的上述问题,本发明提出一种基于无监督聚类模式的学生异常行为模式分析方法,通过对学生在校园内的行为活动在时间、空间、行为规律上的研究,使用无监督聚类方式判定学生样本中可能存在的异常行为,并通过其他有效行为及调查数据对结果加以验证。在以上基础上,通过利用验证数据结合度量学生个体在校园活动中空间、时间上的相似性,计算目标学生样本中存在潜在异常群体,构建学生异常行为关联图,以自动检测与已验证异常个体具有相似的行为模式的异常群体。
为实现上述目的,本发明采用如下的技术方案:
步骤1:学生异常行为关键特征提取
所述关键特征包括:学生属性维度、消费规律特征、时间空间维度特征、社交活动特征;学生属性维度包含学生***Studentid、学生卡平均使用次数AvgCarduse、学生卡交易金额TransMoney;消费规律特征包含高峰时段消费HotTimeFre、正常消费次数NorUseFre;时间空间维度特征包含活动地点熵值LocDiff、活动时间熵值TimeDiff;社交活动特征包括个人社交网络大小MatSocLength、个人社交频率MatSocFre;基于上述9维关键活动特征指标为每一个体构建活动特征序列,以量化其在校行为规律;
步骤2:基于无监督聚类方式的学生异常类提取
使用K-Means算法针对选取样本进行聚类分析,通过对K进行赋值进行聚类数目的判定,通过聚类的方式在高维度空间中具有相同或相似特征模式的个体将被分为一类,并且通过类内凝聚度以及类间凝聚度进行聚类效果的衡量;并利用相对异常算法ROCF(Relative outlier cluster factor)计算突变异常类,判断所得类目为异常类或混合类;
步骤3:基于局部异常因子算法的分组别异常个体行为分析
基于提取的异常类与混合类,针对类内个体进行逐一分析,对于个体属于异常类的认定为异常个体;针对混合类使用基于局部异常因子的算法,将步骤1中所提个体特征作为计算指标,判定个体在空间及时间特征上的离群程度,并通过验证筛选定义判定阈值,在所述阈值之上个体被认定为行为异常个体;
步骤4:基于时空关联分析的异常群体检测
通过对异常类及异常个体的挖掘与判定,将获得在行为上带有异常标签的个体,通过度量全体学生样本中与异常标签个体具有相似性,来构建基于时空关联的学生活动关联分析图,用来判断学生共有的学生行为模式,以及判定学生样本中存在的潜在异常群体。
附图说明
图1为一种基于无监督聚类模式的学生异常行为模式分析方法流程图;
图2、图3为利用K-Means算法聚类方式进行类间、类内凝聚指数分布图;
图4为利用LOF局部异常因子方式进行的异常程度阈值分布图;
图5为利用Pearson相关系数进行特征度量关系相关性度量图;
图6为利用可视化图表的局部时空关联分析图(118个顶点、712条边)。
具体实施方式
下面结合附图和实例对本发明做进一步说明。
如图1所示,本发明提供一种基于无监督聚类及社区发现算法的学生异常行为个体及群体的检测分析方法,主要包括以下步骤:
步骤1:学生异常行为关键特征提取
分别从时间、空间、活动规律、社交情况四个维度进行学生活动行为特征提取;其中,行为活动规律包括AvgCarduse(学生卡平均使用次数)、TransMoney(学生卡交易金额);消费规律特征包括HotTimeFre(高峰时段消费)、NorUseFre(正常消费次数);时间维度特征包括LocDiff(活动地点熵值),空间特征维度特征包括TimeDiff(活动时间熵值);社交情况特征包括MatSocLength(个人社交网络大小)、MatSocFre(个人社交频率)。最终基于上述8维关键活动特征指标为每一个体构建活动特征序列,以量化其在校行为规律。
AvgCarduse(学生卡平均使用次数)为个体一卡通使用次数与平均使用次数的比值,一卡通使用作为一个个体在限定的活动场所的活动记录的重要指标,可以明确得出个体在给定区间的活动频率,可见一个个体AvgCarduse值偏大可见其活跃性更强,而AvgCarduse偏小可得出其个体活动性较低。
TransMoney(学生卡交易金额)为个体在给定时间区间内,发生交易金额的大小,交易金额指单纯的金额输出,由于学生个体在校园内部的一切消费都为校园卡支出,一个个体的消费程度可判定个体在给定时间区间内的消费水准。
HotTimeFre(高峰时段消费)为个体在高峰时间段消费的频数,学生在一个日周期内,其活动地点与活动场所呈现趋近化,而高峰时间段消费频数可代表其日常出行规律程度,一个人在常规时间内进行指定活动可以被认定为规律性发展。此指标偏低的学生极容易出现自闭的情况。
NorUseFre(正常消费次数)记录一个个体在校期间正常活动事项天数,校园内存在各种圈存机、消费机,提供学生各项生活活动,一日三餐作为学生活动基础,此项指标可描述学生在校规律程度。
LocDiff(活动地点熵值)为本发明提出的基于地点离散程度的特征指标,其主要目的是衡量学生在不同地点活跃的紊乱程度,其计算公式见式(1),其中Lu是个体u所访问的全部校园活动区域。Ol,u={o∈Lu&o∈L}是个体u所访问的特定站点片区。|Pu|是u在特定区域的总体访问次数。Pu(l)是个体u访问特定校园活动区l的概率,
Figure GDA0003100528200000041
一般来说,地点离散程度代表一个人在规律作息下活跃程度,当该值呈现出极大或极小时,成为潜在异常个体的概率越高。
Figure GDA0003100528200000042
TimeDiff(活动时间熵值)为本发明提出的基于时间的离散程度的特征指标,其主要目的是衡量学生在不同时间进行活动的紊乱程度,其计算公式见式(2),其中Tu是个体u访问某一校园活动区域时的全部时段分布。Ot,u={o∈Tu&o∈T}是个体u访问某一站点的特定时段t。|Pu|是u在特定时段的总体访问次数。Pu(t)是个体u在特定时段t访问某一校园活动区域的概率,
Figure GDA0003100528200000043
一般来说,当次特征出现极值极大的情况下,学生时间异常性更高,成为异常可能性更大。
Figure GDA0003100528200000044
MatSocLength(个人社交网络大小)为本发明提出的衡量学生社交范围的特征指标,其目的在于衡量一个个体与其发生共同校园活动事件的社交伙伴的数量,其计算方式通过将校园活动按顺序排列,校园活动包括其食堂消费、超市消费、图书馆消费、淋浴消费,D={Sz,Tz,Lz}其中Sz代指发生校园活动的学号;Tz,Lz分别代表发生Z事件下的地点及时间。认定一个个体与另外一个个体,在排除小概率情况下多次发生共同学生事件认为其中存在某种社交关系其中小概率计算公式见式(3),并使用先验知识对学生跨域、跨年级等先验因素加入筛选小概率事件,根据此理论课构建社交网络,其中社交网络长度,可在活动行为上衡量一个人与其他人的活跃程度,找出校园内存在孤独者。
Figure GDA0003100528200000045
MatSocFre(个人社交频率)为本发明提出的衡量学生社交频率的特征指标,其目的是衡量一个个体在上述网络中与他人交互的次数,一个人社交网络过小,或者其社交频率过小可能被认定为个体异常。
通过对校园内存在的学生个体的特征提取,确定了提取特征的限定范围。当确定特征后,由于特征间在数值、或者行为规律上回呈现相关性,考虑到输入高维数据会对下一步骤结果产生影响,故此本发明使用皮尔逊相关系数进行特征筛选,利用数据间相关性,将特征与特征间相关性强的特征筛掉,留下特征独立性强的特征作为个体的标识。皮尔逊相关系数具体计算见式(4)所示,其中
Figure GDA0003100528200000051
σAσB代表A特征与B特征的标准差即
Figure GDA0003100528200000052
Figure GDA0003100528200000053
为特征的平均值,使用相关系数度量取件在[0,100]内,其中相关性越高相关系数越高。具体筛选结果见附件图。
步骤2:基于无监督聚类方式的学生异常类提取
由于个体在校园活动上呈现出不同的分布特征,所以本方案选用基于K-Means算法进行聚类分析。该算法具有较高的计算性能和分组精度,目前受到学者的广泛青睐,该算法的工作原理为:根据个体校园活动特征维度上的相似性,将具有相近特征规律的个体聚集为一类,最终得到k种不同特征规律类别。如果某类中仅包含具有异常特征规律的个体,则称该类为异常类;如果某类混杂着异常个体和正常个体,则称该类为混合类。
K-Means算法收敛的条件是所有类内个体特征的累积相异度最小,具体可用聚类评估指标SSE进行量化表征。SSE是指所有类的类内任一样本点与中心点的距离的累积和。通常,SSE与类内凝聚度成反比,当SSE越小,类内凝聚度越大,聚类效果越好。SSE的计算公式见式(6)。式中,x是第i类的任一样本点,代表第i类特征模式类别下的任一个体的特征序列;ci是第i类的聚类中心,代表第i类特征模式类别下的典型特征序列;dist(x,ci)是x和ci的欧式距离,代表第i类特征模式类别下所选个体的特征序列与典型特征序列的相异度。
Figure GDA0003100528200000054
由于K-Means算法需要预设聚类数目K。该值达到最优的条件是所有类内个体的累积相异度最小,且所有类间的累积相异度最大。本发明使用基于层次的聚类算法确定初始K值作为聚类效果参考。使用类间累积相异度可用聚类评估指标SSB量化表示类间耦合性。SSB是指所有类的类内质心与全体数据集质心的欧式距离的累积和。通常,SSB与类间分离度成正比,当SSB越大,类间分离度越大,聚类效果越好。SSB的计算公式见式(7)。式中,c是全体数据集的质心,代表全体个体的聚类中心;mi是第i类的类内样本个数,代表第i类特征类别下所有个体的数目。
Figure GDA0003100528200000055
本发明采用相对异常算子ROCF(Relative outlier cluster factor)来判定无监督聚类所得每一类校园个体的异常程度,该算法工作原理为在异常个体为小概率事件的基础上,发生异常突变的类目被视为小概率存在类,小概率存在类视为异常类;相反符合类中由于存在大量的正常个体,所以其个体容量会相比异常类个体数目更多。基于此思想根据聚类效果得出聚类结论来后,根据异常类与邻近混合类在类内数目的相对变化率上将产生突变,那么相对应的ROCF(i)也会发生相应的突变。基于此将聚类所得类目组合为一个集合S,且S={Si}(i=1,2,…,k);将Si的类内个体数目定义为类大小|Si|。按类大小升序排列S中各类,针对两个体积连续的异常类S和邻近混合类Si+1,采用TL(Si)来量化表示类Si与Si+1在类体积上的相对变化率,且
Figure GDA0003100528200000061
那么,类ci的相对异常因子ROCF(Si)是关于类体积相对变化率TL(Si)的指数函数,计算方式见式(8)。
Figure GDA0003100528200000062
由式(8)可知,ROCF(Si)介于[0,1]范围,当ROCF(Si)越大,类Si的异常程度越高。当异常类Si和混合类Si+1相邻,类Si的相对异常因子ROCF(Si)将显著趋于1,可有效表示类Si的类异常性。经多组实验结果发现,当ROCF(Si)超过临界阈值0.1时,
Figure GDA0003100528200000063
意味着从Si到Si+1的类体积变化较大,集合S中类S1到Si(i>1)均为异常类,且这些类内的全部个体将标记为异常个体。倘若ROCF(Si)小于临界阈值0.1,
Figure GDA0003100528200000064
意味着从Si到Si+1的类体积变化微小,认定Si并不是异常类。
步骤3:基于局部异常因子算法的分组别异常个体行为分析
由上述步骤可得出在特征特征选择下的无监督聚类结果,其中聚类所得类目中存在异常类,以及混合类。针对异常类将把类内所有个体标记为异常个体,针对混合类本发明使用步骤1中所提个体特征作为计算指标,使用基于密度的度量方法LOF(local outlierfactor)来判定混合类内的个体。LOF算法是一种基于密度的算法,其思想是计算所有所有点的第K近距离,并计算局部密度,通过局部密度的倒数与局部密度的平均值进行比较得出个体点的离群指数,其计算公式如式(9)所示。
Figure GDA0003100528200000065
其中,分子部分包括所有点的局部密度的平均值,通过平均值与该点的可达密度做商,比值越接近1说明个体点的密集程度和正常点相近,而当比值小于1说明该点密度较其他点更高,而当比值大于1说明这个点密度高于其他邻域点,此点可被认为是异常点。
在本发明中通过对个体LOF的计算确定个体是否异常,在本方法研究中通过异常个体与校园其他数据结合以及调查咨询等方式进行个体验证,并根据小概率事件因素设定相应的LOF阈值,在此阈值之上个体被认定为行为异常个体,将进行标记。
步骤4:基于时空关联分析的异常群体检测
由上述工作可的出带有标签的异常个体,本步骤将进行基于时空关联分析的异常群体检测,由于学生在校园范围内可能会存在相同的异常行为,通过本方法将实现异常群体的自动检测功能,本功能为校园管理者提供了更为科学与方便的判断依据。
首先,度量两个及以上的个体的关联程度,要选取合适的算子进行相似度的计算,顾名思义相似度指代两个个体在时间、空间上呈现出的高维度相似性。本发明采用两类算子进行校园个体相似性度量,其中第一个是利用特征指标针对行为规律进行度量,其计算公式如式(10)所示,在此方法中,通过度量多个个体在特征上的相异性衡量,其中,p和q分别表示任意两个学生个体,p和q特征规律的相异性可由二者间特征序列mp和mq的欧式距离featSim(p,q)表示,其中,
Figure GDA0003100528200000071
Figure GDA0003100528200000072
代表mp或mq的第d维特征指标,那么,p和q移动模式相似性mobSim(p,q)即可表示为二者移动模式相异性featSim(p,q)的指数反函数,其中,δ为幂平衡算子,用于确保mobSim(p,q)介于[0,1]范围内,且
Figure GDA0003100528200000073
Figure GDA0003100528200000074
第二种为基于时空活动的共发性算子ActSim(p,q),计算公式如式(11)所示下,其中ActNum为将所有学生交互活动按照一定的时间差值(J=10min)进行划分的总数目,Act(pq)为PQ两个学生的相同交互事件在同一活动序列内的频数,len(Akpq)为在Act(pq)发生情况下,此公共序列中的所有个体数。
Figure GDA0003100528200000075
通过度量两种相似性算子构建基于时空关联的分析图G,其中G=(V,E),其中V、E分别指代时空关联分析图中的点与边,点代表两个相对独立的个体,边连接两个个体,p′,q′∈V时则ep′q′∈E,利用上述步骤中相似性度量值作为关联分析图的权重,构造时空关联分析图有利于构建校园时空关联分析网络,可为异常群体发现提供基础。
本发明采用一种基于模块度Q最优的BGLL算法来检测不同边权值量化方式下不同个体的关联程度,该算法是目前由于其运行速度快,被认为最快的社团划分算法之一,其原理采用最优模块度Q的思想进行模块的划分,其计算公式如式(12)所示。其中W(p,q)为指的是节点p′和q′的连接边的权值,kp′或kq′是指所有邻接节点p′或q′的边权值之和,m是网络中所有权值总和。通过衡量模块度大小来衡量模块内聚集性,以及团体间的分散性。
Figure GDA0003100528200000081
BGLL算法实现分为两个步骤,首先,时空关联图中的所有点被当做独立的个体社区,经过迭代计算与其相邻的节点,以及相关联的节点加入该社区的模块度,如果新节点加入到该社区获得了非负的模块度,则说明新的节点符合团体。根据条件筛选出使得模块度最大的一种加入方案,使得网络的模块度最大,经过一轮迭代后,将形成以各自目标点以及社区的高聚合社区模块。然后,将第一步生成的部分社区划分为一个新的个体点,相当于原始关联图,利用第一步的方式进行第二次的迭代,直到模块度不再增加为止。
实施例1:
选取北京某高等学校学生一卡通食堂消费数据、浴室淋浴数据、超市消费数据、图书馆消费数据作为原始数据,时间包括2015年3月至7月,其中包含590万条文本数据。
基于无监督聚类及社区发现算法的学生异常行为个体及群体的检测分析方法,包括以下步骤:
步骤1:学生异常行为关键特征提取
如上述所述,为全体个体中的基本个体进行以上特征的提取其中,学生属性维度包含Studentid(学生***)、AvgCarduse(学生卡平均使用次数)、TransMoney(学生卡交易金额);消费规律特征包括HotTimeFre(高峰时段消费)、NorUseFre(正常消费次数);时间空间维度特征包括LocDiff(活动地点熵值)、TimeDiff(活动时间熵值);社交活动特征包括MatSocLength(个人社交网络大小)、MatSocFre(个人社交频率)。
步骤2:基于无监督聚类方式的学生异常类提取
在特征提取的基础上,选用无监督聚类方式进行学生异常类进行提取,本步骤使用K-Means算法针对选取样本进行聚类分析,通过对K进行赋值进行聚类数目的判定。通过聚类的方式在高维度空间中具有相同或相似特征模式的个体将被分为一类,并且通过类内凝聚度以及类间凝聚度进行聚类效果的衡量,如果类中存在个体全部为异常学生样本,称此类为异常类,否则为混合类。本步骤通过ROCF(Relative outlier cluster factor)相对异常算法来判定划分的类是否为异常类。
步骤3:基于局部异常因子算法的分组别异常个体行为分析
基于提取的异常类与混合类,针对类内个体进行逐一分析,对于个体属于异常类的认定为异常个体,对于不属于异常类的个体利用基于密度的LOF算子进行异常指数的计算,并根据统计分析方法以及实际验证的方法度量异常指数数值,本文使用划分不同K近距离进行LOF异常因子的计算,使用不同规定异常指数样本。
步骤4:基于时空关联分析的异常群体检测
基于前述理论和验证可得到异常可能性较高的异常个体,在大规模学生范围内与其具有相似时空模式、属性特征规律的学生称作潜在异常学生。根据学生在校内日常行为活动,利用相似性算子进行学生在时空活动下相似性作为特征度量,以异常较高学生为基础从多维度量异常行为个体间相似性,并构建时空关联分析图,其中边代表相似相关连接,权重代表相似相关指数。再采用基于模块度最优化的GBLL算法自动检测潜在异常群体。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (3)

1.一种基于无监督聚类模式的学生异常行为模式分析方法,其特征在于,包括以下步骤:
步骤1:学生异常行为关键特征提取
所述关键特征包括:学生属性维度、消费规律特征、时间空间维度特征、社交活动特征;学生属性维度包含学生***Studentid、学生卡平均使用次数AvgCarduse、学生卡交易金额TransMoney;消费规律特征包含高峰时段消费HotTimeFre、正常消费次数NorUseFre;时间空间维度特征包含活动地点熵值LocDiff、活动时间熵值TimeDiff;社交活动特征包括个人社交网络大小MatSocLength、个人社交频率MatSocFre;基于上述9维关键活动特征指标为每一个体构建活动特征序列,以量化其在校行为规律;
步骤2:基于无监督聚类方式的学生异常类提取
使用K-Means算法针对选取样本进行聚类分析,通过对K进行赋值进行聚类数目的判定,通过聚类的方式在高维度空间中具有相同或相似特征模式的个体将被分为一类,并且通过类内凝聚度以及类间凝聚度进行聚类效果的衡量;并利用相对异常算法ROCF计算突变异常类,判断所得类目为异常类或混合类;ROCF即Relative outlier cluster factor;
步骤3:基于局部异常因子算法的分组别异常个体行为分析
基于提取的异常类与混合类,针对类内个体进行逐一分析,对于个体属于纯异常类的认定为异常个体;针对混合类使用步骤1中所提个体特征作为计算指标,使用基于密度的度量方法LOF来判定混合类内的个体;
LOF即local outlier factor算法是一种基于密度的算法,其思想是计算所有所有点的第K近距离,并计算局部密度,通过局部密度的倒数与局部密度的平均值进行比较得出个体点的离群指数,其计算公式见式(9),
Figure FDA0003100528190000011
其中,分子部分包括所有点的局部密度的平均值,通过平均值与该点的可达密度做商,比值越接近1说明个体点的密集程度和正常点相近,而当比值小于1说明该点密度较其他点更高,而当比值大于1说明这个点密度高于其他邻域点,此点可被认为是异常点;
通过对个体LOF的计算确定个体是否异常,通过异常个体与校园其他数据结合以及调查咨询方式进行个体验证,并根据小概率事件因素设定相应的LOF阈值,在此阈值之上个体被认定为行为异常个体,将进行标记;
步骤4:基于时空关联分析的异常群体检测
通过对异常类及异常个体的挖掘与判定,将获得在行为上带有异常标签的个体,通过度量全体学生样本中与异常标签个体具有相似性,来构建基于时空关联的学生活动关联分析图,用来判断学生共有的学生行为模式,以及判定学生样本中存在的潜在异常群体。
2.如权利要求1所述的基于无监督聚类模式的学生异常行为模式分析方法,其特征在于,步骤2中采用相对异常算子ROCF(Relative outlier cluster factor)来判定无监督聚类所得每一类校园个体的异常程度,具体为:将聚类所得类目组合为一个集合S,且S={Si}(i=1,2,…,k);将Si的类内个体数目定义为类大小|Si|,按类大小升序排列S中各类,针对两个体积连续的异常类Si和邻近混合类Si+1,采用TL(Si)来量化表示类Si与Si+1在类体积上的相对变化率,且
Figure FDA0003100528190000021
那么,类Si的相对异常因子ROCF(Si)是关于类体积相对变化率TL(Si)的指数函数,计算方式见式(8),
Figure FDA0003100528190000022
由式(8)可知,ROCF(Si)介于[0,1]范围,当ROCF(Si)越大,类Si的异常程度越高,当异常类Si和混合类Si+1相邻,类Si的相对异常因子ROCF(Si)将显著趋于1,可有效表示类Si的类异常性,当ROCF(Si)超过临界阈值0.1时,
Figure FDA0003100528190000023
意味着从Si到Si+1的类体积变化较大,集合S中类S1到Si(i>1)均为异常类,且这些类内的全部个体将标记为异常个体;倘若ROCF(Si)小于临界阈值0.1,
Figure FDA0003100528190000024
意味着从Si到Si+1的类体积变化微小,认定Si并不是异常类。
3.如权利要求1所述的基于无监督聚类模式的学生异常行为模式分析方法,其特征在于,步骤4具体为:
首先,度量两个及以上的个体的关联程度,要选取合适的算子进行相似度的计算,所述相似度指代两个个体在时间、空间上呈现出的高维度相似性;采用两类算子进行校园个体相似性度量;
第一个是利用特征指标针对行为规律进行度量,其计算公式如式(10)所示,在此方法中,通过度量多个个体在特征上的相异性衡量,其中,p和q分别表示任意两个学生个体,p和q特征规律的相异性可由二者间特征序列mp和mq的欧式距离featSim(p,q)表示,其中,
Figure FDA0003100528190000025
Figure FDA0003100528190000026
代表mp或mq的第d维特征指标,那么,p和q移动模式相似性mobSim(p,q)即可表示为二者移动模式相异性featSim(p,q)的指数反函数,其中,δ为幂平衡算子,用于确保mobSim(p,q)介于[0,1]范围内,且
Figure FDA0003100528190000027
Figure FDA0003100528190000028
Figure FDA0003100528190000031
第二种为基于时空活动的共发性算子ActSim(p,q),计算公式如式(11)所示下,其中ActNum为将所有学生交互活动按照预定的时间差值进行划分的总数目,Act(pq)为PQ两个学生的相同交互事件在同一活动序列内的频数,len(Akpq)为在Act(pq)发生情况下,此公共序列中的所有个体数;
Figure FDA0003100528190000032
其次,通过度量两种相似性算子构建基于时空关联的分析图G,其中G=(V,E),其中,V、E分别指代时空关联分析图中的点与边,点代表两个相对独立的个体,边连接两个个体,p′,q′∈V时则ep′q′∈E,利用上述步骤中相似性度量值作为关联分析图的权重,构造时空关联分析图有利于构建校园时空关联分析网络;
最后,采用基于模块度Q最优的BGLL算法来检测不同边权值量化方式下不同个体的关联程度,其原理采用最优模块度Q的思想进行模块的划分,其计算公式如式(12)所示,其中,W(p,q)为指的是节点p′和q′的连接边的权值,kp′或kq′是指所有邻接节点p′或q′的边权值之和,m是网络中所有权值总和,通过衡量模块度大小来衡量模块内聚集性,以及团体间的分散性,
Figure FDA0003100528190000033
BGLL算法实现分为两个步骤,第一步,时空关联图中的所有点被当做独立的个体社区,经过迭代计算与其相邻的节点,以及相关联的节点加入该社区的模块度,如果新节点加入到该社区获得了非负的模块度,则说明新的节点符合团体;根据条件筛选出使得模块度最大的一种加入方案,使得网络的模块度最大,经过一轮迭代后,将形成以各自目标点以及社区的高聚合社区模块;第二步,将第一步生成的部分社区划分为一个新的个体点,相当于原始关联图,利用第一步的方式进行第二次的迭代,直到模块度不再增加为止。
CN201910101560.9A 2019-02-01 2019-02-01 一种基于无监督聚类模式的学生异常行为模式分析方法 Active CN109977132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910101560.9A CN109977132B (zh) 2019-02-01 2019-02-01 一种基于无监督聚类模式的学生异常行为模式分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910101560.9A CN109977132B (zh) 2019-02-01 2019-02-01 一种基于无监督聚类模式的学生异常行为模式分析方法

Publications (2)

Publication Number Publication Date
CN109977132A CN109977132A (zh) 2019-07-05
CN109977132B true CN109977132B (zh) 2021-07-16

Family

ID=67076870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910101560.9A Active CN109977132B (zh) 2019-02-01 2019-02-01 一种基于无监督聚类模式的学生异常行为模式分析方法

Country Status (1)

Country Link
CN (1) CN109977132B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079083A (zh) * 2019-11-22 2020-04-28 电子科技大学 基于学生行为的分析方法
CN111382278B (zh) * 2020-03-04 2023-08-08 华中师范大学 一种基于时空轨迹的社交网络构建方法及构建***
CN112016701B (zh) * 2020-09-09 2023-09-15 四川大学 一种融合时序和属性行为的异常变化检测方法及***
CN112488236B (zh) * 2020-12-07 2024-05-28 北京工业大学 一种集成的无监督学生行为聚类方法
CN112837574B (zh) * 2021-01-15 2023-04-07 中科远见(重庆)科技有限公司 一种互动课堂***及其方法
CN114088645A (zh) * 2021-10-15 2022-02-25 扬州大学 一种种子活性与健康在线快速检测***及检测方法
CN114860808B (zh) * 2022-05-16 2023-10-24 国网江苏省电力有限公司扬州供电分公司 基于大数据的配电网设备异常事件关联分析方法
CN115909152B (zh) * 2022-11-16 2023-08-29 北京师范大学 一种基于群体行为的教学场景智能分析***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458456A (zh) * 2013-08-27 2013-12-18 中国科学院信息工程研究所 基于移动终端Wi-Fi数据的用户行为检测方法及装置
US8885929B2 (en) * 2010-06-08 2014-11-11 Gorilla Technology Inc. Abnormal behavior detection system and method using automatic classification of multiple features
CN104778642A (zh) * 2015-03-20 2015-07-15 北京邮电大学 基于WiFi的校园用户数据处理方法、服务器和监测***
CN104835371A (zh) * 2015-05-31 2015-08-12 深圳市采集科技有限公司 一种基于学情云数据的反馈教学测评方法及***
CN108898520A (zh) * 2018-06-12 2018-11-27 山东众云教育科技有限公司 基于轨迹数据的学生安全监控方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885929B2 (en) * 2010-06-08 2014-11-11 Gorilla Technology Inc. Abnormal behavior detection system and method using automatic classification of multiple features
CN103458456A (zh) * 2013-08-27 2013-12-18 中国科学院信息工程研究所 基于移动终端Wi-Fi数据的用户行为检测方法及装置
CN104778642A (zh) * 2015-03-20 2015-07-15 北京邮电大学 基于WiFi的校园用户数据处理方法、服务器和监测***
CN104835371A (zh) * 2015-05-31 2015-08-12 深圳市采集科技有限公司 一种基于学情云数据的反馈教学测评方法及***
CN108898520A (zh) * 2018-06-12 2018-11-27 山东众云教育科技有限公司 基于轨迹数据的学生安全监控方法和***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hadoop-based college student behavior warning decision system;Ge Su-Hui.etc;《2018 IEEE 3rd International Conference on Big Data Analysis (ICBDA)》;20180528;第217-221页 *
PerfInsight: A Robust Clustering-Based Abnormal Behavior Detection System for Large-Scale Cloud;Xiao Zhang.etc;《2018 IEEE 11th International Conference on Cloud Computing (CLOUD)》;20180707;第896-899页 *
面向智慧校园的学生异常行为检测;任孟其等;《哈尔滨师范大学自然科学学报》;20170330;第20-24页 *

Also Published As

Publication number Publication date
CN109977132A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977132B (zh) 一种基于无监督聚类模式的学生异常行为模式分析方法
Manley et al. Scales, levels and processes: Studying spatial patterns of British census variables
Law et al. Bayesian spatio-temporal modeling for analysing local patterns of crime over time at the small-area level
Radoux et al. Thematic accuracy assessment of geographic object-based image classification
CN106022592A (zh) 一种用电行为异常检测与治安风险预警方法及装置
Nguyentrang et al. Fuzzy clustering of probability density functions
Kopczewska et al. Spatio-temporal stability of housing submarkets. Tracking spatial location of clusters of geographically weighted regression estimates of price determinants
CN107633093A (zh) 一种供电决策知识图谱的构建及其查询方法
CN103823880A (zh) 一种基于属性加权计算检测机构相似度的方法
Chen et al. Detecting hierarchical structure of community members in social networks
Wei et al. An integrated classification scheme for mapping estimates and errors of estimation from the American Community Survey
Vovan et al. Automatic genetic algorithm in clustering for discrete elements
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
Saxena Educational data mining: performance evaluation of decision tree and clustering techniques using weka platform
Lei et al. Identifying service bottlenecks in public bikesharing flow networks
Fischer Spatial analysis in geography
Renigier-Biłozor et al. Residential market ratings using fuzzy logic decision-making procedures
CN112488236B (zh) 一种集成的无监督学生行为聚类方法
Distefano et al. Identifying spatial patterns with the Bootstrap ClustGeo technique
Liço et al. Analyzing Performance of Clustering Algorithms on a Real Retail Dataset
Economou A clustering algorithm for overlapping Gaussian mixtures
Kowalski et al. The forensic information identification based on machine learning algorithms
Manetos et al. Integrating Data Mining Methods for modeling urban growth dynamics
Dzemydiene et al. Data Analysis Strategy for Revealing Multivariate Structures in Social‐Economic Data Warehouses
Tran et al. Clustering short text messages using unsupervised machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant