CN109241320A - 基于时间序列聚类的未成年犯罪地区簇的划分方法 - Google Patents

基于时间序列聚类的未成年犯罪地区簇的划分方法 Download PDF

Info

Publication number
CN109241320A
CN109241320A CN201811156907.1A CN201811156907A CN109241320A CN 109241320 A CN109241320 A CN 109241320A CN 201811156907 A CN201811156907 A CN 201811156907A CN 109241320 A CN109241320 A CN 109241320A
Authority
CN
China
Prior art keywords
crime
teenage
data
area
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811156907.1A
Other languages
English (en)
Inventor
潘仲赢
陈恒至
郭济
王俊
郭磊
王春华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811156907.1A priority Critical patent/CN109241320A/zh
Publication of CN109241320A publication Critical patent/CN109241320A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

基于时间序列聚类的未成年犯罪地区簇的划分方法。传统的未成年犯罪特征分析通常采用简单的统计方法,结合犯罪逻辑学,对我国未成年犯罪数量呈现趋势、种类变化、地区分布等做一个简单的总结。传统方法存在时间滞后性,同时无法应对日益增长的数据。本发明是一种结合时间序列分析与聚类算法对各地区未成年人犯罪数据进行簇划分的方法,将具有相似特征的地区划分到一簇。具体步骤如下:步骤一,收集各地区未成年犯罪数据,进行数据清洗,提取所需数据;步骤二,对清洗后的数据归一化,并绘制时间序列曲线,对时间序列曲线进行平滑处理;步骤三,基于本发明聚类算法对时间序列进行聚类;步骤四,输出划分的簇。本发明可以准确将各地区进行簇划分,对进一步研究未成年犯罪具有重要的意义。

Description

基于时间序列聚类的未成年犯罪地区簇的划分方法
技术领域
本发明涉及公共安全技术领域,尤其涉及一种基于时间序列聚类的未成年犯罪地区簇的划分方法。
背景技术
随着大数据时代到来和人工智能技术的发展,利用大数据为基础进行相关分析的技术已经成为未成年犯罪分析技术研究的热点。而为了有效地对全国各地区未成年犯罪特征进行分析,在获取全国各地区未成年犯罪数据后,有关警务部门必须进行快速、准确地分组,判断哪些地区具有相似犯罪特征,采取针对性地干预措施。因此,针对未成年犯罪,将全国各地区进行分组是未成年犯罪研究中的基础工作,对警力分配、犯罪预防、犯罪干预等有重要意义。
聚类(Clustering)是对数据进行分类,将相异的数据尽可能地分开,而将相似的数据聚成一个类别(簇),使得同一类别的数据具有尽可能高的同质性(homogeneity),类别之间有尽可能高的异质性(heterogeneity),从而方便从数据中发现隐含的有用信息。聚类主要分为:划分聚类、层次聚类、模糊聚类和基于密度聚类,经典算法有:K-means算法、K-中心点算法、EM算法等。聚类典型的应用包含几方面:(1)协同过滤:用于推荐***和用户细分;(2)动态趋势检测:对流数据进行聚类,检测动态趋势和模式;(3)用于多媒体数据、生物数据、社交网络数据的应用。聚类已广泛应用在不同领域,并取得了良好的应用效果,但在未成年犯罪领域应用较为欠缺。
时间序列(Time Series)是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数据进行分析处理。时间序列广泛应用于数理统计、信号处理、模式识别、计量经济学、数学金融、天气预报、地震预测、脑电图、控制工程、航空学、通信工程以及绝大多数涉及到时间数据测量的应用科学与工程学。
目前我国未成年犯罪预测分析技术多采用简单的统计方法,如通过对两个特定年份未成年犯罪抽样调查资料的比较研究,结合犯罪逻辑学,对我国未成年犯罪数量呈现趋势、种类变化、地区分布等做一个简单的总结。随着犯罪数据的不断增多,数据复杂程度的增加,传统的统计方法具有很大局限性。
本专利采用时间序列分析平滑原始犯罪数据中受噪声干扰的点,还原地区实际的未成年犯罪规律,同时,建立地区犯罪可能性模型,从而方便选取K个质心,针对于K均值聚类中所需的距离,利用动态时间规整算法(Dynamic Time Warping)来确定。动态时间规整算法最早出现于语音识别中,解决了发音长短不一的问题。本发明将其应用在时间序列中,可以解决时间序列长短不一致的问题。由于全国各地区差异,未成年犯罪的统计存在时间跨度不一致的情况,利用传统的欧式距离效果较差,而DTW算法可以解决这一问题。
本专利方法可以很好地排除噪声对于地区犯罪规律的影响,并且可以解决时间序列长度不一致问题,同时依据建立的地区犯罪可能性模型可以方便选取K均值聚类所需质心,取得良好的未成年犯罪地区分组效果。
发明内容
本发明要解决的问题在于:全国各地区未成年犯罪数据统计具有时间跨度不一致、部分点受噪声影响明显特点,同时单纯时间序列分析无法对地区进行分组。
为了解决上述问题,本发明提供如下方案:
本发明提供了一种基于动态时间规整/规划(Dynamic Time Warping,DTW)算法的K均值聚类未成年犯罪地区簇的划分方法,K均值聚类中所用的距离采用动态时间规整/规划算法来确定,这是因为由于各地区未成年犯罪统计差异,从而形成时间序列长度不一致的问题,利用传统欧式距离效果较差。
在进行未成年犯罪地区的簇划分前,对各地区未成年犯罪数据进行统计性描述;对于缺失值采用中位数填充;异常值处理,识别错误点,将其删除,避免将其纳入统计;重复值处理,删除重复点;噪声处理,即对明显异于该地区应有犯罪规律的数据点,利用时间序列分析进行平滑处理;特别地,异常值处理是指将地区未成年犯罪事件发生的经纬度绘制在地图上,直观识别不在地区中的点,将其删除。噪声处理,是指利用时间序列分析对距离均值超过三倍标准差的数值进行平滑,这些犯罪数据值虽是真实情况的记录,但是通常由于外部环境突然变化,而出现不符合该地区的犯罪规律,故需要进行平滑处理,排除外部突发条件对该地区应有犯罪特征的影响,从而才可以对地区进行正确分组。
对于K均值聚类算法初始所需的K个质心,依据地区经济发展水平、人口数量、未成年犯罪率等参数,建立地区犯罪线性概率统计模型,输入各地区参数值后进行计算得到犯罪概率值,依据各地区犯罪概率值进行排序,形成一个地区序列,然后从序列中等距的选取K(K具体值依据研究目的而定)个地区作为质心。
附图说明
图1:总流程图;
图2:某地区犯罪数量频数分布直方图;
图3:某地区犯罪数量散点图;
图4:对应于正态分布的QQ图;
图5:犯罪数据地理分布图;
具体实施方式
步骤1,收集各地区未成年犯罪数据,进行数据清洗,提取所需数据:
步骤1.1:收集各地区近三年的未成年犯罪数据,收集的数据主要包括:时间、经纬度、类型、犯罪年龄等,同时需要收集各地区教育信息、经济发展状况、人口数量、留守儿童比例、地区气候等数据;
步骤1.2:对数据进行描述性统计,查看哪些数据是不合理的,同时也可以获取数据的基本情况。可以通过分析不同地区的犯罪总数、平均数量(以周为单位)、犯罪人年龄层次、不同犯罪类型所占比例等等,了解数据的基本情况。此外,通过绘制直方图(图1)、点图(图2)、Q-Q图(图3)等方式了解数据的质量,有无异常点;
步骤1.3:利用经纬度信息,将犯罪事件发生地点映射到地图上(图4),可以直观地识别出异常点,同时查找出重复数据,将重复值、异常点删除;
步骤1.4:对数据按周进行汇总,对于周缺失值,利用中位数进行填充;
步骤2,对清洗后的数据归一化,并绘制时间序列曲线,对时间序列曲线进行平滑处理:
步骤2.1:对各地区未成年犯罪数量建立时间序列,时间序列的时间间隔选取为一周,例如地区一为X=(x1,x2,x3...xn),地区二为Y=(y1,y2,y3...ym),由于各地区统计差异,m与n可能不相等,同时由于各地区数量差别较大,我们需要取的是地区犯罪规律相似的分组,故需对各地区时间序列进行归一化,利用:得到归一化后的时间序列;
步骤2.2:依据时间序列绘制时间序列曲线,对于距离均值超过三倍方差的数值,视为噪声点,通常是由于外部环境巨变,例如:自然灾害、大型活动、专项整治等事件的发生导致的,利用ARIMA模型对这些点进行平滑,还原该地区应有的未成年犯罪规律。具体方式为:采取DF检验判断时间序列是否平稳;若序列非平稳,利用差分的方法,使序列平稳,差分是采用特定瞬间和它前一个瞬间的不同的观察结果,如果一阶差分效果没有达到预期,可采取二阶或三阶差分;得到平稳序列后,利用ARIMA模型,对其进行拟合;最后回滚到原始序列。将原曲线中的噪声点(距离均值超过三倍方差)全部替换为利用ARIMA模型拟合出来的点,对于非噪声点保持不变。
其中,ARIMA模型有三个参数:p,d,q。
p--代表预测模型中采用的时序数据本身的滞后数(lags),也叫做AR/Auto-Regressive项;
d--代表时序数据需要进行几阶差分化,才是稳定的,也叫Integrated项;
q--代表预测模型中采用的预测误差的滞后数(lags),也叫做MA/Moving Average项;
ARIMA用数学形式表示为:
其中,φ表示AR的系数,θ表示MA的系数;
步骤3,基于本发明聚类算法对时间序列进行聚类:
步骤3.1:动态时间规整/规划(Dynamic Time Warping,DTW)算法确定K均值聚类所需距离,假设给定两个地区未成年犯罪序列,地区一X=(x1,x2,x3...xn)和地区二Y=(y1,y2,y3...ym),同时序列中点到点的距离确定为欧式距离,DTW的核心在于确定点点之间的对应关系。记:
φ(k)=(φx(k),φy(k)) (2)
其中φx(k),的可能值为1,2…n,φy(k)可能值为1,2…m,k=1,2…T。也就是说,求出T个从X序列中点到Y序列中点的对应关系。确定了φ(k)后,就可以求解两个序列的累积距离,记:
DTW最终需要寻找一条最合适的φ(k)扭曲曲线,使得累计距离最小,即:
具体来讲,DTW首先确定地区一和地区二序列点之间的欧式距离,获取一个序列距离矩阵M(n行m列),然后依据M生成累积距离矩阵Mc,其生成方式:
第一行第一列元素为M的第一行第一列元素;
其他位置元素Mc(i,j)=Min(Mc(i-1,j-1),Mc(i-1,j),Mc(i,j-1))+M(i,j);(5)
那么Mc(n,m)即为地区一和地区二的距离;
步骤3.2:建立地区犯罪线性概率统计模型,确定K均值聚类中所需的初始K个质心。实际上,全国各地区教育信息、经济发展状况、人口数量、未成年犯罪率、留守儿童比例、气候等有着较大区别,这些因素可以作为衡量地区未成年犯罪风险的因子,建立如下犯罪线性概率统计模型:
P=w1f1+w2f2+w3f3+... (6)
P为衡量该地区未成年犯罪风险的一个数值,wi为权重,fi为衡量该地区未成年犯罪风险的因子。依据统计数据,可以将fi量化,针对每个fi,例如经济发展状况,可将地区划分为发达地区、次发达地区、欠发达地区、贫困地区四个等级,然后依据等级进行赋值。需要确定每个fi对P产生的影响,即wi的大小,为了获取wi的大小,可采用训练分类器的方式,该分类器用来判断某一时间段内未成年犯罪数量上升还是下降:
1)在已有未成年犯罪数据集D下,分别训练缺少某个因子fi的分类器;
2)在测试集下分别测试N(N为因子数目)个分类器的效果,并统计错误分类个数分别表示N个因子下的错误分类数;
3)对2)中求出的做归一化处理,即可得到权重值;
依据各个地区的P值,对地区进行排序,从该排序中等距选取K个地区作为初始K个质心;步骤4,输出划分的簇:
得到划分的簇,可以为进一步分析未成年犯罪提供有力支撑,同时也给有关警务部门制定预警策略提供科学的依据。

Claims (3)

1.一种基于动态时间规整/规划(Dynamic Time Warping,DTW)算法的K均值聚类未成年犯罪地区簇的划分方法,其特征在于,包括:
K均值聚类算法所用的距离采用动态时间规整/规划(Dynamic Time Warping,DTW)算法来确定。
2.根据权利要求1所述,在对地区进行未成年犯罪地区簇的划分前,对各地区未成年犯罪数据进行数据清洗、归一化,具体的数据清洗是指对原始的未成年犯罪数据处理准备绘制时间序列曲线,清洗数据主要包括以下几个方面,其特征在于,
犯罪数据进行统计性描述;对于缺失值采用中位数填充;异常值处理,即将地区未成年犯罪事件发生的经纬度绘制在地图上,可以直观识别不在地区中的点,从而将异常点删除,避免将其纳入统计;重复值处理,删除重复点;噪声处理,即对明显异于该地区应有犯罪规律的数据点,利用时间序列分析进行平滑处理。
3.根据权利要求1所述的聚类算法指的是K均值聚类算法,依据地区经济发展水平、人口数量、未成年犯罪率等参数,建立地区犯罪线性概率统计模型,输入各地区参数值后进行计算得到犯罪概率值,依据各地区犯罪概率值进行排序,形成一个地区序列,然后从序列中等距的选取K(K的具体值依据研究目的而定)个地区作为质心,确定K均值聚类算法所用的距离,进而进行聚类。
CN201811156907.1A 2018-09-30 2018-09-30 基于时间序列聚类的未成年犯罪地区簇的划分方法 Pending CN109241320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811156907.1A CN109241320A (zh) 2018-09-30 2018-09-30 基于时间序列聚类的未成年犯罪地区簇的划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811156907.1A CN109241320A (zh) 2018-09-30 2018-09-30 基于时间序列聚类的未成年犯罪地区簇的划分方法

Publications (1)

Publication Number Publication Date
CN109241320A true CN109241320A (zh) 2019-01-18

Family

ID=65054236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811156907.1A Pending CN109241320A (zh) 2018-09-30 2018-09-30 基于时间序列聚类的未成年犯罪地区簇的划分方法

Country Status (1)

Country Link
CN (1) CN109241320A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919255A (zh) * 2019-03-29 2019-06-21 客如云科技(成都)有限责任公司 一种基于dtw和周期提取的时间序列聚类方法
CN110347765A (zh) * 2019-06-13 2019-10-18 中电万维信息技术有限责任公司 一种基于地图信息服务的贫困人口抽样方法
US20210312351A1 (en) * 2020-04-06 2021-10-07 Johnson Controls Technology Company Building risk analysis system with geographic risk scoring

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955804A (zh) * 2014-05-20 2014-07-30 中山大学 一种服务于警务防控分区规划的犯罪风险时空模式识别方法
CN104317918A (zh) * 2014-10-29 2015-01-28 深圳先进技术研究院 基于复合大数据gis的异常行为分析及报警***
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及***
CN105260795A (zh) * 2015-10-13 2016-01-20 广西师范学院 一种基于条件随机场的重点人员位置时空预测方法
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN106774894A (zh) * 2016-12-16 2017-05-31 重庆大学 基于手势的交互式教学方法及交互***
CN107145895A (zh) * 2017-03-13 2017-09-08 东方网力科技股份有限公司 基于k‑means算法的公安犯罪类案研判方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及***
CN103955804A (zh) * 2014-05-20 2014-07-30 中山大学 一种服务于警务防控分区规划的犯罪风险时空模式识别方法
CN104317918A (zh) * 2014-10-29 2015-01-28 深圳先进技术研究院 基于复合大数据gis的异常行为分析及报警***
CN105260795A (zh) * 2015-10-13 2016-01-20 广西师范学院 一种基于条件随机场的重点人员位置时空预测方法
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN106774894A (zh) * 2016-12-16 2017-05-31 重庆大学 基于手势的交互式教学方法及交互***
CN107145895A (zh) * 2017-03-13 2017-09-08 东方网力科技股份有限公司 基于k‑means算法的公安犯罪类案研判方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
耿莎莎 等: "基于GIS的城市犯罪行为空间分布特征及预警分析", 《地理科学进展》 *
颜峻: "基于时空数据挖掘的社会安全(刑事)事件成因研究", 《中国博士学位论文全文数据库 社会科学Ⅰ辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919255A (zh) * 2019-03-29 2019-06-21 客如云科技(成都)有限责任公司 一种基于dtw和周期提取的时间序列聚类方法
CN110347765A (zh) * 2019-06-13 2019-10-18 中电万维信息技术有限责任公司 一种基于地图信息服务的贫困人口抽样方法
US20210312351A1 (en) * 2020-04-06 2021-10-07 Johnson Controls Technology Company Building risk analysis system with geographic risk scoring
US11669794B2 (en) * 2020-04-06 2023-06-06 Johnson Controls Tyco IP Holdings LLP Building risk analysis system with geographic risk scoring

Similar Documents

Publication Publication Date Title
US10692255B2 (en) Method for creating period profile for time-series data with recurrent patterns
CN106650273B (zh) 一种行为预测方法和装置
US6012058A (en) Scalable system for K-means clustering of large databases
CN106507315B (zh) 基于网络社交媒体数据的城市交通事故预测方法和***
CN109241320A (zh) 基于时间序列聚类的未成年犯罪地区簇的划分方法
CN107610469A (zh) 一种考虑多因素影响的日维度区域交通指数预测方法
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
CN103119582A (zh) 降低第一多变量数据组和第二多变量数据组之间的不相似度
CN112183605B (zh) 一种基于运行特征的民航管制扇区分类方法
CN109376906B (zh) 基于多维度轨迹的出行时间预测方法、***及电子设备
CN106332052B (zh) 基于移动通信终端的微区域治安预警方法
CN111179109A (zh) 用于独居老人检测的用电数据处理方法
CN110458376A (zh) 一种可疑风险交易筛查方法与相应***
CN111291216B (zh) 一种基于人脸结构化数据的落脚点分析方法和***
CN117828539B (zh) 数据智能融合分析***及方法
CN116644184B (zh) 基于数据聚类的人力资源信息管理***
CN111626842A (zh) 一种消费行为数据的分析方法和装置
CN111931031A (zh) 一种用于政策信息匹配度计算的方法
KR20180126792A (ko) 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법
CN115130847A (zh) 一种设备画像建模方法及***
Gunawan et al. Regional income disparities, distributional convergence, and spatial effects: evidence from Indonesia
CN109344190A (zh) 一种警务数据处理方法及装置
CN115830873B (zh) 城市道路交通事件分类方法、装置、设备及可读存储介质
CN115062725B (zh) 酒店收益异常分析方法及***
CN106658091A (zh) 一种实现收视信息处理的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190118