CN109241320A

CN109241320A - 基于时间序列聚类的未成年犯罪地区簇的划分方法

Info

Publication number: CN109241320A
Application number: CN201811156907.1A
Authority: CN
Inventors: 潘仲赢; 陈恒至; 郭济; 王俊; 郭磊; 王春华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-01-18

Abstract

基于时间序列聚类的未成年犯罪地区簇的划分方法。传统的未成年犯罪特征分析通常采用简单的统计方法，结合犯罪逻辑学，对我国未成年犯罪数量呈现趋势、种类变化、地区分布等做一个简单的总结。传统方法存在时间滞后性，同时无法应对日益增长的数据。本发明是一种结合时间序列分析与聚类算法对各地区未成年人犯罪数据进行簇划分的方法，将具有相似特征的地区划分到一簇。具体步骤如下：步骤一，收集各地区未成年犯罪数据，进行数据清洗，提取所需数据；步骤二，对清洗后的数据归一化，并绘制时间序列曲线，对时间序列曲线进行平滑处理；步骤三，基于本发明聚类算法对时间序列进行聚类；步骤四，输出划分的簇。本发明可以准确将各地区进行簇划分，对进一步研究未成年犯罪具有重要的意义。

Description

基于时间序列聚类的未成年犯罪地区簇的划分方法

技术领域

本发明涉及公共安全技术领域，尤其涉及一种基于时间序列聚类的未成年犯罪地区簇的划分方法。

背景技术

随着大数据时代到来和人工智能技术的发展，利用大数据为基础进行相关分析的技术已经成为未成年犯罪分析技术研究的热点。而为了有效地对全国各地区未成年犯罪特征进行分析，在获取全国各地区未成年犯罪数据后，有关警务部门必须进行快速、准确地分组，判断哪些地区具有相似犯罪特征，采取针对性地干预措施。因此，针对未成年犯罪，将全国各地区进行分组是未成年犯罪研究中的基础工作，对警力分配、犯罪预防、犯罪干预等有重要意义。

聚类(Clustering)是对数据进行分类，将相异的数据尽可能地分开，而将相似的数据聚成一个类别(簇)，使得同一类别的数据具有尽可能高的同质性(homogeneity)，类别之间有尽可能高的异质性(heterogeneity)，从而方便从数据中发现隐含的有用信息。聚类主要分为：划分聚类、层次聚类、模糊聚类和基于密度聚类，经典算法有：K-means算法、K-中心点算法、EM算法等。聚类典型的应用包含几方面：(1)协同过滤：用于推荐***和用户细分；(2)动态趋势检测：对流数据进行聚类，检测动态趋势和模式；(3)用于多媒体数据、生物数据、社交网络数据的应用。聚类已广泛应用在不同领域，并取得了良好的应用效果，但在未成年犯罪领域应用较为欠缺。

时间序列(Time Series)是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒，5分钟，12小时，7天，1年)，因此时间序列可以作为离散时间数据进行分析处理。时间序列广泛应用于数理统计、信号处理、模式识别、计量经济学、数学金融、天气预报、地震预测、脑电图、控制工程、航空学、通信工程以及绝大多数涉及到时间数据测量的应用科学与工程学。

目前我国未成年犯罪预测分析技术多采用简单的统计方法，如通过对两个特定年份未成年犯罪抽样调查资料的比较研究，结合犯罪逻辑学，对我国未成年犯罪数量呈现趋势、种类变化、地区分布等做一个简单的总结。随着犯罪数据的不断增多，数据复杂程度的增加，传统的统计方法具有很大局限性。

本专利采用时间序列分析平滑原始犯罪数据中受噪声干扰的点，还原地区实际的未成年犯罪规律，同时，建立地区犯罪可能性模型，从而方便选取K个质心，针对于K均值聚类中所需的距离，利用动态时间规整算法(Dynamic Time Warping)来确定。动态时间规整算法最早出现于语音识别中，解决了发音长短不一的问题。本发明将其应用在时间序列中，可以解决时间序列长短不一致的问题。由于全国各地区差异，未成年犯罪的统计存在时间跨度不一致的情况，利用传统的欧式距离效果较差，而DTW算法可以解决这一问题。

本专利方法可以很好地排除噪声对于地区犯罪规律的影响，并且可以解决时间序列长度不一致问题，同时依据建立的地区犯罪可能性模型可以方便选取K均值聚类所需质心，取得良好的未成年犯罪地区分组效果。

发明内容

本发明要解决的问题在于：全国各地区未成年犯罪数据统计具有时间跨度不一致、部分点受噪声影响明显特点，同时单纯时间序列分析无法对地区进行分组。

为了解决上述问题，本发明提供如下方案：

本发明提供了一种基于动态时间规整/规划(Dynamic Time Warping,DTW)算法的K均值聚类未成年犯罪地区簇的划分方法，K均值聚类中所用的距离采用动态时间规整/规划算法来确定，这是因为由于各地区未成年犯罪统计差异，从而形成时间序列长度不一致的问题，利用传统欧式距离效果较差。

在进行未成年犯罪地区的簇划分前，对各地区未成年犯罪数据进行统计性描述；对于缺失值采用中位数填充；异常值处理，识别错误点，将其删除，避免将其纳入统计；重复值处理，删除重复点；噪声处理，即对明显异于该地区应有犯罪规律的数据点，利用时间序列分析进行平滑处理；特别地，异常值处理是指将地区未成年犯罪事件发生的经纬度绘制在地图上，直观识别不在地区中的点，将其删除。噪声处理，是指利用时间序列分析对距离均值超过三倍标准差的数值进行平滑，这些犯罪数据值虽是真实情况的记录，但是通常由于外部环境突然变化，而出现不符合该地区的犯罪规律，故需要进行平滑处理，排除外部突发条件对该地区应有犯罪特征的影响，从而才可以对地区进行正确分组。

对于K均值聚类算法初始所需的K个质心，依据地区经济发展水平、人口数量、未成年犯罪率等参数，建立地区犯罪线性概率统计模型，输入各地区参数值后进行计算得到犯罪概率值，依据各地区犯罪概率值进行排序，形成一个地区序列，然后从序列中等距的选取K(K具体值依据研究目的而定)个地区作为质心。

附图说明

图1：总流程图；

图2：某地区犯罪数量频数分布直方图；

图3：某地区犯罪数量散点图；

图4：对应于正态分布的QQ图；

图5：犯罪数据地理分布图；

具体实施方式

步骤1，收集各地区未成年犯罪数据，进行数据清洗，提取所需数据：

步骤1.1：收集各地区近三年的未成年犯罪数据，收集的数据主要包括：时间、经纬度、类型、犯罪年龄等，同时需要收集各地区教育信息、经济发展状况、人口数量、留守儿童比例、地区气候等数据；

步骤1.2：对数据进行描述性统计，查看哪些数据是不合理的，同时也可以获取数据的基本情况。可以通过分析不同地区的犯罪总数、平均数量(以周为单位)、犯罪人年龄层次、不同犯罪类型所占比例等等，了解数据的基本情况。此外，通过绘制直方图(图1)、点图(图2)、Q-Q图(图3)等方式了解数据的质量，有无异常点；

步骤1.3：利用经纬度信息，将犯罪事件发生地点映射到地图上(图4)，可以直观地识别出异常点，同时查找出重复数据，将重复值、异常点删除；

步骤1.4：对数据按周进行汇总，对于周缺失值，利用中位数进行填充；

步骤2，对清洗后的数据归一化，并绘制时间序列曲线，对时间序列曲线进行平滑处理：

步骤2.1：对各地区未成年犯罪数量建立时间序列，时间序列的时间间隔选取为一周，例如地区一为X＝(x₁,x₂,x₃...x_n)，地区二为Y＝(y₁,y₂,y₃...y_m)，由于各地区统计差异，m与n可能不相等，同时由于各地区数量差别较大，我们需要取的是地区犯罪规律相似的分组，故需对各地区时间序列进行归一化，利用：得到归一化后的时间序列；

步骤2.2：依据时间序列绘制时间序列曲线，对于距离均值超过三倍方差的数值，视为噪声点，通常是由于外部环境巨变，例如：自然灾害、大型活动、专项整治等事件的发生导致的，利用ARIMA模型对这些点进行平滑，还原该地区应有的未成年犯罪规律。具体方式为：采取DF检验判断时间序列是否平稳；若序列非平稳，利用差分的方法，使序列平稳，差分是采用特定瞬间和它前一个瞬间的不同的观察结果，如果一阶差分效果没有达到预期，可采取二阶或三阶差分；得到平稳序列后，利用ARIMA模型，对其进行拟合；最后回滚到原始序列。将原曲线中的噪声点(距离均值超过三倍方差)全部替换为利用ARIMA模型拟合出来的点，对于非噪声点保持不变。

其中，ARIMA模型有三个参数：p,d,q。

p--代表预测模型中采用的时序数据本身的滞后数(lags),也叫做AR/Auto-Regressive项；

d--代表时序数据需要进行几阶差分化，才是稳定的，也叫Integrated项；

q--代表预测模型中采用的预测误差的滞后数(lags)，也叫做MA/Moving Average项；

ARIMA用数学形式表示为：

其中，φ表示AR的系数，θ表示MA的系数；

步骤3，基于本发明聚类算法对时间序列进行聚类：

步骤3.1：动态时间规整/规划(Dynamic Time Warping,DTW)算法确定K均值聚类所需距离，假设给定两个地区未成年犯罪序列，地区一X＝(x₁,x₂,x₃...x_n)和地区二Y＝(y₁,y₂,y₃...y_m)，同时序列中点到点的距离确定为欧式距离，DTW的核心在于确定点点之间的对应关系。记：

φ(k)＝(φ_x(k),φ_y(k)) (2)

其中φ_x(k),的可能值为1,2…n，φ_y(k)可能值为1,2…m，k＝1,2…T。也就是说，求出T个从X序列中点到Y序列中点的对应关系。确定了φ(k)后，就可以求解两个序列的累积距离，记：

DTW最终需要寻找一条最合适的φ(k)扭曲曲线，使得累计距离最小，即：

具体来讲，DTW首先确定地区一和地区二序列点之间的欧式距离，获取一个序列距离矩阵M(n行m列)，然后依据M生成累积距离矩阵M_c，其生成方式：

第一行第一列元素为M的第一行第一列元素；

其他位置元素M_c(i,j)＝Min(M_c(i-1,j-1),M_c(i-1,j),M_c(i,j-1))+M(i,j)；(5)

那么M_c(n,m)即为地区一和地区二的距离；

步骤3.2：建立地区犯罪线性概率统计模型，确定K均值聚类中所需的初始K个质心。实际上，全国各地区教育信息、经济发展状况、人口数量、未成年犯罪率、留守儿童比例、气候等有着较大区别，这些因素可以作为衡量地区未成年犯罪风险的因子，建立如下犯罪线性概率统计模型：

P＝w₁f₁+w₂f₂+w₃f₃+... (6)

P为衡量该地区未成年犯罪风险的一个数值，w_i为权重，f_i为衡量该地区未成年犯罪风险的因子。依据统计数据，可以将f_i量化，针对每个f_i，例如经济发展状况，可将地区划分为发达地区、次发达地区、欠发达地区、贫困地区四个等级，然后依据等级进行赋值。需要确定每个f_i对P产生的影响，即w_i的大小，为了获取w_i的大小，可采用训练分类器的方式，该分类器用来判断某一时间段内未成年犯罪数量上升还是下降：

1)在已有未成年犯罪数据集D下，分别训练缺少某个因子f_i的分类器；

2)在测试集下分别测试N(N为因子数目)个分类器的效果，并统计错误分类个数分别表示N个因子下的错误分类数；

3)对2)中求出的做归一化处理，即可得到权重值；

依据各个地区的P值，对地区进行排序，从该排序中等距选取K个地区作为初始K个质心；步骤4，输出划分的簇：

得到划分的簇，可以为进一步分析未成年犯罪提供有力支撑，同时也给有关警务部门制定预警策略提供科学的依据。

Claims

1.一种基于动态时间规整/规划(Dynamic Time Warping,DTW)算法的K均值聚类未成年犯罪地区簇的划分方法，其特征在于，包括：

K均值聚类算法所用的距离采用动态时间规整/规划(Dynamic Time Warping,DTW)算法来确定。

2.根据权利要求1所述，在对地区进行未成年犯罪地区簇的划分前，对各地区未成年犯罪数据进行数据清洗、归一化，具体的数据清洗是指对原始的未成年犯罪数据处理准备绘制时间序列曲线，清洗数据主要包括以下几个方面，其特征在于，

犯罪数据进行统计性描述；对于缺失值采用中位数填充；异常值处理，即将地区未成年犯罪事件发生的经纬度绘制在地图上，可以直观识别不在地区中的点，从而将异常点删除，避免将其纳入统计；重复值处理，删除重复点；噪声处理，即对明显异于该地区应有犯罪规律的数据点，利用时间序列分析进行平滑处理。

3.根据权利要求1所述的聚类算法指的是K均值聚类算法，依据地区经济发展水平、人口数量、未成年犯罪率等参数，建立地区犯罪线性概率统计模型，输入各地区参数值后进行计算得到犯罪概率值，依据各地区犯罪概率值进行排序，形成一个地区序列，然后从序列中等距的选取K(K的具体值依据研究目的而定)个地区作为质心，确定K均值聚类算法所用的距离，进而进行聚类。