CN112132233A

CN112132233A - 一种基于有效影响因子的服刑人员危险行为预测方法及***

Info

Publication number: CN112132233A
Application number: CN202011170332.6A
Authority: CN
Inventors: 李玉军; 邓媛洁; 刘治; 贲晛烨
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-11-04
Filing date: 2020-10-28
Publication date: 2020-12-25
Also published as: CN110942088A

Abstract

本发明涉及一种基于有效影响因子的服刑人员危险行为预测方法及***，包括步骤如下：(1)结构化处理：1)数据清洗；2)提取有效影响因子；(2)基于权重分数的危险行为预测：首先，对所有待评估人员进行分类：其次，结合狱政管理业务，管理者往往关注有极高危险行为的小部分群体，基于权重分数的危险行为预测及预警；(3)Random Forest模型在线优化。本发明从评估人员的数据相关性和字段提供的信息熵两方面进行分析和筛选，挖掘出对服刑人员危险行为的重要因素。可减少计算复杂度和模型复杂性，同时提高评估预测的准确率和有效性。

Description

一种基于有效影响因子的服刑人员危险行为预测方法及***

技术领域

本发明涉及一种基于有效影响因子的服刑人员危险行为预测方法及***，属于狱政管理技术领域，具体涉及一种监狱内危险行为预测的研究方法。

背景技术

监狱中的狱政管理对监狱工作具有重要的作用，在目前的社会形势下，除了做好服刑人员的改造工作以外，对狱内服刑人员的日常行为监测和危险评估也十分重要，这是保障监狱环境安全、推动人员良好改造的基础性一环。常规的危险预测和评估工作主要包括：***危险、逃脱危险、暴力危险等。目前，狱政管理中此项工作主要依赖监区干警的观测和评估、纸质量表来进行，存在主观性较强，实时性较差，准确率偏低等问题。

现有方法的不足具体表现在：(1)通过干警个人经验对服刑人员进行的危险行为判断在一定范围内即干警管辖的服刑人员中是准确的，但无法比较不同干警的不同管辖群体之间的危险行为；(2)通过结合干警对各类型犯罪的经验权重判断出的服刑人员的危险行为在准确性方面又略显不足且存在严重的滞后性。对服刑人员的危险行为进行有效量化的过程中，现有的方法是把全部犯人信息都作为潜在危险程度的考量，这样不仅带来了大量的数据冗余且默认各类信息对犯人潜在危险的影响程度相同，忽略了大量的重要信息，对监狱管理工作带来巨大的负担。

因此，如何高效、合理地对服刑人员的危险行为做出正确的预测，是现在要解决的重要问题。

发明内容

针对现有技术的不足，本发明提供了一种基于有效影响因子的服刑人员危险行为预测方法及***，集成了一种有效影响因子提取方法、基于权重分数的危险行为评估和基于在线学习算法修正优化模型，提高预测模型的准确性，解决了模型修正和优化的滞后的问题，提高了服刑人员危险行为预测的时效性；

本发明还提供了上述基于有效影响因子的服刑人员危险行为预测方法的实现***，本***共包括数据挖掘和存储模块、模型算法和实时优化模块、危险行为预警模块和移动终端显示和查询模块。一方面解决了狱中评估的准确性问题，同时为监狱管理业务提供更精准和便捷的评估应用。

术语解释：

Random Forest(RF)模型：一种应用于机器学习的集成分类器，由多个决策树组成。

本发明的技术方案为：

一种基于有效影响因子的服刑人员危险行为预测方法，包括步骤如下：

(1)结构化处理：

1)数据清洗；对服刑人员特征信息进行数据清洗；服刑人员特征信息包括罪犯基本信息、犯罪信息、心理状况和日常行为；

2)提取有效影响因子；

(2)基于权重分数的危险行为预测

监狱管理中危险行为包括***危险、逃脱危险、暴力危险；

首先，对所有待评估人员进行分类：

将结构化处理后有效影响因子构成的数据集划分为训练集和测试集，将训练集输入Random Forest(RF)模型进行学习和训练，待Random Forest模型的学习完成预设的迭代次数(例如，1000次)且误差维持稳定(在0.05-0.15范围之间)后，保存训练好的RandomForest模型；输入测试集至训练好的Random Forest模型，预测其危险行为；

其次，结合狱政管理业务，管理者往往关注有极高危险行为的小部分群体，基于权重分数的危险行为预测及预警；

(3)Random Forest模型在线优化

将步骤(2)中的模型接口连接服刑人员数据库，可实时读取狱内发生危险行为的人员信息，更新后的样本以单人数据信息的格式重新进入Random Forest模型中，RandomForest模型以此数据的有效影响因子为输入特征在线学习并更新Random Forest模型权重，以此降低学习误差实现在线优化，提高预测准确率。

根据本发明优选的，基于权重分数的危险行为预测及预警，其过程包括：

A、提取出有***危险、逃脱危险、暴力危险行为的服刑人员特征信息作为数据集；

B、提出基于分级特征提取的AHP层次分析法对有效影响因子进行权重赋值，依据权重计算出每一个人员样本对应的属性总分数作为最终的危险行为分数，针对排序后分数高的群体发出预警，供干警查看危险人员的状态并对危险情况采取相应的管制措施,防止狱内危险事件的发生，包括步骤如下：

将服刑人员特征信息分为两级指标，包括一级指标和二级指标，一级指标包括个人信息、犯罪信息、心理指标和日常行为，二级指标为每一个一级指标下的具体信息字段(如在“心理状况”下的二级指标包括“冲动性”、“报复性”、“攻击性”、“说谎度”和“戒备性”等)；

基于AHP层次分析法，分别对一级指标和二级指标构建判断矩阵，根据步骤(1)及步骤(2)中获取的有效影响因子及相关性和信息熵，判断上述结构化处理后数据集中的4个一级指标的相互重要程度即判断矩阵，判断每个一级指标下所有二级指标的相互重要程度即判断矩阵；

依据矩阵理论，计算出判断矩阵的特征值和特征向量，选择最大的特征根λ_max及其对应的矩阵特征向量，经归一化(使向量中各元素之和等于1)后记为W；W的元素为相对于其他二级指标重要性的排序权值，对排序权值的有效性检验成为一致性检验，其不一致程度越大，引起的判断误差越大，一致性指标为

λ表示矩阵的特征根，n表示矩阵的阶数；随机一致性指标RI根据矩阵的阶数n取值，其关系为：n＝1时，RI＝0；n＝2时，RI＝0；n＝3时，RI＝0.58；n＝4时，RI＝0.90；n＝5时，RI＝1.12；n＝6时，RI＝1.24；n＝7时，RI＝1.32；n＝8时，RI＝1.41；n＝9时，RI＝1.45；检验系数CR＝CI/RI，如果CR＜0.1，则认为该判断矩阵通过一致性检验,对于每一个通过一致性检验的判断矩阵都得到相应的特征向量W，W中每个元素值即为每个指标的权重系数，对服刑人员的所有指标进行此步骤，即得到了每个一级指标和二级指标的权重系数；

对每个一级指标和二级指标下的不同取值设置分数feature，分数feature的取值范围为0-100；计算服刑人员危险分数target，如式(Ⅵ)所示：

式(Ⅵ)中，target表示危险分数，weight_i表示通过AHP层次分析法得出的权重系数W的元素值，feature_i表示在服刑人员在每个指标下的信息记录对应的分值即每个特征指标下的feature，对所有指标的feature按照式(Ⅵ)求和，最终，每个服刑人员对应一个危险分数target，对计算出的所有服刑人员危险分数进行排序，取样本数量的前5％的分数的样本人员作为预警人员名单，将名单推送到移动端应用平台，通过软件终端显示出对应的服刑人员的对应的特征信息及危险分数，并发出预警，干警接收此信息并对其进行特别关注，采取相应管制措施以预防狱内危险事件发生。

根据本发明优选的，步骤2)中，提取有效影响因子，包括步骤如下：本发明提出一种基于皮尔逊相关系数法(PCC)和信息增益(IG)的分级特征提取方法，从数据和行为的相关性和信息量两个方面研究对服刑人员危险行为的影响。

首先，设置皮尔逊相关系数(PCC)和信息增益(IG)的阈值；

其次，针对数据清洗后的数据集的各个特征字段，分别计算单一特征和危险行为的相关性，指标用PCC系数表示，若某特征取值低于阈值则视为冗余特征将其删除，保留取值大于等于阈值的特征；

最后，计算特征提供的信息量，即经过前级筛选出各个特征字段(即经过上一步删除冗余特征后的数据集的各个特征字段)的信息熵，若某特征取值低于信息增益的阈值，则视为冗余特征，将其删除，保留取值大于等于阈值的特征；通过本方法可以删除冗余特征，进而提高评估的效率和准确率，减小复杂度。

处理后得到有效影响因子构成的数据。

根据本发明优选的，用r表示PCC系数，其计算公式如式(I)所示：

式(I)中，X_i和

表示数据清洗后数据集中的特征字段下每个服刑人员的数据的取值和所有服刑人员的数据均值，Y_i和

表示每个样本的标签的取值和总体均值，i表示特征下某个样本，n代表样本总个数。

根据本发明优选的，用IG(Y|X)表示某一特征的信息熵，其计算公式如式(II)、式(III)、式(IV)所示：

IG(Y|X)＝H(Y)-H(Y|X) (IV)

式(II)、式(III)、式(IV)中，H(X)是指特征字段X的信息熵，p(x_i)表示该特征下取值为x_i的概率，x_i表示该特征下的取值，b是对数的底数，取2；H(Y|X)是指条件熵；H(Y)是指类别标签的信息量。

根据本发明优选的，步骤1)中，数据清洗，是指：对服刑人员特征信息中的缺省项、不规范项和表述错误项分别进行增补、修改和删除操作；从而确保数据集的有效性。

上述基于有效影响因子的服刑人员危险行为预测方法的实现***，包括依次连接的数据挖掘和存储模块、模型算法和实时优化模块、危险行为预警模块、移动终端显示和查询模块；

数据挖掘和存储模块该***提供数据接口，连接包含待预测人员信息的机构数据库，用于：实时读取和存储数据并进行分析和预处理，预处理过程为所述步骤(1)；

模型算法和实时优化模块：该***后台嵌入本发明提出的危险行为预测模型，用于得到预测分类结果；同时，通过实时读取变动的人员信息，在线学习并更新模型权重，降低学习误差实时优化；

危险行为预警模块用于：对所述三种危险行为的特殊群体发出危险预警信号，干警接收此信息并对其进行特别关注，采取相应管制措施以预防狱内危险事件发生；

移动终端显示和查询模块：该***提供终端显示界面，用于：显示待评估人员的结构化数据信息，用于显示查询危险行为预测模型的分类结果；为确保信息安全，干警可通过实名认证登录进入。

本发明提供的危险行为预测软件***基于手机客户端的Android***开发，获取的服刑人员数据格式为基础数据库SQLSever，危险行为预测模型和手持APP分别通过Python和Java的API接口从本***的数据库中读取所需信息。

本发明的有益效果为：

1、本发明提供了基于有效影响因子的服刑人员危险行为预测方法，提出了基于PCC和IG级联的有效影响因子提取方法，从评估人员的数据相关性和字段提供的信息熵两方面进行分析和筛选，挖掘出对服刑人员危险行为的重要因素。可减少计算复杂度和模型复杂性，同时提高评估预测的准确率和有效性。此外，提供的有效影响因子还可以为监狱服刑人员危险预测管理和防控工作提供理论支持、依据和参考。

2、本发明提供了一种基于权重系数的危险行为预测方法，对AHP层级分析方法进行了改进，涵盖了基础危险行为预测和极高危险行为预测两方面内容，可对服刑人员进行整体评估，同时依据危险分数对服刑人员进行排序实现了对需要特殊关注的小群体的评估，满足了狱政管理业务的需求并提高了效率。

3、本发明提供了基于有效影响因子的服刑人员危险行为预测实现***，包括数据挖掘和存储模块、模型算法和实时优化模块、危险行为预警模块和移动终端显示和查询模块。通过将服刑人员数据库、移动软件终端和算法模型结合，完成对服刑人员的危险行为预测，实时接收狱内发生的危险行为人员信息并不断更新优化评估模型，提供软件显示终端，供干警查询和接收预警信息，提高评估的精度和效度。

附图说明

图1是本发明基于有效影响因子的服刑人员危险行为预测方法的实现***的结构框图；

图2是本发明基于有效影响因子的服刑人员危险行为预测方法流程示意图；

图3是服刑人员危险行为提取有效影响因子的方法示意图；

图4是本发明的危险行为人员预警方法示意图；

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于有效影响因子的服刑人员危险行为预测方法，如图2所示，包括步骤如下：

(1)结构化处理：

1)数据清洗：对服刑人员特征信息中的缺省项、不规范项和表述错误项分别进行增补、修改和删除操作；从而确保数据集的有效性。

服刑人员特征信息包括罪犯基本信息、犯罪信息、心理状况和日常行为；

罪犯基本信息、犯罪信息、心理状况和日常行为具体包括的信息如表1所示：

表1

2)提取有效影响因子：本发明提出一种基于皮尔逊相关系数法(PCC)和信息增益(IG)的分级特征提取方法，从数据和行为的相关性和信息量两个方面研究对服刑人员危险行为的影响。如图3所示：

首先，设置皮尔逊相关系数(PCC)和信息增益(IG)的阈值；

处理后得到有效影响因子构成的数据；

(2)基于权重分数的危险行为预测

监狱管理中危险行为包括***危险、逃脱危险、暴力危险；

首先，对所有待评估人员进行分类：

其次，结合狱政管理业务，管理者往往关注有极高危险行为的小部分群体，基于权重分数的危险行为预测及预警，如图4所示，其过程包括：

基于AHP层次分析法，分别对一级指标和二级指标构建判断矩阵，根据步骤(1)及步骤(2)中获取的有效影响因子及相关性和信息熵，判断上述结构化处理后数据集中的4个一级指标的相互重要程度，判断每个一级指标下所有二级指标的相互重要程度；

例如,对一级指标“心理状况”得到一个判断矩阵A₅₅，针对其下的5个二级指标分别得到5个判断矩阵B_ij，判断矩阵为对阵矩阵，以A₅₅为例，A₅₅的行列数目为同一级别指标的数目，在本数据集中为4。判断矩阵中的矩阵元素满足性质

a_ij表示判断矩阵中第i行j列元素，a_ji表示判断矩阵中第j行i列元素值。矩阵中各个元素依据表3中的定义和标度取值。统计步骤(1)及步骤(2)中各个有效影响因子的相关系数和信息熵之和，记为PCC_IG。指标i的取值表示为PCC_IG_i,指标j的取值表示为PCC_IG_j。判断矩阵A₅₅如表2所示：

表2

	心理状况	罪犯基本信息	犯罪信息	日常行为
					心理状况	1	a<sub>12</sub>	a<sub>13</sub>	a<sub>14</sub>
罪犯基本信息	a<sub>21</sub>	1	a<sub>23</sub>	a<sub>24</sub>
					犯罪信息	a<sub>31</sub>	a<sub>32</sub>	1	a<sub>34</sub>
日常行为	a<sub>41</sub>	a<sub>42</sub>	a<sub>43</sub>	1

表3

式(Ⅵ)中，target表示危险分数，weight_i表示通过AHP层次分析法得出的权重系数W的元素值，feature_i表示在服刑人员在每个指标下的信息记录对应的分值即每个特征指标下的feature，对所有指标的feature按照式(VI)求和，最终，每个服刑人员对应一个危险分数target，对计算出的所有服刑人员危险分数进行排序，取样本数量的前5％的分数的样本人员作为预警人员名单，将名单推送到移动端应用平台，通过软件终端显示出对应的服刑人员的对应的特征信息及危险分数，并发出预警，干警接收此信息并对其进行特别关注，采取相应管制措施以预防狱内危险事件发生；

(3)Random Forest模型在线优化

将步骤(2)中的Random Forest模型接口连接服刑人员数据库，可实时读取狱内发生危险行为的人员信息，更新后的样本以单人数据信息的格式重新进入Random Forest模型中，Random Forest模型以此数据的有效影响因子为输入特征在线学习并更新RandomForest模型权重，以此降低学习误差实现在线优化，提高预测准确率。

实施例2

根据实施例1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其区别在于：

用r表示PCC系数，其计算公式如式(I)所示：

式(I)中，X_i和

实施例3

用IG(Y|X)表示某一特征的信息熵，其计算公式如式(II)、式(III)、式(IV)所示：

IG(Y|X)＝H(Y)-H(Y|X) (IV)

实施例4

实施例1-3任一所述基于有效影响因子的服刑人员危险行为预测方法的实现***，如图1所示，包括依次连接的数据挖掘和存储模块、模型算法和实时优化模块、危险行为预警模块、移动终端显示和查询模块；

模型算法和实时优化模块:该***后台嵌入本发明提出的危险行为预测模型，用于得到预测分类结果；同时，通过实时读取变动的人员信息，在线学习并更新模型权重，降低学习误差实时优化；

Claims

1.一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，包括步骤如下：

(1)结构化处理：

2)提取有效影响因子；

(2)基于权重分数的危险行为预测

危险行为包括***危险、逃脱危险、暴力危险；

首先，对所有待评估人员进行分类：

将结构化处理后有效影响因子构成的数据集划分为训练集和测试集，将训练集输入Random Forest模型进行学习和训练，待Random Forest模型的学习完成预设的迭代次数且误差维持稳定后，保存训练好的Random Forest模型；输入测试集至训练好的RandomForest模型，预测其危险行为；

其次，基于权重分数的危险行为预测及预警；

(3)Random Forest模型在线优化

将步骤(2)中的模型接口连接服刑人员数据库，可实时读取狱内发生危险行为的人员信息，更新后的样本以单人数据信息的格式重新进入Random Forest模型中，RandomForest模型以此数据的有效影响因子为输入特征在线学习并更新Random Forest模型权重。

2.根据权利要求1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，步骤2)中，提取有效影响因子，包括步骤如下：

首先，设置皮尔逊相关系数和信息增益的阈值；

最后，计算特征提供的信息量，即经过前级筛选出各个特征字段的信息熵，若某特征取值低于信息增益的阈值，则视为冗余特征，将其删除，保留取值大于等于阈值的特征；处理后得到有效影响因子构成的数据。

3.根据权利要求1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，用r表示PCC系数，其计算公式如式(Ⅰ)所示：

式(Ⅰ)中，X_i和

4.根据权利要求1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，用IG(Y/X)表示某一特征的信息熵，其计算公式如式(Ⅱ)、式(Ⅲ)、式(Ⅳ)所示：

IG(Y|X)＝H(Y)-H(Y|X) (Ⅳ)

式(Ⅱ)、式(Ⅲ)、式(Ⅳ)中，H(X)是指特征字段X的信息熵，p(x_i)表示该特征下取值为x_i的概率，x_i表示该特征下的取值，b是对数的底数，取2；H(Y|X)是指条件熵；H(Y)是指类别标签的信息量。

5.根据权利要求1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，基于权重分数的危险行为预测及预警，其过程包括：

B、提出基于分级特征提取的AHP层次分析法对有效影响因子进行权重赋值，依据权重计算出每一个人员样本对应的属性总分数作为最终的危险行为分数，针对排序后分数高的群体发出预警，供干警查看危险人员的状态并对危险情况采取相应的管制措施,包括步骤如下：

将服刑人员特征信息分为两级指标，包括一级指标和二级指标，一级指标包括个人信息、犯罪信息、心理指标和日常行为，二级指标为每一个一级指标下的具体信息字段；

依据矩阵理论，计算出判断矩阵的特征值和特征向量，选择最大的特征根λ_max及其对应的矩阵特征向量，经归一化后记为W；W的元素为相对于其他二级指标重要性的排序权值，对排序权值的有效性检验成为一致性检验，其不一致程度越大，引起的判断误差越大，一致性指标为

6.根据权利要求1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，步骤1)中，数据清洗，是指：对服刑人员特征信息中的缺省项、不规范项和表述错误项分别进行增补、修改和删除操作。

7.根据权利要求1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，迭代次数为1000次。

8.根据权利要求1所述的一种基于有效影响因子的服刑人员危险行为预测方法，其特征在于，误差维持稳定是指，误差在0.05-0.15之间。

9.权利要求1-8任一所述基于有效影响因子的服刑人员危险行为预测方法的实现***，包括依次连接的数据挖掘和存储模块、模型算法和实时优化模块、危险行为预警模块、移动终端显示和查询模块；

数据挖掘和存储模块用于：实时读取和存储数据并进行分析和预处理，预处理过程为所述步骤(1)；

模型算法和实时优化模块用于得到预测分类结果；同时，通过实时读取变动的人员信息，在线学习并更新模型权重，降低学习误差实时优化；

移动终端显示和查询模块用于：显示待评估人员的结构化数据信息，用于显示查询危险行为预测模型的分类结果。