CN106780258A

CN106780258A - 一种未成年人犯罪决策树的建立方法及装置

Info

Publication number: CN106780258A
Application number: CN201611208475.5A
Authority: CN
Inventors: 刘力
Original assignee: Netposa Technologies Ltd
Current assignee: Netposa Technologies Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2017-05-31
Anticipated expiration: 2036-12-23
Also published as: CN106780258B

Abstract

本发明提供了一种未成年人犯罪决策树的建立方法及装置，包括：获取未成年人犯罪的样本数据；确定每种犯罪影响因素对犯罪程度的影响值，从上述样本数据中筛选影响值大于或等于预设值的影响因素集合；确定犯罪程度对影响因素集合中每种影响因素的依赖度，确定犯罪程度和影响因素集合中每种影响因素的关联度；根据依赖度和关联度确定犯罪程度与影响因素集合中每种影响因素的紧密度；根据紧密度、样本数据的信息熵和影响因素集合中每种影响因素的信息熵建立犯罪决策树。本发明中，筛掉对犯罪程度影响值较小的一些影响因素，使得决策树的建立过程简单且耗时较短，并引入了犯罪程度和影响因素之间的紧密度这一参数，提高了建立的决策树的分类精度。

Description

一种未成年人犯罪决策树的建立方法及装置

技术领域

本发明涉及大数据分析技术领域，具体而言，涉及一种未成年人犯罪决策树的建立方法及装置。

背景技术

随着网络、科技、新文化对日常生活的影响，未成年人犯罪比率也在逐年上升，未成年人是祖国未来建设的接班人，未成年人犯罪既危害社会稳定，又对未成年人群体的健康成长带来不好的影响。因此，对未成年人的犯罪行为进行研究，分析影响未成年人犯罪的因素，以预防未成年人犯罪显得尤为重要。

现有技术中，一般采用ID3算法建立未成年人犯罪影响因素的决策树模型，但是，影响未成年人犯罪的因素有多种，有的因素对未成年人影响程度较大，有的因素对未成年人犯罪影响程度较小，但是现有技术中在建立决策树时，将所有的因素都考虑在内，这样，使得决策树的建立过程比较复杂且耗时，并且，ID3算法存在多值偏向问题，这样使得通过ID3算法计算出的影响因素的信息增益不准确，进而降低了建立的决策树的分类精度。

发明内容

有鉴于此，本发明实施例的目的在于提供一种未成年人犯罪决策树的建立方法及装置，以解决现有技术中直接采用ID3算法建立决策树，使得决策树的建立过程比较复杂耗时，并且由于ID3算法的多值偏向问题，导致的决策树的分类精度较低的问题。

第一方面，本发明实施例提供了一种未成年人犯罪决策树的建立方法，其中，所述方法包括：

获取未成年人犯罪的样本数据，所述样本数据包括未成年人的犯罪影响因素和犯罪程度；

确定每种所述犯罪影响因素对所述犯罪程度的影响值，从所述样本数据中筛选出所述影响值大于或等于预设值的影响因素集合；

确定所述犯罪程度对所述影响因素集合中每种影响因素的依赖度，及确定所述犯罪程度和所述影响因素集合中每种所述影响因素之间的关联度；

根据所述依赖度和所述关联度确定所述犯罪程度与所述影响因素集合中每种影响因素之间的紧密度；

根据所述紧密度、所述样本数据的信息熵和所述影响因素集合中每种影响因素对应的信息熵建立犯罪决策树。

结合第一方面，本发明实施例提供了上述第一方面的第一种可能的实现方式，其中，所述确定每种所述犯罪影响因素对所述犯罪程度的影响值，包括：

确定每种所述犯罪影响因素的属性值与所述犯罪程度的属性值之间的联合概率分布；

根据所述联合概率分布计算所述犯罪影响因素与所述犯罪程度之间的协方差；

根据所述联合概率分布计算所述犯罪影响因素的方差和所述犯罪程度的方差；

根据所述协方差、所述犯罪影响因素的方差和所述犯罪程度的方差，确定所述犯罪影响因素对所述犯罪程度的影响值。

结合第一方面，本发明实施例提供了上述第一方面的第二种可能的实现方式，其中，所述确定所述犯罪程度对所述影响因素集合中每种影响因素的依赖度，包括：

确定所述犯罪程度关于所述影响因素集合中每种影响因素的正域；

根据所述正域中的样本个数和所述影响因素集合中每种影响因素对应的样本个数，确定所述依赖度。

结合第一方面，本发明实施例提供了上述第一方面的第三种可能的实现方式，其中，所述确定所述犯罪程度和所述影响因素集合中每种所述影响因素之间的关联度，包括：

确定所述影响因素集合中每种所述影响因素取不同的属性值时对应的样本个数；

确定所述样本个数中属于所述犯罪程度对应的每种属性值的子样本个数；

根据所述子样本个数确定所述犯罪程度和所述影响因素集合中每种所述影响因素之间的关联度。

结合第一方面，本发明实施例提供了上述第一方面的第四种可能的实现方式，其中，所述根据所述依赖度和所述关联度确定所述犯罪程度与所述影响因素集合中每种影响因素之间的紧密度，包括：

计算所述依赖度和所述关联度之间的乘积；

计算所述依赖度和所述关联度之间的和值；

根据所述乘积和所述和值之间的比值确定所述犯罪程度和所述影响因素集合中每种影响因素之间的紧密度。

结合第一方面，本发明实施例提供了上述第一方面的第五种可能的实现方式，其中，所述根据所述紧密度、所述样本数据的信息熵和所述影响因素集合中每种所述影响因素对应的信息熵建立犯罪决策树，包括：

根据所述紧密度、所述样本数据的信息熵和所述影响因素集合中每种影响因素对应的信息熵，计算所述影响因素集合中每种影响因素的信息增益；

确定出最大的信息增益，并将所述最大的信息增益对应的影响因素确定为犯罪决策树的根***节点；

根据所述根***节点建立所述犯罪决策树。

第二方面，本发明实施例提供了一种未成年人犯罪决策树的建立装置，其中，所述装置包括：

获取模块，用于获取未成年人犯罪的样本数据，所述样本数据包括未成年人的犯罪影响因素和犯罪程度；

筛选模块，用于确定每种所述犯罪影响因素对所述犯罪程度的影响值，从所述样本数据中筛选出所述影响值大于或等于预设值的影响因素集合；

第一确定模块，用于确定所述犯罪程度对所述影响因素集合中每种影响因素的依赖度，及确定所述犯罪程度和所述影响因素集合中每种所述影响因素之间的关联度；

第二确定模块，用于根据所述依赖度和所述关联度确定所述犯罪程度与所述影响因素集合中每种影响因素之间的紧密度；

建立模块，用于根据所述紧密度、所述样本数据的信息熵和所述影响因素集合中每种影响因素对应的信息熵建立犯罪决策树。

结合第二方面，本发明实施例提供了上述第二方面的第一种可能的实现方式，其中，所述筛选模块包括：

第一确定单元，用于确定每种所述犯罪影响因素的属性值与所述犯罪程度的属性值之间的联合概率分布；

第一计算单元，用于根据所述联合概率分布计算所述犯罪影响因素与所述犯罪程度之间的协方差；

第二计算单元，用于根据所述联合概率分布计算所述犯罪影响因素的方差和所述犯罪程度的方差；

第二确定单元，用于根据所述协方差、所述犯罪影响因素的方差和所述犯罪程度的方差，确定所述犯罪影响因素对所述犯罪程度的影响值。

结合第二方面，本发明实施例提供了上述第二方面的第二种可能的实现方式，其中，所述第二确定模块包括：

第三计算单元，用于计算所述依赖度和所述关联度之间的乘积；

第四计算单元，用于计算所述依赖度和所述关联度之间的和值；

第三确定单元，用于根据所述乘积和所述和值之间的比值确定所述犯罪程度和所述影响因素集合中每种影响因素之间的紧密度。

结合第二方面，本发明实施例提供了上述第二方面的第三种可能的实现方式，其中，所述建立模块包括：

第五计算单元，用于根据所述紧密度、所述样本数据的信息熵和所述影响因素集合中每种影响因素对应的信息熵，计算所述影响因素集合中每种影响因素的信息增益；

第四确定单元，用于确定出最大的信息增益，并将所述最大的信息增益对应的影响因素确定为所述犯罪决策树的根***节点；

建立单元，用于根据所述根***节点建立所述犯罪决策树。

本发明中提供了一种未成年人犯罪决策树的建立方法及装置，该方法中筛掉了对犯罪程度影响值较小的一些影响因素，使得决策树的建立过程简单且耗时较短，另外，在计算信息增益时引入了犯罪程度和影响因素之间的紧密度这一参数，使得确定出的根***节点更加准确，从而提高了建立的决策树的分类精度。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例1所提供的未成年人犯罪决策树的建立方法的流程图；

图2示出了本发明实施例1所提供的未成年人犯罪决策树的建立方法中犯罪影响因素对犯罪程度的影响值的确定方法的流程图；

图3示出了本发明实施例1所提供的未成年人犯罪决策树的建立方法中犯罪决策树的建立过程的流程图；

图4示出了本发明实施例2所提供的未成年人犯罪决策树的建立装置的结构示意图。

图4附图标记说明：

410，获取模块；420筛选模块；430.第一确定模块；440，第二确定模块；450，建立模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有技术中，在对影响未成年人犯罪的因素进行分析时，需要建立决策树，大都是采用ID3算法建立未成年人犯罪影响因素的决策树模型，但是，影响未成年人犯罪的因素有多种，有的因素对未成年人影响程度较大，有的因素对未成年人犯罪影响程度较小，但是现有技术中在建立决策树时，将所有的因素都考虑在内，这样，使得决策树的建立过程比较复杂且耗时，并且，ID3算法存在多值偏向问题，这样使得通过ID3算法计算出的影响因素的信息增益不准确，进而降低了建立的决策树的分类精度。基于此，本发明实施例提供了一种未成年人犯罪决策树的建立方法及装置，下面通过实施例进行描述。

实施例1

本发明实施例提供了一种未成年人犯罪决策树的建立方法，其中，如图1所示，该方法包括步骤S110-S150，具体如下。

S110，获取未成年人犯罪的样本数据，该样本数据包括未成年人犯罪影响因素和犯罪程度。

在采用本发明实施例提供的方法建立未成年人犯罪决策树之前，需要采集未成年人犯罪的样本数据，即对多个犯罪未成年人的犯罪程度以及对应的个人影响因素进行采集，比如说，记录某个犯罪的未成年人的犯罪程度、性别、年龄、家庭情况及上学情况等数据，并将记录的数据存储。

当采用本发明实施例提供的方法建立决策树时，则首先获取未成年人犯罪的样本数据。

其中，上述犯罪程度包括较轻、一般、较重和严重四种属性值。

上述影响未成年人犯罪的因素可能包括性别、年龄、单亲离异情况、父母工作地点、与父母老师相处情况、独生子女、家庭所在地、家庭经济条件、个人文化程度、父亲文化程度、母亲文化程度、在校表现、出入不良场所情况、饮酒抽烟情况、打架情况、前科记录情况。

并且，上述每种影响因素对应多个属性值，比如说，年龄的属性值包括男和女；家庭经济条件的属性值包括富裕、一般和困难；父亲文化程度的属性值包括文盲、初中及以下、高中、大学及以上；母亲文化程度的属性值包括文盲、初中及以下、高中、大学及以上；在校表现的属性值包括优、良、中、差；出入不良场所情况的属性值包括频繁、一般、很少和无；饮酒抽烟情况的属性值包括经常、一般、偶尔和无；打架情况的属性值包括频繁、一般、很少和无；前科记录情况的属性值包括一次、两次和多次。

其中，上述只是列举了部分可能会对未成年人犯罪产生影响的因素，以及其中一部分因素可能包括的属性值，但是，并没有对可能对未成年人犯罪产生影响的因素以及因素包括的属性值进行限定，上述只是举例进行说明。

S120，确定出每种上述犯罪影响因素对犯罪程度的影响值，从上述样本数据中筛选出影响值大于或等于预设值的影响因素集合。

其中，如图2所示，上述确定每种犯罪影响因素对犯罪程度的影响值，包括步骤S210-S230，具体如下：

S210，确定每种犯罪影响因素与犯罪程度之间的联合概率分布；

S220，根据上述联合概率分布计算上述犯罪影响因素与犯罪程度之间的协方差；

S230，根据上述联合概率分布计算犯罪影响因素的方差和犯罪程度的方差；

S240，根据上述协方差、犯罪影响因素的方差和犯罪程度的方差，确定上述犯罪影响因素对犯罪程度的影响值。

其中，上述犯罪影响因素和犯罪程度之间的协方差可以通过公式(1)计算得出；

其中，在上述公式(1)中，X_P表示犯罪影响因素，P的取值为1,2,3…，x_q表示犯罪影响因素的属性值，q＝1,2…，Y表示犯罪程度，y_t表示犯罪程度的属性值，其中，t＝1,2,3,4，p_qt为犯罪影响因素和犯罪程度之间的联合概率值，E(X_P)为影响因素的期望，E(Y)为犯罪程度的期望，上述k为某种犯罪影响因素的属性值的个数，m为每个犯罪程度的属性值的个数。

比如说，如果上述犯罪影响因素为家庭经济条件，家庭经济条件的属性值包括富裕、一般和贫穷，那么，家庭经济条件的属性值的个数为3，即k的取值为3，而犯罪程度的属性值包括较轻、一般、较重和严重，因此，m的取值为4，当然，犯罪程度的属性值、犯罪影响因素的属性值并不局限于此。

其中，上述影响值表示的是犯罪影响因素和犯罪程度之间紧密程度的性能指标，下面将以家庭经济条件为例，详细介绍确定家庭经济条件对犯罪程度的影响值的具体过程。

比如说，当P的取值为2时，则X₂表示家庭经济条件，这时，q的取值为3，即x₁表示富裕、x₂表示一般、x₃表示困难，y_t表示犯罪程度的属性值，其中，y₁表示较轻、y₂表示一般、y₃表示较重、y₄表示严重。

从样本数据中，可以分别确定出家庭条件富裕且犯罪程度较轻的样本的个数、家庭条件富裕且犯罪程度一般的样本个数、家庭条件富裕且犯罪程度较重的样本个数和家庭条件富裕且犯罪程度严重的样本个数；以及家庭条件一般且犯罪程度较轻的样本数、家庭条件一般且犯罪程度一般的样本个数、家庭条件一般且犯罪程度较重的样本个数和家庭条件一般且犯罪程度严重的样本个数；家庭条件困难且犯罪程度较轻的样本个数、家庭条件困难且犯罪程度一般的样本个数、家庭条件困难且犯罪程度较重的样本个数和家庭条件困难且犯罪程度严重的样本个数。

根据上述确定出的样本个数，可以确定出家庭经济条件和犯罪程度之间的联合概率分布，比如说，上面家庭条件富裕且犯罪程度较轻的样本的个数为3、家庭条件富裕且犯罪程度一般的样本个数为2、家庭条件富裕且犯罪程度较重的样本个数为4、家庭条件富裕且犯罪程度严重的样本个数为1；及家庭条件一般且犯罪程度较轻的样本数为5、家庭条件一般且犯罪程度一般的样本个数为0、家庭条件一般且犯罪程度较重的样本个数为2，家庭条件一般且犯罪程度严重的样本个数为3；家庭条件困难且犯罪程度较轻的样本个数为2、家庭条件困难且犯罪程度一般的样本个数为5、家庭条件困难且犯罪程度较重的样本个数为1和家庭条件困难且犯罪程度严重的样本个数为0。

则通过上述数据确定出的家庭经济条件和犯罪程度之间的联合概率分布如表1所示。

当确定出联合概率分布后，通过公式(1)可以确定出家庭经济条件和犯罪程度之间的协方差。

以及根据表(1)中的联合概率分布可以确定出家庭经济条件的方差以及犯罪程度的方差。

表1

其中，上述根据协方差、每种犯罪影响因素的方差和犯罪程度的方差，通过公式(2)计算出犯罪影响因素对犯罪程度的影响值；

其中，在公式(2)中，ω_P为犯罪影响因素对犯罪程度的影响值，上述Cov(x_p,Y)为犯罪影响因素和犯罪程度之间的协方差，上述为犯罪影响因素的方差，为犯罪程度的方差。

在上述中，计算出家庭经济条件的方差、犯罪程度的方差以及家庭经济条件和犯罪程度之间的协方差，因此，通过公式(2)可以计算出家庭经济条件对犯罪程度的影响值。

其中，从公式(2)中可以看出，ω_P的取值为[0,1]，而ω_P是衡量犯罪影响因素和犯罪程度之间的紧密相关程度的一种度量标准。

上述从样本数据中筛选出影响值大于或等于预设值的影响因素集合，可以通过如下过程实现：

将上述ω_P与预设值进行比较，当ω_P小于预设值时，表明犯罪影响因素和犯罪程度之间的相关程度较小，这时，将该犯罪影响因素筛掉，当ω_P大于或等于预设值时，说明该影响值对应的犯罪影响因素和犯罪程度之间的相关度较大，将该影响因素添加到影响因素集合中。

其中，上述预设值时预先设定的一个影响值，比如说0.6，当然，上述预设值还可以是其它数值，本发明实施例并不对上述预设值的具体数值进行设置，用户可以根据具体应用场景进行设置。

上述犯罪影响因素集合中的影响因素均是与犯罪程度之间的相关程度较大的影响因素，因此，在下文中建立犯罪决策树的过程中，所采用的影响因素均是犯罪影响因素集合中的影响因素。

S130，确定上述犯罪程度对影响因素集合中每种影响因素的依赖度，及确定犯罪程度和影响因素集合中每种影响因素之间的关联度。

其中，上述确定犯罪程度对影响因素集合中每种影响因素的依赖度，具体包括：确定上述犯罪程度关于影响因素集合中每种影响因素的正域；根据上述正域中的样本个数和影响因素集合中每种影响因素对应的样本个数，确定上述依赖度。

其中，上述犯罪程度对影响因素集合中每种影响因素的依赖度可以通过公式(3)计算；

其中，在上述公式(3)中，spt_X(Y)表示犯罪程度对影响因素集合中每种影响因素的依赖度，POS_X(Y)表示Y的X正域，其中，Y表示犯罪程度，X表示影响因素集合，U为影响因素集合中任意一种影响因素对应的子样本数据，Card(U)表示子样本数据的个数，Card(POS_X(Y))表示正域中元素的个数。

其中，下面将以影响因素为家庭经济条件为例，详细介绍上述正域以及依赖度的具体计算过程：

家庭经济条件为X₂，家庭经济条件的属性值包括富裕、一般和困难，从样本数据中选取关于家庭经济条件的数据，比如说，为U＝{记录1(富裕)，记录2(富裕)，记录3(富裕)，记录4(一般)，记录5(一般)，记录6(困难)}。

上述U中包括6行数据记录，将其中属性值相同的记录作为一组，这样的一组记为等价类；

已知Y中的等价类为：M＝{记录2，记录3，记录6}

X₂中的等价类为：

组1：E₁＝{记录1(富裕)，记录2(富裕)，记录3(富裕)}

组2：E₂＝{记录4(一般)，记录5(一般)}

组3：E₃＝{记录6(困难)}

上述U关于X₂的划分为：

U/X₂＝{组1，组2，组3}＝{{记录1，记录2，记录3}，{记录4，记录5}，{记录6}}

找到上述U/X₂中被M＝{记录2，记录3，记录6}包含的元素，此时U/X₂中的{记录6}符合条件，只有组3中的记录6被M完全包含，此时POS_X(Y)＝{记录6}，因此，Y的X正域为POS_X(Y)＝{记录6}。

上述Card指集合中样本的个数，POS_X(Y)＝{记录6}中只有一个样本，则此时的依赖度

其中，上述确定犯罪程度和影响因素集合中每种影响因素之间的关联度，具体包括：

确定上述影响因素集合中每种影响因素取不同的属性值时对应的样本个数；确定上述样本个数中属于犯罪程度的对应的每种属性值的子样本个数；根据上述子样本个数确定犯罪程度和影响因素集合中每种影响因素之间的关联度。

其中，上述关联度指的是某种影响因素与犯罪程度之间的关联程度，上述关联度的值越高，表明该影响因素与犯罪程度之间的联系越紧密，关联程度越大。

上述关联度可以通过公式(4)计算，

其中，在公式(4)中，S(Y,X_P)为影响因素XP与犯罪程度之间的关联度，i为影响因素X_P对应的属性值，j为犯罪程度对应的属性值，f_i,j为上述子样本个数，f_i,m+1为当影响因素取每个属性值时对应的样本个数，f_n+1,j为犯罪程度取每个属性值时对应的样本个数。

下面仍以家庭经济条件为例介绍上述关联度的具体计算过程：

比如说，家庭条件富裕且犯罪程度较轻的样本的个数为3、家庭条件富裕且犯罪程度一般的样本个数为2、家庭条件富裕且犯罪程度较重的样本个数为4、家庭条件富裕且犯罪程度严重的样本个数为1；及家庭条件一般且犯罪程度较轻的样本数为5、家庭条件一般且犯罪程度一般的样本个数为0、家庭条件一般且犯罪程度较重的样本个数为2，家庭条件一般且犯罪程度严重的样本个数为3；家庭条件困难且犯罪程度较轻的样本个数为2、家庭条件困难且犯罪程度一般的样本个数为5、家庭条件困难且犯罪程度较重的样本个数为1和家庭条件困难且犯罪程度严重的样本个数为0，如表2所示。

表2

根据表2中的数据，通过公式(4)可以计算出，家庭经济条件和犯罪程度之间的关联度为：

上述只是举例说明关联度的具体计算过程，并没有对家庭经济条件对应的样本个数以及具体的关联度的大小进行限定。

S140，根据上述依赖度和关联度确定上述犯罪程度与影响因素集合中每种影响因素之间的紧密度。

由于上述依赖度和关联度两个指标是同时对影响因素和犯罪程度之间的关联程度起作用的，因此，需要将上述依赖度和关联度两个参数合并为一个参数，具体合并的过程可以参考并联电阻的原理。

其中，根据依赖度和关联度确定犯罪程度与犯罪影响因素集合中每种影响因素之间的紧密度，具体包括：

计算上述依赖度和关联度之间的乘积；计算上述依赖度和关联度之间的和值；根据上述乘积和和值之间的比值确定犯罪程度和影响因素集合中每种影响因素之间的紧密度。

具体的，上述紧密度可以通过公式(5)计算得出：

其中，在上述公式(5)中，hf(X_P)为犯罪程度和影响因素集合中每种影响因素之间的紧密度，spt_XY为犯罪程度对影响因素集合中每种影响因素的依赖度，S(Y,X_P)为影响因素X_P与犯罪程度之间的关联度。

S150，根据上述紧密度、样本数据的信息熵和影响因素集合中每种影响因素对应的信息熵建立犯罪决策树。

其中，如图3所示，上述根据紧密度、样本数据的信息熵和影响因素集合中每种影响因素对应的信息熵建立决策树，包括步骤S310-S330，具体如下。

S310，根据上述紧密度、样本数据的信息熵和影响因素集合中每种影响因素对应的信息熵，计算上述影响因素集合中每种影响因素的信息增益；

S320，确定出最大的信息增益，并将上述最大的信息增益对应的影响因素确定为犯罪决策树的根***节点；

S330，根据上述根***节点建立犯罪决策树。

其中，上述根据紧密度、样本数据的信息上和影响因素集合中每种影响因素的信息上，通过公式(6)计算影响因素集合中每种影响因素的信息增益；

Gain(X_P,S)＝Gain(X_P,S)×hf(X_P)＝[Info(S)-InfoX_P(S)]×hf(X_P) (6)

其中，在上述公式(6)中，Gain(X_P,S)为基本的ID3算法计算出的信息增益，Gain(X_P,S)_New为使用上述紧密度修正后得到的新的ID3算法计算出的信息增益，上述hf(X_P)为犯罪程度与影响因素集合中每种影响因素之间的紧密度，上述Info(S)为样本数据的信息熵，为影响因素集合中每种影响因素对应的信息熵。

通过上述计算公式计算出影响因素集合中的每种影响因素的信息增益后，从中选取最大的信息增益，并将最大的信息增益确定为犯罪决策树的根***节点，之后，根据其余影响因素对应的信息增益，从影响因素集合中的剩余的影响因素中确定出犯罪决策树的子***节点，以此类推，建立上述犯罪决策树。

当建立了上述犯罪决策树后，根据犯罪决策树的输出结果，可以确定出导致犯罪程度较重的因素，比如说，犯罪决策树的输出结果为：

1、IF单亲离异情况＝否AND家庭经济条件＝困难AND父亲文化程度＝初中及以下AND出入不良场所情况＝频繁THEN犯罪程度＝一般；

2、IF单亲离异情况＝是AND出入不良场所情况＝频繁AND打架情况＝频繁THEN犯罪程度＝严重；

3、IF单亲离异情况＝是AND家庭经济条件＝困难AND出入不良场所情况＝频繁AND饮酒抽烟情况＝频繁AND打架情况＝频繁THEN犯罪程度＝严重；

4、IF单亲离异情况＝是AND家庭经济条件＝困难AND父亲文化程度＝文盲AND在校表现＝差AND前科记录情况＝一次THEN犯罪程度＝较重；

5、IF单亲离异情况＝否AND在校表现＝差AND打架情况＝一般AND前科记录情况＝两次THEN犯罪程度＝严重。

根据上述输出的结果，可以确定出导致犯罪程度较重的因素有：父母离异情况、家庭经济条件、父母文化程度、出入不良场所情况、打架情况、前科记录情况等等，其中，特别需要关注的是父母离异情况、家庭经济条件、父母文化程度对未成年人犯罪由较大的影响。

为了排除犯罪前科的影响，在采集未成年人犯罪的样本数据时，可以采集没有前科犯罪的未成年人的犯罪样本数据。

通过上述结果确定出导致未成年人犯罪的重要因素后，司法工作者和相关部分可以采取一些预防未成年人犯罪的策略，比如说，对单亲离异的青少年进行谈话教育等等。

本发明实施例提供的未成年人决策树的建立方法，该方法中筛掉了对犯罪程度影响值较小的一些影响因素，使得决策树的建立过程简单且耗时较短，另外，在计算信息增益时引入了犯罪程度和影响因素之间的紧密度这一参数，使得确定出的根***节点更加准确，从而提高了建立的决策树的分类精度。

实施例2

本发明实施例提供了一种未成年人犯罪决策树的建立装置，该装置用来执行上述实施例1提供的方法，其中，如图4所示，该装置包括获取模块410、筛选模块420、第一确定模块430、第二确定模块440和建立模块450；

上述获取模块410，用于获取未成年人犯罪的样本数据，所述样本数据包括未成年人的犯罪影响因素和犯罪程度；

上述筛选模块420，用于确定每种犯罪影响因素对上述犯罪程度的影响值，从上述样本数据中筛选出影响值大于或等于预设值的影响因素集合；

上述第一确定模块430，用于确定上述犯罪程度对上述影响因素集合中每种影响因素的依赖度，及确定上述犯罪程度和影响因素集合中每种影响因素之间的关联度；

上述第二确定模块440，用于根据上述依赖度和关联度确定上述犯罪程度与影响因素集合中每种影响因素之间的紧密度；

上述建立模块450，用于根据上述紧密度、样本数据的信息熵和影响因素集合中每种影响因素对应的信息熵建立犯罪决策树。

其中，上述筛选模块420确定每种犯罪影响因素对犯罪程度的影响值，是通过第一确定单元、第一计算单元、第二计算单元和第二确定单元实现的，具体包括：

上述第一确定单元，用于确定每种犯罪影响因素的属性值与犯罪程度的属性值之间的联合概率分布；上述第一计算单元，用于根据上述联合概率分布计算上述犯罪影响因素与犯罪程度之间的协方差；上述第二计算单元，用于根据联合概率分布计算犯罪影响因素的方差和犯罪程度的方差；上述第二确定单元，用于根据上述协方差、上述犯罪影响因素的方差和上述犯罪程度的方差，确定上述犯罪影响因素对上述犯罪程度的影响值。

其中，上述第二确定模块440根据依赖度和关联度确定上述犯罪程度与影响因素集合中每种影响因素之间的紧密度，是通过第三计算单元、第四计算单元和第三确定单元实现的，具体包括：

上述第三计算单元，用于计算上述依赖度和关联度之间的乘积；上述第四计算单元，用于计算上述依赖度和关联度之间的和值；上述第三确定单元，用于根据上述乘积和上述和值之间的比值确定上述犯罪程度和影响因素集合中每种影响因素之间的紧密度。

上述建立模块450根据上述紧密度、样本数据的信息熵和影响因素集合中每种影响因素对应的信息熵建立犯罪决策树，是通过第五计算单元、第四确定单元和建立单元实现的，具体包括：

上述第五计算单元，用于根据上述紧密度、上述样本数据的信息熵和上述影响因素集合中每种影响因素对应的信息熵，计算上述影响因素集合中每种影响因素的信息增益；上述第四确定单元，用于确定出最大的信息增益，并将上述最大的信息增益对应的影响因素确定为犯罪决策树的根***节点；上述建立单元，用于根据上述根***节点建立上述犯罪决策树。

本发明实施例提供的未成年人犯罪决策树的建立装置，筛掉了对犯罪程度影响值较小的一些影响因素，使得决策树的建立过程简单且耗时较短，另外，在计算信息增益时引入了犯罪程度和影响因素之间的紧密度这一参数，使得确定出的根***节点更加准确，从而提高了建立的决策树的分类精度。

本发明实施例所提供的未成年人犯罪决策树的建立装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的***、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种未成年人犯罪决策树的建立方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定每种所述犯罪影响因素对所述犯罪程度的影响值，包括：

确定每种所述犯罪影响因素与所述犯罪程度之间的联合概率分布；

3.根据权利要求1所述的方法，其特征在于，所述确定所述犯罪程度对所述影响因素集合中每种影响因素的依赖度，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述犯罪程度和所述影响因素集合中每种所述影响因素之间的关联度，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述依赖度和所述关联度确定所述犯罪程度与所述影响因素集合中每种影响因素之间的紧密度，包括：

计算所述依赖度和所述关联度之间的乘积；

计算所述依赖度和所述关联度之间的和值；

6.根据权利要求1所述的方法，其特征在于，所述根据所述紧密度、所述样本数据的信息熵和所述影响因素集合中每种所述影响因素对应的信息熵建立犯罪决策树，包括：

根据所述根***节点建立所述犯罪决策树。

7.一种未成年人犯罪决策树的建立装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述筛选模块包括：

9.根据权利要求7所述的装置，其特征在于，所述第二确定模块包括：

10.根据权利要求7所述的装置，其特征在于，所述建立模块包括：

第四确定单元，用于确定出最大的信息增益，并将所述最大的信息增益对应的影响因素确定为犯罪决策树的根***节点；

建立单元，用于根据所述根***节点建立所述犯罪决策树。