CN107909092A

CN107909092A - 基于本体身份特征的涉嫌暴恐人员研判识别方法及***

Info

Publication number: CN107909092A
Application number: CN201710976646.7A
Authority: CN
Inventors: 陈鹏; 胡啸峰; 曾昭龙
Original assignee: CHINESE PEOPLE'S PUBLIC SECURITY UNIVERSITY
Current assignee: CHINESE PEOPLE'S PUBLIC SECURITY UNIVERSITY
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2018-04-13

Abstract

本发明公开了基于本体身份特征的涉嫌暴恐人员研判识别方法及***，该方法包括以下步骤：(1)对每个被关注对象，采集其若干本体身份特征信息，并分别定义为一个对应的本体特征变量；(2)根据本体身份特征信息，对本体特征变量进行赋值，所述赋值采用离散化变量赋值法；(3)构建训练数据集；(4)利用至少一种数据分类方法对训练数据集进行分类训练，并构建非线性分类器。该方法及***考虑并分析被关注对象特征变量之间可能存在的相关性，对特征变量进行离散化变量赋值，形成训练数据并相应构建非线性分类器，通过非线性分类器准确、高效的判别涉恐相关人员的危险性。

Description

基于本体身份特征的涉嫌暴恐人员研判识别方法及***

技术领域

本发明属于公安情报技术领域，为一种涉嫌暴恐重点人员研判识别方法及***，具体涉及基于本体身份特征的涉嫌暴恐人员研判识别方法及***。能够基于对象(被关注对象)的本体身份特征信息来判断和识别其是否属于涉嫌暴恐人员(涉恐重点关注人员)。

背景技术

近年来，暴力恐怖活动(暴恐活动)日益猖獗，给社会稳定和公共安全带来了极大的威胁。对公安机关的情报部门，利用情报分析手段提早发现暴恐活动的线索，识别涉嫌暴恐人员，并及时对其进行处置，对于防控和打击暴恐活动具有十分重要的现实意义。

当前，公安机关的情报部门(尤指情报分析部门)已开展了一些被关注对象(重点人员)分析研判的工作，其主要手段是：采用街面核查或重点场所登记的方式，采集被关注对象的一些身份信息，如身份证号、户籍地址、前科记录等，然后利用统计分析方法(如加权积分、线性回归等)形成研判模型，通过研判模型对被关注对象的危险性进行评价，对其中被评价为危险性程度较高的人员采取临控列管等方式进行处置。

从目前来看，公安机关的情报部门的这种分析研判方法，还主要集中于公安机关的常规七类被关注对象群体的分析，尚未提出适用于暴力涉恐相关人员的研判模型(分类判别模型)，且现有的研判模型所分析的特征变量仅考虑了被关注对象的地域性、前科记录、年龄、性别等，分析方法主要采用的是线性分类方法，没有考虑到被关注对象特征变量之间可能存在的相关性问题。

发明内容

针对现有技术中存在的缺陷，尤其是针对当前公安机关的情报部门在涉嫌暴恐人员分析研判领域存在的问题和不足，本发明的目的在于提供基于本体身份特征的涉嫌暴恐人员研判识别方法及***，可以在公安机关采集与核查人员基本信息(身份信息等)的基础上，通过分析其本体身份特征信息，达到快速筛查涉嫌暴恐人员的目的。

为实现上述目的，本发明采用的技术方案如下：

基于本体身份特征的涉嫌暴恐人员研判识别方法，包括以下步骤：

(1)对每个被关注对象，采集其若干本体身份特征信息，并分别定义为一个对应的本体特征变量；

(2)根据本体身份特征信息，对本体特征变量进行赋值，所述赋值采用离散化变量赋值法；

(3)构建训练数据集；

(4)利用至少一种数据分类方法对训练数据集进行分类训练，并构建非线性分类器。

进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，步骤(3)中，构建训练数据集时，其中已登记在案的涉嫌暴恐人员不少于 1000个。

进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，所述本体身份特征信息至少有七个，分别定义为本体特征变量X_n，n＝1，2， 3……，

更进一步，所述七个本体身份特征信息包括：

民族，定义为本体特征变量X₁，

宗教，定义为本体特征变量X₂，

年龄，定义为本体特征变量X₃，

职业，定义为本体特征变量X₄，

学历，定义为本体特征变量X₅，

籍贯，定义为本体特征变量X₆，

前科，定义为本体特征变量X₇。

再进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，所述对本体特征变量进行赋值，具体方式为：

1)非敏感群体，X₁＝1；敏感群体，X₁＝2；重点人群体，X₁＝3；

2)无特殊意识形态及相关活动，X₂＝1；存在特殊意识形态并在公安机关备案登记且在法律规定内从事合法相关活动，X₂＝2；存在特殊意识形态且从事危害国家安全的非法活动，X₂＝3；

3)年龄小于20岁，X₃＝3；年龄在20岁至40岁之间(含20岁和40岁)， X₃＝2；年龄大于40岁，X₃＝1；

4)有固定及合法职业，X₄＝0；无业、无固定职业或低收入职业，X₄＝1；

5)大学及以上学历，X₅＝0；初中或高中学历，X₅＝1；小学及以下学历， X₅＝2；

6)来自涉恐重点地域，X₆＝1；来自其他地域，X₆＝0；

7)本人或关系人员有涉恐前科记录，X₇＝1；本人或关系人员无前科记录，X₇＝0。

进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，步骤(3)的具体方式为：将不少于1000个已登记在案的涉嫌暴恐人员，与同等量级的普通人员，按照步骤一的方式采集其若干本体身份特征信息，按照步骤二的方式对本体特征变量进行赋值，

得到的本体身份特征信息，和本体特征变量，构成训练数据集。

进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，步骤(4)中，所述多种数据分类方法择一使用即可，

所述数据分类方法包括但并不仅限于支持向量机、决策树、多层神经网络等其中的至少一种。

进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，选择至少一种数据分类方法来构建非线性分类器，然后用其来处理待识别数据集。

本发明实施例中还提供了基于本体身份特征的涉嫌暴恐人员研判识别系统，包括以下模块：

本体身份特征信息获取模块，用于采集各个被关注对象的若干本体身份特征信息，

本体特征变量模块，用于将各个本体身份特征信息对应的变换为本体特征变量，用于根据本体身份特征信息，对本体特征变量进行赋值，

训练数据集构建模块，用于生成训练数据集，

分类器构建模块，用于利用至少一种数据分类方法对训练数据集进行分类训练，构建非线性分类器。

进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别***，所述训练数据集构建模块中，设有以下单元：

涉嫌暴恐人员及普通人员量级控制单元，用于确定涉嫌暴恐人员及普通人的量级，量级控制单元的下限为千量级，

涉嫌暴恐人员及普通人员比例控制单元，用于确定涉嫌暴恐人员及普通人的比例，比例控制单元的调节范围包括但不限于：已登记在案的涉嫌暴恐人员：普通人员＝1:1.1～1:5，

涉嫌暴恐人员数量控制单元，用于确定涉嫌暴恐人员的具体数量，具体数量的下限为量级控制单元确定的量级的最小值，具体数量的上限为量级控制单元确定的量级的最大值，

本体身份特征信息和本体特征变量处理单元，用于逐一获取涉嫌暴恐人员及普通人员的本体身份特征信息和本体特征变量，用于调用本体身份特征信息获取模块以获取本体身份特征信息，用于调用本体特征变量模块以获取本体特征变量，

训练数据集生成单元，用于汇总得到的本体身份特征信息和本体特征变量，构成训练数据集。

进一步，如上所述的基于本体身份特征的涉嫌暴恐人员研判识别***，还包括以下模块：

待识别数据集生成模块，用于对待识别的被关注对象进行处理，采集其若干本体身份特征信息，用于将各个本体身份特征信息对应的变换为本体特征变量，用于根据本体身份特征信息，对本体特征变量进行赋值，用于汇总得到的本体身份特征信息和本体特征变量，构成待识别数据集；

分析研判模块，用于获取待识别数据集，用于调用至少一个非线性分类器，对待识别数据集进行处理。

本发明的有益效果在于：考虑并分析被关注对象特征变量之间可能存在的相关性，对特征变量进行离散化变量赋值，形成训练数据并相应构建非线性分类器，通过非线性分类器准确、高效的判别涉恐相关人员的危险性。

附图说明

图1为本发明具体实施方式中提供的基于本体身份特征的涉嫌暴恐人员研判识别方法的流程图。

图2为本发明具体实施方式中提供的基于本体身份特征的涉嫌暴恐人员研判识别***的结构框图。

图3为本体身份特征信息获取模块示意图。

图4为本体特征变量模块示意图。

图5为训练数据集构建模块示意图。

图6为分类器构建模块示意图。

图7为本发明具体实施方式中提供的基于本体身份特征的涉嫌暴恐人员研判识别***的又一结构框图。

图8为待识别数据集生成模块示意图。

图9为分析研判模块示意图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

图1示出了本发明具体实施方式中提供的基于本体身份特征的涉嫌暴恐人员研判识别方法的流程图，该方法主要包括：

(1)对每个被关注对象，采集其若干本体身份特征信息，并分别定义为一个对应的本体特征变量，本体特征变量简称为特征变量；

根据研究发现，如果本体身份特征信息过少，则当将本体身份特征信息采用虚拟变量法转换为特征变量后，不利于对特征变量之间可能存在的相关性的分析和判断，但是，如果本体身份特征信息过多，将增加算法的繁琐程度，不利于提高研判识别速度和效率，且并不能明显的提高研判识别的准确程度，因此，经过多次研究尝试，并结合公安一线实战单位情报研判部门的工作经验，本体身份特征信息至少有七个较佳，分别定义为本体特征变量 X_n，n＝1，2，3……；而且，根据以往研判识别的经验，并非任意的本体身份特征信息之间都有可以利用的相关性，选取不适当的本体身份特征信息，是有可能由于缺乏相关性而导致不利于研判识别的情况出现的；

例如：较佳的实施方案是：所述本体身份特征信息至少有七个，所述本体身份特征信息至少包括：

民族，定义为本体特征变量X₁，

宗教，定义为本体特征变量X₂，

年龄，定义为本体特征变量X₃，

职业，定义为本体特征变量X₄，

学历，定义为本体特征变量X₅，

籍贯，定义为本体特征变量X₆，

前科，定义为本体特征变量X₇；

针对前述七个本体身份特征信息，具体赋值方式可为：

5)大学及以上学历，X₅＝0；初中或高中学历，X₅＝1；小学及以下学历，X₅＝2；

6)来自涉恐重点地域，X₆＝1；来自其他地域，X₆＝0；

在本实施例中，具体采用了虚拟变量和离散化变量赋值法，其基本原理是将变量(本体特征变量)进行标签化定义，用离散化的数值表示变量在不同状态下的标签特征；以上具体赋值仅为可以选择的赋值方式中的一种，而非仅能如此赋值，故依照离散化变量赋值法，对本体特征变量的具体赋值不同于上述示例，也是可以的，均属于本发明的保护范围；

(3)构建训练数据集，具体方式为：

将不少于1000个已登记在案的涉嫌暴恐人员，与同等量级的普通人员，按照步骤一的方式采集其若干本体身份特征信息，按照步骤二的方式对本体特征变量进行赋值，

得到的本体身份特征信息，和本体特征变量，构成训练数据集；

例如：如果选取了1000～9999个已登记在案的涉嫌暴恐人员，则同等量级的普通人员是指：选取1000～9999个普通人员，此时，该量级为千量级，千量级的下限是1000，上限是9999，同理，如果是万量级，则下限是 10000，上限是99999，以此类推，

需要说明的是：已登记在案的涉嫌暴恐人员和普通人员，同等量级时，数量(人员的具体数量)可以相同，数量(人员的具体数量)也可以不同，但应都处于同一个量级，上述示例中的1000～9999都属于千量级，建议最少为千量级，不宜更低，可以更高，因为研究发现过低的量级影响研判识别的准确程度，理论上，越高的量级也有利于提供研判识别的准确程度，但显然也不可能是无限度的，故千量级是较佳的常规选择；

更进一步，当已登记在案的涉嫌暴恐人员和普通人员，数量不同时，可以按以下比例选择具体数量：

已登记在案的涉嫌暴恐人员：普通人员＝1:1.1～1:5，

更优选的比例是：

已登记在案的涉嫌暴恐人员：普通人员＝1:1.5～1:3；

在本实施例中，已登记在案的涉嫌暴恐人员是指已被公安部门、法院等部门确认为恐怖袭击或暴力恐怖活动的组织和参与人员，普通人员是指与已登记在案的涉嫌暴恐人员具有同一民族身份但被确认为正常合法的人员；

通常情况下，普通人员只考虑一个本体身份特征信息即可，作为较佳的选择，是考虑民族身份这一本体身份特征信息；具体哪个本体身份特征信息被选择可以依照经验确定，通常，地域不同时，具体选择的该一个本体身份特征信息，可以是民族身份，也可以是前述七个本体身份特征信息中的任意一个，例如可以是宗教身份等；

(4)利用至少一种数据分类方法对训练数据集进行分类训练，并构建非线性分类器；

为了综合性的考虑到被关注对象特征变量之间可能存在的相关性，本发明的关键之一是构建非线性分类器，尽可能的完整分析、评估、研判被关注对象特征变量之间可能存在的相关性，以提高分类器评价的准确性、可靠性；

在构建非线性分类器时，分类方法首选采用支持向量机模型；

在本实施例中，可以采用多种数据分类方法对训练数据集进行数据分析训练，其中数据分类方法包括但并不仅限于支持向量机、决策树、多层神经网络等其中的至少一种，这些数据分类方法均可以用于构建非线性分类器。为了提高准确性，在确有必要的时候，可以选择两种以上不同的数据分类方法来分别构建非线性分类器，然后分别用每一个非线性分类器处理待识别数据集。

以支持向量机为例：

设给定混合涉恐人员与普通人员的训练数据集为：

T＝{(x₁，y₁)，…(x_l，y_l)} (1)

其中：

x_i∈Rⁿ，i＝1，…，l属于分类对象的输入特征变量，

y_i∈{1，-1}属于输出指标，即分类对象的标签，

每一个(x_l，y_l为训练观测数据集)为训练观测数据集。

设支持向量机所要构建的超平面函数为：

其中：

w为法向量，

b为截距。

如果目标点在超平面上，则有：

如果目标点位于超平面两侧，则有：

故决策函数可以表示为：

min||w||

s.t.1-y_i(w·x_i+b)≤0 (5)

定义拉格朗日函数：

其中：

α为拉格朗日乘子。

先求L(w，b，α)对w，b的极小，得到：

将其代入拉格朗日函数中得到：

再求L(w，b，α)对α的极大，即对偶问题：

求得最优解

选择α^*一个正分量0＜α^*＜C，并引入核函数K(x,z)，计算

则分类决策函数为：

此(式13)即构建得到的非线性分类器。

核函数K(x,z)可以选择多项式核函数或高斯核函数，其中多项式核函数为：

K(x,z)＝(x·z+1)^p (14)

p为多项式次数。高斯核函数为：

σ为函数带宽参数。

本实施方式中，当选择至少一种数据分类方法来构建非线性分类器时，还包括以下步骤：

(5)将待识别的被关注对象，按照步骤一的方式采集其若干本体身份特征信息，按照步骤二的方式对本体特征变量进行赋值，构成待识别数据集，

(6)将待识别数据集代入步骤(4)得到的分类器中进行分析研判，如果结果返回为“1”表示为涉嫌暴恐人员，“0”表示为非涉嫌暴恐人员。

本实施方式中，当选择两种以上不同的数据分类方法来构建多个非线性分类器时，还包括以下步骤：

(6)将待识别数据集代入步骤(4)得到的每一个分类器中进行分析研判，如果某一个分类器结果返回为“1”表示为涉嫌暴恐人员，“0”表示为非涉嫌暴恐人员；

对全部分类器结果进行汇总，对某一个待识别的被关注对象而言：

如果有一个分类器结果返回为“1”，则表示一星，

如果有两个分类器结果返回为“1”，则表示二星，

如果有三个分类器结果返回为“1”，则表示三星，

以此类推，星越多表示其越可能是高危险等级的涉嫌暴恐人员，

如果各分类器都是结果返回“0”，则表示非涉嫌暴恐人员。

采用本实施方式中所提供的上述方法，考虑了涉恐相关人员的七个重要本体身份特征信息，利用非线性分类器能够对潜在的涉恐人员进行准确的分类识别，从而提高公安机关的情报部门对涉嫌暴恐人员的识别效果，提升暴恐事件的预测预警与防控处置能力。

以下为本发明所述方法的分类精确度测试对比数据：

测试数据1：构建训练数据集，其中：已登记在案的涉嫌暴恐人员50 人，普通人员50人，

利用支持向量机模型构建非线性分类器，所述非线性分类器的分类决策函数为：

用该非线性分类器，对待识别数据集进行研判识别，分类精确度可达 71～88％。

测试数据2：构建训练数据集，其中：已登记在案的涉嫌暴恐人员300 人，普通人员400人，

用该非线性分类器，对测试数据1中的待识别数据集进行研判识别，分类精确度可达80～92％。

测试数据3：构建训练数据集，其中：已登记在案的涉嫌暴恐人员1000 人，普通人员3000人，

用该非线性分类器，对测试数据1中的待识别数据集进行研判识别，分类精确度可达88～97％。

与图1中所示的方法相对应，本发明实施方式中还提供了基于本体身份特征的涉嫌暴恐人员研判识别***，如图2所示，

包括以下模块：

训练数据集构建模块，用于生成训练数据集，

如图3所示，所述本体身份特征信息获取模块中，设有一本体身份特征信息数量及内容控制单元，用于确定采集哪几个本体身份特征信息。

如图4所示，所述本体特征变量模块中，设有以下单元：

本体特征变量变换单元，用于将各个本体身份特征信息对应的变换为本体特征变量，

本体特征变量赋值单元，用于根据本体身份特征信息，对本体特征变量进行赋值。

如图5所示，所述训练数据集构建模块中，设有以下单元：

如图6所示，所述分类器构建模块中，设有以下单元：

数据分类方法算法单元，用于存储各数据分类方法的具体算法；

数据分类方法选择单元，用于在数据分类方法算法单元中选择至少一种数据分类方法；

非线性分类器生成单元，用于利用数据分类方法选择单元选择的各数据分类方法，对训练数据集进行分类训练，构建非线性分类器。即：所述分类器构建模块为一个非线性分类器构建模块。

如图7所示，作为另一可选择实施方案，在图2的架构上，还包括以下模块：

如图8所示，所述待识别数据集生成模块中，设有以下单元：

预处理单元，用于调用本体身份特征信息获取模块以获取本体身份特征信息，用于调用本体特征变量模块以获取本体特征变量，

待识别数据集生成单元，用于汇总得到的本体身份特征信息和本体特征变量，构成待识别数据集。

如图9所示，所述分析研判模块中，设有以下单元：

分类器控制单元，用于逐个调用分类器处理待识别数据集，

分类器结果汇总单元，用于根据一个分类器的结果返回涉嫌暴恐人员判断结果，用于根据两个以上分类器的结果返回涉嫌暴恐人员星级结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于本体身份特征的涉嫌暴恐人员研判识别方法，包括以下步骤：

(3)构建训练数据集；

2.根据权利要求1所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，其特征在于：步骤(3)中，构建训练数据集时，其中已登记在案的涉嫌暴恐人员不少于1000个。

3.根据权利要求2所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，其特征在于：所述本体身份特征信息至少有七个，分别定义为本体特征变量X_n，n＝1，2，3……，

所述七个本体身份特征信息包括：

民族，定义为本体特征变量X₁，

宗教，定义为本体特征变量X₂，

年龄，定义为本体特征变量X₃，

职业，定义为本体特征变量X₄，

学历，定义为本体特征变量X₅，

籍贯，定义为本体特征变量X₆，

前科，定义为本体特征变量X₇。

4.根据权利要求3所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，其特征在于：所述对本体特征变量进行赋值，具体方式为：

3)年龄小于20岁，X₃＝3；年龄在20岁至40岁之间(含20岁和40岁)，X₃＝2；年龄大于40岁，X₃＝1；

6)来自涉恐重点地域，X₆＝1；来自其他地域，X₆＝0；

5.根据权利要求1所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，其特征在于：步骤(3)的具体方式为：将不少于1000个已登记在案的涉嫌暴恐人员，与同等量级的普通人员，按照步骤一的方式采集其若干本体身份特征信息，按照步骤二的方式对本体特征变量进行赋值，

6.根据权利要求1所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，其特征在于：步骤(4)中，所述多种数据分类方法择一使用即可，

7.根据权利要求6所述的基于本体身份特征的涉嫌暴恐人员研判识别方法，其特征在于：选择至少一种数据分类方法来构建非线性分类器，然后用其来处理待识别数据集。

8.基于本体身份特征的涉嫌暴恐人员研判识别***，包括以下模块：

训练数据集构建模块，用于生成训练数据集，

9.根据权利要求8所述的基于本体身份特征的涉嫌暴恐人员研判识别***，其特征在于：所述训练数据集构建模块中，设有以下单元：

10.根据权利要求8所述的基于本体身份特征的涉嫌暴恐人员研判识别***，其特征在于：还包括以下模块：