CN111181757B

CN111181757B - 信息安全风险预测方法、装置以及计算设备、存储介质

Info

Publication number: CN111181757B
Application number: CN201910684716.0A
Authority: CN
Inventors: 任飞; 周明辉; 刘跃波; 方明; 朱祁林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-10-08
Anticipated expiration: 2039-07-26
Also published as: CN111181757A

Abstract

本申请提供一种信息安全风险预测方法、装置以及计算设备、存储介质，涉及数据处理技术领域，包括：获取待评价终端的至少一类操作数据；对各类操作数据进行分析，确定各类操作数据分别对应的风险值；基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布。通过该方式进行信息安全风险预测，不仅结合用户的基本信息还基于核密度预测信息安全的风险值，提升了信息安全风险预测的准确度。

Description

信息安全风险预测方法、装置以及计算设备、存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种信息安全风险预测方法、装置以及计算设备、存储介质。

背景技术

随着办公安全意识的不断提高，大部分公司根据需求搭建满足其办公需求的内网办公***，通常账号和员工的编号一一对应，然而，当有不法分子盗用了员工账号信息，并通过员工账号信息登录公司的内网，公司的信息安全就会受到严重的威胁，针对信息安全预测问题一直是业内比较关注的问题。

现有技术中，信息安全风险预测通常是提取公司的某一维度信息的特征，将提取的特征输入预先训练得到的预测模型中，分别获取风险预测标签和无风险预测标签，并根据风险预测标签和无风险预测标签，分别获得对应的风险预测信息和无风险预测信息，通过该方式预测的安全风险仅仅考虑某一维度对信息安全的影响，安全风险预测的准确度低。

发明内容

本申请实施例提供一种信息安全风险预测方法、装置以及计算设备、存储介质，用以解决现有技术中信息安全风险预测的准确性差的问题。

第一方面本申请实施例提供一种信息安全风险预测方法，所述方法包括：

获取待评价终端的至少一类操作数据；

对各类操作数据进行分析，确定各类操作数据分别对应的风险值；

基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布。

可选的，每种用户基本信息分别对应一种核密度分布，所述基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，包括：

针对每类操作数据执行：

针对每种用户基本信息执行：确定该类操作数据的风险值在该用户基本信息的核密度分布中对应的风险值区间；并根据确定的风险值区间确定该风险值在该用户基本信息的核密度分布中的概率值，并确定该概率值的倒数为该类操作数据与该用户基本信息结合得到的风险结合值；

将对应同一用户基本信息的各类操作数据的风险结合值进行加权求和，将得到的加权求和结果作为该用户基本信息对应的风险值；

将各用户基本信息对应的风险值进行加权求和，得到所述待评价终端的风险评估值。

可选的，根据用户基本信息生成核密度分布，包括：

针对每种用户基本信息执行：以该用户基本信息取值中的指定取值区间为基准，统计各指定取值区间对应的人数；并根据各指定取值区间及对应的人数，结合核密度估计算法确定该用户基本信息对应的核密度分布。

可选的，对各类操作数据进行分析，确定各类操作数据分别对应的风险值，包括：

若操作数据为网络拓扑数据，则按照访问的拓扑逐级生成与各级对应的访问向量，其中该访问向量中的值为所述待评价终端在相应网络节点的访问时长；

将不同时间段的网络拓扑数据中，同一网络层级的向量进行差值计算，并以各网络层级对应的层级数为权重进行加权求和，得到网络拓扑的风险值。

针对除网络拓扑数据之外的每类操作数据执行：将该类操作数据输入至对应的风险值预测模型，得到所述操作数据对应的风险值，其中，各风险值预测模型是根据以下方法训练得到的：

获取各终端的历史操作数据的预测值；

确定所述预测值与真实值之间的差值；

根据所述差值采用基线学习的方法训练风险值预测模型。

可选的，所述方法还包括：

若所述风险评估值大于预设阈值，则采用所述待评价终端的二次评估数据与同类终端的二次评估数据的核密度分布进行比较分析，确定所述待评价终端二次评估数据的离群度；

若所述离群度大于指定离群度，则生成提示信息并发送给风险审核终端。

可选的，二次评估数据包括至少一类，采用所述待评价终端的二次评估数据与同类终端的二次评估数据的核密度分布进行比较分析，确定所述待评价终端二次评估数据的离群度，包括：

分别确定各类二次评估数据在相应的核密度分布中的概率；

将确定的概率的倒数进行加权求和，得到所述离群度。

第二方面本申请实施例提供一种信息安全风险预测装置，所述装置包括：

获取模块，用于获取待评价终端的至少一类操作数据；

数据分析模块，用以对各类操作数据进行分析，确定各类操作数据分别对应的风险值；

确定模块，用于基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布。

可选的，每种用户基本信息分别对应一种核密度分布，所述确定模块，用于针对每类操作数据执行：

可选的，所述装置还包括：核密度分布生成模块用于根据用户基本信息生成核密度分布，针对每种用户基本信息执行：

以该用户基本信息取值中的指定取值区间为基准，统计各指定取值区间对应的人数；并根据各指定取值区间及对应的人数，结合核密度估计算法确定该用户基本信息对应的核密度分布。可选的，所述数据分析模块，用于：

可选的，所述数据分析模块，用于针对除网络拓扑数据之外的每类操作数据执行：

将该类操作数据输入至对应的风险值预测模型，得到所述操作数据对应的风险值，其中，各风险值预测模型是根据以下方法训练得到的：

获取各终端的历史操作数据的预测值；

确定所述预测值与真实值之间的差值；

根据所述差值采用基线学习的方法训练风险值预测模型。

可选的，所述装置还包括：离群度确定模块用于若所述风险评估值大于预设阈值，则采用所述待评价终端的二次评估数据与同类终端的二次评估数据的核密度分布进行比较分析，确定所述待评价终端二次评估数据的离群度；

可选的，二次评估数据包括至少一类，离群度确定模块采用所述待评价终端的二次评估数据与同类终端的二次评估数据的核密度分布进行比较分析，确定所述待评价终端二次评估数据的离群度，用于：

分别确定各类二次评估数据在相应的核密度分布中的概率；

将确定的概率的倒数进行加权求和，得到所述离群度。

第三方面，本发明实施例还提供一种计算设备，包括：

存储器以及处理器；

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序第一方面任一项所述的信息安全风险预测方法。

第四方面，本发明实施例还提供一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本申请实施例中的任一信息安全风险预测方法。

本申请实施例提供的一种信息安全风险预测方法、装置以及计算设备、存储介质，包括：首先获取待评价终端的至少一类操作数据，然后对各类操作数据进行分析，确定各类操作数据分别对应的风险值，最后基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布。通过该方式进行信息安全风险预测，结合了用户的基本信息并基于核密度预测信息安全的风险值，能够有效的进行信息安全风险预测，使得信息安全风险预测的准确度更高。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息安全风险预测方法的流程示意图；

图2为本申请实施例提供的一种网络拓扑图；

图3为本申请实施例提供的基本信息分布直方图；

图4为本申请实施例提供的风险值分布图；

图5为本申请实施例提供的一种风险评估值得校验方法的流程示意图；

图6为本申请实施例提供的信息安全风险预测方法的示意图；

图7为本申请实施例提供的一种信息安全风险预测装置的结构示意图；

图8为本申请实施例提供的计算设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

随着互联网快速发展，机器化办公变得越来越普遍了，生活中很多工作需要通过终端即：电脑完成，通过电脑办公可以提高办公效率，方便用户的生活，然而随之应运而生的是，网络信息的泄露，造成办公信息的泄露，使得公司的机密资料造成泄露。基于此，关于信息安全风险的预测变得至关重要，基于此，本申请提供一种信息安全风险的预测方法。本申请实施例中基于办公信息安全风险的预测为例进行具体说明，但本申请实施例提供的技术方案可适用于办公环境之外的信息安全风险的预测。如基于网站会员的安全风险预测等。

其中，办公信息可包括：各企业的办公信息、学校办公信息、医院办公信息等。

参阅图1，为本申请实施例提供一种信息安全风险的预测方法，包括：

步骤S101：获取待评价终端的至少一类操作数据。

需要说明的是，待评价终端通常是指需要进行信息安全风险预测的终端，如需要对A公司中所有员工的信息安全风险进行预测，那么待评价终端则为A公司所有的员工的办公电脑。

不同用户在通过办公电脑进行办公在访问不同的网址时会留下不同的访问信息，且访问不同的网址具有不同的访问流量信息，不同用户具有不同软件使用习惯、文件使用习惯以及注册表使用习惯等其他的办公习惯信息均可作为信息安全风险预测的操作数据。

步骤S102：对各类操作数据进行分析，确定各类操作数据分别对应的风险值。

步骤S103：基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布。

在步骤S102中进行信息安全风险预测时，针对不同的操作数据需要分别进行数据分析，得到对应的风险值。

在一个实施例中，若操作数据为网络拓扑数据，则按照访问的拓扑逐级生成与各级对应的访问向量，其中，该访问向量中的值为所述待评价终端在相应网络节点的访问时长。将不同时间段的网络拓扑数据中，同一网络层级的向量进行差值计算，并以各网络层级对应的层级数为权重进行加权求和，得到网络拓扑的风险值。

其中，网络拓扑图如图2所示，图中包括用户A以及用户访问的三个服务器分别为S1、S2以及S3，其中，图中某一天用户A访问服务器S1的时长为600s，访问服务器s2的时长为500s，由此得到一个一阶张量[600,500]，通过S1访问S3的时长为100s得到一个二阶的张量[100,0]，第二天得到的一阶张量分别为[400,200]以及二阶张量[0,100]然后全部降维为一个向量，通过│600-400│+2*│100-0│+│500-200│+2*│0-100│进行计算得到风险值。

在一个实施例中，为了能够简单准确的识别各操作数据的风险值，本申请中可针对除网络拓扑数据之外的每类操作数据执行:将该类操作数据输入至对应的风险值预测模型，得到所述操作数据对应的风险值，其中，各风险值预测模型可根据以下方法训练得到:

步骤A1：获取各终端的历史操作数据的预测值。

步骤A2：确定所述预测值与真实值之间的差值。

步骤A3：根据所述差值采用基线学习的方法训练风险值预测模型。

通过网络流量操作数据进行具体说明，将网络流量操作数据输入至网络流量的风险值预测模型，得到网络流量数据对应的风险值，此外，在对网络流量的风险值模型进行训练时，以时间期限为一天为例进行说明还可以根据实际需求设定时间期限问一周，一个月，一小时甚至一整月等在此不做具体的限定，假定日期为2019年7月15日，获取各终端2019年7月15日之前网络流量数据的风险值，并将数据输入至网络流量的风险值预测模型进行数据处理，得到2019年7月15日的网络流量数据预测值，计算预测值和2019年7月15日网络流量数据真实值之间的差值，通过差值并通过基线学习的方法对模型参数进行调整。

通过该方式可以获取不同类别操作数据的各自对应的风险值，准确度高。

在一个实施例中，在步骤S103中，用户的基本信息可包括：工龄信息、性别信息、工作岗位信息等，每种用户的基本信息分别对应一种核密度分布。则所述基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值包括：

针对每类操作数据执行：

针对每种用户基本信息执行：确定该类操作数据的风险值在该用户基本信息的核密度分布中对应的风险值区间；并根据确定的风险值区间确定该风险值在该用户基本信息的核密度分布中的概率值，并确定该概率值的倒数为该类操作数据与该用户基本信息结合得到的风险结合值。

该方式采用区间概率，能够减少计算量，基于一各风险值区间的估计概率得到的风险值，计算简便且能够有效的结合用户基本信息。

在一个实施例中，为了能够得到核密度分布根据用户基本信息生成核密度分布的包括：针对每种用户基本信息执行：以该用户基本信息中的指定取值区间为基准，统计各指定取值区间对应的人数；并根据各指定取值区间及对应的人数，结合核密度估计算法确定该用户基本信息对应的核密度分布。

以基本信息为工龄小于两年的员工为例，操作数据为网络流量数据的风险值为例进行说明，基本信息分布如表1所示，包括工龄小于两年的员工的风险值区间，以及与该风险值区间相对应的工龄小于两年的员工人数，基本信息分布图如图3所示，通过核密度估计算法计算出的风险值分布图，如图4所示，通过将步骤S102中求得用户的风险值与用户基本信息中风险值进行结合计算，确定该用户的风险值概率的倒数为该类操作数据与该用户基本信息结合得到的风险值，如：若某工龄小于两年的员工网络流量操作数据经过数据分析得到风险值为81，可知风险值81落在90-100的风险值区间中，通过核密度估计可以准确的估算出风险值为81的概率值，若概率值为A，则取A的倒数即1/A为工龄信息结合网络流量数据得到的风险结合值。

表1

将对应同一用户基本信息的各类操作数据的风险结合值进行加权求和，将得到的加权求和结果作为该用户基本信息对应的风险值。将各用户基本信息对应的风险值进行加权求和，得到所述待评价终端的风险评估值。

需要说明的是，操作数据包括多类，用户基本信息包括多种，在进行风险评估值计算时具体如下，假定用户基本信息为工龄以及性别两种，操作数据为网络流量数据以及员工拓扑数据两种，那么工龄信息对应的核密度分布假定为C，性别信息对应的核密度分布为D，基于某员工网络流量数据的风险值为A、基于员工拓扑数据的得到的风险值为B，如表2所示，进行加权求和计算得到风险评估值，其中，x、y、k、l、w、s均为权重值，通过将对应的权重值进行加权求和计算得到风险评估值。

表2

通过该方式获取的待评价终端的风险预测值，结合和用户基本信息以及应用和核密度估计方法，该方式提高了信息安全风险预测的准确度。

在一个实施例中，该信息安全风险预测方法，还包括：风险评估值的校验方法，如图5所示，包括：

步骤S501：若所述风险评估值大于预设阈值，则采用所述待评价终端的二次评估数据与同类终端的二次评估数据的核密度分布进行比较分析，确定所述待评价终端二次评估数据的离群度。

步骤S502：若所述离群度大于指定离群度，则生成提示信息并发送给风险审核终端

需要说明的是，拟定预设阈值为A，若风险评估值大于A则需要进行风险评估值的校验，若风险评估值小于A所，则不进行风险评估值的校验，由于风险值小于预设的阈值，在此认定信息安全风险较低，故而不进行校验，述同类终端，可以是指同一工作内容、同一项目组、同岗位类型等的终端。由于同类终端的操作数据基本类似，因此可以通过比较分析相似终端的同类别的操作数据来确定风险评估值的可信度，以研发岗位员工为例进行说明，如：研发人员为高风险评估值的员工，通过上述方法计算出某研发岗位员工B的风险评估值比较高，暂时定为具有信息安全风险的员工，之后将研发岗位的所用的流量数据作为二次评估数据转换成核密度分布，基于流量数据判断员工B与各研发岗位员工间所用流量数据的离群度，离群度越低，则判断员工B与各研发岗位员工的差异越小；员工B信息安全风险越小；离群度越大，则判定员工B与各研发岗位员工的差异越大，员工B信息安全风险越大，会生成提示信息并发送到风险审核终端进行再次审核，以确定员工B的风险评估值的准确性。

此外还要说明的是，二次评估数据包括至少一类，在进行风险评估值校验时，不仅可以选择流量数据还可以选择其他数据作为二次评估数据，且不同部分员工依据不同的二次评估数据进行校验，具体实施时可根据实际情况设定。

在一个实施例中，步骤S501采用所述待评价终端的二次评估数据与同类终端的二次评估数据的核密度分布进行比较分析，确定所述待评价终端二次评估数据的离群度，可包括：

步骤C1：分别确定各类二次评估数据在相应的核密度分布中的概率。

步骤C2：将确定的概率的倒数进行加权求和，得到所述离群度。

例如，基于同岗位的访问流量的核密度分布得到离群度为L1，基于同岗位的登录时间得到的离群度为L2可以对L1和L2进行加权求和确定风险值的可信度，其中，L1为用户在同岗位访问流量核密度分布中概率值的倒数，L2为用户在同岗位登录时间核密度分布中概率值的倒数。

该方式通过利用核密度估计算法获取了待评价终端的风险评估值的可信度，进一步地提高了信息安全风险预测的准确度。

需要说明的是，文中所述的进行加权求和所采用的权重为均为预先通过机器学习方法训练得到的。预先由运营人员标记的数据，即一组特征值，对应的也有标记好这样的行为的得分。训练的时候输入数据为从计算各操作数据得到的风险值，输出就是运营人员标记的风险分值。运营人员给出风险分值的标准是根据风险等级分的，通过该方式训练权重值，可以提高信息安全风险预测的准确度。

在一个实施例中，本申请提供的信息安全风险预测方法的示意图，如图6所示，该图中，仅仅以员工网络拓扑数据以及网络流量操作数据两类操作数据为例进行说明，但在实际应用时并不限定这两类操作数据。本申请实施例中，首先，分别对员工的网络拓扑数据以及网络流量操作数据进行数据分析得到对应的风险值，通过基于HR***中的员工基本信息确定的核密度分布，与这两类操作数据的对应的风险值在综合分析模块进行加权求和计算，得到风险评估值，在二次评估数据模块，对风险评估值较高的数据进行离群度的计算，将离群度高的数据传输到风险审核终端交由专业的风险评估人员进行再次判断。

该方式将用户基本信息与操作数据进行结合对员工的信息安全风险进行评估，且对风险评估值进行二次校验，进一步提高了信息安全风险预测的准确度。

本申请实施例提供一种信息安全风险预测装置，如图7所示，该装置包括：获取模块71、数据分析模块72、以及确定模块73。

获取模块71，用于获取待评价终端的至少一类操作数据。

数据分析模块72，用以对各类操作数据进行分析，确定各类操作数据分别对应的风险值。

确定模块73，用于基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布。

可选的，每种用户基本信息分别对应一种核密度分布，所述确定模块73，用于针对每类操作数据执行：

以该用户基本信息取值中的指定取值区间为基准，统计各指定取值区间对应的人数；并根据各指定取值区间及对应的人数，结合核密度估计算法确定该用户基本信息对应的核密度分布。

可选的，所述数据分析模块72，用于：

可选的，所述数据分析模块72，用于针对除网络拓扑数据之外的每类操作数据执行：

获取各终端的历史操作数据的预测值；

确定所述预测值与真实值之间的差值；

根据所述差值采用基线学习的方法训练风险值预测模型。

分别确定各类二次评估数据在相应的核密度分布中的概率；

将确定的概率的倒数进行加权求和，得到所述离群度。

在介绍了本申请示例性实施方式中的信息安全风险预测方法和装置之后，接下来，介绍本申请的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为***、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

在一些可能的实施方式中，根据本申请的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的信息安全风险预测方法中的步骤。例如，处理器可以执行如图1中所示的步骤S101-步骤S103。

下面参照图8来描述根据本申请的这种实施方式的计算设备130。图7显示的计算设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算设备130以通用计算装置的形式表现。计算设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同***组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，和/或与使得该计算设备130能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，计算设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于计算设备130的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

在一些可能的实施方式中，本申请提供的智能终端的控制方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的信息安全风险预测方法中的步骤，例如，计算机设备可以执行如图1中所示的步骤S101-步骤S103。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于智能终端的控制的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在目标对象计算装置上执行、部分地在目标对象设备上执行、作为一个独立的软件包执行、部分在目标对象计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到目标对象计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种信息安全风险预测方法，其特征在于，所述方法包括：

获取待评价终端的至少一类操作数据；

基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布；

其中，根据多用户基本信息生成核密度分布，包括：

2.根据权利要求1所述的方法，其特征在于，每种用户基本信息分别对应一种核密度分布，所述基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，包括：

针对每类操作数据执行：

3.根据权利要求1所述的方法，其特征在于，对各类操作数据进行分析，确定各类操作数据分别对应的风险值，包括：

4.根据权利要求2所述的方法，其特征在于，对各类操作数据进行分析，确定各类操作数据分别对应的风险值，包括：

获取各终端的历史操作数据的预测值；

确定所述预测值与真实值之间的差值；

根据所述差值采用基线学习的方法训练风险值预测模型。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，二次评估数据包括至少一类，采用所述待评价终端的二次评估数据与同类终端的二次评估数据的核密度分布进行比较分析，确定所述待评价终端二次评估数据的离群度，包括：

分别确定各类二次评估数据在相应的核密度分布中的概率；

将确定的概率的倒数进行加权求和，得到所述离群度。

7.一种信息安全风险预测装置，其特征在于，所述装置包括：

获取模块，用于获取待评价终端的至少一类操作数据；

确定模块，用于基于预先确定的核密度分布和各类操作数据的风险值，确定所述待评价终端的风险评估值，其中，所述核密度分布是预先根据多用户基本信息生成的，且所述核密度分布用于表示基于用户基本信息的风险值的概率分布；

其中，所述装置还包括，核密度分布生成模块，用于针对所述多用户基本信息中的每种用户基本信息执行：以该用户基本信息取值中的指定取值区间为基准，统计各指定取值区间对应的人数；并根据各指定取值区间及对应的人数，结合核密度估计算法确定该用户基本信息对应的核密度分布。

8.一种计算设备，其特征在于，包括：存储器以及处理器；

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1-6任一项所述的方法。

9.一种计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1-6中任一权利要求所述的方法。