CN110458425A

CN110458425A - 风险主体的风险分析方法、装置、可读介质及电子设备

Info

Publication number: CN110458425A
Application number: CN201910678071.XA
Authority: CN
Inventors: 黄权军; 刘瑞展; 章书; 李乐乐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-15

Abstract

本申请实施例是关于一种风险主体的风险分析方法、装置、可读介质及电子设备，属于互联网技术领域，该方法包括：获取处于预定区域内的风险主体的相关信息；将风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数；根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级；根据所述风险指数等级，以基于所述风险指数等级对所述风险主体进行风险分析。本申请实施例的技术方案通过对风险主体基于风险情况进行细分，确保风险分析的细致性和高效性。

Description

风险主体的风险分析方法、装置、可读介质及电子设备

技术领域

本申请涉及互联网技术领域，具体而言，涉及一种风险主体的风险分析方法、装置、可读介质及电子设备。

背景技术

风险主体(如企业等)在进行风险分析时，通常会直接对大量的风险进行风险分析。目前，在进行风险主体的风险分析时，通过直接全部分析全部风险主体虽然可以在一定程度上保证风险分析全面性，但是对于每个风险主体的风险程度不能够清楚预判，导致风险分析时不够细化，不能够根据风险主体的情况针对性分析，分析效率低。

发明内容

本申请实施例的目的在于提供一种风险主体的风险分析方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以确保风险分析的细致性和高效性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种风险主体的风险分析方法，包括：获取处于预定区域内的风险主体的相关信息；将所述风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数；根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级，以基于所述风险指数等级对所述风险主体进行风险分析。

根据本申请实施例的一个方面，提供了一种风险主体的风险分析装置，包括：获取模块，用于获取处于预定区域内的风险主体的相关信息；预测模块，用于将所述风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数；分析模块，用于根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级，以基于所述风险指数等级对所述风险主体进行风险分析。

在本申请的一些实施例中，基于前述方案，所述分析模块用于，根据所述风险指数等级，从所述多个类中的至少一个类中分别抽取相应数量的风险主体，以作为抽样出的风险主体；基于所述抽样出的风险主体进行风险分析。

在本申请的一些实施例中，基于前述方案，所述分析模块用于，获取各个所述风险指数等级分别对应的抽样概率；按照各个所述风险指数等级分别对应的抽样概率，从至少一个类中分别抽取相应数量的风险主体。

在本申请的一些实施例中，基于前述方案，所述分析模块用于，按照各个所述风险指数等级分别对应的抽样概率，计算所述各个类分别对应的抽样数量；根据所述各个类分别对应的抽样数量，从至少一个类中分别随机抽取相应数量的风险主体；或根据所述各个类分别对应的抽样数量，按照风险指数由高到低的顺序从至少一个类中获取相应数量的风险主体。

在本申请的一些实施例中，基于前述方案，所述获取模块用于，采集处于所述预定区域内的风险主体的风险分析数据；将所述风险分析数据中包含的各个属性的数据归一化为风险指向信息，所述风险指向信息用于表示所述每个属性的数据是否异常的信息；根据所述风险指向信息生成所述风险主体的相关信息。

在本申请的一些实施例中，基于前述方案，所述获取模块用于，获取处于所述预定区域的风险主体在预定时间段内的相关信息。

在本申请的一些实施例中，基于前述方案，所述的风险主体的风险分析装置还包括：训练模块，用于获取风险主体的样本训练集，所述样本训练集中的每个训练样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；将所述样本训练集中的训练样本输入所述风险指数计算模型中对所述风险指数计算模型进行训练，以使所述风险指数计算模型输出的各个训练样本的风险指数与所述各个训练样本包含的风险指数之间的差值小于预定阈值。

在本申请的一些实施例中，基于前述方案，所述的风险主体的风险分析装置还包括：测试模块，用于获取风险主体的样本测试集，所述样本测试集中的每个测试样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；将所述样本测试集中的测试样本输入训练后的所述风险指数计算模型中对所述风险指数计算模型进行测试，其中，若训练后的所述风险指数计算模型输出的各个测试样本的风险指数与所述各个测试样本包含的风险指数之间的差值小于预定阈值，则确定训练后的所述风险指数计算模型测试合格。

在本申请的一些实施例中，基于前述方案，所述分析模块用于，根据所述每个风险主体的风险指数所处的风险指数区间，将处于同一风险指数区间的风险主体划分为同一类，以得到所述多个类。

在本申请的一些实施例中，基于前述方案，所述分析模块还用于，根据每个风险主体的风险指数生成风险主体列表，每个风险主体列表对应于一个风险指数等级。

在本申请的一些实施例中，基于前述方案，所述风险指数计算模型包括XGBoost算法模型。

所述训练模块，还用于获取风险主体的样本训练集，所述样本训练集中的每个训练样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；

将所述训练样本的特征向量输入XGBoost算法的目标函数，得到所述目标函数计算的第一损失值，所述目标函数中添加了第一回归树函数；

根据所述第一损失值，依次为所述XGBoost算法的目标函数添加第二回归树函数，直到所述第一回归树函数计算的预测风险指数及所有所述第二回归树函数计算的预测风险指数之和与所述风险主体标定的风险指数的差值小于预定阈值，其中，所述预测风险指数之和为XGBoost算法模型预测的所述风险主体的风险指数。

在本申请的一些实施例中，基于前述方案，所述相关信息包括以下任一或多个的组合：主体舆情信息、主体经营信息、主体网络平台信息及主体影响力信息；其中，所述主体舆情信息用于表示风险主体的舆情信息，所述主体经营信息用于表示风险主体的经营活动所产生的相关信息，所述主体网络平台信息用于表示风险主体关联的网络平台的相关信息，所述主体影响力信息用于表示风险主体关联的人群的相关信息。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述实施例中所述的风险主体的风险分析方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的计算机程序；其中，所述处理器配置为经由执行所述计算机程序来执行如上述实施例中所述的风险主体的风险分析方法。

在本申请的一些实施例所提供的技术方案中，通过风险指数计算模型计算预定区域内的风险主体的风险指数，并将风险主体根据每个风险主体的风险指数划分为多个类，然后基于各个类对应的风险指数等级对风险主体进行风险分析，可以根据每个风险主体的风险情况针对性进行监控，确保风险分析的细致性和高效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的风险主体的风险分析方法或风险主体的风险分析装置的示例性***架构的示意图。

图2示意性示出了根据本申请的一个实施例的风险主体的风险分析方法的流程图。

图3示意性示出了根据本申请的一个实施例的风险指数计算模型的训练流程图。

图4示意性示出了根据本申请的一个实施例的风险主体的风险分析方法的流程图。

图5示意性示出了根据本申请的一个实施例的风险主体的风险分析方法的流程图。

图6示意性示出了根据本申请的一个实施例的风险主体的风险分析方法的流程图。

图7示出了应用于本申请实施例的风险主体的风险分析方法的终端界面的示意图。

图8示意性示出了根据本申请的一个实施例的风险主体的风险分析装置的框图。

图9示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的风险主体的风险分析方法或风险主体的风险分析装置的示例性***架构100的示意图。

如图1所示，***架构100可以包括终端设备101，网络102，服务器103和服务器104。网络102用以在终端设备101、服务器103和服务器104之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器103和服务器104可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101通过网络102与服务器103和服务器104交互，以接收或发送消息等。终端设备101可以为任一具有计算机处理能力的终端，包括但不限于：服务器、个人终端(如手机、电脑)等等。

在本申请的一个具体应用场景中，用户可以使用终端设备101通过网络102向服务器103或服务器104发送获取处于预定区域内的风险主体的相关信息的请求，与服务器103或服务器104建立数据获取协议，以确保可以从服务器103或服务器104获取到预定区域内的风险主体的相关信息。

在本申请的一个实施例中，终端设备(如终端设备101)在获取到处于预定区域内的风险主体的相关信息之后，可以将风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数。然后根据每个风险主体的风险指数，将处于该预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级，以基于所述风险指数等级对所述风险主体进行风险分析。

在本申请一个实施例中，终端设备(如终端设备101)在将风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数之后，根据每个风险主体的风险指数生成风险主体列表，每个风险主体列表对应于一个风险指数等级。

在本申请一个实施例中，终端设备(如终端设备101)可以对风险指数计算模型进行训练，具体地，终端设备可以获取风险主体的样本训练集，样本训练集中的每个训练样本包含有风险主体的相关信息及针对风险主体标定的风险指数；将样本训练集中的训练样本输入风险指数计算模型中对风险指数计算模型进行训练，以使风险指数计算模型输出的各个训练样本的风险指数与各个训练样本包含的风险指数之间的差值小于预定阈值。

在本申请一个实施例中，终端设备(如终端设备101)对风险指数计算模型训练之后，还可以对风险指数计算模型进行测试，具体地，终端设备可以获取风险主体的样本测试集，该样本测试集中的每个测试样本包含有风险主体的相关信息及针对风险主体标定的风险指数；将样本测试集中的测试样本输入训练后的风险指数计算模型中对风险指数计算模型进行测试，其中，若训练后的风险指数计算模型输出的各个测试样本的风险指数与各个测试样本包含的风险指数之间的差值小于预定阈值，则确定训练后的风险指数计算模型测试合格。

需要说明的是，本申请实施例所提供的风险主体的风险分析方法可以由终端设备执行，相应地，风险主体的风险分析装置一般设置于终端设备中。但是，在本申请的其它实施例中，服务器也可以与终端设备具有相似的功能，从而执行本申请实施例所提供的风险主体的风险分析方案。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本申请的一个实施例的风险主体的风险分析方法的流程图，该风险主体的风险分析方法的执行主体可以是具有计算处理功能的设备，比如可以由图1中所示的终端设备101来执行。如图2所示，该风险主体的风险分析方法至少包括步骤S210至步骤S230，详细介绍如下：

在步骤S210中，获取处于预定区域内的风险主体的相关信息。

在本申请的一个实施例中，风险主体可以是市场中各种类型的进行生产经营活动的企业，如公司、事业单位及学校等。预定区域可以指处于同一个监管区域(如市区、街区等)或者根据监管需求划定的区域等，在此不做特殊限定。风险主体的相关信息可以是任意与风险主体相关的信息，如风险主体生产经营活动中公开在互联网上的信息。

获取处于预定区域内的风险主体的相关信息的方法可以是通过关键词从互联网上通过关键词进行爬取，也可以是通过预先建立的合作渠道的数据库中爬取，在此不做特殊限定。

由于本申请实施例的技术方案是通过利用风险主体的相关信息对风险主体的风险指数进行计算后，基于风险指数将风险主体进行分类后，从不同的类中分别进行抽样风险主体，因此为了保证风险主体的相关信息获取方便性，获取的风险主体相关信息的全面性，以及保证利用风险主体相关信息进行计算分析的效率，本申请实施例中可以通过如下方式获取风险主体的相关信息：

在本申请的一个实施例中，获取处于预定区域内的风险主体的相关信息的过程，可以包括：

采集处于所述预定区域内的风险主体的风险分析数据；

将所述风险分析数据中包含的各个属性的数据归一化为风险指向信息，所述风险指向信息用于表示所述每个属性的数据是否异常的信息；

根据所述风险指向信息生成所述风险主体的相关信息。

在本实施例中，风险分析数据是从互联网采集的风险主体相关的信息的所有源数据，可以保证相关信息的全面性。风险分析数据包括多种属性的数据，其中，多种属性如网络负面舆情详情、经营异常情况等。将采集的各个属性的数据通过众包或专家标注样本的方式进行处理可以归一化为风险指向信息，其中，风险指向信息可以是表示所述每个属性的数据是否异常的预定形式的标签、字符串等信息，通过归一化处理可以有效降低数据量级，在保证信息全面性的基础上提高利用风险主体相关信息进行计算分析的效率。将风险指向信息可以通过依次串联或者存储为信息表的方式生成风险主体的相关信息。

在本申请的一个实施例中，可以获取处于预定区域内的风险主体在预定时间段内的相关信息。

在本实施例中，预定时间段可以是从采集风险主体相关信息的时刻点开始到之前某个时刻点的时间段，也可以是某个年份或者月份的时间段。通过获取预定时间段内的相关信息可以保证信息采集的效率。

需要说明的是，在本申请的实施例中，上述实施例的技术方案可以结合在一起实施。比如可以采集处于预定区域内的风险主体在预定时间段内的风险分析数据，然后将采集到的风险分析数据中包含的各个属性的数据归一化为风险指向信息，然后根据该风险指向信息生成风险主体的相关信息。

继续参照图2所示，在步骤S220中，将所述风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数。

在本申请的一个实施例中，风险指数计算模型是预先根据大量样本训练得到的精确性达到预定要求的机器学习模型，可以对风险主体的相关信息进行计算分析输出相应的风险指数。风险指数是根据每个风险主体关联的生产经营活动等风险相关的信息评价出的风险分数，该风险指数越高，风险主体的问题越多，市场经营情况越不好，即风险主体的风险越高。

由于本申请实施例的技术方案是通过利用风险指数计算模型对风险主体的风险指数进行计算。本申请实施例中还提出了对风险指数计算模型进行训练的方案，具体如图3所示，包括如下步骤：

步骤S310，获取风险主体的样本训练集，所述样本训练集中的每个训练样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；

步骤S320，将所述样本训练集中的训练样本输入所述风险指数计算模型中对所述风险指数计算模型进行训练，以使所述风险指数计算模型输出的各个训练样本的风险指数与所述各个训练样本包含的风险指数之间的差值小于预定阈值。

在本申请的一个实施例中，可以通过字典表或键值对列表设定风险指数计算模型过程中的各类参数。如，当存在训练样本输入所述风险指数计算模型中对所述风险指数计算模型进行训练时，风险指数计算模型输出的训练样本的风险指数与所述训练样本包含的风险指数之间的差值大于预定阈值，则可以通过字典表或键值对列表调整风险指数计算模型的树的个数等参数，以使得风险指数计算模型输出的训练样本的风险指数与所述训练样本包含的风险指数之间的差值小于预定阈值。其中，风险主体标定的风险指数可以由专家进行标定，有效保证模型的训练效果。

在本申请的一个实施例中，在对风险指数计算模型进行训练之后，为了测试训练后的风险指数计算模型的效果，还可以对风险指数计算模型进行测试，具体过程如下：获取风险主体的样本测试集，所述样本测试集中的每个测试样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；

将所述样本测试集中的测试样本输入训练后的所述风险指数计算模型中对所述风险指数计算模型进行测试，其中，若训练后的所述风险指数计算模型输出的各个测试样本的风险指数与所述各个测试样本包含的风险指数之间的差值小于预定阈值，则确定训练后的所述风险指数计算模型测试合格。

在上述实施例的技术方案中，可以通过风险主体的样本测试集测试训练后的风险指数计算模型的实用性。其中当确定训练后的风险指数计算模型测试合格说明实用性良好，相反，当训练后的风险指数计算模型测试不合格，则可以调整训练样本后重新对风险指数计算模型进行训练。

继续参照图2所示，在步骤S230中，根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级；或根据所述各个类分别对应的抽样数量，按照风险指数由高到低的顺序从至少一个类中获取相应数量的风险主体。

在本申请的一个实施例中，多个类可以是风险主体的多个风险类型，如高风险主体、低风险主体等。风险指数等级可以是不同的风险指数区间。风险指数可以表征每个风险主体的风险情况，进而可以将风险指数属于同一个风险指数等级的风险主体划分为同一类。风险分析可以是风险主体抽样监管或者风险主体情况统计等。通过划分不同的风险指数等级，可以准确地将风险主体划分为多个类，将风险主体根据风险程度准确的细分。进而，可以基于细分后的风险主体进行有针对性的细致监控，有效提高监控效率。

由于本申请实施例的技术方案是根据每个风险主体的风险指数，将处于预定区域内的风险主体划分为多个类。为了保证风险主体划分为多个类的灵活性和效率，步骤S230中根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类的过程，包括：

根据所述每个风险主体的风险指数所处的风险指数区间，将处于同一风险指数区间的风险主体划分为同一类，以得到所述多个类。

风险指数区间为预先设定的指数区间。例如当风险指数为0-100分的分数，可以将预定区域内的风险主体中，风险指数为90-100分的风险主体划分为第一类，风险指数为60-89分的风险主体划分为第二类，风险指数0-60分的风险主体划分为第三类。

由于本申请实施例的技术方案是基于所述风险指数等级对所述风险主体进行风险分析，下面描述如何基于风险指数等级对所述风险主体进行风险分析，如图4所示，步骤S230中基于所述风险指数等级对所述风险主体进行风险分析的过程，包括如下步骤：

步骤S420，根据所述风险指数等级，从所述多个类中的至少一个类中分别抽取相应数量的风险主体，以作为抽样出的风险主体；

步骤S420，基于所述抽样出的风险主体进行风险分析。

在本申请的一个实施例中，每个风险指数等级对应的类可以包含至少一个风险主体，同时不同的风险指数等级对应的类中的风险主体风险情况不同。风险指数等级越高的类中风险主体的风险越高。从多个类中的至少一个类中分别抽取相应数量的风险主体，可以使得抽样出的风险主体可以从整体上精准代表预定区域内的风险主体，进而保证风险主体监管的精确性，有效提升风险主体监管效率。其中，相应数量可以根据需求预先设定，例如设定高风险指数等级的抽取数量比低风险指数等级的抽取数量多。可以理解，至少一个类中分别抽取可以是从多个类中每个类分别抽取；也可以是从多个类中的部分类中进行分别抽取，例如，不从低风险指数等级的类中抽取风险主体。

在本申请的一个实施例中，根据风险指数等级，从多个类中的至少一个类中分别抽取相应数量的风险主体的过程，包括：

获取各个所述风险指数等级分别对应的抽样概率；

按照各个所述风险指数等级分别对应的抽样概率，从至少一个类中分别抽取相应数量的风险主体。

各个风险指数等级分别对应的抽样概率，例如，风险指数等级为90-100分：抽样概率为80％；风险指数等级为60-89分：抽样概率为50％；风险指数等级0-60分：抽样概率为5％。抽样概率可以基于预先设定的风险指数等级关联的抽样概率获取，也可以由用户根据实际情况灵活设定，例如由政府部门根据执法队伍情况、企业数量、任务复杂度进行灵活设定。由此，根据各个所述风险指数等级分别对应的抽样概率，可以灵活地在抽样时获取相应数量。

基于上述实施例的技术方案是按照各个所述风险指数等级分别对应的抽样概率，从至少一个类中分别抽取相应数量的风险主体。本申请的实施例中还提出了如何根据抽样概率来抽取相应数量的风险主体的方案，具体如下：

在本申请的一个实施例中，按照各个所述风险指数等级分别对应的抽样概率，从至少一个类中分别抽取相应数量的风险主体，包括：

按照各个所述风险指数等级分别对应的抽样概率，计算所述各个类分别对应的抽样数量；

根据所述各个类分别对应的抽样数量，从至少一个类中分别随机抽取相应数量的风险主体或按照风险指数由高到低的顺序从至少一个类中获取相应数量的风险主体。

在本实施例中，按照各个风险指数等级分别对应的抽样概率和对应的风险主体的总个数，可以计算得到各个类分别对应的抽样数量。通过随机抽取的方式可以有效保证抽样的随机性。

按照风险指数由高到低的顺序从至少一个类中获取相应数量的风险主体，例如某个类中包括风险主体A、B、C、D，对应的风险指数依次为99、96、95、90，该类计算得到的相应数量为3，则抽取3个风险指数为99、96、95的风险主体A、B、C。这样可以保证抽取每个类中最高风险的多个风险主体，保证风险主体抽取的可靠性。

前述实施例的技术方案使得能够通过风险指数计算模型根据风险主体的相关信息精确地获得相应的风险指数，然后根据风险指数将所有预定区域的风险主体细分为多个类，然后从多个类中的至少一个类中分别抽取相应数量的风险主体，使得抽取出的风险主体可以精准代表预定区域内的风险主体，进而保证风险主体监管的精确性，有效提升风险主体监管效率。

在本申请的一个实施例中，基于所述风险指数等级对所述风险主体进行风险分析的过程，还可以：

根据所述风险指数等级，从所述多个类中的至少一个类中获取目标属性的风险主体；

基于所述目标属性的风险主体对应的类，生成所述对应的类的目标属性风险主体列表。

目标属性例如风险企业所有属性的服装销售企业、互联网企业等。从一个类中获取目标属性的风险主体，可以通过风险指数与风险主体标识关联后，生成每个类中目标属性的风险主体的列表，可以清楚的分析出目标属性企业的风险分布情况。

根据所述风险指数等级，为目标类设置相应的监控指标；

根据所述目标类相应的所述监控指标，定时获取所述类中风险主体的相应监控指标的数据。

监控指标就是例如销售量、纳税额、举报信息等。目标类可以是风险指数等级最高的类，也可以是风险指数等级高于预定阈值的类。风险指数等级越高的类设置的监控指标也越多。根据目标类的监控指标，定期获取风险主体的相应指标的数据，通过这些数据可以持续精准分析风险主体的情况。其中，定期可以是1月/次，或者1天/次等。

在本申请的一个实施例中，还可以

根据每个风险主体的风险指数生成风险主体列表，每个风险主体列表对应于一个风险指数等级。

风险主体列表是存储有每个风险主体信息(如名称、邮箱信息等)及对应的风险指数的列表。预先设立多个不同风险指数等级的列表，将风险主体信息对应存储到相应风险指数等级的列表就可以生成风险主体列表，便于风险主体信息的细分管理。

在本申请的一个实施例中，风险指数计算模型包括XGBoost算法模型。

XGBoost算法模型的训练方法包括：

获取风险主体的样本训练集，所述样本训练集中的每个训练样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；

在本申请的一个实施例中，XGBoost算法(Extreme Gradient Boosting)是GBDT的一种高效实现，它提供了一个梯度提高框架，它的目的在于提供一个“可扩展的、便携式和可分布的梯度提高库”。XGBoost使用提升树模型，对风险主体的风险指数计算场景具有良好的适应性，可以提供更好的拟合结果，形成精准的风险指数。

XGBoost算法模型包括多个优化后的回归树，每个回归树包括多个叶子结点，每个叶子结点对应一个指数。将风险主体的风险信息的特征向量输入XGBoost算法模型后，每个回归树根据输入的特征通过遍历特征切分点(例如当一个特征向量小于A划分到左子树，当大于A时划分到右子树)将风险主体划分到一个叶子结点。这样可以得到每个回归树上风险主体对应的叶子结点对应的指数，所有叶子结点的指数之和就是XGBoost算法模型预测的风险主体的风险指数。

目标函数是XGBoost算法中表示回归树结构良好程度，模型效果的函数。目标函数的值越小，回归树结构越好，模型的预测效果越好。

目标函数为：

该目标函数由两部分构成，第一部分用来衡量预测指数和真实指数的差距，其中，i表示第i个样本，y_i为每个训练样本标定的风险指数，为每个训练样本的预测风险指数，表示第i个样本的预测误差(如平方差误差)。

第二部分则是正则化项。正则化项同样包含两部分，T表示叶子结点的个数，w表示叶子节点的指数。γ可以控制叶子结点的个数，λ可以控制叶子节点的分数不会过大，防止过拟合，所有的参数可以通过映射表进行添加。

目标函数中预测风险指数计算函数其中，F代表所有可能的回归树(回归树函数)，f_k(x_i)代表回归树函数。当k＝1时，添加了第一个回归树(第一回归树函数)；k＝n时，代表目标函数中一共添加了n个回归树。

其中，f_k(x_i)＝wq(x),w∈R^T,q:R^d-＞{1,2,...,T}表示所有回归树的集合，一棵回归树有T个叶子节点，这T个叶子节点的值组成了一个T维向量w，q(x)是一个映射，用来将风险主体训练样本映射成1到T的某个值，也就是把风险主体划分到某个叶子节点，q(x)其实就代表了CART树的结构。wq(x)就是其中一棵回归树对样本x的预测值(风险主体划分到某个叶子节点的指数)。

回归树f_k(x_i)添加的过程即目标函数的加法训练过程，通过将训练样本的特征向量输入添加第一回归树函数的XGBoost算法的目标函数，得到所述目标函数计算的第一损失值，同时可以得到第一回归树函数计算到的训练样本的第一预测风险指数；然后依次添加第二回归树函数，每个第二回归树为不同的回归树。每一颗回归树与之前的所有回归树的训练和预测相关。

根据第一损失值添加回归树函数时，需要保证在之前已经添加的所有回归树函数基础上，之后添加的每颗回归树使得目标函数的值最小。当所有回归树函数计算得到的预测风险指数的和小于预定阈值则确定添加的回归树(回归树函数)一共有k个。每添加一个回归树函数在之前的基础上XGBoost算法的目标函数会根据之前的结果自动重新优化参数，得到目标函数最小的XGBoost提升树模型，进而实现梯度优化的XGBoost算法模型，可以保证风险指数预测的精准性。

基于前述实施例的技术方案，在本申请的一个实施例中，所述相关信息包括以下任一或多个的组合：主体舆情信息、主体经营信息、主体网络平台信息及主体影响力信息；

其中，所述主体舆情信息用于表示风险主体的舆情信息，所述主体经营信息用于表示风险主体的经营活动所产生的相关信息，所述主体网络平台信息用于表示风险主体关联的网络平台的相关信息，所述主体影响力信息用于表示风险主体关联的人群的相关信息。

在本申请的一个实施例中，主体舆情信息可以至少包括：网络负面舆情详情：负面舆情的具体信息；网络负面舆情热度：根据网络传播范围和持续时间；用户投诉举报：通过投诉举报小程序、公众号举报中心、等数据源中的企业投诉举报信息。主体经营信息可以至少包括：经营异常情况：互联网公开的经营异常信息；异常抽查记录：互联网公开的异常抽查结果和记录；纳税等级：互联网公开的纳税登记信息；行政处罚情况：互联网公开的行政处罚信息；被执行人记录：互联网公开的企业管理层被执行记录信息；欠税记录：互联网公开的欠税、偷税、逃税信息；招聘情况：互联网上开展人才招聘的信息。主体网络平台信息可以至少包括：网址IP情况：主体网址对应的IP信息与黑产(黑产是指以互联网为媒介，以网络技术为主要手段，为计算机信息***安全和网络空间管理秩序等带来潜在威胁的非法行为)IP对应关系；客服QQ、公众号、电话风险信息：虚假宣传、虚假广告；主体邮箱风险：主体所使用的邮箱是否涉嫌虚假宣传、虚假广告；网页内容真实度：主体经营活动网页内容真实性、合法性信息；网页内容是否违规宣传：企业经营活动的网页是否违规信息；存活情况：公众号、百家号、网页活跃情况信息及流量信息。主体影响力信息至少包括：主体所属行业的影响力；企业影响范围(如关联人群分布地域)、人数情况；网络关注情况；客服热度变化情况(如网络服务热度评价)。

这些信息来源于互联网大数据资源具有海量、真实、易于获取的特征，可以不依赖于信息获取过程中多方协调和信息共享，在现实工作中获取切实可行、效率高。在进行企业相关信息获取时，可以快速、全面获取互联网大数据资源，保证覆盖大型、中型、小微企业。

以下以一种应用场景下企业抽样***对企业抽样为例，对本申请实施例的技术方案进行详细阐述。

企业抽样指：在日常监管抽查工作中，通过随机抽取检查对象，随机选派执法检查人员，抽查情况及查处结果及时向社会公开，保证监管工作公平、公开的进行。为了保证监管的精准性和提升监管效率构建企业抽样***，用于企业抽样，基于抽样出的企业实现企业精准监管。

相关方法中，企业抽样过程中的随机抽取检查对象是其中的重点，由于在监管工作中要么使用数学意义上的真正随机、要么依赖于社会公共信用体系来调整随机概率，力争实现精准监管、提升监管效率。但是社会公共信用体系采集的数据因为协调难度大、时效性较低、覆盖范围主要集中于大中型企业，对目前网络经济、共享经济蓬勃发展，中小企业数量剧增的情况适应性差。

如图5所示，在进行企业抽样时，首先采集数据源，即从互联网采集预定区域的企业的相关信息，包括企业舆情信息、企业经营信息、企业网络平台信息、企业影响力信息。

然后，由XGBoost算法模型计算：通过对上述预定区域的企业的相关信息进行计算，该部分中可以包括XGBoost算法模型训练，XGBoost算法模型测试验证，获得测试验证合格的XGBoost算法模型，由测试合格的XGBoost算法模型预测的步骤，最终计算生成企业的风险指数。

最后，企业抽样***中：可以生成企业的风险指数列表，将企业风险指数列表中风险指数高的作为企业抽样的高概率抽检列表(如企业风险指数为80-100分的企业列表)，低风险企业列表作为低概率抽检列表(如企业风险指数为0-79分的企业列表)。进而可以从不同的列表中抽取相应数量的企业。

图5所示的技术方案，通过对企业在互联网端的舆情、经营、网络平台、影响力等信息进行采集，可以快速、有效覆盖各类企业的风险信息，通过XGBoost算法对上述数据进行计算得出企业风险指数，该指数可以作为依据对预定地区企业随机抽取监管对象的概率进行细化，提高风险指数高的企业的抽取概率、降低风险指数低的企业抽取概率，从而实现精准监管、提升监管效率。

下面对图5所示的应用场景中XGBoost算法模型计算风险指数进行详细阐述。

如图6所示，XGBoost算法模型参数设定可以包括：通过字典表或键值对列表设定机器学习算法过程中的各类参数(如特征树的个数、树的特征数目等)。

XGBoost算法模型训练可以包括：通过获取企业的样本训练集，所述样本训练集中的每个训练样本包含有企业的相关信息及专家针对所述企业标定的风险指数；将所述样本训练集中的训练样本输入所述风险指数计算模型中对所述风险指数计算模型进行训练，通过调整参数，以使所述风险指数计算模型输出的各个训练样本的风险指数与所述各个训练样本包含的风险指数之间的差值小于预定阈值。然后，获取企业的样本测试集，所述样本测试集中的每个测试样本包含有企业的相关信息及专家针对所述企业标定的风险指数；将所述样本测试集中的测试样本输入训练后的所述风险指数计算模型中对所述风险指数计算模型进行测试，其中，若训练后的所述风险指数计算模型输出的各个测试样本的风险指数与所述各个测试样本包含的风险指数之间的差值小于预定阈值，则确定训练后的所述风险指数计算模型测试合格。其中，通过专家标注方式可以提升训练效果。

例如，对于一个企业的样本[相关信息特征向量->风险指数]是[(5，4，23，6)->100]，输入XGBoost算法模型其中参数T表示叶子结点的个数，w表示叶子节点的指数，γ可以控制叶子结点的个数，λ可以控制叶子节点的分数不会过大，防止过拟合，所有的参数可以通过映射表进行添加。y_i为该样本标定的风险指数为100，为风险预测模型中回归树对样本的预测风险指数。此时，添加第一棵回归树第一棵回归树对这个样本训练得预测风险指数为40，则得到第一棵回归树的预测风险指数与标定风险指数差为60。然后添加第二棵回归树那么第二棵回归树训练时的输入，该样本就变成了[(5，4，23，6)->60]，也就是说，下一棵回归树树输入样本会与前面决策树的训练和预测相关，如果第二棵回归树的预测值为30，此时该样本的预测风险指数其中，每颗在后的回归树在添加时，要保证在之前所有的回归树的基础上使得XGBoost算法模型函数值最小l^(t)，保证模型效果。迭代添加回归树，直到当XGBoost算法模型中差值小于预定阈值(如99.95-100>-0.1)，该样本的模型训练结束。

XGBoost算法模型应用可以包括：在模型训练后输出合格的XGBoost算法模型，用于计算企业风险指数。

XGBoost算法模型预测可以包括：根据XGBoost算法模型，对预定辖区内所有企业的相关信息进行风险指数计算，得到每个企业的风险指数，其中每个企业可以具有0-100的风险指数，指数越高、风险程度越高。

图6所示的技术方案，输入数据(如训练样本数据)后，通过调整参数，训练XGBoost算法模型得到训练好的XGBoost算法模型，通过训练好的XGBoost算法模型对输入数据(如企业相关信息)计算得到企业的风险指数，可以获得企业精准的风险指数。

如图7所示，本示例的实施方式中，终端界面上包括抽查对象范围设定区域，可以设定抽查企业所属的区域(如图2所示的预定区域)为全市企业；抽查类型选定区域，通过选定“定向”类型，即选定了通过图2所示的风险主体的风险分析方法进行企业风险分析；定向范畴区域包括：高风险企业(如风险指数为90-100分的企业)、中等风险企业(如风险指数为60-89分的企业)及低风险企业(如风险指数为0-59分的企业)，通过选定高风险企业，即可以从风险指数等级为高级的企业中抽取相应数量的企业；抽查比例设定区域，可以为选定的高风险企业设定抽样概率，当设定抽样概率为80％时，即可以从分类为高风险企业中抽取其中80％的企业，作为抽样出的企业。其中，还包括开始时间及结束时间设定区域，可以设定企业相关信息采集的时间段，实现获取处于预定区域的企业在预定时间段内的相关信息。图7所示的界面中，通过点击保存计划，即可以从全市企业中的高风险企业中抽取80％的企业。

如图8所示，根据本申请的一个实施例的风险主体的风险分析装置800，包括：获取模块810、预测模块820及分析模块830。

其中，获取模块810用于获取处于预定区域内的风险主体的相关信息；预测模块820用于将所述风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数；分析模块830用于根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级，以基于所述风险指数等级对所述风险主体进行风险分析。

在本申请的一些实施例中，基于前述方案，所述分析模块用于，

根据所述风险指数等级，从所述多个类中的至少一个类中分别抽取相应数量的风险主体，以作为抽样出的风险主体；

基于所述抽样出的风险主体进行风险分析。

在本申请的一些实施例中，基于前述方案，所述分析模块用于，根据每个风险主体的风险指数生成风险主体列表，每个风险主体列表对应于一个风险指数等级。

所述训练模块，用于获取风险主体的样本训练集，所述样本训练集中的每个训练样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

需要说明的是，图9示出的电子设备的计算机***900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机***900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有***操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种风险主体的风险分析方法，其特征在于，包括：

获取处于预定区域内的风险主体的相关信息；

将所述风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数；

根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级，以基于所述风险指数等级对所述风险主体进行风险分析。

2.根据权利要求1所述的方法，其特征在于，所述基于所述风险指数等级对所述风险主体进行风险分析，包括：

基于所述抽样出的风险主体进行风险分析。

3.根据权利要求2所述的方法，其特征在于，所述根据所述风险指数等级，从所述多个类中的至少一个类中分别抽取相应数量的风险主体，包括：

获取各个所述风险指数等级分别对应的抽样概率；

4.根据权利要求3所述的方法，其特征在于，所述按照各个所述风险指数等级分别对应的抽样概率，从至少一个类中分别抽取相应数量的风险主体，包括：

根据所述各个类分别对应的抽样数量，从至少一个类中分别随机抽取相应数量的风险主体；或根据所述各个类分别对应的抽样数量，按照风险指数由高到低的顺序从至少一个类中获取相应数量的风险主体。

5.根据权利要求1所述的方法，其特征在于，所述获取处于预定区域内的风险主体的相关信息，包括：

采集处于所述预定区域内的风险主体的风险分析数据；

根据所述风险指向信息生成所述风险主体的相关信息。

6.根据权利要求1所述的方法，其特征在于，所述获取处于预定区域内的风险主体的相关信息，包括：

获取处于所述预定区域的风险主体在预定时间段内的相关信息。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述样本训练集中的训练样本输入所述风险指数计算模型中对所述风险指数计算模型进行训练，以使所述风险指数计算模型输出的各个训练样本的风险指数与所述各个训练样本包含的风险指数之间的差值小于预定阈值。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取风险主体的样本测试集，所述样本测试集中的每个测试样本包含有风险主体的相关信息及针对所述风险主体标定的风险指数；

9.根据权利要求1所述的方法，其特征在于，所述根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，包括：

10.根据权利要求1所述的方法，其特征在于，在所述将所述风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数之后，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述风险指数计算模型包括XGBoost算法模型；

所述方法还包括：

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述相关信息包括以下任一或多个的组合：主体舆情信息、主体经营信息、主体网络平台信息及主体影响力信息；

13.一种风险主体的风险分析装置，其特征在于，包括：

获取模块，用于获取处于预定区域内的风险主体的相关信息；

预测模块，用于将所述风险主体的相关信息输入风险指数计算模型，得到每个风险主体的风险指数；

分析模块，用于根据所述每个风险主体的风险指数，将处于所述预定区域内的风险主体划分为多个类，其中的每个类对应于一个风险指数等级，以基于所述风险指数等级对所述风险主体进行风险分析。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的计算机程序；其中，所述处理器配置为经由执行所述计算机程序来执行权利要求1-12任一项所述的方法。