CN112085588A

CN112085588A - 规则模型的安全性的确定方法、装置和数据处理方法

Info

Publication number: CN112085588A
Application number: CN202010908613.0A
Authority: CN
Inventors: 张文彬; 殷山; 李翰林; 李漓春
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-12-15
Anticipated expiration: 2040-09-02
Also published as: CN112085588B

Abstract

本说明书提供了规则模型的安全性的确定方法、装置和数据处理方法。该方法通过先根据样本集，确定出目标属性的第一分布；同时利用规则模型处理上述样本集，确定出多种命中情况下的目标属性的第二分布；再根据目标属性的第一分布和多种命中情况下的目标属性的第二分布，计算出能反映多种命中情况下的目标属性的第二分布和原始的第一分布之间的差异程度的安全指示参数；再根据上述安全指示参数，确定规则模型是否存在安全性风险。从而可以通过确定并利用安全指示参数来量化多种命中情况下的目标属性的第二分布和第一分布之间的差异程度，并根据该安全指示参数作为依据较为精准地确定出规则模型是否存在安全性风险。

Description

规则模型的安全性的确定方法、装置和数据处理方法

技术领域

本说明书属于互联网技术领域，尤其涉及规则模型的安全性的确定方法、装置和数据处理方法。

背景技术

在一些数据处理场景中，模型生成方与数据提供方往往是分离的。

通常数据提供方可以响应模型生成方的请求，利用己方所拥有的数据资源，运行模型生成方提供的规则模型，得到相应的处理结果；再将上述处理结果反馈给模型生成方。这样模型生成方可以在不接触到数据提供方所拥有的数据资源的前提下，得到相应的处理结果；并可以根据上述处理结果进行具体的数据处理。

但是，如果上述规则模型本身不安全，那么数据提供方在运行规则模型的过程中，可能会泄露出数据提供方所拥有的数据资源。

发明内容

本说明书提供了一种规则模型的安全性的确定方法、装置和数据处理方法，以能够较为精准地确定出规则模型是否存在安全性风险。

本说明书提供的规则模型的安全性的确定方法、装置和数据处理方法是这样实现的：

一种规则模型的安全性的确定方法，包括：获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布；根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

一种数据处理方法，包括：获取目标属性的第一分布，以及目标属性的第二分布；根据所述目标属性的第一分布，以及所述目标属性的第二分布，计算安全指示参数；根据所述安全指示参数，确定所述目标属性的第一分布与所述目标属性的第二分布之间的差异程度。

一种规则模型的安全性的确定装置，包括：获取模块，用于获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；

第一确定模块，用于根据所述样本集，确定出目标属性的第一分布；根据所述样本集和所述规则模型，确定出多种命中情况下的目标属性的第二分布；第二确定模块，用于根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；第三确定模块，用于根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布；根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布；根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

本说明书提供的规则模型的安全性的确定方法、装置和数据处理方法，通过先根据样本集，确定出目标属性的第一分布；同时利用规则模型处理上述样本集，以确定出多种命中情况下的目标属性的第二分布；再根据目标属性的第一分布和多种命中情况下的目标属性的第二分布，计算出能反映多种命中情况下的目标属性的第二分布和原始的第一分布之间的差异程度的安全指示参数；进而可以根据上述安全指示参数，来确定规则模型是否存在安全性风险。从而可以通过利用安全指示参数来量化多种命中情况下的目标属性的第二分布和第一分布之间的差异程度，进而能根据安全指示参数较为精准地确定出规则模型是否存在安全性风险，降低了数据提供方在运行规则模型时发生数据泄露的风险。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的模型的安全性的确定方法的***的结构组成的一个实施例的示意图；

图2是本说明书的一个实施例提供的模型的安全性的确定方法的流程示意图；

图3是在一个场景示例中，应用本说明书实施例提供的模型的安全性的确定方法的一种实施例的示意图；

图4是在一个场景示例中，应用本说明书实施例提供的模型的安全性的确定方法的一种实施例的示意图；

图5是本说明书的一个实施例提供的数据处理方法的流程示意图；

图6是本说明书的一个实施例提供的服务器的结构组成示意图；

图7是本说明书的一个实施例提供的模型的安全性的确定装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种规则模型的安全性的确定方法，该方法具体可以应用于一种包含有第一服务器和第二服务器的***中。

具体可以参阅图1所示。上述第一服务器具体可以包括布设于模型生成方一侧的服务器。上述第二服务器具体可以包括布设于数据提供方一侧的服务器。

具体实施时，第一服务器为了能够利用数据提供方所拥有的数据资源进行相应的数据处理(例如，确定用户的信用风险)，可以配置并构建包含有一个或多个规则集的规则模型，并将上述规则模型发送给第二服务器。

第二服务器在利用己方所拥有的数据资源运行该规则模型之前，可以先对该规则模型的安全性进行检测。

具体的，第二服务器可以获取包含有多个样本数据的样本集以及上述规则模型。第二服务器可以根据所述样本集，确定出目标属性的第一分布；同时利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布。再根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数。进而可以根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

在确定上述规则模型不存在安全性风险的情况下，第二服务器可以正常地利用己方所拥有的数据资源运行该规则模型，得到对应的处理结果；再将上述处理结果反馈给第一服务器。第一服务器可以根据上述处理结果，完成相应的数据处理。

在确定上述规则模型存在安全性风险的情况下，第二服务器可以拒绝利用己方所拥有的数据资源来运行该规则模型，从而可以有效地避免数据提供方所拥有的数据资源遭到泄露。

在本实施例中，所述第一服务器、第二服务器具体可以包括一种应用于数据处理***一侧，能够实现数据传输、数据处理等功能的服务器。具体的，所述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述第一服务器、第二服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述第一服务器、第二服务器所包含的服务器的数量。所述第一服务器、第二服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

参阅图2所示，本说明书实施例提供了一种规则模型的安全性的确定方法。具体实施时，该方法可以包括以下内容。

S201：获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据。

在一些实施例中，该方法具体可以应用于布设于数据提供方一侧的第二服务器。

在一些实施例中，该方法也可以应用于布设于第三方一侧的第三服务器。其中，上述第三方可以是独立于数据提供方和模型生成方，且为数据提供方和模型生成方共同信任的负责检测规则模型的安全性的服务提供方。具体的，例如，第一服务器在将所生成的规则模型发送至第二服务器的同时，还会将相同的规则模型发送至第三服务器，第三服务器在应用该方法确定规则模型不存在安全性的风险的情况下，才会向第二服务器生成并发送安全提示信息，第二服务器在接收到上述安全提示信息后才会利用己方的数据资源运行该规则模型。

在一些实施例中，在模型生成方需要对所生成的规则模型进行自检的情况下，该方法还可以应用于布设于模型生成方一侧的第一服务器。即，也可以由模型生成方通过第一服务器来对所生成的规则模型的安全性进行检测。具体的，第一服务器在通过检测确定所生成的规则模型不存在安全性风险的情况下，才会将该规则模型发送至第二服务器。

本说明书的实施例主要以将该方法应用于第二服务器为例进行具体说明。对于应用于第三服务器、第一服务器的情况，可以参阅下述应用于第二服务器的实施例。

在一些实施例中，上述规则模型具体可以理解为一种由模型生成方生成或提供的用于检测数据对象(例如，用户对象等)的属性是否满足某些判定规则的数据模型。

具体的，上述规则模型具体可以包括一个或多个规则集。其中，上述每一个规则集具体又可以包括一个或多个规则。

在一些实施例中，上述规则用于检测数据对象的某种属性特征是否满足某个预设的数据值范围。上述规则具体可以包括：属性、操作符和数据阈值等数据元素。

其中，上述属性具体可以理解为一种用于表征数据对象的某种属性特征的参数数据。例如，上述属性具体可以是月收入、违约率、身高、职业等。上述数据阈值具体可以理解为规则中针对某一个属性所设置的数据值的上限值和/或下限值。例如，1000元、15次、5％等。上述操作符具体可以理解为规则中用于限定属性和数据阈值之间判定关系的符号。例如，>(大于号)、<(小于号)、≥(大于或等于号)等。当然，上述所列举的属性、操作符、数据阈值只是一种示意性说明。

具体的，例如，在规则1“用户的月收入>1000元”中，属性为“月收入”，操作符为“>”，数据阈值为“1000元”。如果一个用户的月收入数据为2000元，大于1000元，则可以理解为该用户命中规则1。如果一个用户的月收入数据为500元，小于1000元，则可以理解为该用户没有命中规则1。

在一些实施例中，上述规则集可以只包括一个规则。例如，规则集1可以只包含有规则1这一个规则。如果一个用户命中了规则1，则可以理解为该用户命中规则集1。如果一个用户没有命中规则1，则可以理解为该用户没有命中规则集1。

在一些实施例中，上述规则集还可以包括多个不同的规则。其中，上述多个不同的规则可以通过预设的逻辑连接词连接在一起构成一个规则集。上述预设的逻辑连接词具体可以包括“与”(例如and)、“或”(例如or)等连接词。

例如，在规则集2“用户的违约次数>5次(可以记为规则2)，或，用户的违约率>0.5(可以记为规则3)”中，规则2和规则3是通过逻辑连接词“或”连接在一起构成了一个规则集，即规则集2的。如果一个用户命中了上述规则2和规则3中的至少一个，则可以理解为该用户命中规则集2。如果一个用户既没有命中规则1同时也没有命中规则2，则可以理解为该有用户没有命中规则集2。

在一些实施例中，模型生成方可以根据具体的应用场景和数据处理需求，配置相应的规则；并组合规则，得到对应的规则集；再根据上述规则集来构建对应的规则模型(也可以称为基于规则的模型)。再由数据提供方，使用所拥有的数据资源运行上述规则模型，得到对应的处理结果，以进行相应的数据处理。

在一些实施例中，模型生成方与数据提供方往往是分离的。这种情况下，模型生成方可以将上述规则模型发送给数据提供方。数据提供方可以利用己方所拥有的数据资源，例如，包含有大量数据对象的信息数据的数据库等，来运行规则模型，得到对应的处理结果；再将上述处理结果反馈给模型生成方，以便模型生成方可以得到并利用上述处理结果完成相应的数据处理。这样也降低了数据提供方所拥有的数据资源遭到泄露的风险。

在一些实施例中，由于一些规则模型本身就存在安全性风险，数据提供方在利用己方所拥有的数据资源运行这类规则模型得到相应的处理结果时，仍然存在数据泄露的风险，对数据提供方的数据安全构成威胁。

例如，模型生成方在生成规则模型时，有意将规则模型中的规则集n配置为“用户的月收入＝5000元”。这时，数据提供方如果直接利用所拥有的数据资源，查询到待检测的用户L的信息数据(例如，用户L的月收入为5000元)；将上述用户L的信息数据输入到规则模型，得到用户L命中规则集n的处理结果(例如，命中规则集n)，并将该处理结果反馈给模型生成方。在这种情况下，虽然数据提供方没有直接向模型生成方泄露用户L的月收入数据为5000元这条信息数据，但是模型生成方根据上述处理结果，是可以准确地猜出用户L的月收入数据为5000元。即，数据提供方的数据资源已经遭到了泄露。

因此，为了避免数据提供方在运行规则模型时导致所拥有的数据资源遭到泄露，保护数据提供方的数据安全，数据提供方在利用己方的数据资源运行规则模型之前，可以先对规则模型的安全性进行检测；在确定规则模型不存在安全性风险的情况下，再利用己方的数据资源来运行规则模型。

在一些实施例中，上述第二服务器具体可以理解为布设于数据提供方一侧的服务器。本说明书实施例所提供的规则模型的安全性的确定方法具体可以应用于第二服务器一侧。相对的，在模型生成方一侧，还可以布设有第一服务器。

在一些实施例中，上述样本集具体可以理解为一种用于检测规则模型是否存在安全性风险的样本数据的集合。其中，上述样本集可以包括多个样本数据。

具体的，上述每一个样本数据可以包含有与一个样本对象(也可以称样本数据对象)相关的信息数据。例如，在信用风险检测场景中，上述样本数据具体可以是样本用户的违约次数数据、违约率数据、月收入数据等与样本用户的信用相关的信息数据。

在一些实施例中，具体实施前，第二服务器可以采集并根据真实的数据对象的信息数据来构建样本集。第二服务器也可以是通过仿真模拟的方式，使用所生成的虚拟的数据对象的信息数据来构建样本集。

在一些实施例中，具体实施时，第二服务器可以接收到来自第一服务器的数据处理请求。其中，上述数据处理请求可以携带有第一服务器所提供的规则模型。相应的，第二服务器可以通过接收数据处理请求获取规则模型。

进一步，上述数据处理请求还可以携带有待处理的数据对象的身份标识(例如，待检测的用户的身份ID)。

上述数据处理请求具体可以用于请求第二服务器利用己方所拥有的数据资源，查询并根据上述数据对象的信息数据，运行规则模型，以确定出待处理的数据对象所命中的规则集。

在一些实施例中，第二服务器还可以获取第一服务器直接发送的待检测的规则模型。

在一些实施例中，第二服务器在接收到上述数据处理请求后，可以从数据处理请求中获取规则模型。进一步，第二服务器在利用己方所拥有的数据资源，根据所查询到的数据对象的信息数据运行该规则模型之前，还可以先获取与该规则模型匹配的样本集(例如，包含有规则模型中出现的属性的信息数据的样本集)，用以检测该规则模型是否存在安全性风险。

具体的，第二服务器获取样本集可以是接收来自第三方提供的样本数据作为样本集；也可以是从己方所拥有的数据资源中抽取多个真实的数据对象的信息数据来构建上述样本集；还可以是通过仿真模拟，使用所生成的虚拟的数据对象的信息数据来构建样本集等。

S202：根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布。

在一些实施例中，第一服务器将规则模型发送至第二服务器的同时，还可以将一些允许透露给第二服务器的与规则模型相关的信息，例如，规则模型中所包含的规则集的标识信息、规则集中属性的标识信息、规则模型中各个属性的出现次数等作为规则模型的基本信息发送给第二服务器，用以辅助第二服务器进行规则模型的安全性检测。相应的，第二服务器可以通过第一服务器获取上述规则模型的基本信息。

其中，上述规则集的标识信息具体可以是规则集的名称，也可以是规则集的编号等。一个规则集的标识信息与一个规则集对应。上述属性的标识信息具体可以是属性的名称，也可以是属性的编号等。一个属性的标识信息与一个属性对应。

在一些实施例中，第二服务器在得到规则模型后，还可以先使用测试样本集输入规则模型中进行测试；根据规则模型输出的处理结果，确定出规则模型中所包含的规则集的标识信息。

在一些实施例中，在允许第二服务器拆分规则模型获取规则集的情况下，第二服务器可以先从规则模型中拆分出具体的规则集；再将规则集进一步拆分成规则；最后获取规则中出现的属性。

在一些实施例中，第二服务器可以根据规则集中属性的标识信息，确定出目标属性。

在一些实施例中，上述目标属性具体可以包括一个属性，也可以包括多个属性。在目标属性包括多个属性的情况下，可以构建对象的目标属性集，可以记为Xin。

在一些实施例中，具体实施时，第二服务器可以根据规则集中属性的标识信息，将规则模型中出现的属性确定为目标属性。

在一些实施例中，具体实施时，第二服务器还可以根据具体情况和处理需要，从规则模型中出现的属性中进一步筛选出重要程度较高或者用户较为关注的一个或多个属性作为目标属性。

在一些实施例中，所述命中情况具体可以理解为样本数据所命中的规则模型中的规则集的情况。

在一些实施例中，具体实施时，第二服务器可以根据规则模型中规则集的标识信息，确定出规则模型所包含的规则集；再根据规则模型所包含的规则集，确定出可能出现的多种命中情况。

具体的，例如，如果根据规则模型中规则集的标识信息，确定规则模型只包含有一个规则集1(可以记为RuleSet_1)，可以确定存在2^1＝2种命中情况，即分别为：命中规则集1，和没有命中规则集2。

如果根据规则模型中规则集的标识信息，确定规则模型包含有两个规则集：规则集1(RuleSet_1)和规则集2(可以记为RuleSet_2)，可以确定存在2^2＝4种命中情况，即分别为：同时命中规则集1和规则集2，命中规则集1但没有命中规则集2，命中规则集2但没有命中规则集1，同时没有命中规则集1和规则集2。

以此类推，如果规则模型包含有n个规则集：规则集1(RuleSet_1)、规则集2(RuleSet_2)……规则集n(可以记为RuleSet_n)，则可以确定存在2^n种命中情况。具体的命中情况可以参阅表1所示。表中，0表示没有命中该规则集，1表示命中该规则集。

在一些实施例中，具体实施时，可以通过对样本集中出现的目标属性的数据值进行数据统计，确定出样本集中该目标属性的各个数据值的所对应的样本数据的数量；进而可以根据样本集中该目标属性的各个数据值的所对应的样本数据的数量，确定出在样本集中目标属性的数据值分布作为目标属性的第一分布。

在一些实施例中，在目标属性的数据值为离散型数据的情况下，可以检索样本集，从样本集中获取样本对象的目标属性的数据值；根据样本集，统计该目标属性的各个数据值所对应的样本对象的数量；根据该目标属性的各个数据值所对应的样本对象的数量，确定出目标属性的数据值分布。

具体的，例如，对于目标属性月收入，通过检索样本集，获取到月收入的数据值包括：500元、1000元、2000元这三种数据值。通过对样本集的数据统计，可以确定月收入为500元的用户数量为20人，月收入为1000元的用户数量为50人，月收入为2000元的用户数量为30人。进而可以确定出关于月收入这个目标属性的数据值(500元、1000元和2000元)分布为2:5:3。

在一些实施例中，在目标属性的数据值为连续型数据的情况下，可以先检索样本集，从样本集中确定出目标属性的数据值的最大值和最低值；根据预设的数值间隔，在目标属性的最大值和最低值之间划分出多个数据值区间；根据样本集，将样本对象(或者样本数据)分别划分到对应的数据值区间中；统计并根据各个数据值区间中样本对象的数量，确定出目标属性的数据值分布。

在一些实施例中，参阅图3所示，可以按照上述方式，基于样本集，确定出的目标属性的数据值分布作为该目标属性的第一分布(也可以称为原始分布或原始的第一分布)。其中，上述目标属性的第一分布具体可以理解为在未知所命中的规则集的情况下，目标属性的不同数据值的分布比例。

利用上述目标属性的第一分布可以反映出在没有经过规则模型处理的情况下猜中样本集中的某个样本对象的目标属性的数据值的概率大小。

在一些实施例中，具体实施时，可以将样本集中所包含的样本数据分别输入至规则模型中，并运行规则模型，输出各个样本数据所命中的规则集的标识信息，作为处理结果。

进一步，第二服务器可以根据处理结果中各个样本数据(或者各个样本数据所对应的数据对象)所命中的规则集，将样本数据划分到所对应的命中情况下的子样本集，以建立得到多种命中情况下的子样本集。进而可以根据各种命中情况下的子样本集，通过数据统计，确定出该命中情况的下的目标属性的数据值分布，作为该命中情况下的目标属性的第二分布。

具体的，以处理多种命中情况下的子样本集中的当前命中情况下的子样本集为例，可以先通过对当前命中情况下的子样本集进行数据统计，确定出当前命中情况下的子样本集中所包含的目标属性的各个数据值，并统计出在当前命中情况下的子样本集中目标属性的各个数据值所对应的样本数据的数量。再根据当前命中情况下的子样本集中目标属性的各个数据值所对应的样本数据的数量，确定出在当前命中情况下的子样本集中目标属性的数据值分布作为当前命中情况下的目标属性的第二分布。

例如，规则模型只包括一个规则集1，且该规则集1只包含有一条规则，该规则为“用户的月收入>500元”。当前的命中情况为命中规则集1。目标属性为用户的月收入。这时当前命中情况下的子样本集包含的用户数据是样本集中月收入的数据值大于800元的用户数据，即用户的月收入的数据值为2000元的用户数据(共30个)、月收入的数据值为1000元的用户数据(共50个)。进而可以根据当前命中情况下的子样本集，确定出目标属性的数据值为2000元和1000元。进一步可以通过对当前命中情况下的子样本集所包含的用户数据进行数据统计，确定出当前命中情况下的目标属性的数据值(1000元和2000元)分布为5:3，作为当前命中情况下的目标属性的第二分布。

按照上述方式，可以确定出多种命中情况下的目标属性的第二分布。

在一些实施例中，上述目标属性的第二分布具体可以理解为在已知所命中的规则集的情况下，目标属性的不同数据值的分布比例。利用上述目标属性的第二分布可以反映出经过规则模型处理后，在确定某个样本对象所命中的规则集的情况下，猜中该样本对象的目标属性的数据值的概率大小。

S203：根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数。

在一些实施例中，上述安全指示参数具体可以理解为一种用于表征目标属性的第一分布，分别和多种命中情况下的目标属性的第二分布之间的差异程度的指示参数。

在一些实施例中，上述安全指示参数具体可以包括以下至少之一：信息熵差、基尼指数差、纯度差、KL散度等等。当然，需要说明的是，上述所列举的安全指示参数只是一种示意性说明。具体实施时，根据具体情况，还可以引入除上述所列举的参数以外其他合适的参数作为安全指示参数。

通常如果对应某一种命中情况的安全指示参数数值越大，则说明该命中情况下的目标属性的第二分布与目标属性的第一分布之间的差异程度越大。相应的，通过规则模型处理样本数据后，在已经确定出样本数据属于该命中情况的条件下，可能会向模型生成方或者其他第三方泄露出更多的数据信息。当上述安全指示参数数值过大，甚至大于某一个阈值(例如，预设的安全阈值)，则说明通过运行该规则模型所泄露的数据信息可能会超出容忍范围，对数据提供方的数据资源造成较为严重的损害。这时，可以判断该规则模型存在安全性风险。

相反，如果对应某一种命中情况的安全指示参数数值越小，甚至为0，则说明该命中情况下的目标属性的第二分布与目标属性的第一分布之间的差异程度越小。相应的，通过规则模型处理样本数据，在确定出样本数据属于该命中情况的前提下，向模型生成方或者其他第三方泄露出更少的数据信息。当上述安全指示参数数值等于或者趋近于0，可以认为通过规则模型处理样本数据，在已经确定出样本数据属于该命中情况的条件下，也不会向模型生成方或者其他第三方泄露出额外的数据信息。当上述安全指示参数数值小于或等于某一个阈值(例如，预设的安全阈值)，则说明通过运行该规则模型所泄露的数据信息相对较少，没有超出容忍范围。这时，可以判断该规则模型不存在安全性风险。

在一些实施例中，下面以安全指示参数包括信息熵差为例，说明具体如何根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数。其中，上述信息熵具体可以理解为一种用于衡量信息量的参数。通常信息熵的数值越大表示所携带的信息量越大。

在一些实施例中，具体实施时，可以先根据目标属性的第一分布，确定出在样本集中，目标属性的各个数据值的概率值；再根据目标属性的各个数据值的概率值，计算出基于样本集的目标属性的信息熵，作为第一信息熵。

具体的，例如，对于目标属性X，包括m个不同的数据值，可以分别记为v_1、v_2……v_m。基于X的第一分布所确定出上述各个数据值的概率值分别为p₁、p₂……p_m。根据X的各个数据值的概率值，可以按照以下算式计算第一信息熵：E＝∑_ip_ilogp_i。其中，E表示为第一信息熵，pi表示为X中标号为i的数据值的概率值，i的数值大于等于1且小于等于m。

以确定多种命中情况中的当前命中情况下的目标属性的信息熵为例，可以先确定出当前命中情况下的子样本集中目标属性的各个数据值的概率值；再根据目标属性的各个数据值的概率值，计算出基于当前命中情况下的子样本集的目标属性的信息熵，作为第二信息熵。

具体的，例如，对于当前命中情况下的目标属性X，包括m’个不同的数据值，可以分别记为v_1’、v_2’……v_m’。基于当前命中情况下的X的第二分布所确定出上述各个数据值的概率值分别为p_1'、p_2’……p_m’。根据X的各个数据值的概率值，可以按照以下算式计算对应当前命中情况的第二信息熵：E’＝∑_i’p_i’logp_i’。其中，E’表示为当前命中情况下的第二信息熵，p_i’表示为当前命中情况下X中标号为i’的数据值的概率值，i’的数值大于等于1且小于等于m’。

按照类似的方式，可以根据其他命中情况下的子样本集分别计算出其他命中情况下的第二信息熵，从而得到多种命中情况下的第二信息熵。

进一步，可以将上述第一信息熵，分别与多种命中情况下的第二信息熵作差，得到对应多种命中情况下的信息熵差，作为多种命中情况下的安全指示参数。

具体的，例如，以计算当前命中情况下的信息熵差为例，可以按照以下算式计算信息熵差：E-E’。其中，E表示为第一信息熵，E’表示为当前命中情况下的第二信息熵。进而可以将上述信息熵差确定为当前命中情况下的安全指示参数。

按照类似的方式，可以分别计算第一信息熵与其他命中情况下的第二信息熵之间的信息熵差，从而得到多种命中情况下的安全指示参数。

当然，需要说明的是，上述所列举的确定安全指示参数的方式只是一种示意性说明。具体实施时，根据具体情况和处理需求，还可以采用其他合适的方式来计算多种命中情况下的安全指示参数。对此，本说明书不作限定。

S204：根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

在一些实施例中，具体实施时，可以将上述多种命中情况下的安全指示参数与预设的安全阈值分别进行比较处理，以确定各种命中情况下的安全指示参数是否大于预设的安全阈值。在确定所述多种命中情况下的安全指示参数中至少有一个命中情况下的安全指示参数大于预设的安全阈值的情况下，确定所述规则模型存在安全性风险。

在一些实施例中，上述预设的安全阈值的具体数值可以根据目标属性的数据值变化的灵敏度，以及误差容忍度等因素确定。

具体的，例如，对于一些精度要求较高的应用场景，误差容忍度通常较小，容忍范围也相对较小；同时如果目标属性数据值本身的变化幅度又较小，灵敏度较高时，可以将预设的安全阈值的数值设置得相对较小，以便可以灵敏、精准地发现目标属性的数据值分布的变化。

相对的，对于一些精度要求较低的应用场景，误差容忍度通常较大，容忍范围也相对较大；同时如果目标属性数据值本身变化幅度又较大，灵敏度较小时，可以将上述预设的安全阈值的数值设置得相对较大，以降低误报率。

在一些实施例中，在按照上述方式确定所述多种命中情况下的安全指示参数都小于或等于预设的安全阈值的情况下，可以确定所述规则模型不存在安全性风险。这时，第二服务器可以正常地使用己方所拥有的数据资源来运行该规则模型。

在一些实施例中，在确定规则模型不存在安全性风险的情况下，具体实施时，第二服务器可以根据数据处理请求中携带的数据对象的身份标识(例如，用户的身份ID)，从所拥有的数据资源(例如，数据库)中检索出与数据对象的身份标识匹配的信息数据。再将上述信息数据输入至规则模型中，并运行规则模型，输出数据对象所命中的规则集的标识信息作为处理结果。

进而可以第二服务器可以将上述处理结果反馈给第一服务器。第一服务器可以根据上述处理结果进行相应的数据处理。例如，第一服务器可以根据处理结果中用户对象所命中的规则集，按照预设的信用风险评级规则，来确定用户具体的信用风险等。

在一些实施例中，在按照上述方式确定所述多种命中情况下的安全指示参数至少有一种命中情况下的安全指示参数大于预设的安全阈值的情况下，可以确定所述规则模型存在安全性风险。这时，第二服务器为了避免己方所拥有的数据资源在运行该规则模型时遭到泄露或者泄露超过容忍范围的信息数据，可以拒绝使用己方所拥有的数据资源来运行该规则模型。从而可以有效地保护数据提供方的数据安全，降低数据提供方所拥有的数据资源遭到泄露的风险。

在上述实施例中，通过先根据样本集，确定出目标属性的第一分布；同时利用规则模型处理上述样本集，确定出多种命中情况下的目标属性的第二分布；再根据目标属性的第一分布和多种命中情况下的目标属性的第二分布，计算出能反映多种命中情况下的目标属性的第二分布和原始的第一分布之间的差异程度的安全指示参数；根据上述安全指示参数，来确定规则模型是否存在安全性风险。从而可以通过利用安全指示参数来量化多种命中情况下的目标属性的第二分布和第一分布之间的差异程度，进而能根据安全指示参数较为精准地确定出规则模型是否存在安全性风险，降低了数据提供方在运行规则模型时发生数据泄露的风险。

在一些实施例中，所述安全指示参数具体可以包括以下至少之一：信息熵差、基尼指数差、纯度差、KL散度等等。当然，需要说明的是，上述所列举的安全指示参数只是一种示意性说明。具体实施时，根据具体情况和处理需求，还可以引入其他参数作为安全指示参数。例如，还可以引入EMD距离、基尼比、信息熵增益、纯度比等参数作为安全指示参数。对此，本说明书不作限定。

在一些实施例中，在所述安全指示参数包括信息熵差的情况下，所述根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数，具体实施时，可以包括以下内容：根据所述目标属性的第一分布，计算目标属性的信息熵作为第一信息熵；根据多种命中情况下的目标属性的第二分布，分别计算多种命中情况下的目标属性的信息熵，得到多种命中情况下的第二信息熵；将所述第一信息熵，分别与所述多种命中情况下的第二信息熵作差，得到多个差值，作为多种命中情况下的信息熵差，即多种命中情况下的安全指示参数。

在一些实施例中，所述安全指示参数还可以包括信息熵比。在所述安全指示参数包括信息熵比的情况下，在分别计算出第一信息熵，和多种命中情况下的第二信息熵之后，还可以将所述第一信息熵，分别除以所述多种命中情况下的第二信息熵，得到多个商值，作为多种命中情况下的信息熵比，即多种命中情况下的安全指示参数。例如，多种命中情况中的当前命中情况下的信息熵比，可以表示为E/E’。其中，E表示为第一信息熵，E’表示为当前命中情况下的第二信息熵。

在一些实施例中，所述安全指示参数还可以包括信息熵增益。在所述安全指示参数包括信息熵增益的情况下，除了计算第一信息熵，以及多种命中情况下的第二信息熵外，还要根据多种命中情况下的子样本集的补集，确定出多种命中情况下的第三信息熵；再综合上述第一信息熵，以及多种命中情况下的第二信息熵和第三信息熵，来计算多种命中情况下的信息熵增益，作为所对应的命中情况下的安全指示参数。

具体的，例如，以多种命中情况下的当前命中情况为例。样本集为SampleSet，当前命中情况下的子样本集为SampleSet_1。对应的，当前命中情况下的子样本集的补集为SampleSet_2＝SampleSet-SampleSet_1。根据样本集计算出第一信息熵为E，根据当前命中情况下的子样本集计算出当前命中情况下的第二信息熵为E’。进一步，可以根据当前命中情况下的子样本集的补集(例如SampleSet_2)，通过数据统计，确定出当前命中情况下的第三信息熵(可以记为E”)。

在一些实施例中，还可以使用当前命中情况的对立情况下的子样本集来代替上述当前命中情况下的子样本的补集，来确定第三信息熵(E”)。例如，规则模型包括规则集1、规则集2和规则集3共3种不同的规则集。当前命中情况(记为命中情况1)为只命中规则集1但没有命中规则集2和3。另一种命中情况(记为命中情况2)为只命中规则集2和3但没有命中规则集1。这时可以将上述命中情况2作为当前命中情况的对立情况，并根据上述命中情况2的子样本集，通过数据统计，确定出当前命中情况下的第三信息熵。

具体确定当前命中情况下的第三信息熵时，类似于确定当前命中情况下的第二信息熵，可以基于SampleSet_2确定目标属性X，包括m”个不同的数据值，可以分别记为v_1”、v_2”……v_m”。基于SampleSet_2确定出X的数据值分布，并根据上述X的数据值分布，进一步确定出上述各个数据值的概率值分别为p_1″、p_2″……p_m″。根据X的各个数据值的概率值，可以按照以下算式计算对应当前命中情况的第三信息熵：E″＝∑_i″p_i″logp_i″。其中，E”表示为当前命中情况下的第三信息熵，p_i″表示为当前命中情况下X的标号为i”的数据值的概率值，i”的数值大于等于1且小于等于m”。

进一步，可以根据第一信息熵、当前命中情况下的第二信息熵和当前命中情况下的第三信息熵，按照以下算式确定信息熵增益：

并将该信息熵增益作为当前命中情况下的安全指示参数。

其中，上述N表示为样本集中的样本数据的数量，N₁表示为当前命中情况下的子样本集中的样本数据的数量，N₂表示为当前命中情况下的子样本集的补集中的样本数据的数量。

在一些实施例中，所述安全指示参数还可以包括信息熵增益比。在所述安全指示参数包括信息熵增益比的情况下，可以根据第一信息熵、当前命中情况下的第二信息熵和当前命中情况下的第三信息熵，按照以下算式确定信息熵增益比：

在一些实施例中，所述安全指示参数还可以包括基尼指数差。在所述安全指示参数包括基尼指数差的情况下，上述根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数，具体实施实施时，可以包括：根据目标属性的第一分布，确定出基于样本集的目标属性各个数据值的概率值；并根据上述目标属性的各个数据值的概率值，计算目标属性的基尼指数作为第一基尼指数。根据多种命中情况下的目标属性的第二分布，分别计算多种命中情况下的目标属性的各个数据值的概率值；并根据多种命中情况下的目标属性的各个数据值的概率值，计算多种命中情况下的目标属性的基尼指数，作为所对应的命中情况下的第二基尼指数。再将上述第一基尼指数分别与多种命中情况下的第二基尼指数作差，得到多个差值，作为多种命中情况下的基尼指数差，即多种命中情况下的安全指示参数。

在一些实施例中，上述基尼指数具体可以理解为用于描述样本数据被分错的概率大小的参数。通常基尼指数的数值越小，表示该集合中的样本数据被分错的概率越小，相应的，该集合中的样本数据相对越纯。

在一些实施例中，可以按照以下算式，根据目标属性的第一分布，来计算第一基尼指数：Gini＝∑_ip_i(1-p_i)＝1-∑_ip_i ²。其中，p_i可以表示为基于样本集所确定的目标属性X中标号为i的数据值的概率值。

在一些实施例中，以当前命中情况为例，可以按照以下算式，根据当前命中情况下的目标属性的第二分布，计算第二基尼指数：Gini’＝∑_i’p_i’(1-p_i’)＝1-∑_i’p_i’ ²。其中，p_i’可以表示为基于当前命中情况下的子样本集所确定的目标属性X中标号为i’的数据值的概率值。

在一些实施例中，具体实施时，可以按照以下算式计算当前命中情况下的基尼指数差：Gini-Gini’，并将该基尼指数差作为当前命中情况下的安全指示参数。

在一些实施例中，所述安全指示参数还可以包括基尼指数比。在所述安全指示参数包括基尼指数比的情况下，具体实施时，还可以将所述第一基尼指数，分别除以多种命中情况下的第二基尼指数，得到多个商值，作为多种命中情况下的基尼指数比，即多种命中情况下的安全指示参数。

具体的，以当前命中情况为例，可以按照以下算式计算当前命中情况下的基尼指数比：Gini/Gini’，作为当前命中情况下的安全指示参数。

在一些实施例中，所述安全指示参数还可以包括纯度差。在所述安全指示参数包括纯度差的情况下，具体实施时，在确定出第一基尼指数，和多种命中情况下的第二基尼指数之后，还可以根据多种命中情况下的子样本集的补集，计算出多种命中情况下的第三基尼指数(可以记为Gini”)。

具体的，以当前命中情况为例，可以按照以下算式计算当前命中情况下的第三基尼指数：Gini″＝∑_i″p_i″(1-p_i″)＝1-∑_i″p_i″ ²。其中，p_i″可以表示为基于当前命中情况下的子样本集的补集所确定的目标属性X中标号为i”的数据值的概率值。

再根据第一基尼指数、多种命中情况下的第二基尼指数和多种命中情况下的第三基尼指数，计算多种命中情况下的纯度差。

具体的，可以按照以下算式计算当前命中情况下的纯度差：

按照上述方式可以计算出多种命中情况下的纯度差，作为多种命中情况下的安全指示参数。

在一些实施例中，所述安全指示参数还可以包括纯度比。在所述安全指示参数包括纯度比的情况下，具体实施时，以当前命中情况为例，可以按照以上算式计算当前命中情况下的纯度比：

按照上述方式，可以确定出多种命中情况下的纯度比作为多种命中情况下的安全指示参数。

在一些实施例中，所述安全指示参数还可以包括KL散度(也可以称为Kullback-Leible散度)。其中，上述KL散度具体可以理解为一种用于反映两种分布(例如，目标属性的第一分布和某一种命中情况下的第二分布)之间的差异(或者相对熵)的非对称性度量参数。

在一些实施例中，在所述安全指示参数包括KL散度的情况下，以当前命中情况为例，可以按照以下算式计算当前命中情况下的KL散度：

其中，上述p_i表示为基于当前命中情况下的子样本集所确定的目标属性X中标号为i的数据值的概率值，p_i’表示为基于当前命中情况下的子样本集的补集所确定的目标属性X中标号为i’的数据值的概率值。

按照上述方式，可以分别计算出多种命中情况下的KL散度，作为多种命中情况下的安全指示参数。

在一些实施例中，所述安全指示参数还可以包括EMD距离。其中，上述EMD(EarthMover's Distance)距离具体可以表示从一个分布变为另一个分布的最小代价，可以用于描述两个分布(例如，目标属性的第一分布和某一种命中情况下的第二分布)之间的距离。

在一些实施例中，在所述安全指示参数包括EMD距离的情况下，以当前命中情况为例，可以先根据目标属性的数据值，判断是目标属性是非数值型属性还是数值型属性。

其中，上述数值型属性具体可以理解为数据值为数字字符的属性。例如，体温、血压、违约次数等等。上述非数值型属性具体可以理解为数据值为非数字字符的属性。例如，籍贯、性别、职业等等。

在确定目标属性是非数值型属性的情况下，可以按照以下算式计算当前命中情况下的EMD距离：

其中，p_i表示为基于当前命中情况下的子样本集所确定的目标属性X中标号为i的数据值的概率值，p_i’表示为基于当前命中情况下的子样本集的补集所确定的目标属性X中标号为i’的数据值的概率值。

在确定目标属性是数值型属性的情况下，可以按照以下算式计算当前命中情况下的EMD距离：

其中，r_i＝p_i-p_i’。

具体实施时，可以按照上述方式计算出多种命中情况下的EMD距离，作为多种命中情况下的安全指示参数。

在一些实施例中，上述根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险，具体实施时，可以包括以下内容：将所述多种命中情况下的安全指示参数分别与预设的安全阈值进行比较处理；在确定所述多种命中情况下的安全指示参数中至少有一个命中情况下的安全指示参数大于预设的安全阈值的情况下，确定所述规则模型存在安全性风险。其中，上述预设的安全阈值的具体数值可以根据目标属性的数据值变化的灵敏度，以及误差容忍度等因素确定。

在一些实施例中，上述目标属性具体可以包括多个属性。具体实施时，可以参照基于一个目标属性的实施例，确定出多个属性的第一分布，以及多种命中情况下的多个属性的第二分布。在对多种命中情况中的当前命中情况进行处理时，可以将多个属性的第一分布，与当前命中情况下的多个属性的第二分布分别进行比较，在发现至少存在一个属性的第一分布与当前命中情况下的相同属性的第二分布之间的差异程度大于预设的安全阈值的情况下，可以确定该规则模型存在安全性风险。其中，对应不同属性的预设的安全阈值的数值可以不同。

在一些实施例中，又考虑到在具体的应用场景中，虽然某些命中情况下的数据对象的目标属性的数据值相对更容易猜出，但是属于这种命中情况的数据对象本身数量占比相对较小。例如，样本集中可能只有极小部分的样本数据会被划分到该命中情况中。因此，基于该部分的样本数据所泄露的信息数据量相对较少，仍然属于可容忍范围，这时规则模型的安全性还是可以接受的。

在一些实施例中，为了能够更加精准地确定规则模型的安全性，在确定所述多种命中情况下的安全指示参数中至少有一个命中情况下的安全指示参数大于预设的安全阈值的情况下，所述方法具体实施时，还可以包括：将安全指示参数大于预设的安全阈值的命中情况，确定为风险命中情况；统计样本集中属于所述风险命中情况的样本数据在所述样本集中的占比，作为风险样本占比；比较所述风险样本占比和预设的占比阈值；在确定所述风险样本占比大于所述预设的占比阈值的情况下，确定所述规则模型存在安全性风险。

在一些实施例中，上述预设的占比阈值具体可以根据容忍度来确定。具体的，例如，上述预设的占比阈值可以为30％。对于上述预设的占比阈值的具体数值，本说明书不作限定。

在一些实施例中，在确定所述风险样本占比大于预设的占比阈值的情况下，可以判断在运行该规则模型进行具体的数据处理时，会有数量相对较多的数据对象被划分进风险命中情况中，进而有较高的概率泄露出更多的信息数据。对数据提供方的数据资源的数据安全的影响相对较大，超出了可容忍范围。这时，可以确定上述规则模型存在安全性风险。

在一些实施例中，在确定所述风险样本占比小于或等于预设的占比阈值的情况下，可以判断在运行该规则模型进行具体的数据处理时，只有数量相对较少的数据对象被划分进风险命中情况中，所泄露的信息数据量相对较少。对数据提供方的数据资源的数据安全的影响相对较小，在可容忍的范围内。这时，可以确定上述规则模型不存在安全性风险。

在一些实施例中，在确定规则模型存在安全风险的情况下，进一步还可以更加精细地确定出规则模型中具体哪个规则存在风险。

具体实施时，所述方法还可以包括：检索所述风险命中情况中命中的规则集，从所述风险命中情况中命中的规则集中确定出包含有目标属性的规则集作为风险规则集。

其中，上述风险规则集具体可以理解为存在安全性风险的，会泄露数据提供方拥有的关于目标属性的数据值的规则集。

在一些实施例中，在允许拆解规则模型获取规则模型中的具体规则的情况下，为了能降低数据处理量，以便更高效地发现存在安全性风险的规则模型，所述方法具体实施时，还可以包括以下内容：检测所述规则模型中的规则集是否包含预设的操作符；在确定所述规则模型中至少一个规则集包含预设的操作符的情况下，确定所述规则模型存在安全性风险。

其中，上述预设的操作符具体可以理解为一种具有较高概率泄露数据信息的操作符。例如，等于号(“＝”)、约等号(“≈”)等。当然，上述所列举的预设的操作符只是一种示意性说明。具体实施时，根据具体情况和处理需求，还可以引入其他合适的操作符作为上述预设的操作符。对此，本说明书不作限定。

在一些实施例中，在检测到规则模型中至少一个规则集包含有预设的操作符的情况下，可以直接确定该规则模型存在安全性风险，进而可以不需要再耗费处理时间和处理资源通过计算并根据多种命中情况下的安全指示参数来判断规则模型是否存在安全性风险，从而可以有效地降低数据处理量。

在检测到规则模型中规则集都不包含有预设的操作符的情况下，可以通过计算并根据多种命中情况下的安全指示参数来判断规则模型是否存在安全性风险，从而可以有效地降低数据处理量。

在一些实施例中，在根据所述目标属性的第一分布和多种命中情况下的目标属性的第二分布，确定所述规则模型是否存在安全性风险之后，所述方法具体实施时，还可以包括以下内容：在确定所述规则模型存在安全性风险的情况下，可以生成风险提示信息。其中，所述风险提示信息用于提示数据提供方拒绝运行所述规则模型。相应的，第二服务器可以根据上述风险提示信息，拒绝运行该规则模型，从而可以降低数据提供方由于运行规则模型导致数据资源遭到泄露的风险。

在一些实施例中，在根据所述目标属性的第一分布和多种命中情况下的目标属性的第二分布，在确定所述规则模型不存在安全性风险的情况下，可以生成安全提示信息。相应的，第二服务器可以根据上述安全提示信息，正常地使用己方所拥有的数据资源运行该规则模型，并得到对应的处理结果。再将上述处理结果发送给第一服务器，以反馈给模型生成方。

在一些实施例中，所述根据所述样本集，确定出目标属性的第一分布，具体实施时，可以包括以下内容：统计所述样本集中目标属性的各个数据值的样本数据数量；根据所述样本集中目标属性的各个数据值的样本数据数量，确定出样本集中目标属性的各个数据值的分布，作为所述目标属性的第一分布。

在一些实施例中，所述利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布，具体实施时，可以包括以下内容：利用所述规则模型处理所述样本集中的多个样本数据，得到多个样本数据的处理结果；其中，所述处理结果包括样本数据所命中的规则集的标识信息；根据所述多个样本数据的处理结果，确定出样本数据所命中的规则集；根据样本数据所命中的规则集，将所述多个样本数据划分为多种命中情况下的子样本集；根据所述多种命中情况下的子样本集，确定出多种命中情况下目标属性的数据值分布，作为多种命中情况下的目标属性的第二分布。

在一些实施例中，上述规则模型的安全性的确定方法具体可以应用于疾病检测场景中。具体的，在疾病检测场景中，模型生成方可以是为用户提供疾病检测服务的疾病检测机构，数据提供方可以为保管有大量用户的健康数据的机构，例如，医院、体检中心等。相应的，所述规则模型具体可以包括模型生成方生成的用于检测疾病的规则模型。其中，上述规则模型中的规则集具体可以包括与用户的健康数据相关的判定规则。

具体的，可以参阅图4所示。布设于疾病检测机构一侧的第一服务器可以生成用于检测疾病的规则模型。并将上述规则模型发送至布设于XX医院一侧的第二服务器。其中，XX医院拥有并管理用户的健康数据库。该用户的健康数据库中存储有大量用户的健康数据。XX医院与疾病检测机构事先达成有合作协议。

第二服务器在接收到上述规则模型后，可以利用本说明书实施例所提供的规则模型的安全性的确定方法对上述规则模型的安全性进行检测。

在确定规则模型存在安全性风险的情况下，可以生成风险提示信息，反馈给第一服务器，以提示该规则模型存在安全性风险，拒绝运行该规则模型。

在确定规则模型不存在安全性风险的情况下，才会根据合作协议，利用己方所拥有的健康数据库，运行规则模型，生成并向第一服务器反馈相应的处理结果。

在一些实施例中，在根据多种命中情况下的安全指示参数，确定所述规则模型不存在安全性风险的情况下，具体实施时，还可以包括以下内容：获取目标用户的身份标识；根据所述目标用户的身份标识，查询用户的健康数据库，获取目标用户的健康数据；利用所述规则模型处理目标用户的健康数据，得到对应的处理结果；其中，所述处理结果用于确定目标用户罹患预设疾病的风险。

具体的，第二服务器在确定规则模型不存在安全性风险的情况下，可以向第一服务器生成并发送安全提示信息，以提示该规则模型不存在安全性风险，可以正常运行该规则模型。第一服务器可以响应所接收到的安全提示信息，将携带有待检测的目标用户的身份标识的检测请求发送至第二服务器。

第二服务器可以从第一服务器所发送的检测请求中获取目标用户的身份标识；再根据身份标识查询所拥有的用户的健康数据库，获取目标用户的健康数据。进而可以将目标用户的健康数据输入至规则模型中，并运行规则模型，输出目标用户所命中的规则集的标识信息作为与该目标用户对应的处理结果。再将处理结果反馈给第一服务器。

第一服务器可以根据上述处理结果确定出目标用户所命中的规则集，再根据用户所命中的规则集确定出该目标用户罹患预设疾病的风险。例如，预测出该目标用户罹患癌症的概率值等。

这样可以在保护XX医院的用户的健康数据库的数据安全的情况下，与疾病检测机构合作，协助疾病检测机构确定出目标用户罹患预设疾病的风险。

在一些实施例中，上述规则模型的安全性的确定方法可以应用于用户信用风险的检测场景中。具体的，在用户信用风险的检测场景中，模型生成方可以为需要确定用户的信用风险的购物网站、金融平台等，数据提供方可以为拥有大量与用户的信用相关的信息数据的银行等金融机构。相应的，所述规则模型具体可以包括模型生成方生成的用于确定用户的信用风险的规则模型。其中，上述规则模型中的规则集具体可以包括与用户的信用信息相关的判定规则。

当然，需要说明的是，上述所列举的应用场景，以及所使用的规则模型和规则集只是一种示意性说明。具体实施时，根据具体情况，还可以将上述规则模型的安全性的确定方法应用于其他的应用场景中。对此，本说明书不作限定。

在一些实施例中，为了能进一步减少误差，更加准确地确定出规则模型是否存在安全性风险，除了确定并根据单个安全指示参数来检测规则模型的安全性外，还可以确定并根据安全指示参数组合来确定规则模型是否存在安全性风险。

在一些实施例中，所述方法具体实施时，还可以包括以下内容：筛选出多个安全指示参数，以构建安全指示参数组合；根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数组合；根据多种命中情况下的安全指示参数组合，确定所述规则模型是否存在安全性风险。

具体的，可以根据所针对的应用场景，从多个安全指示参数中筛选出多个与该应用场景匹配的、效果较好的安全指示参数进行组合，作为针对该应用场景的安全指示参数组合。并根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定出多种命中情况下的安全指示参数组合，以便能够更加精细、全面地量化多种命中情况下的目标属性的第一分布和第二分布之间的差异程度。

进而可以利用上述多种情况下的安全指示参数组合代替单个的安全指示参数，来更加精准地确定出规则模型是否存在安全性风险，减少误差。

由上可见，本说明书实施例提供的规则模型的安全性的确定方法，通过先根据样本集，确定出目标属性的第一分布；同时利用规则模型处理上述样本集，确定出多种命中情况下的目标属性的第二分布；再根据目标属性的第一分布和多种命中情况下的目标属性的第二分布，计算出能反映多种命中情况下的目标属性的第二分布和原始的第一分布之间的差异程度的安全指示参数；根据上述安全指示参数，来确定规则模型是否存在安全性风险。从而可以通过利用安全指示参数来量化多种命中情况下的目标属性的第二分布和第一分布之间的差异程度，进而能根据安全指示参数较为精准地确定出规则模型是否存在安全性风险，降低了数据提供方在运行规则模型时发生数据泄露的风险。还通过从信息熵差、基尼指数差、纯度差、KL散度中筛选出多个安全指示参数来构建安全指示参数组合；再根据上述安全指示参数组合，更加精细地量化多种命中情况下的目标属性的第一分布和第二分布之间的差异程度，从而能够更加精准地确定出规则模型是否存在安全性风险。

参阅图5所示，本说明书实施例还提供了一种数据处理方法。其中，该方法具体实施时，可以包括以下内容。

S501：获取目标属性的第一分布，以及目标属性的第二分布。

S502：根据所述目标属性的第一分布，以及所述目标属性的第二分布，计算安全指示参数。

S503：根据所述安全指示参数，确定所述目标属性的第一分布与所述目标属性的第二分布之间的差异程度。

在一些实施例中，所述安全指示参数具体可以包括以下至少之一：信息熵差、基尼指数差、纯度差、KL散度等等。

通过上述方式可以利用安全指示参数量化同一种目标属性的两种分布之间的差异程度，从而可以根据上述同一种目标属性的两种分布之间的差异程度进行更加精准的数据处理。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布；根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

为了能够更加准确地完成上述指令，参阅图6所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口601、处理器602以及存储器603，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口601，具体可以用于获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据。

所述处理器602，具体可以用于根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布；根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

所述存储器603，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口601可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器602可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器603可以包括多个层次，在数字***中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在***中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述规则模型的安全性的确定方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布；根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图7所示，在软件层面上，本说明书实施例还提供了一种规则模型的安全性的确定装置，该装置具体可以包括以下的结构模块。

获取模块701，具体可以用于获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据。

第一确定模块702，具体可以用于根据所述样本集，确定出目标属性的第一分布；根据所述样本集和所述规则模型，确定出多种命中情况下的目标属性的第二分布。

第二确定模块703，具体可以用于根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数。

第三确定模块704，具体可以用于根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，本说明书实施例提供的规则模型的安全性的确定装置，能够较为精准地确定出规则模型是否存在安全性风险，降低了数据提供方在运行规则模型时发生数据泄露的风险。

本说明书实施例还提供了一种数据处理装置，包括：获取模块，用于获取目标属性的第一分布，以及目标属性的第二分布；计算模块，用于根据所述目标属性的第一分布，以及所述目标属性的第二分布，计算安全指示参数；确定模块，用于根据所述安全指示参数，确定所述目标属性的第一分布与所述目标属性的第二分布之间的差异程度。

通过上述处理装置可以利用安全指示参数量化同一种目标属性的两种分布之间的差异程度，从而可以根据上述同一种目标属性的两种分布之间的差异程度进行更加精准的数据处理。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种规则模型的安全性的确定方法，包括：

获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；

根据所述样本集，确定出目标属性的第一分布；利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布；

根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；

根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

2.根据权利要求1所述的方法，所述安全指示参数包括以下至少之一：信息熵差、基尼指数差、纯度差、KL散度。

3.根据权利要求2所述的方法，在所述安全指示参数包括信息熵差的情况下，所述根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数，包括：

根据所述目标属性的第一分布，计算目标属性的信息熵作为第一信息熵；

根据多种命中情况下的目标属性的第二分布，分别计算多种命中情况下的目标属性的信息熵，得到多种命中情况下的第二信息熵；

将所述第一信息熵，分别与所述多种命中情况下的第二信息熵作差，得到多个差值，作为多种命中情况下的安全指示参数。

4.根据权利要求1所述的方法，所述根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险，包括：

将所述多种命中情况下的安全指示参数分别与预设的安全阈值进行比较处理；

在确定所述多种命中情况下的安全指示参数中至少有一个命中情况下的安全指示参数大于预设的安全阈值的情况下，确定所述规则模型存在安全性风险。

5.根据权利要求4所述的方法，在确定所述多种命中情况下的安全指示参数中至少有一个命中情况下的安全指示参数大于预设的安全阈值的情况下，所述方法还包括：

将安全指示参数大于预设的安全阈值的命中情况，确定为风险命中情况；

统计样本集中属于所述风险命中情况的样本数据在所述样本集中的占比，作为风险样本占比；

比较所述风险样本占比和预设的占比阈值；

在确定所述风险样本占比大于所述预设的占比阈值的情况下，确定所述规则模型存在安全性风险。

6.根据权利要求1所述的方法，所述根据所述样本集，确定出目标属性的第一分布，包括：

统计所述样本集中目标属性的各个数据值的样本数据数量；

根据所述样本集中目标属性的各个数据值的样本数据数量，确定出样本集中目标属性的各个数据值的分布，作为所述目标属性的第一分布。

7.根据权利要求1所述的方法，所述利用所述规则模型处理所述样本集，以确定出多种命中情况下的目标属性的第二分布，包括：

利用所述规则模型处理所述样本集中的多个样本数据，得到多个样本数据的处理结果；其中，所述处理结果包括样本数据所命中的规则集的标识信息；

根据所述多个样本数据的处理结果，确定出样本数据所命中的规则集；

根据样本数据所命中的规则集，将所述多个样本数据划分为多种命中情况下的子样本集；

根据所述多种命中情况下的子样本集，确定出多种命中情况下目标属性的数据值分布，作为多种命中情况下的目标属性的第二分布。

8.根据权利要求1所述的方法，所述规则模型包括用于检测疾病的规则模型，相应的，所述规则集包括与用户的健康数据相关的判定规则。

9.根据权利要求8所述的方法，在根据多种命中情况下的安全指示参数，确定所述规则模型不存在安全性风险的情况下，所述方法还包括：

获取目标用户的身份标识；

根据所述目标用户的身份标识，查询用户的健康数据库，获取目标用户的健康数据；

利用所述规则模型处理目标用户的健康数据，得到对应的处理结果；其中，所述处理结果用于确定目标用户罹患预设疾病的风险。

10.根据权利要求2所述的方法，所述方法还包括：

筛选出多个安全指示参数，以构建安全指示参数组合；

根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数组合；

根据多种命中情况下的安全指示参数组合，确定所述规则模型是否存在安全性风险。

11.一种数据处理方法，包括：

获取目标属性的第一分布，以及目标属性的第二分布；

根据所述目标属性的第一分布，以及所述目标属性的第二分布，计算安全指示参数；

根据所述安全指示参数，确定所述目标属性的第一分布与所述目标属性的第二分布之间的差异程度。

12.根据权利要求11所述的方法，所述安全指示参数包括以下至少之一：信息熵差、基尼指数差、纯度差、KL散度。

13.一种规则模型的安全性的确定装置，包括：

获取模块，用于获取规则模型和样本集；其中，所述规则模型包括规则集，所述样本集包括多个样本数据；

第一确定模块，用于根据所述样本集，确定出目标属性的第一分布；根据所述样本集和所述规则模型，确定出多种命中情况下的目标属性的第二分布；

第二确定模块，用于根据所述目标属性的第一分布，和所述多种命中情况下的目标属性的第二分布，确定多种命中情况下的安全指示参数；

第三确定模块，用于根据多种命中情况下的安全指示参数，确定所述规则模型是否存在安全性风险。

14.一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至10，或11至12中任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至10，或11至12中任一项所述方法的步骤。