CN112528316A

CN112528316A - 基于贝叶斯网络的隐私保护世系工作流发布方法

Info

Publication number: CN112528316A
Application number: CN202010984734.3A
Authority: CN
Inventors: 李昆明; 倪巍伟; 闫冬; 张鸿鸣
Original assignee: Southeast University; Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Southeast University; Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-03-19
Anticipated expiration: 2040-09-18
Also published as: CN112528316B

Abstract

本发明公开一种基于贝叶斯网络的隐私保护世系工作流发布方法，包括如下步骤：通过训练贝叶斯网络衡量世系工作流中模块间的依赖程度，评估不同模块在溯源查询的重要性不同；划分工作流中的强、弱关联模块，针对不同模块类型设计定制化隐藏处理方案，综合平衡隐私性与可用性，对强关联模块，保证在隐藏操作后原经过该模块的世系路径仍然保留；对弱关联模块，牺牲较弱关联依赖以保证隐私安全。本发明结合对隐私模块最小二分拆分方法与删除数据依赖方法，实现了在保护世系工作流模块隐私***露的同时有效维持溯源查询的可用性。

Description

基于贝叶斯网络的隐私保护世系工作流发布方法

技术领域

本发明涉及一种数据隐私保护发布方法，面向对象是世系工作流，在保护隐私模块信息***露同时兼顾溯源查询可用性维持。

背景技术

数据世系(Data Provenance)也被称为数据溯源，用于描述数据的来源与产生、演化过程，依据应用目标不同，数据世系的应用大致可划分为以下几类：数据质量评估、数据恢复、数据核查、数据引用。世系工作流(Provenance Workflow) 是数据世系的主要表现形式，工作流(Workflow)的概念起源于二十世纪八十年代，异构分布式执行环境逐步取代集中式信息处理，工作流技术被广泛应用到各类流程化交互场景中，作为一种流程形式的描述模型，工作流自身含有数据的产生与演化信息，是数据世系的重要表现形式。

功能模块作为世系工作流的主要构成元素，其输入数据与输出数据的关系可数学抽象为映射，即功能模块自身功能可通过映射表示，依据是否含有隐私信息，世系工作流中功能模块可分为公有模块和隐私模块，其中隐私模块通常是指该模块功能映射具有私有性，工作流所有者不愿将模块具体功能发布共享，世系工作流的模块隐私保护策略主要通过增/减边与聚合/拆分模块，避免攻击者通过输入输出数据逆推出模块的功能映射。

世系工作流的一个重要可用性表现为溯源信息查询，通过溯源结果进行辅助决策，溯源查询是对工作流执行中数据演化过程的查询，溯源查询要求结果中应包含正确的数据描述信息，且查询结果应避免包含无关冗余信息。溯源查询通常会包含如下查询类型：查询已知数据的历史源数据、查询数据在限定范围内的演化路径、查询多个数据的重叠世系，即公有模块和公有历史数据。但是，世系工作流自身可能含有隐私或敏感信息，对其直接发布可能会导致隐私泄露。已有世系工作流模块隐私保护方法存在以下不足：

(1)处理隐私模块时没有考虑模块是否处在世系工作流常用路径中，缺少对模块在溯源查询中重要性的关注，对不同重要性的模块采用相同隐藏策略，无法保证隐匿处理后重要路径信息的可用性。

(2)以模块聚合作为主要隐藏策略，缺乏对聚合模块的选择标准与范围控制，隐藏粒度较大时导致溯源查询可用性较大程度丢失。

发明内容

针对上述问题，基于平衡隐私性与可用性的多重隐私保护强度思想，本发明公开一种基于贝叶斯网络的隐私保护世系工作流发布方法，实现了在保护世系工作流模块隐私***露的同时有效维持溯源查询的可用性。

为实现上述发明目的，本发明采用的技术方案为一种隐私保护世系工作流共享发布方法，包括如下步骤：

步骤(1)基于原始工作流WF，独立重复的随机执行并收集工作流执行信息，记录一次执行中各数据流是否存在，作为一条样本s，形成样本集S；

步骤(2)依据所述步骤(1)中所获样本集合，训练获得贝叶斯网络BN的结构与参数；

步骤(3)基于所述步骤(2)中BN，评估不同模块在溯源查询的重要性不同，将工作流中隐私模块划分为强关联模块与弱关联模块；

步骤(4)根据出入度不同对模块分为四类：单输入单输出模块、单输入多输出模块、多输入单输出模块、多输入多输出模块，对隶属于上述某一类型的隐私模块，再细划分为强关联模块与弱关联模块；结合模块拆分方法与删除依赖方法，制定各个类型隐私模块的隐藏策略；

步骤(5)对原始工作流WF，给定隐私模块集合PriMs，依据步骤(4)，进行隐藏处理，得到发布工作流WF^*.

为便于后续描述，给定如下形式化定义：

功能模块(Module)工作流中的功能模块表示为一个四元组M＝(I^M,O^M,F^M, P^M)，其中：(1)I^M＝{in^M ₁,in^M ₂,…,in^M _u}为模块M的输入端口集合，O^M＝{out^M ₁,out^M ₂,…,out^M _v}为模块M的输出端口集合，且

即对同一模块不存在一个端口既是输入端口又是输出端口；

(2)F^M＝{f₁,f₂,…,f_v},其中f_i：out^M _i＝f_i(I^M)，模块的每个输出端口out^M _i对应映射f_i的因变量,输入端口集合I^M对应映射f_i的自变量；

(3)P^M＝{p^M ₁,p^M ₂,…,p^M _r}为模块M的r个可选参数集合。

世系工作流(Workflow)世系工作流表示为一个四元组WF＝(T,I,O,D),其中：(1)T＝{M₁,M₂,…,M_n}为世系工作流WF的处理模块集合；

(2)I＝{i₁,i₂,…,i_s}为世系工作流WF的全局输入数据集合(包含各模块的参数输入)，O＝{o₁,o₂,…,o_t}为世系工作流WF的全局输出数据集合，并且

即世系工作流中不存在一条数据流既是全局输出数据又是全局输入数据；

(3)D＝{d₁,d₂,…,d_k}为世系工作流WF中的数据流集合；

(4)

使得数据流出in^M后经由seq(d_i)又流入in^M，即WF是一个有向无环图。

所述步骤(1)中样本集生成方法为：记录工作流WF一次执行过程中数据流集合D＝{d₁,d₂,…,d_k}中各元素是否参与执行，若参与则记录为T，否则记录为F，形成一条样本s＝[d₁ ^T/F,d₂ ^T/F,…,d_k ^T/F]；随机独立重复实验n次，可得到总体样本集S＝{s_i|1≤i≤n}。通过进行n次独立重复的工作流执行，确定n个样本，继续后续的概率计算。

所述步骤(2)中单条件贝叶斯网络构建方法如下：

1)确定描述问题领域的变量集，对变量集的每个变量确定其状态和取值范围。以工作流WF中数据流集合D＝{d₁,d₂,…,d_k}作为网络中变量集，即网络节点集，变量取值为T/F，代表该数据流的存在性；

2)根据节点之间的概率依赖关系或先验依赖关系，确定从因变量到果变量之间的连接，确定网络结构。基于工作流WF＝(T,I,O,D)自身结构信息，将1)中网络节点采用有向边连接，构成有向无环图G＝(V,E)；权利要求3中步骤(1)(2) 中所涉及网络结构构建方法如下：

(a)对

与

创建为G中的一个节点，加入V；

(b)对模块M_k＝(I^Mk,O^Mk,F^Mk,P^Mk)∈T，遍历in^Mk∈I^Mk与out^Mk∈O^Mk，在V 中寻找in^Mk和out^Mk对应的节点v和u，若成功找到，则创建v→u的一条有向边，加入E；

(c)对(b)中模块M_k，遍历in^Mk∈I^Mk与out^Mk∈O^Mk，在V中寻找in^Mk和out^Mk对应的节点v和u，若成功找到，则创建v→u的一条有向边，加入E；

(d)经过上述步骤后得到贝叶斯网络结构G＝(V,E)。

3)由于训练样本集中S不存在丢失数据的情况，隶属于完整数据的参数学习，最大似然估计(MLE)方法学习条件概率此时退化成频度统计。学习得到参数信息(条件概率表CPT)后，贝叶斯网络构建结束。单条件贝叶斯网络参数学习算法描述如下：

(a)对G中每条边e＝<v,u>∈E，设置计数cnt_x_v＝0,cnt_x_vu＝0；

(b)对每条记录s∈S，若x_v存在于样本s中，cnt_x_v自增1；若x_v存在于样本s中并且x_u存在于样本s中，cnt_x_vu自增1；

(c)边e对应的条件概率

加入CPT；返回(a)，直至E中全部边的概率均已计算完成。依据样本集中的边是否存在，对边集E中所有的边e，计算依赖概率，得到边两端结点的依赖程度。

所述步骤(3)中强、弱关联模块划分方法如下：

对模块M＝(I^M,O^M,F^M,P^M)，若M满足：对

和

P(out^M|in^M) ≥α，则M为强关联模块；否则M为弱关联模块。其中，α为隐私概率阈值，P(out^M |in^M)表示模块M在输入in^M存在的条件下，输出out^M存在的条件概率。基于上述对模块M的强弱关联模块划分方法，将工作流WF的模块集合T＝{M₁,M₂,…, M_n}中元素划分为强/弱关联模块。

所述步骤(4)中隐私保护策略具体如下：

1)单输入单输出类型模块

对于单输入单输出类型模块，在输入数据存在情况下，输出数据必存在，因此为强关联模块，如图2所示，在模块M参与某一次工作流执行的情况下，即输入数据d_x存在的条件下，输出数据d_y必定存在，因此P(d_y|d_x)＝1。对该类型模块，若被世系工作流所有者认定为隐私模块，在发布图中以单条数据流d_xy取代整个模块，保留原d_x→d_y路径，不会影响溯源路径的查询。

2)单输入多输出类型模块

对于单输入多输出类型模块，如图3(a)所示，

(a)若模块M为强关联模块，将M的多个输出分离，对模块M进行拆分，同时保证输入与多个输出的关联仍然存在。为保证干扰信息最小化，将M拆分为两个子模块M₁和M₂，如图3(b)所示；

(b)若模块M为弱关联模块，将模块M的最弱关联删除，即删去在贝叶斯网中该模块涉及到的条件概率中最小的依赖关系d_x→d_y，在发布图中，模块M 需要隐藏掉输出d_y对应的端口。为保证工作流图结构的连通性，需要考虑以下两点：

①若以d_y为输入数据的模块N是多输入模块，删去M对应输出d_y的端口不会破坏工作流图结构的连通性，将N的输入d_y的端口删除并将原d_y表征为输入参数加入N；

②若以d_y为输入数据的模块N是单输入模块，即模块N只有d_y一个输入，若按1)中隐藏方案，会导致N缺失输入端口，不符合工作流定义。M在删去对应d_y的输出端口的同时，向前回溯找到其父模块MP，为MP增加输出端口至N 的输出端口，保证工作流结构完整性。

3)多输入单输出类型模块

对于多输入单输出类型模块，

(a)若模块M为强关联模块，将M的多个输入分离，对模块M进行拆分，同时保证多个输入与输出的关联仍然存在。为保证干扰信息最小化，将M最小拆分为两个子模块M₁和M₂，

(b)若模块为弱关联模块，将模块M的最弱关联删除，即删去在贝叶斯网中该模块涉及到的条件概率中最小的依赖关系d_x→d_z，在发布图中，模块M需要隐藏掉输入d_x对应的端口。为保证工作流图结构的连通性，需要考虑以下两点：

①若以d_x为输出数据的模块N是多输出模块，删去M对应输入d_x的端口不会破坏工作流图结构的连通性，将M的输入d_x的端口删除并将原d_x表征为输入参数加入M；

②若以d_x为输出数据的模块N是单输出模块，即模块只有d_x一个输出，若按1)中隐藏方案，会导致N缺失输出端口，不符合工作流定义。M在删去对应 d_x的输入端口的同时，向后找到其后继模块MC，为MC增加输入端口，调整N 输出端口对应至MC输入端口，保证工作流结构完整性。

4)多输入多输出类型模块

对于多输入多输出类型模块，该类型模块可看作是单输入多输出类型模块与多输入单输出类型模块的综合形式。

(a)若模块M为强关联模块，将M的多个输入或者输出分离，对模块M进行拆分，同时保证多个输入与多个输出的关联仍然存在，为保证干扰信息最小化，将M拆分为两个子模块M₁和M₂。若分离输入数据，则将M的输入端口分离至 M₁和M₂的输入端口，M的输出端口作为M₂的输出端口；若分离输出数据，则将M的输出端口分离至M₁和M₂的输出端口，M的输入数据作为M₁的输入端口。

(b)若模块M为弱关联模块，

①若

即某个输出端口

对所有输入端口的关联依赖概率均小于隐私概率阈值α，在发布图中隐藏输出端口

在隐藏输出端口时，与模块输入端口个数无关，因此(2)中弱关联模块隐藏策略同样适用于隐藏

例如，P(d_e|d_a)<α∧P(d_e|d_b)<α∧P(d_e|d_c)<α，隐藏M中d_e对应输出端口。

②若

即所有输出端口对某个输入端口in^M _i的关联依赖概率均小于隐私概率阈值α,在发布图中隐藏输入端口in^M _i，在隐藏输入端口时，与模块输出端口个数无关，因此(3)中弱关联模块隐藏策略同样适用于隐藏in^M _i。例如，P(d_d|d_a)<α∧P(d_e|d_a)<α∧P(d_f|d_a)<α，隐藏M中d_a对应输入端口。

③其他情况下采用强关联模块策略进行拆分隐藏。对多输入多输出类型模块，当①②都不满足的情况下，无法通过隐藏确定的某条输入边或输出边进行隐私保护手段；因此采用较弱隐藏策略，即模块拆分作为隐私手段。

所述步骤(5)中世系工作流隐私保护发布方法具体如下：对原始工作流WF，给定隐私模块集合PriMs，对PriMs中每个模块M按照步骤(5)判定具体类型并进行隐藏操作，得到发布工作流图WF^*。

相对于现有技术，本发明的优点如下：该技术方案针对已有面向模块隐私的保护方法割裂了模块与工作流结构间的关系，未兼顾模块在数据演化过程中所起到的重要程度，导致发布的世系工作流存在溯源查询可用性较差等问题，提出基于贝叶斯网络的隐私保护世系工作流发布方法。通过采集大量工作流随机执行过程中的模块参与样本，构建贝叶斯网络模型，衡量工作流中相关模块间的依赖程度，从而确定不同隐私模块在工作流溯源查询中所起作用；提出针对个性化模块隐私的保护方法，基于所构建贝叶斯网络，划分工作流的强、弱关联模块，设计不同隐藏策略，将对隐私模块的隐藏处理维持在工作流局部从而减少对原工作流结构的修改，以维持溯源查询可用性。

附图说明

图1为本发明方法整体流程图；

图2为单输入单输出类型模块隐私保护策略图；

图3为单输入多输出类型模块隐私保护策略图；

图4为多输入单输出类型模块隐私保护策略图；

图5为多输入多输出类型模块隐私保护策略图；

图6为原始世系工作流WF；

图7为WF对应贝叶斯网络结构；

图8为发布世系工作流WF^*。

具体实施方式

为了加深对本发明的认识和理解，下面结合附图和实施方式对本发明做详细的说明。

实施例1：为实现上述发明目的，本发明采用的技术方案为一种隐私保护世系工作流共享发布方法，包括如下步骤(如图1所示)：

为便于后续描述，给定如下形式化定义：

功能模块(Module)工作流中的功能模块表示为一个四元组M＝(I^M,O^M,F^M, P^M)，其中：(1)I^M＝{in^M ₁,in^M ₂,…,in^M _u}为模块M的输入端口集合， O^M＝{out^M ₁,out^M ₂,…,out^M _v}为模块M的输出端口集合，且

即对同一模块不存在一个端口既是输入端口又是输出端口；

(3)P^M＝{p^M ₁,p^M ₂,…,p^M _r}为模块M的r个可选参数集合。

(3)D＝{d₁,d₂,…,d_k}为世系工作流WF中的数据流集合；

(4)

所述步骤(1)中样本集生成方法为：记录工作流WF一次执行过程中数据流集合D＝{d₁,d₂,…,d_k}中各元素是否参与执行，若参与则记录为T，否则记录为F，形成一条样本s＝[d₁ ^T/F,d₂ ^T/F,…,d_k ^T/F]；随机独立重复实验n次，可得到总体样本集S＝{s_i|1≤i≤n}；

所述步骤(2)中单条件贝叶斯网络构建方法如下：

(a)对

与

创建为G中的一个节点，加入V；

(d)经过上述步骤后得到贝叶斯网络结构G＝(V,E)。

(a)对G中每条边e＝<v,u>∈E，设置计数cnt_x_v＝0,cnt_x_vu＝0；

(c)边e对应的条件概率

加入CPT；返回(a)，直至E中全部边的概率均已计算完成。

所述步骤(3)中强、弱关联模块划分方法如下：

对模块M＝(I^M,O^M,F^M,P^M)，若M满足：对

和

所述步骤(4)中隐私保护策略具体如下：

5)单输入单输出类型模块

6)单输入多输出类型模块

对于单输入多输出类型模块，如图3(a)所示，

①若以d_y为输入数据的模块N是多输入模块，删去M对应输出d_y的端口不会破坏工作流图结构的连通性，将N的输入d_y的端口删除并将原d_y表征为输入参数加入N，如图3(c)所示；

②若以d_y为输入数据的模块N是单输入模块，即模块N只有d_y一个输入，若按1)中隐藏方案，会导致N缺失输入端口，不符合工作流定义。M在删去对应d_y的输出端口的同时，向前回溯找到其父模块MP，为MP增加输出端口至N 的输出端口，保证工作流结构完整性。如图3(d)所示。

7)多输入单输出类型模块

对于多输入单输出类型模块，如图4(a)所示：

(a)若模块M为强关联模块，将M的多个输入分离，对模块M进行拆分，同时保证多个输入与输出的关联仍然存在。为保证干扰信息最小化，将M最小拆分为两个子模块M₁和M₂，如图4(b)所示；

①若以d_x为输出数据的模块N是多输出模块，删去M对应输入d_x的端口不会破坏工作流图结构的连通性，将M的输入d_x的端口删除并将原d_x表征为输入参数加入M，如图4(c)所示；

②若以d_x为输出数据的模块N是单输出模块，即模块只有d_x一个输出，若按1)中隐藏方案，会导致N缺失输出端口，不符合工作流定义。M在删去对应 d_x的输入端口的同时，向后找到其后继模块MC，为MC增加输入端口，调整N 输出端口对应至MC输入端口，保证工作流结构完整性。如图4(d)所示。

8)多输入多输出类型模块

对于多输入多输出类型模块，如图5(a)所示，该类型模块可看作是单输入多输出类型模块与多输入单输出类型模块的综合形式。

(a)若模块M为强关联模块，将M的多个输入或者输出分离，对模块M进行拆分，同时保证多个输入与多个输出的关联仍然存在，为保证干扰信息最小化，将M拆分为两个子模块M₁和M₂。若分离输入数据，则将M的输入端口分离至 M₁和M₂的输入端口，M的输出端口作为M₂的输出端口，如图5(b)所示；若分离输出数据，则将M的输出端口分离至M₁和M₂的输出端口，M的输入数据作为M₁的输入端口，如图5(c)所示。

(b)若模块M为弱关联模块，

①若

即某个输出端口

例如，P(d_e|d_a)<α∧P(d_e|d_b)<α∧P(d_e|d_c)<α，隐藏M中d_e对应输出端口，如图5(d)所示。

②若

即所有输出端口对某个输入端口in^M _i的关联依赖概率均小于隐私概率阈值α,在发布图中隐藏输入端口in^M _i，在隐藏输入端口时，与模块输出端口个数无关，因此(3)中弱关联模块隐藏策略同样适用于隐藏in^M _i。例如，P(d_d|d_a)<α∧P(d_e|d_a)<α∧P(d_f|d_a)<α，隐藏M中d_a对应输入端口，如图5(e)所示。

③其他情况下采用强关联模块策略进行拆分隐藏。

所述步骤(5)世系工作流隐私保护发布方法具体如下：对原始工作流WF，给定隐私模块集合PriMs，对PriMs中每个模块M按照步骤(5)判定具体类型并进行隐藏操作，得到发布工作流图WF^*。

应用实施例：

如图6所示为一个世系工作流WF，T＝{M₁,M₂,…,M₇,M₈}，I＝{i₁,p₂,p₃,p₄}， O＝{o₁,o₂}，D＝{d₁,d₂,d₃,…,d₁₂,d₁₃}。独立重复的对世系工作流WF执行30次，并记录数据流存在性，得到样本集如下：

S＝{[0,1,0,0,0,0,1,0,1,1,1,0,0],

[1,1,0,0,1,0,0,1,1,0,1,1,0],

[0,1,0,0,0,0,0,1,1,1,1,1,0]，

[0,0,0,1,1,0,1,1,0,0,0,0,1],

……

[1,1,0,1,1,1,1,0,0,0,0,0,1]}

依据发明内容步骤(2)(3)中算法Construct SC-BN，可得到单条件贝叶斯网络结构如图7。根据步骤(2)(3)中算法Parameter Learning in SC-BN，可获得网络中条件概率表。

i₁→d₁：

d₂→d₄：

……

d₁₃→o₂：

基于上述d_i→d_j条件概率表中Pr(d_j＝T|d_i＝T)的值，根据步骤(3)中强、弱关联模块定义，将给定隐私模块集合PriMs＝{M₂,M₅}中模块M₂和M₅进行模块类型判定。依据上述条件概率信息，若

则判定M₂为强关联模块，且M₂属于多输入单输出类型模块，则按照图4(b)中所描述策略，对M₂模块最小二分拆分；而

且

判定M₅为弱关联模块，且M₅属于多输入多输出类型模块，可知

所有输出端口(d₁₀,d₁₁)对输入端口d₇关联依赖概率均小于隐私概率阈值α，在发布图中隐藏输入端口d₇。通过上述隐藏过程，可得到发布工作流图WF^*如图8所示。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于贝叶斯网络的隐私保护世系工作流发布方法，其特征在于，包括以下步骤：

步骤(1)：基于原始工作流WF，独立重复的随机执行并收集工作流执行信息，记录一次执行中各数据流是否存在，作为一条样本s，形成样本集S；

步骤(2)：依据步骤(1)中所获样本集合，训练获得贝叶斯网络BN的结构与参数；步骤(3)：基于步骤(2)中BN，评估不同模块在溯源查询的重要性不同，将工作流中隐私模块划分为强关联模块与弱关联模块；

步骤(4)：根据出入度不同对模块分为四类：单输入单输出模块、单输入多输出模块、多输入单输出模块、多输入多输出模块，对隶属于上述某一类型的隐私模块，再细划分为强关联模块与弱关联模块；结合模块拆分方法与删除依赖方法，制定各个类型隐私模块的隐藏策略；

步骤(5)：对原始工作流WF，给定隐私模块集合PriMs，依据步骤(4)，进行隐藏处理，得到发布工作流WF^*；

为便于后续描述，给定如下形式化定义：

功能模块(Module)工作流中的功能模块表示为一个四元组M＝(I^M,O^M,F^M,P^M)，其中：(1)I^M＝{in^M ₁,in^M ₂,…,in^M _u}为模块M的输入端口集合，O^M＝{out^M ₁,out^M ₂,…,out^M _v}为模块M的输出端口集合，且

即对同一模块不存在一个端口既是输入端口又是输出端口；

(3)P^M＝{p^M ₁,p^M ₂,…,p^M _r}为模块M的r个可选参数集合；

(3)D＝{d₁,d₂,…,d_k}为世系工作流WF中的数据流集合；

(4)

2.根据权利要求1中所述贝叶斯网络的隐私保护世系工作流发布方法，其特征在于，所述步骤(1)中样本集生成方法为：记录工作流WF一次执行过程中数据流集合D＝{d₁,d₂,…,d_k}中各元素是否参与执行，若参与则记录为T，否则记录为F，形成一条样本s＝[d₁ ^T/F,d₂ ^T ^/F,…,d_k ^T/F]；随机独立重复实验n次，可得到总体样本集S＝{s_i|1≤i≤n}。

3.根据权利要求1中所述贝叶斯网络的隐私保护世系工作流发布方法，其特征在于，所述步骤(2)中单条件贝叶斯网络构建方法如下：

单条件贝叶斯网络(SC-BN,Single Condition Bayesian Network)G＝(V,E)表示为一个有向无环图(DAG)，其中，V代表图中所有节点集合，E代表图中有向边集合，令x_v为G中某节点v∈V所代表的随机变量；

e表示v→u的一条边，e的权值对应P(x_u|x_v)，表示在x_v是否存在的条件下x_u是否存在的条件概率；

(1)确定描述问题领域的变量集，对变量集的每个变量确定其状态和取值范围，以工作流WF中数据流集合D＝{d₁,d₂,…,d_k}作为网络中变量集，即网络节点集，变量取值为T/F，代表该数据流的存在性；

(2)根据节点之间的概率依赖关系或先验依赖关系，确定从因变量到果变量之间的连接，确定网络结构。基于工作流WF＝(T,I,O,D)自身结构信息，将(1)中网络节点采用有向边连接，构成有向无环图G＝(V,E)；权利要求3中步骤(1)(2)中所涉及网络结构构建方法如下：

(a)对

与

创建为G中的一个节点，加入V；

(b)对模块M_k＝(I^Mk,O^Mk,F^Mk,P^Mk)∈T，遍历in^Mk∈I^Mk与out^Mk∈O^Mk，在V中寻找in^Mk和out^Mk对应的节点v和u，若成功找到，则创建v→u的一条有向边，加入E；

(d)经过上述步骤后得到贝叶斯网络结构G＝(V,E)；

(3)由于训练样本集S中不存在丢失数据的情况，隶属于完整数据的参数学习，最大似然估计(MLE)方法学习条件概率此时退化成频度统计，学习得到参数信息(条件概率表CPT)后，贝叶斯网络构建结束，单条件贝叶斯网络参数学习方法描述如下：

(a)对G中每条边e＝<v,u>∈E，设置计数cnt_x_v＝0,cnt_x_vu＝0；

(c)边e对应的条件概率

加入CPT；返回(a)，直至E中全部边的概率均已计算完成。

4.根据权利要求1中所述贝叶斯网络的隐私保护世系工作流发布方法，其特征在于，所述步骤(3)中强、弱关联模块划分方法如下：

强/弱关联模块：对模块M＝(I^M,O^M,F^M,P^M)，若M满足：对

和

P(out^M|in^M)≥α，则M为强关联模块；否则M为弱关联模块，其中，α为隐私概率阈值，P(out^M|in^M)表示模块M在输入in^M存在的条件下，输出out^M存在的条件概率；

基于上述定义，将工作流WF的模块集合T＝{M₁,M₂,…,M_n}中元素划分为强/弱关联模块。

5.根据权利要求1中所述贝叶斯网络的隐私保护世系工作流发布方法，其特征在于，所述步骤(4)中隐私保护策略具体如下：

(1)单输入单输出类型模块：

对于单输入单输出类型模块，在输入数据存在情况下，输出数据必存在，因此为强关联模块，在模块M参与某一次工作流执行的情况下，即输入数据d_x存在的条件下，输出数据d_y必定存在，因此P(d_y|d_x)＝1，对该类型模块，若被世系工作流所有者认定为隐私模块，在发布图中以单条数据流d_xy取代整个模块，保留原d_x→d_y路径，不会影响溯源路径的查询；

(2)单输入多输出类型模块：

对于单输入多输出类型模块，

(a)若模块M为强关联模块，将M的多个输出分离，对模块M进行拆分，同时保证输入与多个输出的关联仍然存在。为保证干扰信息最小化，将M拆分为两个子模块M₁和M₂，

(b)若模块M为弱关联模块，将模块M的最弱关联删除，即删去在贝叶斯网中该模块涉及到的条件概率中最小的依赖关系d_x→d_y，在发布图中，模块M需要隐藏掉输出d_y对应的端口，为保证工作流图结构的连通性，需要考虑以下两点：

①若以d_y为输入数据的模块N是多输入模块，删去M对应输出d_y的端口不会破坏工作流图结构的连通性，将N的输入d_y的端口删除并将原d_y表征为输入参数加入N，

②若以d_y为输入数据的模块N是单输入模块，即模块N只有d_y一个输入，若按1)中隐藏方案，会导致N缺失输入端口，不符合工作流定义,M在删去对应d_y的输出端口的同时，向前回溯找到其父模块MP，为MP增加输出端口至N的输出端口，保证工作流结构完整性。

(3)多输入单输出类型模块

对于多输入单输出类型模块，

(b)若模块为弱关联模块，将模块M的最弱关联删除，即删去在贝叶斯网中该模块涉及到的条件概率中最小的依赖关系d_x→d_z，在发布图中，模块M需要隐藏掉输入d_x对应的端口；为保证工作流图结构的连通性，需要考虑以下两点：

①若以d_x为输出数据的模块N是多输出模块，删去M对应输入d_x的端口不会破坏工作流图结构的连通性，将M的输入d_x的端口删除并将原d_x表征为输入参数加入M，

②若以d_x为输出数据的模块N是单输出模块，即模块只有d_x一个输出，若按1)中隐藏方案，会导致N缺失输出端口，不符合工作流定义。M在删去对应d_x的输入端口的同时，向后找到其后继模块MC，为MC增加输入端口，调整N输出端口对应至MC输入端口，保证工作流结构完整性。

(4)多输入多输出类型模块：

对于多输入多输出类型模块，该类型模块可看作是单输入多输出类型模块与多输入单输出类型模块的综合形式；

(a)若模块M为强关联模块，将M的多个输入或者输出分离，对模块M进行拆分，同时保证多个输入与多个输出的关联仍然存在，为保证干扰信息最小化，将M拆分为两个子模块M₁和M₂。若分离输入数据，则将M的输入端口分离至M₁和M₂的输入端口，M的输出端口作为M₂的输出端口，若分离输出数据，则将M的输出端口分离至M₁和M₂的输出端口，M的输入数据作为M₁的输入端口，

(b)若模块M为弱关联模块，

①若

P(out^M _j|in^M _i)＜α，即某个输出端口out^M _j对所有输入端口的关联依赖概率均小于隐私概率阈值α，在发布图中隐藏输出端口out^M _j，在隐藏输出端口时，与模块输入端口个数无关，因此(2)中弱关联模块隐藏策略同样适用于隐藏out^M _j。例如，P(d_e|d_a)＜α∧P(d_e|d_b)＜α∧P(d_e|d_c)＜α，隐藏M中d_e对应输出端口，如图5(d)所示。

②若

P(out^M _j|in^M _i)＜α，即所有输出端口对某个输入端口in^M _i的关联依赖概率均小于隐私概率阈值α,在发布图中隐藏输入端口in^M _i，在隐藏输入端口时，与模块输出端口个数无关，因此(3)中弱关联模块隐藏策略同样适用于隐藏in^M _i。例如，P(d_d|d_a)＜α∧P(d_e|d_a)＜α∧P(d_f|d_a)＜α，隐藏M中d_a对应输入端口，

③其他情况下采用强关联模块策略进行拆分隐藏。

6.根据权利要求1中所述基于贝叶斯网络的隐私保护世系工作流发布方法，其特征在于，所述步骤(5)中世系工作流隐私保护发布方法具体如下：对原始工作流WF，给定隐私模块集合PriMs，对PriMs中每个模块M按照步骤(5)判定具体类型并进行隐藏操作，得到发布工作流图WF^*。