CN116050518A

CN116050518A - 一种知识图谱嵌入模型数据投毒效果评估方法

Info

Publication number: CN116050518A
Application number: CN202211426092.0A
Authority: CN
Inventors: 王乐; 朱东; 顾钊铨; 谢禹舜; 邓建宇; 谭灏南; 张欢
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-05-02

Abstract

本发明涉及知识图谱嵌入数据投毒领域，且公开了一种知识图谱嵌入模型数据投毒效果评估方法，在MRR的基础上兼顾了数据投毒的毒化性和隐蔽性，可以更好地衡量不同数据投毒攻击对于知识图谱的影响程度，可以更好地衡量对知识图谱嵌入数据投毒的效果；本发明提出的指标使得不同的数据投毒攻击在同一个模型上可以互相比较，通过调整参数a，指标可以偏向毒化性或者隐蔽性。

Description

一种知识图谱嵌入模型数据投毒效果评估方法

技术领域

本发明涉及知识图谱嵌入数据投毒领域，具体为一种知识图谱嵌入模型数据投毒效果评估方法。

背景技术

知识图谱是目前计算机科学研究的重要领域，知识图谱嵌入是知识图谱的一个重要分支，其目的是将知识图谱这种结构化的数据转化为高维向量，同时要保留知识图谱本身的语义和拓扑结构，从而方便知识图谱更好地为下游任务服务。随着知识图谱广泛地应用在语义搜索、推荐***、对话***等工业任务中，知识图谱嵌入任务受到研究者们的重视，而针对知识图谱嵌入任务的数据投毒也引起了研究者们的广泛关注。对知识图谱嵌入模型的数据投毒可以一定程度地降低知识图谱嵌入的准确性。

目前主要的投毒手段是针对知识图谱中的目标三元组投毒，理想的投毒结果是在知识图谱应用的过程中，当应用涉及到目标三元组时，知识图谱嵌入的性能会明显下降，而不涉及到目标三元组时，知识图谱嵌入的性能几乎不变。评价一个数据投毒攻击的好坏不仅要看这种投毒攻击针对目标三元组的毒化性能，也要看投毒策略对其他三元组的影响程度，对其他三元组的影响越大，越容易被使用者发现，因此对其它三元组影响越小越好，换言之就是评价一个数据投毒的好坏还要看这种投毒攻击的针对非目标三元组的隐蔽性能。

一般而言，攻击者做的毒化工作会先选择目标三元组，然后利用目标三元组产生毒化数据，例如，在论文“Data Poisoning Attack against Knowledge Graph Embedding”(Hengtong Zhang,Tianhang Zheng,Jing Gao:Data Poisoning Attack againstKnowledge Graph Embedding.IJCAI 2019:4853-4859)中作者通过知识图谱嵌入是实体嵌入的梯度下降最快的方向，设计了反方向的毒化数据，在使用者不知情的情况下，将毒化数据加入到训练集中，导致知识图谱嵌入性能下降。

目前存在一些针对知识图谱嵌入模型数据投毒的评估指标。和本发明最为接近的评估指标为MRR，MRR是知识图谱嵌入模型中常见的性能指标，在对知识图谱嵌入结果做三元组预测任务时，预测结果中正确结果排名倒数的平均值为MRR。除此之外还有相关指标MR和Hits@N，MR是预测结果中正确结果排名值的平均值，Hits@N是指在所有预测次数中，正确结果排名出现在前N的次数的比例。例如在知识图谱中，选择一个三元组(A，friend,B)，通过A和friend预测的结果有很多种可能，取其中B的排名，多次预测其他三元组求均值得到的结果为整个知识图谱嵌入模型的MR；取其中B的排名值的倒数，多次预测其他三元组求均值得到的结果为整个知识图谱嵌入模型的MRR；多次预测其他三元组，每次预测结果中，正确的实体排名如果在前N位，则计数一次，直到最后将计数次数除以预测次数得到的结果为Hits@N。这些指标可以反应知识图谱嵌入模型的性能，例如，在“Translating Embeddingsfor Modeling Multi-relational Data”(Antoine Bordes,Nicolas Usunier,AlbertoGarcía-Durán:Translating Embeddings for Modeling Multi-relational Data.NIPS2013:2787-2795)中作者通过MRR、和Hist@10来反应知识图谱嵌入模型TransE嵌入的性能。通过观察数据投毒前后指标的变化值可以反应数据投毒对知识图谱嵌入性能的破坏程度，例如，在“Poisoning Knowledge Graph Embeddings via Relation Inference Patterns”中，作者通过知识图谱的推理模式设计了三种数据投毒攻击方法，并直接使用MRR数值的下降程度来反应数据投毒的效果，但是这只是一定程度的反应了数据投毒的毒化性能。

上述方案中以MRR为例，使用MRR的下降数值可以反应数据投毒的毒化性能，但是不能反应数据投毒的隐蔽性能。这是因为当前的数据投毒实验中，只使用目标三元组作为测试集来测量MRR值，这导致MRR值只能反应目标三元组的嵌入性能下降程度。

在不同的知识图谱嵌入模型中，MRR的下降程度不能作为不同投毒策略的毒化性能比较标准，这是因为不同的知识图谱嵌入模型原本的MRR值不同，在不同的基础上下降的数值不具备可比较性，为此我们提出了一种知识图谱嵌入模型数据投毒效果评估方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种知识图谱嵌入模型数据投毒效果评估方法，通过设置毒化组和对照组，分别从毒化性和隐蔽性的角度衡量一种知识图谱嵌入投毒攻击的效果。

(二)技术方案

为实现上述所述目的，本发明提供如下技术方案：一种知识图谱嵌入模型数据投毒效果评估方法，包括以下步骤：

第一步：在对知识图谱嵌入模型做数据投毒攻击时，获取到毒化组A、对照组B以及平替组C；

第二步：以毒化组A的三元组作为毒化种子产生N个毒化三元组集合A_p；

第三步：在原始训练集中随机添加N个事实三元组数据，经过训练以后，分别以A、B和C为测试集获得目标模型的性能指标MRR的值为A_MRR、B_MRR和C_MRR；

第四步：在原始训练集中添加毒化三元组集合A_p,经过训练以后，分别以A、B和C为测试集获得毒化后模型的性能指标MRR的值为A'_MRR、B'_MRR和C'_MRR；

第五步：对比A_MRR、B_MRR和C_MRR与A'_MRR、B'_MRR和C'_MRR，A_MRR-A'_MRR的数值反应毒化组性能的下降，B_MRR-B'_MRR反应对照组性能的下降，B_MRR-C_MRR可以反应毒化前原始模型的泛化性能，B'_MRR-C'_MRR可以反应毒化后模型的泛化性能，将模型被毒化前后的泛化性引入计算公式。因此设计数据投毒攻击A的毒化性能指标Dp和隐蔽性指标Di：

优选的，所述第一步的具体内容为在对知识图谱嵌入模型做数据投毒攻击时，投毒攻击记为P，攻击成本为N，即可添加攻击三元组的数量为N，攻击者在选择N个目标三元组作为毒化组A后，另外随机产生与毒化组同分布的对照组B，以及从事实三元组中随机产生的平替组C，三组数据数量相等且都作为测试集。

优选的，所述定义D-score衡量投毒策略的综合性能，D-score的计算方法为毒化性Dp和隐蔽性Di的调和平均数；

D1的值公平兼顾了对知识图谱嵌入数据投毒的毒化性和隐蔽性，满足相同的毒化性Dp时，D1的值越高，隐蔽性Di越好，相同的隐蔽性Di时，D1的值越高，毒化性Dp越好，引入偏置参数a,定义Da的值为：

优选的，所述Da的定义使得当a＝2时，D-score更加关注投毒攻击的毒化性，当a＝0.5的时候，D-score更加关注投毒攻击的隐蔽性。

(三)有益效果

与现有技术相比，本发明提供了一种知识图谱嵌入模型数据投毒效果评估方法，具备以下有益效果：

1、该知识图谱嵌入模型数据投毒效果评估方法，实验方法思路清晰，指标计算简单且评价效果客观。

2、该知识图谱嵌入模型数据投毒效果评估方法，是设置对照组、毒化组和平替组，定义毒化性Dp和隐蔽性Di,弥补了过去实验中对比投毒攻击的实验效果时对隐蔽性的忽略，充分考虑模型泛化能力，且量化了毒化性和隐蔽性对比方法。

3、该知识图谱嵌入模型数据投毒效果评估方法，充分考虑了投毒攻击的衡量因素，通过D-score反应投毒攻击的综合效果，使得不同投毒攻击可以横向比较。

4、该知识图谱嵌入模型数据投毒效果评估方法，相比于使用MRR的下降程度反应投毒攻击的效果，本发明可以直观量化不同投毒攻击的毒化性和隐蔽性。本发明的D-score可以综合反应投毒攻击的效果。

附图说明

图1为P投毒方法毒化组的原理示意图；

图2为实验流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，一种知识图谱嵌入模型数据投毒效果评估方法，包括以下内容：

1.在对知识图谱嵌入模型做某种数据投毒攻击(记为P)时，攻击成本为N，即可添加攻击三元组的数量为N，攻击者在选择N个目标三元组作为毒化组A后，实验需要另外随机产生与毒化组同分布的对照组B，以及从事实三元组中随机产生的平替组C，三组数据数量相等且都作为测试集。

2.在产生毒化数据时，以毒化组A的三元组作为毒化种子产生N个毒化三元组集合A_p，而对照组和平替组不作任何操作。

3.在原始训练集中随机添加N个事实三元组数据，经过训练以后，分别以A、B和C为测试集获得目标模型的性能指标MRR的值为A_MRR、B_MRR和C_MRR。预计三组测试集的MRR值的数值非常接近。

4.在原始训练集中添加毒化三元组集合A_p,经过训练以后，分别以A、B和C为测试集获得毒化后模型的性能指标MRR的值为A'_MRR、B'_MRR和C'_MRR。

5.对比两组实验，A_MRR-A'_MRR的数值反应毒化组性能的下降，B_MRR-B'_MRR反应对照组性能的下降，B_MRR-C_MRR可以反应毒化前原始模型的泛化性能，B'_MRR-C'_MRR可以反应毒化后模型的泛化性能，考虑到泛化性对数据投毒攻击的影响，在设计毒化性指标和隐蔽性指标时将模型被毒化前后的泛化性引入计算公式。因此设计数据投毒攻击A的毒化性能指标Dp和隐蔽性指标Di：

毒化性Dp的设计中主要考虑了毒化组A的指标下降程度，在分母中考虑了毒化前后模型的泛化性能，Dp的数值越大说明数据投毒攻击的毒化性越强，Di的数值越大说明数据投毒攻击的隐蔽性越强。

定义D-score衡量投毒策略的综合性能，D-score的计算方法为毒化性Dp和隐蔽性Di的调和平均数，以方便观察不同的投毒攻击之间的效果差异。

D1的值公平兼顾了对知识图谱嵌入数据投毒的毒化性和隐蔽性。满足相同的毒化性Dp时，D1的值越高，隐蔽性Di越好；相同的隐蔽性Di时，D1的值越高，毒化性Dp越好。为了更好地使指标在不同的投毒策略中展示作用，引入偏置参数a,定义Da的值为

Da的定义使得当a＝2时，D-score更加关注投毒攻击的毒化性，当a＝0.5的时候，D-score更加关注投毒攻击的隐蔽性。

图1为本发明中的数据投毒实验毒化组原理流程图。

图中101是经过选择的目标三元组，即毒化组A，数量为N，该组数据将作为毒化种子，成为数据投毒中毒化数据产生的依据。102为经过数据投毒方法P的作用以后，在毒化组A的数据的基础上产生的毒化数据A_p,这组数据将用于投放到知识图谱嵌入模型中，产生毒化效果。103表示数据投毒方法，不同的数据投毒方法根据同一批毒化种子可能产生不同的毒化数据。

图2为本发明设计的P投毒方法下的实验流程图。

图中201为数据划分阶段，是在数据投毒之前的阶段；202是数据投毒模型训练阶段；203是数据投毒以后，模型的输出结果；211为数据投毒前，通过选择获得的目标三元组作为毒化组A，将作为毒化种子用来产生毒化数据；212为从随机选择的与毒化组同分布的对照组B；213为从事实三元组中随机选择的平替组C,三组实验数据数量相等，且三组数据都将作为测试集获得对应的知识图谱嵌入模型性能指标；221为原始训练集；222为平替组C中的实验数据，将原始训练集和平替组一起加入到目标模型中，经过训练得平替模型223；225为原始训练集，22为以毒化组A为毒化种子产生的毒化数据A_p，将两者作为原始模型的训练集，经过训练以后得到毒化模型224；分别以毒化组A、对照组B和平替组C作为测试集测试训练得到的平替模型和毒化模型，得到六组MRR数据，他们分别是203中平替模型的毒化组A_MRR、对照组B_MRR平替组C_MRR以及毒化模型的毒化组A'_MRR、对照组B'_MRR和平替组C'_MRR。

具体而言，以在transE模型在数据集FB15K-237上的实验结果为例，挑选目标节点为三元组预测时，选择3000个三元组作为毒化组A，生成一批与毒化组A同分布的对照组B，从事实三元组中随机挑选出平替组C，三组实验数据数量相同。将平替组C加入原始训练集，经过训练，transE模型在毒化组的MRR值为A_MRR＝0.644，在对照组的MRR值为B_MRR＝0.624，在平替组的MRR值为C_MRR＝0.612。在数据投毒攻击A实验中，以毒化组A作为种子产生了毒化数据A_p。将毒化数据A_p加入原始模型M中的训练集中，重新训练模型，再次分别以A、B和C作为测试集，得到毒化后的模型性能：A'_MRR＝0.502、B'_MRR＝0.555和C'_MRR＝5.562。

则计算X投毒攻击的毒化性为：

计算X投毒攻击的隐蔽性为

计算X投毒攻击D-score为

计算X投毒攻击的D2为

计算X投毒攻击的D0.5为

上述指标中，数值的大小表明该性能的优劣，数值越大，该性能越好。通过计算多种攻击方式的Dp、Di和D-score可以比较不同数据投毒攻击的毒化性、隐蔽性和综合性能。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种知识图谱嵌入模型数据投毒效果评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种知识图谱嵌入模型数据投毒效果评估方法，其特征在于：所述第一步的具体内容为在对知识图谱嵌入模型做数据投毒攻击时，投毒攻击记为P，攻击成本为N，即可添加攻击三元组的数量为N，攻击者在选择N个目标三元组作为毒化组A后，另外随机产生与毒化组同分布的对照组B，以及从事实三元组中随机产生的平替组C，三组数据数量相等且都作为测试集。

3.根据权利要求1所述的一种知识图谱嵌入模型数据投毒效果评估方法，其特征在于：所述定义D-score衡量投毒策略的综合性能，D-score的计算方法为毒化性Dp和隐蔽性Di的调和平均数；

4.根据权利要求3所述的一种知识图谱嵌入模型数据投毒效果评估方法，其特征在于：所述Da的定义使得当a＝2时，D-score更加关注投毒攻击的毒化性，当a＝0.5的时候，D-score更加关注投毒攻击的隐蔽性。