CN116050518A - 一种知识图谱嵌入模型数据投毒效果评估方法 - Google Patents

一种知识图谱嵌入模型数据投毒效果评估方法 Download PDF

Info

Publication number
CN116050518A
CN116050518A CN202211426092.0A CN202211426092A CN116050518A CN 116050518 A CN116050518 A CN 116050518A CN 202211426092 A CN202211426092 A CN 202211426092A CN 116050518 A CN116050518 A CN 116050518A
Authority
CN
China
Prior art keywords
poisoning
mrr
data
knowledge graph
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211426092.0A
Other languages
English (en)
Inventor
王乐
朱东
顾钊铨
谢禹舜
邓建宇
谭灏南
张欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202211426092.0A priority Critical patent/CN116050518A/zh
Publication of CN116050518A publication Critical patent/CN116050518A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及知识图谱嵌入数据投毒领域,且公开了一种知识图谱嵌入模型数据投毒效果评估方法,在MRR的基础上兼顾了数据投毒的毒化性和隐蔽性,可以更好地衡量不同数据投毒攻击对于知识图谱的影响程度,可以更好地衡量对知识图谱嵌入数据投毒的效果;本发明提出的指标使得不同的数据投毒攻击在同一个模型上可以互相比较,通过调整参数a,指标可以偏向毒化性或者隐蔽性。

Description

一种知识图谱嵌入模型数据投毒效果评估方法
技术领域
本发明涉及知识图谱嵌入数据投毒领域,具体为一种知识图谱嵌入模型数据投毒效果评估方法。
背景技术
知识图谱是目前计算机科学研究的重要领域,知识图谱嵌入是知识图谱的一个重要分支,其目的是将知识图谱这种结构化的数据转化为高维向量,同时要保留知识图谱本身的语义和拓扑结构,从而方便知识图谱更好地为下游任务服务。随着知识图谱广泛地应用在语义搜索、推荐***、对话***等工业任务中,知识图谱嵌入任务受到研究者们的重视,而针对知识图谱嵌入任务的数据投毒也引起了研究者们的广泛关注。对知识图谱嵌入模型的数据投毒可以一定程度地降低知识图谱嵌入的准确性。
目前主要的投毒手段是针对知识图谱中的目标三元组投毒,理想的投毒结果是在知识图谱应用的过程中,当应用涉及到目标三元组时,知识图谱嵌入的性能会明显下降,而不涉及到目标三元组时,知识图谱嵌入的性能几乎不变。评价一个数据投毒攻击的好坏不仅要看这种投毒攻击针对目标三元组的毒化性能,也要看投毒策略对其他三元组的影响程度,对其他三元组的影响越大,越容易被使用者发现,因此对其它三元组影响越小越好,换言之就是评价一个数据投毒的好坏还要看这种投毒攻击的针对非目标三元组的隐蔽性能。
一般而言,攻击者做的毒化工作会先选择目标三元组,然后利用目标三元组产生毒化数据,例如,在论文“Data Poisoning Attack against Knowledge Graph Embedding”(Hengtong Zhang,Tianhang Zheng,Jing Gao:Data Poisoning Attack againstKnowledge Graph Embedding.IJCAI 2019:4853-4859)中作者通过知识图谱嵌入是实体嵌入的梯度下降最快的方向,设计了反方向的毒化数据,在使用者不知情的情况下,将毒化数据加入到训练集中,导致知识图谱嵌入性能下降。
目前存在一些针对知识图谱嵌入模型数据投毒的评估指标。和本发明最为接近的评估指标为MRR,MRR是知识图谱嵌入模型中常见的性能指标,在对知识图谱嵌入结果做三元组预测任务时,预测结果中正确结果排名倒数的平均值为MRR。除此之外还有相关指标MR和Hits@N,MR是预测结果中正确结果排名值的平均值,Hits@N是指在所有预测次数中,正确结果排名出现在前N的次数的比例。例如在知识图谱中,选择一个三元组(A,friend,B),通过A和friend预测的结果有很多种可能,取其中B的排名,多次预测其他三元组求均值得到的结果为整个知识图谱嵌入模型的MR;取其中B的排名值的倒数,多次预测其他三元组求均值得到的结果为整个知识图谱嵌入模型的MRR;多次预测其他三元组,每次预测结果中,正确的实体排名如果在前N位,则计数一次,直到最后将计数次数除以预测次数得到的结果为Hits@N。这些指标可以反应知识图谱嵌入模型的性能,例如,在“Translating Embeddingsfor Modeling Multi-relational Data”(Antoine Bordes,Nicolas Usunier,AlbertoGarcía-Durán:Translating Embeddings for Modeling Multi-relational Data.NIPS2013:2787-2795)中作者通过MRR、和Hist@10来反应知识图谱嵌入模型TransE嵌入的性能。通过观察数据投毒前后指标的变化值可以反应数据投毒对知识图谱嵌入性能的破坏程度,例如,在“Poisoning Knowledge Graph Embeddings via Relation Inference Patterns”中,作者通过知识图谱的推理模式设计了三种数据投毒攻击方法,并直接使用MRR数值的下降程度来反应数据投毒的效果,但是这只是一定程度的反应了数据投毒的毒化性能。
上述方案中以MRR为例,使用MRR的下降数值可以反应数据投毒的毒化性能,但是不能反应数据投毒的隐蔽性能。这是因为当前的数据投毒实验中,只使用目标三元组作为测试集来测量MRR值,这导致MRR值只能反应目标三元组的嵌入性能下降程度。
在不同的知识图谱嵌入模型中,MRR的下降程度不能作为不同投毒策略的毒化性能比较标准,这是因为不同的知识图谱嵌入模型原本的MRR值不同,在不同的基础上下降的数值不具备可比较性,为此我们提出了一种知识图谱嵌入模型数据投毒效果评估方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种知识图谱嵌入模型数据投毒效果评估方法,通过设置毒化组和对照组,分别从毒化性和隐蔽性的角度衡量一种知识图谱嵌入投毒攻击的效果。
(二)技术方案
为实现上述所述目的,本发明提供如下技术方案:一种知识图谱嵌入模型数据投毒效果评估方法,包括以下步骤:
第一步:在对知识图谱嵌入模型做数据投毒攻击时,获取到毒化组A、对照组B以及平替组C;
第二步:以毒化组A的三元组作为毒化种子产生N个毒化三元组集合Ap
第三步:在原始训练集中随机添加N个事实三元组数据,经过训练以后,分别以A、B和C为测试集获得目标模型的性能指标MRR的值为AMRR、BMRR和CMRR
第四步:在原始训练集中添加毒化三元组集合Ap,经过训练以后,分别以A、B和C为测试集获得毒化后模型的性能指标MRR的值为A'MRR、B'MRR和C'MRR
第五步:对比AMRR、BMRR和CMRR与A'MRR、B'MRR和C'MRR,AMRR-A'MRR的数值反应毒化组性能的下降,BMRR-B'MRR反应对照组性能的下降,BMRR-CMRR可以反应毒化前原始模型的泛化性能,B'MRR-C'MRR可以反应毒化后模型的泛化性能,将模型被毒化前后的泛化性引入计算公式。因此设计数据投毒攻击A的毒化性能指标Dp和隐蔽性指标Di:
优选的,所述第一步的具体内容为在对知识图谱嵌入模型做数据投毒攻击时,投毒攻击记为P,攻击成本为N,即可添加攻击三元组的数量为N,攻击者在选择N个目标三元组作为毒化组A后,另外随机产生与毒化组同分布的对照组B,以及从事实三元组中随机产生的平替组C,三组数据数量相等且都作为测试集。
优选的,所述定义D-score衡量投毒策略的综合性能,D-score的计算方法为毒化性Dp和隐蔽性Di的调和平均数;
D1的值公平兼顾了对知识图谱嵌入数据投毒的毒化性和隐蔽性,满足相同的毒化性Dp时,D1的值越高,隐蔽性Di越好,相同的隐蔽性Di时,D1的值越高,毒化性Dp越好,引入偏置参数a,定义Da的值为:
优选的,所述Da的定义使得当a=2时,D-score更加关注投毒攻击的毒化性,当a=0.5的时候,D-score更加关注投毒攻击的隐蔽性。
(三)有益效果
与现有技术相比,本发明提供了一种知识图谱嵌入模型数据投毒效果评估方法,具备以下有益效果:
1、该知识图谱嵌入模型数据投毒效果评估方法,实验方法思路清晰,指标计算简单且评价效果客观。
2、该知识图谱嵌入模型数据投毒效果评估方法,是设置对照组、毒化组和平替组,定义毒化性Dp和隐蔽性Di,弥补了过去实验中对比投毒攻击的实验效果时对隐蔽性的忽略,充分考虑模型泛化能力,且量化了毒化性和隐蔽性对比方法。
3、该知识图谱嵌入模型数据投毒效果评估方法,充分考虑了投毒攻击的衡量因素,通过D-score反应投毒攻击的综合效果,使得不同投毒攻击可以横向比较。
4、该知识图谱嵌入模型数据投毒效果评估方法,相比于使用MRR的下降程度反应投毒攻击的效果,本发明可以直观量化不同投毒攻击的毒化性和隐蔽性。本发明的D-score可以综合反应投毒攻击的效果。
附图说明
图1为P投毒方法毒化组的原理示意图;
图2为实验流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,一种知识图谱嵌入模型数据投毒效果评估方法,包括以下内容:
1.在对知识图谱嵌入模型做某种数据投毒攻击(记为P)时,攻击成本为N,即可添加攻击三元组的数量为N,攻击者在选择N个目标三元组作为毒化组A后,实验需要另外随机产生与毒化组同分布的对照组B,以及从事实三元组中随机产生的平替组C,三组数据数量相等且都作为测试集。
2.在产生毒化数据时,以毒化组A的三元组作为毒化种子产生N个毒化三元组集合Ap,而对照组和平替组不作任何操作。
3.在原始训练集中随机添加N个事实三元组数据,经过训练以后,分别以A、B和C为测试集获得目标模型的性能指标MRR的值为AMRR、BMRR和CMRR。预计三组测试集的MRR值的数值非常接近。
4.在原始训练集中添加毒化三元组集合Ap,经过训练以后,分别以A、B和C为测试集获得毒化后模型的性能指标MRR的值为A'MRR、B'MRR和C'MRR
5.对比两组实验,AMRR-A'MRR的数值反应毒化组性能的下降,BMRR-B'MRR反应对照组性能的下降,BMRR-CMRR可以反应毒化前原始模型的泛化性能,B'MRR-C'MRR可以反应毒化后模型的泛化性能,考虑到泛化性对数据投毒攻击的影响,在设计毒化性指标和隐蔽性指标时将模型被毒化前后的泛化性引入计算公式。因此设计数据投毒攻击A的毒化性能指标Dp和隐蔽性指标Di:
毒化性Dp的设计中主要考虑了毒化组A的指标下降程度,在分母中考虑了毒化前后模型的泛化性能,Dp的数值越大说明数据投毒攻击的毒化性越强,Di的数值越大说明数据投毒攻击的隐蔽性越强。
定义D-score衡量投毒策略的综合性能,D-score的计算方法为毒化性Dp和隐蔽性Di的调和平均数,以方便观察不同的投毒攻击之间的效果差异。
D1的值公平兼顾了对知识图谱嵌入数据投毒的毒化性和隐蔽性。满足相同的毒化性Dp时,D1的值越高,隐蔽性Di越好;相同的隐蔽性Di时,D1的值越高,毒化性Dp越好。为了更好地使指标在不同的投毒策略中展示作用,引入偏置参数a,定义Da的值为
Da的定义使得当a=2时,D-score更加关注投毒攻击的毒化性,当a=0.5的时候,D-score更加关注投毒攻击的隐蔽性。
图1为本发明中的数据投毒实验毒化组原理流程图。
图中101是经过选择的目标三元组,即毒化组A,数量为N,该组数据将作为毒化种子,成为数据投毒中毒化数据产生的依据。102为经过数据投毒方法P的作用以后,在毒化组A的数据的基础上产生的毒化数据Ap,这组数据将用于投放到知识图谱嵌入模型中,产生毒化效果。103表示数据投毒方法,不同的数据投毒方法根据同一批毒化种子可能产生不同的毒化数据。
图2为本发明设计的P投毒方法下的实验流程图。
图中201为数据划分阶段,是在数据投毒之前的阶段;202是数据投毒模型训练阶段;203是数据投毒以后,模型的输出结果;211为数据投毒前,通过选择获得的目标三元组作为毒化组A,将作为毒化种子用来产生毒化数据;212为从随机选择的与毒化组同分布的对照组B;213为从事实三元组中随机选择的平替组C,三组实验数据数量相等,且三组数据都将作为测试集获得对应的知识图谱嵌入模型性能指标;221为原始训练集;222为平替组C中的实验数据,将原始训练集和平替组一起加入到目标模型中,经过训练得平替模型223;225为原始训练集,22为以毒化组A为毒化种子产生的毒化数据Ap,将两者作为原始模型的训练集,经过训练以后得到毒化模型224;分别以毒化组A、对照组B和平替组C作为测试集测试训练得到的平替模型和毒化模型,得到六组MRR数据,他们分别是203中平替模型的毒化组AMRR、对照组BMRR平替组CMRR以及毒化模型的毒化组A'MRR、对照组B'MRR和平替组C'MRR
具体而言,以在transE模型在数据集FB15K-237上的实验结果为例,挑选目标节点为三元组预测时,选择3000个三元组作为毒化组A,生成一批与毒化组A同分布的对照组B,从事实三元组中随机挑选出平替组C,三组实验数据数量相同。将平替组C加入原始训练集,经过训练,transE模型在毒化组的MRR值为AMRR=0.644,在对照组的MRR值为BMRR=0.624,在平替组的MRR值为CMRR=0.612。在数据投毒攻击A实验中,以毒化组A作为种子产生了毒化数据Ap。将毒化数据Ap加入原始模型M中的训练集中,重新训练模型,再次分别以A、B和C作为测试集,得到毒化后的模型性能:A'MRR=0.502、B'MRR=0.555和C'MRR=5.562。
则计算X投毒攻击的毒化性为:
计算X投毒攻击的隐蔽性为
计算X投毒攻击D-score为
计算X投毒攻击的D2为
计算X投毒攻击的D0.5为
上述指标中,数值的大小表明该性能的优劣,数值越大,该性能越好。通过计算多种攻击方式的Dp、Di和D-score可以比较不同数据投毒攻击的毒化性、隐蔽性和综合性能。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种知识图谱嵌入模型数据投毒效果评估方法,其特征在于,包括以下步骤:
第一步:在对知识图谱嵌入模型做数据投毒攻击时,获取到毒化组A、对照组B以及平替组C;
第二步:以毒化组A的三元组作为毒化种子产生N个毒化三元组集合Ap
第三步:在原始训练集中随机添加N个事实三元组数据,经过训练以后,分别以A、B和C为测试集获得目标模型的性能指标MRR的值为AMRR、BMRR和CMRR
第四步:在原始训练集中添加毒化三元组集合Ap,经过训练以后,分别以A、B和C为测试集获得毒化后模型的性能指标MRR的值为A'MRR、B'MRR和C'MRR
第五步:对比AMRR、BMRR和CMRR与A'MRR、B'MRR和C'MRR,AMRR-A'MRR的数值反应毒化组性能的下降,BMRR-B'MRR反应对照组性能的下降,BMRR-CMRR可以反应毒化前原始模型的泛化性能,B'MRR-C'MRR可以反应毒化后模型的泛化性能,将模型被毒化前后的泛化性引入计算公式。因此设计数据投毒攻击A的毒化性能指标Dp和隐蔽性指标Di:
Figure FDA0003942398310000011
Figure FDA0003942398310000012
2.根据权利要求1所述的一种知识图谱嵌入模型数据投毒效果评估方法,其特征在于:所述第一步的具体内容为在对知识图谱嵌入模型做数据投毒攻击时,投毒攻击记为P,攻击成本为N,即可添加攻击三元组的数量为N,攻击者在选择N个目标三元组作为毒化组A后,另外随机产生与毒化组同分布的对照组B,以及从事实三元组中随机产生的平替组C,三组数据数量相等且都作为测试集。
3.根据权利要求1所述的一种知识图谱嵌入模型数据投毒效果评估方法,其特征在于:所述定义D-score衡量投毒策略的综合性能,D-score的计算方法为毒化性Dp和隐蔽性Di的调和平均数;
Figure FDA0003942398310000013
D1的值公平兼顾了对知识图谱嵌入数据投毒的毒化性和隐蔽性,满足相同的毒化性Dp时,D1的值越高,隐蔽性Di越好,相同的隐蔽性Di时,D1的值越高,毒化性Dp越好,引入偏置参数a,定义Da的值为:
Figure FDA0003942398310000021
4.根据权利要求3所述的一种知识图谱嵌入模型数据投毒效果评估方法,其特征在于:所述Da的定义使得当a=2时,D-score更加关注投毒攻击的毒化性,当a=0.5的时候,D-score更加关注投毒攻击的隐蔽性。
CN202211426092.0A 2022-11-14 2022-11-14 一种知识图谱嵌入模型数据投毒效果评估方法 Pending CN116050518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211426092.0A CN116050518A (zh) 2022-11-14 2022-11-14 一种知识图谱嵌入模型数据投毒效果评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211426092.0A CN116050518A (zh) 2022-11-14 2022-11-14 一种知识图谱嵌入模型数据投毒效果评估方法

Publications (1)

Publication Number Publication Date
CN116050518A true CN116050518A (zh) 2023-05-02

Family

ID=86122514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211426092.0A Pending CN116050518A (zh) 2022-11-14 2022-11-14 一种知识图谱嵌入模型数据投毒效果评估方法

Country Status (1)

Country Link
CN (1) CN116050518A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952205A (zh) * 2024-03-26 2024-04-30 电子科技大学(深圳)高等研究院 一种针对知识图谱嵌入模型的后门攻击方法、***及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952205A (zh) * 2024-03-26 2024-04-30 电子科技大学(深圳)高等研究院 一种针对知识图谱嵌入模型的后门攻击方法、***及介质

Similar Documents

Publication Publication Date Title
Arezki et al. Can the natural resource curse be turned into a blessing? The role of trade policies and institutions
CN115809569B (zh) 基于耦合竞争失效模型的可靠性评价方法和装置
CN116050518A (zh) 一种知识图谱嵌入模型数据投毒效果评估方法
Pei et al. Transformer uncertainty estimation with hierarchical stochastic attention
Lai et al. A combined model based on feature selection and support vector machine for PM2. 5 prediction
Zhang et al. Exploring time factors in measuring the scientific impact of scholars
Seo et al. Reliable knowledge graph path representation learning
CN115640969A (zh) 一种基于设备状态与运行年限的电网运维成本分配方法
Castle et al. Using model selection algorithms to obtain reliable coefficient estimates
Zhou et al. Novel probabilistic neural network models combined with dissolved gas analysis for fault diagnosis of oil-immersed power transformers
Jiang et al. Ocean data anomaly detection algorithm based on improved k-medoids
Wang et al. Investigation of RBFNN Based on Improved PSO Optimization Algorithm for Performance and Emissions Prediction of a High‐Pressure Common‐Rail Diesel Engine
CN109614074A (zh) 基于概率转移矩阵模型的近似加法器可靠度计算方法
CN116701950B (zh) 一种推荐***用点击率预测模型去偏方法、装置及介质
CN111669410B (zh) 工控网络负例样本数据生成方法、装置、服务器和介质
Wang et al. Soft sensor modeling method by maximizing output-related variable characteristics based on a stacked autoencoder and maximal information coefficients
Maier et al. Indexing network structure with shortest-path trees
Zhang et al. Temporal Graph Contrastive Learning for Sequential Recommendation
Boonyakunakorn et al. Forecasting of Thailand's Rice Exports Price: Based on Ridge and Lasso Regression
Magnani et al. Anytime skyline query processing for interactive systems
CN114491699A (zh) 基于拓展区间数的三维cad软件易用性量化方法及装置
Yang et al. Adaptive density peak clustering for determinging cluster center
Li et al. Causal Reinforcement Learning for Knowledge Graph Reasoning
Yang et al. A statistical user-behavior trust evaluation algorithm based on cloud model
Li et al. Effective and Efficient Training for Sequential Recommendation Using Cumulative Cross-Entropy Loss

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination