CN113301017A - 基于联邦学习的攻击检测与防御方法、装置及存储介质 - Google Patents

基于联邦学习的攻击检测与防御方法、装置及存储介质 Download PDF

Info

Publication number
CN113301017A
CN113301017A CN202110436624.8A CN202110436624A CN113301017A CN 113301017 A CN113301017 A CN 113301017A CN 202110436624 A CN202110436624 A CN 202110436624A CN 113301017 A CN113301017 A CN 113301017A
Authority
CN
China
Prior art keywords
model
value
suspicious
original
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110436624.8A
Other languages
English (en)
Other versions
CN113301017B (zh
Inventor
公茂果
高原
王善峰
武越
王钊
唐泽栋
刘志丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Xidian University
Original Assignee
Huawei Technologies Co Ltd
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Xidian University filed Critical Huawei Technologies Co Ltd
Priority to CN202110436624.8A priority Critical patent/CN113301017B/zh
Publication of CN113301017A publication Critical patent/CN113301017A/zh
Application granted granted Critical
Publication of CN113301017B publication Critical patent/CN113301017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于联邦学习的攻击检测与防御方法,包括:根据原始模型的模型参数,将原始模型聚类为多个模型集合;确定每个模型集合对应的第一可疑度值;将第一可疑度值超出第一预设阈值的模型集合确定为异常集合,并计算异常集合中每个原始模型的第二可疑度值;将第一可疑度值未超出第一预设阈值的模型集合确定为正常集合,并将正常集合对应的第一可疑度值确定为正常集合中每个原始模型的第二可疑度值;按照预设可疑度计算规则,计算第二可疑度值,以得到第三可疑度值;将第三可疑度值超过第二预设阈值的客户端,从服务器中删除。本发明能够在大规模客户端的应用场景下,针对全部的攻击种类,进行高效率高准确度的检测与防御,且鲁棒性强。

Description

基于联邦学习的攻击检测与防御方法、装置及存储介质
技术领域
本发明属于人工智能领域,具体涉及一种基于联邦学习的攻击检测与防御方法、装置及存储介质。
背景技术
随着各界对用户数据安全性的重视,本领域技术人员提出了联邦学***均聚合,得到新的模型,将所述新的模型分发给参与下一轮训练的参与者继续进行训练,以实现基于用户数据安全的多参与者共同建模。
所述联邦学习技术存在安全隐患,如:当攻击者控制一台或多台参与者时,攻击者能够对参与者进行恶意投毒,包括但不局限于修改标签、植入后门等操作,从而会通过参与者向服务器传递恶意数据,导致建模失败,或者,被植入后门。
现有技术中针对上述安全隐患提出的检测防御机制仍存在许多问题。首先,大部分防御机制受限于客户端的数量,当客户端数目超过客户端总数的一定比例时,防御机制会失效;其次,现有防御机制的防御攻击种类单一,基本上仅能针对特定的攻击种类进行防御,其防御机制无法通用于多数或者全部的攻击种类;另外,现有防御机制在执行防御任务时,耗时长,效率低,会占用大量的计算资源,不适用于大规模联邦学习的应用场景。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种攻击检测与防御方法、装置及***。本发明要解决的技术问题通过以下技术方案实现:
一种基于联邦学习的攻击检测与防御方法,应用于服务器,所述服务器连接有多个客户端,所述客户端上部署有原始模型,所述方法包括:
根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合;
确定每个模型集合对应的第一可疑度值;
将所述第一可疑度值超出第一预设阈值的模型集合确定为异常集合,并计算所述异常集合中每个原始模型的第二可疑度值;
将所述第一可疑度值未超出第一预设阈值的模型集合确定为正常集合,并将所述正常集合对应的第一可疑度值确定为所述正常集合中每个原始模型的第二可疑度值;
按照预设可疑度计算规则,对所述第二可疑度进行计算,以得到第三可疑度值;
将所述第三可疑度值超过第二预设阈值的所述原始模型,从所述服务器中删除。
在本发明的一个实施例中,所述根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合,包括:
按照预设模型选取规则,在多个所述原始模型中确定一个参考模型;
根据所述原始模型与所述参考模型的相似度值,对所述原始模型聚类,以得到多个模型集合。
在本发明的一个实施例中,所述确定每个模型集合对应的第一可疑度值,包括:
获取每个模型集合对应的代表模型;
获取所述代表模型的权重值;
根据所述权重值,确定每个代表模型对应的第一可疑度值;
其中,所述权重值越高,则所述权重值对应的所述第一可疑度值越低。
本发明的有益效果:
本发明能够在大规模客户端应用的场景下,通过先进行原始模型聚类,之后对聚类后的模型集合进行可疑度检测,并且通过仅对异常集合中的原始模型进行进一步的可疑度检测的方式,极大地减少了需要进行攻击检测的模型量级,提高了攻击检测的效率和现实可用性;本发明还能够基于第三可疑度值删除异常原始模型,具有高效的防御能力以及鲁棒性;另外,本发明针对不同攻击的种类均能实现,能够扩大攻击检测与防御的应用范围。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于联邦学习的攻击检测与防御方法示意图;
图2是本发明实施例提供的一种基于联邦学习的攻击检测与防御装置结构示意图;
图3发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1是本发明实施例提供的一种基于联邦学习的攻击检测与防御方法示意图,应用于服务器,所述服务器连接有多个客户端,所述客户端上部署有原始模型,所述方法包括:
步骤101,根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合。
所述服务器与多个客户端连接通信,所述客户端会将其部署的原始模型上传至所述服务器,所述服务器会获取所述原始模型的模型参数。所述原始模型指的是客户端基于本地数据训练得到的模型。
可选的,所述模型参数为神经元权重。
攻击者会在客户端训练原始模型的过程中攻击客户端或攻击本地数据及数据标签,如,使本地数据分布极端化、标记错误。
受到攻击的客户端侧与正常客户端侧具有差异,这些差异体现在:受到攻击的客户端侧训练得到的原始模型与正常客户端训练得到的原始模型的模型参数中神经网络分布不同,如神经元权重不同。需要说明的是,通常模型参数中神经网络分布具有多层结构,且具有千万量级及超高维多元分布等特点。
本发明可以在服务器端基于模型参数对原始模型进行聚类,所述聚类方法由本领域技术人员按照业务需要进行选择,本发明不做限制,示例如,所述聚类方法采用匹配聚类算法、神经网络聚类算法或无监督聚类算法等。由于模型参数的不同,原始模型能够被聚类为多个模型集合。当攻击类型发生变化时,本发明可以通过动态替换聚类方法的方式,针对不同攻击类型进行有效地防御。
可选的,所述服务器包括中心服务器和边缘服务器。
可选的,所述步骤101应用于所述边缘服务器。
本发明可以将所述步骤101部署在所述边缘服务器上进行,所述边缘服务器可以将聚类后的模型集合发送给所述中心服务器,由所述中心服务器进行后续操作,从而能够极大地缓解中心服务器的计算压力,尤其是大规模客户端应用的场景下,能够提高后续操作的效率。
可选的,所述步骤101,包括:
步骤S11,按照预设模型选取规则,在多个所述原始模型中确定一个参考模型。
步骤S12,按照预设动态聚类规则,计算所述原始模型与所述参考模型的相似度值。
步骤S13,根据所述相似度值,对所述原始模型进行聚类。
所述预设模型选取规则由本领域技术人员按照业务需要进行设置,本发明不做限制,示例如,所述预设模型选取规则为在多个所述原始模型中随机确定一个参考模型。
所述预设动态聚类规则由本领域技术人员按照业务需要进行设置,本发明不做限制,示例如,所述预设动态聚类规则中聚类算法包括无监督聚类算法、匹配聚类算法或神经网络聚类算法等。本发明能够基于预设动态聚类规则,计算所述原始模型与所述参考模型的相似度值,能够动态替换聚类规则中的聚类方法,从而灵活的针对不同类型的攻击进行有效地防御。
通过预设动态聚类规则能够计算所述原始模型与所述参考模型的相似度值。示例如,随机选择的参考模型为一个被攻击的原始模型,通过无监督聚类算法,自适应地计算所述参考模型与其他原始模型之间的离群值(相似度值),将离群值高的原始模型聚为A类,将离群值低的原始模型聚为B类。
步骤102,确定每个模型集合对应的第一可疑度值。
可选的,所述步骤102,包括:
步骤S21,获取每个模型集合对应的代表模型。
可选的,所述步骤S21,包括:对同一模型集合中的所有原始模型进行平均池化,以分别获取每个模型集合对应的代表模型。
示例如,A类模型集合中包括三个原始模型,本发明可以通过平均池化聚合所述三个原始模型,得到A类模型集合对应的代表模型。
步骤S22,获取所述代表模型的权重值。
可选的,所述服务器中部署有预设共享数据。
可选的,所述步骤S22,包括:
步骤S221,通过所述代表模型分析所述预设共享数据。
所述预设共享数据指的是未被任何攻击者攻击的正常数据。本发明可以通过所述代表模型分析所述预设共享数据,以检测所述代表模型是否存在异常。
步骤S222,根据分析结果,确定所述代表模型的分析准确度。
示例如,所述预设共享数据为多个小猫照片,服务器连接有三个客户端,分别为1号、2号和3号,攻击者在1号客户端将小猫照片的标签修改为小狗,本发明根据三个客户端的原始模型的模型参数,将原始模型聚合为两类,其中,A类模型集合中包括1号原始模型,B类模型集合中包括2号、3号原始模型,进一步,通过A类模型集合的代表模型分析所述预设共享数据中的小猫照片,分析结果为“小狗”,通过B类模型集合的代表模型分析所述预设共享数据中的小猫照片,分析结果为“小猫”,从而确定A类代表模型的分析准确度低,B类代表模型的分析准确度高。
步骤S223,根据所述分析准确度,确定所述代表模型的权重值;其中,所述分析准确度越高,则所述分析准确度对应的所述权重值越高。
本发明可以基于所述代表模型的分析准确度,为所述代表模型分配权重值,所述分析准确度越高,则所述分析准确度对应的所述权重值越高。示例如,将分析准确度分为四个档:极低、较低、较高和极高,极低分配权重值0.1,较低分配权重值0.4,较高分配权重值0.6,极高分配权重值0.9。需要说明的是,本发明对所述分析准确度的划分规则不做限制,以及对所述权重值的分配方法不做限制。
示例如,使用贝叶斯优化方法为代表模型分配权重值。
可选的,所述步骤S22之后,所述方法还包括:根据所述权重值,将所有所述代表模型聚合为一个联邦模型。
联邦学习技术的步骤是:各客户端基于本地数据训练得到原始模型,将原始模型上传给服务器,服务器将多个原始模型进行聚合,得到一个共有的联邦模型,并将所述联邦模型分发给客户端进行下一轮训练,在所述下一轮训练中,各客户端基于本地数据和所述联邦模型训练得到新的原始模型,并获取所述服务器基于所述新的原始模型聚合得到的新的联邦模型,重复进行后续训练。
当攻击者在客户端侧进行攻击后,服务器会接收到被攻击的原始模型,基于被攻击的所述原始模型聚合得到的联邦模型,存在极大的安全隐患。本发明能够为不同的代表模型分配权重值,其中,权重值越高,说明所述代表模型的可疑度越低,对于联邦模型的贡献越小,根据所述权重值对所述代表模型进行聚合,能够得到安全系数高的联邦模型,尤其在大规模客户端应用的场景下,能够极大地限制被攻击的原始模型对联邦模型的影响,能够使服务器具有极高的攻击防御性能。
示例如,服务器连接有100个客户端,其中10号和20号客户端被攻击者攻击,得到A类模型集合包括10号和20号客户端对应的原始模型,B类、C类、D类模型集合包括其他客户端对应的原始模型。A类模型集合对应的代表模型分配的权重值为0.01,其他代表模型分配的权重值为0.99,则在服务器按照所述权重值聚合代表模型,则A类模型集合对聚合得到的联邦模型的影响极小。
步骤S23,根据所述权重值,确定每个代表模型对应的第一可疑度值;其中,所述权重值越高,则所述权重值对应的所述第一可疑度值越低。
所述代表模型的权重值越高,说明所述代表模型的分析准确度越高,则所述代表模型的可疑度越低。示例如,极低分配权重值0.1且第一可疑度值为10分,较低分配权重值0.4且第一可疑度值为6分,较高分配权重值0.6且第一可疑度值为4分,极高分配权重值0.9且第一可疑度值为0分。
需要说明的是,本发明对确定所述第一可疑度值的方法不作具体限制,示例如,取所述权重值的倒数作为第一可疑度值。
可选的,所述步骤102之后,所述方法还包括:按照预设第一阈值计算规则,对所述第一可疑度值进行计算,以动态获取所述第一预设阈值。
所述第一预设阈值用于判定所述第一可疑度值是否异常,从而判定所述第一可疑度值对应的模型集合是否为异常集合。
需要说明的是,所述预设第一阈值计算规则由本领域技术人员根据业务需要进行设置,本发明对此不做具体限制。示例如,使用最大类间差算法动态计算所述第一预设阈值。
通过动态阈值划分策略能够使正常集合和异常模型的类内方差最小,类间方差最大,能够在不同应用场景、不同攻击方式和不同异常客户端比例情况下,对第一可疑度值进行划分,以得到最优的第一预设阈值,能够高效地区分正常集合和异常集合,能够提高攻击检测与防御的准确度。
示例如,A代表模型第一可疑度值为10分,B代表模型第一可疑度值为6分,C代表模型第一可疑度值为4分,D代表模型第一可疑度值为0分,按照预设第一阈值计算规则对所述第一可疑度值进行计算,动态获取第一预设阈值为8分。
步骤103,将所述第一可疑度值超出第一预设阈值的模型集合确定为异常集合,并计算所述异常集合中每个原始模型的第二可疑度值。
对异常集合中的原始模型进行进一步的计算,以在异常集合中进一步确定异常原始模型。本发明能够仅对异常集合(高可疑度值)中的原始模型进行细化可疑度值计算,不需要对所有原始模型计算,能够减少服务器的计算量级,缩短攻击检测与防御耗时,提升攻击检测与防御效率。
另外,由于代表模型对预设共享数据的分析,可能会发生分析异常等状况,为了避免对代表模型的可疑度值进行的误判,本发明能够在确定异常集合之后,进一步对异常模型中的原始模型的可疑度值进行细化计算,能够提高攻击检测与防御的准确度。
可选的,所述步骤103,包括:
步骤S31,基于所述预设共享数据,计算所述异常集合中的每个原始模型的分布距离值。
步骤S32,根据所述分布距离值,确定所述异常集合中的每个原始模型的第二可疑度值。
进一步的,本发明能够计算异常集合中的原始模型基于预设共享数据的分布距离值,所述分布距离如欧式距离。分布距离值越大,说明原始模型越可疑,其第二可疑度值越高,所述分布距离值与第二可疑度值呈现正相关。
示例如,预设共享数据对应的分布为[0.2,0.2,0.2,0.2,0.2],所述异常集合中包括1号原始模型和2号原始模型,1号原始模型的分布为[0.2,0.2,0.2,0.2,0.2],2号原始模型的分布为[0.4,0.2,0.2,0.1,0.1],则欧式距离为:0.2+0.1+0.1=0.4。
所述分布距离值能够体现原始模型在预设共享数据上的输出分布,与所述预设共享数据真实标签分布的JS(Jensen-Shannon)散度信息。
可选的,所述根据所述分布距离值,确定所述异常集合中的每个原始模型的第二可疑度值,包括:根据所述分布距离值,按照预设异常集合可疑度计算规则,确定所述异常集合中的每个原始模型的第二可疑度值。
需要说明的是,所述预设异常集合可疑度计算规则由本领域技术人员根据业务需要进行设置,本发明对此不做限制。
示例如,将所述预设异常集合可疑度计算规则设置为:将分布距离值的倒数作为第二可疑度值,如:分布距离值0.1,则确定第二可疑度值为1;分布距离值0.4,则确定第二可疑度值为4。
又一示例如,将所述预设异常集合可疑度计算规则设置为:将分布距离值的倒数,再加上所述异常集合对应的第一可疑度值得到的和值,作为第二可疑度值,如:异常集合对应的第一可疑度值为8,异常集合中包括1号原始模型和2号原始模型,1号原始模型对应的分布距离值0.1,其倒数为1,则确定第二可疑度值为1+8=9;2号原始模型对应的分布距离值0.4,其倒数为4,则确定第二可疑度值为4+8=12。
步骤104,将所述第一可疑度值未超出第一预设阈值的模型集合确定为正常集合,并将所述正常集合对应的第一可疑度值确定为所述正常集合中每个原始模型的第二可疑度值。
示例如,第一预设阈值为5分,C类模型集合的代表模型的第一可疑度值为1分,D类模型集合的代表模型的第一可疑度值为3分,C类、D类模型集合为正常集合,则确定C类模型集合中各个原始模型的第二可疑度值均为1分,D类模型集合中各个原始模型的第二可疑度值均为3分。
本发明能够对于低可疑度值的模型集合,直接使用代表模型的可疑度值作为集合内每个原始模型的可疑度值,能够减少服务器的计算量,提高攻击检测与防御的效率
本发明可以将确定第一可疑度值的步骤,称为初步防御,将确定第二可疑度值的步骤,称为细化防御。通过确定第二可疑度值,能够为每个客户端分配一个可疑度值,能清晰地展示每个客户端在每一轮联邦模型训练中的可疑程度,第二可疑度值越大,对应的客户端越可能已被攻击,提高了追溯攻击者的效率和准确度。
可选的,所述步骤104之后,所述方法还包括:记录每个客户端对应的原始模型的第二可疑度值。
联邦学习技术能够不断基于上一轮得到的联邦模型进行新的联邦模型的训练,在每一轮联邦模型训练过程中,均会执行本发明所述的方法,并记录每一轮训练过程中,每个客户端对应的原始模型的第二可疑度值。
步骤105,按照预设可疑度计算规则,对所述第二可疑度值进行计算,以得到每个客户端对应的第三可疑度值。
需要说明的是,所述预设可疑度计算规则由本领域技术人员根据业务需要进行设置,本发明不做限制。
示例如,所述预设可疑度计算规则为:将历史训练得到的第二可疑度值进行累加。第一轮训练:1号客户端对应的第二可疑度值为4分,2号客户端对应的第二可疑度值为1分,3号客户端对应的第二可疑度值为9分;第二轮训练:1号客户端对应的第二可疑度值为5分,2号客户端对应的第二可疑度值为0分,3号客户端对应的第二可疑度值为7分;第三轮训练:1号客户端对应的第二可疑度值为0分,2号客户端对应的第二可疑度值为1分,3号客户端对应的第二可疑度值为8分。按照所述预设可疑度计算规则,计算得到:1号客户端对应的第三可疑度值为9分,2号客户端对应的第二可疑度值为2分,3号客户端对应的第二可疑度值为24分。本发明能够将每个客户端的历史可疑度纳入检测,基于历史第二可疑度值获得第三可疑度值,能够避免对客户端的误判,如,将被攻击的客户端划为正常客户端,或,将正常客户端划为被攻击的客户端。
又示例如,所述预设可疑度计算规则为:根据历史训练中第二可疑度值的变化趋势确定每个客户端对应的第三可疑度值。具体的,计算K轮历史训练中第二可疑度值的变化趋势,当客户端的第二可疑度值持续上升时,确定所述客户端的第三可疑度值较高。
又示例如,所述预设可疑度计算规则为:根据历史训练中第二可疑度值的排名次序确定每个客户端对应的第三可疑度值。具体的,计算K轮历史训练中第二可疑度值的排名次序,当客户端的第二可疑度值持续排名前列时,确定所述客户端的第三可疑度值较高。
步骤106,将所述第三可疑度值超过第二预设阈值的所述客户端,从所述服务器中删除。
将所述第三可疑度值超过第二预设阈值的客户端确定为被攻击(异常)的客户端,并将其从服务器中删除,以实现攻击防御功能,保证其余客户端的安全性以及训练得到联邦模型的可靠性。
本发明基于第一可疑度值、第二可疑度值和第三可疑度值进行多层攻击检测与防御,能够不受异常客户端数量的限制,尤其能够在高异常客户端比例的情况下,有效地进行攻击检测与防御,提高鲁棒性。
可选的,所述步骤106之前,所述方法还包括:按照预设第二阈值计算规则,对所述第三可疑度值进行计算,以动态获取所述第二预设阈值。
需要说明的是,所述预设第二阈值计算规则由本领域技术人员根据业务需要进行设置,本发明对此不做具体限制。示例如,使用最大类间差算法动态计算所述第二预设阈值。
通过动态阈值划分策略能够在不同应用场景、不同攻击方式和不同异常客户端比例情况下,对第三可疑度值进行划分,以得到最优的第二预设阈值,能够高效地区分正常客户端和异常客户端,能够进一步提高攻击检测与防御的准确度。
综上,本发明能够在大规模客户端应用的场景下,通过先进行原始模型聚类,之后对聚类后的模型集合进行可疑度检测,并且通过仅对异常集合中的原始模型进行进一步的可疑度检测的方式,极大地减少了需要进行攻击检测的模型量级,提高了攻击检测的效率和现实可用性;本发明还能够基于第三可疑度值删除异常客户端,具有高效的防御能力以及鲁棒性;另外,本发明针对不同攻击的种类均能实现,能够扩大攻击检测与防御的应用范围。
实施例二
请参见图2,图2是本发明实施例提供的一种基于联邦学习的攻击检测与防御装置结构示意图,应用于服务器,所述服务器连接有多个客户端,所述客户端上部署有原始模型,所述装置包括:
聚类模块201,用于根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合。
确定集合可疑度模块202,用于确定每个模型集合对应的第一可疑度值。
第一确定模型可疑度模块203,用于将所述第一可疑度值超出第一预设阈值的模型集合确定为异常集合,并计算所述异常集合中每个原始模型的第二可疑度值。
第二确定模型可疑度模块204,用于将所述第一可疑度值未超出第一预设阈值的模型集合确定为正常集合,并将所述正常集合对应的第一可疑度值确定为所述正常集合中每个原始模型的第二可疑度值。
计算模块205,用于按照预设可疑度计算规则,对所述第二可疑度值进行计算,以得到第三可疑度值。
删除模块206,用于将所述第三可疑度值超过第二预设阈值的所述原始模型,从所述服务器中删除。
可选的,所述聚类模块201,包括:
确定参考模型子模块,用于按照预设模型选取规则,在多个所述原始模型中确定一个参考模型。
计算相似度子模块,用于按照预设动态聚类规则,计算所述原始模型与所述参考模型的相似度值。
聚类子模块,用于根据所述相似度值,对所述原始模型进行聚类。
可选的,所述确定集合可疑度模块202,包括:
获取代表模型子模块,用于获取每个模型集合对应的代表模型。
获取权重值子模块,用于获取所述代表模型的权重值。
第一确定模型可疑度子模块,用于根据所述权重值,确定每个代表模型对应的第一可疑度值;其中,所述权重值越高,则所述权重值对应的所述第一可疑度值越低。
可选的,所述获取代表模型子模块,包括:
获取代表模型单元,用于对同一模型集合中的所有原始模型进行平均池化,以分别获取每个模型集合对应的代表模型。
可选的,所述服务器中部署有预设共享数据。
可选的,所述获取权重值子模块,包括:
分析单元,用于通过所述代表模型分析所述预设共享数据。
确定准确度单元,用于根据分析结果,确定所述代表模型的分析准确度。
确定权重值单元,用于根据所述分析准确度,确定所述代表模型的权重值;其中,所述分析准确度越高,则所述分析准确度对应的所述权重值越高。
可选的,所述装置还包括:
聚合模块,根据所述权重值,将所有所述代表模型聚合为一个联邦模型。
可选的,所述计算模块205,包括:
计算分布距离值子模块,用于基于所述预设共享数据,计算所述异常集合中的每个原始模型的分布距离值。
第二确定模型可疑度子模块,用于根据所述分布距离值,确定所述异常集合中的每个原始模型的第二可疑度值。
可选的,所述装置还包括:
动态获取模块,用于按照预设第一阈值计算规则,对所述第一可疑度值进行计算,以动态获取所述第一预设阈值。
综上,本发明能够在大规模客户端应用的场景下,通过先进行原始模型聚类,之后对聚类后的模型集合进行可疑度检测,并且通过仅对异常集合中的原始模型进行进一步的可疑度检测的方式,极大地减少了需要进行攻击检测的模型量级,提高了攻击检测的效率和现实可用性;本发明还能够基于第三可疑度值删除异常客户端,具有高效的防御能力以及鲁棒性;另外,本发明针对不同攻击的种类均能实现,能够扩大攻击检测与防御的应用范围。
实施例三
本发明实施例还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合;
确定每个模型集合对应的第一可疑度值;
将所述第一可疑度值超出第一预设阈值的模型集合确定为异常集合,并计算所述异常集合中每个原始模型的第二可疑度值;
将所述第一可疑度值未超出第一预设阈值的模型集合确定为正常集合,并将所述正常集合对应的第一可疑度值确定为所述正常集合中每个原始模型的第二可疑度值;
按照预设可疑度计算规则,对所述第二可疑度值进行计算,以得到每个客户端对应的第三可疑度值;
将所述第三可疑度值超过第二预设阈值的所述客户端,从所述服务器中删除。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。
对于装置/电子设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本发明实施例的装置、电子设备及存储介质分别是应用上述基于联邦学习的攻击检测与防御方法的装置、电子设备及存储介质,则上述基于联邦学习的攻击检测与防御方法的所有实施例均适用于该装置、电子设备及存储介质,且均能达到相同或相似的有益效果。
应用本发明实施例所提供的终端设备,可以展示专有名词和/或固定词组供用户选择,进而减少用户输入时间,提高用户体验。
该终端设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子装置。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式,这里将它们都统称为“模块”或“***”。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信***。
本申请是参照本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于联邦学习的攻击检测与防御方法,其特征在于,应用于服务器,所述服务器连接有多个客户端,所述客户端上部署有原始模型,所述方法包括:
根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合;
确定每个模型集合对应的第一可疑度值;
将所述第一可疑度值超出第一预设阈值的模型集合确定为异常集合,并计算所述异常集合中每个原始模型的第二可疑度值;
将所述第一可疑度值未超出第一预设阈值的模型集合确定为正常集合,并将所述正常集合对应的第一可疑度值确定为所述正常集合中每个原始模型的第二可疑度值;
按照预设可疑度计算规则,对所述第二可疑度值进行计算,以得到每个客户端对应的第三可疑度值;
将所述第三可疑度值超过第二预设阈值的所述客户端,从所述服务器中删除。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合,包括:
按照预设模型选取规则,在多个所述原始模型中确定一个参考模型;
按照预设动态聚类规则,计算所述原始模型与所述参考模型的相似度值;
根据所述相似度值,对所述原始模型进行聚类。
3.根据权利要求1所述的方法,其特征在于,所述确定每个模型集合对应的第一可疑度值,包括:
获取每个模型集合对应的代表模型;
获取所述代表模型的权重值;
根据所述权重值,确定每个代表模型对应的第一可疑度值;
其中,所述权重值越高,则所述权重值对应的所述第一可疑度值越低。
4.根据权利要求3所述的方法,其特征在于,所述获取每个模型集合对应的代表模型,包括:
对同一模型集合中的所有原始模型进行平均池化,以分别获取每个模型集合对应的代表模型;
所述服务器中部署有预设共享数据,所述获取所述代表模型的权重值,包括:
通过所述代表模型分析所述预设共享数据;
根据分析结果,确定所述代表模型的分析准确度;
根据所述分析准确度,确定所述代表模型的权重值;
其中,所述分析准确度越高,则所述分析准确度对应的所述权重值越高。
5.根据权利要求3所述的方法,其特征在于,所述获取所述代表模型的权重值之后,所述方法还包括:
根据所述权重值,将所有所述代表模型聚合为一个联邦模型。
6.根据权利要求4所述的方法,其特征在于,所述计算所述异常集合中每个原始模型的第二可疑度值,包括:
基于所述预设共享数据,计算所述异常集合中的每个原始模型的分布距离值;
根据所述分布距离值,确定所述异常集合中的每个原始模型的第二可疑度值。
7.根据权利要求1所述的方法,其特征在于,所述确定每个模型集合对应的第一可疑度值之后,所述方法还包括:
按照预设第一阈值计算规则,对所述第一可疑度值进行计算,以动态获取所述第一预设阈值。
8.一种基于联邦学习的攻击检测与防御装置,其特征在于,应用于服务器,所述服务器连接有多个客户端,所述客户端上部署有原始模型,所述装置包括:
聚类模块,用于根据所述原始模型的模型参数,将所述原始模型聚类为多个模型集合;
确定集合可疑度模块,用于确定每个模型集合对应的第一可疑度值;
第一确定模型可疑度模块,用于将所述第一可疑度值超出第一预设阈值的模型集合确定为异常集合,并计算所述异常集合中每个原始模型的第二可疑度值;
第二确定模型可疑度模块,用于将所述第一可疑度值未超出第一预设阈值的模型集合确定为正常集合,并将所述正常集合对应的第一可疑度值确定为所述正常集合中每个原始模型的第二可疑度值;
计算模块,用于按照预设可疑度计算规则,对所述第二可疑度值进行计算,以得到每个客户端对应的第三可疑度值;
删除模块,用于将所述第三可疑度值超过第二预设阈值的所述客户端,从所述服务器中删除。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202110436624.8A 2021-04-22 2021-04-22 基于联邦学习的攻击检测与防御方法、装置及存储介质 Active CN113301017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436624.8A CN113301017B (zh) 2021-04-22 2021-04-22 基于联邦学习的攻击检测与防御方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436624.8A CN113301017B (zh) 2021-04-22 2021-04-22 基于联邦学习的攻击检测与防御方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113301017A true CN113301017A (zh) 2021-08-24
CN113301017B CN113301017B (zh) 2022-04-08

Family

ID=77320055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436624.8A Active CN113301017B (zh) 2021-04-22 2021-04-22 基于联邦学习的攻击检测与防御方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113301017B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330750A (zh) * 2021-12-31 2022-04-12 西南民族大学 一种联邦学习毒化攻击检测方法
CN114567605A (zh) * 2022-02-28 2022-05-31 天翼安全科技有限公司 一种安全引擎的调度方法、装置及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300049A1 (en) * 2015-04-09 2016-10-13 Qualcomm Incorporated Machine-learning behavioral analysis to detect device theft and unauthorized device usage
US20180322363A1 (en) * 2015-03-26 2018-11-08 Oracle International Corporation Multi-distance clustering
CN109873812A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 异常检测方法、装置及计算机设备
CN111310938A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
CN111460443A (zh) * 2020-05-28 2020-07-28 南京大学 一种联邦学习中数据操纵攻击的安全防御方法
CN111800411A (zh) * 2020-07-02 2020-10-20 支付宝(杭州)信息技术有限公司 保护隐私的业务预测模型联合更新方法及装置
CN112181666A (zh) * 2020-10-26 2021-01-05 华侨大学 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、***、设备和可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180322363A1 (en) * 2015-03-26 2018-11-08 Oracle International Corporation Multi-distance clustering
US20160300049A1 (en) * 2015-04-09 2016-10-13 Qualcomm Incorporated Machine-learning behavioral analysis to detect device theft and unauthorized device usage
CN109873812A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 异常检测方法、装置及计算机设备
CN111310938A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
CN111460443A (zh) * 2020-05-28 2020-07-28 南京大学 一种联邦学习中数据操纵攻击的安全防御方法
CN111800411A (zh) * 2020-07-02 2020-10-20 支付宝(杭州)信息技术有限公司 保护隐私的业务预测模型联合更新方法及装置
CN112181666A (zh) * 2020-10-26 2021-01-05 华侨大学 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、***、设备和可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李亚娥: "基于图的半监督分类算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
王壮壮: "联邦学习与数据安全研究综述", 《智能计算机与应用》 *
王欣等: "基于度量阈值裁决的WSN恶意节点筛选算法", 《计算机工程与设计》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330750A (zh) * 2021-12-31 2022-04-12 西南民族大学 一种联邦学习毒化攻击检测方法
CN114567605A (zh) * 2022-02-28 2022-05-31 天翼安全科技有限公司 一种安全引擎的调度方法、装置及可读存储介质
CN114567605B (zh) * 2022-02-28 2023-12-01 天翼安全科技有限公司 一种安全引擎的调度方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN113301017B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN110990631A (zh) 视频筛选方法、装置、电子设备和存储介质
US11250322B2 (en) Self-healing machine learning system for transformed data
CN113301017B (zh) 基于联邦学习的攻击检测与防御方法、装置及存储介质
CN110177108A (zh) 一种异常行为检测方法、装置及验证***
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及***
CN109871490B (zh) 媒体资源匹配方法、装置、存储介质和计算机设备
EP2659398A1 (en) Recommendation of search keywords based on indication of user intention
US11216518B2 (en) Systems and methods of providing recommendations of content items
CN113726783B (zh) 异常ip地址识别方法、装置、电子设备及可读存储介质
CN112468487B (zh) 实现模型训练的方法、装置、实现节点检测的方法及装置
WO2021114924A1 (zh) 一种模型盗用的检测、模型的训练方法和装置
CN111522724A (zh) 异常账号的确定方法、装置、服务器及存储介质
CN111787002A (zh) 一种业务数据网络安全分析的方法及***
CN110245684B (zh) 数据处理方法、电子设备和介质
US20160132771A1 (en) Application Complexity Computation
CN113656688A (zh) 数据处理方法、装置、存储介质及计算机设备
CN117235371A (zh) 视频推荐方法、模型训练方法及装置
CN111354013A (zh) 目标检测方法及装置、设备和存储介质
CN111885011A (zh) 一种业务数据网络安全分析挖掘的方法及***
CN106815285A (zh) 基于视频网站的视频推荐的方法、装置及电子设备
CN116701896A (zh) 画像标签确定方法、装置、计算机设备和存储介质
CN110020035B (zh) 数据识别方法和装置、存储介质及电子装置
CN115328786A (zh) 一种基于区块链的自动化测试方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant