CN112449009B - 一种基于svd的联邦学习推荐***通信压缩方法及装置 - Google Patents

一种基于svd的联邦学习推荐***通信压缩方法及装置 Download PDF

Info

Publication number
CN112449009B
CN112449009B CN202011274868.2A CN202011274868A CN112449009B CN 112449009 B CN112449009 B CN 112449009B CN 202011274868 A CN202011274868 A CN 202011274868A CN 112449009 B CN112449009 B CN 112449009B
Authority
CN
China
Prior art keywords
data
uploaded
classification
target
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011274868.2A
Other languages
English (en)
Other versions
CN112449009A (zh
Inventor
刘刚
谭向前
周明洋
蔡树彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202011274868.2A priority Critical patent/CN112449009B/zh
Publication of CN112449009A publication Critical patent/CN112449009A/zh
Application granted granted Critical
Publication of CN112449009B publication Critical patent/CN112449009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于SVD的联邦学习推荐***通信压缩方法及***,该方法包括:获取当前客户端的待上传梯度数据;基于待上传梯度数据的目标编号顺序及预设目标编号数量,对待上传梯度数据进行分组,得到多组待上传梯度数据;采用预设聚类算法分别对每一组待上传梯度数据按行进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据;将分类数据及分类标签数据发送至服务器。从而通过对待上传数据进行聚类实现了数据的压缩,并且在提高数据压缩率的情况下降低了数据压缩对推荐***准确率的影响。

Description

一种基于SVD的联邦学习推荐***通信压缩方法及装置
技术领域
本发明涉及计算机网络应用技术领域,具体涉及一种基于SVD的联邦学习推荐***通信压缩方法及装置。
背景技术
经过多年的发展推荐***越来越智能,能够比较全面地了解人们的喜好并能精准地投其所好。随着智能手机的普及,使得网络用户再次井喷式增长,传统的推荐***不得不面对随之而来的服务器资源紧张,运算量不足等等问题。而且,为了更加精准的推荐,推荐***会广泛收集用户的各种信息,而手机等用户端中存储有用户大量的信息,包括一些涉及到个人的隐私内容。如果不对这些信息进行保护,很容易发生隐私泄露等安全问题。
基于上述问题,人们提出了基于模型平均的联邦式学习的概念。它把训练的环节移到了用户端,因此不需要用户将个人信息上传至服务器,只需要上传训练好的梯度。其可以解决用户的隐私保护问题和服务器计算资源紧张的问题。其中,针对基于SVD的联邦学习推荐***来说,由于待上传的梯度的数据量比较大,而手机等用户端上传带宽有限,如果不对梯度数据进行压缩直接上传,将大大影响数据传输的传输效率。目前,已有的通信压缩方法主要包括随机掩码、降秩、深梯度压缩等,然而这些通信压缩方法应用至基于SVD的联邦学习推荐***中会存在数据压缩效果不佳或者数据压缩后影响整个***推荐模型的准确率的问题。
发明内容
有鉴于此,本发明实施例提供了一种基于SVD的联邦学习推荐***通信压缩方法及装置,以克服现有技术中缺乏适用于基于SVD的联邦学习推荐***的通信压缩方法的问题。
本发明实施例提供了一种基于SVD的联邦学习推荐***通信压缩方法,应用于客户端,包括:
获取当前客户端的待上传梯度数据;
基于所述待上传梯度数据的目标编号,采用预设聚类算法对所述待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;
根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据;
将所述分类数据及所述分类标签数据发送至服务器。
可选地,所述获取当前客户端在的待上传梯度数据,包括:
获取所述当前客户端的本地梯度数据,并接收所述服务器反馈的上一轮全局梯度数据;
基于所述本地梯度数据的目标编号,对所述本地梯度数据和所述上一轮全局梯度数据进行求差,得到所述待上传梯度数据。
可选地,所述基于所述待上传梯度数据的目标编号,采用预设聚类算法对所述待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签,包括:
基于所述待上传梯度数据的目标编号顺序及预设目标编号数量,对所述待上传梯度数据进行分组,得到多组待上传梯度数据;
基于所述待上传梯度数据的目标编号,采用预设聚类算法分别对每一组待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签。
可选地,所述待上传梯度数据为带有目标编号的矩阵数据,所述预设目标编号数量是通过以下方法得到的:
获取所述矩阵数据的行列数及目标压缩倍率;
根据所述行列数及所述目标压缩倍率计算所述预设目标编号数量。
可选地,所述带有分类标签的分类数据包括:带有第一分类标签的第一分类数据和带有第二分类标签的第二分类数据。
可选地,所述第一分类标签为0,所述第二分类标签为1,所述根据所述目标编号顺序及各目标编号对应的分类标签,生成分类标签数据,包括:
根据所述目标编号顺序依次获取32个目标编号对应的分类标签组合成32位二进制数据;
依次将32位二进制数据转换为Int型数据,生成所述分类标签数据。
可选地,所述预设目标编号数量为32的整数倍。
本发明实施例还提供了一种基于SVD的联邦学习推荐***通信压缩装置,应用于客户端,包括:
获取模块,用于获取当前客户端的待上传梯度数据;
第一处理模块,用于基于所述待上传梯度数据的目标编号,采用预设聚类算法对所述待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;
第二处理模块,用于根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据;
第三处理模块,用于将所述分类数据及所述分类标签数据发送至服务器。
本发明实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例提供的基于SVD的联邦学习推荐***通信压缩方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明实施例提供的基于SVD的联邦学习推荐***通信压缩方法。
本发明技术方案,具有如下优点:
本发明实施例提供了一种基于SVD的联邦学习推荐***通信压缩方法及***,通过获取当前客户端的待上传梯度数据;基于待上传梯度数据的目标编号顺序及预设目标编号数量,对待上传梯度数据进行分组,得到多组待上传梯度数据;采用预设聚类算法分别对每一组待上传梯度数据按行进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据;将分类数据及分类标签数据发送至服务器。从而通过对待上传数据进行聚类实现了数据的压缩,并且通过上传带有分类标签的分类数据和包含目标编号对应的分类标签及目标编号顺序的分类标签数据,使得服务器可以通过分类标签还原的梯度数据的还原度比较高,进而保证了推荐***最终生成推荐模型的准确率,进而在提高数据压缩率的情况下降低了数据压缩对推荐***准确率的影响。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的基于SVD的联邦学习推荐***通信压缩方法的流程图;
图2为本发明实施例中的待上传梯度数据的处理结果的示意图;
图3为本发明实施例中的待上传梯度数据的处理结果的另一示意图;
图4为本发明实施例中的基于SVD的联邦学习推荐***通信压缩装置的结构示意图;
图5为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
目前,已有的通信压缩方法主要包括随机掩码、降秩、深梯度压缩等,其中,
降秩:谷歌提出的联邦学习间通信优化的方法,其基本思想是将需要上传的矩阵当成两个小矩阵的乘积,其中一个用随机种子生成,另一个小矩阵作为上传数据。若原始需要上传的矩阵为:
Figure BDA0002775882210000051
假定矩阵H最大秩为k(k为一个固定值)[],因此可以假定矩阵H是两个矩阵AB的乘积,即:
Figure BDA0002775882210000061
但是,在联邦SVD推荐***中,每次需要上传的梯度Qi是200k*(15~30)的向量,也就是说上式中的矩阵H的秩最大为30,而且若k设置等于30,那么起不到压缩的效果,如果k小于30,那么必定有(d2-k)*d1条信息会丢失。故此方法不能够很好的用于此推荐***。
随机掩码法:此方法与降秩类似,都是希望将原矩阵变为一个更小的矩阵上传,不同的是,本来就是为稀疏矩阵压缩而提供的。在稀疏矩阵中随机选择小部分值代表整张稀疏矩阵,可以大幅压缩需要上传的数据,与之相比由此带来的一点点误差是完全可以接受的。在稠密矩阵中,此种方法根本行不通。
深梯度压缩:对于深层神经网络,深梯度压缩表现优异,这得益于梯度向量保留了小于阈值的向量,减少了之后所有网络层次间不必要的参数传递,同时在下一轮训练时,将保留的上一轮梯度向量与本轮训练的梯度进行相加保证了每一轮训练的细节不会丢失。但在联邦SVD推荐***中并不适合采用此方法,因为各个Client间相互独立而且数据隔离,每一轮训练的梯度都会对全局产生不可替代的作用。所以每一轮必须上传完整的梯度而不是由阈值过滤后的梯度,否则会导致最终推荐模型的推荐准确率产生特别大的误差。
基于现有的通信压缩方法难以适用于基于SVD的联邦学习推荐***的问题,本发明实施例提供了一种专门针对基于SVD的联邦学习推荐***的通信压缩方法,如图1所示,该通信压缩方法主要包括如下步骤:
步骤S101:获取当前客户端的待上传梯度数据。具体地,在基于SVD的联邦学***均得到全局梯度矩阵,并将得到全局梯度矩阵反馈给各个客户端,直至推荐***的推荐模型训练完成,通过训练好的推荐模型为用户进行推荐目标推荐,例如:当推荐***用于为用户推荐电影时,上述的目标编码则为所有待推荐电影的电影编号,并且在待上传梯度数据中,各个目标编码按照固定顺序进行排序,如按照编码从小到大进行排序,相应地,服务器反馈的全局梯度数据也按照相同的顺序进行排序。
步骤S102:基于待上传梯度数据的目标编号,采用预设聚类算法对待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签。具体地,在本发明实施例中,所选用的预设聚类算法为KMeans++算法,实验表明,采用KMeans++算法可以得到聚类效果更佳的聚类结果,在实际应用中,也可以采用其他聚类算法如均值漂移聚类等,本发明并不以此为限。在本发明实施例中,为聚类后的每一分类数据,设置分类标签,进而可以通过该分类标签建立待上传梯度数据中每一目标编号对应的梯度数据与各分类数据之间的对应关系,以便服务器根据每一目标编号对应的分类标签更为准确的还原当前客户端待上传梯度数据,以降低对推荐***推荐模型准确性的影响,在本发明实施例中,上述的分类标签以自然数0,1,2……表示,以便于向服务器传输。
步骤S103:根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据。具体地,将各个目标编号对应的分类标签按照目标标号的排列顺序进行排列,得到分类标签数据,便于服务器可以直接根据分类标签数据确定各目标编号对应的分类标签。
步骤S104:将分类数据及分类标签数据发送至服务器。具体地,可以将分类数据构成的矩阵数据和分类标签数据一起进行打包后上传至服务器。
通过上述步骤S101至步骤S104,本发明实施例提供的基于SVD的联邦学习推荐***通信压缩方法,通过对待上传数据进行聚类实现了数据的压缩,并且通过上传带有分类标签的分类数据和包含目标编号对应的分类标签及目标编号顺序的分类标签数据,使得服务器可以通过分类标签还原的梯度数据的还原度比较高,进而保证了推荐***最终生成推荐模型的准确率,进而在提高数据压缩率的情况下降低了数据压缩对推荐***准确率的影响。
具体地,在一实施例中,上述的步骤S101具体包括如下步骤:
步骤S201:获取当前客户端的本地梯度数据,并接收服务器反馈的上一轮全局梯度数据。
步骤S202:基于本地梯度数据的目标编号,对本地梯度数据和上一轮全局梯度数据进行求差,得到待上传梯度数据。
具体地,若每一轮迭代直接将当前客户端的本地梯度数据作为待上传梯度数据,由于梯度数据中的各个梯度值之间并无关联,梯度值差别过大会造成聚类时会有大量运算。而在联邦***中存在训练过程中两轮梯度没有改变的情况,因此,可以利用客户端当前轮本地梯度数据与上一轮服务器反馈的全局梯度数据的差值作为待上传梯度数据,在服务器端,在接收到压缩后的梯度数据后,可以利用服务器自身存储的上一轮全局梯度数据对当前客户端的本地梯度数据进行还原,从而在不影响推荐***推荐模型训练的基础上提高了聚类速度,减小了数据压缩过程的计算量。
具体地,在一实施例中,上述的步骤S102具体包括如下步骤:
步骤S301:基于待上传梯度数据的目标编号顺序及预设目标编号数量,对待上传梯度数据进行分组,得到多组待上传梯度数据。具体地,由于待上传梯度数据为带有目标编号的矩阵数据,上述预设目标编号数量是通过以下方法得到的:获取矩阵数据的行列数及目标压缩倍率;根据行列数及目标压缩倍率计算预设目标编号数量。本发明实施例中,压缩倍率的计算公式如公式(1)所示:
Figure BDA0002775882210000091
其中,r表示压缩倍率,N表示矩阵数据的列数,I表示矩阵数据的行数(即目标编号的数量),K表示预设目标编号数量。
将上式化简得:
Figure BDA0002775882210000092
因此,由于待上传梯度数据已知(即矩阵数据的行列数确定),可通过上述的公式(1)、(2)得到压缩倍率与预设目标编号数量之间的关系,因此可以根据推荐***设置的压缩倍率需求得到预设目标编号数量。当然,在实际应用中,也可以根据经验设置预设目标编号数量,进而通过上述公式(1)、(2)估计出压缩倍率。
步骤S302:基于待上传梯度数据的目标编号,采用预设聚类算法分别对每一组待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签。具体地,可以根据上述待上传梯度数据(带有目标编号的矩阵数据)的目标编号将矩阵数据进行分组后,分别对各组进行聚类,所有分组全部聚类完成后,将每一组的分类结果合并在一起得到分类数据,并确定每个目标编号在其所属分组中的分类标签。由于上述预设目标编号数量(即每一分组的目标编号数量)固定,因此,每一个分组的分类标签均可由0到预设目标编号数量K-1的自然数表示,也不会发生数据混乱。对上述待上传梯度数据进行分组聚类的处理结果如图2所示,其中,箭头左侧为带有目标编号的矩阵数据(即待上传梯度数据),第一列为目标编号,箭头右侧依次为带有分类标签的分类数据(第一列为分类标签)以及各目标编号对应的分类标签构成的分类标签数据。
具体地,由上述的公式(2)可知,因为N可以看作定值,当K远大于N时,r≈N,但N值固定,故此该方法的压缩率有上限,且较小。究其原因,是I数量(目标编号数量)过大,而每个分类标签均由一个32bit的Int类型数据来存储导致分类标签数据占据大量数据空间。为了进一步提高数据压缩率,在本发明实施例中,将上述带有分类标签的分类数据分为:带有第一分类标签的第一分类数据和带有第二分类标签的第二分类数据。通过限定每一个分组的梯度数据聚类结果为两类,从而降低了每一个分组的分类数据的数据量,提高了数据压缩率。进一步地,将上述的第一分类标签为0,第二分类标签为1,预设目标编号数量为32的整数倍。上述的步骤S103,具体包括如下步骤:
步骤S401:根据目标编号顺序依次获取32个目标编号对应的分类标签组合成32位二进制数据。
步骤S402:依次将32位二进制数据转换为Int型数据,生成分类标签数据。如果剩余的目标编号不足32个,则在末尾补0后构成32为二进制数据,然后再将这32为二进制数据转换为Int型数据上传。
从而通过限定每组聚类结果的分类数量为2,并且分类标签由0和1表示,也就保证了所有目标编号对应的索引值为0或者1,从而保证每个分类标签值只占1bit,得到每一组目标编号的对应的分类标签均为2进制的0,1,将每32位合并在一起,组成其对应的Int型数据再上传。解决之前过程中分类标签数据量太大的问题。以此达到减少传输过程中的通讯数据量的提高压缩倍率的目的。
在如图2分组聚类的基础上,实现序列化分组聚类的处理结果如图3所示,此时,压缩倍率的计算公式如公式(3)所示:
Figure BDA0002775882210000111
其中,r表示压缩倍率,N表示矩阵数据的列数,I表示矩阵数据的行数(即目标编号的数量),K表示预设目标编号数量。
将上式化简得:
Figure BDA0002775882210000112
由于最后需要将各个目标编号对应的分类标签以32位一组进行合并,所以K的取值应为32的倍数,即
K=2n(n为≥5的正整数)
理论上假设N=20,当K=4096时,r=487,这是一个非常理想的压缩倍率。且经过实验表明,整个推荐***压缩后的准确率相较于不压缩而言会存在一点偏差,但在推荐***自身误差可接受范围内。
在不同数量的客户端情况下,分别利用本发明实施例提供的基于SVD的联邦学习推荐***通信压缩方法(简称序列化分组聚类)对各客户端要上传至服务器的本地梯度数据进行压缩后上传,与不进行压缩直接上传(简称无聚类)进行对比实验。具体实验结果如表1所示。实验结果表明,本发明实施例提供的压缩方法会导致***推荐误差(简称RMES)稍有上升,也即是会导致推荐模型的推荐准确率有点偏差,但是偏差值都比较小,相比于梯度的压缩倍率这点偏差在可以接受的范围之内。
表1:在不同数量客户端下,压缩算法对准确率的影响
Figure BDA0002775882210000113
Figure BDA0002775882210000121
此外,通过设置不同的预设目标编号数量(即K值)利用本发明实施例提供的基于SVD的联邦学习推荐***通信压缩方法(简称序列化分组聚类)对某一客户端要上传至服务器的本地梯度数据进行压缩后上传,进行对比实验,实验结果如表2所示。通过实验结果可知,K值的提高会增大压缩倍数,但是也会在一定程度上损失推荐***的准确率。并且,本发明实施例提供的压缩方法大幅度压缩了上传的梯度数据,且RMSE的偏差在***可接受范围内,相比于比现有的压缩方法表现更加优异。
表2:不同K值对应压缩率及RMSE
K值 0(不压缩) 512 1024 2048 4096
收敛时间(s) 937 1909 1767 1694 1605
平均RMSE 0.8036 0.8074 0.8075 0.8072 0.8068
理论压缩倍率 - 183 284 393 487
实际压缩倍数 - 182 281 387 478
本发明实施例提供的基于SVD的联邦学习推荐***通信压缩方法,在提高数据压缩率的同时,降低数据压缩对推荐***推荐模型准确率的影响,从而加快推荐模型训练的收敛速度。
本发明实施例还提供了一种基于SVD的联邦学习推荐***通信压缩装置,如图4所示,该基于SVD的联邦学习推荐***通信压缩装置包括:
获取模块101,用于获取当前客户端的待上传梯度数据。详细内容参见上述方法实施例中步骤S101的相关描述。
第一处理模块102,用于基于待上传梯度数据的目标编号,采用预设聚类算法对待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签。详细内容参见上述方法实施例中步骤S102的相关描述。
第二处理模块103,用于根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据。详细内容参见上述方法实施例中步骤S103的相关描述。
第三处理模块104,用于将分类数据及分类标签数据发送至服务器。详细内容参见上述方法实施例中步骤S104的相关描述。
通过上述各个组成部分的协同合作,本发明实施例提供的基于SVD的联邦学习推荐***通信压缩装置,通过对待上传数据进行聚类实现了数据的压缩,并且通过上传带有分类标签的分类数据和包含目标编号对应的分类标签及目标编号顺序的分类标签数据,使得服务器可以通过分类标签还原的梯度数据的还原度比较高,进而保证了推荐***最终生成推荐模型的准确率,进而在提高数据压缩率的情况下降低了数据压缩对推荐***准确率的影响。
根据本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器901和存储器902,其中处理器901和存储器902可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (8)

1.一种基于SVD的联邦学习推荐***通信压缩方法,应用于客户端,其特征在于,包括:
获取当前客户端的待上传梯度数据;
基于所述待上传梯度数据的目标编号,采用预设聚类算法对所述待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;
根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据;
将所述分类数据及所述分类标签数据发送至服务器;
其中,所述基于所述待上传梯度数据的目标编号,采用预设聚类算法对所述待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签,包括:
基于所述待上传梯度数据的目标编号顺序及预设目标编号数量,对所述待上传梯度数据进行分组,得到多组待上传梯度数据;
基于所述待上传梯度数据的目标编号,采用预设聚类算法分别对每一组待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;
所述待上传梯度数据为带有目标编号的矩阵数据,所述预设目标编号数量是通过以下方法得到的:
获取所述矩阵数据的行列数及目标压缩倍率;
根据所述行列数及所述目标压缩倍率计算所述预设目标编号数量。
2.根据权利要求1所述的方法,其特征在于,所述获取当前客户端在的待上传梯度数据,包括:
获取所述当前客户端的本地梯度数据,并接收所述服务器反馈的上一轮全局梯度数据;
基于所述本地梯度数据的目标编号,对所述本地梯度数据和所述上一轮全局梯度数据进行求差,得到所述待上传梯度数据。
3.根据权利要求1所述的方法,其特征在于,所述带有分类标签的分类数据包括:带有第一分类标签的第一分类数据和带有第二分类标签的第二分类数据。
4.根据权利要求3所述的方法,其特征在于,所述第一分类标签为0,所述第二分类标签为1,所述根据所述目标编号顺序及各目标编号对应的分类标签,生成分类标签数据,包括:
根据所述目标编号顺序依次获取32个目标编号对应的分类标签组合成32位二进制数据;
依次将32位二进制数据转换为Int型数据,生成所述分类标签数据。
5.根据权利要求3所述的方法,其特征在于,所述预设目标编号数量为32的整数倍。
6.一种基于SVD的联邦学习推荐***通信压缩装置,应用于客户端,其特征在于,包括:
获取模块,用于获取当前客户端的待上传梯度数据;
第一处理模块,用于基于所述待上传梯度数据的目标编号,采用预设聚类算法对所述待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;
第二处理模块,用于根据各目标编号对应的分类标签及目标编号顺序,生成分类标签数据;
第三处理模块,用于将所述分类数据及所述分类标签数据发送至服务器;
其中,所述第一处理模块具体用于:
基于所述待上传梯度数据的目标编号顺序及预设目标编号数量,对所述待上传梯度数据进行分组,得到多组待上传梯度数据;
基于所述待上传梯度数据的目标编号,采用预设聚类算法分别对每一组待上传梯度数据进行聚类,得到带有分类标签的分类数据,并确定各目标编号对应的分类标签;
所述待上传梯度数据为带有目标编号的矩阵数据,所述预设目标编号数量是通过以下方法得到的:
获取所述矩阵数据的行列数及目标压缩倍率;
根据所述行列数及所述目标压缩倍率计算所述预设目标编号数量。
7.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行权利要求1-5任一项所述的方法。
CN202011274868.2A 2020-11-12 2020-11-12 一种基于svd的联邦学习推荐***通信压缩方法及装置 Active CN112449009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011274868.2A CN112449009B (zh) 2020-11-12 2020-11-12 一种基于svd的联邦学习推荐***通信压缩方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011274868.2A CN112449009B (zh) 2020-11-12 2020-11-12 一种基于svd的联邦学习推荐***通信压缩方法及装置

Publications (2)

Publication Number Publication Date
CN112449009A CN112449009A (zh) 2021-03-05
CN112449009B true CN112449009B (zh) 2023-01-10

Family

ID=74737868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011274868.2A Active CN112449009B (zh) 2020-11-12 2020-11-12 一种基于svd的联邦学习推荐***通信压缩方法及装置

Country Status (1)

Country Link
CN (1) CN112449009B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125070B (zh) * 2021-11-10 2023-06-13 深圳大学 一种量化压缩的通信方法、***、电子装置及存储介质
WO2023092323A1 (en) * 2021-11-24 2023-06-01 Intel Corporation Learning-based data compression method and system for inter-system or inter-component communications
CN114339252B (zh) * 2021-12-31 2023-10-31 深圳大学 一种数据压缩方法及装置
CN114861790B (zh) * 2022-04-29 2023-03-17 深圳大学 联邦学习压缩通信的优化方法、***及装置
CN115022316B (zh) * 2022-05-20 2023-08-11 阿里巴巴(中国)有限公司 端云协同数据处理***、方法、设备及计算机存储介质
CN115600690A (zh) * 2022-09-20 2023-01-13 天翼电子商务有限公司(Cn) 一种纵向联邦学习离散变量预处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324812A (zh) * 2020-02-20 2020-06-23 深圳前海微众银行股份有限公司 基于迁移学习的联邦推荐方法、装置、设备及介质
CN111582505A (zh) * 2020-05-14 2020-08-25 深圳前海微众银行股份有限公司 联邦建模方法、装置、设备及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018226527A1 (en) * 2017-06-08 2018-12-13 D5Ai Llc Data splitting by gradient direction for neural networks
US11164105B2 (en) * 2017-11-13 2021-11-02 International Business Machines Corporation Intelligent recommendations implemented by modelling user profile through deep learning of multimodal user data
CN110297848B (zh) * 2019-07-09 2024-02-23 深圳前海微众银行股份有限公司 基于联邦学习的推荐模型训练方法、终端及存储介质
CN111079022B (zh) * 2019-12-20 2023-10-03 深圳前海微众银行股份有限公司 基于联邦学习的个性化推荐方法、装置、设备及介质
CN111865815B (zh) * 2020-09-24 2020-11-24 中国人民解放军国防科技大学 一种基于联邦学习的流量分类方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324812A (zh) * 2020-02-20 2020-06-23 深圳前海微众银行股份有限公司 基于迁移学习的联邦推荐方法、装置、设备及介质
CN111582505A (zh) * 2020-05-14 2020-08-25 深圳前海微众银行股份有限公司 联邦建模方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112449009A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN112449009B (zh) 一种基于svd的联邦学习推荐***通信压缩方法及装置
CN110222048B (zh) 序列生成方法、装置、计算机设备及存储介质
Ma et al. Layer-wised model aggregation for personalized federated learning
CN110941598A (zh) 一种数据去重方法、装置、终端及存储介质
CN105138647A (zh) 一种基于Simhash算法的旅游网络社区划分方法
CN105302885B (zh) 一种全文数据的提取方法和装置
CN108628898B (zh) 数据入库的方法、装置和设备
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN114138231B (zh) 执行矩阵乘法运算的方法、电路及soc
US10511695B2 (en) Packet-level clustering for memory-assisted compression of network traffic
CN117119535A (zh) 一种移动端集群热点共享的数据分流方法和***
CN110266834B (zh) 基于互联网协议地址的地区查找方法及装置
CN110728118B (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
CN110135465B (zh) 模型参数表示空间大小估计方法及装置、推荐方法
CN116187431A (zh) 面向非独立同分布场景的联邦学习蒸馏方法及装置
CN104765790B (zh) 一种数据查询的方法和装置
CN104391916A (zh) 基于分布式计算平台的gpeh数据解析方法和装置
CN112036418A (zh) 用于提取用户特征的方法和装置
CN115329032B (zh) 基于联邦字典学习数据传输方法、装置、设备及存储介质
CN117610815A (zh) 资源限额数据处理方法、装置、计算机设备和存储介质
Wu et al. Statistical prior aided separate compressed image sensing for green Internet of multimedia things
Li et al. A novel data compression technique incorporated with computer offloading in RGB-D SLAM
CN117437010A (zh) 资源借调等级预测方法、装置、设备、存储介质和程序产品
CN106802907B (zh) 基于码流寻址方式的移动lte的kpi计算方法
CN114863333A (zh) 视频查重方法、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant