CN112507388B - 基于隐私保护的word2vec模型训练方法、装置及*** - Google Patents

基于隐私保护的word2vec模型训练方法、装置及*** Download PDF

Info

Publication number
CN112507388B
CN112507388B CN202110158847.2A CN202110158847A CN112507388B CN 112507388 B CN112507388 B CN 112507388B CN 202110158847 A CN202110158847 A CN 202110158847A CN 112507388 B CN112507388 B CN 112507388B
Authority
CN
China
Prior art keywords
word segmentation
local
corpus
public
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110158847.2A
Other languages
English (en)
Other versions
CN112507388A (zh
Inventor
陈超超
王力
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110158847.2A priority Critical patent/CN112507388B/zh
Publication of CN112507388A publication Critical patent/CN112507388A/zh
Application granted granted Critical
Publication of CN112507388B publication Critical patent/CN112507388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供用于经由至少两个第一成员设备训练word2vec模型的方法、装置及***。各个第一成员设备基于所具有的本地语料的语料分词结果生成本地分词词库,使用各自的本地分词词库进行隐私求交确定公共分词,并向其余第一成员设备共享非公共分词数目。随后,各个第一成员设备根据公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典。然后,各个第一成员设备基于统一字典和本地语料的语料分词结果生成各自的训练样本,并使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型。

Description

基于隐私保护的word2vec模型训练方法、装置及***
技术领域
本说明书实施例通常涉及人工智能领域,尤其涉及基于隐私保护的word2vec模型训练方法、装置及***。
背景技术
word2vec(word to vector)模型是用来产生词向量(word embedding)的浅层神经网络模型,并且被广泛地应用于自然语言处理领域和机器学习领域。word2vec模型可以利用词典和大量训练数据来高效训练出,并且被使用来将文本分词转换成词向量表示形式,从而将文本内容处理转化为向量空间中的向量运算,并利用向量空间上的相似度来反映出文本内容在文本语义上的相似度。
然而,在实际应用中,word2vec模型的训练文本可能会由多个数据拥有方拥有,比如,在医疗场景下,患者的病历文本会被多家医院拥有,由于隐私保护原因,这些病历文本不能彼此分享。因此,如何在保护各个数据拥有方的数据隐私的情况下,实现多个数据拥有方联合训练word2vec模型成为亟待解决的问题。
发明内容
鉴于上述,本说明书实施例提供一种基于隐私保护的word2vec模型训练方法、装置及***,其能够在保护数据拥有方的数据隐私的情况下实现多个数据拥有方联合训练word2vec模型。
根据本说明书实施例的一个方面,提供一种用于经由至少两个第一成员设备训练word2vec模型的方法,所述方法应用于所述至少两个第一成员设备中的一个第一成员设备,所述方法包括:基于本地语料的语料分词结果,生成本地分词词库;与其余第一成员设备一起使用各自的本地分词词库进行隐私求交,确定公共分词并向其余第一成员设备共享非公共分词数目,每个其余第一成员设备的本地分词词库根据该其余第一成员设备的本地语料的语料分词结果生成;根据所述公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典;基于所述统一字典和所述本地语料的语料分词结果,生成所述第一成员设备处的训练样本;以及与其余第一成员设备一起使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型,各个其余第一成员设备处的训练样本基于所述统一字典和本地语料的语料分词结果生成。
可选地,在上述方面的一个示例中,所述方法还可以包括:对所述本地语料分词结果进行预处理,基于本地语料的本地语料分词结果,生成本地分词词库包括:基于本地语料的经过预处理后的本地语料分词结果,生成本地分词词库。
可选地,在上述方面的一个示例中,所述预处理包括下述预处理中的至少一种:分词过滤处理和分词去重处理。
可选地,在上述方面的一个示例中,基于所述统一字典和所述本地语料分词结果,生成所述第一成员设备处的训练样本包括:使用给定分词采样窗口来对本地语料分词结果进行分词对采样,得到本地分词对集合;以及根据所述本地分词对集合中的分词对,生成所述第一成员设备处的训练样本。
可选地,在上述方面的一个示例中,所述基于隐私保护的word2vec模型训练包括基于联邦学习的word2vec模型训练。
根据本说明书的实施例的另一方面,提供一种用于经由至少两个第一成员设备训练word2vec模型的装置,所述装置应用于所述至少两个第一成员设备中的一个第一成员设备,所述装置包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现:基于本地语料的本地语料分词结果,生成本地分词词库;与其余第一成员设备一起使用各自的本地分词词库进行隐私求交,确定公共分词并向其余第一成员设备共享非公共分词数目,每个其余第一成员设备的本地分词词库根据该其余第一成员设备所具有的各条本地语料的语料分词结果生成;根据所述公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典;基于所述统一字典和所述本地语料分词结果,生成所述第一成员设备处的训练样本;以及与其余第一成员设备一起,使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型,各个其余第一成员设备处的训练样本基于所述统一字典和本地语料的语料分词结果生成。
可选地,在上述方面的一个示例中,所述至少一个处理器执行所述计算机程序来进一步实现:对所述本地语料分词结果进行预处理。相应地,所述至少一个处理器执行所述计算机程序来实现:基于本地语料的经过预处理后的本地语料分词结果,生成本地分词词库。
可选地,在上述方面的一个示例中,所述预处理包括下述预处理中的至少一种:分词过滤处理和分词去重处理。
可选地,在上述方面的一个示例中,所述至少一个处理器执行所述计算机程序来实现:使用给定分词采样窗口来对本地语料分词结果进行分词对采样,得到本地分词对集合;以及根据所述本地分词对集合中的分词对,生成所述第一成员设备处的训练样本。
根据本说明书的实施例的另一方面,提供一种用于经由至少两个第一成员设备训练word2vec模型的***,包括:至少两个第一成员设备,每个第一成员设备包括如上所述的用于经由至少两个第一成员设备训练word2vec模型的装置。
可选地,在上述方面的一个示例中,所述***还可以包括:第二成员设备,所述第二成员设备部署有word2vec模型,并且与所述至少两个第一成员设备一起执行联邦学习来训练所述word2vec模型。
根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行来实现如上所述的用于经由至少两个第一成员设备训练word2vec模型的方法。
根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的用于经由至少两个第一成员设备训练word2vec模型的方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1A示出了CBOW模型的应用示例示意图。
图1B示出了CBOW模型的神经网络结构的示例示意图。
图2A示出了Skip-Gram模型的应用示例示意图。
图2B示出了Skip-Gram模型的神经网络结构的示例示意图。
图3示出了根据本说明书的实施例的用于训练word2vec模型的模型训练***的示例示意图。
图4示出了根据本说明书的实施例的用于训练Word2vec模型的方法的流程图。
图5示出了根据本说明书的实施例的训练样本生成过程的示例流程图。
图6示出了根据本说明书的实施例的分词提取过程的示例示意图。
图7示出了根据本说明书的实施例的联邦学习过程的示例示意图。
图8示出了根据本说明书的实施例的用于训练word2vec模型的模型训练装置的方框图。
图9示出了根据本说明书的实施例的训练样本生成单元的示例方框图。
图10示出了根据本说明书的实施例的基于计算机实现的用于训练word2vec模型的模型训练装置的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
word2vec模型是仅仅具有一个隐层的全连接神经网络,被使用来预测与给定单词具有较大关联度的单词。Word2vec模型的示例可以包括但不限于连续词袋模型(Continuous Bag of Word,CBOW)和跳字模型(Skip-Gram)。CBOW模型被使用来基于中心词在文本序列前后的上下文单词来预测该中心词。Skip-Gram模型被使用来基于中心词预测该中心词在文本序列前后的上下文单词。
图1A示出了CBOW模型的应用示例,以及图1B示出了CBOW模型的神经网络结构的示例示意图。
在图1A示出的应用示例中,针对文本序列“the man loves his son”,使用中心词“loves”的上下文单词“the”、“man”、“his”和“son”来预测中心词“loves”。
图1B示出了多个上下文单词的CBOW模型。针对给定的一个上下文单词w,模型的输入是一个独热(one-hot)向量
Figure 180905DEST_PATH_IMAGE001
,其中,V是词袋所具有的单词数(词袋大小)。术语“词袋”也可以称为“词汇表”、“词典”或“字典”。在该向量中,只有一个值为1,其他值都为0。输入层和隐层之间的权重矩阵可以用一个
Figure 566887DEST_PATH_IMAGE002
的矩阵
Figure 346624DEST_PATH_IMAGE003
来表示,其中,N是单词的词向量表示的向量维度数,N的取值预先定义并且远小于V。
Figure 741833DEST_PATH_IMAGE003
的每一行是与一个单词w的模型输入相对应的N维向量
Figure 556205DEST_PATH_IMAGE004
。此外,隐层和输出层之间也存在一个
Figure 300039DEST_PATH_IMAGE005
的权重矩阵
Figure 567072DEST_PATH_IMAGE006
Figure 765973DEST_PATH_IMAGE006
的每一列是与一个单词w的模型输入相对应的N维向量
Figure 903693DEST_PATH_IMAGE007
。在本领域中,N维向量
Figure 897057DEST_PATH_IMAGE004
也可以称为单词w的输入向量, N维向量
Figure 651386DEST_PATH_IMAGE007
也可以称为单词w的输出向量。输入向量
Figure 388398DEST_PATH_IMAGE004
和输出向量
Figure 646204DEST_PATH_IMAGE007
是对同一个单词w的两种不同的表达,都可以使用来表示单词的词向量。通常,使用单词的输入向量来表征单词的词向量。
图2A示出了Skip-Gram模型的应用示例,以及图2B示出了Skip-Gram模型的神经网络结构的示例示意图。
在图2A示出的应用示例中,针对文本序列“the man loves his son”,使用中心词“loves”来预测上下文单词“the”、“man”、“his”和“son”。图2B示出的Skip-Gram模型是CBOW模型的逆过程。CBOW模型的目标单词(中心单词)在Skip-Gram模型中作为模型输入,以及CBOW模型的上下文单词在Skip-Gram模型中作为模型输出。
在使用训练样本训练出如上的CBOW模型或Skip-Gram模型后,可以利用该CBOW模型或Skip-Gram模型,将每个单词表示成一个定长的向量(例如,输入层与隐层之间的上述权重向量),这些向量能较好地表达不同词之间的相似度和类比关系。
在现有的word2vec模型训练方案中,通常使用单个数据拥有方的训练样本来实现模型训练,不能适用于需要隐私保护的多个数据拥有方共同训练word2vec模型。
下面将结合附图来详细描述根据本说明书实施例的用于训练word2vec模型的方法、装置以及***。
图3示出了根据本说明书的实施例的用于训练Word2vec模型的模型训练***300的架构示意图。
如图3所示,模型训练***300包括至少两个第一成员设备310以及一个第二成员设备320。在图3中示出了2个第一成员设备310-1和310-2。在本说明书的其它实施例中,可以包括更多的第一成员设备310。至少两个第一成员设备310以及第二成员设备320可以通过例如但不局限于互联网或局域网等的网络330相互通信。
在本说明书的实施例中,第一成员设备310-1和310-2可以是用于本地收集文本数据样本的设备或设备方,比如,智能终端设备、服务器设备等。在本说明书中,术语“第一成员设备”和术语“数据拥有方”可以互换使用。第二成员设备320可以是部署或维护word2vec模型的设备或设备方。在第二成员设备320上部署有word2vec模型的神经网络结构。
此外,第一成员设备310-1和310-2上还部署有word2vec模型的神经网络结构。在进行模型训练时,第二成员设备320对word2vec模型进行初始化,以得到word2vec模型的输入层与隐层之间的初始权重矩阵
Figure 76048DEST_PATH_IMAGE008
以及word2vec模型的隐层与输出层之间的初始权重矩阵
Figure 317674DEST_PATH_IMAGE009
。然后,第二成员设备320将初始权重矩阵
Figure 514169DEST_PATH_IMAGE008
和初始权重矩阵
Figure 157640DEST_PATH_IMAGE009
下发给各个第一成员设备310-1和310-2。
在本说明书中,第一成员设备310以及第二成员设备320可以是任何合适的具有计算能力的电子设备。所述电子设备包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
此外,第一成员设备310-1和310-2分别具有模型训练装置。第一成员设备310-1、310-2处具有的模型训练装置和第二成员设备320可以经由网络330执行网络通信来进行数据交互,由此协作处理来执行针对Word2vec模型的模型训练过程。模型训练装置的操作和结构将在下面参照附图进行详细说明。
在一些实施例中,网络330可以是有线网络或无线网络中的任意一种或多种。网络330的示例可以包括但不限于电缆网络、光纤网络、电信网络、企业内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigZee)、近场通讯(NFC)、设备内总线、设备内线路等或其任意组合。
图4示出了根据本说明书的实施例的用于训练word2vec模型的方法400的流程图。
如图4所示,在410,在各个第一成员设备处,基于本地语料的语料分词结果,生成本地分词词库。
在一个示例中,在各个第一成员设备处,可以对各自收集的本地语料(文本数据)进行分词处理,得到本地语料分词结果。例如,针对本地语料“咳嗽、少痰,明显发热”进行分词处理后,可以得到语料分词结果“咳嗽”、“少痰”、“明显”和“发热”。这里,针对语料的分词处理可以采用本领域中的各种适用的分词处理方式来实现。此外,要说明的是,各自收集的本地语料被形成为多条数据样本,每条数据样本具有一个数据样本标识(数据样本ID)。比如,在用户数据的应用场景下,可以基于用户ID来将本地语料形成为多条数据样本。在其它应用场景下,可以基于其它合适的方式来形成数据样本。此外,在一个示例中,数据样本ID可以是通过对该数据样本所包含的各个样本特征的特征值进行哈希计算得到的哈希值。
然后,基于所得到的本地语料分词结果,生成本地分词词库。在一个示例中,可以基于所得到的所有语料分词结果(即,不对语料分词结果进行预处理),生成本地分词词库。在另一示例中,可以对所得到的本地语料分词结果进行预处理。所述预处理的示例可以包括但不限于分词过滤处理和分词去重处理。分词过滤处理例如可以包括去除停用词(stopword)、稀有词等。停用词可以是指对于短语含义,所承载的实质性信息内容非常少的词语,例如,上述分词结果中的“明显”可以被认为是停用词。停用词的示例可以包括但不限于英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。然后,根据经过预处理后的本地语料分词结果,生成本地分词词库。
在如上得到各自的本地分词词库后,在420,各个第一成员设备一起使用各自的本地分词词库进行隐私求交(Private Set Intersection,PSI),确定公共分词。这里,可以采用本领域的各种PSI协议来实现上述公共分词确定过程。在各个第一成员设备得到公共分词后,确定出各自的非公共分词数目,然后分享给其余第一成员设备。
要说明的是,在第一成员设备包括多于两个第一成员设备的情况下,所确定出的公共分词可以是分层级的公共分词。例如,在第一成员设备包括N个第一成员设备的情况下,公共分词的层级可以包括N个成员设备共有,N-1个成员设备共有,……,直到2个成员设备共有。在这种情况下,还需要获取公共分词的层级、公共分词所属层级的分词数目以及公共分词所属成员设备的设备标识。
接着,在430,在各个第一成员设备处,分别根据公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典。所生成的统一字典存在各个第一成员设备处,并且统一字典中的每个分词具有唯一的分词编号。要说明的是,在存在多于两个第一成员设备的情况下,各个第一成员设备根据公共分词、公共分词的层级、公共分词所属层级的分词数目、公共分词所属成员设备的设备标识以及非公共分词数目来对分词进行统一分词编号。
在得到统一字典后,在440,在各个第一成员设备处,基于统一字典和本地语料的语料分词结果,生成该第一成员设备处的训练样本。
图5示出了根据本说明书的实施例的训练样本生成过程500的示例流程图。
如图5所示,在510,使用给定分词采样窗口来对本地语料分词结果进行分词对采样,得到本地分词对集合。这里,针对本地语料中的每条数据样本的本地语料分词结果,分别执行分词对采样。
图6示出了根据本说明书的实施例的分词提取过程的示例示意图。在图6的示例中,本地语料分词结果为“The quick brown fox jumps over the lazy dog”,分词采样窗口的大小为2(window_size=2),即,仅选输入词前后各两个词和输入词进行组合,由此提取出分词对(输入词,输出词),其中,灰色框中的单词为输入词。如图6所示,提取出分词对(the,quick)、(the,brown)、(quick,the)、(quick,brown)、(quick,fox)、(brown,the)、(brown,quick)、(brown,fox)、(brown,jumps)、(fox,quick)、(fox,brown)、(fox,jumps)、(fox,over)等。
然后,在520,根据所提取出的本地分词对集合中的分词对,生成该第一成员设备处的训练样本。例如,可以将分词对的两个单词进行one-hot编码,得到word2vec模型的训练样本(输入词,输出词)。在如上得到各个第一成员设备的训练样本后,在450,各个第一成员设备使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型。在一个示例中,基于隐私保护的word2vec模型训练可以是基于联邦学习的word2vec模型训练。
如图4中所示,模型训练***300中的第二成员设备320部署或维护word2vec模型。然后,各个第一成员设备使用各自的训练样本,与第二成员设备一起执行联邦学习来训练出word2vec模型。
图7示出了根据本说明书的实施例的联邦学习过程的示例示意图。
如图7所示,在进行模型训练时,第二成员设备320对word2vec模型进行初始化,以得到word2vec模型的输入层与隐层之间的初始权重矩阵
Figure 492806DEST_PATH_IMAGE008
以及word2vec模型的隐层与输出层之间的初始权重矩阵
Figure 221728DEST_PATH_IMAGE009
。然后,第二成员设备320将初始权重矩阵
Figure 769384DEST_PATH_IMAGE008
和初始权重矩阵
Figure 267361DEST_PATH_IMAGE009
下发给各个第一成员设备。
各个第一成员设备使用各自的训练样本来进行模型训练,计算出权重矩阵
Figure 39008DEST_PATH_IMAGE008
Figure 724067DEST_PATH_IMAGE009
的梯度
Figure 606573DEST_PATH_IMAGE010
Figure 959057DEST_PATH_IMAGE011
Figure 901605DEST_PATH_IMAGE012
Figure 260911DEST_PATH_IMAGE013
。然后,第二成员设备对所计算出的各自梯度
Figure 681528DEST_PATH_IMAGE010
Figure 154097DEST_PATH_IMAGE011
Figure 736389DEST_PATH_IMAGE012
Figure 661619DEST_PATH_IMAGE013
进行安全求和,然后,第二成员设备根据安全求和结果更新权重矩阵
Figure 885927DEST_PATH_IMAGE008
Figure 681845DEST_PATH_IMAGE009
,并将更新后的权重矩阵
Figure 966196DEST_PATH_IMAGE008
Figure 378722DEST_PATH_IMAGE009
下发给各个第一成员设备。如此循环,直到模型收敛。要说明的是,针对梯度
Figure 406721DEST_PATH_IMAGE010
Figure 57146DEST_PATH_IMAGE011
Figure 246818DEST_PATH_IMAGE012
Figure 146641DEST_PATH_IMAGE013
的安全求和可以包括下述安全求和中的一种:基于秘密共享的安全求和;基于同态加密的安全求和;基于不经意传输的安全求和;基于混淆电路的安全求和;或者基于可信执行环境的安全求和。
此外,要说明的是,在上面的实施例中,各个第一成员设备与第二成员设备协作来执行联邦学习训练出word2vec模型。在其它实施例中,模型训练***也可以不包括第二成员设备,而是由各个第一成员设备执行联邦学习来训练出word2vec模型。在这种情况下,各个第一成员设备中的一个第一成员设备执行word2vec模型初始化,并将初始权重矩阵
Figure 637053DEST_PATH_IMAGE008
和初始权重矩阵
Figure 938721DEST_PATH_IMAGE009
下发给各个其它第一成员设备。此外,各个其它第一成员设备计算出的梯度返回给该第一成员设备,由该第一成员设备执行模型更新。换言之,该第一成员设备实现图3中示出的模型训练***中的第二成员设备的角色。
如上参照图1A到图7,对根据本说明书的实施例的word2vec模型训练方法进行了描述。利用上述模型训练方案,通过各个第一成员设备一起使用各自的本地分词词库进行隐私求交来确定出公共分词,并且共享各自的非公共分词数目而不是非公共分词本身,从而使得各个第一成员设备不会暴露各自的非公共分词,由此确保了各个第一成员设备的私有分词的隐私保护。
此外,利用上述模型训练方案,通过各个第一成员设备使用各自的训练样本来执行基于隐私保护的word2vec模型训练,从而可以确保各个第一成员设备的训练样本的隐私安全。
图8示出了根据本说明书的实施例的用于训练word2vec模型的模型训练装置800的方框图。模型训练装置800应用于第一成员设备。如图8所示,模型训练装置800包括词库生成单元810、隐私求交单元820、字典生成单元830、训练样本生成单元840和模型训练单元850。
词库生成单元810被配置为基于本地语料的本地语料分词结果,生成本地分词词库。隐私求交单元820被配置为与其余第一成员设备一起使用各自的本地分词词库进行隐私求交,确定公共分词并向其余第一成员设备共享非公共分词数目。这里,每个其余第一成员设备的本地分词词库根据该其余成员设备所具有的各条本地语料的语料分词结果生成。
字典生成单元830被配置为根据公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典。
训练样本生成单元840被配置为基于统一字典和本地语料分词结果,生成该第一成员设备处的训练样本。
模型训练单元850被配置为与其余第一成员设备一起,使用各自的训练样本执行基于隐私保护的word2vec模型训练。
图9示出了根据本说明书的实施例的训练样本生成单元840的示例方框图。如图9所示,训练样本生成单元840包括分词提取模块841和训练样本生成模块843。
分词提取模块841被配置为使用给定分词采样窗口来对各个本地语料分词结果进行分词对采样,得到本地分词对集合。然后,训练样本生成模块843被配置为根据本地分词对集合中的分词对,生成该第一成员设备处的训练样本。
此外,可选地,模型训练装置800还可以包括预处理单元(未示出)。所述预处理单元被配置为对本地语料分词结果进行预处理。然后,词库生成单元810被配置为基于本地语料的经过预处理后的本地语料分词结果,生成本地分词词库。
如上参照图1A到图9,对根据本说明书实施例的模型训练方法、模型训练装置及模型训练***进行了描述。上面的模型训练装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图10示出了根据本说明书的实施例的在第一成员设备侧基于计算机实现的用于训练word2vec模型的模型训练装置1000的示意图。如图10所示,模型训练装置1000可以包括至少一个处理器1010、存储器(例如,非易失性存储器)1020、内存1030和通信接口1040,并且至少一个处理器1010、存储器1020、内存1030和通信接口1040经由总线1060连接在一起。至少一个处理器1010执行在存储器中存储或编码的计算机程序(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机程序,其当执行时使得至少一个处理器1010:基于本地语料的语料分词结果,生成本地分词词库;与其余第一成员设备一起使用各自的本地分词词库进行隐私求交,确定公共分词并向其余第一成员设备共享非公共分词数目,每个其余第一成员设备的本地分词词库根据该其余第一成员设备所具有的各条本地语料的语料分词结果生成;根据公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典;基于统一字典和本地语料的语料分词结果,生成第一成员设备处的训练样本;以及与其余第一成员设备一起,使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型,各个其余第一成员设备处的训练样本基于统一字典和本地语料的语料分词结果生成。
应该理解,在存储器中存储的计算机程序被执行时使得至少一个处理器1010进行本说明书的各个实施例中以上结合图1A-图9描述的各种操作和功能。
根据一个实施例,提供了一种比如计算机可读介质(例如,非暂时性计算机可读介质)的程序产品。计算机可读介质可以具有计算机程序(即,上述以软件形式实现的元素),该计算机程序被处理器执行时,使得处理器执行本说明书的各个实施例中以上结合图1A-图9描述的各种操作和功能。具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从计算机可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此计算机可读代码和存储计算机可读代码的可读存储介质构成了本发明的一部分。
计算机可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
根据一个实施例,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时,使得处理器执行本说明书的各个实施例中以上结合图1A-图9描述的各种操作和功能。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各***结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (14)

1.一种用于经由至少两个第一成员设备训练word2vec模型的方法,所述方法应用于所述至少两个第一成员设备中的一个第一成员设备,所述方法包括:
基于本地语料的语料分词结果,生成本地分词词库;
与其余第一成员设备一起使用各自的本地分词词库进行隐私求交,确定公共分词并向其余第一成员设备共享非公共分词数目,每个其余第一成员设备的本地分词词库根据该其余第一成员设备所具有的本地语料的语料分词结果生成;
根据所述公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典,所生成的统一字典存储在该第一成员设备本地;
基于本地存储的统一字典和所述本地语料的语料分词结果,生成所述第一成员设备处的训练样本;以及
与其余第一成员设备一起,使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型,各个其余第一成员设备处的训练样本基于所述统一字典和本地语料的语料分词结果生成。
2.如权利要求1所述的方法,还包括:
对所述本地语料分词结果进行预处理,
基于本地语料的本地语料分词结果,生成本地分词词库包括:
基于本地语料的经过预处理后的本地语料分词结果,生成本地分词词库。
3.如权利要求2所述的方法,其中,所述预处理包括下述预处理中的至少一种:分词过滤处理和分词去重处理。
4.如权利要求1所述的方法,其中,基于所述统一字典和所述本地语料分词结果,生成所述第一成员设备处的训练样本包括:
使用给定分词采样窗口来对本地语料分词结果进行分词对采样,得到本地分词对集合;以及
根据所述本地分词对集合中的分词对,生成所述第一成员设备处的训练样本。
5.如权利要求1所述的方法,其中,所述基于隐私保护的word2vec模型训练包括基于联邦学习的word2vec模型训练。
6.如权利要求1所述的方法,其中,第一成员设备包括多于两个第一成员设备,以及所确定出的公共分词包括分层级的公共分词,
向其余第一成员设备共享非公共分词数目包括:
向其余第一成员设备共享非公共分词数目、公共分词所属层级的分词数目以及公共分词所属成员设备的设备标识,
根据所述公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典包括:
根据所述公共分词、公共分词所属层级的分词数目、公共分词所属成员设备的设备标识以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典。
7.一种用于经由至少两个第一成员设备训练word2vec模型的装置,所述装置应用于所述至少两个第一成员设备中的一个第一成员设备,所述装置包括:
至少一个处理器,
与所述至少一个处理器耦合的存储器,以及
存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现:
基于本地语料的本地语料分词结果,生成本地分词词库;
与其余第一成员设备一起使用各自的本地分词词库进行隐私求交,确定公共分词并向其余第一成员设备共享非公共分词数目,每个其余第一成员设备的本地分词词库根据该其余第一成员设备的本地语料的语料分词结果生成;
根据所述公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典,所生成的统一字典存储在该第一成员设备本地;
基于本地存储的统一字典和所述本地语料分词结果,生成所述第一成员设备处的训练样本;以及
与其余第一成员设备一起使用各自的训练样本执行基于隐私保护的word2vec模型训练,各个其余第一成员设备处的训练样本基于所述统一字典和本地语料的语料分词结果生成。
8.如权利要求7所述的装置,其中,所述至少一个处理器执行所述计算机程序来进一步实现:
对所述本地语料分词结果进行预处理,
其中,所述至少一个处理器执行所述计算机程序来进一步实现:
基于本地语料的经过预处理后的本地语料分词结果,生成本地分词词库。
9.如权利要求8所述的装置,其中,所述预处理包括下述预处理中的至少一种:分词过滤处理和分词去重处理。
10.如权利要求7所述的装置,其中,所述至少一个处理器执行所述计算机程序来实现:
使用给定分词采样窗口来对本地语料分词结果进行分词对采样,得到本地分词对集合;以及
根据所述本地分词对集合中的分词对,生成所述第一成员设备处的训练样本。
11.如权利要求7所述的装置,其中,第一成员设备包括多于两个第一成员设备,以及所确定出的公共分词包括分层级的公共分词,
所述至少一个处理器执行所述计算机程序来实现:
向其余第一成员设备共享非公共分词数目、公共分词所属层级的分词数目以及公共分词所属成员设备的设备标识;以及
根据所述公共分词、公共分词所属层级的分词数目、公共分词所属成员设备的设备标识以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典。
12.一种用于经由至少两个第一成员设备训练word2vec模型的***,包括:
至少两个第一成员设备,每个第一成员设备包括如权利要求7到11中任一所述的装置。
13.如权利要求12所述的***,还包括:
第二成员设备,所述第二成员设备部署有word2vec模型,并且与所述至少两个第一成员设备一起执行联邦学习来训练所述word2vec模型。
14.一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行来实现如权利要求1到6中任一所述的方法。
CN202110158847.2A 2021-02-05 2021-02-05 基于隐私保护的word2vec模型训练方法、装置及*** Active CN112507388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110158847.2A CN112507388B (zh) 2021-02-05 2021-02-05 基于隐私保护的word2vec模型训练方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110158847.2A CN112507388B (zh) 2021-02-05 2021-02-05 基于隐私保护的word2vec模型训练方法、装置及***

Publications (2)

Publication Number Publication Date
CN112507388A CN112507388A (zh) 2021-03-16
CN112507388B true CN112507388B (zh) 2021-05-25

Family

ID=74952608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110158847.2A Active CN112507388B (zh) 2021-02-05 2021-02-05 基于隐私保护的word2vec模型训练方法、装置及***

Country Status (1)

Country Link
CN (1) CN112507388B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349879A (zh) * 2023-09-11 2024-01-05 江苏汉康东优信息技术有限公司 基于连续词袋模型的文本数据匿名化隐私保护方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942147A (zh) * 2019-11-28 2020-03-31 支付宝(杭州)信息技术有限公司 基于多方安全计算的神经网络模型训练及预测方法、装置
CN110955915A (zh) * 2019-12-14 2020-04-03 支付宝(杭州)信息技术有限公司 一种隐私数据的处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942147A (zh) * 2019-11-28 2020-03-31 支付宝(杭州)信息技术有限公司 基于多方安全计算的神经网络模型训练及预测方法、装置
CN110955915A (zh) * 2019-12-14 2020-04-03 支付宝(杭州)信息技术有限公司 一种隐私数据的处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度语义学习的智能录波器自配置方法;陈旭等;《电力***保护与控制》;20210131;第49卷(第2期);第179-187页 *

Also Published As

Publication number Publication date
CN112507388A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN111460820B (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN110532381B (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
US10585989B1 (en) Machine-learning based detection and classification of personally identifiable information
Yang et al. Ordering-sensitive and semantic-aware topic modeling
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN117271759A (zh) 文本摘要生成模型训练方法、文本摘要生成方法和装置
CN111241843B (zh) 基于复合神经网络的语义关系推断***和方法
CN112507388B (zh) 基于隐私保护的word2vec模型训练方法、装置及***
CN114580371A (zh) 基于自然语言处理的程序语义混淆方法及***
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
Li et al. An improved Chinese named entity recognition method with TB-LSTM-CRF
CN115730237B (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
Wu et al. Semantic key generation based on natural language
CN112749251B (zh) 文本处理方法、装置、计算机设备和存储介质
Tang et al. Interpretability rules: Jointly bootstrapping a neural relation extractorwith an explanation decoder
Zaikis et al. Dacl: A domain-adapted contrastive learning approach to low resource language representations for document clustering tasks
Ororbia II et al. Privacy protection for natural language: Neural generative models for synthetic text data
CN116975298B (zh) 一种基于nlp的现代化社会治理调度***及方法
Yang et al. Quantifying character similarity with vision transformers
CN118014011B (zh) 大语言模型训练及训练数据构建方法、装置、设备、介质
CN111860662B (zh) 一种相似性检测模型的训练方法及装置、应用方法及装置
Jin et al. Chinese text information hiding based on paraphrasing technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant