CN114297693B - 一种模型预训练方法、装置、电子设备及存储介质 - Google Patents

一种模型预训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114297693B
CN114297693B CN202111656897.XA CN202111656897A CN114297693B CN 114297693 B CN114297693 B CN 114297693B CN 202111656897 A CN202111656897 A CN 202111656897A CN 114297693 B CN114297693 B CN 114297693B
Authority
CN
China
Prior art keywords
ciphertext
text
plaintext
character
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111656897.XA
Other languages
English (en)
Other versions
CN114297693A (zh
Inventor
张阳
安晓江
蒋红宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haitai Fangyuan High Technology Co Ltd
Original Assignee
Beijing Haitai Fangyuan High Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haitai Fangyuan High Technology Co Ltd filed Critical Beijing Haitai Fangyuan High Technology Co Ltd
Priority to CN202111656897.XA priority Critical patent/CN114297693B/zh
Publication of CN114297693A publication Critical patent/CN114297693A/zh
Application granted granted Critical
Publication of CN114297693B publication Critical patent/CN114297693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及信息安全技术领域,尤其涉及一种模型预训练方法、装置、电子设备及存储介质,响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定密文语料中的各密文文本,密文语料为通过对待处理语料进行加密获得的,待处理语料为包含有敏感信息的文本;分别采用预设公开文本中的各明文字符,对各密文文本中的各密文字符进行替换,获得各替换后的文本,公开文本中包含有多个明文字符,公开文本为未包含有敏感信息的、公开的文本;基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并基于预训练模型进行相应处理。这样,能够保证数据安全性的情况下训练和使用预训练模型。

Description

一种模型预训练方法、装置、电子设备及存储介质
技术领域
本申请涉及信息安全技术领域,尤其涉及一种模型预训练方法、装置、电子设备及存储介质。
背景技术
目前,预训练模型能够应用到多种不同的场景中,在训练预训练模型的过程中,通常需要使用到大量的文本数据,然而,在特定的行业和应用场景中,相关的文本数据可能会涉及到敏感信息,因此,在对预训练模型进行训练的过程中,会降低文本数据的安全性。
相关技术中,一般可以将预训练环境部署到客户端,在封闭的环境下进行训练,这样,其它无关人员无法获取到文本数据,然而,对预训练模型进行训练的操作人员仍然能够获取到文本数据,因此,相关技术中的这种模型预训练方式,会降低数据的安全性。
发明内容
本申请实施例提供一种模型预训练方法、装置、电子设备及存储介质,以提高数据的安全性。
本申请实施例提供的具体技术方案如下:
一种模型预训练方法,包括:
响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定所述密文语料中的各密文文本,其中,所述密文语料为通过对待处理语料进行加密获得的,所述待处理语料为包含有敏感信息的文本;
分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,其中,所述公开文本中包含有多个明文字符,所述公开文本为未包含有敏感信息的、公开的文本;
基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,并基于所述预训练模型进行相应处理。
可选的,确定所述密文语料中的各密文文本,具体包括:
基于预设的段落结尾标识,对所述密文语料进行分段,获得各密文段落;
基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。
可选的,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:
确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数;
基于各密文字频和各明文字频,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本。
可选的,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本,具体包括:
按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
可选的,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:
基于已训练的密文字向量模型,分别以所述各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分别以所述各明文字符为输入参数,确定相应的明文字符对应的明文字向量;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文文本各自对应的密文字向量,与所述各明文字向量之间的向量相似度,确定出满足向量相似度条件的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
可选的,基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,具体包括:
分别对所述各替换后的文本进行掩码处理,获得各掩码文本;
分别确定所述各掩码文本各自对应的掩码文本向量;
分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型。
可选的,分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型具体包括:
针对所述各掩码文本向量,分别执行以下操作:
确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符,其中,所述预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量,从与该明文字符相似度最高的预设数个明文字符中选择出的,或,所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息,从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的。
分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量,生成各训练样本;
将所述各训练样本输入至所述待训练模型中,通过注意力机制,计算以所述预设数个明文字符为输出参数的损失值,并基于损失值,对所述待训练模型的各项模型参数进行调整,获得收敛于期望明文字符的模型参数。
可选的,基于所述预训练模型进行相应处理,具体包括:
将所述预训练模型发送至具有数据查看权限的客户端,以使所述客户端采用所述预训练模型进行文本处理。
一种模型预训练方法,包括:
对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料;
将所述密文语料发送至训练客户端,以使所述训练客户端基于所述密文语料,获得所述密文语料中各密文文本各自对应的替换后的文本,并基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并将所述预训练模型返回至具有数据查看权限的客户端;
基于接收到的所述预训练模型进行相应处理。
可选的,对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料,具体包括:
确定待处理语料中各待处理字符各自对应的待处理字符字频,其中,每个待处理字符字频为相应的待处理字符在所述待处理语料中的出现次数;
基于各待处理字符字频,结合预设加密算法,分别对所述各待处理字符进行加密,获得相应的待处理字符对应的密文字符,并建立各待处理字符与相应的密文字符之间的映射关系;
基于所述各待处理字符与相应的密文字符之间的映射关系,分别将所述各待处理字符替换为相应的密文字符,获得密文语料。
可选的,基于接收到的所述预训练模型进行相应处理,具体包括:
对待转换文本进行加密,获得相应的密文文本;
采用预设的公开语料中的各明文字符,对所述密文文本进行替换,获得替换后的文本;
将所述替换后的文本输入至所述预训练模型中,获得所述预训练模型的输出结果。
一种模型预训练装置,包括:
获取模块,用于响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定所述密文语料中的各密文文本,其中,所述密文语料为通过对待处理语料进行加密获得的,所述待处理语料为包含有敏感信息的文本;
处理模块,用于分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,其中,所述公开文本中包含有多个明文字符,所述公开文本为未包含有敏感信息的、公开的文本;
训练模块,用于基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,并基于所述预训练模型进行相应处理。
可选的,确定所述密文语料中的各密文文本时,所述获取模块还用于:
基于预设的段落结尾标识,对所述密文语料进行分段,获得各密文段落;
基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。
可选的,所述处理模块还用于:
确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数;
基于各密文字频和各明文字频,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本。
可选的,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本时,所述处理模块还用于:
按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
可选的,所述处理模块还用于:
基于已训练的密文字向量模型,分别以所述各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分别以所述各明文字符为输入参数,确定相应的明文字符对应的明文字向量;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文文本各自对应的密文字向量,与所述各明文字向量之间的向量相似度,确定出满足向量相似度条件的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
可选的,基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型时,所述训练模块还用于:
分别对所述各替换后的文本进行掩码处理,获得各掩码文本;
分别确定所述各掩码文本各自对应的掩码文本向量;
分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型。
可选的,分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型时,所述训练模块还用于:
针对所述各掩码文本向量,分别执行以下操作:
确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符,其中,所述预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量,从与该明文字符相似度最高的预设数个明文字符中选择出的,或,所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息,从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的。
分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量,生成各训练样本;
将所述各训练样本输入至所述待训练模型中,通过注意力机制,计算以所述预设数个明文字符为输出参数的损失值,并基于损失值,对所述待训练模型的各项模型参数进行调整,获得收敛于期望明文字符的模型参数。
可选的,基于所述预训练模型进行相应处理时,所述训练模块还用于:
将所述预训练模型发送至具有数据查看权限的客户端,以使所述客户端采用所述预训练模型进行文本处理。
一种模型预训练装置,包括:
加密模块,用于对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料;
获得模块,用于将所述密文语料发送至训练客户端,以使所述训练客户端基于所述密文语料,获得所述密文语料中各密文文本各自对应的替换后的文本,并基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并将所述预训练模型返回至具有数据查看权限的客户端;
处理模块,用于基于接收到的所述预训练模型进行相应处理。
可选的,所述加密模块还用于:
确定待处理语料中各待处理字符各自对应的待处理字符字频,其中,每个待处理字符字频为相应的待处理字符在所述待处理语料中的出现次数;
基于各待处理字符字频,结合预设加密算法,分别对所述各待处理字符进行加密,获得相应的待处理字符对应的密文字符,并建立各待处理字符与相应的密文字符之间的映射关系;
基于所述各待处理字符与相应的密文字符之间的映射关系,分别将所述各待处理字符替换为相应的密文字符,获得密文语料。
可选的,所述处理模块还用于:
对待转换文本进行加密,获得相应的密文文本;
采用预设的公开语料中的各明文字符,对所述密文文本进行替换,获得替换后的文本;
将所述替换后的文本输入至所述预训练模型中,获得所述预训练模型的输出结果。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型预训练方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述模型预训练方法的步骤。
本申请实施例中,响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定密文语料中的各密文文本,密文语料为通过对待处理语料进行加密获得的,待处理语料为包含有敏感信息的文本,分别采用预设公开文本中的各明文字符,对各密文文本中的各密文字符进行替换,获得各替换后的文本,公开文本中包含有多个明文字符,公开文本为未包含有敏感信息的、公开的文本,基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并基于预训练模型进行相应处理。这样,由于密文语料是具有数据查看权限的客户端发送的,因此,没有数据查看权限的训练客户端无法获取到原始的待处理语料,仅能够获取到加密后的密文语料,在训练过程中,也无法通过密文语料获取到待处理语料中的敏感信息,能够保证数据的安全性。
附图说明
图1为本申请实施例中一种模型预训练方法的流程示意图;
图2为本申请实施例中一种模型预训练方法的另一流程示意图;
图3为本申请实施例中一种模型预训练装置的结构示意图;
图4为本申请实施例中另一种模型预训练装置的结构示意图;
图5为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,预训练模型能够应用到多种不同的场景中,在对预训练模型进行训练的过程中,通常需要大量的文本数据,但在特定的行业与应用场景中,由于文本数据中可能会涉及敏感信息,因此,在对预训练模型进行训练时,可能会造成数据泄露。
相关技术中,在对模型进行预训练时,通常是在一个较为封闭的环境下,对预训练模型进行训练,然而,对于模型进行训练的操作人员仍然能够获取到带有敏感信息的数据,因此,会降低数据的安全性。
为了解决上述问题,本申请实施例中,提供了一种模型预训练方法、装置、电子设备及存储介质,响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定密文语料中的各密文文本,密文语料为通过对待处理语料进行加密获得的,待处理语料为包含有敏感信息的文本,分别采用预设公开文本中的各明文字符,对各密文文本中的各密文字符进行替换,获得各替换后的文本,公开文本中包含有多个明文字符,公开文本为未包含有敏感信息的、公开的文本,基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并基于预训练模型进行相应处理。这样,训练客户端在对数据进行训练时,无法获取到密文语料中的敏感信息,能够保证数据的安全性。
基于上述实施例,参阅图1所示,为本申请实施例中一种模型预训练方法的流程示意图,具体包括:
S10:响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定密文语料中的各密文文本。
其中,密文语料为通过对待处理语料进行加密获得的。
本申请实施例中,当需要对待训练模型进行训练时,具有数据查看权限的客户端可触发生成针对待训练模型的预训练指令,并将生成的预训练指令发送给训练客户端,从而训练客户端响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并对密文语料进行分句处理,获得密文语料对应的密文文本。
需要说明的是,本申请实施例中,具有数据查看权限的客户端还可以将密文语料打包在预训练指令中,发送给训练客户端,从而训练客户端可以通过对预训练指令进行解析,获得打包在预训练指令中的密文语料。
可选的,本申请实施例中,为确定密文语料中的各密文文本提供了一种可能的实施方式,具体包括:
S101:基于预设的段落结尾标识,对密文语料进行分段,获得各密文段落。
本申请实施例中,密文语料中包括至少一个密文段落,每个密文段落之间通过段落结尾标识相连,因此,基于预设的段落结尾标识,能够对密文语料进行分段,从而获得密文语料对应的各密文段落。
例如,假设密文语料为a@b@k,预设的段落结尾标识为@,则基于预设的段落结尾标识@,对密文语料进行分段,获得密文语料对应的各密文段落,分别为密文段落a、密文段落b和密文段落c。
S102:基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。
本申请实施例中,当具有数据查看权限的客户端对待处理语料进行加密时,将各待处理分句字符加密为统一的分句加密字符,也即,不同的待处理分句字符对应相同的分句加密字符,因此,本申请实施例中,可以基于分句加密字符,对密文段落进行分句,从而获得相应的各密文文本,下面对本申请实施例中对密文段落进行分句的过程进行详细阐述,针对各密文段落,分别执行以下操作:采用预设的分句加密字符,对任意一个密文段落进行分句,从而获得该密文段落对应的各密文文本。
例如,假设密文段落为AxBxCx,预设的分句加密字符为x,则基于分句加密字符x对密文段落进行分句,获得该密文段落对应的各密文文本分别为密文文本A、密文文本B和密文文本C。
需要说明的是,本申请实施例中,当具有数据查看权限的客户端在对待处理语料进行加密时,还可以将不同的待处理分句字符分别加密为不同的分句密文字符,换言之,不同的待处理分句字符对应不同的分句密文字符。
例如,对待处理分句字符“。”进行加密后,获得的分句密文字符为“x”,对待处理分句字符“?”进行加密后,获得的分句密文字符为“y”,本申请实施例中对此并不进行限制。
另外,需要说明的是,本申请实施例中,当具有数据查看权限的客户端将密文语料发送至训练客户端后,同时,将分句密文字符发送至训练客户端,这样,当训练客户端对密文段落进行分句时,由于已经获知分句密文字符,因此,可以基于已知的分句密文字符,对密文段落进行分句,从而获得各密文文本。
相应地,本申请实施例中,具有数据查看权限的客户端还可以将段落结尾标识发送至训练客户端,这样,当训练客户端在对密文语料进行分段时,由于已经获知段落结尾标识,因此,可以基于已知的段落结尾标识,对密文语料进行分段,从而获得各密文段落。
S11:分别采用预设公开文本中的各明文字符,对各密文文本中的各密文字符进行替换,获得各替换后的文本。
其中,公开文本中包含有多个明文字符,公开文本为未包含有敏感信息的、公开的文本。
本申请实施例中,由于公开文本中包含有多个明文字符,而明文字符是未包含有敏感信息的公开字符,因此,采用预设公开文本中的各明文字符,分别对各密文文本中包含的各密文字符进行替换,从而获得各替换后的文本。
可选的,本申请实施例中,为获得替换后的文本提供了两种可能的实施方式,下面分别对本申请实施例中替换密文文本的过程进行详细阐述。
第一种方式:采用密文字频和明文字频进行替换。
则执行S11时,具体包括:
S11-1-1:确定各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频。
其中,每个密文字频为相应的密文字符在各密文文本中的出现次数,每个明文字频为相应的明文字符在公开文本中的出现次数。
本申请实施例中,分别针对各密文字符,执行以下操作:统计任意一个密文字符在各密文文本中的出现次数,并将该密文字符的出现次数作为该密文字符对应的密文字频。通过上述方式,能够获得每个密文字符对应的密文字频。
例如,假设各密文文本分别为密文文本A、密文文本B和密文文本C,密文文本A具体为acddadb,密文文本B具体为aabbdd2,密文文本C具体为a22db,因此,各密文文本中包含的密文字符为a、b、c、d和2,统计密文字符a在各密文文本中的出现次数为5,确定密文字符a对应的密文字频为5;密文字符b在各密文文本中的出现次数为4,确定密文字符b对应的密文字频为4;密文字符c在各密文文本中的出现次数为1,确定密文字符c对应的密文字频为1;密文字符d在各密文文本中的出现次数为6,确定密文字符d对应的密文字频为6;密文字符2在各密文文本中的出现次数为3,确定密文字符2对应的密文字频为3。
需要说明的是,本申请实施例中,在确定密文字频时,统计的是密文字符在所有密文文本中的出现次数。
另外,需要说明的是,本申请实施例中,在获得各密文字符各自对应的密文字频后,可以基于各密文字符,以及各密文字符各自对应的密文字频,生成密文字频表,因此,密文字频表中包括各密文字符,以及各密文字符各自对应的密文字频。例如,参阅表1所示,为本申请实施例中密文字频表。
表1.
密文字符 密文字频
a 6
b 2
# 4
同时,分别针对各明文字符,执行以下操作:统计任意一个明文字符在预设公开文本中的出现次数,并将该明文字符的出现次数作为该明文字符对应的明文字频。因此,通过上述方式,能够获得每个明文字符对应的明文字频。
例如,假设公开文本具体为“我查了今天的天气,今天的阳光很好”,因此,公开文本中包含的明文字符分别为“我”、“查”、“了”、“今”、“天”、“的”、“气”、“阳”、“光”,统计明文字符“我”在公开文本中的出现次数为1,确定明文字符“我”对应的明文字频为1;统计明文字符“查”在公开文本中的出现次数为1,确定明文字符“查”对应的明文字频为1;统计明文字符“了”在公开文本中的出现次数为1,确定明文字符“了”对应的明文字频为1;统计明文字符“今”在公开文本中的出现次数为2,确定明文字符“今”对应的明文字频为2;统计明文字符“天”在公开文本中的出现次数为3,确定明文字符“天”对应的明文字频为3;统计明文字符“的”在公开文本中的出现次数为2,确定明文字符“的”对应的明文字频为2;统计明文字符“气”在公开文本中的出现次数为1,确定明文字符“气”对应的明文字频为1;统计明文字符“阳”在公开文本中的出现次数为1,确定明文字符“阳”对应的明文字频为1;统计明文字符“光”在公开文本中的出现次数为1,确定明文字符“光”对应的明文字频为1。
需要说明的是,本申请实施例中,在获得各明文字符各自对应的明文字频后,可以基于各明文字符,以及各明文字符各自对应的明文字频,生成明文字频表,因此,明文字频表中包括各明文字符,以及各明文字符各自对应的明文字频。例如,参阅表2所示,为本申请实施例中明文字频表。
表2.
明文字符 明文字频
3
2
1
另外,需要说明的是,本申请实施例中的公开文本为通用语料,例如可以为X日报中文语料,本申请实施例中对此并不进行限制。
S11-1-2:基于各密文字频和各明文字频,分别将各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本。
本申请实施例中,基于各密文字频和各明文字频,分别对各密文文本中的各密文字符进行替换,替换为相应的明文字符,从而获得各替换后的文本。
可选的,本申请实施例中,为替换明文字符提供了一种可能的实施方式,下面对本申请实施例中,对密文文本进行替换的过程进行阐述,具体包括:
S11-1-21:按照各密文字符各自对应的密文字频,对各密文字符进行排序,获得排序后的各密文字符,以及,按照各明文字符各自对应的明文字频,对各明文字符进行排序,获得排序后的各明文字符。
本申请实施例中,按照各密文字符各自对应的密文字频,对各密文字符进行排序,从而获得排序后的各密文字符,同时,按照各明文字符各自对应的明文字频,对各明文字符进行排序,从而获得排序后的各明文字频。
需要说明的是,本申请实施例中,在进行排序时,可按照升序的顺序进行排序,还可以按照降序的顺序进行排序,本申请实施例中对此并不进行限制。
S11-1-22:针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
本申请实施例中,分别获得各密文文本各自对应的替换后的文本,下面以任意一个密文文本(以下称为密文文本a),对本申请实施例中,获得替换后的文本的过程进行阐述,具体包括:
针对密文文本a中的各密文字符,分别执行以下操作:
首先,基于任意一个密文字符在排列后的各密文字符中的顺序信息,以及排序后的各明文字符各自对应的顺序信息,从排序后的各明文字符中,确定出与该密文字符的顺序信息相同的明文字符。
然后,将该密文字符替换为确定出的明文字符。
通过上述方式,密文文本a中的各密文字符均被替换为相应的明文字符,从而获得替换后的文本。
下面采用一个具体的例子对本申请实施例中对密文文本a进行替换的过程进行介绍。假设预设的数量为3,排列后的各明文字符为“天的今是你啊我”密文文本a具体为bdccd,因此,密文文本a包括密文字符b、密文字符c和密文字符d,排列后的各密文字符为cdb,以密文字符d为例,确定密文字符d在排列后的各密文字符中的顺序信息为第二个,则确定出与密文字符d的顺序相同的明文字符为“的”,并采用明文字符“的”,替换密文字符d。
然后,基于各密文字符与确定出的相应明文字符,获得替换后的文本为“今的天天的”。
第二种方式:采用密文字频和明文字频进行替换。
则执行S11时,具体包括:
S11-2-1:基于已训练的密文字向量模型,分别以各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分别以各明文字符为输入参数,确定相应的明文字符对应的明文字向量。
本申请实施例中,基于已训练的密文字向量模型,分别以各密文字符为输入参数,输出参数为各密文字符各自对应的密文字向量,同时,基于已训练的明文字向量模型,分别以各明文字符为输入参数,输出参数为各明文字符各自对应的明文字向量。
其中,密文字向量模型用于确定密文字符对应的密文字向量,密文字向量模型是采用无监督词向量训练方法训练获得的;明文字向量模型用于确定明文字符对应的明文字向量,明文字向量模型同样是采用无监督词向量训练方法训练获得的。
S11-2-2:针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文文本各自对应的密文字向量,与各明文字向量之间的向量相似度,确定出满足向量相似度条件的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
本申请实施例中,本申请实施例中,分别获得各密文文本各自对应的替换后的文本,下面以上述密文文本a为例,对本申请实施例中,获得替换后的文本的过程进行阐述,具体包括:
针对密文文本a中的各密文字符,分别执行以下操作:
首先,根据任意一个密文字符对应的密文字向量,以及各明文字符各自对应的明文字向量,分别确定该密文字符与各明文字符之间的向量相似度。
其次,基于各向量相似度,从各明文字符中,确定出满足预设的向量相似度条件的明文字符。
其中,可以从各明文字符中,确定出向量相似度最大的明文字符,作为用于替换的明文字符。
然后,采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
通过上述方式,密文文本a中的各密文字符均被替换为相应的明文字符,从而获得替换后的文本。
下面采用一个具体的例子对本申请实施例中获得替换后的文本的过程进行介绍。例如,假设预设的数量为3,明文字符分别为“今”、“天”、“是”和“的”,密文文本a中的各密文字符分别为!d2,以密文字符“!”为例,则计算密文字符“!”的密文字向量,与明文字符“今”的明文字向量之间向量相似度为0.2,计算密文字符!”的密文字向量,与明文字符“天”的明文字向量之间的向量相似度为0.3,计算密文字符!”的密文字向量,与明文字符“是”的明文字向量之间的向量相似度为0.15,计算密文字符!”的密文字向量,与明文字符“的”的明文字向量之间的向量相似度为0.4,因此,确定出满足预设向量相似度条件的明文字符分别为“的”,用于替换该密文字符“!”。
S12:基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并基于预训练模型进行相应处理。
本申请实施例中,将各替换后的文本输入至待训练模型中,对待训练模型进行训练,获得训练成的预训练模型,并基于预训练模型进行相应处理。
可选的,本申请实施例中,为对待训练模型进行训练提供了一种可能的实施方式,下面对本申请实施例中训练待训练模型的过程进行说明,具体包括:
S121:分别对各替换后的文本进行掩码处理,获得各掩码文本。
本申请实施例中,按照预设的掩码策略,分别对各替换后的文本进行掩码处理,获得各掩码文本。
需要说明的是,预设的掩码策略可以采用随机掩码方式,进行掩码处理的明文字符的比例不超过替换后的文本中包含的各明文字符总量的20%。
S122:分别确定各掩码文本各自对应的掩码文本向量。
本申请实施例中,分别针对各掩码文本,执行以下操作:确定任意一个掩码文本中,各明文字符各自对应的明文向量,并基于各密文向量,确定掩码文本对应的掩码文本向量。
S123:分别将各掩码文本输入至待训练模型中,基于各掩码文本,对待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型。
本申请实施例中,基于各掩码文件,对待训练模型进行训练,从而获得训练完成的预训练模型。
其中,预设的训练截止条件例如可以为达到最大训练步长,如,1,000,000次,还可以为达到训练轮次,如100轮,本申请实施例中对此并不进行限制。
可选的,本申请实施例中,提供了一种训练待训练模型可能的实施方式,下面以任意一个掩码文本向量为例,对本申请实施例中训练待训练模型的过程进行阐述,具体包括:
S1231:确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符。
其中,预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量,从与该明文字符相似度最高的预设数个明文字符中选择出的,或,所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息,从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的。
本申请实施例中,确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符。
需要说明的是,本申请实施例中,预设数个明文字符可以通过以下两种方式确定出。
第一种方式:根据明文字向量确定。
本申请实施例中,确定掩码文本中,掩码位置上的原始的明文字符,然后,根据该明文字符对应的明文字向量,以及该明文字向量与其它各个明文字符之间的明文字向量的向量相似度,从各明文字符中,确定出向量相似度最高的预设数个明文字符,作为用于替换该明文字符的预设数个明文字符。
第二种方式:根据顺序信息确定。
本申请实施例中,确定掩码文本中,掩码位置上的原始的明文字符,然后,根据该明文字符对应的顺序信息,确定出排列在该明文字符之前的预设数个明文字符,以及排列在该明文字符之后的预设数个明文字符,并将确定出的明文字符,作为用于替换该明文字符的预设数个明文字符。
S1232:分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量,生成各训练样本。
本申请实施例中,在获得每个掩码位置上用于替换的各明文字符后,分别针对各明文字符,执行以下操作:基于该掩码文本向量,以及任意一明文字符对应的明文字向量,生成训练样本,从而能够获得各训练样本。
S1233:将各训练样本输入至所述待训练模型中,通过注意力机制,计算以预设数个明文字符为输出参数的损失值,并基于损失值,对待训练模型的各项模型参数进行调整,获得收敛于期望明文字符的模型参数。
:本申请实施例中,分别将各训练样本输入至待训练模型中,通过注意力机制,计算以预设数个明文字符为输出参数时,模型的损失值,并根据模型的损失值,对待训练模型的各项模型参数进行优化,获得收敛于期望明文字符的模型参数,从而获得训练完成的预训练模型。
因此,本申请实施例中待训练模型的计算复杂度为M*N,M为每个掩码文本的掩码位置的数量,N为每个掩码位置上,原始的明文字符对应的明文字符的数量。
需要说明的是,本申请实施例中的待训练模型可以为Bert模型,还可以为Albert模型,其中,Bert模型为12层,12头,768维的标准Bert模型结构,使用ADM优化器对模型进行优化,并采用交叉熵CE损失函数对模型参数进行调整。
进一步地,本申请实施例中,在获得预训练模型后,将预训练模型发送至具有数据查看权限的客户端,以使客户端采用预训练模型进行文本处理。
需要说明的是,本申请实施例中客户端采用预训练模型进行文本处理的过程将在下述实施例中进行详细阐述,在此不过多赘述。
本申请实施例中,由于训练客户端获取到的训练数据为密文语料,因此,无法获知密文语料中的敏感信息,从而保证了数据的安全性。
基于上述实施例,参阅图2所示,为本申请实施例中一种模型预训练方法的另一流程示意图,具体包括:
S20:对获得的待处理语料进行加密,获得待处理语料对应的密文语料。
本申请实施例中,获得待处理语料,并对获得的待处理语料进行加密,获得待处理语料对应的密文语料。
可选的,本申请实施例中,为对待处理语料进行加密提供了一种可能的实施方式,下面对本申请实施例中,对待处理语料进行加密,获得待处理语料对应的密文语料的过程进行详细阐述,具体包括:
S201:确定待处理语料中各待处理字符各自对应的待处理字符字频。
其中,每个待处理字符字频为相应的待处理字符在待处理语料中的出现次数。
本申请实施例中,分别针对各待处理字符,执行以下操作:统计任意一个待处理字符在待处理语料中的出现次数,并将该待处理字符的出现次数作为该待处理字符对应的待处理字符字频。通过上述方式,能够获得每个待处理字符对应的待处理字符字频。
可选的,本申请实施例中,在确定各待处理字符各自对应的待处理字符字频之前,需要先对待处理语料进行预处理,从而在确定各待处理字符字频时,确定的是经过预处理后的待处理语料中的各待处理字符各自对应的待处理字符字频。
其中,在对待处理语料进行预处理时,可以对待处理语料进行编码格式转换、降噪去除非法字符等处理,获得经过预处理后的待处理语料。
S202:基于各待处理字符字频,结合预设加密算法,分别对各待处理字符进行加密,获得相应的待处理字符对应的密文字符,并建立各待处理字符与相应的密文字符之间的映射关系。
本申请实施例中,首先,基于各待处理字符字频,对各待处理字符进行排序,获得排序后的各待处理字符,并分别对排序后的各待处理字符进行加密,获得排序后的各待处理字符各自对应的待处理密文字符,然后,建立各待处理字符与相应的密文字符之间的映射关系。
例如,各待处理字符分别为“你”、“的”、“好”,待处理字符“你”对应的待处理密文字符为“d”,待处理字符“的”对应的待处理密文字符为“*”,待处理字符“好”对应的待处理密文字符为“9”,从而建立各待处理字符与相应的密文字符之间的映射关系。
需要说明的是,本申请实施例中的预设加密算法例如可以为国密加密算法,本申请实施例中对此并不进行限制。
S203:基于各待处理字符与相应的密文字符之间的映射关系,分别将各待处理字符替换为相应的密文字符,获得密文语料。
本申请实施例中,在获得各待处理字符与相应的密文字符之间的映射关系后,基于各待处理字符与相应的密文字符之间的映射关系,分别将待处理语料中的各待处理字符替换为相应的密文字符,获得密文语料。
S21:将密文语料发送至训练客户端,以使训练客户端基于密文语料,获得密文语料中各密文文本各自对应的替换后的文本,并基于各换后的密文文本,对待训练模型进行训练,获得预训练模型,并将预训练模型返回至具有数据查看权限的客户端。
本申请实施例中,在获得密文语料后,将密文语料发送至训练客户端,训练客户端在接收到密文语料后,基于密文语料,确定密文语料中的各密文文本,并分别对各密文文本进行替换,获得相应替换后的文本,并基于各替换后的文本,对待训练模型进行训练,获得预训练模型,将预训练模型返回至具有数据查看权限的客户端,从而具有数据查看权限的客户端接收到预训练模型。
需要说明的是,本申请实施例中,训练客户端对待训练模型进行训练的过程,可参照上述实施例中的方法,在此不过多赘述。
S22:基于接收到的预训练模型进行相应处理。
本申请实施例中,对S22提供了一种可能的实施方式,下面对本申请实施例中基于接收到的预训练模型进行相应处理的过程进行说明,具体包括:
S221:对待转换文本进行加密,获得相应的密文文本。
本申请实施例中,对输入的待转换文本进行格式转换,转换为UTF-8格式,同时,通过降噪处理,去除非法字符,然后,采用预设的密文映射表,将待转换文本中包含的各待转换字符,分别转换为相应的密文字符,获得待转换文本对应的密文文本。
S222:采用预设的公开语料中的各明文字符,对密文文本进行替换,获得替换后的文本。
本申请实施例中,基于对预训练模型进行训练时所采用的相同的替换方式,将密文文本替换为相应的明文字符,从而获得替换后的文本。
S223:将替换后的文本输入至预训练模型中,获得预训练模型的输出结果。
本申请实施例中,将替换后的文本输入至预训练模型中,使用预训练模型,获得输出结果。
可选的,本申请实施例中,还可以直接基于密文文本,进行训练,获得进一步训练后的模型,本申请实施例中对此并不进行限制。
本申请实施例中,具有数据查看权限的客户端生成密文语料,能够保证包含有敏感信息的密文语料无法被没有权限的其它用户获知,从而提高了数据的安全性。
基于同一发明构思,本申请实施例中提供了一种模型预训练装置,该一种模型预训练装置例如可以是前述实施例中的训练客户端,该一种模型预训练装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图3所示为本申请实施例中一种模型预训练装置的结构示意图,具体包括:
获取模块300,用于响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定所述密文语料中的各密文文本,其中,所述密文语料为通过对待处理语料进行加密获得的,所述待处理语料为包含有敏感信息的文本;
处理模块310,用于分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,其中,所述公开文本中包含有多个明文字符,所述公开文本为未包含有敏感信息的、公开的文本;
训练模块320,用于基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,并基于所述预训练模型进行相应处理。
可选的,确定所述密文语料中的各密文文本时,所述获取模块300还用于:
基于预设的段落结尾标识,对所述密文语料进行分段,获得各密文段落;
基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。
可选的,所述处理模块310还用于:
确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数;
基于各密文字频和各明文字频,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本。
可选的,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本时,所述处理模块310还用于:
按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
可选的,所述处理模块310还用于:
基于已训练的密文字向量模型,分别以所述各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分别以所述各明文字符为输入参数,确定相应的明文字符对应的明文字向量;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文文本各自对应的密文字向量,与所述各明文字向量之间的向量相似度,确定出满足向量相似度条件的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
可选的,基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型时,所述训练模块320还用于:
分别对所述各替换后的文本进行掩码处理,获得各掩码文本;
分别确定所述各掩码文本各自对应的掩码文本向量;
分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型。
可选的,分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型时,所述训练模块320还用于:
针对所述各掩码文本向量,分别执行以下操作:
确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符,其中,所述预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量,从与该明文字符相似度最高的预设数个明文字符中选择出的,或,所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息,从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的。
分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量,生成各训练样本;
将所述各训练样本输入至所述待训练模型中,通过注意力机制,计算以所述预设数个明文字符为输出参数的损失值,并基于损失值,对所述待训练模型的各项模型参数进行调整,获得收敛于期望明文字符的模型参数。
可选的,基于所述预训练模型进行相应处理时,所述训练模块320还用于:
将所述预训练模型发送至具有数据查看权限的客户端,以使所述客户端采用所述预训练模型进行文本处理。
基于同一发明构思,本申请实施例中提供了另一种模型预训练装置,该另一种模型预训练装置例如可以是前述实施例中的具有数据查看权限的客户端,该另一种模型预训练装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图4所示为本申请实施例中另一种模型预训练装置的结构示意图,具体包括:
加密模块400,用于对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料;
获得模块410,用于将所述密文语料发送至训练客户端,以使所述训练客户端基于所述密文语料,获得所述密文语料中各密文文本各自对应的替换后的文本,并基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并将所述预训练模型返回至具有数据查看权限的客户端;
处理模块420,用于基于接收到的所述预训练模型进行相应处理。
可选的,所述加密模块400还用于:
确定待处理语料中各待处理字符各自对应的待处理字符字频,其中,每个待处理字符字频为相应的待处理字符在所述待处理语料中的出现次数;
基于各待处理字符字频,结合预设加密算法,分别对所述各待处理字符进行加密,获得相应的待处理字符对应的密文字符,并建立各待处理字符与相应的密文字符之间的映射关系;
基于所述各待处理字符与相应的密文字符之间的映射关系,分别将所述各待处理字符替换为相应的密文字符,获得密文语料。
可选的,所述处理模块420还用于:
对待转换文本进行加密,获得相应的密文文本;
采用预设的公开语料中的各明文字符,对所述密文文本进行替换,获得替换后的文本;
将所述替换后的文本输入至所述预训练模型中,获得所述预训练模型的输出结果。
基于上述实施例,参阅图5所示为本申请实施例中电子设备的结构示意图。
本申请实施例提供了一种电子设备,该电子设备可以包括处理器510(CenterProcessing Unit,CPU)、存储器520、输入设备530和输出设备540等,输入设备530可以包括键盘、鼠标、触摸屏等,输出设备540可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器520可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器510提供存储器520中存储的程序指令和数据。在本申请实施例中,存储器520可以用于存储本申请实施例中任一种模型预训练方法的程序。
处理器510通过调用存储器520存储的程序指令,处理器510用于按照获得的程序指令执行本申请实施例中任一种模型预训练方法。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的模型预训练方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (20)

1.一种模型预训练方法,其特征在于,包括:
响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定所述密文语料中的各密文文本,其中,所述密文语料为通过对待处理语料进行加密获得的,所述待处理语料为包含有敏感信息的文本;
分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,其中,所述公开文本中包含有多个明文字符,所述公开文本为未包含有敏感信息的、公开的文本;
基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,并基于所述预训练模型进行相应处理;
其中,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:
确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数;
基于各密文字频和各明文字频,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本;
其中,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本,具体包括:
按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
2.如权利要求1所述的方法,其特征在于,确定所述密文语料中的各密文文本,具体包括:
基于预设的段落结尾标识,对所述密文语料进行分段,获得各密文段落;
基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。
3.如权利要求1所述的方法,其特征在于,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:
基于已训练的密文字向量模型,分别以所述各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分别以所述各明文字符为输入参数,确定相应的明文字符对应的明文字向量;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文文本各自对应的密文字向量,与所述各明文字向量之间的向量相似度,确定出满足向量相似度条件的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
4.如权利要求1所述的方法,其特征在于,基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,具体包括:
分别对所述各替换后的文本进行掩码处理,获得各掩码文本;
分别确定所述各掩码文本各自对应的掩码文本向量;
分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型。
5.如权利要求4所述的方法,其特征在于,分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型,具体包括:
针对所述各掩码文本向量,分别执行以下操作:
确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符,其中,所述预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量,从与该明文字符相似度最高的预设数个明文字符中选择出的,或,所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息,从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的;
分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量,生成各训练样本;
将所述各训练样本输入至所述待训练模型中,通过注意力机制,计算以所述预设数个明文字符为输出参数的损失值,并基于损失值,对所述待训练模型的各项模型参数进行调整,获得收敛于期望明文字符的模型参数。
6.如权利要求1-5任一项所述的方法,其特征在于,基于所述预训练模型进行相应处理,具体包括:
将所述预训练模型发送至具有数据查看权限的客户端,以使所述客户端采用所述预训练模型进行文本处理。
7.一种模型预训练方法,其特征在于,包括:
对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料;
将所述密文语料发送至训练客户端,以使所述训练客户端基于所述密文语料,获得所述密文语料中各密文文本各自对应的替换后的文本,并基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并将所述预训练模型返回至具有数据查看权限的客户端;
基于接收到的所述预训练模型进行相应处理;
其中,各替换后的文本为确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,基于各密文字频和各明文字频,按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换获得的,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数。
8.如权利要求7所述的方法,其特征在于,对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料,具体包括:
确定待处理语料中各待处理字符各自对应的待处理字符字频,其中,每个待处理字符字频为相应的待处理字符在所述待处理语料中的出现次数;
基于各待处理字符字频,结合预设加密算法,分别对所述各待处理字符进行加密,获得相应的待处理字符对应的密文字符,并建立各待处理字符与相应的密文字符之间的映射关系;
基于所述各待处理字符与相应的密文字符之间的映射关系,分别将所述各待处理字符替换为相应的密文字符,获得密文语料。
9.如权利要求7所述的方法,其特征在于,基于接收到的所述预训练模型进行相应处理,具体包括:
对待转换文本进行加密,获得相应的密文文本;
采用预设的公开语料中的各明文字符,对所述密文文本进行替换,获得替换后的文本;
将所述替换后的文本输入至所述预训练模型中,获得所述预训练模型的输出结果。
10.一种模型预训练装置,其特征在于,包括:
获取模块,用于响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定所述密文语料中的各密文文本,其中,所述密文语料为通过对待处理语料进行加密获得的,所述待处理语料为包含有敏感信息的文本;
处理模块,用于分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,其中,所述公开文本中包含有多个明文字符,所述公开文本为未包含有敏感信息的、公开的文本;
训练模块,用于基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,并基于所述预训练模型进行相应处理;
其中,所述处理模块还用于:
确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数;
基于各密文字频和各明文字频,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本;
其中,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本时,所述处理模块还用于:
按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
11.如权利要求10所述的装置,其特征在于,确定所述密文语料中的各密文文本时,所述获取模块还用于:
基于预设的段落结尾标识,对所述密文语料进行分段,获得各密文段落;
基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。
12.如权利要求10所述的装置,其特征在于,所述处理模块还用于:
基于已训练的密文字向量模型,分别以所述各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分别以所述各明文字符为输入参数,确定相应的明文字符对应的明文字向量;
针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文文本各自对应的密文字向量,与所述各明文字向量之间的向量相似度,确定出满足向量相似度条件的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
13.如权利要求10所述的装置,其特征在于,基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型时,所述训练模块还用于:
分别对所述各替换后的文本进行掩码处理,获得各掩码文本;
分别确定所述各掩码文本各自对应的掩码文本向量;
分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型。
14.如权利要求13所述的装置,其特征在于,分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型时,所述训练模块还用于:
针对所述各掩码文本向量,分别执行以下操作:
确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符,其中,所述预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量,从与该明文字符相似度最高的预设数个明文字符中选择出的,或,所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息,从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的;
分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量,生成各训练样本;
将所述各训练样本输入至所述待训练模型中,通过注意力机制,计算以所述预设数个明文字符为输出参数的损失值,并基于损失值,对所述待训练模型的各项模型参数进行调整,获得收敛于期望明文字符的模型参数。
15.如权利要求10-14任一项所述的装置,其特征在于,基于所述预训练模型进行相应处理时,所述训练模块还用于:
将所述预训练模型发送至具有数据查看权限的客户端,以使所述客户端采用所述预训练模型进行文本处理。
16.一种模型预训练装置,其特征在于,包括:
加密模块,用于对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料;
获得模块,用于将所述密文语料发送至训练客户端,以使所述训练客户端基于所述密文语料,获得所述密文语料中各密文文本各自对应的替换后的文本,并基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并将所述预训练模型返回至具有数据查看权限的客户端;
处理模块,用于基于接收到的所述预训练模型进行相应处理;
其中,各替换后的文本为确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,基于各密文字频和各明文字频,按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换获得的,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数。
17.如权利要求16所述的装置,其特征在于,所述加密模块还用于:
确定待处理语料中各待处理字符各自对应的待处理字符字频,其中,每个待处理字符字频为相应的待处理字符在所述待处理语料中的出现次数;
基于各待处理字符字频,结合预设加密算法,分别对所述各待处理字符进行加密,获得相应的待处理字符对应的密文字符,并建立各待处理字符与相应的密文字符之间的映射关系;
基于所述各待处理字符与相应的密文字符之间的映射关系,分别将所述各待处理字符替换为相应的密文字符,获得密文语料。
18.如权利要求16所述的装置,其特征在于,所述处理模块还用于:
对待转换文本进行加密,获得相应的密文文本;
采用预设的公开语料中的各明文字符,对所述密文文本进行替换,获得替换后的文本;
将所述替换后的文本输入至所述预训练模型中,获得所述预训练模型的输出结果。
19.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6或7-9任一项所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-6或7-9任一项所述方法的步骤。
CN202111656897.XA 2021-12-30 2021-12-30 一种模型预训练方法、装置、电子设备及存储介质 Active CN114297693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111656897.XA CN114297693B (zh) 2021-12-30 2021-12-30 一种模型预训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111656897.XA CN114297693B (zh) 2021-12-30 2021-12-30 一种模型预训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114297693A CN114297693A (zh) 2022-04-08
CN114297693B true CN114297693B (zh) 2022-11-18

Family

ID=80974449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111656897.XA Active CN114297693B (zh) 2021-12-30 2021-12-30 一种模型预训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114297693B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595566B (zh) * 2023-07-17 2023-10-20 山东云天安全技术有限公司 数据加密***及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571323A (zh) * 2011-12-31 2012-07-11 深圳市永达电子股份有限公司 非标准字符库处理方法和装置以及引用该方法和装置的***
CN113011126A (zh) * 2021-03-11 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106788993A (zh) * 2016-12-02 2017-05-31 乐视控股(北京)有限公司 一种加密通信方法、装置及电子设备
EP3502945B1 (en) * 2017-12-21 2023-04-26 CompuGroup Medical SE & Co. KGaA A method for accessing a database stored on a server using a relation
CN110134953B (zh) * 2019-05-05 2020-12-18 北京科技大学 基于中医古籍文献的中医命名实体识别方法及识别***
CN111898135A (zh) * 2020-02-12 2020-11-06 北京京东尚科信息技术有限公司 数据处理方法、数据处理装置、计算机设备和介质
CN111539223B (zh) * 2020-05-29 2023-08-18 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111813925A (zh) * 2020-07-14 2020-10-23 混沌时代(北京)教育科技有限公司 一种基于语义的无监督自动摘要方法及***
CN112560443B (zh) * 2020-12-29 2022-11-29 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN113065330A (zh) * 2021-03-22 2021-07-02 四川大学 一种从非结构化数据中提取敏感信息的方法
CN113742454B (zh) * 2021-09-09 2023-07-21 平安科技(深圳)有限公司 基于人工智能的应答语料生成方法及相关设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571323A (zh) * 2011-12-31 2012-07-11 深圳市永达电子股份有限公司 非标准字符库处理方法和装置以及引用该方法和装置的***
CN113011126A (zh) * 2021-03-11 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN114297693A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
US20210312334A1 (en) Model parameter training method, apparatus, and device based on federation learning, and medium
Ma et al. Cryptanalysis of an image block encryption algorithm based on chaotic maps
CN108984733B (zh) 跨域数据融合方法、***以及存储介质
CN107038383A (zh) 一种数据处理的方法和设备
CN111415013B (zh) 隐私机器学习模型生成、训练方法、装置及电子设备
CN109509010B (zh) 一种多媒体信息处理方法、终端及存储介质
CN110969243B (zh) 防止隐私泄漏的对抗生成网络的训练方法及装置
CN105956469A (zh) 文件安全性识别方法和装置
CN112508200B (zh) 处理机器学习模型文件的方法、装置、设备、介质和程序
CN111191255B (zh) 信息加密处理的方法、服务器、终端、设备以及存储介质
CN112116008A (zh) 基于智能决策的目标检测模型的处理方法、及其相关设备
CN108549824B (zh) 一种数据脱敏方法及装置
CN105827582A (zh) 一种通信加密方法、装置和***
CN114297693B (zh) 一种模型预训练方法、装置、电子设备及存储介质
CN114282692A (zh) 一种纵向联邦学习的模型训练方法及***
CN113055153B (zh) 一种基于全同态加密算法的数据加密方法、***和介质
CN101442671A (zh) 一种数字信息嵌入和提取的方法及装置
CN111159730B (zh) 数据处理方法、查询方法、装置、电子设备和***
CN111046431B (zh) 数据处理方法、查询方法、装置、电子设备和***
US11748661B2 (en) Training method and apparatus for a distributed machine learning model and medium
CN116644472A (zh) 数据加密、数据解密方法、装置、电子设备及存储介质
CN116756296B (zh) 一种基于隐私保护的咨询信息管理方法及***
CN113468334B (zh) 密文情感分类方法、装置、设备及存储介质
CN115758368B (zh) 恶意破解软件的预测方法、装置、电子设备和存储介质
CN117688591B (zh) 一种用于ofd版式文档的加密方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant