CN111046673A - 一种用于防御文本恶意样本的对抗生成网络及其训练方法 - Google Patents

一种用于防御文本恶意样本的对抗生成网络及其训练方法 Download PDF

Info

Publication number
CN111046673A
CN111046673A CN201911296950.2A CN201911296950A CN111046673A CN 111046673 A CN111046673 A CN 111046673A CN 201911296950 A CN201911296950 A CN 201911296950A CN 111046673 A CN111046673 A CN 111046673A
Authority
CN
China
Prior art keywords
text data
model
sample
training
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911296950.2A
Other languages
English (en)
Other versions
CN111046673B (zh
Inventor
唐卓
周文
李肯立
方小泉
阳王东
周旭
刘楚波
曹嵘晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201911296950.2A priority Critical patent/CN111046673B/zh
Publication of CN111046673A publication Critical patent/CN111046673A/zh
Application granted granted Critical
Publication of CN111046673B publication Critical patent/CN111046673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于防御文本恶意样本的对抗生成网络及其训练方法,利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的防御与生成。生成器部分由自编码器(Auto‑encoder)构成,将离散的文本数据映射到连续的高维隐藏空间中,由此生成器可以利用隐藏向量生成恶意文本。判别器即判别模型,用于识别数据。生成模型生成的恶意文本将被打上真实标签与真实样本同时输入判别模型中,来进行判别模型的训练。加入恶意样本训练的判别模型能够对文本数据准确高效的识别。生成模型利用判别模型对恶意样本的评估分数以及文本数据与恶意样本的差别进行训练,来生成攻击力更强的恶意样本。由于训练过程中恶意样本的加入和对抗性的网络训练过程,网络识别文本数据能力和抗干扰性、防御能力都大幅提升。

Description

一种用于防御文本恶意样本的对抗生成网络及其训练方法
技术领域
本发明属于文本数据处理技术领域,更具体地,涉及一种用于防御文本恶意样本的对抗生成网络及其训练方法。
背景技术
恶意样本是在近几年在图像识别以及文本处理中被发现,对于机器学习和深度学习在文本数据处理的领域有着极强的攻击性。恶意样本即对抗样本,对抗样本是在数据中加入人眼不可察觉的扰动,使得模型对数据的标签预测发生混淆和错误。对抗样本是各种机器学习***需要克服的一大障碍。对抗样本的存在表明模型倾向于依赖不可靠的特征来最大化性能,如果特征受到干扰,那么将造成模型误分类,可能导致灾难性的后果。因此,对抗样本的防御在文本数据处理过程中至关重要。
现有的对于恶意样本防御的方法主要有两种:其一是在文本判别模型学习中修改训练过程,或者修改输入的文本样本,对样本进行人工去噪、数据压缩等预处理的过程;其二是修改进行文本处理的网络结构,例如增加多层或子网络结构、改变损失函数和激活函数等。
上述两种方法分别从样本处理的角度和改变模型的角度对网络模型进行了改进,能够起到对于对抗样本一定的防御作用,但是它们均存在着不可忽略的缺陷:其均只能从主观意识上对数据和网络进行修改,但在训练阶段没有使用恶意样本,因此其不能保证对恶意样本的完全防御。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种用于防御文本恶意样本的对抗生成网络及其训练方法,其目的在于,解决现有恶意样本防御方法中无法保证对恶意样本的完全防御的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种用于防御文本恶意样本的对抗生成网络,包括彼此互相耦接的生成模型和判别模型,生成模型用于根据文本分类数据集进行训练,并在训练好后根据输入的真实样本生成第一样本,将第一样本打上和真实样本相同的标签,并一起输入判别模型。判别模型用于根据打上标签后的第一样本和真实样本进行训练,在训练好后获取恶意标签,根据该恶意标签、以及第一样本输入判别模型后的结果得到第一损失值,将该第一损失值、以及根据第一样本和真实样本得到的第二损失值相加,并使用相加结果训练生成模型。生成模型训练好后根据输入的真实样本生成恶意样本。
按照本发明的另一方面,提供了一种用于防御文本恶意样本的对抗生成网络的训练方法,包括以下步骤:
(1)从网络获取文本分类数据集(X,Y),其中X表示文本数据集合,Y表示文本数据集合所对应的标签集合,且Y={y1,y2,…,ym},其中m表示标签集合中的标签个数;
(2)遍历步骤(1)获取的文本分类数据集中所有文本数据中的词,按照词在文本分类数据集中出现的顺序为该词分配ID号作为该词对应的索引号,并将所有词作为键、该词对应的索引号作为值建立词表;
(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号,将所有索引号输入生成模型中进行预训练,以得到预训练后的生成模型;
(4)使用每个文本数据x(i)={xi1,xi2,…,xin}对应的真实标签y(i)为每个句子
Figure BDA0002320835700000021
进行标注,将得到的所有标注结果(X*,Y)和文本分类数据集(X,Y)进行随机混合后,并将混合结果中的真实标签y1,y2,…,ym分别转换为向量y′1,y′2…,y′m,将混合结果输入判别模型,以得到每个文本数据x(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
(5)根据步骤(4)得到的每个文本数据x(i)对应于标签集合Y中各个标签的概率P(i)、以及真实标签转换后的向量y′(i)建立目标函数,并根据该目标函数对判别模型进行训练,以得到训练好的判别模型;
(6)固定步骤(5)训练后得到的判别模型中的所有参数,将每个文本数据x(i)输入步骤(3)预训练后的生成模型,以得到句子作为恶意样本x*(i),将恶意样本x*(i)输入步骤(5)训练好的判别模型,以得到恶意样本x*(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
(7)随机生成恶意标签y*(i)(其不等于真实标签y(i)),将恶意标签y*(i)分别转换为向量y′’*(i)
(8)根据步骤(6)得到的概率分布P(i)和步骤(7)得到的向量y′’*(i)获得损失函数;
(9)根据步骤(8)得到的损失函数对生成模型进行训练,以得到训练后的生成模型,此时的生成模型可以根据文本数据集合X产生恶意样本;
(10)重复上述步骤(4)到(9)达预设迭代次数,过程结束。
优选地,步骤(3)的预训练过程具体为,首先抽取文本数据集合X中的每个文本数据x(i)={xi1,xi2,…,xin},如果该文本数据长度不足n,则将其通过补零变成固定长度n,如果超过n则删除文本数据结尾处多余的词,从而得到更新后的多个文本数据,将更新后的多个文本数据输入该生成模型,根据该生成模型的输出和更新后的多个文本数据,并采用极大似然估计对生成器型进行预训练,其中xin表示第i个文本数据中的第n个单词,n表示句子长度,i表示文本数据集合X中文本数据的序号,第i个文本数据对应的标签用y(i)表示。
优选地,步骤(3)中使用的生成模型是由自编码器构成,自编码器包括彼此连接的编码器和解码器,编码器和解码器均包括词嵌入层、以及三层LSTM网络。
优选地,步骤(3)中采用极大似然估计对生成器型进行预训练,这一过程包括:
(3-1)将更新后的多个文本数据按批次输入编码器的词嵌入层,以得到m*n*200个句子向量,其中m表示一个批次的文本数据数量,并优选等于128;
(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络,以得到多个第一层隐藏状态,将多个第一层隐藏状态输入第二层LSTM网络,以得到第二层隐藏状态,再将第二层隐藏状态输入第三层LSTM网络,以得到第三层隐藏状态,从而得到3个包含句子语义信息的向量;
(3-3)将更新后的多个文本数据按批次输入解码器的词嵌入层,以得到m*n*200个句子向量;
(3-4)以步骤(3-3)得到的m*n*200个句子向量作为初始隐藏状态,将步骤(3-2)得到的3个包含句子语义信息的向量输入解码器,从而得到三层LSTM网络的隐藏状态、以及多个词向量,并根据该多个词向量获取多个对应的句子
Figure BDA0002320835700000041
(3-5)根据步骤(3-4)得到的每个句子x*(i)和文本数据集合X中的每个文本数据x(i)建立目标函数;
(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。
优选地,步骤(3-5)建立的目标函数
Figure BDA0002320835700000042
优选地,步骤(4)具体是将混合结果中的ym转换为向量y′m,就是将向量y′m中除了第m个以外的所有元素设置为0,第m个元素设置为1,步骤(4)中的判别模型是使用的是用于关系分类的双向长短期记忆网络,且包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。
优选地,步骤(5)中建立的目标函数为:
Figure BDA0002320835700000051
优选地,步骤(8)中的损失函数Loss等于:loss=loss1+loss2
其中损失函数的一部分为:
Figure BDA0002320835700000052
另一部分为:
Figure BDA0002320835700000053
其中λ为0到1之间的小数。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明在训练判别模型时,不仅使用了本发明获取的文本分类数据集,还将训练好的生成模型所生成的恶意样本标注真实标签输入判别模型,在提高判别模型识别文本数据能力的同时,极大的增强了判别模型对于恶意样本的防御能力;
2、由于本发明通过固定当前判别模型的参数,来继续训练生成模型,得到对于当前判别模型最优的生成模型,提高了生成模型生成恶意样本的能力,从而进一步提升了判别模型对于恶意样本的防御能力。
附图说明
图1是本发明使用的判别模型的训练示意图。
图2是本发明使用的判别模型的结构示意图。
图3是本发明使用的生成模型的训练流程图。
图4是本发明作为生成模型的自编码器的结构示意图。
图5是本发明用于防御文本恶意样本的对抗生成网络的训练方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
生成式对抗网络(GAN)是一个新的机器学习的思想。GAN模型中的两位博弈方分别由生成模型(Generative model)和判别模型(Discriminative model)充当。生成模型在图像以及文本生成方面表现了极大的创造力和性能。判别模型对于区分伪造的图像和文字性能会随着生成模型能力的增加而增加。生成模型G捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声z经过深度神经网络生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别模型D是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,D输出大概率,否则,D输出小概率。GAN的优化是一个极小极大博弈问题。利用生成模型生成恶意样本,判别模型作为恶意样本的防御是非常合适的。因此,如何有效地利用对抗生成网络中的博弈的方法不断地提高判别模型的鲁棒性并将其运用到文本处理的过程中来是本发明所考虑的重点。
本发明的基本思路在于,提供了一种用于防御文本恶意样本的对抗生成网络及其训练方法,利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的检测与生成。生成器部分由自编码器(auto-encoder)构成,判别模型为文本判别模型,用于识别数据。生成模型生成的恶意文本将被打上对抗标签与真实样本同时输入判别模型中,来进行判别模型的训练。由于训练过程中恶意样本的加入和对抗性的网络训练过程,网络识别文本数据能力和抗干扰性、防御能力都大幅提升。对抗生成网络包含两个部分,分为生成模型G和判别模型D。训练过程中,先固定其中一个网络模型的参数,将另一部分的网络模型训练到当前固定参数模型最优的状态,然后按照这种方式训练另一个模型的参数,双方互相博弈地提升模型性能。对生成模型和判别模型交替迭代训练,会使得判别模型的防御能力不断提升。
下面将结合附图对本发明作进一步的说明:
如图1所示,本发明提供了一种用于防御文本恶意样本的对抗生成网络,包括彼此互相耦接的生成模型和判别模型,其中生成模型用于根据文本分类数据集进行训练,并在训练好后根据输入的真实样本生成第一样本,将第一样本打上和真实样本相同的标签,并一起输入判别模型。判别模型用于根据打上标签后的第一样本和真实样本进行训练,在训练好后获取恶意标签,根据该恶意标签、以及第一样本输入判别模型后的结果得到第一损失值,将该第一损失值、以及根据第一样本和真实样本得到的第二损失值相加,并使用相加结果训练生成模型。生成模型训练好后根据输入的真实样本生成恶意样本。
具体而言,本发明中的文本分类数据集是从网络获取的公开数据集,例如DBpedia。
如图5所示,本发明用于防御文本恶意样本的对抗生成网络的训练方法包括以下步骤:
(1)从网络获取文本分类数据集(X,Y),其中X表示文本数据集合,Y表示文本数据集合所对应的标签集合,且Y={y1,y2,…,ym},其中m表示标签集合中的标签个数;
(2)遍历步骤(1)获取的文本分类数据集中所有文本数据中的词,按照词在文本分类数据集中出现的顺序为该词分配ID号作为该词对应的索引号,并将所有词作为键、该词对应的索引号作为值建立词表;
举例而言,对于文本分类数据集中第一个文本数据中的第一个词,其分配的ID号(即索引号)就是0。
(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号,将所有索引号输入生成模型(如图4所示)中进行预训练,以得到预训练后的生成模型;
具体而言,预训练过程首先是抽取文本数据集合X中的每个文本数据x(i)={xi1,xi2,…,xin},如果该文本数据长度不足n,则将其通过补零变成固定长度n,如果超过n则删除文本数据结尾处多余的词,从而得到更新后的多个文本数据,将更新后的多个文本数据输入该生成模型,根据该生成模型的输出和更新后的多个文本数据,并采用极大似然估计对生成器型进行预训练,其中xin表示第i个文本数据中的第n个单词,n表示句子长度,i表示文本数据集合X中文本数据的序号,第i个文本数据对应的标签用y(i)表示。
具体而言,本步骤中使用的生成模型是由自编码器构成,自编码器包括彼此连接的编码器和解码器,编码器和解码器均包括词嵌入(Embedding)层、以及三层LSTM网络。
本步骤中采用极大似然估计对生成器型进行预训练这一过程包括:
(3-1)将更新后的多个文本数据按批次(一批为m个)输入编码器的词嵌入层(其词向量维度是200),以得到m*n*200个句子向量,其中m优选为128个;
(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络(其包括128个神经元),以得到多个第一层隐藏状态(Hidden status),将多个第一层隐藏状态输入第二层LSTM网络(其包括128个神经元),以得到第二层隐藏状态,再将第二层隐藏状态输入第三层LSTM网络(其包括128个神经元),以得到第三层隐藏状态,从而得到3个包含句子语义信息的向量;
(3-3)将更新后的多个文本数据按批次(一批为m个)输入解码器的词嵌入层(其词向量维度是200),以得到m*n*200个句子向量,其中m优选为128个;
(3-4)以步骤(3-3)得到的m*n*200个句子向量作为初始隐藏状态,将步骤(3-2)得到的3个包含句子语义信息的向量输入解码器,从而得到三层LSTM网络的隐藏状态、以及多个词向量,并根据该多个词向量获取多个对应的句子
Figure BDA0002320835700000091
(3-5)根据步骤(3-4)得到的每个句子x*(i)和文本数据集合X中的每个文本数据x(i)建立目标函数:
Figure BDA0002320835700000092
(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。
(4)使用每个文本数据x(i)={xi1,xi2,…,xin}对应的真实标签y(i)为每个句子
Figure BDA0002320835700000093
进行标注,将得到的所有标注结果(X*,Y)和文本分类数据集(X,Y)进行随机混合后,并将混合结果中的真实标签y1,y2,…,ym分别转换为向量y′1,y′2…,y′m(每个向量都是m维的),将混合结果输入判别模型(如图2所示),以得到每个文本数据x(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
具体而言,将混合结果中的ym转换为向量y′m,就是将向量y′m中除了第m个以外的元素设置为0,第m个元素设置为1。
本步骤的判别模型是使用的是用于关系分类的双向长短期记忆网络(Bidirectional Long Short-Term Memory Networks for Relation Classification)。
判别模型包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。
(5)根据步骤(4)得到的每个文本数据x(i)对应于标签集合Y中各个标签的概率P(i)、以及真实标签转换后的向量y′(i)建立目标函数,并根据该目标函数对判别模型进行训练,以得到训练好的判别模型(如图1所示),其中目标函数为:
Figure BDA0002320835700000101
(6)固定步骤(5)训练后得到的判别模型中的所有参数,将每个文本数据x(i)输入步骤(3)预训练后的生成模型,以得到句子作为恶意样本x*(i),将恶意样本x*(i)输入步骤(5)训练好的判别模型,以得到恶意样本x*(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
(7)随机生成恶意标签y*(i)(其不等于真实标签y(i)),将恶意标签y*(i)分别转换为向量y′’*(i)(每个向量都是m维的);
(8)根据步骤(6)得到的概率分布P(i)和步骤(7)得到的向量y′’*(i)获得损失函数,loss=loss1+loss2
其中损失函数的一部分为:
Figure BDA0002320835700000102
另一部分为:
Figure BDA0002320835700000103
其中λ为0到1之间的小数。
(9)根据步骤(8)得到的损失函数对生成模型进行训练,以得到训练后的生成模型,此时的生成模型可以根据文本数据集合X产生恶意样本,如图3所示;
(10)重复上述步骤(4)到(9)达预设迭代次数,过程结束。
在本步骤中,预设的迭代次数是150次。
本发明所示的方法采用攻防结合的方式训练,不断地提高了分类器对于文本的识别分类能力,根据合成的恶意数据对判别模型抗干扰能力、鲁棒性有了极大的增强。
本发明提出了一种用于防御文本恶意样本的对抗生成网络及其训练方法,利用对抗生成网络框架中的生成模型和判别模型进行恶意样本的检测与生成。生成器部分由自编码器(auto-encoder)构成,判别模型即判别模型,能高效准确识别数据。生成模型生成的恶意文本将被打上标签与真实样本同时输入判别模型中,来进行判别模型的训练。由于训练过程中恶意样本的加入和对抗性的网络训练过程,网络识别文本数据能力和抗干扰性、防御能力都大幅提升。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于防御文本恶意样本的对抗生成网络,包括彼此互相耦接的生成模型和判别模型,其特征在于,生成模型用于根据文本分类数据集进行训练,并在训练好后根据输入的真实样本生成第一样本,将第一样本打上和真实样本相同的标签,并一起输入判别模型。判别模型用于根据打上标签后的第一样本和真实样本进行训练,在训练好后获取恶意标签,根据该恶意标签、以及第一样本输入判别模型后的结果得到第一损失值,将该第一损失值、以及根据第一样本和真实样本得到的第二损失值相加,并使用相加结果训练生成模型。生成模型训练好后根据输入的真实样本生成恶意样本。
2.一种用于防御文本恶意样本的对抗生成网络的训练方法,其特征在于,包括以下步骤:
(1)从网络获取文本分类数据集(X,Y),其中X表示文本数据集合,Y表示文本数据集合所对应的标签集合,且Y={y1,y2,...,ym},其中m表示标签集合中的标签个数;
(2)遍历步骤(1)获取的文本分类数据集中所有文本数据中的词,按照词在文本分类数据集中出现的顺序为该词分配ID号作为该词对应的索引号,并将所有词作为键、该词对应的索引号作为值建立词表。
(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号,将所有索引号输入生成模型中进行预训练,以得到预训练后的生成模型;
(4)使用每个文本数据x(i)={xi1,xi2,...,xin}对应的真实标签y(i)为每个句子
Figure FDA0002320835690000011
进行标注,将得到的所有标注结果(X*,Y)和文本分类数据集(X,Y)进行随机混合后,并将混合结果中的真实标签y1,y2,...,ym分别转换为向量y′1,y′2...,y′m,将混合结果输入判别模型,以得到每个文本数据x(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),...,p(ym|x(i))};
(5)根据步骤(4)得到的每个文本数据x(i)对应于标签集合Y中各个标签的概率P(i)、以及真实标签转换后的向量y′(i)建立目标函数,并根据该目标函数对判别模型进行训练,以得到训练好的判别模型;
(6)固定步骤(5)训练后得到的判别模型中的所有参数,将每个文本数据x(i)输入步骤(3)预训练后的生成模型,以得到句子作为恶意样本x*(i),将恶意样本x*(i)输入步骤(5)训练好的判别模型,以得到恶意样本x*(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),...,p(ym|x(i))};
(7)随机生成恶意标签y*(i)(其不等于真实标签y(i)),将恶意标签y*(i)分别转换为向量y′’*(i)
(8)根据步骤(6)得到的概率分布P(i)和步骤(7)得到的向量y′’*(i)获得损失函数;
(9)根据步骤(8)得到的损失函数对生成模型进行训练,以得到训练后的生成模型,此时的生成模型可以根据文本数据集合X产生恶意样本。
(10)重复上述步骤(4)到(9)达预设迭代次数,过程结束。
3.根据权利要求2所述的训练方法,其特征在于,步骤(3)的预训练过程具体为,首先抽取文本数据集合X中的每个文本数据x(i)={xi1,xi2,...,xin},如果该文本数据长度不足n,则将其通过补零变成固定长度n,如果超过n则删除文本数据结尾处多余的词,从而得到更新后的多个文本数据,将更新后的多个文本数据输入该生成模型,根据该生成模型的输出和更新后的多个文本数据,并采用极大似然估计对生成器型进行预训练,其中xin表示第i个文本数据中的第n个单词,n表示句子长度,i表示文本数据集合X中文本数据的序号,第i个文本数据对应的标签用y(i)表示。
4.根据权利要求2或3所述的训练方法,其特征在于,步骤(3)中使用的生成模型是由自编码器构成,自编码器包括彼此连接的编码器和解码器,编码器和解码器均包括词嵌入层、以及三层LSTM网络。
5.根据权利要求2至4中任意一项所述的训练方法,其特征在于,步骤(3)中采用极大似然估计对生成器型进行预训练这一过程包括:
(3-1)将更新后的多个文本数据按批次输入编码器的词嵌入层,以得到m*n*200个句子向量,其中m表示一批次的文本数据数量,并优选等于128:
(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络,以得到多个第一层隐藏状态,将多个第一层隐藏状态输入第二层LSTM网络,以得到第二层隐藏状态,再将第二层隐藏状态输入第三层LSTM网络,以得到第三层隐藏状态,从而得到3个包含句子语义信息的向量;
(3-3)将更新后的多个文本数据按批次输入解码器的词嵌入层,以得到m*n*200个句子向量;
(3-4)以步骤(3-3)得到的m*n*200个句子向量作为初始隐藏状态,将步骤(3-2)得到的3个包含句子语义信息的向量输入解码器,从而得到三层LSTM网络的隐藏状态、以及多个词向量,并根据该多个词向量获取多个对应的句子
Figure FDA0002320835690000031
(3-5)根据步骤(3-4)得到的每个句子x*(i)和文本数据集合X中的每个文本数据x(i)建立目标函数;
(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。
6.根据权利要求5所述的训练方法,其特征在于,步骤(3-5)建立的目标函数为
Figure FDA0002320835690000032
7.根据权利要求6所述的训练方法,其特征在于,
步骤(4)具体是将混合结果中的ym转换为向量y′m,就是将向量y′m中除了第m个以外的元素设置为0,第m个元素设置为1。
步骤(4)中的判别模型是使用的是用于关系分类的双向长短期记忆网络,且包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。
8.根据权利要求7所述的训练方法,其特征在于,步骤(5)中建立的目标函数为:
Figure FDA0002320835690000041
9.根据权利要求8所述的训练方法,其特征在于,步骤(8)中的损失函数Loss等于:loss=loss1+loss2
其中损失函数的一部分为:
Figure FDA0002320835690000042
另一部分为:
Figure FDA0002320835690000043
其中λ为0到1之间的小数。
CN201911296950.2A 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法 Active CN111046673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911296950.2A CN111046673B (zh) 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911296950.2A CN111046673B (zh) 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法

Publications (2)

Publication Number Publication Date
CN111046673A true CN111046673A (zh) 2020-04-21
CN111046673B CN111046673B (zh) 2021-09-03

Family

ID=70236917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911296950.2A Active CN111046673B (zh) 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法

Country Status (1)

Country Link
CN (1) CN111046673B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651561A (zh) * 2020-06-05 2020-09-11 拾音智能科技有限公司 一种高质量困难样本生成方法
CN111723368A (zh) * 2020-05-28 2020-09-29 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及***
CN111741018A (zh) * 2020-07-24 2020-10-02 中国航空油料集团有限公司 工控数据攻击样本生成方法、***、电子设备及存储介质
CN112115267A (zh) * 2020-09-28 2020-12-22 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112287645A (zh) * 2020-11-09 2021-01-29 北京理工大学 一种基于生成式对抗网络的恶意pdf文档生成方法
CN112417151A (zh) * 2020-11-16 2021-02-26 新智数字科技有限公司 一种生成分类模型方法、文本关系分类方法和装置
CN112613036A (zh) * 2020-12-29 2021-04-06 北京天融信网络安全技术有限公司 恶意样本增强方法、恶意程序检测方法及对应装置
CN112948887A (zh) * 2021-03-29 2021-06-11 北京交通大学 基于对抗样本生成的社会工程学防御方法
CN112966112A (zh) * 2021-03-25 2021-06-15 支付宝(杭州)信息技术有限公司 基于对抗学习的文本分类模型训练和文本分类方法及装置
CN112966685A (zh) * 2021-03-23 2021-06-15 平安国际智慧城市科技股份有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures
CN108923922A (zh) * 2018-07-26 2018-11-30 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
EP3486838A1 (en) * 2017-11-15 2019-05-22 Palo Alto Research Center Incorporated System and method for semi-supervised conditional generative modeling using adversarial networks
CN109871898A (zh) * 2019-02-27 2019-06-11 南京中设航空科技发展有限公司 一种利用生成对抗网络生成堆积物训练样本的方法
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures
EP3486838A1 (en) * 2017-11-15 2019-05-22 Palo Alto Research Center Incorporated System and method for semi-supervised conditional generative modeling using adversarial networks
CN108923922A (zh) * 2018-07-26 2018-11-30 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN109871898A (zh) * 2019-02-27 2019-06-11 南京中设航空科技发展有限公司 一种利用生成对抗网络生成堆积物训练样本的方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
H. R. ROTH 等: "Deeporgan: Multi-level deep convolutional networks for automated pancreas segmentation", 《MICCAI》 *
MUHAMMAD USAMA 等: "Generative Adversarial Networks For Launching and Thwarting Adversarial Attacks on Network Intrusion Detection Systems", 《2019 15TH INTERNATIONAL WIRELESS COMMUNICATIONS AND MOBILE COMPUTING CONFERENCE》 *
SIYU SHAO 等: "Generative adversarial networks for data augmentation in machine fault diagnosis", 《COMPUTERS IN INDUSTRY》 *
XIAOYONG YUAN 等: "Adversarial Examples: Attacks and Defenses for Deep Learning", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
YINGZHEN LI 等: "Are Generative Classifiers More Robust to Adversarial Attacks?", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
周文: "计算机网络安全防护技术研究", 《科技创新与应用》 *
曹启云: "基于生成对抗网络的恶意代码识别研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723368A (zh) * 2020-05-28 2020-09-29 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及***
CN111723368B (zh) * 2020-05-28 2023-12-15 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及***
CN111651561A (zh) * 2020-06-05 2020-09-11 拾音智能科技有限公司 一种高质量困难样本生成方法
CN111741018A (zh) * 2020-07-24 2020-10-02 中国航空油料集团有限公司 工控数据攻击样本生成方法、***、电子设备及存储介质
CN111741018B (zh) * 2020-07-24 2020-12-01 中国航空油料集团有限公司 工控数据攻击样本生成方法、***、电子设备及存储介质
CN112115267B (zh) * 2020-09-28 2023-07-07 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112115267A (zh) * 2020-09-28 2020-12-22 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112287645A (zh) * 2020-11-09 2021-01-29 北京理工大学 一种基于生成式对抗网络的恶意pdf文档生成方法
CN112417151A (zh) * 2020-11-16 2021-02-26 新智数字科技有限公司 一种生成分类模型方法、文本关系分类方法和装置
CN112613036A (zh) * 2020-12-29 2021-04-06 北京天融信网络安全技术有限公司 恶意样本增强方法、恶意程序检测方法及对应装置
CN112966685A (zh) * 2021-03-23 2021-06-15 平安国际智慧城市科技股份有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112966685B (zh) * 2021-03-23 2024-04-19 深圳赛安特技术服务有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112966112A (zh) * 2021-03-25 2021-06-15 支付宝(杭州)信息技术有限公司 基于对抗学习的文本分类模型训练和文本分类方法及装置
CN112948887B (zh) * 2021-03-29 2023-03-28 北京交通大学 基于对抗样本生成的社会工程学防御方法
CN112948887A (zh) * 2021-03-29 2021-06-11 北京交通大学 基于对抗样本生成的社会工程学防御方法

Also Published As

Publication number Publication date
CN111046673B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN111046673B (zh) 一种用于防御文本恶意样本的对抗生成网络的训练方法
Le et al. Using synthetic data to train neural networks is model-based reasoning
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
Makhzani et al. Adversarial autoencoders
Bresson et al. Residual gated graph convnets
Lazaridou et al. Emergence of linguistic communication from referential games with symbolic and pixel input
Ghosh et al. Contextual lstm (clstm) models for large scale nlp tasks
Amiri et al. Adventures in data analysis: A systematic review of Deep Learning techniques for pattern recognition in cyber-physical-social systems
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
Barbalau et al. Black-box ripper: Copying black-box models using generative evolutionary algorithms
CN109918510A (zh) 跨领域关键词提取方法
CN110110318B (zh) 基于循环神经网络的文本隐写检测方法及***
Zhang et al. Patch strategy for deep face recognition
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换***
CN115658954B (zh) 一种基于提示学习的跨模态检索对抗防御方法
Rajani et al. Stacking with auxiliary features for visual question answering
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Patel et al. Deepfake generation and detection: Case study and challenges
Pradhyumna A survey of modern deep learning based generative adversarial networks (gans)
CN111522963A (zh) 一种基于公安知识图谱引擎的智能助理应用交互方法
He et al. One network for multi-domains: domain adaptive hashing with intersectant generative adversarial network
Bie et al. Facial expression recognition from a single face image based on deep learning and broad learning
CN111382871A (zh) 基于数据扩充一致性的领域泛化和领域自适应学习方法
Giuliari et al. Positional diffusion: Ordering unordered sets with diffusion probabilistic models
Zhu [Retracted] A Face Recognition System Using ACO‐BPNN Model for Optimizing the Teaching Management System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant