CN114662659A - 一种基于多阶段迁移学习策略综合的众包文本集成方法 - Google Patents

一种基于多阶段迁移学习策略综合的众包文本集成方法 Download PDF

Info

Publication number
CN114662659A
CN114662659A CN202210237867.3A CN202210237867A CN114662659A CN 114662659 A CN114662659 A CN 114662659A CN 202210237867 A CN202210237867 A CN 202210237867A CN 114662659 A CN114662659 A CN 114662659A
Authority
CN
China
Prior art keywords
text
model
crowdsourcing
data
ttgcif
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210237867.3A
Other languages
English (en)
Other versions
CN114662659B (zh
Inventor
荣欢
于信
马廷淮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210237867.3A priority Critical patent/CN114662659B/zh
Publication of CN114662659A publication Critical patent/CN114662659A/zh
Application granted granted Critical
Publication of CN114662659B publication Critical patent/CN114662659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于多阶段迁移学习策略综合的众包文本集成方法,具体为1、构建迁移式生成型众包文本集成模型TTGCIF;2、获得源域文本数据集和目标域文本数据集的语义原型;3、对语义原型进行词嵌入处理;4、根据最大均值差异做数据分布对齐;5、对TTGCIF进行语义原型转导模型训练;6、将源域文本数据集处理为训练任务集;7、将训练任务集输入到TTGCIF中进行领域快速适应模型训练;8、将部分目标域文本数据集输入到TTGCIF中进行模型微调训练。通过以上过程,实现文本集成。本发明能够摒弃传统方法中对数据标签的需求,减少人力物力的浪费,对数据稀缺场景下进行众包文本集成的有着极大的促进作用。

Description

一种基于多阶段迁移学习策略综合的众包文本集成方法
技术领域
本发明属于自然语言处理技术领域。
背景技术
自然语言处理领域中的大量有监督训练的模型,需要带有标记值的文本进行训练。但是相关领域中带标记的文本来源稀少,除了一些标准的数据集外,如果需要新的数据集进行训练,就只能依靠专家人工生成文本标记值,需要花费大量人力物力。而在众包环境下,利用大量闲散的人力来对无标记的文本人工生成标记值,能用极其微小的代价获得大量带有标记值的文本进行训练。依靠众包模式来获取有标记的文本数据,成为了机器学习领域获取训练数据和标记值的主要途径。
众包模式是一种个人或组织能从一个大的、相对开放的、逐渐增长的互联网用户群体中获取服务和内容的一种模式。该模式旨在将原本复杂的、需要耗费大量人力物力的任务进行拆解后,以自由自愿的形式外包给非特定的大众志愿者的做法。由此衍生的平台如Amazon Mechanical Turk,Figure Eight(CrowdFlower)等能提供“人工标记图片”“人工书写摘要”“众人评价”等服务。这些服务生成的数据内容,由于人工水平的参差不齐或操作误差,会存在一些错误。
机器学习模型的训练,需要准确度较高的训练数据集。因此,对众包环境下获得的有瑕疵的数据和标记值进行优化,是必不可少的。在此基础上,对众包的相关研究也是一个机器学习领域必不可少的一部分。而目前,最前沿的研究工作中集中在事实推断和标签集成。
而对众包环境下的文本进行内容集成,是标签集成工作的一个重要分支,目前可使用抽取式和生成式方法[1]。抽取式方法由于技术更为成熟,展现出的集成效果要优于生成式方法[2]。而这两种方法又分为有监督和无监督方法的选择。对于无监督方法,Tadashi[3]等人提出的基于聚类的摘要模型,Joshi[4]等人提出了基于两层自动编码器的句子选择方法等方法。对于有监督方法,Nallapati[5]等人提出基于循环神经网络的抽取模型SumaaRuNNer。以上方法能够对一段文本进行有效集成,但是仍然存在内容选择错误、文本集成质量不高的问题。
因此现有技术需要一种提高众包集成文本质量的方法,来处理相关领域众包集成文本真值缺乏的问题,但当前对于集成文本真值在众包环境下缺乏的解决方法研究还很少,并且还有很多问题存在。比如,现有的基于深度学习的方法几乎都是利用有监督方式训练模型,从而需要大量标记文本进行模型训练;现有的用于解决集成文本真值缺乏问题方法的效果,仍主要取决于相关领域的真值数据量;此外,相关方法并未充分利用相关领域已有数据所能提供的信息,来提升众包文本集成的效果。
发明内容
发明目的:为了解决上述现有技术存在的问题,本发明提供了一种基于多阶段迁移学习策略综合的众包文本集成方法。
技术方案:本发明提供了一种基于多阶段迁移学习策略综合的众包文本集成方法,包括如下步骤:
步骤1:对Transformer模型进行改进:在Transformer模型中加入指针生成器网络和双向门控循环网络,并在Transformer模型中的编码器和解码器的每一层的前馈网络后连接适配器层;得到改进后的模型TTGCIF模型;
步骤2:构建源域文本数据集和目标域文本数据中的每个<众包原始文本,众包集成文本>的语义原型z,z=[xd,yd,ad],x表示众包原始文本,y表示众包集成文本,a表示众包原始文上的语义注释文本;d∈{Source,Target},Source表示源域,Target表示目标域;
步骤3:对z中每个文本做词嵌入处理:对xd和ad进行词嵌入得到
Figure BDA0003543020870000021
Figure BDA0003543020870000022
Figure BDA0003543020870000023
的向量形式满足Transformer模型中编码器的格式要求,
Figure BDA0003543020870000024
的向量形式满足双向门控循环网络的格式要求;对yd单独进行两次词嵌入处理,第一次词嵌入处理后得到的
Figure BDA0003543020870000025
向量形式满足双向门控循环网络的格式要求,第二次词嵌入处理后得到的
Figure BDA0003543020870000026
向量形式满足Transformer模型中解码器的格式要求;
步骤4:将
Figure BDA0003543020870000027
输入到含有Sigmoid激活函数的全连接层进行转换,得到
Figure BDA0003543020870000028
根据最大均值差异,对
Figure BDA0003543020870000029
Figure BDA00035430208700000210
进行数据分布对齐处理,得到对齐后的目标域众包原始文本
Figure BDA00035430208700000211
步骤5:将
Figure BDA00035430208700000212
输入到Transformer模型的编码器中,将
Figure BDA00035430208700000213
或者
Figure BDA00035430208700000214
输入到双向门控循环网络中,将
Figure BDA0003543020870000031
输入到解码器中,对TTGCIF模型进行训练;
步骤6:从N个源域中随机抽取K条语义原型,得到N*K条语义原型,将该N*K条语义原型作为训练任务数据集;将训练任务数据集中的一半数据划分为支持集,另一半数据划分为查询集;重复步骤6,直到源域的所有的语义原型都被抽取过,得到若干个训练任务数据集;
步骤7:将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动,基于步骤5中训练好的TTGCIF模型参数,采用步骤6中的支持集和查询集对编码器和解码器进行训练;
步骤8:对步骤7中训练好的编码器和解码器的参数进行调整,得到最终的TTGCIF模型;
步骤9:将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中,得到对应的众包集成文本。
进一步的,所述步骤1中的解码器从输入至输出包括8个子层,双向门控循环网络的输出通过全连接层与解码器的第2个子层的输入端连接;指针生成器网络用于和Transformer解码器共同计算生成概率。
进一步的,所述目标域的众包集成文本yTarget采用如下方法获得:将目标域的众包原始文本xtarget的每个子句分成单词序列,按照子句中单词的数量,从高到低选择u个子句作为目标域的众包伪集成文本,也既yTarget;u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。
进一步的,所述步骤4具体为,将
Figure BDA0003543020870000032
Figure BDA0003543020870000033
投射到再生核希尔伯特空间H中,得到
Figure BDA0003543020870000034
在H中的表示X1Source,和
Figure BDA0003543020870000035
在H中的表示X1Target;在核希尔伯特空间H中,基于如下公式训练含有Sigmoid激活函数的全连接层:
Figure BDA0003543020870000036
其中,dis(.)表示计算距离,
Figure BDA0003543020870000037
表示投射到H空间的
Figure BDA0003543020870000038
中第i个数据的分布,
Figure BDA0003543020870000039
表示投射到H空间的
Figure BDA00035430208700000310
中第j个数据的分布;n1表示
Figure BDA00035430208700000311
中数据的总个数,n2表示
Figure BDA00035430208700000312
中数据的总个数;
将训练后的含有Sigmoid激活函数的全连接的输出映射表示为
Figure BDA0003543020870000041
通过如下公式得到对齐后的目标域众包原始文本
Figure BDA0003543020870000042
Figure BDA0003543020870000043
其中,N表示源域和目标域的总个数之和。
进一步的,所述步骤5中基于如下损失函数对TTGCIF模型进行训练:
Figure BDA0003543020870000044
其中,Ltotal为对TTGCIF模型进行训练的损失函数,
Figure BDA0003543020870000045
的表达式如下所示:
Figure BDA0003543020870000046
其中,
Figure BDA0003543020870000047
为交叉熵损失,TE(.)表示Transformer的编码器,
Figure BDA0003543020870000048
为TTGCIF模型的输出,RE表示双向门控循环网络,
Figure BDA0003543020870000049
表示隐藏状态
Figure BDA00035430208700000410
接近隐藏状态
Figure BDA00035430208700000411
D表示均方误差,
Figure BDA00035430208700000412
表达式如下所示,
Figure BDA00035430208700000413
Figure BDA00035430208700000414
为TTGCIF模型的输出,TE(.)表示Transformer的编码器;pgen表示指针生成器网络产生的生成概率,wt表示输入至Transformer解码器的
Figure BDA00035430208700000415
中的第t个标记;Pvocab(.)表示词汇分布,Pcopy表示复制分布概率,σ表示Sigmod激活函数,T为转置,
Figure BDA00035430208700000416
表示编码器里8个子层中最后一个子层的输出,st表示解码器里8个子层中最后一个子层的输出,
Figure BDA0003543020870000051
为at中第i'个数据,at
Figure BDA0003543020870000052
中的第t个标记输入至Transformer解码器后,解码器最后一个子层中多头注意力模块输出的注意力权重分布向量,I表示at中数据的总个数;linear表示线性层,wh,ws,wx,bptr,w和bvocab均表示学习参数;
Figure BDA0003543020870000053
的表达式如下所示
Figure BDA0003543020870000054
其中,
Figure BDA0003543020870000055
表示隐藏状态
Figure BDA0003543020870000056
接近隐藏状态
Figure BDA0003543020870000057
Figure BDA0003543020870000058
的表达式如下所示:
Figure BDA0003543020870000059
进一步的,所述步骤7中对编码器和解码器进行训练的损失函数
Figure BDA00035430208700000510
为:
Figure BDA00035430208700000511
其中
Figure BDA00035430208700000512
的表达式如下所示:
Figure BDA00035430208700000513
有益效果:本发明通过使用多种迁移学习策略,无需花费大量的人力物力进行数据标注来训练深度网络模型,就能构建出泛化效果较好的生成模型。本发明从数据的层面,首先通过数据的语义关联性,构建不同领域间的语义原型表示,再在数据表征上减小不同数据间的分布差异;本发明还从模型的层面,通过语义类型转导和领域快速适应方法,捕捉不同领域数据中的共性知识,提升模型在目标领域上的泛化性能提升效果。本发明构建的模型TTGCIF能够摒弃传统方法中对数据标签的需求,减少人力物力的浪费,在数据稀缺场景下进行众包文本集成的有着极大的促进作用。
附图说明
图1是本发明的方法流程图;
图2是本发明的TTGCIF模型的结构图;
图3是通过在核空间中最小化MMD来实现领域分布对齐的过程图;
图4是语义原型转导寻示意图;
图5是基于语义原型转导训练流程图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
本实施案例基于改进的Transformer文本生成模型,运用迁移学习中多种策略综合构建集成框架,不依赖目标领域的真值数据训练模型得到集成文本,进而提高众包文本集成的准确度。如图1所示,本方法包含如下步骤:
步骤10,基于Transformer模型进行改进,构建定制化的迁移式生成型众包文本集成模型TTGCIF,其结构如图2所示。该模型TTGCIF由标准的Transformer模型改进而来。Transformer模型由一个编码器和一个解码器组成。编码器由8个相同的层堆叠而成。每层有2个子层,第1个子层是一个多头自注意力机制,第2个子层是一个前馈网络。在2个子层的每一层都采用一个残差连接,然后进行归一化处理;解码器也是由8个相同的层堆叠而成,除了和编码器层内相同的2个子层外,额外加入了第3个子层,用于对编码器堆栈的输出进行多头注意力机制的计算,与编码器相似在每个子层周围采用残差连接,然后进行归一化处理。另外编码器和解码器的每一个子层中都在前馈网络后面额外添加了一个适配器层(Adapter Layer),该层定义如公式(1)所示,通过全连接层压缩前馈网络输出的隐藏状态h的维度,再将压缩后的隐藏状态的维度恢复为输入适配器层前的隐藏状态的维度,其中原始的维度大小为压缩后的维度大小的4倍。
Figure BDA0003543020870000061
其中,Adapter表示适配器层;h表示前馈网络输出的隐藏状态;
Figure BDA0003543020870000062
表示适配器层中使用的外部全连接层,用于将压缩后的隐藏状态的维度恢复到输入前的维度;ReLU表示使用的激活函数为ReLU激活函数;
Figure BDA0003543020870000063
表示适配器层中使用的内部全连接层,用于将输入的隐藏状态的维度进行压缩;
Figure BDA0003543020870000071
表示适配器层输出的隐藏状态的维度的数量;
Figure BDA0003543020870000072
表示输入适配器层的隐藏状态的维度的数量;FFN表示Transformer中使用的前馈网络(Feed-Forward Network);MHA表示Transformer中使用的多头注意力(Multi-HeadAttention)。
模型TTGCIF包括了一个增强的编码器和一个标准的Transformer解码器,同时加入指针生成器网络。增强的编码器由一个双向门控循环网络(Bi-GRU)和Transformer编码器共同组成。解码器包括多头注意力模块+前馈网络模块+适配器层+残差&归一化;解码器中的第1个多头注意力模块是解码器内部进行自注意力机制的计算,第2个多头注意力模块会结合前一个模块(add&norm)的输出+编码器端的输出+双向门控循环网络(Bi-GRU)的输出,共同进行自注意力机制的计算;
双向门控循环网络的输入接收在TTGCIF模型训练过程中指定的语义原型数据,输出将连接到一个全连接层以进行维度的调整,全连接层的输出连接解码器的第二层的多头注意力模块。指针生成器网络计算一个生成概率Pgen∈[0,1],该概率决定从词表自带的中生成单词的概率,而不是从原文输入的原文中复制单词的概率。通过这种方式,指针生成器网络和Transformer的解码器一起使用,共同计算出最后的生成概率,最终得到众包文本。
步骤20,构建源域文本数据集和目标域文本数据集中的每个<众包原始文本,众包集成文本>的语义原型:众包原始文本x,众包集成文本y和x上的语义注释文本a。
每个<众包原始文本,众包集成文本>的语义原型被构造为z=[xd,yd,ad]的表示序列,其中d∈{Source,Target}。Source表示数据来源于源域,Target表示数据来源于目标域。
在训练过程中对什么的训练,当训练数据yd来自目标域时,首先将相应的目标域的众包原始文本xtar get的每个子句按单词进行分词,按照子句中所含单词的数量,从高到低选择u个子句作为目标域中的众包伪集成文本,也既yTarget。u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。
语义注释文本ad是将众包原始文本xd转换成一个关键词序列,关键词的标签属于{名词、副词、形容词、动词}。
步骤30,将步骤20中得到的语义原型z=[xd,yd,ad],输入到预训练的BERT中进行[xd,yd,ad]的词嵌入处理。
将众包原始文本xd输入到BERT中,通过BERT对众包原始文本xd进行词嵌入处理后得到其词嵌入表示
Figure BDA0003543020870000081
得到的词嵌入表示将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器中,batch_size表示每次输入到模型中的数据的数量,enc_max_len表示编码器接受输入的最大长度,dim表示BERT进行词嵌入处理的维度。
将语义注释文本ad输入到BERT中,通过BERT对语义注释文本ad进行词嵌入处理后得到其词嵌入表示
Figure BDA0003543020870000082
得到的词嵌入表示将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器中。其中,batch_size表示每次输入到模型中的数据的数量,enc_max_len表示编码器(此时的编码器表示双向门控循环网络)接受输入的最大长度,dim表示BERT进行词嵌入处理的维度。
将众包集成文本yd输入到BERT中,通过BERT对众包集成文本yd进行词嵌入处理后得到其词嵌入表示。得到的词嵌入表示将以(batch_size,dec_max_len,dim)这样的张量形式输入到TTGCIF的解码器中。其中,batch_size表示每次输入到模型中的数据的数量,dec_max_len表示解码器接受输入的最大长度,dim表示BERT进行词嵌入处理的维度。由于本实施例中要将词嵌入后的众包集成文本输入到双向门控循环网络和解码器中,所以需要对yd进行两次单独的词嵌入,一次词嵌入后输出的向量
Figure BDA0003543020870000083
的形式满足双向门控循环网络的格式要求,另外一次词嵌入后输出的向量
Figure BDA0003543020870000084
的形式满足解码器的格式要求;
步骤40,将
Figure BDA0003543020870000085
输入到含有Sigmoid激活函数的全连接层进行转换,得到
Figure BDA0003543020870000086
根据最大均值差异,对
Figure BDA0003543020870000087
Figure BDA0003543020870000088
进行数据分布对齐处理,得到对齐后的目标域众包原始文本
Figure BDA0003543020870000089
具体为:
如图3所示,将
Figure BDA00035430208700000810
Figure BDA00035430208700000811
投射到再生核希尔伯特空间H中,得到
Figure BDA00035430208700000812
在H中的表示X1Source,和
Figure BDA00035430208700000813
在H中的表示X1Target;在核希尔伯特空间H中,基于如下公式(2)训练含有Sigmoid激活函数的全连接层:
Figure BDA00035430208700000814
其中,dis(.)表示计算距离,
Figure BDA0003543020870000091
表示投射到H空间的
Figure BDA0003543020870000092
中第i个数据的分布,
Figure BDA0003543020870000093
表示投射到H空间的
Figure BDA0003543020870000094
中第j个数据的分布;n1表示
Figure BDA0003543020870000095
中数据的总个数,n2表示
Figure BDA0003543020870000096
中数据的总个数
根据公式(2),最小化最大均值差异来减少源域和目标域之间的数据分布
Figure BDA0003543020870000097
Figure BDA0003543020870000098
的距离,使得两者的数据分布表示对齐。在最小化的过程中,全连接层的参数将被更新,参数更新使得在核空间H中,全连接层输出的数据分布与目标域直接输出的数据分布近似。
训练后全连接层的输出映射表示将更新为相应源域的映射表示
Figure BDA0003543020870000099
其输出为对齐后的数据表示。接着如下公式(3)所定义,目标域中的对齐数据表示
Figure BDA00035430208700000910
是通过将目标域众包原始文本输入到BERT中得到的词嵌入表示,再将改词嵌入表示输入到在源域上训练得出的映射
Figure BDA00035430208700000911
得到的。其中,因为有多个源域会训练得到多个映射
Figure BDA00035430208700000912
所以最终的目标域的对齐数据表示
Figure BDA00035430208700000913
将是根据所有源域映射输出的结果的平均表示得出。
Figure BDA00035430208700000914
其中,N表示源域和目标域的总个数之和,N-1表示源域的总个数。
最终对齐后的
Figure BDA00035430208700000915
将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器。
步骤50,如图4所示,将
Figure BDA00035430208700000916
输入到Transformer模型的编码器中,将
Figure BDA00035430208700000917
或者
Figure BDA00035430208700000918
输入到双向门控循环网络中,将
Figure BDA00035430208700000919
输入到解码器中,对TTGCIF模型进行训练,该训练过程中模型根据语义关联性使
Figure BDA00035430208700000920
模型训练直到损失函数Lxy和损失函数Lay同时收敛。其中,→表示在训练的生成过程中,
Figure BDA00035430208700000921
Figure BDA00035430208700000922
输入模型后产生的输出将根据损失函数与
Figure BDA00035430208700000923
尽可能的相同;
步骤501,当增强的编码器接收的输入数据为
Figure BDA00035430208700000924
Figure BDA00035430208700000925
时,模型在训练时使用的损失函数为公式(4):
Figure BDA0003543020870000101
其中,
Figure BDA0003543020870000102
为交叉熵损失,TE(.)表示Transformer的编码器,
Figure BDA0003543020870000103
为TTGCIF模型的输出,RE表示双向门控循环网络,
Figure BDA0003543020870000104
表示隐藏状态
Figure BDA0003543020870000105
接近隐藏状态
Figure BDA0003543020870000106
Figure BDA0003543020870000107
表达式如下所示,
Figure BDA0003543020870000108
Figure BDA0003543020870000109
为TTGCIF模型的输出的文本生成概率向量,TE(.)表示编码器端
Figure BDA00035430208700001010
输入的是Transformer编码器;Pgen表示指针生成器网络产生的生成概率,wt表示输入至Transformer解码器的
Figure BDA00035430208700001011
中的第t个标记;Pvocab(.)表示词汇分布,Pcopy表示复制分布概率,σ表示Sigmod激活函数,T为转置,
Figure BDA00035430208700001012
表示编码器里8个子层中最后一个子层的输出,st表示解码器里8个子层中最后一个子层的输出,
Figure BDA00035430208700001013
为at中第i'个数据,at
Figure BDA00035430208700001014
中的第t个标记输入至Transformer解码器后,解码器最后一个子层中多头注意力模块输出的注意力权重分布向量,I表示at中数据的总个数;linear表示线性层,wh,ws,wx,bptr,w和Pvocab均表示学习参数。
词汇分布Pvocab是通过
Figure BDA00035430208700001015
计算的,用Softmax激活函数来确定解码器输出列表上的标记分布。复制分布概率Pcopy被计算用于根据注意力权重at确定未登陆词,即模型的输入文本中存在的没有包含在用于生成查询的词表中的词汇(Out-of-Vocabulary,OOV)标记的分布。最终根据这两个分布Pvocab和Pcopy,在第t步从扩展的词汇(扩展的词汇:扩展的词汇是由原始词表+拓展词组成的。原始词表是TTGCIF模型自带的,是一个由一定量的单词组成的序列;拓展词是将输入的文本先进行分词,再将分完的词与原始词表做比较,如果不包含在原始词表中就作为拓展词)表中选择一个合适的标记进行输出。
在公式(4)中,针对
Figure BDA0003543020870000111
使用损失函数Lxy,将众包文
Figure BDA0003543020870000112
作为输入到Transformer编码器中,即
Figure BDA0003543020870000113
使Transformer解码器生成的集成文本
Figure BDA0003543020870000114
与源域或目标域的众包集成文本
Figure BDA0003543020870000115
接近。
Figure BDA0003543020870000116
指将
Figure BDA0003543020870000117
的表示输入Bi-GRU后输出隐藏状态
Figure BDA0003543020870000118
接近域d中的原始众包文件
Figure BDA0003543020870000119
输入Transformer编码器后输出的隐藏状态
Figure BDA00035430208700001110
也就是说
Figure BDA00035430208700001111
双向循环网络的输出的和
Figure BDA00035430208700001112
要相接近也就是约等于。D是均方误差(MSE)。根据公式(4)当给定域d中的语义原型
Figure BDA00035430208700001113
时,在最小化Lxy后,可以在域d内建立隐性语义关联,即
Figure BDA00035430208700001114
Figure BDA00035430208700001115
步骤502,当增强的编码器接收的输入数据为
Figure BDA00035430208700001116
Figure BDA00035430208700001117
时,定义模型在训练时使用的,定义模型在训练时使用的损失函数为公式(5):
Figure BDA00035430208700001118
其中,
Figure BDA00035430208700001119
表示隐藏状态
Figure BDA00035430208700001120
接近隐藏状态
Figure BDA00035430208700001121
Figure BDA00035430208700001122
的表达式如下所示:
Figure BDA00035430208700001123
在公式(5)中,针对
Figure BDA00035430208700001124
使用损失函数Lay,将语义注释
Figure BDA00035430208700001125
输入到Bi-GRU中,即
Figure BDA00035430208700001126
使Transformer解码器生成的集成文本
Figure BDA00035430208700001127
与源域或目标域的众包集成文本
Figure BDA00035430208700001128
接近。
Figure BDA00035430208700001129
的表示被输入到Bi-GRU,即
Figure BDA00035430208700001130
通过MSE度量接近
Figure BDA00035430208700001131
根据公式(5)当给定领域d中的语义原型
Figure BDA00035430208700001132
时,在最小化Lay后,可以在领域d内建立另一个隐含的语义关联,即
Figure BDA00035430208700001133
步骤503,在公式(6)中将步骤501中定义的损失函数Lxy和步骤502中定义的损失函数Lay合并构建一个复合损失函数Ltotal
如图5所示,模型TTGCIF的参数可以通过Lxy训练来拟合语义关联
Figure BDA0003543020870000121
Figure BDA0003543020870000122
通过Lay拟合
Figure BDA0003543020870000123
因此,当给定语义原型
Figure BDA0003543020870000124
Figure BDA0003543020870000125
时,模型TTGCIF的参数将被训练为在域d内通过Ltotal拟合
Figure BDA0003543020870000126
Figure BDA0003543020870000127
的语义关联性:
Ltotal=Lxy+Lay (6)
步骤60,从N个源域中随机抽取K条语义原型,得到N*K条语义原型,将该N*K条语义原型作为训练任务数据集;训练任务数据集中的一半数据划分为支持集,另一半数据划分为查询集;重复步骤6,直到源域的所有的语义原型都被抽取过,得到若干个训练任务数据集。
步骤70,在步骤50训练所得模型的参数的基础上,模型TTGCIF冻结Bi-GRU部分,只保留Transformer编码器和Transformer解码器继续采用如下损失函数训练:
Figure BDA0003543020870000128
其中,
Figure BDA0003543020870000129
表示在步骤50中训练中所使用的损失函数;-logP表示在步骤50中模型训练使用的是交叉熵损失函数;
Figure BDA00035430208700001210
表示将
Figure BDA00035430208700001211
输入到Transformer的编码器中;
Figure BDA00035430208700001212
表示模型的输出;Pgen表示指针生成器网络产生的生成概率;Pvocab表示从词表中生成词汇的生成概率;Pcopy表示从输入中复制词汇的概率;
Figure BDA00035430208700001213
表示损失函数的目的是为了让模型的输出
Figure BDA00035430208700001214
Figure BDA00035430208700001215
尽可能的相同。
在公式(8)中,TTGCIF的初始参数Θ0被更新为步骤50训练所得的参数,模型的未更新前(已经经历过步骤50没有经历过步骤70)的原始参数被复制保留为Θorigin。然后,将步骤60获取的训练任务集中的每一个训练任务中的支持集数据输入到模型TTGCIF中,对模型的参数Θ(编码器和解码器中的参数)进行梯度更新。
Figure BDA0003543020870000131
其中,Θ表示模型的参数;Θ0←ΘZero-Shot表示将模型的初始参数Θ0更新为步骤50训练所得的参数;ΘOrigin←Θ表示模型每次在使用支持集数据训练前将模型的参数Θ更新为上一次保留的参数ΘOrigin
Figure BDA0003543020870000132
表示第m个训练任务数据集中的支持集数据;
Figure BDA0003543020870000133
表示当前支持集数据中的来自第i1个源域的第j1个众包原始文本数据;
Figure BDA0003543020870000134
表示当前支持集数据中的来自第i1个源域的第j1个众包集成文本数据;η表示参数更新求导过程中的超参数。
在公式(9)中,迁移式生成型众包文本集成模型TTGCIF的保留的参数Θorigin,将使用步骤60获取的训练任务数据集中的每一个训练任务中的查询集数据,沿着步骤70中获取的模型参数Θ提供的梯度方向进行更新。在使用训练任务集中的所有数据训练完成后,得到最终的模型参数。
Figure BDA0003543020870000135
其中,
Figure BDA0003543020870000136
表示第m个训练任务数据集中的查询集数据;
Figure BDA0003543020870000137
表示当前查询集数据中的来自第i2个源域的第j2个众包原始文本数据;
Figure BDA0003543020870000138
表示当前查询集数据中的来自第i2个源域的第j2个众包集成文本数据;η表示参数更新求导过程中的超参数。
步骤80,基于步骤70得到的模型的参数,使用低于10%比例的步骤30得到的目标域的众包原始文本
Figure BDA0003543020870000139
和目标域的众包真值集成文本
Figure BDA00035430208700001310
输入到模型TTGCIF中进行训练直到公式(5)中的损失函数收敛。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

Claims (6)

1.一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,包括如下步骤:
步骤1:对Transformer模型进行改进:在Transformer模型中加入指针生成器网络和双向门控循环网络,并在Transformer模型中的编码器和解码器的每一层的前馈网络后连接适配器层;得到改进后的模型TTGCIF模型;
步骤2:构建源域文本数据集和目标域文本数据集中的每个<众包原始文本,众包集成文本>的语义原型z,z=[xd,yd,ad],x表示众包原始文本,y表示众包集成文本,a表示众包原始文上的语义注释文本;d∈{Source,Target},Source表示源域,Target表示目标域;
步骤3:对z中每个文本做词嵌入处理:对xd和ad进行词嵌入处理得到
Figure FDA0003543020860000011
Figure FDA0003543020860000012
Figure FDA0003543020860000013
的向量形式满足Transformer模型中编码器的格式要求,
Figure FDA0003543020860000014
的向量形式满足双向门控循环网络的格式要求;对yd单独进行两次词嵌入处理,第一次词嵌入处理后得到的
Figure FDA0003543020860000015
的向量形式满足双向门控循环网络的格式要求,第二次词嵌入处理后得到的
Figure FDA0003543020860000016
的向量形式满足Transformer模型中解码器的格式要求;
步骤4:将
Figure FDA0003543020860000017
输入到含有Sigmoid激活函数的全连接层进行转换,得到
Figure FDA0003543020860000018
根据最大均值差异,对
Figure FDA0003543020860000019
Figure FDA00035430208600000110
进行数据分布对齐处理,得到对齐后的目标域众包原始文本
Figure FDA00035430208600000111
步骤5:将
Figure FDA00035430208600000112
输入到Transformer模型的编码器中,将
Figure FDA00035430208600000113
或者
Figure FDA00035430208600000114
输入到双向门控循环网络中,将
Figure FDA00035430208600000115
输入到解码器中,对TTGCIF模型进行训练;
步骤6:从N个源域中随机抽取K条语义原型,得到N*K条语义原型,将该N*K条语义原型作为训练任务数据集;将训练任务数据集中的一半数据划分为支持集,另一半数据划分为查询集;重复步骤6,直到源域的所有的语义原型都被抽取过,得到若干个训练任务数据集;
步骤7:将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动,基于步骤5中训练好的TTGCIF模型参数,采用步骤6中的支持集和查询集对编码器和解码器进行训练;
步骤8:对步骤7中训练好的编码器和解码器的参数进行调整,得到最终的TTGCIF模型;
步骤9:将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中,得到对应的众包集成文本。
2.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤1中的解码器从输入至输出包括8个子层,双向门控循环网络的输出通过一个全连接层与解码器的第2个子层的输入端连接;指针生成器网络用于和Transformer解码器共同计算生成概率。
3.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述目标域的众包集成文本yTarget采用如下方法获得:将目标域的众包原始文本xtarget的每个子句分成单词序列,按照子句中单词的数量,从高到低选择u个子句作为目标域的众包伪集成文本,也既yTarget;u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。
4.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤4具体为,将
Figure FDA0003543020860000021
Figure FDA0003543020860000022
投射到再生核希尔伯特空间H中,得到
Figure FDA0003543020860000023
在H中的表示X1Source,和
Figure FDA0003543020860000024
在H中的表示X1Target;在核希尔伯特空间H中,基于如下公式训练含有Sigmoid激活函数的全连接层:
Figure FDA0003543020860000025
其中,dis(.)表示计算距离,
Figure FDA0003543020860000026
表示投射到H空间的
Figure FDA0003543020860000027
中第i个数据的分布,
Figure FDA0003543020860000028
表示投射到H空间的
Figure FDA0003543020860000029
中第j个数据的分布;n1表示
Figure FDA00035430208600000210
中数据的总个数,n2表示
Figure FDA00035430208600000211
中数据的总个数;
将训练后的含有Sigmoid激活函数的全连接的输出映射表示为
Figure FDA00035430208600000212
通过如下公式得到对齐后的目标域众包原始文本
Figure FDA00035430208600000213
Figure FDA00035430208600000214
其中,N表示源域和目标域的总个数之和。
5.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤5中基于如下损失函数对TTGCIF模型进行训练:
Figure FDA0003543020860000031
其中,Ltotal为对TTGCIF模型进行训练的损失函数,
Figure FDA0003543020860000032
的表达式如下所示:
Figure FDA0003543020860000033
其中,
Figure FDA0003543020860000034
为交叉熵损失,TE(.)表示Transformer的编码器,
Figure FDA0003543020860000035
为TTGCIF模型的输出,RE表示双向门控循环网络,
Figure FDA0003543020860000036
表示隐藏状态
Figure FDA0003543020860000037
接近隐藏状态
Figure FDA0003543020860000038
D表示均方误差,
Figure FDA0003543020860000039
表达式如下所示:
Figure FDA00035430208600000310
pgen表示指针生成器网络产生的生成概率,wt表示输入至Transformer解码器的
Figure FDA00035430208600000311
中的第t个标记;Pvocab(.)表示词汇分布,Pcopy表示复制分布概率,σ表示Sigmod激活函数,T为转置,
Figure FDA00035430208600000312
表示编码器里8个子层中最后一个子层的输出,st表示解码器里8个子层中最后一个子层的输出,
Figure FDA00035430208600000313
为at中第i'个数据,at
Figure FDA00035430208600000314
中的第t个标记输入至Transformer解码器后,解码器最后一个子层中多头注意力模块输出的注意力权重分布向量,I表示at中数据的总个数;linear表示线性层,wh,ws,wx,bptr,w和bvocab均表示学习参数;
Figure FDA00035430208600000315
的表达式如下所示
Figure FDA0003543020860000041
其中,
Figure FDA0003543020860000042
表示隐藏状态
Figure FDA0003543020860000043
接近隐藏状态
Figure FDA0003543020860000044
Figure FDA0003543020860000045
的表达式如下所示:
Figure FDA0003543020860000046
6.根据权利要求5所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤7中对编码器和解码器进行训练的损失函数
Figure FDA0003543020860000047
为:
Figure FDA0003543020860000048
其中
Figure FDA0003543020860000049
的表达式如下所示:
Figure FDA00035430208600000410
CN202210237867.3A 2022-03-11 2022-03-11 一种基于多阶段迁移学习策略综合的众包文本集成方法 Active CN114662659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210237867.3A CN114662659B (zh) 2022-03-11 2022-03-11 一种基于多阶段迁移学习策略综合的众包文本集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210237867.3A CN114662659B (zh) 2022-03-11 2022-03-11 一种基于多阶段迁移学习策略综合的众包文本集成方法

Publications (2)

Publication Number Publication Date
CN114662659A true CN114662659A (zh) 2022-06-24
CN114662659B CN114662659B (zh) 2022-09-16

Family

ID=82029528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210237867.3A Active CN114662659B (zh) 2022-03-11 2022-03-11 一种基于多阶段迁移学习策略综合的众包文本集成方法

Country Status (1)

Country Link
CN (1) CN114662659B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081752A (zh) * 2022-08-11 2022-09-20 浙江君同智能科技有限责任公司 黑灰产众包流量预测装置及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247972A (zh) * 2017-06-29 2017-10-13 哈尔滨工程大学 一种基于众包技术的分类模型训练方法
US20180359132A1 (en) * 2017-06-07 2018-12-13 Accenture Global Solutions Limited Integration platform for multi-network integration of service platforms
US20190026604A1 (en) * 2017-07-19 2019-01-24 Tata Consultany Services Limited Crowdsourcing and deep learning based segmenting and karyotyping of chromosomes
US20210303803A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Text style transfer using reinforcement learning
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180359132A1 (en) * 2017-06-07 2018-12-13 Accenture Global Solutions Limited Integration platform for multi-network integration of service platforms
CN107247972A (zh) * 2017-06-29 2017-10-13 哈尔滨工程大学 一种基于众包技术的分类模型训练方法
US20190026604A1 (en) * 2017-07-19 2019-01-24 Tata Consultany Services Limited Crowdsourcing and deep learning based segmenting and karyotyping of chromosomes
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
US20210303803A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Text style transfer using reinforcement learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仲秋雁等: "考虑工人参与意愿影响因素的竞争式众包任务推荐方法", 《***工程理论与实践》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081752A (zh) * 2022-08-11 2022-09-20 浙江君同智能科技有限责任公司 黑灰产众包流量预测装置及方法

Also Published As

Publication number Publication date
CN114662659B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109508462B (zh) 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN110737769B (zh) 一种基于神经主题记忆的预训练文本摘要生成方法
Gallant et al. Representing objects, relations, and sequences
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN110765264A (zh) 一种增强语义相关性的文本摘要生成方法
Yu et al. Acoustic modeling based on deep learning for low-resource speech recognition: An overview
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN113051399A (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN114840688A (zh) 一种计算机构建的嵌入式对齐方法
CN111061951A (zh) 一种基于双层自注意力评论建模的推荐模型
CN114925195A (zh) 一种融合词汇编码与结构编码的标准内容文本摘要生成方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和***
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN111401003B (zh) 一种外部知识增强的幽默文本生成方法
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN112417138A (zh) 一种结合指针生成式与自注意力机制的短文本自动摘要方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
CN114358006A (zh) 基于知识图谱的文本内容摘要生成方法
CN114757177A (zh) 一种基于bart融合指针生成网络的文本摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant