CN114662659A

CN114662659A - 一种基于多阶段迁移学习策略综合的众包文本集成方法

Info

Publication number: CN114662659A
Application number: CN202210237867.3A
Authority: CN
Inventors: 荣欢; 于信; 马廷淮
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-24
Anticipated expiration: 2042-03-11
Also published as: CN114662659B

Abstract

本发明提供一种基于多阶段迁移学习策略综合的众包文本集成方法，具体为1、构建迁移式生成型众包文本集成模型TTGCIF；2、获得源域文本数据集和目标域文本数据集的语义原型；3、对语义原型进行词嵌入处理；4、根据最大均值差异做数据分布对齐；5、对TTGCIF进行语义原型转导模型训练；6、将源域文本数据集处理为训练任务集；7、将训练任务集输入到TTGCIF中进行领域快速适应模型训练；8、将部分目标域文本数据集输入到TTGCIF中进行模型微调训练。通过以上过程，实现文本集成。本发明能够摒弃传统方法中对数据标签的需求，减少人力物力的浪费，对数据稀缺场景下进行众包文本集成的有着极大的促进作用。

Description

一种基于多阶段迁移学习策略综合的众包文本集成方法

技术领域

本发明属于自然语言处理技术领域。

背景技术

自然语言处理领域中的大量有监督训练的模型，需要带有标记值的文本进行训练。但是相关领域中带标记的文本来源稀少，除了一些标准的数据集外，如果需要新的数据集进行训练，就只能依靠专家人工生成文本标记值，需要花费大量人力物力。而在众包环境下，利用大量闲散的人力来对无标记的文本人工生成标记值，能用极其微小的代价获得大量带有标记值的文本进行训练。依靠众包模式来获取有标记的文本数据，成为了机器学习领域获取训练数据和标记值的主要途径。

众包模式是一种个人或组织能从一个大的、相对开放的、逐渐增长的互联网用户群体中获取服务和内容的一种模式。该模式旨在将原本复杂的、需要耗费大量人力物力的任务进行拆解后，以自由自愿的形式外包给非特定的大众志愿者的做法。由此衍生的平台如Amazon Mechanical Turk，Figure Eight(CrowdFlower)等能提供“人工标记图片”“人工书写摘要”“众人评价”等服务。这些服务生成的数据内容，由于人工水平的参差不齐或操作误差，会存在一些错误。

机器学习模型的训练，需要准确度较高的训练数据集。因此，对众包环境下获得的有瑕疵的数据和标记值进行优化，是必不可少的。在此基础上，对众包的相关研究也是一个机器学习领域必不可少的一部分。而目前，最前沿的研究工作中集中在事实推断和标签集成。

而对众包环境下的文本进行内容集成，是标签集成工作的一个重要分支，目前可使用抽取式和生成式方法[1]。抽取式方法由于技术更为成熟，展现出的集成效果要优于生成式方法[2]。而这两种方法又分为有监督和无监督方法的选择。对于无监督方法，Tadashi[3]等人提出的基于聚类的摘要模型，Joshi[4]等人提出了基于两层自动编码器的句子选择方法等方法。对于有监督方法，Nallapati[5]等人提出基于循环神经网络的抽取模型SumaaRuNNer。以上方法能够对一段文本进行有效集成，但是仍然存在内容选择错误、文本集成质量不高的问题。

因此现有技术需要一种提高众包集成文本质量的方法，来处理相关领域众包集成文本真值缺乏的问题，但当前对于集成文本真值在众包环境下缺乏的解决方法研究还很少，并且还有很多问题存在。比如，现有的基于深度学习的方法几乎都是利用有监督方式训练模型，从而需要大量标记文本进行模型训练；现有的用于解决集成文本真值缺乏问题方法的效果，仍主要取决于相关领域的真值数据量；此外，相关方法并未充分利用相关领域已有数据所能提供的信息，来提升众包文本集成的效果。

发明内容

发明目的：为了解决上述现有技术存在的问题，本发明提供了一种基于多阶段迁移学习策略综合的众包文本集成方法。

技术方案：本发明提供了一种基于多阶段迁移学习策略综合的众包文本集成方法，包括如下步骤：

步骤1：对Transformer模型进行改进：在Transformer模型中加入指针生成器网络和双向门控循环网络，并在Transformer模型中的编码器和解码器的每一层的前馈网络后连接适配器层；得到改进后的模型TTGCIF模型；

步骤2：构建源域文本数据集和目标域文本数据中的每个<众包原始文本，众包集成文本>的语义原型z，z＝[x^d,y^d,a^d]，x表示众包原始文本，y表示众包集成文本，a表示众包原始文上的语义注释文本；d∈{Source,Target}，Source表示源域，Target表示目标域；

步骤3：对z中每个文本做词嵌入处理：对x^d和a^d进行词嵌入得到

和

且

的向量形式满足Transformer模型中编码器的格式要求，

的向量形式满足双向门控循环网络的格式要求；对y^d单独进行两次词嵌入处理，第一次词嵌入处理后得到的

向量形式满足双向门控循环网络的格式要求，第二次词嵌入处理后得到的

向量形式满足Transformer模型中解码器的格式要求；

步骤4：将

输入到含有Sigmoid激活函数的全连接层进行转换，得到

根据最大均值差异，对

和

进行数据分布对齐处理，得到对齐后的目标域众包原始文本

步骤5：将

输入到Transformer模型的编码器中，将

或者

输入到双向门控循环网络中，将

输入到解码器中，对TTGCIF模型进行训练；

步骤6：从N个源域中随机抽取K条语义原型，得到N*K条语义原型，将该N*K条语义原型作为训练任务数据集；将训练任务数据集中的一半数据划分为支持集，另一半数据划分为查询集；重复步骤6，直到源域的所有的语义原型都被抽取过，得到若干个训练任务数据集；

步骤7：将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动，基于步骤5中训练好的TTGCIF模型参数，采用步骤6中的支持集和查询集对编码器和解码器进行训练；

步骤8：对步骤7中训练好的编码器和解码器的参数进行调整，得到最终的TTGCIF模型；

步骤9：将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中，得到对应的众包集成文本。

进一步的，所述步骤1中的解码器从输入至输出包括8个子层，双向门控循环网络的输出通过全连接层与解码器的第2个子层的输入端连接；指针生成器网络用于和Transformer解码器共同计算生成概率。

进一步的，所述目标域的众包集成文本y^Target采用如下方法获得：将目标域的众包原始文本x^target的每个子句分成单词序列，按照子句中单词的数量，从高到低选择u个子句作为目标域的众包伪集成文本，也既y^Target；u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。

进一步的，所述步骤4具体为，将

和

投射到再生核希尔伯特空间H中，得到

在H中的表示X1^Source，和

在H中的表示X1^Target；在核希尔伯特空间H中，基于如下公式训练含有Sigmoid激活函数的全连接层：

其中，dis(.)表示计算距离，

表示投射到H空间的

中第i个数据的分布，

表示投射到H空间的

中第j个数据的分布；n₁表示

中数据的总个数，n₂表示

中数据的总个数；

将训练后的含有Sigmoid激活函数的全连接的输出映射表示为

通过如下公式得到对齐后的目标域众包原始文本

其中，N表示源域和目标域的总个数之和。

进一步的，所述步骤5中基于如下损失函数对TTGCIF模型进行训练：

其中，L_total为对TTGCIF模型进行训练的损失函数，

的表达式如下所示：

其中，

为交叉熵损失，T^E(.)表示Transformer的编码器，

为TTGCIF模型的输出，R^E表示双向门控循环网络，

表示隐藏状态

接近隐藏状态

D表示均方误差，

表达式如下所示，

为TTGCIF模型的输出，T^E(.)表示Transformer的编码器；p_gen表示指针生成器网络产生的生成概率，w_t表示输入至Transformer解码器的

中的第t个标记；P_vocab(.)表示词汇分布，P_copy表示复制分布概率，σ表示Sigmod激活函数，T为转置，

表示编码器里8个子层中最后一个子层的输出，s_t表示解码器里8个子层中最后一个子层的输出，

为a^t中第i'个数据，a^t为

中的第t个标记输入至Transformer解码器后，解码器最后一个子层中多头注意力模块输出的注意力权重分布向量，I表示a^t中数据的总个数；linear表示线性层，w_h,w_s,w_x,b_ptr,w和b_vocab均表示学习参数；

的表达式如下所示

其中，

表示隐藏状态

接近隐藏状态

的表达式如下所示：

进一步的，所述步骤7中对编码器和解码器进行训练的损失函数

为：

其中

的表达式如下所示：

有益效果：本发明通过使用多种迁移学习策略，无需花费大量的人力物力进行数据标注来训练深度网络模型，就能构建出泛化效果较好的生成模型。本发明从数据的层面，首先通过数据的语义关联性，构建不同领域间的语义原型表示，再在数据表征上减小不同数据间的分布差异；本发明还从模型的层面，通过语义类型转导和领域快速适应方法，捕捉不同领域数据中的共性知识，提升模型在目标领域上的泛化性能提升效果。本发明构建的模型TTGCIF能够摒弃传统方法中对数据标签的需求，减少人力物力的浪费，在数据稀缺场景下进行众包文本集成的有着极大的促进作用。

附图说明

图1是本发明的方法流程图；

图2是本发明的TTGCIF模型的结构图；

图3是通过在核空间中最小化MMD来实现领域分布对齐的过程图；

图4是语义原型转导寻示意图；

图5是基于语义原型转导训练流程图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

本实施案例基于改进的Transformer文本生成模型，运用迁移学习中多种策略综合构建集成框架，不依赖目标领域的真值数据训练模型得到集成文本，进而提高众包文本集成的准确度。如图1所示，本方法包含如下步骤：

步骤10，基于Transformer模型进行改进，构建定制化的迁移式生成型众包文本集成模型TTGCIF，其结构如图2所示。该模型TTGCIF由标准的Transformer模型改进而来。Transformer模型由一个编码器和一个解码器组成。编码器由8个相同的层堆叠而成。每层有2个子层，第1个子层是一个多头自注意力机制，第2个子层是一个前馈网络。在2个子层的每一层都采用一个残差连接，然后进行归一化处理；解码器也是由8个相同的层堆叠而成，除了和编码器层内相同的2个子层外，额外加入了第3个子层，用于对编码器堆栈的输出进行多头注意力机制的计算，与编码器相似在每个子层周围采用残差连接，然后进行归一化处理。另外编码器和解码器的每一个子层中都在前馈网络后面额外添加了一个适配器层(Adapter Layer)，该层定义如公式(1)所示，通过全连接层压缩前馈网络输出的隐藏状态h的维度，再将压缩后的隐藏状态的维度恢复为输入适配器层前的隐藏状态的维度，其中原始的维度大小为压缩后的维度大小的4倍。

其中，Adapter表示适配器层；h表示前馈网络输出的隐藏状态；

表示适配器层中使用的外部全连接层，用于将压缩后的隐藏状态的维度恢复到输入前的维度；ReLU表示使用的激活函数为ReLU激活函数；

表示适配器层中使用的内部全连接层，用于将输入的隐藏状态的维度进行压缩；

表示适配器层输出的隐藏状态的维度的数量；

表示输入适配器层的隐藏状态的维度的数量；FFN表示Transformer中使用的前馈网络(Feed-Forward Network)；MHA表示Transformer中使用的多头注意力(Multi-HeadAttention)。

模型TTGCIF包括了一个增强的编码器和一个标准的Transformer解码器，同时加入指针生成器网络。增强的编码器由一个双向门控循环网络(Bi-GRU)和Transformer编码器共同组成。解码器包括多头注意力模块+前馈网络模块+适配器层+残差&归一化；解码器中的第1个多头注意力模块是解码器内部进行自注意力机制的计算，第2个多头注意力模块会结合前一个模块(add&norm)的输出+编码器端的输出+双向门控循环网络(Bi-GRU)的输出,共同进行自注意力机制的计算；

双向门控循环网络的输入接收在TTGCIF模型训练过程中指定的语义原型数据，输出将连接到一个全连接层以进行维度的调整，全连接层的输出连接解码器的第二层的多头注意力模块。指针生成器网络计算一个生成概率P_gen∈[0,1]，该概率决定从词表自带的中生成单词的概率，而不是从原文输入的原文中复制单词的概率。通过这种方式，指针生成器网络和Transformer的解码器一起使用，共同计算出最后的生成概率，最终得到众包文本。

步骤20，构建源域文本数据集和目标域文本数据集中的每个<众包原始文本，众包集成文本>的语义原型：众包原始文本x，众包集成文本y和x上的语义注释文本a。

每个<众包原始文本，众包集成文本>的语义原型被构造为z＝[x^d,y^d,a^d]的表示序列，其中d∈{Source,Target}。Source表示数据来源于源域，Target表示数据来源于目标域。

在训练过程中对什么的训练，当训练数据y^d来自目标域时，首先将相应的目标域的众包原始文本x^{tar get}的每个子句按单词进行分词，按照子句中所含单词的数量，从高到低选择u个子句作为目标域中的众包伪集成文本，也既y^Target。u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。

语义注释文本a^d是将众包原始文本x^d转换成一个关键词序列，关键词的标签属于{名词、副词、形容词、动词}。

步骤30，将步骤20中得到的语义原型z＝[x^d,y^d,a^d]，输入到预训练的BERT中进行[x^d,y^d,a^d]的词嵌入处理。

将众包原始文本x^d输入到BERT中，通过BERT对众包原始文本x^d进行词嵌入处理后得到其词嵌入表示

得到的词嵌入表示将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器中,batch_size表示每次输入到模型中的数据的数量，enc_max_len表示编码器接受输入的最大长度，dim表示BERT进行词嵌入处理的维度。

将语义注释文本a^d输入到BERT中，通过BERT对语义注释文本a^d进行词嵌入处理后得到其词嵌入表示

得到的词嵌入表示将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器中。其中，batch_size表示每次输入到模型中的数据的数量，enc_max_len表示编码器(此时的编码器表示双向门控循环网络)接受输入的最大长度，dim表示BERT进行词嵌入处理的维度。

将众包集成文本y^d输入到BERT中，通过BERT对众包集成文本y^d进行词嵌入处理后得到其词嵌入表示。得到的词嵌入表示将以(batch_size,dec_max_len,dim)这样的张量形式输入到TTGCIF的解码器中。其中，batch_size表示每次输入到模型中的数据的数量，dec_max_len表示解码器接受输入的最大长度，dim表示BERT进行词嵌入处理的维度。由于本实施例中要将词嵌入后的众包集成文本输入到双向门控循环网络和解码器中，所以需要对y^d进行两次单独的词嵌入，一次词嵌入后输出的向量

的形式满足双向门控循环网络的格式要求，另外一次词嵌入后输出的向量

的形式满足解码器的格式要求；

步骤40，将

输入到含有Sigmoid激活函数的全连接层进行转换，得到

根据最大均值差异，对

和

进行数据分布对齐处理，得到对齐后的目标域众包原始文本

具体为：

如图3所示，将

和

投射到再生核希尔伯特空间H中，得到

在H中的表示X1^Source，和

在H中的表示X1^Target；在核希尔伯特空间H中，基于如下公式(2)训练含有Sigmoid激活函数的全连接层：

其中，dis(.)表示计算距离，

表示投射到H空间的

中第i个数据的分布，

表示投射到H空间的

中第j个数据的分布；n₁表示

中数据的总个数，n₂表示

中数据的总个数

根据公式(2)，最小化最大均值差异来减少源域和目标域之间的数据分布

和

的距离，使得两者的数据分布表示对齐。在最小化的过程中，全连接层的参数将被更新，参数更新使得在核空间H中，全连接层输出的数据分布与目标域直接输出的数据分布近似。

训练后全连接层的输出映射表示将更新为相应源域的映射表示

其输出为对齐后的数据表示。接着如下公式(3)所定义，目标域中的对齐数据表示

是通过将目标域众包原始文本输入到BERT中得到的词嵌入表示，再将改词嵌入表示输入到在源域上训练得出的映射

得到的。其中，因为有多个源域会训练得到多个映射

所以最终的目标域的对齐数据表示

将是根据所有源域映射输出的结果的平均表示得出。

其中，N表示源域和目标域的总个数之和，N-1表示源域的总个数。

最终对齐后的

将以(batch_size,enc_max_len,dim)这样的张量形式输入到TTGCIF的编码器。

步骤50，如图4所示，将

输入到Transformer模型的编码器中，将

或者

输入到双向门控循环网络中，将

输入到解码器中，对TTGCIF模型进行训练，该训练过程中模型根据语义关联性使

模型训练直到损失函数L_xy和损失函数L_ay同时收敛。其中，→表示在训练的生成过程中，

或

输入模型后产生的输出将根据损失函数与

尽可能的相同；

步骤501，当增强的编码器接收的输入数据为

和

时，模型在训练时使用的损失函数为公式(4)：

其中，

为交叉熵损失，T^E(.)表示Transformer的编码器，

为TTGCIF模型的输出，R^E表示双向门控循环网络，

表示隐藏状态

接近隐藏状态

表达式如下所示，

为TTGCIF模型的输出的文本生成概率向量，T^E(.)表示编码器端

输入的是Transformer编码器；P_gen表示指针生成器网络产生的生成概率，w_t表示输入至Transformer解码器的

为a^t中第i'个数据，a^t为

中的第t个标记输入至Transformer解码器后，解码器最后一个子层中多头注意力模块输出的注意力权重分布向量，I表示a^t中数据的总个数；linear表示线性层，w_h,w_s,w_x,b_ptr,w和P_vocab均表示学习参数。

词汇分布P_vocab是通过

计算的，用Softmax激活函数来确定解码器输出列表上的标记分布。复制分布概率P_copy被计算用于根据注意力权重a^t确定未登陆词，即模型的输入文本中存在的没有包含在用于生成查询的词表中的词汇(Out-of-Vocabulary，OOV)标记的分布。最终根据这两个分布P_vocab和P_copy，在第t步从扩展的词汇(扩展的词汇：扩展的词汇是由原始词表+拓展词组成的。原始词表是TTGCIF模型自带的，是一个由一定量的单词组成的序列；拓展词是将输入的文本先进行分词，再将分完的词与原始词表做比较，如果不包含在原始词表中就作为拓展词)表中选择一个合适的标记进行输出。

在公式(4)中，针对

使用损失函数L_xy，将众包文

作为输入到Transformer编码器中，即

使Transformer解码器生成的集成文本

与源域或目标域的众包集成文本

接近。

指将

的表示输入Bi-GRU后输出隐藏状态

接近域d中的原始众包文件

输入Transformer编码器后输出的隐藏状态

也就是说

双向循环网络的输出的和

要相接近也就是约等于。D是均方误差(MSE)。根据公式(4)当给定域d中的语义原型

时，在最小化L_xy后，可以在域d内建立隐性语义关联，即

步骤502，当增强的编码器接收的输入数据为

和

时，定义模型在训练时使用的，定义模型在训练时使用的损失函数为公式(5)：

其中，

表示隐藏状态

接近隐藏状态

的表达式如下所示：

在公式(5)中，针对

使用损失函数L_ay，将语义注释

输入到Bi-GRU中，即

使Transformer解码器生成的集成文本

与源域或目标域的众包集成文本

接近。

的表示被输入到Bi-GRU，即

通过MSE度量接近

根据公式(5)当给定领域d中的语义原型

时，在最小化L_ay后，可以在领域d内建立另一个隐含的语义关联，即

步骤503，在公式(6)中将步骤501中定义的损失函数L_xy和步骤502中定义的损失函数L_ay合并构建一个复合损失函数L_total。

如图5所示，模型TTGCIF的参数可以通过L_xy训练来拟合语义关联

通过L_ay拟合

因此，当给定语义原型

时，模型TTGCIF的参数将被训练为在域d内通过L_total拟合

的语义关联性：

L_total＝L_xy+L_ay (6)

步骤60，从N个源域中随机抽取K条语义原型，得到N*K条语义原型，将该N*K条语义原型作为训练任务数据集；训练任务数据集中的一半数据划分为支持集，另一半数据划分为查询集；重复步骤6，直到源域的所有的语义原型都被抽取过，得到若干个训练任务数据集。

步骤70，在步骤50训练所得模型的参数的基础上，模型TTGCIF冻结Bi-GRU部分，只保留Transformer编码器和Transformer解码器继续采用如下损失函数训练：

其中，

表示在步骤50中训练中所使用的损失函数；-logP表示在步骤50中模型训练使用的是交叉熵损失函数；

表示将

输入到Transformer的编码器中；

表示模型的输出；P_gen表示指针生成器网络产生的生成概率；P_vocab表示从词表中生成词汇的生成概率；P_copy表示从输入中复制词汇的概率；

表示损失函数的目的是为了让模型的输出

与

尽可能的相同。

在公式(8)中，TTGCIF的初始参数Θ₀被更新为步骤50训练所得的参数，模型的未更新前(已经经历过步骤50没有经历过步骤70)的原始参数被复制保留为Θ_origin。然后，将步骤60获取的训练任务集中的每一个训练任务中的支持集数据输入到模型TTGCIF中，对模型的参数Θ(编码器和解码器中的参数)进行梯度更新。

其中，Θ表示模型的参数；Θ₀←Θ_Zero-Shot表示将模型的初始参数Θ₀更新为步骤50训练所得的参数；Θ_Origin←Θ表示模型每次在使用支持集数据训练前将模型的参数Θ更新为上一次保留的参数Θ_Origin；

表示第m个训练任务数据集中的支持集数据；

表示当前支持集数据中的来自第i1个源域的第j1个众包原始文本数据；

表示当前支持集数据中的来自第i1个源域的第j1个众包集成文本数据；η表示参数更新求导过程中的超参数。

在公式(9)中，迁移式生成型众包文本集成模型TTGCIF的保留的参数Θ_origin，将使用步骤60获取的训练任务数据集中的每一个训练任务中的查询集数据，沿着步骤70中获取的模型参数Θ提供的梯度方向进行更新。在使用训练任务集中的所有数据训练完成后，得到最终的模型参数。

其中，

表示第m个训练任务数据集中的查询集数据；

表示当前查询集数据中的来自第i2个源域的第j2个众包原始文本数据；

表示当前查询集数据中的来自第i2个源域的第j2个众包集成文本数据；η表示参数更新求导过程中的超参数。

步骤80，基于步骤70得到的模型的参数，使用低于10％比例的步骤30得到的目标域的众包原始文本

和目标域的众包真值集成文本

输入到模型TTGCIF中进行训练直到公式(5)中的损失函数收敛。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，包括如下步骤：

步骤2：构建源域文本数据集和目标域文本数据集中的每个<众包原始文本，众包集成文本>的语义原型z，z＝[x^d,y^d,a^d]，x表示众包原始文本，y表示众包集成文本，a表示众包原始文上的语义注释文本；d∈{Source,Target}，Source表示源域，Target表示目标域；

步骤3：对z中每个文本做词嵌入处理：对x^d和a^d进行词嵌入处理得到

和

且

的向量形式满足Transformer模型中编码器的格式要求，

的向量形式满足双向门控循环网络的格式要求，第二次词嵌入处理后得到的

的向量形式满足Transformer模型中解码器的格式要求；

步骤4：将

输入到含有Sigmoid激活函数的全连接层进行转换，得到

根据最大均值差异，对

和

进行数据分布对齐处理，得到对齐后的目标域众包原始文本

步骤5：将

输入到Transformer模型的编码器中，将

或者

输入到双向门控循环网络中，将

输入到解码器中，对TTGCIF模型进行训练；

2.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，所述步骤1中的解码器从输入至输出包括8个子层，双向门控循环网络的输出通过一个全连接层与解码器的第2个子层的输入端连接；指针生成器网络用于和Transformer解码器共同计算生成概率。

3.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，所述目标域的众包集成文本y^Target采用如下方法获得：将目标域的众包原始文本x^target的每个子句分成单词序列，按照子句中单词的数量，从高到低选择u个子句作为目标域的众包伪集成文本，也既y^Target；u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。

4.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，所述步骤4具体为，将