CN116050401A

CN116050401A - 基于Transformer问题关键词预测的多样性问题自动生成方法

Info

Publication number: CN116050401A
Application number: CN202310331534.1A
Authority: CN
Inventors: 周菊香; 周明涛; 李子杰; 甘健侯; 陈恳; 徐坚
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-05-02
Anticipated expiration: 2043-03-31
Also published as: CN116050401B

Abstract

本发明提出一种基于Transformer问题关键词预测的多样性问题自动生成方法，属于自然语言处理领域。该方法包括：首先对数据集进行编码，然后构建一个基于Transformer的问题关键词预测器，通过增强基于GRU网络的编码器‑解码器模型的输入端，最后在解码器的输出端采取谱聚类和集束搜索的解码方式生成多样性问题。本发明针对商品网站中潜在的商品信息缺失问题进行研究，采用深度学习的方法，自动生成辅助商家识别发布的商品信息缺失的问题，使用生成的多样性问题来提醒商家完善商品的描述信息。实验结果表明，本发明在自动评估方面都优于以往传统的方法。

Description

基于Transformer问题关键词预测的多样性问题自动生成方法

技术领域

本发明涉及一种基于Transformer问题关键词预测的多样性问题自动生成方法，属于自然语言处理领域下的问题生成技术。

背景技术

随着互联网、人工智能和大数据的发展，自动问题生成对电子商务信息文本的内容进行提问具有重要意义，它可以辅助电子商务网站的商家提前预判个别消费者对商品

信息潜在的需求，规避客流量损失的风险。由于传统问题生成任务的目标是通过给定上下文和答案位置信息来生成问题，但是在电商领域的真实场景下，提供答案的位置信息会对问题的生成造成一定的影响。因此，最近有些研究学者开始研究如何通过上下文预测问题的关键词分布，以达到生成满足商家所需的问题。现有的方法仅仅使用卷积神经网络对问题关键词进行预测，很容易丢失上下文的结构信息，无法更深层的提取上下文的表征信息，导致问题预测不精准，最终影响问题生成的多样性和特殊性。

为了解决这一挑战，本发明通过构建一个基于TKPCNet的网络模型结构，训练一个端到端的神经网络。在模型中，第一阶段通过基于transformer问题关键词预测器，来预测问题关键词的语义信息，得到重要问题关键词的语义信息；第二阶段通过增强基于GRU的编码器-解码器模型，使用卷积神经网络提取问题关键词的语义信息，使用线性映射嵌入的方式，将提取的语义信息输入到编码器和解码器的输入端，来增强编码器-解码器模型；最终在解码阶段使用集束搜索算法产生多样性问题。

发明内容

本发明的目的：本发明提供一种基于Transformer问题关键词预测的多样性问题自动生成方法，通过生成质量更好的多样性问题，解决现有电商发布商品文本信息缺失，导致消费者流失的问题。

本发明的技术方案是：一种基于Transformer问题关键词预测的多样性问题自动生成，所述方法的具体步骤如下：

Step 1 提取数据集中的商品文本信息并转化为向量形式，作为TKPCNet模型的输入；

Step 1.1 对数据集进行预处理；读取数据集中商品的上下文文本信息以及对应的问题，将商品上下文文本信息和问题进行分词，再进行词频统计；

Step 1.2 对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接，根据统计的词频将上下文文本信息和问题映射成向量形式。

对预处理后数据集中的商品id、上下文文本、问题进行三元组拼接，将商品的上下文文本和问题分词后的词汇，映射成可以识别的数组形式的列表集合，转换为TKPCNet模型需要的向量；再对上下文文本和问题的序列进行规范化操作，将上下文文本的序列长度大于阈值部分进行截断，对于上下文文本的序列长度小于阈值的，采取字符补齐；问题序列长度大于阈值部分进行截断，问题序列长度小于阈值部分采取字符补齐；对上下文文本和问题进行词到向量的映射，从而构建上下文文本信息和问题映射的序列向量形式。

Step 2 构建TKPCNet模型（基于Transformer的关键词预测条件网络模型，Transformer of Keyword Predictor Keyword-Conditioned Network），首先构建一个Transformer问题关键词预测模型，然后构建一个编码器-解码器模型，通过卷积神经网络提取问题关键词的语义信息，使用线性映射嵌入的方式，最后输送到模型的编码器和解码器的输入端进行融合，完成TKPCNet模型的构建；

Step 2.1 构建端到端的TKPCNet网络模型的编码器，在编码端使用多层双向循环神经网络对文本语义信息进行编码，更高效地对训练的数据进行编码和语义信息的学习，可以有效的学习到上下文的语义信息；

Step 2.2 构建一个基于Transformer问题关键词预测模型，使用Transformer编码上下文文本的语义信息，预测问题关键词的重要性，接着使用卷积神经网络提取问题关键词的语义信息，最后通过线性映射的方式，将提取问题关键词的语义信息，替换成编码器和解码器第一个字符的起始输入；

Step 2.3 构建端到端的TKPCNet模型的解码器，在解码端使用循环神经网络对目标问题进行解码，并采用注意力机制，防止文本数据过长，导致上下文语义信息丢失问题；

Step 2.4 构建端到端的TKPCNet模型，通过将增强的编码器-解码器模型和基于Transformer问题关键词预测模型进行结合，共同构成一个端到端的TKPCNet模型。

Step 3 对TKPCNet模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成。

Step 3.1 解码器输出采取谱聚类方式对问题生成中的关键词进行聚类；

对提取出的问题关键词进行向量化转换，使用谱聚类对语义相似的问题关键词进行聚类，引导问题生成过程中，生成语义相关度较高的问题。

Step 3.2 解码器的每一步输出使用集束搜索的方式生成多个词汇，从而生成多样性问题，即在问题生成的每一个时间步长，选取当前条件中概率最大的k个词，作为下一个时间步的候选输出序列的第一个词。

本发明的有益效果是：

1、本发明在理论层面，研究了关于特定领域问题生成的多样性和特殊性，通过实验论证基于Transformer问题关键词预测器具有更好的性能，可以更好的解决商品描述文本信息领域的多样性问题，解决用户更多的疑问。此外，将预测的问题关键词通过卷积神经网络提取语义信息，使用线性映射的方式输送到编码器和解码器输入端，使模型在最初阶段就可以学习到更好的参数；

2、在实践层面，本发明的模型对于解决实际问题具有很大的帮助，可以直接用于各级各类商品信息文本缺失信息的问题生成，这可以帮助商家减少因产品信息不足导致的客户流失问题；

3、本发明能自动识别商品文本的缺失文本语义信息，通过向商家以多种问题的提问方式，促进商家对商品的信息进行改进。且实验结果表明，所述基于Transformer问题关键词预测的多样性问题自动生成方法，在自动评估方面优于传统的方法。

附图说明

图1是本发明的基于Transformer问题关键词预测的多样性问题自动生成总体流程框图；

图2 是本发明的TKPCNet模型的编码器图；

图3是本发明的Transformer问题关键词预测模型；

图4 是本发明的TKPCNet模型的的解码器图；

图5是本发明的TKPCNet模型的框架图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

一种基于Transformer问题关键词预测的多样性问题自动生成方法，总体的框架图如图1所示，具体步骤为：

Step1 提取数据集中的商品文本信息并转化为向量形式；主要将文本信息和问题信息，当作TKPCNet模型的输入向量。

本实施例中以Amason网站上的商品为例说明。

Step 1.1：对商品Amason的Home&Kitchen数据集进行预处理；

在对商品文本信息进行编码前，需对文本的原始文本数据进行数据的预处理。首先对文本进行分词，分词后去掉停用词；然后进行英文小写转换，规范文本的信息；最后进行词频统计并过滤低频词，本次设置低频词的阈值为3，低于3次未出现的不计入统计的词表中，方便后续构建词汇与词频的映射。

Step 1.2：对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接，根据统计的词频将上下文文本信息和问题映射成向量形式。

为了使用上下文文本生成问题，对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接，拼接的格式为（商品信息id、上下文文本信息、问题）。同时，对商品信息的文本数据长度进行限制，长度大于100的文本序列数据，采取截断的操作，上下文商品信息的文本数据小于100的上下文序列数据，采取特殊符号进行标记，为了不参与反向传播时的计算，采用数字0进行补齐；对数据集中的问题序列数据，采取问题序列的长度大于20的，进行截断操作，问题序列长度小于20的同样采取补0操作。构建上下文文本信息和问题映射的序列向量形式，达到对商品上下文文本信息和问题的编码。

经过以上的两步，得到TKPCNet模型的输入向量，用于将上下文的文本向量嵌入输入到模型中。使模型有效的学习文本语义信息之间的关系，有利于问题的生成。

Step 2 基于TKPCNet模型的构建：首先构建一个Transformer问题关键词预测模型，然后构建一个编码器-解码器模型，通过卷积神经网络提取特征，使用两个线性映射嵌入的方式，最后输送到模型的编码器和解码器的输入端进行融合，增强模型的学习能力。

Step 2.1：构建一个端到端的TKPCNet网络模型的编码器，如图2所示。

编码器使用BiGRU，编码器的输入端文本嵌入大小为200维，隐藏层大小为100维，GRU网络可以解决长短序列之间的时间序列依赖问题，可以编码时间序列信息，简化传统LSTM网络结构，使用更少的参数信息，使模型的性能变得更优。模型将上下文传来的词嵌入通过在编码器端，使用多层双向GRU对文本语义信息进行编码，得到每一个时间步中单词序列的隐藏状态和输出状态，这些序列之间的隐藏状态包含了上下文的语义信息特征，为了编码器在第一个时间步更好的学习到文本语义信息，使用上下文预测的问题关键词的语义信息，通过卷积神经网络提取问题关键词的语义信息，使用线性映射的方式将提取的语义信息，替换成第一个时间步的输入特征，计算过程如式（1）至（4）所示。

其中，k表示问题关键词，表示通过卷积神经网络提取的问题关键词的词嵌入，使用线性映射的方式转换编码器的第一个词汇的输入特征，表示文本序列中第一个时间步的词嵌入向量。

其中，表示第c个时间步，表示第c个时间步骤的词嵌入向量，表示正向GRU网络上一时间步的隐藏状态，表示正向GRU网络当前时间步的隐藏状态。

其中，表示反向GRU网络上一时间步的隐藏状态，表示反向GRU网络当前时间步的隐藏状态。

通过将隐藏状态拼接的方式，得到该单词的上下文语义特征向量。对于上下文序列中的所有词汇，按照前后的顺序重复上述的编码操作，最终得到一个表示上下文语义信息的隐藏状态向量C，表示为。

Step 2.2：构建一个基于Transformer问题关键词预测模型，如图3所示；

本部分主要通过使用Transformer编码上下文语义信息，预测一个问题关键词的语义信息，然后与掩码的问题关键词进行点积，得到问题关键词的语义信息。其中本发明专利的Transformer模型的网络结构主要由6层编码层组成，通过6层叠加更好的学习文本语义信息之间的关联，实现对上下文的语义信息编码，从而更精准预测问题关键词的语义信息。其中Transformer的编码层是由两个子层（Sub-layer）构成，分别实现不同的功能。其中第一个子层由三部分递进实现，分别由多头自注意力机制、残差连接、层归一化组成；第二个子层由前馈神经网络、残差连接、层归一化三部分组成。第一层的自注意力机制函数是由查询向量（Query）、键向量（Key）和值向量（Value）三部分操作完成向量之间的转换，进而映射到输出向量空间。具体为：首先自注意力机制会将三个向量同时赋相同的值，使用查询向量和对应的键向量进行点积操作，得到词汇向量本身和商品信息中的上下文词汇信息的权重信息，以便在对值向量加权求和时，使权重值大的词汇信息更具有代表性；然后使用Softmax函数计算权重分布的概率；最后对值向量计算加权和作为输出向量，其中输出向量中蕴涵了上下文的信息。

多头自注意机制是指：在一个多头自注意力层中，将当前词汇嵌入平均划分为8块，并将每一块作为查询向量、键值对向量，然后分别乘以不同的可训练参数矩阵，并将其进行线性投影到、、维，更好的从多个角度捕获多维度语义信息，然后并行进行h个自注意力机制函数的运算过程得到h个维度的输出向量，最后将8个自注意力机制运算得到输出向量连接起来，并乘以一个参数矩阵作为该层的输出。自注意力机制函数的运算，得到具体公式表示如下式（5），多头自注意力机制的公式表示如下式（6）(7)：

其中Q,K,V分别表示对应的查询向量矩阵、键向量矩阵、值向量矩阵，T表示转置矩阵，表示键向量的矩阵表示键向量的维度，softmax(*)表示softmax层，用于输入当前词汇与上下文其它词汇的权重信息。

MultiHead(*)表示多头自注意计算结果，其中的表示可训练的参数矩阵，其中每一个表示一个注意力头。

在这项工作中，关键词作为一个关键信息标记为（其中每个k表示提取关键词的单词）。关键词的定义会因为所在领域的不同来考虑，对于电商平台领域，关键词主要是一些固定不同的词汇，或者是一些问题中出现的动词和形容词。

首先对关键词进行预测，为了简化模型，假设每个关键词k的概率独立于给定的上下文c，使用Transformer编码上下文的语义信息，来预测关键词之间的语义信息，如式子（8）（9）：

其中，表示每一个编码层。

使用概率值表示提取关键词的概率，在训练过程中的每一个关键词的训练损失函数为二分类交叉熵，如式子（10）：

其中，作为二进制指标，表示在问题关键词中的第n个样本的关键词的第c个关键词被预测的概率。在训练阶段中，首先通过选择已经给定的问题关键词集合K中的问题关键词，然后将提取的问题关键词做一个掩码操作，最后在给定上下文c和问题关键字k的前提下，使所有预测问题的对数似然最大化，等同于最小化目标函数，如式子（11）：

在获得掩码目标之后，为了防止数据的过拟合，采取一个dropout进行随机失活。

Step 2.3：构建端到端的TKPCNet网络模型的解码器，如图4所示。

在解码层使用单向GRU网络对序列的目标问题进行解码，首先将先前编码器最后一个隐藏状态初始化为解码器的第一个隐藏状态，结合卷积神经网络和线性映射嵌入的方式，将预测的问题关键词的语义信息代替解码器起始时间步的输入<SOS>，然后在每一个时间步的解码时刻，通过点积型注意力机制将上一步得到的输出特征向量与编码器每次输出的隐藏层特征向量做注意力计算，得到当前解码器时刻的输出词汇与编码器所有隐藏状态的注意力权重，使用Softmax函数得到每一步的注意力权重，得到权重后在与解码器每一步的输出向量相乘，最后通过将解码器每一个时间步的输出向量和注意力权重与目标向量输出相乘作拼接，作为t-1时刻解码器的输出向量，然后将该向量作为t时刻解码器的输入向量，反复进行解码，直到在预测出终止符<EOS>或超出生成问题的最大长度。在经过激活函数、线性变换和Softmax函数最终将所有词汇转换成概率的形式，计算过程如（12）至（16）所示。

其中，表示解码器随机初始化的起始字符作为解码器的第一时间步的输入，表示通过卷积神经网络提取问题关键词的语义信息，使用线性映射的方式转换成解码器起始字符的输入向量。

其中，表示解码器每一个时间步的词汇嵌入，表示编码器上下文语义信息的最终隐藏状态向量，GRU(*,*)表示使用门控循环单元（GRU）模型对数据进行训练。

其中，表示时间步t下的输入向量，表示解码器的隐藏层向量，表示第t个时间步的隐藏层向量。

其中，表示可以被训练的参数，表示编码器的输出向量。

其中，表示解码器的每一个时间步的输出向量，、表示可以被训练的参数，tanh是激活函数。

Step 2.4：构建端到端的TKPCNet网络模型，如图5所示。

首先训练一个基于Transformer的问题关键词预测器，具体步骤如Step 2.2，然后使用增强的编码器-解码器模型，具体步骤如Step 2.1和Step 2.3，最后将两部分进行结合构成一个完整的TKPCNet模型。

Step 3：对模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成。

通过对问题关键词进行谱聚类，将语义相似的问题关键词聚类在一起，然后使用集束搜索的方式产生多样性问题。在集束搜索的过程中，解码器的每一个时间步将会选取概率最大的10个目标语句，最后找到前六个概率值最大的目标语句，即为生成的多样性问题。

Step 3.1：解码器输出先采取谱聚类方式对问题的关键词进行聚类；

Step 3.2：解码器的每一步输出使用集束搜索的方式生成多个词汇，从而生成多样性问题。

在问题生成的每一个时间步长，选取当前条件中概率最大的k个词，作为下一个时间步的候选输出序列的第一个词。

为了验证本发明的模型性能，全面开展机器评估任务，本发明从精度、召回、多样性和语义的角度选择指标。为此，分别采用 BLEU(1-4平均值)、Distinct-3 、 METEOR和P@5。BLEU 可以用来评估一组自然语言处理任务生成的文本，通常用来对生成的问题和实际存在的真实问题进行差异程度的评估，该方法使用了n-gram的思想。Distinct-3主要使用对话生成的一个评估指标，为了评估文本生成的多样性，问题生成的越丰富，该指标值越大，METEOR负责评估召回率,同时考虑句子的流畅性以及同义词对于语义的影响，P@5：为了评估我们的关键字预测器的质量，使用这个指标进行评价，对问题中出现频率最高的关键词进行提取，由于在问题中的关键词数量在每个问题中是不同的，给定样本中问题的长度大多数不超过20，因此在这里我们选择以预测概率问题中出现最高的前5个关键字作为所选关键字集，计算P@5:

其中，是从一个样本的所有真实问题中提取关键字的并集。

在表1中，列出了本发明的模型和基线的评估结果：表1是本发明模型与基础模型的评估对比结果。本发明在复现数据结果时发现，无法精确完成原始目前最先进的基线的结果，并将自己复现的结果使用加*的方法进行展示，发现本发明的模型在各项指标都超过了基线模型的对比结果，具体实现如表1。实验结果表明，本发明的模型在自动指标和人工评价方面都优于以往的问题生成模型。本发明的模型在自动评估指标BLEU,Distinct-3和METEOR指标上分别提高了0.74%，2.31%，0.63%，同时在P@5关键词评估的模型指标上提高了1.1%。本发明发现通过外部条件改变关键词的分布，具有很大的潜力。

为了更加详细的理解上述具体详细的说明，通过结合附图对本发明的具体实施方式作了详细说明，但是本发明的实现并不局限上述的讲解，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于，具体步骤如下：

Step 2 构建TKPCNet模型，首先构建一个Transformer问题关键词预测模型，然后构建一个编码器-解码器模型，通过卷积神经网络提取问题关键词的语义信息，使用线性变换的方式将语义信息映射成编码器-解码器起始输入的隐藏层信息，最后输送到模型的编码器和解码器的输入端进行融合，完成TKPCNet模型的构建；

2.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step1的具体步骤如下：

Step 1.1：对数据集进行预处理；读取数据集中商品的上下文文本信息以及对应的问题，将商品上下文文本信息和问题进行分词，再进行词频统计；

3.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step2的具体步骤如下：

Step 2.1 构建端到端的TKPCNet网络模型的编码器，在编码端使用多层双向循环神经网络对文本语义信息进行编码；

Step 2.2 构建一个基于Transformer问题关键词预测模型，使用Transformer编码上下文文本的语义信息，预测问题关键词的重要性，接着使用卷积神经网络提取问题关键词的语义信息，最后通过线性变换的方式，将提取问题关键词的语义信息，替换成编码器和解码器第一个字符的起始输入；

Step 2.3：构建端到端的TKPCNet模型的解码器，在解码端使用循环神经网络对目标问题进行解码；

Step 2.4：构建端到端的TKPCNet模型，通过将增强的编码器-解码器模型和基于Transformer问题关键词预测模型进行结合，共同构成一个端到端的TKPCNet模型。

4.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step3的具体步骤如下：

Step 3.1 解码器输出先采取谱聚类方式对问题的关键词进行聚类；

Step 3.2 解码器的每一步输出使用集束搜索的方式生成多个词汇，从而生成多样性问题。

5.根据权利要求2所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于，所述Step1.2的具体步骤如下：

6.根据权利要求3所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step2.1中，编码器端使用的是两层双向GRU，隐藏层使用的维度为100维。

7.根据权利要求3所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step2.2的具体步骤如下：

基于Transformer问题关键词预测器主要通过Transformer的编码器对上下文进行编码，编码后的语义信息，经过softmax函数得到预测的每个问题关键词概率，在训练阶段，通过将预测问题关键词的概率与具有掩码问题关键词做点积，经过卷积神经网络提取问题关键词的语义信息，再通过使用线性映射嵌入的方式，将其转换为编码器和解码器的输入特征向量，增强编码器-解码器模型的输入端，进一步提高问题生成的质量。

8.根据权利要求3所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step2.3中，解码器使用单层非双向门控循环单元（GRU）网络，隐藏层使用的维度为100。

9.根据权利要求4所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step3.1的具体步骤如下：

10.根据权利要求4所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step3.2中的具体步骤如下：