CN116050401A - 基于Transformer问题关键词预测的多样性问题自动生成方法 - Google Patents
基于Transformer问题关键词预测的多样性问题自动生成方法 Download PDFInfo
- Publication number
- CN116050401A CN116050401A CN202310331534.1A CN202310331534A CN116050401A CN 116050401 A CN116050401 A CN 116050401A CN 202310331534 A CN202310331534 A CN 202310331534A CN 116050401 A CN116050401 A CN 116050401A
- Authority
- CN
- China
- Prior art keywords
- model
- keyword
- decoder
- information
- transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000003595 spectral effect Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 55
- 238000013507 mapping Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 claims 6
- 241000288105 Grus Species 0.000 claims 1
- 239000002356 single layer Substances 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于Transformer问题关键词预测的多样性问题自动生成方法,属于自然语言处理领域。该方法包括:首先对数据集进行编码,然后构建一个基于Transformer的问题关键词预测器,通过增强基于GRU网络的编码器‑解码器模型的输入端,最后在解码器的输出端采取谱聚类和集束搜索的解码方式生成多样性问题。本发明针对商品网站中潜在的商品信息缺失问题进行研究,采用深度学习的方法,自动生成辅助商家识别发布的商品信息缺失的问题,使用生成的多样性问题来提醒商家完善商品的描述信息。实验结果表明,本发明在自动评估方面都优于以往传统的方法。
Description
技术领域
本发明涉及一种基于Transformer问题关键词预测的多样性问题自动生成方法,属于自然语言处理领域下的问题生成技术。
背景技术
随着互联网、人工智能和大数据的发展,自动问题生成对电子商务信息文本的内容进行提问具有重要意义,它可以辅助电子商务网站的商家提前预判个别消费者对商品
信息潜在的需求,规避客流量损失的风险。由于传统问题生成任务的目标是通过给定上下文和答案位置信息来生成问题,但是在电商领域的真实场景下,提供答案的位置信息会对问题的生成造成一定的影响。因此,最近有些研究学者开始研究如何通过上下文预测问题的关键词分布,以达到生成满足商家所需的问题。现有的方法仅仅使用卷积神经网络对问题关键词进行预测,很容易丢失上下文的结构信息,无法更深层的提取上下文的表征信息,导致问题预测不精准,最终影响问题生成的多样性和特殊性。
为了解决这一挑战,本发明通过构建一个基于TKPCNet的网络模型结构,训练一个端到端的神经网络。在模型中,第一阶段通过基于transformer问题关键词预测器,来预测问题关键词的语义信息,得到重要问题关键词的语义信息;第二阶段通过增强基于GRU的编码器-解码器模型,使用卷积神经网络提取问题关键词的语义信息,使用线性映射嵌入的方式,将提取的语义信息输入到编码器和解码器的输入端,来增强编码器-解码器模型;最终在解码阶段使用集束搜索算法产生多样性问题。
发明内容
本发明的目的:本发明提供一种基于Transformer问题关键词预测的多样性问题自动生成方法,通过生成质量更好的多样性问题,解决现有电商发布商品文本信息缺失,导致消费者流失的问题。
本发明的技术方案是:一种基于Transformer问题关键词预测的多样性问题自动生成,所述方法的具体步骤如下:
Step 1 提取数据集中的商品文本信息并转化为向量形式,作为TKPCNet模型的输入;
Step 1.1 对数据集进行预处理;读取数据集中商品的上下文文本信息以及对应的问题,将商品上下文文本信息和问题进行分词,再进行词频统计;
Step 1.2 对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接,根据统计的词频将上下文文本信息和问题映射成向量形式。
对预处理后数据集中的商品id、上下文文本、问题进行三元组拼接,将商品的上下文文本和问题分词后的词汇,映射成可以识别的数组形式的列表集合,转换为TKPCNet模型需要的向量;再对上下文文本和问题的序列进行规范化操作,将上下文文本的序列长度大于阈值部分进行截断,对于上下文文本的序列长度小于阈值的,采取字符补齐;问题序列长度大于阈值部分进行截断,问题序列长度小于阈值部分采取字符补齐;对上下文文本和问题进行词到向量的映射,从而构建上下文文本信息和问题映射的序列向量形式。
Step 2 构建TKPCNet模型(基于Transformer的关键词预测条件网络模型,Transformer of Keyword Predictor Keyword-Conditioned Network),首先构建一个Transformer问题关键词预测模型,然后构建一个编码器-解码器模型,通过卷积神经网络提取问题关键词的语义信息,使用线性映射嵌入的方式,最后输送到模型的编码器和解码器的输入端进行融合,完成TKPCNet模型的构建;
Step 2.1 构建端到端的TKPCNet网络模型的编码器,在编码端使用多层双向循环神经网络对文本语义信息进行编码,更高效地对训练的数据进行编码和语义信息的学习,可以有效的学习到上下文的语义信息;
Step 2.2 构建一个基于Transformer问题关键词预测模型,使用Transformer编码上下文文本的语义信息,预测问题关键词的重要性,接着使用卷积神经网络提取问题关键词的语义信息,最后通过线性映射的方式,将提取问题关键词的语义信息,替换成编码器和解码器第一个字符的起始输入;
Step 2.3 构建端到端的TKPCNet模型的解码器,在解码端使用循环神经网络对目标问题进行解码,并采用注意力机制,防止文本数据过长,导致上下文语义信息丢失问题;
Step 2.4 构建端到端的TKPCNet模型,通过将增强的编码器-解码器模型和基于Transformer问题关键词预测模型进行结合,共同构成一个端到端的TKPCNet模型。
Step 3 对TKPCNet模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成。
Step 3.1 解码器输出采取谱聚类方式对问题生成中的关键词进行聚类;
对提取出的问题关键词进行向量化转换,使用谱聚类对语义相似的问题关键词进行聚类,引导问题生成过程中,生成语义相关度较高的问题。
Step 3.2 解码器的每一步输出使用集束搜索的方式生成多个词汇,从而生成多样性问题,即在问题生成的每一个时间步长,选取当前条件中概率最大的k个词,作为下一个时间步的候选输出序列的第一个词。
本发明的有益效果是:
1、本发明在理论层面,研究了关于特定领域问题生成的多样性和特殊性,通过实验论证基于Transformer问题关键词预测器具有更好的性能,可以更好的解决商品描述文本信息领域的多样性问题,解决用户更多的疑问。此外,将预测的问题关键词通过卷积神经网络提取语义信息,使用线性映射的方式输送到编码器和解码器输入端,使模型在最初阶段就可以学习到更好的参数;
2、在实践层面,本发明的模型对于解决实际问题具有很大的帮助,可以直接用于各级各类商品信息文本缺失信息的问题生成,这可以帮助商家减少因产品信息不足导致的客户流失问题;
3、本发明能自动识别商品文本的缺失文本语义信息,通过向商家以多种问题的提问方式,促进商家对商品的信息进行改进。且实验结果表明,所述基于Transformer问题关键词预测的多样性问题自动生成方法,在自动评估方面优于传统的方法。
附图说明
图1是本发明的基于Transformer问题关键词预测的多样性问题自动生成总体流程框图;
图2 是本发明的TKPCNet模型的编码器图;
图3是本发明的Transformer问题关键词预测模型;
图4 是本发明的TKPCNet模型的的解码器图;
图5是本发明的TKPCNet模型的框架图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种基于Transformer问题关键词预测的多样性问题自动生成方法,总体的框架图如图1所示,具体步骤为:
Step1 提取数据集中的商品文本信息并转化为向量形式;主要将文本信息和问题信息,当作TKPCNet模型的输入向量。
本实施例中以Amason网站上的商品为例说明。
Step 1.1:对商品Amason的Home&Kitchen数据集进行预处理;
在对商品文本信息进行编码前,需对文本的原始文本数据进行数据的预处理。首先对文本进行分词,分词后去掉停用词;然后进行英文小写转换,规范文本的信息;最后进行词频统计并过滤低频词,本次设置低频词的阈值为3,低于3次未出现的不计入统计的词表中,方便后续构建词汇与词频的映射。
Step 1.2:对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接,根据统计的词频将上下文文本信息和问题映射成向量形式。
为了使用上下文文本生成问题,对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接,拼接的格式为(商品信息id、上下文文本信息、问题)。同时,对商品信息的文本数据长度进行限制,长度大于100的文本序列数据,采取截断的操作,上下文商品信息的文本数据小于100的上下文序列数据,采取特殊符号进行标记,为了不参与反向传播时的计算,采用数字0进行补齐;对数据集中的问题序列数据,采取问题序列的长度大于20的,进行截断操作,问题序列长度小于20的同样采取补0操作。构建上下文文本信息和问题映射的序列向量形式,达到对商品上下文文本信息和问题的编码。
经过以上的两步,得到TKPCNet模型的输入向量,用于将上下文的文本向量嵌入输入到模型中。使模型有效的学习文本语义信息之间的关系,有利于问题的生成。
Step 2 基于TKPCNet模型的构建:首先构建一个Transformer问题关键词预测模型,然后构建一个编码器-解码器模型,通过卷积神经网络提取特征,使用两个线性映射嵌入的方式,最后输送到模型的编码器和解码器的输入端进行融合,增强模型的学习能力。
Step 2.1:构建一个端到端的TKPCNet网络模型的编码器,如图2所示。
编码器使用BiGRU,编码器的输入端文本嵌入大小为200维,隐藏层大小为100维,GRU网络可以解决长短序列之间的时间序列依赖问题,可以编码时间序列信息,简化传统LSTM网络结构,使用更少的参数信息,使模型的性能变得更优。模型将上下文传来的词嵌入通过在编码器端,使用多层双向GRU对文本语义信息进行编码,得到每一个时间步中单词序列的隐藏状态和输出状态,这些序列之间的隐藏状态包含了上下文的语义信息特征,为了编码器在第一个时间步更好的学习到文本语义信息,使用上下文预测的问题关键词的语义信息,通过卷积神经网络提取问题关键词的语义信息,使用线性映射的方式将提取的语义信息,替换成第一个时间步的输入特征,计算过程如式(1)至(4)所示。
其中,k表示问题关键词,表示通过卷积神经网络提取的问题关键词的词嵌入,使用线性映射的方式转换编码器的第一个词汇的输入特征,表示文本序列中第一个时间步的词嵌入向量。
其中,表示第c个时间步,表示第c个时间步骤的词嵌入向量,表示正向GRU网络上一时间步的隐藏状态,表示正向GRU网络当前时间步的隐藏状态。
其中,表示反向GRU网络上一时间步的隐藏状态,表示反向GRU网络当前时间步的隐藏状态。
通过将隐藏状态拼接的方式,得到该单词的上下文语义特征向量。对于上下文序列中的所有词汇,按照前后的顺序重复上述的编码操作,最终得到一个表示上下文语义信息的隐藏状态向量C,表示为。
Step 2.2:构建一个基于Transformer问题关键词预测模型,如图3所示;
本部分主要通过使用Transformer编码上下文语义信息,预测一个问题关键词的语义信息,然后与掩码的问题关键词进行点积,得到问题关键词的语义信息。其中本发明专利的Transformer模型的网络结构主要由6层编码层组成,通过6层叠加更好的学习文本语义信息之间的关联,实现对上下文的语义信息编码,从而更精准预测问题关键词的语义信息。其中Transformer的编码层是由两个子层(Sub-layer)构成,分别实现不同的功能。其中第一个子层由三部分递进实现,分别由多头自注意力机制、残差连接、层归一化组成;第二个子层由前馈神经网络、残差连接、层归一化三部分组成。第一层的自注意力机制函数是由查询向量(Query)、键向量(Key)和值向量(Value)三部分操作完成向量之间的转换,进而映射到输出向量空间。具体为:首先自注意力机制会将三个向量同时赋相同的值,使用查询向量和对应的键向量进行点积操作,得到词汇向量本身和商品信息中的上下文词汇信息的权重信息,以便在对值向量加权求和时,使权重值大的词汇信息更具有代表性;然后使用Softmax函数计算权重分布的概率;最后对值向量计算加权和作为输出向量,其中输出向量中蕴涵了上下文的信息。
多头自注意机制是指:在一个多头自注意力层中,将当前词汇嵌入平均划分为8块,并将每一块作为查询向量、键值对向量,然后分别乘以不同的可训练参数矩阵,并将其进行线性投影到、、维,更好的从多个角度捕获多维度语义信息,然后并行进行h个自注意力机制函数的运算过程得到h个维度的输出向量,最后将8个自注意力机制运算得到输出向量连接起来,并乘以一个参数矩阵作为该层的输出。自注意力机制函数的运算,得到具体公式表示如下式(5),多头自注意力机制的公式表示如下式(6)(7):
其中Q,K,V分别表示对应的查询向量矩阵、键向量矩阵、值向量矩阵,T表示转置矩阵,表示键向量的矩阵 表示键向量的维度,softmax(*)表示softmax层,用于输入当前词汇与上下文其它词汇的权重信息。
MultiHead(*)表示多头自注意计算结果,其中的表示可训练的参数矩阵,其中每一个表示一个注意力头。
在这项工作中,关键词作为一个关键信息标记为(其中每个k表示提取关键词的单词)。关键词的定义会因为所在领域的不同来考虑,对于电商平台领域,关键词主要是一些固定不同的词汇,或者是一些问题中出现的动词和形容词。
首先对关键词进行预测,为了简化模型,假设每个关键词k的概率独立于给定的上下文c,使用Transformer编码上下文的语义信息,来预测关键词之间的语义信息,如式子(8)(9):
其中,表示每一个编码层。
使用概率值表示提取关键词的概率,在训练过程中的每一个关键词的训练损失函数为二分类交叉熵,如式子(10):
其中,作为二进制指标,表示在问题关键词中的第n个样本的关键词的第c个关键词被预测的概率。在训练阶段中,首先通过选择已经给定的问题关键词集合K中的问题关键词,然后将提取的问题关键词做一个掩码操作,最后在给定上下文c和问题关键字k的前提下,使所有预测问题的对数似然最大化,等同于最小化目标函数,如式子(11):
在获得掩码目标之后,为了防止数据的过拟合,采取一个dropout进行随机失活。
Step 2.3:构建端到端的TKPCNet网络模型的解码器,如图4所示。
在解码层使用单向GRU网络对序列的目标问题进行解码,首先将先前编码器最后一个隐藏状态初始化为解码器的第一个隐藏状态,结合卷积神经网络和线性映射嵌入的方式,将预测的问题关键词的语义信息代替解码器起始时间步的输入<SOS>,然后在每一个时间步的解码时刻,通过点积型注意力机制将上一步得到的输出特征向量与编码器每次输出的隐藏层特征向量做注意力计算,得到当前解码器时刻的输出词汇与编码器所有隐藏状态的注意力权重,使用Softmax函数得到每一步的注意力权重,得到权重后在与解码器每一步的输出向量相乘,最后通过将解码器每一个时间步的输出向量和注意力权重与目标向量输出相乘作拼接,作为t-1时刻解码器的输出向量,然后将该向量作为t时刻解码器的输入向量,反复进行解码,直到在预测出终止符<EOS>或超出生成问题的最大长度。在经过激活函数、线性变换和Softmax函数最终将所有词汇转换成概率的形式,计算过程如(12)至(16)所示。
其中,表示解码器随机初始化的起始字符作为解码器的第一时间步的输入,表示通过卷积神经网络提取问题关键词的语义信息,使用线性映射的方式转换成解码器起始字符的输入向量。
其中,表示解码器每一个时间步的词汇嵌入,表示编码器上下文语义信息的最终隐藏状态向量,GRU(*,*)表示使用门控循环单元(GRU)模型对数据进行训练。
其中,表示时间步t下的输入向量,表示解码器的隐藏层向量,表示第t个时间步的隐藏层向量。
其中,表示可以被训练的参数,表示编码器的输出向量。
其中,表示解码器的每一个时间步的输出向量,、表示可以被训练的参数,tanh是激活函数。
Step 2.4:构建端到端的TKPCNet网络模型,如图5所示。
首先训练一个基于Transformer的问题关键词预测器,具体步骤如Step 2.2,然后使用增强的编码器-解码器模型,具体步骤如Step 2.1和Step 2.3,最后将两部分进行结合构成一个完整的TKPCNet模型。
Step 3:对模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成。
通过对问题关键词进行谱聚类,将语义相似的问题关键词聚类在一起,然后使用集束搜索的方式产生多样性问题。在集束搜索的过程中,解码器的每一个时间步将会选取概率最大的10个目标语句,最后找到前六个概率值最大的目标语句,即为生成的多样性问题。
Step 3.1:解码器输出先采取谱聚类方式对问题的关键词进行聚类;
对提取出的问题关键词进行向量化转换,使用谱聚类对语义相似的问题关键词进行聚类,引导问题生成过程中,生成语义相关度较高的问题。
Step 3.2:解码器的每一步输出使用集束搜索的方式生成多个词汇,从而生成多样性问题。
在问题生成的每一个时间步长,选取当前条件中概率最大的k个词,作为下一个时间步的候选输出序列的第一个词。
为了验证本发明的模型性能,全面开展机器评估任务,本发明从精度、召回、多样性和语义的角度选择指标。为此,分别采用 BLEU(1-4平均值)、Distinct-3 、 METEOR和P@5。BLEU 可以用来评估一组自然语言处理任务生成的文本,通常用来对生成的问题和实际存在的真实问题进行差异程度的评估,该方法使用了n-gram的思想。Distinct-3主要使用对话生成的一个评估指标,为了评估文本生成的多样性,问题生成的越丰富,该指标值越大,METEOR负责评估召回率,同时考虑句子的流畅性以及同义词对于语义的影响,P@5:为了评估我们的关键字预测器的质量,使用这个指标进行评价,对问题中出现频率最高的关键词进行提取,由于在问题中的关键词数量在每个问题中是不同的,给定样本中问题的长度大多数不超过20,因此在这里我们选择以预测概率问题中出现最高的前5个关键字作为所选关键字集,计算P@5:
其中,是从一个样本的所有真实问题中提取关键字的并集。
在表1中,列出了本发明的模型和基线的评估结果:表1是本发明模型与基础模型的评估对比结果。本发明在复现数据结果时发现,无法精确完成原始目前最先进的基线的结果,并将自己复现的结果使用加*的方法进行展示,发现本发明的模型在各项指标都超过了基线模型的对比结果,具体实现如表1。实验结果表明,本发明的模型在自动指标和人工评价方面都优于以往的问题生成模型。本发明的模型在自动评估指标BLEU,Distinct-3和METEOR指标上分别提高了0.74%,2.31%,0.63%,同时在P@5关键词评估的模型指标上提高了1.1%。本发明发现通过外部条件改变关键词的分布,具有很大的潜力。
为了更加详细的理解上述具体详细的说明,通过结合附图对本发明的具体实施方式作了详细说明,但是本发明的实现并不局限上述的讲解,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于,具体步骤如下:
Step 1 提取数据集中的商品文本信息并转化为向量形式,作为TKPCNet模型的输入;
Step 2 构建TKPCNet模型,首先构建一个Transformer问题关键词预测模型,然后构建一个编码器-解码器模型,通过卷积神经网络提取问题关键词的语义信息,使用线性变换的方式将语义信息映射成编码器-解码器起始输入的隐藏层信息,最后输送到模型的编码器和解码器的输入端进行融合,完成TKPCNet模型的构建;
Step 3 对TKPCNet模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成。
2.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step1的具体步骤如下:
Step 1.1:对数据集进行预处理;读取数据集中商品的上下文文本信息以及对应的问题,将商品上下文文本信息和问题进行分词,再进行词频统计;
Step 1.2:对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接,根据统计的词频将上下文文本信息和问题映射成向量形式。
3.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step2的具体步骤如下:
Step 2.1 构建端到端的TKPCNet网络模型的编码器,在编码端使用多层双向循环神经网络对文本语义信息进行编码;
Step 2.2 构建一个基于Transformer问题关键词预测模型,使用Transformer编码上下文文本的语义信息,预测问题关键词的重要性,接着使用卷积神经网络提取问题关键词的语义信息,最后通过线性变换的方式,将提取问题关键词的语义信息,替换成编码器和解码器第一个字符的起始输入;
Step 2.3:构建端到端的TKPCNet模型的解码器,在解码端使用循环神经网络对目标问题进行解码;
Step 2.4:构建端到端的TKPCNet模型,通过将增强的编码器-解码器模型和基于Transformer问题关键词预测模型进行结合,共同构成一个端到端的TKPCNet模型。
4.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step3的具体步骤如下:
Step 3.1 解码器输出先采取谱聚类方式对问题的关键词进行聚类;
Step 3.2 解码器的每一步输出使用集束搜索的方式生成多个词汇,从而生成多样性问题。
5.根据权利要求2所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于,所述Step1.2的具体步骤如下:
对预处理后数据集中的商品id、上下文文本、问题进行三元组拼接,将商品的上下文文本和问题分词后的词汇,映射成可以识别的数组形式的列表集合,转换为TKPCNet模型需要的向量;再对上下文文本和问题的序列进行规范化操作,将上下文文本的序列长度大于阈值部分进行截断,对于上下文文本的序列长度小于阈值的,采取字符补齐;问题序列长度大于阈值部分进行截断,问题序列长度小于阈值部分采取字符补齐;对上下文文本和问题进行词到向量的映射,从而构建上下文文本信息和问题映射的序列向量形式。
6.根据权利要求3所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step2.1中,编码器端使用的是两层双向GRU,隐藏层使用的维度为100维。
7.根据权利要求3所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step2.2的具体步骤如下:
基于Transformer问题关键词预测器主要通过Transformer的编码器对上下文进行编码,编码后的语义信息,经过softmax函数得到预测的每个问题关键词概率,在训练阶段,通过将预测问题关键词的概率与具有掩码问题关键词做点积,经过卷积神经网络提取问题关键词的语义信息,再通过使用线性映射嵌入的方式,将其转换为编码器和解码器的输入特征向量,增强编码器-解码器模型的输入端,进一步提高问题生成的质量。
8.根据权利要求3所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step2.3中,解码器使用单层非双向门控循环单元(GRU)网络,隐藏层使用的维度为100。
9.根据权利要求4所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step3.1的具体步骤如下:
对提取出的问题关键词进行向量化转换,使用谱聚类对语义相似的问题关键词进行聚类,引导问题生成过程中,生成语义相关度较高的问题。
10.根据权利要求4所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step3.2中的具体步骤如下:
在问题生成的每一个时间步长,选取当前条件中概率最大的k个词,作为下一个时间步的候选输出序列的第一个词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331534.1A CN116050401B (zh) | 2023-03-31 | 2023-03-31 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331534.1A CN116050401B (zh) | 2023-03-31 | 2023-03-31 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050401A true CN116050401A (zh) | 2023-05-02 |
CN116050401B CN116050401B (zh) | 2023-07-25 |
Family
ID=86131590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310331534.1A Active CN116050401B (zh) | 2023-03-31 | 2023-03-31 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050401B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681087A (zh) * | 2023-07-25 | 2023-09-01 | 云南师范大学 | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
CN117787223A (zh) * | 2023-12-27 | 2024-03-29 | 大脑工场文化产业发展有限公司 | 一种商家信息自动化发布方法及*** |
CN117892737A (zh) * | 2024-03-12 | 2024-04-16 | 云南师范大学 | 基于对比搜索算法优化的多问题自动生成方法 |
CN118093837A (zh) * | 2024-04-23 | 2024-05-28 | 豫章师范学院 | 基于Transformer双解码结构的心理支持问答文本生成方法与*** |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334845A (zh) * | 2007-06-27 | 2008-12-31 | 中国科学院自动化研究所 | 一种基于轨迹序列分析和规则归纳的视频行为识别方法 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
US20190362020A1 (en) * | 2018-05-22 | 2019-11-28 | Salesforce.Com, Inc. | Abstraction of text summarizaton |
CN110619034A (zh) * | 2019-06-27 | 2019-12-27 | 中山大学 | 基于Transformer模型的文本关键词生成方法 |
CN111950273A (zh) * | 2020-07-31 | 2020-11-17 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112711661A (zh) * | 2020-12-30 | 2021-04-27 | 润联智慧科技(西安)有限公司 | 跨语言自动摘要生成方法、装置、计算机设备及存储介质 |
CN114692605A (zh) * | 2022-04-20 | 2022-07-01 | 东南大学 | 一种融合句法结构信息的关键词生成方法及装置 |
CN114972848A (zh) * | 2022-05-10 | 2022-08-30 | 中国石油大学(华东) | 基于细粒度视觉信息控制网络的图像语义理解及文本生成 |
CN115730568A (zh) * | 2021-08-25 | 2023-03-03 | 中国人民解放军国防科技大学 | 抽象语义到文本的生成方法、装置、电子设备和存储介质 |
US20230089308A1 (en) * | 2021-09-23 | 2023-03-23 | Google Llc | Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering |
-
2023
- 2023-03-31 CN CN202310331534.1A patent/CN116050401B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334845A (zh) * | 2007-06-27 | 2008-12-31 | 中国科学院自动化研究所 | 一种基于轨迹序列分析和规则归纳的视频行为识别方法 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
US20190362020A1 (en) * | 2018-05-22 | 2019-11-28 | Salesforce.Com, Inc. | Abstraction of text summarizaton |
CN110619034A (zh) * | 2019-06-27 | 2019-12-27 | 中山大学 | 基于Transformer模型的文本关键词生成方法 |
CN111950273A (zh) * | 2020-07-31 | 2020-11-17 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112711661A (zh) * | 2020-12-30 | 2021-04-27 | 润联智慧科技(西安)有限公司 | 跨语言自动摘要生成方法、装置、计算机设备及存储介质 |
CN115730568A (zh) * | 2021-08-25 | 2023-03-03 | 中国人民解放军国防科技大学 | 抽象语义到文本的生成方法、装置、电子设备和存储介质 |
US20230089308A1 (en) * | 2021-09-23 | 2023-03-23 | Google Llc | Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering |
CN114692605A (zh) * | 2022-04-20 | 2022-07-01 | 东南大学 | 一种融合句法结构信息的关键词生成方法及装置 |
CN114972848A (zh) * | 2022-05-10 | 2022-08-30 | 中国石油大学(华东) | 基于细粒度视觉信息控制网络的图像语义理解及文本生成 |
Non-Patent Citations (4)
Title |
---|
LINA LIU: "An Identification Algorithm of Low Voltage User-Transformer Relationship Based on Improved Spectral Clustering", 《2021 IEEE 2ND CHINA INTERNATIONAL YOUTH CONFERENCE ON ELECTRICAL ENGINEERING (CIYCEE)》, pages 1 - 5 * |
左蒙: "基于稀疏卷积和注意力机制的点云语义分割方法", 《激光与光电子学进展》, vol. 60, no. 20, pages 1 - 21 * |
徐坚: "基于图的关键词提取方法研究", 《曲靖师范学院学报》, vol. 39, no. 3, pages 63 - 68 * |
段玲: "基于正文和评论交互注意的微博案件方面识别", 《计算机工程与科学》, vol. 44, no. 06, pages 1097 - 1104 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681087A (zh) * | 2023-07-25 | 2023-09-01 | 云南师范大学 | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
CN116681087B (zh) * | 2023-07-25 | 2023-10-10 | 云南师范大学 | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
CN117787223A (zh) * | 2023-12-27 | 2024-03-29 | 大脑工场文化产业发展有限公司 | 一种商家信息自动化发布方法及*** |
CN117787223B (zh) * | 2023-12-27 | 2024-05-24 | 大脑工场文化产业发展有限公司 | 一种商家信息自动化发布方法及*** |
CN117892737A (zh) * | 2024-03-12 | 2024-04-16 | 云南师范大学 | 基于对比搜索算法优化的多问题自动生成方法 |
CN118093837A (zh) * | 2024-04-23 | 2024-05-28 | 豫章师范学院 | 基于Transformer双解码结构的心理支持问答文本生成方法与*** |
Also Published As
Publication number | Publication date |
---|---|
CN116050401B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116050401B (zh) | 基于Transformer问题关键词预测的多样性问题自动生成方法 | |
CN110209801B (zh) | 一种基于自注意力网络的文本摘要自动生成方法 | |
CN108681610B (zh) | 生成式多轮闲聊对话方法、***及计算机可读存储介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN110688394B (zh) | 面向新型供电城轨列车大数据运维的nl生成sql方法 | |
CN110209789A (zh) | 一种用户注意力引导的多模态对话***及方法 | |
CN113806587A (zh) | 一种多模态特征融合的视频描述文本生成方法 | |
CN111274375A (zh) | 一种基于双向gru网络的多轮对话方法及*** | |
US20230169271A1 (en) | System and methods for neural topic modeling using topic attention networks | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN111444730A (zh) | 基于Transformer模型的数据增强维汉机器翻译***训练方法和装置 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN110929476B (zh) | 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法 | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
CN113051904B (zh) | 一种面向小规模知识图谱的链接预测方法 | |
CN116956289B (zh) | 动态调整潜在黑名单和黑名单的方法 | |
CN110569499B (zh) | 一种基于多模态词向量的生成式对话***编码方法及编码器 | |
CN115424663B (zh) | 一种基于attention的双向表示模型的RNA修饰位点预测方法 | |
CN111353315A (zh) | 一种基于随机残差算法的深层神经机器翻译*** | |
CN116521857A (zh) | 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
CN114880341A (zh) | 文本转化编码器、文本转化为sql查询分析方法及*** | |
CN113901172A (zh) | 基于关键词结构编码的涉案微博评价对象抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |