CN113239160B - 一种问题生成方法、装置及存储介质 - Google Patents

一种问题生成方法、装置及存储介质 Download PDF

Info

Publication number
CN113239160B
CN113239160B CN202110475983.4A CN202110475983A CN113239160B CN 113239160 B CN113239160 B CN 113239160B CN 202110475983 A CN202110475983 A CN 202110475983A CN 113239160 B CN113239160 B CN 113239160B
Authority
CN
China
Prior art keywords
vector
vector group
splicing
vectors
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110475983.4A
Other languages
English (en)
Other versions
CN113239160A (zh
Inventor
蔡晓东
高铸成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110475983.4A priority Critical patent/CN113239160B/zh
Publication of CN113239160A publication Critical patent/CN113239160A/zh
Application granted granted Critical
Publication of CN113239160B publication Critical patent/CN113239160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种问题生成方法、装置及存储介质,方法包括:导入三元组,所述三元组包括段落向量组、原始问题向量组和答案向量组;对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组;构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组;根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型。本发明增强了生成问题与上下文以及答案之间的匹配程度,得到的最终模型能够将待测段落向量组和待测答案向量组的问题生成处理得到问题生成结果,更容易收敛,解决了生成的问题与所给上下文和答案匹配性不高的问题,增强了鲁棒性。

Description

一种问题生成方法、装置及存储介质
技术领域
本发明主要涉及文本处理技术领域,具体涉及一种问题生成方法、装置及存储介质。
背景技术
自然问题生成(Natura l Quest i on Generat i on)即问题生成,其具有许多应用,比如改进自动问答任务,以教育为目的生成相关练习等等,传统的问题生成依赖启发式规则和人为给定的模板来进行,这样的方法通用性低,可扩展性低。近年来,主要运用神经网络方法(NN)来执行该任务,也取得了不错的成就,但依然存在着生成的问题与所给上下文和答案匹配性不高等问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种问题生成方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种问题生成方法,包括如下步骤:
导入三元组,所述三元组包括段落向量组、原始问题向量组和答案向量组;
对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组;
构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组;
根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型;
导入待测段落向量组和待测答案向量组,并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理,得到问题生成结果。
本发明解决上述技术问题的另一技术方案如下:一种问题生成装置,包括:
三元组导入模块,用于导入三元组,所述三元组包括段落向量组、原始问题向量组和答案向量组;
拼接模块,用于对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组;
训练分析模块,用于构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组;
更新分析模块,用于根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型;
问题生成结果获得模块,用于导入待测段落向量组和待测答案向量组,并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理,得到问题生成结果。
本发明解决上述技术问题的另一技术方案如下:一种问题生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的问题生成方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的问题生成方法。
本发明的有益效果是:通过对段落向量组和答案向量组的拼接得到拼接向量组,通过训练模型对拼接向量组和原始问题向量组的训练分析得到已训练问题向量组,根据已训练问题向量组和原始问题向量组对训练模型的更新分析得到最终模型,增强了生成问题与上下文以及答案之间的匹配程度,得到的最终模型能够将待测段落向量组和待测答案向量组的问题生成处理得到问题生成结果,更容易收敛,解决了生成的问题与所给上下文和答案匹配性不高的问题,增强了鲁棒性。
附图说明
图1为本发明实施例提供的问题生成方法的流程示意图;
图2为本发明实施例提供的问题生成方法的编码流程框图;
图3为本发明实施例提供的问题生成装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的问题生成方法的流程示意图。
如图1所示,一种问题生成方法,包括如下步骤:
导入三元组,所述三元组包括段落向量组、原始问题向量组和答案向量组;
对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组;
构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组;
根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型;
导入待测段落向量组和待测答案向量组,并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理,得到问题生成结果。
应理解地,所述三元组包括文本段落(即所述段落向量组)、与文本段落相关的一个问题(即所述原始问题向量组)、根据问题在文本段落中能找到的相关答案(即所述答案向量组)。
应理解地,对数据集进行预处理,将所述三元组中的文本段落(即所述段落向量组)与答案(即所述答案向量组)拼接在一起作为输入数据,将问题(即所述原始问题向量组)单独放置。我们的目的就是训练一个模型,使模型通过输入数据,能够自动生成一个问题去匹配前者,且希望生成的问题能够无限接近初始所给出的问题。
应理解地,对所述训练模型进行更新分析增强了模型的鲁棒性。
具体地,将所述三元组记为(X,Y,Z)。其中X={x1,x2,…,xi}为文本段落(即所述段落向量组),其中xi为单词,i为文本段落长度,同理Y={y1,y2,…,yj}为问题(即所述原始问题向量组),Z={z1,z2,…,zk}为答案(即所述答案向量组)。
应理解地,生成问题包括所述问题生成结果,上下文包括所述段落向量组或者所述测段落向量组,***括所述答案向量组或者所述测段落向量组。
上述实施例中,通过对段落向量组和答案向量组的拼接得到拼接向量组,通过训练模型对拼接向量组和原始问题向量组的训练分析得到已训练问题向量组,根据已训练问题向量组和原始问题向量组对训练模型的更新分析得到最终模型,增强了生成问题与上下文以及答案之间的匹配程度,得到的最终模型能够将待测段落向量组和待测答案向量组的问题生成处理得到问题生成结果,更容易收敛,解决了生成的问题与所给上下文和答案匹配性不高的问题,增强了鲁棒性。
可选地,作为本发明的一个实施例,所述对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组的过程包括:
通过第一式对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组,所述第一式为:
s=f(Ws[x1;x2;…;xi;z1;z2;…;zk]+bs),
其中,s为拼接向量组,f为非线性函数,Ws为权重矩阵,xi为段落向量组中第i个段落向量,zk为答案向量组中第k个段落向量,bs为偏置向量,[;]为数据之间的拼接。
上述实施例中,通过第一式对段落向量组和答案向量组的拼接得到拼接向量组,为后续处理提供基础数据,增强了生成问题与上下文和答案之间的匹配程度,使模型更容易收敛于优化。
可选地,作为本发明的一个实施例,所述训练模型包括编码器和解码器,所述拼接向量组包括多个拼接向量,所述构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组的过程包括:
判断各个所述拼接向量是否为所述原始问题向量组中任一原始问题向量,若是,则将预设第一标签向量作为与所述拼接向量对应的标签向量;若否,则将预设第二标签向量作为与所述拼接向量对应的标签向量;
分别根据各个所述拼接向量对与所述拼接向量对应的标签向量进行向量拼接,得到与所述拼接向量对应的标签拼接向量;
通过所述编码器依次对各个所述标签拼接向量进行编码,得到与所述拼接向量对应的编码向量;
通过所述解码器依次对各个所述编码向量进行解码,得到与所述编码向量对应的单词向量,并集合所有的单词向量得到已训练问题向量组。
优选地,所述预设第一标签向量可以为1,所述预设第二标签向量可以为0。
应理解地,将所述已训练问题向量组记为:Q={q1,q2,…,qT}。
应理解地,对输入数据通过编码器进行编码,编码后得到输入数据的向量表示(即所述编码向量);将编码器输出送入解码器,结合注意力机制和复制机制进行解码,生成问题(即所述已训练问题向量组)。
具体地,如图2所示,将所述拼接向量组s在每一时刻的输入表示为所述拼接向量et,即它在时间步t的当前单词嵌入,应理解为,所述拼接向量组s中包含着X,Z的所有单词嵌入,在每一个时间步t,往编码网络(即所述编码器)输入一个单词嵌入,即所述拼接向量et;使用一个所述标签向量pt,指示et是否在所给的所述原始问题向量组Y中出现,即每一时刻送入所述编码器的向量为{et;pt}。这一步可以理解为,t时刻输入的单词(即所述拼接向量)et是否在所述原始问题向量组Y中出现过,若出现过,我们就希望最终由模型生成的问题中也出现这个词。其中pt是在所述原始问题向量组Y中预先设置好的标签,分为两类0和1。即{et;0}代表单词(即所述拼接向量)et没有在所述原始问题向量组Y中出现过,反之{et;1}表示(即所述拼接向量)et在所述原始问题向量组Y中出现过。
上述实施例中,通过训练模型对拼接向量组和原始问题向量组的训练分析得到已训练问题向量组,增强了生成问题与上下文和答案之间的匹配程度,使模型更容易收敛于优化。
可选地,作为本发明的一个实施例,所述通过所述编码器依次对各个所述标签拼接向量进行编码,得到与所述拼接向量对应的编码向量的过程包括:
获取当前时刻,并通过Bi-LSTM双向长短期记忆网络对当前时刻的标签拼接向量进行编码,得到当前时刻的编码向量,并获取下一时刻,通过所述Bi-LSTM双向长短期记忆网络对下一时刻的标签拼接向量进行编码,直至所有的标签拼接向量编码完成,从而得到与所述拼接向量对应的编码向量,具体为:
通过第一方程式对上一时刻的隐藏层状态、上一时刻的网络细胞状态和当前时刻的标签拼接向量进行编码,得到当前时刻的编码向量、当前时刻的隐藏层状态和当前时刻的网络细胞状态,直至所有的标签拼接向量编码完成,从而得到与所述拼接向量对应的编码向量,所述第一方程式为:
ot=σ(Wio{et;pt}+bio+Whoht-1+bho),
ct=ftct-1+itgt
ht=ottanh(ct),
其中,it=σ(Wii{et;pt}+bii+Uhiht-1+bhi),ft=σ(Wif{et;pt}+bif+Whfht-1+bhf),gt=tanh(Wig{et;pt}+big+Whght-1+bhg),
其中,ot为t时刻的编码向量,Wio、Who、Wii、Uhi、Wif、Whf、Wig、Whg均为权重矩阵,{et;pt}为t时刻的标签拼接向量,bio、bho、bii、bhi、bif、bhf、big、bhg为偏置向量,ht-1为Bi-LSTM双向长短期记忆网络t-1时刻的隐藏层状态,ct为t时刻的网络细胞状态,ft为遗忘门,ct-1为t-1时刻的网络细胞状态,it为输入门,gt为记忆信息,ht为Bi-LSTM双向长短期记忆网络t时刻的隐藏层状态,σ为sigmoid函数。
应理解地,所述Bi-LSTM双向长短期记忆网络是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。在自然语言处理任务中都常被用来建模上下文信息。
上述实施例中,通过编码器依次对各个标签拼接向量的编码得到与拼接向量对应的编码向量,为后续处理奠定基础,增强了生成问题与上下文和答案之间的匹配程度,使模型更容易收敛于优化。
可选地,作为本发明的一个实施例,所述通过所述解码器依次对各个所述编码向量进行解码,得到与所述编码向量对应的单词向量,并根据多个单词向量得到已训练问题向量组的过程包括:
再次获取当前时刻,并通过LSTM长短期记忆人工神经网络对当前时刻的编码向量进行解码,得到当前时刻的单词向量,并再次获取下一时刻,通过所述LSTM长短期记忆人工神经网络对下一时刻的编码向量进行解码,直至所有的编码向量编码完成,从而得到与所述编码向量对应的单词向量,并根据多个单词向量得到已训练问题向量组,具体为:
通过第二式对当前时刻的编码向量以及当前时刻之前所有的单词向量进行解码,得到当前时刻的单词向量,直至所有的编码向量解码完成,从而得到与所述编码向量对应的单词向量,所述第二式为:
p(qT|{q1,q2,…,qT-1},u)=δ(qT-1,dT,uT),
其中,dT=ε(dT-1,qT-1,uT),q1=δ(d1,u1),
其中,uT=α1d12d2+…+αTdT=∑αTdT
Figure BDA0003047402680000081
其中,αT∝exp(dTWau),
其中,qT为T时刻的单词向量,qT-1为T-1时刻的单词向量,δ为softmax函数,dT为LSTM长短期记忆人工神经网络T时刻的隐藏状态,u为当前时刻的编码向量,uT为上下文向量,ε为非线性函数,αT为注意力分数,∑αT=α12+…+αT=1,Wa为权重矩阵,d1为LSTM长短期记忆人工神经网络第一时刻的隐藏状态,q1为第一时刻的单词向量,ht为Bi-LSTM双向长短期记忆网络t时刻的隐藏层状态。
应理解地,所述LSTM长短期记忆人工神经网络即长短期记忆网络(LSTM,LongShort-Term Memory),其是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。
应理解地,解码过程,使用带有注意力机制的LSTM网络进行解码,所述解码器与所述编码器的LSTM网络算法一致,通过所述编码器输出的所述编码向量u和所有先前预测的所述单词向量{q1,q2,…,qT-1}生成下一个单词向量qT;uT是编码器输出的所述编码向量u经注意力机制计算后得到的上下文向量表示(即所述上下文向量)。
上述实施例中,通过解码器依次对各个编码向量的解码得到已训练问题向量组,为后续处理奠定基础,增强了生成问题与上下文和答案之间的匹配程度,使模型更容易收敛于优化。
可选地,作为本发明的一个实施例,所述根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型的过程包括:
利用截断损失算法分别对所述原始问题向量组和所述已训练问题向量组进行筛选,并集合经筛选的原始问题向量得到筛选后的原始问题向量组,集合经筛选的已训练问题向量得到筛选后的已训练问题向量组;
对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算,得到交叉熵损失值;
根据所述交叉熵损失值对所述训练模型进行参数更新,得到更新后的训练模型;
对参数更新的次数进行统计,若所述参数更新的次数小于或等于第一预设次数时,则重新导入三元组;
若所述参数更新的次数大于所述第一预设次数且小于或等于第二预设次数时,则对所述更新后的训练模型进行存储,得到存储模型,并重新导入三元组;
若所述参数更新的次数大于所述第二预设次数时,则利用EMA指数滑动平均算法对所有的存储模型进行参数调优处理,得到最终模型;
其中,所述第一预设次数小于所述第二预设次数。
应理解地,使用指数滑动平均EMA算法进行调优,其原理如下:
Mt=βMt-1+(1-β)θt
其中,变量M在t时刻记为Mt,θt为M在t时刻的取值,β是一个属于[0,1)的数,一般将其设置在0.999。
更直观的理解为:在本模型最后的1000轮训练中,模型处于收敛抖动状态,我们取其抖动的1000次做平均,这样得到的权重将更具备鲁棒性。
上述实施例中,根据已训练问题向量组和原始问题向量组对训练模型的更新分析得到最终模型,增强了模型的鲁棒性,解决了生成的问题与所给上下文和答案匹配性不高等问题。
可选地,作为本发明的一个实施例,所述对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算,得到交叉熵损失值的过程包括:
通过第三式对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算,得到交叉熵损失值,所述第三式为:
LCE=-p(Yτ)log(Qτ),
其中,Yτ为筛选后的原始问题向量组,Qτ为筛选后的已训练问题向量组,LCE为交叉熵损失值。
具体地,通过将所述已训练问题向量组Q与所述原始问题向量组Y进行交叉熵损失计算:
LCE=-p(Y)log(Q),
在交叉熵损失基础上,引入截断损失,截断损失的意义在于:交叉熵损失这类对数损失虽然容易计算与优化,有利于匹配大规模语料库的分布特性。但是倘若训练数据中噪音较多,会使模型遭受很大损失,不利于模型收敛。截断损失可以自适应的去掉对数损失最高的例子,使模型更容易收敛于优化。
故新的交叉熵损失函数为:
LCE=-p(Yτ)log(Qτ),
与传统交叉熵损失不同的地方在于,Yτ与Qτ是已通过截断损失自适应删除了产生高损失的例子,使得整个模型更容易收敛。
上述实施例中,通过第三式对筛选后的原始问题向量组和筛选后的已训练问题向量组的损失值的计算得到交叉熵损失值,能够自适应的去掉对数损失最高的例子,使模型更容易收敛于优化增强了模型的鲁棒性,解决了生成的问题与所给上下文和答案匹配性不高等问题。
图3为本发明实施例提供的问题生成装置的模块框图。
可选地,作为本发明的另一个实施例,如图3所示,一种问题生成装置,包括:
三元组导入模块,用于导入三元组,所述三元组包括段落向量组、原始问题向量组和答案向量组;
拼接模块,用于对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组;
训练分析模块,用于构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组;
更新分析模块,用于根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型;
问题生成结果获得模块,用于导入待测段落向量组和待测答案向量组,并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理,得到问题生成结果。
可选地,本发明的另一个实施例提供一种问题生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的问题生成方法。该装置可为计算机等装置。
可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的问题生成方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种问题生成方法,其特征在于,包括如下步骤:
导入三元组,所述三元组包括段落向量组、原始问题向量组和答案向量组;
对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组;
构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组;
根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型;
导入待测段落向量组和待测答案向量组,并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理,得到问题生成结果;
所述训练模型包括编码器和解码器,所述拼接向量组包括多个拼接向量,所述构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组的过程包括:
判断各个所述拼接向量是否为所述原始问题向量组中任一原始问题向量,若是,则将预设第一标签向量作为与所述拼接向量对应的标签向量;若否,则将预设第二标签向量作为与所述拼接向量对应的标签向量;
分别根据各个所述拼接向量对与所述拼接向量对应的标签向量进行向量拼接,得到与所述拼接向量对应的标签拼接向量;
通过所述编码器依次对各个所述标签拼接向量进行编码,得到与所述拼接向量对应的编码向量;
通过所述解码器依次对各个所述编码向量进行解码,得到与所述编码向量对应的单词向量,并集合所有的单词向量得到已训练问题向量组;
所述根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型的过程包括:
利用截断损失算法分别对所述原始问题向量组和所述已训练问题向量组进行筛选,并集合经筛选的原始问题向量得到筛选后的原始问题向量组,集合经筛选的已训练问题向量得到筛选后的已训练问题向量组;
对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算,得到交叉熵损失值;
根据所述交叉熵损失值对所述训练模型进行参数更新,得到更新后的训练模型;
对参数更新的次数进行统计,若所述参数更新的次数小于或等于第一预设次数时,则重新导入三元组;
若所述参数更新的次数大于所述第一预设次数且小于或等于第二预设次数时,则对所述更新后的训练模型进行存储,得到存储模型,并重新导入三元组;
若所述参数更新的次数大于所述第二预设次数时,则利用EMA指数滑动平均算法对所有的存储模型进行参数调优处理,得到最终模型;
其中,所述第一预设次数小于所述第二预设次数。
2.根据权利要求1所述的问题生成方法,其特征在于,所述对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组的过程包括:
通过第一式对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组,所述第一式为:
s=f(Ws[x1;x2;…;xi;z1;z2;…;zk]+bs),
其中,s为拼接向量组,f为非线性函数,Ws为权重矩阵,xi为段落向量组中第i个段落向量,zk为答案向量组中第k个段落向量,bs为偏置向量,[;]为数据之间的拼接。
3.根据权利要求1所述的问题生成方法,其特征在于,所述通过所述编码器依次对各个所述标签拼接向量进行编码,得到与所述拼接向量对应的编码向量的过程包括:
获取当前时刻,并通过Bi-LSTM双向长短期记忆网络对当前时刻的标签拼接向量进行编码,得到当前时刻的编码向量,并获取下一时刻,通过所述Bi-LSTM双向长短期记忆网络对下一时刻的标签拼接向量进行编码,直至所有的标签拼接向量编码完成,从而得到与所述拼接向量对应的编码向量,具体为:
通过第一方程式对上一时刻的隐藏层状态、上一时刻的网络细胞状态和当前时刻的标签拼接向量进行编码,得到当前时刻的编码向量、当前时刻的隐藏层状态和当前时刻的网络细胞状态,直至所有的标签拼接向量编码完成,从而得到与所述拼接向量对应的编码向量,所述第一方程式为:
ot=σ(Wio{et;pt}+bio+Whoht-1+bho),
ct=ftct-1+itgt
ht=ottanh(ct),
其中,it=σ(Wii{et;pt}+bii+Uhiht-1+bhi),ft=σ(Wif{et;pt}+bif+Whfht-1+bhf),gt=tanh(Wig{et;pt}+big+Whght-1+bhg),
其中,ot为t时刻的编码向量,Wio、Who、Wii、Uhi、Wif、Whf、Wig、Whg均为权重矩阵,{et;pt}为t时刻的标签拼接向量,bio、bho、bii、bhi、bif、bhf、big、bhg为偏置向量,ht-1为Bi-LSTM双向长短期记忆网络t-1时刻的隐藏层状态,ct为t时刻的网络细胞状态,ft为遗忘门,ct-1为t-1时刻的网络细胞状态,it为输入门,gt为记忆信息,ht为Bi-LSTM双向长短期记忆网络t时刻的隐藏层状态,σ为sigmoid函数。
4.根据权利要求3所述的问题生成方法,其特征在于,所述通过所述解码器依次对各个所述编码向量进行解码,得到与所述编码向量对应的单词向量,并根据多个单词向量得到已训练问题向量组的过程包括:
再次获取当前时刻,并通过LSTM长短期记忆人工神经网络对当前时刻的编码向量进行解码,得到当前时刻的单词向量,并再次获取下一时刻,通过所述LSTM长短期记忆人工神经网络对下一时刻的编码向量进行解码,直至所有的编码向量编码完成,从而得到与所述编码向量对应的单词向量,并根据多个单词向量得到已训练问题向量组,具体为:
通过第二式对当前时刻的编码向量以及当前时刻之前所有的单词向量进行解码,得到当前时刻的单词向量,直至所有的编码向量解码完成,从而得到与所述编码向量对应的单词向量,所述第二式为:
p(qT|{q1,q2,…,qT-1},u)=δ(qT-1,dT,uT),
其中,dT=ε(dT-1,qT-1,uT),q1=δ(d1,u1),
其中,uT=α1d12d2+…+αTdT=∑αTdT
Figure FDA0003697375360000041
其中,αT∝exp(dTWau),
其中,qT为T时刻的单词向量,qT-1为T-1时刻的单词向量,δ为softmax函数,dT为LSTM长短期记忆人工神经网络T时刻的隐藏状态,u为当前时刻的编码向量,uT为上下文向量,ε为非线性函数,αT为注意力分数,∑αT=α12+…+αT=1,Wa为权重矩阵,d1为LSTM长短期记忆人工神经网络第一时刻的隐藏状态,q1为第一时刻的单词向量,ht为Bi-LSTM双向长短期记忆网络t时刻的隐藏层状态。
5.根据权利要求1所述的问题生成方法,其特征在于,所述对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算,得到交叉熵损失值的过程包括:
通过第三式对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算,得到交叉熵损失值,所述第三式为:
LCE=-p(Yτ)log(Qτ),
其中,Yτ为筛选后的原始问题向量组,Qτ为筛选后的已训练问题向量组,LCE为交叉熵损失值。
6.一种问题生成装置,其特征在于,包括:
三元组导入模块,用于导入三元组,所述三元组包括段落向量组、原始问题向量组和答案向量组;
拼接模块,用于对所述段落向量组和所述答案向量组进行拼接,得到拼接向量组;
训练分析模块,用于构建训练模型,通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析,得到已训练问题向量组;
更新分析模块,用于根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析,得到最终模型;
问题生成结果获得模块,用于导入待测段落向量组和待测答案向量组,并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理,得到问题生成结果;
所述训练模型包括编码器和解码器,所述拼接向量组包括多个拼接向量,所述训练分析模块具体用于:
判断各个所述拼接向量是否为所述原始问题向量组中任一原始问题向量,若是,则将预设第一标签向量作为与所述拼接向量对应的标签向量;若否,则将预设第二标签向量作为与所述拼接向量对应的标签向量;
分别根据各个所述拼接向量对与所述拼接向量对应的标签向量进行向量拼接,得到与所述拼接向量对应的标签拼接向量;
通过所述编码器依次对各个所述标签拼接向量进行编码,得到与所述拼接向量对应的编码向量;
通过所述解码器依次对各个所述编码向量进行解码,得到与所述编码向量对应的单词向量,并集合所有的单词向量得到已训练问题向量组;
所述更新分析模块具体用于:
利用截断损失算法分别对所述原始问题向量组和所述已训练问题向量组进行筛选,并集合经筛选的原始问题向量得到筛选后的原始问题向量组,集合经筛选的已训练问题向量得到筛选后的已训练问题向量组;
对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算,得到交叉熵损失值;
根据所述交叉熵损失值对所述训练模型进行参数更新,得到更新后的训练模型;
对参数更新的次数进行统计,若所述参数更新的次数小于或等于第一预设次数时,则重新导入三元组;
若所述参数更新的次数大于所述第一预设次数且小于或等于第二预设次数时,则对所述更新后的训练模型进行存储,得到存储模型,并重新导入三元组;
若所述参数更新的次数大于所述第二预设次数时,则利用EMA指数滑动平均算法对所有的存储模型进行参数调优处理,得到最终模型;
其中,所述第一预设次数小于所述第二预设次数。
7.一种问题生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述的问题生成方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至5任一项所述的问题生成方法。
CN202110475983.4A 2021-04-29 2021-04-29 一种问题生成方法、装置及存储介质 Active CN113239160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475983.4A CN113239160B (zh) 2021-04-29 2021-04-29 一种问题生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475983.4A CN113239160B (zh) 2021-04-29 2021-04-29 一种问题生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113239160A CN113239160A (zh) 2021-08-10
CN113239160B true CN113239160B (zh) 2022-08-12

Family

ID=77131730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475983.4A Active CN113239160B (zh) 2021-04-29 2021-04-29 一种问题生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113239160B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN111680484A (zh) * 2020-05-29 2020-09-18 北京理工大学 一种视觉常识推理问答题的答题模型生成方法和***
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111930914A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112613282A (zh) * 2020-12-31 2021-04-06 桂林电子科技大学 一种文本生成方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3516566A1 (en) * 2016-09-22 2019-07-31 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN109657041B (zh) * 2018-12-04 2023-09-29 南京理工大学 基于深度学习的问题自动生成方法
CN111339281B (zh) * 2020-03-24 2022-04-12 苏州大学 一种多视角融合的阅读理解选择题的答案选择方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN111680484A (zh) * 2020-05-29 2020-09-18 北京理工大学 一种视觉常识推理问答题的答题模型生成方法和***
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111930914A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112613282A (zh) * 2020-12-31 2021-04-06 桂林电子科技大学 一种文本生成方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Text Filling Method Based on Prediction Network and Semantic Fusion Loss;Wenjing Tian et al;《2020 2nd International Conference on Information Technology and Computer Application (ITCA)》;20201220;645-650 *
一种基于词向量与框架语义分析的句子相似度计算方法;刘馨婷 等;《桂林电子科技大学学报》;20171231;第37卷(第06期);494-497 *
基于段落内部推理和联合问题答案匹配的选择型阅读理解模型;王霞 等;《四川大学学报(自然科学版)》;20190531;第56卷(第03期);423-430 *
基于答案及其上下文信息的问题生成模型;谭红叶 等;《中文信息学报》;20200515;第34卷(第05期);74-81 *

Also Published As

Publication number Publication date
CN113239160A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110263323B (zh) 基于栅栏式长短时记忆神经网络的关键词抽取方法及***
CN109003678B (zh) 一种仿真文本病历的生成方法及***
CN109727590B (zh) 基于循环神经网络的音乐生成方法及装置
CN111814982B (zh) 面向多跳问答的动态推理网络***及方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN106126507A (zh) 一种基于字符编码的深度神经翻译方法及***
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN106327240A (zh) 一种基于gru神经网络的推荐方法和***
CN111966998A (zh) 基于变分自动编码器的口令生成方法、***、介质和设备
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及***
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
CN111783423A (zh) 解题模型的训练方法及装置、解题方法及装置
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和***
CN112328555A (zh) 一种招标文件的快速生成方法
CN111339274A (zh) 对话生成模型训练方法、对话生成方法及装置
CN111291175A (zh) 一种基于策略梯度算法的自动生成提交需求摘要的方法
CN114297399A (zh) 知识图谱生成方法、***、存储介质及电子设备
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN113312919A (zh) 一种知识图谱的文本生成方法及装置
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN109979461A (zh) 一种语音翻译方法及装置
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant