CN115577118B - 一种基于混合分组排序和动态实体记忆规划的文本生成方法 - Google Patents
一种基于混合分组排序和动态实体记忆规划的文本生成方法 Download PDFInfo
- Publication number
- CN115577118B CN115577118B CN202211216143.7A CN202211216143A CN115577118B CN 115577118 B CN115577118 B CN 115577118B CN 202211216143 A CN202211216143 A CN 202211216143A CN 115577118 B CN115577118 B CN 115577118B
- Authority
- CN
- China
- Prior art keywords
- entity
- graph
- sub
- sequence
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000003068 static effect Effects 0.000 claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 38
- 238000002789 length control Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 125000004122 cyclic group Chemical group 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000005055 memory storage Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 101100356020 Haemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd) recA gene Proteins 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100412102 Haemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd) rec2 gene Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于混合分组排序和动态实体记忆规划的文本生成方法,旨在将输入的结构化数据自动转化为描述这些数据的可读性文本。本发明通过分组阶段中的长度控制模块和子图观察模块去选择子图分组,将数据按组排序;静态规划阶段生成静态结点内容规划,达到组内组间均有序;在静态规划基础上每一个时间步都根据记忆网络动态决定下一步该输出的数据;利用三级重构,从多个角度引导解码器捕捉输入中的本质特征。本发明引入更细粒度的分组机制,弥补结构化数据和非结构化文本之间的差距;将动态内容规划更进一步与记忆网络相结合,增强语义的连贯性;引入三级重构机制,从不同层面捕捉输入与输出间的本质特征依赖关系。
Description
技术领域
本发明属于自然语言处理领域,具体涉及的是一种文本生成方法,适用于将输入的结构化数据转化为描述这些数据的可读性文本问题。
背景技术
文本生成任务是自然语言处理领域中的一个重要课题。生活中数据在不同的情况下会以不同的形式出现,甚至某些形式对于非专业领域人员难以理解,例如:知识图谱。并且这些数据转化为可读性文本提供给人们需要耗费大量的时间和精力。而Data-to-text任务旨在将输入的结构化数据自动转化为描述这些数据的可读性文本。
Reiter[1]对文本生成***进行了归纳总结,认为可以分为三个较为独立的模块:(1)内容规划(Content planning),即选择描述哪些数据记录或数据域;(2)句子规划(Sentence planning),即决定所选择的数据记录或数据域在句子中的顺序;(3)句子实现(Surface realization),即基于句子规划的结果生成实际的文本。从直觉上讲,内容规划主要是解决“说什么”,句子规划主要解决“说话顺序”,而句子实现主要是解决“怎么说”。这基本上成为了文本生成***的范式,近年来越来越多的端到端模型开始增加内容选择和内容规划模块以提升性能。Puduppully等人[2]提出了一个神经网络架构,将生成任务分为内容选择与规划阶段与句子实现阶段。给定一组数据记录,首先生成一个内容计划,突出显示应该提及哪些信息以及以何种顺序说明,然后基于内容计划生成文档,并且加入了复制机制提升解码器效果。Chen等人[3]提出一种基于动态内容规划的文本生成模型,提出根据已生成文本信息动态调节计划进行实现,并且加入了重构机制促进解码器捕获编码器想要表达的本质特征。Puduppully等人[4]根据生成过程信息和实体记忆动态更新实体表示,捕获语句之间的实体转变,增加语句之间的连贯性,更适当得选择要说明的内容。
尽管语句实现阶段已经可以生成流畅的文本,但仍然会产生信息缺失,重复或幻觉问题,所以分组思想被广泛应用,将实体与描述文本对齐以解决此类问题。Lin等人[5]在规划中加入分隔符进行细粒度分类,以便于生成长文本。Shen等人[6]将实体数据进行分组,每一部分与一段描述文本相对应,即可通过指定实体对生成相应描述文本,而无需要关注整体数据。Xu等人[7]将输入的三元组数据进行排序并聚合,从而与输出的描述文本进行对齐,逐句生成描述文本。
结合以上理解,对于内容规划和句子规划部分进一步提升。引入更细粒度的分组机制,并配套构建对应的静态规划生成策略;记忆网络更进一步与实体转移相结合,把握句间描述重点的转移;进一步从多个角度进行重构,确保多阶段都能捕获输入与输出间的本质特征。
参考文献:
[1]Reiter E.An architecture for data-to-text systems[C]//proceedingsof the eleventh European workshop on natural language generation(ENLG 07).2007:97-104.
[2]Puduppully R,Dong L,Lapata M.Data-to-text generation with contentselection and planning[C]//Proceedings of the AAAI conference on artificialintelligence.2019,33(01):6908-6915.
[3]Chen K,Li F,Hu B,et al.Neural data-to-text generation with dynamiccontent planning[J].Knowledge-Based Systems,2021,215:106610.
[4]Puduppully R,Dong L,Lapata M.Data-to-text generation with entitymodeling[J].arXiv preprint arXiv:1906.03221,2019.
[5]Lin X,Cui S,Zhao Z,et al.GGP:A Graph-based Grouping Planner forExplicit Control of Long Text Generation[C]//Proceedings of the 30th ACMInternational Conference on Information&Knowledge Management.2021:3253-3257.
[6]Shen X,Chang E,Su H,et al.Neural data-to-text generation viajointly learning the segmentation and correspondence[J].arXiv preprint arXiv:2005.01096,2020.
发明内容
发明目的:针对将结构化数据转化为线性化可读性文本时,存在结构上的差异,现有模型采用提前规划方法弥补结构差异,但由于传统的规划方法采用单个循环神经网络简单且粒度不够细致,且均采用先规划后实现的,没有结合文本生成过程进行调整的问题,本发明提出一种基于混合分组排序和动态实体记忆规划的文本生成方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
一种基于混合分组排序和动态实体记忆规划的文本生成方法,基于静态规划利用生成过程的信息和实体转移记忆更新实体表示,对静态规划进行修正,最终通过三级重构促使解码器从编码器中获得更精确的重要信息。具体包括以下步骤:
步骤1)以需要生成对应文本的结构化数据集合作为模型输入,所述数据以表格或知识图谱的形式表示,将得到的数据转化为二分图,利用图注意力机制进行嵌入表示;
步骤2)将步骤1)得到的数据向量通过分组阶段进行分组排序;分组阶段包含两个模块:长度控制模块和子图观察模块;长度控制模块作用于每一个生成步,结合已生成子图序列的信息映射为概率分布,根据概率分布选择下一时间步生成子图中包含三元组数目LC,则该时间步仅能选择三元组数目为LC的子图,若LC选择为-1,则分组阶段结束,进入步骤5);
步骤3)以步骤2)得出的生成子图长度LC控制子图的选择空间,子图观察机制根据对子图中所有结点进行自注意力机制获得子图的表示,并与之前已生成子图序列中子图与结点信息进行注意力机制,生成当前各子图被选择的概率;
步骤4)根据步骤3)得出的概率分布选择某一个子图,后利用循环神经网络当前步的隐藏状态更新所有子图中的结点表示,即更新所有子图的表示,返回步骤2);若步骤2)LC选择为-1,得到最终的子图序列,每一个子图中即为所输入结构化数据集合的子集;
步骤5)静态内容规划阶段选择生成实体序列SP,以全局节点表示Vglobal作为循环神经网络的初始化状态,每一步的选择空间即为步骤4)序列中的对应子图;当生成特殊子图结束标记<EOG>时,循环神经网络下一步的输入为当前子图的表示,下一步的选择空间按步骤4)得出的子图序列顺序获得;当遍历子图序列,则得到最终的静态内容规划SP实体序列;
步骤6)将步骤5)得出的SP实体序列通过双向门控循环网络进行编码得到SP序列实体隐藏表示e1-n,n表示SP序列中实体总数;将SP序列隐藏表示传至生成阶段和实体记忆模块;
步骤7)实体记忆模块以SP序列实体隐藏表示作为初始内容进行记忆存储;利用生成阶段循环神经网络隐藏状态dt-1更新实体记忆ut,k,将实体记忆ut,k与dt-1相乘得记忆权重Ψt,k,其中t表示第t个时间步,k表示第k个实体;
步骤8)根据生成阶段循环神经网络的隐藏状态dt-1与e1-n做注意力机制得到注意力得分a1-n,将注意力得分at,k与对应实体记忆ut,k相乘得实体上下文向量St,k;
步骤9)将记忆权重Ψt,k与对应实体上下文向量St,k权重求和得上下文向量qt,作为指针生成解码器的输入,采用图结构增强机制对指针解码器进行增强以生成结构化数据对应的转译文本;
步骤10)采用三级重构使解码器完整获取编码器所蕴含的信息,分别为根据转译文本重构静态内容规划SP,根据静态内容规划序列去重构分组阶段的子图序列,根据指针生成解码器解码结果恢复为二分图表示。
进一步的,步骤1)所述数据以表格或知识图谱的形式表示,在表格中结构化数据以记录的形式存在,在知识图谱中结构化数据以三元组的形式存在;
以知识图谱作为结构化输入数据,三元组由<头实体,关系,尾实体>构成;将得到的数据转化为二分图,即将三元组中的关系也表示为节点,同时加入全局节点以观察整体图结构系信息;利用图注意力机制对所有结点进行嵌入表示。
进一步的,SP实体序列通过双向门控循环网络Bi-GRU得到SP序列实体隐藏表示e1-n,将SP的序列信息融合到实体嵌入中;
利用生成解码循环神经网络RNN的隐藏状态dt-1更新记忆网络中的每一个实体记忆ut,k,其中t表示第t个时间步,k表示第k个实体;包括:
u-1,k=W·ek (5)
γt=softmax(W·dt-1+bγ) (6)
δt,k=γt⊙softmax(W·dt-1+bd+W·ut-1,k+bu) (7)
首先公式(5)利用实体表示ek对每一个实体的记忆进行初始化,记为u-1,k;公式(6)所示,γt表示门控,决定是否进行修改,根据生成阶段上一个时间步的隐藏状态dt-1,即已生成文本的信息决定;公式(7)所示,δt,k表示需要修改的程度,根据dt-1和实体记忆ut-1,k决定;公式(8)中,表示对实体记忆修改的内容;最后公式(9)根据前一时刻的实体记忆ut-1,k和修改内容/>更新得到当前时间步的实体记忆内容ut,k;公式(10)将ut,k与dt-1进行注意力机制得到记忆模块注意力权重Ψt,k;W,bγ,bd,bu为超参数。
进一步的,步骤8)根据生成阶段循环神经网络的隐藏状态dt-1与e1-n做注意力机制得到注意力得分a1-n,将注意力得分at,k与对应实体记忆ut,k相乘得实体上下文向量St,k;具体为:
St,k=at,k·ek (12)
公式(11)将生成阶段循环神经网络的隐藏状态dt-1与第1至n个实体隐藏表示e1-n通过注意力机制得到注意力得分a1-n,公式(12)将注意力得分at,k与实体隐藏表示ek相乘得实体上下文向量St,k,其中t表示第t个时间步,k表示第k个实体;
公式(13)依照记忆模块注意力权重Ψt,k对实体上下文向量St,k权重求和得当前t时刻的上下文向量qt,作为指针生成网络的输入。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明是一种结合了深度强化学习的边规划边实现的文本生成方法,被用于给定结构化输入数据,要求自动输出可读性文本的情况。在规划时,不仅考虑到了输入数据本身的重要性,还要考虑到已生成文本的信息和过去实体变化的记忆,进一步进行细粒度分组,这让生成的规划与黄金规划尽可能一致。
同时,采用三级重构,从不同层面捕捉输入与输出间的本质特征。根据生成文本重构静态规划,促使生成文本基本与静态规划一致,确保动态规划只是根据生成信息微调静态规划;根据静态规划序列去重构这些被选择的实体在分组中的顺序,确保静态规划的顺序依然保持分组间有序;根据指针生成解码器解码结果恢复为二分图表示,基于向量角度进行重构,让最后的解码结果更能反应输入的本质特征。
附图说明
图1是本发明的文本生成算法流程图;
图2是本发明的文本生成算法结构图;
图3是分组阶段流程图;
图4是分组阶段结构图;
图5是分组阶段选择子图的过程构建图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
结合流程图及实施案例对本发明所述的基于混合分组排序和动态实体记忆规划的文本生成算法作进一步的详细描述。
本实施案例采用混合分组排序和动态实体记忆规划对文本生成算法进行改进,进而提高规划的表现,生成连贯的文本。本方法流程如图1所示,算法结构如图2所示,包含如下步骤:
步骤10,将输入的结构化数据,转化为二分图表示,即将三元组中的关系也表示为节点,同时加入全局节点以观察整体图结构系信息,通过图注意力机制(GAT)进行结点嵌入表示。
步骤20,通过分组阶段进行组间排序。分组阶段包含两个模块:长度控制模块和子图观察模块,长度控制根据长度来控制子图的选择空间,子图观察在长度控制指定的选择空间内结合已生成子图序列信息选择子图。
步骤30,静态规划阶段生成实体序列SP,达到组内组间均有序,如公式(1)-(4)所示。静态规划阶段采用循环神经网络,旨在生成结点序列,提前规划生成文本的描述内容及顺序。
If LC=-1 then d0=VGLOBAL (1)
当长度控制模块返回值LC的值域为[-1,Max Length],Max Length为输入结构数据中三元组的总数,用于确定下一时间步选择子图的空间。如公式(1)所示,当分组阶段的长度控制模块返回值LC为-1时,表示分组阶段结束,进入静态规划阶段,以全局节点表示Vglobal作为循环神经网络的初始化状态。
分组限制结点的选择空间,内容规划阶段可选择当前分组内所有的结点或<EOG>标识以表示当前作为选择空间的子图利用结束。公式(2)根据第k个子图Gk中的第z个结点表示与上一个时间步循环网络的隐藏状态dt-1计算门控gatez,门控gatez衡量结点本身与静态规划的关联程度,其中z表示第z个结点。公式(3)所示,将门控gatez与第k个子图Gk中的第z个结点表示/>相乘后得到该结点的上下文表示/>结合已生成SP序列判断该结点重要性。最后公式(4)根据/>计算当前步选择结点nodek,z的概率即衡量子图中每一个结点与前序已生成结点序列的相关性选择结点,循环神经网络每一个时间步均以前一步选择的结点表示作为输入。
当上一时间步SP生成为<EOG>特殊符号时,即表示当前作为选择空间的子图Gk利用结束,按分组阶段产生的子图序列选择下一个子图Gk+1。向循环神经网络中输入上一个子图向量表示子图向量表示/>通过平均池化子图Gk+1中所有结点表示得出。对Gk+1子图重复上述公式(1)-(4)操作。当分组阶段所得子图序列遍历结束,静态内容规划阶段也得到了最终的SP实体序列。
步骤40,SP实体序列通过双向门控循环网络Bi-GRU得到SP序列实体隐藏表示e1-n,(e1,e2,...,en)=Bi-GRU(SP1,SP2,...,SPn)将SP的序列信息融合到实体嵌入中。
步骤50,结合已生成文本信息和实体记忆网络所存储的实体记忆得到上下文qt,如公式(5)-(13)所示。
u-1,k=W·ek (5)
γt=softmax(W·dt-1+bγ) (6)
δt,k=γt⊙softmax(W·dt-1+bd+W·ut-1,k+bu) (7)
进一步的,利用生成解码循环神经网络RNN的隐藏状态dt-1更新记忆网络中的每一个实体记忆ut,k,其中t表示第t个时间步,k表示第k个实体。首先公式(5)利用实体表示ek对每一个实体的记忆进行初始化,记为u-1,k。公式(6)所示,γt表示门控,决定是否进行修改,根据生成阶段上一个时间步的隐藏状态dt-1,即已生成文本的信息决定。公式(7)所示,δt,k表示需要修改的程度,根据dt-1和实体记忆ut-1,k决定。公式(8)中,表示对实体记忆修改的内容。最后公式(9)根据前一时刻的实体记忆ut-1,k和修改内容/>更新得到当前时间步的实体记忆内容ut,k。公式(10)将ut,k与dt-1进行注意力机制得记忆模块注意力权重Ψt,k。
St,k=at,k·ek (12)
进一步的,公式(11)将生成阶段循环神经网络的隐藏状态dt-1与第1至n个实体隐藏表示e1-n通过注意力机制得到注意力得分a1-n,公式(12)将注意力得分at,k与实体隐藏表示ek相乘得实体上下文向量St,k,其中t表示第t个时间步,k表示第k个实体。
公式(13)依照记忆模块注意力权重Ψt,k对实体上下文向量St,k权重求和得当前t时刻的上下文向量qt,作为指针生成网络的输入。
步骤60,qt作为指针生成网络的输入,采用图结构增强机制(Graph StructureEnhancement Mechanism)强化指针生成网络以生成文本,如公式(14)-(19)所示。
公式(15)利用生成阶段隐藏状态的上下文向量投影为与词表长度相同的概率分布。公式(16)将记忆网络中对实体的注意力权重作为复制概率/>公式(17)采用现有的图结构增强机制(Graph Structure Enhancement Mechanism)对指针生成网络所给出的复制概率,借助图的领接性进行增强。
θ=Sigmoid(W·dt+bd) (18)
采用条件概率将生成概率和复制概率相结合。公式(18)计算θ用于选择复制或生成模式的概率。公式(19)将生成概率和图结构增强的复制概率进行软结合,得到最后的概率分布。
模型采用pipeline范式构建,分为分组阶段,静态规划阶段,实体记忆阶段,指针生成解码阶段。通过现有的信息抽取***进行抽取,将样本中参考文本和输入的结构化数据进行比对得出静态规划金标准。由于动态内容规划并未给出显示的金标准,因此借助生成的损失函数对记忆模块参数进行更新。针对样本中的参考文本和所得到的静态规划金标准,分别可以与生成文本、生成的静态规划进行比较得到损失函数。
公式(20)表示生成文本的负对数似然损失函数,促使生成文本尽可能与样本中给出的参考文本一致。其中,表示为参考文本,t表示第t个时间步。公式(21)用于损失函数的正则化,其中T表示生成文本长度,即总时间步数,/>统计概率的平均值,γ为超参数。
步骤70,采用三级重构,分别为根据生成的转译文本重构静态规划,根据静态规划序列去重构分组,根据指针生成解码结果恢复为二分图表示。
Prec1(SP=nodez)=Softmax(W·ht+b) (23)
进一步的,第一级重构以循环神经网络为模型,根据转译文本重构静态规划,即从解码出的词汇嵌入表示提取出静态规划SP。利用指针生成解码器最后时刻的隐藏状态向量初始化循环神经网络的隐藏状态,定义为h0。通过将隐藏状态与指针生成解码器的所有词汇嵌入表示做注意力操作计算得转译文本上下文向量/>作为该循环神经网络的输入。公式(23)计算选择结点的概率,其中ht为t时间循环神经网络输出的隐藏状态,W、b为超参数。因此,生成文本恢复至静态规划部分的重构的损失函数可以定义为:
其中,|SP|表示生成的静态规划的序列长度,nodez表示静态规划阶段生成的SP实体序列中第z个结点,统计重构1阶段各个时间步概率的平均值,用于损失函数的正则化,γ为超参数。损失函数Lrec1旨在根据生成的描述文本尽可能提取出先前的静态规划。
进一步的,第二级重构根据静态规划序列去重构这些被选择的实体在分组中的顺序,即从静态规划恢复至分组序号,旨在保留分组阶段组间有序的特征。二级重构与一级重构采用相似的结构,将静态规划序列通过注意力机制输入,采用循环神经网络生成对应的分组序列。二级重构的损失函数可以定义为:
进一步的,第一级重构和第二级重构,即生成文本重构静态规划和静态规划重构分组序列,均采用基于序号的重构。对于第三级重构,即根据指针生成网络解码结果恢复为二分图表示,采用基于向量表示的重构。
Lrec3=KL((m1,m2,...m|V|),GATCUBE(Bipartite)) (27)
公式(27)通过对指针生成网络解码结果进行编码再解码后得第1至|V|个结点的编码表示为m1,m2,...m|V|,Lrec3要求解码后结果与二分图经过图注意力机制(GAT)编码后的嵌入表示趋于一致,从向量表示的角度进行重构,因此运用KL散度作为损失函数。
LTOTAL=λ1·Lsp+λ2·Llm+λ3·Lrec1+λ4·Lrec2+λ5·Lrec3 (28)
最终,模型损失函数可以定义为公式(28),由静态规划损失,生成文本损失以及三级重构的三个损失函数联合定义。λ1-5均为超参数。
如图3所示,分组阶段流程图如下:
步骤101,长度控制模块通过结合已生成子图序列的信息选择要生成子图的长度LC,LC的值域范围是[-1,Max Length],Max Length为输入结构数据中三元组的总数,用于确定下一时间步选择子图的空间。;如果LC为-1,则分组阶段终止。为前一步选择子图的表示,用于更新长度控制记忆向量L。
PLC=Softmax(WLC·Lt+bLC) (30)
公式(29)根据已生成序列更新长度控制记忆向量L,公式(30)利用L向量投影为长度等于Max Length+1的概率分步,按概率选择三元组个数,定义为LC。通过子图的长度限制当前步生成子图的选择空间,子图观察仅可以选择子图中三元组数目为LC的子图。其中γ为超参数,t表示第t个时间步。
VGlobal←GAT(Bipartite) (31)
LC=Sigmoid(W·VGlobal+bLC) (32)
如图4分组阶段结构图所示,第一时间步缺少已生成的子图序列信息,因此公式(31)采用二分图中的全局结点进行初始化。
如图5所示,所有可能存在的子图集合可以定义为一个三维Tensor,称之为方阵Cube。公式(33)将选择的LC转化为one-hot向量LConehot,选择某一长度的子图空间,可以从图5直观理解,即从Cube选择对应页page。
步骤102,根据生成子图长度LC控制选择空间,子图观察根据各子图的表示,与之前已生成子图序列中子图与结点信息进行注意力机制,生成当前各子图被选择的概率。
公式(34)将子图中的结点表示平均池化即为子图的表示,因为每一时刻都会对结点表示进行更新,所以子图表示也就不同,下标t表示第t时间步,i表示第i个子图,j表示子图中第j个结点。分别从子图层面和结点层面加入注意力机制。
公式(35)将待选子图与之前已选择的子图计算注意力得分,gt,i表示t时刻待选子图i的表示,Gk表示之前k时刻已选子图嵌入表示。公式(36)将待选子图本身信息gt,i与之前已选择的子图信息Gk通过注意力机制进行融合,完成子图层面的注意力机制,得子图上下文向量
公式(37)将子图上下文向量与之前已选择子图的所有结点计算注意力得分,表示已选子图k中的第z个结点。公式(38)将待选子图上下文向量/>与之前已选择子图中的所有结点信息/>通过注意力机制进行融合,完成结点层面的注意力机制,得子节点上下文向量/>最后公式(39)根据结点上下文向量/>计算选择该子图的概率,其中WG、bG为分组阶段超参数。如图5所示,从直观上表示可以理解为从相同长度的子图页中选取某一个子图表示。
步骤103,选择某一个子图后更新所有子图中的结点表示,即更新所有子图的表示。
u=σ(WupdateGt+bupdate) (40)
在每一步选择子图后,都通过选择子图的信息去更新所有结点的表示,因此即便子图重复选择,但其表示不同。公式(40)通过上一步选出的子图Gt表示计算更新内容,其中Wupdate、bupdate为更新超参数。公式(41)计算门控,用于调节之前信息保留与新加入子图的更新信息之间的关系,Wgate、bgate为门控计算超参数。公式(42)针对每一个结点都进行更新其表示,其中t表示第t个时刻,v表示第v个结点,因此每个时刻的结点表示都不同。
步骤104,更新所有结点表示之后重复步骤101至步骤103操作,直至步骤101所生成LC取值为-1,则分组阶段终止,得到最终的子图序列。
分组阶段无法从样本中提取黄金标准。因此,首先可以先将整个模型热身,初始阶段模型对数据还很陌生,需要使用较小的学习率学习,不断修正权重分布。待模型对数据有一定的熟悉度之后,将后序模块的所有参数固定,利用后序模块的损失函数调整分组阶段的权重。方法1:将静态规划模块的参数固定,将分组阶段的分组结果输入静态规划阶段生成SP,与数据集给出的黄金静态规划进行比较得出损失函数。方法2:将静态规划模块至指针生成网络模块中所有参数完全固定,输入分组结果,输出生成文本,将生成文本与样本给出的参考文本进行比较得出损失函数。通过方法1与方法2的更新训练分组阶段的超参数。
Claims (4)
1.一种基于混合分组排序和动态实体记忆规划的文本生成方法,其特征在于:包括以下步骤:
步骤1)以需要生成对应文本的结构化数据集合作为模型输入,所述数据以表格或知识图谱的形式表示,将得到的数据转化为二分图,利用图注意力机制进行嵌入表示;
步骤2)将步骤1)得到的数据向量通过分组阶段进行分组排序;分组阶段包含两个模块:长度控制模块和子图观察模块;长度控制模块作用于每一个生成步,结合已生成子图序列的信息映射为概率分布,根据概率分布选择下一时间步生成子图中包含三元组数目LC,则该时间步仅能选择三元组数目为LC的子图,若LC选择为-1,则分组阶段结束,进入步骤5);
步骤3)以步骤2)得出的生成子图长度LC控制子图的选择空间,子图观察机制根据对子图中所有结点进行自注意力机制获得子图的表示,并与之前已生成子图序列中子图与结点信息进行注意力机制,生成当前各子图被选择的概率;
步骤4)根据步骤3)得出的概率分布选择某一个子图,后利用循环神经网络当前步的隐藏状态更新所有子图中的结点表示,即更新所有子图的表示,返回步骤2);若步骤2)LC选择为-1,得到最终的子图序列,每一个子图中即为所输入结构化数据集合的子集;
步骤5)静态内容规划阶段选择生成实体序列SP,以全局节点表示Vglobal作为循环神经网络的初始化状态,每一步的选择空间即为步骤4)序列中的对应子图;当生成特殊子图结束标记<EOG>时,循环神经网络下一步的输入为当前子图的表示,下一步的选择空间按步骤4)得出的子图序列顺序获得;当遍历子图序列,则得到最终的静态内容规划SP实体序列;
步骤6)将步骤5)得出的SP实体序列通过双向门控循环网络进行编码得到SP序列实体隐藏表示e1-n,n表示SP序列中实体总数;将SP序列隐藏表示传至生成阶段和实体记忆模块;
步骤7)实体记忆模块以SP序列实体隐藏表示作为初始内容进行记忆存储;利用生成阶段循环神经网络隐藏状态dt-1更新实体记忆ut,k,将实体记忆ut,k与dt-1相乘得记忆权重Ψt,k,其中t表示第t个时间步,k表示第k个实体;
步骤8)根据生成阶段循环神经网络的隐藏状态dt-1与e1-n做注意力机制得到注意力得分a1-n,将注意力得分at,k与对应实体记忆ut,k相乘得实体上下文向量St,k;
步骤9)将记忆权重Ψt,k与对应实体上下文向量St,k权重求和得上下文向量qt,作为指针生成解码器的输入,采用图结构增强机制对指针解码器进行增强以生成结构化数据对应的转译文本;
步骤10)采用三级重构使解码器完整获取编码器所蕴含的信息,分别为根据转译文本重构静态内容规划SP,根据静态内容规划序列去重构分组阶段的子图序列,根据指针生成解码器解码结果恢复为二分图表示。
2.根据权利要求1所述的文本生成方法,其特征在于:步骤1)所述数据以表格或知识图谱的形式表示,在表格中结构化数据以记录的形式存在,在知识图谱中结构化数据以三元组的形式存在;
以知识图谱作为结构化输入数据,三元组由<头实体,关系,尾实体>构成;将得到的数据转化为二分图,即将三元组中的关系也表示为节点,同时加入全局节点以观察整体图结构系信息;利用图注意力机制对所有结点进行嵌入表示。
3.根据权利要求2所述的文本生成方法,其特征在于:SP实体序列通过双向门控循环网络Bi-GRU得到SP序列实体隐藏表示e1-n,将SP的序列信息融合到实体嵌入中;
利用生成解码循环神经网络RNN的隐藏状态dt-1更新记忆网络中的每一个实体记忆ut,k,其中t表示第t个时间步,k表示第k个实体;包括:
u-1,k=W·ek (5)
γt=softmax(W·dt-1+bγ) (6)
δt,k=γt⊙softmax(W·dt-1+bd+W·ut-1,k+bu) (7)
4.根据权利要求3所述的文本生成方法,其特征在于:步骤8)根据生成阶段循环神经网络的隐藏状态dt-1与e1-n做注意力机制得到注意力得分a1-n,将注意力得分at,k与对应实体记忆ut,k相乘得实体上下文向量St,k;具体为:
St,k=at,k·ek (12)
公式(11)将生成阶段循环神经网络的隐藏状态dt-1与第1至n个实体隐藏表示e1-n通过注意力机制得到注意力得分a1-n,公式(12)将注意力得分at,k与实体隐藏表示ek相乘得实体上下文向量St,k,其中t表示第t个时间步,k表示第k个实体;
公式(13)依照记忆模块注意力权重Ψt,k对实体上下文向量St,k权重求和得当前t时刻的上下文向量qt,作为指针生成网络的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216143.7A CN115577118B (zh) | 2022-09-30 | 2022-09-30 | 一种基于混合分组排序和动态实体记忆规划的文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216143.7A CN115577118B (zh) | 2022-09-30 | 2022-09-30 | 一种基于混合分组排序和动态实体记忆规划的文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115577118A CN115577118A (zh) | 2023-01-06 |
CN115577118B true CN115577118B (zh) | 2023-05-30 |
Family
ID=84582422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211216143.7A Active CN115577118B (zh) | 2022-09-30 | 2022-09-30 | 一种基于混合分组排序和动态实体记忆规划的文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577118B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078866A (zh) * | 2019-12-30 | 2020-04-28 | 华南理工大学 | 一种基于序列到序列模型的中文文本摘要生成方法 |
US11010666B1 (en) * | 2017-10-24 | 2021-05-18 | Tunnel Technologies Inc. | Systems and methods for generation and use of tensor networks |
CN113360655A (zh) * | 2021-06-25 | 2021-09-07 | 中国电子科技集团公司第二十八研究所 | 一种基于序列标注的航迹点分类及文本生成方法 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN114048350A (zh) * | 2021-11-08 | 2022-02-15 | 湖南大学 | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474709B2 (en) * | 2017-04-14 | 2019-11-12 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
EP3598339A1 (en) * | 2018-07-19 | 2020-01-22 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
US11763100B2 (en) * | 2019-05-22 | 2023-09-19 | Royal Bank Of Canada | System and method for controllable machine text generation architecture |
CN110795556B (zh) * | 2019-11-01 | 2023-04-18 | 中山大学 | 一种基于细粒度***式解码的摘要生成方法 |
US11481418B2 (en) * | 2020-01-02 | 2022-10-25 | International Business Machines Corporation | Natural question generation via reinforcement learning based graph-to-sequence model |
-
2022
- 2022-09-30 CN CN202211216143.7A patent/CN115577118B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010666B1 (en) * | 2017-10-24 | 2021-05-18 | Tunnel Technologies Inc. | Systems and methods for generation and use of tensor networks |
CN111078866A (zh) * | 2019-12-30 | 2020-04-28 | 华南理工大学 | 一种基于序列到序列模型的中文文本摘要生成方法 |
CN113360655A (zh) * | 2021-06-25 | 2021-09-07 | 中国电子科技集团公司第二十八研究所 | 一种基于序列标注的航迹点分类及文本生成方法 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN114048350A (zh) * | 2021-11-08 | 2022-02-15 | 湖南大学 | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 |
Non-Patent Citations (3)
Title |
---|
带有情感增强与情感融合的文本情感预测关键技术研究;荣欢;中国博士学位论文全文数据库 信息科技辑;全文 * |
用户粒度级的个性化社交文本生成模型;高永兵,高军甜;计算机应用;全文 * |
面向连贯性强化的无真值依赖文本摘要模型;马廷淮;计算机科学与探索;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115577118A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111538848B (zh) | 一种融合多源信息的知识表示学习方法 | |
CN108415977B (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN111966820B (zh) | 一种生成式摘要模型构建、提取生成式摘要方法及*** | |
CN109840322A (zh) | 一种基于强化学习的完形填空型阅读理解分析模型及方法 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及*** | |
CN115391563B (zh) | 一种基于多源异构数据融合的知识图谱链路预测方法 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN113641854B (zh) | 一种将文字转化为视频的方法及*** | |
CN111444328A (zh) | 一种带有解释生成的自然语言自动预测推断方法 | |
CN112580370B (zh) | 一种融合语义知识的蒙汉神经机器翻译方法 | |
CN117763363A (zh) | 基于知识图谱与提示学习的跨网络学术社区资源推荐方法 | |
CN115577118B (zh) | 一种基于混合分组排序和动态实体记忆规划的文本生成方法 | |
CN116340569A (zh) | 一种基于语义一致性的半监督短视频分类方法 | |
CN112069777B (zh) | 一种基于骨架的二阶段数据到文本生成方法 | |
CN114780725A (zh) | 一种基于深度聚类的文本分类算法 | |
CN113486180A (zh) | 一种基于关系层级交互的远程监督关系抽取方法及*** | |
CN117951313B (zh) | 基于实体关***计关联的文档关系抽取方法 | |
CN118070754B (zh) | 神经网络文本序列生成方法、终端设备和存储介质 | |
CN116805046B (zh) | 一种基于文本标签生成3d人体动作的方法 | |
RK | Synthesis of image from text using generative adversarial networks | |
CN116050432A (zh) | 领域数据增强与多粒度语义理解的多轮对话方法及*** | |
CN118364500A (zh) | 一种具有差分隐私的条件wgan-gp的数据隐私保护方法 | |
Chen et al. | Benefit from AMR: Image Captioning with Explicit Relations and Endogenous Knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |