CN110362823A - 描述文本生成模型的训练方法和装置 - Google Patents
描述文本生成模型的训练方法和装置 Download PDFInfo
- Publication number
- CN110362823A CN110362823A CN201910541505.1A CN201910541505A CN110362823A CN 110362823 A CN110362823 A CN 110362823A CN 201910541505 A CN201910541505 A CN 201910541505A CN 110362823 A CN110362823 A CN 110362823A
- Authority
- CN
- China
- Prior art keywords
- data
- description text
- training
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种描述文本生成模型的训练方法和装置,其中方法包括:获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;对训练数据进行预处理,得到参考描述文本对应的数据序列;利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、参考描述文本和动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。
Description
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种描述文本生成模型的训练方法、装置、设备和计算机存储介质。
【背景技术】
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。
诸如表格数据等结构化数据的阅读和理解通常是不好友且枯燥的,通常需要具有专业知识背景的人花费大量时间才能够读懂数据所表达的含义。然而,大多数领域采集和存储的均是结构化数据,例如天气数据、财经数据、交通数据等等。为了降低阅读者的门槛和节省阅读时间,需要将结构化数据转化为描述文本,使得用户能够通过描述文本获知结构化数据所表达的含义。
现有针对结构化数据生成描述文本的方式主要是基于人工配置的模板,根据一定逻辑条件进行模板选择和数据填充,得到描述文本。但这种方式需要大量的专家知识才能够完成模板和逻辑条件的配置,耗费人力。
【发明内容】
有鉴于此,本发明提供了一种描述文本生成模型的训练方法、装置、设备和计算机存储介质,以便于利用描述文本生成模型将结构化数据生成描述文本,更加节约人力。
具体技术方案如下:
一方面,本发明提供了一种描述文本生成模型的训练方法,该方法包括:
获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;
对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;
利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。
根据本发明一优选实施方式,所述第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;
该方法还包括:利用所述第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定所述第一解码器生成各词语需要关注的所述第一数据序列中的数据记录信息;
训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。
根据本发明一优选实施方式,获取训练数据包括:
从数据源获取结构化数据,并获取针对结构化数据人工标注的参考描述文本;或者,
从数据源获取参考描述文本,并获取针对参考描述文本人工标注的结构化数据;或者,
从数据源获取结构化数据以及该结构化数据对应的参考描述文本。
根据本发明一优选实施方式,所述结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;
所述对训练数据进行预处理,得到参考描述文本对应的数据序列包括:
将结构化数据与其对应的参考描述文本进行匹配对齐,其中若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐;
依据匹配对齐的结果确定参考描述文本对应的数据序列。
根据本发明一优选实施方式,依据匹配对齐的结果确定参考描述文本对应的数据序列包括:
将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;
若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;
将参考描述文本最终得到的各数据记录构成参考描述文本对应的数据序列。
根据本发明一优选实施方式,关系提取模型采用以下方式训练得到:
获取包括文本句和对应关系标签的训练数据,文本句包括实体和实体值;
将文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。
根据本发明一优选实施方式,结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;
对该数据序列进行动态规划标注包括:
依次将参考描述文本中的各词语与该参考描述文本对应的数据序列的各数据记录的实体值进行匹配;
如果词语a与数据记录b的实体值匹配且数据记录b的实体也存在于词语a的同一句子中,那么将数据记录b在数据序列中的位置标注为词语a的动态规划标签;否则,词语a采用词语a之后且距离词语a距离最近的具有动态规划标签的词语的动态规划标签。
根据本发明一优选实施方式,第一seq2seq模型中采用注意力机制对编码器针对结构化数据生成的中间向量进行加权处理;
第二seq2seq模型中采用注意力机制和拷贝机制对编码器针对第一数据序列生成的中间向量进行加权和拷贝处理,或者采用注意力机制对编码器针对第一数据序列生成的中间向量进行加权处理。
根据本发明一优选实施方式,所述第二seq2seq模型还包括第二解码器;第二解码器用于将所述第一解码器生成的隐层向量进行重构解码,生成第二数据序列;
所述训练目标进一步包括:最小化所述第二数据序列与参考描述文本对应的数据序列之间的差异。
根据本发明一优选实施方式,该方法还包括:
对第二解码器的损失函数进行正则化平滑处理。
第二方面,本发明提供了一种针对结构化数据生成描述文本的方法,该方法包括:
获取结构化数据;
将结构化数据输入描述文本生成模型,得到结构化数据对应的描述文本;
其中描述文本生成模型采用如上所述的方法预先训练得到。
第三方面,本发明提供了一种描述文本生成模型的训练装置,该装置包括:
数据获取单元,用于获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;
预处理单元,用于对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;
第一训练单元,用于利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。
根据本发明一优选实施方式,所述第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;
所述第一训练单元,还用于利用所述第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定所述第一解码器生成各词语需要关注的所述第一数据序列中的数据记录信息;
所述第一训练单元采用的训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。
根据本发明一优选实施方式,预处理单元,具体用于将结构化数据与其对应的参考描述文本进行匹配对齐;依据匹配对齐的结果确定参考描述文本对应的数据序列;
其中结构化数据包括各数据记录,数据记录包括实体、实体值以及关系标签;若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐。
根据本发明一优选实施方式,预处理单元,具体用于:
将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;
若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;
将参考描述文本最终得到的各数据记录构成参考描述文本对应的数据序列。
根据本发明一优选实施方式,该装置还包括:
第二训练单元,用于采用以下方式训练得到关系提取模型:
获取包括文本句和对应关系标签的训练数据,文本句包括实体和实体值;
将文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。
根据本发明一优选实施方式,结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;所述预处理单元在对数据序列进行动态规划标注时,具体执行:
依次将参考描述文本中的各词语与该参考描述文本对应的数据序列的各数据记录的实体值进行匹配;
如果词语a与数据记录b的实体值匹配且数据记录b的实体也存在于词语a的同一句子中,那么将数据记录b在数据序列中的位置标注为词语a的动态规划标签;否则,词语a采用词语a之后且距离词语a距离最近的具有动态规划标签的词语的动态规划标签。
根据本发明一优选实施方式,第一训练单元,还用于:
在第一seq2seq模型中采用注意力机制对编码器针对结构化数据生成的中间向量进行加权处理;
在第二seq2seq模型中采用注意力机制和拷贝机制对编码器针对第一数据序列生成的中间向量进行加权和拷贝处理,或者采用注意力机制对编码器针对第一数据序列生成的中间向量进行加权处理。
根据本发明一优选实施方式,所述第二seq2seq模型还包括第二解码器;第二解码器用于将所述第一解码器生成的隐层向量进行重构解码,生成第二数据序列;
所述训练目标进一步包括:最小化所述第二数据序列与参考描述文本对应的数据序列之间的差异。
第四方面,本发明提供了一种针对结构化数据生成描述文本的装置,该装置包括:
数据获取单元,用于获取结构化数据;
文本生成单元,用于将结构化数据输入描述文本生成模型,得到结构化数据对应的描述文本;
其中描述文本生成模型采用如上所述的装置预先训练得到。
第五方面,本发明提供了一种设备,设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上的方法。
第六方面,本发明提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如上的方法。
由以上技术方案可以看出,本发明训练得到的描述文本生成模型能够从训练数据中进行深度学习,从而将结构化数据转化为描述文本。无需具有专家知识背景的人来配置模板和逻辑条件,显然更加节约人力。
更进一步地,本申请在训练文本生成模型时,在第二seq2seq模型中采用动态规划机制,充分考虑描述文本生成的历史语义信息,从而更好地指导描述文本的生成,使得描述文本生成模型生成的描述文本与输入的结构化数据具有更高的相关性。
【附图说明】
图1为本发明实施例提供的描述文本生成模型的训练方法流程图;
图2a为本发明实施例提供的训练描述文本生成模型的结构示意图;
图2b为本发明实施例提供的训练描述文本生成模型的另一结构示意图;
图2c为本发明实施例提供的一种文本生成模型的结构示意图;
图3为本发明实施例提供的描述文本生成模型的训练装置的结构示意图;
图4为本发明实施例提供的生成描述文本的装置的结构示意图;
图5示出了适于用来实现本发明实施方式的示例性计算机***/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
诸如表格数据等结构化数据,在针对其生成描述文本时,本发明采用基于深度学习模型的方式,即将结构化数据输入描述文本生成模型,得到该结构化数据对应的描述文本。下面结合实施例对该描述文本生成模型的训练过程进行详细描述。
图1为本发明实施例提供的描述文本生成模型的训练方法流程图,该方法可以由计算机***或处理器来执行。如图1中所示,该方法可以包括以下步骤:
在101中,获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本。
在本发明实施例中,首先获取多组结构化数据以及各组结构化数据对应的参考描述文本作为训练数据。其中一组结构化数据可以包括一个或多个数据记录。作为一种优选的实施方式,一个数据记录可以是一个三元组,每个三元组包括实体、实体值以及关系标签。在有些场景下,一个数据记录也可能是一个四元组、五元组等等,但均至少包括实体、实体值以及关系标签。
例如一个三元组可以表示为{entity,value,relation-tag},entity代表实体,value代表实体值,relation-tag代表关系标签。其中关系标签指明了实体和实体值的关系,即实体值为在特定关系标签下的实体取值。不同应用领域下关系标签的定义不同,可以预先人工定义。例如,篮球赛事领域的关系标签可以包括:得分、篮板球、助攻、犯规等。天气预报领域的关系标签可以包括:风向、风速、气温、湿度等。
结构化数据以表格为例,一个表格可以看做一组结构化数据,包括多个数据记录,每个数据记录为一个三元组,以篮球赛事为例,如表1中所示。
表1
上述表格对应的参考文本如下:
“周三,金州勇士队在盐湖城的能源解决方案体育馆以116-105击败了犹他爵士队。勇士队是这场比赛中最好的射手,51%的投篮命中率,52%的投篮命中率勇士也迫使爵士有21次失误,而他们自己只有9次失误。库里拿下全场最高的27分(10投16中,4投9中,3投3中),外加11次助攻”。
在本发明中,获取训练数据的方式可以包括但不限于以下几种方式:
第一种方式:从数据源获取结构化数据,并获取针对该结构化数据人工标注的参考描述文本。其中本发明实施例中涉及的数据源可以是与执行本实施例的计算机***或处理器存在接口的其他应用***或数据库,也可以是从网络上抓取到的海量数据。例如,从网页上抓取表格数据,采用人工的方式为该表格数据标注参考描述文本。
第二种方式:从数据源参考描述文本,并获取针对参考描述文本人工标注的结构化数据。例如,从网页上抓取参考描述文本,采用人工的方式从参考描述文本中提取实体、实体值和关系标签,从而生成表格数据。
第三种方式:从数据源获取结构化数据以及该结构化数据对应的参考描述文本。例如,从网页上直接抓取表格数据以及表格数据对应的参考描述文本。诸如一些篮球赛事文字报道的页面上,包含表格数据以及相关文字描述,可以将表格数据以及相关文字描述从网页中对应抓取出来。
在102中,对训练数据进行预处理,得到参考描述文本对应的数据序列以及所述参考描述文本的动态规划标注。
在本步骤中,可以将训练数据中各组结构化数据与其对应的参考描述文本进行匹配对齐;依据匹配对齐的结果确定参考描述文本对应的数据序列。
其中,在将结构化数据与其对应的参考描述文本进行匹配对齐时,若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐。
例如,在参考描述文本中存在句子“金州勇士队在盐湖城的能源解决方案体育馆以116-105击败了犹他爵士队”。其中包括实体“勇士”,实体值“金州”,则将数据记录{勇士,金州,城市}与该句子匹配对齐;该句子还包括实体“勇士”,实体值“116”,则将数据记录{勇士,116,得分}与该句子匹配对齐;该句子还包括实体“爵士”,实体值“犹他”,则将数据记录{爵士,犹他,城市}与该句子匹配对齐;该句子还包括实体“爵士”,实体值“105”,则将数据记录{爵士,105,得分}与该句子匹配对齐,等等。
在依据匹配对齐的结果确定参考描述文本对应的数据序列时,可以直接将匹配对齐的各数据记录作为参考描述文本对应的数据序列。但这种方式可能存在这样的情况,虽然该句子包含实体和实体值,但其表述的两者关系与数据记录中的关系标签并不一致。因此,在此提供一种优选的实施方式:将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;将参考描述文本最终得到的各数据记录构成该参考描述文本对应的数据序列。
如图2a中所示,训练数据中参考描述文本中的各句子输入关系提取模型,该关系提取模型从句子中提取实体的特征、实体词的特征等,该关系提取模型实际上是一个分类模型,依据提取的实体的特征、实体词的特征分类到特定领域的各关系标签上,即输出关系标签。
举个例子,假设参考描述文本包含句子L1和L2。与L1匹配对齐的数据记录分别为{E11,V11,R11}、{E12,V12,R12}、{E13,V13,R13},与L2匹配对齐的数据记录分别为{E21,V21,R21}和{E22,V22,R22}。
将L1输入关系提取模型,针对E11、V11产生的关系标签为R11,针对E12,V12产生的关系标签为R31,针对E13,V13产生的关系标签为R13。则保留数据记录{E11,V11,R11}和{E13,V13,R13},将数据记录{E12,V12,R12}修改为{E12,V12,R31}。将L2输入关系提取模型,针对E21,V21产生的关系标签为R21,针对E22,V22产生的关系标签为R32,则保留数据记录{E21,V21,R21},将数据记录{E22,V22,R22}修改为{E22,V22,R32}。最终,该参考描述文本对应的数据序列为:{E11,V11,R11},{E12,V12,R31},{E13,V13,R13},{E21,V21,R21},{E22,V22,R32}。
下面对关系提取模型的训练过程进行说明。
首先,获取包括文本句和对应关系标签的训练数据,其中,文本句包括实体和实体值。训练数据中文本句对应的关系标签可以人工标注,也可以采用其他方式抽取。
然后,将训练数据中的文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。其中,分类模型可以采用CNN(ConvolutionalNeural Networks,卷积神经网络)+LSTM(Long Short-TermMemory,长短期记忆网络)的方式实现,当然并不限于这种分类模型,还可以采用其他分类模型。
进一步地,依据参考描述文本及其对应的数据序列进行动态规划标注,该动态规划标注是对参考描述文本中生成各词语需要关注的数据记录在数据序列中的位置进行标注。
具体地,依据参考描述文本及其对应的数据序列进行动态规划标注可以包括:依次将参考描述文本中的各词语与参考描述文本对应的数据序列的各数据记录的实体值进行匹配,如果该词语与某数据记录的实体值匹配且该数据记录的实体也存在于该词语的同一句子中,那么将该数据记录在数据序列中的位置标注为该词语的动态规划标签;否则,该词语采用其之后与其距离最近的具有动态规划标签的词语的动态规划标签。
仍以表1为例,对于参考文本中的句子“周三,金州勇士队以116-105击败了犹他爵士队”,由于“金州”与ID为1的数据记录的实体值匹配,且对应实体“勇士”也在同一句子中,因此,将该句子中的词语“金州”打上动态规划标签“1”。词语“周三”与任何一个数据记录的实体值均不能够匹配,因此其采用的是其之后的“金州”的动态规划标签。其他各词语采用相同的方式,最终得到对该句子的动态规划标注结果为:
“周三1,金州1勇士队2以31163-1056击败4了4犹他4爵士队5”。
其中,各词语的右上标注的数字为该词语的动态规划标签,表明生成该词语时需要关注的数据记录在数据序列中的位置。
在103中,利用结构化数据以及参考描述文本对应的数据序列,训练第一seq2seq(序列到序列)模型,利用第一seq2seq模型输出的第一数据序列和参考描述文本,训练第二seq2seq模型,利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型。
如图2a所示,描述文本生成模型由两个seq2seq模型构成,第一seq2seq模型包括编码器(encoder)和解码器(decoder)。其中,编码器对训练数据中的结构化数据进行编码,得到结构化数据的语义表示,即中间向量。第j个数据记录的中间向量可以为:
其中,[;]表示向量的级联操作。rj,1、rj,2、rj,3分别表示第j个数据记录中的三个元素的向量。ReLU()是线性整流函数,是人工神经网络中常用的激活函数。Wr、E和br是模型参数。
在此需要说明的是,本发明实施例中提供的公式仅仅是其中一种实施方式并不用以限制本发明,基于本发明实施例提供的公式所做的简单变型均在本发明保护范围内。
进一步地,可以采用注意力机制对中间向量进行加权处理。具体地,采用注意力机制进行结构化数据的重要性学习,利用关注点分数构建上下文向量,再结合当前结构化数据计算出结构化数据的关注点向量表示,然后对关注点向量应用选择门机制,得到新的中间向量。的新的向量表示,即新的中间向量可以为:
其中,Sigmoid()为S型函数,是人工神经网络中常用的阈值函数,将变量映射到0到1之间。⊙表示向量的元素相乘。
其中,Wg是模型参数。
其中,∝为正比符号,Wa是模型参数。
解码器基于结构化数据的中间向量,采用指针网络进行结构化数据的规划排序,每个时刻基于当前状态进行输出决策,输出指向输入的结构化数据中的一个数据记录。最终,解码器针对结构化数据产生的数据序列称为第一数据序列。解码器可以采用如下公式:
其中,Pi()表示第i时刻括号中内容的概率。zi表示解码器在第i时刻的输出指向输入的数据记录,zi=j表示解码器在第i时刻的输出指向输入的第j个数据记录rj。hi表示第i时刻的隐层状态向量。
此处的训练目标为:最小化第一数据序列与参考描述文本对应的数据序列之间的差异。这里的损失函数记为Loss1,可以采用如下公式:
其中,参考描述文本对应的数据序列为
继续如图2a中所示,第二seq2seq模型包括编码器和解码器。
第一seq2seq生成的第一数据序列输入第二seq2seq模型的编码器。编码器针对输入的第一数据序列生成中间向量。其中,编码器可以采用双向LSTM编码器对第一数据序列[z1,z2,…,zk]进行编码,得到隐层表示hs,
解码器用于利用编码器输出的中间向量,生成描述文本。
此处的训练目标为:最小化第二seq2seq模型的解码器输出的描述文本与参考描述文本之间的差异。这里的损失函数记为Loss2,对于参考描述文本 则Loss2可以采用:
其中,为第二seq2seq模型的解码器第i时刻输出的概率,为每个词的输出概率的平均值,为引入的正则项,起减少重复生成的作用。
在本发明实施例中,在第二seq2seq模型中进一步应用动态规划机制,充分考虑历史生成的语义信息来决定哪一个数据记录在下一个词的生成中发挥重要作用,即通过解码器的细胞状态和编码器的隐层向量确定生成各词语需要关注的第一数据序列中的数据记录信息。例如重点关注的数据记录在第一数据序列中的位置信息,或者,需要对第一数据序列中各数据记录的关注程度。
具体地,在每一个时刻i,采用解码器的细胞状态(cell state)来动态引导当前时刻的数据记录的选择。
其中,Di为解码器第i个时刻的cell state。表示解码器在第i时刻的输出动态指向输入的数据记录,表示解码器在第i时刻的输出动态指向输入的第j个数据记录。表示第j个隐层状态向量。Wd为模型参数。
然后对所有数据记录的进行归一化,得到Γi,j,并得到编码器段各数据记录的动态内容规划隐层向量
采用上述动态规划后,隐层向量在每个时刻是会动态变化的。整个动态规划过程中,每个时刻都会进行数据记录的选择。为了确保数据记录的正确选择,这里的训练目标为:最小化第二seq2seq模型中动态规划结果与参考描述文本的动态规划标注结果的差异。
采用的训练函数记为Loss3,可以采用以下公式:
其中,
进一步地,采用注意力(Attention)机制和拷贝(Copy)机制对中间向量进行加权和拷贝处理。注意力(Attention)机制是编码器各位置对当前时刻输出的加权。拷贝机制使得第二seq2seq模型可以从第一数据序列中拷贝字符。
具体地,解码器第i时刻输出yl的概率可以采用以下公式:
其中,表示拷贝和生成的开关,若为1,表示采取拷贝方式,若为0表示采取生成方式。
表示解码器第i时刻yl的生成概率,Wcopy和bcopy为模型参数。βi,k表示编码器第k个位置在第i时刻的关注权重。具体地,可以采用以下公式:
其中βi,k采用了编码器端经过动态规划的隐层向量Wo、by和Wa为模型参数,为解码器第i时刻的第二层隐层向量。
表示解码器第i时刻的隐层状态向量,可以采用以下公式:
其中,Wd为模型参数。
除了上述方式之外,也可以仅采用注意力机制针对第一数据序列生成的中间向量进行加权处理。
在训练过程中,描述文本生成模型是作为一个整体进行训练的,即描述文本生成模型的训练目标为:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第二seq2seq模型中的解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与参考描述文本的动态规划标注结果的差异。总的损失函数Loss可以为:
Loss=λ1Loss1+λ2Loss2+λ3Loss3
待达到训练目标后,例如损失函数Loss达到预设值,可以利用训练完成的而第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型。具体地,可以如图2a中所示的文本生成模型的结构,由第一seq2seq模型和第二seq2seq模型构成文本生成模型。
除了图2a所示结构之外,本发明实施例还提供另外一种优选实施方式,如图2b所示。在第二seq2seq模型中存在两个编码器:第一解码器和第二解码器。
其中编码器和第一解码器的工作原理和如图2a中所示的编码器和解码器一致,在此不做赘述。
在图2b中,第一解码器存在两个输出,第一个输出为对隐层状态向量进行softmax(归一化指数)处理后得到的描述文本。第二个输出为隐层状态向量,该隐层状态向量输出至第二解码器。
第二解码器用于将第一解码器对中间向量生成的隐层向量进行解码,输出数据序列。其目的是为了转换回参考描述文本对应的数据序列,因此该第二解码器是重构解码,为了区分第一seq2seq模型输出的数据序列,在此将第二seq2seq模型的第二解码器输出的数据序列称为第二数据序列。
此处的训练目标为:最小化第二数据序列与参考描述文本对应的数据序列之间的差异,损失函数记为Loss4,可以采用以下公式:
其中,为数据记录第j个元素的生成概率。N为一个数据记录中包含的元素数量,如果是三元组,N取3,如果是四元组,N取4。
另外,由于第二解码器在重构参考描述文本对应的数据序列时,会输出各数据记录的每一个元素,然后基于每一个元素匹配计算损失,并没有把多个元素组合成一条记录(即一个三元组)去计算损失,这样的结果是存在偏差的。因此,本发明实施例在此针对损失函数Loss4引入正则项进行正则化平滑处理,使得第二数据序列的生成更加准确。这种方式下的Loss4可以采用以下公式:
其中,是数据记录所有元素的生成概率平均值,可以采用:
本发明实施例中涉及的上述各解码器可以采用LSTM解码器。
在如图2b所示结构的训练过程中,描述文本生成模型是作为一个整体进行训练的,即描述文本生成模型的训练目标为:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异、第二seq2seq模型中动态规划结果与参考描述文本的动态规划标注结果的差异以及第二数据序列与参考描述文本对应的数据序列之间的差异。总的损失函数Loss可以为:
Loss=λ1Loss1+λ2Loss2+λ3Loss3+λ4Loss4公式(22)
待达到训练目标后,例如损失函数Loss达到预设值,可以利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型。具体地,可以如图2b中所示的文本生成模型的结构,由第一seq2seq模型和第二seq2seq模型构成文本生成模型。但实际上,完成训练后,第二seq2seq模型中第二编码器在实际文本生成过程中已没有作用,因此可以将第二解码器去除,由训练完成的第一seq2seq模型和第二seq2seq模型中去除第二解码器的部分构成描述文本生成模型,如图2c中所示。
完成上述描述文本生成模型的训练后,就可以利用该描述文本生成模型针对诸如表格数据等结构化数据生成描述文本。例如将一组表格数据输入描述文本生成模型,得到该表格数据对应的描述文本。
参见图2a所示,在实际针对结构化数据进行描述文本的转化时,结构化数据输入第一seq2seq模型后,经由编码器和解码器输出第一数据序列。第一数据序列输入第二seq2seq模型后,经由编码器和解码器输出描述文本。
参见图2c所示,在实际针对结构化数据进行描述文本的转化时,结构化数据输入第一seq2seq模型后,经由编码器和解码器输出第一数据序列。第一数据序列输入第二seq2seq模型后,经由编码器和第一解码器输出描述文本。
在此列举几种本发明的应用场景:
例如,天气播报***周期性地从提供天气预报数据的***获取天气预报数据。通常提供天气预报数据的***采集和生成的天气预报数据均为结构化数据,其提供给天气播报***的数据也为结构化数据,例如表格数据。若天气播报***直接将大量包含天气预报数据的表格数据提供给用户,用户一方面需要一定的背景知识才能够看懂,另一方面也需要花费大量时间去阅读这些数据。
若天气播报***采用本发明实施例提供的描述文本生成模型,则可以将结构化的天气预报数据转化为描述文本,然后在天气播报***提供的页面上展示该描述文本供用户查看。
再例如,篮球赛事报道***实时从提供赛事数据的***获取篮球比赛数据。通常获取到的这些篮球比赛数据均为如表1中所示的结构化数据。若篮球赛事报告***直接将大量包含篮球比赛数据的表格数据提供给用户,用户一方面需要一定的背景知识才能够看懂,另一方面也需要花费大量时间去阅读这些数据。
若篮球赛事报道***采用本发明实施例提供的描述文本生成模型,则可以将结构化的篮球比赛数据转化为描述文本,然后在篮球赛事报道***提供的新闻页面或直播页面上展示该描述文本供用户查看。
下面对本发明实施例提供的装置进行详细描述。图3为本发明实施例提供的描述文本生成模型的训练装置的结构示意图,该装置可以设置并运行于计算机***或处理器中。如图3所示,该装置可以包括:数据获取单元31、预处理单元32和第一训练单元33,还可以包括第二训练单元34。
数据获取单元31负责获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本。
其中一组结构化数据可以包括一个或多个数据记录,每个数据记录包括实体、实体值以及关系标签。数据记录可以是三元组,也可以是四元组、五元组等,但至少包括实体、实体值以及关系标签。其中关系标签指明了实体和实体值的关系,即实体值为在特定关系标签下的实体取值。不同应用领域下关系标签的定义不同,可以预先人工定义。例如,篮球赛事领域的关系标签可以包括:得分、篮板球、助攻、犯规等。天气预报领域的关系标签可以包括:风向、风速、气温、湿度等。
其中,数据获取单元31获取训练数据的方式可以包括但不限于以下几种方式:
第一种方式:从数据源获取结构化数据,并获取针对该结构化数据人工标注的参考描述文本。其中本发明实施例中涉及的数据源可以是与执行本实施例的计算机***或处理器存在接口的其他应用***或数据库,也可以是从网络上抓取到的海量数据。
第二种方式:从数据源参考描述文本,并获取针对参考描述文本人工标注的结构化数据。
第三种方式:从数据源获取结构化数据以及该结构化数据对应的参考描述文本。
预处理单元32负责对训练数据进行预处理,得到参考描述文本对应的数据序列,进一步对该数据序列进行动态规划标注。
具体地,预处理单元32可以将结构化数据与其对应的参考描述文本进行匹配对齐;依据匹配对齐的结果确定参考描述文本对应的数据序列。其中,若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐。
在依据匹配对齐的结果确定参考描述文本对应的数据序列时,可以直接将匹配对齐的各数据记录作为参考描述文本对应的数据序列。但这种方式可能存在这样的情况,虽然该句子包含实体和实体值,但其表述的两者关系与数据记录中的关系标签并不一致。因此,在此提供一种优选的实施方式:将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;将参考描述文本最终得到的各数据记录构成该参考描述文本对应的数据序列。
第二训练单元34负责采用以下方式训练得到关系提取模型:
首先,获取包括文本句和对应关系标签的训练数据,其中,文本句包括实体和实体值。训练数据中文本句对应的关系标签可以人工标注,也可以采用其他方式抽取。
然后,将训练数据中的文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。其中,分类模型可以采用CNN+LSTM的方式实现,当然并不限于这种分类模型,还可以采用其他分类模型。
预处理单元32在对数据序列进行动态规划标注时,具体执行:
依次将参考描述文本中的各词语与该参考描述文本对应的数据序列的各数据记录的实体值进行匹配;
如果词语a与数据记录b的实体值匹配且数据记录b的实体也存在于词语a的同一句子中,那么将数据记录b在数据序列中的位置标注为词语a的动态规划标签;否则,词语a采用词语a之后且距离词语a距离最近的具有动态规划标签的词语的动态规划标签。
第一训练单元33负责利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、参考描述文本和动态规划标注的结果,训练第二seq2seq模型;其中,第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。
第一训练单元33还用于利用第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定第一解码器生成各词语需要关注的第一数据序列中的数据记录信息,例如重点关注的数据记录在第一数据序列中的位置信息,或者,需要对第一数据序列中各数据记录的关注程度。
第一训练单元33采用的训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。
其中,第二seq2seq模型还第二解码器,第二解码器用于将第一解码器对中间向量生成的隐层向量进行重构解码,生成第二数据序列;此时,第一训练单元采用的训练目标进一步包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二数据序列与参考描述文本对应的数据序列之间的差异。
更进一步地,第一训练单元33还可以在第一seq2seq模型中采用注意力机制对编码器针对结构化数据生成的中间向量进行加权处理;在第二seq2seq模型中采用注意力机制和拷贝机制对编码器针对第一数据序列生成的中间向量进行加权和拷贝处理,或者采用注意力机制对编码器针对第一数据序列生成的中间向量进行加权处理。
优选地,为了降低第二解码器进行重构解码的偏差,第二解码器的损失函数可以为进行正则化平滑处理后的损失函数,即对第二解码器的损失函数引入正则项进行平滑处理。
具体地,可以由训练完成的第一seq2seq模型和第二seq2seq模型构成描述文本生成模型;或者,由训练完成的第一seq2seq模型和第二seq2seq模型中去除第二解码器的部分构成描述文本生成模型。
图4为本发明实施例提供的生成描述文本的装置的结构示意图,如图4所示,该装置可以包括:数据获取单元41和文本生成单元42。
数据获取单元41负责获取结构化数据。其中,结构化数据包括各三元组,三元组包括实体、实体值以及关系标签。
文本生成单元42负责将结构化数据输入描述文本生成模型,得到结构化数据对应的描述文本。
其中描述文本生成模型由图3所示装置预先训练得到。
上述装置中各单元的具体实现方式可以采用方法实施例中相应的记载,在装置实施例中不做赘述。
图5示出了适于用来实现本发明实施方式的示例性计算机***/服务器012的框图。图5显示的计算机***/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机***/服务器012以通用计算设备的形式表现。计算机***/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,***存储器028,连接不同***组件(包括***存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器012典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器028可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***034可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机***/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机***/服务器012交互的设备通信,和/或与使得该计算机***/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机***/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机***/服务器012的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机***/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元016通过运行存储在***存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
由以上描述可以看出,本发明提供的方法、装置、设备和计算机存储介质可以具备以下优点:
1)本发明训练得到的描述文本生成模型能够从训练数据中进行深度学习,从而将结构化数据转化为描述文本。无需具有专家知识背景的人来配置模板和逻辑条件,显然更加节约人力。
2)本申请在训练文本生成模型时,在第二seq2seq模型中采用动态规划机制,充分考虑描述文本生成的历史语义信息,从而更好地指导描述文本的生成,使得描述文本生成模型生成的描述文本与输入的结构化数据具有更高的相关性。
3)本发明训练文本生成模型时,在第二seq2seq模型中采用第二解码器对描述文本进行重构解码,逆向生成第二数据序列,通过最小化第二数据序列与描述文本对应的数据序列之间的差异,提高了针对输入的结构化数据生成的描述文本的相关性和准确性。
4)训练文本生成模型时,在损失函数中引入正则项以进行正则化平滑处理,进一步提高了针对输入的结构化数据生成的描述文本的相关性和准确性。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (22)
1.一种描述文本生成模型的训练方法,其特征在于,该方法包括:
获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;
对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;
利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。
2.根据权利要求1所述的方法,其特征在于,所述第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;
该方法还包括:利用所述第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定所述第一解码器生成各词语需要关注的所述第一数据序列中的数据记录信息;
训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。
3.根据权利要求1的方法,其特征在于,获取训练数据包括:
从数据源获取结构化数据,并获取针对结构化数据人工标注的参考描述文本;或者,
从数据源获取参考描述文本,并获取针对参考描述文本人工标注的结构化数据;或者,
从数据源获取结构化数据以及该结构化数据对应的参考描述文本。
4.根据权利要求1的方法,其特征在于,所述结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;
所述对训练数据进行预处理,得到参考描述文本对应的数据序列包括:
将结构化数据与其对应的参考描述文本进行匹配对齐,其中若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐;
依据匹配对齐的结果确定参考描述文本对应的数据序列。
5.根据权利要求4的方法,其特征在于,依据匹配对齐的结果确定参考描述文本对应的数据序列包括:
将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;
若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;
将参考描述文本最终得到的各数据记录构成参考描述文本对应的数据序列。
6.根据权利要求5的方法,其特征在于,关系提取模型采用以下方式训练得到:
获取包括文本句和对应关系标签的训练数据,文本句包括实体和实体值;
将文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。
7.根据权利要求1所述的方法,其特征在于,结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;
对该数据序列进行动态规划标注包括:
依次将参考描述文本中的各词语与该参考描述文本对应的数据序列的各数据记录的实体值进行匹配;
如果词语a与数据记录b的实体值匹配且数据记录b的实体也存在于词语a的同一句子中,那么将数据记录b在数据序列中的位置标注为词语a的动态规划标签;否则,词语a采用词语a之后且距离词语a距离最近的具有动态规划标签的词语的动态规划标签。
8.根据权利要求2的方法,其特征在于,第一seq2seq模型中采用注意力机制对编码器针对结构化数据生成的中间向量进行加权处理;
第二seq2seq模型中采用注意力机制和拷贝机制对编码器针对第一数据序列生成的中间向量进行加权和拷贝处理,或者采用注意力机制对编码器针对第一数据序列生成的中间向量进行加权处理。
9.根据权利要求2所述的方法,其特征在于,所述第二seq2seq模型还包括第二解码器;第二解码器用于将所述第一解码器生成的隐层向量进行重构解码,生成第二数据序列;
所述训练目标进一步包括:最小化所述第二数据序列与参考描述文本对应的数据序列之间的差异。
10.根据权利要求9的方法,其特征在于,该方法还包括:
对第二解码器的损失函数进行正则化平滑处理。
11.一种针对结构化数据生成描述文本的方法,其特征在于,该方法包括:
获取结构化数据;
将结构化数据输入描述文本生成模型,得到结构化数据对应的描述文本;
其中描述文本生成模型采用如权利要求1至10任一权项的方法预先训练得到。
12.一种描述文本生成模型的训练装置,其特征在于,该装置包括:
数据获取单元,用于获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;
预处理单元,用于对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;
第一训练单元,用于利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。
13.根据权利要求12所述的方法,其特征在于,所述第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;
所述第一训练单元,还用于利用所述第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定所述第一解码器生成各词语需要关注的所述第一数据序列中的数据记录信息;
所述第一训练单元采用的训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。
14.根据权利要求12的装置,其特征在于,预处理单元,具体用于将结构化数据与其对应的参考描述文本进行匹配对齐;依据匹配对齐的结果确定参考描述文本对应的数据序列;
其中结构化数据包括各数据记录,数据记录包括实体、实体值以及关系标签;若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐。
15.根据权利要求14的装置,其特征在于,预处理单元,具体用于:
将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;
若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;
将参考描述文本最终得到的各数据记录构成参考描述文本对应的数据序列。
16.根据权利要求15的装置,其特征在于,该装置还包括:
第二训练单元,用于采用以下方式训练得到关系提取模型:
获取包括文本句和对应关系标签的训练数据,文本句包括实体和实体值;
将文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。
17.根据权利要求12所述的装置,其特征在于,结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;所述预处理单元在对数据序列进行动态规划标注时,具体执行:
依次将参考描述文本中的各词语与该参考描述文本对应的数据序列的各数据记录的实体值进行匹配;
如果词语a与数据记录b的实体值匹配且数据记录b的实体也存在于词语a的同一句子中,那么将数据记录b在数据序列中的位置标注为词语a的动态规划标签;否则,词语a采用词语a之后且距离词语a距离最近的具有动态规划标签的词语的动态规划标签。
18.根据权利要求13的装置,其特征在于,第一训练单元,还用于:
在第一seq2seq模型中采用注意力机制对编码器针对结构化数据生成的中间向量进行加权处理;
在第二seq2seq模型中采用注意力机制和拷贝机制对编码器针对第一数据序列生成的中间向量进行加权和拷贝处理,或者采用注意力机制对编码器针对第一数据序列生成的中间向量进行加权处理。
19.根据权利要求13所述的装置,其特征在于,所述第二seq2seq模型还包括第二解码器;第二解码器用于将所述第一解码器生成的隐层向量进行重构解码,生成第二数据序列;
所述训练目标进一步包括:最小化所述第二数据序列与参考描述文本对应的数据序列之间的差异。
20.一种针对结构化数据生成描述文本的装置,其特征在于,该装置包括:
数据获取单元,用于获取结构化数据;
文本生成单元,用于将结构化数据输入描述文本生成模型,得到结构化数据对应的描述文本;
其中描述文本生成模型采用如权利要求12至19任一权项的装置预先训练得到。
21.一种设备,其特征在于,设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如权利要求1-11中任一的方法。
22.一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-11中任一的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910541505.1A CN110362823B (zh) | 2019-06-21 | 2019-06-21 | 描述文本生成模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910541505.1A CN110362823B (zh) | 2019-06-21 | 2019-06-21 | 描述文本生成模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362823A true CN110362823A (zh) | 2019-10-22 |
CN110362823B CN110362823B (zh) | 2023-07-28 |
Family
ID=68216510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910541505.1A Active CN110362823B (zh) | 2019-06-21 | 2019-06-21 | 描述文本生成模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362823B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852043A (zh) * | 2019-11-19 | 2020-02-28 | 北京字节跳动网络技术有限公司 | 一种文本转写方法、装置、设备及存储介质 |
CN111078825A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 结构化处理方法、装置、计算机设备及介质 |
CN111783422A (zh) * | 2020-06-24 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 一种文本序列生成方法、装置、设备和介质 |
CN111914568A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN112434493A (zh) * | 2020-11-04 | 2021-03-02 | 北京沃东天骏信息技术有限公司 | 一种文案生成方法、装置、电子设备和存储介质 |
CN112489652A (zh) * | 2020-12-10 | 2021-03-12 | 北京有竹居网络技术有限公司 | 一种语音信息的文本获取方法、装置和存储介质 |
CN112818652A (zh) * | 2021-01-26 | 2021-05-18 | 深圳市房多多网络科技有限公司 | 房源描述文本生成方法、装置、设备及计算机存储介质 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
CN113221576A (zh) * | 2021-06-01 | 2021-08-06 | 复旦大学 | 一种基于序列到序列架构的命名实体识别方法 |
CN113822347A (zh) * | 2020-09-11 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 用于自动生成知识驱动的内容规划的***和方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403075A (zh) * | 2017-08-02 | 2017-11-28 | 深圳市瀚海基因生物科技有限公司 | 比对方法、装置及*** |
CN107423274A (zh) * | 2017-06-07 | 2017-12-01 | 北京百度网讯科技有限公司 | 基于人工智能的比赛解说内容生成方法、装置及存储介质 |
CN108090049A (zh) * | 2018-01-17 | 2018-05-29 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及*** |
CN108304439A (zh) * | 2017-10-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种语义模型优化方法、装置及智能设备、存储介质 |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、***、设备及存储介质 |
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN109359196A (zh) * | 2018-10-22 | 2019-02-19 | 北京百度网讯科技有限公司 | 文本多模态表示方法及装置 |
CN109508459A (zh) * | 2018-11-06 | 2019-03-22 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
WO2019080648A1 (zh) * | 2017-10-26 | 2019-05-02 | 华为技术有限公司 | 复述语句生成方法及装置 |
CA3025233A1 (en) * | 2017-11-27 | 2019-05-27 | Tata Consultancy Services Limited | Systems and methods for segmenting interactive session text |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及*** |
-
2019
- 2019-06-21 CN CN201910541505.1A patent/CN110362823B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423274A (zh) * | 2017-06-07 | 2017-12-01 | 北京百度网讯科技有限公司 | 基于人工智能的比赛解说内容生成方法、装置及存储介质 |
CN107403075A (zh) * | 2017-08-02 | 2017-11-28 | 深圳市瀚海基因生物科技有限公司 | 比对方法、装置及*** |
WO2019080648A1 (zh) * | 2017-10-26 | 2019-05-02 | 华为技术有限公司 | 复述语句生成方法及装置 |
CN108304439A (zh) * | 2017-10-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种语义模型优化方法、装置及智能设备、存储介质 |
CA3025233A1 (en) * | 2017-11-27 | 2019-05-27 | Tata Consultancy Services Limited | Systems and methods for segmenting interactive session text |
CN108090049A (zh) * | 2018-01-17 | 2018-05-29 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及*** |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、***、设备及存储介质 |
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN109359196A (zh) * | 2018-10-22 | 2019-02-19 | 北京百度网讯科技有限公司 | 文本多模态表示方法及装置 |
CN109508459A (zh) * | 2018-11-06 | 2019-03-22 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及*** |
Non-Patent Citations (8)
Title |
---|
WU CHU-GE 等: "A multi-model estimation of distribution algorithm for energy efficient scheduling under cloud computing system", 《JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING》 * |
WU CHU-GE 等: "A multi-model estimation of distribution algorithm for energy efficient scheduling under cloud computing system", 《JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING》, vol. 117, 31 July 2018 (2018-07-31), pages 63 - 72 * |
XIE RUOBING 等: "Representation learning of knowledge graphs with entity descriptions", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
XIE RUOBING 等: "Representation learning of knowledge graphs with entity descriptions", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 30, no. 1, 5 March 2016 (2016-03-05), pages 2659 - 2665 * |
徐莹莹: "基于深度神经网络模型的句子级文本情感分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
徐莹莹: "基于深度神经网络模型的句子级文本情感分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 05, 15 May 2017 (2017-05-15), pages 138 - 1252 * |
黄恺瑜: "弱监督条件下的实体关系抽取探究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
黄恺瑜: "弱监督条件下的实体关系抽取探究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 10, 15 October 2018 (2018-10-15), pages 138 - 950 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852043A (zh) * | 2019-11-19 | 2020-02-28 | 北京字节跳动网络技术有限公司 | 一种文本转写方法、装置、设备及存储介质 |
CN110852043B (zh) * | 2019-11-19 | 2023-05-23 | 北京字节跳动网络技术有限公司 | 一种文本转写方法、装置、设备及存储介质 |
CN111078825A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 结构化处理方法、装置、计算机设备及介质 |
US11615242B2 (en) | 2019-12-20 | 2023-03-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for structuring data, related computer device and medium |
CN111783422A (zh) * | 2020-06-24 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 一种文本序列生成方法、装置、设备和介质 |
US11669679B2 (en) | 2020-06-24 | 2023-06-06 | Beijing Byledance Network Technology Co., Ltd. | Text sequence generating method and apparatus, device and medium |
CN111783422B (zh) * | 2020-06-24 | 2022-03-04 | 北京字节跳动网络技术有限公司 | 一种文本序列生成方法、装置、设备和介质 |
WO2021139229A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN111914568A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN111914568B (zh) * | 2020-07-31 | 2024-02-06 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN113822347A (zh) * | 2020-09-11 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 用于自动生成知识驱动的内容规划的***和方法 |
CN112434493A (zh) * | 2020-11-04 | 2021-03-02 | 北京沃东天骏信息技术有限公司 | 一种文案生成方法、装置、电子设备和存储介质 |
CN112489652A (zh) * | 2020-12-10 | 2021-03-12 | 北京有竹居网络技术有限公司 | 一种语音信息的文本获取方法、装置和存储介质 |
CN112818652A (zh) * | 2021-01-26 | 2021-05-18 | 深圳市房多多网络科技有限公司 | 房源描述文本生成方法、装置、设备及计算机存储介质 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
CN113221576A (zh) * | 2021-06-01 | 2021-08-06 | 复旦大学 | 一种基于序列到序列架构的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110362823B (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362823A (zh) | 描述文本生成模型的训练方法和装置 | |
Majumdar et al. | Improving vision-and-language navigation with image-text pairs from the web | |
CN110377902A (zh) | 描述文本生成模型的训练方法和装置 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
US11514247B2 (en) | Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text | |
WO2021031480A1 (zh) | 文本生成方法和装置 | |
CN112541501B (zh) | 一种基于视觉语言建模网络的场景文字识别方法 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN111061843A (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN108959482A (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN107423398A (zh) | 交互方法、装置、存储介质和计算机设备 | |
US20180124437A1 (en) | System and method for video data collection | |
CN110019471A (zh) | 从结构化数据生成文本 | |
CN110288665A (zh) | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 | |
CN107657056A (zh) | 基于人工智能展示评论信息的方法和装置 | |
CN110232123A (zh) | 文本的情感分析方法及其装置、计算设备与可读介质 | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN112016002A (zh) | 融合评论文本层级注意力和时间因素的混合推荐方法 | |
CN108230355A (zh) | 目标跟踪及神经网络训练方法、装置、存储介质和电子设备 | |
CN112949758A (zh) | 应答模型的训练方法、应答方法、装置、设备及存储介质 | |
Hong et al. | Selective residual learning for visual question answering | |
CN112231491A (zh) | 基于知识结构的相似试题识别方法 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN109902155A (zh) | 多模态对话状态处理方法、装置、介质及计算设备 | |
Li et al. | HRVQA: A Visual Question Answering benchmark for high-resolution aerial images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |