CN110516213B - 一种基于表格层次化建模的结构化数据生成文本方法 - Google Patents

一种基于表格层次化建模的结构化数据生成文本方法 Download PDF

Info

Publication number
CN110516213B
CN110516213B CN201910828514.9A CN201910828514A CN110516213B CN 110516213 B CN110516213 B CN 110516213B CN 201910828514 A CN201910828514 A CN 201910828514A CN 110516213 B CN110516213 B CN 110516213B
Authority
CN
China
Prior art keywords
row
vector
score
column
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910828514.9A
Other languages
English (en)
Other versions
CN110516213A (zh
Inventor
冯骁骋
秦兵
刘挺
龚恒
陈昱宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910828514.9A priority Critical patent/CN110516213B/zh
Publication of CN110516213A publication Critical patent/CN110516213A/zh
Application granted granted Critical
Publication of CN110516213B publication Critical patent/CN110516213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于表格层次化建模的结构化数据生成文本方法,本发明涉及结构化数据生成文本方法。本发明的目的是为了解决现有结构化数据生成文本只利用了数据本身单一信息,无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题。一、将数据集的记录用三元组表示,分别对每条记录所属的行、列维度建模得到该记录的行向量、列向量,并引入时间轴,对不同日期的同类型数据建模得到该记录的时间向量;二、融合行向量、列向量和时间向量得到该记录新的向量表示;三、对每行记录的新向量进行均值池化得到新行向量;四、每个解码时刻,对三得到的向量进行解码,得到当前时刻每条记录的权重。本发明用于表格数据生成文本方法。

Description

一种基于表格层次化建模的结构化数据生成文本方法
技术领域
本发明涉及结构化数据生成文本方法。
背景技术
本技术基于自然语言处理--文本生成领域的结构化数据生成文本(table-to-text)[1](Table-to-text generation技术,文献引自Cambridge university press.,年份:2000年,作者:Ehud Reiter and Robert Dale.2000.题目:Building naturallanguage generation systems.),即给定表格数据,生成相应的描述表格信息的文本。
而目前对于table-to-text的技术大都采用的是端到端(seq2seq)的模型[2](作者:Ilya Sutskever,Oriol Vinyals,and Quoc V Le.年份:2014.题目:Sequence tosequence learning with neural networks.I会议:n Advances in neural informationprocessing systems,pages 3104–3112),取得了一定的效果,但是在对表格信息进行建模时,存在不足:
不足1)表格建模形式单一,无法衡量数据在实体数据整体表现以及同类型数据中的差异,在一定程度上导致了生成文本时相应数据信息不对应的问题(例如在生成文本中,球员A的数据和球员B的数据对应错误)。目前的建模方式是将表格信息统一为一个维度建模表示,但是通常来说表格信息包括多行多列,同一行或者同一列的数据往往能衡量实体数据的整体表现以及相应数据之类的差异情况;
不足2)无法对表格之间的数据进行联合评价。通常在多个表格之间通常有一些数据具有时间序列性质,例如NBA比赛,联合过去几场比赛信息可以有效的对球员的数据进行衡量。
现有实现table-to-text的方法的基线模型:CC(Wiseman et al.,2017)[3](作者:Sam Wiseman,Stuart M.Shieber,and Alexander M.Rush.年份:2017.题目:Challengesin data-to-document generation.会议:In Proceedings of the 2017 Conference onEmpirical Methods in Natural Language Processing.)。
发明内容
本发明的目的是为了解决现有结构化数据生成文本只利用了数据本身单一信息,无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题,而提出一种基于表格层次化建模的结构化数据生成文本方法。
一种基于表格层次化建模的结构化数据生成文本方法具体过程为:
步骤一、将数据集中表格信息处理成三元组之后,每个三元组对应表格中一个记录,对于每个记录,进行行、列和时间维度的建模,对每个记录所属的行、列建模得到该记录用行信息表示该记录的行向量
Figure BDA0002189884420000021
和用列信息表示该记录的列向量
Figure BDA0002189884420000022
同时引入时间轴,对不同日期的同一类型数据进行建模,得到该记录时间表示的时间向量
Figure BDA0002189884420000023
步骤二、将步骤一得到的行、列和时间维度向量融合成新的向量,分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重;基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重,计算得到融合后的新的向量表示
Figure BDA0002189884420000024
步骤三、对同一行的融合后的新的向量表示
Figure BDA0002189884420000025
进行均值池化,得到对同一行的融合后的新的向量表示
Figure BDA0002189884420000026
进行均值池化后的行向量rowi
步骤四、在解码步骤t时刻,对步骤二得到的
Figure BDA0002189884420000027
和步骤三得到的rowi进行解码,生成当前时候所有表格每个三元组的权重;
三元组权重要生成文字有2个概率,一个是拷贝概率,一个是生成文字概率:
拷贝概率就是三元组权重;
比较三元组权重和生成文字概率大小,若三元组权重大于生成文字概率,则生成的文字就是拷贝当前的三元组的值;
若三元组权重小于等于生成文字概率,则生成的文字就是将LSTM隐层映射到词表上,将词表中概率最大的文字作为生成字。
本发明的有益效果为:
采用了本方法之后,通过对行和列以及时间维度建模,取得了一定效果。行建模引入衡量了实体数据间的整体情况;列建模引入衡量了同类型数据之间的表现差异;时间维度建模将多表格数据之间的关系联系在了一起。解决了现有结构化数据生成文本只利用了数据本身单一信息,无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题。
在本方法进行试验后生成的文本中,生成了关于历史信息的数据,而且对球员本身的数据的描述更加准确,显示了本发明方法的有效性,在评价指标BLEU和事实类评价指标RG、CS上本发明方法比之前的方法取得了更好的结果。
BLEU为机器翻译评测的标准方法,值越高表示效果越好;CS为是指生成的文本内出现的表格数据和全部输入的表格数据的准确率和召回率;RG为是指生成的文本内出现的表格数据和参考文本内出现的表格数据的准确率和召回率。
附图说明
图1为本发明方案部分1示意图;
图2为本发明方案部分2示意图;
图3a为一场比赛的表格信息和对应的人工撰写的新闻英文示意图;
图3b为图3a一场比赛的表格信息和对应的人工撰写的新闻英文对应的中文示意图;
图4为对表格的行建模示意图;
图5为对表格的列进行建模示意图;
图6为时间维度建模示意图;
图7a为三元组拆分后的行数据为球队的所有信息示意图;
图7b为三元组拆分后的行数据为球员的所有信息示意图。
具体实施方式
具体实施方式一:结合图1、2说明本实施方式,本实施方式一种基于表格层次化建模的结构化数据生成文本方法具体过程为:
实验具体在ROTOWIRE数据集上进行实施验证。
ROTOWIRE数据集是2017年,哈佛大学自然语言处理研究组在EMNLP论文《Challenges in Data-to-document Generation》的工作(Wiseman et al.,2017)中提出。抽取了2014年1月1日至2017年3月29日之间的NBA比赛,每场比赛有相应的数据,以及新闻记者撰写的新闻摘要。每场比赛有相应的比赛数据和工人撰写的新闻摘要。
ROTOWIRE数据集是4853场NBA比赛的数据信息,一场比赛在数据集中是一张表格信息和对应的记者撰写的新闻摘要组成,表格以字典形式存放,例如第一场比赛
{“主队”:{“夏洛克黄蜂队”};
“主队球员”:{“1号球员”:“迈克尔·基德-吉尔克里斯特”;“2号球员”:“艾尔·杰弗森”;...}
“主队得分”:{“1号球员”:13;“2号球员”:18;...}
“主队助攻”:{“1号球员”:1;“2号球员”:1;...}
“主队篮板”:{...}
...}
对字典数据可视化之后,如图3a、3b;
处理前,每个表格里有主客队两只球队,每支球队有得分、助攻、胜场、败场等15个属性;每支球队共有13个人,每个人有得分、助攻、篮板等22个属性。
注:这里三元组指的是(球队/球员名,数据类型,具体值),例如(杰弗森,得分,13);
步骤一、将数据集中表格信息处理成三元组之后,每个三元组对应表格中一个记录,对于每个记录,进行行、列和时间维度的建模,对每个记录所属的行、列建模得到该记录用行信息表示该记录的行向量
Figure BDA0002189884420000041
和用列信息表示该记录的列向量
Figure BDA0002189884420000042
同时引入时间轴,对不同日期的同一类型数据进行建模,得到该记录时间表示的时间向量
Figure BDA0002189884420000043
步骤二、将步骤一得到的行、列和时间维度向量融合成新的向量,分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重;基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重,计算得到融合后的新的向量表示
Figure BDA0002189884420000044
(对应公式13);
步骤三、对同一行的融合后的新的向量表示
Figure BDA0002189884420000045
进行均值池化,得到对同一行的融合后的新的向量表示
Figure BDA0002189884420000046
进行均值池化后的行向量rowi
步骤四、在解码步骤t时刻,对步骤二得到的
Figure BDA0002189884420000047
(对应公式13)和步骤三得到的rowi进行解码,生成当前时候所有表格每个三元组的权重(生成新的三元组表示);
三元组权重要生成文字有2个概率,一个是拷贝概率,一个是生成文字概率:
拷贝概率就是三元组权重;
比较三元组权重和生成文字概率大小,若三元组权重大于生成文字概率,则生成的文字就是拷贝当前的三元组的值,例如,此时拷贝概率大于生成文字概率,那么找三元组权重,比如(姚明、得分、16)这个三元组权重大,那么生成的文字就是16;
若三元组权重小于等于生成文字概率,则生成的文字就是将LSTM隐层映射到词表上,将词表中概率最大的文字作为生成字;比如说我的词表有1000个词,那么就选出1000个词中概率最大的文字作为生成字。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中将数据集中表格信息处理成602个三元组之后(三元组指的是(球队/球员名,数据类型,具体值),每个三元组对应表格中一个记录,例如(杰弗森,得分,13),对于每个记录,进行行(球队或者球员的所有数据)、列(球队或者球员之间数据的横向对比)和时间维度的建模,对每个记录所属的行、列建模得到该记录用行信息表示该记录的行向量
Figure BDA0002189884420000051
和用列信息表示该记录的列向量
Figure BDA0002189884420000052
同时引入时间轴,对不同日期的同一类型数据进行建模,得到该记录时间表示的时间向量
Figure BDA0002189884420000053
具体过程为:
最终本发明的目的是将当前第i行,第j列的当前数据的原始向量ri,j(例如篮板10个),表示成新的篮板向量表示
Figure BDA0002189884420000054
该向量中融合了篮板10个在球员本身得分、助攻等数据中的重要程度,和在球队成员篮板数据中的重要程度,以及在过去历史比赛中篮板数据的是重要程度。
步骤一一、对表格的行建模,如图4,即衡量球员当前数据在本场比赛的所有得分、篮板、助攻数据的表现,以例子中艾尔·杰弗森得分记录为例进行说明,本场比赛他得分为18分,希望通过他的其他数据衡量得分18是否正常发挥或者发挥失常等:
Figure BDA0002189884420000055
式中,∝为正比,
Figure BDA0002189884420000058
为表格第i行,第j列的记录转置,ri,j′为表格第i行,第j′列的记录,即除得分外的其他篮板助攻抢断等数据,j≠j′,Wo为模型训练参数,
Figure BDA0002189884420000056
为表格中在艾尔的一行数据中,当前得分18分和其他所有篮板12,助攻1等记录中的相关性占比的权重。(简单举例来说,假如球员小明的一行数据中,得分为1,其他篮板10,助攻10,抢断3等都很优秀,那么将得分和篮板、助攻等算相关性权重后,加权得到的是本次比赛小明得分在所有记录中发挥不佳的表示,即用小明除得分外的数据衡量小明得分是否正常);
Figure BDA0002189884420000057
式中,
Figure BDA0002189884420000061
为艾尔当前第i行第j列的数据在所有数据的总体表现,即艾尔·杰弗森的得分数据,用其他数据来衡量是否发挥出色或失常等。
将ri,j
Figure BDA0002189884420000062
两者拼在一起,经过tanh函数激活层,得到行维度表示的艾尔得分18分的向量
Figure BDA0002189884420000063
表达式为:
Figure BDA0002189884420000064
式3中,Wf是模型可训练参数,ri,j为原始第i行,第j列的数据表示;
步骤一二、对表格的列进行建模,如图5,即衡量该球员的当前属性在所有球员中的表现如何,同样,以艾尔·杰弗森的得分18分为例,希望用其他球员的得分来衡量艾尔本场比赛的得分表现:
同理列建模,也可以得到列建模的表示,此时一列表现一个属性,如得分,篮板,助攻等
Figure BDA0002189884420000065
式4,ri′,j为表格第i′行,第j列的记录,
Figure BDA0002189884420000066
类比式1,可理解为艾尔的得分18分在所有球员得分中的表现的权重(当前第三列表示所有球员的得分),即艾尔·杰弗森得分在所有球员中是否突出,
Figure BDA0002189884420000067
为其他球员表示的艾尔本场比赛得分情况向量;
将ri,j
Figure BDA0002189884420000068
两者拼在一起,过tanh函数激活层,得到列维度表示的艾尔得分18分的向量
Figure BDA0002189884420000069
表达式为:
Figure BDA00021898844200000610
式5中,Wc是模型训练参数;
步骤一三、时间维度建模,如图6,即综合考虑过去比赛中球员或者球队的表现,同样,以艾尔·杰弗森得分为例,希望通过过去的表现衡量艾尔本场得分10分是否发挥正常或失常等。
同理行和列建模,可以得到时间维度的建模向量,同样以艾尔·杰弗森的得分18分为例,此时的时间轴为他过去比赛中的得分数据。
Figure BDA0002189884420000071
式6中,score为一层的MLP函数,rpk为日期k下的记录表示,例如k=2015_01_28,那么rpk即为得分_17,rpk′为日期k′下的记录表示,k≠k′;
Figure BDA0002189884420000072
表现当前艾尔得分18在过去几场比赛中的权重占比,即衡量本场比赛是否正常发挥;
Figure BDA0002189884420000073
式7中,
Figure BDA0002189884420000074
为艾尔本场比赛得分在过去比赛中得分的表示;
将ri,j
Figure BDA0002189884420000075
两者拼在一起,过tanh函数激活层,得到时间维度表示的艾尔得分18分的向量
Figure BDA0002189884420000076
表达式为:
Figure BDA0002189884420000077
式8中,Wt是模型可训练参数。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤二中将步骤一得到的行、列和时间维度向量融合成新的向量,分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重;基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重,计算得到融合后的新的向量表示
Figure BDA00021898844200000712
(对应公式13);具体过程为:
步骤二一、引入表格信息融合机制,将步骤一得到的行、列和时间维度向量融合成新的表示艾尔·杰弗森得分18分的向量表示;
Figure BDA0002189884420000078
式中,
Figure BDA0002189884420000079
为初始的融合后的向量,
Figure BDA00021898844200000710
为行维度表示的艾尔得分18分的向量,
Figure BDA00021898844200000711
为列维度表示的艾尔得分18分的向量,
Figure BDA0002189884420000081
为时间维度表示的艾尔得分18分的向量;Wh为模型的训练参数;
步骤二二、分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重;公式为:
(这里希望不仅仅是简单的融合,希望能够权重化的融合,因此再引入注意力权重,如下)
Figure BDA0002189884420000082
Figure BDA0002189884420000083
Figure BDA0002189884420000084
式中,
Figure BDA0002189884420000085
为列维度表示的得分向量注意力权重;
Figure BDA0002189884420000086
为行维度表示的得分向量注意力权重;
Figure BDA0002189884420000087
为时间维度表示的得分向量注意力权重;
步骤二三、基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重,计算得到融合后的新的向量表示
Figure BDA0002189884420000088
公式为:
Figure BDA0002189884420000089
式13中,
Figure BDA00021898844200000810
为融合后的新的向量表示,例子化解释:新的表示融合了行、列、时间维度的艾尔得分18分;
对于每一个i,j都表示不同的数据记录,每个记录都如上重新融合行、列、时间维度信息建模成新的记录表示,不仅仅是艾尔的得分,其他球员的得分、篮板、助攻、失误、抢断等,凡是表中的数据都进行行、列、时间维度建模融合。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三中对同一行的融合后的新的向量表示
Figure BDA00021898844200000811
进行均值池化,得到对同一行的融合后的新的向量表示
Figure BDA00021898844200000812
进行均值池化后的行向量rowi;具体过程为:
Figure BDA0002189884420000091
式中,
Figure BDA0002189884420000092
表示的是同一行的融合后的新的向量表示,即同一个球员或者球队的数据,例如
Figure BDA0002189884420000093
艾尔的得分,
Figure BDA0002189884420000094
艾尔的助攻......
Figure BDA0002189884420000095
艾尔的抢断,通过MeanPooling,得到艾尔自身数据的总体表现。Mean Pooling为均值池化,rowi为对同一行的融合后的新的向量表示
Figure BDA0002189884420000096
进行均值池化后的行向量rowi
将新得到的权重化的融合向量
Figure BDA0002189884420000097
通过均值池化(Mean Pooling)得到行(球员/球队所有属性的整体表现)的表示(这里可以理解为优化,self-attention就是重新分配权重比例,例如原先可能是2:3:5,重新分配之后变成3:3:4这样,self-attention是希望模型能够更多的关注自己的向量内容),得到相应的表示之后;
再在行间(即多个球队/队员)进行重新分配权重比例(self Attention)再进行建模(这里的Self-attention是希望衡量一下该球员在所有球员中的一个整体表现。),得到球员在所有球员中的一个总体表现。
以上步骤一、二、三为编码阶段。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤四中在解码步骤t时刻,对步骤二得到的
Figure BDA0002189884420000098
(对应公式13)和步骤三得到的rowi进行解码,生成当前时候所有表格每个三元组的权重;具体过程为:
针对建模结果式14,在解码当前生成的文字的时候,式14中的row计算注意力权重,具体如图7a、7b:
拆分建模后,将行信息建模成向量,就是对以上图片信息建模成行(球员/球队信息)向量;
此时行向量表示一个球员/球队的综合整体表现。
步骤四一、计算注意力权重,公式为:
此时的注意力权重,就是将解码时候拥有的信息H(解码的状态),去和每一行(所有球员或者球队)的向量计算一个权重,判断当前解码生成的文本应该包含那一行的信息;(选出一个解码时刻最关注的球员/球队)
βt,i∝exp(score(dt,rowi)) (15)
式中,βt,i为每个球员或者球队的注意力权重;dt为解码时候拥有的信息H(解码的状态);
步骤四二、当确定了哪一行的信息对当前生成文字更重要之后,因为当前的行向量,是有602个三元组中的某10几个三元组构成,再将当前H和行向量计算注意力权重后的H’,和10几个三元组计算注意力权重,看看生成的文字应该更多的包含哪些三元组信息(例如,最后10几个三元组中(尼古拉斯·巴通姆,得分,19)计算出来权重最高,那么生成的文字很可能就是形容巴通姆这个球员的得分为19这个信息)(从选出的球员或者球队中找出最关注的属性,例如得分,篮板之类);
计算每个三元组的注意力权重,公式如下:
Figure BDA0002189884420000101
式中,γt,i,j为每个三元组的注意力权重;
步骤四三、求解每个三元组在解码时刻和lstm当前状态的相关程度,即三元组的权重(即有多少信息有用),公式为:
Figure BDA0002189884420000102
式中,
Figure BDA0002189884420000103
为每个球员或球队中每个三元组的权重。
三元组权重要生成文字有2个概率,一个是拷贝概率,一个是生成文字概率,拷贝概率就是三元组权重,如果三元组权重高,生成的文字就是拷贝当前的三元组的值,例如,此时拷贝概率大于生成文字概率,那么找三元组权重,比如(姚明、得分、16)这个三元组权重大,那么生成的文字就是16,如果生成文字概率大,就是将LSTM隐层映射到词表上,比如说我的词表有1000个词,那么就选出1000个词中概率最大的文字作为生成字。
其它步骤及参数与具体实施方式一至四之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例具体是按照以下步骤制备的:
对提出的方法进行了实现,同时和目前的基线模型(baseline模型)和参***进行了对比。
同样的例子,在目前的Baseline模型方式的结果提出的模型的结果。
目前的Baseline(CC模型)生成的文本结果:
baseline result(cc):
The Charlotte Hornets(21-27)defeated the Washington Wizards(31-18)92-88on Wedn esday...The Hornets were led by the duo of John Wall and BradleyBeal.Wall went 4-for-14 from the field and 1-for-4 from the three-point lineto score a game-high of 16 point...G erald Henderson had a solid showing aswell,finishing with 17 points(6-13FG,1-23Pt,4-4FT)andfiveassists.It was hissecond double-double in a row...
夏洛特黄蜂队(21胜27负)在周三以92比88击败了华盛顿奇才队(31胜18负)。黄蜂队由约翰·沃尔和布拉德利·比尔带领。沃尔14投4中,三分球4投1中,得到了自我记录最高的16分…。亨德森表现稳定,得到17分(6-13 FG,1 3 pt-2,4-4FT)和5次助攻。这是他连续第二次得到两双……
给出的标准答案
The Charlotte Hornets(21-27)defeated the Washington Wizards(31-18)92-88 on Monday...The Hornets were led by Al Jefferson in this game,who went 9-for-19 from the floor to score 18 points...It was the second time in the lastthree games he’s posted a double-double,while the two steals matched aseason-high for the center...Beal has turned it on over his last two games,combining for 44 points and 14 rebounds...This double-double marked thesecond in a row for Wall,who's combined for 44 points and 22 asssists overhis last two games...
夏洛特黄蜂队(21胜27负)在周三以92比88击败了华盛顿奇才队(31胜18负)。本场比赛黄蜂队由艾尔·杰佛森带领,19投9中得到18分...这是他在过去三场比赛中得分的第二次得分上双,同时两次抢断也是本赛季新高..比尔在最近两场比赛中回勇,一共拿下了44分14个篮板..在过去两场一共得分44分,22个助攻的沃尔本场得到了两双...
本发明方法生成的结果:
our model:The Charlotte Hornets(21-27)defeated the Washington Wizards(31-18)92-88 on Monday...The Hornets were led by Al Jefferson,who recorded adouble-double of his own with 18 points(9-19 FG,0-2 FT)and 12 rebounds.It washis second double-double over his last three games...The only other Wizard toreach double-digit points was Kris Humphries,who came off the bench for 13points(4-8 FG,5-6 FT)and five rebounds in 26 minutes...
本发明的模型结果:夏洛特黄蜂队在周一(21-27)击败了华盛顿奇才队,艾尔·杰佛森带领了黄蜂队,拿下来18分(9-19FG,0-2FT)和12个篮板的两双数据,这是他在过去三场比赛中得到的第二次两双...克丽丝汉弗莱斯替补上场26分钟,得到了13分(4-8FG,5-6FT),5个篮板,拿到了上双的数据...
看出,在第一个带领Hornets(黄蜂队)的人物选择上,本发明提出的方法产生的结果和标准参***一致,而基线模型则给出错误;同时,在过去三场比赛拿到“二双”数据上,本发明生成的和参***一致,而基线模型则信息不对应,无法生成相应的文本。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.一种基于表格层次化建模的结构化数据生成文本方法,其特征在于:所述方法具体过程为:
步骤一、将数据集中表格信息处理成三元组之后,每个三元组对应表格中一个记录,对于每个记录,进行行、列和时间维度的建模,对每个记录所属的行、列建模得到该记录用行信息表示该记录的行向量
Figure FDA0003547228490000011
和用列信息表示该记录的列向量
Figure FDA0003547228490000012
同时引入时间轴,对不同日期的同一类型数据进行建模,得到该记录时间表示的时间向量
Figure FDA0003547228490000013
步骤二、将步骤一得到的行、列和时间维度向量融合成新的向量,分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重;基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重,计算得到融合后的新的向量表示
Figure FDA0003547228490000014
步骤三、对同一行的融合后的新的向量表示
Figure FDA0003547228490000015
进行均值池化,得到对同一行的融合后的新的向量表示
Figure FDA0003547228490000016
进行均值池化后的行向量rowi
步骤四、在解码步骤t时刻,对步骤二得到的
Figure FDA0003547228490000017
和步骤三得到的rowi进行解码,生成当前时候所有表格每个三元组的权重;
三元组权重要生成文字有2个概率,一个是拷贝概率,一个是生成文字概率:
拷贝概率就是三元组权重;
比较三元组权重和生成文字概率大小,若三元组权重大于生成文字概率,则生成的文字就是拷贝当前的三元组的值;
若三元组权重小于等于生成文字概率,则生成的文字就是将LSTM隐层映射到词表上,将词表中概率最大的文字作为生成字;
所述步骤一中将数据集中表格信息处理成三元组之后每个三元组对应表格中一个记录,对于每个记录,进行行、列和时间维度的建模,对每个记录所属的行、列建模得到该记录用行信息表示该记录的行向量
Figure FDA0003547228490000018
和用列信息表示该记录的列向量
Figure FDA0003547228490000019
同时引入时间轴,对不同日期的同一类型数据进行建模,得到该记录时间表示的时间向量
Figure FDA00035472284900000110
具体过程为:
步骤一一、对表格的行建模,
Figure FDA0003547228490000021
式中,∝为正比,
Figure FDA0003547228490000022
为表格第i行,第j列的记录转置,ri,j′为表格第i行,第j′列的记录,j≠j′,Wo为训练参数,
Figure FDA0003547228490000023
为表格中的一行数据相关性占比的权重;
Figure FDA0003547228490000024
式中,
Figure FDA0003547228490000025
为当前第i行第j列的数据在所有数据的总体表现;
将ri,j
Figure FDA0003547228490000026
两者拼在一起,经过tanh函数激活层,得到行维度表示的得分向量
Figure FDA0003547228490000027
表达式为:
Figure FDA0003547228490000028
式3中,Wf是训练参数,ri,j为原始第i行,第j列的数据表示;
步骤一二、对表格的列进行建模,
Figure FDA0003547228490000029
式4中,ri′,j为表格第i′行,第j列的记录,
Figure FDA00035472284900000210
为艾尔的得分在所有球员得分中的表现的权重,
Figure FDA00035472284900000211
为其他球员表示的艾尔本场比赛得分情况向量;
将ri,j
Figure FDA00035472284900000212
两者拼在一起,过tanh函数激活层,得到列维度表示的得分向量
Figure FDA00035472284900000213
表达式为:
Figure FDA00035472284900000214
式5中,Wc是训练参数;
步骤一三、时间维度建模,
Figure FDA00035472284900000215
式6中,score为一层的MLP函数,rpk为日期k下的记录表示,rpk′为日期k′下的记录表示,k≠k′;
Figure FDA0003547228490000031
表现当前得分在过去几场比赛中的权重占比;
Figure FDA0003547228490000032
式7中,
Figure FDA0003547228490000033
为本场比赛得分在过去比赛中得分的表示;
将ri,j
Figure FDA0003547228490000034
两者拼在一起,过tanh函数激活层,得到时间维度表示的得分向量
Figure FDA0003547228490000035
表达式为:
Figure FDA0003547228490000036
式8中,Wt是训练参数;
所述步骤二中将步骤一得到的行、列和时间维度向量融合成新的向量,分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重;基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重,计算得到融合后的新的向量表示
Figure FDA0003547228490000037
具体过程为:
步骤二一、将步骤一得到的行、列和时间维度向量融合成新的向量;
Figure FDA0003547228490000038
式中,
Figure FDA0003547228490000039
为初始的融合后的向量,
Figure FDA00035472284900000310
为行维度表示的得分向量,
Figure FDA00035472284900000311
为列维度表示的得分向量,
Figure FDA00035472284900000312
为时间维度表示的得分向量;Wh为训练参数;
步骤二二、分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重;公式为:
Figure FDA00035472284900000313
Figure FDA00035472284900000314
Figure FDA0003547228490000041
式中,
Figure FDA0003547228490000042
为列维度表示的得分向量注意力权重;
Figure FDA0003547228490000043
为行维度表示的得分向量注意力权重;
Figure FDA0003547228490000044
为时间维度表示的得分向量注意力权重;
步骤二三、基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重,计算得到融合后的新的向量表示
Figure FDA0003547228490000045
公式为:
Figure FDA0003547228490000046
式13中,
Figure FDA0003547228490000047
为新融合的向量的三元组。
2.根据权利要求1所述一种基于表格层次化建模的结构化数据生成文本方法,其特征在于:所述步骤三中对同一行的融合后的新的向量表示
Figure FDA0003547228490000048
进行均值池化,得到对同一行的融合后的新的向量表示
Figure FDA0003547228490000049
进行均值池化后的行向量rowi;具体过程为:
Figure FDA00035472284900000410
式中,
Figure FDA00035472284900000411
表示的是同一行的融合后的新的向量表示,Mean Pooling为均值池化,rowi为对同一行的融合后的新的向量表示
Figure FDA00035472284900000412
进行均值池化后的行向量rowi
3.根据权利要求2所述一种基于表格层次化建模的结构化数据生成文本方法,其特征在于:所述步骤四中在解码步骤t时刻,对步骤二得到的
Figure FDA00035472284900000413
和步骤三得到的rowi进行解码,生成当前时候所有表格每个三元组的权重;具体过程为:
步骤四一、计算注意力权重,公式为:
βt,i∝exp(score(dt,rowi)) (15)
式中,βt,i为每个球员或者球队的注意力权重;
步骤四二、计算每个三元组的注意力权重,公式如下:
Figure FDA00035472284900000414
式中,γt,i,j为每个三元组的注意力权重;
步骤四三、求解每个三元组在解码时刻和lstm当前状态的相关程度,即三元组的权重,公式为:
Figure FDA0003547228490000051
式中,
Figure FDA0003547228490000052
为每个球员或球队中每个三元组的权重。
CN201910828514.9A 2019-09-03 2019-09-03 一种基于表格层次化建模的结构化数据生成文本方法 Active CN110516213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910828514.9A CN110516213B (zh) 2019-09-03 2019-09-03 一种基于表格层次化建模的结构化数据生成文本方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910828514.9A CN110516213B (zh) 2019-09-03 2019-09-03 一种基于表格层次化建模的结构化数据生成文本方法

Publications (2)

Publication Number Publication Date
CN110516213A CN110516213A (zh) 2019-11-29
CN110516213B true CN110516213B (zh) 2022-04-15

Family

ID=68630507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910828514.9A Active CN110516213B (zh) 2019-09-03 2019-09-03 一种基于表格层次化建模的结构化数据生成文本方法

Country Status (1)

Country Link
CN (1) CN110516213B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581929B (zh) * 2020-04-22 2022-09-27 腾讯科技(深圳)有限公司 基于表格的文本生成方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766506A (zh) * 2017-10-20 2018-03-06 哈尔滨工业大学 一种基于层次化注意力机制的多轮对话模型构建方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109740123A (zh) * 2018-12-21 2019-05-10 北京信息科技大学 使用实时数据生成体育赛事战报的方法
CN110019471A (zh) * 2017-12-15 2019-07-16 微软技术许可有限责任公司 从结构化数据生成文本
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766506A (zh) * 2017-10-20 2018-03-06 哈尔滨工业大学 一种基于层次化注意力机制的多轮对话模型构建方法
CN110019471A (zh) * 2017-12-15 2019-07-16 微软技术许可有限责任公司 从结构化数据生成文本
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109740123A (zh) * 2018-12-21 2019-05-10 北京信息科技大学 使用实时数据生成体育赛事战报的方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ata-to-Text Generation with Content Selection and Planning;Ratish Puduppully 等;《https://arxiv.org/pdf/1809.00582.pdf》;20190412;1-10 *
Table-to-Text Generation with Effective Hierarchical Encoder;Heng Gong 等;《https://arxiv.org/abs/1909.02304》;20190905;1-10 *
基于时间序列网络的谣言检测研究;任文静 等;《智 能 计 算 机 与 应 用》;20190531;第9卷(第3期);300-303 *
基于生成对抗网络的文本自动生成方法研究;孙博;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190115;I138-5137 *

Also Published As

Publication number Publication date
CN110516213A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
Yu et al. A joint sequence fusion model for video question answering and retrieval
Hendricks et al. Deep compositional captioning: Describing novel object categories without paired training data
Bakman Robust understanding of word problems with extraneous information
Dale et al. Referring expression generation through attribute-based heuristics
CN110609986B (zh) 一种基于预训练的结构化数据生成文本的方法
CN111310927B (zh) 一种引入推理机制的文本生成方法
CN111177396B (zh) 结合知识图谱的篮球赛事投篮事件自动分析和可视化方法
CN110516213B (zh) 一种基于表格层次化建模的结构化数据生成文本方法
Mohammad et al. Cross-lingual distributional profiles of concepts for measuring semantic distance
Li et al. Improving encoder by auxiliary supervision tasks for table-to-text generation
Deng et al. Universal scaling in sports ranking
Bukiet et al. A mathematical modelling approach to one-day cricket batting orders
Poplu et al. How do expert soccer players encode visual information to make decisions in simulated game situations?
Trosset An introduction to statistical inference and its applications with R
CN115204730B (zh) 一种旅游数据分析处理方法、设备及计算机存储介质
Corke et al. A novel system for tracking iron golf clubheads
CN112347366B (zh) 基于学习者画像与习题相似度的预科中文习题推送方法
Bahill The Science of baseball: Batting, bats, bat-ball collisions, and the flight of the ball
Schlangen Natural language semantics with pictures: Some language & vision datasets and potential uses for computational semantics
Ferrari Performance Analysis in Soccer. Potentialities and challenges in the African context
CN112651237B (zh) 一种基于用户情绪立场的用户画像建立方法及装置、用户画像的可视化方法
Suresh et al. Design and Analysis of a ChatBot with IPL First Inning Score Prediction
CN110019811A (zh) 文章推荐方法、装置及设备
CN105264603A (zh) 一种从视频录像索引可记录事件和在计算机硬盘上的可记录事件数据库中搜索可记录事件的方法
Liu Aesthetic Principles in Dance Performance in China and Japan

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant