CN110516213B

CN110516213B - 一种基于表格层次化建模的结构化数据生成文本方法

Info

Publication number: CN110516213B
Application number: CN201910828514.9A
Authority: CN
Inventors: 冯骁骋; 秦兵; 刘挺; 龚恒; 陈昱宇
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2022-04-15
Anticipated expiration: 2039-09-03
Also published as: CN110516213A

Abstract

一种基于表格层次化建模的结构化数据生成文本方法，本发明涉及结构化数据生成文本方法。本发明的目的是为了解决现有结构化数据生成文本只利用了数据本身单一信息，无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题。一、将数据集的记录用三元组表示，分别对每条记录所属的行、列维度建模得到该记录的行向量、列向量，并引入时间轴，对不同日期的同类型数据建模得到该记录的时间向量；二、融合行向量、列向量和时间向量得到该记录新的向量表示；三、对每行记录的新向量进行均值池化得到新行向量；四、每个解码时刻，对三得到的向量进行解码，得到当前时刻每条记录的权重。本发明用于表格数据生成文本方法。

Description

一种基于表格层次化建模的结构化数据生成文本方法

技术领域

本发明涉及结构化数据生成文本方法。

背景技术

本技术基于自然语言处理--文本生成领域的结构化数据生成文本(table-to-text)^[1](Table-to-text generation技术，文献引自Cambridge university press.，年份：2000年，作者：Ehud Reiter and Robert Dale.2000.题目：Building naturallanguage generation systems.),即给定表格数据，生成相应的描述表格信息的文本。

而目前对于table-to-text的技术大都采用的是端到端(seq2seq)的模型^[2](作者:Ilya Sutskever,Oriol Vinyals,and Quoc V Le.年份：2014.题目:Sequence tosequence learning with neural networks.I会议：n Advances in neural informationprocessing systems,pages 3104–3112)，取得了一定的效果，但是在对表格信息进行建模时，存在不足：

不足1)表格建模形式单一，无法衡量数据在实体数据整体表现以及同类型数据中的差异，在一定程度上导致了生成文本时相应数据信息不对应的问题(例如在生成文本中，球员A的数据和球员B的数据对应错误)。目前的建模方式是将表格信息统一为一个维度建模表示，但是通常来说表格信息包括多行多列，同一行或者同一列的数据往往能衡量实体数据的整体表现以及相应数据之类的差异情况；

不足2)无法对表格之间的数据进行联合评价。通常在多个表格之间通常有一些数据具有时间序列性质，例如NBA比赛，联合过去几场比赛信息可以有效的对球员的数据进行衡量。

现有实现table-to-text的方法的基线模型：CC(Wiseman et al.,2017)^[3](作者：Sam Wiseman,Stuart M.Shieber,and Alexander M.Rush.年份：2017.题目：Challengesin data-to-document generation.会议：In Proceedings of the 2017 Conference onEmpirical Methods in Natural Language Processing.)。

发明内容

本发明的目的是为了解决现有结构化数据生成文本只利用了数据本身单一信息，无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题，而提出一种基于表格层次化建模的结构化数据生成文本方法。

一种基于表格层次化建模的结构化数据生成文本方法具体过程为：

步骤一、将数据集中表格信息处理成三元组之后，每个三元组对应表格中一个记录，对于每个记录，进行行、列和时间维度的建模,对每个记录所属的行、列建模得到该记录用行信息表示该记录的行向量

和用列信息表示该记录的列向量

同时引入时间轴，对不同日期的同一类型数据进行建模，得到该记录时间表示的时间向量

步骤二、将步骤一得到的行、列和时间维度向量融合成新的向量，分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重；基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重，计算得到融合后的新的向量表示

步骤三、对同一行的融合后的新的向量表示

进行均值池化，得到对同一行的融合后的新的向量表示

进行均值池化后的行向量row_i；

步骤四、在解码步骤t时刻，对步骤二得到的

和步骤三得到的row_i进行解码，生成当前时候所有表格每个三元组的权重；

三元组权重要生成文字有2个概率，一个是拷贝概率，一个是生成文字概率：

拷贝概率就是三元组权重；

比较三元组权重和生成文字概率大小，若三元组权重大于生成文字概率，则生成的文字就是拷贝当前的三元组的值；

若三元组权重小于等于生成文字概率，则生成的文字就是将LSTM隐层映射到词表上，将词表中概率最大的文字作为生成字。

本发明的有益效果为：

采用了本方法之后，通过对行和列以及时间维度建模，取得了一定效果。行建模引入衡量了实体数据间的整体情况；列建模引入衡量了同类型数据之间的表现差异；时间维度建模将多表格数据之间的关系联系在了一起。解决了现有结构化数据生成文本只利用了数据本身单一信息，无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题。

在本方法进行试验后生成的文本中，生成了关于历史信息的数据，而且对球员本身的数据的描述更加准确，显示了本发明方法的有效性，在评价指标BLEU和事实类评价指标RG、CS上本发明方法比之前的方法取得了更好的结果。

BLEU为机器翻译评测的标准方法，值越高表示效果越好；CS为是指生成的文本内出现的表格数据和全部输入的表格数据的准确率和召回率；RG为是指生成的文本内出现的表格数据和参考文本内出现的表格数据的准确率和召回率。

附图说明

图1为本发明方案部分1示意图；

图2为本发明方案部分2示意图；

图3a为一场比赛的表格信息和对应的人工撰写的新闻英文示意图；

图3b为图3a一场比赛的表格信息和对应的人工撰写的新闻英文对应的中文示意图；

图4为对表格的行建模示意图；

图5为对表格的列进行建模示意图；

图6为时间维度建模示意图；

图7a为三元组拆分后的行数据为球队的所有信息示意图；

图7b为三元组拆分后的行数据为球员的所有信息示意图。

具体实施方式

具体实施方式一：结合图1、2说明本实施方式，本实施方式一种基于表格层次化建模的结构化数据生成文本方法具体过程为：

实验具体在ROTOWIRE数据集上进行实施验证。

ROTOWIRE数据集是2017年，哈佛大学自然语言处理研究组在EMNLP论文《Challenges in Data-to-document Generation》的工作(Wiseman et al.,2017)中提出。抽取了2014年1月1日至2017年3月29日之间的NBA比赛，每场比赛有相应的数据，以及新闻记者撰写的新闻摘要。每场比赛有相应的比赛数据和工人撰写的新闻摘要。

ROTOWIRE数据集是4853场NBA比赛的数据信息，一场比赛在数据集中是一张表格信息和对应的记者撰写的新闻摘要组成，表格以字典形式存放，例如第一场比赛

{“主队”：{“夏洛克黄蜂队”}；

“主队球员”：{“1号球员”：“迈克尔·基德-吉尔克里斯特”；“2号球员”：“艾尔·杰弗森”；...}

“主队得分”：{“1号球员”：13；“2号球员”：18；...}

“主队助攻”：{“1号球员”：1；“2号球员”：1；...}

“主队篮板”：{...}

...}

对字典数据可视化之后，如图3a、3b；

处理前，每个表格里有主客队两只球队，每支球队有得分、助攻、胜场、败场等15个属性；每支球队共有13个人，每个人有得分、助攻、篮板等22个属性。

注：这里三元组指的是(球队/球员名，数据类型，具体值)，例如(杰弗森，得分，13)；

和用列信息表示该记录的列向量

(对应公式13)；

步骤三、对同一行的融合后的新的向量表示

进行均值池化，得到对同一行的融合后的新的向量表示

进行均值池化后的行向量row_i；

步骤四、在解码步骤t时刻，对步骤二得到的

(对应公式13)和步骤三得到的row_i进行解码，生成当前时候所有表格每个三元组的权重(生成新的三元组表示)；

拷贝概率就是三元组权重；

比较三元组权重和生成文字概率大小，若三元组权重大于生成文字概率，则生成的文字就是拷贝当前的三元组的值，例如，此时拷贝概率大于生成文字概率，那么找三元组权重，比如(姚明、得分、16)这个三元组权重大，那么生成的文字就是16；

若三元组权重小于等于生成文字概率，则生成的文字就是将LSTM隐层映射到词表上，将词表中概率最大的文字作为生成字；比如说我的词表有1000个词，那么就选出1000个词中概率最大的文字作为生成字。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一中将数据集中表格信息处理成602个三元组之后(三元组指的是(球队/球员名，数据类型，具体值)，每个三元组对应表格中一个记录，例如(杰弗森，得分，13)，对于每个记录，进行行(球队或者球员的所有数据)、列(球队或者球员之间数据的横向对比)和时间维度的建模,对每个记录所属的行、列建模得到该记录用行信息表示该记录的行向量

和用列信息表示该记录的列向量

具体过程为：

最终本发明的目的是将当前第i行，第j列的当前数据的原始向量r_i,j(例如篮板10个)，表示成新的篮板向量表示

该向量中融合了篮板10个在球员本身得分、助攻等数据中的重要程度，和在球队成员篮板数据中的重要程度，以及在过去历史比赛中篮板数据的是重要程度。

步骤一一、对表格的行建模，如图4，即衡量球员当前数据在本场比赛的所有得分、篮板、助攻数据的表现，以例子中艾尔·杰弗森得分记录为例进行说明，本场比赛他得分为18分，希望通过他的其他数据衡量得分18是否正常发挥或者发挥失常等：

式中，∝为正比，

为表格第i行，第j列的记录转置，r_i,j′为表格第i行，第j′列的记录，即除得分外的其他篮板助攻抢断等数据，j≠j′，W_o为模型训练参数，

为表格中在艾尔的一行数据中，当前得分18分和其他所有篮板12，助攻1等记录中的相关性占比的权重。(简单举例来说，假如球员小明的一行数据中，得分为1，其他篮板10，助攻10，抢断3等都很优秀，那么将得分和篮板、助攻等算相关性权重后，加权得到的是本次比赛小明得分在所有记录中发挥不佳的表示，即用小明除得分外的数据衡量小明得分是否正常)；

式中，

为艾尔当前第i行第j列的数据在所有数据的总体表现，即艾尔·杰弗森的得分数据，用其他数据来衡量是否发挥出色或失常等。

将r_i,j和

两者拼在一起，经过tanh函数激活层，得到行维度表示的艾尔得分18分的向量

表达式为：

式3中，W_f是模型可训练参数，r_i,j为原始第i行，第j列的数据表示；

步骤一二、对表格的列进行建模，如图5，即衡量该球员的当前属性在所有球员中的表现如何，同样，以艾尔·杰弗森的得分18分为例，希望用其他球员的得分来衡量艾尔本场比赛的得分表现：

同理列建模，也可以得到列建模的表示，此时一列表现一个属性，如得分，篮板，助攻等

式4，r_i′,j为表格第i′行，第j列的记录，

类比式1，可理解为艾尔的得分18分在所有球员得分中的表现的权重(当前第三列表示所有球员的得分)，即艾尔·杰弗森得分在所有球员中是否突出，

为其他球员表示的艾尔本场比赛得分情况向量；

将r_i,j和

两者拼在一起，过tanh函数激活层，得到列维度表示的艾尔得分18分的向量

表达式为：

式5中，W_c是模型训练参数；

步骤一三、时间维度建模，如图6，即综合考虑过去比赛中球员或者球队的表现，同样，以艾尔·杰弗森得分为例，希望通过过去的表现衡量艾尔本场得分10分是否发挥正常或失常等。

同理行和列建模，可以得到时间维度的建模向量，同样以艾尔·杰弗森的得分18分为例，此时的时间轴为他过去比赛中的得分数据。

式6中，score为一层的MLP函数，rp_k为日期k下的记录表示，例如k＝2015_01_28，那么rp_k即为得分_17，rp_k′为日期k′下的记录表示，k≠k′；

表现当前艾尔得分18在过去几场比赛中的权重占比，即衡量本场比赛是否正常发挥；

式7中，

为艾尔本场比赛得分在过去比赛中得分的表示；

将r_i,j和

两者拼在一起，过tanh函数激活层，得到时间维度表示的艾尔得分18分的向量

表达式为：

式8中，W_t是模型可训练参数。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤二中将步骤一得到的行、列和时间维度向量融合成新的向量，分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重；基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重，计算得到融合后的新的向量表示

(对应公式13)；具体过程为：

步骤二一、引入表格信息融合机制，将步骤一得到的行、列和时间维度向量融合成新的表示艾尔·杰弗森得分18分的向量表示；

式中，

为初始的融合后的向量，

为行维度表示的艾尔得分18分的向量，

为列维度表示的艾尔得分18分的向量，

为时间维度表示的艾尔得分18分的向量；W_h为模型的训练参数；

步骤二二、分别计算列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重；公式为：

(这里希望不仅仅是简单的融合，希望能够权重化的融合，因此再引入注意力权重，如下)

式中，

为列维度表示的得分向量注意力权重；

为行维度表示的得分向量注意力权重；

为时间维度表示的得分向量注意力权重；

步骤二三、基于列维度表示的得分向量、行维度表示的得分向量和时间维度表示的得分向量的注意力权重，计算得到融合后的新的向量表示

公式为：

式13中，

为融合后的新的向量表示，例子化解释：新的表示融合了行、列、时间维度的艾尔得分18分；

对于每一个i,j都表示不同的数据记录，每个记录都如上重新融合行、列、时间维度信息建模成新的记录表示，不仅仅是艾尔的得分，其他球员的得分、篮板、助攻、失误、抢断等，凡是表中的数据都进行行、列、时间维度建模融合。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中对同一行的融合后的新的向量表示

进行均值池化，得到对同一行的融合后的新的向量表示

进行均值池化后的行向量row_i；具体过程为：

式中，

表示的是同一行的融合后的新的向量表示，即同一个球员或者球队的数据，例如

艾尔的得分，

艾尔的助攻......

艾尔的抢断，通过MeanPooling，得到艾尔自身数据的总体表现。Mean Pooling为均值池化，row_i为对同一行的融合后的新的向量表示

进行均值池化后的行向量row_i。

将新得到的权重化的融合向量

通过均值池化(Mean Pooling)得到行(球员/球队所有属性的整体表现)的表示(这里可以理解为优化，self-attention就是重新分配权重比例，例如原先可能是2:3:5，重新分配之后变成3:3:4这样，self-attention是希望模型能够更多的关注自己的向量内容)，得到相应的表示之后；

再在行间(即多个球队/队员)进行重新分配权重比例(self Attention)再进行建模(这里的Self-attention是希望衡量一下该球员在所有球员中的一个整体表现。)，得到球员在所有球员中的一个总体表现。

以上步骤一、二、三为编码阶段。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤四中在解码步骤t时刻，对步骤二得到的

(对应公式13)和步骤三得到的row_i进行解码，生成当前时候所有表格每个三元组的权重；具体过程为：

针对建模结果式14，在解码当前生成的文字的时候，式14中的row计算注意力权重，具体如图7a、7b：

拆分建模后，将行信息建模成向量，就是对以上图片信息建模成行(球员/球队信息)向量；

此时行向量表示一个球员/球队的综合整体表现。

步骤四一、计算注意力权重，公式为：

此时的注意力权重，就是将解码时候拥有的信息H(解码的状态)，去和每一行(所有球员或者球队)的向量计算一个权重，判断当前解码生成的文本应该包含那一行的信息；(选出一个解码时刻最关注的球员/球队)

β_t,i∝exp(score(d_t,row_i)) (15)

式中，β_t,i为每个球员或者球队的注意力权重；d_t为解码时候拥有的信息H(解码的状态)；

步骤四二、当确定了哪一行的信息对当前生成文字更重要之后，因为当前的行向量，是有602个三元组中的某10几个三元组构成，再将当前H和行向量计算注意力权重后的H’，和10几个三元组计算注意力权重，看看生成的文字应该更多的包含哪些三元组信息(例如，最后10几个三元组中(尼古拉斯·巴通姆,得分，19)计算出来权重最高，那么生成的文字很可能就是形容巴通姆这个球员的得分为19这个信息)(从选出的球员或者球队中找出最关注的属性，例如得分，篮板之类)；

计算每个三元组的注意力权重，公式如下：

式中，γ_t,i,j为每个三元组的注意力权重；

步骤四三、求解每个三元组在解码时刻和lstm当前状态的相关程度，即三元组的权重(即有多少信息有用)，公式为：

式中，

为每个球员或球队中每个三元组的权重。

三元组权重要生成文字有2个概率，一个是拷贝概率，一个是生成文字概率，拷贝概率就是三元组权重，如果三元组权重高，生成的文字就是拷贝当前的三元组的值，例如，此时拷贝概率大于生成文字概率，那么找三元组权重，比如(姚明、得分、16)这个三元组权重大，那么生成的文字就是16，如果生成文字概率大，就是将LSTM隐层映射到词表上，比如说我的词表有1000个词，那么就选出1000个词中概率最大的文字作为生成字。

其它步骤及参数与具体实施方式一至四之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例具体是按照以下步骤制备的：

对提出的方法进行了实现，同时和目前的基线模型(baseline模型)和参***进行了对比。

同样的例子，在目前的Baseline模型方式的结果提出的模型的结果。

目前的Baseline(CC模型)生成的文本结果：

baseline result(cc):

The Charlotte Hornets(21-27)defeated the Washington Wizards(31-18)92-88on Wedn esday...The Hornets were led by the duo of John Wall and BradleyBeal.Wall went 4-for-14 from the field and 1-for-4 from the three-point lineto score a game-high of 16 point...G erald Henderson had a solid showing aswell,finishing with 17 points(6-13FG,1-23Pt,4-4FT)andfiveassists.It was hissecond double-double in a row...

夏洛特黄蜂队(21胜27负)在周三以92比88击败了华盛顿奇才队(31胜18负)。黄蜂队由约翰·沃尔和布拉德利·比尔带领。沃尔14投4中，三分球4投1中，得到了自我记录最高的16分…。亨德森表现稳定,得到17分(6-13 FG,1 3 pt-2,4-4FT)和5次助攻。这是他连续第二次得到两双……

给出的标准答案

The Charlotte Hornets(21-27)defeated the Washington Wizards(31-18)92-88 on Monday...The Hornets were led by Al Jefferson in this game,who went 9-for-19 from the floor to score 18 points...It was the second time in the lastthree games he’s posted a double-double,while the two steals matched aseason-high for the center...Beal has turned it on over his last two games,combining for 44 points and 14 rebounds...This double-double marked thesecond in a row for Wall,who's combined for 44 points and 22 asssists overhis last two games...

夏洛特黄蜂队(21胜27负)在周三以92比88击败了华盛顿奇才队(31胜18负)。本场比赛黄蜂队由艾尔·杰佛森带领，19投9中得到18分...这是他在过去三场比赛中得分的第二次得分上双，同时两次抢断也是本赛季新高..比尔在最近两场比赛中回勇，一共拿下了44分14个篮板..在过去两场一共得分44分，22个助攻的沃尔本场得到了两双...

本发明方法生成的结果：

our model:The Charlotte Hornets(21-27)defeated the Washington Wizards(31-18)92-88 on Monday...The Hornets were led by Al Jefferson,who recorded adouble-double of his own with 18 points(9-19 FG,0-2 FT)and 12 rebounds.It washis second double-double over his last three games...The only other Wizard toreach double-digit points was Kris Humphries,who came off the bench for 13points(4-8 FG,5-6 FT)and five rebounds in 26 minutes...

本发明的模型结果：夏洛特黄蜂队在周一(21-27)击败了华盛顿奇才队，艾尔·杰佛森带领了黄蜂队，拿下来18分(9-19FG，0-2FT)和12个篮板的两双数据，这是他在过去三场比赛中得到的第二次两双...克丽丝汉弗莱斯替补上场26分钟，得到了13分(4-8FG，5-6FT)，5个篮板，拿到了上双的数据...

看出，在第一个带领Hornets(黄蜂队)的人物选择上，本发明提出的方法产生的结果和标准参***一致，而基线模型则给出错误；同时，在过去三场比赛拿到“二双”数据上，本发明生成的和参***一致，而基线模型则信息不对应，无法生成相应的文本。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。