CN114281968B

CN114281968B - 一种模型训练及语料生成方法、装置、设备和存储介质

Info

Publication number: CN114281968B
Application number: CN202111565632.9A
Authority: CN
Inventors: 马率; 田孟; 冯欣伟; 张一麟; 姜文斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-02-28
Anticipated expiration: 2041-12-20
Also published as: CN114281968A

Abstract

本公开提供了一种模型训练及语料生成方法、装置、设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习技术领域。可用于结构化数据问答场景。模型训练方法包括：获取样本训练数据，其中，样本训练数据包括：样本表格数据、样本表格数据关联的样本结构化查询语言SQL语句和样本自然语言问题；确定样本SQL语句的样本语法表征；根据样本训练数据和样本语法表征，训练执行目标语料生成任务的语料生成模型；其中，目标语料包括目标自然言语问题和目标SQL语句。能够实现高质量且成规模的生成自然言语问题及其对应的SQL语句。

Description

一种模型训练及语料生成方法、装置、设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习技术领域。可用于结构化数据问答场景。

背景技术

随着人工智能技术的发展，基于问答模型进行人机交互逐渐兴起。而表格问答作为问答领域的其中一项分支，可帮助从结构化数据，如表格数据中提取问题关键信息，尤其在处理海量信息的过程中可以有效减少筛选成本以辅助决策。

目前，在表格问答模型训练的过程中，如何生成高质量且成规模的自然语言问题及其对应的SQL语句作为表格问答模型的训练语料尤为重要。

发明内容

本公开提供了一种模型训练及语料生成方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种模型训练方法，包括：

获取样本训练数据；其中，样本训练数据包括：样本表格数据、样本表格数据关联的样本自然语言问题和样本结构化查询语言SQL语句；

确定样本SQL语句的样本语法表征；

根据样本训练数据和样本语法表征，训练执行目标语料生成任务的语料生成模型；其中，目标语料包括目标自然言语问题和目标SQL语句。

根据本公开的另一方面，提供了一种语料生成方法，包括：

获取目标表格数据和目标语法表征；其中，目标语法表征基于训练语料生成模型的样本SQL语句生成；

将目标表格数据和目标语法表征输入语料生成模型，得到目标语料；其中，目标语料包括目标自然言语问题和目标SQL语句；语料生成模型根据本公开任一实施例的模型训练方法训练得到。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开任一实施例的模型训练和/或语料生成方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开任一实施例的模型训练和/或语料生成方法。

根据本公开的技术，能够实现高质量且成规模的生成自然言语问题及其对应的SQL语句。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种模型训练方法的流程图；

图2是根据本公开实施例提供的一种模型训练方法的流程图；

图3是根据本公开实施例提供的一种模型训练方法的流程图；

图4是根据本公开实施例提供的模型训练过程的示意图；

图5是根据本公开实施例提供的一种语料生成方法的流程图；

图6是根据本公开实施例提供的一种模型训练装置的结构示意图；

图7是根据本公开实施例提供的一种语料生成装置的结构示意图；

图8是用来实现本公开实施例的模型训练和/或语料生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，训练表格问答模型时，通常是将自然语言问题作为模型的输入，将自然语言问题对应的SQL语句作为监督数据，来对模型进行训练。因此，如何生成高质量且成规模的自然语言问题及其对应的SQL语句作为训练语料，对于训练表格问答模型尤为重要。

本公开实施例提供了一种专门用于生成表格问答模型所需训练语料的语料生成模型的训练方法，基于该方法训练后的语料生成模型，能够基于任意表格，生成高质量且成规模的自然语言问题及其对应的SQL语句。

图1是根据本公开实施例提供的一种模型训练方法的流程图。本公开实施例适用于训练执行语料生成任务的语料生成模型的情况。其中，该语料包含自然语言问题及其对应的SQL语句。该方法可以由模型训练装置来执行，该装置可以采用软件和/或硬件的方式实现。如图1所示，本实施例提供的模型训练方法可以包括：

S101，获取样本训练数据。

其中，所谓样本训练数据用于训练语料生成模型。具体的，可以是包含样本表格数据、样本表格数据关联的样本自然语言问题和样本SQL语句的三元组数据。所谓样本表格数据可以为预先采集的各领域的高质量表格。样本自然语言问题可以是基于样本表格数据，采用自然语言生成的问题语句。样本SQL语句可以是按照一定的转换规则，将自然语言问题，从自然语言转换成结构化查询语言后得到的语句。

可选的，在本实施例中，获取样本训练数据的方式有很多，例如，可以从训练数据库中查找并获取满足要求(即包含表格数据、表格数据关联的自然语言问题和SQL语句)的数据作为样本训练数据。还可以从语句库中查找并获取具有关联关系的自然语言问题和SQL语句，作为样本自然语言问题和样本SQL语句，进而在表格库中查找符合该样本SQL语句的表格数据，作为样本表格数据，从而得到样本训练数据。也可以从表格库中获取各领域的高质量表格作为样本表格数据，并基于该样本表格数据，人工标注出对应的样本自然语言问题和样本SQL语句，从而得到样本训练数据。还可以采用其他方式来获取，对此本实施例不进行限定。

需要说明的是，一个样本表格可以对应多种形式的样本自然语言问题，不同样本自然语言问题对应的样本SQL语句可以相同，也可以不同。本实施例可以是将每一个自然语言问题，及其对应的SQL语句和样本表格组成的三元数组作为一组训练数据。

S102，确定样本SQL语句的样本语法表征。

其中，所谓样本语法表征本质上是一种模糊的特征表示，用于表征SQL语句所对应的一种结构化的问法模式。该样本语法表征有助于语料生成模型从表格数据中抽象出满足该问法格式的SQL语句。可选的，该样本语法表征可以是通过向量或矩阵的形式表示。

可选的，由于样本语法表征是基于SQL语句的问法模式抽象出来的，所以不同的SQL语句可能对应相同的语法表征。因此，可以是预先构建包括各种问法模式的SQL语句的语法表征库，在确定样本SQL语句的样本语法表征时，可以是基于样本SQL语句的问法模式，在语法表征库中查找该问法模式关联的语法表征作为样本语法表征。还可以是分析样本SQL语句的问法模式，并基于该问法模式的语法表征构建规则，生成该样本SQL语句的样本语法表征。也可以是基于预先训练的深度学习模型，来为样本SQL语句生成对应的样本语法表征等，对此本实施例不进行限定。

优选的，本实施例针对训练样本中的样本SQL语句，可以先在语法表征库中查找是否存在对应的样本语法表征，若有直接获取，若没有，再执行基于样本SQL语句生成样本语法表征的操作。

S103，根据样本训练数据和样本语法表征，训练执行目标语料生成任务的语料生成模型。

其中，语料生成模型可以是为训练表格问答模型生成训练语料(即目标语料)的深度学习模型，其可以是基于预训练语言模型(如Bert模型或TaBert模型等)训练得到。所谓目标语料包括具有关联关系的目标自然言语问题和目标SQL语句。

可选的，本实施例可以将样本训练数据中的样本表格数据和样本语法表征作为语料生成模型的输入，将样本训练数据中的样本自然语言问题和样本SQL语句作为训练语料生成模型的监督数据，来对语料生成模型进行有监督训练。具体的，可以是将样本表格数据和样本语法表征输入到语料生成模型中，语料生成模型对输入的样本表格数据和样本语法表征进行编解码处理，输出预测自然语言问题和预测SQL语句，基于预测自然语言问题和样本自然语言问题计算第一损失函数，基于预测SQL语句和样本SQL语句计算第二损失函数，进而根据第一损失函数和第二损失函数，反向传播更新语料生成模型的模型参数。

需要说明的是，本实施例需要基于多组训练样本数据，按照上述方案对语料生成模型进行多次迭代训练，直至达到预设的训练停止条件，则停止调整语料生成模型的参数，得到经训练的语料生成模型。训练停止条件可以包括：训练次数达到预设次数，或者模型损失收敛等。

本公开实施例的技术方案，获取包含样本表格数据、样本自然语言问题和样本SQL语句的样本训练数据，确定样本SQL语句对应的样本语法表征，进而基于样本语法表征和获取的样本训练数据，来对语料生成模型进行训练。本方案在语料生成模型的训练阶段，引入表征SQL语句的问法模式的语法表征，能够有效从表格结构化信息中，通过语法表征约束并引导预测结果的方向，从而生成一组关联的自然语言问题和SQL语句。泛化能力更强。另外，在模型训练阶段引入监督数据，通过有监督训练进一步提高模型训练的准确性。为后续基于该语料生成模型高质量且成规模的生成表格问答模型的训练语料提供了保障。

在本实施例中，样本表格数据可以是各领域原始的高质量表格数据(即原始表格数据)，在原始表格数据的数据量较大时，如表格中包含的行或列较多时，也可以对原始表格数据进行预处理后得到样本表格数据。可选的，可以是对原始表格数据进行采样处理，得到样本表格数据。

具体的，可以按照一定采样规则，如根据实际需求或随机等方式，对原始表格数据进行采样，如，从原始表格中采样至少一行或一列数据，来生成样本表格数据。此时生成的样本表格数据，可以是仅包含采样出的数据的表格；还可以是原始表格数据加上采样出的数据对应的行名称信息或列名称信息。其中，行名称信息或列名称信息可以是行名或列名，还可以是对行名或列名编码后的标识信息等。本实施例采用对原始表格数据抽样出的样本表格数据对模型进行训练，极大的降低了表格的数据量，进而降低模型训练过程的运算量，另外，通过采样能够增加模型输入的随机性和多样性，进而增加模型输出结果的丰富度。

图2是根据本公开实施例提供的一种模型训练方法的流程图。本公开实施例在上述实施例的基础上，进一步对如何确定样本SQL语句的样本语法表征进行详细解释说明，如图2所示，本实施例提供的模型训练方法可以包括：

S201，获取样本训练数据。

其中，样本训练数据包括：样本表格数据、样本表格数据关联的样本结构化查询语言SQL语句和样本自然语言问题。

S202，将样本SQL语句转换为抽象语法树。

其中，所谓抽象语法树可以是SQL语法结构的一种抽象表示。它以树状的形式表现SQL的语法结构，树上的每个节点都表示SQL语句中的一种结构。

可选的，在本实施例中，一种可实施方式为预先构建包括各种SQL语句的抽象语法树的语法树库，在将样本SQL语句转换为抽象语法树时，可以是基于样本SQL语句的标识信息，在语法表征库中查找该标识信息对应的抽象语法树作为样本SQL语句转换后的抽象语法树。

由于SQL是基于抽象语法树生成的，所以本实施例的另一种可实施方式可以是基于抽象语法树生成SQL语句的具体生成规则，如各叶子节点和非叶子节点之间基于什么样的规则来生成SQL语句。对样本SQL语句进行逆向分析，从而抽象出该样本SQL语句对应的抽象语法树。

另外，还有一种可实施方式是基于预先训练的深度学习模型，来将样本SQL语句转换为抽象语法树等。

需要说明的是，本实施例还可以采用其他方式将样本SQL语句转换为抽象语法树，对此不进行限定。

S203，根据抽象语法树中各节点的标识信息，确定样本SQL语句的样本语法表征。

可选的，由于抽象语法树是树状结构，所以其中包含了多个叶子节点和非叶子节点，本实施例可以按照预设规则为抽象语法树中的各叶子节点和非叶子节点设置标识信息。例如，可以按照从上至下，从左至右的顺序依次为各节点设置标识信息。具体的，为各节点设置标识信息时，可以是依次为各节点编号，并将编号结果作为各节点的标识信息。还可以对各节点表征内容进行编码，并将编码结果作为各节点的标识信息等。

可选的，本实施例可以按照预设顺序(如从左到右，基于深度优选原则)依次遍历抽象语法树的各节点，并获取各节点的标识信息，并按照遍历顺序，将各节点的标识信息进行排列，得到样本SQL语句的样本语法表征。

S204，根据样本训练数据和样本语法表征，训练执行目标语料生成任务的语料生成模型。

其中，目标语料包括目标自然言语问题和目标SQL语句。

本公开实施例的技术方案，获取包含样本表格数据、样本自然语言问题和样本SQL语句的样本训练数据，将样本SQL语句转换为抽象语法树后，基于抽象语法树中各节点的标识信息，确定样本语法表征，进而基于样本语法表征和获取的样本训练数据，来对语料生成模型进行训练。本方案基于表征SQL语句语言结构的抽象语法树确定表征SQL语句问法模式的语法表征，提高了语法表征的准确性。为后续基于语法表征来训练语料生成模型提供了技术支撑。

图3是根据本公开实施例提供的一种模型训练方法的流程图。本公开实施例在上述实施例的基础上，进一步对如何将样本SQL语句转换为抽象语法树进行详细解释说明，如图3所示，本实施例提供的模型训练方法可以包括：

S301，获取样本训练数据。

S302，识别样本SQL语句中的索引信息和约束条件信息。

其中，所谓索引信息可以是SQL语句中表征从哪里进行数据查询的相关信息。约束条件信息可以是SQL语句中表征查询什么样的数据或者怎么查询数据的相关信息。

可选的，本实施例可以基于SQL语句的生成规则，确定索引信息在SQL语句中对应的索引字段，以及约束条件信息在SQL语句中对应的约束字段，进而将样本SQL语句的索引字段对应的内容作为取索引信息，将样本SQL语句的约束字段对应的内容作为约束条件信息。

例如，若样本SQL语句为：SELECT location FROM performance GROUP BYlocation HAVING COUNT(*)>＝2。且该样本SQL语句中前4个字段对应是的索引字段，剩余字段对应约束字段，则此时针对该样本SQL语句，识别出的索引信息为：SELECT locationFROM performance。约束条件信息为GROUP BY location HAVING COUNT(*)>＝2。

S303，根据索引信息，确定抽象语法树的第一分支。

需要说明的是，本实施例构建的抽象语法树可以由两个分支构成，即基于索引信息构建的第一分支，和基于约束条件信息构建的第二分支。

可选的，根据索引信息确定抽象语法树的第一分支的方式可以是从索引信息中抽象出索引关键词，对应到第一分支的叶子节点上，并结合第一分支非叶子节点的生成规则，构建抽象语法树的第一分支。可选的，具体包括如下子步骤：

(一)、根据索引信息，确定查询词和位置词，作为索引关键词。

其中，查询词可以是索引信息中代表查询含义的词汇，如SQL语句中的SELECT。位置词可以是索引信息中代表查询位置的词汇，如表格名、表格行名或表征列名等词汇。可选的，在索引信息中，查询词和位置词对应的字段通常是固定的，所以本实施例的一种可实施方式为从查询索引信息的固定字段获取查询词和位置词作为索引关键词。另一种可实施方式为对索引信息中的各词汇进行语义解析，找出表征查询词的词汇和表征位置词从词汇作为索引关键词。还可以通过其他方式确定，对此不进行限定。

(二)、将索引关键词转换为索引抽象词。

其中，索引抽象词可是对索引关键词进行模糊化处理后抽象出的词汇。可选的，本实施例可以根据预设的转换规则，将索引关键词转换为对应的索引抽象词。例如，可以将索引关键词中的查询词“SELECT”转换为索引抽象词“查询”；将索引关键词中表征列名值的位置词转换为索引抽象词“列名值”；将索引关键词中表征表名值的位置词转换为索引抽象词“表名值”。

(三)、根据索引抽象词和第一分构建逻辑，生成抽象语法树的第一分支。

可选的，本实施例可以是将转换后的各索引抽象词作为第一分支的叶子节点，并结合第一分支的非叶子节点的构建逻辑，如各非叶子节点之间的连接逻辑，生成抽象语法树的第一分支。

本实施例通过从索引信息中提取关键词，进行模糊抽象处理后，结合抽象词来构建抽象语法树的第一分支，采样该方式构建的第一分支能够更直观的表征出问法模型对应的索引信息，为语法树的构建提供了新思路。

S304，根据约束条件信息，确定抽象语法树的第二分支。

根据约束条件信息确定抽象语法树的第二分支的方式可以是从约束条件信息中抽象出约束关键词，对应到第二分支的叶子节点上，并结合第二分支非叶子节点的生成规则，构建抽象语法树的第二分支。可选的，可以包括如下子步骤：

(一)、根据约束条件信息，确定约束功能词、视图词和约束逻辑词，作为约束关键词。

其中，约束功能词可以是表征约束条件信息整体约束功能的词汇，例如，约束功能词可以是“筛选”。视图词可以是约束条件信息中表征视图展示方式的词汇，例如，组合展示或逐一展示等。约束逻辑词可以是约束信息中表征具体的查询逻辑的词汇。

可选的，确定约束关键词的方式可以与确定索引关键词的方式类似，如可以是通过约束功能词、视图词和约束逻辑词对应的字段获取；还可以是对约束条件信息中的各词汇进行语义解析后确定，对此不进行赘述。

(二)、将约束关键词转换为约束抽象词。

其中，约束抽象词可以是对约束关键词进行模糊化处理后抽象出的词汇。

本实施例将约束关键词转换为约束抽象词的过程可以与将索引关键词转换为索引抽象词的过程类似，例如，根据预设的转换规则，将约束关键词转换为对应的约束抽象词。

(三)、根据约束抽象词和第二分支构建逻辑，生成抽象语法树的第二分支。

可选的，本实施例可以是将转换后的各约束抽象词作为第二分支的叶子节点，并结合第二分支的非叶子节点的构建逻辑，如各非叶子节点之间的连接逻辑，生成抽象语法树的第二分支。

本实施例通过从约束条件信息中提取关键词，进行模糊抽象处理后，结合抽象词来构建抽象语法树的第二分支，采样该方式构建的第二分支能够更直观的表征出问法模型对应的规约逻辑，为语法树的构建提供了新思路。

S305，根据第一分支和第二分支，生成抽象语法树。

具体的，本实施例可以是将第一分支和第二分支进行组合，得到完整的抽象语法树。例如，可是将第一分支作为抽象语法树根节点的左边分支，将第二分支作为抽象语法树根节点的右边分支，即可得到完整的抽象语法树。

S306，根据抽象语法树中各节点的标识信息，确定样本SQL语句的样本语法表征。

S307，根据样本训练数据和样本语法表征，训练执行目标语料生成任务的语料生成模型。

其中，目标语料包括目标自然言语问题和目标SQL语句。

本公开实施例的方案，在对样本SQL语句进行抽象语法树转换时，基于样本SQL语句的索引信息生成第一分支，基于样本SQL语句的条件约束信息生成第二分支，进而生成包括两个认知的抽象语法树。本实施例生成的抽象语法树虽然仅包含两个分支，但是能够直观且清晰的表征出SQL的结构化特征信息，为构建SQL语句的抽象语法树提供了新思路。为后续基于该抽象语法树，确定样本语法表征，以及进行模型训练提供了技术支撑。

图4是根据本公开实施例提供的模型训练过程的示意图；在上述方案的基础上，结合图4对本实施例的模型训练方法进行示例性说明。示例性的，如图4所示，本实施例的样本训练数据包括样本表格数据、自然语言问题“Show the locations that have at leasttwo performance”和SQL语句“SELECT location FROM performance GROUP BY locationHAVING COUNT(*)>＝2”。具体的，本实施例可以是先从该SQL语句中识别出索引信息“SELECT location FROM performance”和约束条件信息“GROUP BY location HAVINGCOUNT(*)>＝2”。

从该索引信息中确定“SELECT(查询词)”、“location(表征列名的位置词1)”和“performanc(表征表名的位置词2)”，作为索引关键词，并将“SELECT”转换为索引抽象词“查询(Get-P)”，将“location”转换为索引抽象词“列名值(Column)”；将“performance”转换为索引抽象词“表名值(Table)”。并结合第一分支对应的构建逻辑，即“多值函数(MultValue Func)→值查询函数1(Value Func1)→查询(Get-P)+列名值(Column)+表名值(Table)”生成图4中根节点下的左分支，即抽象语法树的第一分支。

从约束条件信息中确定“筛选(约束功能词)”、“GROUP BY(视图词)”“>＝(约束逻辑词1)”、“count(约束逻辑词2)”、“(*)(约束逻辑词3)”和“2(约束逻辑词4)”，并将“>＝”转换成约束抽象词“比较(compare)”；将“count”转换成约束抽象词“计数(count)”、将“(*)”转换成约束抽象词“值1(value1)”；将“2”转换成约束抽象词“值2(value2)”；将“筛选”转换成约束抽象词“筛选(filter)”；将“GROUP BY”转换成约束抽象词“组合形式(Group by)”。并结合第二分支对应的构建逻辑，即“主体约束函数(Subject Func1)→筛选(filter)+规约逻辑函数(Logic Func)+视图显示函数(Subject Func2)”、“视图显示函数(Group by)→组合形式(Group by)”、“规约逻辑函数(Logic Func)→比较(compare)+值查询函数2(Value Func2)+值查询函数3(Value Func3)”、“值查询函数2(Value Func2)→计数(count)+值1(value1)”以及“值查询函数3(Value Func3)→值2(value2)”，生成图4中根节点下的右分支，即抽象语法树的第二分支。将第一分支和第二分支进行组合，即可得到图4中的抽象语法树。

将SQL语句转换为抽象语法树后，可以按照从左到右，基于深度优选原则依次遍历抽象语法树的各节点，并获取各节点的标识信息，如根节点的标识信息为3，多值函数节点的标识信息为41等，并按照遍历顺序，将各节点的标识信息进行排列，得到样本SQL语句的样本语法表征“3、41、13、60、80、81、7、61、28、62和16......”。

接下来，将上述样本语法表征与样本训练数据中的样本表格数据作为语料生成模型的输入数据，将样本自然语言问题(即图4中的样本问题)和样本SQL语句作为监督数据，对语料生成模型进行训练。具体的，将样本语法表征和样本表格数据输入到语料生成模型的编码网络中，编码网络会对输入的数据进行编码并将编码结果分别传输至问题解码网络和SQL解码网络，问题解码网络会对编码网络传输的编码结果进行解析，输出预测自然语言问题；SQL解码网络会对编码网络传输的编码结果进行解析，输出预测SQL语句。基于预测自然语言问题和样本自然语言问题计算第一损失函数，基于预测SQL语句和样本SQL语句计算第二损失函数，进而根据第一损失函数和第二损失函数，反向传播更新语料生成模型的模型参数。

图5是根据本公开实施例提供的一种语料生成方法的流程图。本公开实施例适用于使用上述实施例训练的语料生成模型来生成包括自然言语问题和SQL语句的训练语料的情况。该方法可以由语料生成装置来执行，该装置可以采用软件和/或硬件的方式实现。如图5所示，本实施例提供的语料生成方法可以包括：

S501，获取目标表格数据和目标语法表征。

其中，所谓目标表格数据可以是语料生成模型执行语料生成任务时，给定的表格数据，例如，该目标表格数据可以是各个领域新增的表格数据。所谓目标语法表征基于训练语料生成模型的样本SQL语句生成。目标语法表征的数量为至少一个。

具体的，在语料生成模型的训练阶段，针对每组样本训练数据，都会为其中包含的样本SQL语句，确定一个样本语法表征，其具体确定过程在上述实施例中已经进行了详细介绍，在此不进行赘述。本实施例可以是从模型训练阶段为各样本SQL语句确定的各样本语法表征的集合中，选择至少一个样本语法特征作为目标语法表征。

可选的，若存在各种问法模式的SQL语句的语法表征对应的语法表征库，则本实施例还可以从该语法表征库中获取至少一个语法表征作为本实施例的目标语法表征。

S502，将目标表格数据和目标语法表征输入语料生成模型，得到目标语料。

其中，所谓目标语料包括目标自然言语问题和目标SQL语句；需要说明的是，目标SQL语句是目标自然语言问题从自然语言转换为SQL语言后的语句。所谓语料生成模型根据上述任一实施例的模型训练方法来训练得到。

具体的，本实施例可以是将目标表格数据和目标语法表征输入到上述任一实施例训练的语料生成模型中，该语料生成模型会通过编码网络，对输入的目标表格数据和各个目标语法表征进行编码处理，再通过问题解码网络，对编码结果进行解码，得到目标自然语言问题，通过SQL解码网络，对编码结果进行解码，得到目标SQL语句。即针对每个目标语法表征都输出一组目标自然语言问题和目标SQL语句，作为一组目标语料。

可选的，在目标语法表征有多个时，语料生成模型在输出每组目标语料的同时，还输出该目标语料对应的置信度，此时，可以基于各目标语料的置信度，从多个目标语料中选出高质量的目标语料作为最终用于训练表格问答模型的训练语料。以实现高质量且成规模的生成表格问答模型的训练语料。

本公开实施例可以将目标表格和多个目标语法表征输入到语料生成模型中，得到多组包含自然语言问题及其对应的SQL语句的目标语料。由于语料生成模型训练的过程中引入表征SQL语句的问法模式的语法表征，所以基于训练后的语料生成模型生成的目标语料泛化能力更强，实现了基于一个目标表格和多个目标语法表征，高质量且成规模的生成表格问答模型训练所需的目标语料。

可选的，在本实施例中，目标表格数据可以是原始给定的待处理表格数据。在待处理表格数据的数据量较大时，如表征中包含的行或列较多时，也可以是对待处理表格数据进行预处理后得到的。具体的，可以是获取待处理表格数据，并对待处理表格数据进行采样处理，得到目标表格数据。需要说明的是，对待处理表格数据进行采样，得到目标表格数据的过程可以与上述实施例介绍的对原始表格数据进行采样处理，得到样本表格数据的过程类似，在此不进行赘述。本实施例采用对原始表格数据抽样出的目标表格数据来生成目标语料，极大的降低了表格的数据量，进而降低模型训练过程的运算量，另外，通过采样能够增加模型输入的随机性和多样性，进而增加模型输出结果的丰富度。

图6是根据本公开实施例提供的一种模型训练装置的结构示意图。本公开实施例适用于训练执行训练语料生成任务的语料生成模型的情况。其中，该训练语料包含自然语言问题及其对应的SQL语句。该装置可以采用软件和/或硬件来实现，该装置可以实现本公开任意实施例的模型训练方法。如图6所示，该模型训练装置600包括：

训练数据获取模块601，用于获取样本训练数据；其中，样本训练数据包括：样本表格数据、样本表格数据关联的样本自然语言问题和样本结构化查询语言SQL语句；

语法表征确定模块602，用于确定样本SQL语句的样本语法表征；

模型训练模块603，用于根据样本训练数据和样本语法表征，训练执行目标语料生成任务的语料生成模型；其中，目标语料包括目标自然言语问题和目标SQL语句。

本公开实施例的方案，获取包含样本表格数据、样本自然语言问题和样本SQL语句的样本训练数据，确定样本SQL语句对应的样本语法表征，进而基于样本语法表征和获取的样本训练数据，来对语料生成模型进行训练。本方案在语料生成模型的训练阶段，引入表征SQL语句的问法模式的语法表征，能够有效从表格结构化信息中，通过语法表征约束并引导预测结果的方向，从而生成一组关联的自然语言问题和SQL语句。泛化能力更强。另外，在模型训练阶段引入监督数据，通过有监督训练进一步提高模型训练的准确性。为后续基于该语料生成模型高质量且成规模的生成表格问答模型的训练语料提供了保障。

进一步的，上述语法表征确定模块602，包括：

语法树转换单元，用于将样本SQL语句转换为抽象语法树；

语法表征确定单元，用于根据抽象语法树中各节点的标识信息，确定样本SQL语句的样本语法表征。

进一步的，上述语法树转换单元，包括：

信息识别子单元，用于识别样本SQL语句中的索引信息和约束条件信息；

第一分支确定子单元，用于根据索引信息，确定抽象语法树的第一分支；

第二分支确定子单元，用于根据约束条件信息，确定抽象语法树的第二分支；

语法树生成子单元，用于根据第一分支和第二分支，生成抽象语法树。

进一步的，上述第一分支确定子单元具体用于：

根据索引信息，确定查询词和位置词，作为索引关键词；

将索引关键词转换为索引抽象词；

根据索引抽象词和第一分构建逻辑，生成抽象语法树的第一分支。

进一步的，上述第二分支确定子单元具体用于：

根据约束条件信息，确定约束功能词、视图词和约束逻辑词，作为约束关键词；

将约束关键词转换为约束抽象词；

根据约束抽象词和第二分支构建逻辑，生成抽象语法树的第二分支。

进一步的，上述装置，还包括：

数据采样模块，用于对原始表格数据进行采样处理，得到样本表格数据。

图7是根据本公开实施例提供的一种语料生成装置的结构示意图。本公开实施例适用于基于上述实施例训练的语料生成模型来基于给定表格生成包括自然言语问题和SQL语句的训练语料的情况。该装置可以采用软件和/或硬件来实现，该装置可以实现本公开任意实施例的语料生成方法。如图7所示，该语料生成装置700包括：

目标数据获取模块701，用于获取目标表格数据和目标语法表征；其中，目标语法表征基于训练语料生成模型的样本SQL语句生成；

语料生成模块702，用于将目标表格数据和目标语法表征输入语料生成模型，得到目标语料；其中，目标语料包括目标自然言语问题和目标SQL语句；语料生成模型根据本公开任一实施例的模型训练方法来训练得到。

进一步的，上述目标数据获取模块701具体用于：

获取待处理表格数据，并对待处理表格数据进行采样处理，得到目标表格数据。

上述产品可执行本公开任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的表格数据、自然语言问题和SQL语句等的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如模型训练和/或语料生成方法。例如，在一些实施例中，模型训练和/或语料生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的模型训练和/或语料生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练和/或语料生成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作***、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

获取样本训练数据；其中，所述样本训练数据包括：样本表格数据、所述样本表格数据关联的样本自然语言问题和样本结构化查询语言SQL语句；

将样本SQL语句转换为抽象语法树；

根据所述抽象语法树中各节点的标识信息，确定所述样本SQL语句的样本语法表征；

根据所述样本训练数据和所述样本语法表征，训练执行目标语料生成任务的语料生成模型；其中，所述目标语料包括目标自然言语问题和目标SQL语句；

其中，所述将样本SQL语句转换为抽象语法树，包括：

识别所述样本SQL语句中的索引信息和约束条件信息；

根据所述索引信息，确定所述抽象语法树的第一分支；

根据所述约束条件信息，确定所述抽象语法树的第二分支；

根据所述第一分支和所述第二分支，生成抽象语法树。

2.根据权利要求1所述的方法，其中，所述根据所述索引信息，确定所述抽象语法树的第一分支，包括：

根据所述索引信息，确定查询词和位置词，作为索引关键词；

将所述索引关键词转换为索引抽象词；

根据所述索引抽象词和第一分构建逻辑，生成所述抽象语法树的第一分支。

3.根据权利要求1所述的方法，其中，所述根据所述约束条件信息，确定所述抽象语法树的第二分支，包括：

将所述约束关键词转换为约束抽象词；

根据所述约束抽象词和第二分支构建逻辑，生成所述抽象语法树的第二分支。

4.根据权利要求1所述的方法，还包括：

对原始表格数据进行采样处理，得到样本表格数据。

5.一种语料生成方法，包括：

获取目标表格数据和目标语法表征；其中，所述目标语法表征基于训练语料生成模型的样本SQL语句生成；

将所述目标表格数据和所述目标语法表征输入语料生成模型，得到目标语料；其中，所述目标语料包括目标自然言语问题和目标SQL语句；所述语料生成模型根据权利要求1-4中任一项所述的方法来训练得到。

6.根据权利要求5所述的方法，其中，所述获取目标表格数据，包括：

获取待处理表格数据，并对所述待处理表格数据进行采样处理，得到目标表格数据。

7.一种模型训练装置，包括：

训练数据获取模块，用于获取样本训练数据；其中，所述样本训练数据包括：样本表格数据、所述样本表格数据关联的样本自然语言问题和样本结构化查询语言SQL语句；

语法表征确定模块，用于确定样本SQL语句的样本语法表征；

模型训练模块，用于根据所述样本训练数据和所述样本语法表征，训练执行目标语料生成任务的语料生成模型；其中，所述目标语料包括目标自然言语问题和目标SQL语句；

其中，所述语法表征确定模块，包括：

语法树转换单元，用于将所述样本SQL语句转换为抽象语法树；

语法表征确定单元，用于根据所述抽象语法树中各节点的标识信息，确定所述样本SQL语句的样本语法表征；

其中，所述语法树转换单元，包括：

信息识别子单元，用于识别所述样本SQL语句中的索引信息和约束条件信息；

第一分支确定子单元，用于根据所述索引信息，确定所述抽象语法树的第一分支；

第二分支确定子单元，用于根据所述约束条件信息，确定所述抽象语法树的第二分支；

语法树生成子单元，用于根据所述第一分支和所述第二分支，生成抽象语法树。

8.根据权利要求7所述的装置，其中，所述第一分支确定子单元具体用于：

将所述索引关键词转换为索引抽象词；

9.根据权利要求7所述的装置，其中，所述第二分支确定子单元具体用于：

将所述约束关键词转换为约束抽象词；

10.根据权利要求7所述的装置，还包括：

11.一种语料生成装置，包括：

目标数据获取模块，用于获取目标表格数据和目标语法表征；其中，所述目标语法表征基于训练语料生成模型的样本SQL语句生成；

语料生成模块，用于将所述目标表格数据和所述目标语法表征输入语料生成模型，得到目标语料；其中，所述目标语料包括目标自然言语问题和目标SQL语句；所述语料生成模型根据权利要求1-4中任一项所述的方法来训练得到。

12.根据权利要求11所述的装置，其中，所述目标数据获取模块具体用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的模型训练方法，和/或权利要求5或6所述的语料生成方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的模型训练方法，和/或权利要求5或6所述的语料生成方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的模型训练方法，和/或权利要求5或6所述的语料生成方法。