CN115203236A

CN115203236A - 基于模板检索的文本到sql生成方法

Info

Publication number: CN115203236A
Application number: CN202210836518.3A
Authority: CN
Inventors: 车万翔; 窦隆续; 潘名扬; 赵妍妍; 刘挺
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-18
Anticipated expiration: 2042-07-15
Also published as: CN115203236B

Abstract

基于模板检索的文本到SQL生成方法，涉及数据处理技术领域，针对现有技术中针对长度较长的SQL语句解码速度慢的问题，由于非自回归模型的并行性带来时间性能提升的同时，也存在一些缺陷，无法在生成阶段观察到目标序列的上下文信息，因此本申请通过模板检索和多次迭代生成，弥补了非自回归模型的不足，本申请的技术方案对于结构复杂，长度较长的SQL语句，解码速度较传统方式提升了50％以上。本申请技术方案的模板库具有可扩展性，易于迁移，且具有较快的生成速度。

Description

基于模板检索的文本到SQL生成方法

技术领域

本发明涉及数据处理技术领域，具体为基于模板检索的文本到SQL生成方法。

背景技术

文本到SQL生成任务是语义解析中的一个重要方向，主要内容为：在给定数据库或表格的前提下，***根据用户的描述(或问题)，生成与用户描述语义一致的SQL语句，进而得到在数据库或表格中的查询结果。对于文本到SQL生成任务的研究大多是端到端的生成方式，大体有以下几类：基于固定模板的SQL生成(如：SQLova、M-SQL等)，基于文法和转移***的SQL生成(如：RATSQL等)以及基于预训练模型和约束解码的SQL生成(如PICARD等)。然而，现有的模型架构，尽管对于结构较简单的SQL语句有相对不错的时间效率和解码表现，但是对于结构复杂，长度较长的SQL语句来说，解码速度较慢。

发明内容

本发明的目的是：针对现有技术中针对长度较长的SQL语句解码速度慢的问题，提出基于模板检索的文本到SQL生成方法。

本发明为了解决上述技术问题采取的技术方案是：

基于模板检索的文本到SQL生成方法，包括以下步骤：

步骤一：获取数据集，所述数据集包括用户提问、数据库和SQL语句，然后利用语义解析数据集中的SQL语句，以此构建SQL模板库；

步骤二：获取数据库的结构，并依据用户提问和数据库的结构在SQL模板库中检索与用户提问最相关的SQL模板；

步骤三：将用户提问、数据库的结构以及与用户提问最相关的SQL模板进行拼接，得到词元序列，然后将词元序列输入预训练语言模型进行编码，得到每一个词元的编码向量；

步骤四：选取第一个词元的编码向量并通过前馈神经网络预测与用户提问语义一致的SQL序列长度；

步骤五：基于SQL序列长度，并利用非自回归Transformer对编码向量进行解码，得到与用户提问语义一致的SQL语句。

进一步的，所述步骤一的具体步骤为：

使用特定标记替换SQL中出现的表、列、值、排序方式，同时删除SQL中的on子句，得到SQL模板，直至所有SQL语句处理完毕，并去除重复SQL模板，得到SQL模板库；

所述使用特定标记替换SQL中出现的表、列、值、排序方式的具体为：

将表名替换为[TAB]；

将列名替换为[COL]；

将limit子句值替换为[NUM]，其他值替换为[VAL]；

将排序方式替换为[ORD]，所述排序方式包括升序和降序，即ASC和DESC。

进一步的，所述检索通过模板检索模型进行，所述模板检索模型基于双塔模型并引入损失函数优化得到；

所述双塔模型的输入包括模板部分和查询部分；

所述模板部分为SQL模板库中的模板；

所述查询部分为用户提问与数据库结构的拼接，得到查询序列S；

所述双塔模型的具体处理步骤为：

将查询序列S和SQL模板库中的模板分别送入两个独立的预训练语言模型中进行编码，针对编码后的结果，分别通过多层前馈神经网络得到查询的编码结果和模板的编码结果，之后计算查询的编码结果和模板的编码结果得到二者的余弦相似度，选取SQL模板库中余弦相似度最大值对应的模板为用户提问最相关的SQL模板。

进一步的，所述查询序列S表示为：

S＝〈TABLE〉t₁|t₂|…|t_N|<COLUMN>c₁|c₂|…|c_M|<QUESTION>q_1…n

其中，t₁～t_N为数据库中的表名，c₁～c_M为数据库中的列名，q₁～q_n为问题中的词元，〈TABLE〉、<COLUMN>以及<QUESTION〉为标识表头、列名和问题的特殊符号，N为数据库中的表格数量、M为数据库中列的数量、n为问题中词元的数量；

所述损失函数表示为：

其中，S表示查询序列，T^+/-表示正例和负例模板,p表示条件概率。

进一步的，所述步骤三中预训练语言模型的输入通过在查询序列S后拼接与用户提问最相关的SQL模板得到；

所述步骤三中预训练语言模型通过在预训练语言模型原有位置编码的基础上，增加新的类型编码得到；

所述新的类型编码包括：

表、列位置编码：输入序列中每一个表名和列名对应一个单独的编码，从1开始进行标记，其他标记为0；

表、列标识码：使用1表示表名，2表示列名，0表示其他；

列类型编码：0表示其他，1～5分别表示整数、字符串、浮点数、日期、布尔类型；

数据库匹配编码：使用字符串匹配的方式对数据库中的表、列与用户问题中的词元进行匹配，完全匹配标记为1，部分匹配标记为2，其他情况标记为0。

进一步的，所述步骤四中前馈神经网络通过训练得到，训练时使用交叉熵损失函数进行优化，所述交叉熵损失函数以0.1倍的比例加入到模型总体的损失函数中。

进一步的，所述步骤五中解码通过基于片段拷贝的指针网络进行，与用户提问语义一致的SQL语句使用关键字+范围索引的形式表示；

所述范围索引指在SQL语句中，使用输入序列中片段的起始位置索引和结束位置索引来表示SQL语句中的表名、列名和条件值。

进一步的，所述步骤五中非自回归Transformer通过随机初始化的Transformer并增加指针网络，并利用交叉熵损失函数训练得到。

进一步的，所述步骤五的具体步骤为：

首先使用与步骤四中得到的SQL序列长度数量相同的<mask>符号作为非自回归Transformer的输入，并与每一个词元的编码向量计算自注意力得到每一个<mask>符号的编码向量；

然后利用每一个<mask>符号的编码向量进行预设次数迭代，生成SQL语句中的关键字和范围索引；

最后根据生成的范围索引填回对应的表、列和值，并补充缺少的on子句，得到最终的SQL语句。

进一步的，所述预训练语言模型为BERT、RoBERTa或Electra。

本发明的有益效果是：

由于非自回归模型的并行性带来时间性能提升的同时，也存在一些缺陷，无法在生成阶段观察到目标序列的上下文信息，因此本申请通过模板检索和多次迭代生成，弥补了非自回归模型的不足，本申请的技术方案对于结构复杂，长度较长的SQL语句，解码速度较传统方式提升了50％以上。本申请技术方案的模板库具有可扩展性，易于迁移，且具有较快的生成速度。

附图说明

图1为本申请的整体流程图；

图2为模型整体构架图；

图3为模板检索模型；

图4为模板填充部分示意图；

图5为多次迭代解码示意图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式公开了：基于模板检索的文本到SQL生成方法，包括以下步骤：

本方案适用于文本到SQL生成任务，大体可分为两部分：模板检索和SQL生成。具体流程如图1所示：模型整体结构如图2所示：

1.模板库构建与检索

首先根据语义解析数据集中出现的SQL语句，抽取SQL模板，构建模板库。使用特定的标记替换SQL中出现的表、列、值等。具体规则为：表名替换为[TAB]、列名替换为[COL]、其他值替换为[VAL]、排序方式(升序/降序)替换为[ORD]、limit子句值替换为[NUM]。同时删除SQL中的on子句(可依据from和join子句中各表之间的主-外键关系推得)。比如由SQL语句：“select name from student where age>18；”，可得到SQL模板：“select[COL]from[TAB]where[COL]>[VAL]；”。

构建模板库之后，使用双塔模型训练得到模板检索模型，模型结构如图3所示：其中模板部分为模板库中的所有模板，查询部分为问题和数据库结构的拼接，格式为：“S＝<TABLE>t₁|t₂|…|t_N|<COLUMN〉c₁|c₂|…|c_M|<QUESTION>q_1…n”。其中t_i为数据库中的表名，c_i为数据库中的列名，q_i为问题中的词元。<TABLE>、<COLUMN>以及<QUESTION>为标识表头、列名和问题的特殊符号。

将查询序列和模板送入预训练语言模型中进行编码。预训练语言模型可使用BERT、RoBERTa、Electra等自编码语言模型，使用句首标识符([CLS]或[BOS])对应的编码结果，在经过多层前馈神经网络分别得到查询和模板的编码结果。

最后计算二者的余弦相似度，对模板进行排序，选取其中相似度最大者即为该问题对应的SQL模板。在训练时对每个问题选取3～5个负例模板，损失函数如下：

其中S表示查询序列，T^+/-表示正例和负例模板。

2.模板填充(SQL生成)

模板填充阶段采用非自回归的Transformer结构，模块分为三个部分：编码器、长度模块、解码器。详细结构如图4所示：

编码部分的输入与模板检索模块的查询部分一致，并在其后拼接前一阶段查询得到的模板(以<TEMPLATE>为前缀)。编码器采用RoBERTa预训练语言模型，并在原有位置编码的基础上，增加几种新的类型编码(以同样的方式加入到输入序列的Embedding表示中)：

表、列位置编码：输入序列中的数据库部分的每一个实体(表或列)对应一个单独的编码，从1开始进行标记，其他部分标记为0；

表、列标识码：使用1表示该位置对应表名，2表示列名，0表示其他；

列类型编码：0表示其他，1～6分别表示整数、字符串、浮点数、日期、布尔类型；

数据库匹配编码：使用字符串匹配的方式对数据库中的表、列与问题中的词元进行匹配，完全匹配标记为1，部分匹配标记为2，其他情况标记为0。

编码完成后，使用句首标识符的编码结果，经过一层前馈神经网络进行长度模块的预测，在训练时其损失函数以0.1倍的比例加入到模型总体的损失函数中。

本申请的技术方案在解码部分使用基于片段拷贝的指针网络来完成非自回归解码部分，将SQL表示为关键字+范围索引的形式。范围索引是指在SQL语句中，使用输入序列中片段的起始位置索引和结束位置索引来表示其中的表名、列名和条件值(如下表所示)。

表1：位置索引表示

解码器采用随机初始化的Transformer，并增加类似指针网络的生成模块。输入部分根据长度预测模块的结果，使用对应数量的<mask>符号。在模型解码阶段，迭代多次生成SQL语句，每次只生成模型最确定的一个或多个词元。在解码SQL语句时，可以通过“拷贝”(拷贝片段索引所指代的表名、列名、列值等)或者“生成”(SQL关键字)的方式进行生成。解放部分示例图如图5所示：

解码完成后，根据生成的索引填回对应的表、列和值，并根据SQL中出现的表，补充缺少的on子句，得到最终的SQL语句。

与本申请最接近的方案是由TorstenScholak等人提出的PICARD模型，同样使用Transformer模型完成文本到SQL的生成任务，但是该方案仅适用于Spider数据集，且解码的时间效率较低。由XiaoyuZhang等人提出的M-SQL模型同样是基于模板的文本到SQL生成模型，但是该方案模板单一，不具有普适性，且时间效率相对较低。本申请技术方案的模板库具有可扩展性，易于迁移，且具有较快的生成速度。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于模板检索的文本到SQL生成方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于模板检索的文本到SQL生成方法，其特征在于所述步骤一的具体步骤为：

将表名替换为[TAB]；

将列名替换为[COL]；

将limit子句值替换为[NUM]，其他值替换为[VAL]；

3.根据权利要求2所述的基于模板检索的文本到SQL生成方法，其特征在于所述检索通过模板检索模型进行，所述模板检索模型基于双塔模型并引入损失函数优化得到；

所述双塔模型的输入包括模板部分和查询部分；

所述模板部分为SQL模板库中的模板；

所述双塔模型的具体处理步骤为：

4.根据权利要求3所述的基于模板检索的文本到SQL生成方法，其特征在于所述查询序列S表示为：

S＝<TABLE>t₁|t₂|...|t_N|<COLUMN>c₁|c₂|...|c_M|<QUESTION>q_1...n

其中，t₁～t_N为数据库中的表名，c₁～c_M为数据库中的列名，q₁～q_n为问题中的词元，<TABLE>、<COLUMN>以及<QUESTION>为标识表头、列名和问题的特殊符号，N为数据库中的表格数量、M为数据库中列的数量、n为问题中词元的数量；

所述损失函数表示为：

其中，S表示查询序列，T+/-表示正例和负例模板，p表示条件概率。

5.根据权利要求4所述的基于模板检索的文本到SQL生成方法，其特征在于所述步骤三中预训练语言模型的输入通过在查询序列S后拼接与用户提问最相关的SQL模板得到；

所述新的类型编码包括：

表、列标识码：使用1表示表名，2表示列名，0表示其他；

6.根据权利要求5所述的基于模板检索的文本到SQL生成方法，其特征在于所述步骤四中前馈神经网络通过训练得到，训练时使用交叉熵损失函数进行优化，所述交叉熵损失函数以0.1倍的比例加入到模型总体的损失函数中。

7.根据权利要求6所述的基于模板检索的文本到SQL生成方法，其特征在于所述步骤五中解码通过基于片段拷贝的指针网络进行，与用户提问语义一致的SQL语句使用关键字+范围索引的形式表示；

8.根据权利要求7所述的基于模板检索的文本到SQL生成方法，其特征在于所述步骤五中非自回归Transformer通过随机初始化的Transformer并增加指针网络，并利用交叉熵损失函数训练得到。

9.根据权利要求8所述的基于模板检索的文本到SQL生成方法，其特征在于所述步骤五的具体步骤为：

10.根据权利要求9所述的基于模板检索的文本到SQL生成方法，其特征在于所述预训练语言模型为BERT、RoBERTa或Electra。