CN118093641B

CN118093641B - 一种基于因果推断的自然语言转sql查询语句方法及装置

Info

Publication number: CN118093641B
Application number: CN202410523945.5A
Authority: CN
Inventors: 花福军; 刘俊; 赵冬梅; 肖美虹; 夏磊
Original assignee: Creative Information Technology Co ltd
Current assignee: Creative Information Technology Co ltd
Priority date: 2024-04-29
Filing date: 2024-04-29
Publication date: 2024-06-25
Anticipated expiration: 2044-04-29
Also published as: CN118093641A

Abstract

本发明公开了一种基于因果推断的自然语言转SQL查询语句方法及装置，该方法包括获取现有NL2SQL模型和通用数据集；提取执行NL2SQL任务中涉及的关键变量创建节点，生成NL2SQL通用因果图；添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图，生成抗混淆模块并添加在现有NL2SQL模型的解码器之前，获得改进NL2SQL模型；执行自然语言转SQL查询语句。本发明通过提出一种基于因果推断的自然语言转SQL查询语句方法，可以适用于现有的NL2SQL解析器，改进后的***能够更好地理解问题中的因果关系，能够排除历史话语中的歧义，在处理历史话语时具有更好性能和鲁棒性。

Description

一种基于因果推断的自然语言转SQL查询语句方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及到一种基于因果推断的自然语言转SQL查询语句方法、装置、设备及存储介质。

背景技术

因果推断是指从观察到的数据中推断出变量之间的因果关系的过程。这需要排除或控制混淆因素，以确定变量之间的因果关系。混淆因素是指在观察研究中可能影响因果关系判断的其他变量。混淆因素的存在使得变量之间的关系变得更为复杂，可能导致相关性被误解为因果关系。当研究者不能有效地控制或排除这些混淆因素时，就会导致对因果关系的错误推断。

因果图是一种图形化的表示方式，用于呈现变量之间的因果关系，帮助研究者可视化变量之间的关系。图中节点代表变量，有向边表示变量之间的因果关系。这种图形表示有助于识别可能的混淆因素和因果路径，理清变量之间的因果路径，帮助进行因果推断，并为进行因果推断提供了理论基础。

在日常语言中，相关性和因果关系确实经常被混淆使用，但它们有着截然不同的含义。相关性和因果关系之间的区别在于稳定性。相关性并不意味着其中存在因果关系。在因果推断中，建立因果图时需要考虑潜在的混淆因素，例如相关性中的偏差，这些因素可能导致对因果关系的错误解释。通过因果推断方法，研究者可以更好地排除潜在的偏差，从而实现对因果关系的稳定学习，提高对现象背后机制的理解。

NL2SQL是一种自然语言到结构化查询语言的转换技术。它的目标是使计算机能够理解用户以自然语言提出的问题，并将这些问题转换成数据库查询语言（如SQL），从而实现对数据库的操作。NL2SQL使得用户无需学习复杂的查询语言，通过自然语言提出问题即可操作数据库，提高了数据库的可用性。

基于深度学习的序列到序列模型是NL2SQL的主要方法，通过将自然语言问题和SQL查询作为序列输入和输出，使用神经网络进行训练。近年来，使用预训练的语言模型（如BERT、GPT等）来改进NL2SQL的性能也是一个研究方向，利用这些模型提取更好的语义表示。

NL2SQL的技术发展也经历了一系列的挑战。针对特定领域或特定数据库的NL2SQL***需要大量的标注数据。由耶鲁大学提出的 Spider，以及基于Spider改造的Sparc、Cosql等数据集对于解决特定领域或数据库的数据不足和领域通用性有限的挑战起到了积极的作用。当涉及复杂的多表连接、聚合函数等查询时，NL2SQL的性能仍然受到挑战，因为这样的查询需要模型理解更多的语义和数据库结构。通过设计更复杂、结构更精妙的模型以及使用预训练模型，可以有效缓解NL2SQL模型在处理复杂查询时面临的挑战。

然而，处理模糊歧义问题仍然是NL2SQL面临的一个重要挑战。当用户提出含糊或歧义的问题时，NL2SQL***很容易产生错误的SQL查询。

发明内容

本发明的主要目的在于提供一种基于因果推断的自然语言转SQL查询语句方法、装置、设备及存储介质，针对NL2SQL研究中处理历史话语模糊歧义的问题，更好地理解问题中的因果关系，能够排除历史话语中的歧义，提高对用户意图的理解，提高***在处理历史话语时的性能和鲁棒性。

为实现上述目的，本发明提供一种基于因果推断的自然语言转SQL查询语句方法，所述方法包括以下步骤：

获取执行NL2SQL任务的现有NL2SQL模型和通用数据集；

提取现有NL2SQL模型和通用数据集执行NL2SQL任务中涉及的关键变量，为每个关键变量创建一个节点，生成NL2SQL通用因果图；

为所述NL2SQL通用因果图添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；

根据所述改进NL2SQL通用因果图，生成抗混淆模块，在现有NL2SQL模型的解码器之前添加所述抗混淆模块，获得改进NL2SQL模型；

利用所述改进NL2SQL模型执行自然语言转SQL查询语句的任务。

可选的，提取现有NL2SQL模型和通用数据集执行NL2SQL任务中涉及的关键变量，为每个关键变量创建一个节点，生成NL2SQL通用因果图步骤，具体包括：

提取执行NL2SQL任务的现有NL2SQL模型和通用数据集中输入NL2SQL模型的输入数据、输入数据流通过程和输出数据；

将输入数据中的自然语言历史话语、自然语言问题和数据库模式分别作为关键变量创建节点；其中，所述节点包括：自然语言历史话语节点H、自然语言问题节点Q和数据库模式节点S；

将输入数据流通过程输入预训练模型，生成每个节点作为实体特征的token嵌入和每个token嵌入之间的关系，并根据所述token嵌入之间的关系，生成节点之间的边；

将输出数据中的SQL语句作为NL2SQL通用因果图中的结尾节点Y。

可选的，将输入数据流通过程输入预训练模型，生成每个节点的token嵌入和每个token嵌入之间的关系步骤，具体包括：

将输入数据流通过程输入预训练模型，通过所述预训练模型提取每个节点的token嵌入，并将所述token嵌入写入NL2SQL通用因果图的节点中；

在所述NL2SQL通用因果图中执行LGESQL图神经网络算法，捕捉每个节点之间的token嵌入之间的关系。

可选的，所述实体特征之间的关系，具体包括：数据库模式中表名与列名的所属关系、列名与列名的主外键关系、自然语言实体与表名、列名的部分/完全匹配关系、自然语言中的句法关系、历史话语之间以及历史话语与问题之间的实体指代关系、历史话语之间以及历史话语与问题之间的同义词关系中的一种或多种。

可选的，为所述NL2SQL通用因果图添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图步骤，具体包括：

根据历史对话中的上下文，生成用于作为混淆因子节点U的问答对特征，将所述混淆因子节点U加入NL2SQL通用因果图中；

将NL2SQL通用因果图中自然语言历史话语节点H到结尾节点Y之间的边进行破坏，并建立自然语言历史话语节点H到混淆因子节点U之间的边、混淆因子节点U到结尾节点Y之间的边以及混淆因子节点U到自然语言问题节点Q之间的边，获得调整后的NL2SQL通用因果图；

使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图。

可选的，使用干预算子和后门调整进行处理的表达式，具体为：

；

其中，Q、H、S分别表示自然语言问题、自然语言历史话语、数据库模式信息，do()代表干预算子，encoder、decoder分别表示NL2SQL模型的编码器和解码器部分，、、分别表示由编码器输出的，即将喂入解码器的自然语言历史话语、自然语言问题、数据库模式的token嵌入，、分别表示输入数据中自然语言历史话语、自然语言问题的token嵌入，表示相似度函数，估计自然语言历史对话token对混淆因子的值u的贡献；估计每一个混淆因子的值u对自然语言问题的贡献。

可选的，根据所述改进NL2SQL通用因果图，生成抗混淆模块，在现有NL2SQL模型的解码器之前添加所述抗混淆模块，获得改进NL2SQL模型步骤，具体包括：

构建抗混淆模块；其中，抗混淆模块的输入为历史对话的token嵌入和隐藏字典，抗混淆模块的输出为隐藏字典相对于历史对话的自注意力；

将所述抗混淆模块添加到现有NL2SQL模型的解码器之前，获得改进NL2SQL模型。

此外，为了实现上述目的，本发明还提供了一种基于因果推断的自然语言转SQL查询语句装置，包括：

获取模块，用于获取执行NL2SQL任务的现有NL2SQL模型和通用数据集；

提取模块，用于提取现有NL2SQL模型和通用数据集执行NL2SQL任务中涉及的关键变量，为每个关键变量创建一个节点，生成NL2SQL通用因果图；

添加模块，用于为所述NL2SQL通用因果图添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；

生成模块，用于根据所述改进NL2SQL通用因果图，生成抗混淆模块，在现有NL2SQL模型的解码器之前添加所述抗混淆模块，获得改进NL2SQL模型；

转换模块，用于利用所述改进NL2SQL模型执行自然语言转SQL查询语句的任务。

此外，为了实现上述目的，本发明还提供了一种基于因果推断的自然语言转SQL查询语句设备，所述基于因果推断的自然语言转SQL查询语句设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于因果推断的自然语言转SQL查询语句程序，所述基于因果推断的自然语言转SQL查询语句程序被所述处理器执行时实现如上所述的基于因果推断的自然语言转SQL查询语句方法的步骤。

此外，为了实现上述目的，本发明还提供了一种存储介质，所述存储介质上存储有基于因果推断的自然语言转SQL查询语句程序，所述基于因果推断的自然语言转SQL查询语句程序被处理器执行时实现上述的基于因果推断的自然语言转SQL查询语句方法的步骤。

本发明的有益效果：

（1）将因果推断引入自然语言转SQL查询语句的研究领域为因果推断的应用提供了一个新的场景，拓宽了其应用领域，使其可以用于解决复杂的数据库查询生成任务。

（2）通过使用因果推断，这一方法显著提高了NL2SQL解析器对于历史话语中混淆因素的抗干扰能力。这意味着***更能够理解历史对话中的因果关系，减轻歧义和混淆因素对***性能的影响。

（3）提出了一种通用的因果推断的改进方法，具有适用于现有编解码架构的NL2SQL模型的特性。这种通用性使得该方法能够应用于现有的端到端NL2SQL模型，为该领域的研究和应用提供了更广泛的适用性。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明基于因果推断的自然语言转SQL查询语句方法实施例的流程示意图；

图3为NL2SQL通用因果图；

图4为改进NL2SQL通用因果图；

图5为本发明实施例中一种基于因果推断的自然语言转SQL查询语句装置的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

如图1所示，该装置可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的装置的结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于因果推断的自然语言转SQL查询语句程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于因果推断的自然语言转SQL查询语句程序，并执行以下操作：

获取执行NL2SQL任务的现有NL2SQL模型和通用数据集；

利用所述改进NL2SQL模型执行自然语言转SQL查询语句的任务。

本发明应用于装置的具体实施例与下述应用基于因果推断的自然语言转SQL查询语句方法的各实施例基本相同，在此不作赘述。

本发明实施例提供了一种基于因果推断的自然语言转SQL查询语句方法，参照图2，图2为本发明基于因果推断的自然语言转SQL查询语句方法实施例的流程示意图。

本实施例中，所述基于因果推断的自然语言转SQL查询语句方法，包括以下步骤：

S100：获取执行NL2SQL任务的现有NL2SQL模型和通用数据集；

S200：提取现有NL2SQL模型和通用数据集执行NL2SQL任务中涉及的关键变量，为每个关键变量创建一个节点，生成NL2SQL通用因果图；

S300：为所述NL2SQL通用因果图添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；

S400：根据所述改进NL2SQL通用因果图，生成抗混淆模块，在现有NL2SQL模型的解码器之前添加所述抗混淆模块，获得改进NL2SQL模型；

S500：利用所述改进NL2SQL模型执行自然语言转SQL查询语句的任务。

具体而言，本实施例是通过以下技术方案来实现的：

步骤1：绘制NL2SQL通用的因果图。分析现有的NL2SQL模型和通用数据集，确定NL2SQL任务中涉及的关键变量。为每个变量创建一个节点，这些节点代表了在NL2SQL任务中涉及到的关键要素。通过使用箭头连接这些节点，能够清晰地表达它们之间的因果关系。

步骤2: 绘制带有混淆因子的因果图。通过深入观察通用的NL2SQL因果图，审视因果图的每个节点和关系，考虑历史话语中混淆因素可能的作用范围。为了更全面地掌握***内因果关系，以便更深入地分析因果效应并考虑混淆因子的潜在影响路径，决定在NL2SQL通用的因果图中引入专门的混淆因子节点，并根据混淆因子的影响区域，为其删除了原有的边，并添加了新的合适的边，以形成了带有混淆因子的因果图。根据历史话语的特点，通过引入隐藏字典，并结合概率分布，来近似历史话语中的混淆因子对SQL生成的因果效应。

步骤3: 采用带有混淆因子的因果图，改进某NL2SQL模型。通过引入带有混淆因子的因果图，改进NL2SQL模型，以STAR-LGESQL模型为例，可以提高模型的性能和鲁棒性。通过深入分析混淆因子的影响路径，模型可以更好地理解复杂的语言和数据库交互，从而更准确地生成SQL查询。

进一步的，所述步骤1具体包括以下子步骤：

步骤101：观测NL2SQL模型的输入数据，构造因果图的输入。构造因果图的输入涉及到整合自然语言历史话语、自然语言问题、数据库表和数据库列字段的信息。

步骤102：观测NL2SQL模型中输入数据的流通过程，构造因果图中间节点，需要考虑数据的传递和转换。在构造因果图的中间节点时，引入隐藏节点，以更细致地捕捉NL2SQL模型中输入数据的流通过程。

步骤103：观测NL2SQL模型中输出数据，构造因果图的结尾节点。将NL2SQL模型生成的SQL查询作为因果图的结尾节点，表示模型最终输出的SQL查询语句。

进一步的，所述步骤2具体步骤包括以下子步骤：

步骤201：观测NL2SQL通用因果图中的混淆因素。分析NL2SQL通用因果图中的混淆因素时，发现历史话语中的部分甚至大部分内容与当前问题以及SQL生成关系不大。然而，也观察到现有模型对于历史话语的输入极为依赖。当向历史话语中添加一些无关的内容时，模型的性能明显下降。因此，推断历史话语到SQL生成的因果路径中存在混淆因素。

步骤202：提出改进NL2SQL通用因果图的方法。方法包含两个步：1.破坏了历史话语节点到SQL生成节点的直接路径。2.新增了混淆因子节点，同时建立了历史话语节点到混淆因子节点、混淆因子节点到SQL生成节点以及混淆因子节点到自然语言问题节点的有向边。该方法构建了一个更为复杂和信息丰富的NL2SQL通用因果图，其中包含历史话语中的混淆因子。

步骤203：提出一种近似混淆因子的方法。从历史话语的本质特点出发，即其实质均为自然语言的token字符。在对SQL生成有帮助的token字符中，包括两个主要部分：1.与数据库表名、列名、列值相关的token字符；2.与自然语言问题中指代关系的名词相关的token字符，但最终还是与数据库表名、列名相关。因此，引入了一种隐藏字典的方法，结合token的概率分布，以近似计算混淆因子的概率。

进一步的，所述步骤3包括以下子步骤：

步骤301：选择现有的基于编解码的NL2SQL模型，以STAR-LGESQL模型为例。理清其结构需要考虑 NL2SQL（自然语言到SQL）任务的一般结构和 STAR-LGESQL 模型的特定设计。NL2SQL任务的一般结构包含编码器、解码器和注意力机制。在 STAR-LGESQL 模型中，STAR 预训练模型负责提取 token 嵌入，而 LGESQL 模型专注于捕获不同 token 之间的关系特征。在因果图中，STAR 预训练模型的部分被表示为输入节点，而 LGESQL 模型的部分则属于中间隐藏节点。

步骤302：在NL2SQL模型中实现步骤203中的近似方法。在NL2SQL模型中，特别是以STAR-LGESQL为代表的模型，为了近似历史对话中混淆因子的概率，引入了一种新的方法。在STAR-LGESQL模型中，经过STAR和LGESQL模块后，在解码器之前，添加了一个专门用于处理历史对话的抗混淆模块。该模块的输入包括历史对话的token嵌入和隐藏字典，而输出则是隐藏字典相对于历史对话的自注意力。具体而言，该模块采用相同的预训练模型STAR，通过对历史对话中的token进行编码，仅对步骤203中对SQL生成有帮助的历史话语token编码，生成隐藏字典，并利用这一字典计算历史对话的自注意力。这个自注意力机制有助于模型更好地理解历史对话中的语境信息，尤其是在存在混淆因子的情况下。为了实现隐藏字典，采用了一个N*D维度的矩阵，其中N表示token的数量，D表示token嵌入的维度长度。需要注意的是，隐藏字典在训练过程中会不断更新，以更好地适应模型的学习和任务的复杂性。

根据改进的NL2SQL通用因果图，在NL2SQL模型，特别是STAR-LGESQL模型中，实现因果图中的因果效应路径。抗混淆模块体现了历史话语到混淆因子的因果效应和混淆因子到SQL生成的因果效应。为了体现混淆因子的自然语言问题的因果效应，在STAR-LGESQL 模型中，在送入解码器之前，实现自然语言问题对隐藏字典的注意力，更新自然语言问题的嵌入。最终，解码器的输入包括对历史对话token执行的自注意力的隐藏字典嵌入、对隐藏字典的执行注意力的自然语言问题token嵌入，以及数据库表列名的token嵌入。

为了更清楚的解释本申请，下面提供基于因果推断的自然语言转SQL查询语句方法的具体实例。包括以下步骤：

步骤1：绘制NL2SQL通用的因果图。

NL2SQL任务是将自然语言问题转换为结构化查询语言（SQL），使计算机能够理解并执行用户以自然语言提出的数据库查询。NL2SQL的输入内容是自然语言问题、历史对话或上下文以及数据库表和列的信息，旨在让计算机理解并生成对应的结构化查询语言（SQL）。

步骤101：观测NL2SQL模型的输入数据，构造因果图的输入。在NL2SQL通用的因果图中，构造H、Q、S三个节点分别代表输入的三项内容：自然语言历史话语、自然语言问题和数据库模式。

步骤102：观测NL2SQL模型中输入数据的流通过程，构造因果图中间节点以及有向边。在通用的NL2SQL流程中，对于语言特征，根据典型方法设置，通常会选择特定的预训练模型或设置自定义的预训练目标，来训练一个模型。选择预训练模型或自主训练一个大模型的目的在于更好地捕捉到实体之间的语义关系，获取具有更丰富语义信息的 token嵌入。这些嵌入向量是预训练模型基于大规模文本数据集在训练过程中学到的。获得实体嵌入向量之后，将这些嵌入向量作为实体关系图中节点的特征，通过在图上执行计算图神经网络（GNN）算法，例如LGESQL，可以传播节点之间的信息，从而更好地捕捉实体之间的关系。

为了解决实体链接问题，让模型理解自然语言中提及实体对应的数据库表、列名的字段，一般会构造实体关系图。图中的节点是一般是输入内容的token及其经过预训练得到的token嵌入。图中的边是实体关系，常见的几种关系包括数据库模式中表名与列名的所属关系，列名与列名的主外键关系，自然语言实体与表名、列名的部分/完全匹配关系。为了增强自然语言的抗干扰能力，引入了额外的几种关系，包括：

自然语言中的句法关系：捕捉自然语言中的语法结构。

历史话语之间以及历史话语与问题之间的实体指代关系：关联历史对话和问题中的实体指代。

历史话语之间以及历史话语与问题之间的同义词关系：关联历史对话和问题中的同义词。

在已构建的实体关系图基础上，借助预训练模型获取的 token 嵌入，采用特定方法所设置图计算方法，执行图计算。通过考虑图的结构，进行图计算操作以更新 token 嵌入，从而使其融合了多种关系信息。这种改进有助于模型更好地理解不同关系，使得 token嵌入更全面地捕捉语义和语境信息。经过图计算后，最终，自然语言历史话语H、自然语言问题Q和数据库模式S的编码嵌入最终都送入解码器，以生成SQL语句Y。因此，绘制了H到Y、Q到Y、S到Y的有向边。自然语言历史话语、自然语言问题都会与数据库模式进行表名、列名匹配，因此绘制了S到H、S到Q的有向边。根据常识，绘制了H到Q的有向边。

步骤103：观测NL2SQL模型中输出数据，构造因果图的结尾节点。

在NL2SQL通用的因果图中，构造Y节点代表输出的内容：生成的SQL查询语句。最终，绘制的NL2SQL通用的因果图，如图3所示。H代表自然语言历史话语、Q代表自然语言问题、S代表数据库的模式、Y代表生成的SQL语句。因果图中从一个指向另一个节点的箭头，也称为边，应该表示为作为原因的起始节点对作为效果的终止节点有因果效应。观察图3的通用NL2SQL因果图的几种因果边关系：

S->H (数据库的模式到自然语言历史话语)：数据库的模式可能会影响到自然语言历史话语的表达。

S->Q (数据库的模式到自然语言问题)：数据库的模式会影响生成的自然语言问题的表达。

H->Q (自然语言历史话语到自然语言问题)：历史话语中包含的信息可能会影响问题的提问。

S->Y (数据库的模式到生成的SQL语句)：数据库的结构会直接影响生成的SQL查询语句。

Q->Y (自然语言问题到生成的SQL语句)：自然语言问题的表达会直接影响生成的SQL查询语句。

H->Y (自然语言历史话语到生成的SQL语句)：这个关系似乎是合理的，因为历史话语中的信息可能是生成SQL查询的输入。但是，在NL2SQL任务中，相比于Q->Y来讲，H->Y并没有那么自然。通常自然的关系确实是通过自然语言问题（Q）来转化为生成的SQL语句（Y），而不是直接从自然语言历史话语（H）到生成的SQL语句。NL2SQL***的工作流程应该是由历史话语（H）生成相应的自然语言问题（Q），然后再将问题（Q）转换为相应的SQL查询语句（Y），即H->Q->Y更符合自然语言到SQL的生成过程，强调H通过Q影响Y的生成。

因此，在步骤2中，基于通用的NL2SQL因果图，提出了带有混淆因子的因果图。

步骤2：绘制带有混淆因子的因果图。

在自然语言到SQL(NL2SQL)任务中，尤其是在存在历史话语的会话上下文环境中，如会话式SQL任务(例如SPARC数据集)，处理历史对话上下文对于正确生成目标 SQL 查询语句是至关重要的。

步骤201：观测NL2SQL通用因果图中的混淆因素。

为了更好地理解上下文，现有一些方法通常将历史话语和当前问题话语的表示一起喂入解码器。然而，此类方法同时引入历史话语中的无关内容，从而导致解析器的学习是不稳定的。因为历史话语作为解码器输入的一部分，其内容将直接影响解码器预测正确的SQL 语句，其中影响的机制是难以观测并且不可解释的。实质上，现在的方法拟合了历史对话与 SQL 语句之间的关联性，而不是历史对话对 SQL 的因果贡献。理解因果关系而不仅仅是关联关系对于建立更加稳健和可解释的模型是至关重要的。具体地，提出了一种针对历史话语的混淆方法。在会话上下文任务中，例如SPARC数据集，通过在历史话语中新增噪声内容，研究发现了历史话语中的无关内容对 NL2SQL 解析器性能有显著的影响，在生成正确的SQL性能上，准确性评价指标下降了13-18%。

步骤202：提出改进NL2SQL通用因果图的方法。

引入因果推断，估计历史话语对 SQL 语句的因果效应，而不仅仅是关联关系，帮助模型更好地理解数据中的因果关系。具体地，提出了一种与模型无关的改进方法，可以适用于通用的基于编解码架构的NL2SQL模型。基于现有NL2SQL 通用因果图，构建了因果改进的因果图，如图4。构建过程如下：

删除图中的 H → A 的边；在不失一般性的情况下，只关注路径 H → Q → A。当考察 H 的作用时，发现它的主要目的是为了帮助 Q 解决一些共同引用，比如“he”。直观上，Q 听取了 H 的建议，模型基于 Q 预测 A。在这个过程中，Q 成为一个中介，切断了 H和 A 之间的直接联系，使得 P(A|Q, H) = P(A|Q)。然而，如果在因果图中存在从 H 到 A的箭头：H → A，H 的不期望偏差将被用于预测 A，这会阻碍 P(A|Q) 的自然推理过程。

新增一个混淆节点 U，并新增 H → U、 U → Y和 U → Q。在会话级别的NL2SQL数据生成的过程中，如Sparc和Cosql数据集，问答对的制作是基于对话历史的，在此期间，研究者能够审阅历史记录。在研究员制作问答对的过程中，历史信息，由对话的上下文产出的，对于他们的潜在影响可被视为一种混淆因子。再者，这种不可观测的混淆因子对于自然语言问题（Q）和生成的SQL语句（Y）都有潜在的因果影响。

步骤203：提出近似混淆因素的方法。

由于混杂因素阻碍了找到真正的因果效应，为了评估混淆因子对因果效应的影响，引入因果推断中的一个工具，do算子。它表示在因果关系中对某个变量进行干预实验，以观察结果的变化，从而更好地理解潜在的因果关系。具体来说，do（Q=q）表示为变量Q分配一个值q（即干预）。do（Q=q）可以理解为剪断所有的从其他节点指向Q节点的边，使得Q和混淆因子U独立。因此，可以得到后门调整：

；

让使用do算子来重新审视图3右图中所示的改进的NL2SQL的因果图，可以使用干预和后门调整来获得整体模型。在这里，为了简化公式形式，/>简约为 />：

；

接下来，提出一种隐藏字典的方法来近似。

通过学习的方式，来近似未观察到的混杂因素U。设计了一个字典来对U进行建模。在实践中，将字典设计为N×d矩阵，其中N是手动设置的，d是隐藏特征维度。注意，给定样本u和生成的SQL抽象语法树序列，由于用于生成SQL的抽象语法树ast的最后一部分是解码器层，整体模型等式可以实现为：

;

Q、H、S分别表示自然语言问题、自然语言历史话语、数据库模式信息。do()代表do 算子。encoder、decoder分别表示NL2SQL模型的编码器和解码器部分。、、分别表示由编码器输出的，即将喂入解码器的自然语言历史话语、自然语言问题、数据库模式的 token嵌入。、分别表示输入数据中自然语言历史话语、自然语言问题的token嵌入。表示相似度函数，估计自然语言历史对话token对混淆因子的值u的贡献；估计每一个混淆因子的值u对自然语言问题的贡献。然后，采用注意力公式，使用，近似，使用，近似。

步骤3：采用带有混淆因子的因果图，改进某NL2SQL模型。

通过引入带有混淆因子的因果图，对某NL2SQL模型进行改进。首先，选择了一个经典的NL2SQL模型，如STAR-LGESQL。在其架构中，通过新增一个因果抗历史干扰模块，使用隐藏字典的方法，在编码器之前，解码器之前加入该模块，以处理历史信息中的混淆因子。

步骤301：采用现有的NL2SQL模型，以STAR-LGESQL为例。虽然图2呈现了改进后的STAR-LGSQL架构，但清晰显示了STAR-LGESQL的工作流程。首先，输入包括自然语言历史对话、自然语言问题、数据库表名和数据库列名。通过一层STAR预训练模型，获取输入的相应token嵌入。随后，通过模式链接层，在构建的实体关系图和对应的线图上执行L次RGAT的图卷积操作，以进一步更新token嵌入，以融入实体的关系信息。最终，将模式链接层输出的更新嵌入传递至解码器，生成最终的SQL抽象语法树。

步骤302：在STAR-LGESQL模型中实现步骤203中的近似方法。在模式链接层之后，引入了一个基于混淆因子的抗干扰层。该层的输入包括一个形状为二维N*D矩阵的隐藏字典、编码器输出的自然语言历史话语token嵌入以及自然语言问题token嵌入。隐藏字典由数据集中历史话语中有益的token嵌入进行初始化。在这一层，执行两个注意力操作，分别是隐藏字典对历史话语的注意力和自然语言问题对隐藏字典的注意力。最终，将这两个注意力输出到解码器。解码器的完整输入包括隐藏字典对历史话语的注意力、自然语言问题对隐藏字典的注意力以及编码器输出的数据库表名和列名。

由此，本实施例提出的一种基于因果推断的自然语言转SQL查询语言的方法，将因果推断引入自然语言转SQL查询语句的研究领域为因果推断的应用提供了一个新的场景，拓宽了其应用领域，使其可以用于解决复杂的数据库查询生成任务。通过使用因果推断，这一方法显著提高了NL2SQL解析器对于历史话语中混淆因素的抗干扰能力。这意味着***更能够理解历史对话中的因果关系，减轻歧义和混淆因素对***性能的影响。提出了一种通用的因果推断的改进方法，具有适用于现有编解码架构的NL2SQL模型的特性。这种通用性使得该方法能够应用于现有的端到端NL2SQL模型，为该领域的研究和应用提供了更广泛的适用性。

参照图5，图5为本发明基于因果推断的自然语言转SQL查询语句装置实施例的结构框图。

如图5所示，本发明实施例提出的基于因果推断的自然语言转SQL查询语句装置包括：

获取模块10，用于获取执行NL2SQL任务的现有NL2SQL模型和通用数据集；

提取模块20，用于提取现有NL2SQL模型和通用数据集执行NL2SQL任务中涉及的关键变量，为每个关键变量创建一个节点，生成NL2SQL通用因果图；

添加模块30，用于为所述NL2SQL通用因果图添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；

生成模块40，用于根据所述改进NL2SQL通用因果图，生成抗混淆模块，在现有NL2SQL模型的解码器之前添加所述抗混淆模块，获得改进NL2SQL模型；

转换模块50，用于利用所述改进NL2SQL模型执行自然语言转SQL查询语句的任务。

本发明基于因果推断的自然语言转SQL查询语句装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明还提出一种基于因果推断的自然语言转SQL查询语句设备，所述基于因果推断的自然语言转SQL查询语句设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于因果推断的自然语言转SQL查询语句程序，所述基于因果推断的自然语言转SQL查询语句程序被所述处理器执行时实现如上所述的基于因果推断的自然语言转SQL查询语句方法的步骤。

本申请基于因果推断的自然语言转SQL查询语句设备的具体实施方式与上述基于因果推断的自然语言转SQL查询语句方法各实施例基本相同，在此不再赘述。

此外，本发明还提出一种可读存储介质，所述可读存储介质包括计算机可读存储介质，其上存储有基于因果推断的自然语言转SQL查询语句程序。所述可读存储介质可以是图1的终端中的存储器1005，也可以是如ROM(Read-Only Memory，只读存储器)/RAM(RandomAccess Memory，随机存取存储器)、磁碟、光盘中的至少一种，所述可读存储介质包括若干指令用以使得一台具有处理器的基于因果推断的自然语言转SQL查询语句设备执行本发明各个实施例所述的基于因果推断的自然语言转SQL查询语句方法。

本申请可读存储介质中的具体实施方式与上述基于因果推断的自然语言转SQL查询语句方法各实施例基本相同，在此不再赘述。

可以理解的是，在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于因果推断的自然语言转SQL查询语句方法，其特征在于，所述方法，包括以下步骤：

获取执行NL2SQL任务的现有NL2SQL模型和通用数据集；

提取现有NL2SQL模型和通用数据集执行NL2SQL任务中涉及的关键变量，为每个关键变量创建一个节点，生成NL2SQL通用因果图；具体包括：提取执行NL2SQL任务的现有NL2SQL模型和通用数据集中输入NL2SQL模型的输入数据、输入数据流通过程和输出数据；将输入数据中的自然语言历史话语、自然语言问题和数据库模式分别作为关键变量创建节点；其中，所述节点包括：自然语言历史话语节点H、自然语言问题节点Q和数据库模式节点S；将输入数据流通过程输入预训练模型，生成每个节点作为实体特征的token嵌入和每个token嵌入之间的关系，并根据所述token嵌入之间的关系，生成节点之间的边；将输出数据中的SQL语句作为NL2SQL通用因果图中的结尾节点Y；

为所述NL2SQL通用因果图添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；具体包括：根据历史对话中的上下文，生成用于作为混淆因子节点U的问答对特征，将所述混淆因子节点U加入NL2SQL通用因果图中；将NL2SQL通用因果图中自然语言历史话语节点H到结尾节点Y之间的边进行破坏，并建立自然语言历史话语节点H到混淆因子节点U之间的边、混淆因子节点U到结尾节点Y之间的边以及混淆因子节点U到自然语言问题节点Q之间的边，获得调整后的NL2SQL通用因果图；使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；

利用所述改进NL2SQL模型执行自然语言转SQL查询语句的任务。

2.如权利要求1所述的基于因果推断的自然语言转SQL查询语句方法，其特征在于，将输入数据流通过程输入预训练模型，生成每个节点的token嵌入和每个token嵌入之间的关系步骤，具体包括：

3.如权利要求2所述的基于因果推断的自然语言转SQL查询语句方法，其特征在于，所述实体特征之间的关系，具体包括：数据库模式中表名与列名的所属关系、列名与列名的主外键关系、自然语言实体与表名、列名的部分/完全匹配关系、自然语言中的句法关系、历史话语之间以及历史话语与问题之间的实体指代关系、历史话语之间以及历史话语与问题之间的同义词关系中的一种或多种。

4.如权利要求3所述的基于因果推断的自然语言转SQL查询语句方法，其特征在于，使用干预算子和后门调整进行处理的表达式，具体为：

;

其中，Q、H、S分别表示自然语言问题、自然语言历史话语、数据库模式信息，do()代表干预算子，encoder、decoder分别表示NL2SQL模型的编码器和解码器部分，、、分别表示由编码器输出的，即将喂入解码器的自然语言历史话语、自然语言问题、数据库模式的 token嵌入，、分别表示输入数据中自然语言历史话语、自然语言问题的token嵌入，表示相似度函数，估计自然语言历史对话token对混淆因子的值u的贡献；估计每一个混淆因子的值u对自然语言问题的贡献。

5.如权利要求4所述的基于因果推断的自然语言转SQL查询语句方法，其特征在于，根据所述改进NL2SQL通用因果图，生成抗混淆模块，在现有NL2SQL模型的解码器之前添加所述抗混淆模块，获得改进NL2SQL模型步骤，具体包括：

6.一种基于因果推断的自然语言转SQL查询语句装置，其特征在于，包括：

提取模块，用于提取现有NL2SQL模型和通用数据集执行NL2SQL任务中涉及的关键变量，为每个关键变量创建一个节点，生成NL2SQL通用因果图；具体包括：提取执行NL2SQL任务的现有NL2SQL模型和通用数据集中输入NL2SQL模型的输入数据、输入数据流通过程和输出数据；将输入数据中的自然语言历史话语、自然语言问题和数据库模式分别作为关键变量创建节点；其中，所述节点包括：自然语言历史话语节点H、自然语言问题节点Q和数据库模式节点S；将输入数据流通过程输入预训练模型，生成每个节点作为实体特征的token嵌入和每个token嵌入之间的关系，并根据所述token嵌入之间的关系，生成节点之间的边；将输出数据中的SQL语句作为NL2SQL通用因果图中的结尾节点Y；

添加模块，用于为所述NL2SQL通用因果图添加混淆因子节点，使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；具体包括：根据历史对话中的上下文，生成用于作为混淆因子节点U的问答对特征，将所述混淆因子节点U加入NL2SQL通用因果图中；将NL2SQL通用因果图中自然语言历史话语节点H到结尾节点Y之间的边进行破坏，并建立自然语言历史话语节点H到混淆因子节点U之间的边、混淆因子节点U到结尾节点Y之间的边以及混淆因子节点U到自然语言问题节点Q之间的边，获得调整后的NL2SQL通用因果图；使用干预算子和后门调整进行处理，获得改进NL2SQL通用因果图；