CN117453717B

CN117453717B - 一种数据查询语句生成方法、装置、设备及存储介质

Info

Publication number: CN117453717B
Application number: CN202311468107.4A
Authority: CN
Inventors: 谭锋镭; 王墨; 谢俊言; 夏正勋
Original assignee: Transwarp Technology Shanghai Co Ltd
Current assignee: Transwarp Technology Shanghai Co Ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-07-09
Anticipated expiration: 2043-11-06
Also published as: CN117453717A

Abstract

本发明实施例公开了一种数据查询语句生成方法、装置、设备及存储介质，包括：获取过程展示需求和待转换自然语句；根据过程展示需求构建提示词指令；基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与过程展示需求对应的中间生成结果和目标数据查询语句；其中，预训练的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，预构建的思维链为对数据查询语句对应逻辑计划进行逻辑切分后构建得到的思维链。明确了基于逻辑驱动的待转换自然语句至目标数据查询语句的转换过程，使得语句转换处理过程可测可控，提升了针对输出结果的可解释性和目标数据查询语句生成过程的透明性。

Description

一种数据查询语句生成方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据查询语句生成方法、装置、设备及存储介质。

背景技术

在当今数字化时代，人们对于从大规模数据集中获取有用信息的需求越来越迫切。数据查询语言被广泛应用于数据库中用于提取、修改和管理数据，如结构化查询语言(Structured Query Language)常被应用于关系型数据库中进行数据管理等操作。然而，对于不熟悉数据查询语言或数据库结构的用户来说，编写有效的数据查询语句可能是一项具有挑战性的任务。为了简化用户与数据库的交互，自然语言到数据查询语句的转换成为了研究的热点。

大语言模型作为一种使用大量文本训练的深度学习模型，被应用于从用户提供的自然语言问题中生成对应的数据查询语句，以使非专业用户能够直接用自然语言发出查询请求，而无需学习复杂的数据查询语言语法和数据库结构。目前已有多种方法可用以实现自然语言到数据查询语句的转换，如基于手动制定的规则和模板来讲自然语言映射到数据查询语句、利用机器学习算法和训练数据将自然语言和对应的数据查询语句进行建模和匹配、使用深度学习技术将自然语言和数据查询语句进行端到端的建模和映射，以及使用强化学习算法通过与数据库交互学习和优化生成数据查询语句的策略。

然而，手动制定规则和模板的方法需要大量的手工动作和专业知识，难以适应复杂和变化多样的查询需求；基于最大熵模型、隐马尔科夫模型和条件随机场等的机器学习算法，对缺乏训练数据的特定领域或复杂查询可能效果不佳；基于循环神经网络和注意力机制的模型，以及基于转换器的模型等使用深度学习技术的方法，虽然可通过大规模训练数据和参数优化实现更加灵活准确的自然语言到数据查询语句的转换，但需要大量的标注数据和计算资源，且模型解释性相对较弱；而基于强化学习算法进行数据查询语句生成的方法，则需要较长的交互和训练时间，且对数据库的访问成本较高。且以上各方法针对由自然语言到数据查询语句问题解决的过程均不直观可控，使得用户难以在实际作业过程中获取具有逻辑的解释说明，难以满足非专业用户对数据查询语句生成的需求。

发明内容

本发明提供了一种充放电控制方法、装置、设备及存储介质，通过逻辑驱动将自然语言转换为数据查询语句，使得语句转换处理过程可测可控，提升了针对输出结果的可解释性，增强了数据查询语句生成过程的透明性，减少了数据查询语句生成过程中可能出现的错误。

第一方面，本发明实施例提供了一种数据查询语句生成方法，包括：

获取过程展示需求和待转换自然语句；

根据过程展示需求构建提示词指令；

基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与过程展示需求对应的中间生成结果和目标数据查询语句；

其中，预训练的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，预构建的思维链为对数据查询语句对应逻辑计划进行逻辑切分后构建得到的思维链。

第二方面，本发明实施例提供了一种数据查询语句生成装置，包括：

需求语句获取模块，用于获取过程展示需求和待转换自然语句；

指令构建模块，用于根据过程展示需求构建提示词指令；

查询语句生成模块，用于基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与过程展示需求对应的中间生成结果和目标数据查询语句；

第三方面，本发明实施例还提供了一种数据查询语句生成设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本发明实施例提供的数据查询语句生成方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的数据查询语句生成方法。

本发明实施例提供的一种数据查询语句生成方法、装置、设备及存储介质，通过获取过程展示需求和待转换自然语句；根据过程展示需求构建提示词指令；基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与过程展示需求对应的中间生成结果和目标数据查询语句；其中，预训练的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，预构建的思维链为对数据查询语句对应逻辑计划进行逻辑切分后构建得到的思维链。通过采用上述技术方案，由于应用的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，且思维链为根据数据查询语句对应逻辑计划进行逻辑切分后所构成的，故在将该数据查询语句应用于待转换自然语句到数据查询语句的转换过程中时，可通过数据查询语句生成模型生成对应的思维链，以表明输入其中待转换自然语句至目标数据查询语句的转换逻辑，同时可根据用户预先给出的过程展示需求完成提示词指令的构建，以指导数据查询语句生成模型将包含逻辑转换过程的思维链等信息作为中间生成结果进行输出和展示，明确了基于逻辑驱动的待转换自然语句至目标数据查询语句的转换过程，使得语句转换处理过程可测可控，提升了针对输出结果的可解释性，增强了目标数据查询语句生成过程的透明性，同时由于数据查询语句生成模型为根据逻辑切分构建思维链训练得到的，可依据思维链中包含的多层次逻辑分析和纠正数据查询语句生成过程中可能出现的错误，提升了待转换自然语句到目标数据查询语句转换的准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种数据查询语句生成方法的流程图；

图2为本发明实施例二提供的一种数据查询语句生成方法的流程图；

图3为本发明实施例二提供的一种数据查询语句生成模型的训练流程图；

图4为本发明实施例二提供的一种根据各语句转换数据对应的原始逻辑计划，确定与各语句转换数据对应的原始思维链，并根据各语句转换数据和各原始思维链确定与语句转换数据集对应的原始训练样本集的流程示例图；

图5为本发明实施例二提供的一种根据各语句转换数据对应的优化逻辑计划，确定与各语句转换数据对应的优化思维链的流程示例图；

图6为本发明实施例二提供的一种根据各语句转换数据、各原始思维链、各优化思维链和各中间模型输出结果确定与语句转换数据集对应的优化训练样本集的流程示例图；

图7为本发明实施例三提供的一种数据查询语句生成装置的结构示意图；

图8为本发明实施例四提供的一种数据查询语句生成设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种数据查询语句生成方法的流程图，本发明实施例可适用于将用户提出的自然语言类型问题，转化为可用于数据库中数据查询管理的数据查询语句的情况。该方法可以由数据查询语句生成装置来执行，该数据查询语句生成装置可以配置在数据查询语句生成设备中。可选的，数据查询语句生产设备可为笔记本、台式计算机及智能平板等，本发明实施例对此不进行限制。

如图1所示，本发明实施例提供的一种数据查询语句生成方法，具体包括如下步骤：

S101、获取过程展示需求和待转换自然语句。

在本实施例中，过程展示需求具体可理解为由用户提出并输入的，期望明确自然语句到数据查询语句转换逻辑及最终转换目标的需求。待转换自然语句具体可理解为由用户提出并输入的，需要转换为数据查询语句的自然语言问题描述。

具体的，金融领域的数字助理产品常可通过智能化的方式回答客户的提问，传统的智能问答***可以根据客户的问题从知识库中检索答案，但对于需要经过数据库查询才可得到的结果常常无法回答。而本方案中由于构建了新的数据查询语句生成模型，可实现由自然语句到可用于数据库查询的数据查询语句的生成，故可由外部接收客户提出的问题，将自然语言类型的客户提问确定为待转换自然语句，同时可提示用户输入其针对自然语句到数据查询语句转换逻辑及最终转换目标的展示需求，将其确定为过程展示需求。

可以理解的是，过程展示需求中可仅包含用户期望得到的最终展示结果需求，而不包含中间过程展示需求，可根据数据查询语句生成模型可生成中间结果的类型对用户进行提示，以使得用户可输入符合本方案输出能力的过程展示需求。

S102、根据过程展示需求构建提示词指令。

在本实施例中，提示词指令具体可理解为利用自然语言来指导或激发人工智能模型完成特定任务的人工智能提示词(prompt)，在本实施例中可理解为根据过程展示需求构建的，用以提示在不同阶段输入数据查询语句生成模型的内容，以及提示数据查询语句生成模型输出内容的指令。

具体的，对过程展示需求进行拆分，以明确用户希望最终得到数据查询语句的需求，以及由待转换自然语句转换至数据查询语句过程中用户希望进行展示中间结果的需求。进而可将所得到的各中间结果需求和数据查询语句需求按照执行顺序进行排列，将由上一需求到下一需求的过程确定为一个任务，利用预先制定的模板，或依据任务目标、所需操作及相关条件等明确任务描述，在考虑语境和上下文的基础上使用常用词汇完成任务prompt的编写，并将各任务对应prompt依据时间顺序进行组合即可得到与过程展示需求对应的提示词指令。

需要明确的是，在构建prompt时应该简洁明了，易于理解，并且与任务描述相关。

S103、基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与过程展示需求对应的中间生成结果和目标数据查询语句。

在本实施例中，数据查询语句生成模型具体可理解为用于将输入其中的自然语言类型语句转换为思维链，并将输入其中的思维链转换为数据查询语句的生成式大语言模型。思维链(Chain-of-thought，CoT)具体可理解为一种用以提高大语言模型在复杂推理任务中性能的改进提示策略，其中可包括输入和输出间的推导提示信息。

具体的，数据库对应的每个数据查询语句中均具有执行该数据查询语句的逻辑，在转换为物理执行计划之前，其均可被称为数据查询语句对应的逻辑计划，而为了在逻辑上实现一个逻辑计划，将需要多个进行串行或并行处理的逻辑执行操作，各逻辑执行操作间存在依赖关系，可根据对应依赖关系确定各执行操作的执行先后顺序，及串并行执行方式，故可通过对逻辑计划进行逻辑切分以确定数据查询语句的执行逻辑，而思维链可用以对执行逻辑中各逻辑执行操作的推导提示信息进行描述，故可基于逻辑切分后的数据查询语句对应逻辑计划进行构建与数据查询语句对应的思维链，并将该思维链作为自然语言到数据查询语句间的中间节点，完成数据查询语句生成模型的训练，使得训练完成的数据查询语句生成模型具有依据输入其中的自然语句输出思维链的能力，以及由根据输入其中的思维链输出数据查询语句的能力。由于作为中间节点且包含自然语句到数据查询语句推理提示的思维链可被输出，使得在基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型时，不仅可得到与待转换自然语句对应的目标数据查询语句，还可得到与待转换自然语句对应的，包含推理提示信息的思维链作为中间生成结果。根据过程展示需求确定数据查询语句生成模型所需输出的中间生成结果，并将中间生成结果再次作为数据查询语句生成模型的输入，以将最终得到的模型输出结果确定为目标数据查询语句。

本实施例的技术方案，通过获取过程展示需求和待转换自然语句；根据过程展示需求构建提示词指令；基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与过程展示需求对应的中间生成结果和目标数据查询语句；其中，预训练的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，预构建的思维链为对数据查询语句对应逻辑计划进行逻辑切分后构建得到的思维链。通过采用上述技术方案，由于应用的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，且思维链为根据数据查询语句对应逻辑计划进行逻辑切分后所构成的，故在将该数据查询语句应用于待转换自然语句到数据查询语句的转换过程中时，可通过数据查询语句生成模型生成对应的思维链，以表明输入其中待转换自然语句至目标数据查询语句的转换逻辑，同时可根据用户预先给出的过程展示需求完成提示词指令的构建，以指导数据查询语句生成模型将包含逻辑转换过程的思维链等信息作为中间生成结果进行输出和展示，明确了基于逻辑驱动的待转换自然语句至目标数据查询语句的转换过程，使得语句转换处理过程可测可控，提升了针对输出结果的可解释性，增强了目标数据查询语句生成过程的透明性，同时由于数据查询语句生成模型为根据逻辑切分构建思维链训练得到的，可依据思维链中包含的多层次逻辑分析和纠正数据查询语句生成过程中可能出现的错误，提升了待转换自然语句到目标数据查询语句转换的准确性。

实施例二

图2为本发明实施例二提供的一种数据查询语句生成方法的流程图，本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化，通过分析过程展示需求，依据划分为中间输出需求和目标输出需求分别确定与其对应的中间提示问题模板和目标提示问题模板，将中间提示问题模板和目标提示问题模板进行拼接以得到用以提示数据查询语句生成模型按照用户过程展示需求进行输出的提示词指令，进而使得数据查询语句生成模型可根据中间提示问题模板将输入的待转换自然语句生成中间生成结果，根据目标提示问题模板根据输入的中间生成结果得到目标数据查询语句，实现了针对目标数据查询语句生成过程的展示，使得语句转换处理过程可测可控，提升了针对输出结果的可解释性，增强了目标数据查询语句生成过程的透明性。同时本实施例中还给出了数据查询语句生成模型的训练方式，通过获取的语句转换数据集，采用优化程度不同的方式确定语句转换数据集中数据查询语句对应的逻辑计划，进而依据依赖关系对逻辑计划进行逻辑切分，构建对应的原始思维链和优化思维链，进而依据原始思维链和语句转换数据集构成原始训练样本集，完成对初始数据查询语句生成模型的初步训练，使得训练得到的中间数据查询语句生成模型具有在保留最大逻辑语义信息情况下的自然语句->思维链->数据查询语句的生成能力。进而基于优化思维链和中间数据查询语句生成模型完成优化训练样本集的构建，并通过优化训练样本集对中间数据查询语句生成模型进行进一步的优化训练，使得最终得到的数据查询语句生成模型不仅具有保留最大逻辑语义信息情况下的自然语句->思维链->数据查询语句的生成能力，还具有优化逻辑语义信息情况下的自然语句->思维链->数据查询语句的生成能力，以及不同逻辑语义信息情况下两种思维链间的转换能力，进一步丰富了数据查询语句生成模型可生成中间生成结果的类型，使得由自然语句到数据查询语句的生成逻辑可更加清晰详细的展示，进以依据思维链中包含的多层次逻辑分析和纠正数据查询语句生成过程中可能出现的错误，提升了待转换自然语句到目标数据查询语句转换的准确性。

如图2所示，本发明实施例二提供的一种数据查询语句生成方法，具体包括如下步骤：

S201、获取过程展示需求和待转换自然语句。

S202、根据过程展示需求确定中间输出需求和目标输出需求。

其中，中间输出需求至少包括原始思维链输出需求、优化思维链输出需求和原始数据查询语句输出需求；目标输出需求至少包括原始数据查询语句输出需求和优化数据查询语句输出需求。

在本实施例中，原始思维链输出需求具体可理解为需要数据查询语句生成模型依据输入的自然语句输出与其对应的未经优化，最大程度保留逻辑语义信息的思维链的需求。优化思维链输出需求具体可理解为需要数据查询语句生成模型依据输入的自然语句或原始思维链输出与其对应的，已经过如“谓语下推”等优化策略处理后的逻辑语义信息的优化思维链的需求。原始数据查询语句输出需求具体可理解为需要数据查询语句生成模型依据输入的原始思维链输出对应原始数据查询语句的需求。上述各输出需求均可认为是由自然语句转换为最终用户需求的数据查询语句的中间结果的输出需求，故可认为上述各输出需求均为中间输出需求。优化数据查询语句输出需求具体可理解为需要数据查询语句生成模型依据输入的优化思维链输出对应优化数据查询语句的需求。可以理解的是，原始数据查询语句和优化数据查询语句均可作为用户最终需要的数据查询语句，其仅代表数据查询语句生成模型在执行生成任务时输入其中的思维链不同而产生不同的结果，故可将原始数据查询语句输出需求和优化数据查询语句输出需求均作为可选择的目标输出需求。

可选的，可基于训练完成的数据查询语句生成模型的能力设置中间输出需求和目标输出需求的提示，以便用户根据自身需求实现过程展示需求的配置。

S203、根据中间输出需求确定对应的中间提示问题模板。

其中，中间提示问题模板用于提示由原始数据至中间输出需求的输入输出目标。

具体的，根据具体的中间输出需求确定希望输入至数据查询语句生成模型的原始数据，以及希望数据查询语句生成模型针对输入原始数据得到的中间输出，依据该原始数据、中间输出以及转换目标和所需操作确定与中间输出需求对应的，用于提示由原始数据至中间输出需求的输入输出目标的中间提示问题模板。可选的，中间提示问题模板可根据数据查询语句生成模型可输出的中间结果进行预先设置，也可每次根据用户给出的中间输出需求进行实时确定，本发明实施例对此不进行限制。

示例性的，假设中间输出需求为原始思维链，则中间提示问题模板可表示为：“已知用户希望转换的待转换自然语句如下{}请根据上述待转换自然语句生成包含实现步骤详细描述的原始思维链。”上述中间提示问题模板仅为本发明实施例中提供的一种示例，具体实现方式可根据实际情况进行适应性设置，本发明实施例对此不进行限制。

S204、根据目标输出需求确定对应的目标提示问题模板。

其中，目标提示问题模板用于提示由中间输出需求对应的中间输出，至目标输出需求的输入输出目标。

具体的，根据具体的目标输出需求确定输入至数据查询语句生成模型的中间输出需求对应的中间输出，以及用户希望数据查询语句生成模型针对中间输出希望最终输出的数据查询语句，依据该中间输出、数据查询语句以及转换目标和所需操作确定与目标输出需求对应的，用于提示由中间输出至目标输出需求的输入输出目标的目标提示问题模板。可选的，目标提示问题模板可根据数据查询语句生成模型可输出的希望输出的数据查询语句进行预先设置，也可每次根据用户给出的目标输出需求进行实时确定，本发明实施例对此不进行限制。

示例性的，假设目标输出需求为原始数据查询语句输出需求，则目标提示问题模板可表示为：“遵循以下步骤{}请根据上述步骤一步步地生成问题所对应的原始数据查询语句。”其中，“{}”中可输入与原始数据查询语句对应的原始思维链中包含的步骤描述信息。上述目标提示问题模板仅为本发明实施例中提供的一种示例，具体实现方式可根据实际情况进行适应性设置，本发明实施例对此不进行限制。

S205、将中间提示问题模板与目标提示问题模板进行拼接，确定为提示词指令。

具体的，将中间提示问题模板按照执行顺序进行排序，并将各中间提示问题模板与目标提示问题模板依次序进行拼接，将拼接所得内容确定为提示词指令。

可以理解的是，用户在确定过程展示需求时可不给出中间输出需求，只给出目标输出需求，此时提示词指令即为目标提示问题模板。

S206、根据中间提示问题模板将待转换自然语句输入至预训练的数据查询语句生成模型，将得到的模型输出结果确定为中间生成结果。

具体的，在中间提示问题模板仅有一个时，将依据中间提示问题模板将待转换自然语句输入至预训练的数据查询语句生成模型中，此时将得到的模型输出结果确定为中间生成结果。而在中间提示问题模板为多个时，将依据中间提示问题模板中包含的输入需求，将对应内容输入至数据查询语句生成模型中，并将数据查询语句生成模型的输出结果确定为与该中间提示问题模板对应的中间生成结果，可以理解的是，此时第一个中间提示问题模板对应的输入应为待转换自然语句，而时间顺序位于其后的中间提示问题模板对应的输入可为在先的数据查询语句生成模型的模型输出。

S207、将中间生成结果依据目标提示问题模板输入数据查询语句生成模型，将得到的模型输出结果确定为目标数据查询语句。

进一步地，在获取过程展示需求和待转换自然语句之前，将完成对数据查询语句生成模型的训练，图3为本发明实施例二提供的一种数据查询语句生成模型的训练流程图，如图3所示，具体包括如下步骤：

S301、获取语句转换数据集。

其中，语句转换数据集包括至少两组语句转换数据，每组语句转换数据中包含一一对应的自然语句、语义描述信息和数据查询语句。

在本实施例中，语句转换数据集具体可理解为基于待应用场景整理得到的，多组具有对应关系的数据库表描述信息、查询问题和数据查询语句的集合，每一组数据库表描述信息、查询问题和数据查询语句可作为语句转换数据集中的一组语句转换数据。可以理解的是，语句转换数据中的自然语句具体可理解为用户需要在数据库中进行数据查询时，给出的自然语言类型的查询问题；语义描述信息具体可理解为与数据库所需的数据查询语句相对应的，含有语义的描述信息。

示例性的，以金融数据库辅助查询场景为例，金融数字助理能够处理的问题类别有表格类问题、信息检索问题、内容摘要问题、热点查找等问题，其中表格类问题属于依赖数据库查询才能输出结果的问题。本发明实施例中针对语句转换数据集的整理与获取，可根据金融数据库中表描述及数据整理与之相关的查询问题和对应的数据查询语句，将每一组表描述、查询问题和数据查询语句作为语句转换数据集中的一组语句转换数据。以金融数据库中的股权激励表t_inc_esop_info为例，进行语料整理后所得的语句转换数据集中的每个语句转换数据可包括自然语句，也即为通过自然语言对查询问题进行描述，此处可简称为Query；与自然语句对应的数据查询语句，此处以SQL查询语句为例，后续以SQL代称；以及含有语义的描述信息也即语义描述信息，此处可简称为schema，以其中一组语句转换数据示例表示如下：

{"question":"2022年1月1日到目前，有多少家上市公司成功实施过股权激励",

"sql":"select count(di stinct(S_INFO_WINDCODE))from t_inc_esop_infowhere trunc(now(),'YYYY-MM-DD')>＝'2022-01-01'and progress_name＝'已完成'",

"schema":"create table t_inc_esop_info(\n id,\n s_info_windcode,股票代码.\n s_info_name,股票名称.\n preplan_ann_date,草案公告日.\ns_inc_firstinc,授予日.\n s_inc_initexecpri,授予价格.\n s_inc_quantity,激励总数(万股/万份).\ninc_return_rate,股权激励回报率(％).\n cit ics_1,中信行业一级.\n citics_2,中信行业二级.\n cit ics_3,中信行业三级.\ns_info_province,省份.\n s_info_city,城市.\n wind_sec_code,公司性质.\nprogress_name,方案进度.\n inc_execpct_setvarchar2(50),各期解锁比例.\ninc_intervaltime_set,每一批次的锁定时间(月).\nscript_type,激励工具.\ndi scount,名义折扣率＝授予价格/基准价格.\n discount_real,实际折扣率＝授予价格/授予日收盘价.\n inc_count,当前第几次激励，相同草案日算同一期.\ntotal_inc_times,累计激励次数(期).\n person_count number(20,0),激励人数.\n staff,员工总数.\n interval_months,锁定期(月).\n locked_period,锁定期(年).\n s_info_l istdate,上市日期.\n s_info_exchmarket,上市交易所.\ndays_from_ipo_to_firstinc,首次股权激励距离上市的天数，负值表示上市前实施过股权激励.\n agency中介机构名称.\n)",

"lan":"zh"}

S302、根据各语句转换数据对应的原始逻辑计划，确定与各语句转换数据对应的原始思维链，并根据各语句转换数据和各原始思维链确定与语句转换数据集对应的原始训练样本集。

在本实施例中，原始逻辑计划具体可理解为未经过优化策略处理情况下针对语句转换数据中SQL进行编译，所生成的能够最大程度保留SQL中逻辑语义信息的逻辑计划。原始思维链具体可理解为基于原始逻辑计划中包含的逻辑关系链，依据依赖关系进行切分及层级划分后构建的，包含不同层级逻辑执行介绍的思维链。原始训练样本集具体可理解为用于对数据查询语句生成模型进行初步训练，使得数据查询语句生成模型能够具有由自然语句确定原始思维链，以及由原始思维链确定对应与自然语句对应的数据查询语句能力的训练样本所构成的集合。

具体的，针对每个语句转换数据，对其中所包含的数据查询语句进行不经优化处理的编译，得到能够最大程度保留数据查询语句中逻辑语义信息的原始逻辑计划，该原始逻辑计划可为逻辑计划语法树结构，进而可依据依赖关系对逻辑计划语法树的分叉进行切分，确定其中包含多个执行操作和每个执行操作对应操作步骤的串并行关系和层级关系，进而依据上述串并行关系和层级关系，结合语句转换数据中的语义描述信息，确定针对每个执行操作和执行步骤的描述，进以将其进行组合构成与原始逻辑计划相对应的原始思维链，并将原始思维链与语句转换数据进行关联，构建与每个语句转换数据对应的原始训练样本，并将各原始训练样本构成的集合确定为原始训练样本集。

可选的，图4为本发明实施例二提供的一种根据各语句转换数据对应的原始逻辑计划，确定与各语句转换数据对应的原始思维链，并根据各语句转换数据和各原始思维链确定与语句转换数据集对应的原始训练样本集的流程示例图，如图4所示，具体包括如下步骤：

S3021、针对每组语句转换数据，确定与语句转换数据中数据查询语句对应的原始逻辑计划。

具体的，遍历语句转换数据集，即可确定每组语句转换数据中包含的数据查询语句，进而通过对各数据查询语句进行无优化策略的编译，即可确定每个数据查询语句对应的原始逻辑计划。

接上述示例，假设语句转换数据集可表示为Query-SQL数据集，其中一组一一对应的Query-SQL-schema可作为一组语句转换数据，在进行原始训练样本集生成时，将首先对Query-SQL数据集进行遍历，针对每一组语句转换数据生成一个原始训练样本，抽取每组语句转换数据中的SQL查询语句，此时可将其记为SQL_i，i为样本序号，进而将SQL_i输入至数据库管理***提供的查询性能分析工具，即可生成SQL_i对应的逻辑计划，由于查询性能分析工具在进行逻辑计划确定时可认为未采用优化策略，故此时生成SQL_i对应的逻辑计划即可认为是原始逻辑计划。可选的，本发明实施例中可采用Oracle的SQL Developer得到可视化的原始逻辑计划。

S3022、根据依赖关系对原始逻辑计划进行逻辑切分，确定包含执行操作层级顺序和操作步骤层级顺序的原始逻辑切分结果。

接上述示例，由于原始逻辑计划可通过逻辑计划语法树的形式表示，其中可包含多种不同执行操作间的逻辑关系，此时可采用关系链接切分方法，按照原始逻辑计划的逻辑计划语法树的分叉将各执行操作划分为不同的stagei_Lj，并根据执行依赖性确定各执行操作间的串行和并行处理关系，其中，i为操作序号，j为执行操作层级序号。若不同的执行操作间没有执行依赖性，则可放入相同的执行操作层级进行并行处理；反之，则放入不同层级进行串行处理。进一步地，可根据数据输入的不同和数据处理方式的不同将每个stagei_Lj切分为不同的操作步骤stepk_Ph，并根据执行依赖性确定各操作步骤间的串行和并行处理关系，其中，k为操作步骤序号，h为操作步骤层级顺序序号。可针对相同输入数据且数据处理方式相同的操作步骤放置在同一个操作步骤层级进行串行处理，并将涉及不同输入数据或数据处理方式不同的操作步骤放置在不同操作步骤层级进行并行处理，即可得到与原始逻辑计划对应的包含执行操作层级顺序和操作步骤层级顺序的原始逻辑切分结果。

在本发明实施例中，通过构建包含执行操作层级顺序和操作步骤层级顺序的原始逻辑切分结果，可最大程度地发挥多核处理器和分布式***的并行计算能力，提升数据运算效率。

S3023、根据原始逻辑切分结果和语义描述信息确定与语句转换数据对应的原始思维链，并根据自然语句、原始思维链和数据查询语句确定与语句转换数据对应的原始训练样本，以得到由各原始训练样本构成的原始训练样本集。

其中，原始训练样本中包括由自然语句和原始思维链构成的第一原始训练子样本，和由原始思维链和数据查询语句构成的第二原始训练子样本。

具体的，由于原始逻辑切分结果中包含执行操作层级顺序和操作步骤层级顺序，其可用以表明对应数据查询语句在执行过程的执行关系和执行结构，为生成包含步骤解释的原始思维链，也即对原始逻辑切分结果进行改变编码对象的编码生成，此时可根据执行操作层级顺序和操作步骤层级顺序，分别对串行空间中的执行操作和操作步骤进行编码，以标识并行和串行执行关系。其中，执行操作层级编码和操作步骤层级编码按顺序进行，相同的编码表示执行操作或操作步骤可并行执行。逐步进行编码后，使用带有语义标注的语义描述信息生成各执行操作和操作步骤实施情况的详细描述，将其按照原始逻辑切分结果对应的结构进行拼接，即可得到与语句转换数据对应的原始思维链。进一步地，可将原始思维链作为与其对应语句转换数据中自然语句的标签，构建第一原始训练子样本，将语句转换数据中数据查询语句作为与其对应原始思维链的标签，构建第二原始训练子样本，将第一原始训练子样本和第二原始训练子样本相结合确定为与语句转换数据对应的原始训练样本，并将各原始训练样本构成的集合确定为原始训练样本集。

示例性的，可通过现有的大数据分析大模型的内容生成能力，结合语义描述信息schema中的多个表与字段信息，构建由语义描述信息schema和数据查询语句SQL到思维链CoT的提示词指令，以股权激励表t_inc_esop_info和S301中示例的SQL为例，具体构成的提示词指令可表示如下：

{已知数据表信息如下：“”需要多个步骤，请一步一步地讲清楚每一步骤内容，并生成最终SQL语句“”。要求每一步骤中，讲清楚所适用的SQL关键字、SQL函数等。}

其中，可将S301中的schema和SQL分别填入上述提示词指令中的两个双引号中，以实现通过提示词指令引导大数据分析大模型输出具体步骤描述。在大数据分析大模型输出思维链后，可将思维链中对应描述经过人工校验或者第三方评估模型METEOR或BERTScore等进行清理，最终得到与SQL对应的原始思维链CoT_P。

接上述示例，大数据分析大模型输出的CoT_P可描述为：

[L1][stage 1]步骤一：筛选t_inc_esop_info表。

<P1><step101>扫描存储员工股票期权计划的相关信息表t_inc_esop_info

[L2][stage 2]步骤二：筛选满足条件行

<P1><step201>筛选出2022年1月1日以来的数据。使用当前日期函数NOW()获取当前日期。然后使用TRUNC函数将其截取为日期按照天计算的格式。比如将当前日期时间截断到日期级别，得到‘YYYY-MM-DD’格式的日期。接着，比较截断后的日期与‘2022-01-01’的大小关系。如果截断后的日期大于等于‘2022-01-01’，则该行满足条件，保留该行。如果截断后的日期小于‘2022-01-01’，则该行不满足条件，舍弃该行。

<P2><step202>筛选出成功实施过股权激励的公司。使用progress_name字段来判断股权激励计划的进展情况。如果progress_name等于’已完成’，则表示该公司已成功实施过股权激励，则该行满足条件，保留该行。反之则舍弃该行。

[L3][stage 3]步骤三：统计符合要求公司数量。

<P1><step301>对保留的行进行分组操作，按照S_INFO_WINDCODE列进行分组。然后，使用DISTINCT函数对每个分组中的S_INFO_WINDCODE列进行去重操作，获取每个分组中不重复的S_INFO_WINDCODE值。接着使用COUNT函数统计每个分组中不重复的S_INFO_WINDCODE值的数量。最后，使用SELECT语句将结果输出。

其中，[stage 1]等用以表明原始思维链中执行操作的执行操作序号，[L1][L2]等用以表明原始思维链中不同执行操作对应的执行操作层级序号，<step101>等用以表明原始思维链中一个执行操作下不同操作步骤的操作步骤序号，<P1>等用以表明原始思维链中一个执行操作下不同操作步骤对应的操作步骤层级序号。

S303、通过原始训练样本集对初始数据查询语句生成模型进行训练，得到中间数据查询语句生成模型。

在本实施例中，初始数据查询语句生成模型具体可理解为未经过权重参数调整的数据查询语句生成模型。

具体的，在针对初始数据查询语句生成模型进行训练时，可根据原始训练样本集构建两个训练任务，其中一个训练任务为训练初始数据查询语句生成模型学习基于自然语句生成思维链描述的能力，另一个训练任务为训练初始数据查询语句生成模型学习基于输入的思维链描述生成数据查询语句的能力。

可选的，可通过各第一原始训练子样本构成的第一原始训练子样本集对初始数据查询语句生成模型进行训练，得到阶段中间数据查询语句生成模型；通过各第二原始训练子样本构成的第二原始训练子样本集对阶段中间数据查询语句生成模型进行训练，得到中间数据查询语句生成模型。

具体的，由于第一原始训练子样本为以原始思维链作为自然语句标签构建的训练样本，故可利用各第一原始训练子样本构成的第一原始训练子样本集对初始数据查询语句生成模型进行训练，将训练完成的模型确定为阶段中间数据查询语句生成模型，该阶段中间数据查询语句生成模型能够理解自然语句并生成对应的原始思维链描述。接下来，可利用以数据查询语句作为与其对应原始思维链的标签的各第二原始训练子样本构成的第二原始训练子样本集，对阶段中间数据查询语句生成模型进行训练，将训练完成的模型确定为中间数据查询语句生成模型，使得输出的中间数据查询语句生成模型在具有由自然语句生成原始思维链描述的基础上，还具有能够将原始思维链描述转化为数据查询语句的能力。

S304、根据各语句转换数据对应的优化逻辑计划，确定与各语句转换数据对应的优化思维链。

在本实施例中，优化逻辑计划具体可理解为经过优化策略处理后，针对语句转换数据中的SQL进行编译，所生成的对SQL中逻辑语音信息进行优化后的逻辑计划。优化思维链具体可理解为基于优化逻辑计划中包含的逻辑关系链，依据依赖关系进行切分及层级划分后构建的，包含不同层级逻辑执行介绍的思维链。

可以理解的是，优化逻辑计划的生成以及优化思维链的生成，相对于原始逻辑计划和原始思维链的生成，区别仅在于是否针对语句转换数据中的数据查询语句采用优化策略进行处理，其与处理方法与S302中的处理方式一致。

示例性的，图5为本发明实施例二提供的一种根据各语句转换数据对应的优化逻辑计划，确定与各语句转换数据对应的优化思维链的流程示例图，如图5所示，具体包括如下步骤：

S3041、针对每组语句转换数据，根据预设优化处理策略确定与语句转换数据中数据查询语句对应的优化逻辑计划。

S3042、根据依赖关系对优化逻辑计划进行逻辑切分，确定包含执行操作层级顺序和操作步骤层级顺序的优化逻辑切分结果。

S3043、根据优化逻辑切分结果和语义描述信息确定与语句转换数据对应的优化思维链。

S305、将各优化思维链输入至中间数据查询语句生成模型，得到与各优化思维链对应的中间模型输出结果，并根据各语句转换数据、各原始思维链、各优化思维链和各中间模型输出结果确定与语句转换数据集对应的优化训练样本集。

具体的，将各优化思维链依次输入至中间数据查询语句生成模型，由于中间数据查询语句生成模型具有由思维链确定数据查询语句的能力，故可认为得到的中间模型输出结果为中间数据查询语句生成模型针对优化后的优化思维链给出的数据查询语句生成结果。此时可将中间模型输出结果与数据转换数据中包含的，期望模型输出的数据查询语句进行比对，根据比对结果确定中间数据查询语句生成模型生成的中间模型输出结果是否可以采用，进而根据各语句转换数据、各原始思维链、各优化思维链和各中间模型输出结果确定与语句转换数据集对应的优化训练样本集。

可选的，图6为本发明实施例二提供的一种根据各语句转换数据、各原始思维链、各优化思维链和各中间模型输出结果确定与语句转换数据集对应的优化训练样本集的流程示例图，如图6所示，具体包括如下步骤：

S3051、针对每个中间模型输出结果，通过对应语句转换数据中的数据查询语句对中间模型输出结果进行校验，若校验通过则将中间模型输出结果确定为与语句转换数据对应的优化数据查询语句。

示例性的，针对每个中间模型输出结果，可通过校验器对中间模型输出结果与对应语句转换数据中的数据查询语句进行比较校验，若结果一致，则可认为校验通过，也即可认为中间数据查询语句生成模型输出的中间模型输出结果为正确的结果，此时将中间模型输出结果确定为与语句转换数据对应的优化数据查询语句，以构成优化数据链与优化数据查询语句间的对应关系，使得后续可利用优化数据链与优化数据查询语句间的对应关系完成对中间数据查询语句生成模型的优化训练。

S3052、根据语句转换数据中的自然语句、原始思维链、优化思维链和优化数据查询语句确定与语句转换数据对应的优化训练样本，以得到由各优化训练样本构成的优化训练样本集。

其中，优化训练样本中包含由自然语句和优化思维链构成的第一优化训练子样本，由优化思维链和优化数据查询语句构成的第二优化训练子样本，和由原始思维链和优化思维链构成的第三优化训练子样本。

具体的，将优化思维链作为与其对应语句转换数据中自然语句的标签，构建第一优化训练子样本，使得第一优化训练子样本可用于训练模型由自然数据到优化思维链的生成能力；将优化数据查询语句作为与其对应优化思维链的标签，构建第二优化训练子样本，使得第二优化训练子样本可用于训练由优化思维链到优化数据查询语句的生成能力；将优化思维链作为与其对应原始思维链的标签，构建第三优化训练子样本，使得第三优化训练子样本可用于训练模型由未优化逻辑计划构成的原始思维链，到优化后逻辑计划构成优化思维链的能力。进而，将第一优化训练子样本、第二优化训练子样本和第三优化训练子样本相结合确定为与语句转换数据对应的优化训练样本，并将各优化训练样本构成的集合确定为优化训练样本集。

S306、通过优化训练样本集对中间数据查询语句生成模型进行训练，得到数据查询语句生成模型。

具体的，通过各第一优化训练子样本构成的第一优化训练子样本集对中间数据查询语句生成模型进行训练，得到第一阶段数据查询语句生成模型；通过各第二优化训练子样本构成的第二优化训练子样本集对第一阶段数据查询语句生成模型进行训练，得到第二阶段数据查询语句生成模型；通过各第三优化训练子样本构成的第三优化训练子样本集对第二阶段数据查询语句生成模型进行训练，得到数据查询语句生成模型。

可选的，S304-S306中针对数据查询语句生成模型的优化训练为可选执行的技术方案，可根据S3051中确定出的中间模型输出结果的校验情况，确定是否需要对数据查询语句生成模型进行优化训练，若校验失败的比例超过预设比例阈值时，即可启动针对数据查询语句生成模型的优化训练，以通过优化训练提升数据查询语句生成模型的数据生成准确性。可以理解的是，也可在训练过程中直接进行原始思维链和优化思维链的训练，本发明实施例对此不进行限制。

本实施例的技术方案，通过分析过程展示需求，依据划分为中间输出需求和目标输出需求分别确定与其对应的中间提示问题模板和目标提示问题模板，将中间提示问题模板和目标提示问题模板进行拼接以得到用以提示数据查询语句生成模型按照用户过程展示需求进行输出的提示词指令，进而使得数据查询语句生成模型可根据中间提示问题模板将输入的待转换自然语句生成中间生成结果，根据目标提示问题模板根据输入的中间生成结果得到目标数据查询语句，实现了针对目标数据查询语句生成过程的展示，使得语句转换处理过程可测可控，提升了针对输出结果的可解释性，增强了目标数据查询语句生成过程的透明性。同时本实施例中还给出了数据查询语句生成模型的训练方式，通过获取的语句转换数据集，采用优化程度不同的方式确定语句转换数据集中数据查询语句对应的逻辑计划，进而依据依赖关系对逻辑计划进行逻辑切分，构建对应的原始思维链和优化思维链，进而依据原始思维链和语句转换数据集构成原始训练样本集，完成对初始数据查询语句生成模型的初步训练，使得训练得到的中间数据查询语句生成模型具有在保留最大逻辑语义信息情况下的自然语句->思维链->数据查询语句的生成能力。进而基于优化思维链和中间数据查询语句生成模型完成优化训练样本集的构建，并通过优化训练样本集对中间数据查询语句生成模型进行进一步的优化训练，使得最终得到的数据查询语句生成模型不仅具有保留最大逻辑语义信息情况下的自然语句->思维链->数据查询语句的生成能力，还具有优化逻辑语义信息情况下的自然语句->思维链->数据查询语句的生成能力，以及不同逻辑语义信息情况下两种思维链间的转换能力，进一步丰富了数据查询语句生成模型可生成中间生成结果的类型，使得由自然语句到数据查询语句的生成逻辑可更加清晰详细的展示，进以依据思维链中包含的多层次逻辑分析和纠正数据查询语句生成过程中可能出现的错误，提升了待转换自然语句到目标数据查询语句转换的准确性。

实施例三

图7为本发明实施例三提供的一种数据查询语句生成装置的结构示意图，如图7所示，数据查询语句生成装置可包括需求语句获取模块41、指令构建模块42和查询语句生成模块43。

其中，需求语句获取模块41，用于获取过程展示需求和待转换自然语句；指令构建模块42，用于根据过程展示需求构建提示词指令；查询语句生成模块43，用于基于提示词指令将待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与过程展示需求对应的中间生成结果和目标数据查询语句；其中，预训练的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，预构建的思维链为对数据查询语句对应逻辑计划进行逻辑切分后构建得到的思维链。

本发明实施例的技术方案，由于应用的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，且思维链为根据数据查询语句对应逻辑计划进行逻辑切分后所构成的，故在将该数据查询语句应用于待转换自然语句到数据查询语句的转换过程中时，可通过数据查询语句生成模型生成对应的思维链，以表明输入其中待转换自然语句至目标数据查询语句的转换逻辑，同时可根据用户预先给出的过程展示需求完成提示词指令的构建，以指导数据查询语句生成模型将包含逻辑转换过程的思维链等信息作为中间生成结果进行输出和展示，明确了基于逻辑驱动的待转换自然语句至目标数据查询语句的转换过程，使得语句转换处理过程可测可控，提升了针对输出结果的可解释性，增强了目标数据查询语句生成过程的透明性，同时由于数据查询语句生成模型为根据逻辑切分构建思维链训练得到的，可依据思维链中包含的多层次逻辑分析和纠正数据查询语句生成过程中可能出现的错误，提升了待转换自然语句到目标数据查询语句转换的准确性。

可选的，指令构建模块42，包括：

需求确定单元，用于根据过程展示需求确定中间输出需求和目标输出需求；

中间模板构建单元，用于根据中间输出需求确定对应的中间提示问题模板；其中，中间提示问题模板用于提示由原始数据至中间输出需求的输入输出目标；

目标模板构建单元，用于根据目标输出需求确定对应的目标提示问题模板；其中，目标提示问题模板用于提示由中间输出需求对应的中间输出，至目标输出需求的输入输出目标；

指令确定单元，用于将中间提示问题模板与目标提示问题模板进行拼接，确定为提示词指令；其中，中间输出需求至少包括原始思维链输出需求、优化思维链输出需求和原始数据查询语句输出需求；目标输出需求至少包括原始数据查询语句输出需求和优化数据查询语句输出需求。

可选的，查询语句生成模块43，包括：

中间结果生成单元，用于根据中间提示问题模板将待转换自然语句输入至预训练的数据查询语句生成模型，将得到的模型输出结果确定为中间生成结果；

目标语句生成单元，用于将中间生成结果依据目标提示问题模板输入数据查询语句生成模型，将得到的模型输出结果确定为目标数据查询语句。

可选的，数据查询语句生成装置，还包括：模型训练模块，具体用于：

在获取过程展示需求和待转换自然语句之前，获取语句转换数据集；语句转换数据集包括至少两组语句转换数据，每组语句转换数据中包含一一对应的自然语句、语义描述信息和数据查询语句；

根据各语句转换数据对应的原始逻辑计划，确定与各语句转换数据对应的原始思维链，并根据各语句转换数据和各原始思维链确定与语句转换数据集对应的原始训练样本集；

通过原始训练样本集对初始数据查询语句生成模型进行训练，得到中间数据查询语句生成模型；

根据各语句转换数据对应的优化逻辑计划，确定与各语句转换数据对应的优化思维链；

将各优化思维链输入至中间数据查询语句生成模型，得到与各优化思维链对应的中间模型输出结果，并根据各语句转换数据、各原始思维链、各优化思维链和各中间模型输出结果确定与语句转换数据集对应的优化训练样本集；

通过优化训练样本集对中间数据查询语句生成模型进行训练，得到数据查询语句生成模型。

可选的，根据各语句转换数据对应的原始逻辑计划，确定与各语句转换数据对应的原始思维链，并根据各语句转换数据和各原始思维链确定与语句转换数据集对应的原始训练样本集，包括：

针对每组语句转换数据，确定与语句转换数据中数据查询语句对应的原始逻辑计划；

根据依赖关系对原始逻辑计划进行逻辑切分，确定包含执行操作层级顺序和操作步骤层级顺序的原始逻辑切分结果；

根据原始逻辑切分结果和语义描述信息确定与语句转换数据对应的原始思维链，并根据自然语句、原始思维链和数据查询语句确定与语句转换数据对应的原始训练样本，以得到由各原始训练样本构成的原始训练样本集；

可选的，通过原始训练样本集对初始数据查询语句生成模型进行训练，得到中间数据查询语句生成模型，包括：

通过各第一原始训练子样本构成的第一原始训练子样本集对初始数据查询语句生成模型进行训练，得到阶段中间数据查询语句生成模型；

通过各第二原始训练子样本构成的第二原始训练子样本集对阶段中间数据查询语句生成模型进行训练，得到中间数据查询语句生成模型。

可选的，根据各语句转换数据对应的优化逻辑计划，确定与各语句转换数据对应的优化思维链，包括：

针对每组语句转换数据，根据预设优化处理策略确定与语句转换数据中数据查询语句对应的优化逻辑计划；

根据依赖关系对优化逻辑计划进行逻辑切分，确定包含执行操作层级顺序和操作步骤层级顺序的优化逻辑切分结果；

根据优化逻辑切分结果和语义描述信息确定与语句转换数据对应的优化思维链。

可选的，根据各语句转换数据、各原始思维链、各优化思维链和各中间模型输出结果确定与语句转换数据集对应的优化训练样本集，包括：

针对每个中间模型输出结果，通过对应语句转换数据中的数据查询语句对中间模型输出结果进行校验，若校验通过则将中间模型输出结果确定为与语句转换数据对应的优化数据查询语句；

根据语句转换数据中的自然语句、原始思维链、优化思维链和优化数据查询语句确定与语句转换数据对应的优化训练样本，以得到由各优化训练样本构成的优化训练样本集；

可选的，通过优化训练样本集对中间数据查询语句生成模型进行训练，得到数据查询语句生成模型，包括：

通过各第一优化训练子样本构成的第一优化训练子样本集对中间数据查询语句生成模型进行训练，得到第一阶段数据查询语句生成模型；

通过各第二优化训练子样本构成的第二优化训练子样本集对第一阶段数据查询语句生成模型进行训练，得到第二阶段数据查询语句生成模型；

通过各第三优化训练子样本构成的第三优化训练子样本集对第二阶段数据查询语句生成模型进行训练，得到数据查询语句生成模型。

本发明实施例提供的充放电控制装置可执行本发明任意实施例所提用的数据查询语句生成方法，具备执行方法相应的功能模块和有益效果。

实施例四

图8为本发明实施例四提供的一种数据查询语句生成设备的结构示意图。数据查询语句生成设备50可为电子设备，旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图8所示，数据查询语句生成设备50包括至少一个处理器51，以及与至少一个处理器51通信连接的存储器，如只读存储器(ROM)52、随机访问存储器(RAM)53等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序，来执行各种适当的动作和处理。在RAM 53中，还可存储数据查询语句生成设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。

数据查询语句生成设备50中的多个部件连接至I/O接口55，包括：输入单元56，例如键盘、鼠标等；输出单元57，例如各种类型的显示器、扬声器等；存储单元58，例如磁盘、光盘等；以及通信单元59，例如网卡、调制解调器、无线通信收发机等。通信单元59允许数据查询语句生成设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理，例如数据查询语句生成方法。

在一些实施例中，数据查询语句生成方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元58。在一些实施例中，计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到数据查询语句生成设备50上。当计算机程序加载到RAM 53并由处理器51执行时，可以执行上文描述的数据查询语句生成方法的一个或多个步骤。备选地，在其他实施例中，处理器51可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据查询语句生成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据查询语句生成方法，其特征在于，包括：

获取过程展示需求和待转换自然语句；

根据所述过程展示需求构建提示词指令；

基于所述提示词指令将所述待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与所述过程展示需求对应的中间生成结果和目标数据查询语句；

其中，所述预训练的数据查询语句生成模型为基于预构建的思维链训练得到的生成式大语言模型，所述预构建的思维链为对数据查询语句对应逻辑计划进行逻辑切分后构建得到的思维链；

其中，所述中间生成结果为与所述待转换自然语句对应的，包含推理提示信息的思维链；

其中，所述根据所述过程展示需求构建提示词指令，包括：

根据所述过程展示需求确定中间输出需求和目标输出需求；

根据所述中间输出需求确定对应的中间提示问题模板；其中，所述中间提示问题模板用于提示由原始数据至所述中间输出需求的输入输出目标；

根据所述目标输出需求确定对应的目标提示问题模板；其中，所述目标提示问题模板用于提示由所述中间输出需求对应的中间输出，至所述目标输出需求的输入输出目标；

将所述中间提示问题模板与所述目标提示问题模板进行拼接，确定为提示词指令；

其中，所述中间输出需求至少包括原始思维链输出需求、优化思维链输出需求和原始数据查询语句输出需求；所述目标输出需求至少包括原始数据查询语句输出需求和优化数据查询语句输出需求；

其中，在所述获取过程展示需求和待转换自然语句之前，还包括：

获取语句转换数据集；所述语句转换数据集包括至少两组语句转换数据，每组所述语句转换数据中包含一一对应的自然语句、语义描述信息和数据查询语句；

根据各所述语句转换数据对应的原始逻辑计划，确定与各所述语句转换数据对应的原始思维链，并根据各所述语句转换数据和各所述原始思维链确定与所述语句转换数据集对应的原始训练样本集；

通过所述原始训练样本集对初始数据查询语句生成模型进行训练，得到中间数据查询语句生成模型；

根据各所述语句转换数据对应的优化逻辑计划，确定与各所述语句转换数据对应的优化思维链；

将各所述优化思维链输入至所述中间数据查询语句生成模型，得到与各所述优化思维链对应的中间模型输出结果，并根据各所述语句转换数据、各所述原始思维链、各所述优化思维链和各所述中间模型输出结果确定与所述语句转换数据集对应的优化训练样本集；

通过所述优化训练样本集对所述中间数据查询语句生成模型进行训练，得到数据查询语句生成模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述提示词指令将所述待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与所述过程展示需求对应的中间生成结果和目标数据查询语句，包括：

根据所述中间提示问题模板将所述待转换自然语句输入至所述预训练的数据查询语句生成模型，将得到的模型输出结果确定为中间生成结果；

将所述中间生成结果依据所述目标提示问题模板输入所述数据查询语句生成模型，将得到的模型输出结果确定为目标数据查询语句。

3.根据权利要求1所述的方法，其特征在于，所述根据各所述语句转换数据对应的原始逻辑计划，确定与各所述语句转换数据对应的原始思维链，并根据各所述语句转换数据和各所述原始思维链确定与所述语句转换数据集对应的原始训练样本集，包括：

针对每组所述语句转换数据，确定与所述语句转换数据中数据查询语句对应的原始逻辑计划；

根据依赖关系对所述原始逻辑计划进行逻辑切分，确定包含执行操作层级顺序和操作步骤层级顺序的原始逻辑切分结果；

根据所述原始逻辑切分结果和所述语义描述信息确定与所述语句转换数据对应的原始思维链，并根据所述自然语句、所述原始思维链和所述数据查询语句确定与所述语句转换数据对应的原始训练样本，以得到由各所述原始训练样本构成的原始训练样本集；

其中，所述原始训练样本中包括由所述自然语句和所述原始思维链构成的第一原始训练子样本，和由所述原始思维链和所述数据查询语句构成的第二原始训练子样本。

4.根据权利要求3所述的方法，其特征在于，所述通过所述原始训练样本集对初始数据查询语句生成模型进行训练，得到中间数据查询语句生成模型，包括：

通过各所述第一原始训练子样本构成的第一原始训练子样本集对初始数据查询语句生成模型进行训练，得到阶段中间数据查询语句生成模型；

通过各所述第二原始训练子样本构成的第二原始训练子样本集对所述阶段中间数据查询语句生成模型进行训练，得到中间数据查询语句生成模型。

5.根据权利要求1所述的方法，其特征在于，所述根据各所述语句转换数据对应的优化逻辑计划，确定与各所述语句转换数据对应的优化思维链，包括：

针对每组所述语句转换数据，根据预设优化处理策略确定与所述语句转换数据中数据查询语句对应的优化逻辑计划；

根据依赖关系对所述优化逻辑计划进行逻辑切分，确定包含执行操作层级顺序和操作步骤层级顺序的优化逻辑切分结果；

根据所述优化逻辑切分结果和所述语义描述信息确定与所述语句转换数据对应的优化思维链。

6.根据权利要求1所述的方法，其特征在于，所述根据各所述语句转换数据、各所述原始思维链、各所述优化思维链和各所述中间模型输出结果确定与所述语句转换数据集对应的优化训练样本集，包括：

针对每个所述中间模型输出结果，通过对应语句转换数据中的数据查询语句对所述中间模型输出结果进行校验，若校验通过则将所述中间模型输出结果确定为与所述语句转换数据对应的优化数据查询语句；

根据所述语句转换数据中的自然语句、所述原始思维链、所述优化思维链和所述优化数据查询语句确定与所述语句转换数据对应的优化训练样本，以得到由各所述优化训练样本构成的优化训练样本集；

其中，所述优化训练样本中包含由所述自然语句和所述优化思维链构成的第一优化训练子样本，由所述优化思维链和所述优化数据查询语句构成的第二优化训练子样本，和由所述原始思维链和所述优化思维链构成的第三优化训练子样本。

7.根据权利要求6所述的方法，其特征在于，所述通过所述优化训练样本集对所述中间数据查询语句生成模型进行训练，得到数据查询语句生成模型，包括：

通过各所述第一优化训练子样本构成的第一优化训练子样本集对所述中间数据查询语句生成模型进行训练，得到第一阶段数据查询语句生成模型；

通过各所述第二优化训练子样本构成的第二优化训练子样本集对所述第一阶段数据查询语句生成模型进行训练，得到第二阶段数据查询语句生成模型；

通过各所述第三优化训练子样本构成的第三优化训练子样本集对所述第二阶段数据查询语句生成模型进行训练，得到数据查询语句生成模型。

8.一种数据查询语句生成装置，其特征在于，包括：

指令构建模块，用于根据所述过程展示需求构建提示词指令；

查询语句生成模块，用于基于所述提示词指令将所述待转换自然语句输入至预训练的数据查询语句生成模型，根据模型输出结果确定并输出与所述过程展示需求对应的中间生成结果和目标数据查询语句；

其中，所述指令构建模块，包括：

需求确定单元，根据所述过程展示需求确定中间输出需求和目标输出需求；

中间模板构建单元，根据所述中间输出需求确定对应的中间提示问题模板；其中，所述中间提示问题模板用于提示由原始数据至所述中间输出需求的输入输出目标；

目标模板构建单元，根据所述目标输出需求确定对应的目标提示问题模板；其中，所述目标提示问题模板用于提示由所述中间输出需求对应的中间输出，至所述目标输出需求的输入输出目标；

指令确定单元，将所述中间提示问题模板与所述目标提示问题模板进行拼接，确定为提示词指令；其中，所述中间输出需求至少包括原始思维链输出需求、优化思维链输出需求和原始数据查询语句输出需求；所述目标输出需求至少包括原始数据查询语句输出需求和优化数据查询语句输出需求；

其中，所述数据查询语句生成装置，还包括：模型训练模块，具体用于：

在所述获取过程展示需求和待转换自然语句之前，获取语句转换数据集；所述语句转换数据集包括至少两组语句转换数据，每组所述语句转换数据中包含一一对应的自然语句、语义描述信息和数据查询语句；

9.一种数据查询语句生成设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的数据查询语句生成方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一项所述的数据查询语句生成方法。