CN115203236A - 基于模板检索的文本到sql生成方法 - Google Patents

基于模板检索的文本到sql生成方法 Download PDF

Info

Publication number
CN115203236A
CN115203236A CN202210836518.3A CN202210836518A CN115203236A CN 115203236 A CN115203236 A CN 115203236A CN 202210836518 A CN202210836518 A CN 202210836518A CN 115203236 A CN115203236 A CN 115203236A
Authority
CN
China
Prior art keywords
sql
template
column
coding
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210836518.3A
Other languages
English (en)
Other versions
CN115203236B (zh
Inventor
车万翔
窦隆续
潘名扬
赵妍妍
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202210836518.3A priority Critical patent/CN115203236B/zh
Publication of CN115203236A publication Critical patent/CN115203236A/zh
Application granted granted Critical
Publication of CN115203236B publication Critical patent/CN115203236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于模板检索的文本到SQL生成方法,涉及数据处理技术领域,针对现有技术中针对长度较长的SQL语句解码速度慢的问题,由于非自回归模型的并行性带来时间性能提升的同时,也存在一些缺陷,无法在生成阶段观察到目标序列的上下文信息,因此本申请通过模板检索和多次迭代生成,弥补了非自回归模型的不足,本申请的技术方案对于结构复杂,长度较长的SQL语句,解码速度较传统方式提升了50%以上。本申请技术方案的模板库具有可扩展性,易于迁移,且具有较快的生成速度。

Description

基于模板检索的文本到SQL生成方法
技术领域
本发明涉及数据处理技术领域,具体为基于模板检索的文本到SQL生成方法。
背景技术
文本到SQL生成任务是语义解析中的一个重要方向,主要内容为:在给定数据库或表格的前提下,***根据用户的描述(或问题),生成与用户描述语义一致的SQL语句,进而得到在数据库或表格中的查询结果。对于文本到SQL生成任务的研究大多是端到端的生成方式,大体有以下几类:基于固定模板的SQL生成(如:SQLova、M-SQL等),基于文法和转移***的SQL生成(如:RATSQL等)以及基于预训练模型和约束解码的SQL生成(如PICARD等)。然而,现有的模型架构,尽管对于结构较简单的SQL语句有相对不错的时间效率和解码表现,但是对于结构复杂,长度较长的SQL语句来说,解码速度较慢。
发明内容
本发明的目的是:针对现有技术中针对长度较长的SQL语句解码速度慢的问题,提出基于模板检索的文本到SQL生成方法。
本发明为了解决上述技术问题采取的技术方案是:
基于模板检索的文本到SQL生成方法,包括以下步骤:
步骤一:获取数据集,所述数据集包括用户提问、数据库和SQL语句,然后利用语义解析数据集中的SQL语句,以此构建SQL模板库;
步骤二:获取数据库的结构,并依据用户提问和数据库的结构在SQL模板库中检索与用户提问最相关的SQL模板;
步骤三:将用户提问、数据库的结构以及与用户提问最相关的SQL模板进行拼接,得到词元序列,然后将词元序列输入预训练语言模型进行编码,得到每一个词元的编码向量;
步骤四:选取第一个词元的编码向量并通过前馈神经网络预测与用户提问语义一致的SQL序列长度;
步骤五:基于SQL序列长度,并利用非自回归Transformer对编码向量进行解码,得到与用户提问语义一致的SQL语句。
进一步的,所述步骤一的具体步骤为:
使用特定标记替换SQL中出现的表、列、值、排序方式,同时删除SQL中的on子句,得到SQL模板,直至所有SQL语句处理完毕,并去除重复SQL模板,得到SQL模板库;
所述使用特定标记替换SQL中出现的表、列、值、排序方式的具体为:
将表名替换为[TAB];
将列名替换为[COL];
将limit子句值替换为[NUM],其他值替换为[VAL];
将排序方式替换为[ORD],所述排序方式包括升序和降序,即ASC和DESC。
进一步的,所述检索通过模板检索模型进行,所述模板检索模型基于双塔模型并引入损失函数优化得到;
所述双塔模型的输入包括模板部分和查询部分;
所述模板部分为SQL模板库中的模板;
所述查询部分为用户提问与数据库结构的拼接,得到查询序列S;
所述双塔模型的具体处理步骤为:
将查询序列S和SQL模板库中的模板分别送入两个独立的预训练语言模型中进行编码,针对编码后的结果,分别通过多层前馈神经网络得到查询的编码结果和模板的编码结果,之后计算查询的编码结果和模板的编码结果得到二者的余弦相似度,选取SQL模板库中余弦相似度最大值对应的模板为用户提问最相关的SQL模板。
进一步的,所述查询序列S表示为:
S=〈TABLE〉t1|t2|…|tN|<COLUMN>c1|c2|…|cM|<QUESTION>q1…n
其中,t1~tN为数据库中的表名,c1~cM为数据库中的列名,q1~qn为问题中的词元,〈TABLE〉、<COLUMN>以及<QUESTION〉为标识表头、列名和问题的特殊符号,N为数据库中的表格数量、M为数据库中列的数量、n为问题中词元的数量;
所述损失函数表示为:
Figure BDA0003748600520000021
其中,S表示查询序列,T+/-表示正例和负例模板,p表示条件概率。
进一步的,所述步骤三中预训练语言模型的输入通过在查询序列S后拼接与用户提问最相关的SQL模板得到;
所述步骤三中预训练语言模型通过在预训练语言模型原有位置编码的基础上,增加新的类型编码得到;
所述新的类型编码包括:
表、列位置编码:输入序列中每一个表名和列名对应一个单独的编码,从1开始进行标记,其他标记为0;
表、列标识码:使用1表示表名,2表示列名,0表示其他;
列类型编码:0表示其他,1~5分别表示整数、字符串、浮点数、日期、布尔类型;
数据库匹配编码:使用字符串匹配的方式对数据库中的表、列与用户问题中的词元进行匹配,完全匹配标记为1,部分匹配标记为2,其他情况标记为0。
进一步的,所述步骤四中前馈神经网络通过训练得到,训练时使用交叉熵损失函数进行优化,所述交叉熵损失函数以0.1倍的比例加入到模型总体的损失函数中。
进一步的,所述步骤五中解码通过基于片段拷贝的指针网络进行,与用户提问语义一致的SQL语句使用关键字+范围索引的形式表示;
所述范围索引指在SQL语句中,使用输入序列中片段的起始位置索引和结束位置索引来表示SQL语句中的表名、列名和条件值。
进一步的,所述步骤五中非自回归Transformer通过随机初始化的Transformer并增加指针网络,并利用交叉熵损失函数训练得到。
进一步的,所述步骤五的具体步骤为:
首先使用与步骤四中得到的SQL序列长度数量相同的<mask>符号作为非自回归Transformer的输入,并与每一个词元的编码向量计算自注意力得到每一个<mask>符号的编码向量;
然后利用每一个<mask>符号的编码向量进行预设次数迭代,生成SQL语句中的关键字和范围索引;
最后根据生成的范围索引填回对应的表、列和值,并补充缺少的on子句,得到最终的SQL语句。
进一步的,所述预训练语言模型为BERT、RoBERTa或Electra。
本发明的有益效果是:
由于非自回归模型的并行性带来时间性能提升的同时,也存在一些缺陷,无法在生成阶段观察到目标序列的上下文信息,因此本申请通过模板检索和多次迭代生成,弥补了非自回归模型的不足,本申请的技术方案对于结构复杂,长度较长的SQL语句,解码速度较传统方式提升了50%以上。本申请技术方案的模板库具有可扩展性,易于迁移,且具有较快的生成速度。
附图说明
图1为本申请的整体流程图;
图2为模型整体构架图;
图3为模板检索模型;
图4为模板填充部分示意图;
图5为多次迭代解码示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式公开了:基于模板检索的文本到SQL生成方法,包括以下步骤:
步骤一:获取数据集,所述数据集包括用户提问、数据库和SQL语句,然后利用语义解析数据集中的SQL语句,以此构建SQL模板库;
步骤二:获取数据库的结构,并依据用户提问和数据库的结构在SQL模板库中检索与用户提问最相关的SQL模板;
步骤三:将用户提问、数据库的结构以及与用户提问最相关的SQL模板进行拼接,得到词元序列,然后将词元序列输入预训练语言模型进行编码,得到每一个词元的编码向量;
步骤四:选取第一个词元的编码向量并通过前馈神经网络预测与用户提问语义一致的SQL序列长度;
步骤五:基于SQL序列长度,并利用非自回归Transformer对编码向量进行解码,得到与用户提问语义一致的SQL语句。
本方案适用于文本到SQL生成任务,大体可分为两部分:模板检索和SQL生成。具体流程如图1所示:模型整体结构如图2所示:
1.模板库构建与检索
首先根据语义解析数据集中出现的SQL语句,抽取SQL模板,构建模板库。使用特定的标记替换SQL中出现的表、列、值等。具体规则为:表名替换为[TAB]、列名替换为[COL]、其他值替换为[VAL]、排序方式(升序/降序)替换为[ORD]、limit子句值替换为[NUM]。同时删除SQL中的on子句(可依据from和join子句中各表之间的主-外键关系推得)。比如由SQL语句:“select name from student where age>18;”,可得到SQL模板:“select[COL]from[TAB]where[COL]>[VAL];”。
构建模板库之后,使用双塔模型训练得到模板检索模型,模型结构如图3所示:其中模板部分为模板库中的所有模板,查询部分为问题和数据库结构的拼接,格式为:“S=<TABLE>t1|t2|…|tN|<COLUMN〉c1|c2|…|cM|<QUESTION>q1…n”。其中ti为数据库中的表名,ci为数据库中的列名,qi为问题中的词元。<TABLE>、<COLUMN>以及<QUESTION>为标识表头、列名和问题的特殊符号。
将查询序列和模板送入预训练语言模型中进行编码。预训练语言模型可使用BERT、RoBERTa、Electra等自编码语言模型,使用句首标识符([CLS]或[BOS])对应的编码结果,在经过多层前馈神经网络分别得到查询和模板的编码结果。
最后计算二者的余弦相似度,对模板进行排序,选取其中相似度最大者即为该问题对应的SQL模板。在训练时对每个问题选取3~5个负例模板,损失函数如下:
Figure BDA0003748600520000051
其中S表示查询序列,T+/-表示正例和负例模板。
2.模板填充(SQL生成)
模板填充阶段采用非自回归的Transformer结构,模块分为三个部分:编码器、长度模块、解码器。详细结构如图4所示:
编码部分的输入与模板检索模块的查询部分一致,并在其后拼接前一阶段查询得到的模板(以<TEMPLATE>为前缀)。编码器采用RoBERTa预训练语言模型,并在原有位置编码的基础上,增加几种新的类型编码(以同样的方式加入到输入序列的Embedding表示中):
表、列位置编码:输入序列中的数据库部分的每一个实体(表或列)对应一个单独的编码,从1开始进行标记,其他部分标记为0;
表、列标识码:使用1表示该位置对应表名,2表示列名,0表示其他;
列类型编码:0表示其他,1~6分别表示整数、字符串、浮点数、日期、布尔类型;
数据库匹配编码:使用字符串匹配的方式对数据库中的表、列与问题中的词元进行匹配,完全匹配标记为1,部分匹配标记为2,其他情况标记为0。
编码完成后,使用句首标识符的编码结果,经过一层前馈神经网络进行长度模块的预测,在训练时其损失函数以0.1倍的比例加入到模型总体的损失函数中。
本申请的技术方案在解码部分使用基于片段拷贝的指针网络来完成非自回归解码部分,将SQL表示为关键字+范围索引的形式。范围索引是指在SQL语句中,使用输入序列中片段的起始位置索引和结束位置索引来表示其中的表名、列名和条件值(如下表所示)。
表1:位置索引表示
Figure BDA0003748600520000061
解码器采用随机初始化的Transformer,并增加类似指针网络的生成模块。输入部分根据长度预测模块的结果,使用对应数量的<mask>符号。在模型解码阶段,迭代多次生成SQL语句,每次只生成模型最确定的一个或多个词元。在解码SQL语句时,可以通过“拷贝”(拷贝片段索引所指代的表名、列名、列值等)或者“生成”(SQL关键字)的方式进行生成。解放部分示例图如图5所示:
解码完成后,根据生成的索引填回对应的表、列和值,并根据SQL中出现的表,补充缺少的on子句,得到最终的SQL语句。
与本申请最接近的方案是由TorstenScholak等人提出的PICARD模型,同样使用Transformer模型完成文本到SQL的生成任务,但是该方案仅适用于Spider数据集,且解码的时间效率较低。由XiaoyuZhang等人提出的M-SQL模型同样是基于模板的文本到SQL生成模型,但是该方案模板单一,不具有普适性,且时间效率相对较低。本申请技术方案的模板库具有可扩展性,易于迁移,且具有较快的生成速度。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (10)

1.基于模板检索的文本到SQL生成方法,其特征在于包括以下步骤:
步骤一:获取数据集,所述数据集包括用户提问、数据库和SQL语句,然后利用语义解析数据集中的SQL语句,以此构建SQL模板库;
步骤二:获取数据库的结构,并依据用户提问和数据库的结构在SQL模板库中检索与用户提问最相关的SQL模板;
步骤三:将用户提问、数据库的结构以及与用户提问最相关的SQL模板进行拼接,得到词元序列,然后将词元序列输入预训练语言模型进行编码,得到每一个词元的编码向量;
步骤四:选取第一个词元的编码向量并通过前馈神经网络预测与用户提问语义一致的SQL序列长度;
步骤五:基于SQL序列长度,并利用非自回归Transformer对编码向量进行解码,得到与用户提问语义一致的SQL语句。
2.根据权利要求1所述的基于模板检索的文本到SQL生成方法,其特征在于所述步骤一的具体步骤为:
使用特定标记替换SQL中出现的表、列、值、排序方式,同时删除SQL中的on子句,得到SQL模板,直至所有SQL语句处理完毕,并去除重复SQL模板,得到SQL模板库;
所述使用特定标记替换SQL中出现的表、列、值、排序方式的具体为:
将表名替换为[TAB];
将列名替换为[COL];
将limit子句值替换为[NUM],其他值替换为[VAL];
将排序方式替换为[ORD],所述排序方式包括升序和降序,即ASC和DESC。
3.根据权利要求2所述的基于模板检索的文本到SQL生成方法,其特征在于所述检索通过模板检索模型进行,所述模板检索模型基于双塔模型并引入损失函数优化得到;
所述双塔模型的输入包括模板部分和查询部分;
所述模板部分为SQL模板库中的模板;
所述查询部分为用户提问与数据库结构的拼接,得到查询序列S;
所述双塔模型的具体处理步骤为:
将查询序列S和SQL模板库中的模板分别送入两个独立的预训练语言模型中进行编码,针对编码后的结果,分别通过多层前馈神经网络得到查询的编码结果和模板的编码结果,之后计算查询的编码结果和模板的编码结果得到二者的余弦相似度,选取SQL模板库中余弦相似度最大值对应的模板为用户提问最相关的SQL模板。
4.根据权利要求3所述的基于模板检索的文本到SQL生成方法,其特征在于所述查询序列S表示为:
S=<TABLE>t1|t2|...|tN|<COLUMN>c1|c2|...|cM|<QUESTION>q1...n
其中,t1~tN为数据库中的表名,c1~cM为数据库中的列名,q1~qn为问题中的词元,<TABLE>、<COLUMN>以及<QUESTION>为标识表头、列名和问题的特殊符号,N为数据库中的表格数量、M为数据库中列的数量、n为问题中词元的数量;
所述损失函数表示为:
Figure FDA0003748600510000021
其中,S表示查询序列,T+/-表示正例和负例模板,p表示条件概率。
5.根据权利要求4所述的基于模板检索的文本到SQL生成方法,其特征在于所述步骤三中预训练语言模型的输入通过在查询序列S后拼接与用户提问最相关的SQL模板得到;
所述步骤三中预训练语言模型通过在预训练语言模型原有位置编码的基础上,增加新的类型编码得到;
所述新的类型编码包括:
表、列位置编码:输入序列中每一个表名和列名对应一个单独的编码,从1开始进行标记,其他标记为0;
表、列标识码:使用1表示表名,2表示列名,0表示其他;
列类型编码:0表示其他,1~5分别表示整数、字符串、浮点数、日期、布尔类型;
数据库匹配编码:使用字符串匹配的方式对数据库中的表、列与用户问题中的词元进行匹配,完全匹配标记为1,部分匹配标记为2,其他情况标记为0。
6.根据权利要求5所述的基于模板检索的文本到SQL生成方法,其特征在于所述步骤四中前馈神经网络通过训练得到,训练时使用交叉熵损失函数进行优化,所述交叉熵损失函数以0.1倍的比例加入到模型总体的损失函数中。
7.根据权利要求6所述的基于模板检索的文本到SQL生成方法,其特征在于所述步骤五中解码通过基于片段拷贝的指针网络进行,与用户提问语义一致的SQL语句使用关键字+范围索引的形式表示;
所述范围索引指在SQL语句中,使用输入序列中片段的起始位置索引和结束位置索引来表示SQL语句中的表名、列名和条件值。
8.根据权利要求7所述的基于模板检索的文本到SQL生成方法,其特征在于所述步骤五中非自回归Transformer通过随机初始化的Transformer并增加指针网络,并利用交叉熵损失函数训练得到。
9.根据权利要求8所述的基于模板检索的文本到SQL生成方法,其特征在于所述步骤五的具体步骤为:
首先使用与步骤四中得到的SQL序列长度数量相同的<mask>符号作为非自回归Transformer的输入,并与每一个词元的编码向量计算自注意力得到每一个<mask>符号的编码向量;
然后利用每一个<mask>符号的编码向量进行预设次数迭代,生成SQL语句中的关键字和范围索引;
最后根据生成的范围索引填回对应的表、列和值,并补充缺少的on子句,得到最终的SQL语句。
10.根据权利要求9所述的基于模板检索的文本到SQL生成方法,其特征在于所述预训练语言模型为BERT、RoBERTa或Electra。
CN202210836518.3A 2022-07-15 2022-07-15 基于模板检索的文本到sql生成方法 Active CN115203236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210836518.3A CN115203236B (zh) 2022-07-15 2022-07-15 基于模板检索的文本到sql生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210836518.3A CN115203236B (zh) 2022-07-15 2022-07-15 基于模板检索的文本到sql生成方法

Publications (2)

Publication Number Publication Date
CN115203236A true CN115203236A (zh) 2022-10-18
CN115203236B CN115203236B (zh) 2023-05-12

Family

ID=83581938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210836518.3A Active CN115203236B (zh) 2022-07-15 2022-07-15 基于模板检索的文本到sql生成方法

Country Status (1)

Country Link
CN (1) CN115203236B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303559A (zh) * 2023-02-24 2023-06-23 广东爱因智能科技有限公司 表格问答的控制方法、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180293302A1 (en) * 2017-04-06 2018-10-11 International Business Machines Corporation Natural question generation from query data using natural language processing system
CN111666575A (zh) * 2020-04-15 2020-09-15 中国人民解放军战略支援部队信息工程大学 基于词元编码的文本无载体信息隐藏方法
CN112559556A (zh) * 2021-02-25 2021-03-26 杭州一知智能科技有限公司 表格模式解析和序列掩码的语言模型预训练方法及***
CN112988785A (zh) * 2021-05-10 2021-06-18 浙江大学 基于语言模型编码和多任务解码的sql转换方法及***
CN114637765A (zh) * 2022-04-26 2022-06-17 阿里巴巴达摩院(杭州)科技有限公司 基于表格数据的人机交互方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180293302A1 (en) * 2017-04-06 2018-10-11 International Business Machines Corporation Natural question generation from query data using natural language processing system
CN111666575A (zh) * 2020-04-15 2020-09-15 中国人民解放军战略支援部队信息工程大学 基于词元编码的文本无载体信息隐藏方法
CN112559556A (zh) * 2021-02-25 2021-03-26 杭州一知智能科技有限公司 表格模式解析和序列掩码的语言模型预训练方法及***
CN112988785A (zh) * 2021-05-10 2021-06-18 浙江大学 基于语言模型编码和多任务解码的sql转换方法及***
CN114637765A (zh) * 2022-04-26 2022-06-17 阿里巴巴达摩院(杭州)科技有限公司 基于表格数据的人机交互方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303559A (zh) * 2023-02-24 2023-06-23 广东爱因智能科技有限公司 表格问答的控制方法、***及存储介质
CN116303559B (zh) * 2023-02-24 2024-02-23 广东爱因智能科技有限公司 表格问答的控制方法、***及存储介质

Also Published As

Publication number Publication date
CN115203236B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN113642330B (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN112507065B (zh) 一种基于注释语义信息的代码搜索方法
CN108519890B (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN114201581B (zh) 一种基于对比学习的长文本检索模型
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、***及储存介质
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN116821168B (zh) 一种改进的基于生成式大语言模型的nl2sql方法
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及***
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN112364132A (zh) 基于依存句法的相似度计算模型和***及搭建***的方法
CN115048447A (zh) 一种基于智能语义补全的数据库自然语言接口***
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和***
CN117493379A (zh) 一种基于大语言模型的自然语言到sql交互式生成方法
CN115203236B (zh) 基于模板检索的文本到sql生成方法
CN116049422A (zh) 基于联合抽取模型的包虫病知识图谱构建方法及其应用
CN114757184A (zh) 实现航空领域知识问答的方法和***
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
Liu et al. Raw-to-end name entity recognition in social media
CN114201506B (zh) 一种上下文相关语义解析方法
CN117609281B (zh) 一种Text2Sql方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant