CN116701437B - 数据转化方法、数据转化***、电子设备及可读存储介质 - Google Patents
数据转化方法、数据转化***、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116701437B CN116701437B CN202310980534.4A CN202310980534A CN116701437B CN 116701437 B CN116701437 B CN 116701437B CN 202310980534 A CN202310980534 A CN 202310980534A CN 116701437 B CN116701437 B CN 116701437B
- Authority
- CN
- China
- Prior art keywords
- data
- candidate
- language model
- selecting
- data conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000011550 data transformation method Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000003058 natural language processing Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009954 braiding Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据转化方法、数据转化***、电子设备及可读存储介质,包括:获取用户查询问题;选取所述用户查询问题中的关键词;针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量的向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。本发明能够结合大语言模型和向量检索技术,提高数据转化的准确性和效率。
Description
技术领域
本发明涉及数据库技术,具体涉及一种数据转化方法、数据转化***、电子设备及可读存储介质。
背景技术
自然语言被公认为是许多领域的最佳交互方式。至今仍不存在一个通用模型能连接自然语言和任意领域。如果能通过自然语言链接关系型数据库,则用户无论是否精通SQL查询语言,都将能够简化大量现有工作。随着深度学习技术的兴起,开始涌现大量研究自然语言连接关系型数据库的工作。
SQL语言是当前使用的关系数据库的主要查询语言。自然语言到SQL的映射可视为语义解析问题(Andreas, Vlachos et al., 2013)。语义解析是长期存在且在自然语言处理(NLP)中被广泛研究的问题。因此,它引起了学术界和业界的广泛关注,特别是将自然语言转换为SQL查询。当今时代,从金融、电子商务到医疗领域,大量数据都存储在关系型数据库中。在数据库查询过程中,用户通常使用自然语言提出查询请求。然而,将自然语言直接转换为可执行的SQL查询是一个具有挑战性的任务。
Text2SQL就是将人类语言(如英语)的查询转化为数据库查询语言(SQL)。传统的Text2SQL方法通过单词问答在处理复杂或语义模糊的查询时存在限制,导致无法准确转换成正确的SQL查询语句。因此,需要一种新的方法和***来提高Text2SQL的准确性和效率。
发明内容
本发明的目的在于提供一种使用大语言模型的数据转化方法、数据转化***、电子设备及可读存储介质,结合大语言模型和向量检索技术,提高数据转化的准确性和效率,能够有效应用于Text2SQL场景。
为实现上述目的,本发明提供一种数据转化方法,包括以下步骤:获取用户查询问题;选取所述用户查询问题中的关键词;针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。
可选的,所述使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:将所有所述候选数据按第三预设数量划分为若干个数据组;使用大语言模型,针对每一个所述数据组,选取该数据组中第四预设数量的所述精选数据;将每一个所述数据组中的所述精选数据汇总,获得所述第二预设数量的所述精选数据。
可选的,所述候选数据和\或所述精选数据的数据形式包括字符串格式的表格。
可选的,使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:循环步骤:使用大语言模型,在所述候选数据中选取出中间数据,将所述中间数据作为更新的所述候选数据;将所述循环步骤循环执行预设次数,直至所述更新的所述候选数据数量达到所述第二预设数量,以此时的所述更新的所述候选数据作为所述精选数据。
可选的,所述根据所述精选数据,生成所述输出结果,具体包括:使用大语言模型,根据所述精选数据,生成对应所述查询问题的SQL语句。
可选的,所述根据所述精选数据,生成所述输出结果,具体包括:使用大语言模型,根据预设的提示词指令,生成所述输出结果。
可选的,在每次使用大语言模型之前,将该次大语言模型使用前的所有步骤内容作为对话历史,输入给所述大语言模型。
为实现上述目的,本发明还提供一种数据转化***,应用于上述任一所述的数据转化方法,包括:获取模块,用于获取所述用户查询问题;选取模块,用于选取所述查询问题中的所述关键词;处理模块,用于执行以下步骤中的至少一者:针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:存储器,存储有计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行上述任一项所述的数据转化方法;显示器,与所述处理器和所述存储器通信相连,用于显示与所述数据转化方法相关GUI交互界面。
为实现上述目的,本发明还提供一种可读存储介质,存储有计算机程序,其特征在于:该计算机程序被处理器执行时实现上述任一项所述的数据转化方法。
本发明提供的使用大语言模型的数据转化方法、数据转化***、电子设备及可读存储介质具有如下有益效果:
本发明提供的数据转化方法,包括以下步骤:获取用户查询问题;选取所述用户查询问题中的关键词;针对每一个所述关键词,获取所述关键词对应的关键词向量;在数据库中获取与所述关键词向量的向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;根据所述精选数据,生成输出结果。
本发明在使用时,用户只需要使用普通的语言习惯输入查询问题,便可获得对应需求格式的输出结果,例如Text2SQL的场景。由于普通的语言遣词造句中关键词的组合会较为复杂,本发明可先根据预设算法提取出查询问题中的关键词,再将每个关键词单独进行向量检索,基于词向量的原理,检索出与关键词相近的字段,再将这些字段经大语言模型进行筛选。此时被筛选出的字段在数据库中可能仍然对应大量数据(例如每个字段会对应大量字符串格式的表格,而这些表格中大部分其实与查询问题无关),此时再进一步使用大语言模型筛选出与查询问题相关的表格,最终获取对应所述查询问题的精选数据并将其高效准确地转化成SQL语句。如此设置,本发明将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率,尤其是Text2SQL的准确性和效率。
由于本发明提供的数据转化***与所述数据转化方法属于同一个发明构思,因此所述数据转化***能够将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率。
由于本发明提供的电子设备与所述数据转化方法属于同一个发明构思,因此所述数据转化***能够将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率。
由于本发明提供的可读存储介质与所述数据转化方法属于同一个发明构思,因此所述数据转化***能够将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率。
附图说明
图1为本发明一实施例提供的数据转化方法的流程示意图。
图2为本发明一实施例提供的电子设备的方框结构示意图。
其中附图标记为:
101-处理器;102-通信接口;103-存储器;104-通信总线;105-显示器。
具体实施方式
为使本发明的目的、优点和特征更加清楚,以下结合附图和具体实施例对本发明作进一步详细说明。需说明的是,附图均采用非常简化的形式且未按比例绘制,仅用以方便、明晰地辅助说明本发明实施例的目的。此外,附图所展示的结构往往是实际结构的一部分。特别的,各附图需要展示的侧重点不同,有时会采用不同的比例。
应当明白,当元件或层被称为"在…上"、"连接到"其它元件或层时,其可以直接地在其它元件或层上、连接其它元件或层,或者可以存在居间的元件或层。相反,当元件被称为"直接在…上"、"直接连接到"其它元件或层时,则不存在居间的元件或层。尽管可使用术语第一、第二、第三等描述各种元件、部件、区、层和/或部分,这些元件、部件、区、层和/或部分不应当被这些术语限制。这些术语仅仅用来区分一个元件、部件、区、层或部分与另一个元件、部件、区、层或部分。因此,在不脱离本发明教导之下,下面讨论的第一元件、部件、区、层或部分可表示为第二元件、部件、区、层或部分。空间关系术语例如“在……之下”、“在下面”、“下面的”、“在……之上”、“在上面”、“上面的”等,在这里可为了方便描述而被使用从而描述图中所示的一个元件或特征与其它元件或特征的关系。应当明白,除了图中所示的取向以外,空间关系术语意图还包括使用和操作中的器件的不同取向。例如,如果附图中的器件翻转,然后,描述为“在……之下”、“在下面”、“下面的”元件或特征将取向为在其它元件或特征“上”。器件可以另外地取向(旋转90度或其它取向)并且在此使用的空间描述语相应地被解释。在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时,单数形式的"一"、"一个"和"所述/该"也意图包括复数形式,除非上下文清楚地指出另外的方式。还应明白术语“包括”用于确定可以特征、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语"和/或"包括相关所列项目的任何及所有组合。
大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
Text2SQL(Structured Query Language)是一种自然语言处理(NLP)技术,旨在将自然语言查询转化为可执行的SQL查询语句。它允许用户使用自然语言提出数据库查询,并自动将其转换为数据库可以理解和执行的SQL语句。 Text2SQL在许多领域都有应用,特别是在数据库界面和智能助理领域。
作为一个示范性的举例,在医疗健康领域,假设有一个医疗数据库,包含有关患者、医生、诊断和治疗的信息。此时使用Text2SQL技术,医生或研究人员可以使用自然语言查询来访问数据库中的信息,而无需学习和编写复杂的SQL查询语句。 例如,医生可能会提出以下查询:“找出最近一年内患有糖尿病的患者,并列出他们的姓名、年龄和治疗方案。”Text2SQL***将解析该查询问题并生成适当的SQL查询语句,如:“SELECT name, age,treatmentplan FROM patients WHERE diagnosis='diabetes' AND admissiondate>DATESUB(CURRENTDATE(), INTERVAL 1 YEAR)”。
通过Text2SQL技术,医生可以轻松地使用自己熟悉的自然语言来进行数据库查询,而无需了解数据库结构和SQL语法。这提供了一种便捷的方式,使非技术专业人员能够以更直观和灵活的方式与数据库进行交互。但传统的Text2SQL方法通过单词问答在处理复杂或语义模糊的查询问题时存在限制,导致无法准确转换成正确的SQL查询语句。因此,需要一种新的方法和***来提高Text2SQL的准确性和效率。
本发明的目的在于提供一种使用大语言模型的数据转化方法、数据转化***、电子设备及可读存储介质,结合大语言模型和向量检索技术,提高数据转化的准确性和效率,能够有效应用于Text2SQL场景。
为实现上述目的,本发明提供一种数据转化方法,请参考图1,图1为本发明一实施例提供的数据转化方法的流程示意图。如图1所示,本发明包括以下步骤:
获取用户查询问题;
选取所述用户查询问题中的关键词;
针对每一个所述关键词,获取所述关键词对应的关键词向量;
在数据库中获取与所述关键词向量的向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;
使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;
针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;
使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;
根据所述精选数据,生成输出结果。
本发明在使用时,用户只需要使用普通的语言习惯输入查询问题,便可获得对应需求格式的输出结果,例如Text2SQL的场景。由于普通的语言遣词造句中关键词的组合会较为复杂,尤其是在一些复杂或语义模糊的查询问题中的关键词的组合。本发明可先根据预设算法提取出查询问题中的关键词,再将每个关键词单独进行向量检索,基于词向量的原理,检索出与关键词相近的字段,再将这些字段经大语言模型进行筛选。此时被筛选出的字段在数据库中可能仍然对应大量数据(例如每个字段会对应大量字符串格式的表格,而这些表格中大部分其实与查询问题无关),此时再进一步使用大语言模型筛选出与查询问题相关的表格,最终实现精选数据并将其高效准确地转化成SQL语句。如此设置,本发明将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率,尤其是Text2SQL的准确性和效率。
应理解,所述向量距离包括但不限于欧氏距离。
需要说明的是,所述选取所述用户查询问题中的关键词,可基于预设的筛选算法建立筛选逻辑以选取出来,例如英文问题“What’s the most popular project ingithub?(github平台中最受欢迎的项目是什么?)”可设定只提取表语和状语作为关键词,例如popular project github,但并不以此为限。
具体的,所述候选数据和\或所述精选数据的数据形式包括字符串格式的表格(如SQL数据库表)。
例如:“project”对应的精选字段是“team”,“team”一词在数据库中可能对应很多个表格,即很多表格都可能包含字段“team”,其中一个表格案例如下:
col : team | county | wins | years won
row 1 : greystones | wicklow | 1 | 2011
row 2 : ballymore eustace | kildare | 1 | 2010
row 3 : maynooth | kildare | 1 | 2009
可见,如果仍然对应上述实施例中的英文问题“What’s the most popularproject in github?”,则这个表格研究的问题是队伍的获胜情况,并不是github平台中最受欢迎的项目中对应的队伍,可见这个表格并不对应所述查询问题,会经大语言模型被筛选排除。
在获得所述候选数据后,所述候选数据的数据量会非常庞大,例如会获取数量巨大的各种表格,如果一次性输入给大语言模型,则筛选效果和筛选效率会欠佳,因此需要进行分批次输入,基于此本发明提供以下技术方案:使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:
将所有所述候选数据按第三预设数量划分为若干个数据组;
使用大语言模型,针对每一个所述数据组,选取该数据组中第四预设数量的所述精选数据;
将每一个所述数据组中的所述精选数据汇总,获得所述第二预设数量的所述精选数据。
优选的,使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:
循环步骤:使用大语言模型,在所述候选数据中选取出中间数据,将所述中间数据作为更新的所述候选数据;
将所述循环步骤循环执行预设次数,直至所述更新的所述候选数据数量达到所述第二预设数量,以此时的所述更新的所述候选数据作为所述精选数据。如此设置,本发明迭代地与用户进行交互,逐步缩小候选范围。具体的,可以通过引入多轮对话机制实现所述迭代候选向量的获取,需要说明的是,多轮对话的轮数并不以此为限。
应理解,使用所述大语言模型,应利用提示词(prompt)工程的思想,根据预设的提示词指令生成输出结果。在一个示范性的实施例中,所述根据所述精选数据,生成输出结果对应的提示词指令的模板如下:
基于以下字符串表示的数据库表结构,请简洁并专业地回答用户的问题。
如果无法从中得到答案,请说“根据已知信息无法回答该问题”或“没有提供足够的相关信息”。不允许在答案中添加编造成分。另外,答案请使用中文。
数据库表结构:(此处输入所述精选数据对应的数据库表)
问题:(此处输入用户查询问题)。
需要说明的是,引入多轮对话机制时,为了使大语言模型更精确地联系上下文,应尽可能全面地为大语言模型提供对话历史,基于此本发明提供一下技术方案:在每次使用大语言模型之前,将该次大语言模型使用前的所有步骤内容作为对话历史,输入给所述大语言模型。
综上所述,本发明提出任务拆解多轮对话的优化方案,结合大语言模型、向量检索和提示词工程,通过任务拆解并在***内部自动执行多轮对话弥补单次问答的不足,更好地处理复杂语义,有效提高Text2SQL的准确率和效率。本质上利用***的任务拆解和各子查询生成策略,能够针对复杂查询提供更精细的查询语句,进一步提升查询效果。
发明人根据本发明的技术原理进行了与现有技术的对比实验,实验数据如下:
实验环境:
操作***:Ubuntu 20.04.5 LTS
CPU:Intel(R) Xeon(R) Platinum 8362 CPU @ 2.80GHz
GPU:NVIDIA A30
数据集:Spider开源数据集
除上述资源以外,其他资源不设限制。
T5-base | T5-large | T5-3B | 本发明 | |
Avg | 58.12 | 66.63 | 71.76 | 78.98 |
由此可见,本发明能够显著提高Text2SQL的准确率和效率。
为实现上述目的,本发明还提供一种数据转化***,应用于上述任一所述的数据转化方法,包括:
获取模块,用于获取所述用户查询问题;
选取模块,用于选取所述查询问题中的所述关键词;
处理模块,用于执行以下步骤中的至少一者:
针对每一个所述关键词,获取所述关键词对应的关键词向量;
在数据库中获取与所述关键词向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;
使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;
针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;
使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;
根据所述精选数据,生成输出结果。
由于本发明提供的数据转化***与所述数据转化方法属于同一个发明构思,因此所述数据转化***能够将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率。
为实现上述目的,本发明还提供一种电子设备,请参考图2,图2为本发明一实施例提供的电子设备的方框结构示意图。如图2所示,所述电子设备包括:
存储器103,存储有计算机程序;
处理器101,与所述存储器通信相连,调用所述计算机程序时执行上述中任一项所述的数据转化方法;
显示器105,与所述处理器和所述存储器通信相连,用于显示与所述数据转化方法相关GUI交互界面。
由于本发明提供的电子设备与所述数据转化方法属于同一个发明构思,因此所述数据转化***能够将数据转化的任务进行拆解,结合大语言模型和向量检索技术的优势,能够有效提高数据转化的准确性和效率。
如图2所示,所述电子设备还包括通信接口102和通信总线104,其中所述处理器101、所述通信接口102、所述存储器103通过通信总线104完成相互间的通信。所述通信总线104可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。该通信总线104可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。所述通信接口102用于上述电子设备与其他设备之间的通信。
本发明中所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器101是所述电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
所述存储器103可用于存储所述计算机程序,所述处理器101通过运行或执行存储在所述存储器103内的计算机程序,以及调用存储在存储器103内的数据,实现所述电子设备的各种功能。
所述存储器103可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
为实现上述目的,本发明提供一种可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现如上述任一项所述的数据转化方法。由于本发明提供的可读存储介质与上文所述的数据转化方法属于同一发明构思,因此本发明提供的可读存储介质具有上文所述的数据转化方法的所有优点,故在此不再对本发明提供的可读存储介质所具有的有益效果进行一一赘述。
本发明实施方式的可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。可读介质可以是计算机可读信号介质或者计算机可读可读存储介质。计算机可读可读存储介质例如可以是但不限于电、磁、光、电磁、红外线或半导体的***、装置或器件,或者任意以上的组合。计算机可读可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机硬盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文中,计算机可读可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其组合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围。
还应当理解的是,除非特别说明或者指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
此外还应该认识到,此处描述的术语仅仅用来描述特定实施例,而不是用来限制本发明的范围。必须注意的是,此处的以及所附权利要求中使用的单数形式“一个”和“一种”包括复数基准,除非上下文明确表示相反意思。例如,对“一个步骤”或“一个装置”的引述意味着对一个或 多个步骤或装置的引述,并且可能包括次级步骤以及次级装置。应该以最广义的含义来理解使用的所有连词。以及,词语“或”应该被理解为具有逻辑“或”的定义,而不是逻辑“异或”的定义,除非上下文明确表示相反意思。此外,本发明实施例的实现可包括手动、自动或组合地执行所选任务。
Claims (8)
1.一种数据转化方法,其特征在于,包括以下步骤:
获取用户查询问题;
选取所述用户查询问题中的关键词;
针对每一个所述关键词,获取所述关键词对应的关键词向量;
在数据库中获取与所述关键词向量的向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;
使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;
针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;
使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;
根据所述精选数据,生成输出结果;
所述根据所述精选数据,生成所述输出结果,具体包括:
使用大语言模型,根据所述精选数据,生成对应所述查询问题的SQL语句;
所述候选数据和\或所述精选数据的数据形式包括字符串格式的表格。
2.如权利要求1所述的数据转化方法,其特征在于,所述使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:
将所有所述候选数据按第三预设数量划分为若干个数据组;
使用大语言模型,针对每一个所述数据组,选取该数据组中第四预设数量的所述精选数据;
将每一个所述数据组中的所述精选数据汇总,获得所述第二预设数量的所述精选数据。
3.如权利要求1所述的数据转化方法,其特征在于,所述使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据,具体包括:
循环步骤:使用大语言模型,在所述候选数据中选取出中间数据,将所述中间数据作为更新的所述候选数据;
将所述循环步骤循环执行预设次数,直至所述更新的所述候选数据数量达到所述第二预设数量,以此时的所述更新的所述候选数据作为所述精选数据。
4.如权利要求1所述的数据转化方法,其特征在于,所述根据所述精选数据,生成所述输出结果,具体包括:
使用大语言模型,根据预设的提示词指令,生成所述输出结果。
5.如权利要求1至4中任一所述的数据转化方法,其特征在于,在每次使用大语言模型之前,将该次大语言模型使用前的所有步骤内容作为对话历史,输入给所述大语言模型。
6.一种数据转化***,其特征在于,应用于如权利要求1至5中任一项所述的数据转化方法,包括:
获取模块,用于获取所述用户查询问题;
选取模块,用于选取所述查询问题中的所述关键词;
处理模块,用于执行以下步骤:
针对每一个所述关键词,获取所述关键词对应的关键词向量;
在数据库中获取与所述关键词向量距离在预设范围内的候选词向量,并获取所有所述候选词向量对应的候选字段;
使用大语言模型,在所述候选字段中选取出第一预设数量的精选字段;
针对每一个所述精选字段,在所述数据库中获取所述精选字段对应的所有候选数据;
使用大语言模型,在所述候选数据中选取出第二预设数量的对应所述查询问题的精选数据;
根据所述精选数据,生成对应所述查询问题的SQL语句。
7.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机程序;
处理器,与所述存储器通信相连,调用所述计算机程序时执行如权利要求1-5中任一项所述的数据转化方法;
显示器,与所述处理器和所述存储器通信相连,用于显示与所述数据转化方法相关GUI交互界面。
8.一种可读存储介质,存储有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的数据转化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980534.4A CN116701437B (zh) | 2023-08-07 | 2023-08-07 | 数据转化方法、数据转化***、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980534.4A CN116701437B (zh) | 2023-08-07 | 2023-08-07 | 数据转化方法、数据转化***、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701437A CN116701437A (zh) | 2023-09-05 |
CN116701437B true CN116701437B (zh) | 2023-10-20 |
Family
ID=87824277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310980534.4A Active CN116701437B (zh) | 2023-08-07 | 2023-08-07 | 数据转化方法、数据转化***、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701437B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251473B (zh) * | 2023-11-20 | 2024-03-15 | 摩斯智联科技有限公司 | 车辆数据查询分析方法、***、装置和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
CN109241259A (zh) * | 2018-08-24 | 2019-01-18 | 国网江苏省电力有限公司苏州供电分公司 | 基于er模型的自然语言查询方法、装置及*** |
CN114020768A (zh) * | 2021-10-13 | 2022-02-08 | 华中科技大学 | 中文自然语言的sql语句生成模型的构建方法及应用 |
CN114722069A (zh) * | 2022-04-07 | 2022-07-08 | 平安科技(深圳)有限公司 | 语言转换方法和装置、电子设备及存储介质 |
CN115238101A (zh) * | 2022-09-23 | 2022-10-25 | 中国电子科技集团公司第十研究所 | 一种面向多类型知识库的多引擎智能问答*** |
CN115576984A (zh) * | 2022-09-13 | 2023-01-06 | 粤港澳国际供应链(广州)有限公司 | 中文自然语言生成sql语句及跨数据库查询方法 |
US11615080B1 (en) * | 2020-04-03 | 2023-03-28 | Apttus Corporation | System, method, and computer program for converting a natural language query to a nested database query |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106033466A (zh) * | 2015-03-20 | 2016-10-19 | 华为技术有限公司 | 数据库查询的方法和设备 |
US11226960B2 (en) * | 2019-12-31 | 2022-01-18 | International Business Machines Corporation | Natural-language database interface with automated keyword mapping and join-path inferences |
-
2023
- 2023-08-07 CN CN202310980534.4A patent/CN116701437B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
CN109241259A (zh) * | 2018-08-24 | 2019-01-18 | 国网江苏省电力有限公司苏州供电分公司 | 基于er模型的自然语言查询方法、装置及*** |
US11615080B1 (en) * | 2020-04-03 | 2023-03-28 | Apttus Corporation | System, method, and computer program for converting a natural language query to a nested database query |
CN114020768A (zh) * | 2021-10-13 | 2022-02-08 | 华中科技大学 | 中文自然语言的sql语句生成模型的构建方法及应用 |
CN114722069A (zh) * | 2022-04-07 | 2022-07-08 | 平安科技(深圳)有限公司 | 语言转换方法和装置、电子设备及存储介质 |
CN115576984A (zh) * | 2022-09-13 | 2023-01-06 | 粤港澳国际供应链(广州)有限公司 | 中文自然语言生成sql语句及跨数据库查询方法 |
CN115238101A (zh) * | 2022-09-23 | 2022-10-25 | 中国电子科技集团公司第十研究所 | 一种面向多类型知识库的多引擎智能问答*** |
Also Published As
Publication number | Publication date |
---|---|
CN116701437A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033080B (zh) | 基于概率转移矩阵的医疗术语标准化方法及*** | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
US11106873B2 (en) | Context-based translation retrieval via multilingual space | |
RU2509350C2 (ru) | Способ семантической обработки естественного языка с использованием графического языка-посредника | |
CN112487202B (zh) | 融合知识图谱与bert的中文医学命名实体识别方法、装置 | |
CN116701437B (zh) | 数据转化方法、数据转化***、电子设备及可读存储介质 | |
CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
US20230205996A1 (en) | Automatic Synonyms Using Word Embedding and Word Similarity Models | |
CN114153994A (zh) | 医保信息问答方法及装置 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
Adduru et al. | Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification. | |
Dar et al. | Frameworks for querying databases using natural language: a literature review | |
CN117608652A (zh) | 一种基于高级抽象语法树的sql语句翻译方法 | |
Steinkamp et al. | Basic artificial intelligence techniques: natural language processing of radiology reports | |
Khadija et al. | Automating information retrieval from faculty guidelines: designing a PDF-driven chatbot powered by OpenAI ChatGPT | |
Gammack et al. | Semantic knowledge management system for design documentation with heterogeneous data using machine learning | |
Bombieri et al. | Surgicberta: a pre-trained language model for procedural surgical language | |
Zhekova et al. | Methodology for creating natural language interfaces to information systems in a specific domain area | |
US12026482B2 (en) | Methods, systems, and computer readable media for creating and using minimum dictionary language (MDL) to access data in closed-domain data sets | |
CN113314236A (zh) | 一种面向高血压的智能问答*** | |
CN114004237A (zh) | 一种基于膀胱癌知识图谱的智能问答***构建方法 | |
Varga | Domain adaptation for multilingual neural machine translation | |
CN116612848B (zh) | 一种电子病历的生成方法、装置、设备及存储介质 | |
Abdul-Kader | Application Of Speech-To-Text synthesizer by using Natural Language Processing (NLP). | |
Peng et al. | Mining and clustering phrases for English for special purpose: travel writing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |