CN117033571A - 知识问答***构建方法及*** - Google Patents
知识问答***构建方法及*** Download PDFInfo
- Publication number
- CN117033571A CN117033571A CN202310765310.1A CN202310765310A CN117033571A CN 117033571 A CN117033571 A CN 117033571A CN 202310765310 A CN202310765310 A CN 202310765310A CN 117033571 A CN117033571 A CN 117033571A
- Authority
- CN
- China
- Prior art keywords
- entities
- knowledge
- model
- relation
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 239000000126 substance Substances 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 70
- 238000013135 deep learning Methods 0.000 claims description 12
- 238000003058 natural language processing Methods 0.000 claims description 12
- 238000013179 statistical model Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 4
- 238000012550 audit Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了知识问答***构建方法及***,属于大数据处理技术领域,要解决的技术问题为如何结合大模型与知识图谱来构建知识问答***。包括如下步骤:收集和整理化学领域相关的知识数据,提取实体、关系和属性之间的关系,构建知识图谱;对用户输入的问题文本进行分析理解,抽取实体、关系和属性;根据问题文本中的关键词和实体,在知识图谱中进行信息检索;对用户输入的问题文本和检索到的实体、关系和属性进行信息整合,得到prompt以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案;基于用户的界面要求,将生成的答案进行格式化呈现,包括以文本和图表的形式展示。
Description
技术领域
本发明涉及大数据处理技术领域,具体地说是知识问答***构建方法及***。
背景技术
大模型通过在大规模文本数据上进行训练,可以掌握大量的知识和信息。它有很多的优势,可以从各种领域的文本中吸取信息,包括科学、历史、文学、技术等等,并能够回答各种类型的问题。大语言模型可以理解和生成自然语言,它具备强大的语言理解和生成能力。当面对用户的提问,能够以流畅、准确的方式生成回答。可以根据用户的输入和上下文进行个性化回应和适应。同时,它具有学习能力,可以通过与用户的互动不断改善自身的表现,提高回答的准确性和质量。这种学习能力使得模型可以不断进步,并更好地满足用户的需求。因此,大模型可以很好的应用于问答***中。
尽管大模型有许多优势,但仍然存在一些挑战,例如模型的误导性回答、对话的连贯性问题和数据偏差等。特别是在专业垂直领域如水利行业,需要根据以往的资料进行回答,确保回答的真实性,不可进行胡编乱造。
知识图谱(Knowledge Graph)是一种用于组织和表示知识的图形结构。它是一个包含实体、属性和它们之间关系的知识库。在知识图谱中,实体代表现实世界的具体对象或概念,属性描述实体之间的关系或实体的特征。知识图谱是将领域知识整合到一个统一的结构中,以便计算机可以理解和处理这些知识。它可以从多个信息源中抽取、链接和组织信息,以构建一个丰富的知识网络。
知识图谱中的信息通常来自于可靠的数据源或专家的知识注释,经过严格的验证和审核。这使得知识图谱在数据的可靠性和可控性方面具有优势。相比之下,大模型是通过大规模文本数据的自动训练获得知识,难以确保数据的准确性和可靠性。
行业知识图谱以领域或企业内部的数据为主要来源,通常要求快速扩大规模,构建行业壁垒,知识结构更加复杂,通常包含本体工程和规则型知识。知识抽取的质量要求很高,较多的依靠从企业内部的结构化、非结构化以及半结构化数据进行联合抽取需要依靠人工进行审核校验,来保证质量。通常需要融合多来源的领域是数据扩大规模的有效手段。应用形式更加全面,除搜索问答外,还包括决策分析、业务管理等,并对推理的要求更高,并有较强的可解释性要求。主要领域有电商、金融、农业、安全、医疗等等。
如何结合大模型与知识图谱来构建知识问答***,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供知识问答***构建方法及***,来解决如何结合大模型与知识图谱来构建知识问答***的技术问题。
第一发明,本发明一种知识问答***构建方法,基于知识图谱、LangChain和大模型技术构建化学领域的知识问答***,所述方法包括如下步骤:
收集和整理化学领域相关的知识数据,并通过自然语言处理技术对知识数据进行预处理,提取实体、关系和属性之间的关系,基于实体、关系和属性之间的关系构建知识图谱,其中,关系为实体之间的语义关系,属性为用于描述实体描述性信息,包括描述实体的特征和性质;
通过自然语言处理技术对用户输入的问题文本进行分析理解,抽取实体、关系和属性;
根据问题文本中的关键词和实体,在知识图谱中进行信息检索,得到相关的实体、关系和属性;
对用户输入的问题文本和检索到的实体、关系和属性进行信息整合,得到prompt;
以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案;
基于用户的界面要求,将生成的答案进行格式化呈现,包括以文本和图表的形式展示。
作为优选,知识数据包括结构化数据和非结构化数据;
对于结构化数据,通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系;
对于非结构化数据,通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。
作为优选,通过如下方法抽取实体:
基于规则进行正则匹配进行命名实体识别;
或者,基于统计模型将命名实体识别作为序列标注问题处理,所述统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型;
或者,以问题文本中词向量为,基于神经网络模型实现端到端的命名实体识别;
通过基于规则的方法或者基于机器学习的方法进行关系抽取;
通过基于规则的方法进行关系抽取,包括如下步骤:使用预定义的规则和模式匹配技术,通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系;
通过基于机器学习的方法进行关系抽取,包括如下步骤:使用监督学习或无监督学习算法来训练关系抽取模型,基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系;
通过如下步骤进行属性抽取:
基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取;
基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性;
其中,基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配;
所述深度学习方法对问题文本进行特征提取时,包括通过训练后的BERT模型对问题文本进行特征提取。
作为优选,通过图数据库存储构建的知识图谱;
根据问题文本中的关键词和实体,通过图数据库的查询语言从知识图谱中进行检索,返回与问题文本相关的实体、关系和属性。
作为优选,所述答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。
第二方面,本发明一种知识问答***构建***,用于通过如第一方面任一项所述的知识问答***构建方法构建化学领域的知识问答***,构建***包括:
知识图谱构建模块,所述知识图谱构建模块用于收集和整理化学领域相关的知识数据,并通过自然语言处理技术对知识数据进行预处理,提取实体、关系和属性之间的关系,基于实体、关系和属性之间的关系构建知识图谱,其中,关系为实体之间的语义关系,属性为用于描述实体描述性信息,包括描述实体的特征和性质;
抽取模块,所述抽取模块用于通过自然语言处理技术对用户输入的问题文本进行分析理解,抽取实体、关系和属性;
检索匹配模块,所述检索匹配模块用于根据问题文本中的关键词和实体,在知识图谱中进行信息检索,得到相关的实体、关系和属性;
信息整合模块,所述信息整合模块用于对用户输入的问题文本和检索到的实体、关系和属性进行信息整合,得到prompt;
答案生成模块,所述答案生成模块用于以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案;
答案展示模块,所述答案展示模块用于基于用户的界面要求,将生成的答案进行格式化呈现,包括以文本和图表的形式展示。
作为优选,知识数据包括结构化数据和非结构化数据;
对于结构化数据,所述知识图谱构建模块用于通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系;
对于非结构化数据,所述知识图谱构建模块用于通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。
作为优选,所述抽取模块用于通过如下方法抽取实体:
基于规则进行正则匹配进行命名实体识别;
或者,基于统计模型将命名实体识别作为序列标注问题处理,所述统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型;
或者,以问题文本中词向量为,基于神经网络模型实现端到端的命名实体识别;
所述抽取模块用于通过基于规则的方法或者基于机器学习的方法进行关系抽取;
通过基于规则的方法进行关系抽取,包括如下步骤:使用预定义的规则和模式匹配技术,通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系;
通过基于机器学习的方法进行关系抽取,包括如下步骤:使用监督学习或无监督学习算法来训练关系抽取模型,基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系;
所述抽取模块用于通过如下步骤进行属性抽取:
基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取;
基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性;
其中,基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配;
所述深度学习方法对问题文本进行特征提取时,包括通过训练后的BERT模型对问题文本进行特征提取。
作为优选,知识图谱存储于图数据库中;
所述检索匹配模块用于执行如下:根据问题文本中的关键词和实体,通过图数据库的查询语言从知识图谱中进行检索,返回与问题文本相关的实体、关系和属性。
作为优选,所述答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。
本发明的知识问答***构建方法及***具有以下优点:基于知识图谱技术的问答***可以利用知识图谱结构化的知识表示、专业领域的知识融合、灵活的信息查询,大模型的优势在于较强的上下文理解能力、多领域知识覆盖、推理能力及语言生成能力,本申请基于实体、关系和属性之间点的关系构建图谱,基于大模型构建答案预测模型,对于问题文本,从知识图谱中检索对应的实体、关系和属性,并将问题文本与检索到的对应的实体、关系和属性进行信息整合,以信息整合得到的paompt为输入,通过基于大模型构建的答案预测模型生成答案,即发挥了知识图谱的专业领域知识问答优势又通过大模型弥补其不足,实现专业垂直领域的知识问答***构建。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为知识图谱常用框架;
图2为实施例1知识问答***构建方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供知识问答***构建方法及***,用于解决如何结合大模型与知识图谱来构建知识问答***的技术问题。
实施例1:
本发明一种知识问答***构建方法,基于知识图谱、LangChain和大模型技术构建化学领域的知识问答***,该方法包括如下步骤:
S100、收集和整理化学领域相关的知识数据,并通过自然语言处理技术对知识数据进行预处理,提取实体、关系和属性之间的关系,基于实体、关系和属性之间的关系构建知识图谱,其中,关系为实体之间的语义关系,属性为用于描述实体描述性信息,包括描述实体的特征和性质;
S200、通过自然语言处理技术对用户输入的问题文本进行分析理解,抽取实体、关系和属性;
S300、根据问题文本中的关键词和实体,在知识图谱中进行信息检索,得到相关的实体、关系和属性;
S400、对用户输入的问题文本和检索到的实体、关系和属性进行信息整合,得到prompt;
S500、以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案;
S600、基于用户的界面要求,将生成的答案进行格式化呈现,包括以文本和图表的形式展示。
本实施例步骤S100中收集的知识数据包括结构化数据和非结构化数据,对于结构化数据,通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系;对于非结构化数据,通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。
本实施例构建的知识图谱存储于图数据库中。在实际应用中,可根据需要以其他存储结构表示通过如下方法抽取实体:
步骤S200中采用的实体抽取方法为基于规则进行正则匹配进行命名实体识别,或者,基于统计模型将命名实体识别作为序列标注问题处理,其中统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型,或者,以问题文本中词向量为,基于神经网络模型实现端到端的命名实体识别,不再依赖人工定义的特征。
关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关,一般在识别出文本中的实体后,再抽取实体之间可能存在的关系本实施例通过基于规则的方法或者基于机器学习的方法进行关系抽取。其中,通过基于规则的方法进行关系抽取,包括如下步骤:使用预定义的规则和模式匹配技术,通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系。通过基于机器学习的方法进行关系抽取,包括如下步骤:使用监督学习或无监督学习算法来训练关系抽取模型,基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系。
属性通常是描述实体的特征、性质或其他描述性的信息,例如地点的坐标等。本实施例中,通过如下步骤进行属性抽取:
(1)基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取;
(2)基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性。
其中,基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配。深度学习方法对问题文本进行特征提取时,包括通过训练后的BERT模型对问题文本进行特征提取。
步骤S300根据问题文本中的关键词和实体,在知识图谱中进行信息检索,找到与之相关的实体、关系和属性等。本实施中,知识图谱存储于图数据库,在进行检索时可使用图数据库的查询语言(如Cypher)或其他搜索算法进行检索操作,返回与问句相关的信息片段,该信息片段理解为与问题文本中关键词和实体相关的实体、关系和属性。
步骤S400将步骤S200中用户输入的问题文本与步骤S300检索到的信息进行信息整合,生成prompt,输入到大模型中。prompt模板可根据实际情况进行设计,例如:“已知信息{此处为步骤S300检索到的信息},根据上述已知信息,简洁和专业的来回答用户的问题。如果无法从中得到答案,请说“根据已知信息无法回答该问题”或“没有提供足够的相关信息”,不允许在答案中添加编造成分,答案请使用中文。问题是:{步骤S200中用户的问题}”。
步骤500调用大模型生成答案。利用大模型的天然优势,如上下文理解能力、多领域知识覆盖、领样本学习能力、语言生成能力等,根据输入的prompt生成答案,大模型可以选择chatgpt、chatglm、文心一言等。
步骤S600根据符合用户的界面要求,将生成的答案进行格式化呈现,例如将答案以文本、图表或其他形式展示给用户。
实施例2:
本发明一种知识问答***构建***,包括知识图谱构建模块、抽取模块、检索匹配模块、信息整合模块、答案生成模块和答案展示模块,该***通过实施例1公开的方法构建化学领域的知识问答***。
知识图谱构建模块用于收集和整理化学领域相关的知识数据,并通过自然语言处理技术对知识数据进行预处理,提取实体、关系和属性之间的关系,基于实体、关系和属性之间的关系构建知识图谱,其中,关系为实体之间的语义关系,属性为用于描述实体描述性信息,包括描述实体的特征和性质。
本实施例中,知识数据包括结构化数据和非结构化数据。对于结构化数据,知识图谱构建模块用于通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系;对于非结构化数据,知识图谱构建模块用于通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。
抽取模块用于通过自然语言处理技术对用户输入的问题文本进行分析理解,抽取实体、关系和属性。
作为抽取模块的具体实施,该模块用于通过如下方法抽取实体基于规则进行正则匹配进行命名实体识别;或者,基于统计模型将命名实体识别作为序列标注问题处理,其中,统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型;或者,以问题文本中词向量为,基于神经网络模型实现端到端的命名实体识别。
该模块用于通过基于规则的方法或者基于机器学习的方法进行关系抽取。其中,通过基于规则的方法进行关系抽取,包括如下步骤:使用预定义的规则和模式匹配技术,通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系。通过基于机器学习的方法进行关系抽取,包括如下步骤:使用监督学习或无监督学习算法来训练关系抽取模型,基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系。
该模块用于通过如下步骤进行属性抽取:
(1)基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取;
(2)基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性。
其中,基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配;深度学习方法对问题文本进行特征提取时,包括通过训练后的BERT模型对问题文本进行特征提取。
检索匹配模块用于根据问题文本中的关键词和实体,在知识图谱中进行信息检索,得到相关的实体、关系和属性。
本实施例中,知识图谱存储于图数据库中,检索匹配模块用于执行如下:根据问题文本中的关键词和实体,通过图数据库的查询语言从知识图谱中进行检索,返回与问题文本相关的实体、关系和属性。
信息整合模块用于对用户输入的问题文本和检索到的实体、关系和属性进行信息整合,得到prompt。
答案生成模块用于以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案。
答案展示模块用于基于用户的界面要求,将生成的答案进行格式化呈现,包括以文本和图表的形式展示。
利用大模型的天然优势,如上下文理解能力、多领域知识覆盖、领样本学习能力、语言生成能力等,根据输入的prompt生成答案,本实施例中答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种知识问答***构建方法,其特征在于,基于知识图谱、LangChain和大模型技术构建化学领域的知识问答***,所述方法包括如下步骤:
收集和整理化学领域相关的知识数据,并通过自然语言处理技术对知识数据进行预处理,提取实体、关系和属性之间的关系,基于实体、关系和属性之间的关系构建知识图谱,其中,关系为实体之间的语义关系,属性为用于描述实体描述性信息,包括描述实体的特征和性质;
通过自然语言处理技术对用户输入的问题文本进行分析理解,抽取实体、关系和属性;
根据问题文本中的关键词和实体,在知识图谱中进行信息检索,得到相关的实体、关系和属性;
对用户输入的问题文本和检索到的实体、关系和属性进行信息整合,得到prompt;
以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案;
基于用户的界面要求,将生成的答案进行格式化呈现,包括以文本和图表的形式展示。
2.根据权利要求1所述的知识问答***构建方法,其特征在于,知识数据包括结构化数据和非结构化数据;
对于结构化数据,通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系;
对于非结构化数据,通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。
3.根据权利要求1所述的知识问答***构建方法,其特征在于,通过如下方法抽取实体:
基于规则进行正则匹配进行命名实体识别;
或者,基于统计模型将命名实体识别作为序列标注问题处理,所述统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型;
或者,以问题文本中词向量为,基于神经网络模型实现端到端的命名实体识别;
通过基于规则的方法或者基于机器学习的方法进行关系抽取;
通过基于规则的方法进行关系抽取,包括如下步骤:使用预定义的规则和模式匹配技术,通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系;
通过基于机器学习的方法进行关系抽取,包括如下步骤:使用监督学习或无监督学习算法来训练关系抽取模型,基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系;
通过如下步骤进行属性抽取:
基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取;
基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性;
其中,基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配;
所述深度学习方法对问题文本进行特征提取时,包括通过训练后的BERT模型对问题文本进行特征提取。
4.根据权利要求1所述的知识问答***构建方法,其特征在于,通过图数据库存储构建的知识图谱;
根据问题文本中的关键词和实体,通过图数据库的查询语言从知识图谱中进行检索,返回与问题文本相关的实体、关系和属性。
5.根据权利要求1所述的知识问答***构建方法,其特征在于,所述答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。
6.一种知识问答***构建***,其特征在于,用于通过如权利要求1-5任一项所述的知识问答***构建方法构建化学领域的知识问答***,构建***包括:
知识图谱构建模块,所述知识图谱构建模块用于收集和整理化学领域相关的知识数据,并通过自然语言处理技术对知识数据进行预处理,提取实体、关系和属性之间的关系,基于实体、关系和属性之间的关系构建知识图谱,其中,关系为实体之间的语义关系,属性为用于描述实体描述性信息,包括描述实体的特征和性质;
抽取模块,所述抽取模块用于通过自然语言处理技术对用户输入的问题文本进行分析理解,抽取实体、关系和属性;
检索匹配模块,所述检索匹配模块用于根据问题文本中的关键词和实体,在知识图谱中进行信息检索,得到相关的实体、关系和属性;
信息整合模块,所述信息整合模块用于对用户输入的问题文本和检索到的实体、关系和属性进行信息整合,得到prompt;
答案生成模块,所述答案生成模块用于以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案;
答案展示模块,所述答案展示模块用于基于用户的界面要求,将生成的答案进行格式化呈现,包括以文本和图表的形式展示。
7.根据权利要求6所述的知识问答***构建***,其特征在于,知识数据包括结构化数据和非结构化数据;
对于结构化数据,所述知识图谱构建模块用于通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系;
对于非结构化数据,所述知识图谱构建模块用于通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。
8.根据权利要求6所述的知识问答***构建***,其特征在于,所述抽取模块用于通过如下方法抽取实体:
基于规则进行正则匹配进行命名实体识别;
或者,基于统计模型将命名实体识别作为序列标注问题处理,所述统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型;
或者,以问题文本中词向量为,基于神经网络模型实现端到端的命名实体识别;
所述抽取模块用于通过基于规则的方法或者基于机器学习的方法进行关系抽取;
通过基于规则的方法进行关系抽取,包括如下步骤:使用预定义的规则和模式匹配技术,通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系;
通过基于机器学习的方法进行关系抽取,包括如下步骤:使用监督学习或无监督学习算法来训练关系抽取模型,基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系;
所述抽取模块用于通过如下步骤进行属性抽取:
基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取;
基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性;
其中,基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配;
所述深度学习方法对问题文本进行特征提取时,包括通过训练后的BERT模型对问题文本进行特征提取。
9.根据权利要求6所述的知识问答***构建***,其特征在于,知识图谱存储于图数据库中;
所述检索匹配模块用于执行如下:根据问题文本中的关键词和实体,通过图数据库的查询语言从知识图谱中进行检索,返回与问题文本相关的实体、关系和属性。
10.根据权利要求6所述的知识问答***构建***,其特征在于,所述答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310765310.1A CN117033571A (zh) | 2023-06-27 | 2023-06-27 | 知识问答***构建方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310765310.1A CN117033571A (zh) | 2023-06-27 | 2023-06-27 | 知识问答***构建方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033571A true CN117033571A (zh) | 2023-11-10 |
Family
ID=88634300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310765310.1A Pending CN117033571A (zh) | 2023-06-27 | 2023-06-27 | 知识问答***构建方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033571A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421416A (zh) * | 2023-12-19 | 2024-01-19 | 数据空间研究院 | 交互检索方法、装置和电子设备 |
CN117436531A (zh) * | 2023-12-21 | 2024-01-23 | 安徽大学 | 基于水稻病虫害知识图谱的问答***及方法 |
CN117454884A (zh) * | 2023-12-20 | 2024-01-26 | 上海蜜度科技股份有限公司 | 历史人物信息纠错方法、***、电子设备和存储介质 |
CN117520568A (zh) * | 2024-01-04 | 2024-02-06 | 北京奇虎科技有限公司 | 知识图谱属性补全方法、装置、设备及存储介质 |
CN117577350A (zh) * | 2023-11-20 | 2024-02-20 | 北京壹永科技有限公司 | 医疗大语言模型的训练及推理的方法、装置、设备及介质 |
CN117992069A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 基于大语言模型的代码质控方法及装置 |
CN118069716A (zh) * | 2024-04-17 | 2024-05-24 | 三峡高科信息技术有限责任公司 | 集团型企业背景下基于知识增强大模型的辅助决策*** |
-
2023
- 2023-06-27 CN CN202310765310.1A patent/CN117033571A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117577350A (zh) * | 2023-11-20 | 2024-02-20 | 北京壹永科技有限公司 | 医疗大语言模型的训练及推理的方法、装置、设备及介质 |
CN117577350B (zh) * | 2023-11-20 | 2024-06-11 | 北京壹永科技有限公司 | 医疗大语言模型的训练及推理的方法、装置、设备及介质 |
CN117421416A (zh) * | 2023-12-19 | 2024-01-19 | 数据空间研究院 | 交互检索方法、装置和电子设备 |
CN117421416B (zh) * | 2023-12-19 | 2024-03-26 | 数据空间研究院 | 交互检索方法、装置和电子设备 |
CN117454884A (zh) * | 2023-12-20 | 2024-01-26 | 上海蜜度科技股份有限公司 | 历史人物信息纠错方法、***、电子设备和存储介质 |
CN117454884B (zh) * | 2023-12-20 | 2024-04-09 | 上海蜜度科技股份有限公司 | 历史人物信息纠错方法、***、电子设备和存储介质 |
CN117436531A (zh) * | 2023-12-21 | 2024-01-23 | 安徽大学 | 基于水稻病虫害知识图谱的问答***及方法 |
CN117520568A (zh) * | 2024-01-04 | 2024-02-06 | 北京奇虎科技有限公司 | 知识图谱属性补全方法、装置、设备及存储介质 |
CN117992069A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 基于大语言模型的代码质控方法及装置 |
CN118069716A (zh) * | 2024-04-17 | 2024-05-24 | 三峡高科信息技术有限责任公司 | 集团型企业背景下基于知识增强大模型的辅助决策*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答*** | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
US10740678B2 (en) | Concept hierarchies | |
CN117033571A (zh) | 知识问答***构建方法及*** | |
Kheiri et al. | Sentimentgpt: Exploiting gpt for advanced sentiment analysis and its departure from current machine learning | |
US20170161619A1 (en) | Concept-Based Navigation | |
Kim et al. | SAO2Vec: Development of an algorithm for embedding the subject–action–object (SAO) structure using Doc2Vec | |
CN112287090A (zh) | 一种基于知识图谱的金融问题反问方法及*** | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN117271724A (zh) | 一种基于大模型和语义图谱的智能问答实现方法及*** | |
Peng et al. | Image to LaTeX with graph neural network for mathematical formula recognition | |
Tadejko | Cloud cognitive services based on machine learning methods in architecture of modern knowledge management solutions | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
Rajanak et al. | Language detection using natural language processing | |
Zeng et al. | Similar Data Points Identification with LLM: A Human-in-the-loop Strategy Using Summarization and Hidden State Insights | |
Cuadrado et al. | team UTB-NLP at finances 2023: financial targeted sentiment analysis using a phonestheme semantic approach | |
Zhang et al. | Modeling the relationship between user comments and edits in document revision | |
Rafi et al. | A linear sub-structure with co-variance shift for image captioning | |
CN114417008A (zh) | 一种面向建设工程领域的知识图谱构建方法及*** | |
Zishumba | Sentiment Analysis Based on Social Media Data | |
Zhang et al. | Business chatbots with deep learning technologies: State-of-the-art, taxonomies, and future research directions | |
CN117743315B (zh) | 一种为多模态大模型***提供高质量数据的方法 | |
Sharma et al. | Detecting anomalies, contradictions, and contextual analysis through NLP in text | |
Deelip et al. | Analysis of Twitter Data for Prediction of Iphone X Reviews | |
Gonzales | Neural-Symbolic Modeling for Natural Language Discourse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |