CN117033571A

CN117033571A - 知识问答构建方法及

Info

Publication number: CN117033571A
Application number: CN202310765310.1A
Authority: CN
Inventors: 李志芸; 冯落落; 李晓瑜; 李沛; 张庆功; 尹青山
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-11-10

Abstract

本发明公开了知识问答***构建方法及***，属于大数据处理技术领域，要解决的技术问题为如何结合大模型与知识图谱来构建知识问答***。包括如下步骤：收集和整理化学领域相关的知识数据，提取实体、关系和属性之间的关系，构建知识图谱；对用户输入的问题文本进行分析理解，抽取实体、关系和属性；根据问题文本中的关键词和实体，在知识图谱中进行信息检索；对用户输入的问题文本和检索到的实体、关系和属性进行信息整合，得到prompt以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案；基于用户的界面要求，将生成的答案进行格式化呈现，包括以文本和图表的形式展示。

Description

知识问答***构建方法及***

技术领域

本发明涉及大数据处理技术领域，具体地说是知识问答***构建方法及***。

背景技术

大模型通过在大规模文本数据上进行训练，可以掌握大量的知识和信息。它有很多的优势，可以从各种领域的文本中吸取信息，包括科学、历史、文学、技术等等，并能够回答各种类型的问题。大语言模型可以理解和生成自然语言，它具备强大的语言理解和生成能力。当面对用户的提问，能够以流畅、准确的方式生成回答。可以根据用户的输入和上下文进行个性化回应和适应。同时，它具有学习能力，可以通过与用户的互动不断改善自身的表现，提高回答的准确性和质量。这种学习能力使得模型可以不断进步，并更好地满足用户的需求。因此，大模型可以很好的应用于问答***中。

尽管大模型有许多优势，但仍然存在一些挑战，例如模型的误导性回答、对话的连贯性问题和数据偏差等。特别是在专业垂直领域如水利行业，需要根据以往的资料进行回答，确保回答的真实性，不可进行胡编乱造。

知识图谱(Knowledge Graph)是一种用于组织和表示知识的图形结构。它是一个包含实体、属性和它们之间关系的知识库。在知识图谱中，实体代表现实世界的具体对象或概念，属性描述实体之间的关系或实体的特征。知识图谱是将领域知识整合到一个统一的结构中，以便计算机可以理解和处理这些知识。它可以从多个信息源中抽取、链接和组织信息，以构建一个丰富的知识网络。

知识图谱中的信息通常来自于可靠的数据源或专家的知识注释，经过严格的验证和审核。这使得知识图谱在数据的可靠性和可控性方面具有优势。相比之下，大模型是通过大规模文本数据的自动训练获得知识，难以确保数据的准确性和可靠性。

行业知识图谱以领域或企业内部的数据为主要来源，通常要求快速扩大规模，构建行业壁垒，知识结构更加复杂，通常包含本体工程和规则型知识。知识抽取的质量要求很高，较多的依靠从企业内部的结构化、非结构化以及半结构化数据进行联合抽取需要依靠人工进行审核校验，来保证质量。通常需要融合多来源的领域是数据扩大规模的有效手段。应用形式更加全面，除搜索问答外，还包括决策分析、业务管理等，并对推理的要求更高，并有较强的可解释性要求。主要领域有电商、金融、农业、安全、医疗等等。

如何结合大模型与知识图谱来构建知识问答***，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供知识问答***构建方法及***，来解决如何结合大模型与知识图谱来构建知识问答***的技术问题。

第一发明，本发明一种知识问答***构建方法，基于知识图谱、LangChain和大模型技术构建化学领域的知识问答***，所述方法包括如下步骤：

收集和整理化学领域相关的知识数据，并通过自然语言处理技术对知识数据进行预处理，提取实体、关系和属性之间的关系，基于实体、关系和属性之间的关系构建知识图谱，其中，关系为实体之间的语义关系，属性为用于描述实体描述性信息，包括描述实体的特征和性质；

通过自然语言处理技术对用户输入的问题文本进行分析理解，抽取实体、关系和属性；

根据问题文本中的关键词和实体，在知识图谱中进行信息检索，得到相关的实体、关系和属性；

对用户输入的问题文本和检索到的实体、关系和属性进行信息整合，得到prompt；

以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案；

基于用户的界面要求，将生成的答案进行格式化呈现，包括以文本和图表的形式展示。

作为优选，知识数据包括结构化数据和非结构化数据；

对于结构化数据，通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系；

对于非结构化数据，通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。

作为优选，通过如下方法抽取实体：

基于规则进行正则匹配进行命名实体识别；

或者，基于统计模型将命名实体识别作为序列标注问题处理，所述统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型；

或者，以问题文本中词向量为，基于神经网络模型实现端到端的命名实体识别；

通过基于规则的方法或者基于机器学习的方法进行关系抽取；

通过基于规则的方法进行关系抽取，包括如下步骤：使用预定义的规则和模式匹配技术，通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系；

通过基于机器学习的方法进行关系抽取，包括如下步骤：使用监督学习或无监督学习算法来训练关系抽取模型，基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系；

通过如下步骤进行属性抽取：

基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取；

基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性；

其中，基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配；

所述深度学习方法对问题文本进行特征提取时，包括通过训练后的BERT模型对问题文本进行特征提取。

作为优选，通过图数据库存储构建的知识图谱；

根据问题文本中的关键词和实体，通过图数据库的查询语言从知识图谱中进行检索，返回与问题文本相关的实体、关系和属性。

作为优选，所述答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。

第二方面，本发明一种知识问答***构建***，用于通过如第一方面任一项所述的知识问答***构建方法构建化学领域的知识问答***，构建***包括：

知识图谱构建模块，所述知识图谱构建模块用于收集和整理化学领域相关的知识数据，并通过自然语言处理技术对知识数据进行预处理，提取实体、关系和属性之间的关系，基于实体、关系和属性之间的关系构建知识图谱，其中，关系为实体之间的语义关系，属性为用于描述实体描述性信息，包括描述实体的特征和性质；

抽取模块，所述抽取模块用于通过自然语言处理技术对用户输入的问题文本进行分析理解，抽取实体、关系和属性；

检索匹配模块，所述检索匹配模块用于根据问题文本中的关键词和实体，在知识图谱中进行信息检索，得到相关的实体、关系和属性；

信息整合模块，所述信息整合模块用于对用户输入的问题文本和检索到的实体、关系和属性进行信息整合，得到prompt；

答案生成模块，所述答案生成模块用于以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案；

答案展示模块，所述答案展示模块用于基于用户的界面要求，将生成的答案进行格式化呈现，包括以文本和图表的形式展示。

作为优选，知识数据包括结构化数据和非结构化数据；

对于结构化数据，所述知识图谱构建模块用于通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系；

对于非结构化数据，所述知识图谱构建模块用于通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。

作为优选，所述抽取模块用于通过如下方法抽取实体：

基于规则进行正则匹配进行命名实体识别；

所述抽取模块用于通过基于规则的方法或者基于机器学习的方法进行关系抽取；

所述抽取模块用于通过如下步骤进行属性抽取：

作为优选，知识图谱存储于图数据库中；

所述检索匹配模块用于执行如下：根据问题文本中的关键词和实体，通过图数据库的查询语言从知识图谱中进行检索，返回与问题文本相关的实体、关系和属性。

本发明的知识问答***构建方法及***具有以下优点：基于知识图谱技术的问答***可以利用知识图谱结构化的知识表示、专业领域的知识融合、灵活的信息查询，大模型的优势在于较强的上下文理解能力、多领域知识覆盖、推理能力及语言生成能力，本申请基于实体、关系和属性之间点的关系构建图谱，基于大模型构建答案预测模型，对于问题文本，从知识图谱中检索对应的实体、关系和属性，并将问题文本与检索到的对应的实体、关系和属性进行信息整合，以信息整合得到的paompt为输入，通过基于大模型构建的答案预测模型生成答案，即发挥了知识图谱的专业领域知识问答优势又通过大模型弥补其不足，实现专业垂直领域的知识问答***构建。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为知识图谱常用框架；

图2为实施例1知识问答***构建方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供知识问答***构建方法及***，用于解决如何结合大模型与知识图谱来构建知识问答***的技术问题。

实施例1：

本发明一种知识问答***构建方法，基于知识图谱、LangChain和大模型技术构建化学领域的知识问答***，该方法包括如下步骤：

S100、收集和整理化学领域相关的知识数据，并通过自然语言处理技术对知识数据进行预处理，提取实体、关系和属性之间的关系，基于实体、关系和属性之间的关系构建知识图谱，其中，关系为实体之间的语义关系，属性为用于描述实体描述性信息，包括描述实体的特征和性质；

S200、通过自然语言处理技术对用户输入的问题文本进行分析理解，抽取实体、关系和属性；

S300、根据问题文本中的关键词和实体，在知识图谱中进行信息检索，得到相关的实体、关系和属性；

S400、对用户输入的问题文本和检索到的实体、关系和属性进行信息整合，得到prompt；

S500、以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案；

S600、基于用户的界面要求，将生成的答案进行格式化呈现，包括以文本和图表的形式展示。

本实施例步骤S100中收集的知识数据包括结构化数据和非结构化数据，对于结构化数据，通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系；对于非结构化数据，通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。

本实施例构建的知识图谱存储于图数据库中。在实际应用中，可根据需要以其他存储结构表示通过如下方法抽取实体：

步骤S200中采用的实体抽取方法为基于规则进行正则匹配进行命名实体识别，或者，基于统计模型将命名实体识别作为序列标注问题处理，其中统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型，或者，以问题文本中词向量为，基于神经网络模型实现端到端的命名实体识别，不再依赖人工定义的特征。

关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关，一般在识别出文本中的实体后，再抽取实体之间可能存在的关系本实施例通过基于规则的方法或者基于机器学习的方法进行关系抽取。其中，通过基于规则的方法进行关系抽取，包括如下步骤：使用预定义的规则和模式匹配技术，通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系。通过基于机器学习的方法进行关系抽取，包括如下步骤：使用监督学习或无监督学习算法来训练关系抽取模型，基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系。

属性通常是描述实体的特征、性质或其他描述性的信息，例如地点的坐标等。本实施例中，通过如下步骤进行属性抽取：

(1)基于规则的匹配方法、基于监督学习或半监督学习、或者基于深度学习方法对问题文本进行特征提取；

(2)基于提取的特征、通过预配置的分类模型或者序列标注模型识别和提取属性。

其中，基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配。深度学习方法对问题文本进行特征提取时，包括通过训练后的BERT模型对问题文本进行特征提取。

步骤S300根据问题文本中的关键词和实体，在知识图谱中进行信息检索，找到与之相关的实体、关系和属性等。本实施中，知识图谱存储于图数据库，在进行检索时可使用图数据库的查询语言(如Cypher)或其他搜索算法进行检索操作，返回与问句相关的信息片段，该信息片段理解为与问题文本中关键词和实体相关的实体、关系和属性。

步骤S400将步骤S200中用户输入的问题文本与步骤S300检索到的信息进行信息整合，生成prompt，输入到大模型中。prompt模板可根据实际情况进行设计，例如：“已知信息{此处为步骤S300检索到的信息}，根据上述已知信息，简洁和专业的来回答用户的问题。如果无法从中得到答案，请说“根据已知信息无法回答该问题”或“没有提供足够的相关信息”，不允许在答案中添加编造成分，答案请使用中文。问题是：{步骤S200中用户的问题}”。

步骤500调用大模型生成答案。利用大模型的天然优势，如上下文理解能力、多领域知识覆盖、领样本学习能力、语言生成能力等，根据输入的prompt生成答案，大模型可以选择chatgpt、chatglm、文心一言等。

步骤S600根据符合用户的界面要求，将生成的答案进行格式化呈现，例如将答案以文本、图表或其他形式展示给用户。

实施例2：

本发明一种知识问答***构建***，包括知识图谱构建模块、抽取模块、检索匹配模块、信息整合模块、答案生成模块和答案展示模块，该***通过实施例1公开的方法构建化学领域的知识问答***。

知识图谱构建模块用于收集和整理化学领域相关的知识数据，并通过自然语言处理技术对知识数据进行预处理，提取实体、关系和属性之间的关系，基于实体、关系和属性之间的关系构建知识图谱，其中，关系为实体之间的语义关系，属性为用于描述实体描述性信息，包括描述实体的特征和性质。

本实施例中，知识数据包括结构化数据和非结构化数据。对于结构化数据，知识图谱构建模块用于通过实体建模、关系建模和三元组存储的方式提取实体、关系和属性之间的关系；对于非结构化数据，知识图谱构建模块用于通过实体抽取和关系抽取的方式提取实体、关系和属性之间的关系。

抽取模块用于通过自然语言处理技术对用户输入的问题文本进行分析理解，抽取实体、关系和属性。

作为抽取模块的具体实施，该模块用于通过如下方法抽取实体基于规则进行正则匹配进行命名实体识别；或者，基于统计模型将命名实体识别作为序列标注问题处理，其中，统计模型包括隐马尔克夫模型、条件马尔科夫模型以及条件随机场模型；或者，以问题文本中词向量为，基于神经网络模型实现端到端的命名实体识别。

该模块用于通过基于规则的方法或者基于机器学习的方法进行关系抽取。其中，通过基于规则的方法进行关系抽取，包括如下步骤：使用预定义的规则和模式匹配技术，通过识别问题文本中的语法结构和上下文信息提取实体之间的语义关系。通过基于机器学习的方法进行关系抽取，包括如下步骤：使用监督学习或无监督学习算法来训练关系抽取模型，基于训练后的关系抽取模型从问题文本中识别和提取实体之间的语义关系。

该模块用于通过如下步骤进行属性抽取：

其中，基于规则的匹配方法包括基于规则的模式匹配和基于规则的关键词匹配；深度学习方法对问题文本进行特征提取时，包括通过训练后的BERT模型对问题文本进行特征提取。

检索匹配模块用于根据问题文本中的关键词和实体，在知识图谱中进行信息检索，得到相关的实体、关系和属性。

本实施例中，知识图谱存储于图数据库中，检索匹配模块用于执行如下：根据问题文本中的关键词和实体，通过图数据库的查询语言从知识图谱中进行检索，返回与问题文本相关的实体、关系和属性。

信息整合模块用于对用户输入的问题文本和检索到的实体、关系和属性进行信息整合，得到prompt。

答案生成模块用于以prompt为输入、基于通过大模型技术构建的答案预测模型生成对应的答案。

答案展示模块用于基于用户的界面要求，将生成的答案进行格式化呈现，包括以文本和图表的形式展示。

利用大模型的天然优势，如上下文理解能力、多领域知识覆盖、领样本学习能力、语言生成能力等，根据输入的prompt生成答案，本实施例中答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种知识问答***构建方法，其特征在于，基于知识图谱、LangChain和大模型技术构建化学领域的知识问答***，所述方法包括如下步骤：

2.根据权利要求1所述的知识问答***构建方法，其特征在于，知识数据包括结构化数据和非结构化数据；

3.根据权利要求1所述的知识问答***构建方法，其特征在于，通过如下方法抽取实体：

基于规则进行正则匹配进行命名实体识别；

通过如下步骤进行属性抽取：

4.根据权利要求1所述的知识问答***构建方法，其特征在于，通过图数据库存储构建的知识图谱；

5.根据权利要求1所述的知识问答***构建方法，其特征在于，所述答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。

6.一种知识问答***构建***，其特征在于，用于通过如权利要求1-5任一项所述的知识问答***构建方法构建化学领域的知识问答***，构建***包括：

7.根据权利要求6所述的知识问答***构建***，其特征在于，知识数据包括结构化数据和非结构化数据；

8.根据权利要求6所述的知识问答***构建***，其特征在于，所述抽取模块用于通过如下方法抽取实体：

基于规则进行正则匹配进行命名实体识别；

所述抽取模块用于通过如下步骤进行属性抽取：

9.根据权利要求6所述的知识问答***构建***，其特征在于，知识图谱存储于图数据库中；

10.根据权利要求6所述的知识问答***构建***，其特征在于，所述答案预测模型为基于chatgpt、chatglm或文心一言构建的模型。