CN117493513A

CN117493513A - 一种基于向量和大语言模型的问答***及方法

Info

Publication number: CN117493513A
Application number: CN202311480381.3A
Authority: CN
Inventors: 石昱馨; 陈懿; 周明夏; 尹佳音
Original assignee: Beijing Yuanwen Intelligent Technology Co ltd
Current assignee: Beijing Yuanwen Intelligent Technology Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-02-02

Abstract

本发明提供一种基于向量和大语言模型的问答***及方法，涉及问答***技术领域。该基于向量和大语言模型的问答***，包括数据采集模块、数据预处理模块、知识库建立模块、向量库模块、答案生成模块和用户偏好模块；数据采集模块：用于从互联网上收集各种文本数据，并将其存储在数据库中；数据预处理模块：对收集到的数据进行清洗操作，将其转化为适合模型输入的格式。本发明中，利用向量和大语言模型语义理解能力建立私有知识库，然后利用大语言模型的问答能力实现更通用的问答***，该***可以处理大量的文本数据，覆盖的领域广泛，并且可以处理非结构化的文本数据。此外，该***还可以根据用户的提问生成个性化的答案，提高了用户体验。

Description

一种基于向量和大语言模型的问答***及方法

技术领域

本发明涉及问答***技术领域，具体为一种基于向量和大语言模型的问答***及方法。

背景技术

问答***是信息检索的一种高级形式，能够更加准确地理解用户用自然语言提出的问题，并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎，问答***能更好地理解用户提问的真实意图，进一步能更有效地满足用户的信息需求。问答***是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。

传统的问答***主要依赖于关键字匹配或规则设计，然而这种方法在处理复杂和自然语言问题时具有一定的局限性。近年来，随着深度学习和大型语言模型的不断发展，利用向量和大语言模型进行问题解答成为新的方向。

通常，大语言模型(Large Language Model，LLM)指包含百亿参数以上的语言模型，现有的大语言模型主要采用Transformer架构进行建模，这些模型在问答、机器翻译和文本生成领域都展现了卓越的性能。这些大语言模型在大量的语料上训练，相比于预训练语言模型在参数量上扩张了若干级，并且在各个任务上的性能随着模型大小的增加得到了显著的提高。

因此，本领域技术人员提供了一种基于向量和大语言模型的问答***及方法，以解决上述背景技术中提出的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于向量和大语言模型的问答***及方法，解决了传统的问答***主要依赖于关键字匹配或规则设计，然而这种方法在处理复杂和自然语言问题时具有一定的局限性的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于向量和大语言模型的问答***，包括数据采集模块、数据预处理模块、知识库建立模块、向量库模块、答案生成模块和用户偏好模块；

数据采集模块：用于从互联网上收集各种文本数据，并将其存储在数据库中；

数据预处理模块：对收集到的数据进行清洗操作，将其转化为适合模型输入的格式；

知识库建立模块：利用大语言模型对收集的一些通用长文本，如***中文，百度百科，新闻等语料进行知识的抽取，形成相对聚焦、格式化的知识库；

向量库模块：通过采用嵌入技术，将文本数据转化为具有固定长度的向量，从而为后续的数学运算和比较提供便利；

答案生成模块：利用大型预训练的语言模型，为顾客生成相应的回答；

用户偏好模块：将用户的个人信息、历史问题、交互习惯等记录下来，以优化大语言模型的提问prompt，从而产生更贴合用户偏好的回答，提升满意度。

进一步地，所述知识库建立模块中利用的大语言模型可以使用已经做过中文预训练开源的LLaMa2模型，如：chinese-alpaca-2-7b-hf。

进一步地，一种基于向量和大语言模型的问答方法，包括以下过程：

S1、离线建立知识库

S101.通过数据采集模块从互联网上收集各种类型的文本数据，包括中文***、百度百科、新闻、博客、论坛、社交媒体等公开的中文文本资料；

S102.通过数据预处理模块对数据进行清洗、去重操作；

S103.通过知识库建立模块利用大语言模型进行知识抽取；

S104.向量化表示：使用Hugging Face上能够处理文本嵌入的开源模型，如，uer/sbert-base-chinese-nli或者moka-ai/m3e-base，将文本转化为向量；

S105.向量存储：采用开源的向量数据库qdrant作为存储引擎，对文本转化的向量进行存储。

S2、在线提供问答服务

S201.接收用户问题，将用户的问题记录到数据库中，以方便用户偏好模块分析使用；

S202.问题文本向量化，跟离线流程的向量化采用同一种模型；

S203.知识库向量检索，向量的相似检索，设定top＝5，相似度阈值score＝0.8，这两个值的设定是通过多次调整测试后获取的；

S204.获取用户偏好，用户偏好的产生主要依赖用户的历史问题和历史交互采纳等情况，如果用户没有历史问答记录，那么直接进入下一步，如果可以获取到，那么将离线***生成好的偏好以及该偏好对应的prompt优化模版给到下一步；

S205.大语言模型生成结果，将上一步拿到的客户问题+知识库检索结果+prompt优化模版生成prompt输入给大语言模型，并将最终答案返回给用户。

进一步地，所述步骤S102中的数据清洗主要是去除文本中一些乱码，格式错误等。

进一步地，所述步骤S102中的去重采用simHash算法来去重，simHash算法的最大特点是：将文本映射为一个01串，并且相似文本之间得到的01串也是相似的，只在少数几个位置上的0和1不一样；

为了表征原始文本的相似度，可以计算两个01串之间在多少个位置上不同，这便是汉明距离，用来表征simHash算法下两个文本之间的相似度，通常来说，越相似的文本，对应simHash映射得到的01串之间的汉明距离越小。

进一步地，所述步骤S103中，对于百科类的长文本，我们使用大语言模型进行抽取后再进行向量化，这里的长文本指文本字数大于100字的文本，通过抽取，可以让我们的知识库更加的聚焦和格式化，对于用户的体验会更好。

进一步地，所述步骤S203的知识库向量检索中，增加top的条数会使得结果集过长，超过大模型的接收token的数量，过少会使得留给大模型的问答空间比较少；

相似度阈值类似，过大会使得命中向量库的问题会比较少，过小会使得结果集相似度较差，这样的结果集作为输入，会给大模型造成一定的困扰，出现回答不稳定的情况。

进一步地，所述步骤S204中的离线生产用户偏好的***说明：

1)首先将历史的用户问题，进行分类标注，训练一个简单的文本分类模型，分类的类别可以包括：科技、医疗、财经、娱乐、汽车、体育、时尚、房产等，每个类别标注50条数据；

2)使用开源的svm算法训练一个简单的文本分类模型；

3)根据每个用户历史会话当中最新的20个问题获取对应的分类标签，然后如果有一个分类标签超过了10个，那么我们认为这个用户偏好这个标签的领域。

进一步地，所述步骤S205中的大语言模型生成结果，如果有检索结果，那么按照有检索结果的prompt模版生成prompt；如果没有检索结果，那么直接将问题作为输入给大语言模型；如果有用户偏好，那么模版增加偏好的部分。

(三)有益效果

本发明提供了一种基于向量和大语言模型的问答***及方法。具备以下

有益效果：

1、本发明提供了一种基于向量和大语言模型的问答***及方法，利用向量和大语言模型语义理解能力建立私有知识库，然后利用大语言模型的问答能力实现更通用的问答***，该***可以处理大量的文本数据，覆盖的领域广泛，并且可以处理非结构化的文本数据。此外，该***还可以根据用户的提问生成个性化的答案，提高了用户体验。

2、本发明提供了一种基于向量和大语言模型的问答***及方法，利用大语言模型进行知识的抽取，来建立知识库，从而使我们的答案能够更加聚焦，大语言模型应用于问答模块，能够大大的减少***开发设计的复杂性，提升***的语义理解能力。

3、本发明提供了一种基于向量和大语言模型的问答***及方法，能够收集用户的偏好领域，用于生成个性化的prompt模版，能够提升用户的使用体验。

附图说明

图1为本发明的基于向量和大语言模型的问答***组成示意图；

图2为本发明的离线建立知识库流程示意图；

图3为本发明的在线提供问答服务流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1-3所示，本发明实施例提供一种基于向量和大语言模型的问答***，包括数据采集模块、数据预处理模块、知识库建立模块、向量库模块、答案生成模块和用户偏好模块；

知识库建立模块：利用大语言模型对收集的一些通用长文本，如***中文，百度百科，新闻等语料进行知识的抽取，形成相对聚焦、格式化的知识库。知识库建立模块中利用的大语言模型可以使用已经做过中文预训练开源的LLaMa2模型，如：chinese-alpaca-2-7b-hf；

一种基于向量和大语言模型的问答方法，包括以下过程：

S1、离线建立知识库

S102.通过数据预处理模块对数据进行清洗、去重操作；

①、数据清洗主要是去除文本中一些乱码，格式错误等；

②、去重采用simHash算法来去重，simHash算法的最大特点是：将文本映射为一个01串，并且相似文本之间得到的01串也是相似的，只在少数几个位置上的0和1不一样；

S103.通过知识库建立模块利用大语言模型进行知识抽取；对于百科类的长文本，我们使用大语言模型进行抽取后再进行向量化，这里的长文本指文本字数大于100字的文本，通过抽取，可以让我们的知识库更加的聚焦和格式化，对于用户的体验会更好。

S2、在线提供问答服务

增加top的条数会使得结果集过长，超过大模型的接收token的数量，过少会使得留给大模型的问答空间比较少；

离线生产用户偏好的***说明：

2)使用开源的svm算法训练一个简单的文本分类模型；

S205.大语言模型生成结果，将上一步拿到的客户问题+知识库检索结果+prompt优化模版生成prompt输入给大语言模型，并将最终答案返回给用户；

如果有检索结果，那么按照有检索结果的prompt模版生成prompt；

如果没有检索结果，那么直接将问题作为输入给大语言模型；

如果有用户偏好，那么模版增加偏好的部分。

本发明利用向量和大语言模型语义理解能力建立私有知识库，然后利用大语言模型的问答能力实现更通用的问答***，该***可以处理大量的文本数据，覆盖的领域广泛，并且可以处理非结构化的文本数据。此外，该***还可以根据用户的提问生成个性化的答案，提高了用户体验。

本发明利用大语言模型进行知识的抽取，来建立知识库，从而使我们的答案能够更加聚焦，大语言模型应用于问答模块，能够大大的减少***开发设计的复杂性，提升***的语义理解能力。

本发明能够收集用户的偏好领域，用于生成个性化的prompt模版，能够提升用户的使用体验。比如说用户问到苹果相关的问题的时候，如果用户偏好科技领域，那么我们的回答将围绕苹果公司，这样更贴合用户意图，体验会更好。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于向量和大语言模型的问答***，其特征在于，包括数据采集模块、数据预处理模块、知识库建立模块、向量库模块、答案生成模块和用户偏好模块；

2.根据权利要求1所述的一种基于向量和大语言模型的问答***，其特征在于，所述知识库建立模块中利用的大语言模型可以使用已经做过中文预训练开源的LLaMa2模型，如：chinese-alpaca-2-7b-hf。

3.根据权利要求1-2任一所述的一种基于向量和大语言模型的问答方法，其特征在于，包括以下过程：

S1、离线建立知识库

S102.通过数据预处理模块对数据进行清洗、去重操作；

S103.通过知识库建立模块利用大语言模型进行知识抽取；

S2、在线提供问答服务

4.根据权利要求3所述的一种基于向量和大语言模型的问答方法，其特征在于，所述步骤S102中的数据清洗主要是去除文本中一些乱码，格式错误等。

5.根据权利要求3所述的一种基于向量和大语言模型的问答方法，其特征在于，所述步骤S102中的去重采用simHash算法来去重，simHash算法的最大特点是：将文本映射为一个01串，并且相似文本之间得到的01串也是相似的，只在少数几个位置上的0和1不一样；

6.根据权利要求3所述的一种基于向量和大语言模型的问答方法，其特征在于，所述步骤S103中，对于百科类的长文本，我们使用大语言模型进行抽取后再进行向量化，这里的长文本指文本字数大于100字的文本，通过抽取，可以让我们的知识库更加的聚焦和格式化，对于用户的体验会更好。

7.根据权利要求3所述的一种基于向量和大语言模型的问答方法，其特征在于，所述步骤S203的知识库向量检索中，增加top的条数会使得结果集过长，超过大模型的接收token的数量，过少会使得留给大模型的问答空间比较少；

8.根据权利要求3所述的一种基于向量和大语言模型的问答方法，其特征在于，所述步骤S204中的离线生产用户偏好的***说明：

2)使用开源的svm算法训练一个简单的文本分类模型；

9.根据权利要求3所述的一种基于向量和大语言模型的问答方法，其特征在于，所述步骤S205中的大语言模型生成结果，如果有检索结果，那么按照有检索结果的prompt模版生成prompt；如果没有检索结果，那么直接将问题作为输入给大语言模型；如果有用户偏好，那么模版增加偏好的部分。