CN117951211A

CN117951211A - 一种用于云服务行业大语言模型私有化部署装置及方法

Info

Publication number: CN117951211A
Application number: CN202410348300.2A
Authority: CN
Inventors: 冯偲; 李红雁; 薛寒; 周树亮
Original assignee: Tibet Ningsuan Technology Group Co ltd; Nanjing Computing Nanjing Technology Co ltd
Current assignee: Tibet Ningsuan Technology Group Co ltd; Nanjing Computing Nanjing Technology Co ltd
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30

Abstract

本发明公开了一种用于云服务行业大语言模型私有化部署装置及方法，装置包括：用于搜集原始数据的数据搜集模块，用于对搜集的原始数据进行预处理的模块一，用于对预处理的数据进行向量化处理并生成对应的索引的模块二，向量化存储的云服务数据库，部署在私有化的服务器上的大语言模型，用于参数寻优的模块三等。本发明在云服务知识库的基础上对大语言模型进行私有化部署，可充分依据企业的自有数据，更符合实际的项目需要，保证企业数据安全的前提下，提升了云服务行业大模型的专业性。

Description

一种用于云服务行业大语言模型私有化部署装置及方法

技术领域

本发明属于人工智能技术领域，涉及大语言模型技术，具体涉及一种用于云服务行业大语言模型私有化部署装置及方法。

背景技术

目前，大语言模型在各个NLP任务上都出色完成了人类设定的任务。但是这些通用领域的大模型，在垂直领域却很难有令人满意的结果。比如目前在云服务中，云服务行业的相关工作需要具有丰富经验的研发人员，通用的大语言模型无法胜任其中的工作。此外，对于涉及敏感数据的企业用户来说，大语言模型的数据安全显得更加重要。在云服务行业中，企业的数据相当重要，这些数据包括用户的数据，服务器的接口信息，用户的账号密码等信息。不同的企业所提供的数据千差万别，企业的需求也不一样，缺少快速的适配特定企业大模型的方案。在云服务行业大模型的运用中，缺少针对企业敏感数据的大语言模型私有化部署方案。

发明内容

技术目的：针对上述技术问题，本发明提出了一种用于云服务行业大语言模型私有化部署装置及方法，其在云服务知识库的基础上对大语言模型进行私有化部署，保证企业数据安全的前提下，提升云服务行业大模型的专业性。

技术方案：为实现上述技术目的，本发明采用了如下技术方案：

一种用于云服务行业大语言模型私有化部署装置，其特征在于，在用户端的私有化的服务器上部署大语言模型、模块一、模块二和模块三；其中，

所述模块一用于对搜集的原始数据进行预处理，所述原始数据是搜集到的私有化的用户数据，包括云服务帮助文档、说明书、用户手册、服务器的运行记录；

所述模块二用于对预处理后的数据进行向量化处理，生成对应的索引，所述原始数据、预处理后的数据和向量化处理化的数据均存储到云服务数据库中；

所述模块三用于对关键参数进行寻优，并使用寻优结果对大语言模型进行优化处理；所述关键参数包括推理服务器的GPU内存加载参数、推理批次数量、检索文档区块的数量和大语言模型的量化等级；

所述大语言模型能够访问用于对输入大语言模型的数据进行运算、分析和推理处理，所述输入大语言模型的数据包括装置接收到的用户提出的问题，以及从云服务数据库中检索到的与问题相关的描述。

优选地，所述模块一包括：

空白区域标准化单元，采用正则匹配的方式，匹配超过两个空格的空行，并将对应的空行替换成两个空格；

特殊符号处理单元，采用正则匹配的方式，进行特殊符号的清洗；

停止词过滤单元，采用遍历算法和正则匹配的方式，遍历原始数据，对停止词进行替换和删除，其中，所述停止词通过预先分析文档常用的停止词，加入到停止词列表中；

基于困惑度的词句过滤单元，使用N-gram模型，对原始数据中的词语或句子进行困惑度计算，当困惑度低于0.5时，删除对应的词语或句子。

优选地，所述模块二包括：

数据加载单元，用于加载待向量化的数据；

拆分单元，用于对加载的待向量化的数据进行拆分，得到拆分后的文档；

向量提取单元，用于加载HuggingFace的语言模型，对拆分后的文档进行向量化提取，得到与拆分后的文档对应的向量；

输出模块，用于将拆分后的文档和对应的向量以DuckDB文件结构的形式输出至云服务数据库。

优选地，所述模块三包括：

最优区间确定单元，用于输入待优化的参数，并确定各个参数的最优区间；

网格寻优单元，用于采用网格寻优的方法，在各个参数的最优区间内，以设定的步长寻找到各个参数的最优解；

优化模块，使用各个参数的最优解对大语言模型进行优化。

优选地，所述装置还包括：

数据搜集模块，用于搜集私有化的用户数据，包括云服务帮助文档、说明书、用户手册、服务器的运行记录；

用户提问模块，用于接收用户提出的问题；

回答模块，用于输出针对所述问题的回答；

所述用户提问模块收到用户提出的问题后，调用通信接口访问云服务数据库，在云服务数据库中检索到和所述问题相关的描述，所述问题和描述提交给大语言模型。

一种用于云服务行业大语言模型私有化部署方法，包括步骤：

对搜集的原始数据进行预处理，所述原始数据是搜集到的私有化的用户数据，包括云服务帮助文档、说明书、用户手册、服务器的运行记录；

对预处理后的数据进行向量化处理，生成对应的索引，所述原始数据、预处理后的数据和向量化处理化的数据均存储到云服务数据库中；

对关键参数进行寻优，并使用寻优结果对大语言模型进行优化处理，其中，所述关键参数包括推理服务器的GPU内存加载参数、推理批次数量、检索文档区块的数量和大语言模型的量化等级，大语言模型用于对输入大语言模型的数据进行运算、分析和推理处理，所述输入大语言模型的数据包括用户提出的问题，以及从云服务数据库中检索到的与问题相关的描述。

优选地，所述方法包括步骤：

接收用户提出的问题；

访问所述云服务数据库，在云服务数据库中检索到和问题相关的描述后，将问题和描述一起提交给大语言模型；

使用大语言模型用于对输入大语言模型的问题和描述进行运算、分析和推理处理；

将大语言模型的处理结果作为针对所述问题的回答并输出。

优选地，以如下步骤对搜集的原始数据进行预处理：

采用正则匹配的方式，匹配超过两个空格的空行，并进行替换，替换成两个空格；

采用正则匹配的方式，进行特殊符号的清洗；

采用遍历算法和正则匹配的方式，遍历原始数据，对停止词进行替换和删除，其中，所述停止词通过预先分析文档常用的停止词，加入到停止词列表中；

使用N-gram模型，对原始数据中的词语或句子进行困惑度计算，当困惑度低于0.5时，删除对应的词语或句子。

优选地，以如下步骤将预处理后的数据转换为向量，并存储到向量存储库：

加载待向量化的数据；

对加载的待向量化的数据进行拆分，得到拆分后的文档；

加载HuggingFace的语言模型，对拆分后的文档进行向量化提取，得到与拆分后的文档对应的向量；

将拆分后的文档和对应的向量以DuckDB文件结构的形式存入云服务数据库。

优选地，以如下步骤对关键参数进行寻优，并使用寻优结果对大语言模型进行优化处理：

输入待优化的参数，并确定各个参数的最优区间；

采用网格寻优的方法，在各个参数的最优区间内，以设定的步长寻找到各个参数的最优解；

使用各个参数的最优解对大语言模型进行优化。

有益效果：由于采用了上述技术方案，本发明具有如下有益效果：

本发明建立一个面向云服务企业敏感数据的大模型私有化部署方案，通过构建企业私有化的专家知识库即云服务数据库D，在私有化的服务器上部署大语言模型访问知识库，无需进行模型训练，便可以完成通用模型到垂直领域模型的转换，保证了企业数据安全性。

附图说明

图1为实施例一提出用于云服务行业大语言模型私有化部署装置的结构示意图；

图2为实施例二提出用于云服务行业大语言模型私有化部署方法的流程图；

图3为本发明方法中的停止词示例。

具体实施方式

下面结合附图对本发明的实施例作详细的说明。

实施例一

如图1所示，本发明提出一种用于云服务行业大语言模型私有化部署装置，包括：数据搜集模块、模块一、云服务数据库、大语言模型、模块二、模块三、用户提问模块和回答模块。具体细述如下。

1、模块一：云服务知识库数据处理

该模块主要用于云服务行业文本数据的处理，这些原始数据包括云服务的用户手册，云服务器的运行记录，云服务器的其他说明书。处理的流程包括空白区域标准化、停止词过滤、基于困惑度的词句过滤、特殊符号删除。

2、模块二：数据向量化存储

该模块主要作用是将文本的数据转换为向量，并进行存储，在后续的私有化部署中，模型直接访问向量存储库，而不需要访问原始的文档，从而加快检索速度。

云服务数据库用于存储企业的自有数据，包括原始数据、经过预处理和向量化处理的数据。企业的自有数据来源的领域是云服务行业的数据，因此命名为云服务数据，实际上云服务数据库中的数据不放在云端，外部网络无法访问。用户提问模块和回答模块都部署在私有服务器上，在局域网内可以通过页面访问，实现对话的交互。

3、模块三：私有化部署模型的参数寻优

在模型部署中，有很多参数影响算法的推理速度和性能，通过人工微调需要花费大量的时间，本发明根据云服务行业的特点，选择了关键的参数进行寻优，可以在使用前对大语言模型进行离线优化。寻优算法使用网格寻优，寻优参数包括推理服务器的GPU内存加载参数--n_layer,推理批次数量—batch，检索文档区块的数量—chunks，大语言模型的量化等级--q。

实施例二

本实施例提出一种用于云服务行业大语言模型私有化部署方法，如图2所示，主要步骤如下：

步骤1：搜集相关的用户手册、说明文档等信息，并通过模块一对数据进行预处理。

步骤2：将步骤一中预处理完成之后的数据通过模块二进行向量化存储和索引的生成，得出云服务行业检索数据库即云服务数据库。

步骤3，利用模块三参数寻优的结果，对大语言模型进行量化，并部署在私有化的服务器上。

步骤4，收到用户提问后，将问题与步骤二中的云服务数据库做比对，检索相关的表述s，将问题和文档描述s一起送入步骤三中的大语言模型得出最终的回答。在用户提出问题后，***会根据问题在云服务数据库里进行匹配，匹配到相关文档片段后，一起提交到大语言模型。文档描述s是***执行比对和检索后的文档片段、索引对应的文档。

其中，模块一执行的主要步骤如下：

步骤1.1 、通过正则匹配的方式，匹配超过两个的空格的空行，并对该空行进行替换，替换成两个空格。

步骤1.2、通过正则匹配的方式进行特殊符号的清洗。特殊符号包括多种图形符号，如：✑✒✉✁✂✃✄✆✉☎☏☑✓✔√☐☒✗✘ㄨ✕✖✖☢☠☣✈★等。

步骤1.3、分析文档常用的停止词，并加入到停止词列表，通过遍历算法和正则匹配，遍历所有的用户手册等云服务知识库文档，进行删除。如图3所示停止词示例。

步骤1.4、使用N-gram模型，对句子进行困惑度计算，当困惑度低于0.5时，对该词语进行删除。

由于专业领域的大模型强调客观性，除停止词外，对于专业领域来讲，感情色彩丰富的词汇也要去掉，多指形容词或副词，比如 “相当”“非常”等感情色彩强烈的词会影响大模型的结果输出，本发明通过模块一的预处理，能够过滤掉没有意义的符号以及感情色彩很强的词汇，获得客观、简洁的回答。

模块二执行的主要步骤如下：

步骤2.1、加载待向量化的云服务帮助文档，用户手册，服务器的运行记录。

步骤2.2、创建用于步骤2.1文档的拆分器，并对步骤2.1的文档数据进行拆分，通过拆分将文本片段和索引对应。

步骤2.3、加载HuggingFace的语言模型，对步骤2.2的拆分结果进行向量化提取，即文本片段通过向量化成为向量。

步骤2.4、将拆分后的文档和向量进行存储，使用DuckDB文件结构进行存储。

上述对句子进行困惑度计算的N-gram模型，以及对拆分结果进行向量化处理的HuggingFace的语言模型，可选取现有技术中的N-gram模型、HuggingFace的语言模型，通过训练获得，在此不作赘述。

模块三执行的主要步骤如下：

步骤3.1、首先要确认待优化的参数，确定各个参数大致的最优区间；

步骤3.2、接下来通过网格寻优，具体在区间内按照一定的步长不断尝试，比如参数a在[1,5],步长为1，则[0.1.2.3.4.5]中找到a 的最优解。模块三执行的优化是模型的部署优化，主要是确定模型部署需要采用的量化等级，所输入的token长度等。

本发明设计的私有化的云服务部署方案，对于私有化企业数据需要部署在自有的服务器上，充分依据企业的自有数据，通过模型和云服务数据检索的回答更专业，更符合实际的项目需要，大大减少了检索时间，提高回答的准确性，而且能够解决数据安全的问题。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种用于云服务行业大语言模型私有化部署装置，其特征在于，在用户端的私有化的服务器上部署大语言模型、模块一、模块二和模块三；其中，

2.根据权利要求1所述的一种用于云服务行业大语言模型私有化部署装置，其特征在于，所述模块一包括：

3.根据权利要求1所述的一种用于云服务行业大语言模型私有化部署装置，其特征在于，所述模块二包括：

数据加载单元，用于加载待向量化的数据；

4.根据权利要求1所述的一种用于云服务行业大语言模型私有化部署装置，其特征在于，所述模块三包括：

优化模块，使用各个参数的最优解对大语言模型进行优化。

5.根据权利要求1所述的一种用于云服务行业大语言模型私有化部署装置，其特征在于，所述装置还包括：

用户提问模块，用于接收用户提出的问题；

回答模块，用于输出针对所述问题的回答；

6.一种用于云服务行业大语言模型私有化部署方法，其特征在于，包括步骤：

7.根据权利要求6所述的一种用于云服务行业大语言模型私有化部署方法，其特征在于，所述方法包括步骤：