CN118210891A

CN118210891A - 基于知识微调的大语言模型可靠法律问答生成方法

Info

Publication number: CN118210891A
Application number: CN202410315415.1A
Authority: CN
Inventors: 徐雯; 李敬泉; 胡伟; 徐伟招
Original assignee: Shenzhen Kuakua Jingling Technology Co ltd
Current assignee: Shenzhen Kuakua Jingling Technology Co ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-18

Abstract

本发明公开一种基于知识微调的大语言模型可靠法律问答生成方法，包括如下步骤：S1：构建法律知识库；S2：构建基于法律知识的对话样本数据；S3：对选择采用的大语言模型进行预训练及知识微调；S4：对大语言模型进行反馈优化。本发明适用于法律领域，可用来改善大语言模型在法律相关问题解答、法律案例分析和法规解释等任务的表现，从而满足用户对获取精准法律信息的需求。

Description

基于知识微调的大语言模型可靠法律问答生成方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于知识微调的大语言模型可靠法律问答生成方法。

背景技术

现有的法律问答***，其一般以法规库和案例库为基础，通过检索引擎对用户问题进行关键词匹配后，再返回最合适的答案，但这些***无法处理复杂的、具有语义理解需求的问题。另一个问题是，现有***无法进行学习和自我改善，在这种背景下，逐渐采用大语言模型作为法律问答***的基础，但是，这依旧面临了一个主要的问题，那就是大语言模型的训练数据来自广泛的领域和主题，因此，可能没有足够的专业知识去进行准确的法律问答。

法律知识涵盖了广泛的法律信息，包括法规解释、案例分析、法庭判决、法学论著等。在通用域上进行预训练时，由于法律知识相对较为独特和专业，语言模型在法律领域的下游任务推理表现受到知识储备的限制。故为了提升模型在法律领域任务中的性能，可以采取以下方法融入法律知识：

1)基于法律领域数据进行微调

通过将预训练模型的权重用于法律领域数据的微调，使其适应法律任务的要求。例如，将预训练语言模型Fine-tune应用到法律文本数据上，有助于提高法律文本分类、法规解读、法条检索等任务的性能。

2)在法律文本上进行预训练

收集法律相关的文本，包括法规、案例法报告、法学论著等，通过增加预训练过程中法律文本的比重，使模型能够在预训练阶段学习法律领域的文本特征。

然而，在面对更大规模的语言模型或当前对话式语言模型时(如ChatGPT)，额外预训练所需的开销较大，成本较高，而一般微调过程在任务形式上和对话形式存在差异。因此，提出了一种基于指令微调的法律知识增强方法，通过成本较低的方式微调训练，加入专业的法律专业知识，提高法律大模型的问答准确性。

发明内容

本发明的目的是提供一种基于知识微调的大语言模型可靠法律问答生成方法，适用于法律领域，可用来改善大语言模型在法律相关问题解答、法律案例分析和法规解释等任务的表现，从而满足用户对获取精准法律信息的需求，同时，基于知识微调策略，模型还能够在其他特定领域，亦或是复杂问题上生成质量更高的解答，满足了不同用户的使用需求，且可广泛应用于法律咨询机器人、在线法律咨询平台、AI法律研究工具等领域，解决用户在法律问题分析、法律要求理解、法案研究等方面的需求。

为实现上述目的，采用以下技术方案：

一种基于知识微调的大语言模型可靠法律问答生成方法，包括如下步骤：

S1：构建法律知识库；

S2：构建基于法律知识的对话样本数据；

S3：对选择采用的大语言模型进行预训练及知识微调；

S4：对大语言模型进行反馈优化；

其中，所述S3具体包括如下步骤：

S31：选择大语言模型；

S32：基于S2生成的对话样本数据对S31选择的大语言模型进行预训练；

S33：构建指令模板及对训练数据进行整理；

S34：对选择的大语言模型进行指令微调。

进一步的，所述S31中选择的大语言模型为ChatLaw。

进一步的，所述S2中，是依据提示词对话prompt模板，生成法律知识的对话样本数据，其中，对话样本数据包括法律咨询对话、法律案例分析、法规解释。

进一步的，所述S33具体包括如下步骤：

S331：构建指令数据模板，其模板的格式为"[CLS]{指令}[SEP]{文本}[SEP]"，其中，{指令}和{文本}代表输入和输出；

S332：构建训练数据，在该步骤中是通过在法律知识库中随机选择法律知识点，然后再加上S331构建的指令数据模板，一起发送至ChatLaw大语言模型，以得到法律知识点相应的训练数据集；

S333：数据增强，在该步骤中，会将S332得到的训练数据集再次发送给ChatLaw大语言模型，以模拟不同情况下的相关法律问答场景。

进一步的，所述S34中，是采用LoRA模型对ChatLaw模型进行微调。

进一步的，采用LoRA模型对ChatLaw模型进行微调，具体是在ChatLaw模型旁边增加一个旁路，做一个降维再升维的操作，其中，在训练的时候固定ChatLaw模型的参数，只训练降维矩阵A与升维矩阵B，而模型的输入输出维度不变，输出时则将降维矩阵A乘以升维矩阵B的参数与ChatLaw模型的参数叠加，且采用随机高斯分布初始化降维矩阵A，用0矩阵初始化升维矩阵B，以保证训练开始时此旁路矩阵依然是0矩阵。

进一步的，所述S1中，构建的法律知识库包括法条类、案例类、模板类、书籍类、法律考试类、法律日常问答类。

进一步的，所述S4具体包括如下步骤：

S41：收集用户反馈；

S42：分析用户反馈，在该步骤中，会通过数据分析和文本分析的方式理解用户的需求和问题，再使用自然语言处理模型对用户反馈的意见进行详细的解析和分类；

S43：依据用户反馈的意见数据，对大语言模型进行训练、调整，以及对模型进行优化和提升。

采用上述方案，本发明的有益效果是：

本发明提出了一种基于指令微调的法律知识增强方法，通过成本较低的方式微调训练，并加入专业的法律专业知识，提高法律大模型的问答准确性，可适用于法律领域，以用来改善大语言模型在法律相关问题解答、法律案例分析和法规解释等任务的表现，从而满足用户对获取精准法律信息的需求，同时，基于知识微调策略，模型还能够在其他特定领域，亦或是复杂问题上生成质量更高的解答，满足了不同用户的使用需求，且可广泛应用于法律咨询机器人、在线法律咨询平台、AI法律研究工具等领域，解决用户在法律问题分析、法律要求理解、法案研究等方面的需求。

附图说明

图1为本发明的流程性框图；

图2为本发明的原理性框图；

图3为本发明对模型进行微调的原理性框图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

参照图1至3所示，本发明提供一种基于知识微调的大语言模型可靠法律问答生成方法，包括如下步骤：

S1：构建法律知识库。

在该步骤中，需要构建全面丰富的法律知识库。为此，采集了大量的法律资料，资料大多来源于公开资料库，此部分资料包括但不限于法规文本、案例法报告、法学教材等。这一知识库的建立，可使得预训练模型能够利用丰富的法律背景知识，从而增强其在法律领域的专业性和准确性，为模型的进一步微调打下根本的基础。

同时，知识库根据数据类别进行分类，大致可以分为六类，法条类、案例类、模板类、书籍类、法律考试类、法律日常问答类，在实际操作时，可根据不同类型的数据，将相应的数据进行处理并存入对应的数据库。

S2：构建基于法律知识的对话样本数据。

在该步骤中，会设计合适的提示词对话prompt模板，通过这些模版，可生成法律知识的对话样本数据，其中，对话样本数据包括法律咨询对话、法律案例分析、法规解释，这些样本不仅可以帮助模型理解并适应实际应用场景，也可以在训练初期提供给模型量级较大的训练样本，辅助模型在掌握法律专业知识的同时，让其具有良好的对话交互能力。

其中，提示词对话prompt模板示例：

{请根据【xx】法律知识点，生成法律咨询相关的问答对，尽量模拟真实的场景。}

数据集格式：问题:{xx}答案:{xx}。

S3：对选择采用的大语言模型进行预训练及知识微调。

所述S3具体包括如下步骤：

S31：选择大语言模型。

在该步骤中，选择了开源法律大型语言模型ChatLaw进行了细致而深入的知识微调，其中，指令微调(Instruct-Tuning)的原则是找出能有效触发模型正确响应的文本提示，然后利用有标签数据对大型预训练语言模型进行微调。具体的微调过程中，则是将任务指令与原始输入文本结合在一起，作为模型的输入，使模型将指令视作上下文信息，结合法律知识库，生成更为准确的法律相关输出。

S32：基于S2生成的对话样本数据对S31选择的大语言模型进行预训练。

在该步骤中，通过对模型进行预训练，可使得模型理解并适应实际应用场景，辅助模型在掌握法律专业知识的同时，让其具有良好的对话交互能力。

S33：构建指令模板及对训练数据进行整理。

在该步骤中，首先需要建立指令模板，指令模板的目的是为了制定一个通用的语法格式，让模型能够对其进行学习和处理。例如，可以设定指令数据集模板为：

"[CLS]{指令}[SEP]{文本}[SEP]"，其中，{指令}和{文本}代表输入和输出。

指令示例：请给出专业的法律意见；

指令微调数据集示例：

{问题：股东知情权诉讼的主体是什么？

答案：

股东知情权诉讼的主体通常包括**原告**和**被告**。原告通常是股东，他们认为自己的知情权受到了侵犯。被告通常是公司或者是公司的决策者，他们被认为侵犯了股东的知情权。在具体的诉讼中，原告和被告的具体身份可能会有所不同，需要具体案例具体分析}。

随后，构建训练数据，这个步骤主要是将法律随机知识点加上指令模板，发送至云端的大语言模型进行任务处理，以得到法律知识点相应的指令增强数据集。

最后，对模型进行了数据增强，即在不同环境中进行模型训练。这些环境可能包含了不同的任务，问题和用户类型，以试图让模型在面对各类情况时，都能够做出正确和合适的回应。数据增强的过程能够使模型具备更好的普适性和稳定性。例如，会针对上述步骤中得到的指令增强数据集，再次发送给大模型，以模拟不同情况下的相关法律问答场景。

S34：对选择的大语言模型进行指令微调。

微调的内容主要集中在法律知识库的内容上，包括法律条款、相关法案、案例研究等。微调的目标是使模型更准确地理解和掌握法律知识，微调的原则是找出能有效触发模型正确响应的文本提示。同时，也用有标签的数据对模型进行微调。在微调过程中，需要将任务指令和原始输入文本结合在一起作为模型的输入。这样，模型就会将指令视为上下文信息，能够更好地理解和回应用户的需求。指令微调是会直接通过自然语言形式给出人类指令，是基于一组NLP任务集合上直接tuning的过程，它可以提高语言模型在未知任务上的效果，即zero-shot learning能力。在该步骤中，采用LoRA方法进行模型微调，即在原始ChatLaw大语言模型旁边增加一个旁路，做一个降维再升维的操作。

在训练的时候固定ChatLaw的参数，只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变，输出时则将降维矩阵A乘以升维矩阵B的参数与ChatLaw的参数叠加，同时，采用随机高斯分布初始化降维矩阵A，用0矩阵初始化升维矩阵B，保证训练开始时，此旁路矩阵依然是0矩阵。

具体的步骤如下：

步骤1：在实施LoRA模型参数拆分中，首先需要导入所需的库和模型，确保有必要的环境和工具进一步执行相应的操作。拆分LoRA模型参数为预训练权重w和finetune增量权重Δw，这两个参数分别用符号代表，w是为固定好的预训练权重，finetune增量权重是产生的权重更新量。设定输入为x，输出为h，并设定y＝wx+Δw x；在训练过程中，固定预训练权重。使用两个低秩矩阵A和B作为近似表示Δw，定义y＝w x+BAx。对于这两个低秩矩阵，对A采用高斯初始化，对B采用零初始化，这就意味着，本发明会用已经满足某种分布的数值去填充初始的A，B矩阵。

步骤2：接下来，需要转向训练数据。首先，把训练数据进行分词处理。分词是把连续的文本切分为一个个独立的词的过程，这是中文处理的一个重要步骤。清晰地定义好训练参数之后，需要加载ChatLaw模型，然后启动微调训练。训练目标是保存损失值最低的模型权重。微调训练结束后，需要验证模型的效果。为此，使用部分的训练数据来进行这一过程。将训练完成的矩阵乘积BA与原本固定的权重矩阵w相加，作为新的模型矩阵，即y＝(w+BA)x，同时，将权重矩阵y作为新权重参数替换最开始的预训练模型语言参数。

步骤3：利用模型的测试结果与训练前模型进行对比。如果微调后的模型效果优于微调前，那么就可以断定微调是有效的，并将该模型作为后续的法律知识问答推理模型使用。如果效果较差，就需要对模型进行进一步优化。利用模型的测试结果与训练前模型测试作对比，对比指标采用问答平均准确率Acc；若指标提升，则模型微调效果提升，将其作为后续法律知识问答的推理模型；若指标反而下降，则重新调整训练参数，重复步骤1和步骤2，直至微调后模型测试结果优于训练前结果。

S4：对大语言模型进行反馈优化。

所述S4具体包括如下步骤：

S41：收集用户反馈。

可通过各种方式收集用户的反馈，如在线调查、评论、评级、用户论坛或直接与用户进行交互来实现。用户反馈可以是关于产品、服务、界面、性能等各方面的意见和建议。

S42：分析用户反馈，在该步骤中，会通过数据分析和文本分析的方式理解用户的需求和问题，再使用自然语言处理模型对用户反馈的意见进行详细的解析和分类。

通过分析，可以了解用户的满意点和痛点。这些数据会被用于训练和调整模型，例如，如果在一个法律咨询文案中，发现大部分用户都不认可某种法律观点，那么可以调整模型，以改变回答的内容。同时，可根据学习到的反馈，进而对模型进行优化和提升，优化可能是改善性能、修复错误、改进用户界面或改变推荐逻辑等，上述过程可循环进行，以使得模型能得到持续的改进。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，包括如下步骤：

S1：构建法律知识库；

S2：构建基于法律知识的对话样本数据；

S3：对选择采用的大语言模型进行预训练及知识微调；

S4：对大语言模型进行反馈优化；

其中，所述S3具体包括如下步骤：

S31：选择大语言模型；

S33：构建指令模板及对训练数据进行整理；

S34：对选择的大语言模型进行指令微调。

2.根据权利要求1所述的基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，所述S31中选择的大语言模型为ChatLaw。

3.根据权利要求2所述的基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，所述S2中，是依据提示词对话prompt模板，生成法律知识的对话样本数据，其中，对话样本数据包括法律咨询对话、法律案例分析、法规解释。

4.根据权利要求3所述的基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，所述S33具体包括如下步骤：

5.根据权利要求4所述的基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，所述S34中，是采用LoRA模型对ChatLaw模型进行微调。

6.根据权利要求5所述的基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，采用LoRA模型对ChatLaw模型进行微调，具体是在ChatLaw模型旁边增加一个旁路，做一个降维再升维的操作，其中，在训练的时候固定ChatLaw模型的参数，只训练降维矩阵A与升维矩阵B，而模型的输入输出维度不变，输出时则将降维矩阵A乘以升维矩阵B的参数与ChatLaw模型的参数叠加，且采用随机高斯分布初始化降维矩阵A，用0矩阵初始化升维矩阵B，以保证训练开始时此旁路矩阵依然是0矩阵。

7.根据权利要求1所述的基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，所述S1中，构建的法律知识库包括法条类、案例类、模板类、书籍类、法律考试类、法律日常问答类。

8.根据权利要求1所述的基于知识微调的大语言模型可靠法律问答生成方法，其特征在于，所述S4具体包括如下步骤：

S41：收集用户反馈；