CN117574858A

CN117574858A - 一种基于大语言模型的类案检索报告自动生成方法

Info

Publication number: CN117574858A
Application number: CN202311590795.1A
Authority: CN
Inventors: 徐雯; 李敬泉; 胡伟; 徐伟招
Original assignee: Shenzhen Kuakua Jingling Technology Co ltd
Current assignee: Shenzhen Kuakua Jingling Technology Co ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-02-20

Abstract

本发明公开一种基于大语言模型的类案检索报告自动生成方法，包括以下步骤：S1：提取关键词和问题解释；S2：基于S1提取的关键词和问题解释，在法律数据库中进行检索，以得到若干法律文献；S3：从S2得到的法律文献中，匹配与用户需求相关的若干案例，并提取案例中的关键信息；S4：基于S3提取的关键信息，生成法律类案检索报告，并反馈给用户。本发明可高效的提供精确、一致和易于理解的法律类案检索报告，有助于法律专业人员和研究人员更快地获得所需的信息，以支持决策和研究，同时，也可以减轻法律领域的工作人员的负担，提高法律服务的效力。

Description

一种基于大语言模型的类案检索报告自动生成方法

技术领域

本发明涉及类案检索报告技术领域，尤其涉及一种基于大语言模型的类案检索报告自动生成方法。

背景技术

在类案检索报告方面，已有一些现有的解决方案。这些方案包括传统的法律研究方法，如手动检索法律数据库、阅读法律文献和编写报告。这些方法在提供法律信息方面具有价值，但存在一些局限性：

时间消耗：传统法律研究，通常需要大量时间，包括检索、阅读、筛选和整理信息的时间；

准确性：手动方法容易受到人为错误的影响，可能导致不准确或遗漏的信息。

因此，需要对其进行改进。

发明内容

本发明的目的是提供一种基于大语言模型的类案检索报告自动生成方法，该方法可高效的提供精确、一致和易于理解的法律类案检索报告，有助于法律专业人员和研究人员更快地获得所需的信息，以支持决策和研究，同时，也可以减轻法律领域的工作人员的负担，提高法律服务的效力。

为实现上述目的，采用以下技术方案：

一种基于大语言模型的类案检索报告自动生成方法，包括以下步骤：

S1：提取关键词和问题解释；

S2：基于S1提取的关键词和问题解释，在法律数据库中进行检索，以得到若干法律文献；

S3：从S2得到的法律文献中，匹配与用户需求相关的若干案例，并提取案例中的关键信息；

S4：基于S3提取的关键信息，生成法律类案检索报告，并反馈给用户。

进一步地，所述S1具体包括如下步骤：

S11：用户输入问题或关键词，以描述其法律需求；

S12：基于大语言模型，提取用户输入的关键词，或对用户输入的问题进行解释。

进一步地，所述S2具体包括如下步骤：

S21：构建法律数据库；

S22：基于S1提取的关键词和问题解释，使用大语言模型生成法律数据库的搜索查询；

S23：使用网络搜索引擎或法律数据库的API，将生成的搜索查询传递给法律数据库；

S24：检索与关键词或问题解释相关的法律文献，其中，法律文献包括案例、法规、法条。

进一步地，所述S21具体包括如下步骤：

S211：上传本地法律文档、云文档；

S212：读取文档，并对读取文档得到的文本进行分割；

S213：将分割后的文本转成数组，并存储到向量数据库，构成法律数据库。

进一步地，所述S22具体包括如下步骤：

S221：对提取的关键词和问题解释进行向量化，以得到问题向量；

S222：在法律数据库中，匹配出与问题向量相似的若干向量，并按照相似度，对其进行排序；

S223：将匹配出的向量的文本作为上下文和问题向量的文本一起添加到prompt中；

S224：提交给大语言模型生成回答其中，p_θ表示一个参数为θ的预训练大语言模型。

进一步地，所述S3具体包括如下步骤：

S31：对S2得到的法律文献，进行初步筛选、初步排序和标记；

S32：使用多层神经网络训练匹配模型，按照法律文献中的案例与用户需求的匹配度，对案例进行匹配排序；

S33：选定预设数量的案例，并基于大语言模型的自然语言处理模型，从案例中提取关键信息，其中，关键信息包括案例名称、法院、判决、法律原则、相关事实。

进一步地，所述S32具体包括如下步骤：

S321：基于模型的第一层，对输入的数据进行预处理和特征提取，以捕捉案例的基本特征；

S322：将其余的若干层构成一个深层次的神经网络结构，其中，每一层都通过权重和偏差的调整，来学习案例的更抽象的特征，同时，采用多种激活函数、正则化和优化算法，以优化模型的性能；

S323：基于模型的输出层，输出案件匹配结果。

进一步地，所述S323中，还使用了损失函数来衡量模型输出与实际案件匹配结果之间的差异，并通过反向传播算法来更新模型参数。

进一步地，所述S4中的法律类案检索报告包括摘要、案例列表、法律原则引用、总结，其中，摘要包括基本案情、争议焦点、裁判要旨、裁判摘要。

进一步地，基于长文本大语言模型生成摘要，具体包括如下步骤：

将法律案件的长文本，等分成固定长度的文本片段；

将一个固定大小的窗口在文本片段上滑动，生成多个重叠的文本片段；

使用自然语言处理工具，将文本片段划分成有意义的语义单元；

将语义单元分层级地进行分割。

采用上述方案，本发明的有益效果是：

该方法可高效的提供精确、一致和易于理解的法律类案检索报告，有助于法律专业人员和研究人员更快地获得所需的信息，以支持决策和研究，同时，也可以减轻法律领域的工作人员的负担，提高法律服务的效力。

附图说明

图1为本发明的流程图；

图2为本发明的类案检索和类案分析的流程图；

图3为本发明的检索法律知识库的流程图；

图4为本发明的其中一实施例中的类案检索报告部分截图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

参照图1至4所示，本发明提供一种基于大语言模型的类案检索报告自动生成方法，包括以下步骤：

S1：提取关键词和问题解释。

在该步骤中，首先用户会输入问题或关键词，以描述其法律需求，随后，基于大语言模型，提取用户输入的关键词，或对用户输入的问题进行解释，其中，模型可以分析输入文本，理解其含义，识别关键词和主题，以帮助确定检索方向，其中一实施例中，如下所示：

p_θ表示一个参数为θ的预训练大语言模型，示例prompt：{请提取出以下检索需求的关键词：[检索问题]}：

S2：基于S1提取的关键词和问题解释，在法律数据库中进行检索，以得到若干法律文献。

S21：构建法律数据库；

S211：上传本地法律文档、云文档；

S212：读取文档，并对读取文档得到的文本进行分割；

在该步骤中，首先需要构建搜索查询：基于用户提供的问题和关键词，使用大语言模型生成法律数据库的搜索查询；

随后，联网引擎应用：使用网络搜索引擎或法律数据库的API，将生成的搜索查询传递给法律数据库，以检索相关法律文献，包括案例、法规和法条；

随后，采取文本分割+向量embedding+知识库的方式，对文本进行分割匹配，包括

第一步：加载上传本地法律文件、云文件，读取文件，进行文本分割，基于文档进行chunk(文本分块)处理；

第二步：文本向量化(embedding)，将本地文档、云文档转成计算机可识别的语言(数组)，并存储到向量数据库，构成法律数据库；

第三步：对问题同样进行向量化；

第四步：两个向量之间可以进行计算，得到一个相似度，即代表：两个语言相似的程度，在文本向量中匹配出与问题向量最相似的topk个；

第五步：匹配出的文本作为上下文和问题一起添加到prompt中,。

示例prompt：{请提根据参考文本【参考文本】以及用户问题【问题内容】，回答问题}；

第六步：提交给LLM(大语言模型)生成回答

S3：从S2得到的法律文献中，匹配与用户需求相关的若干案例，并提取案例中的关键信息。

所述S32具体包括如下步骤：

S323：基于模型的输出层，输出案件匹配结果。

所述S323中，还使用了损失函数来衡量模型输出与实际案件匹配结果之间的差异，并通过反向传播算法来更新模型参数。

在该步骤中，首先需要对数据进行分析，即对从法律数据库检索到的文献进行初步分析，包括初步筛选、初步排序和标记；

随后，匹配合适的案例，即使用多层神经网络训练匹配模型，对文献进行匹配排序，以确定哪些案例与用户的需求最相关；

随后，提取信息：利用few shots prompt技术，从选定的案例中提取关键信息，如案例名称、法院、判决、法律原则和相关事实，同时，可使用大语言模型的自然语言处理功能，以帮助提取和解析信息。

其中，对于多层神经网络匹配模型：

模型的第一层，输入数据经过预处理和特征提取，以捕捉案件的基本特征，例如关键词、案件类型和相关方信息。这一层的目标是将原始数据转化为更高层次的抽象表示，以便更深层次的网络能够更好地理解案件的上下文和关联。

随后的层次构成了一个深层次的神经网络结构，其中每一层都通过权重和偏差的调整来学习案件的更抽象的特征。这些特征可能涉及案件的复杂关系、背景信息以及案件元数据的动态变化。为了优化模型的性能，可以采用各种激活函数、正则化技术和优化算法，以确保网络在训练过程中能够更好地泛化到未见过的案件数据。

此外，模型还包括一些专门设计的层次，如注意力机制，以使网络能够更集中地关注案件中的关键信息。这有助于提高匹配的准确性，并使模型更具解释性，使用户能够理解网络在做出匹配决策时的依据。

最后，模型的输出层提供了案件匹配的最终结果。可以使用适当的损失函数来衡量模型输出与实际案件匹配情况之间的差异，并通过反向传播算法来更新模型参数，从而不断提高其性能。

另外，few shots prompt其中一个示例prompt：{

案例内容：【在一起建设工程施工合同纠纷中，发包方与承包方签订《施工合同》一份，合同约定工期60天，承包方又将该工程整体转包给某自然人，该自然人实际完工工期为75天。】

关键信息：【“建设工程施工合同纠纷”、“工期延误”、“转包”】

请提根据以上示例，根据给出的案例内容，给出关键信息。案件内容为【】

}；

在把问题提供给大模型前，提供问题答案示例，以帮助大模型更准确的完成任务。

所述S4中的法律类案检索报告包括摘要、案例列表、法律原则引用、总结，其中，摘要包括基本案情、争议焦点、裁判要旨、裁判摘要。

对于摘要，使用大语言模型生成案例检索结论的自然语言摘要，由于单个法律案件文本长度过长，需要使用长文本处理技术对候选案件进行摘要处理，后将候选的摘要再进行处理，形成摘要，而对于长文本大语言模型生成摘要，具体包括：

固定长度分片：将长文本等分成固定长度的片段。每个片段的长度通常由模型的最大输入长度决定。这样的方法简单直观，但可能会导致在分片之间断开上下文关系。

滑动窗口：将一个固定大小的窗口在文本上滑动，生成多个重叠的片段。这有助于保留上下文信息，但需要处理片段之间的重叠部分。

语义分割：使用自然语言处理工具(如分词器)将文本划分成有意义的语义单元，例如句子或段落。这样可以确保模型不会在关键上下文之间断开，但可能需要更复杂的处理逻辑。

层级分割：将文本分层级地分割，从整体到细节。首先，将文本划分为大的段落，然后在每个段落中进行细分。这有助于保持层次结构，但需要更复杂的处理逻辑。

上下文保留：在处理长文本时，将前一个片段的输出作为下一个片段的输入。这有助于保持上下文的一致性，但可能需要额外的逻辑来管理状态和输出的处理。

具体来说，假设候选案例为C₁，C₂，C₃，...，C_n，我们第一步利用大模型长文本处理技术生成每一个候选案例的摘要形成候选摘要集A₁，A₂，A₃，...，A_n，第二步，将摘要集拼接，输入到大模型里形成最终的类案检索报告。

该方法具有如下技术效果：

提高效率：通过大语言模型的应用，该方法可以快速解释用户提供的问题或关键词，并自动生成法律数据库的搜索查询，这减少了手动查询和筛选的时间，提高了检索效率。

精确匹配：大语言模型能够理解用户的问题，识别关键词和主题，从法律数据库中匹配最相关的案例，这提高了匹配的精确性，使用户更容易找到所需的信息。

自然语言摘要：该方法使用大语言模型生成自然语言的案例检索结论，这使得报告更易于理解和阅读，用户不需要深入研究法律文书，因为已经提取并总结了关键信息。

一致性和标准化：报告生成过程是自动化的，因此报告的格式和内容保持一致，这有助于维持报告的标准化，并提供一致的法律意见。

提供深入洞察：大语言模型可以自动解释法律文书中的法律原则和相关事实，为用户提供深入的法律洞察，这有助于用户更好地理解法律问题。

减少错误率：通过自动化的匹配和信息提取过程，该方法可以减少人为错误的风险，从而提高了报告的准确性。

时间节省：由于自动化流程，用户可以在更短的时间内获得法律类案检索报告，节省了时间和努力。

总的来说，该方法可更高效的提供精确、一致和易于理解的法律类案检索报告，有助于法律专业人员和研究人员更快地获得所需的信息，支持决策和研究。此外，还可以减轻法律领域的工作负担，提高了法律服务的效力。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大语言模型的类案检索报告自动生成方法，其特征在于，包括以下步骤：

S1：提取关键词和问题解释；

2.根据权利要求1所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S1具体包括如下步骤：

S11：用户输入问题或关键词，以描述其法律需求；

3.根据权利要求1所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S2具体包括如下步骤：

S21：构建法律数据库；

4.根据权利要求3所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S21具体包括如下步骤：

S211：上传本地法律文档、云文档；

S212：读取文档，并对读取文档得到的文本进行分割；

5.根据权利要求4所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S22具体包括如下步骤：

6.根据权利要求1所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S3具体包括如下步骤：

7.根据权利要求6所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S32具体包括如下步骤：

S323：基于模型的输出层，输出案件匹配结果。

8.根据权利要求7所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S323中，还使用了损失函数来衡量模型输出与实际案件匹配结果之间的差异，并通过反向传播算法来更新模型参数。

9.根据权利要求1所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，所述S4中的法律类案检索报告包括摘要、案例列表、法律原则引用、总结，其中，摘要包括基本案情、争议焦点、裁判要旨、裁判摘要。

10.根据权利要求9所述的基于大语言模型的类案检索报告自动生成方法，其特征在于，基于长文本大语言模型生成摘要，具体包括如下步骤：

将法律案件的长文本，等分成固定长度的文本片段；

将语义单元分层级地进行分割。