CN113918702A

CN113918702A - 一种基于语义匹配的在线法律自动问答方法及***

Info

Publication number: CN113918702A
Application number: CN202111239970.3A
Authority: CN
Inventors: 张小明; 陈诚; 张博; 张力天; 路明
Original assignee: Beihang University
Current assignee: Zhongguancun Rongzhi Enterprise Management Innovation Promotion Center
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-11
Anticipated expiration: 2041-10-25
Also published as: CN113918702B

Abstract

本发明公开了一种基于语义匹配的在线法律自动问答方法及***，方法包括以下步骤：基于若干种互联网渠道，获取法律咨询数据；通过采集法律咨询数据的第一特征信息、第二特征信息，构建特征数据集，基于特征数据集，依据FastText文本分类算法和BertSum语义优化算法，构建用户意图识别模型，用户意图识别模型用于通过采集用户提出的法律咨询问题的第三特征信息，获取第三特征信息对应的法律咨询数据；***由若干功能模块构成，通过模块之间的逻辑联系，实现在线法律自动问答的方法，本发明克服了法律门户网站的站内检索***技术过于简单和不适配等问题，对推进法律自动问答垂直领域发展具有重大意义。

Description

一种基于语义匹配的在线法律自动问答方法及***

技术领域

本申请涉及数据挖掘、自然语言处理、机器学习、自动问答技术领域，具体而言，涉及一种基于语义匹配的在线法律自动问答方法及***。

背景技术

随着互联网应用在全世界范围的流行，越来越多的法律知识得到传播和普及，常见法律纠纷往往也能在互联网上找到答案。例如，用户可以通过“中国法律服务网”、“中国法院网”和“华律网”等热门法律门户网站寻求律师一对一咨询服务，也可检索网站数据库中的历史咨询记录来寻求解决方案，即站内检索。

据了解，现有法律门户网站的站内检索服务通常基于简单关键词匹配或简单语义匹配的方法实现。网站开发人员通常采用模糊匹配、全文检索等传统技术实现字或词层面上检索召回，没有考虑到句子内在语义以及句子和句子之间的关联，检索出的答案总是差强人意。此外，站内检索服务是基于该法律门户网站自身历史咨询数据构建，数据来源单一，且这些数据是在律师和用户在一对一沟通场景下产生，用户提问具有描述详细、冗长和针对性强等特点；而在使用站内检索的应用场景下，用户是与***对话而非律师本人，提问往往是简明扼要的，因此基于此类提问检索数据库中过于详细、冗长、针对性强的历史咨询会产生较差的性能，站内检索技术与其应用场景存在不适配的问题。

发明内容

本发明的目的在于提供一种基于语义匹配的法律自动问答方法或***，以解决上述背景技术中提出的站内问答检索***存在的信息来源单一，检索技术过于简单且不适配等问题。

为了实现上述技术目的，本申请提供了一种基于语义匹配的在线法律自动问答方法，包括以下步骤：

基于若干种互联网渠道，获取法律咨询数据；

通过采集法律咨询数据的第一特征信息、第二特征信息，构建特征数据集，其中，第一特征信息用于表示提问者对法律问题的简要描述，第二特征信息用于表示法律问题所属的法律性质；

基于特征数据集，依据FastText文本分类算法和BertSum语义优化算法，构建用户意图识别模型，用户意图识别模型用于通过采集用户提出的法律咨询问题的第三特征信息，获取第三特征信息对应的法律咨询数据。

优选地，在构建特征数据集的过程中，采集字数范围在4-20字之间的第一特征信息作为特征数据集的特征数据，以及采集第二特征信息作为特征数据集的第一标签，构建特征数据集。

优选地，基于FastText文本分类算法，提取第一特征信息的字粒度和词粒度，构建2-gram特征用于用户意图识别模型的基本输入。

优选地，在构建特征数据集的过程中，还包括，

采集法律咨询数据的第四特征信息，根据第四特征信息的句子分隔符对第四特征信息进行分句，并利用贪心策略从分割后的子句中获取与第一特征信息相似度最高的第一子句、第二子句，其中，第四特征信息用于表示法律问题的起因、经过、结果的描述；

将第一子句和第二子句进行拼接，获得第三子句以及第三子句对应的第二标签；

通过将第二标签的第一相似度值设置为1，基于第三子句,构建第一数据集；

根据分割后的子句与第一特征信息的相似度，进行归一化处理，获取第二相似度值，对第二相似度值进行相加处理，获取相加结果为1的第二相似度值作为第二数据集；

根据第一数据集和第二数据集，构建特征数据集。

优选地，在构建用户意图识别模型的过程中，通过字向量编码、位置编码和句子分段编码的方法，对第一数据集和第二数据集进行初始化；

在模型的每个输入句子前添加[CLS]标识和每个句子后添加[SEP]标识，用于收集单句语义信息和作为分割句子的信号；

在模型输出部分，将[CLS]标识对应输出位置的向量编码作为向量编码所在句子的语义编码，用于判断句子是否被抽取。

优选地，在对第一数据集和第二数据集进行初始化的过程中，字向量编码采用Word2vec静态词向量初始化，位置编码采用随机初始化，句子分段编码按句子奇偶顺序分别用0和1进行初始化。

优选地，在获取第三特征信息对应的法律咨询数据的过程中，通过faiss向量检索工具，基于语义编码，获取法律咨询数据。

一种基于语义匹配的在线法律自动问答***，包括：

数据采集模块，用于基于若干种互联网渠道，获取法律咨询数据；

数据处理模块，通过采集法律咨询数据的第一特征信息、第二特征信息，构建特征数据集，其中，第一特征信息用于表示提问者对法律问题的简要描述，第二特征信息用于表示法律问题所属的法律性质；

数据特征提取模块，用于基于特征数据集，依据FastText文本分类算法和BertSum语义优化算法，构建用户意图识别模型，用户意图识别模型用于通过采集用户提出的法律咨询问题的第三特征信息，获取第三特征信息对应的法律咨询数据。

优选地，在线法律自动问答***，还包括，

输入模块，用于用户输入法律问题，其中，输入模块还用于根据法律问题获取若干个特征信息，通过用户进行特征选择，获得法律咨询数据；

显示模块，用于显示基于法律问题对应的法律咨询数据；

数据库模块，用于存储法律咨询数据以及法律咨询数据对应的第一特征信息、第二特征信息；

数据库逻辑控制模块，用于通过逻辑算法控制数据库模块，与其他模块之间进行数据交互，实现在线法律自动问答***的***功能。

优选地，在线法律自动问答***还包括应用于在线法律自动问答***的计算机***程序，用于实现在线法律自动问答方法。

本发明与现有技术相比的优点在于：针对法律自动问答领域，提供了一种离线的、多源的、高性能的检索***。与现有热门法律门户网站站内提供的传统检索技术相比，本发明***收集了来自多个法律门户网站的咨询数据，保证了数据的真实性和全面性；其次，与传统基于简单关键词召回或简单语义匹配的站内检索***不同，本***分析了历史咨询数据与离线用户查询分布的差异，提出了BertSum语义优化模型，对冗长的历史咨询数据进行精简，提升核心语义，避免了冗余信息对语义匹配过程的干扰，提升匹配准确性；此外，利用意图识别算法识别离线用户查询意图，再基于用户意图在历史咨询数据上进行检索召回，进一步提高检索的速度和准确性。综上所述，本发明可以在离线应用场景下，提供给用户免费且全面的离线法律纠纷咨询服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是基于语义匹配的法律问答***构造流程图

图2是BertSum语义优化模型监督训练数据实例

图3是本发明提出的一种基于语义匹配的法律问答***中的向量检索实例。

具体实施方式

下为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1-3所示，本发明提供了一种基于语义匹配的在线法律自动问答方法，包括以下步骤：

基于若干种互联网渠道，获取法律咨询数据；

进一步地，在构建特征数据集的过程中，采集字数范围在4-20字之间的第一特征信息作为特征数据集的特征数据，以及采集第二特征信息作为特征数据集的第一标签，构建特征数据集。

进一步地，基于FastText文本分类算法，提取第一特征信息的字粒度和词粒度，构建2-gram特征用于用户意图识别模型的基本输入。

进一步地，在构建特征数据集的过程中，还包括，

根据第一数据集和第二数据集，构建特征数据集。

进一步地，在构建用户意图识别模型的过程中，通过字向量编码、位置编码和句子分段编码的方法，对第一数据集和第二数据集进行初始化；

进一步地，在对第一数据集和第二数据集进行初始化的过程中，字向量编码采用Word2vec静态词向量初始化，位置编码采用随机初始化，句子分段编码按句子奇偶顺序分别用0和1进行初始化。

进一步地，在获取第三特征信息对应的法律咨询数据的过程中，通过faiss向量检索工具，基于语义编码，获取法律咨询数据。

一种基于语义匹配的在线法律自动问答***，包括：

进一步地，在线法律自动问答***，还包括，

显示模块，用于显示基于法律问题对应的法律咨询数据；

进一步地，在线法律自动问答***还包括应用于在线法律自动问答***的计算机***程序，用于实现在线法律自动问答方法。

实施例1：本发明涉及一种基于语义匹配的法律自动问答***，该***属于自动问答领域中的检索式问答***，即事先在***数据库中存储大量的问题答案对，再根据用户查询，从数据库中检索出与用查询最相似的问题，并返回对应的问题答案集；属于数据挖掘、自然语言处理、机器学习、自动问答等研究领域；涉及到意图识别、语义理解、语义匹配和向量检索等关键技术。

本发明提供了一种基于语义匹配的法律自动问答***，收集了当前热门法律门户网站的历史咨询问答数据，融合了意图识别、文本摘要、向量检索等关键技术，优化离线用户提问与历史咨询问题的匹配过程，提升语义匹配准确度，实现了信息多源化的法律自动问答检索***。本发明包括以下步骤：

步骤一：多源历史法律咨询数据收集

编写爬虫爬取热门法律门户网站最新历史一对一法律咨询数据，包括但不限于“中国法律服务网”、“中国法院网”和“华律网”等热门网站。爬取字段包括“问题详述”(问题的详细描述，长度较长)、“问题简述”(问题的简要描述，长度较短)、“纠纷类型”(问题所属的法律纠纷类型)、“提问时间”(问题提出的时间)和“律师解答”(问题对应的答案集)等。

步骤二：构造用户意图识别模型

用户意图识别模型用于识别用户提问所属的纠纷类型，例如劳动纠纷、交通事故和婚姻家庭等。首先筛选出步骤一中符合要求的“问题简述”与其对应的“纠纷类型”，训练FastText文本分类模型，其中“问题简述”作为模型输入文本，“纠纷类型”作为分类标签。

步骤三：训练BertSum语义优化模型

为解决背景技术描述中提到的现有站内检索技术过于简单和离线应用场景导致的检索技术不适配问题，本发明利用改进后的BertSum抽取式文本摘要模型优化摘要抽取过程，实现了对长问题语义的凝练和压缩。主要步骤包括构造监督训练数据集和训练BertSum语义优化模型。

步骤四：数据入库

将步骤一收集到的多源历史咨询数据和步骤三中利用BertSum语义优化模型优化后的长问题语义向量进行存储用于后续检索模块。

步骤五：构造向量检索模块

向量检索过程采用faiss向量检索工具实现，包括以下步骤：(1)根据意图识别算法判断用户提问所属的纠纷类型；(2)根据纠纷类型在***数据库中找到相应的历史咨询数据；(3)计算用户问题的语义向量，利用faiss向量检索工具在步骤三得到的长问题摘要语义向量上检索出与用户提问最相似的历史咨询问答集并返回。

步骤六：***可视化

本发明以web网站形式呈现，由网站主页、搜索结果页和问答详情页三部分构成。主页涵盖检索和数据分析等功能；搜索结果页主要对用户检索的结果进行返回并按照相似度进行排列展示；问答详情页负责对单条历史问答咨询进行展示，由详细历史一对一咨询数据、来源url、咨询时间、纠纷类型和等信息组成。

实施例2：本发明公开了一种基于语义匹配的法律自动问答***，由多源历史法律咨询数据收集、构造用户意图识别模型、训练BertSum语义优化模型、数据入库、构造向量检索模块和***可视化6个部分组成；多源历史法律咨询数据收集模块负责收集来自多个热门法律门户网站的历史一对一咨询数据；构造用户意图识别模型负责识别离线用户提问所属的纠纷类型；训练BertSum语义优化模型负责优化数据库里历史咨询数据中用户问题的语义，使之简明扼要、突出重点；数据入库负责将收集到的多源历史咨询数据和利用BertSum语义优化模型优化后的用户问题语义信息进行存储；构造向量检索模块负责实现***检索功能，即当用户提出问题时，首先利用FastText意图识别模型确定问题所属的纠纷类型，再利用faiss向量检索工具在***数据库中检索该纠纷类型所对应的历史咨询数据，检索过程基于BertSum语义优化模型优化后的历史咨询问题语义向量，最后返回与用户提问最相似的问题；***可视化负责将基于语义匹配的法律自动问答***以Web网站形式发布。本发明解决了中文法律自动问答领域中存在的诸多缺陷，提供了一个信息多源化、全面化的法律自动问答***，克服了法律门户网站的站内检索***技术过于简单和不适配等问题，对推进法律自动问答垂直领域发展具有重大意义。

本发明提供的基于语义的中文法律问答***，图1给出了本发明的***流程图。具体实现步骤如下：

步骤一：多源历史法律咨询数据收集

编写爬虫爬取法律门户网站历史一对一法律咨询数据，包括“问题详述”、“问题简述”、“提问时间”和“问题类型”等字段。其中“问题详述”是指提问者对问题发生起因、经过、结果的详细描述，通常含有时间、地点、人物等详细信息；“问题简述”是指提问者对问题的简要描述，具有简明扼要，直接阐明主题的特点；“律师解答”指律师对用户提问的回答；“提问时间”指提出问题的时间；“纠纷类型”指问题所属的法律性质，例如劳动纠纷、交通事故和婚姻家庭等。

步骤二：构造用户意图识别模型

离线应用场景下的用户咨询往往具有言简意赅、简明扼要的特点，可以将用户提问分布视为与步骤一中爬取的“问题简述”分布一致。基于该特点，筛选出步骤一中“问题简述”字数范围在4-20字之间的数据用于训练意图识别模型，“纠纷类型”字段涵盖了全部用户意图，用作模型训练的标签。该意图识别任务为短文本分类任务，选用性能较好的FastText文本分类算法作为基本算法。基于字粒度和词粒度构造2-gram特征作为模型基本输入，学习得到FastText意图识别模型应用于该法律问答检索***的粗召回阶段。

步骤三：训练BertSum语义优化模型

如步骤二中所述，本发明中的自动问答***的用户提问分布可视为与步骤一中所爬取数据的“问题简述”字段分布一致，故将“问题详述”作为训练数据，即原文；将“问题简述”作为语义优化后的标准摘要，即标签。BertSum语义优化模型首先抽取“问题详述”字段中关键子句进行拼接得到问题摘要，使摘要相较于原“问题详述”而言，与对应的“问题简述”在语义上更加接近，从而达到语义凝练的目的。BertSum语义优化模型是在原BertSum抽取式摘要模型的基础上构建的。模型构造过程包括以下步骤：

(1)构造监督数据集

如图2所示，分别构造硬标签(hard label)和软标签(soft label)监督数据集：

a.构造硬标签监督数据集：首先根据逗号、分号、句号、问号和感叹号等句子分隔符将“问题详述”句子进行分句，再利用贪心策略从分割后的子句中找到与“问题简述”相似度最高的子句A；进一步，寻找第二条子句B，使之与句子A按二者在原文中的次序拼接后得到的句子C与“问题简述”相似度更高；以此类推，找到最多不超过3条子句作为对“问题详述”进行语义优化后的摘要，将这三条句子对应的标签置为1，其余未被选中的句子的标签置为0，即可构造得到硬标签监督数据集。

b.构造软标签监督数据集：按照a中的分句方法对“问题详述”进行分句，计算出每个子句与“问题简述”的相似度，再对所有句子的相似度值进行归一化操作得到标签值，使得所有标签值的和为1，即可构造得到软标签监督数据集。软标签相较于硬标签带给模型的监督信号更加丰富，有助于指导模型往正确的方向学习。

(2)训练BertSum语义优化模型

基于(1)中构造的两类监督数据集训练BertSum语义优化模型，采用与传统bert模型一致的网络架构。模型输入包括三种编码类型：字向量编码、位置编码和句子分段编码。字向量编码采用Word2vec静态词向量初始化，位置编码采用随机初始化，句子分段编码按句子奇偶顺序分别用0和1进行初始化。模型在每个输入句子前添加[CLS]标识和每个句子后添加[SEP]标识，分别用于收集单句语义信息和作为分割句子的信号。在模型输出部分，将[CLS]标识对应输出位置的向量编码作为它所在句子的语义编码，用于后续判断所述句子是否被抽取。

步骤四：数据入库

将步骤一中爬取到的所有数据写入***MongoDB数据库中。存在部分网站仅有一个用户问题描述，不存在对问题的详细描述和简要描述的情况，即不存在“问题详述”和“问题简述”的区别，将这类问题描述统一视为“问题详述”字段写入数据库中。此外，利用步骤三中BertSum语义优化模型对***数据库中“问题详述”进行精简，获取语义优化后的问题摘要，将计算得到的问题摘要向量编码和原“问题详述”向量编码拼接得到“摘要语义”字段值，保存至***数据库中，用于后续构建向量检索。

步骤五：构造向量检索模块

向量检索采用faiss向量检索工具实现，检索模块包括以下步骤：

(1)根据意图识别算法判断用户提问所属的纠纷类型；(2)根据纠纷类型在***数据库中找到相应的历史咨询数据；(3)如图3所示，计算用户问题的语义向量，利用faiss向量检索工具在步骤三得到的“摘要语义”字段上检索出与用户提问最相似的历史咨询问答集并返回。

步骤六：***可视化

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于语义匹配的在线法律自动问答方法，其特征在于，包括以下步骤：

基于若干种互联网渠道，获取法律咨询数据；

通过采集所述法律咨询数据的第一特征信息、第二特征信息，构建特征数据集，其中，所述第一特征信息用于表示提问者对法律问题的简要描述，所述第二特征信息用于表示所述法律问题所属的法律性质；

基于所述特征数据集，依据FastText文本分类算法和BertSum语义优化算法，构建用户意图识别模型，所述用户意图识别模型用于通过采集用户提出的法律咨询问题的第三特征信息，获取所述第三特征信息对应的所述法律咨询数据。

2.根据权利要求1所述一种基于语义匹配的在线法律自动问答方法，其特征在于：

在构建特征数据集的过程中，采集字数范围在4-20字之间的所述第一特征信息作为所述特征数据集的特征数据，以及采集所述第二特征信息作为所述特征数据集的第一标签，构建所述特征数据集。

3.根据权利要求2所述一种基于语义匹配的在线法律自动问答方法，其特征在于：

基于所述FastText文本分类算法，提取所述第一特征信息的字粒度和词粒度，构建2-gram特征用于所述用户意图识别模型的基本输入。

4.根据权利要求3所述一种基于语义匹配的在线法律自动问答方法，其特征在于：

在构建特征数据集的过程中，还包括，

采集所述法律咨询数据的第四特征信息，根据所述第四特征信息的句子分隔符对所述第四特征信息进行分句，并利用贪心策略从分割后的子句中获取与所述第一特征信息相似度最高的第一子句、第二子句，其中，所述第四特征信息用于表示所述法律问题的起因、经过、结果的描述；

将所述第一子句和所述第二子句进行拼接，获得第三子句以及所述第三子句对应的第二标签；

通过将所述第二标签的第一相似度值设置为1，基于所述第三子句,构建第一数据集；

根据分割后的所述子句与所述第一特征信息的相似度，进行归一化处理，获取第二相似度值，对所述第二相似度值进行相加处理，获取相加结果为1的所述第二相似度值作为第二数据集；

根据所述第一数据集和所述第二数据集，构建所述特征数据集。

5.根据权利要求4所述一种基于语义匹配的在线法律自动问答方法，其特征在于：

在构建用户意图识别模型的过程中，通过字向量编码、位置编码和句子分段编码的方法，对所述第一数据集和所述第二数据集进行初始化；

在模型输出部分，将所述[CLS]标识对应输出位置的向量编码作为所述向量编码所在句子的语义编码，用于判断所述句子是否被抽取。

6.根据权利要求5所述一种基于语义匹配的在线法律自动问答方法，其特征在于：

在对所述第一数据集和所述第二数据集进行初始化的过程中，所述字向量编码采用Word2vec静态词向量初始化，所述位置编码采用随机初始化，所述句子分段编码按句子奇偶顺序分别用0和1进行初始化。

7.根据权利要求5所述一种基于语义匹配的在线法律自动问答方法，其特征在于：

在获取所述第三特征信息对应的所述法律咨询数据的过程中，通过faiss向量检索工具，基于所述语义编码，获取所述法律咨询数据。

8.一种基于语义匹配的在线法律自动问答***，其特征在于，包括：

数据处理模块，通过采集所述法律咨询数据的第一特征信息、第二特征信息，构建特征数据集，其中，所述第一特征信息用于表示提问者对法律问题的简要描述，所述第二特征信息用于表示所述法律问题所属的法律性质；

数据特征提取模块，用于基于所述特征数据集，依据FastText文本分类算法和BertSum语义优化算法，构建用户意图识别模型，所述用户意图识别模型用于通过采集用户提出的法律咨询问题的第三特征信息，获取所述第三特征信息对应的所述法律咨询数据。

9.根据权利要求8所述一种基于语义匹配的在线法律自动问答***，其特征在于：

所述在线法律自动问答***，还包括，

输入模块，用于所述用户输入所述法律问题，其中，所述输入模块还用于根据所述法律问题获取若干个所述特征信息，通过所述用户进行特征选择，获得所述法律咨询数据；

显示模块，用于显示基于所述法律问题对应的所述法律咨询数据；

数据库模块，用于存储所述法律咨询数据以及所述法律咨询数据对应的所述第一特征信息、所述第二特征信息；

数据库逻辑控制模块，用于通过逻辑算法控制所述数据库模块，与其他模块之间进行数据交互，实现所述在线法律自动问答***的***功能。

10.根据权利要求9所述一种基于语义匹配的在线法律自动问答***，其特征在于：

所述在线法律自动问答***还包括应用于所述在线法律自动问答***的计算机***程序，用于实现权利要求1-7任一一项权利要求所述的在线法律自动问答方法。