CN115544211A

CN115544211A - 一种对外贸易涉外法律索引与行业风险评估的方法

Info

Publication number: CN115544211A
Application number: CN202211335205.6A
Authority: CN
Inventors: 车流畅; 徐祎涵; 裴兆斌; 冉令博; 韩炎津; 刘亚芳; 张菁芃; 张睿涵; 王旭; 韩雪
Original assignee: Shenyang Normal University
Current assignee: Shenyang Normal University
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2022-12-30

Abstract

本发明提供一种对外贸易涉外法律索引与行业风险评估的方法，包括以下步骤：对外贸易涉外法律索引与行业风险评估；其中，对外贸易涉外法律索引的步骤包括：采集涉外法律文档数据、预处理涉外法律文档数据、构建涉外法律文档索引相似度网络、基于引文相似度排序给出满足索引需求的相关法律文件及判例列表；行业风险评估的步骤包括：识别法律风险的影响因素、选择若干个因素作为法律风险因素，分层次建立法律风险因素集、根据建立的法律风险因素集，构造判断矩阵、根据构造的判断矩阵，确定评估权重、建立模糊综合评价矩阵，评估法律风险等级。本发明可帮助对外贸易企业快速找出法律风险的原因，并对对外贸易企业法律风险进行评估。

Description

一种对外贸易涉外法律索引与行业风险评估的方法

技术领域

本发明涉及计算机领域，用于对数据进行索引的方法和***，更具体地说，涉及一种对外贸易涉外法律索引与行业风险评估的方法。

背景技术

外贸连接国际国内两个市场，在构建新发展格局中发挥着重要作用。我国不断推进外贸体制改革创新，货物贸易实现跨越式发展，贸易结构持续优化，国际市场不断拓展，为经济社会发展做出了重要贡献。对外贸易最重要的因素就是成本和安全，因此企业在走出去的过程中要受益，离不开对国外实体法律的了解。当对外贸易企业没有从法律的角度考虑问题，不重视海外知识产权管理、组织管理和人力资源管理时，极易发生法律风险。在投资发生争议、经营阶段发生如环保、知识产权、劳务、合同管理等等问题时，如何快速查询索引所在国相关法律文件和相关判例尤为重要。尤其在涉外的英美法系中，法律问题是借助判例来进行的，从而使得法律推理和决策的过程严重依赖于文本文件中存储的信息。外贸法律服务行业目前仍于初级阶段，虽然经历了一个长期的发展过程，但形式仍以企业雇用专业的律师作为法律顾问这种传统的顾问方式为主，没有太大的变化和发展，行业发展面临着各成体系、规模割裂等是本行业发展的问题与风险。

许多在线法律数据库提供对此类法律文件的方便访问。这些数据库允许用户根据法律术语进行搜索，这些搜索选项要求使用特定于该领域的术语非常精确地陈述查询。另外，随着在线法律数据库的构建，法律信息检索已成为当今许多法律法条和判例查询流程的核心。这些在线法律数据的很大一部分由非结构化和文本数据组成。法律领域被认为是一个非常复杂的领域，查询过程在很大程度上依赖于法律专家对知识的解释。法律领域以文本和文件的形式存储了巨大的信息。法律信息可以被分类在不同的标题下，如法庭记录、判决、声明等。这些文件是有关法律解释的有用信息的宝库，对外贸易涉外法律必须涉及这些文件。由于法律文献中所包含的法律知识的复杂性，传统的文献查找度的有效性受到限制。根据各种法律文件中的说明，建立两个案件之间的相关性和相似性，其非常必要的。因此，提高对外贸易涉外法律风险管理能力，查询相关法律法条及判例及找出法律风险的影响因素，进而对对外贸易涉外法律风险进行评估是非常必要的。

发明内容

本发明提供一种对外贸易涉外法律索引与行业风险评估的方法，为了解决上述技术问题，本发明采用以下技术方案予以实现。

本发明的一种对外贸易涉外法律索引与行业风险评估的方法，包括以下步骤：对外贸易涉外法律索引S1与行业风险评估S2；其中，

对外贸易涉外法律索引S1的步骤包括：

S11，采集涉外法律文档数据；

S12，预处理涉外法律文档数据；

S13，基于预处理后涉外法律文档数据构建向量空间模型；

S14，构建涉外法律文档索引相似度网络；

S15，基于引文相似度排序给出满足索引需求的相关法律文件及判例列表；

行业法律风险评估S2的步骤包括：

S21，识别法律风险的影响因素；

S22，选择若干个因素作为法律风险因素，分层次建立法律风险因素集；

S23，根据建立的法律风险因素集，构造判断矩阵；

S24，根据构造的判断矩阵，确定评估权重；

S25，建立模糊综合评价矩阵，评估法律风险等级。

进一步的，步骤S11中的涉外法律文档数据包括查询集和相应的文档集，查询集和文档集被细分为单独的文件集。

进一步的，步骤S12中的预处理技术，包括：标记化、停止词删除、标点符号删除和词源化。

进一步的，法律风险因素包括内部影响因素和外部影响因素。

进一步的，由k专家完成调查，并使用比例标度法对各法律风险因素指标的相对重要性进行标注。

进一步的，基于评价矩阵中所有元素的最大值，评估整体的法律风险水平。

本发明的一种对外贸易涉外法律索引与行业风险评估的方法，基于引用的相似度更接近人类对法律文件相似度的专家评价，不只考虑一对一的链接作为相似性的唯一指标，还考虑从一个节点到另一个节点的路径是否存在来决定相似性，引用网络分析不仅可以有效地用于相似度指标的估计，而且可以通过引用链接来理解各种法律概念之间的相互关系，通过应用链路分析算法，可以进一步分析网络；同时解决了模糊环境下的多准则评价问题，采用的评价方法对对外贸易企业的法律风险进行识别，帮助对外贸易企业快速找出法律风险的原因，并对对外贸易企业法律风险进行评估。

附图说明

图1是本发明的一种对外贸易涉外法律索引与行业风险评估的方法流程示意图。

图2是本发明的一种对外贸易涉外法律索引目标文档向量构造示意图。

图3是本发明的一种对外贸易涉外法律索引与行业风险评估的方法风险因素图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

一种对外贸易涉外法律索引与行业风险评估的方法，包括以下步骤：对外贸易涉外法律索引S1与行业风险评估S2；其中，

对外贸易涉外法律索引S1的步骤包括：

S11，采集涉外法律文档数据：

所在国法院案件判决书以及法律文件构成数据语料库，包括查询集和相应的文档集，查询集和文档集被细分为单独的文件集。

S12，预处理涉外法律文档数据：

涉外法律文档数据集由查询集和文档集组成，将查询文件拆分以获得单个查询。尤其将查询文件划分为多个不同的查询，以便度量相似性。

涉外法律文档是完全非结构化的，需要进行语言预处理才能将非结构化数据转换为合适的结构化信息。预处理技术，包括：标记化、停止词删除、标点符号删除和词源化；对案件判决书进行词干化和规范化处理。然后使用评分构建术语文档矩阵。每个案件判决书的引用数据被单独记录。

依靠强大的数据库支持，为用户提供“自助式”的司法案例、政策条例、法律条文等相关信息的检索服务,能整合外贸行业相关法律信息，提高检索效率，信息收集精准全面、提高检索效率。

S13，基于预处理后涉外法律文档数据构建向量空间模型：

采用非结构化文档和查询技术进行涉外法律文档信息检索时，为给定的用户查询检索最相似的文档，将按照相似度排名的顺序检索文档。在向量空间模型中，与涉外法律文档和查询对应的文本被转换为数字向量。

向量空间模型包括三组模型类型，包括词组包模型、文档向量模型和词组向量模型。词组包用于数字统计，强调语料库中某些词组对涉外法律文档的重要性。向量空间中的文档索引是多标签学习形式，输入空间表示为涉外法律文档D的某个特征空间χ，输出空间表示为n个数字向量γ的有限集的幂集2γ。给定一个训练语料库

学习预测不可见文献数字向量的函数

词嵌入是以数字向量的形式对词进行密集表示，揭示词与词之间许多隐藏的关系。

在术语频率-反向文档频率方法中，在词汇表或语料库中找到的每个术语或词组都由一个不同的、正交的维度表示。在语频率-反向文档频率方法中，测量文本中单个术语的频率，并将其乘上整个语料库中该术语的日志反向文档频率。术语频率-反向文档频率方法难以进行修改，如添加具有多种维度的其他新文档。为了解决这些问题，提出改进的语频率-反向文档频率方法，加入指标，并根据语料库时间轴上词汇使用的持续时间进行调整。

术语频率tf(t,d)指定为某个文档d中出现的术语t的次数，是用词汇表中出现的术语在涉外法律文档中存在的次数来衡量的，是一个计数函数。

其中fr(x,t)定义为:

由于涉外法律文档的长度是不同的，为了规范化，使用术语频率除以涉外法律文档的长度，作为该涉外法律文档中术语的总数：

TF(t，d)＝(Ct)/(D1)

其中，Ct是术语频率，Dl是涉外法律文档长度。

涉外法律文档D集合中的一个词组给出多少信息，用反向文档频率IDF(t,D) 来测量，来表明该词在涉外法律文档语料库中是偶尔出现的还是常见的。从数学上角度，由包含该词组的涉外法律文档的对数比例反比计算得出。

IDF(t，D)＝log_e(Cd/Cdt)

其中，Cd是涉外法律文档计数，Cdt是包含t的涉外法律文档计数。

其中，|{d：t∈d}|是包含t的涉外法律文档的数量，加1是为避免除零误差。

因此，由公式可得：

tf-idf(t)＝tf(t，d)×idf(t，d)

涉外法律文档用一组词来表示，构成词-文档矩阵。对涉外法律文档的预处理还包括词干和词干化，形成术语，通过测量每个术语的出现次数来对每个涉外法律文档进行建模。词组包忽略文本的顺序和语法来表示文本。

词-文档矩阵中，每一行表示一个术语，而每列表示一个涉外法律文档。在矩阵中，w_ij这个值表示i项在涉外法律文档j中出现的次数。如W_3,11＝29表示用 3表示的词组在该集合的第11个涉外法律文档中出现的次数为29次。如果输入是包含有w个词组的n个涉外法律文档的集合，词组包表示为n×w矩阵。

词组向量模型是一组用于生成词组嵌入的相关模型，利用神经网络来重建词组的语言上下文。词组到向量从大量的文本语料库中生成一个向量空间，具有相当大的维数，其中语料库中的每个不同术语在空间中被分配一个匹配向量。向量空间用词向量排列，使语料库中具有共同上下文的词在空间中彼此靠近。词组向量模型的主要目的是通过指定上下文来了解每个目标术语的表达式分布。每一个嵌入的维数代表词组的一个潜在特征，余弦相似度可以用来计算向量的相似操作。该模型初始化时，将丢弃频率低于20的词汇等输入词组的最低计数。

由于连续词组包算法适合于更大的数据集，使用连续词组包算法训练模型。连续词组包算法的工作方式：当给出一个上下文时，预测一个词组的概率，用单个词或一组词指定上下文。词组上下文模型预测滑动窗口中给定上下文词的目标词。滑动窗口由输入层、隐藏层和输出层组成。在词组上下文模型中，神经网络的输入是一个单热编码向量。对于一个给定的由x₁，…，x_v表示的输入上下文词组列表，只有一个词是1，其他的都是0。在该模型中，W表示输入层与隐含层之间的V×N矩阵。输入层中关联词的W矩阵向量v_w中的每一行。W的第i行用

表示。因此，给定一个上下文词组，并假设x_k＝1，和对于k′≠k，x′_k＝0；可得：

其中，w_I是输入字，用矢量表示

将矩阵W的第k行复制到h行。在模型中存在标量偏差值时，将输入层加上偏差值的加权和传递给隐藏层。

从隐层到输出层，存在一个不同的权重矩阵W′＝{w′_ij}，为N×V矩阵。N 表示词组的维度数。此外，N是神经网络的任意一个超参数，它表示隐层中的神经元数量。在词组向量模型模型中，层与层之间没有线性激活函数。输入隐藏权值为隐藏激活权值。使用隐藏的激活权值h和隐藏的输出权值

进行点积，为训练语料库中的每个词组计算一个分数u_j，公式为：

进一步，计算模型输出层的输出。输出y_j通过将输入u_j通过软极大值函数得到。

联立上述公式，得到：

上述步骤表示正向传播，然后是反向传播步骤，学***均负对数概率最小化，公式如下：

具体的，将特征向量的维数设为200。在构建词汇和训练输入数据后，对测试集文档进行习得的词向量表示。

为涉外法律文档生成向量的无监督算法是文档向量模型，该算法是为词组创建向量词组向量模型的变形例。利用涉外法律文档向量模型生成的向量查找涉外法律文档之间的相似性，该模型从一个段落中随机抽取连续的词组，并通过将上下文词组和段落id作为输入，从随机抽取的词组集合中预测一个中心词。在向量空间中对近似涉外法律文档进行区分。涉外法律文档向量模型学习的目标只是在给定词组和涉外法律文档作为上下文的情况下，最大限度地提高预测目标词组的概率。

其中，W＝[w₁，w₂，w₃，...，w_T]表示训练词序列。T是训练词组的词汇量。相应的，D＝[d₁，d₂，d₃，...，d_T]是文档的序列。w_t是对应于图2中x_i+3的目标涉外法律文档向量，即w_t：＝x_i+3，

构建连续词组包算法训练模型的目标是最小化与某些分类器相关的关于词组嵌入和分类器参数的损失函数，使得邻近的词组能够相互预测。根据图2的模型使以下平均负对数概率最小化：

连续词组包算法训练模型使目标函数最小化，使用噪声对比估计损失函数，使用逻辑回归分类器将目标词与噪声样本区分开来。从真实分布中选择一个样本，真实分布由真实类和其他一些噪声类标签组成。噪声对比评估依赖于输入词集 w_I，目的是预测输出词w^u。给定从噪声样本分布Q中选择的N个其他词组的样本，用

表示Q。

损失函数为：

为了在向量空间中对位置敏感的涉外法律文档进行分类，使用差分训练对文档(或段落)向量进行词组训练。为了为涉外法律文档生成不区分位置的数字向量，训练来自特定上下文和一般上下文的词组组。既考虑通用词(即不描述文件本质的索引词)，也考虑特定词(描述文件本质的索引词)。这个共同目标是由如下公式表示：

然后利用多线程梯度计算和临界截面权值更新确定的调优参数来生成每个涉外法律文档特征向量的概率：

使用差异训练，对从特定和一般上下文中提取的词给予不同的强调；后续利用余弦相似度等方式，对彼此非常相似的局部敏感涉外法律文档进行分类。并转换为向量空间分类方案。通过训练和添加与每个涉外法律文档特征向量相关的索引词来扩展模型，允许用户在向量空间中查看与每个涉外法律文档向量关联的索引词。

S14，构建涉外法律文档索引相似度网络：

对涉外法律文档集合与查询集合的余弦和Jaccard相似性进行测量。余弦相似度度量用于计算查询与文档向量夹角的余弦值，如下式所示：

分子是查询向量q和文档向量d的点积，分母是查询向量q和涉外法律文档向量d的欧氏长度的乘积。

Jaccard系数定义为交集的大小除以涉外法律文档和查询向量并集的大小，如如下式所示：

将涉外法律文档集构建为网络，对预处理中获得的信息用适当的节点和边表示；节点代表一个判例或一个案例，节点之间的边表示两个案例相关；边缘权值在引文网络分析中非常重要，因此对边进行权重分配，作为相关性度量。在构建涉外法律文档集网络时，相似度值被用作边缘权值。在获得的网络中，从一个节点到另一个节点的直接链接或路径的存在表明相似性。

S15，基于引文相似度排序给出满足索引需求的相关法律文件及判例列表。

行业法律风险评估S2包括：建立综合评价指标体系的法律风险评估层次模型；

S21，识别法律风险的影响因素；

S23，根据建立的法律风险因素集，构造判断矩阵；

S24，根据构造的判断矩阵，确定评估权重；

S25，建立模糊综合评价矩阵，评估法律风险等级。

依靠数据库提供数据支持与保障，通过人工智能***进行智能风险评估与风险规避建议；在填写完善资料后进入风险评估界面，***会自动分析风险，并为用户提供直观的风险出处和规避建议以供参考。

对外贸易企业在风险评估阶段首先识别法律风险的影响因素。法律风险计量没有统一的标准，可以根据不同的目的采用不同的计量方法。

在法律风险评估过程中，可采用文献和理论分析，邀请专家完成法律风险调查，选择若干个因素作为法律风险因素集。假设B＝{B1,B2}是一组对外贸易企业的法律风险评价。B1为内部影响因素，B2为外部影响因素。B1＝{C1,C2}是一组外部影响因素，其中包括国外当地行业环境C1、法律法规环境C2。B2＝{C3,C4,C5} 是一组内部影响因素，包括知识产权管理C3、人员管理C4。

其中C1＝{D1,D2,D3,D4}、C2＝{D5,D6,D7,D8}、C3＝{D9,D10,D11,D12}、 C4＝{D13,D14,D15,D16}分别包含如企业间竞争、司法环境、监督机制、人力资源管理体系、知识产权制度的建立与实施等相关因素。

根据建立的法律风险因素集，后续步骤如下：

1)构造判断矩阵：判断矩阵是基于上一级的约束条件对两个指标相对重要性的判断；判断矩阵可用于确定权重；假设判断矩阵为：Q＝(α_ij)n×n；其中，α_ij＞0，α_ij＝1/α_ji，n是同一层级的索引数。

判断矩阵可以构造为:

根据实际情况和评价的需要，由k专家完成调查，并使用比例标度法对各指标的相对重要性进行标注。

2)确定评估权重；如果由k位专家给出分数，则(α_ij)_k为第k位专家判断的 a_ij的分数。各指标得分的几何平均值可计算为:

计算几何平均值α_ij′的归一化，各指标的权重可描述为:

判断矩阵W的特征向量描述为:

W＝(w₁，w₂，...，w_n)

利用矩阵理论通过一致性检验来验证权重。λ_max为最大特征根，AW_i为AW 的第i个分量，CI为一致性指标。模糊判断矩阵的一致性检验描述为:

随机一致性在不同的尺度上是不同的，因此引入一致性比CR作为一致性评价指标:

判断矩阵的随机一致性指数RI规则如下：当CR<0.1时，判断矩阵一致性可接受。如果CR≥0.1，则需要调整判断矩阵以达到可接受的一致性。

判断矩阵的随机一致性指数RI如下：

n	1	2	3	4	5	6	7	8	9
										RI	0	0	0.58	0.9	1.12	1.24	1.32	1.41	1.45

3)建立模糊综合评价矩阵：建立一个评价集V，用来判断每个指标的风险水平，表示为:

v＝{v₁，v₂,v₃，v₄,v₅}

V₁、V₂、V₃、V₄、V₅分别为低风险、相对低风险、中等风险、相对高风险、高风险。结合专家对各指标的风险水平进行判断，并将其组成模糊隶属度矩阵R。

建立模糊综合评价矩阵U，评价矩阵描述为:

U＝W*R。

基于评价矩阵中所有元素的最大值，评估整体的法律风险水平。

本发明的一种对外贸易涉外法律索引与行业风险评估的方法，基于引用的相似度更接近人类对法律文件相似度的专家评价，不只考虑一对一的链接作为相似性的唯一指标，还考虑从一个节点到另一个节点的路径是否存在来决定相似性，引用网络分析不仅可以有效地用于相似度指标的估计，而且可以通过引用链接来理解各种法律概念之间的相互关系，通过应用链路分析算法，可以进一步分析网络；同时解决模糊环境下的多准则评价问题，采用的评价方法对对外贸易企业的法律风险进行识别，帮助对外贸易企业快速找出法律风险的原因，并对对外贸易企业法律风险进行评估。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对外贸易涉外法律索引与行业风险评估的方法，其特征在于，包括以下步骤：对外贸易涉外法律索引S1与行业风险评估S2；其中，

对外贸易涉外法律索引S1的步骤包括：

S11，采集涉外法律文档数据；

S12，预处理涉外法律文档数据；

S13，基于预处理后涉外法律文档数据构建向量空间模型；

S14，构建涉外法律文档索引相似度网络；

行业法律风险评估S2的步骤包括：

S21，识别法律风险的影响因素；

S23，根据建立的法律风险因素集，构造判断矩阵；

S24，根据构造的判断矩阵，确定评估权重；

S25，建立模糊综合评价矩阵，评估法律风险等级。

2.根据权利要求1所述的一种对外贸易涉外法律索引与行业风险评估的方法，其特征在于，步骤S11中的涉外法律文档数据包括查询集和相应的文档集，查询集和文档集被细分为单独的文件集。

3.根据权利要求1所述的一种对外贸易涉外法律索引与行业风险评估的方法，其特征在于，步骤S12中的预处理技术，包括：标记化、停止词删除、标点符号删除和词源化。

4.根据权利要求1所述的一种对外贸易涉外法律索引与行业风险评估的方法，其特征在于，法律风险因素包括内部影响因素和外部影响因素。

5.根据权利要求1所述的一种对外贸易涉外法律索引与行业风险评估的方法，其特征在于，由k专家完成调查，并使用比例标度法对各法律风险因素指标的相对重要性进行标注。

6.根据权利要求1所述的一种对外贸易涉外法律索引与行业风险评估的方法，其特征在于，基于评价矩阵中所有元素的最大值，评估整体的法律风险水平。