CN112328839B

CN112328839B - 一种基于企业进销关系图谱的企业风险识别方法与***

Info

Publication number: CN112328839B
Application number: CN202011224147.0A
Authority: CN
Inventors: 王泽皓; 刘雅婷; 马谊骏; 闫凯; 林文辉; ***
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2024-02-27
Anticipated expiration: 2040-11-05
Also published as: CN112328839A

Abstract

本发明公开一种基于企业进销关系图谱的企业风险识别方法与***，包括数据集构建；构建关系图谱，将数据集中的每个企业与进销项货物作为节点加入到图数据库中，将每个企业和进销项货物的对应关系作为边加入到图数据库中；根据已经构成的关系图谱，通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算；根据相似度计算结果，筛选进销项相似企业并通过企业行业属性，识别企业风险。本发明通过计算企业进销项相似度，从而对进销项相似企业的行业属性进行对比来进行企业的风险识别，从而达到税务监管部门能够对企业进行更有效的管理和分析风险企业的目的。

Description

一种基于企业进销关系图谱的企业风险识别方法与***

技术领域

本发明属于涉及一种基于企业进销关系图谱的企业风险识别方法与***。

背景技术

随着经济的发展，税务领域的作用越来越重要，对于税务领域的监管部门，需要时刻关注行业变化和企业发展的动态，对进销项相似的企业进行统一分析和管理，所以如何找到进销相似的企业成为一个很有价值的问题。

现在的查找进销相似企业的方法还仅仅局限于网络搜索，通过对比同行业的企业间的主营商品和主销商品的文字描述来自行判断其相似程度，这种方法不但数据源不准确，文字描述也很难精准的概括企业的进销情况，使得税务监管部门对企业的管理难度增加。

发明内容

本发明的目的是提供一种基于企业进销关系图谱的企业风险识别方法与***，至少解决现有查找进销项相似企业的方法所获取的数据源不准确以及文字描述难以精准的概括企业的进销情况的技术问题。

为了实现上述目的，一方面，本发明提供一种基于企业进销关系图谱的企业风险识别方法，包括：

数据集构建，通过企业税务数据，获取企业信息，对获取的企业信息进行分词匹配，建立企业与匹配出来的进销项货物的对应关系；

构建关系图谱，将数据集中的每个企业与进销项货物作为节点加入到图数据库中，将每个企业和进销项货物的对应关系作为边加入到图数据库中；

企业进销项相似度计算，根据已经构成的关系图谱，通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算；

根据相似度计算结果，筛选进销项相似企业并通过企业行业属性，识别企业风险。

可选地，所述数据集构建包括：

通过***数据获取企业信息，所述企业信息主要包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间；

将销方纳税人名称保存为分词字典，用于对应关系匹配；

针对获取的企业信息，利用分词算法将匹配出来的进销项货物匹配出来，并保存企业名称和进销项货物名称，从而建立企业与进销项货物的对应关系。

可选地，企业关系图谱构建采用分布式图数据库Janusgraph。

可选地，企业进销项货物相似度计算，包括：

企业进项相似度和企业销项相似度，其中，所述进项相似度的计算公式为：

其中，N为A和B两个企业之间共有的进项货物，ipa_i定义为第i个共有的进项货物在A企业中的金额占比，ipb_i定位为第i个共有的进项货物在B企业中的金额占比，similar_in定义为进项相似度；

所述销项相似度的计算公式为：

其中，M为A和B两个企业之间共有的销项货物，opa_i定义为第i个共有的销项货物在A企业中的金额占比，opb_i定位为第i个共有的销项货物在B企业中的金额占比，similar_out定义为销项相似度；

所述进销项相似度的计算公式为：

similar＝(similar_in+similar_out)/2

其中，similar定义为进销项相似度。

可选地，所述筛选进销项相似企业并通过企业行业属性，识别企业风险，包括：

筛选出和目标企业进销项相似度大于设定量的企业，作为目标企业的进项、销项和进销项的相似企业，对比进销项相似企业的行业属性，识别企业风险。

可选地，所述在每个企业和进销项货物的对应关系作为边加入到图数据库，包括，在边的属性中加入交易时间和交易金额等信息。

可选地，企业进销相似度计算，对应关系的查询，包括：

通过使用gremlin图查询语言，进行企业进销项对应关系的查询。

另一方面，本发明还提供一种基于企业进销关系图谱的企业风险识别***，包括：

数据集构建模块，通过企业税务数据，获取企业信息，对获取的企业信息进行分词匹配，建立企业与匹配出来的进销项货物的对应关系；

构建关系图谱模块，将数据集中的每个企业与进销项货物作为节点加入到图数据库中，将每个企业和进销项货物的对应关系作为边加入到图数据库中；

进销项相似度计算模块，根据已经构成的关系图谱，通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算；

风险识别模块，根据相似度计算结果，筛选进销项相似企业并通过企业行业属性，识别企业风险。

可选地，所述企业进销项货物相似度计算模块，包括：

其中，N为A和B两个企业之间共有的进项货物，ipa_i定义为第i个共有的进项货物在A企业中的金额占比，ipb_i定位为第i个共有的进项货物在 B企业中的金额占比，similar_in定义为进项相似度；

所述销项相似度的计算公式为：

所述进销项相似度的计算公式为：

similar＝(similar_in+similar_out)/2

其中，similar定义为进销项相似度。

进一步的，通过使用gremlin图查询语言，进行企业进销项对应关系的查询。

本发明的有益效果为：

本发明针对于税务领域，通过计算企业进销项相似度，从而对进销项相似企业的行业属性进行对比来进行企业的风险识别，从而达到税务监管部门对企业更有效的管理和分析风险企业的目的。

进一步的，采用分布式图数据库Janusgraph为基础构建涵盖海量数据的企业关系图谱，并通过Gremlin查询语言实现图计算，弥补传统数据库和单机版Neo4j图数据库在图存储、图挖掘方面的缺陷，并解决了数据量大和开发成本高等问题。

进一步的，计算企业进销项相似度时，通过综合交易金额信息作为关键参数来优化相似度的计算公式。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。

图1示出了本发明一种基于企业进销关系图谱的企业风险识别方法的流程图；

图2示出了本发明实施例一货物在企业A所有货物中的金额占比的示意图。

具体实施方式

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

一方面，本发明提供一种基于企业进销关系图谱的企业风险识别方法，包括：

数据集构建，通过企业税务数据，获取企业信息，对获取的企业信息进行分词匹配，建立企业与匹配出来的进销项货物的对应关系。

具体的，通过***数据获取企业信息，所述企业信息主要包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间；

将销方纳税人名称保存为分词字典，用于对应关系匹配；例如获取的企业名称为A公司和B公司，将A公司和B公司保存在字典文档中，另外，企业简称可以通过人工筛选与企业全称对应起来，提高简称匹配能力。

针对获取的企业信息，利用分词算法将匹配出来的进销项货物匹配出来，并保存企业名称和进销项货物名称，从而建立企业与进销项货物的对应关系；例如，A公司的匹配信息中包含“货物1、货物2和货物3”及其他一些信息，通过分词算法，使用企业名称字典，可以将货物1、货物2和货物3匹配出来，那么就可以建立A公司和货物1、货物2和货物3的对应关系，需要说明的是分词算法为本技术领域公知的常规算法，此处不再进行赘述。

具体的，企业关系图谱构建采用分布式图数据库Janusgraph。

需要说明的是，企业关系图谱的数据结构为有向图，采用的数据集主要包括企业的***数据上信息，因此可以转换为有向图结构，并导入到 Janusgraph图数据库中，其中包括构建节点和构建边。

构建节点包括：

将数据集中的每个企业作为节点加入到图数据库中，标签为nsr，数据集中包含企业名称、企业税号和唯一标识id号，将数据集中的每种进销项货物作为节点加入到图数据库中，标签为commodity。

构建边包括：

将每个企业和其进项、销项货物的对应关系作为边加入到图数据库中，进项货物的边标签为input，销项货物的边标签为output，在边的属性中加入交易时间和交易金额等信息，用于查询时方便对时间节点的筛选和货物金额占比的计算。例如，计算某类货物在企业所有货物中的金额占比时，当企业A的销项货物有3种，包括货物1(金额a)、货物2(金额b)、货物3(金额c)，则货物3的金额占比为c/(a+b+c)。

企业进销项相似度计算，根据已经构成的关系图谱，通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算。

具体的，对应关系查询具体包括：

企业节点查询：

通过“nsr”标签对目标企业进行查询，使用gremlin查询语言，得到节点信息。例如：查询企业名称为“航天信息”的企业节点，则可以使用如下语句：

g.V().hasLabel(‘nsr’).has(‘NSRMC’,‘航天信息’).toList()；

进销项相似的节点与边查询：

通过企业节点查询得到企业信息后，通过‘id’迅速找到单层级内的所有进销项相似的节点与边，以“航天信息”为例，使用如下语句：

g.V(‘id’).outE().otherV().inE().otherV().outE().simplePath().toList()。

具体的，企业进销项货物相似度计算，包括：

其中，N为A和B两个企业之间共有的进项货物，ipa_i定义为第i个共有的进项货物在A企业中的金额占比，ipb_i定位为第i个共有的进项货物在 B企业中的金额占比，similar_in定义为进项相似度。

所述销项相似度的计算公式为：

其中，M为A和B两个企业之间共有的销项货物，opa_i定义为第i个共有的销项货物在A企业中的金额占比，opb_i定位为第i个共有的销项货物在B企业中的金额占比，similar_out定义为销项相似度。

所述进销项相似度的计算公式为：

similar＝(similar_in+similar_out)/2

其中，similar定义为进销项相似度。

具体的，筛选出和目标企业进销项相似度大于设定量的企业，作为目标企业的进项、销项和进销项的相似企业，选出相似企业之后，对比进销项相似企业的行业属性，如果进销项商品相似的两个企业，所属行业存在明显不同，则判断其存在交差信息异常风险。

数据集构建模块，获取企业信息，对获取的企业信息进行分词匹配，建立企业与匹配出来的进销项货物的对应关系；

本发明针对于税务领域，通过计算企业进销项相似度，从而对进销项相似企业的行业属性进行对比来进行企业的风险识别，从而达到辅助税务监管部门更有效的管理和分析风险企业的目的。

具体的，所述企业进销项货物相似度计算模块，包括：

所述销项相似度的计算公式为：

所述进销项相似度的计算公式为：

similar＝(similar_in+similar_out)/2

其中，similar定义为进销项相似度。

具体的，所述企业进销相似度计算，对应关系的查询，包括：

实施例1

参考图1，本发明提供一种基于企业进销关系图谱的企业风险识别方法，包括：

S1、获取企业税务数据，构造数据集，通过企业税务数据，获取企业信息，对获取的企业信息进行分词匹配，建立企业与匹配出来的进销项货物的对应关系。

具体的，通过***上的税务数据获取企业信息，所述企业信息主要包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间，如表a所示；

表a

针对获取的企业信息，利用分词算法将匹配出来的进销项货物匹配出来，并保存企业名称和进销项货物名称，从而建立企业与进销项货物的对应关系；例如，A公司的匹配信息中包含“货物1、货物2和货物3”及其他一些信息，通过分词算法，使用企业名称字典，可以将货物1、货物2和货物3匹配出来，那么就可以建立A公司和货物1、货物2和货物3的对应关系。

S2、通过图数据库Janusgraph构建关系图谱，将数据集中的每个企业与进销项货物作为节点加入到分布式图数据库Janusgraph，将每个企业和进销项货物的对应关系作为边加入到分布式图数据库Janusgraph中。

构建节点包括：

构建边包括：

将每个企业和其进项、销项货物的对应关系作为边加入到图数据库中，进项货物的边标签为input，销项货物的边标签为output，在边的属性中加入交易时间和交易金额等信息，用于查询时方便对时间节点的筛选和货物金额占比的计算。例如，计算某类货物在企业A所有货物中的金额占比时，企业A的销项货物有3种，包括货物1(金额a)、货物2(金额b)、货物 3(金额c)，则货物3的金额占比为c/(a+b+c)，如图2所示。

S3、使用gremlin查询语言进行对应关系查询

具体包括：

企业节点查询：

g.V().hasLabel(‘nsr’).has(‘NSRMC’,‘航天信息’).toList()。

进销项相似的节点与边查询：

通过企业节点查询得到企业信息后，通过‘id’迅速找到单层级内的所有进销项相似的节点与边，以“航天信息”为例，使用如下语句： g.V(‘id’).outE().otherV().inE().otherV().outE().simplePath().toList()。

S4、企业进销项相似度计算，根据已经构成的关系图谱，通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算。

具体的，企业进销项货物相似度计算，包括：

企业进项相似度和企业销项相似度，其中，进项相似度的计算具体过程为：

企业A和企业B的进项货物分别为A：和B： {ib₁,ib₂,…,ib_x}，其金额占比分别为A：{ipa₁,ipa₂,…,ipa_m}和B： {ipb₁,ipb₂,…,ipb_x}，企业A和企业B有N个相同进项货物(N≥0；N≤ m；N≤x)。

进项相似度计算公式为：

销项相似度的计算具体过程为：

企业A和企业B的销项货物分别为A：{oa₁,oa₂,…,oa_n}和B： {ob₁,ob₂,…,ob_y}，其金额占比分别为A{opa₁,opa₂,…,opa_n}和 B{opb₁,opb₂,…,opb_y}，企业A和企业B有M个相同进项货物(N≥0；N≤ m；N≤x)。

销项相似度计算公式为：

进销项相似度的计算公式为：

similar＝(similar_in+similar_out)/2

其中，similar定义为进销项相似度。

S5、筛选进销项相似企业

筛选出和目标企业进销项相似度大于设定量的企业，作为目标企业的进项、销项和进销项的相似企业。

在本实施例中，设定量为50％，采用分布式图数据库Janusgraph为基础构建涵盖海量数据的企业关系图谱，并通过Gremlin查询语言实现图计算，弥补传统数据库和单机版Neo4j图数据库在图存储、图挖掘方面的缺陷，并解决了数据量大和开发成本高等问题。

S6、通过企业行业属性，识别企业风险

对比进销项相似企业的行业属性，如果进销项商品相似的两个企业，所属行业存在明显不同，则判断其存在交差信息异常风险。

实施例2

本发明还提供一种基于企业进销关系图谱的企业风险识别***，包括：

本发明针对于税务领域，通过计算企业进销项相似度，考虑企业主营商品和辅营商品权重的问题，从而对进销项相似企业的行业属性进行对比来进行企业的风险识别，从而达到辅助税务监管部门更有效的管理和分析风险企业的目的。

具体的，所述企业进销项货物相似度计算模块，包括：

所述销项相似度的计算公式为：

所述进销项相似度的计算公式为：

similar＝(similar_in+similar_out)/2

其中，similar定义为进销项相似度。

本发明针对于税务领域，通过计算企业进销项相似度，考虑企业主营商品和辅营商品权重的问题，从而对进销项相似企业的行业属性进行对比来进行企业的风险识别，从而使得税务监管部门对企业更有效的管理和分析风险企业的目的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种基于企业进销关系图谱的企业风险识别方法，其特征在于，包括：

根据相似度计算结果，筛选进销项相似企业并通过企业行业属性，识别企业风险；

其中，所述企业进销项货物相似度计算，包括：

，

其中，N为A和B两个企业之间共有的进项货物，ipa_i定义为第i个共有的进项货物在A企业中的金额占比，ipb_i定义为第i个共有的进项货物在B企业中的金额占比，similar_in定义为进项相似度；

所述销项相似度的计算公式为：

，

其中，M为A和B两个企业之间共有的销项货物，opa_i定义为第i个共有的销项货物在A企业中的金额占比，opb_i定义为第i个共有的销项货物在B企业中的金额占比，similar_out定义为销项相似度；

所述进销项相似度的计算公式为：

，

其中，similar定义为进销项相似度。

2.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法，其特征在于，所述数据集构建包括：

通过***数据获取企业信息，所述企业信息包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间；

将销方纳税人名称保存为分词字典，用于对应关系匹配；

3.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法，其特征在于，所述企业进销关系图谱构建采用分布式图数据库Janusgraph。

4.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法，其特征在于，所述根据相似度计算结果，筛选进销项相似企业并通过企业行业属性，识别企业风险，包括：

5.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法，其特征在于，所述将每个企业和进销项货物的对应关系作为边加入到图数据库，包括，在边的属性中加入交易时间和交易金额信息。

6.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法，其特征在于，包括：所述企业进销项相似度计算，对应关系的查询，包括：

7.一种基于企业进销关系图谱的企业风险识别***，其特征在于，包括：

风险识别模块，根据相似度计算结果，筛选进销项相似企业并通过企业行业属性，识别企业风险；

其中，所述企业进销项货物相似度计算模块，包括：

，

所述销项相似度的计算公式为：

，

所述进销项相似度的计算公式为：

，

其中，similar定义为进销项相似度。

8.根据权利要求7所述的一种基于企业进销关系图谱的企业风险识别***，其特征在于，所述企业进销项相似度计算，对应关系的查询，包括：