CN112328839A - 一种基于企业进销关系图谱的企业风险识别方法与*** - Google Patents

一种基于企业进销关系图谱的企业风险识别方法与*** Download PDF

Info

Publication number
CN112328839A
CN112328839A CN202011224147.0A CN202011224147A CN112328839A CN 112328839 A CN112328839 A CN 112328839A CN 202011224147 A CN202011224147 A CN 202011224147A CN 112328839 A CN112328839 A CN 112328839A
Authority
CN
China
Prior art keywords
enterprise
sale
similarity
goods
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011224147.0A
Other languages
English (en)
Other versions
CN112328839B (zh
Inventor
王泽皓
刘雅婷
马谊骏
闫凯
林文辉
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011224147.0A priority Critical patent/CN112328839B/zh
Publication of CN112328839A publication Critical patent/CN112328839A/zh
Application granted granted Critical
Publication of CN112328839B publication Critical patent/CN112328839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于企业进销关系图谱的企业风险识别方法与***,包括数据集构建;构建关系图谱,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算;根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。本发明通过计算企业进销项相似度,从而对进销项相似企业的行业属性进行对比来进行企业的风险识别,从而达到税务监管部门能够对企业进行更有效的管理和分析风险企业的目的。

Description

一种基于企业进销关系图谱的企业风险识别方法与***
技术领域
本发明属于涉及一种基于企业进销关系图谱的企业风险识别方法与***。
背景技术
随着经济的发展,税务领域的作用越来越重要,对于税务领域的监管部门,需要时刻关注行业变化和企业发展的动态,对进销项相似的企业进行统一分析和管理,所以如何找到进销相似的企业成为一个很有价值的问题。
现在的查找进销相似企业的方法还仅仅局限于网络搜索,通过对比同行业的企业间的主营商品和主销商品的文字描述来自行判断其相似程度,这种方法不但数据源不准确,文字描述也很难精准的概括企业的进销情况,使得税务监管部门对企业的管理难度增加。
发明内容
本发明的目的是提供一种基于企业进销关系图谱的企业风险识别方法与***,至少解决现有查找进销项相似企业的方法所获取的数据源不准确以及文字描述难以精准的概括企业的进销情况的技术问题。
为了实现上述目的,一方面,本发明提供一种基于企业进销关系图谱的企业风险识别方法,包括:
数据集构建,通过企业税务数据,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系;
构建关系图谱,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;
企业进销项相似度计算,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算;
根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。
可选地,所述数据集构建包括:
通过***数据获取企业信息,所述企业信息主要包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间;
将销方纳税人名称保存为分词字典,用于对应关系匹配;
针对获取的企业信息,利用分词算法将匹配出来的进销项货物匹配出来,并保存企业名称和进销项货物名称,从而建立企业与进销项货物的对应关系。
可选地,企业关系图谱构建采用分布式图数据库Janusgraph。
可选地,企业进销项货物相似度计算,包括:
企业进项相似度和企业销项相似度,其中,所述进项相似度的计算公式为:
Figure BDA0002763087110000021
其中,N为A和B两个企业之间共有的进项货物,ipai定义为第i个共有的进项货物在A企业中的金额占比,ipbi定位为第i个共有的进项货物在B企业中的金额占比,similar_in定义为进项相似度;
所述销项相似度的计算公式为:
Figure BDA0002763087110000031
其中,M为A和B两个企业之间共有的销项货物,opai定义为第i个共有的销项货物在A企业中的金额占比,opbi定位为第i个共有的销项货物在B企业中的金额占比,similar_out定义为销项相似度;
所述进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
可选地,所述筛选进销项相似企业并通过企业行业属性,识别企业风险,包括:
筛选出和目标企业进销项相似度大于设定量的企业,作为目标企业的进项、销项和进销项的相似企业,对比进销项相似企业的行业属性,识别企业风险。
可选地,所述在每个企业和进销项货物的对应关系作为边加入到图数据库,包括,在边的属性中加入交易时间和交易金额等信息。
可选地,企业进销相似度计算,对应关系的查询,包括:
通过使用gremlin图查询语言,进行企业进销项对应关系的查询。
另一方面,本发明还提供一种基于企业进销关系图谱的企业风险识别***,包括:
数据集构建模块,通过企业税务数据,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系;
构建关系图谱模块,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;
进销项相似度计算模块,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算;
风险识别模块,根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。
可选地,所述企业进销项货物相似度计算模块,包括:
企业进项相似度和企业销项相似度,其中,所述进项相似度的计算公式为:
Figure BDA0002763087110000041
其中,N为A和B两个企业之间共有的进项货物,ipai定义为第i个共有的进项货物在A企业中的金额占比,ipbi定位为第i个共有的进项货物在 B企业中的金额占比,similar_in定义为进项相似度;
所述销项相似度的计算公式为:
Figure BDA0002763087110000042
其中,M为A和B两个企业之间共有的销项货物,opai定义为第i个共有的销项货物在A企业中的金额占比,opbi定位为第i个共有的销项货物在B企业中的金额占比,similar_out定义为销项相似度;
所述进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
进一步的,通过使用gremlin图查询语言,进行企业进销项对应关系的查询。
本发明的有益效果为:
本发明针对于税务领域,通过计算企业进销项相似度,从而对进销项相似企业的行业属性进行对比来进行企业的风险识别,从而达到税务监管部门对企业更有效的管理和分析风险企业的目的。
进一步的,采用分布式图数据库Janusgraph为基础构建涵盖海量数据的企业关系图谱,并通过Gremlin查询语言实现图计算,弥补传统数据库和单机版Neo4j图数据库在图存储、图挖掘方面的缺陷,并解决了数据量大和开发成本高等问题。
进一步的,计算企业进销项相似度时,通过综合交易金额信息作为关键参数来优化相似度的计算公式。
本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。
图1示出了本发明一种基于企业进销关系图谱的企业风险识别方法的流程图;
图2示出了本发明实施例一货物在企业A所有货物中的金额占比的示意图。
具体实施方式
下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
一方面,本发明提供一种基于企业进销关系图谱的企业风险识别方法,包括:
数据集构建,通过企业税务数据,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系。
具体的,通过***数据获取企业信息,所述企业信息主要包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间;
将销方纳税人名称保存为分词字典,用于对应关系匹配;例如获取的企业名称为A公司和B公司,将A公司和B公司保存在字典文档中,另外,企业简称可以通过人工筛选与企业全称对应起来,提高简称匹配能力。
针对获取的企业信息,利用分词算法将匹配出来的进销项货物匹配出来,并保存企业名称和进销项货物名称,从而建立企业与进销项货物的对应关系;例如,A公司的匹配信息中包含“货物1、货物2和货物3”及其他一些信息,通过分词算法,使用企业名称字典,可以将货物1、货物2和货物3匹配出来,那么就可以建立A公司和货物1、货物2和货物3的对应关系,需要说明的是分词算法为本技术领域公知的常规算法,此处不再进行赘述。
构建关系图谱,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;
具体的,企业关系图谱构建采用分布式图数据库Janusgraph。
需要说明的是,企业关系图谱的数据结构为有向图,采用的数据集主要包括企业的***数据上信息,因此可以转换为有向图结构,并导入到 Janusgraph图数据库中,其中包括构建节点和构建边。
构建节点包括:
将数据集中的每个企业作为节点加入到图数据库中,标签为nsr,数据集中包含企业名称、企业税号和唯一标识id号,将数据集中的每种进销项货物作为节点加入到图数据库中,标签为commodity。
构建边包括:
将每个企业和其进项、销项货物的对应关系作为边加入到图数据库中,进项货物的边标签为input,销项货物的边标签为output,在边的属性中加入交易时间和交易金额等信息,用于查询时方便对时间节点的筛选和货物金额占比的计算。例如,计算某类货物在企业所有货物中的金额占比时,当企业A的销项货物有3种,包括货物1(金额a)、货物2(金额b)、货物3(金额c),则货物3的金额占比为c/(a+b+c)。
企业进销项相似度计算,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算。
具体的,对应关系查询具体包括:
企业节点查询:
通过“nsr”标签对目标企业进行查询,使用gremlin查询语言,得到节点信息。例如:查询企业名称为“航天信息”的企业节点,则可以使用如下语句:
g.V().hasLabel(‘nsr’).has(‘NSRMC’,‘航天信息’).toList();
进销项相似的节点与边查询:
通过企业节点查询得到企业信息后,通过‘id’迅速找到单层级内的所有进销项相似的节点与边,以“航天信息”为例,使用如下语句:
g.V(‘id’).outE().otherV().inE().otherV().outE().simplePath().toList()。
具体的,企业进销项货物相似度计算,包括:
企业进项相似度和企业销项相似度,其中,所述进项相似度的计算公式为:
Figure BDA0002763087110000081
其中,N为A和B两个企业之间共有的进项货物,ipai定义为第i个共有的进项货物在A企业中的金额占比,ipbi定位为第i个共有的进项货物在 B企业中的金额占比,similar_in定义为进项相似度。
所述销项相似度的计算公式为:
Figure BDA0002763087110000082
其中,M为A和B两个企业之间共有的销项货物,opai定义为第i个共有的销项货物在A企业中的金额占比,opbi定位为第i个共有的销项货物在B企业中的金额占比,similar_out定义为销项相似度。
所述进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。
具体的,筛选出和目标企业进销项相似度大于设定量的企业,作为目标企业的进项、销项和进销项的相似企业,选出相似企业之后,对比进销项相似企业的行业属性,如果进销项商品相似的两个企业,所属行业存在明显不同,则判断其存在交差信息异常风险。
另一方面,本发明还提供一种基于企业进销关系图谱的企业风险识别***,包括:
数据集构建模块,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系;
构建关系图谱模块,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;
进销项相似度计算模块,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算;
风险识别模块,根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。
本发明针对于税务领域,通过计算企业进销项相似度,从而对进销项相似企业的行业属性进行对比来进行企业的风险识别,从而达到辅助税务监管部门更有效的管理和分析风险企业的目的。
具体的,所述企业进销项货物相似度计算模块,包括:
企业进项相似度和企业销项相似度,其中,所述进项相似度的计算公式为:
Figure BDA0002763087110000101
其中,N为A和B两个企业之间共有的进项货物,ipai定义为第i个共有的进项货物在A企业中的金额占比,ipbi定位为第i个共有的进项货物在 B企业中的金额占比,similar_in定义为进项相似度;
所述销项相似度的计算公式为:
Figure BDA0002763087110000102
其中,M为A和B两个企业之间共有的销项货物,opai定义为第i个共有的销项货物在A企业中的金额占比,opbi定位为第i个共有的销项货物在B企业中的金额占比,similar_out定义为销项相似度;
所述进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
具体的,所述企业进销相似度计算,对应关系的查询,包括:
通过使用gremlin图查询语言,进行企业进销项对应关系的查询。
实施例1
参考图1,本发明提供一种基于企业进销关系图谱的企业风险识别方法,包括:
S1、获取企业税务数据,构造数据集,通过企业税务数据,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系。
具体的,通过***上的税务数据获取企业信息,所述企业信息主要包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间,如表a所示;
Figure BDA0002763087110000111
表a
将销方纳税人名称保存为分词字典,用于对应关系匹配;例如获取的企业名称为A公司和B公司,将A公司和B公司保存在字典文档中,另外,企业简称可以通过人工筛选与企业全称对应起来,提高简称匹配能力。
针对获取的企业信息,利用分词算法将匹配出来的进销项货物匹配出来,并保存企业名称和进销项货物名称,从而建立企业与进销项货物的对应关系;例如,A公司的匹配信息中包含“货物1、货物2和货物3”及其他一些信息,通过分词算法,使用企业名称字典,可以将货物1、货物2和货物3匹配出来,那么就可以建立A公司和货物1、货物2和货物3的对应关系。
S2、通过图数据库Janusgraph构建关系图谱,将数据集中的每个企业与进销项货物作为节点加入到分布式图数据库Janusgraph,将每个企业和进销项货物的对应关系作为边加入到分布式图数据库Janusgraph中。
需要说明的是,企业关系图谱的数据结构为有向图,采用的数据集主要包括企业的***数据上信息,因此可以转换为有向图结构,并导入到 Janusgraph图数据库中,其中包括构建节点和构建边。
构建节点包括:
将数据集中的每个企业作为节点加入到图数据库中,标签为nsr,数据集中包含企业名称、企业税号和唯一标识id号,将数据集中的每种进销项货物作为节点加入到图数据库中,标签为commodity。
构建边包括:
将每个企业和其进项、销项货物的对应关系作为边加入到图数据库中,进项货物的边标签为input,销项货物的边标签为output,在边的属性中加入交易时间和交易金额等信息,用于查询时方便对时间节点的筛选和货物金额占比的计算。例如,计算某类货物在企业A所有货物中的金额占比时,企业A的销项货物有3种,包括货物1(金额a)、货物2(金额b)、货物 3(金额c),则货物3的金额占比为c/(a+b+c),如图2所示。
S3、使用gremlin查询语言进行对应关系查询
具体包括:
企业节点查询:
通过“nsr”标签对目标企业进行查询,使用gremlin查询语言,得到节点信息。例如:查询企业名称为“航天信息”的企业节点,则可以使用如下语句:
g.V().hasLabel(‘nsr’).has(‘NSRMC’,‘航天信息’).toList()。
进销项相似的节点与边查询:
通过企业节点查询得到企业信息后,通过‘id’迅速找到单层级内的所有进销项相似的节点与边,以“航天信息”为例,使用如下语句: g.V(‘id’).outE().otherV().inE().otherV().outE().simplePath().toList()。
S4、企业进销项相似度计算,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算。
具体的,企业进销项货物相似度计算,包括:
企业进项相似度和企业销项相似度,其中,进项相似度的计算具体过程为:
企业A和企业B的进项货物分别为A:
Figure 1
和B: {ib1,ib2,…,ibx},其金额占比分别为A:{ipa1,ipa2,…,ipam}和B: {ipb1,ipb2,…,ipbx},企业A和企业B有N个相同进项货物(N≥0;N≤ m;N≤x)。
进项相似度计算公式为:
Figure BDA0002763087110000131
销项相似度的计算具体过程为:
企业A和企业B的销项货物分别为A:{oa1,oa2,…,oan}和B: {ob1,ob2,…,oby},其金额占比分别为A{opa1,opa2,…,opan}和 B{opb1,opb2,…,opby},企业A和企业B有M个相同进项货物(N≥0;N≤ m;N≤x)。
销项相似度计算公式为:
Figure BDA0002763087110000132
进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
S5、筛选进销项相似企业
筛选出和目标企业进销项相似度大于设定量的企业,作为目标企业的进项、销项和进销项的相似企业。
在本实施例中,设定量为50%,采用分布式图数据库Janusgraph为基础构建涵盖海量数据的企业关系图谱,并通过Gremlin查询语言实现图计算,弥补传统数据库和单机版Neo4j图数据库在图存储、图挖掘方面的缺陷,并解决了数据量大和开发成本高等问题。
S6、通过企业行业属性,识别企业风险
对比进销项相似企业的行业属性,如果进销项商品相似的两个企业,所属行业存在明显不同,则判断其存在交差信息异常风险。
实施例2
本发明还提供一种基于企业进销关系图谱的企业风险识别***,包括:
数据集构建模块,通过企业税务数据,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系;
构建关系图谱模块,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;
进销项相似度计算模块,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算;
风险识别模块,根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。
本发明针对于税务领域,通过计算企业进销项相似度,考虑企业主营商品和辅营商品权重的问题,从而对进销项相似企业的行业属性进行对比来进行企业的风险识别,从而达到辅助税务监管部门更有效的管理和分析风险企业的目的。
具体的,所述企业进销项货物相似度计算模块,包括:
企业进项相似度和企业销项相似度,其中,所述进项相似度的计算公式为:
Figure BDA0002763087110000151
其中,N为A和B两个企业之间共有的进项货物,ipai定义为第i个共有的进项货物在A企业中的金额占比,ipbi定位为第i个共有的进项货物在 B企业中的金额占比,similar_in定义为进项相似度;
所述销项相似度的计算公式为:
Figure BDA0002763087110000152
其中,M为A和B两个企业之间共有的销项货物,opai定义为第i个共有的销项货物在A企业中的金额占比,opbi定位为第i个共有的销项货物在B企业中的金额占比,similar_out定义为销项相似度;
所述进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
具体的,所述企业进销相似度计算,对应关系的查询,包括:
通过使用gremlin图查询语言,进行企业进销项对应关系的查询。
本发明针对于税务领域,通过计算企业进销项相似度,考虑企业主营商品和辅营商品权重的问题,从而对进销项相似企业的行业属性进行对比来进行企业的风险识别,从而使得税务监管部门对企业更有效的管理和分析风险企业的目的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims (10)

1.一种基于企业进销关系图谱的企业风险识别方法,其特征在于,包括:
数据集构建,通过企业税务数据,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系;
构建关系图谱,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;
企业进销项相似度计算,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算;
根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。
2.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法,其特征在于,所述数据集构建包括:
通过***数据获取企业信息,所述企业信息主要包括销方纳税人识别号、销方纳税人名称、供方纳税人识别号、供方纳税人名称、交易金额、进销项货物和交易时间;
将销方纳税人名称保存为分词字典,用于对应关系匹配;
针对获取的企业信息,利用分词算法将匹配出来的进销项货物匹配出来,并保存企业名称和进销项货物名称,从而建立企业与进销项货物的对应关系。
3.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法,其特征在于,所述企业关系图谱构建采用分布式图数据库Janusgraph。
4.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法,其特征在于,所述企业进销项货物相似度计算,包括:
企业进项相似度和企业销项相似度,其中,所述进项相似度的计算公式为:
Figure FDA0002763087100000021
其中,N为A和B两个企业之间共有的进项货物,ipai定义为第i个共有的进项货物在A企业中的金额占比,ipbi定位为第i个共有的进项货物在B企业中的金额占比,similar_in定义为进项相似度;
所述销项相似度的计算公式为:
Figure FDA0002763087100000022
其中,M为A和B两个企业之间共有的销项货物,opai定义为第i个共有的销项货物在A企业中的金额占比,opbi定位为第i个共有的销项货物在B企业中的金额占比,similar_out定义为销项相似度;
所述进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
5.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法,其特征在于,所述根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险,包括:
筛选出和目标企业进销项相似度大于设定量的企业,作为目标企业的进项、销项和进销项的相似企业,对比进销项相似企业的行业属性,识别企业风险。
6.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法,其特征在于,所述在每个企业和进销项货物的对应关系作为边加入到图数据库,包括,在边的属性中加入交易时间和交易金额等信息。
7.根据权利要求1所述的一种基于企业进销关系图谱的企业风险识别方法,其特征在于,包括:所述企业进销相似度计算,对应关系的查询,包括:
通过使用gremlin图查询语言,进行企业进销项对应关系的查询。
8.一种基于企业进销关系图谱的企业风险识别***,其特征在于,包括:
数据集构建模块,通过企业税务数据,获取企业信息,对获取的企业信息进行分词匹配,建立企业与匹配出来的进销项货物的对应关系;
构建关系图谱模块,将数据集中的每个企业与进销项货物作为节点加入到图数据库中,将每个企业和进销项货物的对应关系作为边加入到图数据库中;
进销项相似度计算模块,根据已经构成的关系图谱,通过对应关系查询任意两个企业之间共有的进销项货物在总的进销项货物所占的金额比例进行企业进销项货物相似度计算;
风险识别模块,根据相似度计算结果,筛选进销项相似企业并通过企业行业属性,识别企业风险。
9.根据权利要求8所述的一种基于企业进销关系图谱的企业风险识别***,其特征在于,所述企业进销项货物相似度计算模块,包括:
企业进项相似度和企业销项相似度,其中,所述进项相似度的计算公式为:
Figure FDA0002763087100000041
其中,N为A和B两个企业之间共有的进项货物,ipai定义为第i个共有的进项货物在A企业中的金额占比,ipbi定位为第i个共有的进项货物在B企业中的金额占比,similar_in定义为进项相似度;
所述销项相似度的计算公式为:
Figure FDA0002763087100000042
其中,M为A和B两个企业之间共有的销项货物,opai定义为第i个共有的销项货物在A企业中的金额占比,opbi定位为第i个共有的销项货物在B企业中的金额占比,similar_out定义为销项相似度;
所述进销项相似度的计算公式为:
similar=(similar_in+similar_out)/2
其中,similar定义为进销项相似度。
10.根据权利要求8所述的一种基于企业进销关系图谱的企业风险识别***,其特征在于,所述企业进销相似度计算,对应关系的查询,包括:
通过使用gremlin图查询语言,进行企业进销项对应关系的查询。
CN202011224147.0A 2020-11-05 2020-11-05 一种基于企业进销关系图谱的企业风险识别方法与*** Active CN112328839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011224147.0A CN112328839B (zh) 2020-11-05 2020-11-05 一种基于企业进销关系图谱的企业风险识别方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011224147.0A CN112328839B (zh) 2020-11-05 2020-11-05 一种基于企业进销关系图谱的企业风险识别方法与***

Publications (2)

Publication Number Publication Date
CN112328839A true CN112328839A (zh) 2021-02-05
CN112328839B CN112328839B (zh) 2024-02-27

Family

ID=74315843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011224147.0A Active CN112328839B (zh) 2020-11-05 2020-11-05 一种基于企业进销关系图谱的企业风险识别方法与***

Country Status (1)

Country Link
CN (1) CN112328839B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114629A1 (en) * 2008-11-06 2010-05-06 Adler Sharon C Extracting Enterprise Information Through Analysis of Provenance Data
US20120323618A1 (en) * 2011-06-17 2012-12-20 Sap Ag Case-based retrieval of integration cases using similarity measures based on a business deomain ontology
US20130268520A1 (en) * 2012-04-04 2013-10-10 Microsoft Corporation Incremental Visualization for Structured Data in an Enterprise-level Data Store
CN104636971A (zh) * 2013-11-06 2015-05-20 航天信息股份有限公司 一种增值税***一号多名的检测方法及其***
CN105183767A (zh) * 2015-07-31 2015-12-23 山东大学 一种基于企业网络的企业业务相似度计算方法与***
KR101623322B1 (ko) * 2015-12-09 2016-05-20 최승출 전자세금계산서 정보 자동 수집과 기업 내부 erp 연계 시스템 및 그 방법
EP3255586A1 (en) * 2016-06-06 2017-12-13 Fujitsu Limited Method, program, and apparatus for comparing data graphs
CN108242020A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种计算进项和销项物品列表之间差异度的方法及***
CN109615153A (zh) * 2017-09-26 2019-04-12 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN111695979A (zh) * 2020-06-18 2020-09-22 税友软件集团股份有限公司 一种原材料与成品的关系分析方法、装置及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114629A1 (en) * 2008-11-06 2010-05-06 Adler Sharon C Extracting Enterprise Information Through Analysis of Provenance Data
US20120323618A1 (en) * 2011-06-17 2012-12-20 Sap Ag Case-based retrieval of integration cases using similarity measures based on a business deomain ontology
US20130268520A1 (en) * 2012-04-04 2013-10-10 Microsoft Corporation Incremental Visualization for Structured Data in an Enterprise-level Data Store
CN104636971A (zh) * 2013-11-06 2015-05-20 航天信息股份有限公司 一种增值税***一号多名的检测方法及其***
CN105183767A (zh) * 2015-07-31 2015-12-23 山东大学 一种基于企业网络的企业业务相似度计算方法与***
KR101623322B1 (ko) * 2015-12-09 2016-05-20 최승출 전자세금계산서 정보 자동 수집과 기업 내부 erp 연계 시스템 및 그 방법
EP3255586A1 (en) * 2016-06-06 2017-12-13 Fujitsu Limited Method, program, and apparatus for comparing data graphs
CN108242020A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种计算进项和销项物品列表之间差异度的方法及***
CN109615153A (zh) * 2017-09-26 2019-04-12 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN111695979A (zh) * 2020-06-18 2020-09-22 税友软件集团股份有限公司 一种原材料与成品的关系分析方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI YONG-MING ET AL.: "Approximation capalbility of fuzzy input-output systems based om similarity measures", PROCEEDINGS OF THE 3RD WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION, pages 1790 - 1794 *
王明皓: "JCT 与FIDIC 设计建造合同条件中支付管理的比较分析", 石油化工设计, pages 30 - 34 *

Also Published As

Publication number Publication date
CN112328839B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CA3014839C (en) Fuzzy data operations
US9031895B2 (en) Matching metadata sources using rules for characterizing matches
US8180779B2 (en) System and method for using external references to validate a data object's classification / consolidation
US9652513B2 (en) Generating data pattern information
CN101681368B (zh) 聚集查询处理的方法和装置
US10095766B2 (en) Automated refinement and validation of data warehouse star schemas
US20170116305A1 (en) Input Gathering System and Method for Refining, Refining or Validating Star Schema for a Source Database
US20120102057A1 (en) Entity name matching
US9158599B2 (en) Programming framework for applications
CN114443779A (zh) 一种基于数据目录的数据资源管理方法及***
US10360239B2 (en) Automated definition of data warehouse star schemas
CN112328839A (zh) 一种基于企业进销关系图谱的企业风险识别方法与***
Niemann et al. Process model analysis using related cluster pairs
Du et al. A schema aware ETL workflow generator
AU2017201787B2 (en) Fuzzy data operations
Eder et al. Schema integration for object oriented database systems
Ariyanti et al. Analysis of Request for Quotation (RFQ) with Rejected Status Use K-Modes and Ward’s Clustering Methods. A Case Study of B2B E-Commerce Indotrading. Com
CN106204174A (zh) 对销售单中的商品进行分类的方法
CN116894108A (zh) 确定生命周期清单的方法、***、电子设备及存储介质
Buzovskyi et al. Oil Storages and Main Oil Pipelines Pumps Database Development
CN114493110A (zh) 一种信息匹配方法、终端及计算机可读存储介质
Klöpper et al. Data Modeling and Knowledge Discovery in Process Industries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant