CN111695979A - 一种原材料与成品的关系分析方法、装置及设备 - Google Patents
一种原材料与成品的关系分析方法、装置及设备 Download PDFInfo
- Publication number
- CN111695979A CN111695979A CN202010558852.8A CN202010558852A CN111695979A CN 111695979 A CN111695979 A CN 111695979A CN 202010558852 A CN202010558852 A CN 202010558852A CN 111695979 A CN111695979 A CN 111695979A
- Authority
- CN
- China
- Prior art keywords
- target
- commodity
- industry
- enterprise
- finished product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
Abstract
本发明公开了一种原材料与成品的关系分析方法、装置、设备及存储介质,该方法包括:确定需分析的企业为目标企业,目标企业所属的行业为目标行业;依次确定目标企业及目标行业为目标单位,从目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;任意成品与生产该任意成品所需原材料之间具有对应关系;将从目标企业的***提取的各成品所需原材料的配比信息分别与从目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定目标企业的***包含信息是否存在异常。本申请可以确定出企业是否为基于其实际的生产情况来通过***进行纳税的。
Description
技术领域
本发明涉及数据分析技术领域,更具体地说,涉及一种原材料与成品的关系分析方法、装置、设备及存储介质。
背景技术
在税务领域一般都需要分析企业的纳税情况,进而识别企业作为纳税人是否出现虚开***、少缴税款等;而如何判断企业是否基于其实际情况进行纳税,则是本领域技术人员在分析企业纳税情况时亟待解决的问题。
发明内容
本发明的目的是提供一种原材料与成品的关系分析方法、装置、设备及存储介质,能够确定企业是否为基于其实际的生产情况通过***进行纳税。
为了实现上述目的,本发明提供如下技术方案:
一种原材料与成品的关系分析方法,包括:
确定需分析的企业为目标企业,所述目标企业所属的行业为目标行业;
依次确定所述目标企业及所述目标行业为目标单位,并在每次确定出所述目标单位之后,从所述目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;其中,任意成品与生产该任意成品所需原材料之间具有对应关系;
将从所述目标企业的***提取的各成品所需原材料的配比信息分别与从所述目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定所述目标企业的***包含信息是否存在异常。
优选的,所述获取提取的原材料及成品间的对应关系,包括:
构建提取的原材料与成品的关系图谱,并对所述关系图谱进行分析得到对应的原材料与成品之间的对应关系。
优选的,确定所述目标企业所属的行业为目标行业,包括:
从所述目标企业的***中提取进销项数据,将所述进销项数据输入至行业识别模型中,得到所述行业识别模型输出的行业,并确定该行业为目标行业;其中,所述行业识别模型为预先利用从各行业的***中提取的进销项数据及各行业的名称训练得到的。
优选的,从所述***中提取相应的信息之前,还包括:
从所述***中提取每个商品的商品名称,并依次确定每个所述商品为目标商品;其中,所述商品包括原材料及成品;
在每次确定出所述目标商品之后,如果核心商品名库中存在与所述目标商品的商品名称匹配的商品名称,则确定匹配的商品名称对应的商品编码为所述目标商品的商品编码,否则,将所述目标商品的商品名称输入至商品识别模型中,得到所述商品识别模型输出的商品编码,并确定该商品编码为所述目标商品的商品编码;在确定出所述目标商品的商品编码之后,利用所述目标商品的商品编码对应商品更新所述目标商品;其中,所述核心商品名库包括预先统计得到的各行业的商品名称及对应商品编码的对应关系,所述商品识别模型为预先利用各行业的商品名称及商品编码训练得到的。
优选的,确定所述目标企业所属的行业为目标行业之后,还包括:
分别计算所述目标行业内各企业销售成品的金额与购进原材料的金额的比值,以及销售成品的金额占所述目标行业内全部企业销售成品的总金额的比例,删除所述比值大于指定比值和/或所述比例未处于预设范围内的企业。
优选的,删除所述比值大于指定比值和/或所述比例未处于预设范围内的企业之后,还包括:
分别计算所述目标行业内各企业销售成品的金额占所述目标行业内全部企业销售成品的总金额的比例,删除该比例小于指定比例的企业。
优选的,所述获取提取的原材料及成品间的对应关系之后,还包括:
将获取的原材料与成品之间的对应关系,以列表或者关联网络图的方式进行展示。
一种原材料与成品的关系分析装置,包括:
第一确定模块,用于:确定需分析的企业为目标企业,所述目标企业所属的行业为目标行业;
第二确定模块,用于:依次确定所述目标企业及所述目标行业为目标单位,并在每次确定出所述目标单位之后,从所述目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;其中,任意成品与生产该任意成品所需原材料之间具有对应关系;
分析模块,用于:将从所述目标企业的***提取的各成品所需原材料的配比信息分别与从所述目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定所述目标企业的***包含信息是否存在异常。
一种原材料与成品的关系分析设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述原材料与成品的关系分析方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述原材料与成品的关系分析方法的步骤。
本发明提供了一种原材料与成品的关系分析方法、装置、设备及存储介质,该方法包括:确定需分析的企业为目标企业,所述目标企业所属的行业为目标行业;依次确定所述目标企业及所述目标行业为目标单位,并在每次确定出所述目标单位之后,从所述目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;其中,任意成品与生产该任意成品所需原材料之间具有对应关系;将从所述目标企业的***提取的各成品所需原材料的配比信息分别与从所述目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定所述目标企业的***包含信息是否存在异常。本申请公开的技术方案,基于任意行业内全部企业上报的***及该任意行业内任意企业上报的***,确定出该任意行业内全部企业生产其生产的每个成品时的原材料配比信息及该任意企业生产其生产的每个成品时的原材料配比信息,生产每个成品的配比信息可以体现出该成品的生产情况,对应的,企业生产每个成品的配比信息可以体现出该企业的生产情况,行业内全部企业生产每个成品的配比信息可以体现出该行业的生产情况,正常情况下企业实际的生产情况与行业实际的生产情况应该是相符合的,本申请中将从行业内全部企业上报的***中获取的生产各个成品的配比信息作为该行业的实际的生产情况;因此,本申请基于企业生产每个成品的配比信息与其所属行业内全部企业生产相同成品的配比信息的比对,即可获知企业上报的***中体现的生产情况是否与其所属行业的实际的生产情况相符合,也即从***上体现出的企业的生产情况是否与企业实际的生产情况相符合,进而则可以确定出企业是否为基于其实际的生产情况来通过***进行纳税的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种原材料与成品的关系分析方法的流程图;
图2为本发明实施例提供的一种原材料与成品的关系分析方法中构建原材料与成品所得到的关系图谱;
图3为本发明实施例提供的一种原材料与成品的关系分析方法中产品A及对应原材料的示意图;
图4为本发明实施例提供的一种原材料与成品的关系分析方法中电线电缆行业购进的商品与卖出的商品的关系图谱;
图5为本发明实施例提供的一种原材料与成品的关系分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种原材料与成品的关系分析方法的流程图,可以包括:
S11:确定需分析的企业为目标企业,目标企业所属的行业为目标行业。
本发明实施例提供的一种原材料与成品的关系分析方法的执行主体可以为对应的关系分析装置。目前基于相应标准可知,具有20个一级行业,即门类行业;97个二级行业,即大类行业;475个三级行业,即中类行业;以及1979个明细行业;本申请实施例中涉及的行业均可以指明细行业,从而使得行业的数据与对应企业(本申请中的企业具体可以为需要基于原材料实现成品生产的工业企业)的数据特征相近。对于任意需要分析其纳税情况的企业,均可以确定其为目标企业,进而确定目标企业所属的行业为目标行业,便于后续实现相应的分析。
S12:依次确定目标企业及目标行业为目标单位,并在每次确定出目标单位之后,从目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;其中,任意成品与生产该任意成品所需原材料之间具有对应关系。
对于目标行业及目标企业,在实现其生产的成品的配比信息确定时所需的步骤实现原理一致,区别仅在于实现目标行业生产的成品的配比信息确定时,是从目标行业内包含的全部企业的***中提取相应的信息后基于提取的相应信息实现的,而实现目标企业生产的成品的配比信息确定时,是从目标企业的***中提取相应的信息后基于提取的相应信息实现的。具体来说,在确定目标行业生产各成品所需原材料的配比信息时,先获取目标行业内全部企业的全部***,从这些***上提取其包含的原材料及成品,确定提取的原材料与成品之间的对应关系,也即每个成品及生产每个成品所需原材料之间的对应关系,对于任意一个成品,可以计算生产该成品的单个原材料的金额占生产该成品全部原材料的总的金额的比例(该成品的单个原材料的金额为全部企业购进该单个原材料的总的金额,而生成该成品全部原材料的总的金额为全部企业购进该成品的全部原材料的总的金额),也即为该成品的原材料的配比信息;在确定目标企业生产各成品所需原材料的配比信息时,先获取目标企业的全部***,从这些***上提取其包含的原材料及成品,确定提取的原材料与成品之间的对应关系,也即每个成品及生产每个成品所需原材料之间的对应关系,对于任意一个成品,可以计算生产该成品的单个原材料的金额占生产该成品全部原材料的总的金额的比例,也即为该成品的原材料的配比信息。
另外,在从***上提取其包含的原材料及成品时,具体为从***上提取其购进的商品及售出的商品,其中,购进的商品则为原材料,售出的商品则为成品。
S13:将从目标企业的***提取的各成品所需原材料的配比信息分别与从目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定目标企业的***包含信息是否存在异常。
在得到目标行业生产其生产的每个成品的配比信息及目标企业生产其生产的每个成品的配比信息之后,对于目标企业生产的每个成品中的任意一个成品,将该成品的配比信息与目标行业生产的相同成品的配比信息进行比对,从而能够基于比对结果确定目标企业的***包含信息是否存在异常;具体来说,对于任意一个成品,如果目标行业生产该成品的配比信息与目标企业生产该成品的配比信息的差值在预先设定的一定范围内,则认为两者是匹配的,因此可以确定目标企业上报的包含该成品的***中的信息符合所属行业内对应的实际情况,符合目标企业生产该成品的实际情况,也即目标企业的包含该成品的***不存在异常;否则,则认为两者不匹配,也即目标企业上报的包含该成品的***中的信息不符合行业内对应的实际情况,不符合目标企业生产该成品的实际情况,也即目标企业的包含该成品的***存在异常。比如铝为原材料,电线为成品,目标行业是1个铝生成1个电线的,但是目标企业1个铝只生成了0.5的电线,那么则认为目标企业的***中的信息少计了0.5的电线,也即目标企业上报的包含电线的***中的信息与其实际生产的情况不符,存在异常。
本申请公开的技术方案,基于任意行业内全部企业上报的***及该任意行业内任意企业上报的***,确定出该任意行业内全部企业生产其生产的每个成品时的原材料配比信息及该任意企业生产其生产的每个成品时的原材料配比信息,生产每个成品的配比信息可以体现出该成品的生产情况,对应的,企业生产每个成品的配比信息可以体现出该企业的生产情况,行业内全部企业生产每个成品的配比信息可以体现出该行业的生产情况,正常情况下企业实际的生产情况与行业实际的生产情况应该是相符合的,本申请中将从行业内全部企业上报的***中获取的生产各个成品的配比信息作为该行业的实际的生产情况;因此,本申请基于企业生产每个成品的配比信息与其所属行业内全部企业生产相同成品的配比信息的比对,即可获知企业上报的***中体现的生产情况是否与其所属行业的实际的生产情况相符合,也即从***上体现出的企业的生产情况是否与企业实际的生产情况相符合,进而则可以确定出企业是否为基于其实际的生产情况来通过***进行纳税的。
本发明实施例提供的一种原材料与成品的关系分析方法,获取提取的原材料及成品间的对应关系,可以包括:
构建提取的原材料与成品的关系图谱,并对关系图谱进行分析得到对应的原材料与成品之间的对应关系。
本申请中在实现原材料与成品之间的对应关系获取时,可以通过图算法和规则挖掘出企业的原材料与成品之间的对应关系;具体来说,图广泛存在于现实世界之中,从社交网络到金融关系,都会涉及大量的高度关联数据,这些数据构成了庞大的图,存储于图数据库中;图,形式上是节点(vertex,或者node)和边(edge)的集合,在一张图中,一个节点代表一个实体,例如某个人,某个城市,某家公司等等,边,就是关联这些节点的关系(relation),例如“我”生活在“上海”。图算法是图分析的工具之一,图算法提供了一种最有效的分析连接数据的方法,它们描述了如何处理图以发现一些定性或者定量的结论;图算法基于图论,利用节点之间的关系来推断复杂***的结构和变化,因此可以使用这些算法来发现隐藏的信息,验证业务假设,并对行为进行预测;常见的图算法如:PageRank、Louvain和标签传播算法等。基于此,本申请中为了实现原材料与成品之间的对应关系的有效快速获取,可以构建提取的原材料与成品之间的关系图谱,进而通过上述图算法及相应规则等对关系图谱进行分析,即可得到所提取的原材料与成品之间的对应关系,也即任意成品与生产该任意成品所需的原材料之间的关系。
在一种具体实现方式中,构建原材料与成品所得到的关系图谱可以如图2所示,其中,商品1至商品10表示购进的商品,也即原材料,产品A、产品B及产品C表示售出的商品,也即成品,而连线上的je代表开具的***上购进连线所连接的原材料的金额;在得到图2后,利用图算法及相应规则从关系图谱中找出哪些原材料对应哪个成品,进而得到的产品A对应的结果如图3所示,按照同样的方法可以得到其他类原材料与成品的关系。
本发明实施例提供的一种原材料与成品的关系分析方法,确定目标企业所属的行业为目标行业,可以包括:
从目标企业的***中提取进销项数据,将进销项数据输入至行业识别模型中,得到行业识别模型输出的行业,并确定该行业为目标行业;其中,行业识别模型为预先利用从各行业的***中提取的进销项数据及各行业的名称训练得到的。
需要说明的是,很多企业在登记行业时所选的行业并不是该企业实际经营的行业,因此在进行分析时需要先对企业的行业进行纠正,找出企业所经营的真实行业。具体来说,企业真实的***数据能很好的反映该企业的行业特征,所以可以利用企业的进销项数据来预测企业的真实行业,可以预先利用从各行业的***中提取的进销项数据及进销项数据所属行业的名称训练得到相应的行业识别模型,进而仅需将目标企业的***中的进销项数据输入至行业识别模型,行业识别模型输出的名称的行业即为目标企业所属的行业,从而通过这种方式,可以有效快速的实现企业的行业纠偏。另外,本申请中行业识别模型可以使用机器学习算法(如LSI(Latent Semantic Indexing、潜在语义索引)模型,LSI模型是一种简单实用的主题模型,其能够基于奇异值分解(SVD)的方法得到文本主题),进而基于该行业识别模型可以对比企业的进销项数据与各行业的进销项数据的差异,进而确定出该企业所属的行业,从而达到纠偏行业的效果。
本发明实施例提供的一种原材料与成品的关系分析方法,从***中提取相应的信息之前,还可以包括:
从***中提取每个商品的商品名称,并依次确定每个商品为目标商品;其中,商品包括原材料及成品;
在每次确定出目标商品之后,如果核心商品名库中存在与目标商品的商品名称匹配的商品名称,则确定匹配的商品名称对应的商品编码为目标商品的商品编码,否则,将目标商品的商品名称输入至商品识别模型中,得到商品识别模型输出的商品编码,并确定该商品编码为目标商品的商品编码;在确定出目标商品的商品编码之后,利用目标商品的商品编码对应商品更新目标商品;其中,核心商品名库包括预先统计得到的各行业的商品名称及对应商品编码的对应关系,商品识别模型为预先利用各行业的商品名称及商品编码训练得到的。
商品编码的全称是商品和服务税收分类与编码,指的是在增值税***升级版中,纳税人开具***时票面上的商品应与税务总局核定的税收编码进行关联,按分类编码上注明的税率和征收率开具***;这也能使税务机关统计、筛选、分析、比对数据等,最终目标是加强征收管理。根据国税总局要求,企业在开具***时,需要按照相应编码开具增值税***;按此要求,企业在开票前必须将本企业涉及的所有商品和服务明细一一映射对应到税局编码表中,商品编码类数超过4000类;由于类数较多,企业在开票时很容易将商品名称对应到错误的商品编码上。根据统计,目前商品编码开具准确率不足70%,为了利用商品编码,本申请对商品编码进行纠偏。首先通过全国***数据进行统计筛选,构造核心商品名库,这个库的商品编码准确率高于90%,然后将企业的***上的商品与该核心库的商品进行比较,相似的就赋予核心商品名库的商品编码;最后,如果核心商品名库里没有的商品,就利用全国商品名称与商品编码通过NLP模型(比如TextCNN模型)进行训练,然后利用训练好的算法模型(也即商品识别模型)对商品编码进行纠偏。其中,NLP的英文全称是NaturalLanguage Processing,即自然语言处理,是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。
其中,在将核心商品名库中各商品与***上的商品进行比较时,具体可以是从***上提取到商品的商品名称,然后将提取到的商品的商品名称与核心商品名库中的各商品名称进行比较,如果两者包含的关键字(关键字可以为预先确定的表示一类商品的字或词语,如铜、铁等)相同,则认为与提取到的商品的商品名称匹配的位于核心商品名库中的商品名称的商品编码为提取到的商品的商品编码,如果两者包含的关键字不同,则将提取的商品名称输入至商品识别模型中,得到商品识别模型输出的商品编码即为提取的商品名称的商品的商品编码;进而在通过上述方式确定出商品编码后,可以确定该商品编码对应的商品(通常可以包含同一类的商品)为提取到的商品名称对应的商品。
在分析原材料和成品时,需要对***中开具的商品名称进行统计,由于不同的企业开票习惯不同,同样的商品可能会开成不同的名称,比如“铜”,企业会开成“铜料、铜材”等,这些不规则的商品名称会影响最终的原材料与成品的结果和配比,因此本申请将这些相似的商品通过商品编码聚合成同一类商品,消除同一商品不同企业开具名称不同的影响,提高了分析所得结果的准确性。
另外,在由***中提取信息之前还可以去掉***中包含的非商品的信息,包括但不限于水费、办公费等。
本发明实施例提供的一种原材料与成品的关系分析方法,确定目标企业所属的行业为目标行业之后,还可以包括:
分别计算目标行业内各企业销售成品的金额与购进原材料的金额的比值,以及销售成品的金额占目标行业内全部企业销售成品的总金额的比例,删除比值大于指定比值和/或比例未处于预设范围内的企业。
在对行业进行分析时,很多不规范的企业会影响整个行业的情况,所以需要找出一批行业内代表性企业来代表整个行业,这些企业的某些特征更能代表整个行业的真实情况,进而使得分析的生产情况更能够反正行业正常的生产情况;具体来说,计算行业内各企业销售成品的金额占整个行业销售成品的金额的比例,记为R1;计算行业内各企业销售成品的金额与购进原材料的金额之比,即销方金额/购方金额,记为R2;设定阈值,预设范围可以为0.1%~2%之间(包含),指定比值可以为100%,从而仅保留R1在预设范围内且R2大于指定比值的企业。其中,预设范围的选择可以选择利用四分位数(也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值),将行业内各企业的R1按照从小到大或者从大到小的顺序排列,然后选取中间两部分的R1对应企业,从而去掉R1过高或过低的企业;一个企业长期销售的收入还不足以支付购入的支出,这个企业可能就存在某种问题,不能算做行业代表性企业,因此指定比值选择是100%,从而至少保证销售的收入大于购进商品的支出。
本发明实施例提供的一种原材料与成品的关系分析方法,删除比值大于指定比值和/或比例未处于预设范围内的企业之后,还可以包括:
分别计算目标行业内各企业销售成品的金额占目标行业内全部企业销售成品的总金额的比例,删除该比例小于指定比例的企业。
得到行业代表性企业,记为A,为了进一步提高代表性企业所代表生产情况的合理性,本申请可以计算A中每个企业销售的成品的金额占所有企业销售的成品的金额占比,记为R3,筛选掉R3金额占比比较小的数据(小于指定比例,指定比例可以根据实际需要进行设定,如1%)。
本发明实施例提供的一种原材料与成品的关系分析方法,获取提取的原材料及成品间的对应关系之后,还可以包括:
将获取的原材料与成品之间的对应关系,以列表或者关联网络图的方式进行展示。
在获取到原材料及成品之间的对应关系后,为了供需要时查看,可以对这种对应关系进行展示,而在对这种对应关系进行展示时可以以列表或者关联网络图的方式禁止展示。
在一种具体应用场景中,本申请实施例提供的一种原材料与成品的关系分析方法具体可以包括以下步骤:
第一步:行业纠偏
很多企业在登记行业时所选的行业并不是该企业实际经营的行业,所以在进行行业分析时需要对行业进行纠正,找出企业所经营的真实行业;企业真实的***数据能很好的反映该企业的行业特征,所以可以利用企业的进销项数据来预测企业的真实行业。在实现行业纠偏时可以使用机器学习算法,比如LSI模型,通过学习企业的进销项数据训练模型,然后通过模型对比企业进销项数据与行业进销项数据的差异,来确定该企业所属行业,从而达到纠偏行业的效果。
第二步:商品编码纠偏
根据国税总局要求,企业在开具***时,需要按照相应编码开具增值税***;按此要求,企业在开票前必须将本企业涉及的所有商品和服务明细一一映射对应到税局编码表中,商品编码类数超过4000类;由于类数较多,企业在开票时很容易将商品名称对应到错误的商品编码上。根据统计,目前商品编码开具准确率不足70%,为了利用商品编码,必须要对商品编码进行纠偏。首先通过全国***数据进行统计筛选,构造核心商品名库,这个库的商品编码准确率高于90%,然后将企业的***与该核心库的商品进行比较,相似的就赋予核心词库的商品编码。最后,如果词库里没有的商品名称,就利用全国商品名称与商品编码通过NLP模型(比如TextCNN模型)进行训练,然后利用训练好的算法模型对商品编码进行纠偏。
第三步:筛选行业代表性企业
在对行业进行分析时,很多不规范的企业会影响整个行业的情况,所以需要找出一批行业代表性企业来代表整个行业,这些企业的某些特征更能代表整个行业的真实情况,具体执行思路如下:
(1)计算企业销售金额占整个行业的比例,记为R1。
(2)计算企业销售成品的金额与购入原材料金额之比,即:销方金额/购方金额,记为R2。计算的目的是为了筛选销售的金额小于购买的金额的企业,购大于销的企业存在问题的可能性较大,需要筛选掉。
(3)设定阈值,比如R1应在0.1%~2%之间(包含)且R2应大于100%。R1的阈值选择可以选择利用四分位数,R2的阈值选择是100%,至少保证销售的收入大于购进商品的支出。一个企业长期销售的收入还不足以支付购入的支出,这个企业可能就存在某种问题,不能算做行业代表性企业。
(4)得到行业代表性企业,记为A。
第四步:挖掘原材料与成品
(1)选择A中的商品,去掉非商品,即去掉类似水费、办公费等费用。
(2)计算A中企业销售的成品金额占所有企业的金额占比,记为R3。
(3)筛选掉R3金额占比比较小的数据,比如设定R3的阈值应大于1%,筛选掉比例较小的数据。然后构建行业购进的商品与卖出的商品的关系图谱。
(4)利用规则+图算法从关系图谱中找出哪些原材料对应哪个成品,通过算法得到原材料与成品的关系。
第五步:配比计算
根据上一步的结果挖掘出原材料与成品及相应关系,计算出单个原材料的金额占某个成品所有原材料金额的占比,即为某个成品的原材料配比;计算出单个成品的金额占所有成品金额的占比,即能得到各个成品的比重。
第六步:风险识别
通过对企业原材料与成品的配比与行业原材料与成品的配比进行比较,然后能分析出该企业的生产方式是否存在异常,从而识别出企业存在的风险。
以电线电缆行业为例,挖掘出该行业的原材料与成品,具体步骤如下:
第一步:行业与商品编码纠偏
从所有行业中筛选出电线电缆行业的***数据,并对商品编码进行纠偏。
第二步:筛选行业内代表性企业
(1)计算企业销售金额占整个行业的比例,记为xfjezb。
(2)计算企业销方金额与购方金额之比,即销方金额/购方金额,记为gxfzb。
(3)计算的目的是为了筛选销售的金额小于购买的金额的企业,购大于销的企业存在问题的可能性较大,需要筛选掉。
(4)设定阈值,设置xfjezb在0.1%~2%之间(包含)且gxfzb大于100%的企业。xfjezb的阈值是通过四分位数计算得到的,gxfzb的阈值选择是大于100%,目的是保证销大于进,因为一个正常的企业应该是销售商品的金额大于购进商品金额的。
第三步:挖掘原材料与成品
(1)选择代表性企业A中的商品,去掉非商品,即去掉类似于水费、办公费等费用。
(2)计算A中企业销售的商品金额占所有企业的金额占比,记为jezb。
(3)筛选掉金额占比比较小的数据,阈值设为大于1%。然后构建行业购进的商品与卖出的商品的关系图谱,利用规则+图算法从关系图谱中找出哪些原材料对应哪个成品,可以如图4所示,电线电缆行业的原材料为铜、铝、塑料制品、半成品及辅料等,成品为电线电缆。
可见,本申请存在以下优点:
1.本发明不需要人工的干预,通过对***数据进行统计和利用智能算法的方式解决问题,能大大减少人力和物力成本。
2.本发明基于真实的交易数据,利用图方法挖掘出企业真实的原材料与成品,能有效避免人为的主观判断。
3.本发明对行业进行纠偏,能更真实的行业内的情况,分析行业中企业的原材料与成品及其之间的关系,从而识别企业的风险。
4.本发明能将企业开具的不合格的商品编码进行纠偏,得到符合国家规定的商品编码,从而达到聚合同类商品名称的目的。
本发明实施例还提供了一种原材料与成品的关系分析装置,如图5所示,可以包括:
第一确定模块11,用于:确定需分析的企业为目标企业,目标企业所属的行业为目标行业;
第二确定模块12,用于:依次确定目标企业及目标行业为目标单位,并在每次确定出目标单位之后,从目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;其中,任意成品与生产该任意成品所需原材料之间具有对应关系;
分析模块13,用于:将从目标企业的***提取的各成品所需原材料的配比信息分别与从目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定目标企业的***包含信息是否存在异常。
本发明实施例提供的一种原材料与成品的关系分析装置,第二确定模块可以包括:
获取单元,用于:构建提取的原材料与成品的关系图谱,并对关系图谱进行分析得到对应的原材料与成品之间的对应关系。
本发明实施例提供的一种原材料与成品的关系分析装置,第一确定模块可以包括:
确定单元,用于:从目标企业的***中提取进销项数据,将进销项数据输入至行业识别模型中,得到行业识别模型输出的行业,并确定该行业为目标行业;其中,行业识别模型为预先利用从各行业的***中提取的进销项数据及各行业的名称训练得到的。
本发明实施例提供的一种原材料与成品的关系分析装置,还可以包括:
编码纠偏模块,用于:从***中提取相应的信息之前,从***中提取每个商品的商品名称,并依次确定每个商品为目标商品;在每次确定出目标商品之后,如果核心商品名库中存在与目标商品的商品名称匹配的商品名称,则确定匹配的商品名称对应的商品编码为目标商品的商品编码,否则,将目标商品的商品名称输入至商品识别模型中,得到商品识别模型输出的商品编码,并确定该商品编码为目标商品的商品编码;在确定出目标商品的商品编码之后,利用目标商品的商品编码对应商品更新目标商品;其中,商品包括原材料及成品,核心商品名库包括预先统计得到的各行业的商品名称及对应商品编码的对应关系,商品识别模型为预先利用各行业的商品名称及商品编码训练得到的。
本发明实施例提供的一种原材料与成品的关系分析装置,还可以包括:
第一筛选模块,用于:确定目标企业所属的行业为目标行业之后,分别计算目标行业内各企业销售成品的金额与购进原材料的金额的比值,以及销售成品的金额占目标行业内全部企业销售成品的总金额的比例,删除比值大于指定比值和/或比例未处于预设范围内的企业
本发明实施例提供的一种原材料与成品的关系分析装置,还可以包括:
第二筛选模块,用于:分别计算目标行业内各企业销售成品的金额占目标行业内全部企业销售成品的总金额的比例,删除该比例小于指定比例的企业。
本发明实施例提供的一种原材料与成品的关系分析装置,还可以包括:
展示模块,用于:获取提取的原材料及成品间的对应关系之后,将获取的原材料与成品之间的对应关系,以列表或者关联网络图的方式进行展示。
本发明实施例还提供了一种原材料与成品的关系分析设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项原材料与成品的关系分析方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项原材料与成品的关系分析方法的步骤。
需要说明的是,本发明实施例提供的一种原材料与成品的关系分析装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种原材料与成品的关系分析方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种原材料与成品的关系分析方法,其特征在于,包括:
确定需分析的企业为目标企业,所述目标企业所属的行业为目标行业;
依次确定所述目标企业及所述目标行业为目标单位,并在每次确定出所述目标单位之后,从所述目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;其中,任意成品与生产该任意成品所需原材料之间具有对应关系;
将从所述目标企业的***提取的各成品所需原材料的配比信息分别与从所述目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定所述目标企业的***包含信息是否存在异常。
2.根据权利要求1所述的方法,其特征在于,所述获取提取的原材料及成品间的对应关系,包括:
构建提取的原材料与成品的关系图谱,并对所述关系图谱进行分析得到对应的原材料与成品之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,确定所述目标企业所属的行业为目标行业,包括:
从所述目标企业的***中提取进销项数据,将所述进销项数据输入至行业识别模型中,得到所述行业识别模型输出的行业,并确定该行业为目标行业;其中,所述行业识别模型为预先利用从各行业的***中提取的进销项数据及各行业的名称训练得到的。
4.根据权利要求3所述的方法,其特征在于,从所述***中提取相应的信息之前,还包括:
从所述***中提取每个商品的商品名称,并依次确定每个所述商品为目标商品;其中,所述商品包括原材料及成品;
在每次确定出所述目标商品之后,如果核心商品名库中存在与所述目标商品的商品名称匹配的商品名称,则确定匹配的商品名称对应的商品编码为所述目标商品的商品编码,否则,将所述目标商品的商品名称输入至商品识别模型中,得到所述商品识别模型输出的商品编码,并确定该商品编码为所述目标商品的商品编码;在确定出所述目标商品的商品编码之后,利用所述目标商品的商品编码对应商品更新所述目标商品;其中,所述核心商品名库包括预先统计得到的各行业的商品名称及对应商品编码的对应关系,所述商品识别模型为预先利用各行业的商品名称及商品编码训练得到的。
5.根据权利要求4所述的方法,其特征在于,确定所述目标企业所属的行业为目标行业之后,还包括:
分别计算所述目标行业内各企业销售成品的金额与购进原材料的金额的比值,以及销售成品的金额占所述目标行业内全部企业销售成品的总金额的比例,删除所述比值大于指定比值和/或所述比例未处于预设范围内的企业。
6.根据权利要求5所述的方法,其特征在于,删除所述比值大于指定比值和/或所述比例未处于预设范围内的企业之后,还包括:
分别计算所述目标行业内各企业销售成品的金额占所述目标行业内全部企业销售成品的总金额的比例,删除该比例小于指定比例的企业。
7.根据权利要求6所述的方法,其特征在于,所述获取提取的原材料及成品间的对应关系之后,还包括:
将获取的原材料与成品之间的对应关系,以列表或者关联网络图的方式进行展示。
8.一种原材料与成品的关系分析装置,其特征在于,包括:
第一确定模块,用于:确定需分析的企业为目标企业,所述目标企业所属的行业为目标行业;
第二确定模块,用于:依次确定所述目标企业及所述目标行业为目标单位,并在每次确定出所述目标单位之后,从所述目标单位的***中提取原材料及成品,获取提取的原材料及成品间的对应关系,基于该对应关系确定生产各成品所需原材料的配比信息;其中,任意成品与生产该任意成品所需原材料之间具有对应关系;
分析模块,用于:将从所述目标企业的***提取的各成品所需原材料的配比信息分别与从所述目标行业的***提取的相同成品所需原材料的配比信息进行比对,并基于比对所得结果确定所述目标企业的***包含信息是否存在异常。
9.一种原材料与成品的关系分析设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述原材料与成品的关系分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述原材料与成品的关系分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010558852.8A CN111695979A (zh) | 2020-06-18 | 2020-06-18 | 一种原材料与成品的关系分析方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010558852.8A CN111695979A (zh) | 2020-06-18 | 2020-06-18 | 一种原材料与成品的关系分析方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111695979A true CN111695979A (zh) | 2020-09-22 |
Family
ID=72481563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010558852.8A Pending CN111695979A (zh) | 2020-06-18 | 2020-06-18 | 一种原材料与成品的关系分析方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695979A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328839A (zh) * | 2020-11-05 | 2021-02-05 | 航天信息股份有限公司 | 一种基于企业进销关系图谱的企业风险识别方法与*** |
CN112529664A (zh) * | 2020-12-15 | 2021-03-19 | 航天信息股份有限公司 | 进销商品比对方法、装置、存储介质及电子设备 |
CN113869802A (zh) * | 2021-12-01 | 2021-12-31 | 神州数码信息***有限公司 | 一种基于进销项比对的生产企业***虚开风险评估方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003005160A2 (en) * | 2001-07-03 | 2003-01-16 | Great Northern Enterprises Llc | Cross vertical application software development system and method |
CN103377454A (zh) * | 2013-07-11 | 2013-10-30 | 西安交通大学 | 基于余弦相似度的异常报税数据检测方法 |
CN104134128A (zh) * | 2014-08-11 | 2014-11-05 | 税友软件集团股份有限公司 | 一种***的处理方法及*** |
CN104166934A (zh) * | 2014-08-29 | 2014-11-26 | 税友软件集团股份有限公司 | 一种针对行业及税种的指标模型的税收分析方法及*** |
CN104636972A (zh) * | 2013-11-06 | 2015-05-20 | 航天信息股份有限公司 | 一种通过商品构成监控企业虚抵***的方法及其*** |
CN106933814A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 税务数据异常分析方法及*** |
CN109872163A (zh) * | 2018-12-27 | 2019-06-11 | 航天信息股份有限公司 | 异常生产型企业的识别方法及装置 |
CN110009364A (zh) * | 2019-01-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种行业识别模型确定方法和装置 |
CN110287218A (zh) * | 2019-06-26 | 2019-09-27 | 浙江诺诺网络科技有限公司 | 一种税收分类编码匹配的方法、***及设备 |
CN110597995A (zh) * | 2019-09-20 | 2019-12-20 | 税友软件集团股份有限公司 | 一种商品名称分类方法、装置、设备及可读存储介质 |
CN110647845A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种***数据识别装置、相关方法及相关装置 |
CN110851587A (zh) * | 2018-07-25 | 2020-02-28 | 阿里巴巴集团控股有限公司 | 商品编码预测模型生成和确定商品编码方法、装置及设备 |
-
2020
- 2020-06-18 CN CN202010558852.8A patent/CN111695979A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003005160A2 (en) * | 2001-07-03 | 2003-01-16 | Great Northern Enterprises Llc | Cross vertical application software development system and method |
CN103377454A (zh) * | 2013-07-11 | 2013-10-30 | 西安交通大学 | 基于余弦相似度的异常报税数据检测方法 |
CN104636972A (zh) * | 2013-11-06 | 2015-05-20 | 航天信息股份有限公司 | 一种通过商品构成监控企业虚抵***的方法及其*** |
CN104134128A (zh) * | 2014-08-11 | 2014-11-05 | 税友软件集团股份有限公司 | 一种***的处理方法及*** |
CN104166934A (zh) * | 2014-08-29 | 2014-11-26 | 税友软件集团股份有限公司 | 一种针对行业及税种的指标模型的税收分析方法及*** |
CN106933814A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 税务数据异常分析方法及*** |
CN110851587A (zh) * | 2018-07-25 | 2020-02-28 | 阿里巴巴集团控股有限公司 | 商品编码预测模型生成和确定商品编码方法、装置及设备 |
CN109872163A (zh) * | 2018-12-27 | 2019-06-11 | 航天信息股份有限公司 | 异常生产型企业的识别方法及装置 |
CN110009364A (zh) * | 2019-01-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种行业识别模型确定方法和装置 |
CN110287218A (zh) * | 2019-06-26 | 2019-09-27 | 浙江诺诺网络科技有限公司 | 一种税收分类编码匹配的方法、***及设备 |
CN110597995A (zh) * | 2019-09-20 | 2019-12-20 | 税友软件集团股份有限公司 | 一种商品名称分类方法、装置、设备及可读存储介质 |
CN110647845A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种***数据识别装置、相关方法及相关装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328839A (zh) * | 2020-11-05 | 2021-02-05 | 航天信息股份有限公司 | 一种基于企业进销关系图谱的企业风险识别方法与*** |
CN112328839B (zh) * | 2020-11-05 | 2024-02-27 | 航天信息股份有限公司 | 一种基于企业进销关系图谱的企业风险识别方法与*** |
CN112529664A (zh) * | 2020-12-15 | 2021-03-19 | 航天信息股份有限公司 | 进销商品比对方法、装置、存储介质及电子设备 |
CN113869802A (zh) * | 2021-12-01 | 2021-12-31 | 神州数码信息***有限公司 | 一种基于进销项比对的生产企业***虚开风险评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107154880B (zh) | ***监控方法及装置 | |
CN103294592B (zh) | 利用用户工具交互来自动分析其服务交付中的缺陷的方法与*** | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
CN110728422A (zh) | 用于施工项目的建筑信息模型、方法、装置和结算*** | |
CN112860769B (zh) | 一种能源规划数据管理*** | |
CN112419030B (zh) | 财务舞弊风险评估的方法、***及设备 | |
CN110163683B (zh) | 价值用户关键指标确定方法、广告投放方法及装置 | |
CN105405051A (zh) | 金融事件预测方法和装置 | |
CN116151840B (zh) | 一种基于大数据的用户服务数据智能管理***及方法 | |
CN111046947B (zh) | 分类器的训练***及方法、异常样本的识别方法 | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
CN110796381A (zh) | 建模数据评价指标的处理方法、装置、终端设备及介质 | |
CN116228402A (zh) | 一种金融征信特征仓库技术支持*** | |
CN115495587A (zh) | 一种基于知识图谱的告警分析方法及装置 | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
CN107291722B (zh) | 一种描述词的分类方法及设备 | |
CN115271514A (zh) | 通讯企业的监控方法、装置、电子设备及存储介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114331355A (zh) | 一种灵活用工平台的远程多级审批方法及*** | |
JP2003280901A (ja) | 見積評価支援プログラムおよび見積評価支援システム | |
CN108242019A (zh) | 基于spark的小规模纳税人年应税销售额的监控方法及*** | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 | |
CN112488572B (zh) | 一种审计对象推荐方法、装置、设备和介质 | |
CN114547163A (zh) | 一种基于人工智能的电子商务平台构建方法及*** | |
CN113609407B (zh) | 地区一致性校验方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |