CN112183948B - 基于进销项比对的商贸企业增值税***虚开风险评估方法 - Google Patents
基于进销项比对的商贸企业增值税***虚开风险评估方法 Download PDFInfo
- Publication number
- CN112183948B CN112183948B CN202010929732.4A CN202010929732A CN112183948B CN 112183948 B CN112183948 B CN 112183948B CN 202010929732 A CN202010929732 A CN 202010929732A CN 112183948 B CN112183948 B CN 112183948B
- Authority
- CN
- China
- Prior art keywords
- commodity
- enterprise
- codes
- sales
- invoices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012502 risk assessment Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 50
- 101150077112 amt1 gene Proteins 0.000 claims description 34
- 239000013256 coordination polymer Substances 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 101100001642 Caenorhabditis elegans amt-1 gene Proteins 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 5
- KCJRWGDYENMTQI-ICFYVMMKSA-N (2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-2-amino-3-(1h-imidazol-5-yl)propanoyl]amino]-5-(diaminomethylideneamino)pentanoyl]amino]-5-(diaminomethylideneamino)pentanoyl]amino]-3-(1h-indol-3-yl)propanoyl]amino]-3-(1h-indol-3-yl)propanoyl]am Chemical compound C([C@H](N)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1C=CC=CC=1)C(O)=O)C1=CNC=N1 KCJRWGDYENMTQI-ICFYVMMKSA-N 0.000 description 2
- AUWFXYNRJHALTA-CCMAZBEPSA-N (2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-2-amino-5-(diaminomethylideneamino)pentanoyl]amino]-5-(diaminomethylideneamino)pentanoyl]amino]-3-(1h-indol-3-yl)propanoyl]amino]-3-(1h-indol-3-yl)propanoyl]amino]-5-(diaminomethylideneamino)pentanoyl]amin Chemical compound C([C@H](NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC=1C2=CC=CC=C2NC=1)NC(=O)[C@H](CC=1C2=CC=CC=C2NC=1)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CCCNC(N)=N)N)C(O)=O)C1=CC=CC=C1 AUWFXYNRJHALTA-CCMAZBEPSA-N 0.000 description 2
- 101100482664 Arabidopsis thaliana ASA1 gene Proteins 0.000 description 2
- 101100216036 Oryza sativa subsp. japonica AMT1-1 gene Proteins 0.000 description 2
- 101100076556 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MEP1 gene Proteins 0.000 description 2
- 101100512864 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MEP2 gene Proteins 0.000 description 2
- 101150029609 amt2 gene Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000010485 coping Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于进销项比对的商贸企业增值税***虚开风险评估方法,包括以下步骤:步骤1,提取待评估地区全部增值税***数据;步骤2,计算任意两个商品编码和的相似度,形成商品编码相似度矩阵;步骤3,根据企业登记行业信息、开票信息和增值税申报数据,筛选待评估企业;步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行进销项比对,找出进销不匹配企业及对应商品编码,形成风险企业清单;步骤5,去除因某些商品企业在购进后,自行使用并没有对外销售的企业,形成最终风险清单。与现有技术相比,本发明虚开风险识别准确性高,并能够精确定位到存在风险的具体***及金额大小。
Description
技术领域
本发明涉及税务风险评估技术领域,具体涉及一种基于进销项比对的商贸企业增值税***虚开风险评估方法。
背景技术
虚开***指开具与实际经营业务情况不符的***的违法行为,纳税单位和个人为了达到偷税的目的或者购货单位为了某种需要在商品交易过程中开具***时,在商品名称、商品数量、商品单价以及金额上采取弄虚作假的手法。包括为他人虚开,为自己虚开,让他人为自己虚开,介绍他人虚开四种情况。
为应对针对纳税人存在的***虚开问题,税务机关运用数据信息比对分析的方法,对***开具的真实性、准确性进行评估核实,对纳税人***虚开风险做出定性、定量判断,进而采取进一步征管措施。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于进销项比对的商贸企业增值税***虚开风险评估方法,从商品简称、商品编码、货物信息三个层次进行综合分析比对,提升虚开风险识别准确性。
本发明采用如下的技术方案。
一种基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于,包括以下步骤:
步骤1,提取待评估地区设定时间区间内全部增值税***数据,以SP表示全部***的商品编码向量,SP=(sp1,sp2,…,spj,…,spβ),spj表示SP中第j个商品编码,β表示SP包括的商品编码数量,j=1,2,…,β;
步骤2,计算任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
步骤3,根据企业登记行业信息、开票信息和增值税申报数据,筛选待评估企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ;
步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行进销项比对,找出进销不匹配企业及对应商品编码,形成风险企业清单;
步骤5,去除因某些商品企业在购进后,由于自行使用并没有对外销售,因此没有相应的销项***的企业,形成最终风险清单。
优选地,步骤1中所述设定时间区间为两年。
优选地,步骤2具体包括:
步骤2.1,提取全部***的货物名称,为每个商品编码spj生成一个词频向量CPj,j=1,2,…,β;
步骤2.2,使用每个商品编码spj的词频向量CPj,提取关键词,形成每个商品编码spj的关键词词频向量CPj″;
步骤2.3,使用CP″a和CP″b计算出任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
优选地,步骤2.1中,将步骤1提取的全部增值税***的货物名称合并后进行分词,形成全部***分词向量,提取商品编码为spj的全部***,对这些***的货物名称合并后进行分词,形成与全部***分词向量相同长度的分词出现次数向量,分词出现次数向量的元素进行归一化,形成商品编码为spj的词频向量CPj;
步骤2.2中,以CPj中分量的cpji作为元素,形成β×α矩阵M,对矩阵M的每个元素cpji进行TFIDF变换,以变换结果cp′ji作为元素,形成β×α矩阵M′,若cp′ji在矩阵M′的第j行中数值排名不在前γ名内将其置零,以变换结果cp″ji作为元素,形成β×α矩阵M″;
步骤2.3中,以如下公式计算simab,
式中:
·表示两个向量的数量积,
‖‖表示向量的长度。
优选地,步骤.2.1中,以如下公式计算获得wi在商品编码为spj的全部***货物名称中的词频cpji,
tji表示FCall中第i个词语wi在商品编码为spj的全部***货物名称中出现的次数,若未出现过,则计为0,
形成商品编码为spj的词频向量CPj=(cpj1,cpj2,…,cpji,…,cpjα)。
优选地,步骤3具体包括:
步骤3.1,根据企业登记行业信息,筛选出属于批发行业的企业;
步骤3.2,根据企业开票信息,去除服务类***占比高于阈值的企业;
步骤3.3,根据企业增值税申报数据,筛选出开具***销售额占总销售额比例大于筛选阈值的企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ。
优选地,步骤4具体包括:
利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行有进无销对比和有销无进对比,综合有销无进与有进无销两个结果,得出风险企业清单,以及存在风险的商品编码。
优选地,有进无销对比包括:以SPk表示企业ck进项***涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,spkθ),spkm表示SPk中第m个商品编码,θ1表示涉及商品编码的数量,以amt1km表示商品编码为spkm的全部进项***的汇总金额,
步骤4.1.1,商品简称对比,以ti1km表示商品编码spkm的商品简称,在SPk中提取所有商品简称为ti1km的商品编码,将其对应的进项***金额汇总,以amt1′km表示;在企业ck的销项***中,提取全部商品简称为ti1km的商品编码,其对应的销项***金额汇总,以amt1″km表示,若amt1″km≥amt1′km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.2;
步骤4.1.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业销项***存在与spkm相似度大于给定阈值的销项商品编码,提取全部这些商品编码对应的销项***,以amt1″′km表示销项***金额汇总,若amt1″′km≥amt1km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.3;
步骤4.1.3,货物信息对比,将企业ck全部销项***的货物名称与商品编码为spkm的进项***进行对比,查找货物信息相一致的销项***,货物信息相一致指,销项***货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的销项***,并且提取销项***对应的商品编码,以amt1″″km表示销项***金额汇总,若amt1″′km+amt1″″km≥amt1km,表示企业该商品编码进销相符,否则表示企业ck的该商品编码存在“有进无销”风险。
优选地,步骤4.1.3中问题商品编码金额大小amt1km和进销金额差额amt1km-amt1″″km-amt1″″km,表示实际风险大小。
优选地,有销无进对比包括:以SP′k表示企业ck销项***涉及的商品编码向量,SP′k=(sp′k1,sp′k2,…,sp′kn,…,sp′kθ2),sp′kn表示SP′k中第n个商品编码,θ2表示涉及商品编码的数量,
步骤4.2.1,商品简称对比,以ti2kn表示商品编码sp′kn的商品简称,在SP′k中提取所有商品简称为ti2km的商品编码,在企业ck的进项***中,提取全部商品简称为ti2km的商品编码,若存在进项***,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.2,
步骤4.2.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业进项***存在与sp′kn相似度大于给定阈值的销项商品编码,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.3,
步骤4.2.3,货物信息对比,将企业ck全部进项***的货物名称与商品编码为sp′kn的销项***进行对比,查找货物信息相一致的进项***,货物信息相一致指,销项***货物与sp′kn全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的进项***,表示企业该商品编码进销相符,否则表示企业ck的该商品编码,存在“有销无进”风险,风险大小于取决于问题商品编码金额大小。
本发明的有益效果在于,与现有技术相比,本发明提出的一种于***进销项比对的商贸企业增值税***虚开风险评估方法,是针对纳人***虚开问题的数据信息比对分析方法。主要特点为,根据商贸企业的行业特点进行设计,从商品简称、商品编码、货物信息三个层次进行综合分析比对,虚开风险识别准确性高,并且能够精确定位到存在风险的具体***及金额大小,方便税务机关对风险进行后续风险应对。
附图说明
图1为本发明提供了基于进销项比对的商贸企业增值税***虚开风险评估方法的流程图;
图2为本发明计算待评估地区所有商品编码之间相似度矩阵的流程图;
图3为本发明“有进无销”和“有销无进”的进销项对比示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明提供了一种基于进销项比对的商贸企业增值税***虚开风险评估方法,包括以下步骤:
步骤1,提取待评估地区全部增值税***数据。以SP表示全部***的商品编码向量,SP=(sp1,sp2,…,spj,…,spβ),spj表示SP中第j个商品编码,β表示SP包括的商品编码数量。
待评估地区全行业企业的全部增值税***,时间区间为2年,取从评估时间点起倒推2年的数据,包含增值税专用***和增值税普通***。生成的数据表中,包含***代码、***号码、销方企业id、购方企业id、货物名称、商品编码、开票日期、***金额、***税额,9个主要字段。
步骤2,计算待评估地区所有商品编码之间相似度矩阵。如图2所示,具体包括:
步骤2.1,提取全部***的货物名称,为每个商品编码生成一个词频向量。
将步骤1提取的全部增值税***的货物名称合并后进行分词,形成全部增值税***分词向量FCall=(w1,w2,…,wi,…,wα),wi表示FCall中第i个词语,α表示FCall包括的词语数量。
提取商品编码为spj的全部***,对这些***的货物名称合并后进行分词,形成与FCall相同长度的分词出现次数向量Tj=(tj1,tj2,…,tji,…,tjα),tji表示FCall中第i个词语wi在商品编码为spj的全部***货物名称中出现的次数,若未出现过,则计为0,对分词出现次数向量Tj的元素进行归一化处理,形成商品编码为spj的词频向量CPj=(cpj1,cpj2,…,cpji,…,cpjα),cpji表示wi在商品编码为spj的全部***货物名称中的词频,一个优选但非限制性的实施方式为,以如下公式计算获得cpji,
步骤2.2,使用步骤2.1中每个商品编码的词频向量,提取关键词,形成每个商品编码的关键词词频向量。
以cpji作为元素,形成β×α矩阵M,
以如下公式对矩阵M的每个元素cpji进行TFIDF变换,
以cp′ji作为元素,形成β×α矩阵M′,
以如下公式对矩阵M′进行处理,
一个优选但非限制性的实施方式为,γ=500。
以cp″ji作为元素,形成β×α矩阵M″,
矩阵M″的第j行CP″j表示商品编码为spj的全部***的关键词向量,其中非零的分量对应的词语为其关键词,相应的数值为其词频。
步骤2.3,对全部商品编码,使用CP″a和CP″b计算出任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵其中以如下公式计算simab,
式中:
·表示两个向量的数量积。
‖‖表示向量的长度。
步骤3,待评估企业筛选。
对待评估地区全部企业按照如下条件进行筛选,形成待评估企业清单:
步骤3.1,根据企业登记行业信息,筛选出属于批发行业(商贸)的企业。
步骤3.2,根据企业开票信息,去除服务类***占比高于设定比例的企业,一个优选但非限制性的实施方式为,该比例可以设定为40%。
步骤3.3,根据企业增值税申报数据,筛选出开具***销售额占总销售额比例大于筛选阈值的企业。一个优选但非限制性的筛选阈值为80%。形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ。
步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2中结果,从商品简称、商品编码、货物名称,三个角度进行进销项比对,找出进销不匹配企业及对应商品编码,形成风险企业清单,如图3所示。企业增值税***涉税风险包括虚抵虚开两种类型,对应到进销项比对有“有进无销”和“有销无进”两种比对方法。具体包括:
步骤4.1,“有进无销”对比,以ε1k表示企业ck的进项***数量,以SPk表示涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,spkθ1),spkm表示SPk中第m个商品编码,θ1表示涉及商品编码的数量,以AMT1k表示进项***金额向量,AMT1k=(amt1k1,amt1k2,…,amt1km,…,amt1kθ1),amt1km表示商品编码为spkm的全部进项***的汇总金额。
步骤4.1.1,商品简称对比,以ti1km表示商品编码为spkm的商品的商品简称,其中,商品简称是税局发布的商品编码表中的字段,商品简称与商品编码是一对多关系,在SPk中提取所有商品简称为ti1km的商品编码,将其对应的进项***金额汇总,以amt1′km表示;在企业ck的销项***中,提取全部商品简称为ti1km的商品编码,其对应的销项***金额汇总,以amt1″km表示,若amt1″km≥amt1″km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.2。
步骤4.1.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业销项***存在与spkm相似度大于给定阈值的销项商品编码,提取这个/这些商品编码对应的销项***,所属领域技术人员可以任意设定阈值,一个优选但非限制性的实施方式为,将阈值设置为0.4到0.6,根据比对准确性要求动态调整,以amt1″′km表示销项金额汇总,若amt1″′km≥amt1km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.3。
步骤4.1.3,货物信息对比,将企业ck全部销项***的货物名称与商品编码为spkm的进项***进行对比,查找货物信息相一致的销项***,货物信息相一致指,销项***货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的销项***,并且提取销项***对应的商品编码,以amt1″″km表示销项***金额汇总,若amt1″′km+amt1″″km≥amt1km,表示企业该商品编码进销相符,否则表示企业ck的该商品编码存在“有进无销”风险。
问题商品编码金额大小amt1km和进销金额差额amt1km-amt1″′km-amt1″″km,表示实际风险大小。
步骤4.2,“有销无进”对比,以ε2k表示企业ck的销项***数量,以SPk表示涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,spk02),spkm表示SPk中第m个商品编码,θ2表示涉及商品编码的数量,以AMT2k表示销项***金额向量,AMT2k=(amt2k1,amt2k2,…,amt2km,…,amt2kθ),amt2km表示商品编码为spkm的全部销项***的汇总金额。
步骤4.2.1,商品简称对比,以ti2km表示商品编码为spkm的商品的商品简称,在SPk中提取所有商品简称为ti2km的商品编码,在企业ck的进项***中,提取全部商品简称为ti2km的商品编码,若存在进项***,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.2。
步骤4.2.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业进项***存在与spkm相似度大于给定阈值的销项商品编码,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.3。
步骤4.2.3,货物信息对比,将企业ck全部进项***的货物名称与商品编码为spkm的销项***进行对比,查找货物信息相一致的进项***,货物信息相一致指,销项***货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的进项***,表示企业该商品编码进销相符,否则表示企业ck的该商品编码,存在“有销无进”风险,风险大小于取决于问题商品编码金额大小。
步骤4.3,综合“有销无进”与“有进无销”两个结果,可以得出风险企业清单,以及存在问题的商品编码。
步骤5,对步骤4中风险清单,进行进一步筛选,某些商品企业在购进后,由于自行使用并没有对外销售,因此没有相应的销项***,对这类问题企业可以从风险清单中去除,形成最终风险清单。
本发明的有益效果在于,与现有技术相比,本发明提出的一种于***进销项比对的商贸企业增值税***虚开风险评估方法,是针对纳人***虚开问题的数据信息比对分析方法。主要特点为,根据商贸企业的行业特点进行设计,从商品简称、商品编码、货物信息三个层次进行综合分析比对,虚开风险识别准确性高,并且能够精确定位到存在风险的具体***及金额大小,方便税务机关对风险进行后续风险应对。本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (7)
1.一种基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于,包括以下步骤:
步骤1,提取待评估地区设定时间区间内全部增值税***数据,以SP表示全部***的商品编码向量,SP=(sp1,sp2,…,spj,…,spβ),spj表示SP中第j个商品编码,β表示SP包括的商品编码数量,j=1,2,…,β;
步骤2,计算任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
步骤3,根据企业登记行业信息、开票信息和增值税申报数据,筛选待评估企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ;
步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行有进无销对比和有销无进对比,综合有销无进与有进无销两个结果,找出进销不匹配企业及对应商品编码,形成风险企业清单,以及存在风险的商品编码;有进无销对比包括:以SPk表示企业ck进项***涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,spkθ1),spkm表示SPk中第m个商品编码,θ1表示涉及商品编码的数量,以amt1km表示商品编码为spkm的全部进项***的汇总金额,
步骤4.1.1,商品简称对比,以ti1km表示商品编码spkm的商品简称,在SPk中提取所有商品简称为ti1km的商品编码,将其对应的进项***金额汇总,以amt1′km表示;在企业ck的销项***中,提取全部商品简称为ti1km的商品编码,其对应的销项***金额汇总,以amt1″km表示,若amt1″km≥amt1′km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.2;
步骤4.1.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业销项***存在与spkm相似度大于给定阈值的销项商品编码,提取全部这些商品编码对应的销项***,以amt1″′km表示销项***金额汇总,若amt1″′km≥amt1km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.3;
步骤4.1.3,货物信息对比,将企业ck全部销项***的货物名称与商品编码为spkm的进项***进行对比,查找货物信息相一致的销项***,货物信息相一致指,销项***货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的销项***,并且提取销项***对应的商品编码,以amt1″″km表示销项***金额汇总,若amt1″′km+amt1″″km≥amt1km,表示企业该商品编码进销相符,否则表示企业ck的该商品编码存在“有进无销”风险;
有销无进对比包括:以SP′k表示企业ck销项***涉及的商品编码向量,SP′k=(sp′k1,sp′k2,…,sp′kn,…,sp′kθ2),sp′kn表示SP′k中第n个商品编码,θ2表示涉及商品编码的数量,
步骤4.2.1,商品简称对比,以ti2kn表示商品编码sp′kn的商品简称,在SP′k中提取所有商品简称为ti2km的商品编码,在企业ck的进项***中,提取全部商品简称为ti2km的商品编码,若存在进项***,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.2,
步骤4.2.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业进项***存在与sp′kn相似度大于给定阈值的销项商品编码,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.3,
步骤4.2.3,货物信息对比,将企业ck全部进项***的货物名称与商品编码为sp′kn的销项***进行对比,查找货物信息相一致的进项***,货物信息相一致指,销项***货物与sp′kn全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的进项***,表示企业该商品编码进销相符,否则表示企业ck的该商品编码,存在“有销无进”风险,风险大小于取决于问题商品编码金额大小;
步骤5,去除因某些商品企业在购进后,由于自行使用并没有对外销售,因此没有相应的销项***的企业,形成最终风险清单。
2.根据权利要求1所述的基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于:
步骤1中所述设定时间区间为两年。
3.根据权利要求1所述的基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于:
步骤2具体包括:
步骤2.1,提取全部***的货物名称,为每个商品编码spj生成一个词频向量CPj,j=1,2,…,β;
步骤2.2,使用每个商品编码spj的词频向量CPj,提取关键词,形成每个商品编码spj的关键词词频向量CPj″;
步骤2.3,使用CP″a和CP″b计算出任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
4.根据权利要求3所述的基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于:
步骤2.1中,将步骤1提取的全部增值税***的货物名称合并后进行分词,形成全部***分词向量,提取商品编码为spj的全部***,对这些***的货物名称合并后进行分词,形成与全部***分词向量相同长度的分词出现次数向量,分词出现次数向量的元素进行归一化,形成商品编码为spj的词频向量CPj;
步骤2.2中,以CPj中分量的cpji作为元素,形成β×α矩阵M,对矩阵M的每个元素cpji进行TFIDF变换,以变换结果cp′ji作为元素,形成β×α矩阵M′,若cp′ji在矩阵M′的第j行中数值排名不在前γ名内将其置零,以变换结果cp″ji作为元素,形成β×α矩阵M″;
步骤2.3中,以如下公式计算simab,
式中:
·表示两个向量的数量积,
||||表示向量的长度。
5.根据权利要求4所述的基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于:
步骤.2.1中,以如下公式计算获得wi在商品编码为spj的全部***货物名称中的词频cpji,
tji表示全部增值税***分词向量FCall中第i个词语wi在商品编码为spj的全部***货物名称中出现的次数,若未出现过,则计为0,形成商品编码为spj的词频向量CPj=(cpj1,cpj2,…,cpji,…,cpjα)。
6.根据权利要求1至5中任一项所述的基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于:
步骤3具体包括:
步骤3.1,根据企业登记行业信息,筛选出属于批发行业的企业;
步骤3.2,根据企业开票信息,去除服务类***占比高于阈值的企业;
步骤3.3,根据企业增值税申报数据,筛选出开具***销售额占总销售额比例大于筛选阈值的企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ。
7.根据权利要求1所述的基于进销项比对的商贸企业增值税***虚开风险评估方法,其特征在于:
步骤4.1.3中问题商品编码金额大小amt1km和进销金额差额amt1km-amt1″′km-amt1″″km,表示实际风险大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929732.4A CN112183948B (zh) | 2020-09-07 | 2020-09-07 | 基于进销项比对的商贸企业增值税***虚开风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929732.4A CN112183948B (zh) | 2020-09-07 | 2020-09-07 | 基于进销项比对的商贸企业增值税***虚开风险评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183948A CN112183948A (zh) | 2021-01-05 |
CN112183948B true CN112183948B (zh) | 2024-05-28 |
Family
ID=73925632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010929732.4A Active CN112183948B (zh) | 2020-09-07 | 2020-09-07 | 基于进销项比对的商贸企业增值税***虚开风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183948B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268758A (zh) * | 2014-09-15 | 2015-01-07 | 周刚 | 一种基于***和第三方电子商务平台的商品防伪*** |
CN104424613A (zh) * | 2013-09-04 | 2015-03-18 | 航天信息股份有限公司 | 一种增值税***的监控方法及其*** |
CN104636973A (zh) * | 2013-11-06 | 2015-05-20 | 航天信息股份有限公司 | 一种通过商品构成监控企业虚开***的方法及其*** |
CN110659948A (zh) * | 2018-06-13 | 2020-01-07 | 中国软件与技术服务股份有限公司 | 一种进销商品匹配度计算方法及虚开***风险发现方法 |
-
2020
- 2020-09-07 CN CN202010929732.4A patent/CN112183948B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424613A (zh) * | 2013-09-04 | 2015-03-18 | 航天信息股份有限公司 | 一种增值税***的监控方法及其*** |
CN104636973A (zh) * | 2013-11-06 | 2015-05-20 | 航天信息股份有限公司 | 一种通过商品构成监控企业虚开***的方法及其*** |
CN104268758A (zh) * | 2014-09-15 | 2015-01-07 | 周刚 | 一种基于***和第三方电子商务平台的商品防伪*** |
CN110659948A (zh) * | 2018-06-13 | 2020-01-07 | 中国软件与技术服务股份有限公司 | 一种进销商品匹配度计算方法及虚开***风险发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112183948A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160342999A1 (en) | Method, system, and computer program product for linking customer information | |
RU2487394C2 (ru) | Способы и системы для реализации приближенного сравнения строк в базе данных | |
WO2005101265A2 (en) | Systems and methods for investigation of financial reporting information | |
US20080208780A1 (en) | System and method for evaluating documents | |
US10509811B2 (en) | System and method for improved analysis of travel-indicating unstructured electronic documents | |
CN110019324B (zh) | 一种生成纳税人资金回路的方法及*** | |
US20070204001A1 (en) | Method of evaluating documents | |
US11138372B2 (en) | System and method for reporting based on electronic documents | |
Shome et al. | Financial distress in Indian aviation industry: Investigation using bankruptcy prediction models | |
CN112182207B (zh) | 基于关键词提取和快速文本分类的***虚抵风险评估方法 | |
US8078533B1 (en) | Systems and methods for monitoring remittances for reporting requirements | |
US8505811B2 (en) | Anomalous billing event correlation engine | |
Elefterie et al. | The impact of information technology on the audit process | |
US20130006820A1 (en) | System and Method of Determining the Quality of Enhanced Transaction Data | |
CN114187084A (zh) | 一种根据电子***税收分类简称识别凭证科目的方法 | |
CN112183948B (zh) | 基于进销项比对的商贸企业增值税***虚开风险评估方法 | |
CN110874745A (zh) | 一种退单管理*** | |
CN115108222B (zh) | 一种针对跨境货物的智能分拣***的分拣方法 | |
CN113869802B (zh) | 一种基于进销项比对的生产企业***虚开风险评估方法 | |
US20100257073A1 (en) | Duplicate Payment Prevention | |
US20070265886A1 (en) | Warranty management system and method | |
CN111724093B (zh) | 一种用于b2c商品出口的hs编码管理方法及*** | |
CN112232894A (zh) | 基于增值税***的数据分析方法 | |
Branstetter et al. | Does | |
CN106204174A (zh) | 对销售单中的商品进行分类的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |