CN112182207B - 基于关键词提取和快速文本分类的***虚抵风险评估方法 - Google Patents
基于关键词提取和快速文本分类的***虚抵风险评估方法 Download PDFInfo
- Publication number
- CN112182207B CN112182207B CN202010972389.1A CN202010972389A CN112182207B CN 112182207 B CN112182207 B CN 112182207B CN 202010972389 A CN202010972389 A CN 202010972389A CN 112182207 B CN112182207 B CN 112182207B
- Authority
- CN
- China
- Prior art keywords
- invoice
- commodity
- word
- value
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于关键词提取和快速文本分类的***虚抵风险评估方法,包括:步骤1,建立待评估地区增值税***样本数据库;步骤2,将相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别CA;步骤3,形成正向关键词集合SET正放入词袋模型ModelCA;步骤4,形成反向关键词集合SET反,更新正向关键词集合SET正,更新词袋模型ModelCA;步骤5,获得最终词袋模型ModelCA;步骤6,输入待评估地区待评估时间段内的全量增值税***;步骤7,利用步骤5中的最终词袋模型ModelCA,筛选出商品类别CA的***,判断购方纳税人是否将***用于销项税额抵扣;步骤8,统计整理形成风险企业清单和报告。与现有技术相比,可准确判断***是否为虚抵***,快速精准定位风险。
Description
技术领域
本发明属于税务风险筛查技术领域,更具体地,涉及一种基于关键词提取和快速文本分类的***虚抵风险评估方法。
背景技术
本发明中增值税***虚抵是指营改增纳税人和原增值税纳税人购进旅客运输服务、贷款服务、餐饮服务、居民日常服务和娱乐服务,不得抵扣销项税额。
为应对针对纳税人存在的此类增值税***虚抵问题,税务机关需要在海量的增值税***中筛查出旅客运输服务、贷款服务、餐饮服务、居民日常服务和娱乐服务相关***,运用数据信息比对分析的方法,判定***是否用于抵扣销项税额,对开具***的纳税人和接收***的纳税人做出定性、定量判断,进而采取进一步征管措施。
***数据包含商品编码、货物名称字段。这里,商品编码是开票纳税人根据销售的货物在税务总局编订《商品和服务税收分类与编码》规范中选取的。货物名称是开票纳税人销售的货物信息。
在实际数据中,增值税***数量巨大、涉及销售商品名称内容繁杂,而且实际情况中***填开货物名称与商品编码存在大量的不对应。这导致了税务机关无法仅使用***中商品类别信息找出虚抵***,而仅依赖于人工排查、经验规则筛选的方式,筛查虚抵***的精度和效率比较受限,随着增值税***日益增长,面临挑战随之增加。除此之外,商品编码与实际销售货物类别之间存在一定差距,需要归并和拆分。
发明内容
针对现有增值税***虚抵筛查人工量大、精度低、效率低的问题,本发明的目的在于,提出一种基于关键词提取和快速文本分类的***虚抵风险评估方法,能够针对不同商品类别,根据***上填开的内容信息,高准确率、高覆盖率地提取商品特征词,结合专家***,形成***文本分类模型。再结合***抵扣比对算法,快速定位出虚抵增值税***。
本发明采用如下的技术方案。一种基于关键词提取和快速文本分类的***虚抵风险评估方法,包括以下步骤:
步骤1,建立待评估地区增值税***样本数据库;
步骤2,提取每个商品编码下的全量***数据作为一篇文本,提取正向关键词,以快速文本分类算法计算商品编码的文本向量,以文本向量计算不同商品编码间的相似度,将商品编码相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别CA;
步骤3,提取设定的商品类别CA下的全量***数据作为一篇文本,提取正向关键词,形成正向关键词集合SET正,将其放入词袋模型ModelCA;
步骤4,使用词袋模型ModelCA筛选当前商品类别CA的全量***数据,人工筛选错误筛选结果,形成反向关键词集合SET反,将其放入词袋模型ModelCA,更新正向关键词集合SET正,进而更新词袋模型ModelCA;
步骤5,使用步骤4更新后的词袋模型ModelCA分别在全量***中当前商品类别CA下的***数据和非当前商品类别CA下的***数据中,筛选出属于商品类别CA的***数据,计算差集后提取反向关键词,以新获得的反向关键词更新反向关键词集合SET反,进而获得最终的词袋模型ModelCA;
步骤6,输入待评估地区待评估时间段内的全量增值税***;
步骤7,利用步骤5中的最终词袋模型ModelCA,从全量增值税***中筛选出商品类别CA的***,判断购方纳税人是否将***用于销项税额抵扣;
步骤8,将参与抵扣的购方纳税人信息和***信息,统计整理形成风险企业清单和报告。
优选地,步骤2具体包括:
步骤2.1,将每个商品编码下的全量***数据作为一篇文本,进行分词,获得每个词语的TF-IDF值,筛选每个商品编码的正向关键词;
步骤2.2,以快速文本分类算法计算商品编码的文本向量,以文本向量计算不同商品编码间的相似度;
步骤2.3,相似度大于阈值的商品编码合并为商品分类;
步骤2.4,选择设定的商品分类CA。
优选地,步骤2.1具体包括:
步骤2.1.1,提取每个商品编码下的全量***数据,作为一篇文本,去除停用词、分词去重后形成分词向量;
步骤2.1.2,计算该商品编码的分词向量中每个词语的TF值;
步骤2.1.3,提取样本数据库全量***数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤2.1.4,使用步骤2.1.2和步骤2.1.3的计算结果,计算该商品编码的分词向量中每个词语的TF-IDF值;TF值是指词频值,IDF值是指逆文本频率指数值。
步骤2.1.5,筛选商品编码spj的正向关键词,形成描述特征词集合s1jc。
优选地,步骤2.1.5具体包括:
式中:
τ表示商品编码spj去除停用词、分词去重后词语的数量;
优选地,步骤2.2具体包括:
步骤2.2.1,使用fastText算法获得描述特征词集合s1jc中每个词语的词向量,与其TF-IDF值相乘,全部分词的乘积结果求和,获得该商品编码的文本向量;
步骤2.2.2,使用文本向量,通过余弦相似度公式计算任意两个商品编码的相似度。
式中:
商品编码spj的分词wis1j即全量***数据分词中的wp,
s1jc表示商品编码spj的描述特征词集合。
优选地,步骤3具体包括:
步骤3.1,提取商品类别CA下的全量***数据,作为一篇文本,去除停用词、分词去重后形成分词向量;
步骤3.2,计算该商品类别CA的分词向量中每个词语的TF值;
步骤3.3,提取样本数据库全量***数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤3.4,使用步骤3.2和步骤3.3的计算结果,计算该商品类别CA的分词向量中每个词语的TF-IDF值;
TF值是指词频值,IDF值是指逆文本频率指数值;
步骤3.5,以商品分类CA的每个词语的TF-IDF值筛选商品类别CA的正向关键词;
步骤3.6,形成商品类别CA的正向关键词集合SET正,将正向关键词集合加入词袋模型ModelCA。
优选地,步骤4具体包括:
步骤4.1,提取商品类别CA下的全量***数据;
步骤4.2,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据t1和不属于商品类别CA的***数据t2;
步骤4.3,人工筛选***数据t1,筛选不属于商品分类CA的***,形成一篇文本,并进行分词,去除停用词、分词去重后,wit1表示其中任意一个分词;
步骤4.4,若任意一个分词wit1∈SET正,则从SET正中删除该分词wit1;对不属于正向关键词集合SET正的分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入反向关键词集合SET反;
步骤4.5,人工筛选***数据t2,筛选属于商品分类CA的***,形成一篇文本,并进行分词,去除停用词、分词去重后,wit2表示其中任意一个分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入正向关键词集合SET正;
步骤4.6,以步骤4.4、步骤4.5修正过的正向关键词集合SET正和以及步骤4.4形成的反向关键词集合SET反更新词袋模型ModelCA。
优选地,步骤5具体包括:
步骤5.1,提取商品类别CA下的全量***数据,即提取商品类别CA下所有商品编码下的全量***数据;
步骤5.2,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据D1;
步骤5.3,提取非商品类别CA下的全量***数据,即提取全量***中非当前商品类别CA下所有商品编码下的***数据;
步骤5.4,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据D2;
步骤5.5,计算两个文本数据的差集D2-D1,形成一篇差集文本s4j,对于差集文本s4j,提取反向关键词,更新反向关键词集合SET反,进而获得最终的词袋模型ModelCA。
优选地,步骤7具体包括:从全量增值税***中筛选出指定商品类别的***后,判断***是否在认证***数据集中,如果不在,该***不是虚抵***;如果在,统计接收该***的纳税人对应申报期内,总认证***税额和当期进项抵扣税额,如果两个数值相等,则该***参与了进项抵扣,属于虚抵***;如果两个数值不相等,计算总认证***税额与当期进项抵扣税额差值,如果差值小于该***税额值,则该***参与了进项抵扣,属于虚抵***,否则,该***存在虚抵风险,需要实地核查。
本发明的有益效果在于,与现有技术相比,本发明极大降低了现有税务人员筛查虚抵***人工工作量,并且本发明提供风险企业清单和报告,税务人员仅通过阅读报告,即可明确风险企业存在的问题,快速做出处理判断,极大提高了税务人员核实风险企业的效率。
具体而言,本发明使用关键词提取机器学习模型,并与深度学习模型fastText词向量相结合,将相似商品编码合并。使用正向关键词提取和反向关键词提取的算法,高效提取语义关键词,极大程度上减少了人工工作量。在实际业务应用中,结合人工校验去除数据错误的影响因素,分类准确率可达98%+。在找出指定商品类别***后,该方法能够准确判断***是否为虚抵***,快速精准定位风险。
附图说明
图1为本发明的整体实现流程图;
图2为将相似度高于阈值的商品编码合并为商品类别的流程图;
图3为商品编码各个分词的TF-IDF的计算流程图;
图4为形成正向关键词集合并加入词袋模型的流程图;
图5为修正词袋模型的流程图;
图6为形成最终词袋模型的流程图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明提供了一种基于关键词提取和快速文本分类的***虚抵风险评估方法,包括以下步骤:
步骤1,提取待评估地区的全量***原始数据,建立增值税***样本数据库。
提取待评估地区的全量***原始数据,包含增值税专用***、增值税普通***、电子***和卷式***。合并生成的数据表中,包含***代码、***号码、销方企业id、购方企业id、货物名称、商品编码、开票日期、***金额、***税额和***类型,10个主要字段。
步骤2,提取每个商品编码下的全量***数据,将每个商品编码下的全量***数据作为一篇文本,提取正向关键词,计算不同商品编码间的相似度,将商品编码相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别。如图2所示,步骤2具体包括:
步骤2.1,将每个商品编码下的全量***数据作为一篇文本,进行分词,获得每个词语的TF-IDF值,筛选每个商品编码的正向关键词。如图3所示,步骤2.1具体包括:
步骤2.1.1,以SP表示商品编码向量,SP=(sp1,sp2,…,spj,…,spN),spj表示第j个商品编码,N表示商品编码数量,j=1,2,…,N,提取商品编码spj下的全量***数据,作为一篇文本,以s1j表示,对s1j进行分词,以FCs1j表示s1j的分词向量,FCs1j=(w1s1j,w2s1j,…,wis1j,…,wτs1j),wis1j表示FCs1j的第i个词语,τ表示FCs1j中去除停用词、分词去重后词语的数量,i=1,2,…,τ。
式中:
nij表示词语wis1j在商品编码spj中出现的次数,
sij表示词语wis1j在商品编码spj下***对应的总税额,
步骤2.1.3,对全量***数据进行分词,去除停用词、分词去重后,计算每个词语的IDF值。
将全量***数据作为一篇文本stotal,以FC表示stotal的分词向量,FC=(w1,w2,…,wp,…,wto),wp表示FC的第p个词语,to表示FC中去除停用词、分词去重后词语的数量,p=1,2,…,to,以表示wp的IDF(Inverse Document Frequency,逆文本频率指数值),以如下公式计算/>
式中:
分子N表示商品编码数量,即由每个商品编码形成的单篇文本的数量,
|{j:wp∈s1j}|表示当nij≠0时,包含词语wp的商品编码数量,即包含词语wp的单篇文本的数量,如果词语wp不在商品编码中,|{j:wp∈s1j}|为0,为防止分母为0,因此在本发明中使用的分母是1+|{j:wp∈s1j}|。
式中:
商品编码spj的分词向量FCs1j中wis1j即全量***数据分词向量FC中的wp。
步骤2.1.5,筛选商品编码spj的正向关键词,形成描述特征词集合s1jc。
将按照从大到小排序,并且从大到小开始累加,累加至首次超过阈值β,将这些词语作为商品编码spj的正向关键词,将正向关键词作为当前***数据的描述特征词,形成描述特征词集合s1jc。所属领域技术人员可以任意设置阈值β,一个优选但非限制性的实施方式为,将阈值β设置为80%、85%或90%。
步骤2.2,计算不同商品编码间的相似度。步骤2.2具体包括:
步骤2.2.1,计算商品编码spj的文本向量Dj。
fastText是Facebook于2016年开源的一个词向量计算和文本分类工具(https://github.com/facebookresearch/fastText)。
以Vwp表示分词词语wp经过fastText模型训练出来的词向量,以Dj表示商品编码spj的***文本向量,以如下公式计算Dj。
式中:
商品编码spj的分词向量FCs1j中wis1j即全量***数据分词向量FC中的wp,s1jc表示商品编码spj的描述特征词集合。
步骤2.2.2,以simji表示商品编码spj的文本向量Dj与商品编码spi的文本向量Di之间的相似度,以如下公式计算simji。
式中:
j,i=1,2,…,N,j≠i,simji可以表示两两商品编码的文本向量间的相似度,由此可以生成商品编码相似度矩阵。
由以上公式可知0≤simji≤1,如果simji=1,则表示商品编码spj的文本向量Dj与商品编码spi的文本向量Di完全一致,simji值越小,表示商品编码spj的文本向量Dj与商品编码spi的文本向量Di越不相关。
步骤2.3,相似度大于阈值的商品编码合并为商品分类。
将商品编码相似度不小于阈值的商品编码合并为一个商品类别。即,输入待合并的商品编码spj,计算商品编码spj与其他所有商品编码的相似度,simj1,simj2,…,simjN,从小到大排序相似度。
因为商品编码是按层级划分,即篇、类、章、节、条、款、项、目、子目、细目,一共10个层级。最高层级“篇”有6大类,分别是货物、劳务、销售服务、无形资产、不动产和未发生销售行为的不征税项目。第二层级“类”是在最高层级“篇”的基础上进一步细分,以此类推,参见国家税务总局公告2017年第45号,《关于增值税***管理若干事项的公告》附件:商品和服务税收分类编码表。
所属领域技术人员可以任意设定相似度阈值α,一个优选但非限制性的实施方式为,相似度阈值α的取值范围为0.5≤α≤0.6,如果simji≥α,且商品编码spj与商品编码spi均在同一第四层级以内,则商品编码i与商品编码j合并,形成商品类别,以N′表示商品类别数量。
步骤2.4,通过输入商品编码或其正向关键词,可获得该商品编码所属的商品分类,以CA表示。例如,输入“餐饮”即可获得餐饮对应的商品分类。
步骤3,提取设定的商品类别CA下的全量***数据,将商品类别CA下的全量***数据作为一篇文本,提取正向关键词,形成正向关键词集合,将正向关键词集合放入词袋模型。步骤3中的正向关键词提取与步骤2中正向关键词提取步骤相同,区别在于步骤2将每个商品编码下的全量***数据作为一篇文本,步骤3将商品类别CA下的全量***数据作为一篇文本。如图4所示,步骤3具体包括:
步骤3.1,提取商品类别CA下的全量***数据,即提取商品类别CA下的全部商品编码的全量***数据,作为一篇文本,以s2j表示商品类别CA下的全量***形成的一篇文本,对s2j进行分词,以FCs2j表示s2j的分词向量,FCs2j=(w1s2j,w2s2j,…,wis2j,…,wτ′s2j),wis2j表示FCs2j的第i个词语,τ′表示FCs2j中去除停用词、分词去重后词语的数量,i=1,2,…,τ′。
式中:
nij表示词语wis2j在商品类别CA中出现的次数,
sij表示词语wis2j在商品类别CA中对应的总税额,
式中:
分子N′表示商品类别总数。
|{j:wq∈s2j}|表示当nij≠0时,包含词语wq的商品类别数量,如果词语wq不在商品类别CA中,|{j:wq∈s2j}|为0,因此在本发明中使用的分母是1+|{j:wi∈s2j}|。
式中:
商品类别CA的分词向量FCs2j中wis2j即全量***数据分词向量FC中的wq。
步骤3.5,筛选商品类别CA的正向关键词。
将按照从大到小排序,并且从大到小开始累加,累加至首次超过阈值β′,将这些词语作为商品类别CA的正向关键词。所属领域技术人员可以任意设置阈值β′,一个优选但非限制性的实施方式为将阈值β′设置为80%、85%或90%。
步骤3.6,形成商品类别CA的正向关键词集合,将正向关键词集合加入词袋模型。
以SET正表示正向关键词结合,
SET正=(w正1,w正2,…,w正i,…,w正ω),w正i表示其中的第i个正向关键词,ω表示SET正中正向关键词数量,i=1,2,…,ω。
以ModelCA表示商品分类CA的词袋模型,将SET正加入词袋模型ModelCA。
词袋模型ModelCA可以用于判断未知商品类型的***是否属于该商品类型CA,例如,一张未知商品类型的***x,对该***进行分词,去除停用词、分词去重后,以wix表示其中任意一个分词,
式中:
ModelCA表示商品类别CA的词袋模型。
步骤4,使用词袋模型ModelCA筛选当前商品类别CA的全量***数据,人工筛选出词袋模型ModelCA的错误筛选结果,形成反向关键词集合,更新正向关键词集合,更新词袋模型ModelCA。如图5所示,步骤4具体包括:
步骤4.1,提取商品类别CA下的全量***数据,即提取商品类别CA下所有商品编码下的全量***数据。
步骤4.2,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据t1和不属于商品类别CA的***数据t2。
步骤4.3,人工筛选***数据t1,筛选不属于商品分类CA的***,形成一篇文本,并进行分词,去除停用词、分词去重后,wit1表示其中任意一个分词。
步骤4.4,若任意一个分词wit1∈SET正,则从SET正中删除该分词wit1;对不属于正向关键词集合SET正的分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入反向关键词集合SET反,SET反=(w反1,w反2,…,w反i,…,w反δ)。
步骤4.5,人工筛选***数据t2,筛选属于商品分类CA的***,形成一篇文本,并进行分词,去除停用词、分词去重后,wit2表示其中任意一个分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入正向关键词集合SET正。
步骤4.6,以步骤4.4、步骤4.5修正过的正向关键词集合SET正和以及步骤4.4形成的反向关键词集合SET反更新词袋模型ModelCA。
同样地,更新后的词袋模型ModelCA可以用于判断未知商品类型的***是否属于该商品类型CA,例如,一张未知商品类型的***x,对该***进行分词,去除停用词、分词去重后,以wix表示其中任意一个分词,
式中:
ModelCA表示商品类别CA的词袋模型,
SET正表示词袋模型ModelCA中的正向关键词集合,
SET反表示词袋模型ModelCA中的反向关键词集合。
步骤5,使用步骤4更新后的词袋模型ModelCA分别在全量***中当前商品类别CA下的***数据和非当前商品类别CA下的***数据中,筛选出属于商品类别CA的***数据,计算差集后提取反向关键词,以新获得的反向关键词更新SET反,进而获得最终的词袋模型ModelCA。如图6所示,步骤5具体包括:
步骤5.1,提取商品类别CA下的全量***数据,即提取商品类别CA下所有商品编码下的全量***数据;
步骤5.2,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据D1;
步骤5.3,提取非商品类别CA下的全量***数据,即提取全量***中非当前商品类别CA下所有商品编码下的***数据;
步骤5.4,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据D2;
步骤5.5,计算两个文本数据的差集D2-D1,形成一篇差集文本s4j,对于差集文本s4j,提取反向关键词,更新反向关键词集合SET反。提取反向关键词包括:
对文本数据s4j分词,去除停用词、分词去重后,以FCs4j表示s4j的分词向量,FCs4j=(w1s4j,w2s4j,…,wis4j,…,wτ″′s4j),wis4j表示FCs4j的第i个词语,τ″′表示FCs4j中去除停用词、分词去重后词语的数量,i=1,2,…,τ″′。
式中:
分子nij表示词语wis4j在文本数据s4j中出现的次数。
步骤6,输入待评估地区待评估时间段内的全量增值税***。
步骤7,利用步骤5中的最终词袋模型ModelCA,从全量增值税***中筛选出指定商品类别的***,进行***抵扣对比,判断购方纳税人是否将***用于销项税额抵扣。
从全量增值税***中筛选出指定商品类别的***后,判断***是否在认证***数据集中,如果不在,该***不是虚抵***。如果在,统计接收该***的纳税人对应申报期内,总认证***税额和当期进项抵扣税额,如果两个数值相等,则该***参与了进项抵扣,属于虚抵***。如果两个数值不相等,计算总认证***税额与当期进项抵扣税额差值,如果差值小于该***税额值,则该***参与了进项抵扣,属于虚抵***,否则,该***存在虚抵风险,需要实地核查。
步骤8,将参与抵扣的购方纳税人信息和***信息,统计整理形成风险企业清单和报告。
本发明的有益效果在于,与现有技术相比,本发明极大降低了现有税务人员筛查虚抵***人工工作量,并且本发明提供风险企业清单和报告,税务人员仅通过阅读报告,即可明确风险企业存在的问题,快速做出处理判断,极大提高了税务人员核实风险企业的效率。
具体而言,本发明使用关键词提取机器学习模型,并与深度学习模型fastText词向量相结合,将相似商品编码合并。使用正向关键词提取和反向关键词提取的算法,高效提取语义关键词,极大程度上减少了人工工作量。在实际业务应用中,结合人工校验去除数据错误的影响因素,分类准确率可达98%+。在找出指定商品类别***后,该方法能够准确判断***是否为虚抵***,快速精准定位风险。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (6)
1.一种基于关键词提取和快速文本分类的***虚抵风险评估方法,其特征在于,包括以下步骤:
步骤1,建立待评估地区增值税***样本数据库;
步骤2,将商品编码相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别CA;包括:
步骤2.1,将每个商品编码下的全量***数据作为一篇文本,进行分词,获得每个词语的TF-IDF值,筛选每个商品编码的正向关键词;具体包括:
步骤2.1.1,以SP表示商品编码向量,SP=(sp1,sp2,…,spj,…,spN),spj表示第j个商品编码,N表示商品编码数量,j=1,2,…,N,提取商品编码spj下的全量***数据,作为一篇文本,以s1j表示,对s1j进行分词,以FCs1j表示s1j的分词向量,FCs1j=(w1s1j,w2s1j,…,wis1j,…,wτs1j),wis1j表示FCs1j的第i个词语,τ表示FCs1j中去除停用词、分词去重后词语的数量,i=1,2,…,τ;
步骤2.1.2,计算该商品编码的分词向量中每个词语的TF值;
步骤2.1.3,提取样本数据库全量***数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤2.1.4,使用步骤2.1.2和步骤2.1.3的计算结果,计算该商品编码的分词向量中每个词语的TF-IDF值;TF值是指词频值,IDF值是指逆文本频率指数值;
式中:
τ表示商品编码spj去除停用词、分词去重后词语的数量;
步骤2.2,以快速文本分类算法计算商品编码的文本向量,以文本向量计算不同商品编码间的相似度;
步骤2.3,相似度大于阈值的商品编码合并为商品分类;
步骤2.4,选择设定的商品分类CA;
步骤3,提取商品类别CA下的全量***数据作为一篇文本,提取正向关键词,形成正向关键词集合SET正,将其放入词袋模型ModelCA;
步骤4,使用词袋模型ModelCA筛选当前商品类别CA的全量***数据,人工筛选出错误筛选结果,形成反向关键词集合SET反,将其放入词袋模型ModelCA,更新正向关键词集合SET正,进而更新词袋模型ModelCA;包括:
步骤4.1,提取商品类别CA下的全量***数据;
步骤4.2,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据t1和不属于商品类别CA的***数据t2;
步骤4.3,人工筛选***数据t1,筛选不属于商品分类CA的***,形成一篇文本,并进行分词,去除停用词、分词去重后,wit1表示其中任意一个分词;
步骤4.4,若任意一个分词wit1∈SET正,则从SET正中删除该分词wit1;对不属于正向关键词集合SET正的分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入反向关键词集合SET反;
步骤4.5,人工筛选***数据t2,筛选属于商品分类CA的***,形成一篇文本,并进行分词,去除停用词、分词去重后,wit2表示其中任意一个分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入正向关键词集合SET正;
步骤4.6,以步骤4.4、步骤4.5修正过的正向关键词集合SET正和以及步骤4.4形成的反向关键词集合SET反更新词袋模型ModelCA;
步骤5,使用步骤4更新后的词袋模型ModelCA分别在全量***中当前商品类别CA下的***数据和非当前商品类别CA下的***数据中,筛选出属于商品类别CA的***数据,计算差集后提取反向关键词,以新获得的反向关键词更新反向关键词集合SET反,进而获得最终的词袋模型ModelCA;
步骤6,输入待评估地区待评估时间段内的全量增值税***;
步骤7,利用步骤5中的最终词袋模型ModelCA,从全量增值税***中筛选出商品类别CA的***,判断购方纳税人是否将***用于销项税额抵扣;
步骤8,将参与抵扣的购方纳税人信息和***信息,统计整理形成风险企业清单和报告。
2.根据权利要求1所述的基于关键词提取和快速文本分类的***虚抵风险评估方法,其特征在于:
步骤2.2具体包括:
步骤2.2.1,使用快速文本分类算法,即使用fastText算法获得描述特征词集合s1jc中每个词语的词向量,与其TF-IDF值相乘,全部分词的乘积结果求和,获得该商品编码的文本向量;
步骤2.2.2,使用文本向量,通过余弦相似度公式计算任意两个商品编码的相似度。
4.根据权利要求1至3中任一项所述的基于关键词提取和快速文本分类的***虚抵风险评估方法,其特征在于:
步骤3具体包括:
步骤3.1,提取商品类别CA下的全量***数据,作为一篇文本,去除停用词、分词去重后形成分词向量;
步骤3.2,计算该商品类别CA的分词向量中每个词语的TF值;
步骤3.3,提取样本数据库全量***数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤3.4,使用步骤3.2和步骤3.3的计算结果,计算该商品类别CA的分词向量中每个词语的TF-IDF值;
TF值是指词频值,IDF值是指逆文本频率指数值;
步骤3.5,以商品分类CA的每个词语的TF-IDF值筛选商品类别CA的正向关键词;
步骤3.6,形成商品类别CA的正向关键词集合SET正,将正向关键词集合加入词袋模型ModelCA。
5.根据权利要求4所述的基于关键词提取和快速文本分类的***虚抵风险评估方法,其特征在于:
步骤5具体包括:
步骤5.1,提取商品类别CA下的全量***数据,即提取商品类别CA下所有商品编码下的全量***数据;
步骤5.2,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据D1;
步骤5.3,提取非商品类别CA下的全量***数据,即提取全量***中非当前商品类别CA下所有商品编码下的***数据;
步骤5.4,使用词袋模型ModelCA,筛选出属于商品类别CA的***数据D2;
步骤5.5,计算两个文本数据的差集D2-D1,形成一篇差集文本s4j,对于差集文本s4j,提取反向关键词,更新反向关键词集合SET反,进而获得最终的词袋模型ModelCA。
6.根据权利要求5所述的基于关键词提取和快速文本分类的***虚抵风险评估方法,其特征在于:
步骤7具体包括:从全量增值税***中筛选出指定商品类别的***后,判断***是否在认证***数据集中,如果不在,该***不是虚抵***;如果在,统计接收该***的纳税人对应申报期内,总认证***税额和当期进项抵扣税额,如果两个数值相等,则该***参与了进项抵扣,属于虚抵***;如果两个数值不相等,计算总认证***税额与当期进项抵扣税额差值,如果差值小于该***税额值,则该***参与了进项抵扣,属于虚抵***,否则,该***存在虚抵风险,需要实地核查。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010972389.1A CN112182207B (zh) | 2020-09-16 | 2020-09-16 | 基于关键词提取和快速文本分类的***虚抵风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010972389.1A CN112182207B (zh) | 2020-09-16 | 2020-09-16 | 基于关键词提取和快速文本分类的***虚抵风险评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182207A CN112182207A (zh) | 2021-01-05 |
CN112182207B true CN112182207B (zh) | 2023-07-11 |
Family
ID=73921917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010972389.1A Active CN112182207B (zh) | 2020-09-16 | 2020-09-16 | 基于关键词提取和快速文本分类的***虚抵风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182207B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159874A (zh) * | 2021-05-25 | 2021-07-23 | 北京中科闻歌科技股份有限公司 | 增值税***的检测方法、装置和可读存储介质 |
CN113869802B (zh) * | 2021-12-01 | 2022-03-11 | 神州数码信息***有限公司 | 一种基于进销项比对的生产企业***虚开风险评估方法 |
CN117634873A (zh) * | 2023-11-15 | 2024-03-01 | 中国人寿保险股份有限公司江苏省分公司 | 一种评估保险行业销售人员风险的***和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN107463703A (zh) * | 2017-08-16 | 2017-12-12 | 电子科技大学 | 基于信息增益的英文社交媒体账号分类方法 |
CN109857862A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 基于智能决策的文本分类方法、装置、服务器及介质 |
CN110377731A (zh) * | 2019-06-18 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 投诉文本处理方法、装置、计算机设备及存储介质 |
CN110874407A (zh) * | 2018-08-14 | 2020-03-10 | 中国软件与技术服务股份有限公司 | 一种增值税***商品和服务税收分类编码识别及纠错方法 |
-
2020
- 2020-09-16 CN CN202010972389.1A patent/CN112182207B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN107463703A (zh) * | 2017-08-16 | 2017-12-12 | 电子科技大学 | 基于信息增益的英文社交媒体账号分类方法 |
CN110874407A (zh) * | 2018-08-14 | 2020-03-10 | 中国软件与技术服务股份有限公司 | 一种增值税***商品和服务税收分类编码识别及纠错方法 |
CN109857862A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 基于智能决策的文本分类方法、装置、服务器及介质 |
CN110377731A (zh) * | 2019-06-18 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 投诉文本处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112182207A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112182207B (zh) | 基于关键词提取和快速文本分类的***虚抵风险评估方法 | |
JP2020115346A (ja) | Aiドリブン・トランザクション管理システム | |
CN111444944A (zh) | 基于决策树的信息筛选方法、装置、设备和存储介质 | |
US20210374164A1 (en) | Automated and dynamic method and system for clustering data records | |
CN106776897B (zh) | 一种用户画像标签确定方法及装置 | |
CN112102073A (zh) | 信贷风险控制方法及***、电子设备及可读存储介质 | |
US11880435B2 (en) | Determination of intermediate representations of discovered document structures | |
CN113159881B (zh) | 一种数据聚类及b2b平台客户偏好获取方法、*** | |
CN111581193A (zh) | 数据处理方法、设备、计算机***及存储介质 | |
CN112052396A (zh) | 课程匹配方法、***、计算机设备和存储介质 | |
CN113837886A (zh) | 一种基于知识图谱的车险理赔欺诈风险识别方法和*** | |
CN116468273A (zh) | 客户风险识别方法及装置 | |
Sana et al. | Data transformation based optimized customer churn prediction model for the telecommunication industry | |
Edi Surya et al. | Recommendation System with Content-Based Filtering in NFT Marketplace | |
CN115809930A (zh) | 基于数据融合匹配的反欺诈分析方法、装置、设备及介质 | |
Karomi et al. | Data Attribute Selection with Information Gain to Improve Credit Approval Classification Performance using K-Nearest Neighbor Algorithm | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN113298447A (zh) | 基于数据处理的融资租赁管理*** | |
CN112016975A (zh) | 产品筛选方法、装置、计算机设备及可读存储介质 | |
CN115187387B (zh) | 一种风险商家的识别方法及设备 | |
Kotepuchai et al. | Tree-based Classifiers for Smart General Ledger Code Suggestion | |
US20230385951A1 (en) | Systems and methods for training models | |
CN111445028B (zh) | Ai驱动的交易管理*** | |
CN108549669A (zh) | 一种面向大数据的离群点检测方法 | |
CN107783989A (zh) | 文书归属领域的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |