CN112182207B

CN112182207B - 基于关键词提取和快速文本分类的***虚抵风险评估方法

Info

Publication number: CN112182207B
Application number: CN202010972389.1A
Authority: CN
Inventors: 金语泽; 周宏立
Original assignee: Digital China Information Systems Co ltd
Current assignee: Digital China Information Systems Co ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2023-07-11
Anticipated expiration: 2040-09-16
Also published as: CN112182207A

Abstract

一种基于关键词提取和快速文本分类的***虚抵风险评估方法，包括：步骤1，建立待评估地区增值税***样本数据库；步骤2，将相似度不小于阈值的商品编码合并为一个商品类别，并选定设定的商品类别CA；步骤3，形成正向关键词集合SET_正放入词袋模型Model_CA；步骤4，形成反向关键词集合SET_反，更新正向关键词集合SET_正，更新词袋模型Model_CA；步骤5，获得最终词袋模型Model_CA；步骤6，输入待评估地区待评估时间段内的全量增值税***；步骤7，利用步骤5中的最终词袋模型Model_CA，筛选出商品类别CA的***，判断购方纳税人是否将***用于销项税额抵扣；步骤8，统计整理形成风险企业清单和报告。与现有技术相比，可准确判断***是否为虚抵***，快速精准定位风险。

Description

基于关键词提取和快速文本分类的***虚抵风险评估方法

技术领域

本发明属于税务风险筛查技术领域，更具体地，涉及一种基于关键词提取和快速文本分类的***虚抵风险评估方法。

背景技术

本发明中增值税***虚抵是指营改增纳税人和原增值税纳税人购进旅客运输服务、贷款服务、餐饮服务、居民日常服务和娱乐服务，不得抵扣销项税额。

为应对针对纳税人存在的此类增值税***虚抵问题，税务机关需要在海量的增值税***中筛查出旅客运输服务、贷款服务、餐饮服务、居民日常服务和娱乐服务相关***，运用数据信息比对分析的方法，判定***是否用于抵扣销项税额，对开具***的纳税人和接收***的纳税人做出定性、定量判断，进而采取进一步征管措施。

***数据包含商品编码、货物名称字段。这里，商品编码是开票纳税人根据销售的货物在税务总局编订《商品和服务税收分类与编码》规范中选取的。货物名称是开票纳税人销售的货物信息。

在实际数据中，增值税***数量巨大、涉及销售商品名称内容繁杂，而且实际情况中***填开货物名称与商品编码存在大量的不对应。这导致了税务机关无法仅使用***中商品类别信息找出虚抵***，而仅依赖于人工排查、经验规则筛选的方式，筛查虚抵***的精度和效率比较受限，随着增值税***日益增长，面临挑战随之增加。除此之外，商品编码与实际销售货物类别之间存在一定差距，需要归并和拆分。

发明内容

针对现有增值税***虚抵筛查人工量大、精度低、效率低的问题，本发明的目的在于，提出一种基于关键词提取和快速文本分类的***虚抵风险评估方法，能够针对不同商品类别，根据***上填开的内容信息，高准确率、高覆盖率地提取商品特征词，结合专家***，形成***文本分类模型。再结合***抵扣比对算法，快速定位出虚抵增值税***。

本发明采用如下的技术方案。一种基于关键词提取和快速文本分类的***虚抵风险评估方法，包括以下步骤：

步骤1，建立待评估地区增值税***样本数据库；

步骤2，提取每个商品编码下的全量***数据作为一篇文本，提取正向关键词，以快速文本分类算法计算商品编码的文本向量，以文本向量计算不同商品编码间的相似度，将商品编码相似度不小于阈值的商品编码合并为一个商品类别，并选定设定的商品类别CA；

步骤3，提取设定的商品类别CA下的全量***数据作为一篇文本，提取正向关键词，形成正向关键词集合SET_正，将其放入词袋模型Model_CA；

步骤4，使用词袋模型Model_CA筛选当前商品类别CA的全量***数据，人工筛选错误筛选结果，形成反向关键词集合SET_反，将其放入词袋模型Model_CA，更新正向关键词集合SET_正，进而更新词袋模型Model_CA；

步骤5，使用步骤4更新后的词袋模型Model_CA分别在全量***中当前商品类别CA下的***数据和非当前商品类别CA下的***数据中，筛选出属于商品类别CA的***数据，计算差集后提取反向关键词，以新获得的反向关键词更新反向关键词集合SET_反，进而获得最终的词袋模型Model_CA；

步骤6，输入待评估地区待评估时间段内的全量增值税***；

步骤7，利用步骤5中的最终词袋模型Model_CA，从全量增值税***中筛选出商品类别CA的***，判断购方纳税人是否将***用于销项税额抵扣；

步骤8，将参与抵扣的购方纳税人信息和***信息，统计整理形成风险企业清单和报告。

优选地，步骤2具体包括：

步骤2.1，将每个商品编码下的全量***数据作为一篇文本，进行分词，获得每个词语的TF-IDF值，筛选每个商品编码的正向关键词；

步骤2.2，以快速文本分类算法计算商品编码的文本向量，以文本向量计算不同商品编码间的相似度；

步骤2.3，相似度大于阈值的商品编码合并为商品分类；

步骤2.4，选择设定的商品分类CA。

优选地，步骤2.1具体包括：

步骤2.1.1，提取每个商品编码下的全量***数据，作为一篇文本，去除停用词、分词去重后形成分词向量；

步骤2.1.2，计算该商品编码的分词向量中每个词语的TF值；

步骤2.1.3，提取样本数据库全量***数据，作为一篇文本，去除停用词、分词去重后形成分词向量，计算每个词语的IDF值；

步骤2.1.4，使用步骤2.1.2和步骤2.1.3的计算结果，计算该商品编码的分词向量中每个词语的TF-IDF值；TF值是指词频值，IDF值是指逆文本频率指数值。

步骤2.1.5，筛选商品编码sp_j的正向关键词，形成描述特征词集合s1_jc。

优选地，步骤2.1.5具体包括：

以如下公式计算商品编码sp_j各个分词的

占商品编码sp_j下所有词语TF-IDF值之和的比例/>

式中：

τ表示商品编码sp_j去除停用词、分词去重后词语的数量；

将

按照从大到小排序，并且从大到小开始累加，累加至首次超过阈值β，将这些词语作为商品编码sp_j的正向关键词，将正向关键词作为当前***数据的描述特征词，形成描述特征词集合s1_jc。

优选地，步骤2.2具体包括：

步骤2.2.1，使用fastText算法获得描述特征词集合s1_jc中每个词语的词向量，与其TF-IDF值相乘，全部分词的乘积结果求和，获得该商品编码的文本向量；

步骤2.2.2，使用文本向量，通过余弦相似度公式计算任意两个商品编码的相似度。

优选地，以

表示分词词语w_p经过fastText模型训练出来的词向量，以D_j表示商品编码sp_j的***文本向量，以如下公式计算D_j，

式中：

商品编码sp_j的分词w_is1j即全量***数据分词中的w_p，

s1_jc表示商品编码sp_j的描述特征词集合。

优选地，步骤3具体包括：

步骤3.1，提取商品类别CA下的全量***数据，作为一篇文本，去除停用词、分词去重后形成分词向量；

步骤3.2，计算该商品类别CA的分词向量中每个词语的TF值；

步骤3.3，提取样本数据库全量***数据，作为一篇文本，去除停用词、分词去重后形成分词向量，计算每个词语的IDF值；

步骤3.4，使用步骤3.2和步骤3.3的计算结果，计算该商品类别CA的分词向量中每个词语的TF-IDF值；

TF值是指词频值，IDF值是指逆文本频率指数值；

步骤3.5，以商品分类CA的每个词语的TF-IDF值筛选商品类别CA的正向关键词；

步骤3.6，形成商品类别CA的正向关键词集合SET_正，将正向关键词集合加入词袋模型Model_CA。

优选地，步骤4具体包括：

步骤4.1，提取商品类别CA下的全量***数据；

步骤4.2，使用词袋模型Model_CA，筛选出属于商品类别CA的***数据t1和不属于商品类别CA的***数据t2；

步骤4.3，人工筛选***数据t1，筛选不属于商品分类CA的***，形成一篇文本，并进行分词，去除停用词、分词去重后，w_it1表示其中任意一个分词；

步骤4.4，若任意一个分词w_it1∈SET_正，则从SET_正中删除该分词w_it1；对不属于正向关键词集合SET_正的分词，判断该分词的TF值是否超过阈值，若超过阈值，将该分词加入反向关键词集合SET_反；

步骤4.5，人工筛选***数据t2，筛选属于商品分类CA的***，形成一篇文本，并进行分词，去除停用词、分词去重后，w_it2表示其中任意一个分词，判断该分词的TF值是否超过阈值，若超过阈值，将该分词加入正向关键词集合SET_正；

步骤4.6，以步骤4.4、步骤4.5修正过的正向关键词集合SET_正和以及步骤4.4形成的反向关键词集合SET_反更新词袋模型Model_CA。

优选地，步骤5具体包括：

步骤5.1，提取商品类别CA下的全量***数据，即提取商品类别CA下所有商品编码下的全量***数据；

步骤5.2，使用词袋模型Model_CA，筛选出属于商品类别CA的***数据D1；

步骤5.3，提取非商品类别CA下的全量***数据，即提取全量***中非当前商品类别CA下所有商品编码下的***数据；

步骤5.4，使用词袋模型Model_CA，筛选出属于商品类别CA的***数据D2；

步骤5.5，计算两个文本数据的差集D2-D1，形成一篇差集文本s4_j，对于差集文本s4_j，提取反向关键词，更新反向关键词集合SET_反，进而获得最终的词袋模型Model_CA。

优选地，步骤7具体包括：从全量增值税***中筛选出指定商品类别的***后，判断***是否在认证***数据集中，如果不在，该***不是虚抵***；如果在，统计接收该***的纳税人对应申报期内，总认证***税额和当期进项抵扣税额，如果两个数值相等，则该***参与了进项抵扣，属于虚抵***；如果两个数值不相等，计算总认证***税额与当期进项抵扣税额差值，如果差值小于该***税额值，则该***参与了进项抵扣，属于虚抵***，否则，该***存在虚抵风险，需要实地核查。

本发明的有益效果在于，与现有技术相比，本发明极大降低了现有税务人员筛查虚抵***人工工作量，并且本发明提供风险企业清单和报告，税务人员仅通过阅读报告，即可明确风险企业存在的问题，快速做出处理判断，极大提高了税务人员核实风险企业的效率。

具体而言，本发明使用关键词提取机器学习模型，并与深度学习模型fastText词向量相结合，将相似商品编码合并。使用正向关键词提取和反向关键词提取的算法，高效提取语义关键词，极大程度上减少了人工工作量。在实际业务应用中，结合人工校验去除数据错误的影响因素，分类准确率可达98％+。在找出指定商品类别***后，该方法能够准确判断***是否为虚抵***，快速精准定位风险。

附图说明

图1为本发明的整体实现流程图；

图2为将相似度高于阈值的商品编码合并为商品类别的流程图；

图3为商品编码各个分词的TF-IDF的计算流程图；

图4为形成正向关键词集合并加入词袋模型的流程图；

图5为修正词袋模型的流程图；

图6为形成最终词袋模型的流程图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，本发明提供了一种基于关键词提取和快速文本分类的***虚抵风险评估方法，包括以下步骤：

步骤1，提取待评估地区的全量***原始数据，建立增值税***样本数据库。

提取待评估地区的全量***原始数据，包含增值税专用***、增值税普通***、电子***和卷式***。合并生成的数据表中，包含***代码、***号码、销方企业id、购方企业id、货物名称、商品编码、开票日期、***金额、***税额和***类型，10个主要字段。

步骤2，提取每个商品编码下的全量***数据，将每个商品编码下的全量***数据作为一篇文本，提取正向关键词，计算不同商品编码间的相似度，将商品编码相似度不小于阈值的商品编码合并为一个商品类别，并选定设定的商品类别。如图2所示，步骤2具体包括：

步骤2.1，将每个商品编码下的全量***数据作为一篇文本，进行分词，获得每个词语的TF-IDF值，筛选每个商品编码的正向关键词。如图3所示，步骤2.1具体包括：

步骤2.1.1，以SP表示商品编码向量，SP＝(sp₁,sp₂,…,sp_j,…,sp_N)，sp_j表示第j个商品编码，N表示商品编码数量，j＝1,2,…,N，提取商品编码sp_j下的全量***数据，作为一篇文本，以s1_j表示，对s1_j进行分词，以FC_s1j表示s1_j的分词向量，FC_s1j＝(w_1s1j,w_2s1j,…,w_is1j,…,w_τs1j)，w_is1j表示FC_s1j的第i个词语，τ表示FC_s1j中去除停用词、分词去重后词语的数量，i＝1,2,…,τ。

步骤2.1.2，以

表示分词向量FC_s1j中第i个词语w_is1j的TF(Term Frequency，词频值)，以如下公式计算/>

式中：

n_ij表示词语w_is1j在商品编码sp_j中出现的次数，

s_ij表示词语w_is1j在商品编码sp_j下***对应的总税额，

表示商品编码sp_j中所有词语出现次数之和，

表示商品编码sp_j中所有词语对应的总税额。

步骤2.1.3，对全量***数据进行分词，去除停用词、分词去重后，计算每个词语的IDF值。

将全量***数据作为一篇文本s_total，以FC表示s_total的分词向量，FC＝(w₁,w₂,…,w_p,…,w_to)，w_p表示FC的第p个词语，to表示FC中去除停用词、分词去重后词语的数量，p＝1,2,…,to，以

表示w_p的IDF(Inverse Document Frequency，逆文本频率指数值)，以如下公式计算/>

式中：

分子N表示商品编码数量，即由每个商品编码形成的单篇文本的数量，

|{j：w_p∈s1_j}|表示当n_ij≠0时，包含词语w_p的商品编码数量，即包含词语w_p的单篇文本的数量，如果词语w_p不在商品编码中，|{j：w_p∈s1_j}|为0，为防止分母为0，因此在本发明中使用的分母是1+|{j：w_p∈s1_j}|。

步骤2.1.4，以

表示商品编码sp_j的分词向量FC_s1j中w_is1j的TF-IDF值，以如下公式计算/>

式中：

商品编码sp_j的分词向量FC_s1j中w_is1j即全量***数据分词向量FC中的w_p。

以如下公式计算

占商品编码sp_j下所有词语TF-IDF值之和的比例，

将

按照从大到小排序，并且从大到小开始累加，累加至首次超过阈值β，将这些词语作为商品编码sp_j的正向关键词，将正向关键词作为当前***数据的描述特征词，形成描述特征词集合s1_jc。所属领域技术人员可以任意设置阈值β，一个优选但非限制性的实施方式为，将阈值β设置为80％、85％或90％。

步骤2.2，计算不同商品编码间的相似度。步骤2.2具体包括：

步骤2.2.1，计算商品编码sp_j的文本向量D_j。

fastText是Facebook于2016年开源的一个词向量计算和文本分类工具(https：//github.com/facebookresearch/fastText)。

以V_wp表示分词词语w_p经过fastText模型训练出来的词向量，以D_j表示商品编码sp_j的***文本向量，以如下公式计算D_j。

式中：

商品编码sp_j的分词向量FC_s1j中w_is1j即全量***数据分词向量FC中的w_p，s1_jc表示商品编码sp_j的描述特征词集合。

通常

维度为200，由此生成的文本向量D_j同样是200维，大大降低了计算相似度过程中的计算量。

步骤2.2.2，以sim_ji表示商品编码sp_j的文本向量D_j与商品编码sp_i的文本向量D_i之间的相似度，以如下公式计算sim_ji。

式中：

j,i＝1,2,…,N,j≠i，sim_ji可以表示两两商品编码的文本向量间的相似度，由此可以生成商品编码相似度矩阵。

由以上公式可知0≤sim_ji≤1，如果sim_ji＝1，则表示商品编码sp_j的文本向量D_j与商品编码sp_i的文本向量D_i完全一致，sim_ji值越小，表示商品编码sp_j的文本向量D_j与商品编码sp_i的文本向量D_i越不相关。

步骤2.3，相似度大于阈值的商品编码合并为商品分类。

将商品编码相似度不小于阈值的商品编码合并为一个商品类别。即，输入待合并的商品编码sp_j，计算商品编码sp_j与其他所有商品编码的相似度，sim_j1,sim_j2,…,sim_jN，从小到大排序相似度。

因为商品编码是按层级划分，即篇、类、章、节、条、款、项、目、子目、细目，一共10个层级。最高层级“篇”有6大类，分别是货物、劳务、销售服务、无形资产、不动产和未发生销售行为的不征税项目。第二层级“类”是在最高层级“篇”的基础上进一步细分，以此类推，参见国家税务总局公告2017年第45号，《关于增值税***管理若干事项的公告》附件：商品和服务税收分类编码表。

所属领域技术人员可以任意设定相似度阈值α，一个优选但非限制性的实施方式为，相似度阈值α的取值范围为0.5≤α≤0.6，如果sim_ji≥α，且商品编码sp_j与商品编码sp_i均在同一第四层级以内，则商品编码i与商品编码j合并，形成商品类别，以N′表示商品类别数量。

步骤2.4，通过输入商品编码或其正向关键词，可获得该商品编码所属的商品分类，以CA表示。例如，输入“餐饮”即可获得餐饮对应的商品分类。

步骤3，提取设定的商品类别CA下的全量***数据，将商品类别CA下的全量***数据作为一篇文本，提取正向关键词，形成正向关键词集合，将正向关键词集合放入词袋模型。步骤3中的正向关键词提取与步骤2中正向关键词提取步骤相同，区别在于步骤2将每个商品编码下的全量***数据作为一篇文本，步骤3将商品类别CA下的全量***数据作为一篇文本。如图4所示，步骤3具体包括：

步骤3.1，提取商品类别CA下的全量***数据，即提取商品类别CA下的全部商品编码的全量***数据，作为一篇文本，以s2_j表示商品类别CA下的全量***形成的一篇文本，对s2_j进行分词，以FC_s2j表示s2_j的分词向量，FC_s2j＝(w_1s2j,w_2s2j,…,w_is2j,…,w_τ′s2j)，w_is2j表示FC_s2j的第i个词语，τ′表示FC_s2j中去除停用词、分词去重后词语的数量，i＝1,2,…,τ′。

步骤3.2，以

表示分词向量FC_s2j中w_is2j的TF值，以如下公式计算/>

式中：

n_ij表示词语w_is2j在商品类别CA中出现的次数，

s_ij表示词语w_is2j在商品类别CA中对应的总税额，

表示商品类别CA中所有词语出现次数之和，

表示商品类别CA中所有词语对应的总税额。

步骤3.3，以

表示全部商品类别的分词向量FC中第q个词语w_q的IDF值，以如下公式计算/>

式中：

分子N′表示商品类别总数。

|{j：w_q∈s2_j}|表示当n_ij≠0时，包含词语w_q的商品类别数量，如果词语w_q不在商品类别CA中，|{j：w_q∈s2_j}|为0，因此在本发明中使用的分母是1+|{j：w_i∈s2_j}|。

步骤3.4，以

表示w_is2j的TF-IDF值，以如下公式计算/>

式中：

商品类别CA的分词向量FC_s2j中w_is2j即全量***数据分词向量FC中的w_q。

步骤3.5，筛选商品类别CA的正向关键词。

以如下公式计算

占商品分类CA下所有词语TF-IDF值之和的比例，

将

按照从大到小排序，并且从大到小开始累加，累加至首次超过阈值β′，将这些词语作为商品类别CA的正向关键词。所属领域技术人员可以任意设置阈值β′，一个优选但非限制性的实施方式为将阈值β′设置为80％、85％或90％。

步骤3.6，形成商品类别CA的正向关键词集合，将正向关键词集合加入词袋模型。

以SET_正表示正向关键词结合，

SET_正＝(w_正1,w_正2,…,w_正i,…,w_正ω)，w_正i表示其中的第i个正向关键词，ω表示SET_正中正向关键词数量，i＝1,2,…,ω。

以Model_CA表示商品分类CA的词袋模型，将SET_正加入词袋模型Model_CA。

词袋模型Model_CA可以用于判断未知商品类型的***是否属于该商品类型CA，例如，一张未知商品类型的***x，对该***进行分词，去除停用词、分词去重后，以w_ix表示其中任意一个分词，

式中：

Model_CA表示商品类别CA的词袋模型。

步骤4，使用词袋模型Model_CA筛选当前商品类别CA的全量***数据，人工筛选出词袋模型Model_CA的错误筛选结果，形成反向关键词集合，更新正向关键词集合，更新词袋模型Model_CA。如图5所示，步骤4具体包括：

步骤4.1，提取商品类别CA下的全量***数据，即提取商品类别CA下所有商品编码下的全量***数据。

步骤4.2，使用词袋模型Model_CA，筛选出属于商品类别CA的***数据t1和不属于商品类别CA的***数据t2。

步骤4.3，人工筛选***数据t1，筛选不属于商品分类CA的***，形成一篇文本，并进行分词，去除停用词、分词去重后，w_it1表示其中任意一个分词。

步骤4.4，若任意一个分词w_it1∈SET_正，则从SET_正中删除该分词w_it1；对不属于正向关键词集合SET_正的分词，判断该分词的TF值是否超过阈值，若超过阈值，将该分词加入反向关键词集合SET_反，SET_反＝(w_反1,w_反2,…,w_反i,…,w_反δ)。

步骤4.5，人工筛选***数据t2，筛选属于商品分类CA的***，形成一篇文本，并进行分词，去除停用词、分词去重后，w_it2表示其中任意一个分词，判断该分词的TF值是否超过阈值，若超过阈值，将该分词加入正向关键词集合SET_正。

同样地，更新后的词袋模型Model_CA可以用于判断未知商品类型的***是否属于该商品类型CA，例如，一张未知商品类型的***x，对该***进行分词，去除停用词、分词去重后，以w_ix表示其中任意一个分词，

式中：

Model_CA表示商品类别CA的词袋模型，

SET_正表示词袋模型Model_CA中的正向关键词集合，

SET_反表示词袋模型Model_CA中的反向关键词集合。

步骤5，使用步骤4更新后的词袋模型Model_CA分别在全量***中当前商品类别CA下的***数据和非当前商品类别CA下的***数据中，筛选出属于商品类别CA的***数据，计算差集后提取反向关键词，以新获得的反向关键词更新SET_反，进而获得最终的词袋模型Model_CA。如图6所示，步骤5具体包括：

步骤5.5，计算两个文本数据的差集D2-D1，形成一篇差集文本s4_j，对于差集文本s4_j，提取反向关键词，更新反向关键词集合SET_反。提取反向关键词包括：

对文本数据s4_j分词，去除停用词、分词去重后，以FC_s4j表示s4_j的分词向量，FC_s4j＝(w_1s4j,w_2s4j,…,w_is4j,…,w_τ″′_s4j)，w_is4j表示FC_s4j的第i个词语，τ″′表示FC_s4j中去除停用词、分词去重后词语的数量，i＝1,2,…,τ″′。

以

表示与商品类别不符的文本数据s4_j的分词向量FC_s4j中w_is4j的TF值，以如下公式计算/>

式中：

分子n_ij表示词语w_is4j在文本数据s4_j中出现的次数。

分母

表示FC_s4j中全部词语在文本数据s4_j中出现的次数总和。

将FC_s4j的全部词语按照

从大到小排序，设定阈值γ′，如果/>

则w_is4j可作为反向关键词。以新获得的反向关键词更新SET_反，进而获得最终的词袋模型Model_CA。

步骤6，输入待评估地区待评估时间段内的全量增值税***。

步骤7，利用步骤5中的最终词袋模型Model_CA，从全量增值税***中筛选出指定商品类别的***，进行***抵扣对比，判断购方纳税人是否将***用于销项税额抵扣。

从全量增值税***中筛选出指定商品类别的***后，判断***是否在认证***数据集中，如果不在，该***不是虚抵***。如果在，统计接收该***的纳税人对应申报期内，总认证***税额和当期进项抵扣税额，如果两个数值相等，则该***参与了进项抵扣，属于虚抵***。如果两个数值不相等，计算总认证***税额与当期进项抵扣税额差值，如果差值小于该***税额值，则该***参与了进项抵扣，属于虚抵***，否则，该***存在虚抵风险，需要实地核查。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于关键词提取和快速文本分类的***虚抵风险评估方法，其特征在于，包括以下步骤：

步骤1，建立待评估地区增值税***样本数据库；

步骤2，将商品编码相似度不小于阈值的商品编码合并为一个商品类别，并选定设定的商品类别CA；包括：

步骤2.1，将每个商品编码下的全量***数据作为一篇文本，进行分词，获得每个词语的TF-IDF值，筛选每个商品编码的正向关键词；具体包括：

步骤2.1.1，以SP表示商品编码向量，SP＝(sp₁,sp₂,…,sp_j,…,sp_N)，sp_j表示第j个商品编码，N表示商品编码数量，j＝1,2,…,N，提取商品编码sp_j下的全量***数据，作为一篇文本，以s1_j表示，对s1_j进行分词，以FC_s1j表示s1_j的分词向量，FC_s1j＝(w_1s1j,w_2s1j,…,w_is1j,…,w_τs1j)，w_is1j表示FC_s1j的第i个词语，τ表示FC_s1j中去除停用词、分词去重后词语的数量，i＝1,2,…,τ；

步骤2.1.2，计算该商品编码的分词向量中每个词语的TF值；

步骤2.1.4，使用步骤2.1.2和步骤2.1.3的计算结果，计算该商品编码的分词向量中每个词语的TF-IDF值；TF值是指词频值，IDF值是指逆文本频率指数值；

步骤2.1.5，筛选商品编码sp_j的正向关键词，形成描述特征词集合s1_jc，以如下公式计算商品编码sp_j各个分词的

占商品编码sp_j下所有词语TF-IDF值之和的比例

式中：

表示商品编码sp_j的分词向量FC_s1j中w_is1j的TF-IDF值；

τ表示商品编码sp_j去除停用词、分词去重后词语的数量；

将

按照从大到小排序，并且从大到小开始累加，累加至首次超过阈值β，将这些词语作为商品编码sp_j的正向关键词，将正向关键词作为当前***数据的描述特征词，形成描述特征词集合s1_jc；

步骤2.3，相似度大于阈值的商品编码合并为商品分类；

步骤2.4，选择设定的商品分类CA；

步骤3，提取商品类别CA下的全量***数据作为一篇文本，提取正向关键词，形成正向关键词集合SET_正，将其放入词袋模型Model_CA；

步骤4，使用词袋模型Model_CA筛选当前商品类别CA的全量***数据，人工筛选出错误筛选结果，形成反向关键词集合SET_反，将其放入词袋模型Model_CA，更新正向关键词集合SET_正，进而更新词袋模型Model_CA；包括：

步骤4.1，提取商品类别CA下的全量***数据；

步骤4.6，以步骤4.4、步骤4.5修正过的正向关键词集合SET_正和以及步骤4.4形成的反向关键词集合SET_反更新词袋模型Model_CA；

步骤6，输入待评估地区待评估时间段内的全量增值税***；

2.根据权利要求1所述的基于关键词提取和快速文本分类的***虚抵风险评估方法，其特征在于：

步骤2.2具体包括：

步骤2.2.1，使用快速文本分类算法，即使用fastText算法获得描述特征词集合s1_jc中每个词语的词向量，与其TF-IDF值相乘，全部分词的乘积结果求和，获得该商品编码的文本向量；

3.根据权利要求2所述的基于关键词提取和快速文本分类的***虚抵风险评估方法，其特征在于：

以

式中：

商品编码sp_j的分词w_is1j即全量***数据分词中的w_p，

s1_jc表示商品编码sp_j的描述特征词集合。

4.根据权利要求1至3中任一项所述的基于关键词提取和快速文本分类的***虚抵风险评估方法，其特征在于：

步骤3具体包括：

步骤3.2，计算该商品类别CA的分词向量中每个词语的TF值；

TF值是指词频值，IDF值是指逆文本频率指数值；

5.根据权利要求4所述的基于关键词提取和快速文本分类的***虚抵风险评估方法，其特征在于：

步骤5具体包括：

6.根据权利要求5所述的基于关键词提取和快速文本分类的***虚抵风险评估方法，其特征在于：

步骤7具体包括：从全量增值税***中筛选出指定商品类别的***后，判断***是否在认证***数据集中，如果不在，该***不是虚抵***；如果在，统计接收该***的纳税人对应申报期内，总认证***税额和当期进项抵扣税额，如果两个数值相等，则该***参与了进项抵扣，属于虚抵***；如果两个数值不相等，计算总认证***税额与当期进项抵扣税额差值，如果差值小于该***税额值，则该***参与了进项抵扣，属于虚抵***，否则，该***存在虚抵风险，需要实地核查。