CN109948645A - 一种基于深度对抗迁移学习的企业偷漏税识别方法 - Google Patents

一种基于深度对抗迁移学习的企业偷漏税识别方法 Download PDF

Info

Publication number
CN109948645A
CN109948645A CN201910065095.8A CN201910065095A CN109948645A CN 109948645 A CN109948645 A CN 109948645A CN 201910065095 A CN201910065095 A CN 201910065095A CN 109948645 A CN109948645 A CN 109948645A
Authority
CN
China
Prior art keywords
network
tax
data
parameter
evading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910065095.8A
Other languages
English (en)
Inventor
郑庆华
吴映潮
高宇达
阮建飞
董博
宓玲云
李碧婷
吴琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910065095.8A priority Critical patent/CN109948645A/zh
Publication of CN109948645A publication Critical patent/CN109948645A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度对抗迁移学习的企业偷漏税识别方法,包括:首先,基于随机森林算法对源区域和目标区域的纳税数据进行预处理,提取出有助于偷漏税识别的纳税人属性;其次,引入深度神经网络构建多地区企业偷漏税识别模型框架,依据预处理后的数据确定网络模型的输入神经元个数;再次,使用预处理后的数据训练偷漏税识别模型的网络参数,得到适用于目标区域的偷漏税识别模型;最后,利用训练得到的偷漏税识别模型对目标区域的纳税数据进行识别。本发明通过利用源区域的纳税数据,构建适用于目标区域的偷漏税识别模型,解决了因目标区域缺乏标记数据而无法对其进行企业偷漏税识别建模的问题。

Description

一种基于深度对抗迁移学习的企业偷漏税识别方法
技术领域
本发明属于税务稽查技术领域,特别涉及一种基于深度对抗迁移学习的企业偷漏税识别方法。
背景技术
税收是国家的重要财政收入来源,是保障社会建设与发展的重要经济支撑。然而,随着税务行业信息化建设的飞速发展,税收数据规模快速增长,现今我国每年税务相关业务记录的数量高达10亿量级,如此庞大的数据规模给税务审计工作带来了巨大的压力。传统以人工审计为主的偷漏税检测方式效率低,缺乏准确性,审计过程对税务人员的专业性依赖过大,且基于计算机技术的偷漏税检测尚在发展阶段,因技术原因造成的税务收入流失率已高达12%。因此,如何科学、快速、高效地检测偷漏税行为已成为一个亟待解决的问题。
目前基于计算机的偷漏税检测手段主要依赖于机器学习技术,从大量的历史数据中提取与偷漏税相关的特征进行训练,获得可用于税务检测的模型。然而,由于税务标记代价巨大,大部分地区的数据是未经过标记的,基于机器学习的检测方法只能应用于标记数据丰富的少数地区。同时,由于不同地区之间的数据分布存在差异,检测模型无法跨区域使用。如何借助训练数据完备地区的偷漏税检测模型对其他数据标记不完备的地区进行偷漏税检测已成为一个重要且具有挑战性的问题。
以下文献提供了可参考的利用纳税数据进行企业偷漏税识别的技术解决方案:
文献1.一种纳税风险评估***(201510444634.0);
文献2.Logit模型在纳税评估中的应用[J].统计与决策,2008(05):71-73;
文献3.基于SVM与SOM的税务稽查选案模型研究[J].科学技术与工程,2009(14):4027-4031。
文献1提出一种纳税风险评估***,该***主要包括一种用于收集并处理多方数据来源的处理单元,该数据处理单元由内部数据采集模块、第二方数据导入模块和第三方数据采集模块构成,评估数据的多元化使得偷漏税识别工作更全面、有效。
文献2指出纳税评估模型的设定直接影响评估的效果,把Logit模型应用到纳税评估工作中,并进一步对模型进行参数估计和预测分析,对偷漏税识别取得准确的评估结果。
文献3提出了一种基于支持向量机(SVM)与自组织特征映射(SOM)神经网络相结合的稽查选案方法。首先基于支持向量机(SVM)对纳税人进行分类,然后采用自组织映射神经网络(SOM)对疑点信息进行聚类,选出需要重点进行稽查的目标对象。通过实例的具体测试证明了模型的有效性。
以上文献所述方法主要存在以下问题:文献1所使用的评价数据及所设置的风险指标均依赖于税务人员的手动标记,数据的标记需要花费大量的时间,使得模型的可行性很低。文献2和文献3的识别模型要求源区域和目标区域的纳税数据符合独立同分布的特性,不能解决因不同地区数据特征分布不同而不能有效地跨地区进行偷漏税检测的问题。
针对上述文献中存在的不足,为了给缺乏标记数据的地区建立偷漏税检测模型,引入了基于深度对抗迁移学***衡状态,这种平衡意味着特征提取部分具备提取不同区域数据共同特征的能力,利用共同的数据特征即可实现跨区域的偷漏税识别。
发明内容
本发明的目的在于针对上述现有技术的不足,提供了一种基于深度对抗迁移学习的企业偷漏税识别方法。本发明通过利用源区域的纳税数据,构建适用于目标区域的偷漏税识别模型,解决了因目标区域缺乏标记数据而无法对其进行企业偷漏税识别建模的问题。
本发明采取如下技术方案实现的:
一种基于深度对抗迁移学习的企业偷漏税识别方法,首先,基于随机森林算法对源区域和目标区域的纳税数据进行预处理,提取出有助于偷漏税识别的纳税人属性;其次,引入深度神经网络构建多地区企业偷漏税识别模型框架,依据预处理后的数据确定网络模型的输入神经元个数,该模型框架由特征提取网络、区域判别网络、偷漏税识别网络三部分组成,为了使偷漏税识别网络在目标区域上有较好的识别性能,区域判别网络调整特征提取网络的特征提取能力,使得特征提取网络可以提取出源区域和目标区域纳税数据的共同特征;再次,使用预处理后的数据训练偷漏税识别模型的网络参数,得到适用于目标区域的偷漏税识别模型;最后,利用训练得到的偷漏税识别模型对目标区域的纳税数据进行识别。
本发明进一步的改进在于,具体包括以下步骤:
1)纳税数据预处理
纳税数据中不是所有的纳税人属性都有助于企业偷漏税识别,只有少部分的属性有助于偷漏税识别;因此对纳税数据进行预处理,并采用随机森林算法提取出有助于偷漏税识别的纳税人属性;
2)构建区域间企业偷漏税识别模型框架
基于深度对抗迁移学习的企业偷漏税识别模型框架由三部分组成:特征提取网络、区域判别网络和偷漏税识别网络;其中特征提取网络以预处理后的数据作为输入,提取出不同地区纳税数据的共同特征,区域判别网络和偷漏税识别网络以特征提取网络的输出作为输入,区域判别网络用于判别数据来源于哪一区域,偷漏税识别网络用于识别纳税数据是否存在偷漏税行为;
3)确定偷漏税识别模型的网络参数
Step1.初始化网络模型参数
神经网络的训练过程中参数调整是基于梯度下降法进行优化的,梯度下降法在训练开始给每一个参数赋予初始值,当网络层数较深时,初值的选取对模型的性能影响很大,所以设置合适的初值是非常必要的;为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化;
Xavier初始化以均匀分布的方式实施初始化,具体形式如下:
其中n是参数所在层的输入维度,m是参数所在层的输出维度,θ=[θfyd]是参数矩阵,θfyd分别代表特征提取网络、偷漏税识别网络和区域判别网络的参数;
Step2.确定优化目标
特征提取网络、区域判别网络和偷漏税识别网络,其分别对应的参数θfyd的选择需要权衡偷漏税识别网络和区域判别网络的结果;如果只考虑偷漏税识别网络,训练出来的模型可能出现过拟合现象,使得网络对源区域的纳税数据具有很好的识别能力但是对目标区域的纳税数据的识别效果很差;因此要保证特征提取网络所提取的特征是两个区域纳税数据的共同特征,同时偷漏税识别网络利用提取的特征准确地进行偷漏税识别;
特征提取网络提取共同特征的能力由区域判别网络的损失表示,损失函数越大代表特征网络的提取能力越好;偷漏税识别网络的损失表示偷漏税识别的效果,损失函数越小代表偷漏税识别效果越好;为了最小化偷漏税识别网络的损失函数同时最大化区域判别网络的损失函数,在优化目标中给区域判别网络的损失函数取反,最终得到的整个模型的损失函数,以最小化整体的损失函数为优化目标;
最小化整体的损失函数的形式化表达为:
其中θfyd分别代表特征提取网络、偷漏税识别网络和区域判别网络的参数,是偷漏税识别网络的损失函数,表示由第i条源区域的纳税数据得出的偷漏税损失,n表示源区域纳税数据的数量;是区域判别网络的损失函数,表示由第i条纳税数据得出的区域判别损失,n′表示目标区域纳税数据的数量,N表示源区域和目标区域的数据总量;其中λ是平衡系数;
使用BP算法调整模型的网络参数,BP算法参数调整是从网络的输出层开始从后向前调整,因此模型参数调整的过程先调整偷漏税识别网络参数,然后调整区域判别网络参数,最后调整特征提取网络参数;
Step3.调整偷漏税识别网络参数θy
利用Step2确定的优化目标调整偷漏税识别网络的参数,通过找到参数使得
在实际训练中先初始化参数然后利用BP算法更新参数,更新的方法如下:
其中Gy表示偷漏税识别网络,θy是偷漏税识别网络参数,μ是学习速率;
Step4.调整区域判别网络参数θd
利用Step2确定的优化目标调整区域判别网络的参数,通过找到参数使得
在实际训练中先初始化参数然后利用BP算法更新区域判别网络参数,更新的方法如下:
其中Gd表示区域判别网络,θd是区域判别网络参数,μ是学习速率;
Step5.调整特征提取网络参数θf
利用Step2确定的优化目标调整特征提取网络的参数,通过找到参数使得
在实际训练中先初始化参数然后利用BP算法更新特征提取网络参数,更新的方法如下:
其中Gf表示特征提取网络,θf是特征提取网络参数,μ是学习速率;
θf的更新过程需要对区域判别网络的梯度进行反转,使得特征提取网络所提取的特征是不同区域纳税数据的共同特征,为实现梯度反转,引入特殊梯度反转层;
梯度反转层在特征提取网络Gf和区域判别网络Gd之间,当反向传播过程通过梯度反转层时,梯度反转层将梯度乘以-1,即变为将梯度反转层视为一个函数由描述其前向和反向传播行为的两个方程分别为:
其中I是单位矩阵,确定模型参数之后利用特征提取网络和偷漏税识别网络即可识别目标区域的纳税数据是否具有偷漏税行为;
4)企业偷漏税识别
根据预测模型识别目标区域的纳税数据是否存在偷漏税行为,将所要识别的纳税数据经过预处理输入到特征提取网络,然后利用特征提取网络的输出作为偷漏税识别网络的输入,根据偷漏税识别网络的输出判断是否具有偷漏税行为,偷漏税识别网络输出结果大于0.5即存在偷漏税行为。
本发明进一步的改进在于,步骤1)中,数据预处理具体步骤如下:
Step1.构建随机森林
用有放回抽样的方法从源区域带标记的纳税数据中选取m个样本作为训练集,从所有的纳税人属性中抽取n个属性作为决策树分类特征;利用信息增益选取最优属性,以该属性作为决策树分支准则创建决策树,且决策树的生成过程不做任何减枝,重复有放回抽样k次,生成k个决策树;
Step2.对随机森林中每个节点计算对应纳税人属性的基尼指数
在随机森林中,使用基尼指数来表示每个决策树中纳税人属性的重要性,使用下式计算基尼指数:
其中|D|表示从源区域带标记的纳税数据中选取的样本数量,q表示纳税人属性,n表示类别的数量这里的类别有两种即偷漏税和非偷漏税,表示数据D中第i类的比率,V表示属性q的所有可能取值的集合,|Dv|表示属性q的值是V的所有数据的数量,表示数据DV中第i类的比率;
Stept3.计算纳税人属性的Gini Importance(GI)
用Gini Importance(GI)表示纳税人属性在随机森林中的重要性,利用Step2计算的基尼指数,使用下式计算每个属性的GI:
其中q表示纳税人属性,n表示属性q在随机森林中分割节点的次数,C(i)表示样本***的数量;
Step4.选取核心纳税人属性
选取对偷漏税识别影响大的纳税人属性作为偷漏税识别模型的输入简化模型的复杂度,对于每一个纳税人属性,GI代表了该属性在随机森林中的重要程度,选取前N个GI值最大的纳税人属性用于偷漏税识别。
本发明进一步的改进在于,步骤2)中,特征提取网络、区域判别网络和偷漏税识别网络这三个部分都是深度神经网络,具体的构建如下:
Step1.构建特征提取网络
特征提取网络的目的是提取不同区域之间数据的相同特征,同时最大程度的保留不同区域之间数据的特有属性;构造输入层神经元的数量等于数据预处理后数据的总维数;以预处理后的数据作为网络的输入,以特征提取的结果作为网络的输出,记Gf(·;θf)为特征提取网络,参数为θf,具体的特征提取网络采用标准的前馈神经网络,其参数更新采用BP算法;
Step2.构建偷漏税识别网络
令输入层的神经元的数量为特征提取网络输出层的数量,以特征提取网络的输出作为输入;偷漏税识别网络是一个二分类任务的分类器,该网络的输出神经元数量为1,输出结果为区间[0,1]之间的概率值,其中输出大于0.5表示存在偷漏税行为,输出小于0.5表示不存在偷漏税行为;记Gy(·;θy)为企业偷漏税识别网络,参数为θy;以最小化偷漏税识别网络的损失函数为目标,更新网络的参数用于提高偷漏税识别网络的识别能力,损失函数为:
其中Gy(Gf(x;θf);θy)表示偷漏税识别网络的输出,Gy以θy为参数,以Gf(x;θf)为输入,Gf(x;θf)是特征提取网络的输出,x表示源区域的纳税数据,θf表示特征提取网络的参数,y表示源区域样本数据的标签;
Step3.构建区域判别网络
区域判别网络输入层神经元的数量为特征提取网络输出层的数量,以特征提取网络的输出作为输入;该网络是一个二分类任务的分类器,输出神经元数量为1,输出结果为区间[0,1]之间的概率值,和偷漏税识别网络的输出结果不同,区域判别网络的输出结果表示数据来源于哪个区域,输出结果大于0.5表示数据来源于源区域,输出结果小于0.5表示数据来源于目标区域,记Gd(·;θd)为区域判别网络,参数为θd,损失函数计算区域判别网络的判别能力,其形式化表达为:
其中Gd(Gf(x;θf);θd)表示区域判别网络的输出,Gd以θd为参数以Gf(x;θf)为输入,Gf(x;θf)是特征提取网络的输出,x表示纳税数据,θf表示特征提取网络的参数,d表示纳税数据来源于哪一区域。
本发明具有如下有益的技术效果:
本发明提供的一种基于深度对抗迁移学习的企业偷漏税识别方法,用于解决税务稽查中部分地区缺乏标记数据而无法有效地识别偷漏税行为的难题,与现有技术相比,本发明方法的优点是:
(1)人力投入少,训练过程中不需要对目标区域数据进行标注,省去了人工标记数据的步骤。
(2)可迁移性好,本发明提供了多区域企业偷漏税识别的统一模型,该模型不受区域的限制,对任意一个区域都可以根据源区域的数据进行偷漏税检测。
(3)网络结构可以复用,可利用相同的网络结构对不同区域进行偷漏税检测,不需要重新设计网络结构。
附图说明
图1整体框架流程示意图。
图2纳税人属性筛选示意图。
图3多地区企业偷漏税识别模型框架网络结构示意图。
图4特征提取网络结构示意图。
图5偷漏税识别网络和区域判别网络结构示意图。
图6偷漏税识别模型网络参数确定示意图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图和实施例对本发明一种基于深度对抗迁移学习的企业偷漏税识别方法进行详细描述。
如图1所示,本实施例中源区域为广东省,目标区域为陕西省,借用广东省带标记的纳税数据对陕西省偷漏税识别进行建模。本发明提供的一种基于深度对抗迁移学习的企业偷漏税识别方法,包括以下几个步骤:
步骤1.纳税数据预处理
首先根据广东省有标注的纳税数据构建随机森林,然后计算每个纳税人属性在随机森林中的重要性,最后选取有助于偷漏税识别的纳税人属性作为企业偷漏税识别模型的输入,具体选取过程如图2所示,具体包括以下步骤:
S201.构建随机森林
(1)本实施例中用有抽样放回的方法从广东省的纳税数据中随机选取1000个纳税数据作为训练集。
(2)用抽样得到的纳税数据生成决策树。在本实施例中从广东省和陕西省所有的纳税人属性中随机抽取200个属性作为决策树分类特征,进行节点***,利用信息增益选取最优属性,以该属性作为决策树分支准则创建决策树,且决策树的生成过程不需要做任何减枝。
(3)重复(1)到(2)共k次,k为随机森林中决策树的个数,本实施例中取k=100。
S202.对每个节点计算对应纳税人属性的基尼指数
本实施例中用基尼指数来表示每个决策树中纳税人属性的重要性,以ZCZB(注册资本)为例使用下式计算基尼指数:
其中D表示从广东省税务数据中选取的样本数量,q表示注册资本,ni=2表示类别数量偷漏税和非偷漏税,表示数据D中第i类的比率,V表示注册资本所有可能取值的集合,Dv表示注册资本的值是V的所有数据,表示数据DV中第i类的比率。
S203.计算纳税人属性的Gini Importance
本实施例中用GI代表纳税人属性在随机森林中的重要性,以ZCZB(注册资本)为例,利用S202计算的基尼指数计算注册资本的GI,形式化的表示为:
其中q表示注册资本,n表示注册资本在随机森林中分割节点的次数,C(i)表示样本***的数量,Gini(D,q)为决策树中的基尼指数。D表示从广东省税务数据中选取的样本数量。
S204.选取核心纳税人属性
根据S203中计算出每个纳税人属性的GI选取对偷漏税识别帮助大的属性,GI值越大代表该属性在偷漏税识别随机森林中对于偷漏税识别结果的影响越大,这里选取前20个GI最大的属性作为企业偷漏税识别模型的输入。选取出的纳税人属性包括:{FP_ZZSZYFP_XFJSHJ_MEDIAN,ZCDZ_NUM,BSRAGE,FP_ZZSZYFP_XFJSHJ_MEAN,SB_ZZS_2003_SJDKSE_RATIO_AVG,CWFZRAGE,BSR_AREA,TZZE,CYRS,FP_ZZSZYFP_CZGPTS_SUM,SB_ZZS_2003_YDKSEHJ_RATIO_AVG,FP_ZZSZYFP_CZKPTS_SUM,SB_ZZS_2003_YNSE_RATIO_AVG,FDDBRAGE,ZCZB,KYSLRQ_MONTH,FP_ZZSZYFP_SYQYGS_SUM,SWHZDJRQ_MONTH,FDDBR_AREA,CWFZR_AREA},代表含义分别为:{销方价税合计中位数,注册登记地址合计,办税人年龄,销方价税合计平均值,实际抵扣税额平均值,财务负责人年龄,办税人所属区域,投资总额,从业人数,存在购票天数总和,应抵扣税额合计,存在开票天数总和,应纳税额平均值,法定代表人年龄,注册资本,开业设立日期,上游企业个数总和,税务核准登记日期月份,法定代表人所属区域,财务负责人所属区域}。用这20个纳税人属性作为企业偷漏税识别模型的输入。
步骤2.构建区域间企业偷漏税识别模型框架
使用广东省和陕西省的纳税数据所训练的模型根据步骤1得到的特征向量作为输入,预测纳税数据是否存在偷漏税行为。图3是预测模型的网络结构示意图,该网络结构由三部分组成:特征提取网络,偷漏税识别网络和区域判别网络。特征提取网络以预处理后的数据作为输入,提取出不同地区纳税数据的共同特征。区域判别网络和偷漏税识别网络以特征提取网络的输出作为输入,区域判别网络用于判别数据来源于哪一区域,偷漏税识别网络用于识别纳税数据是否存在偷漏税行为。
构建区域间企业偷漏税识别模型框架的详细构建步骤如下:
(1)特征提取网络结构设计
特征提取网络提取广东省和陕西省纳税数据的共同特征,使得偷漏税识别网络可以检测不同区域的偷漏税。本发明设计特征提取网络为一个四层的深度神经网路如图4所示,根据步骤1得到的纳税人属性维数确定特征提取网络的输入神经元个数N,本实施例中N为20,第二层和第三层是隐层网络,网络中神经元的个数为分别为M和K,本实施例中取M和K为60,第四层的神经元个数为提取后特征向量的维数L,本实施例中L为16。
(2)偷漏税识别网络和区域判别网络结构设计
偷漏税识别网络可以利用特征提取网络提取的特征对纳税数据进行偷漏税检测,本实施例中偷漏税识别网络是一个三层的神经网络如图5所示,以S601特征提取网络的输出作为输入,因此输入层神经元的数量等于特征提取网络输出层神经元的数量,即L=P=16。第二层是隐层网络,神经元的个数为Q,本实施例中Q为8。第三层为输出层,该网络是一个二分类任务的神经网络,输出神经元数量S=1,输出结果为区间[0,1]之间的概率值,其中输出结果大于0.5表示存在偷漏税行为,输出结果小于0.5表示不存在偷漏税行为。区域判别网络采用和偷漏税识别网络相同的网络结构,同样是一个三层的神经网络如图5所示,输出结果为区间[0,1]之间的概率值,和偷漏税识别网络的输出结果不同,区域判别网络的输出结果表示数据来源于哪个区域,输出结果大于0.5表示数据来源于广东省,输出结果小于0.5表示数据来源于陕西省。
步骤3.确定偷漏税识别模型的网络参数
偷漏税识别模型网络参数确定的详细步骤如图6所示:
S601.初始化网络模型参数
网络结构确定后,需要确定具体的网络参数。本实施例中所有的网络层都是全连接网络,隐层的激活函数均采用双曲正切函数形式,其形式化表示为:
f(x)=tanh(x)
偷漏税识别网络和区域判别网络的输出层采用sigmoid激活函数,形式化表示为:
模型参数的初始化对于网络的训练很重要,不好的初始化参数会降低训练速度。而好的初始化参数能够加速收敛,并且更可能找到较优解。本例采用Xavier初始化参数,Xavier初始化以均匀分布的方式实施初始化,具体形式如下:
其中n是参数所在层的输入维度,m是参数所在层的输出维度。θ=[θfyd]是参数矩阵,Xavier初始化参数使得信号在经过多层神经元后保持在合理的范围。
S602.确定优化目标
特征提取网络、区域判别网络、偷漏税识别网络,其分别对应的参数的选择需要权衡偷漏税识别网络和区域判别网络的结果。同时考虑偷漏税识别网络和区域判别网络的损失函数,设计优化函数为:
其中是偷漏税识别网络的损失函数,表示由第i条源区域的纳税数据得出的偷漏税损失,n表示源区域纳税数据的数量,本实施例中源区域的纳税数据为广东省带标记的纳税数据,样本数量为10444;是区域判别网络的损失函数,表示由第i条纳税数据得出的′
区域判别损失,n表示目标区域纳税数据的数量,本实施例中目标区域的纳税数据为陕西省不代标记的纳税数据,样本数量为5052,N表示源区域和目标区域的数据总量为15496;其中λ是平衡系数。由于区域判别网络的损失函数越大代表特征提取网络的提取效果越好,而偷漏税识别网络的损失函数越小代表识别效果越好,在优化函数中给区域判别网络的损失函取反就可以最小化优化函数同时优化偷漏税识别网络和特征提取网络。
使用BP算法调整模型的网络参数,BP算法参数调整是从网络的输出层开始从后向前调整,模型参数调整的过程先调整偷漏税识别网络参数,然后调整区域判别网络参数,最后调整特征提取网络参数。
S603.调整偷漏税识别网络参数
输入一条广东省带标记的纳税数据x,其标记为y,y取值为[0,1]之间的概率值,其中输出结果大于0.5表示存在偷漏税行为,输出结果小于0.5表示不存在偷漏税行为。
根据标记计算偷漏税识别网络的识别误差:
使用梯度下降法更新偷漏税识别网络的参数,更新为:
S604.调整区域判别网络参数
输入一条纳税数据x,其标记为d,d输出结果为区间[0,1]之间的概率值,输出结果大于0.5表示数据来源于广东省,输出结果小于0.5表示数据来源于陕西省。根据标记计算区域判别网络的判别误差:
使用梯度下降法更新区域判别网络的参数,更新为:
S605.调整特征提取网络参数
特征提取网络所提取的特征必须是不同地区数据的共同特征,并且提取之后的特征能用来偷漏税识别,对特征提取网络参数的调整要同时考虑偷漏税识别网络和区域判别网络的性能,根据S603和S604计算的使用梯度下降法调整特征提取网络的参数,更新为:
利用纳税数据重复S603,S604,S605,当优化目标小于设定的阈值ε停止参数调整,最终得到可在目标区域进行偷漏税识别的模型。
步骤4.区域间企业偷漏税识别
根据步骤3得到的模型对陕西省的纳税数据进行偷漏税识别。将预处理后的陕西省纳税数据输入到特征提取网络,经过网络参数向前传递,偷漏税识别网络得到这条纳税数据的偷漏税识别结果,标记出具有偷漏税行为的数据,如下表所示,本发明相比于现有技术对偷漏税识别更准确,该方法为跨区域的偷漏税识别提供了可解决的方案。
本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,首先,基于随机森林算法对源区域和目标区域的纳税数据进行预处理,提取出有助于偷漏税识别的纳税人属性;其次,引入深度神经网络构建多地区企业偷漏税识别模型框架,依据预处理后的数据确定网络模型的输入神经元个数,该模型框架由特征提取网络、区域判别网络、偷漏税识别网络三部分组成,为了使偷漏税识别网络在目标区域上有较好的识别性能,区域判别网络调整特征提取网络的特征提取能力,使得特征提取网络可以提取出源区域和目标区域纳税数据的共同特征;再次,使用预处理后的数据训练偷漏税识别模型的网络参数,得到适用于目标区域的偷漏税识别模型;最后,利用训练得到的偷漏税识别模型对目标区域的纳税数据进行识别。
2.根据权利要求1所述的一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,具体包括以下步骤:
1)纳税数据预处理
纳税数据中不是所有的纳税人属性都有助于企业偷漏税识别,只有少部分的属性有助于偷漏税识别;因此对纳税数据进行预处理,并采用随机森林算法提取出有助于偷漏税识别的纳税人属性;
2)构建区域间企业偷漏税识别模型框架
基于深度对抗迁移学习的企业偷漏税识别模型框架由三部分组成:特征提取网络、区域判别网络和偷漏税识别网络;其中特征提取网络以预处理后的数据作为输入,提取出不同地区纳税数据的共同特征,区域判别网络和偷漏税识别网络以特征提取网络的输出作为输入,区域判别网络用于判别数据来源于哪一区域,偷漏税识别网络用于识别纳税数据是否存在偷漏税行为;
3)确定偷漏税识别模型的网络参数
Step1.初始化网络模型参数
神经网络的训练过程中参数调整是基于梯度下降法进行优化的,梯度下降法在训练开始给每一个参数赋予初始值,当网络层数较深时,初值的选取对模型的性能影响很大,所以设置合适的初值是非常必要的;为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化;
Xavier初始化以均匀分布的方式实施初始化,具体形式如下:
其中n是参数所在层的输入维度,m是参数所在层的输出维度,θ=[θfyd]是参数矩阵,θfyd分别代表特征提取网络、偷漏税识别网络和区域判别网络的参数;
Step2.确定优化目标
特征提取网络、区域判别网络和偷漏税识别网络,其分别对应的参数θfyd的选择需要权衡偷漏税识别网络和区域判别网络的结果;如果只考虑偷漏税识别网络,训练出来的模型可能出现过拟合现象,使得网络对源区域的纳税数据具有很好的识别能力但是对目标区域的纳税数据的识别效果很差;因此要保证特征提取网络所提取的特征是两个区域纳税数据的共同特征,同时偷漏税识别网络利用提取的特征准确地进行偷漏税识别;
特征提取网络提取共同特征的能力由区域判别网络的损失表示,损失函数越大代表特征网络的提取能力越好;偷漏税识别网络的损失表示偷漏税识别的效果,损失函数越小代表偷漏税识别效果越好;为了最小化偷漏税识别网络的损失函数同时最大化区域判别网络的损失函数,在优化目标中给区域判别网络的损失函数取反,最终得到的整个模型的损失函数,以最小化整体的损失函数为优化目标;
最小化整体的损失函数的形式化表达为:
其中θfyd分别代表特征提取网络、偷漏税识别网络和区域判别网络的参数,是偷漏税识别网络的损失函数,表示由第i条源区域的纳税数据得出的偷漏税损失,n表示源区域纳税数据的数量;是区域判别网络的损失函数,表示由第i条纳税数据得出的区域判别损失,n′表示目标区域纳税数据的数量,N表示源区域和目标区域的数据总量;其中λ是平衡系数;
使用BP算法调整模型的网络参数,BP算法参数调整是从网络的输出层开始从后向前调整,因此模型参数调整的过程先调整偷漏税识别网络参数,然后调整区域判别网络参数,最后调整特征提取网络参数;
Step3.调整偷漏税识别网络参数θy
利用Step2确定的优化目标调整偷漏税识别网络的参数,通过找到参数使得
在实际训练中先初始化参数然后利用BP算法更新参数,更新的方法如下:
其中Gy表示偷漏税识别网络,θy是偷漏税识别网络参数,μ是学习速率;
Step4.调整区域判别网络参数θd
利用Step2确定的优化目标调整区域判别网络的参数,通过找到参数使得
在实际训练中先初始化参数然后利用BP算法更新区域判别网络参数,更新的方法如下:
其中Gd表示区域判别网络,θd是区域判别网络参数,μ是学习速率;
Step5.调整特征提取网络参数θf
利用Step2确定的优化目标调整特征提取网络的参数,通过找到参数使得
在实际训练中先初始化参数然后利用BP算法更新特征提取网络参数,更新的方法如下:
其中Gf表示特征提取网络,θf是特征提取网络参数,μ是学习速率;
θf的更新过程需要对区域判别网络的梯度进行反转,使得特征提取网络所提取的特征是不同区域纳税数据的共同特征,为实现梯度反转,引入特殊梯度反转层;
梯度反转层在特征提取网络Gf和区域判别网络Gd之间,当反向传播过程通过梯度反转层时,梯度反转层将梯度乘以-1,即变为将梯度反转层视为一个函数由描述其前向和反向传播行为的两个方程分别为:
其中I是单位矩阵,确定模型参数之后利用特征提取网络和偷漏税识别网络即可识别目标区域的纳税数据是否具有偷漏税行为;
4)企业偷漏税识别
根据预测模型识别目标区域的纳税数据是否存在偷漏税行为,将所要识别的纳税数据经过预处理输入到特征提取网络,然后利用特征提取网络的输出作为偷漏税识别网络的输入,根据偷漏税识别网络的输出判断是否具有偷漏税行为,偷漏税识别网络输出结果大于0.5即存在偷漏税行为。
3.根据权利要求2所述的一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,步骤1)中,数据预处理具体步骤如下:
Step1.构建随机森林
用有放回抽样的方法从源区域带标记的纳税数据中选取m个样本作为训练集,从所有的纳税人属性中抽取n个属性作为决策树分类特征;利用信息增益选取最优属性,以该属性作为决策树分支准则创建决策树,且决策树的生成过程不做任何减枝,重复有放回抽样k次,生成k个决策树;
Step2.对随机森林中每个节点计算对应纳税人属性的基尼指数
在随机森林中,使用基尼指数来表示每个决策树中纳税人属性的重要性,使用下式计算基尼指数:
其中|D|表示从源区域带标记的纳税数据中选取的样本数量,q表示纳税人属性,n表示类别的数量这里的类别有两种即偷漏税和非偷漏税,表示数据D中第i类的比率,V表示属性q的所有可能取值的集合,|Dv|表示属性q的值是V的所有数据的数量,表示数据DV中第i类的比率;
Stept3.计算纳税人属性的Gini Importance(GI)
用Gini Importance(GI)表示纳税人属性在随机森林中的重要性,利用Step2计算的基尼指数,使用下式计算每个属性的GI:
其中q表示纳税人属性,n表示属性q在随机森林中分割节点的次数,C(i)表示样本***的数量;
Step4.选取核心纳税人属性
选取对偷漏税识别影响大的纳税人属性作为偷漏税识别模型的输入简化模型的复杂度,对于每一个纳税人属性,GI代表了该属性在随机森林中的重要程度,选取前N个GI值最大的纳税人属性用于偷漏税识别。
4.根据权利要求3所述的一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,步骤2)中,特征提取网络、区域判别网络和偷漏税识别网络这三个部分都是深度神经网络,具体的构建如下:
Step1.构建特征提取网络
特征提取网络的目的是提取不同区域之间数据的相同特征,同时最大程度的保留不同区域之间数据的特有属性;构造输入层神经元的数量等于数据预处理后数据的总维数;以预处理后的数据作为网络的输入,以特征提取的结果作为网络的输出,记Gf(·;θf)为特征提取网络,参数为θf,具体的特征提取网络采用标准的前馈神经网络,其参数更新采用BP算法;
Step2.构建偷漏税识别网络
令输入层的神经元的数量为特征提取网络输出层的数量,以特征提取网络的输出作为输入;偷漏税识别网络是一个二分类任务的分类器,该网络的输出神经元数量为1,输出结果为区间[0,1]之间的概率值,其中输出大于0.5表示存在偷漏税行为,输出小于0.5表示不存在偷漏税行为;记Gy(·;θy)为企业偷漏税识别网络,参数为θy;以最小化偷漏税识别网络的损失函数为目标,更新网络的参数用于提高偷漏税识别网络的识别能力,损失函数为:
其中Gy(Gf(x;θf);θy)表示偷漏税识别网络的输出,Gy以θy为参数,以Gf(x;θf)为输入,Gf(x;θf)是特征提取网络的输出,x表示源区域的纳税数据,θf表示特征提取网络的参数,y表示源区域样本数据的标签;
Step3.构建区域判别网络
区域判别网络输入层神经元的数量为特征提取网络输出层的数量,以特征提取网络的输出作为输入;该网络是一个二分类任务的分类器,输出神经元数量为1,输出结果为区间[0,1]之间的概率值,和偷漏税识别网络的输出结果不同,区域判别网络的输出结果表示数据来源于哪个区域,输出结果大于0.5表示数据来源于源区域,输出结果小于0.5表示数据来源于目标区域,记Gd(·;θd)为区域判别网络,参数为θd,损失函数计算区域判别网络的判别能力,其形式化表达为:
其中Gd(Gf(x;θf);θd)表示区域判别网络的输出,Gd以θd为参数以Gf(x;θf)为输入,Gf(x;θf)是特征提取网络的输出,x表示纳税数据,θf表示特征提取网络的参数,d表示纳税数据来源于哪一区域。
CN201910065095.8A 2019-01-23 2019-01-23 一种基于深度对抗迁移学习的企业偷漏税识别方法 Pending CN109948645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910065095.8A CN109948645A (zh) 2019-01-23 2019-01-23 一种基于深度对抗迁移学习的企业偷漏税识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910065095.8A CN109948645A (zh) 2019-01-23 2019-01-23 一种基于深度对抗迁移学习的企业偷漏税识别方法

Publications (1)

Publication Number Publication Date
CN109948645A true CN109948645A (zh) 2019-06-28

Family

ID=67007385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910065095.8A Pending CN109948645A (zh) 2019-01-23 2019-01-23 一种基于深度对抗迁移学习的企业偷漏税识别方法

Country Status (1)

Country Link
CN (1) CN109948645A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458572A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 用户风险的确定方法和目标风险识别模型的建立方法
CN110866536A (zh) * 2019-09-25 2020-03-06 西安交通大学 一种基于PU learning的跨区域企业偷漏税识别方法
CN112734585A (zh) * 2021-01-25 2021-04-30 联仁健康医疗大数据科技股份有限公司 医保基金支出的预测方法、装置、设备及存储介质
CN113033081A (zh) * 2021-03-10 2021-06-25 中国科学院地理科学与资源研究所 一种基于som-bpnn模型的径流模拟方法及***
CN113221308A (zh) * 2021-06-11 2021-08-06 北京邮电大学 一种面向功率放大器的迁移学习快速低复杂度建模方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102706A (zh) * 2014-07-10 2014-10-15 西安交通大学 一种基于层次聚类的可疑纳税人检测方法
CN106327320A (zh) * 2016-08-18 2017-01-11 西安交通大学 基于纳税人利益关联网络的价格错配偷漏税行为识别方法
CN107958287A (zh) * 2017-11-23 2018-04-24 清华大学 面向跨界大数据分析的对抗迁移学习方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102706A (zh) * 2014-07-10 2014-10-15 西安交通大学 一种基于层次聚类的可疑纳税人检测方法
CN106327320A (zh) * 2016-08-18 2017-01-11 西安交通大学 基于纳税人利益关联网络的价格错配偷漏税行为识别方法
CN107958287A (zh) * 2017-11-23 2018-04-24 清华大学 面向跨界大数据分析的对抗迁移学习方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XULYU ZHU ET AL.: "IRTED-TL: An Inter-Region Tax Evasion Detection Method based on Transfer Learning", 《2018 17TH IEEE INTERNATIONAL CONFERENCE ON TRUST, SECURITY AND PRIVACY IN COMPUTING AND COMMUNICATIONS/ 12TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA SCIENCE AND ENGINEERING》 *
YAROSLAV GANIN ET AL.: "Domain-Adversarial Training of Neural Networks", 《ARXIV》 *
吴超 等: "基于随机森林的偷漏税行为自动识别", 《软件导刊》 *
陈建廷 等: "深度神经网络训练中梯度不稳定现象研究综述", 《软件学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458572A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 用户风险的确定方法和目标风险识别模型的建立方法
CN110458572B (zh) * 2019-07-08 2023-11-24 创新先进技术有限公司 用户风险的确定方法和目标风险识别模型的建立方法
CN110866536A (zh) * 2019-09-25 2020-03-06 西安交通大学 一种基于PU learning的跨区域企业偷漏税识别方法
CN110866536B (zh) * 2019-09-25 2022-06-07 西安交通大学 一种基于PU learning的跨区域企业偷漏税识别方法
CN112734585A (zh) * 2021-01-25 2021-04-30 联仁健康医疗大数据科技股份有限公司 医保基金支出的预测方法、装置、设备及存储介质
CN112734585B (zh) * 2021-01-25 2024-05-31 联仁健康医疗大数据科技股份有限公司 医保基金支出的预测方法、装置、设备及存储介质
CN113033081A (zh) * 2021-03-10 2021-06-25 中国科学院地理科学与资源研究所 一种基于som-bpnn模型的径流模拟方法及***
CN113221308A (zh) * 2021-06-11 2021-08-06 北京邮电大学 一种面向功率放大器的迁移学习快速低复杂度建模方法

Similar Documents

Publication Publication Date Title
CN109948645A (zh) 一种基于深度对抗迁移学习的企业偷漏税识别方法
CN103440557B (zh) 一种集团合并账和合并报表的生成方法及***
Motonishi Why has income inequality in Thailand increased?: An analysis using surveys from 1975 to 1998
CN106600455A (zh) 一种基于逻辑回归的电费敏感度评估方法
Yuan et al. Principles of food-energy-water nexus governance
CN110889291B (zh) 一种基于深度学习和区块链的研报评价方法
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN112541817A (zh) 一种个人消费贷款潜在客户的营销响应处理方法及***
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
CN107481136A (zh) 一种用于abs风险控制的非线性规划数据筛选方法
Annushkina et al. Foreign market selection by Russian MNEs–beyond a binary approach?
CN109934469A (zh) 基于异源交叉回归分析的停电敏感度预警方法及装置
CN110135846A (zh) 一种区块链节点的行为序列自动分类方法
Betzler et al. Towards fund‐raising excellence in museums—linking governance with performance
Yıldırım The impacts of digitalization and covid-19 on the business model of banking: a qualitative study on Turkish banks
CN108388913A (zh) 一种基于约束投影的多决策树***欺诈检测方法及***
Jimei et al. Modeling of ERP skill assessment features
CN108197729A (zh) 基于机器学习的价值投资分析方法、设备和存储介质
Wei et al. Analysis on the Classification and Evaluation System of Talents in Colleges and Universities from the Perspective of AHP
Gong et al. [Retracted] Exploration and Analysis of Collaborative Matching Algorithm Empowering Large Data Fiscal Budget
Utami An analysis of green practices for sustainability in the Indonesian banking industry
Feng Design of Financial Data Evaluation System Under Neural Network Algorithm
Chen et al. Construction of Bank Credit White List Access System Based on Grey Clustering Algorithm
Ding et al. Ensemble Incremental Learning Iterative Mechanism on Reject Inference
Yuxin SERVICE INNOVATION TRAVEL HEALTH FQR CODE MODE INTRODUCED DURING THE EPIDEMIC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628

RJ01 Rejection of invention patent application after publication