CN110852856B - 一种基于动态网络表征的***虚开识别方法 - Google Patents
一种基于动态网络表征的***虚开识别方法 Download PDFInfo
- Publication number
- CN110852856B CN110852856B CN201911066791.7A CN201911066791A CN110852856B CN 110852856 B CN110852856 B CN 110852856B CN 201911066791 A CN201911066791 A CN 201911066791A CN 110852856 B CN110852856 B CN 110852856B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- network
- characterization
- transaction
- invoice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005457 optimization Methods 0.000 claims abstract description 35
- 230000003068 static effect Effects 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 31
- 238000012512 characterization method Methods 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 5
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000002759 z-score normalization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000011425 standardization method Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008676 import Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于动态网络表征的***虚开识别方法。首先,以企业为节点、以交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高了模型的学习效率;最后,基于LightGBM构建二分类器识别出***虚开嫌疑企业。本发明基于动态网络表征来识别***虚开嫌疑企业,提高了***虚开识别的效率和准确率。
Description
技术领域
本发明属于税控技术领域,特别涉及一种基于动态网络表征的***虚开识别方法。
背景技术
***虚开是指企业动用各种行为手段开具与实际经营业务情况不符的***,以达到偷漏税的目的。
虚开***的行为将造成国家税收的巨大损失,严重破坏国家经济秩序。目前的税务局识别***虚开嫌疑企业的途径主要为:举报、日常监管抽查和问题企业牵连,然后再由税务稽查人员基于企业提供的报表进行核对。这些稽查都具有极大的偶然性,无法***地对所有企业进行分析评估;而且单凭税务稽查人员人工核对工作量大效率低,检查数据还局限在单家企业提供的报表,无法结合上下游有关联的企业。
为了解决当前***虚开识别所面临的问题,网络表征技术提供了一种解决途径。基于网络表征的***虚开识别方法可以把孤立的报表信息组织成为企业交易网络,从而***地核查所有企业,同时还可以用企业间的联系得到更多的企业信息用以识别***虚开企业。以下专利提供了可参考的基于网络表征技术通过计算机自动地进行***虚开识别的相关方法:
文献1.一种基于并行环路检测的虚开增值税专用***检测方法(201710147850.8);
文献2.一种基于纳税人利益关联网络的可疑纳税人识别方法(201410328391.X);
文献1以企业为节点把***信息组织成静态网络,并对网络中的环路检测进行改进,改进方法为通过分布式并行计算方法将计算任务分配给分布式集群中的多台计算机以提高效率,最终通过改进的环路检测方法来进行虚开增值税专用***检测。
文献2基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人,对纳税人利益关联网络进行拓扑特征的分析,得到纳税人在利益关联网络中的表征,再使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。
以上文献所述方法主要存在以下问题:文献1仅能检测资金经过多个账户后重新回到源账户的***虚开行为,而***虚开形式多样,不局限于环路形式,该方法的识别类型过于单一,模型的泛化能力较差;文献2仅基于纳税人和利益关系的拓扑结构,忽略了企业的属性信息,将企业同一化,无法从企业的规模、市场份额等角度来分析;文献1和文献2都局限于静态网络,无法结合历史信息动态地分析企业交易的变化,无法准确把握其动态变化,就让一些企业有机可乘。例如,某偷漏税企业每年的账单单独看是毫无问题,连续几年处于亏损状态,但水电成本却逐年增加,***虚开行为通常会隐藏在这类和时间序列相关的特征中,而静态网络无法捕捉这类特征。
发明内容
为了提高***虚开识别的效率,本发明的目的在于提供一种基于动态网络表征的***虚开识别方法。本发明采用动态网络表征,结合历史信息动态地分析企业交易网络,准确把握企业交易的动态变化;而且基于企业间的关联信息能够识别不同的***虚开行为;同时借鉴了分布式优化算法,把计算函数分解为独立子函数并行执行,提高了***虚开识别的效率。
为达到上述目的,本发明是采取以下技术方案予以实现的:
一种基于动态网络表征的***虚开识别方法,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出***虚开嫌疑企业。
本发明进一步的改进在于,该方法具体包括以下实现步骤:
1)基本特征提取
首先对数据进行预处理,然后提取企业基本信息,企业基本信息大致分为三个类型:对文本型数据用word2vec算法转换为向量,对类别型数据用One-Hot编码,对数值型数据进行标准化处理;
2)基于动态网络表征的特征提取
提取企业基本特征后,以企业为节点,企业基本信息为节点属性,以交易记录为边,交易信息为边的属性,以每一天为时间节点,把企业交易信息组织成静态网络;然后以30天为单位建立时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间的静态网络表征,优化网络表征的目标函数,最后得到最优的动态企业交易网络表征;
3)基于分布式的算法优化
为了提高动态网络表征的学习效率,借鉴分布式优化算法,把动态企业交易网络表征的目标函数分解为独立子函数,并行优化子函数加速了大规模复杂的企业交易网络表征的求解;
4)构建分类器识别***虚开
基于LightGBM分类器构建二分类模型,把计算得到的动态网络表征作为分类器的学习数据,用已标记的企业样本集来训练模型,然后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测,最后根据预测模型的输出确定目标企业是否存在***虚开行为。
本发明进一步的改进在于,步骤1)的实现方法如下:
步骤101:数据预处理
(1)提取“纳税人电子档案号”,作为企业特征唯一标识;
(2)处理缺失值:数据缺失严重的属性和与***虚开任务不相关的属性直接删去,有少量缺失的重要属性用同类均值插补的方法补全缺失值;
步骤102:处理文本型数据
对企业基本信息表中的文本信息处理包括:
(1)使用Jieba分词工具把企业的文本型数据进行分词;
(2)用词典树统计分词的结果,选择出权重较大的词作为关键词;
(3)基于word2vec将提取出来的N类关键词转成向量;
步骤103:处理标志型数据
对企业基本信息表中离散的类别型数据采用One-Hot编码;以属性取值的数量为长度建立状态位标志每一特定状态;
步骤104:处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法进行处理:
(1)求各属性的均值;
(2)求各属性的方差;
(3)Z-Score标准化。
本发明进一步的改进在于,步骤2)的实现方法如下:
步骤201:建立静态的企业交易网络
每一天都建立一个企业交易网络的表征模型,使得具有相似拓扑结构或者交易权重更高的企业在表征空间离得更近,目标优化函数为:
其中hi,hj是企业i,j的表征;wij是企业间交易的权重;最小化wij||hi-hj||2时,就迫使越大的交易权重wij对应的企业表征hi,hj越接近;
步骤202:动态融合历史信息
建立一个长度为30天的时序窗口,在窗口内每次融合30天的静态网络表征,然后移动时序窗口,逐步融合所有静态网络表征,最终得到动态的企业交易网络表征,对应的优化目标是:
其中分别表示第t天的企业p,q的表征和企业间交易的权重,则表示企业p和企业q的表征的近似程度;Hi表示时序窗口内第i天的网络表征;惩罚项使表征学习到的矩阵尽量逼近原企业交易网络的矩阵,ρ是一个定义模型的结构特性和对原矩阵逼近程度贡献程度的参数,ρ越大模型越注重时序的网络表征,越小越注重节点的表征;
本发明进一步的改进在于,步骤3)的实现方法如下:
步骤301:分解目标函数
对优化函数(2)进行重构,将其写成可分解的形式:
步骤302:并行执行多个子函数
把(3)式分解为N个子优化函数,N为网络节点数,表示企业交易网络中企业的个数,对其并行求解以得到Ht k+1:
其中代表与企业v的有关联的企业,ht v表示第t天的企业v的表征,表示第t天的企业v迭代计算k次后的表征,表示第t天企业v,q间交易的权重,则表示第t天迭代(k-1)次后的企业v和企业q的表征的近似程度;表示企业v在第i天和第t天的表征的近似程度;
其中为所要求解的企业v在第t天的表征,使用迭代的优化方法判断计算结果是否达到要求的精确度:通过梯度下降算法对其进行求解,当达到收敛条件或者时,优化函数取得最优值;当一个企业第k次迭代和第(k-1)次迭代后得到的结果达到要求精确度时;或者当一个企业的迭代结果与其关联企业离得足够近时,停止更新,得到的第k次迭代的表征结果就为该天该企业的表征;
步骤303:综合整理并行的结果
并行计算交易网络的N个节点就可得到每个企业在第t天的表征,再对于分布在时间节点1到T上的动态交易网络,按顺序计算求出每个时间节点上的网络的表征。
本发明进一步的改进在于,步骤4)的实现方法如下:
步骤401:将步骤1)得到的基本特征和步骤3)得到的动态网络特征结合到一起作为分类器的学习数据;
步骤402:基于LightGBM构建二分类模型,将分类器的主要参数设置为:叶子数为13,学习速率为0.1,迭代次数为100;
步骤403:把标记为虚开***的企业样本集和正常企业样本集获得的表征结果作为基础特征,并按照3:1的比例随机分为两组作为训练集和测试集,训练集中再随机分出百分之十的数据作为验证集;用训练集训练步骤2的分类模型,用验证集调整训练,如果出现过拟合现象,则进行剪枝操作;选取最优模型在测试集验证算法的准确性;
步骤404:将未标记的企业样本的表征结果输入至基于LightGBM的***虚开嫌疑企业预测模型,最后基于预测模型的输出,确定目标企业是否存在***虚开行为。
本发明至少具有如下有益的技术效果:
本发明是基于动态网络表征学习思想提出的一种***虚开嫌疑企业识别的方法,具有以下优势:
1.采用动态网络表征,结合历史信息,为所有时间节点的网络学习出表征向量并融合,能够准确把握企业交易网络的动态变化,提高***虚开识别的准确率;
2.基于企业间的关联信息,能够识别不同类型的虚开***行为;
3.借鉴了分布式优化算法,把计算函数分解为独立子函数并行执行,降低了计算网络表征的时间复杂度,提高了***虚开识别的效率。
附图说明
图1为整体框架流程图。
图2为基本特征提取流程示意图。
图3为基于动态网络表征的特征提取流程示意图。
图4为网络表征算法优化流程示意图。
图5为构建分类器识别***虚开流程示意图。
具体实施方式
以下结合附图和实施例,对本发明基于动态网络表征的***虚开识别方法的具体内容做细致描述。
如图1所示,基于动态网络表征的***虚开识别方法,包括下述步骤:
S101.基本特征提取
对数据进行预处理后,提取企业基本信息,企业基本信息大致分为三个类型:对文本型数据用word2vec算法转换为向量,对类别型数据用One-Hot编码,对数值型数据进行标准化处理。
如图2所示,基本特征提取实施过程具体包括以下步骤:
S201.数据预处理
步骤1:提取“纳税人电子档案号”作为企业特征唯一标识,其余不能刻画企业自身分布规律的属性都直接删去;
步骤2:当属性含有大量缺失值而仅有极少量有效值时,例如,“纳税人税务机构代码”、“财务报表种类”和“核算形式”属性仅有不到10%的企业有值,选择直接删除该特征;当属性有少量缺失值时,例如,“从业人数”和“注册资本”属性有个别企业出现缺失值,选择同类均值插补的方法来补全缺失值。
S202.处理文本型数据
对企业基本信息表中的文本型数据“货物信息”和“经营范围”进行数据的预处理并进行特征提取。文本型数据处理具体步骤包括:
步骤1:使用Jieba分词工具进行分词,构建合适的停用表,去掉文本中的停用词。例如,本实施例中某企业的“经营范围”字段内容为“生产、销售:陶瓷并品;货物进出口、技术进出口”。经过分词并去掉停用词后结果为“生产销售陶瓷并品货物进出口技术进出口”;
步骤2:把步骤1的结果用词典树进行统计,选择出权重较大的词作为关键词;
步骤3:基于word2vec将步骤2提取出来的N类关键词转成向量。
S203.处理类别型数据
对企业基本信息表中的离散的类别型数据“企业类型”和“企业状态”采用One-Hot编码。把属性可能取值的数量表示为状态位的长度,把其中一位标志为1其余全标为0表示某一特定状态。例如,本实施例中“企业类型”字段有四种可能取值“个人独资企业”、“合伙企业”、“有限责任公司”和“股份有限公司”。所以“企业类型”的状态位长度为4,其中1000表示“个人独资企业”、0100表示“合伙企业”、0010表示“有限责任公司”、0001表示“股份有限公司”。
S204.处理数值型数据
对企业基本信息表中的数值型数据“注册资本”、“投资总额”和“从业人数”,进行标准化处理,本实施例以“注册资本”为例说明:
步骤1:获取“注册资本”属性的均值
记u为“注册资本”属性的均值,其具体的计算形式为:
其中,n表示企业基本信息样本的数量,xj表示第j个“注册资本”属性取值;
步骤2:获取各个属性的方差
记σ2为“注册资本”属性的方差,其具体的计算形式为:
均值和方差是数值型属性的基本指标,通过均值和方差可对数值型属性做标准化处理;
步骤3:Z-Score标准化
记δ为“注册资本”标准化后的值,其中δ=(δ1,δ2,…,δn),δj表示第j个“注册资本”标准化后的值,δj具体的计算形式为:
δj=(xj-u)/σ,j=1,2,…,n
S102.基于动态网络表征的特征提取
首先以企业为节点、以交易记录为边、以每一天为时间节点建立静态的企业交易网络;然后以30天为单位建立时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间的静态网络表征,优化网络表征的目标函数,得到最优的动态企业交易网络表征。
如图3所示,基于动态网络表征的特征提取实施过程具体步骤包括:
步骤1:建立静态的企业交易网络
建立每天一个企业交易网络的表征模型,目标优化函数为:
步骤2:动态融合历史信息
在时序窗口内逐步融合所有静态企业交易网络表征,最终得到动态的企业交易网络表征,优化目标为:
时序窗口长度为一个30天,在时序窗口内每次融合30天的静态网络表征,然后移动时序窗口,逐步融合所有静态网络表征,最小化目标就可求得该天各个企业的表征H。本实施例中,发现ρ=0.75时效果最好,此时较平衡地关注了时序的网络表征和节点的表征;
S103.基于分布式的算法优化
首先分解目标函数;然后并行执行多个子函数;最后综合整理并行的结果。
如图4所示,基于分布式的算法优化实施过程具体步骤包括:
S401.分解目标函数
重构优化函数(2),将其写成可分解的形式:
本实施例中,企业交易网络共涉及有3765个企业,所以取N=3765,v从1到3765取值计算每一个企业及其有关联的交易网络;取ρ=0.75较平衡地关注了时序的网络表征和节点的表征;
S402.并行执行多个子函数
把(3)式按每个企业v分解为3765个子优化函数,对其并行求解最终合并得到Ht k +1,其中单个子目标优化函数为:
本实施例中,取ρ=0.75较平衡地关注了时序的网络表征和节点的表征。按顺序计算就可得到各子函数的计算结果,为各个子函数求解得到的每一企业在第t 天第k次迭代后的表征,从而得到ht k+1为第t天第k次迭代后动态企业交易网络的表征;
S403.综合整理并行的结果
用梯度下降算法对(4)式求解,本实施例中,设置了当或者时停止更新,表示他们近似相等时的表征就是该天企业交易网络的表征。于是对于分布在第 1到T天上的动态交易网络,按顺序计算就可以求出每一天的网络的表征。
S104.构建分类器识别***虚开
首先将S101得到的基本特征和S102得到的动态网络特征结合作为分类器的学习数据;其次基于LightGBM分类器构建二分类模型;然后用已标记是否虚开***的企业样本集来训练模型;最后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测,基于预测模型的输出,确定目标企业是否存在***虚开行为。
如图5所示,构建分类器识别***虚开实施过程具体步骤包括:
S501.得到分类器的学习数据
将S101得到的基本特征和S103得到的动态网络特征结合到一起作为分类器的学习数据。本实施例中直接把S101得到的企业基本特征向量放在S103得到的动态网络特征向量后,组合成为新的向量,作为分类器的学习数据
S502.基于LightGBM构建二分类模型
设置分类器的主要参数为:叶子数为13,学习速率为0.1,迭代次数为100;
S503.训练模型
步骤1:把标记为虚开***的企业样本集和正常企业样本集获得的表征结果作为基础特征,并按照3:1的比例随机分为两组作为训练集和测试集。
步骤2:在训练集中随机分出百分之十的数据作为验证集。
步骤3:用训练集训练S502构建的分类模型,用验证集调整训练,出现过拟合现象时进行剪枝操作;
步骤4:迭代计算,由于迭代次数设置了100,所以若迭代100次尚未到达到收敛条件则强制停止迭代,取最后一次迭代结果就是计算所得表征。
步骤5:选取最优模型在测试集验证算法的准确性,本实施例验证得的准确率为0.957,精度为0.921,回召率为0.87,说明模型在测试集的效果非常好,可以达到在实际税务场景***虚开识别的要求。对比其他基于静态网络表征的***虚开识别方法的准确率0.876,精度 0.856,回召率0.794,本发明的方法识别准确率提高了9.25%,精度提高了7.6%,回召率提高了9.57%。本发明的方法识别***虚开的效果提升除了表现在准确率提高,还体现在分布式并行运算的识别效率的提高:本实施例的数据样本采用分布式算法的运行时间为684.57s,比非分布式算法的运行时间958.19s缩短了28.56%。
S504.预测***虚开嫌疑企业
将未标记的企业样本的表征结果输入至训练好的***虚开嫌疑企业预测模型,基于预测模型的输出,确定目标企业是否存在***虚开行为,本实施例中把预测值从高到低排序,取前百分之十作为***虚开嫌疑企业。
Claims (3)
1.一种基于动态网络表征的***虚开识别方法,其特征在于,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出***虚开嫌疑企业;该方法具体包括以下实现步骤:
1)基本特征提取
首先对数据进行预处理,然后提取企业基本信息,企业基本信息大致分为三个类型:对文本型数据用word2vec算法转换为向量,对类别型数据用One-Hot编码,对数值型数据进行标准化处理;具体实现方法如下:
步骤101:数据预处理
(1)提取“纳税人电子档案号”,作为企业特征唯一标识;
(2)处理缺失值:数据缺失严重的属性和与***虚开任务不相关的属性直接删去,有少量缺失的重要属性用同类均值插补的方法补全缺失值;
步骤102:处理文本型数据
对企业基本信息表中的文本信息处理包括:
(1)使用Jieba分词工具把企业的文本型数据进行分词;
(2)用词典树统计分词的结果,选择出权重较大的词作为关键词;
(3)基于word2vec将提取出来的N类关键词转成向量;
步骤103:处理标志型数据
对企业基本信息表中离散的类别型数据采用One-Hot编码;以属性取值的数量为长度建立状态位标志每一特定状态;
步骤104:处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法进行处理:
(1)求各属性的均值;
(2)求各属性的方差;
(3)Z-Score标准化;
2)基于动态网络表征的特征提取
提取企业基本特征后,以企业为节点,企业基本信息为节点属性,以交易记录为边,交易信息为边的属性,以每一天为时间节点,把企业交易信息组织成静态网络;然后以30天为单位建立时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间的静态网络表征,优化网络表征的目标函数,最后得到最优的动态企业交易网络表征;具体实现方法如下:
步骤201:建立静态的企业交易网络
每一天都建立一个企业交易网络的表征模型,使得具有相似拓扑结构或者交易权重更高的企业在表征空间离得更近,目标优化函数为:
其中hi,hj是企业i,j的表征;wij是企业间交易的权重;最小化wij||hi-hj||2时,就迫使越大的交易权重wij对应的企业表征hi,hj越接近;
步骤202:动态融合历史信息
建立一个长度为30天的时序窗口,在窗口内每次融合30天的静态网络表征,然后移动时序窗口,逐步融合所有静态网络表征,最终得到动态的企业交易网络表征,对应的优化目标是:
其中分别表示第t天的企业p,q的表征和企业间交易的权重,则表示企业p和企业q的表征的近似程度;Hi表示时序窗口内第i天的网络表征;惩罚项使表征学习到的矩阵尽量逼近原企业交易网络的矩阵,ρ是一个定义模型的结构特性和对原矩阵逼近程度贡献程度的参数,ρ越大模型越注重时序的网络表征,越小越注重节点的表征;
3)基于分布式的算法优化
为了提高动态网络表征的学习效率,借鉴分布式优化算法,把动态企业交易网络表征的目标函数分解为独立子函数,并行优化子函数加速了大规模复杂的企业交易网络表征的求解;
4)构建分类器识别***虚开
基于LightGBM分类器构建二分类模型,把计算得到的动态网络表征作为分类器的学习数据,用已标记的企业样本集来训练模型,然后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测,最后根据预测模型的输出确定目标企业是否存在***虚开行为。
2.根据权利要求1所述的一种基于动态网络表征的***虚开识别方法,其特征在于,步骤3)的实现方法如下:
步骤301:分解目标函数
对优化函数(2)进行重构,将其写成可分解的形式:
步骤302:并行执行多个子函数
把(3)式分解为N个子优化函数,N为网络节点数,表示企业交易网络中企业的个数,对其并行求解以得到Ht k+1:
其中代表与企业v的有关联的企业,表示第t天的企业v的表征,表示第t天的企业v迭代计算k次后的表征,表示第t天企业v,q间交易的权重,则表示第t天迭代(k-1)次后的企业v和企业q的表征的近似程度;表示企业v在第i天和第t天的表征的近似程度;
其中为所要求解的企业v在第t天的表征,使用迭代的优化方法判断计算结果是否达到要求的精确度:通过梯度下降算法对其进行求解,当达到收敛条件或者时,优化函数取得最优值;当一个企业第k次迭代和第(k-1)次迭代后得到的结果达到要求精确度时;或者当一个企业的迭代结果与其关联企业离得足够近时,停止更新,得到的第k次迭代的表征结果就为该天该企业的表征;
步骤303:综合整理并行的结果
并行计算交易网络的N个节点就可得到每个企业在第t天的表征,再对于分布在时间节点1到T上的动态交易网络,按顺序计算求出每个时间节点上的网络的表征。
3.根据权利要求2所述的一种基于动态网络表征的***虚开识别方法,其特征在于,步骤4)的实现方法如下:
步骤401:将步骤1)得到的基本特征和步骤3)得到的动态网络特征结合到一起作为分类器的学习数据;
步骤402:基于LightGBM构建二分类模型,将分类器的主要参数设置为:叶子数为13,学习速率为0.1,迭代次数为100;
步骤403:把标记为虚开***的企业样本集和正常企业样本集获得的表征结果作为基础特征,并按照3:1的比例随机分为两组作为训练集和测试集,训练集中再随机分出百分之十的数据作为验证集;用训练集训练步骤2的分类模型,用验证集调整训练,如果出现过拟合现象,则进行剪枝操作;选取最优模型在测试集验证算法的准确性;
步骤404:将未标记的企业样本的表征结果输入至基于LightGBM的***虚开嫌疑企业预测模型,最后基于预测模型的输出,确定目标企业是否存在***虚开行为。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911066791.7A CN110852856B (zh) | 2019-11-04 | 2019-11-04 | 一种基于动态网络表征的***虚开识别方法 |
PCT/CN2020/113450 WO2021088499A1 (zh) | 2019-11-04 | 2020-09-04 | 一种基于动态网络表征的***虚开识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911066791.7A CN110852856B (zh) | 2019-11-04 | 2019-11-04 | 一种基于动态网络表征的***虚开识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852856A CN110852856A (zh) | 2020-02-28 |
CN110852856B true CN110852856B (zh) | 2022-10-25 |
Family
ID=69598895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911066791.7A Active CN110852856B (zh) | 2019-11-04 | 2019-11-04 | 一种基于动态网络表征的***虚开识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110852856B (zh) |
WO (1) | WO2021088499A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852856B (zh) * | 2019-11-04 | 2022-10-25 | 西安交通大学 | 一种基于动态网络表征的***虚开识别方法 |
CN111382843B (zh) * | 2020-03-06 | 2023-10-20 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
CN111966889B (zh) * | 2020-05-20 | 2023-04-28 | 清华大学深圳国际研究生院 | 一种图嵌入向量的生成方法以及推荐网络模型的生成方法 |
CN111724241B (zh) * | 2020-06-05 | 2024-03-29 | 西安交通大学 | 基于动态边特征的图注意力网络的企业***虚开检测方法 |
CN112215616B (zh) * | 2020-11-30 | 2021-04-30 | 四川新网银行股份有限公司 | 一种基于网络的自动识别资金异常交易的方法和*** |
CN113326377B (zh) * | 2021-06-02 | 2023-10-13 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及*** |
CN113642735B (zh) * | 2021-07-28 | 2023-07-18 | 浪潮软件科技有限公司 | 虚开纳税人识别的持续学习方法 |
CN114219287A (zh) * | 2021-12-15 | 2022-03-22 | 中国软件与技术服务股份有限公司 | 一种基于图神经网络的纳税人风险评测方法 |
CN114297319A (zh) * | 2021-12-23 | 2022-04-08 | 税友信息技术有限公司 | 一种数据识别方法及相关装置 |
CN115334005B (zh) * | 2022-03-31 | 2024-03-22 | 北京邮电大学 | 基于剪枝卷积神经网络和机器学习的加密流量识别方法 |
CN117876140B (zh) * | 2024-03-13 | 2024-06-18 | 杭州工猫科技有限公司 | 税务信息处理方法、***与存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8631046B2 (en) * | 2009-01-07 | 2014-01-14 | Oracle International Corporation | Generic ontology based semantic business policy engine |
CN104103011B (zh) * | 2014-07-10 | 2015-04-29 | 西安交通大学 | 一种基于纳税人利益关联网络的可疑纳税人识别方法 |
RU2679209C2 (ru) * | 2014-12-15 | 2019-02-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Обработка электронных документов для распознавания инвойсов |
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种***虚开企业监控识别方法及*** |
CN106920162B (zh) * | 2017-03-14 | 2021-01-29 | 西京学院 | 一种基于并行环路检测的虚开增值税专用***检测方法 |
CN109583978A (zh) * | 2018-11-30 | 2019-04-05 | 税友软件集团股份有限公司 | 一种识别虚开***企业的方法、装置及设备 |
CN110852856B (zh) * | 2019-11-04 | 2022-10-25 | 西安交通大学 | 一种基于动态网络表征的***虚开识别方法 |
-
2019
- 2019-11-04 CN CN201911066791.7A patent/CN110852856B/zh active Active
-
2020
- 2020-09-04 WO PCT/CN2020/113450 patent/WO2021088499A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021088499A1 (zh) | 2021-05-14 |
CN110852856A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852856B (zh) | 一种基于动态网络表征的***虚开识别方法 | |
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN110532542B (zh) | 一种基于正例与未标注学习的***虚开识别方法及*** | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN110738564A (zh) | 贷后风险评估方法及装置、存储介质 | |
Park et al. | Explainability of machine learning models for bankruptcy prediction | |
CN111079025A (zh) | 基于大数据分析的政务推荐方法及包含该方法的*** | |
CN107609771A (zh) | 一种供应商价值评价方法 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
Fan et al. | Improved ML‐based technique for credit card scoring in Internet financial risk control | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
Ruyu et al. | A comparison of credit rating classification models based on spark-evidence from lending-club | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与*** | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
CN114493619A (zh) | 一种基于电力数据的企业征信标签构建方法 | |
CN111626331B (zh) | 一种自动化行业分类装置及其工作方法 | |
CN113506173A (zh) | 一种信用风险评估方法及其相关设备 | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
CN112329862A (zh) | 基于决策树的反洗钱方法及*** | |
CN109992592B (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 | |
Wu et al. | The BP neural network with adam optimizer for predicting audit opinions of listed companies. | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |