CN110852856B

CN110852856B - 一种基于动态网络表征的***虚开识别方法

Info

Publication number: CN110852856B
Application number: CN201911066791.7A
Authority: CN
Inventors: 董博; 郑庆华; 范弘铖; 田雨润; 高宇达; 袁靖松; 阮建飞; 张发
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2022-10-25
Anticipated expiration: 2039-11-04
Also published as: WO2021088499A1; CN110852856A

Abstract

本发明公开了一种基于动态网络表征的***虚开识别方法。首先，以企业为节点、以交易记录为边，把企业交易信息组织成静态网络；其次，以每一天为时间节点建立企业交易网络的表征，建立长度为30天的时序窗口，在窗口内每次融合30天的静态网络表征，并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果；再次，借鉴了分布式优化算法，把表征的目标函数分解为独立子函数，并行优化子函数提高了模型的学习效率；最后，基于LightGBM构建二分类器识别出***虚开嫌疑企业。本发明基于动态网络表征来识别***虚开嫌疑企业，提高了***虚开识别的效率和准确率。

Description

一种基于动态网络表征的***虚开识别方法

技术领域

本发明属于税控技术领域，特别涉及一种基于动态网络表征的***虚开识别方法。

背景技术

***虚开是指企业动用各种行为手段开具与实际经营业务情况不符的***，以达到偷漏税的目的。

虚开***的行为将造成国家税收的巨大损失，严重破坏国家经济秩序。目前的税务局识别***虚开嫌疑企业的途径主要为：举报、日常监管抽查和问题企业牵连，然后再由税务稽查人员基于企业提供的报表进行核对。这些稽查都具有极大的偶然性，无法***地对所有企业进行分析评估；而且单凭税务稽查人员人工核对工作量大效率低，检查数据还局限在单家企业提供的报表，无法结合上下游有关联的企业。

为了解决当前***虚开识别所面临的问题，网络表征技术提供了一种解决途径。基于网络表征的***虚开识别方法可以把孤立的报表信息组织成为企业交易网络，从而***地核查所有企业，同时还可以用企业间的联系得到更多的企业信息用以识别***虚开企业。以下专利提供了可参考的基于网络表征技术通过计算机自动地进行***虚开识别的相关方法：

文献1.一种基于并行环路检测的虚开增值税专用***检测方法(201710147850.8)；

文献2.一种基于纳税人利益关联网络的可疑纳税人识别方法(201410328391.X)；

文献1以企业为节点把***信息组织成静态网络，并对网络中的环路检测进行改进，改进方法为通过分布式并行计算方法将计算任务分配给分布式集群中的多台计算机以提高效率，最终通过改进的环路检测方法来进行虚开增值税专用***检测。

文献2基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人，对纳税人利益关联网络进行拓扑特征的分析，得到纳税人在利益关联网络中的表征，再使用C4.5分类器实验，从而实现自动识别可疑纳税人的功能。

以上文献所述方法主要存在以下问题：文献1仅能检测资金经过多个账户后重新回到源账户的***虚开行为，而***虚开形式多样，不局限于环路形式，该方法的识别类型过于单一，模型的泛化能力较差；文献2仅基于纳税人和利益关系的拓扑结构，忽略了企业的属性信息，将企业同一化，无法从企业的规模、市场份额等角度来分析；文献1和文献2都局限于静态网络，无法结合历史信息动态地分析企业交易的变化，无法准确把握其动态变化，就让一些企业有机可乘。例如，某偷漏税企业每年的账单单独看是毫无问题，连续几年处于亏损状态，但水电成本却逐年增加，***虚开行为通常会隐藏在这类和时间序列相关的特征中，而静态网络无法捕捉这类特征。

发明内容

为了提高***虚开识别的效率，本发明的目的在于提供一种基于动态网络表征的***虚开识别方法。本发明采用动态网络表征，结合历史信息动态地分析企业交易网络，准确把握企业交易的动态变化；而且基于企业间的关联信息能够识别不同的***虚开行为；同时借鉴了分布式优化算法，把计算函数分解为独立子函数并行执行，提高了***虚开识别的效率。

为达到上述目的，本发明是采取以下技术方案予以实现的：

一种基于动态网络表征的***虚开识别方法，首先，以企业为节点、交易记录为边，把企业交易信息组织成静态网络；其次，以每一天为时间节点建立企业交易网络的表征，建立长度为30天的时序窗口，在时序窗口内每次融合30天的静态网络表征，并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果；再次，借鉴了分布式优化算法，把表征的目标函数分解为独立子函数，并行优化子函数提高模型的学习效率；最后，基于LightGBM构建二分类器识别出***虚开嫌疑企业。

本发明进一步的改进在于，该方法具体包括以下实现步骤：

1)基本特征提取

首先对数据进行预处理，然后提取企业基本信息，企业基本信息大致分为三个类型：对文本型数据用word2vec算法转换为向量，对类别型数据用One-Hot编码，对数值型数据进行标准化处理；

2)基于动态网络表征的特征提取

提取企业基本特征后，以企业为节点，企业基本信息为节点属性，以交易记录为边，交易信息为边的属性，以每一天为时间节点，把企业交易信息组织成静态网络；然后以30天为单位建立时序窗口，在窗口内每次融合30天的静态网络表征，并通过移动时序窗口逐步融合所有时间的静态网络表征，优化网络表征的目标函数，最后得到最优的动态企业交易网络表征；

3)基于分布式的算法优化

为了提高动态网络表征的学习效率，借鉴分布式优化算法，把动态企业交易网络表征的目标函数分解为独立子函数，并行优化子函数加速了大规模复杂的企业交易网络表征的求解；

4)构建分类器识别***虚开

基于LightGBM分类器构建二分类模型，把计算得到的动态网络表征作为分类器的学习数据，用已标记的企业样本集来训练模型，然后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测，最后根据预测模型的输出确定目标企业是否存在***虚开行为。

本发明进一步的改进在于，步骤1)的实现方法如下：

步骤101：数据预处理

(1)提取“纳税人电子档案号”，作为企业特征唯一标识；

(2)处理缺失值：数据缺失严重的属性和与***虚开任务不相关的属性直接删去，有少量缺失的重要属性用同类均值插补的方法补全缺失值；

步骤102：处理文本型数据

对企业基本信息表中的文本信息处理包括：

(1)使用Jieba分词工具把企业的文本型数据进行分词；

(2)用词典树统计分词的结果，选择出权重较大的词作为关键词；

(3)基于word2vec将提取出来的N类关键词转成向量；

步骤103：处理标志型数据

对企业基本信息表中离散的类别型数据采用One-Hot编码；以属性取值的数量为长度建立状态位标志每一特定状态；

步骤104：处理数值型数据

对企业基本信息表中的数值型数据采用传统的标准化方法进行处理：

(1)求各属性的均值；

(2)求各属性的方差；

(3)Z-Score标准化。

本发明进一步的改进在于，步骤2)的实现方法如下：

步骤201：建立静态的企业交易网络

每一天都建立一个企业交易网络的表征模型，使得具有相似拓扑结构或者交易权重更高的企业在表征空间离得更近，目标优化函数为：

其中h_i,h_j是企业i,j的表征；w_ij是企业间交易的权重；最小化w_ij||h_i-h_j||₂时，就迫使越大的交易权重w_ij对应的企业表征h_i,h_j越接近；

最小化目标

得到该天优化后的企业交易网络表征h；

步骤202：动态融合历史信息

建立一个长度为30天的时序窗口，在窗口内每次融合30天的静态网络表征，然后移动时序窗口，逐步融合所有静态网络表征，最终得到动态的企业交易网络表征，对应的优化目标是：

其中

分别表示第t天的企业p,q的表征和企业间交易的权重，

则表示企业p和企业q的表征的近似程度；H_i表示时序窗口内第i天的网络表征；惩罚项

使表征学习到的矩阵尽量逼近原企业交易网络的矩阵，ρ是一个定义模型的结构特性和对原矩阵逼近程度贡献程度的参数，ρ越大模型越注重时序的网络表征，越小越注重节点的表征；

最小化目标

得到优化后的动态企业交易网络表征H。

本发明进一步的改进在于，步骤3)的实现方法如下：

步骤301：分解目标函数

对优化函数(2)进行重构，将其写成可分解的形式：

其中

分别表示第t天的企业p,q的表征和企业间交易的权重，

则表示企业p和企业q的表征的近似程度；惩罚项

是在式(2)逼近原企业交易网络的矩阵的基础上，把数据拆分为单个企业进行计算；

最小化目标

得到优化后的动态企业交易网络表征H；

步骤302：并行执行多个子函数

把(3)式分解为N个子优化函数，N为网络节点数，表示企业交易网络中企业的个数，对其并行求解以得到H_t ^k+1：

其中

代表与企业v的有关联的企业，h_t ^v表示第t天的企业v的表征，

表示第t天的企业v迭代计算k次后的表征，

表示第t天企业v,q间交易的权重，

则表示第t天迭代(k-1)次后的企业v和企业q的表征的近似程度；

表示企业v在第i天和第t天的表征的近似程度；

其中

为所要求解的企业v在第t天的表征，使用迭代的优化方法判断计算结果是否达到要求的精确度：通过梯度下降算法对其进行求解，当达到收敛条件

或者

时，优化函数取得最优值；当一个企业第k次迭代和第(k-1)次迭代后得到的结果达到要求精确度时；或者当一个企业的迭代结果与其关联企业离得足够近时，停止更新，得到的第k次迭代的表征结果就为该天该企业的表征；

步骤303：综合整理并行的结果

并行计算交易网络的N个节点就可得到每个企业在第t天的表征，再对于分布在时间节点1到T上的动态交易网络，按顺序计算求出每个时间节点上的网络的表征。

本发明进一步的改进在于，步骤4)的实现方法如下：

步骤401：将步骤1)得到的基本特征和步骤3)得到的动态网络特征结合到一起作为分类器的学习数据；

步骤402：基于LightGBM构建二分类模型，将分类器的主要参数设置为：叶子数为13，学习速率为0.1，迭代次数为100；

步骤403：把标记为虚开***的企业样本集和正常企业样本集获得的表征结果作为基础特征，并按照3：1的比例随机分为两组作为训练集和测试集，训练集中再随机分出百分之十的数据作为验证集；用训练集训练步骤2的分类模型，用验证集调整训练，如果出现过拟合现象，则进行剪枝操作；选取最优模型在测试集验证算法的准确性；

步骤404：将未标记的企业样本的表征结果输入至基于LightGBM的***虚开嫌疑企业预测模型，最后基于预测模型的输出，确定目标企业是否存在***虚开行为。

本发明至少具有如下有益的技术效果：

本发明是基于动态网络表征学习思想提出的一种***虚开嫌疑企业识别的方法，具有以下优势：

1.采用动态网络表征，结合历史信息，为所有时间节点的网络学习出表征向量并融合，能够准确把握企业交易网络的动态变化，提高***虚开识别的准确率；

2.基于企业间的关联信息，能够识别不同类型的虚开***行为；

3.借鉴了分布式优化算法，把计算函数分解为独立子函数并行执行，降低了计算网络表征的时间复杂度，提高了***虚开识别的效率。

附图说明

图1为整体框架流程图。

图2为基本特征提取流程示意图。

图3为基于动态网络表征的特征提取流程示意图。

图4为网络表征算法优化流程示意图。

图5为构建分类器识别***虚开流程示意图。

具体实施方式

以下结合附图和实施例，对本发明基于动态网络表征的***虚开识别方法的具体内容做细致描述。

如图1所示，基于动态网络表征的***虚开识别方法，包括下述步骤：

S101.基本特征提取

对数据进行预处理后，提取企业基本信息，企业基本信息大致分为三个类型：对文本型数据用word2vec算法转换为向量，对类别型数据用One-Hot编码，对数值型数据进行标准化处理。

如图2所示，基本特征提取实施过程具体包括以下步骤：

S201.数据预处理

步骤1：提取“纳税人电子档案号”作为企业特征唯一标识，其余不能刻画企业自身分布规律的属性都直接删去；

步骤2：当属性含有大量缺失值而仅有极少量有效值时，例如，“纳税人税务机构代码”、“财务报表种类”和“核算形式”属性仅有不到10％的企业有值，选择直接删除该特征；当属性有少量缺失值时，例如，“从业人数”和“注册资本”属性有个别企业出现缺失值，选择同类均值插补的方法来补全缺失值。

S202.处理文本型数据

对企业基本信息表中的文本型数据“货物信息”和“经营范围”进行数据的预处理并进行特征提取。文本型数据处理具体步骤包括：

步骤1：使用Jieba分词工具进行分词，构建合适的停用表，去掉文本中的停用词。例如，本实施例中某企业的“经营范围”字段内容为“生产、销售：陶瓷并品；货物进出口、技术进出口”。经过分词并去掉停用词后结果为“生产销售陶瓷并品货物进出口技术进出口”；

步骤2：把步骤1的结果用词典树进行统计，选择出权重较大的词作为关键词；

步骤3：基于word2vec将步骤2提取出来的N类关键词转成向量。

S203.处理类别型数据

对企业基本信息表中的离散的类别型数据“企业类型”和“企业状态”采用One-Hot编码。把属性可能取值的数量表示为状态位的长度，把其中一位标志为1其余全标为0表示某一特定状态。例如，本实施例中“企业类型”字段有四种可能取值“个人独资企业”、“合伙企业”、“有限责任公司”和“股份有限公司”。所以“企业类型”的状态位长度为4，其中1000表示“个人独资企业”、0100表示“合伙企业”、0010表示“有限责任公司”、0001表示“股份有限公司”。

S204.处理数值型数据

对企业基本信息表中的数值型数据“注册资本”、“投资总额”和“从业人数”，进行标准化处理，本实施例以“注册资本”为例说明：

步骤1：获取“注册资本”属性的均值

记u为“注册资本”属性的均值，其具体的计算形式为：

其中，n表示企业基本信息样本的数量，x^j表示第j个“注册资本”属性取值；

步骤2：获取各个属性的方差

记σ²为“注册资本”属性的方差，其具体的计算形式为：

均值和方差是数值型属性的基本指标，通过均值和方差可对数值型属性做标准化处理；

步骤3：Z-Score标准化

记δ为“注册资本”标准化后的值，其中δ＝(δ¹,δ²,…,δⁿ)，δ^j表示第j个“注册资本”标准化后的值，δ^j具体的计算形式为：

δ^j＝(x^j-u)/σ,j＝1,2,…,n

S102.基于动态网络表征的特征提取

首先以企业为节点、以交易记录为边、以每一天为时间节点建立静态的企业交易网络；然后以30天为单位建立时序窗口，在窗口内每次融合30天的静态网络表征，并通过移动时序窗口逐步融合所有时间的静态网络表征，优化网络表征的目标函数，得到最优的动态企业交易网络表征。

如图3所示，基于动态网络表征的特征提取实施过程具体步骤包括：

步骤1：建立静态的企业交易网络

建立每天一个企业交易网络的表征模型，目标优化函数为：

最小化目标

就可求得该天各个企业的表征h，使得具有相似交易结构或者交易权重大的企业在表征空间离得更近，进而得到该天整个企业交易网络的表征。

步骤2：动态融合历史信息

在时序窗口内逐步融合所有静态企业交易网络表征，最终得到动态的企业交易网络表征，优化目标为：

时序窗口长度为一个30天，在时序窗口内每次融合30天的静态网络表征，然后移动时序窗口，逐步融合所有静态网络表征，最小化目标

就可求得该天各个企业的表征H。本实施例中，发现ρ＝0.75时效果最好，此时较平衡地关注了时序的网络表征和节点的表征；

S103.基于分布式的算法优化

首先分解目标函数；然后并行执行多个子函数；最后综合整理并行的结果。

如图4所示，基于分布式的算法优化实施过程具体步骤包括：

S401.分解目标函数

重构优化函数(2)，将其写成可分解的形式：

本实施例中，企业交易网络共涉及有3765个企业，所以取N＝3765，v从1到3765取值计算每一个企业及其有关联的交易网络；取ρ＝0.75较平衡地关注了时序的网络表征和节点的表征；

S402.并行执行多个子函数

把(3)式按每个企业v分解为3765个子优化函数，对其并行求解最终合并得到H_t ^k ⁺¹，其中单个子目标优化函数为：

本实施例中，取ρ＝0.75较平衡地关注了时序的网络表征和节点的表征。按顺序计算就可得到各子函数的计算结果，

为各个子函数求解得到的每一企业在第t 天第k次迭代后的表征，从而得到h_t ^k+1为第t天第k次迭代后动态企业交易网络的表征；

S403.综合整理并行的结果

用梯度下降算法对(4)式求解，本实施例中，设置了当

或者

时停止更新，表示他们近似相等时的表征就是该天企业交易网络的表征。于是对于分布在第 1到T天上的动态交易网络，按顺序计算就可以求出每一天的网络的表征。

S104.构建分类器识别***虚开

首先将S101得到的基本特征和S102得到的动态网络特征结合作为分类器的学习数据；其次基于LightGBM分类器构建二分类模型；然后用已标记是否虚开***的企业样本集来训练模型；最后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测，基于预测模型的输出，确定目标企业是否存在***虚开行为。

如图5所示，构建分类器识别***虚开实施过程具体步骤包括：

S501.得到分类器的学习数据

将S101得到的基本特征和S103得到的动态网络特征结合到一起作为分类器的学习数据。本实施例中直接把S101得到的企业基本特征向量放在S103得到的动态网络特征向量后，组合成为新的向量，作为分类器的学习数据

S502.基于LightGBM构建二分类模型

设置分类器的主要参数为：叶子数为13，学习速率为0.1，迭代次数为100；

S503.训练模型

步骤1：把标记为虚开***的企业样本集和正常企业样本集获得的表征结果作为基础特征，并按照3:1的比例随机分为两组作为训练集和测试集。

步骤2：在训练集中随机分出百分之十的数据作为验证集。

步骤3：用训练集训练S502构建的分类模型，用验证集调整训练，出现过拟合现象时进行剪枝操作；

步骤4：迭代计算，由于迭代次数设置了100，所以若迭代100次尚未到达到收敛条件则强制停止迭代，取最后一次迭代结果就是计算所得表征。

步骤5：选取最优模型在测试集验证算法的准确性，本实施例验证得的准确率为0.957，精度为0.921，回召率为0.87，说明模型在测试集的效果非常好，可以达到在实际税务场景***虚开识别的要求。对比其他基于静态网络表征的***虚开识别方法的准确率0.876，精度 0.856，回召率0.794，本发明的方法识别准确率提高了9.25％，精度提高了7.6％，回召率提高了9.57％。本发明的方法识别***虚开的效果提升除了表现在准确率提高，还体现在分布式并行运算的识别效率的提高：本实施例的数据样本采用分布式算法的运行时间为684.57s，比非分布式算法的运行时间958.19s缩短了28.56％。

S504.预测***虚开嫌疑企业

将未标记的企业样本的表征结果输入至训练好的***虚开嫌疑企业预测模型，基于预测模型的输出，确定目标企业是否存在***虚开行为，本实施例中把预测值从高到低排序，取前百分之十作为***虚开嫌疑企业。

Claims

1.一种基于动态网络表征的***虚开识别方法，其特征在于，首先，以企业为节点、交易记录为边，把企业交易信息组织成静态网络；其次，以每一天为时间节点建立企业交易网络的表征，建立长度为30天的时序窗口，在时序窗口内每次融合30天的静态网络表征，并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果；再次，借鉴了分布式优化算法，把表征的目标函数分解为独立子函数，并行优化子函数提高模型的学习效率；最后，基于LightGBM构建二分类器识别出***虚开嫌疑企业；该方法具体包括以下实现步骤：

1)基本特征提取

首先对数据进行预处理，然后提取企业基本信息，企业基本信息大致分为三个类型：对文本型数据用word2vec算法转换为向量，对类别型数据用One-Hot编码，对数值型数据进行标准化处理；具体实现方法如下：

步骤101：数据预处理

(1)提取“纳税人电子档案号”，作为企业特征唯一标识；

步骤102：处理文本型数据

对企业基本信息表中的文本信息处理包括：

(1)使用Jieba分词工具把企业的文本型数据进行分词；

(3)基于word2vec将提取出来的N类关键词转成向量；

步骤103：处理标志型数据

步骤104：处理数值型数据

(1)求各属性的均值；

(2)求各属性的方差；

(3)Z-Score标准化；

2)基于动态网络表征的特征提取

提取企业基本特征后，以企业为节点，企业基本信息为节点属性，以交易记录为边，交易信息为边的属性，以每一天为时间节点，把企业交易信息组织成静态网络；然后以30天为单位建立时序窗口，在窗口内每次融合30天的静态网络表征，并通过移动时序窗口逐步融合所有时间的静态网络表征，优化网络表征的目标函数，最后得到最优的动态企业交易网络表征；具体实现方法如下：

步骤201：建立静态的企业交易网络