CN109933614B - 一种基于大数据行为分析的电子税务局数据预处理方法 - Google Patents

一种基于大数据行为分析的电子税务局数据预处理方法 Download PDF

Info

Publication number
CN109933614B
CN109933614B CN201910102569.1A CN201910102569A CN109933614B CN 109933614 B CN109933614 B CN 109933614B CN 201910102569 A CN201910102569 A CN 201910102569A CN 109933614 B CN109933614 B CN 109933614B
Authority
CN
China
Prior art keywords
tax
data
batch processing
behavior
handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910102569.1A
Other languages
English (en)
Other versions
CN109933614A (zh
Inventor
赵长江
吴乐云
李振德
曹晅
王瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QINGDAO WEIZHIHUI INFORMATION Co.,Ltd.
Original Assignee
Qingdao Weizhihui Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Weizhihui Information Co ltd filed Critical Qingdao Weizhihui Information Co ltd
Priority to CN201910102569.1A priority Critical patent/CN109933614B/zh
Publication of CN109933614A publication Critical patent/CN109933614A/zh
Application granted granted Critical
Publication of CN109933614B publication Critical patent/CN109933614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据行为分析的电子税务局数据预处理方法。该方法包括:办税行为分类步骤:根据纳税人办税行为构建不同业务下的纳税人办税行为模型,以将不同业务下的纳税人进行行为分类;办税行为时间优化步骤:根据办税行为分类结果,将每一类的聚类频次均值分布纳入纳税人办税行为模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间进行分类;数据预处理步骤,在业务流程梳理的基础上,根据纳税人办税行为模型的批处理时间分类结果,分别进行数据预处理。本发明提供的数据预处理方法以削峰填谷为目标,充分利用夜间或闲暇时间资源,对电子税务局相关业务数据分流预处理,提高各业务场景的办税效率。

Description

一种基于大数据行为分析的电子税务局数据预处理方法
技术领域
本发明属于数据处理技术领域,特别是涉及一种基于大数据行为分析的数据预处理方法。
背景技术
随着互联网的不断发展,纳税人办税逐渐从实体办税厅转移到网上办税,电子税务局作为纳税人网上办税的主要渠道,在纳税人高并发办税的情况下,其办理效率变得至关重要。数据预处理可以直接提高纳税人在电子税务局的办税效率。而如何应用大数据处理技术成为提高电子税务局办税效率的关键。
目前很多电子税务局主要针对申报等业务将相关***等数据进行预处理,具有业务局限性。当很多纳税人在同一时段集中办理业务时,还是会造成电子税务局客户端频繁与后台数据交互,增大后台数据处理压力,降低办税效率。
发明内容
基于现有书中存在的问题,本发明的目的是提供一种基于大数据行为分析的电子税务局数据预处理方法,在充分利用***闲暇时间资源基础上进行数据预处理,提高纳税人在电子税务局的办税效率。
为实现上述目的,本发明采用的技术方案如下:
一种基于大数据行为分析的电子税务局数据预处理方法,其特征在于,包括:
办税行为分类步骤:根据纳税人办税行为构建不同业务下的纳税人办税行为模型,以将不同业务下的纳税人进行行为分类;
办税行为时间优化步骤:根据办税行为分类结果,将每一类的聚类频次均值分布纳入纳税人办税行为模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间进行分类;
数据预处理步骤,在业务流程梳理的基础上,根据纳税人办税行为模型的批处理时间分类结果,分别进行数据预处理。
进一步的,办税行为分类步骤中,所述的纳税人办税行为是指纳税人针对某一业务在近一年内每月的办理频次。
进一步的,办税行为分类步骤中,所述的构建纳税人办税行为模型是指利用k-means算法,将纳税人办税行为数据进行聚类,以便得到纳税人的办税行为特征。
进一步的,所述的办税行为时间优化步骤,批处理时间分为按日批处理、按周批处理、按月批处理。批处理时间的选取具体包括以下四种:
某一类的频次均值等于0,则不做批处理;若只有某几个月的频次等于0,则只对这几个月不做批处理;
某一类的频次均值大于0且小于1,则按月批处理;若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;
某一类的频次均值大于1且小于4,则按周批处理;若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;
某一类的频次均值大于4,则按日批处理;若只有某几个月的频次大于4,则只在这几个月进行按日批处理。
进一步的,若某一类在每个月的频次均值存在四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。
进一步的,所述数据预处理步骤具体包括:
基于电子税务局业务***数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理;服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;
根据以上数据批处理的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;
其中,某一业务的某一分类的预处理时间选择夜间或者闲暇资源。
作为本发明的一种优选方式,本发明的方法还包括办税行为诊断步骤,是对构建好的纳税人办税行为模型进行评价、诊断,实现纳税人办税行为分类最优化。
进一步的,所述的办税行为诊断具体方法如下:计算SSE:
Figure BDA0001965939980000041
其中,uj为第j簇的质心;
重复执行几次k-means算法,选取SSE最小的一次作为最终的聚类结果。
本发明提供的一种基于大数据行为分析的电子税务局数据预处理方法,通过对纳税人的办税行为分析,将涉税业务、纳税人、办税频次、预处理时间分别对应分析,同一涉税业务针对不同纳税人分类群体,根据其办税频次分析进行数据预处理的时间不同,合理将预处理时间进行分流,避免不必要的数据预处理。
附图说明
图1为本发明实施例基于大数据行为分析的电子税务局数据预处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于大数据行为分析的电子税务局数据预处理方法,充分利用夜间或闲暇时间资源,对电子税务局相关业务数据分流预处理,提高各业务场景的办税效率。
图1为本发明实施例基于大数据行为分析的电子税务局数据预处理方法的流程图,如图1所示,本发明提供的基于大数据行为分析的电子税务局数据预处理方法,包括以下步骤:
步骤101:办税行为分类,针对某一业务将纳税人近一年内每月的办理频次进行提取;利用k-means算法,将纳税人办税行为数据进行聚类,构建出纳税人办税行为模型,以便得到纳税人的办税行为特征,将不同业务下的纳税人进行行为分类;
步骤102:办税行为诊断,对上述步骤构建好的纳税人办税行为模型进行评价、诊断,实现划分效果最优化。
k-means算法评价准则是基于欧几里得距离,使得簇内误差平方和(within-cluster sum of squared errors,SSE)最小;特别地,但是由于SSE是一个非凸函数,只能确保局部最优解。通过重复执行几次k-means算法,选取SSE最小的一次作为最终的聚类结果。
Figure BDA0001965939980000051
其中,uj为第j簇的质心。
步骤103:办税行为时间优化,在办税行为分类结果的基础上,将每一类的聚类频次均值分布纳入模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间分为按日批处理、按周批处理、按月批处理等;批处理时间选取方式具体包括:
某一类的频次均值等于0,则不做预处理;进一步地,若只有某几个月的频次等于0,则只对这几个月不做批处理;
某一类的频次均值大于0且小于1,则按月批处理;进一步地,若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;
某一类的频次均值大于1且小于4,则按周批处理;进一步地,若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;
某一类的频次均值大于4,则按日批处理;进一步地,若只有某几个月的频次大于4,则只在这几个月进行按日批处理;
若某一类在每个月的频次均值存在以上四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。
步骤104:数据预处理,在业务流程梳理的基础上,根据办税行为分析模型的批处理时间分类结果,分别进行数据预处理,具体包括:基于电子税务局业务***数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理,服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;根据以上数据批处理的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;其中,某一业务的某一分类的预处理时间一般选择夜间或者闲暇资源。
本发明提供的基于大数据行为分析的电子税务局数据预处理技术通过对纳税人的办税行为分析,将涉税业务、纳税人、办税频次、预处理时间分别对应分析,同一涉税业务针对不同纳税人分类群体,根据其办税频次分析进行数据预处理的时间不同,合理将预处理时间进行分流,避免不必要的数据预处理。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于大数据行为分析的电子税务局数据预处理方法,其特征在于,包括:
办税行为分类步骤:根据纳税人办税行为构建不同业务下的纳税人办税行为模型,以将不同业务下的纳税人进行行为分类;
办税行为诊断步骤,对构建好的纳税人办税行为模型进行评价、诊断,实现纳税人办税行为分类最优化;
办税行为时间优化步骤:根据办税行为分类结果,将每一类的聚类频次均值分布纳入纳税人办税行为模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间进行分类;
数据预处理步骤,在业务流程梳理的基础上,根据纳税人办税行为模型的批处理时间分类结果,分别进行数据预处理。
2.根据权利要求1所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,办税行为分类步骤中,所述的纳税人办税行为是指纳税人针对某一业务在近一年内每月的办理频次。
3.根据权利要求2所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,办税行为分类步骤中,所述的构建纳税人办税行为模型是指利用k-means算法,将纳税人办税行为数据进行聚类,以便得到纳税人的办税行为特征。
4.根据权利要求1所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,所述的办税行为时间优化步骤,批处理时间分为按日批处理、按周批处理、按月批处理。
5.根据权利要求4所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,批处理时间的选取包括以下四种:
某一类的频次均值等于0,则不做批处理;若只有某几个月的频次等于0,则只对这几个月不做批处理;
某一类的频次均值大于0且小于1,则按月批处理;若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;
某一类的频次均值大于1且小于4,则按周批处理;若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;
某一类的频次均值大于4,则按日批处理;若只有某几个月的频次大于4,则只在这几个月进行按日批处理。
6.根据权利要求5所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,若某一类在每个月的频次均值存在四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。
7.根据权利要求6所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,所述数据预处理步骤具体包括:
基于电子税务局业务***数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理;服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;
根据以上批处理时间的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;
其中,某一业务的某一分类的预处理时间选择夜间或者闲暇时间。
8.根据权利要求1所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,所述的办税行为诊断的具体方法如下:计算SSE
Figure FDA0003063555740000021
其中,uj为第j簇的质心;
重复执行几次k-means算法,选取SSE最小的一次作为最终的聚类结果。
CN201910102569.1A 2019-02-01 2019-02-01 一种基于大数据行为分析的电子税务局数据预处理方法 Active CN109933614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910102569.1A CN109933614B (zh) 2019-02-01 2019-02-01 一种基于大数据行为分析的电子税务局数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910102569.1A CN109933614B (zh) 2019-02-01 2019-02-01 一种基于大数据行为分析的电子税务局数据预处理方法

Publications (2)

Publication Number Publication Date
CN109933614A CN109933614A (zh) 2019-06-25
CN109933614B true CN109933614B (zh) 2021-08-06

Family

ID=66985481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910102569.1A Active CN109933614B (zh) 2019-02-01 2019-02-01 一种基于大数据行为分析的电子税务局数据预处理方法

Country Status (1)

Country Link
CN (1) CN109933614B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577480A (zh) * 2012-08-07 2014-02-12 ***股份有限公司 一种参数划分***及其方法、一种业务处理***及其方法
CN103729557A (zh) * 2013-12-25 2014-04-16 大连理工大学 基于psd-bpa的静态n-x批处理方法
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理***及处理方法
CN105449671A (zh) * 2015-12-14 2016-03-30 国网智能电网研究院 一种电力用户电能质量经济性评价***
CN105653354A (zh) * 2015-12-28 2016-06-08 北京金山安全软件有限公司 一种批处理的方法及装置
CN106484800A (zh) * 2016-09-22 2017-03-08 济南浪潮高新科技投资发展有限公司 一种高效归集多***大数据的实现方法
CN106844507A (zh) * 2016-12-27 2017-06-13 星环信息科技(上海)有限公司 一种数据批处理的方法及设备
CN107025573A (zh) * 2017-02-28 2017-08-08 广州地理研究所 一种驾培计时收费的学员分类调度方法和装置
CN107067324A (zh) * 2017-04-18 2017-08-18 上海翼翎数据信息技术有限公司 一种利用网络抓包数据实现交易风险控制的方法和***
CN108229733A (zh) * 2017-12-21 2018-06-29 中南大学 一种考虑用户满意度评价的电动汽车充电调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095593B (zh) * 2016-05-31 2019-04-16 Oppo广东移动通信有限公司 一种前、后景应用程序行为同步方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577480A (zh) * 2012-08-07 2014-02-12 ***股份有限公司 一种参数划分***及其方法、一种业务处理***及其方法
CN103729557A (zh) * 2013-12-25 2014-04-16 大连理工大学 基于psd-bpa的静态n-x批处理方法
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理***及处理方法
CN105449671A (zh) * 2015-12-14 2016-03-30 国网智能电网研究院 一种电力用户电能质量经济性评价***
CN105653354A (zh) * 2015-12-28 2016-06-08 北京金山安全软件有限公司 一种批处理的方法及装置
CN106484800A (zh) * 2016-09-22 2017-03-08 济南浪潮高新科技投资发展有限公司 一种高效归集多***大数据的实现方法
CN106844507A (zh) * 2016-12-27 2017-06-13 星环信息科技(上海)有限公司 一种数据批处理的方法及设备
CN107025573A (zh) * 2017-02-28 2017-08-08 广州地理研究所 一种驾培计时收费的学员分类调度方法和装置
CN107067324A (zh) * 2017-04-18 2017-08-18 上海翼翎数据信息技术有限公司 一种利用网络抓包数据实现交易风险控制的方法和***
CN108229733A (zh) * 2017-12-21 2018-06-29 中南大学 一种考虑用户满意度评价的电动汽车充电调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于连续时间的批处理调度研究及应用;赖欢欢;《万方数据》;20110328;全文 *

Also Published As

Publication number Publication date
CN109933614A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN110197280B (zh) 一种知识图谱构建方法、装置及***
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN104750780B (zh) 一种基于统计分析的Hadoop配置参数优化方法
CN111967971A (zh) 银行客户数据处理方法及装置
CN113961173B (zh) 基于领域事件驱动的单体***微服务拆分方法
US20230004979A1 (en) Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium
CN111580874A (zh) 数据申请的***安全控制方法、***和计算机设备
CN111626705A (zh) 一种薪资计算管理方法和***
CN109992588A (zh) 一种基于数据处理的分单方法及相关设备
CN110544035A (zh) 一种内控检测方法、***和计算机可读存储介质
CN115238815A (zh) 异常交易数据获取方法、装置、设备、介质和程序产品
CN113282623A (zh) 数据处理方法及装置
CN113643113A (zh) 一种电费自动审核方法、***、介质及电子设备
CN111598700A (zh) 一种金融风控***及方法
CN111062602A (zh) 企业信用风险评估的方法、装置及存储介质
CN109933614B (zh) 一种基于大数据行为分析的电子税务局数据预处理方法
CN111752541A (zh) 一种基于Rete算法的支付路由方法
CN103336800A (zh) 基于行为分析的指纹存储比对的方法
CN117236999A (zh) 一种活跃度确定方法、装置、电子设备及存储介质
CN113159213A (zh) 一种业务分配方法、装置及设备
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及***
CN112348657A (zh) 目标信贷用户的确定方法、装置、计算机设备及存储介质
CN117036001A (zh) 交易业务的风险识别处理方法、装置、设备及存储介质
CN112734352A (zh) 一种基于数据维度的单据审核方法和装置
CN115796937A (zh) 一种大数据复杂关联性的电力供需趋势分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210708

Address after: 266000 2nd floor, 79 Xuzhou Road, Qingdao, Shandong Province

Applicant after: QINGDAO WEIZHIHUI INFORMATION Co.,Ltd.

Address before: 266071 2 / F, curiosity workshop, 79 Xuzhou Road, Qingdao, Shandong Province

Applicant before: Wang Yaping

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant