CN103377454A - 基于余弦相似度的异常报税数据检测方法 - Google Patents
基于余弦相似度的异常报税数据检测方法 Download PDFInfo
- Publication number
- CN103377454A CN103377454A CN2013102918969A CN201310291896A CN103377454A CN 103377454 A CN103377454 A CN 103377454A CN 2013102918969 A CN2013102918969 A CN 2013102918969A CN 201310291896 A CN201310291896 A CN 201310291896A CN 103377454 A CN103377454 A CN 103377454A
- Authority
- CN
- China
- Prior art keywords
- avg
- wavg
- dutiable goods
- data
- declaring dutiable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于余弦相似度的异常报税数据检测方法:基于同行业/地区的纳税人报税数据,计算纳税人报税数据的统计指标以及同行业/地区纳税人报税数据的统计特征;通过计算不同纳税人与同行业/地区报税数据的统计特征间的余弦相似度,检测异常数据和识别可疑纳税人。本方法可以有效提高异常报税数据的检测精度,降低计算复杂度,并实现对可疑纳税人的识别。
Description
技术领域:
本发明涉及数据监测领域,特别涉及一种异常报税数据检测方法。
背景技术:
税务审计是指税务机关依法对纳税人、扣缴义务人履行纳税义务、扣缴义务情况所进行的税务稽查和处理工作的总称。税务法律法规复杂、审计点多,通用审计点多达2000项以上;同时审计对象数据庞大,一个大型企业仅财务凭证数据一项,约有数千万笔,按照传统人工方式,完成一家较大企业审计一般需要5-10个人团队工作6个月时间。如何通过对纳税人的报税数据进行自动分析,筛查出异常的报税数据和纳税人,降低人工审计的数据量,成为税务审计领域亟待解决的问题之一。
发明内容:
本发明主要目的在于提供一种基于余弦相似度的异常报税数据检测方法,通过构建纳税人的报税数据特征向量,以及同地区/行业纳税人报税数据统计特征向量,计算不同纳税人与统计特征间的余弦相似度,检测纳税人的报税数据是否存在异常,以识别可疑纳税人。
本发明的目的通过以下技术方案实现:
基于余弦相似度的异常报税数据检测方法,包括以下步骤:
S100,采集同一报税业务周期内同行业/地区m个纳税人的报税数据;
S101,根据步骤S100采集的同一报税业务周期内,纳税人i的报税数据,计算各项报税统计指标,记为S1(i),S2(i),…,Sn(i);以此生成针对纳税人i的统计指标向量S(i)=(S1(i),S2(i),…,Sn(i));其中n为报税统计指标的种类总数;
S102,针对同行业/地区的所有纳税人1,2,…,m,计算其报税数据统计指标向量的算数平均值AVG和销售总额加权平均值WAVG,计算公式为:
其中,o(i)是纳税人i的销售总值;
S103,计算m个纳税人的统计指标向量与同行业/地区的统计特征AVG和WAVG的余弦相似度:相似度大于余弦相似度阈值的统计指标向量所对应的纳税人报税数据为正常数据;相似度小于等于余弦相似度阈值的统计指标向量所对应的纳税人报税数据存在异常数据。
本发明进一步的改进在于:对于步骤S103中所检测出存在异常数据的纳税人,计算其各个报税数据统计指标分量与同行业/地区统计特征AVG和WAVG的分量相对误差。
本发明进一步的改进在于:所述余弦相似度阈值为0.96。
本发明进一步的改进在于:步骤S101中所述各项报税统计指标包括不同税种税负比、进项税额、销项税额、营业成本中一种或多种。
本发明进一步的改进在于:步骤S103中余弦相似度的计算过程为:对于第i个纳税人的统计指标向量S(i)与同行业/地区的统计特征AVG和WAVG的余弦相似度的计算公式分别为:
其中AVGj是算术平均值AVG的第j个分量,WAVGj是销售总额加权平均值WAVG的第j个分量;Sj(i)为第i个纳税人的第j项报税统计指标。
本发明进一步的改进在于:存在异常数据的第i纳税人的第j个统计指标Sj(i),其与同行业/地区统计特征AVG和WAVG的分量相对误差计算公式为:
相对于现有技术,本发明的有益效果是:
(1)算法复杂度低,有利于大规模使用:全国的纳税人数量已经接近千万数量级,分析算法的复杂度直接影响使用的效果;本发明利用余弦相似度描述纳税人报税数据与同行业/地域不同纳税人数据统计特征间的相似程度,以识别可疑纳税人和检测异常数据,算法复杂度低,运算速度快,可以支持大规模纳税人的数据分析;
(2)检测精度高:现有检测方法通过对单一特征设立阈值进行评估,而受到经营方式和短期业绩波动影响,纳税人的总体报税数据可能出现较大幅的变化,现有方法存在误报率较高的问题;本发明对报税数据的多维度指标计算余弦相似度,检测纳税人报税数据与统计特征的整体相似度,可以有效减少误报,可以为税务审计人员提供更准确的异常检测结果。
附图说明:
图1为基于余弦相似度的异常报税数据检测方法框图。
具体实施方式:
结合附图和实例详细说明本发明的实施方式。
请参阅图1所述,本发明基于余弦相似度的异常报税数据检测方法,包括以下步骤:
步骤S100,采集同行业/地区多个纳税人的报税数据;
实例:某地区火力发电行业7家单位2010年的报税数据,其中单位7存在隐瞒销售收入和修改税种的行为,7家单位的报税统计指标如表1所示。
表1某地区火力发电行业7家单位2010年的报税数据
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
增值税比例 | 62.1% | 64.7% | 59.8% | 61.4% | 69.1% | 67.7% | 47.4% |
营业税比例 | 1.1% | 1.2% | 1.7% | 1.5% | 0.8% | 0.9% | 17.9% |
2010年销售额(亿元) | 15.6 | 12.6 | 36.2 | 67.1 | 11.5 | 27.1 | 18.9 |
2009年销售额(亿元) | 7.8 | 4.2 | 9.1 | 13.4 | 1.9 | 3.9 | 2.4 |
毛利率 | 23.3% | 21.8% | 26.1% | 22.9% | 18.7% | 17.1% | 17.9% |
步骤S101,根据采集的纳税人报税数据,选择增值税比例(S1)、营业税比例(S2)、销售额年增幅(S3)和毛利率(S4)作为统计指标,具体数值如表2所示;
表2某地区火力发电行业7家单位2010年的报税数据统计指标
特征指标 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
S1 | 62.1% | 64.7% | 59.8% | 61.4% | 69.1% | 67.7% | 47.4% |
S2 | 1.1% | 1.2% | 1.7% | 1.5% | 0.8% | 0.9% | 17.9% |
S3 | 13.5% | 16.7% | 13.1% | 17.5% | 11.9% | 13.1% | 18.8% |
S4 | 23.3% | 21.8% | 26.1% | 22.9% | 18.7% | 17.1% | 17.9% |
步骤S102,根据同行业/地区统计指标向量的算数平均值和销售总额加权平均值计算公式,得到7家单位2010年数据的算数平均值AVG和销售总额加权平均值WAVG为
步骤S103,计算7个单位的统计指标向量与同行业/地区的统计特征AVG和WAVG的余弦相似度,结果如表3所示;本实例中将余弦相似度的阈值设为0.96,相似度大于阈值的检测结果记为“正常”,相似度小于阈值的检测结果记为“异常”,检测结果如表4所示,其中单位1-6均正常,单位7的数据存在异常;
表3余弦相似度
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
A VG | 0.9987 | 0.9984 | 0.9967 | 0.9992 | 0.9963 | 0.9958 | 0.9550 |
WAVG | 0.9991 | 0.9983 | 0.9977 | 0.9997 | 0.9954 | 0.9949 | 0.9537 |
表4异常检测结果
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
A VG | 正常 | 正常 | 正常 | 正常 | 正常 | 正常 | 异常 |
WAVG | 正常 | 正常 | 正常 | 正常 | 正常 | 正常 | 异常 |
步骤S104,对于存在异常数据的单位7,计算其各个分量与统计特征的相对误差,结果如表5所示;其中指标S2的相对误差高达0.6678相对AVG和0.7146相对WAVG,判定指标S2存在异常。
表5单位7统计指标的分量相对误差
AVG | WAVG | |
S1(7) | 0.1356 | 0.1324 |
S2(7) | 0.6678 | 0.7146 |
S3(7) | 0.1248 | 0.1084 |
S4(7) | 0.0796 | 0.0974 |
步骤S105,输出结果“检测到可疑纳税人7,其指标营业税比例的存在异常”。
Claims (6)
1.基于余弦相似度的异常报税数据检测方法,其特征在于,包括以下步骤:
S100,采集同一报税业务周期内同行业/地区m个纳税人的报税数据;
S101,根据步骤S100采集的同一报税业务周期内,纳税人i的报税数据,计算各项报税统计指标,记为S1(i),S2(i),…,Sn(i);以此生成针对纳税人i的统计指标向量S(i)=(S1(i),S2(i),…,Sn(i));其中n为报税统计指标的种类总数;
S102,针对同行业/地区的所有纳税人1,2,…,m,计算其报税数据统计指标向量的算数平均值AVG和销售总额加权平均值WAVG,计算公式为:
其中,o(i)是纳税人i的销售总值;
S103,计算m个纳税人的统计指标向量与同行业/地区的统计特征AVG和WAVG的余弦相似度:相似度大于余弦相似度阈值的统计指标向量所对应的纳税人报税数据为正常数据;相似度小于等于余弦相似度阈值的统计指标向量所对应的纳税人报税数据存在异常数据。
2.根据权利要求1所述的基于余弦相似度的异常报税数据检测方法,其特征在于,对于步骤S103中所检测出存在异常数据的纳税人,计算其各个报税数据统计指标分量与同行业/地区统计特征AVG和WAVG的分量相对误差。
3.根据权利要求1所述的基于余弦相似度的异常报税数据检测方法,其特征在于,所述余弦相似度阈值为0.96。
4.根据权利要求1所述的基于余弦相似度的异常报税数据检测方法,其特征在于,步骤S101中所述各项报税统计指标包括不同税种税负比、进项税额、销项税额、营业成本中一种或多种。
5.根据权利要求1所述的基于余弦相似度的异常报税数据检测方法,其特征在于,步骤S103中余弦相似度的计算过程为:对于第i个纳税人的统计指标向量S(i)与同行业/地区的统计特征AVG和WAVG的余弦相似度的计算公式分别为:
其中AVGj是算术平均值AVG的第j个分量,WAVGj是销售总额加权平均值WAVG的第j个分量;Sj(i)为第i个纳税人的第j项报税统计指标。
6.根据权利要求2所述的基于余弦相似度的异常报税数据检测方法,其特征在于,存在异常数据的第i纳税人的第j个统计指标Sj(i),其与同行业/地区统计特征AVG和WAVG的分量相对误差计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310291896.9A CN103377454B (zh) | 2013-07-11 | 2013-07-11 | 基于余弦相似度的异常报税数据检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310291896.9A CN103377454B (zh) | 2013-07-11 | 2013-07-11 | 基于余弦相似度的异常报税数据检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103377454A true CN103377454A (zh) | 2013-10-30 |
CN103377454B CN103377454B (zh) | 2015-11-11 |
Family
ID=49462524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310291896.9A Active CN103377454B (zh) | 2013-07-11 | 2013-07-11 | 基于余弦相似度的异常报税数据检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103377454B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166934A (zh) * | 2014-08-29 | 2014-11-26 | 税友软件集团股份有限公司 | 一种针对行业及税种的指标模型的税收分析方法及*** |
CN106021479A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种项目关键指标的自动关联方法及*** |
CN106933814A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 税务数据异常分析方法及*** |
CN110659948A (zh) * | 2018-06-13 | 2020-01-07 | 中国软件与技术服务股份有限公司 | 一种进销商品匹配度计算方法及虚开***风险发现方法 |
CN111695979A (zh) * | 2020-06-18 | 2020-09-22 | 税友软件集团股份有限公司 | 一种原材料与成品的关系分析方法、装置及设备 |
CN112613929A (zh) * | 2020-12-17 | 2021-04-06 | 山东浪潮商用***有限公司 | 一种基于语义分析的***虚开识别方法及*** |
CN113762770A (zh) * | 2021-09-06 | 2021-12-07 | 广东电网有限责任公司 | 一种智能指标提醒***及方法 |
CN114445207A (zh) * | 2022-04-11 | 2022-05-06 | 广东企数标普科技有限公司 | 基于数字人民币的税务管理*** |
CN117993723A (zh) * | 2024-04-03 | 2024-05-07 | 中国汽车技术研究中心有限公司 | 基于数据一体化的业务流程信息***及运行方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259719A (ja) * | 1999-03-08 | 2000-09-22 | Internatl Business Mach Corp <Ibm> | 債務不履行の確率を計算する方法及び装置 |
WO2005101265A2 (en) * | 2004-04-06 | 2005-10-27 | Pricewaterhousecoopers, Llp | Systems and methods for investigation of financial reporting information |
CN102609874A (zh) * | 2012-02-15 | 2012-07-25 | 江苏壹格信息科技有限公司 | 房地产项目涉税风险评估方法 |
CN102890803A (zh) * | 2011-07-21 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 电子商品异常交易过程的确定方法及其装置 |
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
-
2013
- 2013-07-11 CN CN201310291896.9A patent/CN103377454B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259719A (ja) * | 1999-03-08 | 2000-09-22 | Internatl Business Mach Corp <Ibm> | 債務不履行の確率を計算する方法及び装置 |
WO2005101265A2 (en) * | 2004-04-06 | 2005-10-27 | Pricewaterhousecoopers, Llp | Systems and methods for investigation of financial reporting information |
CN102890803A (zh) * | 2011-07-21 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 电子商品异常交易过程的确定方法及其装置 |
CN102609874A (zh) * | 2012-02-15 | 2012-07-25 | 江苏壹格信息科技有限公司 | 房地产项目涉税风险评估方法 |
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166934A (zh) * | 2014-08-29 | 2014-11-26 | 税友软件集团股份有限公司 | 一种针对行业及税种的指标模型的税收分析方法及*** |
CN106933814A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 税务数据异常分析方法及*** |
CN106021479A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种项目关键指标的自动关联方法及*** |
CN110659948A (zh) * | 2018-06-13 | 2020-01-07 | 中国软件与技术服务股份有限公司 | 一种进销商品匹配度计算方法及虚开***风险发现方法 |
CN111695979A (zh) * | 2020-06-18 | 2020-09-22 | 税友软件集团股份有限公司 | 一种原材料与成品的关系分析方法、装置及设备 |
CN112613929A (zh) * | 2020-12-17 | 2021-04-06 | 山东浪潮商用***有限公司 | 一种基于语义分析的***虚开识别方法及*** |
CN113762770A (zh) * | 2021-09-06 | 2021-12-07 | 广东电网有限责任公司 | 一种智能指标提醒***及方法 |
CN114445207A (zh) * | 2022-04-11 | 2022-05-06 | 广东企数标普科技有限公司 | 基于数字人民币的税务管理*** |
CN117993723A (zh) * | 2024-04-03 | 2024-05-07 | 中国汽车技术研究中心有限公司 | 基于数据一体化的业务流程信息***及运行方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103377454B (zh) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103377454B (zh) | 基于余弦相似度的异常报税数据检测方法 | |
Brodeur et al. | Methods matter: P-hacking and publication bias in causal analysis in economics | |
Lennox et al. | Accounting misstatements following lawsuits against auditors | |
CN103366091A (zh) | 基于多级阈值指数加权平均的异常报税数据检测方法 | |
Horváthová | The impact of environmental performance on firm performance: Short-term costs and long-term benefits? | |
CN107239458B (zh) | 基于大数据推算开发对象关系的方法及装置 | |
CN104715308A (zh) | 一种企业所得税纳税申报数据风险分析提示的方法和*** | |
CN102081781A (zh) | 基于信息自循环的金融建模优化方法 | |
CN112016843A (zh) | 一种组织财税数据风险分析方法及相关装置 | |
Qintharah et al. | Determinants on environmental disclosure moderating by integrated corporate governance | |
CN111210319A (zh) | 基于大数据的税务风险识别方法 | |
Ouyang et al. | The impact of board cultural diversity on company ESG performance under different risk backgrounds | |
CN114638504A (zh) | 企业风险评估方法、装置、设备、介质及产品 | |
Liu et al. | Crowding in or crowding out? The effect of imported environmentally sound technologies on indigenous green innovation | |
Situm | The relevance of employee-related ratios for early detection of corporate crises | |
Ltaifa | The impact of banking strategies on the net interest margin of Tunisian banks | |
Evers et al. | Model risk in backtesting risk measures | |
Peng et al. | Intelligent early-warning analysis of operational risks based on grey Kalman filter | |
US20230394069A1 (en) | Method and apparatus for measuring material risk in a data set | |
Gee et al. | Investor Mispricing of Persistent Non-GAAP Exclusions | |
Pernice et al. | Valuation of Debt Indexed to Real Values I-The Case of the Argentinean Growth Coupon: A Simple Mode | |
WO2021133905A1 (en) | Methods for measuring an impact of investments | |
Haihua | Stock Return Reaction To Covid-19 Pandemic: An Empirical Study | |
Song et al. | The establishment of evaluation index system and the empirical research on the financial activity ability of specialized farmer’s cooperatives | |
Li et al. | Assessment on credit risk of real estate based on logistic regression model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160415 Address after: 310053, tax building, No. 3738 South Ring Road, Hangzhou, Zhejiang, Binjiang District Patentee after: Servyou Software Group Co., Ltd. Address before: 710049 Xianning West Road, Shaanxi, China, No. 28, No. Patentee before: Xi'an Jiaotong University |