CN116912016A - 一种账单稽核方法和装置 - Google Patents
一种账单稽核方法和装置 Download PDFInfo
- Publication number
- CN116912016A CN116912016A CN202211679469.3A CN202211679469A CN116912016A CN 116912016 A CN116912016 A CN 116912016A CN 202211679469 A CN202211679469 A CN 202211679469A CN 116912016 A CN116912016 A CN 116912016A
- Authority
- CN
- China
- Prior art keywords
- subject
- data
- model
- target item
- bill
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000004927 fusion Effects 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims description 65
- 238000012216 screening Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000007619 statistical method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 40
- 238000012550 audit Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种账单稽核方法和装置,通过获取与待稽核账单中的目标项对应的历史科目数据;将历史科目数据输入加权融合模型,得到由加权融合模型输出的目标项的科目预测数据;根据目标项的科目实际数据与科目预测数据之间的差异,得到目标项的稽核结果;其中,加权融合模型是基于目标项的科目历史样本数据以及与每个科目历史样本数据对应的样本标签训练得到的。本发明通过加权融合模型对待稽核账单中的目标项的特定科目进行预测,并根据科目预测数据与科目实际数据之间的差距进行账单稽核,无需人工参与稽核,减少人力开支,且使用加权融合模型进行预测,提高了稽核结果准确性,从而提高现有的账单稽核效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种账单稽核方法和装置。
背景技术
账务稽核是指对会计凭证、账簿、报表及其他会计资料进行审核的过程,是现代企业高效运营的关键环节。随着企业规模不断扩大,企业所涉及的业务种类越来越多,规则也越来越复杂,企业的账务***处理逻辑也变得非常复杂,例如其中多部门、多个业务环节的交接,导致表单、工序繁复,存在“跑、冒、滴、漏”的风险。
目前普遍采用的财务账单稽核方法是基于企业历史账单数据,通过一些简单的统计模型对目标业务进行预测,得到目标业务的原始预测账单,然后通过运营人员基于自己的经验判断对上述原始预测账单做出一定的调整,得到预测账单,根据该预测账单与目标业务产生的实际账单之间的差距判断实际账单是否符合规范或符合预期。
然而,上述稽核方法主要依靠一些简单的统计模型,且受到人为主观判断的影响较大,不同的人经验不同,导致最终的预测结果不够准确。
发明内容
针对现有技术存在的问题,本发明提供一种账单稽核方法和装置,用以提高业务账单稽核的准确性。
本发明提供一种账单稽核方法,包括:
获取与待稽核账单中的目标项对应的历史科目数据;
将所述历史科目数据输入加权融合模型,得到由所述加权融合模型输出的所述目标项的科目预测数据;
根据所述目标项的科目实际数据与所述科目预测数据之间的差异,得到所述目标项的稽核结果;
所述加权融合模型是基于所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的样本标签训练得到的。
根据本发明提供的一种账单稽核方法,所述加权融合模型是采用以下步骤得到的,包括:
利用训练数据集分别对第一子模型和第二子模型进行训练,得到训练后的第一子模型和训练后的第二子模型;其中,所述训练数据集包括所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的所述样本标签;
将所述训练后的第一子模型和所述训练后的第二子模型按照预设权重占比,构建融合模型;
利用所述训练数据集对所述融合模型进行训练,以调整所述第一子模型和所述第二子模型的权重占比,得到最优权重占比;在所述最优权重占比下,所述融合模型的预设适应度函数值满足预设终止条件;
基于所述最优权重占比,将所述训练后的第一子模型和所述训练后的第二子模型进行加权融合,得到所述加权融合模型。
根据本发明提供的一种账单稽核方法,在利用所述训练数据集分别对第一子模型和第二子模型进行训练之前,还包括:
获取与所述目标项对应的原始科目数据;
对所述原始科目数据进行筛选,得到与科目类别特征相关的第一数据集合;
获取所述原始科目数据的各统计分析结果,构建第二数据集合;基于所述第一数据集合和所述第二数据集合构建得到所述训练数据集。
根据本发明提供的一种账单稽核方法,所述对所述原始科目数据进行筛选,得到与科目类别特征相关的第一数据集合,包括:
对所述原始科目数据进行筛选,得到与营销类型特征相关的第三数据集合;
对所述原始科目数据进行筛选,得到与收费节点特征相关的第四数据集合;
基于第三数据集合与所述第四数据集合,构建得到所述与科目类别特征相关的第一数据集合。
根据本发明提供的一种账单稽核方法,所述基于所述第一数据集合和所述第二数据集合构建得到所述训练数据集,包括:
基于熵权法,确定所述第一数据集合中的各个特征值和所述第二数据集合中的各个特征值的特征权重;
将所述各个特征值与相应的所述特征权重相乘,得到所述训练数据集。
根据本发明提供的一种账单稽核方法,所述根据所述目标项的科目实际数据与所述科目预测数据之间的差异,得到所述目标项的稽核结果,包括:
基于预设置信度计算得到所述科目预测数据对应的置信区间;
获取所述目标项对应的科目实际数据;
若所述科目实际数据位于所述置信区间外,则判断所述目标项的稽核结果为异常。
本发明还提供一种账单稽核装置,包括:
数据获取模块,用于获取与待稽核账单中的目标项对应的历史科目数据;
账单预测模块,用于将所述历史科目数据输入加权融合模型,得到由所述加权融合模型输出的所述目标项的科目预测数据;
稽核结果处理模块,用于根据所述目标项的科目实际数据与所述科目预测数据之间的差异,得到所述目标项的稽核结果;
所述加权融合模型是基于所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的样本标签训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的账单稽核方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的账单稽核方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的账单稽核方法。
本发明提供的一种账单稽核方法,通过获取与待稽核账单中的目标项对应的历史科目数据;将历史科目数据输入加权融合模型,得到由加权融合模型输出的目标项的科目预测数据;根据目标项的科目实际数据与科目预测数据之间的差异,得到目标项的稽核结果;其中,加权融合模型是基于目标项的科目历史样本数据以及与每个科目历史样本数据对应的样本标签训练得到的。本发明通过加权融合模型对待稽核账单中的特定目标项的会计科目进行预测,并根据预测结果与科目实际数据之间的差距进行账单稽核,无需人工参与稽核,减少人力开支,且使用加权融合模型进行预测,提高了稽核结果准确性,从而提高现有的账单稽核效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的账单稽核方法的应用环境示意图;
图2是本发明提供的账单稽核方法的流程示意图之一;
图3是本发明提供的账单稽核方法的流程示意图之二;
图4是本发明提供的账单稽核方法的流程示意图之三;
图5是本发明提供的账单稽核方法的流程示意图之四;
图6是本发明提供的账单稽核方法的流程示意图之五;
图7是本发明提供的账单稽核装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图8描述本发明的具体实施方式。
本申请实施例提供的账单稽核方法,可以应用于如图1所示的应用环境中。其中,终端101通过网络与服务器102进行通信。数据存储***可以存储服务器102需要处理的数据。数据存储***可以集成在服务器102上,也可以放在云上或其他网络服务器上。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种账单稽核方法,以该方法应用于图1中的终端101为例进行说明,包括以下步骤:
步骤201,获取与待稽核账单中的目标项对应的历史科目数据;
具体地,终端101从服务器102获取与待稽核账单中的目标项对应的历史科目数据。其中,待稽核账单是指需要进行稽核的会计账单,其中可能包括多个项目,例如对于运营商来说,可能包括套餐A的收入、套餐B的收入等,其中的套餐A、套餐B……可以分别作为目标项。每一个目标项中可有多个会计科目,例如对于套餐A来说,可以统计当月的收入、支出等,像这样的收入、支出、成本等可称为会计科目;由于企业业务复杂,某一目标项中常常包含多个会计科目,例如运营商某部门的账单中,一个目标项中包含当月话务收费科目和当月成本科目,可以使用科目ID(Identity Document,身份标识)唯一标识每一个会计科目,历史科目数据是指与该目标项对应的过去已经实际产生的账单数据,例如与某一目标项对应的过去5年间的历史科目数据,包括但不限于多个科目的科目单价、每月科目总收入、每天收入等数据。
步骤202,将上述历史科目数据输入加权融合模型,得到由加权融合模型输出的目标项的科目预测数据;
其中,加权融合模型是指使用模型融合方法对多个子模型进行融合后得到的组合模型,用于提升模型性能,例如提高预测准确性,本申请使用不同的权重来表示各个子模型的重要性。上述加权融合模型是指使用两个或两个以上的子模型融合并事先训练后的模型组合,例如使用Lasso(Least Absolute Shrinkage and Selection Operator,套索算法)模型和LightGBM(Light Gradient Boosting Machine,轻梯度提升框架)模型进行加权融合后的得到的融合模型。
具体地,将上述历史科目数据输入预先训练后的加权融合模型进行预测,得到目标项在待预测时间段内的科目预测数据。其中的待预测时间段可以是一天或多天,可根据实际需要灵活设置。
步骤203,根据目标项的科目实际数据与科目预测数据之间的差异,得到目标项的稽核结果。
其中,目标项的科目实际数据是指目标项在上述待预测时间段内实际产生的数据,例如套餐A在5月份的实际收入为5万元。
具体地,可采用统计学方法判断科目实际数据与科目预测数据之间的差异,例如,基于一定的置信度计算上述科目预测数据对应的置信区间,若目标项的科目实际数据位于上述置信区间外,则判断该目标科目的预测值准确度不高,该账单数据异常,需要做进一步的稽核处理,例如由人工进行进一步的核验。
上述实施例,通过获取与待稽核账单中的目标项对应的历史科目数据;将历史科目数据输入加权融合模型,得到由加权融合模型输出的目标项的科目预测数据;根据目标项的科目实际数据与科目预测数据之间的差异,得到目标项的稽核结果;其中,加权融合模型是基于目标项的科目历史样本数据以及与每个科目历史样本数据对应的样本标签训练得到的。本发明通过加权融合模型对待稽核账单中的特定目标项的会计科目进行预测,并根据预测结果与科目实际数据之间的差距进行账单稽核,无需人工参与稽核,减少人力开支,且使用加权融合模型进行预测,提高了稽核结果准确性,从而提高现有的账单稽核效率。
在一实施例中,如图3所示,图3展示了本发明中使用的模型训练流程图,上述预先训练后的加权融合模型,具体是采用以下步骤得到的,包括:
步骤301,利用训练数据集分别对第一子模型和第二子模型进行训练,得到训练后的第一子模型和训练后的第二子模型;其中,训练数据集包括目标项的科目历史样本数据以及与每个科目历史样本数据对应的样本标签;
具体地,终端101从数据存储***中获取训练数据集。其中,训练数据集是指针对目标项的科目历史样本数据,科目历史样本数据例如可以是过去连续多个月的实际账单数据,包括科目ID、科目类型、打折促销数据等,这些数据可以是经过预处理后的数据,预处理过程包括数据清洗、特征初筛、科目分类、特征工程处理等过程。训练数据集中还包括与每个历史样本数据对应的样本标签,例如当使用某目标项在2012年的全年数据作为模型输入,希望预测2013年1月的该目标项对应的科目预测数据时,则可将2013年1月的科目实际数据作为样本标签。如图4所示,本发明先使用上述训练数据集分别对第一子模型和第二子模型单独训练,得到训练后的第一子模型和训练后的第二子模型。例如,第一子模型可选用线性回归中的Lasso回归模型,第二子模型可选用非线性回归中的LightGBM回归模型。
步骤302,将训练后的第一子模型和训练后的第二子模型按照预设权重占比,构建融合模型;
模型融合是机器学习中常用的一种方法,通过融合多个不同的子模型,可以提升机器学习的性能。融合模型往往可以从模型结果、模型自身、样本集等不同的角度进行融合,本发明是从模型自身进行融合,考虑不同模型的能力不同,对最终结果的贡献也有差异,需要用权重来表征不同模型的重要性。
具体地,本发明使用加权融合的方法构建融合模型,需要多个子模型构建模型基础框架,包括第一子模型和第二子模型,例如,第一子模型可选用线性回归中的Lasso回归模型,第二子模型可选用非线性回归中的LightGBM回归模型,首先使用预设权重占比将上述训练后的第一子模型和训练后的第二子模型进行融合,构建融合模型。
步骤303,利用训练数据集对融合模型进行训练,以调整第一子模型和第二子模型的权重占比,得到最优权重占比;在最优权重占比下,融合模型的预设适应度函数值满足预设终止条件;
具体地,设第一子模型的权重为p,则第二子模型的权重的(1-p),利用上述训练数据集对该融合模型进行训练,在训练过程中不断调整上述权重p和(1-p),直到预设适应度函数满足终止条件,例如达到最大或最小,此时得到的权重p和(1-p)称为最优权重占比。
可选地,本发明可采用遗传算法(Genetic Algorithm,简称GA)来对两个模型的权值进行确定,如图4所示,图4展示了使用遗传算法确定模型权重的流程示意图,具体包括以下过程:
1)基于训练数据集同时构建Lasso回归和lightGBM回归模型;
2)设置权重参数范围,遗传算法的迭代次数、初始种群的数量;
3)随机生成k组初始值种群,并将种群中的每个个体作为组合模型的权重对训练数据集进行预测,以真实值(即样本标签)和科目预测数据的均方根误差作为适应度,最终适应度如公式1所示:
其中,n为训练数据集中的样本总数,例如针对目标项有n个样本;p为第一子模型的权重,(1-p)为第二子模型的权重,表示在模型训练过程中,第一子模型针对第i个样本的科目预测数据;/>表示在模型训练过程中,第二子模型针对第i个样本的科目预测数据;yi表示第i个样本的科目实际数据。
4)从初始种群中选取s个优秀个体,对其进行交叉、变异,从而生成新的个体,循环这个过程,直到满足预设终止条件时停止;
设第一子模型的第一权重为p,则第二子模型的第二权重的(1-p),构建的上述适应度函数(公式1)为:
其中,n为训练数据中的样本总数,例如针对目标科目的n个样本,p为第一子模型的第一权重,(1-p)为第二子模型的第二权重,表示在模型训练过程中,第一子模型针对第i个样本的预测值;/>表示在模型训练过程中,第二子模型针对第i个样本的预测值;yi表示第i个样本的实际账单值。
通过调整p的大小,直到上述适应度函数值fit满足预设条件,例如达到最小,或小于预设数值,则终止训练,得到p和(1-p)的最优权重占比。
5)最终,从历代种群中选择最优值作为最终结果,即为融合模型的最优权重占比,基于此可构建GA_lasso_lightGBM模型。
步骤304,基于上述最优权重占比,将上述训练后的第一子模型和上述训练后的第二子模型进行加权融合,得到上述加权融合模型。
具体地,基于上述最优权重占比p和(1-p),将上述第一子模型和第二子模型进行加权融合,得到加权融合模型GA_lasso_lightGBM模型。
上述实施例,通过加权融合方法,将多个子模型进行融合,得到加权融合模型,为后续对科目账单进行智能稽核提供前提条件。
在一实施例中,如图5所示,图5展示了对原始科目数据进行预处理后得到训练数据集的流程示意图,包括:
步骤501,获取与目标项对应的原始科目数据;
具体地,终端102从数据存储***中获取原始科目数据,原始科目数据是指针对目标项的历史科目数据,包括该目标项在过去多个月的实际账单数据,例如包括科目ID、科目类型、打折促销数据等。
步骤502,对上述原始科目数据进行筛选,得到与科目类别特征相关的第一数据集合;
其中,科目类别特征是指事先确定的科目大类以及大类中划分出的明细类别。
具体地,在训练前需要进行特征筛选,构建特征向量,以去除对预测结果影响小的数据。对上述原始科目数据进行分门别类,首先,可根据业务背景确定科目大类,再在大类中划分细分类别;或者,根据科目的收费节点特征对上述原始数据进行分类,例如运营商某一套餐收费模式包括五个类型:第一类为订购后立即扣取该套餐(科目)费用;第二类为每月5号扣取;第三类为每月1号扣取;第四类为每月25号扣取;第五类为每天扣取。进一步地,还可以是上述两种分类方式结合进行分类,具体可根据实际业务特性进行分类确定科目类别特征,再根据这些科目类别特征对上述原始数据进行筛选,确定各个样本的特征值,得到第一数据集合,第一数据集合中包括各个样本的关于上述科目类别特征的特征值。
步骤503,获取上述原始科目数据的各统计分析结果,构建第二数据集合。
具体地,通过步骤502中的对科目类别特征的分析,可以发现数据中还有两个维度的特征尚未挖掘出来,其中一个维度是科目账单费用的自相关维度,另一个维度是时间维度特征。因此本发明还将对上述原始科目数据进行统计分析,获取多个统计分析结果,从而得到这两个维度的衍生特征集合。
详细来说:
1、针对目标项的历史科目数据的自相关维度,举例说明如下:
为了进一步挖掘历史科目数据自相关维度的特征,考虑到数据都具有月周期性,因此首先进行每月同期特征的统计值衍生,分别衍生出:1)上月当天费用值;2)近三个月当天费用均值;3)近三个月当天费用标准差;4)近三个月当天费用最大值;5)近三个月当天费用最小值;6)历史当天费用均值;7)历史当天费用标准差;8)历史当天费用最大值;9)历史当天费用最小值。
其次,考虑到数据总体趋势的影响,还衍生出10)累计均值;11)累计标准差;12)累计最大值。
上述自相关维度特征还可采用其他统计方法计算,本发明对此不做限定。
2、针对目标项对应的历史科目数据中的时间维度特征,举例说明如下:
通过观察发现,部分类型的目标项的收费节点对账单费用值的波动影响很大,基于此,对存在特殊收费节点的目标项进行如下类别标签的特征衍生:1)是否为收费节点;2)是否在收费节点之前;3)是否在收费节点之后。
通过上述统计学方法统计数据间的自相关特性以及时间特征,得到统计分析结果,构建第二数据集合。第二数据集合中的各个元素即为衍生特征中的各个特征值。
步骤504,基于上述第一数据集合和上述第二数据集合构建得到上述训练数据集。
具体地,将上述第一数据集合和上述第二数据集合合并在一起,作为训练数据集。
可选地,由于原始特征集合+衍生特征集合的数量较多,为了体现特征间的内在差异性,可对各特征赋予不同的权重,并将赋予权重后的各个特征进行组合得到上述预处理后的训练数据。
上述实施例,采用了特征筛选的方法得到了与科目类别特征相关的第一数据集合,以及采用了统计分析的方法挖掘出了衍生特征集合(第二数据集合),通过分析不同类型科目账单费用的波动特性,从自相关维度和时间维度进行特征衍生,从而挖掘出影响账单费用的真正因素,为模型训练提供了更有效的训练数据。
在一实施例中,如图6所示,上述步骤502包括:
步骤601,对上述原始科目数据进行筛选,得到与营销类型特征相关的第三数据集合;
具体地,为了进行特征构建,需要对上述原始数据进行分门别类,本发明首先确定对账单数据有直接影响的营销特征:首先,可根据目标科目对应的业务特性确定科目大类,再在大类中划分细分类别;例如,以运营商的某一套餐服务举例,针对原始科目数据共分为四大类特征,其中,第一类为科目属性特征;第二类为科目订购特征;第三类为打折促销特征;第四类为直降促销特征;然后,在大类中划分明细类别,划分的部分特征类别如下表1所示:
表1营销类型特征
根据上述营销类型,对上述原始科目数据进行特征筛选,得到与营销类型特征相关的第三数据集合,第三数据集合中包括营销类型特征中的各个特征值,从而去除对预测结果影响小的数据。
步骤602,对上述原始科目数据进行筛选,得到与收费节点特征相关的第四数据集合;
具体地,基于现有的目标项的收费模式(即收费节点特性),可将目标项划分成以下多个类型(对于其他项目也可根据收费节点划分为以下多个类型),以上述运营商的某一套餐科目的收费举例,第一类为订购后立即扣取费用,这类型的项目账单费用波动情况与项目新增订购量相关性非常大,建模时可增大新增订购量这个特征的权重;第二类为每月5号扣取,这类型的项目账单费用呈现5号之前费用为0,5号当天账单费用值极高,5号之后较低,且5号之后的账单费用波动与项目新增订购量之间强相关;第三类为每月1号扣取;第四类为每月25号扣取;第三类和第四类的项目账单费用波动情况与第二类基本类似,只是收费节点不同,因此在后续特征工程中,针对这三类数据,可衍生出收费节点特征;第五类为每天扣取,这类型的目标项的账单费用每日波动较为平稳,但无与其相关性较强的单一特征。基于上述收费节点特征,对原始科目数据进行筛选得到第四数据集合,第四数据集合中包括样本中关于收费节点特征的各个特征值。
通过以上分析发现,各类型的目标项账单费用波动特性各不相同,且影响因素也不同,若将所有类型的目标项放在一起构建全局模型,模型效果较差,因此,本发明按照目标项的项目类型分别构建单独模型,也就是说不同类型的目标项单独训练模型。
步骤603,基于第三数据集合与所述第四数据集合,构建得到所述与科目类别特征相关的第一数据集合。
具体地,将上述营销类型特征与收费节点特征组合,作为目标项的科目类别特征,将第三数据集合与第四数据集合组合,也就得到了上述第一数据集合。
上述实施例,通过特征筛选得到科目类别特征,为模型训练提供数据铺垫。
在一实施例中,上述步骤504,包括:基于熵权法,确定第一数据集合中的各个特征值和第二数据集合中的各个特征值的特征权重;将各个特征值与相应的特征权重相乘,得到训练数据集。
其中,熵权法是一种客观赋值方法。在具体使用的过程中,熵权法根据各特征的变异程度,利用信息熵计算出各特征的熵权,再通过熵权对各特征的权重进行修正,从而得到较为客观的特征权重。
一般来说,若某个特征的熵权越大,则表明提供的信息量也越多,在综合评价中所能起到的作用也越大;相反,若某个特征的熵权越小,表明提供的信息量也越少,在综合评价中所起到的作用也越小。
具体地,熵权法步骤如下:
1)、针对上述科目类别特征集(第一数据集合)和衍生特征集(第二数据集合)中的各个特征值进行归一化处理:
为方便描述,将上述科目类别特征集(第一数据集合)和衍生特征集(第二数据集合)统称为特征集合;假设特征集合中共有n行训练样本,m个特征,其中xij表示第i行j列元素(即第i个样本的第j个特征值)。
若实际应用中,特征值越大越好,则采用如下方式进行归一化:
其中,表示在特征值越大越好的情况下,针对第i个样本的第j个特征值归一化后的特征值;xij表示第i个样本的第j个特征值;min(xj)表示第j个特征中的最小样本值;max(xj)表示第j个特征中的最大样本值;j表示特征个数(j=1,2,…m);i表示样本数(i=1,2,…n)
若特征值越小越好,则将归一化方式修改为:
其中,表示在特征值越小越好的情况下,针对第i个样本的第j个特征值归一化后的特征值;xij表示第i个样本的第j个特征值;min(xj)表示第j个特征中的最小样本值;max(xj)表示第j个特征中的最大样本值;
2)计算第j项特征下第i个样本值所占比重Pij:
其中,j表示第j项特征(j=1,2,…m),m表示特征总数。
3)计算第j项特征的熵值Ej:
其中,i表示第i个样本值(i=1,2,…n),n表示样本总数。
4)生成各特征的最终熵权ωj,也即各个特征的特征权重:
最后,对上述特征集合中的各个特征赋予上述特征权重ωj后,即将各个特征值与相应的特征权重相乘后,得到数值集合作为训练数据集。
上述实施例,通过熵权法对各个特征赋予特征权重,能够凸显影响较大的特征对预测结果的影响,并弱化影响教小的特征对预测结果的影响,突出特征间的内在差异性,进一步提高了预测准确性。
在一实施例中,上述步骤203包括:基于预设置信度计算得到科目预测数据对应的置信区间;获取目标项对应的科目实际数据;若科目实际数据位于置信区间外,则判断目标项的稽核结果为异常。
具体地,在一定的置信度要求下计算科目预测数据对应的置信区间,当科目实际数据位于置信区间外时,则判断目标项的稽核结果为异常,可向业务处理端发送关于该目标项的账单预警信息,以便进行下一步处理或由人工处理。
上述实施例,通过比较科目预测数据与科目实际数据之间的差异,自动判断账单中的该目标项是否符合要求,无需人工参与修正,减少人力开支,且模型可基于新数据进行高效的更新迭代,进一步提高了账单稽核效率。
下面对本发明提供的账单稽核装置进行描述,下文描述的账单稽核装置700与上文描述的账单稽核方法可相互对应参照。
在一个实施例中,如图7所示,提供了一种账单稽核装置700,包括:数据获取模块701、账单预测模块702和稽核结果处理模块703,其中:
数据获取模块701,用于获取与待稽核账单中的目标项对应的历史科目数据;
账单预测模块702,用于将所述历史科目数据输入加权融合模型,得到由所述加权融合模型输出的所述目标项的科目预测数据;
稽核结果处理模块703,用于根据所述目标项的科目实际数据与所述科目预测数据之间的差异,得到所述目标项的稽核结果;
所述加权融合模型是基于所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的样本标签训练得到的。
在其中一个实施例中,上述账单稽核装置700还包括模型训练单元,用于利用训练数据集分别对第一子模型和第二子模型进行训练,得到训练后的第一子模型和训练后的第二子模型;其中,所述训练数据集包括所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的所述样本标签;将所述训练后的第一子模型和所述训练后的第二子模型按照预设权重占比,构建融合模型;利用所述训练数据集对所述融合模型进行训练,以调整所述第一子模型和所述第二子模型的权重占比,得到最优权重占比;在所述最优权重占比下,所述融合模型的预设适应度函数值满足预设终止条件;基于所述最优权重占比,将所述训练后的第一子模型和所述训练后的第二子模型进行加权融合,得到所述加权融合模型。
在其中一个实施例中,上述模型训练单元进一步用于:获取与所述目标项对应的原始科目数据;对所述原始科目数据进行筛选,得到与科目类别特征相关的第一数据集合;获取所述原始科目数据的各统计分析结果,构建第二数据集合;基于所述第一数据集合和所述第二数据集合构建得到所述训练数据集。
在其中一个实施例中,上述模型训练单元进一步用于:对所述原始科目数据进行筛选,得到与营销类型特征相关的第三数据集合;对所述原始科目数据进行筛选,得到与收费节点特征相关的第四数据集合;基于第三数据集合与所述第四数据集合,构建得到所述与科目类别特征相关的第一数据集合。
在其中一个实施例中,上述模型训练单元进一步用于:基于熵权法,确定所述第一数据集合中的各个特征值和所述第二数据集合中的各个特征值的特征权重;将所述各个特征值与相应的所述特征权重相乘,得到所述训练数据集。
在其中一个实施例中,上述稽核结果处理模块703进一步用于:基于预设置信度计算得到所述科目预测数据对应的置信区间;获取所述目标项对应的科目实际数据;若所述科目实际数据位于所述置信区间外,则判断所述目标项的稽核结果为异常。
上述账单稽核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行账单稽核方法,该方法包括:获取与目标科目对应的历史账单数据;将所述历史账单数据输入预先训练后的加权融合模型进行预测,得到所述目标科目的账单预测值;根据所述目标科目的实际账单与所述账单预测值之间的差异,得到所述目标科目的稽核结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的账单稽核方法,该方法包括:获取与待稽核账单中的目标项对应的历史科目数据;将历史科目数据输入加权融合模型,得到由加权融合模型输出的目标项的科目预测数据;根据目标项的科目实际数据与科目预测数据之间的差异,得到目标项的稽核结果;其中,加权融合模型是基于目标项的科目历史样本数据以及与每个科目历史样本数据对应的样本标签训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的账单稽核方法,该方法包括:获取与待稽核账单中的目标项对应的历史科目数据;将历史科目数据输入加权融合模型,得到由加权融合模型输出的目标项的科目预测数据;根据目标项的科目实际数据与科目预测数据之间的差异,得到目标项的稽核结果;其中,加权融合模型是基于目标项的科目历史样本数据以及与每个科目历史样本数据对应的样本标签训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种账单稽核方法,其特征在于,包括:
获取与待稽核账单中的目标项对应的历史科目数据;
将所述历史科目数据输入加权融合模型,得到由所述加权融合模型输出的所述目标项的科目预测数据;
根据所述目标项的科目实际数据与所述科目预测数据之间的差异,得到所述目标项的稽核结果;
所述加权融合模型是基于所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的样本标签训练得到的。
2.根据权利要求1所述的账单稽核方法,其特征在于,所述加权融合模型是采用以下步骤得到的,包括:
利用训练数据集分别对第一子模型和第二子模型进行训练,得到训练后的第一子模型和训练后的第二子模型;其中,所述训练数据集包括所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的所述样本标签;
将所述训练后的第一子模型和所述训练后的第二子模型按照预设权重占比,构建融合模型;
利用所述训练数据集对所述融合模型进行训练,以调整所述第一子模型和所述第二子模型的权重占比,得到最优权重占比;在所述最优权重占比下,所述融合模型的预设适应度函数值满足预设终止条件;
基于所述最优权重占比,将所述训练后的第一子模型和所述训练后的第二子模型进行加权融合,得到所述加权融合模型。
3.根据权利要求2所述的账单稽核方法,其特征在于,在利用所述训练数据集分别对第一子模型和第二子模型进行训练之前,还包括:
获取与所述目标项对应的原始科目数据;
对所述原始科目数据进行筛选,得到与科目类别特征相关的第一数据集合;
获取所述原始科目数据的各统计分析结果,构建第二数据集合;
基于所述第一数据集合和所述第二数据集合构建得到所述训练数据集。
4.根据权利要求3所述的账单稽核方法,其特征在于,所述对所述原始科目数据进行筛选,得到与科目类别特征相关的第一数据集合,包括:
对所述原始科目数据进行筛选,得到与营销类型特征相关的第三数据集合;
对所述原始科目数据进行筛选,得到与收费节点特征相关的第四数据集合;
基于所述第三数据集合与所述第四数据集合,构建得到所述与科目类别特征相关的第一数据集合。
5.根据权利要求3所述的账单稽核方法,其特征在于,所述基于所述第一数据集合和所述第二数据集合构建得到所述训练数据集,包括:
基于熵权法,确定所述第一数据集合中的各个特征值和所述第二数据集合中的各个特征值的特征权重;
将所述各个特征值与相应的所述特征权重相乘,得到所述训练数据集。
6.根据权利要求1至5任一项所述的账单稽核方法,其特征在于,所述根据所述目标项的科目实际数据与所述科目预测数据之间的差异,得到所述目标项的稽核结果,包括:
基于预设置信度计算得到所述科目预测数据对应的置信区间;
获取所述目标项对应的科目实际数据;
若所述科目实际数据位于所述置信区间外,则判断所述目标项的稽核结果为异常。
7.一种账单稽核装置,其特征在于,所述装置包括:
数据获取模块,用于获取与待稽核账单中的目标项对应的历史科目数据;
账单预测模块,用于将所述历史科目数据输入加权融合模型,得到由所述加权融合模型输出的所述目标项的科目预测数据;
稽核结果处理模块,用于根据所述目标项的科目实际数据与所述科目预测数据之间的差异,得到所述目标项的稽核结果;
所述加权融合模型是基于所述目标项的科目历史样本数据以及与每个所述科目历史样本数据对应的样本标签训练得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述账单稽核方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述账单稽核方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述账单稽核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211679469.3A CN116912016A (zh) | 2022-12-26 | 2022-12-26 | 一种账单稽核方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211679469.3A CN116912016A (zh) | 2022-12-26 | 2022-12-26 | 一种账单稽核方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912016A true CN116912016A (zh) | 2023-10-20 |
Family
ID=88349877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211679469.3A Pending CN116912016A (zh) | 2022-12-26 | 2022-12-26 | 一种账单稽核方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912016A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217711A (zh) * | 2023-10-23 | 2023-12-12 | 广东电网有限责任公司 | 通信费单据自动审核方法及*** |
-
2022
- 2022-12-26 CN CN202211679469.3A patent/CN116912016A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217711A (zh) * | 2023-10-23 | 2023-12-12 | 广东电网有限责任公司 | 通信费单据自动审核方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和*** | |
CN108846520B (zh) | 贷款逾期预测方法、装置以及计算机可读存储介质 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN111695084A (zh) | 模型生成方法、信用评分生成方法、装置、设备及存储介质 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114663002A (zh) | 一种自动化匹配绩效考核指标的方法及设备 | |
CN116912016A (zh) | 一种账单稽核方法和装置 | |
CN116915710A (zh) | 流量预警方法、装置、设备及可读存储介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN110610415B (zh) | 一种模型更新的方法和装置 | |
CN114004691A (zh) | 基于融合算法的额度评分方法、装置、设备及存储介质 | |
CN114493686A (zh) | 一种运营内容生成推送方法及装置 | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
US20220156573A1 (en) | Machine Learning Engine Providing Trained Request Approval Decisions | |
CN117237085A (zh) | 一种信息处理方法、设备及计算机可读存储介质 | |
CN115099934A (zh) | 一种高潜客户识别方法、电子设备和存储介质 | |
CN115293867A (zh) | 财务报销用户画像优化方法、装置、设备及存储介质 | |
CN114757397A (zh) | 一种坏料预测方法、坏料预测装置及电子设备 | |
US20170052959A1 (en) | Filtering Resources Using a Multilevel Classifier | |
CN117217711A (zh) | 通信费单据自动审核方法及*** | |
CN113822464A (zh) | 用户信息的处理方法及装置、电子设备、存储介质 | |
CN110852854B (zh) | 一种量化收益模型的生成方法和风险控制策略的评价方法 | |
CN114548620A (zh) | 物流准时保业务推荐方法、装置、计算机设备和存储介质 | |
JP2001022851A (ja) | スコアリング方法およびシステム | |
CN112862602B (zh) | 一种用户请求的确定方法及存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |