CN112633638B - 业务风险评估方法、装置、计算机设备和存储介质 - Google Patents
业务风险评估方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112633638B CN112633638B CN202011395461.5A CN202011395461A CN112633638B CN 112633638 B CN112633638 B CN 112633638B CN 202011395461 A CN202011395461 A CN 202011395461A CN 112633638 B CN112633638 B CN 112633638B
- Authority
- CN
- China
- Prior art keywords
- data
- communication service
- processed
- service
- total
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004891 communication Methods 0.000 claims abstract description 280
- 230000002159 abnormal effect Effects 0.000 claims abstract description 180
- 238000000605 extraction Methods 0.000 claims abstract description 87
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims description 229
- 238000004590 computer program Methods 0.000 claims description 23
- 238000003066 decision tree Methods 0.000 claims description 16
- 238000013075 data extraction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 125000003580 L-valyl group Chemical group [H]N([H])[C@]([H])(C(=O)[*])C(C([H])([H])[H])(C([H])([H])[H])[H] 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种业务风险评估方法、装置、计算机设备和存储介质。所述方法包括:获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据;将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;在去除正样本数据的待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;根据预设的分类模型、正样本数据和负样本数据,得到待处理通信业务数据的分类结果,并根据分类结果中的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,指示根据最终异常数据集进行风险评估。采用本方法能够提高风险评估准确性。
Description
技术领域
本申请涉及电信技术领域,特别是涉及一种业务风险评估方法、装置、计算机设备和存储介质。
背景技术
随着通信技术的发展,各种电信业务的运营商在业务扩展过程中,通过活动赠款、电子券、折扣减免等优惠方式,吸引和发展用户,提高用户粘性。但是针对不同的业务扩展策略,由于每个业务的发展周期以及所涉及的优惠类型均不同,无法明显的确定运营商的收入情况,导致运营商运营过程中出现高套餐低价值的业务,造成极大的运营风险。
然而,目前的业务运营风险评估方法中,需要根据优惠金额等指标将不同的业务套餐进行降序排列,选取其中排名在前的预设数目的样本数据进行风险评估分析,所选取的样本数据信息覆盖不全面,得到的风险评估结果并不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种业务风险评估方法、装置、计算机设备和存储介质。
一种业务风险评估方法,所述方法包括:
获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据;
将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;
在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估。
在其中一个实施例中,所述获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据,包括:
获取初始通信业务数据,所述初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据;
针对所述初始通信业务数据中的每一条数据,对所述各业务费用折算数据进行求和计算,得到业务费用总折算数据;
计算所述业务费用总折算数据与对应的所述业务出账数据的比值,得到业务费用总折算比例数据,并计算所述各业务费用折算数据与对应的所述业务出账数据的比值,得到各业务费用折算比例数据;
根据所述用户标识与对应的所述各业务费用折算数据、所述业务费用总折算数据、所述各业务费用折算比例数据、所述业务费用总折算比例数据和所述业务出账数据,得到待处理通信业务数据。
在其中一个实施例中,所述评分模型包括业务费用折算数据评分模型和业务费用折算比例评分模型,所述将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型和预设的评分规则,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据,包括:
根据所述待处理通信业务数据中业务费用总折算数据,对所述待处理通信业务数据进行排序,并根据所述排序结果对所述待处理通信业务数据中的业务费用总折算数据进行排名标记;
根据所述业务费用折算数据评分模型和对应的所述业务费用总折算数据排名标记,得到所述待处理通信业务数据的业务费用折算数据评分结果;
根据所述待处理通信业务数据中业务费用总折算比例数据,对所述待处理通信业务数据进行排序,并根据所述排序结果对所述待处理通信业务数据中的业务费用总折算比例数据进行排名标记;
根据所述业务费用折算比例评分模型和对应的所述业务费用总折算比例数据排名标记,得到所述待处理通信业务数据的业务费用折算比例评分结果;
根据所述业务费用折算数据评分结果和所述业务费用折算比例评分结果,得到所述待处理通信业务数据的总评分结果;
将所述总评分结果降序排列,并按照预设的抽取规则,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据。
在其中一个实施例中,所述将所述总评分结果降序排列,并按照预设的抽取规则,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据,包括:
将所述总评分结果进行降序排列,并根据预设的分类比例,在排序后的所述待处理通信业务数据中提取满足预设比例数目的数据,得到候选异常数据集;
针对所述候选异常数据集中每一条数据,计算所述各业务费用折算数据与所述业务费用总折算数据的比值,得到业务费用折算数据结果,所述业务费用折算数据结果表征业务费用折算类型;
根据所述业务费用折算数据结果,在所述候选异常数据集中确定异常数据,得到初始异常数据集,作为正样本数据。
在其中一个实施例中,所述在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据,包括:
获取抽取属性集,所述抽取属性集包含不同抽取指标;
根据所述抽取属性集中的各抽取指标,在去除所述正样本数据的所述待处理通信业务数据中,进行数据抽取,得到所述各抽取指标对应抽取的数据集合,作为负样本数据,所述负样本数据集包含去除正样本数据的所述待处理通信业务数据的全部数据信息。
在其中一个实施例中,所述根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估,包括:
将所述正样本数据和所述负样本数据输入预设的决策树模型,得到所述待处理通信业务数据的分类结果;
根据所述分类结果中的分类的异常数据集,调整所述正样本数据中的异常数据,得到最终异常数据集,并指示根据所述最终异常数据集进行风险评估。
一种业务风险评估装置,所述装置包括:
预处理模块,用于获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据;
分类模块,用于将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;
抽取模块,用于在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
训练修正模块,用于根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估。
在其中一个实施例中,所述预处理模块具体用于获取初始通信业务数据,所述初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据;
针对所述初始通信业务数据中的每一条数据,对所述各业务费用折算数据进行求和计算,得到业务费用总折算数据;
计算所述业务费用总折算数据与对应的所述业务出账数据的比值,得到业务费用总折算比例数据,并计算所述各业务费用折算数据与对应的所述业务出账数据的比值,得到各业务费用折算比例数据;
根据所述用户标识与对应的所述各业务费用折算数据、所述业务费用总折算数据、所述各业务费用折算比例数据、所述业务费用总折算比例数据和所述业务出账数据,得到待处理通信业务数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据;
将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;
在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据;
将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;
在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估。
上述业务风险评估方法、装置、计算机设备和存储介质,获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据;将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估。采用本方法,通过分类模型(机器学习模型)对评分模型所得结果进行优化,筛选出更准确的异常数据进行风险评估分析,进而提高风险评估的准确性。
附图说明
图1为一个实施例中业务风险评估方法的流程示意图;
图2为一个实施例中预处理初始通信业务数据步骤的流程示意图;
图3为一个实施例中通过评分模型对数据进行分类步骤的流程示意图;
图4为一个实施例中抽取正样本数据具体过程的流程示意图;
图5为一个实施例中采用对等全覆盖法抽取负样本数据的流程示意图;
图6为一个实施例中利用决策树模型对正样本数据和负样本数据进行修正过程的流程示意图;
图7为一个实施例中决策树模型具体分类预测过程的结构示意图;
图8为一个实施例中业务风险评估装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种业务风险评估方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤101,获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据。
在实施中,计算机设备获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据,该待处理通信业务数据中包含多种数据指标,例如,用户标识信息、业务费用折算数据和业务出账数据等。
步骤102,将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据。
在实施中,计算机设备将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据,作为正样本数据。
步骤103,在去除正样本数据的待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据。
在实施中,计算机设备在去除了正样本数据后的待处理通信业务数据中,根据对等全覆盖抽取方法,进行数据抽取,得到负样本数据。
具体地,负样本数据为根据不同的抽取指标进行抽取得到的,每个抽取指标对应一类数据集,多个数据集组成负样本数据,负样本数据可以表征待处理通信业务数据中的全部数据信息。可选的,负样本数据的数据条数与正样本数据的数据条数保持一致。
步骤104,根据预设的分类模型、正样本数据和负样本数据,得到待处理通信业务数据的分类结果,并根据分类结果中的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,指示根据最终异常数据集进行风险评估。
在实施中,预设的分类模型为具有监督学习功能的机器学习模型,进而计算机设备根据预设的分类模型以及评分模型得到的正样本数据和负样本数据,得到对应于待处理通信业务数据的分类结果,并根据分类结果中分类出的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,最后,计算机设备根据该最终异常数据集进行风险评估,以此准确体现运营商等企业的运营风险。
上述业务风险评估方法中,获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据;将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;在去除正样本数据的待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;根据预设的分类模型、正样本数据和负样本数据,得到待处理通信业务数据的分类结果,并根据分类结果中的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,指示根据最终异常数据集进行风险评估。采用本方法,通过分类模型(机器学习模型)对评分模型所得结果进行优化,筛选出更准确的异常数据进行风险评估分析,进而提高风险评估的准确性。
在一个实施例中,如图2所示,步骤101具体处理步骤如下所示:
步骤1011,获取初始通信业务数据,初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据。
在实施中,计算机设备获取初始通信业务数据,该初始通信业务数据包含用户标识信息(prod_inst_id)、预设指标类型的各业务费用折算数据和业务出账数据(free)。
具体地,其中,业务费用折算数据可以为业务套餐的优惠数据,即预设指标类型的业务费用折算数据包括:活动赠款(pref1_val)、手工赠款(pref2_val)、电子券(pref3_val)和折扣优惠(pref4_val)数据。业务出账数据可以为用户月度实际出账金额数据。初始通信业务数据由多条数据记录组成,因此,针对其中的每一条数据记录,可以表示为{prod_inst_id、pref1_val、pref2_val、pref3_val、pref4_val、free}。
可选地,针对每一条数据记录,对应一个用户标识,表示一个用户的通信数据信息,因此每一条数据记录可以由该用户连续一段时间(例如,6个月)的数据的平均值构建得到的。
步骤1012,针对初始通信业务数据中的每一条数据,对各业务费用折算数据进行求和计算,得到业务费用总折算数据。
在实施中,计算机设备针对初始通信业务数据中的每一条数据(每一条用户数据记录)中的各业务费用折算数据进行求和计算,得到业务费用总折算数据。
具体地,对各业务费用折算数据进行求和计算,即为计算活动赠款(pref1_val)、手工赠款(pref2_val)、电子券(pref3_val)和折扣优惠(pref4_val)这4类优惠数据的总和,得到优惠总金额数据(也即业务费用总折算数据,用pref_total_val表示)。
步骤1013,计算业务费用总折算数据与对应的业务出账数据的比值,得到业务费用总折算比例数据,并计算各业务费用折算数据与对应的业务出账数据的比值,得到各业务费用折算比例数据。
在实施中,计算机设备计算业务费用总折算数据(即优惠总金额数据)与对应的业务出账数据的比值,得到业务费用总折算比例数据(优惠金额总比例数据),并计算各业务费用折算数据与对应的业务出账数据的比值,得到各业务费用折算比例数据。
具体地,根据业务费用总折算数据与对应的业务出账数据的比值,得到业务费用总折算比例数据,即优惠总金额/业务出账金额,可以表示为:pref_total_per。各业务费用折算数据可以为活动增款金额、手工赠款金额、电子券金额和折扣优惠金额,因此,各业务费用折算比例数据为:活动赠款金额/业务出账金额、手工赠款金额/业务出账金额、电子券金额/业务出账金额、折扣优惠金额/业务出账金额,表示为:pref1_per、pref2_per、pref3_per、pref4_per。
步骤1014,根据用户标识与对应的各业务费用折算数据、业务费用总折算数据、各业务费用折算比例数据、业务费用总折算比例数据和业务出账数据,得到待处理通信业务数据。
在实施中,计算机设备根据用户标识与对应的各业务费用折算数据、业务费用总折算数据、各业务费用折算比例数据、业务费用总折算比例数据和业务出账数据,得到待处理通信业务数据。即构建得到可以用于输入评分模型的待处理通信业务数据,每条待处理通信业务数据可以表示为:{prod_inst_id、pref1_val、pref2_val、pref3_val、pref4_val、pref_total_val、pref1_per、pref2_per、pref3_per、pref4_per、pref_total_per、free}。
可选地,在将待处理通信业务数据输入评分模型之前,首先对待处理通信业务数据进行初步筛选,即将free=0的数据剔除,free=0表示业务出账数据为0,但是任何优惠方式,用户的出账金额都不可能为0,因此作为异常数据(该异常数据并不表征运营风险,仅仅是数据质量评价中的缺失或异常数据)进行剔除。
本实施例中,通过对获取到的初始数据的预处理,构建输入数据样本(即待处理通信业务数据),使得该输入数据样本中包含业务费用总折算数据、业务费用总折算数据、各业务费用折算比例数据、业务费用总折算比例数据,进而使得输入数据样本准确表征业务套餐的业务优惠信息,以体现运营商运营状况。
在一个实施例中,如图3所示,评分模型包括业务费用折算数据评分模型和业务费用折算比例评分模型,步骤102具体处理过程如下所示:
步骤1021,根据待处理通信业务数据中业务费用总折算数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算数据进行排名标记。
在实施中,计算机设备根据待处理通信业务数据中的业务费用总折算数据(即优惠总金额数据),对待处理通信业务数据进行排序,并根据得到的排序结果对待处理通信业务数据中的业务费用总折算数据进行排名标记,也即在待处理通信业务数据中加入基于业务费用总折算数据排名顺序的名次指标值(pref_total_val_rank)。
步骤1022,根据业务费用折算数据评分模型和对应的业务费用总折算数据排名标记,得到待处理通信业务数据的业务费用折算数据评分结果。
在实施中,计算机设备根据业务费用折算数据评分模型和对应的业务费用总折算数据排名标记(名次指标值,pref_total_val_rank),得到待处理通信业务数据的业务费用折算数据评分结果。
具体地,业务费用折算数据评分模型为:
pref_val_score=(pref_total_val_rank-min_pref_total_val_rank)÷(max_pref_total_val_rank-min_pref_total_val_rank)
其中,pref_val_score为业务费用折算数据评分结果,pref_total_val_rank为业务费用总折算数据的排名标记,min_pref_total_val_rank为业务费用总折算数据最小值(优惠总金额最小值),max_pref_total_val_rank为业务费用总折算数据最大值(优惠总金额最大值)。
步骤1023,根据待处理通信业务数据中业务费用总折算比例数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算比例数据进行排名标记。
在实施中,计算机设备根据待处理通信业务数据中的业务费用总折算比例数据(即优惠金额总比例数据),对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算比例数据进行排名标记,也即在待处理通信业务数据中加入基于业务费用总折算比例数据排名顺序的名次指标值(pref_total_per_rank)。
步骤1024,根据业务费用折算比例评分模型和对应的业务费用总折算比例数据排名标记,得到待处理通信业务数据的业务费用折算比例评分结果。
在实施中,计算机设备根据业务费用折算比例评分模型和对应的业务费用总折算比例数据排名标记(名次指标值,pref_total_per_rank),得到待处理通信业务数据的业务费用折算比例评分结果。
具体地,业务费用折算比例评分模型为:
pref_per_score=(pref_total_per_rank-min_pref_total_per_rank)÷(max_pref_total_per_rank-min_pref_total_per_rank);
其中,pref_per_score为业务费用折算比例评分结果,pref_total_per_rank为业务费用总折算比例数据的排名标记,min_pref_total_per_rank为业务费用总折算比例数据最小值(优惠总比例最小值),max_pref_total_per_rank为业务费用总折算数据最大值(优惠总比例最大值)。
步骤1025,根据业务费用折算数据评分结果和业务费用折算比例评分结果,得到待处理通信业务数据的总评分结果。
在实施中,计算机设备根据业务费用折算数据评分结果和业务费用折算比例评分结果,得到待处理通信业务数据的总评分结果。其中,业务费用折算数据评分结果和业务费用折算比例评分结果采用同权计算得到总评分结果。
具体地,总评分结果的计算公式为:pref_score=pref_val_score+pref_per_score,其中,pref_score为总评分结果,pref_val_score为业务费用折算数据评分结果,pref_per_score为业务费用折算比例评分结果。
步骤1026,将总评分结果降序排列,并按照预设的抽取规则,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据。
在实施中,计算机设备根据总评分结果对待处理通信业务数据进行降序排列,并按照预设的抽取规则,对待处理通信业务数据进行抽取分类,例如,抽取降序排列后的待处理通信业务数据中的前5%数据,为异常数据(即可能存在高运营风险的业务数据),得到分类后的初始异常数据集,作为正样本数据(即正样本数据与负样本数据的划分标准为是否为异常数据)。
可选地,提取出的正样本数据(数据量记为M),可以再提交给业务部门由业务人员根据经验对正样本中包含的异常数据进行进一步确认,以保证正样本包含的(高风险)异常数据的准确性。
本实施例中,针对业务费用折算数据和业务费用折算比例数据,构建得到评分模型,通过该评分模型体现各业务套餐数据中包含的折算信息(业务优惠信息),根据该折算信息更好的反映对应的业务套餐是否存在风险。
在一个实施例中,如图4所示,步骤1026的具体处理过程如下所示:
步骤401,将总评分结果进行降序排列,并根据预设的分类比例,在排序后的待处理通信业务数据中提取满足预设比例数目的数据,得到候选异常数据集。
在实施中,计算机设备根据总评分结果对待处理通信业务数据进行降序排列,并根据预设的分类比例,在排序后的待处理通信业务数据中提取满足预设比例数目的数据,得到候选异常数据集。其中,预设的分类比例可以为统计学中常用的95分位比例。即抽取其中前5%的数据为异常数据,95%的数据正常数据。此时,抽取出的前5%的数据对应的业务场景为:用户使用的业务套餐为业务优惠金额大且优惠比例高的业务,进而运营商实际收入较低,存在高投入低价值运营风险。
步骤402,针对候选异常数据集中每一条数据,计算各业务费用折算数据与业务费用总折算数据的比值,得到业务费用折算数据结果,业务费用折算数据结果表征业务费用折算类型。
在实施中,针对得到的候选异常数据集中的每一条数据,计算各业务费用折算数据(各类优惠金额)与业务费用总折算数据(优惠总金额)的比值,得到各业务费用折算数据结果,其中,业务费用折算数据结果表征业务费用折算类型(或成为风险异常类型)。
具体地,各业务费用折算数据结果可以表示为:pref1_val/pref_total_val、pref2_val/pref_total_val、pref3_val/pref_total_val、pref4_val/pref_total_val,对得到的各业务费用折算数据结果进行判断,如果存在结果值大于50%,即表明单类优惠的金额占总优惠金额的50%以上,则判断此类数据为异常优惠场景;反之,结果值小于50%,表明为叠加优惠场景,为非异常优惠场景。
步骤403,根据业务费用折算数据结果,在候选异常数据集中确定异常数据,得到初始异常数据集,作为正样本数据。
在实施中,计算机设备根据业务费用折算数据结果,在候选异常数据集中确定异常数据,得到初始异常数据集,作为正样本数据。
具体地,计算机设备在候选异常数据中去除叠加优惠场景下对应的数据,确定异常优惠场景下的异常数据,得到初始异常数据集,作为正样本数据。
在一个实施例中,如图5所示,步骤103的具体处理过程如下所示:
步骤1031,获取抽取属性集,抽取属性集包含不同抽取指标。
在实施中,计算机设备获取抽取属性集,该抽取属性集包含不同抽取指标,例如,各业务费用折算类型指标,即活动赠款、手工赠款、电子券、折扣优惠,还可以包括用户数据来源渠道指标,例如,电子渠道、实体渠道、自营渠道等,因此,对于抽取属性集中的具体抽取指标本申请实施例不做限定。进而根据这些抽取指标在待处理通信业务数据中进行样本的数据抽取。
步骤1032,根据抽取属性集中的各抽取指标,在去除正样本数据的待处理通信业务数据中,进行数据抽取,得到各抽取指标对应抽取的数据集合,作为负样本数据,负样本数据集包含去除正样本数据的待处理通信业务数据的全部数据信息。
在实施中,计算机设备根据抽取属性集中的各抽取指标,在去除正样本数据的待处理通信业务数据中,进行数据抽取,得到各抽取指标对应抽取的数据集合,也即每一数据集合中包含的数据对应一类数据抽取指标。将全部的数据集合作为负样本数据,使得负样本数据集包含去除正样本数据后的待处理通信业务数据的全部数据信息。
具体地,通过对等随机全覆盖方法抽取负样本的具体步骤如下所示:
a)从全量数据量中,排除正样本后,随机抽取M/4数据量的数据;
b)从全量数据量中,排除正样本后,随机抽取M/16数据量的活动赠款数据;
c)从全量数据量中,排除正样本后,随机抽取M/16数据量的手工赠款数据;
d)从全量数据量中,排除正样本后,随机抽取M/16数据量的电子券数据;
e)从全量数据量中,排除正样本后,随机抽取M/16数据量的折扣优惠数据;
f)从全量数据量中,排除正样本后,随机抽取M/16数据量的电子渠道用户数据;
g)从全量数据量中,排除正样本后,随机抽取M/16数据量的实体渠道用户数据;
h)从全量数据量中,排除正样本后,随机抽取M/16数据量的自营渠道用户数据;
i)从全量数据量中,排除正样本后,随机抽取M/16数据量的校园渠道用户数据;
j)从全量数据量中,排除正样本后,随机抽取M/16数据量的手机用户数据;
k)从全量数据量中,排除正样本后,随机抽取M/16数据量的固化用户数据;
l)从全量数据量中,排除正样本后,随机抽取M/16数据量的ITV用户数据;
m)从全量数据量中,排除正样本后,随机抽取M/16数据量的互联网用户数据;
n)以上数据量总和记为M_pref,如果M与M_pref差的绝对值,偏离M超过5%,则随机调整步骤a的值,直到偏离值小于5%。
在一个实施例中,如图6所示,步骤104的具体处理过程如下所示:
步骤1041,将正样本数据和负样本数据输入预设的决策树模型,得到待处理通信业务数据的分类结果。
在实施中,计算机设备将正样本数据和负样本数据输入预设的决策树模型,得到待处理通信业务数据的分类结果。
具体地,如图7所示,本实施例采用决策树模型来进行监督学习,决策树模型是一种树型结构的监督学习算法,由它的分支来对该类型的对象依靠属性进行分类。决策树依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。
可选的,分类模型除了应用决策树模型外,还可以是随机森林、GBDT(GradientBoost Decision Tree,梯度下降树)、KNN(K-NearestNeighbor,最邻近算法)等有监督学习算法的模型,因此,本申请实施例对于分类模型不做限定。
步骤1042,根据分类结果中的分类的异常数据集,调整正样本数据中的异常数据,得到最终异常数据集,并指示根据最终异常数据集进行风险评估。
在实施中,计算机设备根据决策树模型(也可以为其他监督学习模型)得到的分类结果(异常数据类)中包含的异常数据集,调整正样本数据中的异常数据(即评分模型的分类结果),得到最终异常数据集,并指示根据最终异常数据集进行风险评估。
应该理解的是,虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种业务风险评估装置800,包括:预处理模块810、分类模块820、抽取模块830和训练修正模块840,其中:
预处理模块810,用于获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据;
分类模块820,用于将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;
抽取模块830,用于在去除正样本数据的待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
训练修正模块840,用于根据预设的分类模型、正样本数据和负样本数据,得到待处理通信业务数据的分类结果,并根据分类结果中的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,指示根据最终异常数据集进行风险评估。
在一个实施例中,预处理模型810具体用于获取初始通信业务数据,初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据;
针对初始通信业务数据中的每一条数据,对各业务费用折算数据进行求和计算,得到业务费用总折算数据;
计算业务费用总折算数据与对应的业务出账数据的比值,得到业务费用总折算比例数据,并计算各业务费用折算数据与对应的业务出账数据的比值,得到各业务费用折算比例数据;
根据用户标识与对应的各业务费用折算数据、业务费用总折算数据、各业务费用折算比例数据、业务费用总折算比例数据和业务出账数据,得到待处理通信业务数据。
在一个实施例中,分类模块820具体用于根据待处理通信业务数据中业务费用总折算数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算数据进行排名标记;
根据业务费用折算数据评分模型和对应的业务费用总折算数据排名标记,得到待处理通信业务数据的业务费用折算数据评分结果;
根据待处理通信业务数据中业务费用总折算比例数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算比例数据进行排名标记;
根据业务费用折算比例评分模型和对应的业务费用总折算比例数据排名标记,得到待处理通信业务数据的业务费用折算比例评分结果;
根据业务费用折算数据评分结果和业务费用折算比例评分结果,得到待处理通信业务数据的总评分结果;
将总评分结果降序排列,并按照预设的抽取规则,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据。
在一个实施例中,分类模块820具体用于将总评分结果进行降序排列,并根据预设的分类比例,在排序后的待处理通信业务数据中提取满足预设比例数目的数据,得到候选异常数据集;
针对候选异常数据集中每一条数据,计算各业务费用折算数据与业务费用总折算数据的比值,得到业务费用折算数据结果,业务费用折算数据结果表征业务费用折算类型;
根据业务费用折算数据结果,在候选异常数据集中确定异常数据,得到初始异常数据集,作为正样本数据。
在一个实施例中,抽取模块830具体用于获取抽取属性集,抽取属性集包含不同抽取指标;
根据抽取属性集中的各抽取指标,在去除正样本数据的待处理通信业务数据中,进行数据抽取,得到各抽取指标对应抽取的数据集合,作为负样本数据,负样本数据集包含去除正样本数据的待处理通信业务数据的全部数据信息。
在一个实施例中,训练修正模块840具体用于将正样本数据和负样本数据输入预设的决策树模型,得到待处理通信业务数据的分类结果;
根据分类结果中的分类的异常数据集,调整正样本数据中的异常数据,得到最终异常数据集,并指示根据最终异常数据集进行风险评估。
上述业务风险评估装置中,预处理模块,获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据;分类模块,将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;抽取模块,在去除正样本数据的待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;训练修正模块,根据预设的分类模型、正样本数据和负样本数据,得到待处理通信业务数据的分类结果,并根据分类结果中的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,指示根据最终异常数据集进行风险评估。采用本装置,通过分类模型(机器学习模型)对评分模型所得结果进行优化,筛选出更准确的异常数据进行风险评估分析,进而提高风险评估的准确性。
关于业务风险评估装置的具体限定可以参见上文中对于业务风险评估方法的限定,在此不再赘述。上述业务风险评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种业务风险评估方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据;
将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;
在去除正样本数据的待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
根据预设的分类模型、正样本数据和负样本数据,得到待处理通信业务数据的分类结果,并根据分类结果中的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,指示根据最终异常数据集进行风险评估。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取初始通信业务数据,初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据;
针对初始通信业务数据中的每一条数据,对各业务费用折算数据进行求和计算,得到业务费用总折算数据;
计算业务费用总折算数据与对应的业务出账数据的比值,得到业务费用总折算比例数据,并计算各业务费用折算数据与对应的业务出账数据的比值,得到各业务费用折算比例数据;
根据用户标识与对应的各业务费用折算数据、业务费用总折算数据、各业务费用折算比例数据、业务费用总折算比例数据和业务出账数据,得到待处理通信业务数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据待处理通信业务数据中业务费用总折算数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算数据进行排名标记;
根据业务费用折算数据评分模型和对应的业务费用总折算数据排名标记,得到待处理通信业务数据的业务费用折算数据评分结果;
根据待处理通信业务数据中业务费用总折算比例数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算比例数据进行排名标记;
根据业务费用折算比例评分模型和对应的业务费用总折算比例数据排名标记,得到待处理通信业务数据的业务费用折算比例评分结果;
根据业务费用折算数据评分结果和业务费用折算比例评分结果,得到待处理通信业务数据的总评分结果;
将总评分结果降序排列,并按照预设的抽取规则,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将总评分结果进行降序排列,并根据预设的分类比例,在排序后的待处理通信业务数据中提取满足预设比例数目的数据,得到候选异常数据集;
针对候选异常数据集中每一条数据,计算各业务费用折算数据与业务费用总折算数据的比值,得到业务费用折算数据结果,业务费用折算数据结果表征业务费用折算类型;
根据业务费用折算数据结果,在候选异常数据集中确定异常数据,得到初始异常数据集,作为正样本数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取抽取属性集,抽取属性集包含不同抽取指标;
根据抽取属性集中的各抽取指标,在去除正样本数据的待处理通信业务数据中,进行数据抽取,得到各抽取指标对应抽取的数据集合,作为负样本数据,负样本数据集包含去除正样本数据的待处理通信业务数据的全部数据信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将正样本数据和负样本数据输入预设的决策树模型,得到待处理通信业务数据的分类结果;
根据分类结果中的分类的异常数据集,调整正样本数据中的异常数据,得到最终异常数据集,并指示根据最终异常数据集进行风险评估。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取初始通信业务数据,将初始通信业务数据进行预处理得到待处理通信业务数据;
将待处理通信业务数据输入预设的评分模型,根据评分模型,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;
在去除正样本数据的待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
根据预设的分类模型、正样本数据和负样本数据,得到待处理通信业务数据的分类结果,并根据分类结果中的异常数据集调整正样本数据中的初始异常数据,得到最终异常数据集,指示根据最终异常数据集进行风险评估。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取初始通信业务数据,初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据;
针对初始通信业务数据中的每一条数据,对各业务费用折算数据进行求和计算,得到业务费用总折算数据;
计算业务费用总折算数据与对应的业务出账数据的比值,得到业务费用总折算比例数据,并计算各业务费用折算数据与对应的业务出账数据的比值,得到各业务费用折算比例数据;
根据用户标识与对应的各业务费用折算数据、业务费用总折算数据、各业务费用折算比例数据、业务费用总折算比例数据和业务出账数据,得到待处理通信业务数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据待处理通信业务数据中业务费用总折算数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算数据进行排名标记;
根据业务费用折算数据评分模型和对应的业务费用总折算数据排名标记,得到待处理通信业务数据的业务费用折算数据评分结果;
根据待处理通信业务数据中业务费用总折算比例数据,对待处理通信业务数据进行排序,并根据排序结果对待处理通信业务数据中的业务费用总折算比例数据进行排名标记;
根据业务费用折算比例评分模型和对应的业务费用总折算比例数据排名标记,得到待处理通信业务数据的业务费用折算比例评分结果;
根据业务费用折算数据评分结果和业务费用折算比例评分结果,得到待处理通信业务数据的总评分结果;
将总评分结果降序排列,并按照预设的抽取规则,对待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将总评分结果进行降序排列,并根据预设的分类比例,在排序后的待处理通信业务数据中提取满足预设比例数目的数据,得到候选异常数据集;
针对候选异常数据集中每一条数据,计算各业务费用折算数据与业务费用总折算数据的比值,得到业务费用折算数据结果,业务费用折算数据结果表征业务费用折算类型;
根据业务费用折算数据结果,在候选异常数据集中确定异常数据,得到初始异常数据集,作为正样本数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取抽取属性集,抽取属性集包含不同抽取指标;
根据抽取属性集中的各抽取指标,在去除正样本数据的待处理通信业务数据中,进行数据抽取,得到各抽取指标对应抽取的数据集合,作为负样本数据,负样本数据集包含去除正样本数据的待处理通信业务数据的全部数据信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将正样本数据和负样本数据输入预设的决策树模型,得到待处理通信业务数据的分类结果;
根据分类结果中的分类的异常数据集,调整正样本数据中的异常数据,得到最终异常数据集,并指示根据最终异常数据集进行风险评估。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种业务风险评估方法,其特征在于,所述方法包括:
获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据;
将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;所述评分模型包括业务费用折算数据评分模型和业务费用折算比例评分模型;
在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估;所述预设的分类模型为有监督学习功能的机器学习模型;
所述在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据,包括:
获取抽取属性集,所述抽取属性集包含不同抽取指标;
根据所述抽取属性集中的各抽取指标,在去除所述正样本数据的所述待处理通信业务数据中,进行数据抽取,得到所述各抽取指标对应抽取的数据集合;每一所述数据集合中包含的数据对应一类数据抽取指标;
将全部所述数据集合作为负样本数据,得到负样本数据集,所述负样本数据集包含去除正样本数据的所述待处理通信业务数据的全部数据信息。
2.根据权利要求1所述的方法,其特征在于,所述获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据,包括:
获取初始通信业务数据,所述初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据;
针对所述初始通信业务数据中的每一条数据,对所述各业务费用折算数据进行求和计算,得到业务费用总折算数据;
计算所述业务费用总折算数据与对应的所述业务出账数据的比值,得到业务费用总折算比例数据,并计算所述各业务费用折算数据与对应的所述业务出账数据的比值,得到各业务费用折算比例数据;
根据所述用户标识与对应的所述各业务费用折算数据、所述业务费用总折算数据、所述各业务费用折算比例数据、所述业务费用总折算比例数据和所述业务出账数据,得到待处理通信业务数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据,包括:
根据所述待处理通信业务数据中业务费用总折算数据,对所述待处理通信业务数据进行排序,并根据所述排序结果对所述待处理通信业务数据中的业务费用总折算数据进行排名标记;
根据所述业务费用折算数据评分模型和对应的所述业务费用总折算数据排名标记,得到所述待处理通信业务数据的业务费用折算数据评分结果;
根据所述待处理通信业务数据中业务费用总折算比例数据,对所述待处理通信业务数据进行排序,并根据所述排序结果对所述待处理通信业务数据中的业务费用总折算比例数据进行排名标记;
根据所述业务费用折算比例评分模型和对应的所述业务费用总折算比例数据排名标记,得到所述待处理通信业务数据的业务费用折算比例评分结果;
根据所述业务费用折算数据评分结果和所述业务费用折算比例评分结果,得到所述待处理通信业务数据的总评分结果;
将所述总评分结果降序排列,并按照预设的抽取规则,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据。
4.根据权利要求3所述的方法,其特征在于,所述将所述总评分结果降序排列,并按照预设的抽取规则,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据,包括:
将所述总评分结果进行降序排列,并根据预设的分类比例,在排序后的所述待处理通信业务数据中提取满足预设比例数目的数据,得到候选异常数据集;
针对所述候选异常数据集中每一条数据,计算所述各业务费用折算数据与所述业务费用总折算数据的比值,得到业务费用折算数据结果,所述业务费用折算数据结果表征业务费用折算类型;
根据所述业务费用折算数据结果,在所述候选异常数据集中确定异常数据,得到初始异常数据集,作为正样本数据。
5.根据权利要求1所述的方法,其特征在于,所述根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估,包括:
将所述正样本数据和所述负样本数据输入预设的决策树模型,得到所述待处理通信业务数据的分类结果;
根据所述分类结果中的分类的异常数据集,调整所述正样本数据中的异常数据,得到最终异常数据集,并指示根据所述最终异常数据集进行风险评估。
6.一种业务风险评估装置,其特征在于,所述装置包括:
预处理模块,用于获取初始通信业务数据,将所述初始通信业务数据进行预处理得到待处理通信业务数据;
分类模块,用于将所述待处理通信业务数据输入预设的评分模型,根据所述评分模型,对所述待处理通信业务数据进行分类,得到分类后的初始异常数据集,作为正样本数据;所述评分模型包括业务费用折算数据评分模型和业务费用折算比例评分模型;
抽取模块,用于在去除所述正样本数据的所述待处理通信业务数据中,根据对等全覆盖抽取方法,得到负样本数据;
训练修正模块,用于根据预设的分类模型、所述正样本数据和所述负样本数据,得到所述待处理通信业务数据的分类结果,并根据所述分类结果中的异常数据集调整所述正样本数据中的初始异常数据,得到最终异常数据集,指示根据所述最终异常数据集进行风险评估;所述预设的分类模型为有监督学习功能的机器学习模型;
所述抽取模块,用于获取抽取属性集,所述抽取属性集包含不同抽取指标;
根据所述抽取属性集中的各抽取指标,在去除所述正样本数据的所述待处理通信业务数据中,进行数据抽取,得到所述各抽取指标对应抽取的数据集合;每一所述数据集合中包含的数据对应一类数据抽取指标;
将全部所述数据集合作为负样本数据,得到负样本数据集,所述负样本数据集包含去除正样本数据的所述待处理通信业务数据的全部数据信息。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块具体用于获取初始通信业务数据,所述初始通信业务数据包含用户标识信息、预设指标类型的各业务费用折算数据和业务出账数据;
针对所述初始通信业务数据中的每一条数据,对所述各业务费用折算数据进行求和计算,得到业务费用总折算数据;
计算所述业务费用总折算数据与对应的所述业务出账数据的比值,得到业务费用总折算比例数据,并计算所述各业务费用折算数据与对应的所述业务出账数据的比值,得到各业务费用折算比例数据;
根据所述用户标识与对应的所述各业务费用折算数据、所述业务费用总折算数据、所述各业务费用折算比例数据、所述业务费用总折算比例数据和所述业务出账数据,得到待处理通信业务数据。
8.根据权利要求6所述的装置,其特征在于,所述训练修正模块,用于将所述正样本数据和所述负样本数据输入预设的决策树模型,得到所述待处理通信业务数据的分类结果;
根据所述分类结果中的分类的异常数据集,调整所述正样本数据中的异常数据,得到最终异常数据集,并指示根据所述最终异常数据集进行风险评估。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395461.5A CN112633638B (zh) | 2020-12-03 | 2020-12-03 | 业务风险评估方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395461.5A CN112633638B (zh) | 2020-12-03 | 2020-12-03 | 业务风险评估方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633638A CN112633638A (zh) | 2021-04-09 |
CN112633638B true CN112633638B (zh) | 2022-07-08 |
Family
ID=75307524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011395461.5A Active CN112633638B (zh) | 2020-12-03 | 2020-12-03 | 业务风险评估方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633638B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657931A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 风控模型建模、企业风险评估方法、装置和存储介质 |
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN110619568A (zh) * | 2019-09-17 | 2019-12-27 | 王文斌 | 风险评估报告的生成方法、装置、设备及存储介质 |
CN112001756A (zh) * | 2020-08-24 | 2020-11-27 | 北京道隆华尔软件股份有限公司 | 异常电信业务场景的确定方法、装置、计算机设备 |
-
2020
- 2020-12-03 CN CN202011395461.5A patent/CN112633638B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN109657931A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 风控模型建模、企业风险评估方法、装置和存储介质 |
CN110619568A (zh) * | 2019-09-17 | 2019-12-27 | 王文斌 | 风险评估报告的生成方法、装置、设备及存储介质 |
CN112001756A (zh) * | 2020-08-24 | 2020-11-27 | 北京道隆华尔软件股份有限公司 | 异常电信业务场景的确定方法、装置、计算机设备 |
Non-Patent Citations (1)
Title |
---|
基于图数据库与机器学***台;方国强等;《网络安全技术与应用》;20200215(第02期);第67-69页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112633638A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110198310A (zh) | 一种网络行为反作弊方法、装置及存储介质 | |
CN112633962B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN110401779A (zh) | 一种识别电话号码的方法、装置和计算机可读存储介质 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN110929806A (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN111815169A (zh) | 业务审批参数配置方法及装置 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
CN108334895A (zh) | 目标数据的分类方法、装置、存储介质及电子装置 | |
CN108171208A (zh) | 信息获取方法和装置 | |
CN112463859A (zh) | 基于大数据和业务分析的用户数据处理方法及大数据平台 | |
CN114648680A (zh) | 图像识别模型的训练方法、装置、设备、介质及程序产品 | |
CN114371946B (zh) | 基于云计算和大数据的信息推送方法及信息推送服务器 | |
CN111210158A (zh) | 目标地址确定方法、装置、计算机设备和存储介质 | |
CN114282607A (zh) | 一种基于双筛模型的弥散轨迹分析方法及*** | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN112633638B (zh) | 业务风险评估方法、装置、计算机设备和存储介质 | |
CN110855474B (zh) | Kqi数据的网络特征提取方法、装置、设备及存储介质 | |
CN107016460A (zh) | 用户换机预测方法及装置 | |
CN111784360A (zh) | 一种基于网络链接回溯的反欺诈预测方法及*** | |
CN114048294B (zh) | 相似人群扩展模型训练方法、相似人群扩展方法和装置 | |
CN115169705A (zh) | 配送时长预测方法、装置、存储介质及计算机设备 | |
CN115115902A (zh) | 图像分类模型的训练方法、装置、设备、存储介质及产品 | |
CN111523034A (zh) | 一种应用程序的处理方法、装置、设备及介质 | |
CN113256368B (zh) | 产品推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |