CN112308414A - 收入异常检测的方法、装置、电子设备及存储介质 - Google Patents

收入异常检测的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112308414A
CN112308414A CN202011192328.XA CN202011192328A CN112308414A CN 112308414 A CN112308414 A CN 112308414A CN 202011192328 A CN202011192328 A CN 202011192328A CN 112308414 A CN112308414 A CN 112308414A
Authority
CN
China
Prior art keywords
income
time sequence
historical
revenue
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011192328.XA
Other languages
English (en)
Inventor
孙雅婷
梅铮
翁旭东
郭建军
吴洁璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011192328.XA priority Critical patent/CN112308414A/zh
Publication of CN112308414A publication Critical patent/CN112308414A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及通信业务大数据领域,公开了一种收入异常检测的方法、装置、电子设备及存储介质。本发明中收入异常检测的方法包括:根据预设的时序分解模型以及当日之前的历史时段,获取历史时段内的历史收入时序的分解结果,分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序;根据历史收入时序以及分解结果,获取收入波动阈值;根据收入波动阈值、待测时段以及时序分解模型,获取待测时段的收入波动区间;根据待测时段内的收入波动区间检测待测时段内的收入是否异常,获取检测结果。采用本实施方式,能够准确检测任意时段的收入异常状况,检测准确率高,速度快。

Description

收入异常检测的方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及通信业务大数据领域,特别涉及一种收入异常检测的方法、装置、电子设备及存储介质。
背景技术
随着移动通信市场竞争日趋激烈,如何实现收入增长是各大运营商的重要问题。同时,企业收入对网络建设投资、业务发展规划等具有重大影响,因此,收入作为运营商的核心关键指标,对于其当前状态实现科学有效评估,精确预测其未来的发展情况,并对异常波动进行及时告警或者预警,对经营决策、业务运营及风险管理具有十分重要意义。
发明人发现相关技术中至少存在如下问题:目前通过机器学习的方式或深度学习的方式构建收入异常检测模型,以检测异常的收入情况,无论是机器学习的方式还是深度学习的方式,都需要大量的历史数据作为训练数据,否则该收入异常模型的准确率低。但是,在某些情况下,并不没有大量的收入历史数据进行训练,这导致异常检测模型的准确率低。
发明内容
本发明实施方式的目的在于提供一种收入异常检测的方法、装置、电子设备及存储介质,能够准确检测任意时段的收入异常状况,检测准确率高,速度快。
为解决上述技术问题,本发明的实施方式提供了一种收入异常检测的方法,包括:根据预设的时序分解模型以及当日之前的历史时段,获取历史时段内的历史收入时序的分解结果,分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序,时序分解模型是基于历史收入时序对Prophet模型训练获得;根据历史收入时序以及分解结果,获取收入波动阈值;根据收入波动阈值、待测时段以及时序分解模型,获取待测时段的收入波动区间;根据待测时段内的收入波动区间检测待测时段内的收入是否异常,获取检测结果。
本发明的实施方式还提供了一种收入异常检测的装置,包括:第一获取模块、第二获取模块、第三获取模块以及检测模块;第一获取模块用于根据预设的时序分解模型以及当日之前的历史时段,获取历史时段内的历史收入时序的分解结果,分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序,时序分解模型是基于历史收入时序对Prophet模型训练获得;第二获取模块用于根据历史收入时序以及所述分解结果,获取收入波动阈值;第三获取模块用于根据收入波动阈值、待测时段以及所述时序分解模型,获取所述待测时段的收入波动区间;所述检测模块用于根据所述待测时段内的收入波动区间检测所述待测时段内的收入是否异常,获取检测结果。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的收入异常检测的方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的收入异常检测的方法。
本申请实施方式中,预设的时序分解模型是根据历史收入时序对Prophet模型训练获得,Prophet模型可以将历史收入时序分解为3大部分,分别为基于历史收入序列整体发展的历史趋势项时序、用于反映周期性规律对历史收入影响的历史周期项时序以及用于反映节假日因素对历史收入影响的节假日项时序;充分剖析了历史收入时序中的规律,进而根据该分解结果,获取收入波动阈值,根据收入波动阈值获取待测时段的收入波动区间;由于收入波动阈值与该分解结果相关,使得确定的收入波动阈值更为合理,而待测时段的收入波动区域与待测时段以及收入波动阈值相关,而不是固定不变的收入波动区间,使得确定的基于该待测时段的收入波动区间更加准确、合理;另外,Prophet模型对训练的训练数据集的要求低,训练数据的数量大大少于基于深度学习得到的收入异常检测的模型,降低了使用该收入异常检测的门槛,提高了该收入异常检测的应用场景,例如,可以提高通信运营商的收入检测的准确度。
另外,根据所述历史收入时序以及所述分解结果,获取收入波动阈值,包括:获取所述历史周期项的第一均值时序,所述第一均值时序用于表征在所述历史时段内周期性规律对应收入均值的时序;将所述第一均值时序、所述历史趋势项时序以及所述历史节假日项时序之和作为所述历史时段内的历史收入均值时序;获取所述历史收入均值时序以及所述历史收入时序之间的差异序列;根据所述差异序列,获取所述收入波动阈值。由于收入具有周期性规律,不同年份下即使相同月份和日期的收入也会不同,通过获取历史周期项的第一均值序列,该第一均值序列用于表征在历史时段内周期性规律对应收入均值的时序;可以更加准确地反映周期性规律的影响,将所述第一均值时序、所述历史趋势项时序以及所述历史节假日项时序之和作为所述历史时段内的历史收入均值时序,可以更加准确地预测处历史收入均值时序;获取所述历史收入均值时序以及所述历史收入时序之间的差异序列,反映处预测值与实际的历史收入时序之间的差距,进而确定出准确的收入波动阈值。
另外,收入波动阈值包括:上限阈值和下限阈值;所述根据所述差异序列,获取所述收入波动阈值,包括:获取所述差异序列的统计分布;从所述统计分布中获取第一预设位数对应的值作为上限阈值;从所述统计分布中获取第二预设位数对应的值作为下限阈值,其中,所述第二预设位数小于所述第一预设位数。第一预设位数和第二预设位数可以根据需要进行设置,进而可以得到灵活的收入波动阈值。
另外,历史周期项时序包括:m个周期序列,m为大于0的整数;所述获取所述历史周期项的第一均值时序,包括:获取m个周期序列各自的平均周期均值序列;将m个周期序列各自的平均周期均值序列之和作为所述第一均值序列。每个周期序列的周期时长不同,而不同的周期时长导致以多个周期序列之间存在重叠的现象,确定每个周期序列各自的平均周期均值序列,可以准确获取第一均值序列。
另外,获取m个周期序列各自的平均周期均值序列,包括:根据所述周期序列的周期长度将所述周期序列划分为n个子序列,n为大于0的整数;获取每个周期长度内相同采样时刻对应的收入均值作为每个所述子序列的均值子序列;将n个所述均值子序列的排列组合作为所述周期序列的平均周期均值序列。n个均值子序列的排列组合,使得排列候的序列长度与历史周期项序列的长度一致,进而提高获取m个周期序列各自的平均周期均值序列的准确度。
另外,根据所述收入波动阈值、待测时段以及所述时序分解模型,获取所述待测时段的收入波动区间,包括:根据所述时序分解模型以及待测时段,获得所述待测时段内的趋势项时序、周期项时序以及节假日项时序;将所述待测时段内的所述趋势项时序、所述周期项时序、所述节假日项时序以及所述上限阈值之和,得到波动的上限区间;将所述待测时段内的所述趋势项时序、所述周期项时序、所述节假日项时序以及所述下限阈值之和,作为收入波动的下限区间。加上差异序列,可以准确获取收入波动区间。
另外,根据所述待测时段内的收入波动区间检测所述待测时段内的收入是否异常,获取检测结果,包括:将所述待测时段输入所述时序分解模型,获取所述待测时段对应的收入时序;判断所述待测时段对应的收入时序是否超出所述收入波动区间;若是,则所述检测结果指示所述待测时段对应的收入时序异常,否则,则所述检测结果指示所述待测时段对应的收入时序正常。通过该时序分解模型可以预测出任意待测时段内的收入时序,基于获取的待测时段的收入时序,使得不仅可以对历史收入进行异常检测,还可以对当前之后的未来时段的收入进行预测,以及检测未来时段的收入是否异常,无需训练额外的模型,降低了检测成本。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施例提供的一种收入异常检测的方法的流程图;
图2是根据本发明第二实施例提供的一种收入异常检测的方法的流程图;
图3是根据本发明第二实施例提供的一种收入异常检测的方法对待测时段的收入异常检测的效果示意图;
图4是根据本发明第三实施例提供的一种收入异常检测的方法中获取第一均值序列的示意图;
图5是根据本发明第四实施例提供的一种收入异常检测的装置的结构框图;
图6是根据本发明第五实施例提供的一种电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种收入异常检测的方法。其流程如图1所示:
步骤101:根据预设的时序分解模型以及当日之前的历史时段,获取历史时段内的历史收入时序的分解结果,分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序,时序分解模型是基于历史收入时序对Prophet模型训练获得。
步骤102:根据历史收入时序以及分解结果,获取收入波动阈值。
步骤103:根据收入波动阈值、待测时段以及时序分解模型,获取待测时段的收入波动区间。
步骤104:根据待测时段内的收入波动区间检测待测时段内的收入是否异常,获取检测结果。
本申请实施方式中,预设的时序分解模型是根据历史收入时序对Prophet模型训练获得,Prophet模型可以将历史收入时序分解为3大部分,分别为基于历史收入序列整体发展的历史趋势项时序、用于反映周期性规律对历史收入影响的历史周期项时序以及用于反映节假日因素对历史收入影响的节假日项时序;充分剖析了历史收入时序中的规律,进而根据该分解结果,获取收入波动阈值,根据收入波动阈值获取待测时段的收入波动区间;由于收入波动阈值与该分解结果相关,使得确定的收入波动阈值更为合理,而待测时段的收入波动区域与待测时段以及收入波动阈值相关,而不是固定不变的收入波动区间,使得确定的基于该待测时段的收入波动区间更加准确、合理;另外,Prophet模型对训练的训练数据集的要求低,训练数据的数量大大少于基于深度学习得到的收入异常检测的模型,降低了使用该收入异常检测的门槛,提高了该收入异常检测的应用场景,例如,可以提高通信运营商的收入检测的准确度。
本发明的第二实施方式涉及一种收入异常检测的方法。第二实施方式是对第一实施方式的具体介绍,该收入异常检测的方法可以应用于电子设备,其流程如图2所示。
步骤201:根据预设的时序分解模型以及当日之前的历史时段,获取历史时段内的历史收入时序的分解结果,分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序,时序分解模型是基于历史收入时序对Prophet模型训练获得。
该收入异常检测的方法可以用于检测企业的收入情况,例如,通信运行商的收入、旅游行业的收入等等。收入时序的特性复杂,包括长期发展趋势,具有周期性规律,其中,时间周期包括年周期、月周期以及周周期,这三种周期的存在相互叠加;该收入时序还受到无规则随机因素,例如,重大活动、突发事件、国家政策等影响。收入指标包含日粒度和月粒度等多种时间粒度,时间粒度即为时序中的最小时间单位。而不同时间粒度的数据特性和丰富程度不同。采用传统时序模型或者统计模型进行建模分析,对于收入数据特性和规律刻画能力较差,准确度较低。而复杂的深度学习方法需要大量的历史数据积累,在月粒度收入数据上的适用性低,极易过拟合,同时作为黑箱模型,在业务上其结果的可解释性较差,不能有效的辅助用户获知收入的异常的症结,无法有效解决收入异常的问题。
本示例中,在执行步骤201之前,可以预先训练得到时序分解模型,该时序分解模型是根据历史收入时序对Prophet模型进行训练后获得。下面具体介绍该时序分解模型的训练过程。
Prophet算法是开源的时间序列预测工具。Prophet模型整体由三部分组成:数据增长趋势、周期项趋势以及节假日影响因素,t为日期。Prophe模型形式如公式(1)所示:
y(t)=g(t)+s(t)+h(t)+εt 公式(1);
其中,g(t)表示趋势增长函数,用来拟合时间序列中收入预测值的非周期性变化,分为饱和线性增长和分段线性增长;s(t)用来表示周期性变化,比如说每周,每年中的周期性对收入预测值的影响;h(t)表示时间序列中具有非固定周期的节假日对收入预测值造成的影响,εt表示为噪声项,表示Prophe模型未预测到的随机因素,本示例中可以假设为高斯分布。
根据该Prophe模型可以将收入时序进行规律的分解,可以得到不同类型的子序列,该Prophe模型中的g(t)可以用于拟合收入序列整体的发展趋势为上升期、平稳期或者衰退期,以及整体变化速度的快慢。s(t)可以通过傅里叶级数建模的方法表示多个复合周期叠加的情况,该s(t)形式如公式(2)所示:
Figure BDA0002753084460000061
其中,P表示收入序列中具有预期的周期,如天粒度的序列中设置年周期P=365.25天,月周期P=30.5天,周周期P=7天;用傅里叶阶数N来定义该Prophe模型中是否考虑高频变化,其值越高则拟合精度越高,过高N值会产生过拟合。本示例中,针对周期为年的收入时序时,N可以取值10,若周期为月的收入时序,对应的N取值为5,若周期为周的收入时序,对应的N取值为3。当N的值确定后,可以估算参数β,β为参数集合,即β=[a1,b1,…,aN,bN]T。由于收入时序中存在多种周期叠加的特性,本示例中,可以采用如公式(3)表示该多种周期叠加的s(t)。
s(t)=syear(t)+smonth(t)+sweek(t) 公式(3);
h(t)表示节假日因素,例如,除营销活动、突发政策、春节等外部情况外,也包括收入结算方式暂时行调整等自身因素。
历史时段内的历史收入时序表示为yhistory(t)。可以通过L-BFGS优化方法求解Prophet模型中g(t)、s(t)和h(t)的参数。
在本示例中,历史时段是指当日之前的时段,可以采集历史时段内的收入时序;该历史时序可以为日粒度、月粒度或者年粒度,同时记录节假日因素的发生时间以及前后影响时间范围,记录节假日因素包括营销活动、假期因素和政策等事件。可以对采集的收入时序进行预处理。
预处理的过程为:判断该采集的收入时序中缺少的时间占整个时段的占比是否小于预设阈值,若是小于该预设阈值,则采用差值法对缺省的时序进行填补,若缺省占比大于该预设阈值,则确定当前采集的收入时序质量差,可以输出指示重新获取收入时序的提示信息。其中,预设阈值可以设置为30%。将经过预处理后的收入时序作为历史收入时序。
在Prophet模型中g(t)的分为饱和线性增长和分段线性增长。对于稳定的收入数据,例如,稳定业务的收入、总收入等;若为稳定的收入数据,则可以选择饱和线性增长函数;选择饱和线性增长函数可以如公式(4)所示:
Figure BDA0002753084460000071
其中,可以根据业务实际最大收入情况,设定最大容量C(t)为常数,也可根据设定为关于时间t的变化值。对于处在快速发展期的收入数据,且预测未来时间段较短,可以选择分段线性增长函数,选择分段线性增长函数可以如公式(5)所示;
g(t)=(k+a(t)Tδ)t+(m+a(t)Tγ)公式(5);
其中,k表示增长速率,δ和a均表示速率变化,m表示补偿参数,γ表示平滑优化参数。
s(t)针对不同周期性完成该参数;并根据不同收入指标的不同周期特性,周期特性如:单周期、两种复合周期或者多种复合周期,选择对应的周期函数叠加,如公式(6)所示,表示年复合周期的函数,公式(7)表示月复合周期的函数,公式(8)表示周复合周期的函数;
Figure BDA0002753084460000072
Figure BDA0002753084460000073
Figure BDA0002753084460000074
例如,若s(t)中包含年周期和月周期,则s(t)=syear(t)+smonth(t)。
在Prophet模型中,对于节假日因素如营销活动、假期因素和政策等事件,设定事件发生的时间以及前后影响时间窗口即可。如双十一活动发生在11月11日,根据业务经验其前后影响范围为前7天和后3天。
根据历史收入时序以及选择的函数,可以利用python或者R的Prophet算法开源包完成Prophet模型参数的求解,也可用L-BFGS优化方法求解方法编程实现;得到时序分解模型。
将历史时段输入该时序分解模型中,即可得到该历史收入时序yhistory(t)的分解结果:历史趋势项时序ghistory(t)、历史周期项时序shistory(t)以及历史节假日项时序hhistory(t)。
需要说明的是,该时序分解模型还可以用于预测当日之后时段内的收入,例如,将未来时间段t输入该时序分解模型,即可得到未来时段内的收入时序,实现对未来时段的收入的预测。
值得一提的是,训练Prophet模型的训练过程中,采集的收入时序的数据量少,例如,可以仅采集一至两个月的收入数据,得到的时序分解模型准确,无需如深度学习的训练方式,需要至少以年为单位的收入数据进行模型训练,大大降低了模型训练的难度。
步骤202:获取历史周期项的第一均值时序,第一均值时序用于表征在历史时段内周期性规律对应收入均值的时序。
具体地,本示例中以该历史周期项为周周期的序列为例,该历史周期项时序表示为公式(9);
shistory(t)=sweek(t)公式(9);
求解该历史周期项的第一均值序列,即
Figure BDA0002753084460000081
第一均值序列求解方式可以为:历史收入时序的时间长度为L,周期项的周期时长为7天,那么可以将该周周期时序划分为n=L/7个子序列,其中,n取整数。计算每个周期中相同采样时刻的平均值,作为平均周期子序列
Figure BDA0002753084460000082
该平均周期子序列的可以采用如公式(10):
Figure BDA0002753084460000083
每个
Figure BDA0002753084460000084
的长度为7,若要与L的长度相同,可以以
Figure BDA0002753084460000085
将时序填充至L的长度,得到
Figure BDA0002753084460000086
以周为周期的序列为例,7天为一个周期,一个周期从周一至周日。周期序列s包含n个周期,则周一的平均波动情况为周期序列s中n个周一的均值,周二的平均波动情况为周期序列s中n个周二的均值,以此类推,并对一周的平均波动序列进行重复至长度L。需要说明的是,对于月和年这种周期长度不稳定的情况,为方便计算取整,月周期取30天,年周期取365天。可以根据收入数据的特点,剔除或者补齐长度。例如对于月周期系列,保留月初10天和月末10天,并求解当月剩余中间天数的收入均值。当月中间剩余天数为11天时,剔除与均值差值最大的1天,剩余天数小于10天时用均值补齐至10天;对闰年的收入数据剔除2月中旬与2月中旬收入均值差值最大的1天。
步骤203:将第一均值时序、历史趋势项时序以及历史节假日项时序之和作为历史时段内的历史收入均值时序。
具体地,将第一均值时序、历史趋势项时序以及历史节假日项时序之和作为历史时段内的历史收入均值时序,即可以如公式(11)所示:
Figure BDA0002753084460000091
Figure BDA0002753084460000092
表示为历史收入均值时序,
Figure BDA0002753084460000093
为第一均值序列。
步骤204:获取历史收入均值时序以及历史收入时序之间的差异序列。
具体地,可以如公式(12)所示:
Figure BDA0002753084460000094
其中,ehistory(t)表示该差异序列。
步骤205:根据差异序列,获取收入波动阈值。
在一个例子中,获取差异序列的统计分布;获取统计分布中获取第一预设位数对应的第一数值与统计分布中第二预设位数对应的数值之间的第一差值,第二预设位数小于第一预设位数;将第一数值与第一差值之间的和值作为上限阈值;将第二数值与第一差值之间的第二差值作为下限阈值。
具体地,第一预设位数为3/4,第二预设位数为1/4;那么第一预设位数对应的数值为e3/4,第二预设位数对应的数值为e1/4;可以根据如公式(13)获取上限阈值和下限阈值。
Figure BDA0002753084460000095
上限阈值表示为Δupper,下限阈值表示为Δlower
步骤206:根据收入波动阈值、待测时段以及时序分解模型,获取待测时段的收入波动区间。
在一个例子中,根据时序分解模型以及待测时段,获得待测时段内的趋势项时序以及节假日项时序;将待测时段内的趋势项时序、第一均值时序、节假日项时序以及上限阈值之和,得到波动的上限区间;将待测时段内的趋势项时序、第一均值时序、节假日项时序以及下限阈值之和,作为收入波动的下限区间。
具体地,待测时段可以是历史时段内的指定时段,也可以是未来时段内的指定时段。若待测时段为历史时段内的指定时段,那么该收入波动区间可以如公式(14)所示:
Figure BDA0002753084460000101
其中,收入波动阈值[Δlowerupper],
Figure BDA0002753084460000102
表示为第一均值时序,[yhistory_lower(t),yhistory_upper(t)]即该历史时段的收入波动区间。
若待测时段为未来时段内的指定时段,那么该收入波动区间可以如公式(15)所示:
Figure BDA0002753084460000103
其中,gfuture(t)表示为未来时段的趋势项时序,hfuture(t)表示为未来时段的节假日项时序,收入波动阈值表示为[Δlowerupper],
Figure BDA0002753084460000104
表示为第一均值时序,[yfuture_lower(t),yfuture_upper(t)]即该未来时段内的收入波动区间。
步骤207:根据待测时段内的收入波动区间检测待测时段内的收入是否异常,获取检测结果。
在一个例子中,将待测时段输入时序分解模型,获取待测时段对应的收入时序;判断待测时段对应的收入时序是否超出收入波动区间;若是,则检测结果指示待测时段对应的收入时序异常,否则,则检测结果指示待测时段对应的收入时序正常。
具体地,历史收入时序y(t)与历史时段内的收入波动区间进行比较,若y(t)大于yhistory_upper(t)或者小于yhistory_lower(t),则时刻t对应收入时序异常,输出告警。对未来收入时序yfuture(t)与未来时段的收入波动区间进行比较,若yfuture(t)大于yfuture_upper(t)或者小于yfuture_lower(t),则未来时刻t的收入时序异常,输出预警。
下面本示例中以谋省份的通信运营商的历史收入时序进行异常检测。
采集该运营商2016年1月至2019年5月的月总收入时序和节假日因素,将其切分为训练集和测试集。2016年至2018年历史收入时序作为训练集,基于本示例中的方法,获取到历史时段的收入波动区间,未来时段的收入波动区间,同时将未来时段输入该时序分解模型后,即可以获取该未来时段内的收入时序。对2019年的收入进行预测,并完成历史时段的收入时序和未来时段的收入时序的异常波动检测。
2018年1月至2019年12月的结果示意图如图3所示,粗体实线表示为实际采集收入时序,细体实线为通过时序分解模型得到的收入时序,即为拟合/预测值,细体虚线为收入波动区间。
本实例中以2019年1月至2019年5月实际收入为测试集,与对应月份的实际收入与进行比较,并计算准确率。如表1所示,预测值是基于本示例中的收入异常检测的方法获取的收入时序,可见本示例中预测值的准确率高于95%,准确率=1-|预测值/真实值-1|;
实际值 预测值 准确率
201901 2.31E+09 2.34E+09 98.55%
201902 2.08E+09 2.11E+09 98.55%
201903 2.36E+09 2.4E+09 98.05%
201904 2.24E+09 2.33E+09 95.65%
201905 2.29E+09 2.35E+09 97.46%
表1
对待测时段的收入异常检测中收入波动的上限和下限如表2所示。
Figure BDA0002753084460000111
表2
表2中的模型结果值是指利用本示例中的时序分解模型获得的待测时段的收入。在历史收入中,2018年11月实际收入高于收入波动区间上限值,视为异常告警;在未来时段的收入中,2019年2月、6月等月份预期收入超过收入波动区间上下限,视为异常预警。2019年2月的预测收入发生了异常预警,而实际收入值也符合异常波动的条件,可以认为在精准预测的基础上实现了潜在风险的预判和提醒。
由此可知,本发明实现了对未来收入的精准预测,准确实现对历史及未来的收入异常检测,提高了对未来风险的预警。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种收入异常检测的方法,该第三实施方式是对步骤202中历史周期项包含多个周期情况下,获取第一均值时序的详细过程,其流程可以如图4所示。
步骤301:获取m个周期序列各自的平均周期均值序列,m为大于0的整数。
在一个例子中,根据周期序列的周期长度将周期序列划分为n个子序列,n为大于0的整数;获取每个周期长度内相同采样时刻对应的收入均值作为每个子序列的均值子序列;将n个均值子序列的排列组合作为周期序列的平均周期均值序列。
具体地,不同周期序列的周期时长不同,例如,周周期序列的周期时长为7天,月周期序列的周期长度为30天,年周期的周期时长为365天。
本示例中,包含三个周期序列,即s(t)=syear(t)+smonth(t)+sweek(t),则该第一均值时序s(t)可以表示为公式(16):
Figure BDA0002753084460000121
Figure BDA0002753084460000122
的获取方式与求解该
Figure BDA0002753084460000123
的方式大致相同。
假设历史收入时序的时间长度为L,每个周期序列的周期时长以pi,根据周期项的周期时长pi,那么可以将该周周期时序划分为n=L/pi个子序列,其中,n取整数。可以计算每个周期中相同采样时刻的平均值,作为平均周期子序列
Figure BDA0002753084460000124
该平均周期子序列的可以采用如公式(17):
Figure BDA0002753084460000125
其中,i可以取year、month和week。
步骤302:将m个周期序列各自的平均周期均值序列之和作为第一均值序列。
即获取了
Figure BDA0002753084460000126
Figure BDA0002753084460000127
后,将平均周期均值序列叠加即可得到第一均值序列。
s(t)=syear(t)+smonth(t)+sweek(t) 公式(18)。
本发明第四实施方式涉及一种收入异常检测的装置,该收入异常检测的装置40的结构框图如图5所示,包括:第一获取模块401、第二获取模块402、第三获取模块403以及检测模块404。
第一获取模块401用于根据预设的时序分解模型以及当日之前的历史时段,获取历史时段内的历史收入时序的分解结果,分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序,时序分解模型是基于历史收入时序对Prophet模型训练获得;第二获取模块402用于根据历史收入时序以及分解结果,获取收入波动阈值;第三获取模块用于根据收入波动阈值、待测时段以及时序分解模型,获取待测时段的收入波动区间;检测模块用于根据待测时段内的收入波动区间检测待测时段内的收入是否异常,获取检测结果。
不难发现,本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第五实施方式涉及一种电子设备,其结构如图6所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行上述的收入异常检测的方法。
其中,存储器502和处理器501采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第六实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上所述的收入异常检测的方法。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种收入异常检测的方法,其特征在于,包括:
根据预设的时序分解模型以及当日之前的历史时段,获取所述历史时段内的历史收入时序的分解结果,所述分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序,所述时序分解模型是基于所述历史收入时序对Prophet模型训练获得;
根据所述历史收入时序以及所述分解结果,获取收入波动阈值;
根据所述收入波动阈值、待测时段以及所述时序分解模型,获取所述待测时段的收入波动区间;
根据所述待测时段内的收入波动区间检测所述待测时段内的收入是否异常,获取检测结果。
2.根据权利要求1所述的收入异常检测的方法,其特征在于,所述根据所述历史收入时序以及所述分解结果,获取收入波动阈值,包括:
获取所述历史周期项的第一均值时序,所述第一均值时序用于表征在所述历史时段内周期性规律对应收入均值的时序;
将所述第一均值时序、所述历史趋势项时序以及所述历史节假日项时序之和作为所述历史时段内的历史收入均值时序;
获取所述历史收入均值时序以及所述历史收入时序之间的差异序列;
根据所述差异序列,获取所述收入波动阈值。
3.根据权利要求2所述的收入异常检测的方法,其特征在于,所述收入波动阈值包括:上限阈值和下限阈值;
所述根据所述差异序列,获取所述收入波动阈值,包括:
获取所述差异序列的统计分布;
获取所述统计分布中获取第一预设位数对应的第一数值与统计分布中第二预设位数对应的数值之间的第一差值,所述第二预设位数小于所述第一预设位数;
将所述第一数值与所述第一差值之间的和值作为上限阈值;
将所述第二数值与所述第一差值之间的第二差值作为下限阈值。
4.根据权利要求2或3所述的收入异常检测的方法,其特征在于,所述历史周期项时序包括:m个周期序列,m为大于0的整数;
所述获取所述历史周期项的第一均值时序,包括:
获取m个周期序列各自的平均周期均值序列;
将m个周期序列各自的平均周期均值序列之和作为所述第一均值序列。
5.根据权利要求4所述的收入异常检测的方法,其特征在于,所述获取m个周期序列各自的平均周期均值序列,包括:
根据所述周期序列的周期长度将所述周期序列划分为n个子序列,n为大于0的整数;
获取每个周期长度内相同采样时刻对应的收入均值作为每个所述子序列的均值子序列;
将n个所述均值子序列的排列组合作为所述周期序列的平均周期均值序列。
6.根据权利要求3所述的收入异常检测的方法,其特征在于,所述根据所述收入波动阈值、待测时段以及所述时序分解模型,获取所述待测时段的收入波动区间,包括:
根据所述时序分解模型以及待测时段,获得所述待测时段内的趋势项时序以及节假日项时序;
将所述待测时段内的所述趋势项时序、所述第一均值时序、所述节假日项时序以及所述上限阈值之和,得到波动的上限区间;
将所述待测时段内的所述趋势项时序、所述第一均值时序、所述节假日项时序以及所述下限阈值之和,作为收入波动的下限区间。
7.根据权利要求1所述的收入异常检测的方法,其特征在于,所述根据所述待测时段内的收入波动区间检测所述待测时段内的收入是否异常,获取检测结果,包括:
将所述待测时段输入所述时序分解模型,获取所述待测时段对应的收入时序;
判断所述待测时段对应的收入时序是否超出所述收入波动区间;若是,则所述检测结果指示所述待测时段对应的收入时序异常,否则,则所述检测结果指示所述待测时段对应的收入时序正常。
8.一种收入异常检测的装置,其特征在于,包括:第一获取模块、第二获取模块、第三获取模块以及检测模块;
所述第一获取模块用于根据预设的时序分解模型以及当日之前的历史时段,获取所述历史时段内的历史收入时序的分解结果,所述分解结果包括:历史趋势项时序、历史周期项时序以及历史节假日项时序,所述时序分解模型是基于所述历史收入时序对Prophet模型训练获得;
所述第二获取模块用于根据所述历史收入时序以及所述分解结果,获取收入波动阈值;
所述第三获取模块用于根据所述收入波动阈值、待测时段以及所述时序分解模型,获取所述待测时段的收入波动区间;
所述检测模块用于根据所述待测时段内的收入波动区间检测所述待测时段内的收入是否异常,获取检测结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一所述的收入异常检测的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的收入异常检测的方法。
CN202011192328.XA 2020-10-30 2020-10-30 收入异常检测的方法、装置、电子设备及存储介质 Pending CN112308414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011192328.XA CN112308414A (zh) 2020-10-30 2020-10-30 收入异常检测的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011192328.XA CN112308414A (zh) 2020-10-30 2020-10-30 收入异常检测的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112308414A true CN112308414A (zh) 2021-02-02

Family

ID=74332856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011192328.XA Pending CN112308414A (zh) 2020-10-30 2020-10-30 收入异常检测的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112308414A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965876A (zh) * 2021-03-10 2021-06-15 中国民航信息网络股份有限公司 一种监控报警方法及装置
CN113537577A (zh) * 2021-06-25 2021-10-22 中国铁路广州局集团有限公司 收入预测方法、***、电子设备和计算机可读存储介质
CN115158399A (zh) * 2022-06-14 2022-10-11 通号城市轨道交通技术有限公司 时序信号异常检测方法及***
CN115994248A (zh) * 2023-03-24 2023-04-21 青岛精锐机械制造有限公司 阀门故障的数据检测方法及***
CN116343953A (zh) * 2023-05-30 2023-06-27 苏州绿华科技有限公司 基于人工智能的智慧社区管理***
CN116342151A (zh) * 2023-04-12 2023-06-27 余珊 金融支付装置金额篡改检测***
CN118190276A (zh) * 2024-05-17 2024-06-14 菏泽市产品检验检测研究院 基于机器学习的压力容器故障诊断方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965876A (zh) * 2021-03-10 2021-06-15 中国民航信息网络股份有限公司 一种监控报警方法及装置
CN113537577A (zh) * 2021-06-25 2021-10-22 中国铁路广州局集团有限公司 收入预测方法、***、电子设备和计算机可读存储介质
CN115158399A (zh) * 2022-06-14 2022-10-11 通号城市轨道交通技术有限公司 时序信号异常检测方法及***
CN115158399B (zh) * 2022-06-14 2023-10-17 通号城市轨道交通技术有限公司 时序信号异常检测方法及***
CN115994248A (zh) * 2023-03-24 2023-04-21 青岛精锐机械制造有限公司 阀门故障的数据检测方法及***
CN116342151A (zh) * 2023-04-12 2023-06-27 余珊 金融支付装置金额篡改检测***
CN116342151B (zh) * 2023-04-12 2024-02-02 西安你左我右网络科技有限公司 金融支付装置金额篡改检测***
CN116343953A (zh) * 2023-05-30 2023-06-27 苏州绿华科技有限公司 基于人工智能的智慧社区管理***
CN116343953B (zh) * 2023-05-30 2023-08-01 苏州绿华科技有限公司 基于人工智能的智慧社区管理***
CN118190276A (zh) * 2024-05-17 2024-06-14 菏泽市产品检验检测研究院 基于机器学习的压力容器故障诊断方法

Similar Documents

Publication Publication Date Title
CN112308414A (zh) 收入异常检测的方法、装置、电子设备及存储介质
CN106991145B (zh) 一种监测数据的方法及装置
US9448787B2 (en) Methods and systems for analyzing software development risks
CN108446795B (zh) 电力***负荷波动分析方法、装置及可读存储介质
CN112070284A (zh) 用于件量预测的筛选方法、装置、设备和存储介质
CN113962745A (zh) 基于prophet模型及大数据的销量预测方法和***
Duong et al. Volatility in discrete and continuous-time models: A survey with new evidence on large and small jumps
CN112785057A (zh) 基于指数平滑的件量预测方法、装置、设备及存储介质
US20200050982A1 (en) Method and System for Predictive Modeling for Dynamically Scheduling Resource Allocation
CN113642886B (zh) 规划电网线路利用率分析方法、***、介质及计算设备
CN112053181A (zh) 一种农产品价格预测方法及***
CN109887253B (zh) 石油化工装置报警的关联分析方法
CN111737233A (zh) 数据监控方法及装置
CN116564102A (zh) Prophet-DeepAR模型的交通量预测方法
Medykovskyi et al. Spectrum neural network filtration technology for improving the forecast accuracy of dynamic processes in economics
Seshan et al. LSTM-based autoencoder models for real-time quality control of wastewater treatment sensor data
CN113743994A (zh) 一种供应商的旺季预测方法、***、设备及存储介质
CN114118637A (zh) 一种配件需求的预测模型构建方法、装置及计算机设备
CN111898786A (zh) 一种电子锁需求预测方法、***、设备及存储介质
Castro-Gama et al. A Bird’s-Eye View of Data Validation in the Drinking Water Industry of the Netherlands
CN117934247B (zh) 基于时序分解的碳排放因子预测方法、装置、电子设备及存储介质
CN116737784A (zh) 数据周期性波动检测方法、装置、设备、介质及程序产品
CN111339156B (zh) 业务数据的长期确定方法、装置和计算机可读存储介质
Emmanuel et al. Singular spectrum analysis: an application to Kenya’s industrial inputs price index
Seshan et al. corrected Proof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination