WO2021052031A1

WO2021052031A1 - 基于统计四分位距的商品库存风险预警方法、***及计算机可读存储介质

Info

Publication number: WO2021052031A1
Application number: PCT/CN2020/105964
Authority: WO
Inventors: 欧文祥; 徐亮; 蒋旭曦
Original assignee: 苏宁云计算有限公司
Priority date: 2019-09-20
Filing date: 2020-07-30
Publication date: 2021-03-25
Also published as: CN110751371A; CA3155689A1; CN110751371B

Abstract

一种基于统计四分位距的商品库存风险预警方法、***，及包含该方法的计算机可读存储介质。该方法包括：获取某历史时间段内的所有门店的原始商品库存数据；根据原始商品库存数据计算得到库存增量数据；计算该库存增量数据的上下四分位数，根据上下四分位数计算出四分位距及异常检测阈值；检测新的库存增量是否超过异常检测阈值，如超过，则被判定为异常数据并推送给前端预警。该方法解决了现有技术中计算开销大、数据量大时异常值漏判、时效性低等问题。

Description

基于统计四分位距的商品库存风险预警方法、***及计算机可读存储介质

技术领域

本发明属于大数据在零售风控领域中的应用，具体涉及一种基于统计四分位距的商品库存风险预警方法、***及计算机可读存储介质。

背景技术

目前大型零售企业的实体门店正在以极快的速度增长，同时由于管理方面的局限性，门店管理人员可能会因为一己私利进行违法操作对企业造成重大经济损失，目前往往更多依靠事后财务审计、盘点等方式去核查问题，时效性很低，往往是发现了问题也很难再完全追回财务损失，因此我们需要找到一个高效、准确的方法通过对销售、财务的指标监控分析能及时发现可疑风险并通知相关人员进行审查核实。

由于财务报表本身的一些滞后性，用户在指标选择是首先排除了通过财务指标进行预警的方案，把指标的选择放在了付款和库存这两个跟销售紧密结合的核心业务指标上面，通过对业务以及***数据的进一步分析发现，在进行一些非法操作时其并不通过公司的销售***，无法在付款中体现，但其必须进行商品的出入库操作，在库存指标中正常体现，因此最终选取对商品库存数据指标的异常检测来及时发现和预警风险。

对于数据异常值检测方法的研究，目前主要集中在无监督异常检测，常用的检测方法包括与统计与概率模型的方法、基于线性模型的方法和基于相似度衡量模型的方法。基于统计学的方法主要有3σ原则和基于箱型图分析的方法等，基于线性模型的方法主要有PCA(主成分)分析法和One-class SVM(支持向量机)等，基于相似度衡量模型的方法主要有k近邻和Isolation Forest(孤立森林)等。由于商品种类繁多，数据量非常大，且商品库存数据属于一维时间序列，基于线性模型和相似度衡量模型的计算开销较大，考虑到计算的实时性，本发明将采用基于统计学的方法。其中3σ原则只适用于服从正态分布的数据，在3σ原则下，异常值被定义为观察值和平均值的偏差超过3倍标准差的值，P(|x-μ|＞3σ)≤0.003，其中μ为均值，σ为标准差，在正态分布假设下，大于3σ的值出现的概率小于0.003，属于小概率事件，故可认定其为异常值。但是在实际情况下，库存数据往往是不服从正态分布的，所以3σ原则并不适用，而箱型图并不限制数据分布，只是直观表现出数据分布的本来面貌。其识别异常值的结果比较客观，而且判断标准以四分位数和四分位距为标准，多达25％的数据可以变得任意远而不会扰动这个标准，鲁棒性更强，但是在样本序列数据量大时，箱型图处理全部数据时容易导致异常点漏判。库存数据属于时间序列，目前很多检测方法没有考虑时间序列的时序变化特性，而是从数据全集考虑，局部的异常值容易漏检，此外库存数据还有自身的一些特性，对于某些品类的商品，在相当长的持续时间内可能会保持不变，也就是存在大量重复数据。

因此，如何设计出一种在数据量较大时，异常数据检测准确、时效性强，便成为了目前亟待解决的问题。

发明内容

基于现有技术的上述缺陷，本发明的目的是提供一种基于统计四分位距的商品库存风险预警方法及***，以克服现有技术中计算开销大、数据量大时异常值漏判、时效性低等问题。

本发明采用的技术方案如下：

一种基于统计四分位距的商品库存风险预警方法，所述方法包括：

获取某历史时间段内的所有门店的原始商品库存数据；

根据原始商品库存数据计算得到库存增量数据；

计算该库存增量数据的上下四分位数，根据上下四分位数计算出四分位距及异常检测阈值；

检测新的库存增量是否超过异常检测阈值，如超过，则被判定为异常数据并推送给前端预警。

进一步地，所述四分位距根据公式IQR＝Q3-Q1计算得到，所述异常阈值根据公式MAX＝Q3+3×IQR计算得到，其中，Q3为上四分位数，Q1为下四分位数， MAX为阈值。

进一步地，根据原始商品库存数据计算库存增量数据包括步骤：

将原始商品库存数据先按门店和商品进行分组，并按时间排序，对缺失数据用零值填补，得到初步整理好的历史数据；

对初步整理好的历史数据进行差分运算得到初始库存增量数据；

再对初始库存增量数据取绝对值，同时去掉全部零值，得到最终的库存增量数据。

进一步地，所述四分位距的计算过程包括：

将库存增量数据从小到大排序，将第25％的数字作为下四分位数Q1，将第75％的数字作为上四分位数Q3，四分位距IQR＝Q3-Q1。

进一步地，所述方法还包括，采用滑动时间窗口模式，每间隔一段时间，重新计算得出新的异常检测阈值。每隔一段时间，比如采用T+1的模式，每间隔一天采集一次最新的库存数据，通过计算最新的异常检测阈值，利用该数据对未来一段时间内的库存数据进行异常判定，提高数据判断的时效性。

进一步地，所述方法还包括，前端收到异常数据推送后，再由业务人员人工进行审查以确定是否为异常数据。在被判定为异常数据后，再通过人工检测，能够更进一步提高判定的精确度。

进一步地，对原始商品数据的分组排序以及差分运算采用spark数据平台进行处理。采用spark平台能够提高计算能力和处理效率。

基于本发明的另一构思，还提供了一种基于知识图谱的疑似实际控制人的风险识别***，所述***包括：

数据采集模块，用于从库存数据库中获取某历史时间段内的所有门店的原始商品库存数据；

数据处理模块，对原始商品库存数据进行处理运算得到库存增量数据；

阈值计算模块，计算该库存增量数据的上下四分位数，并根据上下四分位数计算出四分位距及异常检测阈值；

预警模块，检测新的库存增量是否超过异常检测阈值，如超过，则被判定为异常数据并推送给前端预警。

进一步地，所述数据处理模块包括：

数据分组单元，将原始商品库存数据进行分组；

数据排序单元，将原始商品库存数据按照时间排序，并将缺失数据用零值填补；

差分计算单元，将分组排序好的数据进行差分运算，对结果取绝对值，同时去掉全部零值得到最终的库存增量数据。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行本发明中的方法的各个步骤。

与现有技术相比，本发明所公开的一种基于统计四分位距的商品库存风险预警方法及***，具有如下技术效果：

1、本发明利用统计四分位距的方法来计算异常库存增量的阈值，计算效率高，实现了风险快速、精准的定位，对比传统的人工审计、盘点，工作量大大降低，还可以规避人为主观因素导致的差异。

2、本发明通过对后续每天库存数据进行异常监测，在监测超过阈值时主动向用户或前端进行预警，可实现T+1预警模式，每天对库存数据进行异常检测判定，大大提高了库存异常风险发现的时效性。

3、本发明对库存增量数据的处理运算是采用了spark平台，利用其在大数据量下的计算能力以及在迭代计算场景下的优势，同时利用多线程进行并发处理，大大提高了数据的处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的基于统计四分位距的商品库存风险预警方法的流程示意图。

图2为本发明实施例中的四分位数、四分位距和阈值的设置示意图。

图3为发明实施例中的近一年内某商品库存数量变动及对应的异常检测阈值的统计示意图。

图4为本发明实施例中基于统计四分位距的商品库存风险预警***的架构图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

参照图1～图3所示，本发明实施例所公开了一种基于统计四分位距的商品库存风险预警方法，该方法包括如下步骤：

获取某历史时间段内的所有门店的原始商品库存数据；

具体来说，从商品库存数据库中获取当前日期往前近一段时间的所有门店的商品库存数据，比如以一年时间为基准，统计本月起的前12个月内的数据，此外，商品库存数据库中的数据可以每隔一段时间同步传输到HADOOP集群的HDFS(分布式文件存储)***中，这样可直接从HDFS平台获取。

根据原始商品库存数据计算得到库存增量数据；

具体来说，该步骤包括：

将原始商品库存数据先按门店和商品进行分组，并按时间排序，可以以天为单位，对缺失数据用零值填补，得到初步整理好的历史数据；

再对初始库存增量数据取绝对值，同时去掉全部零值，得到最终的库存增量数据。该库存增量数据为历史期间的每天的库存增量。当然，排序时间也可以根据周、月来统计，这样就是每周或每月的库存增量数据。

其中，将库存增量数据从小到大排序，将第25％的数字作为下四分位数Q1，将第75％的数字作为上四分位数Q3，四分位距IQR＝Q3-Q1；异常阈值根据公式MAX＝Q3+3×IQR计算得到，其中，Q3为上四分位数，Q1为下四分位数，MAX为阈值。

在该步骤中，***实时监测新的库存增量，在新的库存增量有变动，且超过阈值时，主动向前端和用户提醒，提示财务人员注意。同时，检测的异常结果数据也会同步到应用***的数据库中，预存在Mysql(关系型数据库管理***)数据库中，流程引擎自动发起异常流程至对应财务负责人，财务负责人可对该异常数据进行人工核查，并反馈最终的判定结果。

下面来通过一个具体的实施例对本发明的方法作一个完整描述。

(1)数据输入，从大数据平台获取当前日期近一年的商品库存数据。

(2)数据预处理，利用spark对原始数据按门店和商品进行分组，按照时间顺序(以天为单位)进行排序，对缺失数据用零值来填补，得到初步整理好的历史数据{a _n}，n＝1,2,3,...,365，n与具体的日期是相对应的。

(3)利用spark对步骤(2)中初步整理好的历史数据{a _n}进行差分得到库存增量数据{b _n}，其中b ₀＝0，b _n＝a _n-a _n-1，n＝2,3,...,365。

(4)对差分数据{b _n}取绝对值，同时去掉所有零值，得到去掉零值后的库存增量数据{c _n}。

(5)计算步骤(4)中库存增量数据{c _n}的上下四分位数，四分位数(Quartile)也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。第一四分位数Q1，又称“下四分位数”，等于该样本中所有数值由小到大排列后第25％的数字，第二四分位数Q2，又称“中位数”，等于该样本中所有数值由小到大排列后第50％的数字，第三四分位数Q3，又称“上四分位数”，等于该样本中所有数值由小到大排列后第75％的数字。

(5.1)计算下四分位数Q1，将库存增量数据{c _n}从小到大排序得到{d _n}，可以计算得到Q1的位置p ₁＝1+(|{d _n}|-1)×0.25，其中|{d _n}|是数据大小，进一步可以算得下四分位数

其中符号

表示向下取整。

(5.2)计算上四分位数Q3，将库存增量数据{c _n}从小到大排序得到{d _n}，可以计算得到Q3的位置p ₃＝1+(|{d _n}|-1)×0.75，其中|{d _n}|是数据大小，进一步可以算得下四分位数

其中符号

表示向下取整。

(6)根据步骤(5)中算出的上下四分位数计算四分位距IQR＝Q3-Q1，计算异常阈值MAX＝Q3+3×IQR，根据计算得到的阈值可以对新的库存增量数据进行检测，超过阈值MAX的认为是异常值；图2中上面的T形盒表示的上限即异常检测阈值MAX，具体检测效果如图3所示，在阈值线以上的数据可以认为是异常数据。

(7)将步骤(6)检测出来的异常值对应的门店、日期和商品等信息发送至相关业务部门，业务部门结合各方信息及实地调查进行核查，如果确定存在风险，可由公司法务部门进行下一步处理，以规避更大的损失；如图3中，该图显示了2018年6月至2019年6月某门店的库存风险预警案例，由图3结果可知，19年1月份风险等级明显高于阈值，基本可以判定该门店存在数据异常和较大财务风险。

(8)每经过一个月时间，重新选取最近一年的库存数据，相当于滑动时间窗口，重复步骤(1)～(7)重新计算阈值，并对未来一个月内的库存数据利用该阈值进行异常检测并及时预警，直到下一次重新计算阈值。

本发明提供的一种基于统计四分位距的商品库存风险预警方法，针对商品库存数据时间序列易受宏观经济形势、季节、促销活动等影响的特点，采用滑动窗口的形式统计样本的四分位数并以此计算异常检测阈值，从而可以更加准确地检测出库存数据的异常值，此外，本发明方法计算开销小，计算机程序运行时间短，可以实现准实时检测。

相比原始的采用人工审计、盘点的方法，工作量巨大，效率低下，一般是数月或者更长周期才进行一次审计，每次的审计时间也需要持续数天或者更长；采用本发明的方法后，可以实现T+1形式的一天一次检测，任务执行平均在15分钟，就可以把检测到的可能异常数据通过流程方式推送给对应财务负责人，由相关***进行针对性的审查，当天就能反馈结果，实现风险发现、风险预警、异常推送、风险审查、结果反馈、事后追责的全流程闭环，有效的及时发现并规避异常风险。

本领域普通技术人员应当理解的是，上述实施例的各种方法中的全部或者部分步骤是可以通过程序指令相关的硬件来完成，该程序可以存储于一判断机存储介质中，存储介质可以包括：只读存储器ROM、随机存取存储器RAM、磁盘或光盘等。

与上述实施例中的方法相对应地，参照图4所示，本发明还提供了一种基于知识图谱的疑似实际控制人的风险识别***，该***包括：

数据采集模块，用于从企业平台自己的商品库存数据库中获取某历史时间段内的所有门店的原始商品库存数据；

阈值计算模块，计算该库存增量数据的上下四分位数，并根据上下四分位数计算出四分位距及异常检测阈值，其中，异常阈值根据公式MAX＝Q3+3×IQR计算得到，Q3为上四分位数，Q1为下四分位数，MAX为阈值；

预警模块，检测新的库存增量是否超过异常检测阈值，如超过，则被判定为异常数据并推送给前端预警。前端人员，比如财务人员在收到该预警信息后，还可以人工核查，以进一步确认风险。

本发明通过数据采集模块、数据处理模块、阈值计算模块、预警模块的配合，实现了商品库存异常值的快速准确的检测，能够及时有效的规避异常风险。

本实施例中，数据处理模块包括：

数据分组单元，将原始商品库存数据按照门店和商品进行分组；

数据排序单元，将原始商品库存数据按照时间排序，比如以天为单位，并将缺失数据用零值填补，比如某天没有库存商品，则填入0；

差分计算单元，将分组排序好的数据进行差分运算，对结果取绝对值，同时去掉全部零值得到最终的库存增量数据。当数据量较大时，比如某平台有200亿的数量级的数据，如果采用传统的直接利用数据分析工作进行差分计算基本是不可行的，采用传统的JAVA或数据库的计算方案，也很难一次完成全年的计算，需要通过拆分或者循环的方式，同时增加并发去执行，乐观估计可能需要3-4天左右的时间，后续每天增量处理在40分钟左右，考虑到后期计划是按月进行阈值的初始化计算，这个效率远远无法满足需求。本发明实施例中采用spark进行数据的加工处理，利用其在大数据量下的计算能力以及在迭代计算场景下的优势，同时利用多线程进行并发处理，实际初始化时只需花费几个小时即可完成，大大提高了运算效率。

另外，在本发明实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，上述集成的模块、***、平台既可以采用硬件的方式实现，也可以采用软件功能单元的形式实现。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种基于统计四分位距的商品库存风险预警方法，其特征在于，所述方法包括：

获取某历史时间段内的所有门店的原始商品库存数据；

根据原始商品库存数据计算得到库存增量数据；

计算该库存增量数据的上下四分位数，根据上下四分位数计算出四分位距及异常检测阈值；

检测新的库存增量是否超过异常检测阈值，如超过，则被判定为异常数据并推送给前端预警。
根据权利要求1所述的预警方法，其特征在于，所述四分位距根据公式IQR＝Q3-Q1计算得到，所述异常阈值根据公式MAX＝Q3+3×IQR计算得到，其中，Q3为上四分位数，Q1为下四分位数，MAX为阈值。
根据权利要求2所述的预警方法，其特征在于，根据原始商品库存数据计算库存增量数据包括步骤：

将原始商品库存数据先按门店和商品进行分组，并按时间排序，对缺失数据用零值填补，得到初步整理好的历史数据；

对初步整理好的历史数据进行差分运算得到初始库存增量数据；

再对初始库存增量数据取绝对值，同时去掉全部零值，得到最终的库存增量数据。
根据权利要求2所述的预警方法，其特征在于，所述四分位距的计算过程包括：

将库存增量数据从小到大排序，将第25％的数字作为下四分位数Q1，将第75％的数字作为上四分位数Q3，四分位距IQR＝Q3-Q1。
根据权利要求1所述的预警方法，其特征在于，所述方法还包括，采用滑动时间窗口模式，每间隔一段时间，重新计算得出新的异常检测阈值。
根据权利要求1或5所述的预警方法，其特征在于，所述方法还包括，前端收到异常数据推送后，再由业务人员人工进行审查以确定是否为异常数据。
根据权利要求3所述的预警方法，其特征在于，对原始商品数据的分组排序以及差分运算采用spark数据平台进行处理。
一种基于统计四分位距的商品库存风险预警***，其特征在于，该***包括：

数据采集模块，用于从库存数据库中获取某历史时间段内的所有门店的原始商品库存数据；

数据处理模块，对原始商品库存数据进行处理运算得到库存增量数据；

阈值计算模块，计算该库存增量数据的上下四分位数，并根据上下四分位数计算出四分位距及异常检测阈值；

预警模块，检测新的库存增量是否超过异常检测阈值，如超过，则被判定为异常数据并推送给前端预警。
根据权利要求8所述的预警***，其特征在于，所述数据处理模块包括：

数据分组单元，将原始商品库存数据进行分组；

数据排序单元，将原始商品库存数据按照时间排序，并将缺失数据用零值填补；

差分计算单元，将分组排序好的数据进行差分运算，对结果取绝对值，同时去掉全部零值得到最终的库存增量数据。
一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1-7任一项所述的方法的步骤。