CN109299259A - 企业***数据监测方法、装置、计算机设备和存储介质 - Google Patents

企业***数据监测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109299259A
CN109299259A CN201811122776.5A CN201811122776A CN109299259A CN 109299259 A CN109299259 A CN 109299259A CN 201811122776 A CN201811122776 A CN 201811122776A CN 109299259 A CN109299259 A CN 109299259A
Authority
CN
China
Prior art keywords
invoice data
clustering model
real
invoice
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811122776.5A
Other languages
English (en)
Inventor
夏良超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201811122776.5A priority Critical patent/CN109299259A/zh
Priority to PCT/CN2019/070119 priority patent/WO2020062702A1/zh
Publication of CN109299259A publication Critical patent/CN109299259A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请涉及一种基于机器学习的企业***数据监测方法、装置、计算机设备和存储介质。所述方法包括:获取待监测的实时***数据,将实时***数据输入预先训练的聚类模型,检测聚类模型的聚类中心的偏移量,当聚类中心的偏移量超过阈值范围时,获取聚类模型中与实时***数据距离最近的多个历史***数据作为最近邻算法的样本,根据最近邻算法以及样本所属的识别标签,得到实时***数据的监测结果。采用本方法能够提高识别***数据中异常***的异常类型的准确性。

Description

企业***数据监测方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种企业***数据监测方法、装置、计算机设备和存储介质。
背景技术
目前,企业需要贷款时,会给放贷方提供各项企业资料和各个平台的资料获取权限,放贷方根据各项资料分析企业的贷款资质,为企业提供贷款。然而贷款是个长期合作的过程,如果企业的经营状况不佳,可能导致企业的偿还能力降低,考虑到风险问题,放贷方会降低企业的贷款额度或者停止给企业放款。***数据一定程度反映企业的经营状况,通过对企业***数据进行分析,可以得到企业的经营状况。然而,***数据中内容繁多,***数据量大,在人工分析***数据时,对于异常开票、虚假开票的***数据的识别精度低,从而无法准确的识别异常开票、虚假开票的***数据的异常类型。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决无法准确识别到***数据中异常***的异常类型问题的企业***数据监测方法、装置、计算机设备和存储介质。
一种企业***数据监测方法,所述方法包括:
获取待监测的实时***数据;
将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;
当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本;
根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
在其中一个实施例中,还包括:获取用于训练聚类模型的历史***数据;提取历史***数据中的第一特征参数点,选择多个第一特征参数点作为初始聚类中心;根据所述初始聚类中心以及所述第一特征参数点进行聚类训练,得到聚类模型。
在其中一个实施例中,还包括:提取所述实时***数据中的第二特征参数点,将所述第二特征参数点输入所述聚类模型;根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练,得到偏移聚类模型;获取所述偏移聚类模型的偏移聚类中心,根据所述偏移聚类中心和所述聚类中心位置的偏移距离,得到所述聚类模型的聚类中心的偏移量。
在其中一个实施例中,还包括:计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离;获取距离最近的多个历史***数据作为最近邻算法的样本。
在其中一个实施例中,还包括:获取历史***数据中商品名称字段值以及规格型号字段值均相同的商品历史***数据;提取商品历史***数据中的合计金额字段值以及商品单价字段值,根据所述合计金额字段值以及所述商品单价字段值,得到第一特征参数点。
在其中一个实施例中,所述识别标签包括:价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签,还包括:统计所述样本的识别标签中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数量,确定价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签中数量最多的样本的识别标签为所述实时***数据的监测结果。
在其中一个实施例中,还包括:当聚类中心的偏移量在阈值范围内时,获取所述实时***数据在所述偏移聚类模型对应的簇,统计簇内历史***数据的数目;当所述数目小于其他簇内历史***数据的数目的均值时,删除历史税务数据数量最多的簇中的一个历史税务数据,根据所述实时***数据更新所述聚类模型。
一种企业***数据监测装置,所述装置包括:
数据采集模块,用于获取待监测的实时***数据;
偏移计算模块,用于将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;
样本选择模块,用于当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本;
监测模块,用于根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待监测的实时***数据;
将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;
当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本;
根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待监测的实时***数据;
将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;
当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本;
根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
上述企业***数据监测方法、装置、计算机设备和存储介质,通过获取待监测的实时***数据,将实时***数据输入预先训练的聚类模型,检测聚类模型的聚类中心的偏移量,当聚类中心的偏移量超过阈值范围时,获取聚类模型中与实时***数据距离最近的多个历史***数据作为最近邻算法的样本,根据最近邻算法以及样本所属的识别标签,得到实时***数据的监测结果。本发明实施例,通过将***数据输入预先训练的聚类模型,能够精确的识别***数据中异常开票、虚假开票的情况,然后通过最近邻算法确定异常***的异常类型,从而在接收到待监测的实时***数据时,能够提高识别实时***数据中异常***的异常类型的准确性。
附图说明
图1为一个实施例中企业***数据监测方法的应用场景图;
图2为一个实施例中企业***数据监测方法的流程示意图;
图3为一个实施例中训练聚类模型步骤的流程示意图;
图4为一个实施例中检测偏移量步骤的流程示意图;
图5为另一个实施例中最近邻算法中样本分布的示意图;
图6为一个实施例中企业***数据监测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的企业***数据监测方法,可以应用于如图1所示的应用环境中。其中,***服务器102通过网络与服务器104通过网络进行通信。其中,***服务器102和服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
***服务器102中存储企业的***数据,或者***服务器102具有获取企业的***数据的权限,***服务器102和服务器104进行通讯时,***服务器102将企业的***数据发送给服务器104。
服务器104中预先训练了聚类模型,聚类模型是根据***数据训练得到的,针对不同类型的***数据,需要训练不同的聚类模型,以此,在接收到***数据时,才能利用对应的聚类模型进行***数据的检测。
服务器104从***服务器102获取***数据后,将***数据输入聚类模型中,聚类模型进行迭代训练,稳定后,会形成新的聚类中心,从而存在偏移量。服务器104计算该偏移量,并检测该偏移量是否超过阈值范围,超过阈值范围时,然后从而聚类模型中选择最近邻算法的样本,通过样本的识别标签确定***数据的监测结果。
在一个实施例中,如图2所示,提供了一种企业***数据监测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待监测的实时***数据。
***数据指的是企业在从事销售活动时,开具的业务凭证。***数据中主要记录了***代码、***号码、***明细序号、商品名称、规格型号、计量单位、商品数量、商品单价、单价含税标志、金额、税率、税额等信息。***分为电子***和普通***,对与电子***,可以通过识别电子***相应的位置,得到***数据;对于普通***,可以通过将普通***的图像信息,然后识别图片中普通***的相应位置,得到***数据。
具体的,根据电子***或者普通***可以建立***数据的表单,服务器接收***数据的表单,从而解析表单得到***数据。
实时***数据表示在监测周期中,当前获取的***数据。实时***数据是针对已完成监测的历史***数据而言的。
步骤204,将实时***数据输入预先训练的聚类模型,检测聚类模型的聚类中心的偏移量。
聚类模型是一种分类模型,可以将大量***数据进行分类。训练好的聚类模型中的***数据被分成多个簇,每个簇内均包括一个聚类中心。在将实时***数据输入训练好的聚类模型中时,聚类模型会实时***数据进行分类,即将实时***数据划分至其中的一个簇内,对聚类模型进行迭代运算,通过评价函数评估是否迭代到最佳聚类,在迭代到最佳聚类时,聚类中心可能会发生偏移,此时,检测聚类中心的偏移量。
步骤206,当聚类中心的偏移量超过阈值范围时,获取聚类模型中与实时***数据距离最近的多个历史***数据作为最近邻算法的样本。
在聚类中心发生偏移时,可能聚类模型中所有的聚类中心均发生偏移,也可能只是其中一个聚类中心发生偏移,因此在计算偏移量时,可以选择所有聚类中心偏移量的总和。
在训练得到聚类模型时,可以根据输入多个处于临界值的正常***数据,从而分析得到阈值范围。阈值范围内的偏移量的***数据可以确定是正常的***数据,超过阈值范围的偏移量的***数据需要进一步对***数据进行识别。
另外,最近邻算法是一种分类算法,可以根据距离最近的多个样本对实时***数据进行分类检测。在确定距离最近时,可以计算实时***数据与聚类模型中历史***数据的欧式距离,然后对所有欧式距离进行排序,选择欧式距离最近的历史***数据直至达到最近邻算法的样本大小。
步骤208,根据最近邻算法以及样本所属的识别标签,得到实时***数据的监测结果。
识别标签为一种服务器可以识别的标签,不同的识别标签表示***数据所属于的不同簇,服务器通过对识别标签进行识别,可以得到***数据对应簇。由于样本是从聚类模型中选择的,因此每个样本均被识别标签进行标记,通过最近邻算法统计不同识别标签的数量,然后判断实时***数据所属的是识别标签,从而确定***数据的异常类型。
上述企业***数据监测方法中,通过获取待监测的实时***数据,将实时***数据输入预先训练的聚类模型,检测聚类模型的聚类中心的偏移量,当聚类中心的偏移量超过阈值范围时,获取聚类模型中与实时***数据距离最近的多个历史***数据作为最近邻算法的样本,根据最近邻算法以及样本所属的识别标签,得到实时***数据的监测结果。本发明实施例,通过预先训练的聚类模型,能够精确的识别***数据中异常开票、虚假开票的情况,然后通过最近邻算法确定异常***的异常类型,从而在接收到待监测的实时***数据时,能够提高识别实时***数据中异常***数据的异常类型的准确性。
在一实施例中,针对不同类型的***数据,需要设置不同的聚类模型,即服务器中预先设置企业多个不同类型的***数据对应的聚类模型。在服务器接收到企业的待监测实时***数据时,首先确定***数据的类型,然后选择对应的聚类模型进行***监测。
具体的,企业1对外销售的商品包括商品A、商品B以及商品C,服务器获取到企业1商品A、商品B以及商品C的历史***数据后,首先对***数据进行分类,分类出商品A、商品B以及商品C对应的***数据然后分别训练得到商品A、商品B以及商品C对应的聚类模型,在对***数据进行监测时,若接收到商品A的***数据,服务器将商品A的***数据对应输入商品A对应的聚类模型中。
在另一实施例中,将聚类模型进行封装后,存储在服务器中,服务器中存储多个企业的多个封装后的聚类模型,在进行***数据监测时,只需要通过索引调用需要的聚类模型。封装后的聚类模型实质不参与聚类的运算,即服务器在进行***数据监测时,调用封装的聚类模型,然后拷贝一个与聚类模型一致的虚拟聚类模型,通过将***数据输入虚拟聚类模型进行迭代计算,从而判断***数据是否异常。
具体的,封装后的聚类模型包括固定的簇以及簇内***数据的识别标签,在进行拷贝时,同时需要拷贝***数据的识别标签。封装后的聚类模型可以定时进行更新,也可以通过触发条件进行更新,触发条件可以是商品价格调整等。
本发明实施例中,通过将聚类模型进行封装,可以在每次使用聚类模型时,保证聚类模型不被修改,从而保证始终采用同一个聚类模型对***数据进行监测,从而有效保证***数据监测的准确性。
在一实施例中,如图3所示,提供一实施例中训练聚类模型步骤的流程示意图,具体步骤如下:
步骤302,获取用于训练聚类模型的历史***数据。
历史***数据可以是历史时间段内的***数据,***数据需要是同类商品的***数据。另外,历史***数据均为正常***数据,因此可以选择人工分析后的***数据作为历史***数据。
步骤304,提取历史***数据中的第一特征参数点,选择多个第一特征参数点作为初始聚类中心。
***数据中包括大量的信息,可以选择两种信息的组合,得到第一特征参数点,例如,可以采用税额和单价组合得到第一特征参数点,其他信息的组合也可以得到第一特征参数点。
初始聚类中心可以根据第一特征参数点的分布情况进行选择,也可以根据对***数据的分类情况进行预测,然后选择符合每种分类中的一个第一特征参数点作为初始聚类中心。一般而言,***数据存在多种分类,因此需要选择多个第一特征参数点作为初始聚类中心。
步骤306,根据初始聚类中心以及第一特征参数点进行聚类训练,得到聚类模型。
本发明实施例中,聚类训练的过程即将第一特征参数点进行分组的过程,在确定初始聚类中心时,根据初始聚类中心到第一特征参数点的距离,将第一特征参数点分类到各个初始聚类中心中,然后通过迭代不断的更新聚类中心直至聚类中心稳定,得到聚类模型。
在一实施例中,聚类模型的具体实现如下:
S1,在历史***数据中选择K个作为初始聚类中心。
S2,选定距离量度,例如:欧式距离,计算每个历史***数据与初始聚类中心的欧式距离,按照欧式距离的排序将每个历史***数据指派给初始聚类中心形成簇。欧式距离的表达式为:
其中d12表示历史***数据与初始聚类中心的欧式距离,(x1,y1)为第一特征参数点转化到预设坐标系中的坐标,(x2,y2)为初始聚类中心转化到预设坐标系中的坐标。
S3,在每个簇内重新选择聚类中心。
S4,选定评价函数,评价函数可以选择误差平方和,根据评价函数计算每次迭代的评价值,评价值越小表示聚类越精确,同时需要设定目标值,当评价值达到目标值时,停止迭代,即得到聚类模型。误差平方和的表达式为:
其中,SSE表示评价值,K表示初始聚类中心,Ci表示初始聚类中心的序号,dist()表示欧式距离函数。
在另一实施例中,如图4所示,提供一实施例中检测偏移量步骤的流程示意图,具体步骤如下:
步骤402,提取实时***数据中的第二特征参数点,将第二特征参数点输入聚类模型。
第二特征参数点的提取可以参考第一特征参数点的提取,即服务器在接收到实时***数据时,选择对应的聚类模型,然后检测聚类模型中第一特征参数点的提取规则,然后提取第二特征参数点。也可以预先设置第一特征参数点和第二特征参数点保持一致的提取规则。
步骤404,根据第二特征参数点、聚类模型的聚类中心和第一特征参数点进行聚类训练,得到偏移聚类模型。
偏移聚类模型是指聚类模型中输入第二特征参数点后,再次迭代稳定得到的聚类模型。
步骤406,获取偏移聚类模型的偏移聚类中心,根据偏移聚类中心和聚类中心位置的偏移距离,得到所述聚类模型的聚类中心的偏移量。
通过聚类模型训练得到偏移聚类模型的过程中,聚类中心可能改变,即偏移聚类中心与聚类中心的偏移距离为偏移量。
对于步骤404,在一实施例中,服务器选择聚类模型后,对聚类模型进行拷贝,得到虚拟聚类模型,然后将第二特征参数点输入虚拟聚类模型,对虚拟聚类模型进行迭代得到偏移聚类模型。
在另一实施例中,可以通过以下方式获取最近邻算法的样本:计算聚类模型中第一特征参数点与第二特征参数点的距离,获取距离最近的多个历史***数据作为最近邻算法的样本。
具体的,首先计算第二特征参数点与第一特征参数点的欧式距离,然后确定最近邻算法的样本大小,例如样本大小为K,则选择所有欧式距离中最小的第一特征参数点作为样本,重复这个过程K次得到K个第一特征参数点的样本。
在一实施例中,训练聚类模型需要大量的第一特征参数点,才能保证聚类模型的精确度。因此在获取到历史***数据时,需要对历史***数据进行分类,具体可以获取历史***数据中商品名称字段和规格型号字段值,从而筛选出相同商品的商品历史***数据。然后提取出商品历史***数据中合计金额字段值和商品单价字段值,根据合计金额字段值和商品单价字段值得到第一特征参数点。本发明实施例中,合计金额和商品单价可以反映企业该商品的销售情况,商品价格过高或者过低均可能是虚假开票导致,异常的销售合计金额也可能是虚假开票或者异常开票导致的,因此,利用合计金额和商品单价作为第一特征参数点可以准确的反映***数据是否异常。
在另一实施例中,识别标签包括:价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签。因此,在训练聚类模型时,可以选择4个初始聚类中心,然后得到4个簇,对4个簇内的历史***数据分别采用识别标签进行标记。最近邻算法选择的样本均被上述识别标签标记,然后分别统计样本中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数目,通过最近邻算法确定实时***数据的标签标记,从而输出监测到实时***数据的异常分类。值得说明的是,可以根据***数据的实际情况选择识别标签的种类,而不限于是4种。
本发明实施例中,簇内被识别标签标记的历史***数据均为正常***数据,根据预先分析各种异常***数据的类型以及异常***数据的分布情况,对簇内历史***数据进行标记。对于已训练好的聚类模型,可以监测到***数据是否异常,但是无法监测到***数据的异常类型,通过最近邻算法以及设置的识别标签,可以对异常***数据的异常类型进行预测,从而使服务器在检测到异常***数据时可以输出异常***数据的异常类型,从而完成实时***数据的监测。
具体的,图5为最近邻算法中样本分布的示意图,在图5中,样本包括价格虚高标签和总额虚高标签对应的历史***数据,统计可知价格虚高标签多于总额虚高标签,因此可以输出价格虚高的监测结果。
在一实施例中,由于聚类模型训练好之后即封装,为了保证监测***数据的准确性,可以在对实时***进行预测时,进行聚类模型的更新,具体操作如下:当聚类中心的偏移量在阈值范围内时,获取实时***数据在偏移聚类模型对应的簇,统计簇内历史***数据的数目。当数目小于其他簇内历史***数据的数目的均值时,删除历史税务数据数量最多的簇中的一个历史税务数据,根据实时***数据更新聚类模型。
本发明实施例中,训练好的聚类模型包括多个簇,由于训练时历史***数据的随机性,每个簇内的历史***数据分配不均,可能导致监测不准确的问题,因此,在监测到正常的***数据时,需要判断是否可以根据正常的***数据对聚类模型进行更新。判断的条件设置为实时***数据的簇内的历史***数据是否小于其他簇内历史***数据的均值,其他簇内历史***数据的均值指的是其他簇内历史***数据求和后再根据其他簇的个数取均值。为了保证聚类模型中历史***数据个数的不变,可以将历史***数据最多的簇中选择删除一个历史***数据,从而在进行监测时,不改变计算的复杂程度。
在一具体实施例中,服务器中预先训练多个企业多个商品的聚类模型,建立企业-商品名称-商品型号的索引,在接收到待监测***数据时,读取***数据中的纳税人字段、商品名称字段和商品型号字段检索到对应的聚类模型,提取***数据中的特征参数点,然后拷贝一个虚拟聚类模型,将特征参数点输入虚拟聚类模型中,然后进行迭代计算,当虚拟聚类模型稳定后,检测当前的聚类中心,获取当前的聚类中心和聚类模型的聚类中心的偏移量,当偏移量超过阈值时,选定最近邻算法进行***数据类型的判断,确定最近邻算法的样本大小,从而虚拟聚类模型中选择对应数目的历史***数据的特征参数点作为样本,从而通过样本所属的识别标签输出对待监测***数据的监测结果。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种企业***数据监测装置,包括:数据采集模块602、偏移计算模块604、样本选择模块606和监测模块608,其中:
数据采集模块602,用于获取待监测的实时***数据。
偏移计算模块604,用于将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量。
样本选择模块606,用于当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本。
监测模块608,用于根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
上述企业***数据监测装置中,通过数据采集模块602获取待监测的实时***数据,偏移计算模块604将实时***数据输入预先训练的聚类模型,检测聚类模型的聚类中心的偏移量,当聚类中心的偏移量超过阈值范围时,样本选择模块606获取聚类模型中与实时***数据距离最近的多个历史***数据作为最近邻算法的样本,监测模块608根据最近邻算法以及样本所属的识别标签,得到实时***数据的监测结果。本发明实施例,通过预先训练的聚类模型,能够精确的识别***数据中异常开票、虚假开票的情况,然后通过最近邻算法确定异常***的异常类型,从而在接收到待监测的实时***数据时,能够提高识别异常***数据的异常类型的准确性。
在其中一个实施例中,还包括模型训练模块,用于获取用于训练聚类模型的历史***数据;提取历史***数据中的第一特征参数点,选择多个第一特征参数点作为初始聚类中心;根据所述初始聚类中心以及所述第一特征参数点进行聚类训练,得到聚类模型。
在其中一个实施例中,偏移计算模块604用于提取所述实时***数据中的第二特征参数点,将所述第二特征参数点输入所述聚类模型;根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练,得到偏移聚类模型;获取所述偏移聚类模型的偏移聚类中心,根据所述偏移聚类中心和所述聚类中心位置的偏移距离,得到所述聚类模型的聚类中心的偏移量。
在其中一个实施例中,样本选择模块606还用于计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离;获取距离最近的多个历史***数据作为最近邻算法的样本。
在其中一个实施例中,模型训练模块,还用于获取历史***数据中商品名称字段值以及规格型号字段值均相同的商品历史***数据;提取商品历史***数据中的合计金额字段值以及商品单价字段值,根据所述合计金额字段值以及所述商品单价字段值,得到第一特征参数点。
在其中一个实施例中,识别标签包括:价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签,监测模块608还用于统计所述样本的识别标签中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数量,确定价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签中数量最多的样本的识别标签为所述实时***数据的监测结果。
在其中一个实施例中,还包括更新模块,用于当聚类中心的偏移量在阈值范围内时,获取所述实时***数据在所述偏移聚类模型对应的簇,统计簇内历史***数据的数目;当所述数目小于其他簇内历史***数据的数目的均值时,删除历史***数据数量最多的簇中的一个历史***数据,根据所述实时***数据更新所述聚类模型。
关于企业***数据监测装置的具体限定可以参见上文中对于企业***数据监测方法的限定,在此不再赘述。上述企业***数据监测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储企业***数据监测的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业***数据监测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待监测的实时***数据。
将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量。
当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本。
根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待监测的实时***数据。
将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量。
当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本。
根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种企业***数据监测方法,所述方法包括:
获取待监测的实时***数据;
将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;
当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本;
根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于训练聚类模型的历史***数据;
提取历史***数据中的第一特征参数点,选择多个第一特征参数点作为初始聚类中心;
根据所述初始聚类中心以及所述第一特征参数点进行聚类训练,得到聚类模型。
3.根据权利要求2所述的方法,其特征在于,将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量,包括:
提取所述实时***数据中的第二特征参数点,将所述第二特征参数点输入所述聚类模型;
根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练,得到偏移聚类模型;
获取所述偏移聚类模型的偏移聚类中心,根据所述偏移聚类中心和所述聚类中心位置的偏移距离,得到所述聚类模型的聚类中心的偏移量。
4.根据权利要求3所述的方法,其特征在于,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本,包括:
计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离;
获取距离最近的多个历史***数据作为最近邻算法的样本。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述提取历史***数据中的第一特征参数点,包括:
获取历史***数据中商品名称字段值以及规格型号字段值均相同的商品历史***数据;
提取商品历史***数据中的合计金额字段值以及商品单价字段值,根据所述合计金额字段值以及所述商品单价字段值,得到第一特征参数点。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述识别标签包括:价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签;
根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果,包括:
统计所述样本的识别标签中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数量,确定价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签中数量最多的样本的识别标签为所述实时***数据的监测结果。
7.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
当聚类中心的偏移量在阈值范围内时,获取所述实时***数据在所述偏移聚类模型对应的簇,统计簇内历史***数据的数目;
当所述数目小于其他簇内历史***数据的数目的均值时,删除历史***数据数量最多的簇中的一个历史***数据,根据所述实时***数据更新所述聚类模型。
8.一种企业***数据监测装置,其特征在于,所述装置包括:
数据采集模块,用于获取待监测的实时***数据;
偏移计算模块,用于将所述实时***数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;
样本选择模块,用于当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时***数据距离最近的多个历史***数据作为最近邻算法的样本;
监测模块,用于根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时***数据的监测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201811122776.5A 2018-09-26 2018-09-26 企业***数据监测方法、装置、计算机设备和存储介质 Pending CN109299259A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811122776.5A CN109299259A (zh) 2018-09-26 2018-09-26 企业***数据监测方法、装置、计算机设备和存储介质
PCT/CN2019/070119 WO2020062702A1 (zh) 2018-09-26 2019-01-02 短信发送的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811122776.5A CN109299259A (zh) 2018-09-26 2018-09-26 企业***数据监测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109299259A true CN109299259A (zh) 2019-02-01

Family

ID=65164262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811122776.5A Pending CN109299259A (zh) 2018-09-26 2018-09-26 企业***数据监测方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN109299259A (zh)
WO (1) WO2020062702A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084620A (zh) * 2019-04-16 2019-08-02 上海交通大学 基于深度学习的电子凭据高频异常开具检测***及方法
CN110473034A (zh) * 2019-08-22 2019-11-19 携程旅游网络技术(上海)有限公司 电子***的红冲方法、***、电子设备和介质
CN111027607A (zh) * 2019-11-29 2020-04-17 泰康保险集团股份有限公司 无监督高维数据特征重要性评估与选择的方法及装置
CN111126966A (zh) * 2019-12-25 2020-05-08 卓尔智联(武汉)研究院有限公司 票据审核方法、装置、计算机设备和计算机可读存储介质
CN113313213A (zh) * 2021-07-28 2021-08-27 中国航空油料集团有限公司 一种加速目标检测算法训练的数据集处理方法
CN114115719A (zh) * 2021-08-24 2022-03-01 深圳市木浪云科技有限公司 基于io模式识别的io批量处理方法、装置及存储介质
CN116360956A (zh) * 2023-06-02 2023-06-30 济南大陆机电股份有限公司 用于大数据任务调度的数据智能处理方法及***
CN116561693A (zh) * 2023-05-26 2023-08-08 工业富联(佛山)产业示范基地有限公司 注塑机异常确定方法、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244824B (zh) * 2021-11-25 2024-05-03 国家计算机网络与信息安全管理中心河北分中心 一种网络空间WEB类资产风险Server同性快速识别的方法
CN114494747A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 模型的训练方法、图像处理方法、装置、电子设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039970A (ja) * 2004-07-27 2006-02-09 Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho 高次元データを塊に分割する装置
EP2840542A2 (en) * 2013-08-19 2015-02-25 Compass Plus (GB) Limited Method and system for detection of fraudulent transactions
US9336484B1 (en) * 2011-09-26 2016-05-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System and method for outlier detection via estimating clusters
CN106874923A (zh) * 2015-12-14 2017-06-20 阿里巴巴集团控股有限公司 一种商品的风格分类确定方法及装置
CN107133833A (zh) * 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 异常交易识别方法及装置
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107358519A (zh) * 2017-05-18 2017-11-17 新疆航天信息有限公司 ***监控方法及***
CN108268898A (zh) * 2018-01-19 2018-07-10 大象慧云信息技术有限公司 一种基于K-Means的电子***用户聚类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039970A (ja) * 2004-07-27 2006-02-09 Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho 高次元データを塊に分割する装置
US9336484B1 (en) * 2011-09-26 2016-05-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System and method for outlier detection via estimating clusters
EP2840542A2 (en) * 2013-08-19 2015-02-25 Compass Plus (GB) Limited Method and system for detection of fraudulent transactions
CN106874923A (zh) * 2015-12-14 2017-06-20 阿里巴巴集团控股有限公司 一种商品的风格分类确定方法及装置
CN107133833A (zh) * 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 异常交易识别方法及装置
CN107358519A (zh) * 2017-05-18 2017-11-17 新疆航天信息有限公司 ***监控方法及***
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN108268898A (zh) * 2018-01-19 2018-07-10 大象慧云信息技术有限公司 一种基于K-Means的电子***用户聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHIN 等: "Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents", 《JOURNAL OF KOREA MULTIMEDIA SOCIETY멀티미디어학회논문지》, 1 January 2010 (2010-01-01), pages 1786 - 1797 *
吴超;罗;: "基于随机森林的偷漏税行为自动识别", 软件导刊, no. 08, 15 August 2018 (2018-08-15), pages 17 - 20 *
周国兵 等: "一种基于近邻表示的聚类方法", 《软件学报》, 19 August 2016 (2016-08-19), pages 2847 - 2855 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084620A (zh) * 2019-04-16 2019-08-02 上海交通大学 基于深度学习的电子凭据高频异常开具检测***及方法
CN110084620B (zh) * 2019-04-16 2022-08-12 上海交通大学 基于深度学习的电子凭据高频异常开具检测***及方法
CN110473034A (zh) * 2019-08-22 2019-11-19 携程旅游网络技术(上海)有限公司 电子***的红冲方法、***、电子设备和介质
CN111027607A (zh) * 2019-11-29 2020-04-17 泰康保险集团股份有限公司 无监督高维数据特征重要性评估与选择的方法及装置
CN111027607B (zh) * 2019-11-29 2023-10-17 泰康保险集团股份有限公司 无监督高维数据特征重要性评估与选择的方法及装置
CN111126966A (zh) * 2019-12-25 2020-05-08 卓尔智联(武汉)研究院有限公司 票据审核方法、装置、计算机设备和计算机可读存储介质
CN113313213A (zh) * 2021-07-28 2021-08-27 中国航空油料集团有限公司 一种加速目标检测算法训练的数据集处理方法
CN113313213B (zh) * 2021-07-28 2021-11-19 中国航空油料集团有限公司 一种加速目标检测算法训练的数据集处理方法
CN114115719A (zh) * 2021-08-24 2022-03-01 深圳市木浪云科技有限公司 基于io模式识别的io批量处理方法、装置及存储介质
CN116561693A (zh) * 2023-05-26 2023-08-08 工业富联(佛山)产业示范基地有限公司 注塑机异常确定方法、电子设备及存储介质
CN116360956A (zh) * 2023-06-02 2023-06-30 济南大陆机电股份有限公司 用于大数据任务调度的数据智能处理方法及***
CN116360956B (zh) * 2023-06-02 2023-08-08 济南大陆机电股份有限公司 用于大数据任务调度的数据智能处理方法及***

Also Published As

Publication number Publication date
WO2020062702A9 (zh) 2020-11-26
WO2020062702A8 (zh) 2020-12-30
WO2020062702A1 (zh) 2020-04-02

Similar Documents

Publication Publication Date Title
CN109299259A (zh) 企业***数据监测方法、装置、计算机设备和存储介质
CN108256898B (zh) 一种产品销量预测方法、***及存储介质
CN105051729A (zh) 数据记录的选择
CN109409641A (zh) 风险评价方法、装置、计算机设备和存储介质
CN113010389A (zh) 一种训练方法、故障预测方法、相关装置及设备
CN108765094A (zh) 保险数据处理方法、装置、计算机设备和存储介质
CN109583682A (zh) 企业财务造假风险的识别方法、装置以及计算机设备
CN110188036A (zh) 一种软件测试方法及装置
CN113127563A (zh) 一种基于区块链的智能零售管理方法及***
CN117807377B (zh) 多维度物流数据挖掘与预测方法及***
Sharma et al. Valuation of inter-boundary inefficiencies accounting IoT based monitoring system in processed food supply chain
Döhmen et al. Towards a benchmark for the maintainability evolution of industrial software systems
CN116610821A (zh) 一种基于知识图谱的企业风险分析方法、***和存储介质
CN109829745A (zh) 营收数据预测方法、装置、计算机设备和存储介质
CN109767031A (zh) 模型分类器建立方法、装置、计算机设备和存储介质
CN112132498A (zh) 库存管理方法、装置、设备及存储介质
CN109767263A (zh) 营收数据预测方法、装置、计算机设备和存储介质
CN111179077B (zh) 股票异常交易的识别方法及***
Tian et al. Analyzing and improving reliability: A tree-based approach
Hewage et al. Retail Sales Forecasting in the Presence of Promotional Periods
CN112633936A (zh) 一种供应商隐藏费用预测方法、装置、服务器及存储介质
CN109697528A (zh) 营收数据预测方法、装置、计算机设备和存储介质
CN113689020A (zh) 业务信息预测方法、装置、计算机设备和存储介质
CN117974215B (zh) 基于XGBoost模型的加氢销量预测方法及存储介质
Zarmehri et al. Improving data mining results by taking advantage of the data warehouse dimensions: a case study in outlier detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination