CN117520410A - 业务数据处理方法、装置、电子设备和计算机可读介质 - Google Patents

业务数据处理方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN117520410A
CN117520410A CN202311453968.5A CN202311453968A CN117520410A CN 117520410 A CN117520410 A CN 117520410A CN 202311453968 A CN202311453968 A CN 202311453968A CN 117520410 A CN117520410 A CN 117520410A
Authority
CN
China
Prior art keywords
monitored
service data
data
updated
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311453968.5A
Other languages
English (en)
Inventor
胡江南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fusionskye Beijing Software Co ltd
Original Assignee
Fusionskye Beijing Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fusionskye Beijing Software Co ltd filed Critical Fusionskye Beijing Software Co ltd
Priority to CN202311453968.5A priority Critical patent/CN117520410A/zh
Publication of CN117520410A publication Critical patent/CN117520410A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开的实施例公开了业务数据处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:接收待监控业务数据集合;对初始位图数组进行数组值更新,得到更新后位图数组;确定目标数量;生成更新后待监控业务数据序列;生成待监控业务数据特征集合;对更新后待监控业务数据序列进行异常检测,得到异常数据集合;对异常数据集合进行数据修复,得到修复后数据集合;根据修复后数据集合和更新后待监控业务数据序列,生成处理后待监控业务数据序列。该实施方式实现了对缺失业务数据的有效检测,避免了因直接对下属机构报送的业务数据进行存储所导致的业务数据不连续的问题,侧面降低了后续针对业务数据的数据检索成本。

Description

业务数据处理方法、装置、电子设备和计算机可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及业务数据处理方法、装置、电子设备和计算机可读介质。
背景技术
随着计算机相关技术的发展,数据电子化得以广泛的推广和应用。与此同时,随着下属机构和下属机构产生的实时业务数据的增加,如何实现针对海量业务数据高效利用变得尤为重要,目前,在对业务数据处理时,通常采用的方式为:直接对下属机构报送的业务数据进行存储。
然而,发明人发现,当采用上述方式时,经常会存在如下技术问题:
第一,针对时序性的业务数据往往依据时序性进行入库存储,而直接对下属机构报送的业务数据进行存储,难以对缺失的业务数据进行有效检测,从而可能导致业务数据不连续的问题,增加了后续针对业务数据的数据检索成本;
第二,大批量的业务数据往往包含噪声和异常值,这些噪声和异常值可能会干扰针对异常数据检测的检测性能,从而导致无法准确地对异常业务数据进行有效检测和数据修复;
第三,大批量的业务数据对应的全局特征可能受到整体数据分布的影响,同时大批量的业务数据对应的局部特征可能受到噪声或局部变化的干扰,因此单一的特征处理方式,可能导致难以准确地进行物品流转量预测,从而可能导致无法对异常业务数据进行有效且准确地数据修复。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了业务数据处理方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种业务数据处理的方法,该方法包括:接收待监控业务数据集合,其中,上述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据;根据上述待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组;根据上述更新后位图数组,确定目标数量,其中,上述目标数量表征上述更新后位图数组中满足第一筛选条件的数组值的个数;响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,根据上述待监控业务数据集合,生成更新后待监控业务数据序列,其中,上述目标待监控业务数据是上述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据;根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合;通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合;基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合;根据上述修复后数据集合和上述更新后待监控业务数据序列,生成处理后待监控业务数据序列。
第二方面,本公开的一些实施例提供了一种业务数据处理装置,装置包括:接收单元,被配置成接收待监控业务数据集合,其中,上述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据;更新单元,被配置成根据上述待监控业务数据集合中的待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组;确定单元,被配置成根据上述更新后位图数组,确定目标数量,其中,上述目标数量表征上述更新后位图数组中满足第一筛选条件的数组值的个数;第一生成单元,被配置成响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,根据上述待监控业务数据集合,生成更新后待监控业务数据序列,其中,上述目标待监控业务数据是上述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据;第二生成单元,被配置成根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合;异常检测单元,被配置成通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合;数据修复单元,被配置成基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合;第三生成单元,被配置成根据上述修复后数据集合和上述更新后待监控业务数据序列,生成处理后待监控业务数据序列。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的业务数据处理方法,实现了对缺失的业务数据的有效检测,避免了因直接对下属机构报送的业务数据进行存储所导致的业务数据不连续的问题,侧面降低了后续针对业务数据的数据检索成本。具体来说,增加后续针对业务数据的数据检索成本的原因在于:针对时序性的业务数据往往依据时序性进行入库存储,而直接对下属机构报送的业务数据进行存储,难以对缺失的业务数据进行有效检测,从而可能导致业务数据不连续的问题,增加了后续针对业务数据的数据检索成本。基于此,本公开的一些实施例的业务数据处理方法,首先,接收待监控业务数据集合,其中,上述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据。其次,根据上述待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组。针对大批量的业务数据,本公开通过将业务数据转化为二进制数组以供后续判断业务数据是否连续,相较于遍历的方式,有效地提高了运算效率,大大减少了计算资源的消耗。例如,采用整型(int)存储遍历标识的方式,针对上亿级别的业务数据,往往需要消耗近百兆的内存资源,同时遍历过程中产生的中间数据也会消耗大量的存储资源(如,内存或外存等)。接着,根据上述更新后位图数组,确定目标数量,其中,上述目标数量表征上述更新后位图数组中满足第一筛选条件的数组值的个数,从得到的目标数量进行判断,数据是否连续。然后,响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,根据上述待监控业务数据集合,生成更新后待监控业务数据序列,其中,上述目标待监控业务数据是上述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据,由于时序性的业务数据往往依据时序性进行入库存储,因此当数据不连续时,会影响后续数据处理。例如,业务数据主键不连续时,需要额外设计相应的数据查找语句,侧面增加数据的检索成本等。因此,本公开通过生成连续的更新后待监控业务数据序列,可以避免因数据不连续而造成的后续针对业务数据的数据检索成本增加的问题。进一步,根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合,以此得到针对待监控业务数据的数据特征,以供后续对异常数据进行修复。此外,通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合。然后,基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合。以此实现了针对异常业务数据的数据修复。最后,根据上述修复后数据集合和上述更新后待监控业务数据序列,生成处理后待监控业务数据序列。通过此种方式,避免了因直接对下属机构报送的业务数据进行存储所导致的业务数据不连续的问题,保证了业务数据的数据连续性,侧面降低了后续针对业务数据的数据检索成本。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的业务数据处理方法的一些实施例的流程图;
图2是根据本公开的业务数据处理装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
参考图1,示出了根据本公开的业务数据处理方法的一些实施例的流程100。该业务数据处理方法,包括以下步骤:
步骤101,接收待监控业务数据集合。
在一些实施例中,业务数据处理方法的执行主体(例如,计算设备)可以通过有线连接,或无线连接的方式,接收待监控业务数据集合,其中,上述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据。其中,下属机构是提供待监控业务数据的机构。实践中,下属机构可以是证券交易所。标识信息是用于唯一识别待监控业务数据的信息。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
需要说明的是,上述计算设备可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。应该理解,计算设备的数目根据实现需要,可以具有任意数目。
步骤102,根据待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组。
在一些实施例中,上述执行主体可以根据上述待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组。其中,上述初始位图数组是初始化的、由二进制位组成的数组。
作为示例,上述执行主体可以根据上述待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值赋值,得到更新后位图数组。
在一些实施例的一些可选的实现方式中,上述执行主体根据上述待监控业务数据集合中各个待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组,可以包括以下步骤:
对于上述待监控业务数据集合中每个待监控业务数据,将上述初始位图数组中与上述待监控业务数据对应的标识信息匹配的数组值更新为上述更新后位图数组中的预设数组值。
其中,数组值为初始位图数组中的值。实践中,数组值为二进制数值。其中,预设数组值可以为“1”。
实践中,上述执行主体将与上述待监控业务数据对应的标识信息相同的信息索引所对应的初始位图数组的数组值更新为上述更新后位图数组中的预设数组值。
作为示例,上述待监控业务数据对应的标识信息可以是“2”,因此,上述执行主体可以将上述初始位图数组中信息索引“2”对应的数组值更新为“1”。
步骤103,根据更新后位图数组,确定目标数量。
在一些实施例中,上述执行主体可以根据上述更新后位图数组,确定目标数量,其中,上述目标数量表征上述更新后位图数组中满足第一筛选条件的数组值的个数。其中,上述第一筛选条件为“数组值为‘1’”。
实践中,上述执行主体可以对上述更新后位图数组进行遍历,以确定满足第一筛选条件的数组值的个数。
作为示例,上述待监控业务数据集合对应的标识信息集合为“{2,4,7,10,3,5,6,1}”,更新后位图数组可以是“{1,1,1,1,1,1,1,0,0,1,0,0}”。因此,目标数量可以是“8”。
步骤104,响应于确定目标数量小于目标待监控业务数据对应的标识信息,根据待监控业务数据集合,生成更新后待监控业务数据序列。
在一些实施例中,响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,上述执行主体可以根据上述待监控业务数据集合,生成更新后待监控业务数据序列,其中,上述目标待监控业务数据是上述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据。其中,上述第二筛选条件为:上述目标待监控业务数据与上述待监控业务数据集合中对应标识信息最大的待监控业务数据相同。
实践中,响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,上述执行主体可以通过对待监控业务数据集合进行遍历,以生成更新后待监控业务数据序列。
作为示例,上述待监控业务数据集合对应的标识信息集合为“{2,4,7,10,3,5,6,1}”,更新后位图数组可以是“{1,1,1,1,1,1,1,0,0,1,0,0}”,目标数量可以是“8”,目标待监控业务数据对应的标识信息可以是“10”,待监控业务数据集合可以是“
{id=2:2,200,97,55,44;
id=4:10,1000,82,55,11;
id=7:8,800,53,66,66;
id=10:2,200,43,66,66;
id=3:5,500,92,66,33;
id=5:12,1200,86,66,880000;
id=6:15,1500,61,55,44;
id=1:1,100,99,55,66;}”。因此,上述更新后待监控业务数据序列可以是“
{id=1:1,100,99,55,66;
id=2:2,200,97,55,44;
id=3:5,500,92,66,33;
id=4:10,1000,82,55,11;
id=5:12,1200,86,66,880000;
id=6:15,1500,61,55,44;
id=7:8,800,53,66,66;
id=8:3,300,50,55,55;
id=9:5,500,45,88,99;
id=10:2,200,43,66,66;
id=11:3,300,40,45,46;
id=12:10,1000,40,48,66;}”。其中,“id”表示标识信息。
在一些实施例的一些可选的实现方式中,上述执行主体根据上述待监控业务数据集合,生成更新后待监控业务数据序列,可以包括以下步骤:
第一步,对上述待监控业务数据集合中的各个待监控业务数据进行排序,得到排序后待监控业务数据序列。
实践中,上述执行主体可以根据上述待监控业务数据集合中的各个待监控业务数据对应的标识信息集合,对上述待监控业务数据集合进行冒泡排序,得到排序后待监控业务数据序列。
作为示例,待监控业务数据集合可以是“
{id=2:2,200,97,55,44;
id=4:10,1000,82,55,11;
id=7:8,800,53,66,66;
id=10:2,200,43,66,66;
id=3:5,500,92,66,33;
id=5:12,1200,86,66,880000;
id=6:15,1500,61,55,44;
id=1:1,100,99,55,66;}”。排序后待监控业务数据序列可以是“{id=1:1,100,99,55,66;
id=2:2,200,97,55,44;
id=3:5,500,92,66,33;
id=4:10,1000,82,55,11;
id=5:12,1200,86,66,880000;
id=6:15,1500,61,55,44;
id=7:8,800,53,66,66;
id=10:2,200,43,66,66;}”。
第二步,基于上述排序后待监控业务数据序列,确认异常标识信息序列。
其中,上述异常标识信息序列中的异常标识信息是待监控业务数据集合中缺失的、需要下属机构再次报送的待监控业务数据对应的标识信息。
实践中,首先,上述执行主体可以创建包含1到12的完整序列,作为初始数值序列。最后,对于上述初始数值序列中的每个初始数值,当上述排序后待监控业务数据序列对应的标识信息序列中不存在上述初始数值,上述执行主体将上述初始数值确定为上述异常标识信息序列中的异常标识信息。
作为示例,初始数值序列可以是“{1,2,3,4,5,6,7,8,9,10,11,12}”,上述排序后待监控业务数据序列对应的标识信息序列可以是“{1,2,3,4,5,6,7,10}”。因此,异常标识信息序列可以是“{8,9,11,12}”。
第三步,将上述异常标识信息序列发送至上述下属机构,以供上述下属机构根据上述异常标识信息序列进行数据补送。
实践中,上述执行主体可以通过有线连接,或无线连接的方式,将上述异常标识信息序列发送至上述下属机构。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
第四步,响应于接收到上述下属机构上传的、针对上述异常标识信息序列的候补待监控业务数据序列,对上述排序后待监控业务数据序列和上述候补待监控业务数据序列进行拼接,得到拼接后待监控业务数据序列。
作为示例,排序后待监控业务数据序列可以是“{id=1:1,100,99,55,66;
id=2:2,200,97,55,44;
id=3:5,500,92,66,33;
id=4:10,1000,82,55,11;
id=5:12,1200,86,66,880000;
id=6:15,1500,61,55,44;
id=7:8,800,53,66,66;
id=10:2,200,43,66,66;}”。候补待监控业务数据序列可以是“{id=8:3,300,50,55,55;
id=9:5,500,45,88,99;
id=11:3,300,40,45,46;
id=12:10,1000,40,48,66;}”。因此,拼接后待监控业务数据序列可以是“{id=1:1,100,99,55,66;
id=2:2,200,97,55,44;
id=3:5,500,92,66,33;
id=4:10,1000,82,55,11;
id=5:12,1200,86,66,880000;
id=6:15,1500,61,55,44;
id=7:8,800,53,66,66;
id=10:2,200,43,66,66;
id=8:3,300,50,55,55;
id=9:5,500,45,88,99;
id=11:3,300,40,45,46;
id=12:10,1000,40,48,66;}”。
第五步,对上述拼接后待监控业务数据序列进行排序,得到上述更新后待监控业务数据序列。
实践中,上述执行主体可以根据上述拼接后待监控业务数据序列对应的标识信息集合,对上述拼接后待监控业务数据序列进行选择排序,得到上述更新后待监控业务数据序列。
步骤105,根据预先训练的数据特征提取模型和更新后待监控业务数据序列,生成待监控业务数据特征集合。
在一些实施例中,上述执行主体可以根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合。其中,上述数据特征提取模型是用于对上述更新后待监控业务数据序列进行特征提取的模型。实践中,数据特征提取模型可以是卷积神经网络模型。
实践中,上述执行主体可以将上述更新后待监控业务数据序列作为上述数据特征提取模型的输入,以生成待监控业务数据特征集合。
可选地,上述更新后待监控业务数据序列中的更新后待监控业务数据包括:历史虚拟物品价值和历史虚拟物品流转量,上述数据特征提取模型包括:历史虚拟物品价值特征提取模型、历史虚拟物品流转量数特征提取模型和特征融合模型。其中,上述历史虚拟物品价值可以为虚拟物品对应的历史价值。例如,上述历史虚拟物品价值可以为历史股票价格。上述历史虚拟物品流转量可以为虚拟物品对应的历史流转量。例如,上述历史虚拟物品流转量可以为历史股票交易量。
在一些实施例的一些可选的实现方式中,上述执行主体根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合,可以包括以下步骤:
第一步,对上述更新后待监控业务数据序列中的各个更新后待监控业务数据包括的历史虚拟物品价值进行数据平滑处理,得到平滑处理后历史虚拟物品价值序列。
实践中,上述执行主体可以使用移动平均技术对上述更新后待监控业务数据序列中的各个更新后待监控业务数据包括的历史虚拟物品价值进行数据平滑处理,得到平滑处理后历史虚拟物品价值序列。
第二步,对上述更新后待监控业务数据序列中的各个更新后待监控业务数据包括的历史虚拟物品流转量进行数据转换处理,得到数据转化后历史虚拟物品流转量序列。
实践中,上述执行主体可以通过对上述更新后待监控业务数据序列中的各个更新后待监控业务数据包括的历史虚拟物品流转量进行对数变换处理,得到平滑处理后历史虚拟物品价值序列。
第三步,将上述平滑处理后历史虚拟物品价值序列输入上述历史虚拟物品价值特征提取模型,以生成第一数据特征。
其中,上述历史虚拟物品价值特征提取模型是用于对上述平滑处理后历史虚拟物品价值序列进行特征提取的模型。实践中,上述历史虚拟物品价值特征提取模型可以是包括至少一个卷积层,其中,至少一个卷积层中的卷积层串行连接。
第四步,通过上述历史虚拟物品流转量数特征提取模型,对上述数据转化后历史虚拟物品流转量序列进行数据特征提取,以生成第二数据特征,其中,上述第一数据特征和上述第二数据特征均为时序特征。
其中,上述历史虚拟物品流转量特征提取模型是用于对上述数据转化后历史虚拟物品流转量序列进行特征提取的模型。实践中,上述历史虚拟物品流转量数特征提取模型的模型结构可以和上述历史虚拟物品价值特征提取模型的模型结构一致。
第五步,将上述第一数据特征和上述第二数据特征输入上述特征融合模型,以生成上述待监控业务数据特征集合。
其中,上述特征融合模型是用于将历史虚拟物品价值特征提取模型提取得到的第一数据特征,和历史虚拟物品流转量提取得到的第二数据特征进行特征融合的模型。其中,上述特征融合模型包括:特征拼接层。其中,上述执行主体可以通过特征拼接层对第一数据特征和第二数据特征进行特征拼接,得到上述待监控业务数据特征集合。
步骤106,通过预先训练的异常数据检测模型,对更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合。
在一些实施例中,上述执行主体可以通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合。其中,异常数据表征更新后待监控业务数据序列中数据异常的、更新后待监控业务数据。异常数据集合中的异常数据的数量小于等于更新后待监控业务数据序列中的更新后待监控业务数据的数量。实践中,上述执行主体将上述更新后待监控业务数据序列中的每个更新后待监控业务数据输入上述预先训练的异常数据检测模型,以生成异常数据,得到异常数据集合。
可选地,上述异常数据检测模型包括:数值型数据异常检测模型和离散性数据异常检测模型,上述异常数据集合中的异常数据包括:异常历史虚拟物品价值和异常历史虚拟物品流转量。其中,数值型数据异常检测模型是以上述二次清洗后待监控业务数据为输入,以上述更新后待监控业务数据对应的异常数据包括的异常历史虚拟物品价值为输出的模型。离散性数据异常检测模型是以上述二次清洗后待监控业务数据为输入,以上述更新后待监控业务数据对应的异常数据包括的异常历史虚拟物品流转量为输出的模型。实践中,数值型数据异常检测模型和离散性数据异常检测模型均可以是时间序列模型。例如,数值型数据异常检测模型和离散性数据异常检测模型均可以是ARIMA(自回归综合移动平均模型,Autoregressive Integrated Moving Average)模型。
在一些实施例的一些可选的实现方式中,上述执行主体通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,可以包括以下步骤:
第一步,对上述更新后待监控业务数据包括的历史虚拟物品价值进行第一数据清洗处理,得到清洗后待监控业务数据。
实践中,上述执行主体可以通过对上述更新后待监控业务数据包括的历史虚拟物品价值进行归一化处理,得到清洗后待监控业务数据。
第二步,对上述清洗后待监控业务数据包括的历史虚拟物品流转量进行第二数据清洗处理,得到二次清洗后待监控业务数据。
实践中,上述执行主体可以通过对上述清洗后待监控业务数据包括的历史虚拟物品流转量进行数据转换处理,得到二次清洗后待监控业务数据。
第三步,将上述二次清洗后待监控业务数据输入上述数值型数据异常检测模型,得到上述更新后待监控业务数据对应的异常数据包括的异常历史虚拟物品价值。
第四步,通过上述离散性数据异常检测模型,对上述二次清洗后待监控业务数据进行异常数据检测,以生成上述更新后待监控业务数据对应的异常数据包括的异常历史虚拟物品流转量。
实践中,上述执行主体通过将上述二次清洗后待监控业务数据输入上述离散性数据异常检测模型来实现异常数据检测,以生成上述更新后待监控业务数据对应的异常数据包括的异常历史虚拟物品流转量。
步骤107,基于待监控业务数据特征集合,对异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合。
在一些实施例中,上述执行主体可以基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合。
实践中,首先,上述执行主体可以向下属机构发送异常数据集合,接着,上述执行主体可以接收下属机构补送的数据,最后,上述执行主体可以根据下属机构补送的数据,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合。
可选地,上述修复后数据集合中的修复后数据包括:修复后历史虚拟物品价值和修复后历史虚拟物品流转量。其中,上述修复后历史虚拟物品价值是将上述异常历史虚拟物品价值进行数据修复之后的历史虚拟物品价值。上述修复后历史虚拟物品流转量将上述异常历史虚拟物品流转量进行数据修复之后的历史虚拟物品流转量。
在一些实施例的一些可选的实现方式中,上述执行主体基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合,可以包括以下步骤:
对于上述异常数据集合中的每个异常数据,执行以下数据修复步骤:
第一步,从上述更新后待监控业务数据序列中选择对应的标识信息小于上述异常数据对应的标识信息的更新后待监控业务数据,作为候选待监控业务数据,得到候选待监控业务数据序列。
实践中,上述执行主体将上述更新后待监控业务数据序列中对应的标识信息小于上述异常数据对应的标识信息的更新后待监控业务数据确定为候选待监控业务数据,得到候选待监控业务数据序列。
作为示例,上述更新后待监控业务数据序列可以是“
{id=1:1,100,99,55,66;
id=2:2,200,97,55,44;
id=3:5,500,92,66,33;
id=4:10,1000,82,55,11;
id=5:12,1200,86,66,880000;
id=6:15,1500,61,55,44;
id=7:8,800,53,66,66;
id=8:3,300,50,55,55;
id=9:5,500,45,88,99;
id=10:2,200,43,66,66;
id=11:3,300,40,45,46;
id=12:10,1000,40,48,66;}”。上述异常数据可以是“{id=5:12,1200,86,66,880000}”。上述异常数据对应的标识信息是“5”。因此,上述待监控业务数据序列可以是“{id=1:1,100,99,55,66;
id=2:2,200,97,55,44;
id=3:5,500,92,66,33;
id=4:10,1000,82,55,11;}”。
第二步,对上述异常数据包括的异常历史虚拟物品价值,执行以下第一处理步骤:
子步骤1,对上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品价值进行聚类,得到第一聚类结果,其中,上述第一聚类结果包括至少一个第一聚类簇。
其中,上述第一聚类结果是将上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品价值进行聚类之后的结果。
实践中,上述执行主体对上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品价值进行层次聚类,得到第一聚类结果。
子步骤2,根据上述第一聚类结果,从上述至少一个第一聚类簇中选择包含上述异常数据包括的异常历史虚拟物品价值的第一聚类簇,作为筛选后待监控业务数据序列。
实践中,根据上述第一聚类结果,上述执行主体将上述至少一个第一聚类簇中包含上述异常数据包括的异常历史虚拟物品价值的第一聚类簇,确定为筛选后待监控业务数据序列。
子步骤3,根据上述筛选后待监控业务数据序列,生成第一数据矩阵。
其中,上述第一数据矩阵可以是指含有上述筛选后待监控业务数据序列和零元素的数据矩阵。
实践中,首先,上述执行主体可以将上述筛选后待监控业务数据序列剔除标识信息集合。然后,上述执行主体将得到的剔除标识信息后的筛选后待监控业务数据序列转化为矩阵。最后,上述执行主体将矩阵中需要预测的部分填充为元素“0”,得到上述第一数据矩阵。
作为示例,上述筛选后待监控业务数据序列可以是“
{id=2:2,200,97,55,44;
id=4:10,1000,82,55,11;
id=5:12,1200,86,66,880000;}”。因此,上述第一数据矩阵可以是“
[2,200,97,55,66;
10,1000,82,22,44;
12,1200,86,66,0]”。
子步骤4,将上述第一数据矩阵和上述待监控业务数据特征集合输入至预先训练的历史虚拟物品流转量预测模型,以生成上述异常数据对应的修复后数据包括的修复后历史虚拟物品流转量。
其中,上述历史虚拟物品流转量预测模型是用于根据上述第一数据矩阵和上述待监控业务数据特征集合预测历史虚拟物品流转量的模型。
可选地,上述历史虚拟物品流转量预测模型包括:历史虚拟物品流转量全局预测模型和历史虚拟物品流转量局部预测模型。其中,上述历史虚拟物品流转量全局预测模型是用于根据上述待监控业务数据特征集合对历史虚拟物品流转量进行全局预测的模型。上述历史虚拟物品流转量局部预测模型是用于根据上述第一数据矩阵,对全局预测得到的历史虚拟物品流转量进行调整的模型。实践中,上述历史虚拟物品流转量全局预测模型的网络结构可以包括:卷积层、池化层、循环层以及全连接层。上述卷积层可以对上述待监控业务数据特征集合进行卷积处理。上述卷积层可以由预设数量个的3×3的卷积核和一个ReLU激活函数组成。例如,上述预设数量可以为256。上述池化层可以对卷积层的输出进行平均池化处理。上述循环层可以是循环神经网络。例如,上述循环层可以是LSTM(长短时记忆网络,Long Short-Term Memory)层。上述全连接层可以将循环层的输出转化为上述预测历史虚拟物品流转量。上述历史虚拟物品流转量局部预测模型的模型结构可以复用历史虚拟物品流转量全局预测模型的网络结构。
在一些实施例的一些可选的实现方式中,上述执行主体将上述第一数据矩阵和上述待监控业务数据特征集合输入至预先训练的历史虚拟物品流转量预测模型,以生成上述异常数据对应的修复后数据包括的修复后历史虚拟物品流转量,可以包括以下步骤:
第一子步骤,将上述待监控业务数据特征集合输入上述历史虚拟物品流转量全局预测模型,以生成预测历史虚拟物品流转量。
第二子步骤,根据历史虚拟物品流转量局部预测模型,对上述预测历史虚拟物品流转量进行调整,得到上述异常数据对应的修复后数据包括的修复后历史虚拟物品流转量。
实践中,上述执行主体将上述预测历史虚拟物品流转量输入历史虚拟物品流转量局部预测模型来进行调整,得到上述异常数据对应的修复后数据包括的修复后历史虚拟物品流转量。
上述“在一些实施例的一些可选的实现方式中”中的内容作为本公开的一个发明点,解决了背景技术提及的技术问题三,即“大批量的业务数据对应的全局特征可能受到整体数据分布的影响,同时大批量的业务数据对应的局部特征可能受到噪声或局部变化的干扰,因此单一的特征处理方式,可能导致难以准确地进行物品流转量预测,从而可能导致无法对异常业务数据进行有效且准确地数据修复”。实践中,随着业务数据的数据量增大,针对待监控业务数据特征集合对应的业务数据进行全局特征提取,由于感受野粒度较大,导致无法关注具体的待监控业务数据特征对应的细节特征(局部特征),从而导致数据修复不够精准。针对待监控业务数据特征集合对应的业务数据进行局部特征提取,由于感受野粒度较小,导致无法关注全局的待监控业务数据特征对应的整体特征(全局特征),从而导致数据修复不够精准。基于此,本公开,首先,将上述待监控业务数据特征集合输入上述历史虚拟物品流转量全局预测模型,以生成预测历史虚拟物品流转量,以此得到全局视角下的、预测历史虚拟物品流转量。其次,根据历史虚拟物品流转量局部预测模型,对上述预测历史虚拟物品流转量进行调整,得到上述异常数据对应的修复后数据包括的修复后历史虚拟物品流转量,以此在全局视角下的、预测历史虚拟物品流转量上,结合局部特征对物品流转量的调整,得到修复后的历史虚拟物品流转量。通过全局特征和局部特征相结合的方式,实现了对异常业务数据进行有效且准确地数据修复。
第三步,对上述异常数据包括的异常历史虚拟物品流转量,执行以下第二处理步骤:
子步骤1,对上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品流转量进行聚类,得到第二聚类结果。
其中,上述第二聚类结果包括至少一个第二聚类簇。其中,上述第二聚类结果是将上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品流转量进行聚类之后的结果。
实践中,上述执行主体对上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品流转量进行层次聚类,得到第二聚类结果。
子步骤2,根据上述第二聚类结果,从上述至少一个第二聚类簇中选择包含上述异常数据包括的异常历史虚拟物品流转量的第二聚类簇,作为第二筛选后待监控业务数据序列。
实践中,根据上述第二聚类结果,上述执行主体将上述至少一个第二聚类簇中包含上述异常数据包括的异常历史虚拟物品流转量的第二聚类簇,确定为第二筛选后待监控业务数据序列。
子步骤3,根据上述第二筛选后待监控业务数据序列,生成第二数据矩阵。
其中,上述第二数据矩阵可以是指含有上述第二筛选后待监控业务数据序列和零元素的数据矩阵。
实践中,首先,上述执行主体可以将上述第二筛选后待监控业务数据序列剔除标识信息集合。然后,上述执行主体将得到的剔除标识信息后的第二筛选后待监控业务数据序列转化为矩阵。最后,上述执行主体将矩阵中需要预测的部分填充为0,得到上述第二数据矩阵。
作为示例,上述第二筛选后待监控业务数据序列可以是“{id=2:2,200,97,55,44;
id=4:10,1000,82,55,11;
id=5:12,1200000,86,6600,88;}”。因此,上述第一数据矩阵可以是“
[2,200,97,55,66;
10,1000,82,22,44;
0,0,0,0,88]”。
子步骤4,将上述第二数据矩阵和上述待监控业务数据特征集合输入至预先训练的历史虚拟物品价值预测模型,以生成上述异常数据对应的修复后数据包括的修复后历史虚拟物品价值。
其中,上述历史虚拟物品价值预测模型是用于根据上述第二数据矩阵和上述待监控业务数据特征集合预测历史虚拟物品价值的模型。实践中,上述历史虚拟物品价值预测模型的模型结构可以复用上述历史虚拟物品流转量预测模型。
上述第一步至第三步作为本公开的一个发明点,解决了背景技术提及的技术问题二,即“大批量的业务数据往往包含噪声和异常值,这些噪声和异常值可能会干扰针对异常数据检测的检测性能,从而导致无法准确地对异常业务数据进行有效检测和数据修复”。实践中,大批量的业务数据往往包含噪声和异常值,这些噪声和异常值可能干扰异常检测算法的性能,导致异常检测的准确度降低,从而导致无法准确地对异常业务数据进行有效检测和数据修复。基于此,首先,本公开从上述更新后待监控业务数据序列中选择对应的标识信息小于上述异常数据对应的标识信息的更新后待监控业务数据,作为候选待监控业务数据,得到候选待监控业务数据序列。因为业务数据为时序性数据,而历史的时序数据会对当前的时序数据产生影响,因此,本公开通过选择对应的标识信息小于上述异常数据对应的标识信息的更新后待监控业务数据,作为候选待监控业务数据,可以筛选出历史的待监控业务数据。其次,由于异常历史虚拟物品价值和异常历史虚拟物品流转量表征不同的数据含义,采用合并聚类的方式无法有效地对异常值和噪声进行有效识别,因此,本公开对异常历史虚拟物品流转量和异常历史虚拟物品价值分别采取相应的聚类步骤。具体如下:对上述异常数据包括的异常历史虚拟物品价值,执行以下第一处理步骤:第一步,对上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品价值进行聚类,得到第一聚类结果,其中,上述第一聚类结果包括至少一个第一聚类簇。第二步,根据上述第一聚类结果,从上述至少一个第一聚类簇中选择包含上述异常数据包括的异常历史虚拟物品价值的第一聚类簇,作为筛选后待监控业务数据序列。实践中,噪声或异常值往往具有离群的数据特点,同时,聚类能够实现对相似数据特征的待监控业务数据的聚合,因此,通过对候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品价值进行聚类,并结合生成的第一聚类结果,可以实现对离群的异常值和噪声(例如,筛选后待监控业务数据序列)的识别。第三步,根据上述筛选后待监控业务数据序列,生成第一数据矩阵。通过将筛选后待监控业务数据序列转换为第一数据矩阵,以此使得将筛选后待监控业务数据序列转换为历史虚拟物品流转量预测模型的模型输入格式。第四步,将上述第一数据矩阵和上述待监控业务数据特征集合输入至预先训练的历史虚拟物品流转量预测模型,以生成上述异常数据对应的修复后数据包括的修复后历史虚拟物品流转量。以此实现了针对异常的异常历史虚拟物品流转量的数据修复。对上述异常数据包括的异常历史虚拟物品流转量,执行以下第二处理步骤:第一步,对上述候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品流转量进行聚类,得到第二聚类结果,其中,上述第二聚类结果包括至少一个第二聚类簇。第二步,根据上述第二聚类结果,从上述至少一个第二聚类簇中选择包含上述异常数据包括的异常历史虚拟物品流转量的第二聚类簇,作为第二筛选后待监控业务数据序列。实践中,噪声或异常值往往具有离群的数据特点,同时,聚类能够实现对相似数据特征的待监控业务数据的聚合,因此,通过对候选待监控业务数据序列和上述异常数据包括的异常历史虚拟物品流转量进行聚类,并结合生成的第二聚类结果,可以实现对离群的异常值和噪声(例如,第二筛选后待监控业务数据序列)的识别。第三步,根据上述第二筛选后待监控业务数据序列,生成第二数据矩阵。通过将第二筛选后待监控业务数据序列转换为第二数据矩阵,以此使得将第二筛选后待监控业务数据序列转换为历史虚拟物品价值预测模型的模型输入格式。第四步,将上述第二数据矩阵和上述待监控业务数据特征集合输入至预先训练的历史虚拟物品价值预测模型,以生成上述异常数据对应的修复后数据包括的修复后历史虚拟物品价值。以此实现了针对异常的异常历史虚拟物品价值的数据修复。通过此种方式,避免了大批量的业务数据包含的噪声和异常值对异常数据检测的干扰,实现了对异常业务数据进行有效且准确地数据修复。
步骤108,根据修复后数据集合和更新后待监控业务数据序列,生成处理后待监控业务数据序列。
在一些实施例中,上述执行主体可以根据上述修复后数据集合和上述更新后待监控业务数据序列,生成处理后待监控业务数据序列。
实践中,首先,上述执行主体将上述修复后数据集合和上述更新后待监控业务数据序列进行拼接,得到拼接后待监控业务数据集合,最后,上述执行主体根据上述拼接后待监控业务数据集合中各个拼接后待监控业务数据对应的标识信息集合,对上述拼接后待监控业务数据集合进行快速排序,得到上述处理后待监控业务数据序列。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的业务数据处理方法,实现了对缺失的业务数据的有效检测,避免了因直接对下属机构报送的业务数据进行存储所导致的业务数据不连续的问题,侧面降低了后续针对业务数据的数据检索成本。具体来说,增加后续针对业务数据的数据检索成本的原因在于:针对时序性的业务数据往往依据时序性进行入库存储,而直接对下属机构报送的业务数据进行存储,难以对缺失的业务数据进行有效检测,从而可能导致业务数据不连续的问题,增加了后续针对业务数据的数据检索成本。基于此,本公开的一些实施例的业务数据处理方法,首先,接收待监控业务数据集合,其中,上述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据。其次,根据上述待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组。针对大批量的业务数据,本公开通过将业务数据转化为二进制数组以供后续判断业务数据是否连续,相较于遍历的方式,有效地提高了运算效率,大大减少了计算资源的消耗。例如,采用整型(int)存储遍历标识的方式,针对上亿级别的业务数据,往往需要消耗近百兆的内存资源,同时遍历过程中产生的中间数据也会消耗大量的存储资源(如,内存或外存等)。接着,根据上述更新后位图数组,确定目标数量,其中,上述目标数量表征上述更新后位图数组中满足第一筛选条件的数组值的个数,从得到的目标数量进行判断,数据是否连续。然后,响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,根据上述待监控业务数据集合,生成更新后待监控业务数据序列,其中,上述目标待监控业务数据是上述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据,由于时序性的业务数据往往依据时序性进行入库存储,因此当数据不连续时,会影响后续数据处理。例如,业务数据主键不连续时,需要额外设计相应的数据查找语句,侧面增加数据的检索成本等。因此,本公开通过生成连续的更新后待监控业务数据序列,可以避免因数据不连续而造成的后续针对业务数据的数据检索成本增加的问题。进一步,根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合,以此得到针对待监控业务数据的数据特征,以供后续对异常数据进行修复。此外,通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合。然后,基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合。以此实现了针对异常业务数据的数据修复。最后,根据上述修复后数据集合和上述更新后待监控业务数据序列,生成处理后待监控业务数据序列。通过此种方式,避免了因直接对下属机构报送的业务数据进行存储所导致的业务数据不连续的问题,保证了业务数据的数据连续性,侧面降低了后续针对业务数据的数据检索成本。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种业务数据处理装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该业务数据处理装置具体可以应用于各种电子设备中。
如图2所示,一些实施例的业务数据处理装置200包括:接收单元201、更新单元202、确定单元203、第一生成单元204、第二生成单元205、异常检测单元206、数据修复单元207和第三生成单元208。其中,接收单元201被配置成接收待监控业务数据集合,其中,上述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据;更新单元202被配置成根据上述待监控业务数据集合中的待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组;确定单元203被配置成根据上述更新后位图数组,确定目标数量,其中,上述目标数量表征上述更新后位图数组中满足第一筛选条件的数组值的个数;第一生成单元204被配置成响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,根据上述待监控业务数据集合,生成更新后待监控业务数据序列,其中,上述目标待监控业务数据是上述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据;第二生成单元205被配置成根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合;异常检测单元206被配置成通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合;数据修复单元207被配置成基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合;第三生成单元208被配置成根据上述修复后数据集合和上述更新后待监控业务数据序列,生成处理后待监控业务数据序列。
可以理解的是,该业务数据处理装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于业务数据处理装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备(例如,计算设备)300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器302中的程序或者从存储装置308加载到随机访问存储器303中的程序而执行各种适当的动作和处理。在随机访问存储器303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、只读存储器302以及随机访问存储器303通过总线304彼此相连。输入/输出接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从只读存储器302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收待监控业务数据集合,其中,上述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据;根据上述待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组;根据上述更新后位图数组,确定目标数量,其中,上述目标数量表征上述更新后位图数组中满足第一筛选条件的数组值的个数;响应于确定上述目标数量小于目标待监控业务数据对应的标识信息,根据上述待监控业务数据集合,生成更新后待监控业务数据序列,其中,上述目标待监控业务数据是上述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据;根据预先训练的数据特征提取模型和上述更新后待监控业务数据序列,生成待监控业务数据特征集合;通过预先训练的异常数据检测模型,对上述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合;基于上述待监控业务数据特征集合,对上述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合;根据上述修复后数据集合和上述更新后待监控业务数据序列,生成处理后待监控业务数据序列。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、更新单元、确定单元、第一生成单元、第二生成单元、异常检测单元、数据修复单元和第三生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收待监控业务数据集合的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种业务数据处理方法,包括:
接收待监控业务数据集合,其中,所述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据;
根据所述待监控业务数据集合中待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组;
根据所述更新后位图数组,确定目标数量,其中,所述目标数量表征所述更新后位图数组中满足第一筛选条件的数组值的个数;
响应于确定所述目标数量小于目标待监控业务数据对应的标识信息,根据所述待监控业务数据集合,生成更新后待监控业务数据序列,其中,所述目标待监控业务数据是所述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据;
根据预先训练的数据特征提取模型和所述更新后待监控业务数据序列,生成待监控业务数据特征集合;
通过预先训练的异常数据检测模型,对所述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合;
基于所述待监控业务数据特征集合,对所述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合;
根据所述修复后数据集合和所述更新后待监控业务数据序列,生成处理后待监控业务数据序列。
2.根据权利要求1所述的方法,其中,所述根据所述待监控业务数据集合中各个待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组,包括:
对于所述待监控业务数据集合中每个待监控业务数据,将所述初始位图数组中与所述待监控业务数据对应的标识信息匹配的数组值更新为所述更新后位图数组中的预设数组值。
3.根据权利要求2所述的方法,其中,所述根据所述待监控业务数据集合,生成更新后待监控业务数据序列,包括:
对所述待监控业务数据集合中的各个待监控业务数据进行排序,得到排序后待监控业务数据序列;
基于所述排序后待监控业务数据序列,确认异常标识信息序列;
将所述异常标识信息序列发送至所述下属机构,以供所述下属机构根据所述异常标识信息序列进行数据补送;
响应于接收到所述下属机构上传的、针对所述异常标识信息序列的候补待监控业务数据序列,对所述排序后待监控业务数据序列和所述候补待监控业务数据序列进行拼接,得到拼接后待监控业务数据序列;
对所述拼接后待监控业务数据序列进行排序,得到所述更新后待监控业务数据序列。
4.根据权利要求3所述的方法,其中,所述更新后待监控业务数据序列中的更新后待监控业务数据包括:历史虚拟物品价值和历史虚拟物品流转量,所述数据特征提取模型包括:历史虚拟物品价值特征提取模型、历史虚拟物品流转量数特征提取模型和特征融合模型;以及
所述根据预先训练的数据特征提取模型和所述更新后待监控业务数据序列,生成待监控业务数据特征集合,包括:
对所述更新后待监控业务数据序列中的各个更新后待监控业务数据包括的历史虚拟物品价值进行数据平滑处理,得到平滑处理后历史虚拟物品价值序列;
对所述更新后待监控业务数据序列中的各个更新后待监控业务数据包括的历史虚拟物品流转量进行数据转换处理,得到数据转化后历史虚拟物品流转量序列;
将所述平滑处理后历史虚拟物品价值序列输入所述历史虚拟物品价值特征提取模型,以生成第一数据特征;
通过所述历史虚拟物品流转量数特征提取模型,对所述数据转化后历史虚拟物品流转量序列进行数据特征提取,以生成第二数据特征,其中,所述第一数据特征和所述第二数据特征均为时序特征;
将所述第一数据特征和所述第二数据特征输入所述特征融合模型,以生成所述待监控业务数据特征集合。
5.根据权利要求4所述的方法,其中,所述异常数据检测模型包括:数值型数据异常检测模型和离散性数据异常检测模型,所述异常数据集合中的异常数据包括:异常历史虚拟物品价值和异常历史虚拟物品流转量;以及
所述通过预先训练的异常数据检测模型,对所述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,包括:
对所述更新后待监控业务数据包括的历史虚拟物品价值进行第一数据清洗处理,得到清洗后待监控业务数据;
对所述清洗后待监控业务数据包括的历史虚拟物品流转量进行第二数据清洗处理,得到二次清洗后待监控业务数据;
将所述二次清洗后待监控业务数据输入所述数值型数据异常检测模型,得到所述更新后待监控业务数据对应的异常数据包括的异常历史虚拟物品价值;
通过所述离散性数据异常检测模型,对所述二次清洗后待监控业务数据进行异常数据检测,以生成所述更新后待监控业务数据对应的异常数据包括的异常历史虚拟物品流转量。
6.一种业务数据处理装置,包括:
接收单元,被配置成接收待监控业务数据集合,其中,所述待监控业务数据集合中的待监控业务数据是由下属机构实时报送的、对应有标识信息的业务数据;
更新单元,被配置成根据所述待监控业务数据集合中的待监控业务数据对应的标识信息,对初始位图数组进行数组值更新,得到更新后位图数组;
确定单元,被配置成根据所述更新后位图数组,确定目标数量,其中,所述目标数量表征所述更新后位图数组中满足第一筛选条件的数组值的个数;
第一生成单元,被配置成响应于确定所述目标数量小于目标待监控业务数据对应的标识信息,根据所述待监控业务数据集合,生成更新后待监控业务数据序列,其中,所述目标待监控业务数据是所述待监控业务数据集合中对应的标识信息满足第二筛选条件的待监控业务数据;
第二生成单元,被配置成根据预先训练的数据特征提取模型和所述更新后待监控业务数据序列,生成待监控业务数据特征集合;
异常检测单元,被配置成通过预先训练的异常数据检测模型,对所述更新后待监控业务数据序列中的每个更新后待监控业务数据进行异常检测,以生成异常数据,得到异常数据集合;
数据修复单元,被配置成基于所述待监控业务数据特征集合,对所述异常数据集合中的各个异常数据进行数据修复,得到修复后数据集合;
第三生成单元,被配置成根据所述修复后数据集合和所述更新后待监控业务数据序列,生成处理后待监控业务数据序列。
7.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的方法。
CN202311453968.5A 2023-11-03 2023-11-03 业务数据处理方法、装置、电子设备和计算机可读介质 Pending CN117520410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311453968.5A CN117520410A (zh) 2023-11-03 2023-11-03 业务数据处理方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311453968.5A CN117520410A (zh) 2023-11-03 2023-11-03 业务数据处理方法、装置、电子设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN117520410A true CN117520410A (zh) 2024-02-06

Family

ID=89741003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311453968.5A Pending CN117520410A (zh) 2023-11-03 2023-11-03 业务数据处理方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN117520410A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222267A (zh) * 2019-06-06 2019-09-10 中山大学 一种游戏平台信息推送方法、***、存储介质及设备
CN112084056A (zh) * 2020-08-25 2020-12-15 腾讯科技(深圳)有限公司 异常检测方法、装置、设备及存储介质
CN112463783A (zh) * 2020-12-04 2021-03-09 广州品唯软件有限公司 索引数据监控方法、装置、计算机设备和存储介质
CN113468226A (zh) * 2021-06-24 2021-10-01 北京达佳互联信息技术有限公司 一种业务处理方法、装置、电子设备和存储介质
CN113900886A (zh) * 2021-09-06 2022-01-07 浪潮软件股份有限公司 一种异常日志监控方法
CN115062079A (zh) * 2022-06-21 2022-09-16 平安银行股份有限公司 交易流水处理方法、装置、设备及存储介质
WO2023045829A1 (zh) * 2021-09-24 2023-03-30 中兴通讯股份有限公司 一种业务异常预测方法、装置、存储介质及电子装置
CN116720202A (zh) * 2023-05-19 2023-09-08 国网物资有限公司 业务信息检测方法、装置、电子设备和计算机可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222267A (zh) * 2019-06-06 2019-09-10 中山大学 一种游戏平台信息推送方法、***、存储介质及设备
CN112084056A (zh) * 2020-08-25 2020-12-15 腾讯科技(深圳)有限公司 异常检测方法、装置、设备及存储介质
CN112463783A (zh) * 2020-12-04 2021-03-09 广州品唯软件有限公司 索引数据监控方法、装置、计算机设备和存储介质
CN113468226A (zh) * 2021-06-24 2021-10-01 北京达佳互联信息技术有限公司 一种业务处理方法、装置、电子设备和存储介质
CN113900886A (zh) * 2021-09-06 2022-01-07 浪潮软件股份有限公司 一种异常日志监控方法
WO2023045829A1 (zh) * 2021-09-24 2023-03-30 中兴通讯股份有限公司 一种业务异常预测方法、装置、存储介质及电子装置
CN115062079A (zh) * 2022-06-21 2022-09-16 平安银行股份有限公司 交易流水处理方法、装置、设备及存储介质
CN116720202A (zh) * 2023-05-19 2023-09-08 国网物资有限公司 业务信息检测方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
CN115085196B (zh) 电力负荷预测值确定方法、装置、设备和计算机可读介质
CN116562600B (zh) 供水控制方法、装置、电子设备和计算机可读介质
CN114202130A (zh) 流转量预测多任务模型生成方法、调度方法、装置和设备
CN114780338A (zh) 主机信息处理方法、装置、电子设备和计算机可读介质
CN114049072B (zh) 指标确定方法、装置、电子设备和计算机可读介质
CN116388112B (zh) 异常供应端断电方法、装置、电子设备和计算机可读介质
CN113255950B (zh) 一种优化物流网络的方法和装置
CN117520410A (zh) 业务数据处理方法、装置、电子设备和计算机可读介质
CN117235535B (zh) 异常供应端断电方法、装置、电子设备和介质
CN110633596A (zh) 预测车辆方向角的方法和装置
CN116703263B (zh) 电力设备配送方法、装置、电子设备和计算机可读介质
CN116881097B (zh) 用户终端告警方法、装置、电子设备和计算机可读介质
CN115393652B (zh) 基于对抗网络的人工智能模型更新方法、识别方法和设备
CN112650528B (zh) 个性化算法生成方法、装置、电子设备和计算机可读介质
CN116862319B (zh) 电力指标信息生成方法、装置、电子设备和介质
CN116800834B (zh) 虚拟礼物合并方法、装置、电子设备和计算机可读介质
CN115034769B (zh) 电力信息生成方法、装置、电子设备和计算机可读介质
CN116186020B (zh) 特征信息处理方法、装置、电子设备和计算机可读介质
CN116894163B (zh) 基于信息安全的充放电设施负荷预测信息生成方法和装置
CN111767085B (zh) Storm平台参数配置方法和装置
CN113095756B (zh) 异常运单特征确定方法、装置、设备和计算机可读介质
CN116451168B (zh) 异常电力信息生成方法、装置、电子设备和可读介质
CN111582482B (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN117196199A (zh) 物品调度方法、装置、电子设备和计算机可读介质
Wang et al. Multi-Agent Systems for Collaborative Inference Based on Deep Policy Q-Inference Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination