CN114841132A - 大型机业务分析模型的训练方法、业务分析方法和装置 - Google Patents

大型机业务分析模型的训练方法、业务分析方法和装置 Download PDF

Info

Publication number
CN114841132A
CN114841132A CN202210530960.3A CN202210530960A CN114841132A CN 114841132 A CN114841132 A CN 114841132A CN 202210530960 A CN202210530960 A CN 202210530960A CN 114841132 A CN114841132 A CN 114841132A
Authority
CN
China
Prior art keywords
business
analysis model
training
sample
mainframe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210530960.3A
Other languages
English (en)
Inventor
崔东晓
李秀婧
朱怡雯
朱仲毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210530960.3A priority Critical patent/CN114841132A/zh
Publication of CN114841132A publication Critical patent/CN114841132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种大型机业务分析模型的训练方法、业务分析方法和装置,涉及大数据和人工智能技术领域,包括:获取多个训练样本,每个训练样本包括大型机生成的样本业务报表、大型机生成样本业务报表时的***状态信息以及样本业务报表的标注结果,标注结果用于表征样本业务报表的问题信息,***状态信息包括硬件***信息和***运行信息;根据多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型;根据多个候选业务分析模型,得到目标业务分析模型。通过训练好的大型机业务分析模型对大型机的业务进行分析,可以提升分析效率,降低人为因素导致的误判。

Description

大型机业务分析模型的训练方法、业务分析方法和装置
技术领域
本申请涉及大数据和人工智能技术领域,尤其涉及一种大型机业务分析模型的训练方法、业务分析方法和装置。
背景技术
随着金融科技的快速发展,银行***承担的业务量也出现了大幅增长的情况,由于大型机适合处理大规模业务的特性,大型机成为了银行处理大规模业务的核心设备。
目前,针对大型机处理业务过程中可能存在的问题的分析,主要通过经验丰富的分析人员人工进行分析判断。
但是,由于人工作业的特殊性,导致分析分析的成本较高,同时人工分析的方式也很容易产生漏判及误判的情况发生。
发明内容
本申请实施例提供一种大型机业务分析模型的训练方法、业务分析方法和装置,通过训练好的大型机业务分析模型对大型机的业务进行分析,可以提升分析效率,降低人为因素导致的误判。
第一方面,本申请实施例提供一种大型机业务分析模型的训练方法,包括:
获取多个训练样本,每个所述训练样本包括大型机生成的样本业务报表、大型机生成所述样本业务报表时的***状态信息以及所述样本业务报表的标注结果,所述标注结果用于表征所述样本业务报表的问题信息,所述***状态信息包括硬件***信息和***运行信息;
根据所述多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型;
根据所述多个候选业务分析模型,得到目标业务分析模型。
可选的,根据所述多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型,包括:
根据所述多个训练样本,得到M个样本集,所述M为大于等于2的整数;
根据所述M个样本集,对所述业务分析模型进行训练,得到M个候选业务分析模型。
可选的,所述根据所述M个样本集,对所述业务分析模型进行训练,得到M个候选业务分析模型,包括:
将所述M个样本集中的任一样本集作为测试集,其余M-1个样本集作为训练集;
针对每个测试集,根据所述M-1个训练集对所述业务分析模型进行训练,得到所述测试集对应的候选业务分析模型;
根据M个测试集各自对应的候选业务分析模型,得到所述M个候选业务分析模型;
可选的,所述根据所述多个候选业务分析模型,得到目标业务分析模型,包括:
根据所述M个测试集以及所述M个测试集各自对应的候选业务分析模型,得到目标业务分析模型。
可选的,所述根据所述多个候选业务分析模型,得到目标业务分析模型,包括:
将每个测试集分别输入各自对应的候选业务分析模型,获得M个测试结果;
根据每个所述测试结果和每个测试结果各自对应的标注结果,获取每个候选业务分析模型各自对应的马太相关系数;
根据每个候选业务分析模型各自对应的马太相关系数,确定目标业务分析模型。
可选的,所述根据每个候选业务分析模型各自对应的马太相关系数,确定目标业务分析模型,包括:
根据每个候选业务分析模型各自对应的马太相关系数,获取最大的马太相关系;
将最大的马太相关系数对应的候选业务分析模型,作为所述目标业务分析模型。
可选的,所述获取样本业务报表的标注结果,包括:
将所述样本业务报表发送至N个用户终端,其中N为大于2的整数;
获取所述N个用户终端反馈的所述样本业务报表的N个标注结果;
判断所述N个标注结果的一致性是否大于预设值;若是,将所述N个标注结果一致性大于预设值的标注结果作为所述样本业务报表的标注结果。
可选的,所述硬件***信息包括如下中的至少一种信息:
处理器、内存、耦合器、同时在线的***操作设备SPOOL、传播组TGS、网络、磁带以及活跃作业数;
所述***运行信息包括如下中的至少一种信息:
处理器使用率、内存使用率、SPOOL使用率以及输入/输出I/O使用率。
第二方面,本申请实施例提供一种大型机业务分析方法,包括:
获取大型机生成的业务报表、大型机生成所述业务报表时的硬件***信息和***运行信息;
将所述业务报表、所述硬件***信息和所述***运行信息输入至目标业务分析模型,获得所述目标业务分析模型输出的分析结果,其中,所述目标业务分析模型通过如第一方面任一项所述的方法训练得到。
第三方面,本申请实施例提供一种大型机业务分析模型的训练装置,包括:
获取模块,用于获取多个训练样本,每个所述训练样本包括大型机生成的样本业务报表、大型机生成所述样本业务报表时的硬件***信息和***运行信息以及所述样本业务报表的标注结果,所述标注结果用于表征所述样本业务报表的问题信息;
训练模块,用于根据所述多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型;
选取模块,用于根据所述多个候选业务分析模型,得到目标业务分析模型。
第四方面,本申请实施例提供一种大型机业务分析装置,包括:
获取模块,用于获取大型机生成的业务报表、大型机生成所述业务报表时的硬件***信息和***运行信息;
分析模块,用于将所述业务报表、所述硬件***信息和所述***运行信息输入至目标业务分析模型,获得所述目标业务分析模型输出的分析结果,其中,所述目标业务分析模型通过如第一方面任一项所述的方法训练得到。
第五方面,本申请提供一种电子设备,包括:存储器和处理器;
存储器用于存储计算机指令;处理器用于运行存储器存储的计算机指令实现第一方面或第二方面中任一项的方法。
第六方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现第一方面或第二方面中任一项的方法。
第七方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面或第二方面中任一项的方法。
附图说明
图1为本申请实施例提供的场景示意图;
图2为本申请实施例提供的大型机业务分析模型的训练方法流程示意图一;
图3为本申请实施例提供的大型机业务分析模型的训练方法流程示意图二;
图4为本申请实施例提供的大型机业务分析方法流程示意图;
图5为本申请实施例提供的大型机业务分析模型的训练装置结构示意图;
图6为本申请实施例提供的大型机业务分析装置结构示意图;
图7为本申请实施例提供的大型机业务分析模型的训练或大型机业务分析电子设备结构示意图。
具体实施方式
为了便于清楚描述本申请实施例的技术方案,以下,对本申请实施例中所涉及的部分术语和技术进行简单介绍:
1)大型机,又称大型主机,使用专用指令***、操作***和应用软件,主要用于商业领域,如银行、电信公司以及大型制造企业等。
2)马太相关系数MCC,一种用于评估分类性能的指标,其MCC的范围从-1到1,其中MCC为-1表示最坏的可能预测,而值为1表示最好的可能预测方案。此外,MCC为0表示随机预测。
3)其他术语
在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
下面结合附图对本申请实施例提供的大型机业务分析模型的训练方法进行详细地介绍。需要说明的是,本申请实施例中的“在……时”,可以为在某种情况发生的瞬时,也可以为在某种情况发生后的一段时间内,本申请实施例对此不作具体限定。
随着金融科技的快速发展,银行***承担的业务量也出现了大幅增长的情况,由于大型机适合处理大规模业务的特性,大型机成为了银行处理大规模业务的核心设备。
目前,针对大型机处理业务过程中可能存在的问题的分析,主要通过经验丰富的分析人员,参考大型机的***状态信息,人工进行分析判断。
但是,现有流程中,对大型机业务分析时,操作流程冗长繁琐,需要占用大量操作人员及操作时间,进行分析的成本较高,并且由于分析的复杂性及专业性,分析人员只能逐一进行分析评估,分析效率较低,同时人工分析的方式也很容易产生漏判及误判的情况发生。
有鉴于此,本申请提出一种大型机业务分析模型的训练方法、业务分析方法,通过将大型机的业务报表以及对应的***状态信息输入至训练好的业务分析模型中,获得业务分析模型输出的分析结果,不需要依赖人工进行分析,可以提升分析效率也可以减少人员因素造成的分析结果误差。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请实施例的应用场景示意图,包括大型机和用户终端。大型机和用户终端通过网络连接,以进行数据传输,大型机中设置有可以对大型机业务进行分析的业务分析模型。
大型机可以将需要进行业务分析的业务报表以及该业务报表对应的***信息输入至业务分析模型,获得分析结果,大型机可以将分析结果发送至用户终端,以便将分析结果对用户进行展示。
可以理解的是,大型机也可以将获得的多个业务报表作为样本业务报表,对该业务分析模型进行训练,以获得预期的分析结果,在训练过程中,大型机可以通过用户终端对业务报表进行标注,获得标注结果,大型机根据分析结果与标注结果对分析模型进行训练。
上面对本申请实施例的应用场景进行了说明,下面以应用于图1中的大型机为例,对本申请实施例提供的大型机业务分析模型的训练方法、业务分析方法进行详细说明。
图2为本申请实施例提供的大型机业务分析模型的训练方法的流程示意图一,包括如下步骤:
S201、获取多个训练样本,每个训练样本包括大型机生成的样本业务报表、大型机生成样本业务报表时的***状态信息以及样本业务报表的标注结果。
业务报表是一种用于对大型机业务进行数据整理、格式化和数据展现的工具,业务分析人员可以通过业务报表结合大型机的***状态信息实时了解当前大型机的业务信息和业务状态,例如,通过业务报表可以分析大型机业务是否存在问题。样本业务报表为用于对大型机业务分析模型进行训练的业务报表。
样本业务报表的标注结果用于表征业务报表的问题信息,为大型机接收的用户终端根据大型机生成样本业务报表时的硬件***信息和***运行信息对样本业务报表的分析结果,例如,可以将样本业务报表的标注结果分为无问题、轻微问题、一般问题、严重问题四个级别。
***状态信息包括:硬件***信息和***运行信息。
硬件***信息指大型机硬件***的静态配置信息,包括但不限于处理器(centralprocessing unit,CPU)、内存、耦合器、同时在线的***操作设备(simultaneousperipheral operations online,SPOOL)、传播组(transmission groups,TGS)、活跃作业数(active job number,JNUM)、网络以及磁带等信息。
***运行信息指大型机硬件***的动态运行信息,包括但不限于CPU使用率、内存使用率、SPOOL使用率、输入/输出(input/output,I/O)使用率等信息。
大型机将生成的样本业务报表、生成样本业务报表时的***状态信息以及样本业务报表的标注结果作为一个训练样本,通过获取多个训练样本对大型机业务分析模型进行训练。
S202、根据多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型。
本申请实施例中,可以通过不同的训练样本对业务分析模型进行训练,以得到多个不同的候选业务分析模型。
示例性的,可以将多个训练样本划分为多个不同的样本集,采用交叉验证的方式根据不同的样本集对业务分析模型进行训练,获得多个候选业务分析模型。也可以通过一个样本集训练一个业务分析模型,通过多个样本集对业务分析模型进行训练,获得多个候选业务分析模型。
在业务分析模型输出的分析结果与对应的标注结果不一致时,可以对业务分析模型的参数进行调优,使用调整参数后的业务分析模型进行下一轮训练,直至训练完成。
S203、根据多个候选业务分析模型,得到目标业务分析模型。
在获得多个候选业务分析模型后,可以对多个候选业务分析模型进行筛选,获得目标业务分析模型,目标业务模型可以为多个候选业务分析模型中分析结果与标注结果匹配度最高的模型。可以理解的是,目标业务模型的选取方式也可以根据实际需求进行设置,本申请实施例对此不进行限定。
示例性的,可以通过计算多个候选模型性能评价指标的方式,获得目标候选模型,本申请实施例中,可以使用准确率(AC)、灵敏度(SN)、特异性(SP)以及马太相关系数(MCC)等评价方式对候选模型的性能评价指标进行计算,可以理解的是,也可以采用其他方式获取目标候选模型,本申请实施例对此并不进行限定。
本申请实施例提供的大型机的业务分析模型的训练方法,通过获取多个训练样本,每个训练样本包括大型机生成的样本业务报表、大型机生成样本业务报表时的***状态信息以及样本业务报表的标注结果,根据多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型;根据多个候选业务分析模型,得到目标业务分析模型。使用目标业务分析模型对大型机的业务进行分析,可以有效减少人工进行分析频率,提升分析效率,也可以降低由于人员因素造成的分析结果误差。
图3为本申请实施例提供的大型机业务分析模型的训练方法的流程示意图二,包括如下步骤:
S301、获取多个训练样本,每个训练样本包括大型机生成的样本业务报表、大型机生成样本业务报表时的***状态信息。
本申请实施例S301的实现方式与图2所示实施例S201的实现方式类似,此处不在赘述。
可选的,获取样本业务报表后,可以对样本业务报表进行格式化处理,以便后续进行业务分析模型训练,格式化处理是指对样本业务报表进行提取指标值;还可以对样本业务报表进行初步分析,以便后续对样本业务报表进行标注,分析手段包括但不限于平均数、中位数等描述性统计,热力图、主成分分析等数据可视化分析,以及数据整形分析等;还可以对样本业务报表中的异常数据或者缺失数据进行剔除,以保障后续业务分析模型训练的有效性。例如,将样本业务报表存在明显极端值的数据剔除掉。
可选的,大型机可以通过自身的JES2***,利用作业控制语言(job controllanguage,JCL)以每分钟为颗粒度,生成样本业务报表,以5秒为颗粒度收集大型机的***状态信息,按照时间节点对样本业务报表和对应的***状态信息进行匹配。
S302、获取每个样本业务报表的标注结果。
本申请实施例中,可以将样本业务报表发送至N个用户终端,获取N个用户终端反馈的样本业务报表的N个标注结果。
判断N个标注结果的一致性是否大于预设值。若是,将N个标注结果一致性大于预设值的标注结果作为样本业务报表的标注结果,其中N为大于2的整数。若否,可将样本业务报表发送至另外的N个用户终端,重复执行该过程,直至N个标注结果一致性大于预设值。
示例性的,可以将每份报表分发给四个用户终端,每个用户终端对应一名经验丰富的标注人员,若三名及以上标注人员的标注结果相同,则采用该标注结果。否则将该份报表分发给另外四名不同的标注人员,若存在三名及以上标注人员的标注结果相同,则采用该标注结果,否则再次分发给另外四名不同的标注人员,直到三名及以上标注人员的标注结果一致。可以理解的是,可以根据实际需求对预设值(标注结果相同的标注人员的数量占总标注人员的比例)进行设置,为保证模型的训练的合理性,标注结果相同的标注人员的数量占总标注人员的比例应不低于70%。
S303、将多个训练样本划分为M个样本集,根据M个样本集,对业务分析模型进行训练,得到M个候选业务分析模型,其中M为大于等于2的整数。
本申请实施例中,将多个训练样本划分为M个样本集,将M个样本集中的任一样本集作为测试集,其余M-1个样本集作为训练集。
针对每个测试集,根据M-1个训练集采用交叉验证方法对业务分析模型进行训练,得到测试集对应的候选业务分析模型。
示例性的,对于选取的1个测试集,在使用M-1个训练集对业务分析模型进行训练时,可以先将1个训练集中的1个训练样本输入至业务分析模型,在业务分析模型输出的分析结果和标注结果不一致时,调整业务分析模型中的参数,将该训练集中的其余训练样本依次输入至调整参数后的业务分析模型中,获得分析结果。重复执行该训练过程,直至遍历M-1个训练集,获得该测试集对应的候选业务分析模型。
在M个数据集中,选取1个新的样本集作为测试集,使用其余M-1个训练集对业务分析模型进行训练,获得该测试集对应的候选业务分析模型,重复执行该训练过程,直至M个样本集都用作测试集,获得对应的M个候选业务分析模型。
S304、对每个候选业务选模型进行性能评估。
本申请实施例中,采用马太相关系数对候选模型的性能指标进行评估。
具体的,将每个测试集分别输入各自对应的候选业务分析模型,获得M个测试结果,根据每个测试结果和每个测试结果各自对应的标注结果,获取每个候选业务分析模型各自对应的马太相关系数。
马太相关系数计算可以满足如下所示公式:
Figure BDA0003646466850000101
其中,TP为真阳性实例的数量,TN为真阴性实例的数量,FP为假阳性实例的数量,FN为假阴性实例的数量。
将每个测试集中的多个训练样本依次输入至对应的候选业务分析模型,获得多个对应的分析结果,根据分析结果和对应的标注结果获取该测试集中的TP、TN、FP、FN,再根据马太相关系数计算公式计算该测试集对应的候选业务分析模型的马太相关系数。
其中,标注结果分为无问题、轻微问题、一般问题、严重问题四个级别。测试集对应的分析结果等级同样分为无问题、轻微问题、一般问题、严重问题四个级别。
TP为测试集中样本业务报表的标注结果为轻微问题、一般问题、严重问题中的一种,且分析结果与标注结果完全一致的样本业务报表的数量。TN为标注结果为无问题,训练模型预测结果也为无问题的样本业务报表的数量;FP为标注结果为无问题,分析结果为轻微问题、一般问题、严重问题中的一种的样本业务报表的数量;FN为标注结果为严重问题,分析结果为无问题、轻微问题、一般问题中的一种,或,标注结果为一般问题,分析结果为无问题、轻微问题中的一种,或,标注结果为轻微问题,分析结果为无问题的样本业务报表的数量。
S305、根据每个候选业务分析模型各自对应的马太相关系数,确定目标业务分析模型。
大型机获得M个候选业务分析模型对应的马太相关系数后,获取最大马太相关系数对应的候选业务分析模型,将马太相关系数最大的候选业务分析模型作为目标业务分析模型。
本申请实施例提供的大型机的业务分析模型的训练方法,通过获取多个训练样本,以及训练样本中每个样本业务报表的标注结果,将多个训练样本划分为M个样本集,采用交叉验证方法对业务分析模型进行训练,得到多个候选业务分析模型;根据多个候选业务分析模型的马太相关系数,得到目标业务分析模型。使用目标业务分析模型对大型机的业务进行分析,可以有效减少人工进行分析频率,提升分析效率,也可以降低由于人员因素造成的分析结果误差。
图4为本申请实施例提供的大型机业务分析方法的流程示意图,包括如下步骤:
S401、获取大型机生成的业务报表、大型机生成业务报表时的硬件***信息和***运行信息。
可选的,大型机可以通过JES2***,利用JCL以每分钟为颗粒度,生成业务报表,以5秒为颗粒度收集大型机的***状态信息,按照时间节点对业务报表和对应的***状态信息进行匹配。
S402、将业务报表、硬件***信息和***运行信息输入至目标业务分析模型,获得目标业务分析模型输出的分析结果。
其中,目标业务分析模型为通过图2或图3所示任一项的业务分析模型训练方法训练得到。
可选的,在获得目标业务分析模型输出的分析结果后,还可以多个业务报表对应的分析结果进行整合,按照分析的问题等级进行分类统计,生成统计报告,将统计报告发送至用户终端,以使用户方便进行查看。
本申请实施例中,通过大型机自动生成业务报表、获得业务报表对应的分析结果并生成报告,可以大幅降低对分析人员的依赖,减少因人员因素造成的分析结果误差,也可以量进行分析预估,大幅提高评估效率,降低测试运维风险。
图5为本申请实施例提供的大型机业务分析模型的训练装置50的结构示意图,包括:
获取模块501,用于获取多个训练样本,每个训练样本包括大型机生成的样本业务报表、大型机生成样本业务报表时的硬件***信息和***运行信息以及样本业务报表的标注结果,标注结果用于表征所本业务报表的问题信息。
可选的,获取模块501包括报表生成单元、报表格式化单元、报表标注单元、硬件***信息收集单元以及***运行信息收集单元。
具体的,报表生成单元用于通过JES2***,利用JCL以每分钟为颗粒度,生成样本业务报表。
报表格式化单元用于对样本业务报表进行提取指标值。
报表标注单元用于将样本业务报表发送至用户终端,并接收用户终端返回的标注结果。
具体的,将样本业务报表发送至N个用户终端,获取N个用户终端反馈的样本业务报表的N个标注结果;判断N个标注结果的一致性是否大于预设值;若是,将N个标注结果一致性大于预设值的标注结果作为样本业务报表的标注结果,其中N为大于2的整数。
硬件***信息收集单元用于收集大型机硬件***的静态配置信息。
***运行信息收集单元用于大型机硬件***的动态运行信息,可以以5s为颗粒度进行收集。
训练模块502,用于根据多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型。
可选的,训练模块502包括数据探索性分析单元、数据清理单元、数据切割单元以及训练单元。
具体的,数据探索性分析单元用于对样本业务报表进行初步分析,包括平均数、中位数等描述性统计,热力图、主成分分析等数据可视化分析,以及数据整形分析等。
数据清理单元用于对样本业务报表中的异常数据或者缺失数据进行剔除。
数据切割单元用于根据多个训练样本,得到M个样本集,将M个样本集中的任一样本集作为测试集,其余M-1个样本集作为训练集。
训练单元用于针对每个测试集,根据M-1个训练集对业务分析模型进行训练,得到测试集对应的候选业务分析模型;根据M个测试集各自对应的候选业务分析模型,得到M个候选业务分析模型。
选取模块503,用于根据多个候选业务分析模型,得到目标业务分析模型。
具体的,每个测试集分别输入各自对应的候选业务分析模型,获得M个测试结果,根据每个测试结果和每个测试结果各自对应的标注结果,获取每个候选业务分析模型各自对应的马太相关系数,根据每个候选业务分析模型各自对应的马太相关系数,获取最大的马太相关系,将最大的马太相关系数对应的候选业务分析模型,作为目标业务分析模型。
本申请实施例提供的大型机业务分析模型的训练装置可以执行图2和/或图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本申请实施例提供的大型机业务分析装置60的结构示意图,包括:
获取模块601,用于获取大型机生成的业务报表、大型机生成业务报表时的硬件***信息和***运行信息.
分析模块602,用于将业务报表、硬件***信息和***运行信息输入至目标业务分析模型,获得目标业务分析模型输出的分析结果。
其中,目标业务分析模型为通过图2或图3所示任一项的业务分析模型训练方法训练得到。
本申请实施例提供的大型机业务分析装置可以执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本申请实施例提供的大型机业务分析模型的训练或大型机业务分析电子设备的结构示意图。如图7所示,本实施例提供的大型机业务分析模型的训练或大型机业务分析电子设备70可以包括:
处理器701。
存储器702,用于存储终端设备的可执行指令。
其中,处理器配置为经由执行可执行指令来执行上述大型机业务分析模型的训练方法或大型机业务分析方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述大型机业务分析模型的训练方法或大型机业务分析方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
一种可能的实现方式中,计算机可读介质可以包括随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read-Only Memory,ROM),只读光盘(compact discread-only memory,CD-ROM)或其它光盘存储器,磁盘存储器或其它磁存储设备,或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码,并且可由计算机访问。而且,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,数字用户线(Digital Subscriber Line,DSL)或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘,激光盘,光盘,数字通用光盘(Digital Versatile Disc,DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。
本申请实施例中还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述大型机业务分析模型的训练方法和/或大型机业务分析方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在上述终端设备或者服务器的具体实现中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域技术人员可以理解,上述任一方法实施例的全部或部分步骤可以通过与程序指令相关的硬件来完成。前述的程序可以存储于计算机可读取存储介质中,该程序被执行时,执行上述方法实施例的全部或部分的步骤。
本申请技术方案如果以软件的形式实现并作为产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本申请的技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括计算机程序或者若干指令。该计算机软件产品使得计算机设备(可以是个人计算机、服务器、网络设备或者类似的电子设备)执行本申请实施例方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (13)

1.一种大型机业务分析模型的训练方法,其特征在于,包括:
获取多个训练样本,每个所述训练样本包括大型机生成的样本业务报表、大型机生成所述样本业务报表时的***状态信息以及所述样本业务报表的标注结果,所述标注结果用于表征所述样本业务报表的问题信息,所述***状态信息包括硬件***信息和***运行信息;
根据所述多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型;
根据所述多个候选业务分析模型,得到目标业务分析模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型,包括:
根据所述多个训练样本,得到M个样本集,所述M为大于等于2的整数;
根据所述M个样本集,对所述业务分析模型进行训练,得到M个候选业务分析模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述M个样本集,对所述业务分析模型进行训练,得到M个候选业务分析模型,包括:
将所述M个样本集中的任一样本集作为测试集,其余M-1个样本集作为训练集;
针对每个测试集,根据所述M-1个训练集对所述业务分析模型进行训练,得到所述测试集对应的候选业务分析模型;
根据M个测试集各自对应的候选业务分析模型,得到所述M个候选业务分析模型;
所述根据所述多个候选业务分析模型,得到目标业务分析模型,包括:
根据所述M个测试集以及所述M个测试集各自对应的候选业务分析模型,得到目标业务分析模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个候选业务分析模型,得到目标业务分析模型,包括:
将每个测试集分别输入各自对应的候选业务分析模型,获得M个测试结果;
根据每个所述测试结果和每个测试结果各自对应的标注结果,获取每个候选业务分析模型各自对应的马太相关系数;
根据每个候选业务分析模型各自对应的马太相关系数,确定目标业务分析模型。
5.根据权利要求4所述的方法,其特征在于,所述根据每个候选业务分析模型各自对应的马太相关系数,确定目标业务分析模型,包括:
根据每个候选业务分析模型各自对应的马太相关系数,获取最大的马太相关系;
将最大的马太相关系数对应的候选业务分析模型,作为所述目标业务分析模型。
6.根据权利要求1所述的方法,其特征在于,所述获取样本业务报表的标注结果,包括:
将所述样本业务报表发送至N个用户终端,其中N为大于2的整数;
获取所述N个用户终端反馈的所述样本业务报表的N个标注结果;
判断所述N个标注结果的一致性是否大于预设值;若是,将所述N个标注结果一致性大于预设值的标注结果作为所述样本业务报表的标注结果。
7.根据权利要求1所述的方法,其特征在于,所述硬件***信息包括如下中的至少一种信息:
处理器、内存、耦合器、同时在线的***操作设备SPOOL、传播组TGS、网络、磁带以及活跃作业数;
所述***运行信息包括如下中的至少一种信息:
处理器使用率、内存使用率、SPOOL使用率以及输入/输出I/O使用率。
8.一种大型机业务分析方法,其特征在于,包括:
获取大型机生成的业务报表、大型机生成所述业务报表时的硬件***信息和***运行信息;
将所述业务报表、所述硬件***信息和所述***运行信息输入至目标业务分析模型,获得所述目标业务分析模型输出的分析结果,其中,所述目标业务分析模型通过如上1至7任一项所述的方法训练得到。
9.一种大型机业务分析模型的训练装置,其特征在于,包括:
获取模块,用于获取多个训练样本,每个所述训练样本包括大型机生成的样本业务报表、大型机生成所述样本业务报表时的硬件***信息和***运行信息以及所述样本业务报表的标注结果,所述标注结果用于表征所述样本业务报表的问题信息;
训练模块,用于根据所述多个训练样本,对业务分析模型进行训练,得到多个候选业务分析模型;
选取模块,用于根据所述多个候选业务分析模型,得到目标业务分析模型。
10.一种大型机业务分析装置,其特征在于,包括:
获取模块,用于获取大型机生成的业务报表、大型机生成所述业务报表时的硬件***信息和***运行信息;
分析模块,用于将所述业务报表、所述硬件***信息和所述***运行信息输入至目标业务分析模型,获得所述目标业务分析模型输出的分析结果,其中,所述目标业务分析模型通过如上1至7任一项所述的方法训练得到。
11.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现权利要求1-7中任一项所述的方法,或者,以实现权利要求8所述的方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7中任一项所述的方法,或者,以实现权利要求8所述的方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时以实现权利要求1-7中任一项所述的方法,或者,以实现权利要求8所述的方法。
CN202210530960.3A 2022-05-16 2022-05-16 大型机业务分析模型的训练方法、业务分析方法和装置 Pending CN114841132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210530960.3A CN114841132A (zh) 2022-05-16 2022-05-16 大型机业务分析模型的训练方法、业务分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210530960.3A CN114841132A (zh) 2022-05-16 2022-05-16 大型机业务分析模型的训练方法、业务分析方法和装置

Publications (1)

Publication Number Publication Date
CN114841132A true CN114841132A (zh) 2022-08-02

Family

ID=82569175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210530960.3A Pending CN114841132A (zh) 2022-05-16 2022-05-16 大型机业务分析模型的训练方法、业务分析方法和装置

Country Status (1)

Country Link
CN (1) CN114841132A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993412A (zh) * 2019-03-01 2019-07-09 百融金融信息服务股份有限公司 风险评估模型的构建方法及装置、存储介质、计算机设备
CN110705600A (zh) * 2019-09-06 2020-01-17 西安交通大学 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质
AU2020102465A4 (en) * 2020-09-28 2020-11-12 Chen, Rundong Mr A method of predicting housing price using the method of combining multiple source data with mathematical model
CN112396108A (zh) * 2020-11-19 2021-02-23 腾讯科技(深圳)有限公司 业务数据评估方法、装置、设备及计算机可读存储介质
CN113112352A (zh) * 2021-05-27 2021-07-13 中国工商银行股份有限公司 风险业务检测模型训练方法、风险业务检测方法及装置
CN114187980A (zh) * 2022-02-15 2022-03-15 北京晶泰科技有限公司 模型训练方法、模型预测方法、分子筛选方法及其装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993412A (zh) * 2019-03-01 2019-07-09 百融金融信息服务股份有限公司 风险评估模型的构建方法及装置、存储介质、计算机设备
CN110705600A (zh) * 2019-09-06 2020-01-17 西安交通大学 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质
AU2020102465A4 (en) * 2020-09-28 2020-11-12 Chen, Rundong Mr A method of predicting housing price using the method of combining multiple source data with mathematical model
CN112396108A (zh) * 2020-11-19 2021-02-23 腾讯科技(深圳)有限公司 业务数据评估方法、装置、设备及计算机可读存储介质
CN113112352A (zh) * 2021-05-27 2021-07-13 中国工商银行股份有限公司 风险业务检测模型训练方法、风险业务检测方法及装置
CN114187980A (zh) * 2022-02-15 2022-03-15 北京晶泰科技有限公司 模型训练方法、模型预测方法、分子筛选方法及其装置

Similar Documents

Publication Publication Date Title
CN111124840B (zh) 业务运维中告警的预测方法、装置与电子设备
US10031829B2 (en) Method and system for it resources performance analysis
Hartson et al. Criteria for evaluating usability evaluation methods
CN112685324B (zh) 一种生成测试方案的方法及***
CN111045902A (zh) 服务器的压力测试方法及装置
WO2023029065A1 (zh) 数据集质量评估方法、装置、计算机设备及存储介质
JP2020187470A (ja) ネットワーク分析装置およびネットワーク分析方法
CN106844423A (zh) 一种数据检测的方法及装置
EP4169223A1 (en) Method and apparatus to detect scripted network traffic
CN112948262A (zh) 一种***测试方法、装置、计算机设备和存储介质
CN117291169A (zh) 自然语言处理模型的评估方法、装置及电子设备
CN117130851A (zh) 一种高性能计算集群运行效率评价方法及***
CN114841132A (zh) 大型机业务分析模型的训练方法、业务分析方法和装置
CN115034580A (zh) 融合数据集的质量评估方法和装置
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112632364A (zh) 新闻传播速度测评方法和***
CN113780597B (zh) 影响传播关系模型构建和告警影响评估方法、计算机设备、存储介质
US11941020B2 (en) Displaying query results using machine learning model-determined query results visualizations
CN115273854B (zh) 一种服务质量确定方法、装置、电子设备及存储介质
CN111400174B (zh) 数据源的应用效能的确定方法、装置和服务器
CN111813690A (zh) 基于机器学习的测试策略设确定法及装置
Mahayana et al. Analysis and Simulation of the Spread of COVID-19 in Indonesia Using SIR-FV Modeling with Optimization
KR20230009340A (ko) 클릭 데이터 잡음 제거 방법, 장치, 전자 기기 및 저장 매체
CN116934182A (zh) 一种企业数据协同观测方法、***及介质
CN116911644A (zh) 时长指标的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination