CN114924943A - 基于人工智能的数据中台评估方法及相关设备 - Google Patents

基于人工智能的数据中台评估方法及相关设备 Download PDF

Info

Publication number
CN114924943A
CN114924943A CN202210594836.3A CN202210594836A CN114924943A CN 114924943 A CN114924943 A CN 114924943A CN 202210594836 A CN202210594836 A CN 202210594836A CN 114924943 A CN114924943 A CN 114924943A
Authority
CN
China
Prior art keywords
data
index
structural
data center
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210594836.3A
Other languages
English (en)
Inventor
侯彰弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202210594836.3A priority Critical patent/CN114924943A/zh
Publication of CN114924943A publication Critical patent/CN114924943A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提出一种基于人工智能的数据中台评估方法、装置、电子设备及存储介质,基于人工智能的数据中台评估方法包括:搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据;解析所述数据集中的结构数据以构建结构指标;计算所述数据集中的日志数据的权重以构建业务指标;更新所述结构指标和所述业务指标以获取更新指标;依据插值算法对所述更新指标进行插值以构建初始训练数据集;依据所述初始训练数据集构建性能评估模型;采集实时数据输入所述性能评估模型并获取数据中台的评估结果。本方案可以针对数据中台的多个主要问题进行量化评估,从而提升评估结果的准确性。

Description

基于人工智能的数据中台评估方法及相关设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的数据中台评估方法、装置、电子设备及存储介质。
背景技术
数据中台是一种集中存储海量的、多个来源的、多种类型的数据,并可以对数据进行快速加工、分析的平台。为了确保数据中台业务逻辑的稳定性,高效性,运维人员通常需要实时针对数据中台的性能进行评估,以确保数据中台开发人员能够针对数据中台的性能降低及时做出响应。
现有技术通常基于业务成果对数据中台的性能做出评估,而忽略了数据中台内一些关键的技术节点与运行日志的信息,这种评估方式过于泛化,从而导致评估结果不够精准。
发明内容
鉴于以上内容,有必要提供一种基于人工智能的数据中台评估方法及相关设备,以解决如何提高数据中台评估的准确度这一技术问题,其中,相关设备包括基于人工智能的数据中台评估装置、电子设备及存储介质。
本申请实施例提供一种基于人工智能的数据中台评估方法,包括:
搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据;
解析所述数据集中的结构数据以构建结构指标;
计算所述数据集中的日志数据的权重以构建业务指标;
更新所述结构指标和所述业务指标以获取更新指标;
依据插值算法对所述更新指标进行插值以构建初始训练数据集;
依据所述初始训练数据集构建性能评估模型;
采集实时数据输入所述性能评估模型并获取数据中台的评估结果。
上述数据中台评估方法中,通过分析数据中台的结构与运行日志构建量化指标,并计算量化指标的权重以获取更新指标,进而依据更新指标对数据中台进行评估。如此,可以针对数据中台的多个主要问题进行量化评估,并考虑了不同指标的重要性,提升了评估结果的准确度。
在一些实施例中,所述搭建数据中台以获取数据集包括:
依据预设的数据采样时间点采集所述数据中台的结构数据和日志数据;
联合存储所述结构数据和所述日志数据得到数据集。
如此,基于数据中台的结构数据与日志数据构建了所述数据集,可为后续量化指标的构建与数据分析步骤提供数据支撑,避免传统的概念化指标评估方法带来的泛化误差。
在一些实施例中,所述结构指标包括:
规范率指标,所述规范率指标为符合表命名规范的表数量与所述数据中台中所有表的总数量的比值;
复用率指标,所述复用率指标为具备前置依赖的表的数量与数据中台中所有表的总数量的比值,所述前置依赖是指该表中的数据是基于其他表中的数据获得;
覆盖率指标,所述覆盖率指标为不具备前置依赖但具备后置依赖的表数量与数据中台中所有表的总数量的比值,所述后置依赖是指其他表中的数据是基于该表中的数据获得。
如此,依据所述数据中台的表命名规范与数据中台的层次结构构建了数据中台的结构指标,所述结构指标能够表征数据中台的结构性能并为后续指标评估提供数据支撑,提升后续评估的准确度。
在一些实施例中,所述计算所述数据集中的日志数据的权重以构建业务指标包括:
计算所述数据中台中的一个应用程序被调用的次数与所有应用程序被调用的总次数的比值,将该比值作为该应用程序的第一权重;
计算所述数据中台中的一个应用程序占用中央处理单元的总时长与该应用程序运行的总时长的比值,将该比值作为该应用程序的第二权重;
计算所述数据中台中的一个应用程序报错的次数与该应用程序被调用的总次数的比值,并计算预设的调和实数与该比值的差值,将该差值作为该应用程序的第三权重;
基于所述第一权重、第二权重和第三权重构建业务指标,所述业务指标用以表征数据中台中的应用程序在运行过程中的性能。
如此,结合数据中台业务逻辑运行过程中的日志数据构建了数据中台的业务指标,能够表征数据中台中的应用程序运行过程中的性能波动,并在时序上为所述业务指标赋予可解析性,从而提升后续评估模型的性能。
在一些实施例中,所述更新所述结构指标和所述业务指标以获取更新指标包括:
依据所述结构指标和所述业务指标构建协方差矩阵;
计算所述协方差矩阵的特征值以获取所述结构指标和业务指标的权重;
依据所述权重更新所述结构指标和业务指标以获取更新指标。
如此,基于结构指标和业务指标构建了协方差矩阵并计算了所述协方差矩阵的特征值,所述特征值能够表征所述结构指标与业务指标的重要性,将所述特征值作为权重更新结构指标和业务指标能够避免指标平权带来的误差,提升后续评估的准确度。
在一些实施例中,所述依据插值算法对所述更新指标进行插值以构建初始训练数据集包括:
拆分所述更新指标以获取更新指标区间集;
依据所述插值算法拟合所述更新指标区间集内的数据以获得函数曲线集;
依据所述函数曲线集中曲线起点对应的采样时间点对函数曲线进行排序以获得排序函数曲线集;
将所述排序函数曲线集中的曲线首尾相连以获取所述初始训练数据集。
如此,通过插值法将时序上离散的指标数据补全为连续的序列数据,能够扩展数据采集结果并提升数据储备,为后续评估模型的拟合提供了更完备的数据支撑,从而能够提升评估模型的性能。
在一些实施例中,所述采集实时数据输入所述性能评估模型并获取数据中台的评估结果包括:
实时采集所述数据中台相关数据,所述相关数据包括实时结构数据和实时日志数据;
实时构建并更新结构指标和业务指标,得到实时更新指标;
将所述实时更新指标输入所述性能评估模型对所述数据中台进行评估并获取评估结果。
如此,可以在数据中台的结构或业务性能发生异常的情况下及时进行报错以提升数据中台性能的稳定性。
本申请实施例还提供一种基于人工智能的数据中台评估装置,所述装置包括:
获取单元,用于搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据;
第一构建单元,用于解析所述数据集中的结构数据以构建结构指标;
计算单元,用于计算所述数据集中的日志数据的权重以构建业务指标;
更新单元,用于更新所述结构指标和所述业务指标以获取更新指标;
第二构建单元,用于依据插值算法对所述更新指标进行插值以构建初始训练数据集;
第三构建单元,用于依据所述初始训练数据集构建性能评估模型;
评估单元,用于采集实时数据输入所述性能评估模型获取所述数据中台的评估结果。
本申请实施例还提供一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述基于人工智能的数据中台评估方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述基于人工智能的数据中台评估方法。
附图说明
图1是本申请所涉及的基于人工智能的数据中台评估方法的较佳实施例的流程图。
图2是本申请所涉及的计算日志数据的权重以构建业务指标的较佳实施例的流程图。
图3是本申请所涉及的更新所述结构指标和所述业务指标以获取更新指标的较佳实施例流程图。
图4是本申请所涉及的依据插值算法对所述更新指标进行插值以构建训练数据集的较佳实施例的流程图。
图5是本申请所涉及的采集实时数据输入所述性能评估模型并获取数据中台的评估结果的较佳实施例的流程图。
图6是本申请所涉及的基于人工智能的数据中台评估装置的较佳实施例的功能模块图。
图7是本申请所涉及的基于人工智能的数据中台评估方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本申请,所述描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请实施例提供一种基于人工智能的数据中台评估方法,可应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、可编程门阵列(Field-ProgrammableGateArray,FPGA)、数字处理器(DigitalSignalProcessor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(PersonalDigitalAssistant,PDA)、游戏机、交互式网络电视(InternetProtocolTelevision,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(VirtualPrivateNetwork,VPN)等。
如图1所示,是本申请基于人工智能的数据中台评估方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S10,搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据。
在一个可选的实施例中,搭建数据中台以获取数据集包括:
S101,依据预设的数据采样时间点采集所述数据中台的结构数据和日志数据。
该可选的实施例中,所述数据中台是一种集中存储海量数据并可以对数据进行快速加工、分析的平台,所述数据中台中的数据具备的特征包括多个来源、多种类型。
该可选的实施例中,可基于企业的数据中台的应用程序的生命周期制定采样时长和采样频率,示例性的,所述采样时长可以为一个自然月,即30个自然日;所述采样频率可以为1/3600Hz,即每小时采样一次,进而可基于所述采样时长和采样频率制定所述采样时间点,所述采样时间点之间的间隔为一个小时,所述采样时间点的总数量为720个。
该可选的实施例中,可依据数据中台的层级结构制定数据中台的表命名规范,所述数据中台的层级结构包括ODS层、DWD层、DWS层、DM层和DIM层。所述ODS的全称为OperationalDataStore层,意为操作数据层,其主要功能是对各个业务数据进行采集、汇聚、整合以增加数据标识并使非结构数据转化为结构数据;所述DWD层的全称为DataWarehouseDetail,意为数据中台明细层,其主要功能是存储数据中台里按照主题划分的明细层数据;所述DWS层的全称为datawarehouseservice,意为数据中台汇总层,其主要功能是存储经明细汇总后的数据,起到减去数据量和统一指标加工的作用;所述DM层的全称是DataMarket层,意为数据集市层,其主要功能是以某个业务应用为出发点建设局部数据仓库;所述DIM层的全称为Dimension层,意为维度层,其主要功能是建立数据分析维表,可以降低数据计算口径和算法不统一的风险。示例性的,所述ODS层中的表命名规范为:ODS_业务***数据库名_业务***数据库表名,所述DWD层、DWS层、DM层中的表命名规范为:层级名称_主题域_业务过程_描述_分表规则,所述DIM层中的表命名规范为:DIM_主数据域_描述_分表规则。
该可选的实施例中,可基于所述采样时间点运行预设的SQL脚本以采集数据中台内所有表的名称数据集Table_name,并依据预设的Python脚本对所述Table_name中的表名称进行标记,其中,符合所述表命名规范的表名可被标记为“规范”,不符合所述表命名规范的表名则被标记为“不规范”,依据所述采样时间点利用预设的Python脚本解析,统计所述Table_name中的表名称数据以获得符合命名规范的表总数S,其中S为正整数。
该可选的实施例中,可基于所述采样时间点利用自定义程序统计数据中台中所有表的数量N,其中N为正整数,依据预设程序统计数据中台中所有表的后置依赖总数量M,其中M为正整数,依据预设的SQL脚本统计所述数据中台ODS层中所有表的后置依赖总数K,其中K为正整数。在每个采样时间点均会采集到包含有S、N、M、K的一条数据,由于所述采样时间点有720个,因此共有720条包含所述S、N、M、K的采样数据。由于M代表所有表的后置依赖总数量,而N代表所有表的总数量,因此M大于或等于N;由于K仅代表所述ODS层中所有表的后置依赖总数,而N代表所有表的总数,因此K小于N。可将一个采样时长内的每条包含S、N、M和K的数据作为所述结构数据。
该可选的实施例中,可基于所述采样时长利用预设的SQL脚本提取数据中台运行日志Log,示例性的,所述Log的第一列可以是日志的时间戳,第二列可以是被调用的应用程序名称,第三列可以是应用状态/报错信息。解析所述Log中的信息可获得的日志数据包括:所述一个采样时长内的所有的应用程序被中台调用的总次数W,W为正整数;所述一个采样时长内,每个应用程序被调用的次数Count,Count为正整数;在一个采样时长内,每个应用程序运行的总时长Time,0<Time<30日;在一个采样时长内,每个应用程序报错的次数Warning_count,Warning_count为正整数;在一个采样时长内,每个应用程序占用CPU的总时长CPU_time,0<CPU_time<30日。
S102,联合存储所述结构数据和所述日志数据以获取所述数据集。
该可选的实施例中,可将所述结构数据和所述日志数据联合存储为CSV格式的文档,进一步可将所述CSV格式的文档作为所述数据集。
如此,基于数据中台的层级结构与运行日志构建了所述数据集,为后续量化指标的构建与数据分析步骤提供了数据支撑,从而能够避免传统的概念化指标评估方法带来的泛化误差。
S11,解析所述数据集中的结构数据以构建结构指标。
在一个可选的实施例中,解析所述数据集中的结构数据以构建结构指标包括:
该可选的实施例中,可依据数据中台可能出现的结构问题解析所述结构数据以构建数据中台的结构指标。所述数据中台的结构问题至少包括:数据口径不一致,烟囱式开发,源数据质量差。
该可选的实施例中,所述数据口径不一致具体指数据中台的表名称不符合规范要求,导致查询数据时取到错误的数据;所述烟囱式开发具体指数据中台每次遇到新的需求都从所述ODS层中的原始数据重新计算,针对所述新的需求重新构建数据分析逻辑,对资源消耗大,会造成队列阻塞;所述源数据质量差具体指除了ODS层之外的表过多的依赖于ODS层中的表。
该可选的实施例中,由于所述ODS层中的表未经过数据清洗,进而导致数据中台中的数据整体质量较差,可构建规范率指标A以评估所述数据口径不一致问题,所述规范率指标A的计算方式为:
A=S/N
其中,S代表基于某一个采样时间点获取的所述数据中台内所有表的名称数据集中符合命名规范的表总数,S的取值为正整数;N代表基于某一个采样时间点获取的所述数据中台中所有表的数量,N的取值为正整数;A代表基于某一个采样时间点对应获取的一个规范率指标,A的取值范围为(0,1];所述规范率指标越高,则代表该时刻数据中台中的表命名越规范,调用数据表时报错的概率越低,说明所述数据中台的结构越完善。
该可选的实施例中,示例性的,当S=100且N=102时,所述规范率指标的计算方式为:
A=100/102=0.98
其中,所述规范率指标A=0.98。
该可选的实施例中,可构建复用率指标B以评估所述烟囱式开发问题,所述复用率指标B的计算方式为:
B=M/N
其中,M代表基于某一个采样时间点获取的所述数据中台中所有表的后置依赖总数量,M为正整数;N代表基于某一个采样时间点获取的所述数据中台中所有表的数量,N为正整数;B代表基于某一个采样时间点对应获取的复用率指标,B的取值范围为[1,+∞];所述复用率指标越高,代表该时刻数据中台中的表被重复利用的效率越高,说明数据中台的结构越完善。
该可选的实施例中,示例性的,当M=600且N=102时,所述复用率指标的计算方式为:
B=600/102=5.88
其中,所述复用率指标B=5.88。
该可选的实施例中,可构建覆盖率指标C以评估所述源数据质量差问题,所述覆盖率指标C的计算方式为:
C=1-K/N
其中,C代表基于某一个采样时间点获取的覆盖率指标,C的取值范围为(0,1);K代表基于某一个采样时间点获取的所述数据中台ODS层中所有表的后置依赖总数,K的取值为正整数;N代表基于某一个采样时间点获取的所述数据中台中所有表的数量,N的取值为正整数;所述覆盖率指标越高,代表该时刻所述ODS层中的表被复用的次数越少,说明所述数据中台的数据质量越高。
该可选的实施例中,示例性的,当K=50且N=102时,所述覆盖率指标的计算方式为:
C=1-50/102=0.51
其中,所述覆盖率指标C=0.51。
该可选的实施例中,可将所述指标A、B和C作为所述结构指标,由于所述结构数据包含720条数据,因此所述数据中台结构指标A、B、C也分别包含720条数据。
如此,依据数据中台可能出现的问题并结合数据中台的表命名规则构建了结构指标,所述结构指标能够表征数据中台的结构性能并为后续指标评估提供数据支撑,提升后续评估的准确度。
S12,计算所述数据集中的日志数据的权重以构建业务指标。
请参见图2,在一个可选的实施例中,计算所述数据集中的日志数据的权重以构建业务指标包括:
S121,计算所述数据中台中的一个应用程序被调用的次数与所有应用程序被调用的总次数的比值,将该比值作为该应用程序的第一权重。
该可选的实施例中,可基于所述W、Count、Time、Warning_count、CPU_time,构建所述数据中台的业务指标。在所述采样时长内,一个应用程序被调用的次数占所有应用程序被调用的总次数越多,则该应用程序对于数据中台业务性能的表征即更重要,该应用程序的权重越高,针对该应用程序构建第一权重为D,其中D=Count/W,D的取值范围为(0,1),其中D越高,该应用程序越重要。
S122,计算所述数据中台中的一个应用程序占用中央处理单元的总时长与该应用程序运行的总时长的比值,将该比值作为该应用程序的第二权重。
在所述采样时长内,每个应用程序占用CPU的时长与该应用程序运行总时长的比值越高,则此应用程序在运行过程中与数据中台产生的数据交互越多,则该应用程序的权重越高。则针对于此应用程序构建第二权重为E,其中E=CPU_time/Time,E的取值范围为(0,1),其中E越高,该应用程序越重要。
S123,计算所述数据中台中的一个应用程序报错的次数与该应用程序被调用的总次数的比值,并计算预设的调和实数与该比值的差值,将该差值作为该应用程序的第三权重。
在所述采样时长内,每个应用程序报错的次数与其被调用次数的比值越低,说明该应用程序的业务逻辑较完备,则该应用程序的权重越高。针对于此应用程序构建第三权重为F,其中F=R-(Warning_count/Count),其中,R代表预设的调和实数,示例性的,R可以是1,F的取值范围为(0,1),F越高,则应用程序越重要。
S124,基于所述第一权重、第二权重和第三权重构建所述业务指标。
基于所述应用程序的三个权重D、E、F与前述日志数据中的每一条时间戳对应的应用程序的状态构建数据中台的业务指标G,若该时间戳对应的应用程序状态正常,则该时间戳对应的数据中台的业务指标构建方式为:1与所述第一、第二、第三权重的乘积,记为G=1*D*E*F;反之,若该应用程序报错,则该时间戳对应数据中台的业务指标的构建方式为:-1与所述第一,第二,第三权重的乘积,记为G=-1*D*E*F。
该可选的实施例中,数据中台的运行日志的采样时长为30日,所述运行日志的时间戳频率通常为1Hz即每秒记录一次应用运行状态,因此所述数据中台的业务指标G包含2592000个数据。
如此,结合数据中台业务逻辑运行过程中的日志数据构建了数据中台的业务指标,能够表征数据中台中的应用程序运行过程中的性能波动,并在时序上为所述业务指标赋予可解析性,从而提升后续评估模型的性能。
S13,更新所述结构指标和所述业务指标以获取更新指标。
请参见图3,在一个可选的实施例中,更新所述结构指标和所述业务指标以获取更新指标包括:
S131,依据所述结构指标和所述业务指标构建协方差矩阵。
该可选的实施例中,可基于所述A、B、C三个结构指标构建数据中台层级结构相关指标数据集,所述指标数据集包括720行(对应720个采样时间点)、3列(对应三个指标)。
该可选的实施例中,由于所述业务指标G的维度与所述结构指标的维度不同,因此可依据所述采样时间点从所述业务指标G中筛选出720个业务指标数据。
该可选的实施例中,可逐列排列结构指标A、B、C与筛选出的720个业务指标G以构建数据集,并记为Data。可基于所述Data中的每一列指标,计算协方差矩阵,记协方差矩阵为Z。
S132,计算所述协方差矩阵的特征值以获取所述结构指标和业务指标的权重。
计算所述Z矩阵的特征值,由于所述指标有四项,因此可获得四个特征值,分别记为WA、WB、WC、WG
该可选的实施例中,可将所述四个特征值作为所述结构指标和业务指标的权重,所述特征值的下标对应相应的指标。
S133,依据所述权重更新所述结构指标和业务指标以获取更新指标。
该可选的实施例中,可基于所述权重与所述指标的乘积更新所述结构指标和业务指标,示例性的,更新之后的A指标记为Anew,Anew=A·WA;更新之后的B指标记为Bnew,Bnew=B·WB;更新之后的C指标记为Cnew,Cnew=C·WC;更新之后的G指标记为Gnew,Gnew=G·WG
如此,基于结构指标和业务指标构建了协方差矩阵并计算了所述协方差矩阵的特征值,所述特征值能够表征所述结构指标与业务指标的重要性,将所述特征值作为权重更新结构指标和业务指标能够避免指标平权带来的误差,提升后续评估的准确度。
S14,依据插值算法对所述更新指标进行插值以构建初始训练数据集。
请参见图4,在一个可选的实施例中,所述依据插值算法对所述更新指标进行插值以构建初始训练数据集包括:
S141,拆分所述更新指标以获取更新指标区间集。
该可选的实施例中,针对所述更新后的指标数据,可利用三次样条插值法获得时间跨度为720小时的数据中台结构指标波动曲线与数据中台业务指标波动曲线。所述三次样条插值法为一种模型拟合算法,以指标A为例,其主要过程为,将指标A的数据点集合分为n个区间,示例性的,由于采样时间点一共有720个,则n=719,每两个采样时间点之间为一个区间。
该可选的实施例中,可将所述719个区间组作为所述区间集。
S142,依据所述插值算法拟合所述更新指标区间集内的数据以获得函数曲线集。
该可选的实施例中,在所述每个区间上,区间之间的点应满足三次方程,S(xi)=yi=ai+bi·xi+ci·xi 2+di·xi 3,这一方程被称为三次样条函数,其中yi表征第i个采样时间点处指标的值,xi表征第i个时间点的值,所述三次样条函数应满足以下三个条件:所有点需满足插值条件;n-1个内部点的一阶导数与二阶导数应为连续的;所述函数曲线在两个端点的二阶导数为0。依据所述三个条件,可求解所述三次样条函数进而获得三次样条方程的系数ai、bi、ci、di,进一步可基于所述三次样条方程的系数拟合所述每个区间中的函数曲线以获得所述函数曲线集。
S143,依据所述函数曲线集中曲线起点对应的采样时间点对函数曲线进行排序以获得排序函数曲线集。
该可选的实施例中,可依据所述函数曲线的起点对应的采样时间点对所述函数曲线集中的曲线进行排序以获得排序函数曲线集,若所述函数曲线的起点对应的采样时间点较早,则该函数曲线的排序顺位也较早。
S144,将所述排序函数曲线集中的曲线首尾相连以获取所述初始训练数据集。
该可选的实施例中,可依据所述排序函数曲线集中函数曲线的顺序将所述函数曲线的首尾相连,以获取所述初始训练数据集。
如此,通过插值算法将时序上离散的指标数据补全为连续的序列数据,能够扩展数据采集结果并提升数据储备,为后续评估模型的拟合提供了更完备的数据支撑,从而能够提升评估模型的性能。
S15,依据所述初始训练数据集构建性能评估模型。
在一个可选的实施例中,依据所述初始训练数据集构建性能评估模型包括:
该可选的实施例中,可基于所述初始训练数据集训练预设的待更新神经网络模型以获取所述性能评估模型。
该可选的实施例中,可依据预设频率采集所述初始训练数据集中的数据以构建更新训练数据集,其目的是将连续的时间序列转换为时序上离散的数据,以便进行后续预设的待更新神经网络模型的训练。示例性的,所述预设的频率可以为3000Hz,则所述更新训练数据集维度为7.776×109×4,共7.776×109行、4列,其中每一行数据可被视为一个1*4的向量,记为vi,i∈[1,7.776×109]。
该可选的实施例中,所述待更新神经网络模型可以是LSTM网络,可基于所述更新训练数据集训练所述LSTM网络,所述LSTM是一种时序神经网络,其全称为LongShortTermMemory,意为长短期记忆神经网络,所述LSTM网络由神经元组成,其中的神经元为串行连接,所述每个神经元包含三项输入数据与两项输出数据,所述输入数据包括:Ct-1,上一时刻的记忆信息;ht-1,上一时刻的输出数据;xt,当前时刻的输入数据,所述输出数据包括:Ct,当前时刻的记忆信息;ht当前时刻的输出数据。
该可选的实施例中,所述每个神经元包含三个计算部分:遗忘门;输入门;输出门。所述遗忘门的主要过程为,将上一时刻的输出数据ht-1与当前时刻的输入数据xt共同输入Sigmoid函数,输出结果介于0-1之间,记为σ1。所述σ1可以表征上一时刻记忆的重要程度。输入门的主要过程为,将上一时刻的输出数据ht-1与当前时刻的输入数据xt共同输入Sigmoid函数,获得当前输入的重要性因子,取值介于[0,1]之间,记为σ2;将上一时刻的输出数据ht-1与本时刻的输入数据xt共同输入tanh函数,获得当前输入的中心化值,取值介于[-1,1]之间,记为tanh1。所述σ2与tanh1之间的乘积为当前时刻的状态信息Ct。所述输出门的主要过程为,所述上一时刻的输出数据ht-1与当前时刻的输入数据xt共同输入Sigmoid函数,输出取值介于[0,1]之间,记为σ3。所述σ3被用来评估当前时刻的状态信息Ct有多少输出的价值,σ3越高,则Ct的输出价值越高。将所述当前时刻状态信息Ct输入tanh函数,获得结果为[-1,1],记为tanh2。当前时刻的输出数据ht=σ3·tanh2
该可选的实施例中,所述v1即为时间点t=1时所述LSTM网络的输入值x1,Ct-1与ht-1的初始值可被设置为0。基于所述LSTM网络的训练方法和所述Train_data,可训练出完备的LSTM网络。开发人员可随时采集某时刻的数据中台结构指标与业务指标,输入所述完备的LSTM网络,对未来时间段内的数据中台的量化指标进行预测并评估。
该可选的实施例中,可将所述训练完备的LSTM网络作为所述性能评估模型。
S16,采集实时数据输入所述性能评估模型以获取数据中台的评估结果。
如图5所示,在一个可选的实施例中,所述采集实时数据输入所述性能评估模型以获取数据中台的评估结果包括:
S161,实时采集所述数据中台相关数据。
该可选的实施例中,数据中台的开发人员可实时采集所述数据中台相关数据,所述数据中台的相关数据包括实时结构数据和实时日志数据。
该可选的实施例中,所述实时结构数据可以是一条包含四个维度的数据,所述四个维度包括某一个时刻所述数据中台中符合命名规范的表总数、所述数据中台中所有表的数量、所述数据中台中所有表的后置依赖总数量和所述数据中台ODS层中所有表的后置依赖总数。
该可选的实施例中,所述实时日志数据包括在过去一个采样时长内所有的应用程序被中台调用的总次数,数据中台的运行日志中该采样时刻记录的应用程序在过去一个采样时长内被调用的次数,该应用程序在过去一个采样时长内运行的总时长,该应用程序在过去一个采样时长内报错的次数,该应用程序在过去一个采样时长内占用CPU的总时长。
S162,实时构建并更新结构指标和业务指标,得到实时更新指标。
该可选的实施例中,可基于步骤S11和步骤S12利用所述实时结构数据和实时日志数据构建实时结构指标和实时业务指标。
该可选的实施例中,可基于步骤S13更新所述实时结构指标和实时业务指标以获取实时更新指标。
S163,将所述实时更新指标输入所述性能评估模型对所述数据中台进行评估并获取评估结果。
该可选的实施例中,可将所述实时更新指标输入所述性能评估模型中以获得未来某一段时间内的数据中台指标的波动性,进一步可对数据中台在未来某段时间内的性能波动进行量化评估。
该可选的实施例中,当所述数据中台指标波动性与预设阈值之间的余弦距离大于0.5时,评估结果为“不合格”,若所述数据中台指标波动性与预设阈值之间的余弦距离不大于0.5时,评估结果为“合格”。
如此,基于所述初始训练数据集获得了性能评估模型,所述性能评估模型能够通过实时的指标数据评估数据中台性能的波动性,相较于现有方法更高效更准确。
上述数据中台评估方法中,通过分析数据中台的结构与运行日志构建量化指标,并计算量化指标的权重以获取更新指标,进而依据更新指标对数据中台进行评估。如此,可以针对数据中台的多个主要问题进行量化评估,并考虑了不同指标的重要性,提升了评估结果的准确度。
如图6所示,是本申请实施例提供的基于人工智能的数据中台评估装置的较佳实施例的功能模块图。基于人工智能的数据中台评估装置11包括获取单元110、第一构建单元111、计算单元112、更新单元113、第二构建单元114、第三构建单元115、评估单元116。本申请所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
在一个可选的实施例中,获取单元110用于搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据。
该可选的实施例中,所述搭建数据中台以获取数据集包括:
依据预设的数据采样时间点采集所述数据中台的结构数据和日志数据;
联合存储所述结构数据和所述日志数据以获取所述数据集。
该可选的实施例中,所述数据中台是一种集中存储海量数据并可以对数据进行快速加工、分析的平台,所述数据中台中的数据具备的特征包括多个来源、多种类型。
该可选的实施例中,可基于企业的数据中台的应用程序的生命周期制定采样时长和采样频率,示例性的,所述采样时长可以为一个自然月,即30个自然日;所述采样频率可以为1/3600Hz,即每小时采样一次,进而可基于所述采样时长和采样频率制定所述采样时间点,所述采样时间点之间的间隔为一个小时,所述采样时间点的总数量为720个。
该可选的实施例中,可依据数据中台的层级结构制定数据中台的表命名规范,所述数据中台的层级结构包括ODS层、DWD层、DWS层、DM层和DIM层。所述ODS的全称为OperationalDataStore层,意为操作数据层,其主要功能是对各个业务数据进行采集、汇聚、整合以增加数据标识并使非结构数据转化为结构数据;所述DWD层的全称为DataWarehouseDetail,意为数据中台明细层,其主要功能是存储数据中台里按照主题划分的明细层数据;所述DWS层的全称为datawarehouseservice,意为数据中台汇总层,其主要功能是存储经明细汇总后的数据,起到减去数据量和统一指标加工的作用;所述DM层的全称是DataMarket层,意为数据集市层,其主要功能是以某个业务应用为出发点建设局部数据仓库;所述DIM层的全称为Dimension层,意为维度层,其主要功能是建立数据分析维表,可以降低数据计算口径和算法不统一的风险。示例性的,所述ODS层中的表命名规范为:ODS_业务***数据库名_业务***数据库表名,所述DWD层、DWS层、DM层中的表命名规范为:层级名称_主题域_业务过程_描述_分表规则,所述DIM层中的表命名规范为:DIM_主数据域_描述_分表规则。
该可选的实施例中,可基于所述采样时间点运行预设的SQL脚本以采集数据中台内所有表的名称数据集Table_name,并依据预设的Python脚本对所述Table_name中的表名称进行标记,其中,符合所述表命名规范的表名可被标记为“规范”,不符合所述表命名规范的表名则被标记为“不规范”,依据所述采样时间点利用预设的Python脚本解析,统计所述Table_name中的表名称数据以获得符合命名规范的表总数S,其中S为正整数。
该可选的实施例中,可基于所述采样时间点利用自定义程序统计数据中台中所有表的数量N,其中N为正整数,依据预设程序统计数据中台中所有表的后置依赖总数量M,其中M为正整数,依据预设的SQL脚本统计所述数据中台ODS层中所有表的后置依赖总数K,其中K为正整数。在每个采样时间点均会采集到包含有S、N、M、K的一条数据,由于所述采样时间点有720个,因此共有720条包含所述N、M、K的采样数据。由于M代表所有表的后置依赖总数量,而N代表所有表的总数量,因此M大于或等于N;由于K仅代表所述ODS层中所有表的后置依赖总数,而N代表所有表的总数,因此K小于N。可将一个采样时长内的每条包含S、N、M和K的数据作为所述结构数据。
该可选的实施例中,可基于所述采样时长利用预设的SQL脚本提取数据中台运行日志Log,示例性的,所述Log的第一列可以是日志的时间戳,第二列可以是被调用的应用程序名称,第三列可以是应用状态/报错信息。解析所述Log中的信息可获得的日志数据包括:所述一个采样时长内的所有的应用程序被中台调用的总次数W,W为正整数;所述一个采样时长内,每个应用程序被调用的次数Count,Count为正整数;在一个采样时长内,每个应用程序运行的总时长Time,0<Time<30日;在一个采样时长内,每个应用程序报错的次数Warning_count,Warning_count为正整数;在一个采样时长内,每个应用程序占用CPU的总时长CPU_time,0<CPU_time<30日。
该可选的实施例中,可将所述结构数据和所述日志数据联合存储为CSV格式的文档,进一步可将所述CSV格式的文档作为所述数据集。
在一个可选的实施例中,第一构建单元111用于解析所述数据集中的结构数据以构建结构指标。
该可选的实施例中,所述结构指标包括:
规范率指标,所述规范率指标为符合表命名规范的表数量与所述数据中台中所有表的总数量的比值;
复用率指标,所述复用率指标为具备前置依赖的表的数量与数据中台中所有表的总数量的比值,所述前置依赖是指该表中的数据是基于其他表中的数据获得;
覆盖率指标,所述覆盖率指标为不具备前置依赖但具备后置依赖的表数量与数据中台中所有表的总数量的比值,所述后置依赖是指其他表中的数据是基于该表中的数据获得。
该可选的实施例中,可依据数据中台可能出现的结构问题解析所述结构数据以构建数据中台的结构指标。所述数据中台的结构问题至少包括:数据口径不一致,烟囱式开发,源数据质量差。
该可选的实施例中,所述数据口径不一致具体指数据中台的表名称不符合规范要求,导致查询数据时取到错误的数据;所述烟囱式开发具体指数据中台每次遇到新的需求都从所述ODS层中的原始数据重新计算,针对所述新的需求重新构建数据分析逻辑,对资源消耗大,会造成队列阻塞;所述源数据质量差具体指除了ODS层之外的表过多的依赖于ODS层中的表。
该可选的实施例中,由于所述ODS层中的表未经过数据清洗,进而导致数据中台中的数据整体质量较差,可构建规范率指标A以评估所述数据口径不一致问题,所述规范率指标A的计算方式为:
A=S/N
其中,S代表基于某一个采样时间点获取的所述数据中台内所有表的名称数据集中符合命名规范的表总数,S的取值为正整数;N代表基于某一个采样时间点获取的所述数据中台中所有表的数量,N的取值为正整数;A代表基于某一个采样时间点对应获取的一个规范率指标,A的取值范围为(0,1];所述规范率指标越高,则代表该时刻数据中台中的表命名越规范,调用数据表时报错的概率越低,说明所述数据中台的结构越完善。
该可选的实施例中,示例性的,当S=100且N=102时,所述规范率指标的计算方式为:
A=100/102=0.98
其中,所述规范率指标A=0.98。
该可选的实施例中,可构建复用率指标B以评估所述烟囱式开发问题,所述复用率指标B的计算方式为:
B=M/N
其中,M代表基于某一个采样时间点获取的所述数据中台中所有表的后置依赖总数量,M为正整数;N代表基于某一个采样时间点获取的所述数据中台中所有表的数量,N为正整数;B代表基于某一个采样时间点对应获取的复用率指标,B的取值范围为[1,+∞];所述复用率指标越高,代表该时刻数据中台中的表被重复利用的效率越高,说明数据中台的结构越完善。
该可选的实施例中,示例性的,当M=600且N=102时,所述复用率指标的计算方式为:
B=600/102=5.88
其中,所述复用率指标B=5.88。
该可选的实施例中,可构建覆盖率指标C以评估所述源数据质量差问题,所述覆盖率指标C的计算方式为:
C=1-K/N
其中,C代表基于某一个采样时间点获取的覆盖率指标,C的取值范围为(0,1);K代表基于某一个采样时间点获取的所述数据中台ODS层中所有表的后置依赖总数,K的取值为正整数;N代表基于某一个采样时间点获取的所述数据中台中所有表的数量,N的取值为正整数;所述覆盖率指标越高,代表该时刻所述ODS层中的表被复用的次数越少,说明所述数据中台的数据质量越高。
该可选的实施例中,示例性的,当K=50且N=102时,所述覆盖率指标的计算方式为:
C=1-50/102=0.51
其中,所述覆盖率指标C=0.51。
该可选的实施例中,可将所述指标A、B和C作为所述结构指标,由于所述结构数据包含720条数据,因此所述数据中台结构指标A、B、C也分别包含720条数据。
在一个可选的实施例中,计算单元112用于计算所述数据集中的日志数据的权重以构建业务指标。
该可选的实施例中,所述计算日志数据的权重以构建业务指标包括:
计算所述数据中台中的一个应用程序被调用的次数与所有应用程序被调用的总次数的比值,将该比值作为该应用程序的第一权重;
计算所述数据中台中的一个应用程序占用中央处理单元的总时长与该应用程序运行的总时长的比值,将该比值作为该应用程序的第二权重;
计算所述数据中台中的一个应用程序报错的次数与该应用程序被调用的总次数的比值,并计算预设的调和实数与该比值的差值,将该差值作为该应用程序的第三权重;
基于所述第一权重、第二权重和第三权重构建所述业务指标。
该可选的实施例中,可基于所述W、Count、Time、Warning_count、CPU_time,构建所述数据中台的业务指标。在所述采样时长内,一个应用程序被调用的次数占所有应用程序被调用的总次数越多,则该应用程序对于数据中台业务性能的表征即更重要,该应用程序的权重越高,针对该应用程序构建第一权重为D,其中D=Count/W,D的取值范围为(0,1),其中D越高,该应用程序越重要。
在所述采样时长内,每个应用程序占用CPU的时长与该应用程序运行总时长的比值越高,则此应用程序在运行过程中与数据中台产生的数据交互越多,则该应用程序的权重越高。则针对于此应用程序构建第二权重为E,其中E=CPU_time/Time,E的取值范围为(0,1),其中E越高,该应用程序越重要。
在所述采样时长内,每个应用程序报错的次数与其被调用次数的比值越低,说明该应用程序的业务逻辑较完备,则该应用程序的权重越高。针对于此应用程序构建第三权重为F,其中F=1-(Warning_count/Count),其中,R代表预设的调和实数,示例性的,R可以是1,F的取值范围为(0,1),F越高,则应用程序越重要。
基于所述应用程序的三个权重D、E、F与前述日志数据中的每一条时间戳对应的应用程序的状态构建数据中台的业务指标G,若该时间戳对应的应用程序状态正常,则该时间戳对应的数据中台的业务指标构建方式为:1与所述第一、第二、第三权重的乘积,记为G=1*D*E*F;反之,若该应用程序报错,则该时间戳对应的数据中台的业务指标的构建方式为:-1与所述第一,第二,第三权重的乘积,记为G=-1*D*E*F。
该可选的实施例中,数据中台的运行日志的采样时长为30日,所述运行日志的时间戳频率通常为1Hz即每秒记录一次应用运行状态,因此所述数据中台的业务指标G包含2592000个数据。
在一个可选的实施例中,更新单元113用于更新所述结构指标和所述业务指标以获取更新指标。
该可选的实施例中,所述更新所述结构指标和所述业务指标以获取更新指标包括:
依据所述结构指标和所述业务指标构建协方差矩阵;
计算所述协方差矩阵的特征值以获取所述结构指标和业务指标的权重;
依据所述权重更新所述结构指标和业务指标以获取更新指标。
该可选的实施例中,可基于所述A、B、C三个结构指标构建数据中台层级结构相关指标数据集,所述指标数据集包括720行(对应720个采样时间点)、3列(对应三个指标)。
该可选的实施例中,由于所述业务指标G的维度与所述结构指标的维度不同,因此可依据所述采样时间点从所述业务指标G中筛选出720个业务指标数据。
该可选的实施例中,可逐列排列结构指标A、B、C与筛选出的720个业务指标G以构建数据集,并记为Data。可基于所述Data中的每一列指标,计算协方差矩阵,记协方差矩阵为Z。
计算所述Z矩阵的特征值,由于所述指标有四项,因此可获得四个特征值,分别记为WA、WB、WC、WG
该可选的实施例中,可将所述四个特征值作为所述结构指标和业务指标的权重,所述特征值的下标对应相应的指标。
该可选的实施例中,可基于所述权重与所述指标的乘积更新所述结构指标和业务指标,示例性的,更新之后的A指标记为Anew,Anew=A·WA;更新之后的B指标记为Bnew,Bnew=B·WB;更新之后的C指标记为Cnew,Cnew=C·WC;更新之后的G指标记为Gnew,Gnew=G·WG
在一个可选的实施例中,第二构建单元114用于依据插值算法对所述更新指标进行插值以构建初始训练数据集。
该可选的实施例中,所述依据插值算法对所述更新指标进行插值以构建初始训练数据集包括:
拆分所述更新指标以获取更新指标区间集;
依据所述插值算法拟合所述更新指标区间集内的数据以获得函数曲线集;
依据所述函数曲线集中曲线起点对应的采样时间点对函数曲线进行排序以获得排序函数曲线集;
将所述排序函数曲线集中的曲线首尾相连以获取所述初始训练数据集。
该可选的实施例中,针对所述更新后的指标数据,可利用三次样条插值法获得时间跨度为720小时的数据中台结构指标波动曲线与数据中台业务指标波动曲线。所述三次样条插值法为一种模型拟合算法,以指标A为例,其主要过程为,将指标A的数据点集合分为n个区间,示例性的,由于采样时间点一共有720个,则n=719,每两个采样时间点之间为一个区间。
该可选的实施例中,可将所述719个区间组作为所述区间集。
该可选的实施例中,在所述每个区间上,区间之间的点应满足三次方程,S(xi)=yi=ai+bi·xi+ci·xi 2+di·xi 3,这一方程被称为三次样条函数,其中yi表征第i个采样时间点处指标的值,xi表征第i个时间点的值,所述三次样条函数应满足以下三个条件:所有点需满足插值条件;n-1个内部点的一阶导数与二阶导数应为连续的;所述函数曲线在两个端点的二阶导数为0。依据所述三个条件,可求解所述三次样条函数进而获得三次样条方程的系数ai、bi、ci、di,进一步可基于所述三次样条方程的系数拟合所述每个区间中的函数曲线以获得所述函数曲线集。
该可选的实施例中,可依据所述函数曲线的起点对应的采样时间点对所述函数曲线集中的曲线进行排序以获得排序函数曲线集,若所述函数曲线的起点对应的采样时间点较早,则该函数曲线的排序顺位也较早。
该可选的实施例中,可依据所述排序函数曲线集中函数曲线的顺序将所述函数曲线的首尾相连,以获取所述初始训练数据集。
在一个可选的实施例中,第三构建单元115用于依据所述初始训练数据集构建性能评估模型。
该可选的实施例中,可基于所述初始训练数据集训练预设的待更新神经网络模型以获取所述性能评估模型。
该可选的实施例中,可依据预设频率采集所述初始训练数据集中的数据以构建更新训练数据集,其目的是将连续的时间序列转换为时序上离散的数据,以便进行后续预设的待更新神经网络模型的训练。示例性的,所述预设的频率可以为3000Hz,则所述更新训练数据集维度为7.776×109×4,共7.776×109行、4列,其中每一行数据可被视为一个1*4的向量,记为vi,i∈[1,7.776×109]。
该可选的实施例中,所述待更新神经网络模型可以是LSTM网络,可基于所述更新训练数据集训练所述LSTM网络,所述LSTM是一种时序神经网络,其全称为LongShortTermMemory,意为长短期记忆神经网络,所述LSTM网络由神经元组成,其中的神经元为串行连接,所述每个神经元包含三项输入数据与两项输出数据,所述输入数据包括:Ct-1,上一时刻的记忆信息;ht-1,上一时刻的输出数据;xt,当前时刻的输入数据,所述输出数据包括:Ct,当前时刻的记忆信息;ht当前时刻的输出数据。
该可选的实施例中,所述每个神经元包含三个计算部分:遗忘门;输入门;输出门。所述遗忘门的主要过程为,将上一时刻的输出数据ht-1与当前时刻的输入数据xt共同输入Sigmoid函数,输出结果介于0-1之间,记为σ1。所述σ1可以表征上一时刻记忆的重要程度。输入门的主要过程为,将上一时刻的输出数据ht-1与当前时刻的输入数据xt共同输入Sigmoid函数,获得当前输入的重要性因子,取值介于[0,1]之间,记为σ2;将上一时刻的输出数据ht-1与本时刻的输入数据xt共同输入tanh函数,获得当前输入的中心化值,取值介于[-1,1]之间,记为tanh1。所述σ2与tanh1之间的乘积为当前时刻的状态信息Ct。所述输出门的主要过程为,所述上一时刻的输出数据ht-1与当前时刻的输入数据xt共同输入Sigmoid函数,输出取值介于[0,1]之间,记为σ3。所述σ3被用来评估当前时刻的状态信息Ct有多少输出的价值,σ3越高,则Ct的输出价值越高。将所述当前时刻状态信息Ct输入tanh函数,获得结果为[-1,1],记为tanh2。当前时刻的输出数据ht=σ3·tanh2
该可选的实施例中,所述v1即为时间点t=1时所述LSTM网络的输入值x1,Ct-1与ht-1的初始值可被设置为0。基于所述LSTM网络的训练方法和所述Train_data,可训练出完备的LSTM网络。开发人员可随时采集某时刻的数据中台结构指标与业务指标,输入所述完备的LSTM网络,对未来时间段内的数据中台的量化指标进行预测并评估。
该可选的实施例中,可将所述训练完备的LSTM网络作为所述性能评估模型。
在一个可选的实施例中,评估单元116用于采集实时数据输入所述性能评估模型以获取数据中台的评估结果。
该可选的实施例中,所述采集实时数据输入所述性能评估模型以获取数据中台的评估结果包括:
实时采集所述数据中台相关数据;
实时构建并更新结构指标和业务指标,并得到实时更新指标;
将所述实时更新指标输入所述性能评估模型对所述数据中台进行评估并获取评估结果。
该可选的实施例中,数据中台的开发人员可实时采集所述数据中台相关数据,所述数据中台的相关数据包括实时结构数据和实时日志数据。
该可选的实施例中,所述实时结构数据可以是一条包含四个维度的数据,所述四个维度包括某一个时刻所述数据中台中符合命名规范的表总数、所述数据中台中所有表的数量、所述数据中台中所有表的后置依赖总数量和所述数据中台ODS层中所有表的后置依赖总数。
该可选的实施例中,所述实时日志数据包括在过去一个采样时长内所有的应用程序被中台调用的总次数,数据中台的运行日志中该采样时刻记录的应用程序在过去一个采样时长内被调用的次数,该应用程序在过去一个采样时长内运行的总时长,该应用程序在过去一个采样时长内报错的次数,该应用程序在过去一个采样时长内占用CPU的总时长。
该可选的实施例中,可基于第一构建单元和计算单元利用所述实时结构数据和实时日志数据构建实时结构指标和实时业务指标。
该可选的实施例中,可基于更新单元更新所述实时结构指标和实时业务指标以获取实时更新指标。
该可选的实施例中,可将所述实时更新指标输入所述性能评估模型中以获得未来某一段时间内的数据中台指标的波动性,进一步可对数据中台在未来某段时间内的性能波动进行量化评估。
该可选的实施例中,当所述数据中台指标波动性与预设阈值之间的余弦距离大于0.5时,评估结果为“不合格”,若所述数据中台指标波动性与预设阈值之间的余弦距离不大于0.5时,评估结果为“合格”。
如图7所示,是本申请实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令,处理器13用执行储器中存储的计算机可读指令以实现上述任一实施例的基于人工智能的数据中台评估方法。
在一个可选的实施例中,电子设备1还包括总线、存储在存储器12中并可在处理器13上运行的计算机程序,例如基于人工智能的数据中台评估程序。
图7仅示出了具有组件12-13的电子设备1,本领域技术人员可以理解的是,图7示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,电子设备1中的存储器12存储多个计算机可读指令以实现一种基于人工智能的数据中台评估方法,处理器13可执行多个指令从而实现:
搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据;
解析所述数据集中的结构数据以构建结构指标;
计算所述数据集中的日志数据的权重以构建业务指标;
更新所述结构指标和所述业务指标以获取更新指标;
依据插值算法对所述更新指标进行插值以构建初始训练数据集;
依据所述初始训练数据集构建性能评估模型;
采集实时数据输入所述性能评估模型并获取数据中台的评估结果。
具体地,处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,电子设备1既可以是总线型结构,也可以是星形结构,电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质可以是非易失性的,也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(SmartMediaCard,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(FlashCard)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的数据中台评估程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在存储器12内的程序或者模块(例如执行基于人工智能的数据中台评估程序等),以及调用存储在存储器12内的数据,以执行电子设备1的各种功能和处理数据。
处理器13执行电子设备1的操作***以及安装的各类应用程序。处理器13执行所述应用程序以实现上述各个基于人工智能的数据中台评估方法实施例中的步骤,例如图1-图5所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在存储器12中,并由处理器13执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如,所述计算机程序可以被分割成获取单元110、第一构建单元111、计算单元112、更新单元113、第二构建单元114、第三构建单元115、评估单元116。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述基于人工智能的数据中台评估方法的部分。
电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存储器及其他存储器等。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称PCI)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图7中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现存储器12以及至少一个处理器13等之间的连接通信。
尽管未示出,电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器13逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质(图未示),计算机可读存储介质中存储有计算机可读指令,计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于人工智能的数据中台评估方法。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (10)

1.一种基于人工智能的数据中台评估方法,其特征在于,所述方法包括:
搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据;
解析所述数据集中的结构数据以构建结构指标;
计算所述数据集中的日志数据的权重以构建业务指标;
更新所述结构指标和所述业务指标以获取更新指标;
依据插值算法对所述更新指标进行插值以构建初始训练数据集;
依据所述初始训练数据集构建性能评估模型;
采集实时数据输入所述性能评估模型并获取数据中台的评估结果。
2.如权利要求1所述的基于人工智能的数据中台评估方法,其特征在于,所述搭建数据中台以获取数据集包括:
依据预设的数据采样时间点采集所述数据中台的结构数据和日志数据;
联合存储所述结构数据和所述日志数据得到数据集。
3.如权利要求1所述的基于人工智能的数据中台评估方法,其特征在于,所述结构指标包括:
规范率指标,所述规范率指标为符合表命名规范的表数量与所述数据中台中所有表的总数量的比值;
复用率指标,所述复用率指标为具备前置依赖的表的数量与数据中台中所有表的总数量的比值,所述前置依赖是指该表中的数据是基于其他表中的数据获得;
覆盖率指标,所述覆盖率指标为不具备前置依赖但具备后置依赖的表数量与数据中台中所有表的总数量的比值,所述后置依赖是指其他表中的数据是基于该表中的数据获得。
4.如权利要求1所述的基于人工智能的数据中台评估方法,其特征在于,所述计算所述数据集中的日志数据的权重以构建业务指标包括:
计算所述数据中台中的一个应用程序被调用的次数与所有应用程序被调用的总次数的比值,将该比值作为该应用程序的第一权重;
计算所述数据中台中的一个应用程序占用中央处理单元的总时长与该应用程序运行的总时长的比值,将该比值作为该应用程序的第二权重;
计算所述数据中台中的一个应用程序报错的次数与该应用程序被调用的总次数的比值,并计算预设的调和实数与该比值的差值,将该差值作为该应用程序的第三权重;
基于所述第一权重、第二权重和第三权重构建业务指标,所述业务指标用以表征数据中台中的应用程序在运行过程中的性能。
5.如权利要求1所述的基于人工智能的数据中台评估方法,其特征在于,所述更新所述结构指标和所述业务指标以获取更新指标包括:
依据所述结构指标和所述业务指标构建协方差矩阵;
计算所述协方差矩阵的特征值以获取所述结构指标和业务指标的权重;
依据所述权重更新所述结构指标和业务指标以获取更新指标。
6.如权利要求1所述的基于人工智能的数据中台评估方法,其特征在于,所述依据插值算法对所述更新指标进行插值以构建初始训练数据集包括:
拆分所述更新指标以获取更新指标区间集;
依据所述插值算法拟合所述更新指标区间集内的数据以获得函数曲线集;
依据所述函数曲线集中曲线起点对应的采样时间点对函数曲线进行排序以获得排序函数曲线集;
将所述排序函数曲线集中的曲线首尾相连以获取所述初始训练数据集。
7.如权利要求1所述的基于人工智能的数据中台评估方法,其特征在于,所述采集实时数据输入所述性能评估模型并获取数据中台的评估结果包括:
实时采集所述数据中台相关数据,所述相关数据包括实时结构数据和实时日志数据;
实时构建并更新结构指标和业务指标,得到实时更新指标;
将所述实时更新指标输入所述性能评估模型对所述数据中台进行评估并获取评估结果。
8.一种基于人工智能的数据中台评估装置,其特征在于,所述装置包括:
获取单元,用于搭建数据中台以获取数据集,所述数据集包括结构数据和日志数据;
第一构建单元,用于解析所述数据集中的结构数据以构建结构指标;
计算单元,用于计算所述数据集中的日志数据的权重以构建业务指标;
更新单元,用于更新所述结构指标和所述业务指标以获取更新指标;
第二构建单元,用于依据插值算法对所述更新指标进行插值以构建初始训练数据集;
第三构建单元,用于依据所述初始训练数据集构建性能评估模型;
评估单元,用于采集实时数据输入所述性能评估模型获取所述数据中台的评估结果。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于人工智能的数据中台评估方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的基于人工智能的数据中台评估方法。
CN202210594836.3A 2022-05-27 2022-05-27 基于人工智能的数据中台评估方法及相关设备 Pending CN114924943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210594836.3A CN114924943A (zh) 2022-05-27 2022-05-27 基于人工智能的数据中台评估方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210594836.3A CN114924943A (zh) 2022-05-27 2022-05-27 基于人工智能的数据中台评估方法及相关设备

Publications (1)

Publication Number Publication Date
CN114924943A true CN114924943A (zh) 2022-08-19

Family

ID=82810841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210594836.3A Pending CN114924943A (zh) 2022-05-27 2022-05-27 基于人工智能的数据中台评估方法及相关设备

Country Status (1)

Country Link
CN (1) CN114924943A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456101A (zh) * 2022-09-23 2022-12-09 马建家 一种基于数据中台的数据安全传输方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456101A (zh) * 2022-09-23 2022-12-09 马建家 一种基于数据中台的数据安全传输方法及***
CN115456101B (zh) * 2022-09-23 2023-09-12 上海豹云网络信息服务有限公司 一种基于数据中台的数据安全传输方法及***

Similar Documents

Publication Publication Date Title
CN110865929A (zh) 异常检测预警方法及***
CN113342939B (zh) 数据质量监控方法、装置及相关设备
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN113641659A (zh) 医疗特征数据库构建方法、装置、设备及存储介质
CN111340226A (zh) 一种量化神经网络模型的训练及测试方法、装置及设备
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
CN114924943A (zh) 基于人工智能的数据中台评估方法及相关设备
Mubang et al. Vam: an end-to-end simulator for time series regression and temporal link prediction in social media networks
CN112508440B (zh) 数据质量评估方法、装置、计算机设备及存储介质
CN108154380A (zh) 基于大规模评分数据对用户进行商品在线实时推荐的方法
CN112463532B (zh) 构建snn工作负载自动映射器的方法及自动映射器
CN111915100B (zh) 一种高精度的货运预测方法和货运预测***
CN114926082B (zh) 基于人工智能的数据波动预警方法及相关设备
CN116010216A (zh) 数据资产健康度的评估方法、装置、设备及存储介质
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
CN115204501A (zh) 企业评估方法、装置、计算机设备和存储介质
CN114840767A (zh) 基于人工智能的业务推荐方法及相关设备
CN115617670A (zh) 软件测试管理方法、存储介质及***
CN115408189A (zh) 人工智能与大数据结合的异常检测方法及服务***
CN115238583A (zh) 一种支持增量日志的业务流程剩余时间预测方法与***
CN114510405A (zh) 指标数据评估方法、装置、设备、存储介质及程序产品
CN114862618A (zh) 基于人工智能的城市用水量预测方法、装置、设备及介质
CN114781855A (zh) 基于dea模型的物流传输效率分析方法、装置、设备及介质
CN114511250A (zh) 一种基于机器学习的企业外迁风险预警方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination