CN116991659A - 面向虚拟训练***的数据收集***及方法 - Google Patents

面向虚拟训练***的数据收集***及方法 Download PDF

Info

Publication number
CN116991659A
CN116991659A CN202310752938.8A CN202310752938A CN116991659A CN 116991659 A CN116991659 A CN 116991659A CN 202310752938 A CN202310752938 A CN 202310752938A CN 116991659 A CN116991659 A CN 116991659A
Authority
CN
China
Prior art keywords
module
data
virtual training
sub
data collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310752938.8A
Other languages
English (en)
Inventor
李肖赫
樊子德
邓雅文
王磊
赵新昱
朱可卿
张伊丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202310752938.8A priority Critical patent/CN116991659A/zh
Publication of CN116991659A publication Critical patent/CN116991659A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的面向虚拟训练***的数据收集***及方法,属于数据处理技术领域,***包括:通信连接的收集模块和预处理模块;收集模块,用于对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取每个运行终端的信息数据和数据截图;预处理模块,用于根据每个运行终端的信息数据和数据截图,获取每个运行终端的预处理数据。本发明提供的面向虚拟训练***的数据收集***及方法,通过自动化的非侵入式的数据收集,并整理成便于调用的预处理数据采集接口,能够有效解决训练应用中的数据孤岛的问题,既适用于虚拟训练应用,也适用于web端,能够支持多种类型的数据采集、广泛应用于多种应用场景。

Description

面向虚拟训练***的数据收集***及方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种面向虚拟训练***的数据收集***及方法。
背景技术
如何把训练数据转换为信息、知识,用于指导优化训练过程,是提高训练效果的主要瓶颈。面向虚拟训练软件开展数据仓库技术(Extract-Transform-Load,ETL)是主要的一个技术手段,首先需要收集训练过程数据,快速高效的收集各类型虚拟训练应用中的数据,可以便于后续将数据进行各种变形和转换,构造出易于分析和理解的数据。
在无法直接读取数据存储的情况下,如无法访问数据库时,常见的采集方法包括爬虫等。
但是爬虫只能针对web服务,这种虚拟训练程序数据收集方法局限性较大,无法适应不同的应用场景。
发明内容
本发明提供的面向虚拟训练***的数据收集***及方法,用以解决现有技术中爬虫只能针对web服务,这种虚拟训练程序数据收集方法局限性较大,无法适应不同的应用场景的缺陷,实现通过自动化的非侵入式的数据收集,并整理成便于调用的预处理数据采集接口,能够有效解决训练应用中的数据孤岛的问题,既适用于虚拟训练应用,也适用于web端,能够支持多种类型的数据采集、广泛应用于多种应用场景。
本发明提供一种面向虚拟训练***的数据收集***,包括:通信连接的收集模块和预处理模块;
所述收集模块,用于对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;
所述预处理模块,用于根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
根据本发明提供的一种面向虚拟训练***的数据收集***,所述收集模块,包括:遍历子模块、第一获取子模块和构建子模块;
所述遍历子模块,用于基于测试框架,对所述每个运行终端的虚拟训练过程进行页面遍历和用户行为跟踪,以获取每个***作控件的控件信息,并将控件信息发送至获取子模块;
所述第一获取子模块,具体用于:
在根据任一***作控件的控件信息,确定所述任一***作控件为标准控件的情况下,通过所述任一***作控件获取数据信息;
在根据任一***作控件的控件信息,确定所述任一***作控件为非标准控件的情况下,对操作页面进行截图,以获取数据截图;
所述构建子模块,用于根据虚拟训练的训练类型,对所述每个运行终端的虚拟训练过程的数据信息和数据截图构建索引。
根据本发明提供的一种面向虚拟训练***的数据收集***,所述收集模块还包括跟踪子模块;
所述跟踪子模块,具体用于:
在根据任一***作控件的控件信息,确定所述任一***作控件为非标准控件的情况下,跟踪所述虚拟训练过程中的用户操作;
对所述用户操作进行分析,生成过程文件;
读入所述过程文件,以存入多维元组;
所述多维元组,生成仿真脚本。
根据本发明提供的一种面向虚拟训练***的数据收集***,所述预处理模块包括:第二获取子模块、文字识别子模块和清洗子模块;
所述第二获取子模块,用于根据预设模板,获取所述标准控件中的所述信息数据;所述预设模板是基于所述过程文件生成的;
所述文字识别子模块,用于抽取所述数据截图中的文字信息;
所述清洗子模块,用于对所述信息数据和所述文字信息进行数据清洗,以获取所述预处理数据。
根据本发明提供的一种面向虚拟训练***的数据收集***,所述***还包括存储模块,所述存储模块连接所述预处理模块,所述存储模块包括:第一级存储子模块,第二级存储子模块和第三级存储子模块;
所述第一级存储子模块,用于存储所有的运行终端的所述预处理数据;
所述第二级存储子模块,用于根据每个运行终端上虚拟训练的类型和索引,对每个类型的所述预处理数据进行分类存储;
所述第三级存储子模块,用于对所述第二级存储子模块中分类后的预处理数据进行汇聚存储。
根据本发明提供的一种面向虚拟训练***的数据收集***,所述***还包括管理模块;
所述管理模块分别与所述收集模块、所述预处理模块和所述存储模块连接;
所述管理模块,用于对所述收集模块、所述预处理模块和所述存储模块进行状态监控和服务调用。
根据本发明提供的一种面向虚拟训练***的数据收集***,所述管理模块,包括:监控子模块和调用子模块;
所述监控子模块,用于监控所述收集模块的数据收集速度,所述预处理模块的处理进度,以及所述存储模块的数据存储状况和可用容量;
所述调用子模块,用于控制所述收集模块在数据收集过程中的启动和停止。
本发明还提供一种面向虚拟训练***的数据收集方法,应用于如上述任一种所述的面向虚拟训练***的数据收集***,所述方法包括:
对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;
根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向虚拟训练***的数据收集方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向虚拟训练***的数据收集方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向虚拟训练***的数据收集方法。
本发明提供的面向虚拟训练***的数据收集***及方法,通过自动化的非侵入式的数据收集,并整理成便于调用的预处理数据采集接口,能够有效解决训练应用中的数据孤岛的问题,既适用于虚拟训练应用,也适用于web端,能够支持多种类型的数据采集、广泛应用于多种应用场景。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的面向虚拟训练***的数据收集***的结构示意图之一;
图2是本发明提供的自动化遍历过程的流程图;
图3是本发明提供的监听参训用户操作的流程图;
图4是本发明提供的跟踪屏幕中具体坐标位置操作的流程图;
图5是本发明提供的存储模块的架构示意图;
图6是本发明提供的面向虚拟训练***的数据收集***的结构示意图之二;
图7是本发明提供的面向虚拟训练***的数据收集方法的流程示意图之一;
图8是本发明提供的面向虚拟训练***的数据收集方法的流程示意图之二;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,市面上各类型虚拟训练软件种类繁多,训练过程数据如何快速收集关系到组训者能否快速开展针对训练效能的分析评估。大多数训练***花费大量的资金和时间来构建与训练过程相关的联机事务处理(On-Line Transaction Processing,OLTP)业务***和自动化训练效能评估***,用来记录训练过程的各种相关数据。但是市面上大多数虚拟训练软件由各公司自主开发,软件独立封闭,无法直接通过应用接口获取训练过程数据。
web数据源的结构相对清晰、数据较容易获取,然而,缺少一种自动化的数据收集方法,也缺少对收集数据的存储与管理。
对各类虚拟训练软件与应用对于各种应用程序获取数据的难度更大,常见的人工摘录等方法耗时耗力;而在应用中埋点的方法,只适合于拥有程序源码并获得修改权限的情况下,局限性很大。
下面结合图1-图9描述本发明的实施例所提供的面向虚拟训练***的数据收集***及方法。
图1是本发明提供的面向虚拟训练***的数据收集***的结构示意图之一,如图1所示,所述数据收集***100包括:通信连接的收集模块110和预处理模块120;
所述收集模块110,用于对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;
所述预处理模块120,用于根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
其中,虚拟训练过程可以是web服务、应用服务等面对虚拟训练的服务形式,在本发明后续实施例中均以对虚拟训练应用进行数据收集为例进行说明,其不视为对本发明保护范围的限定。
收集模块可以同时对多个运行终端进行数据采集,提供一种可扩展的数据采集服务。
其中,页面遍历是对虚拟训练过程中的每个页面进行遍历,行为跟踪是对用户的操作行为进行跟踪。
预处理模块对收集模块发送的信息数据的数据截图进行进一步的信息提取和数据清洗等预处理,可以得到每个运行终端的预处理数据。
本发明提供的面向虚拟训练***的数据收集***,通过自动化的非侵入式的数据收集,并整理成便于调用的预处理数据采集接口,能够有效解决训练应用中的数据孤岛的问题,既适用于虚拟训练应用,也适用于web端,能够支持多种类型的数据采集、广泛应用于多种应用场景。
可选地,所述收集模块,包括:遍历子模块、第一获取子模块和构建子模块;
所述遍历子模块,用于基于测试框架,对所述每个运行终端的虚拟训练过程进行页面遍历和用户行为跟踪,以获取每个***作控件的控件信息,并将控件信息发送至获取子模块;
所述第一获取子模块,具体用于:
在根据任一***作控件的控件信息,确定所述任一***作控件为标准控件的情况下,通过所述任一***作控件获取数据信息;
在根据任一***作控件的控件信息,确定所述任一***作控件为非标准控件的情况下,对操作页面进行截图,以获取数据截图;
所述构建子模块,用于根据虚拟训练的训练类型,对所述每个运行终端的虚拟训练过程的数据信息和数据截图构建索引。
控件信息包括:控件类型、控件种类名称、编号、控件所在位置坐标和控件名称。
收集模块在收集数据时,采用页面自动化遍历以及参训用户行为跟踪的方式收集虚拟训练应用的数据,得到控件信息与数据截图。
在页面自动化遍历过程中,对于虚拟训练应用,遍历子模块借助测试框架(如airtest)操作终端,配合深度优先遍历算法在虚拟训练应用上进行页面遍历,遍历的过程中获取句柄和控件信息。
其中,句柄为控件抓取信息的编号,通过句柄可以调用控件中的信息。
图2是本发明提供的自动化遍历过程的流程图,如图2所示,包括:
首先,通过XML路径语言(XML Path Language,XPath)页面抽取虚拟训练应用的页面元素与控件;
其次,根据设定的和获取数据有关的控件名称和控件类型对控件进行识别,确定标准控件和非标准控件,最终深度优先遍历得到路径记录与重定向以及弹窗(安装过程,权限,app提示)等;
接着,获取每个***作控件的句柄、控件信息,通过标准控件获取数据信息,对非标准控件进行数据截图,同时生成相应功能过程图;
在页面自动化遍历得到路径记录后,还可以结合测试框架(如airtest)操作封装的数据接口,直接进行相关的操作脚本编写;
最后,数据文件建立索引优化。
在页面遍历过程中,每次参与训练用户的行为会触发记录控件中的信息并截图,通过此方式完成数据收集。数据收集结果根据文件名可使用哈希表或者B树做索引以优化检索效率。
自动页面遍历适用于常见移动端如iOS、安卓或者电脑端应用等。
根据本发明提供的面向虚拟训练***的数据收集***,通过对虚拟训练过程进行页面遍历和用户行为跟踪,实现非侵入式的数据采集,既适用于web端,也适用于应用端,为数据的存储提供。
可选地,所述收集模块还包括跟踪子模块;
所述跟踪子模块,具体用于:
在根据任一***作控件的控件信息,确定所述任一***作控件为非标准控件的情况下,跟踪所述虚拟训练过程中的用户操作;
对所述用户操作进行分析,生成过程文件;
读入所述过程文件,以存入多维元组;
所述多维元组,生成仿真脚本。
仿真脚本用于对参与虚拟训练的模型的仿真操作。
图3是本发明提供的监听参训用户操作的流程图,如图3所示,包括:
首先,监听用户操作;
其次,生成行为过程文件;
接着,生成调用关系图;
然后,仿真获取控件内容或截图;
最后,数据文件建立索引优化。
图4是本发明提供的跟踪屏幕中具体坐标位置操作的流程图,如图4所示,包括:
首先,利用图形用户界面(Graphics User Interface,GUI)软件,监听窗口信息,以及参训用户在训练过程中对于每个控件或者屏幕中具体坐标位置进行的具体的键盘鼠标操作(点击、输入、拖动等),记录时间;
其次,分析参训用户对于哪些控件与位置进行操作、分别做了什么样的操作,是否对标准控件进行了操作,若确定对标准控件操作,直接获取控件属性等内容;若确定对非标准控件操作,则截图,并记录键盘鼠标的操作内容与位置坐标,生成参训用户详细行为的过程文件;
最后,采集的过程文件读入后,存成多维元组,进而对脚本的判定函数运行顺序与循环进行判断,抽取仿真时对控件以及各个位置进行操作的顺序关系,分析用户的操作逻辑,获取函数之间的调用关系,从而生成对应的控件操作有向图,输出脚本供仿真操作使用。其中,标准控件为能直接根据控件属性获取值的标准程序开发组件,通过标准控件能够直接获取数据;
利用仿真模块自动模拟参训者使用过程中的行为模式,按顺序完整操作虚拟训练软件界面各页面与功能项目,规则化获取软件使用者操作界面、完成数据页面截图同时保存控件中的信息。
监听参训用户操作在侦测到控件事件发生的同时,可以通过Inspect、UIAutomation、airtest等工具获取当前操作的控件,控件信息包括:控件类型、控件种类名称、编号、控件所在位置坐标、控件名称等五项性质,并收集操作窗口的句柄信息。
根据本发明提供的面向虚拟训练***的数据收集***,通过对用户操作的行为进行逻辑分析,进而生成仿真的脚本,为后续的仿真操作提供基础。
可选地,所述预处理模块包括:第二获取子模块、文字识别子模块和清洗子模块;
所述第二获取子模块,用于根据预设模板,获取所述标准控件中的所述信息数据;所述预设模板是基于所述过程文件生成的;
所述文字识别子模块,用于抽取所述数据截图中的文字信息;
所述清洗子模块,用于对所述信息数据和所述文字信息进行数据清洗,以获取所述预处理数据。
在预处理模块中,第二获取子模块根据预设模板,收集控件中得到的信息数据;预设模版是根据用户行为形成的过程文件所生成的;
文字识别子模块对于数据截图可通过文字定义并识别的方式抽取其中的文字,其中的文字识别功能首先需要对图像进行预处理操作,通过图像处理可以判定文字所在区域,再使用训练好的神经网络模型进行文字识别。
清洗子模块对信息数据和文字信息进行数据清洗和数据整合,得到预处理数据,其中数据清洗包括脏数据去除、重复数据去重等算法。
根据本发明提供的面向虚拟训练***的数据收集***,通过对得到的数据进行预处理,使得数据的信息密度更大,占用更小的存储空间。
可选地,所述***还包括存储模块,所述存储模块连接所述预处理模块,所述存储模块包括:第一级存储子模块,第二级存储子模块和第三级存储子模块;
所述第一级存储子模块,用于存储所有的运行终端的所述预处理数据;
所述第二级存储子模块,用于根据每个运行终端上虚拟训练的类型和索引,对每个类型的所述预处理数据进行分类存储;
所述第三级存储子模块,用于对所述第二级存储子模块中分类后的预处理数据进行汇聚存储。
在第一级存储子模块中,对各个训练数据收集运行终端在本地存储原始训练过程数据并进行数据清洗和整合之后的预处理数据进行一级存储。
在第二级存储子模块中,各个同一训练类型的运行终端分别收集对应的第一级中存储的数据进行统一存储;
在第三级存储子模块中,收集二级存储中的所有数据进行统一存储。
其中,通过三级存储机制有效提高数据收集时的写入效率,并方便组织管理,且每一级的数据存储均通过主库和备库的形式提供了容灾机制。
例如,在虚拟训练场景下,存在多台进行虚拟训练的运行终端,在一个班级的很多运行终端上完成了一种训练类型,在每台运行终端实现对自身数据的一级存储;由于不同班级之间的训练类型不同,需要对相同的训练类型的运行终端的数据进行汇聚,将相同训练类型的数据进行二级存储,最后,整个训练过程要把全校的训练数据都存起来,将二级存储中每个类型的训练数据汇聚,以进行三级存储。
图5是本发明提供的存储模块的架构示意图,如图5所示,包括:
三级存储架构包括:采集层、服务层、资源层和***监控;
在采集层中,包括移动设备和PC等各类运行终端;
在服务层中,包括数据采集部分和数据存储部分;
数据采集部分包括:页面遍历、行为跟踪、数据清洗、存储请求和会话管理;
数据存储部分包括:针对各运行终端的一级存储,针对各训练类型的二级存储和三级存储;
在资源层中,包括MySQL数据库和Hive数据库。
存储模块,用于按自底向上的三级的数据存储的存储规则对收集的清洗去重后的数据存储。
监控***分别对采集层、服务层和资源层进行进程监控和起止控制。
根据本发明提供的面向虚拟训练***的数据收集***,通过分级多节点的存储方式,进而实现对数据的多层次的存储,便于后续调用。
可选地,所述***还包括管理模块;
所述管理模块分别与所述收集模块、所述预处理模块和所述存储模块连接;
所述管理模块,用于对所述收集模块、所述预处理模块和所述存储模块进行状态监控和服务调用。
管理模块可以调用服务,以控制整个数据收集***中每个模块操作的开始、暂停和截止,以及对数据收集进程的监控。
根据本发明提供的面向虚拟训练***的数据收集***,通过管理模块对其他模块的管控,从而实现对数据的全自动化收集操作。
可选地,所述管理模块,包括:监控子模块和调用子模块;
所述监控子模块,用于监控所述收集模块的数据收集速度,所述预处理模块的处理进度,以及所述存储模块的数据存储状况和可用容量;
所述调用子模块,用于控制所述收集模块在数据收集过程中的启动和停止。
管理模块,提供对收集模块,预处理模块,存储模块的状态监控与服务调用,可以实时监控收集模块实时的服务情况,数据收集速度等,可以实时监控存储模块的数据存储状况与容量,可以对训练数据收集服务进行启动暂停停止管理等。
图6是本发明提供的面向虚拟训练***的数据收集***的结构示意图之二,如图6所示,包括:收集模块、预处理模块、存储模块和管理模块;
收集模块,用于对web或应用服务的页面自动化遍历,用户行为跟踪和数据获取;
预处理模块,用于对收集模块截取的图像进行图像处理和文字识别,对收集模块获取的数据进行数据清理,得到预处理数据;
存储模块,用于对预处理数据进行多级存储、数据缓存和主从备份;
管理模块,用于用户信息管理、数据源管理和采集任务管理。其中,用户信息包括:参训用户的姓名、年龄和身份证号等;数据源管理是对数据源的采集和配置,控制数据的采集和管理按照预设的步骤和逻辑进行;采集任务管理包括:整个数据收集***中每个模块操作的开始、暂停和截止,以及对数据收集进程的监控。
根据本发明提供的面向虚拟训练***的数据收集***,针对各个类型虚拟训练应用程序的实现自动化数据收集,同时提供了支持大规模、多种类型的可拓展的数据采集,以及多层次数据存储管理服务,在针对iOS、安卓等移动设备上的虚拟训练应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端上虚拟训练应用的数据采集效率可以节省时间10倍以上,既可以支持iOS、安卓等移动设备中的虚拟训练应用也可以支持电脑端的应用。
下面对本发明提供的面向虚拟训练***的数据收集方法进行描述,下文描述的面向虚拟训练***的数据收集方法与上文描述的面向虚拟训练***的数据收集***可相互对应参照。
本发明实施例提供的面向虚拟训练***的数据收集方法,执行主体可以为电子设备或者电子设备中能够实现该数据收集方法的软件或功能模块或功能实体,本发明实施例中电子设备包括但不限于服务器。需要说明的是,上述执行主体并不构成对本发明的限制。
图7是本发明提供的面向虚拟训练***的数据收集方法的流程示意图之一,如图7所示,应用于如上述任一实施例所述的面向虚拟训练***的数据收集***,方法包括但不限于以下步骤:
首先,在步骤S1中,对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图。
其中,虚拟训练过程可以是web服务、应用服务等面对虚拟训练的服务形式,在本发明后续实施例中均以对虚拟训练应用进行数据收集为例进行说明,其不视为对本发明保护范围的限定。
收集模块可以同时对多个运行终端进行数据采集,提供一种可扩展的数据采集服务。
其中,页面遍历是对虚拟训练过程中的每个页面进行遍历,行为跟踪是对用户的操作行为进行跟踪。
进一步地,在步骤S2中,根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
预处理模块对收集模块发送的信息数据的数据截图进行进一步的信息提取和数据清洗等预处理,可以得到每个运行终端的预处理数据。
本发明提供的面向虚拟训练***的数据收集方法,通过自动化的非侵入式的数据收集,并整理成便于调用的预处理数据采集接口,能够有效解决训练应用中的数据孤岛的问题,既适用于虚拟训练应用,也适用于web端,能够支持多种类型的数据采集、广泛应用于多种应用场景。
图8是本发明提供的面向虚拟训练***的数据收集方法的流程示意图之二,如图8所示,包括:
首先,通过自动遍历或用户行为跟踪的方式得到控件信息和数据截图;
其次,根据预定义模板抽取控件中的信息数据;
然后,针对截图进行图像处理,并使用深度学习模型进行文字识别;
再者,对信息数据和识别的文字进行数据清洗;
接着,对清洗之后的数据进行数据去重和入库,得到预处理数据,并根据训练类型对预处理数据建立索引;
再然后,对数据进行自底向上的多级存储;
最后,对***进行实时监控。
根据本发明提供的面向虚拟训练***的数据收集方法,针对各个类型虚拟训练应用程序的实现自动化数据收集,同时提供了支持大规模、多种类型的可拓展的数据采集,以及多层次数据存储管理服务,在针对iOS、安卓等移动设备上的虚拟训练应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端上虚拟训练应用的数据采集效率可以节省时间10倍以上,既可以支持iOS、安卓等移动设备中的虚拟训练应用也可以支持电脑端的应用。
图9是本发明提供的电子设备的结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行面向虚拟训练***的数据收集方法,该方法包括:对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的面向虚拟训练***的数据收集方法,该方法包括:对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的面向虚拟训练***的数据收集方法,该方法包括:对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种面向虚拟训练***的数据收集***,其特征在于,包括:通信连接的收集模块和预处理模块;
所述收集模块,用于对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;
所述预处理模块,用于根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
2.根据权利要求1所述的面向虚拟训练***的数据收集***,其特征在于,所述收集模块,包括:遍历子模块、第一获取子模块和构建子模块;
所述遍历子模块,用于基于测试框架,对所述每个运行终端的虚拟训练过程进行页面遍历和用户行为跟踪,以获取每个***作控件的控件信息,并将控件信息发送至获取子模块;
所述第一获取子模块,具体用于:
在根据任一***作控件的控件信息,确定所述任一***作控件为标准控件的情况下,通过所述任一***作控件获取数据信息;
在根据任一***作控件的控件信息,确定所述任一***作控件为非标准控件的情况下,对操作页面进行截图,以获取数据截图;
所述构建子模块,用于根据虚拟训练的训练类型,对所述每个运行终端的虚拟训练过程的数据信息和数据截图构建索引。
3.根据权利要求2所述的面向虚拟训练***的数据收集***,其特征在于,所述收集模块还包括跟踪子模块;
所述跟踪子模块,具体用于:
在根据任一***作控件的控件信息,确定所述任一***作控件为非标准控件的情况下,跟踪所述虚拟训练过程中的用户操作;
对所述用户操作进行分析,生成过程文件;
读入所述过程文件,以存入多维元组;
所述多维元组,生成仿真脚本。
4.根据权利要求3所述的面向虚拟训练***的数据收集***,其特征在于,所述预处理模块包括:第二获取子模块、文字识别子模块和清洗子模块;
所述第二获取子模块,用于根据预设模板,获取所述标准控件中的所述信息数据;所述预设模板是基于所述过程文件生成的;
所述文字识别子模块,用于抽取所述数据截图中的文字信息;
所述清洗子模块,用于对所述信息数据和所述文字信息进行数据清洗,以获取所述预处理数据。
5.根据权利要求1-4中任一项所述的面向虚拟训练***的数据收集***,其特征在于,所述***还包括存储模块,所述存储模块连接所述预处理模块,所述存储模块包括:第一级存储子模块,第二级存储子模块和第三级存储子模块;
所述第一级存储子模块,用于存储所有的运行终端的所述预处理数据;
所述第二级存储子模块,用于根据每个运行终端上虚拟训练的类型和索引,对每个类型的所述预处理数据进行分类存储;
所述第三级存储子模块,用于对所述第二级存储子模块中分类后的预处理数据进行汇聚存储。
6.根据权利要求5所述的面向虚拟训练***的数据收集***,其特征在于,所述***还包括管理模块;
所述管理模块分别与所述收集模块、所述预处理模块和所述存储模块连接;
所述管理模块,用于对所述收集模块、所述预处理模块和所述存储模块进行状态监控和服务调用。
7.根据权利要求6所述的面向虚拟训练***的数据收集***,其特征在于,所述管理模块,包括:监控子模块和调用子模块;
所述监控子模块,用于监控所述收集模块的数据收集速度,所述预处理模块的处理进度,以及所述存储模块的数据存储状况和可用容量;
所述调用子模块,用于控制所述收集模块在数据收集过程中的启动和停止。
8.一种面向虚拟训练***的数据收集方法,其特征在于,应用于如权利要求1-7中任一项所述的面向虚拟训练***的数据收集***,所述方法包括:
对每个运行终端的虚拟训练过程进行页面遍历和行为跟踪,获取所述每个运行终端的信息数据和数据截图;
根据所述每个运行终端的信息数据和所述数据截图,获取所述每个运行终端的预处理数据。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求8所述面向虚拟训练***的数据收集方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求8所述面向虚拟训练***的数据收集方法。
CN202310752938.8A 2023-06-25 2023-06-25 面向虚拟训练***的数据收集***及方法 Pending CN116991659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310752938.8A CN116991659A (zh) 2023-06-25 2023-06-25 面向虚拟训练***的数据收集***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310752938.8A CN116991659A (zh) 2023-06-25 2023-06-25 面向虚拟训练***的数据收集***及方法

Publications (1)

Publication Number Publication Date
CN116991659A true CN116991659A (zh) 2023-11-03

Family

ID=88530981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310752938.8A Pending CN116991659A (zh) 2023-06-25 2023-06-25 面向虚拟训练***的数据收集***及方法

Country Status (1)

Country Link
CN (1) CN116991659A (zh)

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
US11269822B2 (en) Generation of automated data migration model
CN110428127B (zh) 自动化分析方法、用户设备、存储介质及装置
CN106227654A (zh) 一种测试平台
CN115237857A (zh) 日志处理方法、装置、计算机设备及存储介质
CN115657890A (zh) 一种pra机器人可定制方法
CN109242431B (zh) 一种基于数据体系的企业管理方法及其***
CN114419631A (zh) 一种基于rpa的网管虚拟***
CN117519656A (zh) 一种基于智能制造的软件开发***
CN113051161A (zh) 基于历史代码变更信息的api误用检测方法
CN117792882A (zh) 基于大语言模型辅助的通信网络故障日志分析方法
CN116049115B (zh) 一种软件日志处理方法
CN112650796A (zh) 一种自动化的应用数据收集、存储管理***
CN116991659A (zh) 面向虚拟训练***的数据收集***及方法
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN116069628A (zh) 一种智能处置的软件自动化回归测试方法、***及设备
CN115905016A (zh) 一种BIOS Setup搜索功能测试方法、装置、电子设备及存储介质
CN112667617A (zh) 一种基于自然语言的可视化数据清洗***及方法
CN112463801A (zh) 一种报表推送方法、装置、终端设备及存储介质
CN111598159B (zh) 机器学习模型的训练方法、装置、设备及存储介质
US11507728B2 (en) Click to document
CN116755830A (zh) 一种基于gpt的容器逃逸检测方法、装置以及设备
CN117608882A (zh) 风险识别方法及***
Li et al. Technical Debt Management in OSS Projects: An Empirical Study on GitHub
CN113377649A (zh) 一种构建应用***质量画像的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination