CN112650796A - 一种自动化的应用数据收集、存储管理*** - Google Patents

一种自动化的应用数据收集、存储管理*** Download PDF

Info

Publication number
CN112650796A
CN112650796A CN201910912434.1A CN201910912434A CN112650796A CN 112650796 A CN112650796 A CN 112650796A CN 201910912434 A CN201910912434 A CN 201910912434A CN 112650796 A CN112650796 A CN 112650796A
Authority
CN
China
Prior art keywords
data
data collection
module
storage
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910912434.1A
Other languages
English (en)
Inventor
李双芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Vocational College
Original Assignee
Yantai Vocational College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Vocational College filed Critical Yantai Vocational College
Priority to CN201910912434.1A priority Critical patent/CN112650796A/zh
Publication of CN112650796A publication Critical patent/CN112650796A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种自动化的应用数据收集、存储管理***,包括:数据收集模块,数据预处理模块,数据存储模块;所述数据收集模块,用于通过页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图:所述数据预处理模块,用于根据预定义的模板抽取控件中的信息,对于截取的图片通过文字定义并识别的方式进行文字识别,以及进行数据清洗、去重;所述数据存储模块,用于按预定存储规则对收集的清洗去重后的数据存储。本发明对IOS、安卓等移动设备上的应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端上应用的数据采集效率可以节省时间10倍以上。

Description

一种自动化的应用数据收集、存储管理***
技术领域
本发明涉及应用数据收处理技术领域,特别是涉及一种自动化的应用数据收集、存储管理***。
背景技术
目前,市面上各类型应用种类繁多,终端数据如何快速收集是企业中遇到的很大问题。大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务***和办公自动化***,用来记录事务处理的各种相关数据。企业如何通过各种技术手段,把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。ETL是主要的一个技术手段。要想做ETL,首先需要收集数据,快速高效的收集各类型应用中的数据,可以便于后续将数据进行各种变形和转换,才能构造出易于分析和理解的数据。在无法直接读取数据存储的情况下如无法访问数据库时,要想进行数据收集,常见的采集方法包括爬虫等,但是爬虫只能针对web服务。相比于web数据源的结构相对清晰、数据较容易获取,本发明重点面对的各类软件与应用想获取数据难度相对大得多。对于各种应用程序,常见的人工摘录等方法耗时耗力。而在应用中埋点的方法,只适合于拥有程序源码并获得修改权限的情况下,局限性很大。本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:现有的程序数据收集方法局限性较大,无法适应不同的应用场景。同时缺少一种自动化的数据收集方法,也缺少对收集数据的存储与管理。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种自动化的应用数据收集、存储管理***,既可以支持IOS、安卓等移动设备中的应用也可以支持电脑端的应用。
为实现本发明的目的所采用的技术方案是:
一种自动化的应用数据收集、存储管理***,包括:
数据收集模块,数据预处理模块,数据存储模块;
所述数据收集模块,用于通过页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图;
所述数据预处理模块,用于根据预定义的模板抽取控件中的信息,对于截取的图片通过文字定义并识别的方式进行文字识别,以及进行数据清洗、去重;
所述数据存储模块,用于按预定存储规则对收集的清洗去重后的数据存储。
所述自动化的应用数据收集、存储管理***,还包括数据管理模块,提供对所述数据收集模块,数据预处理模块,数据存储模块的状态监控与服务调用,实时监控数据收集模块实时的服务情况,数据收集速度,实时监控数据存储模块的数据存储状况与容量,对数据收集服务进行启动暂停停止管理。
其中,所述数据预处理模块在文字识别时,首先对图像进行预处理,通过图像处理判定文字所在区域,之后使用神经网络模型进行文字识别。
其中,所述数据存储模块采用自底向上的三级数据存储:第一级数据存储包括各个收集终端首先在本地存储原始数据并进行预处理,第二级数据存储包括各个类型终端分别收集对应的第一级中存储的数据进行统一存储,第三级数据存储包括收集第二级存储中的所有数据进行统一存储。
其中,所述数据收集模块的页面自动化遍历,是借助测试框架操作终端配合深度优先遍历算法进行页面遍历,遍历的过程中获取句柄、控件信息并进行数据截图,同时生成相应功能过程图;在页面遍历过程中,每次行为会触发记录控件中的信息并截图,通过此方式完成数据收集;对收集的数据建立索引进行优化。
进一步的,在页面自动化遍历中,还可结合测试框架操作封装的数据接口,直接进行相关的操作脚本编写。
其中,所述数据收集模块的用户行为跟踪,包括监听用户对于每个控件或者具体屏幕坐标位置进行的具体操作,并输出用户详细行为的过程文件;之后,分析用户对于哪些控件与位置进行操作、分别做了什么样的操作,并抽取仿真时对控制及各个位置进行操作的顺序关系,输出脚本供仿真操作使用;最后通过仿真自动模拟使用者采集数据使用的行为模式,按顺序完整操作用户界面各页面,规则化获取软件使用者操作界面、完成数据页面截图同时保存控件中的信息。
其中,所述具体操作包括点击、输入、拖动。
其中,所述监听用户操作在侦测到控件事件发生的同时,获取当前操作的控件,控件信息包括控件类型、控件种类名称、编号、控件所在位置坐标、控件名称,并收集操作窗口的句柄信息。
本发明针对各个类型应用程序的自动化数据收集处理,针对IOS、安卓等移动设备上的应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端应用的数据采集效率可以节省时间10倍以上。
附图说明
图1为本发明的自动化的应用数据收集、存储管理***的原理图;
图2所示为自动化的应用数据收集、存储管理***的数据收集处理流程图;
图3所示为自动化的应用数据收集、存储管理***的架构图;
图4所示为数据收集时的页面自动化遍历过程的流程图;
图5所示为跟踪屏幕中具体坐标位置操作的流程图。
图6所示为监听用户操作的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1-6所示,本发明自动化的应用数据收集、存储管理***,包括:数据收集模块,数据预处理模块,数据存储模块,数据管理模块。
其中,数据收集模块收集数据时,采用页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图:
本发明中,所述页面自动化遍历,是对于移动应用,借助测试框架(如airtest)操作终端,配合深度优先遍历算法进行页面遍历,遍历的过程中获取句柄、控件信息并进行数据截图,同时生成相应功能过程图。其中,在页面遍历过程中,每次行为会触发记录控件中的信息并截图,通过此方式完成数据收集。数据收集结果根据文件名可使用哈希表或者B树做索引以优化检索效率。
具体过程是,通过xpath页面抽取元素与控件,根据设定的相关规则对控件进行筛选,最终深度优先遍历得到路径记录与重定向以及弹窗(安装过程,权限,app提示)等,然后获取句柄、控件信息并进行数据截图,同时生成相应功能过程图。
此外,还可结合测试框架(如airtest)操作封装的数据接口,直接进行相关的操作脚本编写。
需要说明的是,所述自动页面遍历对于常见移动端如IOS、安卓或者电脑端应用等。
本发明中,所述用户行为跟踪的具体步骤如下:
首先,监听用户对于每个控件或者屏幕中具体坐标位置进行的具体操作,并输出用户详细行为的过程文件,其中常见的具体操作包括点击、输入、拖动等。
之后,分析用户对于哪些控件与位置进行操作、分别做了什么样的操作,并抽取仿真时对控件以及各个位置进行操作的顺序关系,输出脚本供仿真操作使用。该具体过程是,将采集的过程记录读入后,进行脚本生成判断。先将所有的记录读入后,存成多维元组,进而以要生成简单有向图模型进行脚本的判定函数运行顺序与循环判断。对于按照行读入的数据来说,可较为容易的获取函数之间的调用关系,从而生成对应的控件操作有向图。
最后,利用仿真模块自动模拟使用者采集数据使用的行为模式,按顺序完整操作用户界面各页面,规则化获取软件使用者操作界面、完成数据页面截图同时保存控件中的信息。
需要说明的是,本发明中,所述监听用户操作在侦测到控件事件发生的同时,可以通过Inspect、UI Automation、airtest等工具获取当前操作的控件,控件信息包括:控件类型、控件种类名称、编号、控件所在位置坐标、控件名称等五项性质,并收集操作窗口的句柄信息。
本发明中,所述的数据预处理模块,根据预定义的模板,收集控件中得到的信息数据。对于截取的图片可通过文字定义并识别的方式抽取其中的文字。
其中的文字识别功能首先需要对图像进行预处理操作,通过图像处理可以判定文字所在区域,之后使用设计的神经网络模型进行文字识别。
本发明中,进一步的,所述数据预处理模块还包括数据清洗、数据整合功能,其中数据清洗包括脏数据去除、重复数据去重等算法。
本发明中,所述数据存储模块包括自底向上的三级的数据存储装置,第一级数据存储包括各个收集终端首先在本地存储原始数据并进行预处理,第二级数据存储包括各个类型终端分别收集对应的第一级中存储的数据进行统一存储,第三级数据存储包括收集第二级存储中的所有数据进行统一存储。通过三级存储机制有效提高数据收集时的写入效率,并方便组织管理,同时通过主库备库提供了容灾机制。
本发明中,所述数据管理模块,提供对所述数据收集模块,数据预处理模块,数据存储模块的状态监控与服务调用,可以实时监控数据收集模块实时的服务情况,数据收集速度等,可以实时监控数据存储模块的数据存储状况与容量,可以对数据收集服务进行启动暂停停止管理等。
本发明提供一种针对各个类型应用程序的自动化数据收集***,同时提供了可拓展的多层次数据收集存储管理服务,在针对IOS、安卓等移动设备上的应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端应用的数据采集效率可以节省时间10倍以上。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种自动化的应用数据收集、存储管理***,其特征在于,包括:
数据收集模块,数据预处理模块,数据存储模块;
所述数据收集模块,用于通过页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图;
所述数据预处理模块,用于根据预定义的模板抽取控件中的信息,对于截取的图片通过文字定义并识别的方式进行文字识别,以及进行数据清洗、去重;
所述数据存储模块,用于按预定存储规则对收集的清洗去重后的数据存储。
2.根据权利要求1所述自动化的应用数据收集、存储管理***,其特征在于,还包括数据管理模块,提供对所述数据收集模块,数据预处理模块,数据存储模块的状态监控与服务调用,实时监控数据收集模块实时的服务情况,数据收集速度,实时监控数据存储模块的数据存储状况与容量,对数据收集服务进行启动暂停停止管理。
3.根据权利要求1所述自动化的应用数据收集、存储管理***,其特征在于,所述数据预处理模块在文字识别时,首先对图像进行预处理,通过图像处理判定文字所在区域,之后使用神经网络模型进行文字识别。
4.根据权利要求1所述自动化的应用数据收集、存储管理***,其特征在于,所述数据存储模块采用自底向上的三级数据存储:第一级数据存储包括各个收集终端首先在本地存储原始数据并进行预处理,第二级数据存储包括各个类型终端分别收集对应的第一级中存储的数据进行统一存储,第三级数据存储包括收集第二级存储中的所有数据进行统一存储。
5.根据权利要求1所述自动化的应用数据收集、存储管理***,其特征在于,所述数据收集模块的页面自动化遍历,是借助测试框架操作终端配合深度优先遍历算法进行页面遍历,遍历的过程中获取句柄、控件信息并进行数据截图,同时生成相应功能过程图;在页面遍历过程中,每次行为会触发记录控件中的信息并截图,通过此方式完成数据收集;对收集的数据建立索引进行优化。
6.根据权利要求5所述自动化的应用数据收集、存储管理***,其特征在于,在页面自动化遍历中,还可结合测试框架操作封装的数据接口直接进行相关的操作脚本编写。
7.根据权利要求1所述自动化的应用数据收集、存储管理***,其特征在于,所述数据收集模块的用户行为跟踪,包括监听用户对于每个控件或者具体屏幕坐标位置进行的具体操作,并输出用户详细行为的过程文件;之后,分析用户对于哪些控件与位置进行操作、分别做了什么样的操作,并抽取仿真时对控制及各个位置进行操作的顺序关系,输出脚本供仿真操作使用;最后通过仿真自动模拟使用者采集数据使用的行为模式,按顺序完整操作用户界面各页面,规则化获取软件使用者操作界面、完成数据页面截图同时保存控件中的信息。
8.根据权利要求7所述自动化的应用数据收集、存储管理***,其特征在于,所述具体操作包括点击、输入、拖动。
9.根据权利要求7所述自动化的应用数据收集、存储管理***,其特征在于,所述监听用户操作在侦测到控件事件发生的同时,获取当前操作的控件,控件信息包括控件类型、控件种类名称、编号、控件所在位置坐标、控件名称,并收集操作窗口的句柄信息。
CN201910912434.1A 2019-09-25 2019-09-25 一种自动化的应用数据收集、存储管理*** Withdrawn CN112650796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912434.1A CN112650796A (zh) 2019-09-25 2019-09-25 一种自动化的应用数据收集、存储管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912434.1A CN112650796A (zh) 2019-09-25 2019-09-25 一种自动化的应用数据收集、存储管理***

Publications (1)

Publication Number Publication Date
CN112650796A true CN112650796A (zh) 2021-04-13

Family

ID=75342311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912434.1A Withdrawn CN112650796A (zh) 2019-09-25 2019-09-25 一种自动化的应用数据收集、存储管理***

Country Status (1)

Country Link
CN (1) CN112650796A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342787A (zh) * 2021-04-28 2021-09-03 杭州千岛湖点通信息技术有限公司 一种大数据研发中心数据分析***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342787A (zh) * 2021-04-28 2021-09-03 杭州千岛湖点通信息技术有限公司 一种大数据研发中心数据分析***

Similar Documents

Publication Publication Date Title
CN107886238B (zh) 一种基于海量数据分析的业务流程管理***及方法
CN109062780B (zh) 自动化测试用例的开发方法及终端设备
CN110321113B (zh) 以项目批次为标准的一体化流水线***及其工作方法
CN109669933B (zh) 交易数据智能处理方法、装置及计算机可读存储介质
CN107704539B (zh) 大规模文本信息批量结构化的方法及装置
US20190108223A1 (en) Automated system data migration
US10311111B2 (en) Search method and apparatus and storage medium
CN106293891B (zh) 多维投资指标监督方法
CN113688288B (zh) 数据关联分析方法、装置、计算机设备和存储介质
CN106227654A (zh) 一种测试平台
CN112148602B (zh) 一种基于历史优化特征智能学习的源代码安全分析方法
CN111865673A (zh) 一种自动化故障管理方法、装置及***
CN115657890A (zh) 一种pra机器人可定制方法
CN114419631A (zh) 一种基于rpa的网管虚拟***
CN114297961A (zh) 一种芯片测试用例处理方法及相关装置
CN112650796A (zh) 一种自动化的应用数据收集、存储管理***
CN115794545A (zh) 运维数据的自动化处理方法及其相关设备
CN116069628A (zh) 一种智能处置的软件自动化回归测试方法、***及设备
CN109033196A (zh) 一种分布式数据调度***及方法
Faiz et al. Achieving better requirements to code traceability: Which refactoring should be done first?
CN116991659A (zh) 面向虚拟训练***的数据收集***及方法
CN114328159A (zh) 异常语句的确定方法、装置、设备及计算机可读存储介质
JP5444071B2 (ja) 障害情報収集システムと方法およびプログラム
CN109992475A (zh) 一种日志的处理方法、服务器及存储介质
Englbrecht et al. Supporting Process Mining with Recovered Residual Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210413