CN109445949A - 一种数据采集***和数据采集方法 - Google Patents

一种数据采集***和数据采集方法 Download PDF

Info

Publication number
CN109445949A
CN109445949A CN201811502431.2A CN201811502431A CN109445949A CN 109445949 A CN109445949 A CN 109445949A CN 201811502431 A CN201811502431 A CN 201811502431A CN 109445949 A CN109445949 A CN 109445949A
Authority
CN
China
Prior art keywords
data
information
server
data acquisition
daily record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811502431.2A
Other languages
English (en)
Inventor
张小庆
杨翠
李新星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Polytechnic University
Original Assignee
Wuhan Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Polytechnic University filed Critical Wuhan Polytechnic University
Priority to CN201811502431.2A priority Critical patent/CN109445949A/zh
Publication of CN109445949A publication Critical patent/CN109445949A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据采集***和数据采集方法。本发明的数据采集***包括数据库服务器,用于存储预设配置规则信息;数据采集服务器,用于获取应用终端传输的原始信息数据,调用数据库服务器中存储的预设配置规则信息来对原始信息数据进行预处理,得到日志数据,并将日志数据推送至分布式消息***集群;所述分布式消息***集群接收所述数据采集层推送的日志数据。实现一个可复用的应用终端信息采集与存储***,可顺应移动互联网时代的大数据挖掘需求痛点,让信息数据能够快速流通起来,并将数据存储在通用的大数据组件中,提供快速、吞吐量高的接口用作大数据挖掘分析,并能够满足移动互联网企业集合旗下产品的实际情况实现对数据的采集与分析。

Description

一种数据采集***和数据采集方法
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种数据采集***和数据采集方法。
背景技术
在目前的移动互联网风靡全球的大时代背景下,移动互联网依靠的终端设备之一的智能手机,每天产生了海量的含有大量待挖掘的信息数据。移动互联网企业通过这些信息数据,可以为产品在线上运营的情况提供可靠的分析,从而为了解产品线上情况,制定产品开发方向提供有力支撑。那么如何采集数据,如何初步的存储数据是每一个移动互联网企业所关心的重点所在。
但是目前互联网企业对于定制化的数据采集方案的过程比较繁琐,因此如何优化当前互联网企业实行的定制化的数据采集方案的过程,减少开发人员的劳动力和硬件成本,是一个待解决的问题。
发明内容
本发明的主要目的在于提供了一种数据采集***和数据采集方法,旨在解决如何优化当前互联网企业实行的定制化的数据采集方案的过程,减少开发人员的劳动力和硬件成本的问题。
为实现上述目的,本发明提供了一种用于用户寻求帮助的语音提示方法,所述方法包括以下步骤:
一种数据采集***,其特征在于,所述***包括:
数据库服务器,用于存储预设配置规则信息;
数据采集服务器,用于获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群;
所述分布式消息***集群,用于接收所述数据采集层推送的日志数据。
优选地,所述数据采集服务器部署有Log Server服务,用于实现远程过程调用服务来建立虚拟服务器,以实现负载均衡。
优选地,所述数据采集服务器部署有thrift软件框架,所述数据采集服务器基于所述thrift软件框架实现网络数据传输功能。
优选地,所述分布式消息***集群基于Kafka组件,所述Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据。
优选地,所述数据采集服务器,用于进行初始化服务器配置,包括创建文件的缓存路径、创建存储数据库、获取通用的信息字段,创建内部缓存队列,启动工作线程,以实现网络数据传输功能。
此外,为实现上述目的,本发明还提出一种基于数据采集***的数据采集方法,所述***包括数据采集服务器、分布式消息***集群以及数据库服务器;所述数据库服务器分别与所述数据采集服务器以及所述分布式消息***集群建立连接;所述方法包括:
数据采集服务器获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群;
所述分布式消息***集群接收所述数据采集层推送的日志数据。
优选地,所述数据采集服务器获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群的步骤,包括:
所述数据采集服务器获取应用终端传输的原始信息数据;
从所述数据库服务器中下载预设配置规则信息,将所述预设配置规则信息保存到预设容器中;
基于所述预设容器的信息,判断所述原始信息数据是否满足预设上传条件;
若所述原始信息数据满足所述预设上传条件,则对所述原始信息数据进行封装和压缩作为日志数据推送至分布式消息***集群。
优选地,所述数据采集服务器部署有thrift软件框架,所述数据采集服务器基于所述thrift软件框架实现网络数据传输功能。
优选地,所述分布式消息***集群基于Kafka组件,所述Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据。
优选地,所述数据采集服务器获取应用终端传输的原始信息数据的步骤之前,还包括:
所述数据采集服务器进行初始化服务器配置,包括创建文件的缓存路径、创建存储数据库、获取通用的信息字段,创建内部缓存队列,启动工作线程,以实现网络数据传输功能。
本发明公开了一种数据采集***和数据采集方法。本发明的数据采集***包括数据库服务器,用于存储预设配置规则信息;数据采集服务器,用于获取应用终端传输的原始信息数据,调用数据库服务器中存储的预设配置规则信息来对原始信息数据进行预处理,得到日志数据,并将日志数据推送至分布式消息***集群;所述分布式消息***集群接收所述数据采集层推送的日志数据。实现一个可复用的应用终端信息采集与存储***,可顺应移动互联网时代的大数据挖掘需求痛点,让信息数据能够快速流通起来,并将数据存储在通用的大数据组件中,提供快速、吞吐量高的接口用作大数据挖掘分析,并能够满足移动互联网企业集合旗下产品的实际情况实现对数据的采集与分析。
附图说明
图1为本发明一种数据采集***一实施例的结构框图;
图2为本发明一种数据采集***又一实施例的结构框图;
图3为本发明一种基于数据采集***的数据采集方法实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
参照图1和图2,图1以及图2为本发明实施例方案涉及的一种数据采集***结构框图,所述数据采集***包括数据库服务器10、数据采集服务器20以及分布式消息***集群30,其中,本实施例可以从整个数据采集***的逻辑抽象划分中,在***抽象层次上划分为三个模块:配置管理模块(对应所述数据库服务器10)、数据采集模块(对应所述数据采集服务器20),和数据接入与存储模块(对应所述分布式消息***集群30)。
数据库服务器10,用于存储预设配置规则信息。本实施例对于配置管理模块,该模块定义了数据采集配置信息,包含了数据定义结构与上传频率。本实施例在web管理服务提供了图形化的管理功能,在WEB管理服务新增或者修改成功的合法配置数据将经由配置同步服务更新到数据库。
本实施例可采用关系型数据库MySQL来存储预设配置规则信息,所述预设配置规则信息包括数据采集的结构定义,上传模式,阈值条数等信息。
数据采集服务器20,用于获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群。
在具体实现中,所述数据采集服务器20部署有Log Server服务,用于实现远程过程调用服务来建立虚拟服务器,以实现负载均衡。Log Server为对外更新配置,提供数据接收的服务,通过实现RPC(Remote Procedure Call—远程过程调用,一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议)框架中的协议,构建高性能服务。对外数据传输层可以做LVS(Linux Virtual Server,意即Linux虚拟服务器,是一个虚拟的服务器集群***)配置实现负载均衡,LVS是个负载均衡组件。当应用终端(可以是基于安卓操作***的终端设备,例如手机、平板等安卓设备)的请求到达服务器后,让后端服务集群能够均匀的处理请求。用增加后端服务数量以解决未来业务增长后的时的性能问题。
对应用终端上传的数据,在通过公网后,经过主机的NAT映射,再到LVS的负载均衡器上,通过Least-Connection,让负载最小的Log Server服务器去处理最新的请求。
需要说明的是数据采集服务器主要由采集设备信息数据、择机上传信息数据的设备(可以是基于安卓操作***的设备)构成,在这一层需要考虑用户的隐私权的事宜。本实施例以基于安卓操作***的设备为例进行说明,基于安卓操作***具有一套完整的权限控制体系,Android的权限***关系着整个Android操作***的安全性。大部分权限的授权行为在安卓Application第一次启动时触发。这样安卓Application可以避免每次向用户申请权限,去访问权限内的所有东西。这产生了一个安全性和隐私性的重大问题。其次有部分数据是依靠运行时Android***运行时授权这会导致一系列的复杂问题,增加开发难度。因此需要采用一种方式能使用安卓Application自身的权限去执行数据获取。故而所述数据采集服务器的软件开发工具包(SDK,Software Development Kit)应当是一个中间件的形式存在于各个应用中,由安卓Application应用自己获取在应用权限范围内的数据,这样就可以避免Android的权限***乱用造成的问题,进而完整的保护了用户信息安全。
同时,所述数据采集服务器部署有thrift软件框架,所述数据采集服务器基于所述thrift软件框架实现网络数据传输功能,也就是说作为中间件的所述数据采集服务器的软件开发工具包SDK是通过基于Thrift的技术实现网络传输的功能,包括下载当前应用的配置信息文件,上传在WEB端定义完成后的采集信息数据。由访问网络线程控制网络访问的开闭。其中最主要的活动包括配置文件下载,读取配置文件,定时调用上传控制模块来上传数据。
进一步地,作为中间件的所述数据采集服务器的软件开发工具包SDK内部逻辑整体规划可分为5个阶段:
阶段一:初始化,调用initIns()方法时,中间件SDK原始配置开始初始化。初始化内容包括:创建文件的缓存路径、创建存储数据库、获取通用的信息字段,创建内部缓存队列,启动工作线程等。当初始化完成后,整个中间件才能进行数据的传输。
阶段二:访问网络,日志采集中间件SDK通过基于Thrift的技术实现网络传输的功能,包括下载当前应用的配置信息文件,上传在WEB端定义完成后的采集信息数据。由访问网络线程控制网络访问的开闭。其中最主要的活动包括配置文件下载,读取配置文件,定时调用上传控制模块来上传数据。
阶段三:上传控制,通过读取下载的配置文件,并保存这些信息到一个容器中。根据这些存放在容器里的信息,来判断日志是否满足上传条件,满足上传条件则调用数据解析与持久化模块取出数据,通过封装,压缩,验证等调用访问网络模块上传数据;上传成功后则删除已上传的数据,未成功则保留数据。
阶段四:对外接口,外部调用接口sent()传入原始日志数据,数据先进入原始日志缓存队列,由缓存数据线程从队列里取出数据调用数据处理模块写入到数据库。
阶段五:数据解析与持久化,读取日志的配置信息,若存在配置信息,则解析为用分割符分割的数据,若不存在,则存为JSON字符串。
所述分布式消息***集群30,用于接收所述数据采集层推送的日志数据。
在具体实现中,所述分布式消息***集群基于Kafka组件,所述Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据。同时,所述分布式消息***
具体地,所述分布式消息***集群基于HADOOP生态圈组件:即分布式应用程序协调服务Zookeeper和分布式发布订阅消息***Kafka;其中,Zookeeper和Kafka用于数据存储。
Kafka作为一个高性能的分布式消息***,既可以提供实时处理数据接口,也可以对数据做持久化配置。适宜在本业务中数据存储的要求。Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据,故而在普通的商业机械磁盘进行写操作时,也具有优秀的写磁盘性能,从而提升整个集群的吞吐量。
对于数据接入与存储模块,原始数据网络接入服务监听配置同步服务更新状态。一旦配置数据更新状态改变,则热切换配置数据。由原始数据网络接入服务接收到的数据,将先通过数据预处理模块做初步清洗。这部分清洗后的数据最终由数据存储模块存入到Kafka中。
本实施例实现一个可复用的应用终端信息采集与存储***,可顺应移动互联网时代的大数据挖掘需求痛点,让信息数据能够快速流通起来,并将数据存储在通用的大数据组件中,提供快速、吞吐量高的接口用作大数据挖掘分析,并能够满足移动互联网企业集合旗下产品的实际情况实现对数据的采集与分析。
基于上述数据采集***,提出一种数据采集方法实施例,图3为数据采集方法实施例的流程示意图。
本实施例中,所述数据采集方法包括:
步骤S10,数据采集服务器获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群;
进一步的,所述步骤S10包括:所述数据采集服务器获取应用终端传输的原始信息数据;从所述数据库服务器中下载预设配置规则信息,将所述预设配置规则信息保存到预设容器中;基于所述预设容器的信息,判断所述原始信息数据是否满足预设上传条件;若所述原始信息数据满足所述预设上传条件,则对所述原始信息数据进行封装和压缩作为日志数据推送至分布式消息***集群。
在具体实现中,所述数据采集服务器部署有Log Server服务,用于实现远程过程调用服务来建立虚拟服务器,以实现负载均衡。Log Server为对外更新配置,提供数据接收的服务,通过实现RPC框架中的协议,构建高性能服务。对外数据传输层可以做LVS配置实现负载均衡,LVS是个负载均衡组件。当应用终端(可以是基于安卓操作***的终端设备,例如手机、平板等安卓设备)的请求到达服务器后,让后端服务集群能够均匀的处理请求。用增加后端服务数量以解决未来业务增长后的时的性能问题。
对应用终端上传的数据,在通过公网后,经过主机的NAT映射,再到到LVS的负载均衡器上,通过Least-Connection,让负载最小的Log Server服务器去处理最新的请求。
需要说明的是数据采集服务器主要由采集设备信息数据、择机上传信息数据的设备(可以是基于安卓操作***的设备)构成,在这一层需要考虑用户的隐私权的事宜。本实施例以基于安卓操作***的设备为例进行说明,基于安卓操作***具有一套完整的权限控制体系,Android的权限***关系着整个Android操作***的安全性。大部分权限的授权行为在安卓Application第一次启动时触发。这样安卓Application可以避免每次向用户申请权限,去访问权限内的所有东西。这产生了一个安全性和隐私性的重大问题。其次有部分数据是依靠运行时Android***运行时授权这会导致一系列的复杂问题,增加开发难度。因此需要采用一种方式能使用安卓Application自身的权限去执行数据获取。故而所述数据采集服务器的软件开发工具包SDK应当是一个中间件的形式存在于各个应用中,由安卓Application应用自己获取在应用权限范围内的数据,这样就可以避免Android的权限***乱用造成的问题,进而完整的保护了用户信息安全。
同时,所述数据采集服务器部署有thrift软件框架,所述数据采集服务器基于所述thrift软件框架实现网络数据传输功能,也就是说作为中间件的所述数据采集服务器的软件开发工具包SDK是通过基于Thrift的技术实现网络传输的功能,包括下载当前应用的配置信息文件,上传在WEB端定义完成后的采集信息数据。由访问网络线程控制网络访问的开闭。其中最主要的活动包括配置文件下载,读取配置文件,定时调用上传控制模块来上传数据。
进一步地,作为中间件的所述数据采集服务器的软件开发工具包SDK内部逻辑整体规划可分为5个阶段:
阶段一:初始化,调用initIns()方法时,中间件SDK原始配置开始初始化。初始化内容包括:创建文件的缓存路径、创建存储数据库、获取通用的信息字段,创建内部缓存队列,启动工作线程等。当初始化完成后,整个中间件才能进行数据的传输。
阶段二:访问网络,日志采集中间件SDK通过基于Thrift的技术实现网络传输的功能,包括下载当前应用的配置信息文件,上传在WEB端定义完成后的采集信息数据。由访问网络线程控制网络访问的开闭。其中最主要的活动包括配置文件下载,读取配置文件,定时调用上传控制模块来上传数据。
阶段三:上传控制,通过读取下载的配置文件,并保存这些信息到一个容器中。根据这些存放在容器里的信息,来判断日志是否满足上传条件,满足上传条件则调用数据解析与持久化模块取出数据,通过封装,压缩,验证等调用访问网络模块上传数据;上传成功后则删除已上传的数据,未成功则保留数据。
阶段四:对外接口,外部调用接口sent()传入原始日志数据,数据先进入原始日志缓存队列,由缓存数据线程从队列里取出数据调用数据处理模块写入到数据库。
阶段五:数据解析与持久化,读取日志的配置信息,若存在配置信息,则解析为用分割符分割的数据,若不存在,则存为JSON字符串。
步骤S20,所述分布式消息***集群接收所述数据采集层推送的日志数据。
在具体实现中,所述分布式消息***集群基于Kafka组件,所述Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据。同时,所述分布式消息***
具体地,所述分布式消息***集群基于HADOOP生态圈组件:即分布式应用程序协调服务Zookeeper、以及分布式发布订阅消息***Kafka;其中,Zookeeper和Kafka用于数据存储。Kafka作为一个高性能的分布式消息***,既可以提供实时处理数据接口,也可以对数据做持久化配置。适宜在本业务中数据存储的要求。Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据,故而在普通的商业机械磁盘进行写操作时,也具有优秀的写磁盘性能,从而提升整个集群的吞吐量。
对于数据接入与存储模块,原始数据网络接入服务监听配置同步服务更新状态。一旦配置数据更新状态改变,则热切换配置数据。由原始数据网络接入服务接收到的数据,将先通过数据预处理模块做初步清洗。这部分清洗后的数据最终由数据存储模块存入到Kafka中。
进一步地,在一实施例中,作为中间件的所述数据采集服务器的软件开发工具包SDK采集数据解析与持久化阶段包括:
由于中间件SDK的生命周期是作为安卓应用的中间件存在的,对安卓应用传入的原始数据,先放入阻塞队列中,通过缓存日志线程从队列中取出数据解析,并采用SQLite作为日志数据缓存容器,对传入的数据通过解析—建表—存入的方式,来缓存日志数据,如果数据可以被解析,则存放在正常表中如果不能解析则转化为JSON字符串存在异常表中。
进一步地,在一实施例中,作为中间件的所述数据采集服务器的软件开发工具包SDK的访问网络阶段包括:
对于安卓设备而言,IO操作、访问网络操作等耗时行为将影响UI线程的运行,所以访问网络操作都放在线程中完成。基于Thrift的技术实现网络传输。整个数据传输模式为C-S模型。
下载配置时,Server端先验证请求中的Token等字段,判断请求Client端是否合法。如果验证不合法,将会从服务端返回NULL,中间件SDK将会捕获这个异常打印在Log信息中。如果合法,则通过token查找对应应用的上传信息表,将该日志的上传配置信息返回给中间件SDK。并将这些配置信息写入到配置文件中存放在本地。上传数据时,先将需要上传的数据全部取出,再压缩后上传。在上传方法执行中,若遇到网络问题,将返回已成功上传的日志名。
进一步地,在一实施例中,作为中间件的所述数据采集服务器的软件开发工具包SDK的上传控制络阶段包括:
为了合理利用服务器资源的目的,需要对安卓设备数据上传数据的时机进行控制。在Client端获取上传配置信息后,会获取该App下所有日志的上传状态。在web管理后台开关的控制范围可以是App级别的,也可以细化到日志级别。中间件SDK通过解析配置信息来完成选择和设置上传方式,从而实现开关策略。
进一步地,在一实施例中,日志采集服务器实现的流程为:服务端Server不停监听是否有客户端传来日志数据,若接收到数据,服务器开始对数据进行处理。包括脏数据过滤,非法数据过滤,空值过滤等。在完成初步的数据清洗后,服务端根据约定的Topic将日志数据发送到Kafka分布式消息***中。
本数据采集方法提供了一个可复用的应用终端信息采集与存储***,可顺应移动互联网时代的大数据挖掘需求痛点,让信息数据能够快速流通起来,并将数据存储在通用的大数据组件中,提供快速、吞吐量高的接口用作大数据挖掘分析,并能够满足移动互联网企业集合旗下产品的实际情况实现对数据的采集与分析。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据采集***,其特征在于,所述***包括:
数据库服务器,用于存储预设配置规则信息;
数据采集服务器,用于获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群;
所述分布式消息***集群,用于接收所述数据采集层推送的日志数据。
2.如权利要求1所述的***,其特征在于,所述数据采集服务器部署有Log Server服务,用于实现远程过程调用服务来建立虚拟服务器,以实现负载均衡。
3.如权利要求2所述的***,其特征在于,所述数据采集服务器部署有thrift软件框架,所述数据采集服务器基于所述thrift软件框架实现网络数据传输功能。
4.如权利要求1所述的***,其特征在于,所述分布式消息***集群基于Kafka组件,所述Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据。
5.如权利要求3所述的***,其特征在于,所述数据采集服务器,用于进行初始化服务器配置,包括创建文件的缓存路径、创建存储数据库、获取通用的信息字段,创建内部缓存队列,启动工作线程,以实现网络数据传输功能。
6.一种基于数据采集***的数据采集方法,其特征在于,所述***包括数据采集服务器、分布式消息***集群以及数据库服务器;所述数据库服务器分别与所述数据采集服务器以及所述分布式消息***集群建立连接;所述方法包括:
数据采集服务器获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群;
所述分布式消息***集群接收所述数据采集层推送的日志数据。
7.如权利要求6所述的数据采集方法,其特征在于,所述数据采集服务器获取应用终端传输的原始信息数据,调用所述数据库服务器中存储的预设配置规则信息来对所述原始信息数据进行预处理,得到日志数据,并将所述日志数据推送至分布式消息***集群的步骤,包括:
所述数据采集服务器获取应用终端传输的原始信息数据;
从所述数据库服务器中下载预设配置规则信息,将所述预设配置规则信息保存到预设容器中;
基于所述预设容器的信息,判断所述原始信息数据是否满足预设上传条件;
若所述原始信息数据满足所述预设上传条件,则对所述原始信息数据进行封装和压缩作为日志数据推送至分布式消息***集群。
8.如权利要求6-7任一项所述的数据采集方法,其特征在于,所述数据采集服务器部署有thrift软件框架,所述数据采集服务器基于所述thrift软件框架实现网络数据传输功能。
9.如权利要求6所述的数据采集方法,其特征在于,所述分布式消息***集群基于Kafka组件,所述Kafka组件在存储数据时是通过顺序写磁盘的方式来持久化数据。
10.如权利要求7所述的数据采集方法,其特征在于,所述数据采集服务器获取应用终端传输的原始信息数据的步骤之前,还包括:
所述数据采集服务器进行初始化服务器配置,包括创建文件的缓存路径、创建存储数据库、获取通用的信息字段,创建内部缓存队列,启动工作线程,以实现网络数据传输功能。
CN201811502431.2A 2018-12-07 2018-12-07 一种数据采集***和数据采集方法 Pending CN109445949A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811502431.2A CN109445949A (zh) 2018-12-07 2018-12-07 一种数据采集***和数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811502431.2A CN109445949A (zh) 2018-12-07 2018-12-07 一种数据采集***和数据采集方法

Publications (1)

Publication Number Publication Date
CN109445949A true CN109445949A (zh) 2019-03-08

Family

ID=65558040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811502431.2A Pending CN109445949A (zh) 2018-12-07 2018-12-07 一种数据采集***和数据采集方法

Country Status (1)

Country Link
CN (1) CN109445949A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111294357A (zh) * 2020-02-17 2020-06-16 武汉轻工大学 粮食加工制品数据采集***及方法
CN111984420A (zh) * 2020-09-02 2020-11-24 深圳市玄羽科技有限公司 数据采集方法及***、云平台
CN112115028A (zh) * 2020-09-21 2020-12-22 杭州迪普科技股份有限公司 基于***日志的管理员消息发送方法、装置及***
CN112506886A (zh) * 2021-02-05 2021-03-16 北京通付盾人工智能技术有限公司 一种多源业务操作日志采集方法及***
CN112527876A (zh) * 2020-12-08 2021-03-19 国网四川省电力公司信息通信公司 基于多源异构数据分析的统一数据库访问***
CN112948845A (zh) * 2021-02-01 2021-06-11 航天科技控股集团股份有限公司 一种基于物联网数据中台的数据处理方法及***
CN112989160A (zh) * 2021-01-19 2021-06-18 苏州工业园区测绘地理信息有限公司 基于数据管道模型的网络爬虫方法及***
CN113079138A (zh) * 2021-03-23 2021-07-06 哈尔滨理工大学 一种生物信息数据在线过滤***
CN113497723A (zh) * 2020-03-20 2021-10-12 阿里巴巴集团控股有限公司 日志处理方法、日志网关和日志处理***
CN114492846A (zh) * 2022-04-06 2022-05-13 天聚地合(苏州)科技股份有限公司 基于可信执行环境的跨域联邦学习方法及***
CN114860483A (zh) * 2022-06-17 2022-08-05 中国人民解放军陆军炮兵防空兵学院 一种快速采集设备数据并高效率持久化方法及***
CN115003067A (zh) * 2022-04-20 2022-09-02 国网综合能源服务集团有限公司 一种工业互联网数据采集服务***及服务方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103138989A (zh) * 2013-02-25 2013-06-05 武汉华工安鼎信息技术有限责任公司 一种海量日志分析***及方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集***和数据采集方法
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
CN107045472A (zh) * 2017-05-04 2017-08-15 武汉轻工大学 移动设备信息采集***
WO2018170866A1 (zh) * 2017-03-24 2018-09-27 深圳中兴力维技术有限公司 数据采集方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103138989A (zh) * 2013-02-25 2013-06-05 武汉华工安鼎信息技术有限责任公司 一种海量日志分析***及方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集***和数据采集方法
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
WO2018170866A1 (zh) * 2017-03-24 2018-09-27 深圳中兴力维技术有限公司 数据采集方法和装置
CN107045472A (zh) * 2017-05-04 2017-08-15 武汉轻工大学 移动设备信息采集***

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111294357A (zh) * 2020-02-17 2020-06-16 武汉轻工大学 粮食加工制品数据采集***及方法
CN113497723A (zh) * 2020-03-20 2021-10-12 阿里巴巴集团控股有限公司 日志处理方法、日志网关和日志处理***
CN111984420A (zh) * 2020-09-02 2020-11-24 深圳市玄羽科技有限公司 数据采集方法及***、云平台
CN112115028A (zh) * 2020-09-21 2020-12-22 杭州迪普科技股份有限公司 基于***日志的管理员消息发送方法、装置及***
CN112527876A (zh) * 2020-12-08 2021-03-19 国网四川省电力公司信息通信公司 基于多源异构数据分析的统一数据库访问***
CN112989160A (zh) * 2021-01-19 2021-06-18 苏州工业园区测绘地理信息有限公司 基于数据管道模型的网络爬虫方法及***
CN112948845A (zh) * 2021-02-01 2021-06-11 航天科技控股集团股份有限公司 一种基于物联网数据中台的数据处理方法及***
CN112506886A (zh) * 2021-02-05 2021-03-16 北京通付盾人工智能技术有限公司 一种多源业务操作日志采集方法及***
CN113079138A (zh) * 2021-03-23 2021-07-06 哈尔滨理工大学 一种生物信息数据在线过滤***
CN114492846A (zh) * 2022-04-06 2022-05-13 天聚地合(苏州)科技股份有限公司 基于可信执行环境的跨域联邦学习方法及***
CN114492846B (zh) * 2022-04-06 2022-08-26 天聚地合(苏州)科技股份有限公司 基于可信执行环境的跨域联邦学习方法及***
CN115003067A (zh) * 2022-04-20 2022-09-02 国网综合能源服务集团有限公司 一种工业互联网数据采集服务***及服务方法
CN115003067B (zh) * 2022-04-20 2023-08-11 国网综合能源服务集团有限公司 一种工业互联网数据采集服务***及服务方法
CN114860483A (zh) * 2022-06-17 2022-08-05 中国人民解放军陆军炮兵防空兵学院 一种快速采集设备数据并高效率持久化方法及***
CN114860483B (zh) * 2022-06-17 2023-05-30 中国人民解放军陆军炮兵防空兵学院 一种快速采集设备数据并高效率持久化方法及***

Similar Documents

Publication Publication Date Title
CN109445949A (zh) 一种数据采集***和数据采集方法
US11200157B1 (en) Automated execution reporting for container builds
CN110245089A (zh) 压力测试方法、装置、设备及计算机可读存储介质
CN107710215A (zh) 在测试设施中的移动计算装置安全的方法和设备
CN107688487A (zh) 用于恢复数据库会话的状态的方法和***
CN108681569A (zh) 一种数据自动分析***及其方法
CN108399331B (zh) 应用进程试用方法和***
CN105095207A (zh) 检索、获取应用软件内容的方法和装置
CN109328344A (zh) 文件***映像处理***
CN107045472A (zh) 移动设备信息采集***
CN109788024A (zh) 高可用高并发高性能分布式远程抄表采集服务器解决方法
CN110287266A (zh) 一种分布式***及数据处理方法
CN108205582A (zh) 基于数据老化优化数据访问
CN108628669A (zh) 一种调度机器学习算法任务的方法和装置
CN108763042A (zh) 一种基于python的云服务器性能数据采集方法及装置
CN110225087A (zh) 基于全局负载均衡的云存取方法、装置及存储介质
CN109522501A (zh) 页面内容管理方法及其装置
CN112799782A (zh) 模型生成***、方法、电子设备及存储介质
CN113435605B (zh) 一种基于网络数据池的ai动态注入的控制方法和装置
CN106888264A (zh) 一种数据交换方法和装置
CN112559525B (zh) 数据检查***、方法、装置和服务器
CN106649530A (zh) 云详单查询管理***及方法
CN111013132B (zh) 游戏控制方法、装置、计算机设备及存储介质
Barnett et al. A conceptual model for architecting mobile applications
CN111026945A (zh) 多平台爬虫调度方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190308

RJ01 Rejection of invention patent application after publication