CN106708815A - 数据处理方法、装置和*** - Google Patents

数据处理方法、装置和*** Download PDF

Info

Publication number
CN106708815A
CN106708815A CN201510417386.0A CN201510417386A CN106708815A CN 106708815 A CN106708815 A CN 106708815A CN 201510417386 A CN201510417386 A CN 201510417386A CN 106708815 A CN106708815 A CN 106708815A
Authority
CN
China
Prior art keywords
data
acquisition
cluster
node
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510417386.0A
Other languages
English (en)
Other versions
CN106708815B (zh
Inventor
刘丽霞
文韬
王志坤
王东
刘海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510417386.0A priority Critical patent/CN106708815B/zh
Priority to JP2018500766A priority patent/JP6659820B2/ja
Priority to US15/743,337 priority patent/US20180225346A1/en
Priority to EP16823751.9A priority patent/EP3324304A4/en
Priority to KR1020187001533A priority patent/KR102125219B1/ko
Priority to PCT/CN2016/085487 priority patent/WO2017008604A1/zh
Publication of CN106708815A publication Critical patent/CN106708815A/zh
Application granted granted Critical
Publication of CN106708815B publication Critical patent/CN106708815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种数据处理方法,获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;将所述处理后的数据进行统一融合,获取统一融合后的数据。本发明还公开了一种数据处理方法、数据处理***。本发明有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。

Description

数据处理方法、装置和***
技术领域
本发明涉及计算机信息处理领域,尤其涉及一种数据处理方法、装置和***。
背景技术
数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,大数据时代已经降临。大数据的***式增长在大容量、多样性和高增速方面,考验着现代企业的数据处理和分析能力,同时,也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。当前,最重要的现实是对大数据进行处理分析,只有通过处理分析才能获取很多智能的、深入的、有价值的信息。
相比于传统的数据,大数据呈现了4V+1O特征,表现为数据量大(Volume)、种类繁多(Variety)、时效性高(Velocity)、价值密度低(Value)和数据在线(Online)。目前常规的大数据处理工具有两类:传统的ETL(Extract-Transform-Load,抽取、转换、加载)工具和基于Hadoop(HadoopDistributed File System,分布式文件***)的大数据采集工具。
目前,用户对于大数据处理的高效性和融合的集成度要求越来越高。然而目前常规的大数据处理工具对于大数据这种多源、异构、海量的数据,在处理方面存在欠缺,数据处理过程人工参与度高,数据处理不精细、效率低,而且对不同的数据也没有进行统一的融合,集成度不高,导致获取的最终数据可利用价值和实用性不高。
发明内容
本发明的主要目的在于解决大数据处理效率低、融合度低的技术问题。
为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括以下步骤:
获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;
根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;
将所述处理后的数据进行统一融合,获取统一融合后的数据。
优选的,所述获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务,包括:
控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况;
评估所述待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;
根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。
优选的,所述根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据,包括:
控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集;
控制所述集群中各节点根据所述数据处理模型处理采集到的数据,获取处理后的数据。
优选的,所述将所述处理后的数据进行统一融合,获取统一融合后的数据,包括:
根据预设的数据规整模型,对处理后的数据进行数据规整;和/或,根据预设的数据集成模型,对处理后的数据进行数据集成;和/或,根据预设的数据建模模型,对处理后的数据进行数据建模;得到统一融合后的数据。
优选的,所述将所述处理后的数据进行统一融合,获取统一融合后的数据之后,还包括:
分类存储所述统一融合后的数据。
优选的,所述获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务之前,还包括:
配置数据采集接口;
所述获取待采集数据样本,对所述待采集数据样本进行预处理的步骤包括:
通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理;
所述控制集群中各节点进行数据采集和数据处理的步骤包括:
控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。
优选的,所述配置数据采集接口,包括:
获取数据采集接口配置参数;
根据所述配置参数进行所述数据采集接口的连接测试;
若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;
若所述连接测试不成功,则转入步骤:获取数据采集接口配置参数。
此外,为实现上述目的,本发明还提供一种数据处理装置,所述数据处理装置包括:
适配模块,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;
数据处理模块,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;
统一融合模块,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。
优选的,所述适配模块包括:
样本采集单元,用于控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况;
数据评估单元,用于评估待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;
适配单元,用于根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。
优选的,所述数据处理模块包括:
数据采集单元,用于控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集;
数据处理单元,用于控制所述集群中各节点根据所述数据处理模型处理所述采集到的数据,获取处理后的数据。
优选的,所述统一融合模块包括:
数据规整单元,用于根据预设的数据规整模型,对处理后的数据进行数据规整;
数据集成单元,用于根据预设的数据集成模型,对处理后的数据进行数据集成;
数据建模单元,用于根据预设的数据建模模型,对处理后的数据进行数据建模;
数据获取单元,用于获取统一融合后的数据。
优选的,所述数据处理装置还包括分类存储模块,用于,
分类存储所述统一融合后的数据。
优选的,所述数据处理装置还包括接口配置模块,用于,
配置数据采集接口;
所述适配模块还用于,通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理;
所述数据处理模块还用于,控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。
优选的,所述接口配置模块包括:
参数获取单元,用于获取数据采集接口配置参数;
连接测试单元,用于根据所述配置参数进行所述数据采集接口的连接测试;
文件分发单元,用于若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;
所述参数获取单元还用于,若所述连接测试不成功,则获取所述数据采集接口配置参数。
此外,为实现上述目的,本发明还提供一种数据处理***,包括数据采集接口适配器、数据预读处理器、数据处理器、数据统一融合处理器和数据分类存储器,其中:
适配处理器,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;
数据处理器,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;
数据统一融合处理器,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。
优选的,所述数据处理***还包括:
数据采集接口适配器,用于配置数据采集接口;
数据分类存储器,用于分类存储所述统一融合后的数据;
***管理器,所述***管理器包括:
数据管理模块,用于管理所述数据采集接口配置文件、数据采集接口的连接测试结果、待采集数据样本、质量评估报告和集群中各节点负载情况;
资源管理模块,用于管理所述待采集数据样本、数据采集、数据处理、数据统一融合和数据存储,及集群资源消耗情况,控制所述集群中各节点负载均衡;
模型管理模块,用于管理数据采集接口配置模板、数据评估模板、数据采集模板、数据处理模型、数据规整模型、数据集成模型和数据建模模型;
过程监控模块,用于监控数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程,并记录、处理数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程中的完成状态、中间错误和异常。
本发明通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,采集数据并进行处理数据,调整集群中各节点负载均衡,并对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。
附图说明
图1为本发明数据处理方法第一实施例的流程示意图;
图2为本发明数据处理方法第二实施例的流程示意图;
图3为本发明数据处理方法第三实施例的流程示意图;
图4为本发明数据处理方法第四实施例的流程示意图;
图5为本发明数据处理方法第五实施例的流程示意图;
图6为本发明数据处理方法第六实施例的流程示意图;
图7为本发明数据处理方法第七实施例的流程示意图;
图8为本发明数据处理装置第一实施例的功能模块示意图;
图9为本发明数据处理装置第二实施例的功能模块示意图;
图10为本发明数据处理装置第三实施例的功能模块示意图;
图11为本发明数据处理装置第四实施例的功能模块示意图;
图12为本发明数据处理装置第五实施例的功能模块示意图;
图13为本发明数据处理装置第六实施例的功能模块示意图;
图14为本发明数据处理装置第七实施例的功能模块示意图;
图15为本发明数据处理***第一实施例的结构示意图;
图16为本发明数据处理***第二实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:通过数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;将所述处理后的数据进行统一融合,获取统一融合后的数据。
由于现有技术数据处理过程人工参与度高,数据处理不精细、效率低,而且对分散的、有内在关联的数据也没有进行统一的融合,融合度不高,导致获取的最终数据可利用价值和实用性不高。
本发明提供一种解决方案,能够自动适配数据采集模式和处理类型,对多源异构海量数据进行统一融合,从而提高数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。
参照图1,本发明数据处理方法第一实施例提供一种数据处理方法,所述数据处理方法包括以下步骤:
步骤S10,获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务。
控制集群中各节点采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。
对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。
根据质量评估报告和集群中各节点负载情况,决定数据采集模式、适配数据处理模型、分配集群中各节点的采集任务。
根据不同的数据类型适配不同的数据采集模式,不同的数据采集模式包括全量、增量、非实时、实时,例如:动态流式数据适配增量实时采集模式,结构化数据适配全量非实时采集模式,半结构化数据及非结构化数据适配全量非实时采集模式,数据采集模式也可以是其他采集模式,可根据实际需要灵活设置。
根据不同的数据类型适配数据处理模型,不同的数据类型如流式数据、批量数据、结构化数据、半结构化数据和非结构化数据进行不同的数据处理,预置数据处理模型用于流式数据、非结构化图片数据、非结构化音视频数据、非结构化文本数据、半结构化数据、结构化数据的处理,可直接适配调用,支持模型复用和修订。
数据处理模型包括:动态流式数据为数据抽取、数据过滤、数据关联、数据转换、数据分类的顺次处理步骤;结构化数据为数据抽取、异常清洗的顺次处理步骤;半结构化数据及非结构化数据为数据抽取、数据解析、异常清洗、数据分割、特征提取的顺次处理步骤。需要说明的是,可以直接适配数据处理模型,也可以对数据处理模型进行微调使用,也可以根据具体处理需求对数据处理步骤和模型进行灵活设置。
集群中各节点的采集任务的分配,实现了对集群中各节点负载情况的动态调整,消除或减少***中各节点负载不均衡的现象,提高数据采集和数据处理效率。
步骤S20,根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据。
控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数据采集,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,获取采集到的数据。
控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理,获取处理后的数据。
步骤S30,将所述处理后的数据进行统一融合,获取统一融合后的数据。
对采集及处理后的数据进行数据规整、数据集成、数据建模,数据规整和数据集成针对有内在关联性的数据进行,数据建模提供数据模型设计、数据索引构建功能,将分散的、有内在联系的各种数据进行关联,获取统一融合后的数据。
在本实施例中,通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,采集数据并处理数据,调整集群中各节点负载均衡,并对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。
进一步的,参照图2,本发明数据处理方法第二实施例提供一种数据处理方法,基于上述图1所示的实施例,步骤S10包括:
步骤S11、控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况。
控制集群中各节点采集预设数量的待采集数据,获取待采集数据样本,和数据采集过程中集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力。
步骤S12、评估所述待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。
控制集群中各节点对各自采集到的待采集数据样本进行数据质量评估,包括集群中各节点采集到的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;然后将集群中各节点数据质量评估的数据汇总、整理成为最终的质量评估报告,最终的质量评估报告是最终的待采集数据样本的数据基本质量属性的检测与判定,包括最终的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。或,
获取集群中各节点采集到的待采集数据样本,汇总采集到的待采集数据样本,对汇总后的待采集数据样本进行数据基本质量属性的检测与判定,包括数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度,获取质量评估报告。
步骤S13、根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。
根据质量评估报告中的数据类型和数据传输速率适配数据采集模式,根据质量评估报告中的数据编码、数据冗余率、数据稀疏性适配数据处理模型,根据质量评估报告中的数据传输速度和集群中各节点负载情况分配集群中各节点采集任务。
在本实施例中,获取待采集数据样本,通过对待采集数据样本的预处理,得到质量评估报告和集群中各节点负载情况,并根据质量评估报告和集群中各节点负载情况,自动适配数据采集模式和数据处理模型,实现了各种异构数据包括各种动态的流式数据、静态的结构化数据、半结构化数据和非结构化数据按照其自身的数据特性进行更加合理有效的数据采集及数据处理;合理分配采集任务,使集群中各节点按照相应的采集任务进行数据采集,实现了集群中各节点负载平衡,提升了集群处理能力。
进一步的,参照图3,本发明数据处理方法第三实施例提供一种数据处理方法,基于上述图1所示的实施例,步骤S20包括:
步骤S21、控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集。
控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数据采集并缓存,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,非结构化数据会进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型的非结构化数据的采集方法不同,例如文本数据会进行文本数据采集、音频数据会进行音频数据采集、视频数据会进行视频数据采集、图片数据会进行图片数据采集,获取采集到的数据。
步骤S22、控制所述集群中各节点根据所述数据处理模型处理采集到的数据,获取处理后的数据。
控制集群中各节点根据适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据根据数据处理模型顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据根据数据处理模型顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,完成数据处理,获取处理后的数据。非结构化数据进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型非结构化数据处理方法不同,如根据数据处理模型对文本数据会进行文本数据采集、文本结构及编码解析、重复及逻辑异常清洗、中文分词、特征提取的处理步骤。
数据处理过程中的产生的中间数据、元数据和进行数据处理后的结果数据,根据采集模式的不同选择合适的存储介质进行数据存储或缓存,即待采集数据的原始数据经过数据抽取、数据解析及异常清洗之后的结果数据、经过数据分割后的结果数据、经过特征提取后的结果数据都会存入分布式文件***或分布式数据库;增量流式数据的中间数据采用内存数据库进行缓存,结果数据采用先进行文件缓存再存入分布式数据库。获取处理后的数据。
在本实施例中,自动根据不同的数据类型,使用合适的数据采集模式进行数据采集,根据适配的数据处理模型对不同类型的数据进行特定的数据处理,实现了根据各种异构数据自身数据特性自动进行合适、有针对性的数据采集和处理,提升了数据处理效率和处理后的数据质量,使处理前的数据经过处理成为可操作的统一的数据,便于数据融合。
进一步的,参照图4,本发明数据处理方法第四实施例提供一种数据处理方法,基于上述图1所示的实施例,步骤S30包括:
步骤S31、根据预设的数据规整模型,对处理后的数据进行数据规整。
根据预设的数据规整模型,对处理后的不同数据进行统一的数据规整,包括:统一的格式转换、统一编码、数据修正和缺失填充,获取统一规整的数据。
步骤S32、和/或,根据预设的数据集成模型,对处理后的数据进行数据集成。
根据预设的数据集成模型,对处理后的不同数据或数据规整后的数据进行数据集成,包括:数据关联、数据合并、数据分组、数据汇总,形成统一的常用的基础的数据集合。
步骤S33、和/或,根据预设的数据建模模型,对处理后的数据进行数据建模。
根据预设的数据建模模型,对处理后的不同数据、或数据规整后的数据、或数据集成后的数据进行模型设计、索引构建,以形成后续更高级别数据分析、数据挖掘的基础数据支撑。
步骤S34、得到统一融合后的数据。
对处理后的数据,根据数据处理后的情况,进行数据规整的统一融合操作,和/或数据集成的统一融合操作,和/或数据建模的统一融合操作,可按顺次进行数据规整、数据集成和数据建模完成统一融合,也可按顺次进行数据规整、数据集成完成统一融合,或其他统一融合操作完成统一融合,可根据实际统一融合的需要进行数据规整、数据集成或数据建模的统一融合操作。获取统一融合后的数据。
在本实施例中,对处理后的数据进行数据规整、数据集成、数据建模的统一融合操作,实现了自动对分散的、有内在关联性的各异构数据的关联,提高了数据融合度,提升了最终数据的可利用价值和实用性,为后续的大数据分析、数据价值挖掘提供基础数据支撑和数据质量保证。
进一步的,参照图5,本发明数据处理方法第五实施例提供一种数据处理方法,基于上述图1至图4中所示任一实施例(本实施例以图1为例),步骤S30之后还包括:
步骤S40、分类存储所述统一融合后的数据。
对不同类型的数据分类存储,将统一融合后的数据存储于分布式数据仓库,将特定数据存储于专用数据库,例如:将交通、气象等时空数据存储于时空数据库,将社交网络等图数据存储于图数据库。而将采集到的半结构化数据、非结构化数据的原始数据存储于分布式文件***;将采集到的结构化数据的原始数据存储于分布式数据库;将半结构化数据及非结构化数据处理后的数据存储于分布式数据库;将流式数据处理在实时数据库进行。
在本实施例中,自动适配数据采集模式和数据处理模型,根据数据处理模型处理采集到的数据,对处理后的数据进行统一融合,分类存储统一融合后的数据,便于后续数据的大数据的分类查询和进一步分析处理,提升了最终数据的实用性和调取便捷性。
进一步的,参照图6,本发明数据处理方法第六实施例提供一种数据处理方法,基于上述图1所示实施例,步骤S10之前还包括:
步骤S50、配置数据采集接口。
对不同数据源的数据采集接口进行统一配置,并对配置进行连接测试,连接成功后再进行配置文件的统一分发,控制集群中各节点连接不同数据源的数据采集接口,通过配置成功的数据采集接口进行数据采集;若连接测试失败,重新进行数据采集接口配置。
步骤S10中获取待采集数据样本,对所述待采集数据样本进行预处理包括,通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理。
控制集群中各节点通过数据采集接口采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。
对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。
步骤S20中控制集群中各节点进行数据采集和数据处理包括,控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。
控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式通过数据采集接口进行数据采集,例如:动态流式数据通过数据采集接口以增量实时采集模式进行数据采集,结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,获取采集到的数据。
控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理。
在本实施例中,统一配置数据采集接口,兼顾静态的、动态的,结构化的、半结构化的、非结构化的异构数据采集接口配置,实现了多源数据采集时,数据采集接口的统一配置,为多源异构数据采集做好了准备,从而可以控制集群中各节点通过数据采集接口采集多源异构数据,提升了数据采集速率。
进一步的,参照图7,本发明数据处理方法第七实施例提供一种数据处理方法,基于上述图6所示实施例,步骤S50包括:
步骤S51、获取数据采集接口配置参数。
向用户给出预置的接口配置模板,包括:文件***接口配置模板、数据库接口配置模板和网络接口配置模板,供用户选择,根据用户选定的接口配置模板获取模板中的配置参数;或,
向用户给出预置的接口配置模板,包括:文件***接口配置模板、数据库接口配置模板和网络接口配置模板,用户选择接口配置模板后,可根据实际情况对模板中的配置参数进行修改;或,
用户自定义设置数据采集接口配置参数,可根据实际需要灵活设置。
数据采集接口配置参数包括数据采集接口的关键接口参数,例如:网络地址、端口号和路径。
步骤S52、根据所述配置参数进行所述数据采集接口的连接测试。
根据获取的数据采集接口配置参数控制集群中主节点对数据采集接口进行连接,测试根据获取的配置参数,是否能成功连接数据采集接口。若根据获取的配置参数,成功连接数据采集接口,则连接测试成功;若根据获取的配置参数,未成功连接数据采集接口,则连接测试不成功。
步骤S53、若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;若所述连接测试不成功,则转入步骤S51。
若连接测试成功,则将获取的数据采集接口配置参数固化为数据采集接口的配置文件,将配置文件向集群中的其他节点进行分发,并控制集群中各节点根据获取的数据采集接口配置参数连接数据采集接口。
若连接测试不成功,则通知用户未成功连接数据采集接口,由用户更换接口配置模板,或修改对模板中的数据采集接口配置参数,或自定义设置数据采集接口配置参数,重新获取数据采集接口配置参数。
在本实施例中,通过获取数据采集接口配置参数,连接测试获取正确可用的数据采集接口配置参数,用以连接数据采集接口,完成了数据采集接口的配置,实现了对多源数据采集接口的统一自动化配置及连接,为数据采集做好了准备和支持,提升了数据采集和处理效率。
参照图8,本发明数据处理装置第一实施例提供一种数据处理装置,所述数据处理装置包括:
适配模块100,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务。
适配模块100控制集群中各节点采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。
适配模块100对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。
根据质量评估报告和集群中各节点负载情况,适配模块100决定数据采集模式、适配数据处理模型、分配集群中各节点的采集任务。
根据不同的数据类型适配不同的数据采集模式,不同的数据采集模式包括全量、增量、非实时、实时,例如:动态流式数据适配增量实时采集模式,结构化数据适配全量非实时采集模式,半结构化数据及非结构化数据适配全量非实时采集模式,数据采集模式也可以是其他采集模式,可根据实际需要灵活设置。
根据不同的数据类型适配数据处理模型,不同的数据类型如流式数据、批量数据、结构化数据、半结构化数据和非结构化数据进行不同的数据处理,预置数据处理模型用于流式数据、非结构化图片数据、非结构化音视频数据、非结构化文本数据、半结构化数据、结构化数据的处理,可直接适配调用,支持模型复用和修订。
数据处理模型包括:动态流式数据为数据抽取、数据过滤、数据关联、数据转换、数据分类的顺次处理步骤;结构化数据为数据抽取、异常清洗的顺次处理步骤;半结构化数据及非结构化数据为数据抽取、数据解析、异常清洗、数据分割、特征提取的顺次处理步骤。需要说明的是,可以直接适配数据处理模型,也可以对数据处理模型进行微调使用,也可以根据具体处理需求对数据处理步骤和模型进行灵活设置。
集群中各节点的采集任务的分配,实现了对集群中各节点负载情况的动态调整,消除或减少***中各节点负载不均衡的现象,提高数据采集和数据处理效率。
数据处理模块200,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据。
数据处理模块200控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数据采集,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,获取采集到的数据。
数据处理模块200控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理,获取处理后的数据。
统一融合模块300,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。
统一融合模块300对采集及处理后的数据进行数据规整、数据集成、数据建模,数据规整和数据集成针对有内在关联性的数据进行,数据建模提供数据模型设计、数据索引构建功能,将分散的、有内在联系的各种数据进行关联,获取统一融合后的数据。
在本实施例中,适配模块100通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,数据处理模块200采集数据并处理数据,调整集群中各节点负载均衡,统一融合模块300对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。
进一步的,参照图9,本发明数据处理装置第二实施例提供一种数据处理装置,基于上述图8所示的实施例,适配模块100包括:
样本采集单元110,用于控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况。
样本采集单元110控制集群中各节点采集预设数量的待采集数据,获取待采集数据样本,和数据采集过程中集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力。
数据评估单元120,用于评估待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。
数据评估单元120控制集群中各节点对各自采集到的待采集数据样本进行数据质量评估,包括集群中各节点采集到的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;然后数据评估单元120将集群中各节点的数据质量评估的数据汇总、整理成为最终的质量评估报告,最终的质量评估报告是最终的待采集数据样本的数据基本质量属性的检测与判定,包括最终的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。或,
数据评估单元120获取集群中各节点采集到的待采集数据样本,汇总采集到的待采集数据样本,对汇总后的待采集数据样本进行数据基本质量属性的检测与判定,包括数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度,获取质量评估报告。
适配单元130,用于根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。
适配单元130根据质量评估报告中的数据类型和数据传输速率适配数据采集模式,根据质量评估报告中的数据编码、数据冗余率、数据稀疏性适配数据处理模型,根据质量评估报告中的数据传输速度和集群中各节点负载情况分配集群中各节点采集任务。
在本实施例中,样本采集单元110获取待采集数据样本,数据评估单元120通过对待采集数据样本的预处理,得到质量评估报告和集群中各节点负载情况,适配单元130根据质量评估报告和集群中各节点负载情况,自动适配数据采集模式和数据处理模型,实现了各种异构数据包括各种动态的流式数据、静态的结构化数据、半结构化数据和非结构化数据按照其自身的数据特性进行更加合理有效的数据采集及数据处理;合理分配采集任务,使集群中各节点按照相应的采集任务进行数据采集,实现了集群中各节点负载平衡,提升了集群处理能力。
进一步的,参照图10,本发明数据处理装置第三实施例提供一种数据处理装置,基于上述图8所示的实施例,数据处理模块200包括:
数据采集单元210,用于控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集。
数据采集单元210控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数据采集并缓存,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,非结构化数据会进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型的非结构化数据的采集方法不同,例如文本数据会进行文本数据采集、音频数据会进行音频数据采集、视频数据会进行视频数据采集、图片数据会进行图片数据采集,获取采集到的数据。
数据处理单元220,用于控制所述集群中各节点根据所述数据处理模型处理所述采集到的数据,获取处理后的数据。
数据处理单元220控制集群中各节点根据适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据根据数据处理模型顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据根据数据处理模型顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,完成数据处理,获取处理后的数据。非结构化数据进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型非结构化数据处理方法不同,如根据数据处理模型对文本数据会进行文本数据采集、文本结构及编码解析、重复及逻辑异常清洗、中文分词、特征提取的处理步骤。
数据处理过程中的产生的中间数据、元数据和进行数据处理后的结果数据,数据处理单元220根据采集模式的不同选择合适的存储介质进行数据存储或缓存,即待采集数据的原始数据经过数据抽取、数据解析及异常清洗之后的结果数据、经过数据分割后的结果数据、经过特征提取后的结果数据存入分布式文件***或分布式数据库;增量流式数据的中间数据采用内存数据库进行缓存,结果数据采用先进行文件缓存再存入分布式数据库。获取处理后的数据。
在本实施例中,数据采集单元210自动根据不同的数据类型,使用合适的数据采集模式进行数据采集,数据处理单元220根据适配的数据处理模型对不同类型的数据进行特定的数据处理,实现了根据各种异构数据自身数据特性自动进行合适、有针对性的数据采集和处理,提升了数据处理效率和处理后的数据质量,使处理前的数据经过处理成为可操作的统一的数据,便于数据融合。
进一步的,参照图11,本发明数据处理装置第四实施例提供一种数据处理装置,基于上述图8所示的实施例,统一融合模块300包括:
数据规整单元310,用于根据预设的数据规整模型,对处理后的数据进行数据规整。
根据预设的数据规整模型,数据规整单元310对处理后的不同数据进行统一的数据规整,包括:统一的格式转换、统一编码、数据修正和缺失填充,获取统一规整的数据。
数据集成单元320,用于根据预设的数据集成模型,对处理后的数据进行数据集成。
根据预设的数据集成模型,数据集成单元320对处理后的不同数据或数据规整后的数据进行数据集成,包括:数据关联、数据合并、数据分组、数据汇总,形成统一的常用的基础的数据集合。
数据建模单元330,用于根据预设的数据建模模型,对处理后的数据进行数据建模。
根据预设的数据建模模型,数据建模单元330对处理后的不同数据、或数据规整后的数据、或数据集成后的数据进行模型设计、索引构建,以形成后续更高级别数据分析、数据挖掘的基础数据支撑。
数据获取单元340,用于获取统一融合后的数据。
对处理后的数据,根据数据处理后的情况,数据获取单元340控制数据规整单元310进行数据规整的统一融合操作,数据集成单元320进行数据集成的统一融合操作,数据建模单元330进行数据建模的统一融合操作,可按顺次进行数据规整、数据集成和数据建模完成统一融合,也可按顺次进行数据规整、数据集成完成统一融合,或其他统一融合操作完成统一融合,可根据实际统一融合的需要进行数据规整、数据集成或数据建模的统一融合操作。数据获取单元340获取统一融合后的数据。
在本实施例中,数据获取单元340控制数据规整单元310、数据集成单元320和数据建模单元330,对处理后的数据进行统一融合,实现了自动对分散的、有内在关联性的各异构数据的关联,提高了数据融合度,提升了最终数据的可利用价值和实用性,为后续的大数据分析、数据价值挖掘提供基础数据支撑和数据质量保证。
进一步的,参照图12,本发明数据处理装置第五实施例提供一种数据处理装置,基于上述图8至图11中所示任一实施例(本实施例以图8为例),所述数据处理装置还包括分类存储模块400:
分类存储模块400,用于分类存储所述统一融合后的数据。
分类存储模块400对不同类型的数据分类存储,将统一融合后的数据存储于分布式数据仓库,将特定数据存储于专用数据库,例如:分类存储模块400将交通、气象等时空数据存储于时空数据库;分类存储模块400将社交网络等图数据存储于图数据库。分类存储模块400将采集到的半结构化数据、非结构化数据的原始数据存储于分布式文件***;分类存储模块400将采集到的结构化数据的原始数据存储于分布式数据库;分类存储模块400将半结构化数据及非结构化数据进行处理后的数据存储于分布式数据库;分类存储模块400将流式数据处理在实时数据库进行。
在本实施例中,适配模块100自动适配数据采集模式和数据处理模型,数据处理模块200根据数据处理模型处理采集到的数据,统一融合模块300对处理后的数据进行统一融合,分类存储模块400分类存储统一融合后的数据,便于后续数据的大数据的分类查询和进一步分析处理,提升了最终数据的实用性和调取便捷性。
进一步的,参照图13,本发明数据处理装置第六实施例提供一种数据处理装置,基于上述图8所示实施例,所述数据处理装置还包括接口配置模块500:
接口配置模块500,用于配置数据采集接口。
接口配置模块500对不同数据源的数据采集接口进行统一配置,并对配置进行连接测试,连接成功后接口配置模块500再进行配置文件的统一分发,控制集群中各节点连接不同数据源的数据采集接口;若连接测试失败,接口配置模块500重新进行数据采集接口配置。
所述适配模块100还用于,通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理。
适配模块100控制集群中各节点通过数据采集接口采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。
适配模块100对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。
所述数据处理模块200还用于,控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。
数据处理模块200控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式通过数据采集接口进行数据采集,例如:动态流式数据通过数据采集接口以增量实时采集模式进行数据采集,结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,获取采集到的数据。
数据处理模块200控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理。
在本实施例中,接口配置模块500统一配置数据采集接口,兼顾静态的、动态的,结构化的、半结构化的、非结构化的异构数据采集接口配置,实现了多源数据采集时,数据采集接口的统一配置,为多源异构数据采集做好了准备,从而适配模块100和数据处理模块200可以控制集群中各节点通过数据采集接口采集多源异构数据,提升了数据采集速率。
进一步的,参照图14,本发明数据处理装置第七实施例提供一种数据处理装置,基于上述图13所示实施例,接口配置模块500包括:
参数获取单元510,用于获取数据采集接口配置参数。
参数获取单元510向用户给出预置的接口配置模板,包括:文件***接口配置模板、数据库接口配置模板和网络接口配置模板,供用户选择,根据用户选定的接口配置模板获取模板中的配置参数;或,
参数获取单元510向用户给出预置的接口配置模板,包括:文件***接口配置模板、数据库接口配置模板和网络接口配置模板,用户选择接口配置模板后,可根据实际情况对模板中的配置参数进行修改;或,
用户自定义设置数据采集接口配置参数,参数获取单元510获取用户自定义设置的数据采集接口配置参数。
数据采集接口配置参数包括数据采集接口的关键接口参数,例如:网络地址、端口号和路径。
连接测试单元520,用于根据所述配置参数进行所述数据采集接口的连接测试。
连接测试单元520根据获取的数据采集接口配置参数控制集群中主节点对数据采集接口进行连接,测试根据获取的配置参数,是否能成功连接数据采集接口。若根据获取的配置参数,成功连接数据采集接口,则连接测试单元520确认连接测试成功;若根据获取的配置参数,未成功连接数据采集接口,则连接测试单元520确认连接测试不成功。
文件分发单元530,用于若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口。
若连接测试成功,则文件分发单元530将获取的数据采集接口配置参数固化为数据采集接口的配置文件,将配置文件向集群中的其他节点进行分发,并控制集群中各节点根据获取的数据采集接口配置参数连接数据采集接口。
所述参数获取单元510还用于,若所述连接测试不成功,则获取所述数据采集接口配置参数。
若连接测试不成功,则参数获取单元510通知用户未成功连接数据采集接口,由用户更换接口配置模板,或由用户修改对模板中的数据采集接口配置参数,或由用户自定义设置数据采集接口配置参数,参数获取单元510重新获取数据采集接口配置参数。
在本实施例中,通过参数获取单元510获取数据采集接口配置参数,连接测试单元520连接测试获取正确可用的数据采集接口配置参数,文件分发单元530连接数据采集接口,完成了数据采集接口的配置,实现了对多源数据采集接口的统一自动化配置及连接,为数据采集做好了准备和支持,提升了数据采集和处理效率。
参照图15,本发明数据处理***第一实施例提供一种数据处理***,包括:
适配处理器A,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务。
适配处理器A包括样本采集模块A1,数据评估模块A2和适配模块A3。
样本采集模块A1用于获取待采集数据样本,数据评估模块A2用于对所述待采集数据样本进行预处理,适配模块A3用于适配数据采集模式和数据处理模型,分配集群中各节点采集任务。
数据处理器B,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据。
数据处理器B包括数据采集模块B1和数据处理模块B2。
数据采集模块B1用于根据适配的数据采集模式和集群中各节点采集任务采集数据,数据处理模块B2用于根据适配的数据处理模型对采集到的数据进行数据处理,获取处理后的数据。
数据统一融合处理器C,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。
数据统一融合处理器C包括数据规整模块C1、数据集成模块C2、数据建模模块C3和数据获取模块C4。
数据规整模块C1用于根据预设的数据规整模型,对处理后的数据进行数据规整;数据集成模块C2用于根据预设的数据集成模型,对处理后的数据进行数据集成;数据建模模块C3用于根据预设的数据建模模型,对处理后的数据进行数据建模;数据获取模块C4用于控制据规整模块C1、数据集成模块C2和数据建模模块C3进行数据统一融合,获取统一融合后的数据。
在本实施例中,适配处理器A通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,数据处理器B采集数据并处理数据,调整集群中各节点负载均衡,数据统一融合处理器C对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。
进一步的,参照图16,本发明数据处理***第二实施例提供一种数据处理***,基于上述图15所示的实施例,还包括数据采集接口适配器D、数据分类存储器E和***管理器F:
数据采集接口适配器D,用于配置数据采集接口。
数据采集接口适配器D包括参数获取模块D1、连接测试模块D2和文件分发模块D3。
参数获取模块D1用于获取数据采集接口配置参数;连接测试模块D2用于测试获取的数据采集接口配置参数是否能够对对数据采集接口进行连接;文件分发模块D3用于若连接测试成功,将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接数据采集接口。
数据分类存储器E,用于分类存储所述统一融合后的数据。
数据分类存储器E包括分布式文件***E1、分布式数据库E2、分布式数据仓库E3和专用数据库E4。
数据分类存储器E将统一融合后的数据存储于分布式数据仓库E3,将特定数据存储于专用数据库E4,例如:将交通、气象等时空数据存储于专用数据库E4,将社交网络等图数据存储于专用数据库E4。
数据分类存储器E将采集到的半结构化数据、非结构化数据的原始数据存储于分布式文件***E1;将采集到的结构化数据的原始数据存储于分布式数据库E2;将半结构化数据及非结构化数据进行处理后的数据存储于分布式数据库E2;将流式数据处理在专用数据库E4进行。
***管理器F,所述***管理器F包括:
数据管理模块F1,用于管理所述数据采集接口配置文件、数据采集接口的连接测试结果、待采集数据样本、质量评估报告和集群中各节点负载情况。
数据管理模块F1存储并分发数据采集接口配置文件;存储并向用户反馈数据采集接口的连接测试结果;存储或缓存待采集数据样本;评估待采集数据样本,获取并存储质量评估报告;获取并存储集群中各节点负载情况,便于其他模块查询或调取。
资源管理模块F2,用于管理所述待采集数据样本、数据采集、数据处理、数据统一融合和数据存储,及集群资源消耗情况,控制所述集群中各节点负载均衡。
资源管理模块F2用于根据待采集数据样本的采集过程、数据质量的评估过程、数据采集过程、数据处理过程、数据统一融合过程和数据存储过程中集群资源消耗情况,控制集群中各节点负载均衡。
模型管理模块F3,用于管理数据采集接口配置模板、数据评估模板、数据采集模板、数据处理模型、数据规整模型、数据集成模型和数据建模模型。
模型管理模块F3用于数据采集接口配置模板的存储和修改;数据评估模板的管理;数据采集模板的存储、适配、调用和修改;数据处理模型的存储、适配、调用和修改;数据规整模型的存储和调用;数据集成模型的存储和调用;数据建模模型的构建、存储和调用。
过程监控模块F4,用于监控数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程,并记录、处理数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程中的完成状态、中间错误和异常。
过程监控模块F4用于监控数据处理***各模块的运行状态、资源使用情况,记录并处理数据处理***各模块运行时错误、异常。
在本实施例中,***管理器F监控适配处理器A、数据处理器B、数据统一融合处理器C、数据采集接口适配器D和数据分类存储器E的运行状态、数据处理情况和负载情况,对各模块运行进行过程控制,集中管理数据处理***中各类数据,实现了多源数据接口的统一配置,异构数据采集方式和处理模型的自动适配,对异构数据的统一融合和分类存储,提高了数据处理效率和融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (16)

1.一种数据处理方法,其特征在于,所述数据处理方法包括以下步骤:
获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;
根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;
将所述处理后的数据进行统一融合,获取统一融合后的数据。
2.如权利要求1所述的数据处理方法,其特征在于,所述获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务,包括:
控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况;
评估所述待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;
根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。
3.如权利要求1所述的数据处理方法,其特征在于,所述根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据,包括:
控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集;
控制所述集群中各节点根据所述数据处理模型处理采集到的数据,获取处理后的数据。
4.如权利要求1所述的数据处理方法,其特征在于,所述将所述处理后的数据进行统一融合,获取统一融合后的数据,包括:
根据预设的数据规整模型,对处理后的数据进行数据规整;和/或,根据预设的数据集成模型,对处理后的数据进行数据集成;和/或,根据预设的数据建模模型,对处理后的数据进行数据建模;得到统一融合后的数据。
5.如权利要求1至4中任一项所述的数据处理方法,其特征在于,所述将所述处理后的数据进行统一融合,获取统一融合后的数据之后,还包括:
分类存储所述统一融合后的数据。
6.如权利要求1所述的数据处理方法,其特征在于,所述获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务之前,还包括:
配置数据采集接口;
所述获取待采集数据样本,对所述待采集数据样本进行预处理的步骤包括:
通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理;
所述控制集群中各节点进行数据采集和数据处理的步骤包括:
控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。
7.如权利要求6所述的数据处理方法,其特征在于,所述配置数据采集接口,包括:
获取数据采集接口配置参数;
根据所述配置参数进行所述数据采集接口的连接测试;
若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;
若所述连接测试不成功,则转入步骤:获取数据采集接口配置参数。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
适配模块,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;
数据处理模块,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;
统一融合模块,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。
9.如权利要求8所述数据处理装置,其特征在于,所述适配模块包括:
样本采集单元,用于控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况;
数据评估单元,用于评估待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;
适配单元,用于根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。
10.如权利要求8所述数据处理装置,其特征在于,所述数据处理模块包括:
数据采集单元,用于控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集;
数据处理单元,用于控制所述集群中各节点根据所述数据处理模型处理所述采集到的数据,获取处理后的数据。
11.如权利要求8所述数据处理装置,其特征在于,所述统一融合模块包括:
数据规整单元,用于根据预设的数据规整模型,对处理后的数据进行数据规整;
数据集成单元,用于根据预设的数据集成模型,对处理后的数据进行数据集成;
数据建模单元,用于根据预设的数据建模模型,对处理后的数据进行数据建模;
数据获取单元,用于获取统一融合后的数据。
12.如权利要求8、9、10或11所述的数据处理装置,其特征在于,所述数据处理装置还包括分类存储模块,用于分类存储所述统一融合后的数据。
13.如权利要求12所述数据处理装置,其特征在于,所述数据处理装置还包括接口配置模块,用于,
配置数据采集接口;
所述适配模块还用于,通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理;
所述数据处理模块还用于,控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。
14.如权利要求13所述数据处理装置,其特征在于,所述接口配置模块包括:
参数获取单元,用于获取数据采集接口配置参数;
连接测试单元,用于根据所述配置参数进行所述数据采集接口的连接测试;
文件分发单元,用于若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;
所述参数获取单元还用于,若所述连接测试不成功,则获取所述数据采集接口配置参数。
15.一种数据处理***,包括数据采集接口适配器、数据预读处理器、数据处理器、数据统一融合处理器和数据分类存储器,其中:
适配处理器,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;
数据处理器,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;
数据统一融合处理器,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。
16.如权利要求15所述的数据处理***,其特征在于,所述数据处理***还包括:
数据采集接口适配器,用于配置数据采集接口;
数据分类存储器,用于分类存储所述统一融合后的数据;
***管理器,所述***管理器包括:
数据管理模块,用于管理所述数据采集接口配置文件、数据采集接口的连接测试结果、待采集数据样本、质量评估报告和集群中各节点负载情况;
资源管理模块,用于管理所述待采集数据样本、数据采集、数据处理、数据统一融合和数据存储,及集群资源消耗情况,控制所述集群中各节点负载均衡;
模型管理模块,用于管理数据采集接口配置模板、数据评估模板、数据采集模板、数据处理模型、数据规整模型、数据集成模型和数据建模模型;
过程监控模块,用于监控数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程,并记录、处理数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程中的完成状态、中间错误和异常。
CN201510417386.0A 2015-07-15 2015-07-15 数据处理方法、装置和*** Active CN106708815B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201510417386.0A CN106708815B (zh) 2015-07-15 2015-07-15 数据处理方法、装置和***
JP2018500766A JP6659820B2 (ja) 2015-07-15 2016-06-12 データ処理方法、装置及びシステム、プログラムならびに記録媒体
US15/743,337 US20180225346A1 (en) 2015-07-15 2016-06-12 Data processing method, device and system
EP16823751.9A EP3324304A4 (en) 2015-07-15 2016-06-12 Data processing method, device and system
KR1020187001533A KR102125219B1 (ko) 2015-07-15 2016-06-12 데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체
PCT/CN2016/085487 WO2017008604A1 (zh) 2015-07-15 2016-06-12 数据处理方法、装置和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510417386.0A CN106708815B (zh) 2015-07-15 2015-07-15 数据处理方法、装置和***

Publications (2)

Publication Number Publication Date
CN106708815A true CN106708815A (zh) 2017-05-24
CN106708815B CN106708815B (zh) 2021-09-17

Family

ID=57757781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510417386.0A Active CN106708815B (zh) 2015-07-15 2015-07-15 数据处理方法、装置和***

Country Status (6)

Country Link
US (1) US20180225346A1 (zh)
EP (1) EP3324304A4 (zh)
JP (1) JP6659820B2 (zh)
KR (1) KR102125219B1 (zh)
CN (1) CN106708815B (zh)
WO (1) WO2017008604A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229474A (zh) * 2017-05-31 2017-10-03 成都药王科技股份有限公司 基于可视化界面快速配置Java接口和图表服务的方法及装置
CN108170722A (zh) * 2017-12-07 2018-06-15 深圳市华力特电气有限公司 一种统计任务控制***和方法
CN108509595A (zh) * 2018-04-02 2018-09-07 深圳市华傲数据技术有限公司 异构数据的整理方法、装置、存储介质及设备
CN109067565A (zh) * 2018-07-03 2018-12-21 深圳市脉山龙信息技术股份有限公司 一种用于异构时序运维数据的融合计算方法和装置
CN109635311A (zh) * 2018-10-24 2019-04-16 中国电子科技集团公司第二十八研究所 一种基于dds的仿真试验数据采集***
CN110113421A (zh) * 2019-05-08 2019-08-09 西南民族大学 一种基于物联网的大数据信息处理***
CN110519316A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现基于arm平台的集群资源监控方法
CN111158918A (zh) * 2019-12-31 2020-05-15 深圳大学 支撑点并行枚举负载均衡方法、装置、设备及介质
CN111209943A (zh) * 2019-12-30 2020-05-29 广州高企云信息科技有限公司 数据融合方法、装置及服务器
CN113836130A (zh) * 2021-09-28 2021-12-24 深圳创维智慧科技有限公司 数据质量评估方法、装置、设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070748A (zh) * 2017-04-13 2017-08-18 周发辉 一种通信大数据的处理***及方法
US11432982B2 (en) 2018-03-26 2022-09-06 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
US11426318B2 (en) * 2020-05-20 2022-08-30 Augustine Biomedical + Design, LLC Medical module including automated dose-response record system
WO2020139074A1 (en) * 2018-12-26 2020-07-02 Mimos Berhad System and method for monitoring data errors in extract, transform and load (etl) flow
CN110415027B (zh) * 2019-07-16 2023-05-26 上海金融期货信息技术有限公司 一种大数据行情平台***
CN111522801A (zh) * 2020-03-25 2020-08-11 平安科技(深圳)有限公司 分布式的数据库动态扩容方法、装置、设备及存储介质
CN111581281A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种数据融合方法和装置
CN111815146B (zh) * 2020-07-02 2021-04-06 上海微亿智造科技有限公司 生成用于模拟质检机的测试数据的方法及***
CN111914274A (zh) * 2020-07-30 2020-11-10 南京中诚区块链研究院有限公司 一种基于多信息来源的全流程区块链***
CN111914015A (zh) * 2020-08-25 2020-11-10 河北时代电子有限公司 一种基于工业协议的多源数据网关数据分析预警***
CN112395281B (zh) * 2020-12-10 2021-05-11 太极计算机股份有限公司 一种异构多源数据融合***
CN112802500B (zh) * 2020-12-31 2022-08-12 周凯 一种面向多源异构文旅大数据的分布式全息数据存储装置
CN112860553A (zh) * 2021-02-05 2021-05-28 北京迈格威科技有限公司 模型测试方法、装置、分布式集群、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820384A (zh) * 2010-02-05 2010-09-01 浪潮(北京)电子信息产业有限公司 一种集群服务动态分配方法及装置
CN104270402A (zh) * 2014-08-25 2015-01-07 浪潮电子信息产业股份有限公司 一种异构集群存储自适应数据负载的方法
CN104463465A (zh) * 2014-12-05 2015-03-25 国家电网公司 一种基于分布式模型的实时监控集群处理方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701324B1 (en) * 1999-06-30 2004-03-02 International Business Machines Corporation Data collector for use in a scalable, distributed, asynchronous data collection mechanism
AU9124801A (en) * 2000-09-28 2002-04-08 Oracle Corp Enterprise web mining system and method
US7624118B2 (en) * 2006-07-26 2009-11-24 Microsoft Corporation Data processing over very large databases
JP2011139149A (ja) * 2009-12-25 2011-07-14 Toshiba Corp 電話交換装置及びミラーリング制御方法
US9852176B2 (en) * 2010-09-03 2017-12-26 Vocus, Inc. Dynamic gathering of social media content
JP5775481B2 (ja) * 2012-03-29 2015-09-09 株式会社日立製作所 情報処理システム及びその処理方法
US9286316B2 (en) * 2012-04-04 2016-03-15 Varonis Systems, Inc. Enterprise level data collection systems and methodologies
JP5933410B2 (ja) * 2012-10-25 2016-06-08 株式会社日立製作所 データベース分析装置及びデータベース分析方法
CN103023970B (zh) * 2012-11-15 2015-07-22 中国科学院计算机网络信息中心 一种物联网海量数据存储方法及***
JP5982683B2 (ja) * 2013-01-17 2016-08-31 株式会社日立ソリューションズ 計算機システム
JP2015032173A (ja) * 2013-08-05 2015-02-16 株式会社日立製作所 行動推定システム
KR102075386B1 (ko) * 2013-11-28 2020-02-11 한국전자통신연구원 대용량 순차 수집 데이터 처리를 위한 프레임워크 제공장치 및 이의 데이터 처리방법
CN103944777B (zh) * 2014-03-26 2017-08-25 广州杰赛科技股份有限公司 分布式监控***信息处理方法和***
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理***及处理方法
CN104765765B (zh) * 2015-02-15 2017-10-24 浙江邦盛科技有限公司 一种基于时间窗口可移动的动态数据快速处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820384A (zh) * 2010-02-05 2010-09-01 浪潮(北京)电子信息产业有限公司 一种集群服务动态分配方法及装置
CN104270402A (zh) * 2014-08-25 2015-01-07 浪潮电子信息产业股份有限公司 一种异构集群存储自适应数据负载的方法
CN104463465A (zh) * 2014-12-05 2015-03-25 国家电网公司 一种基于分布式模型的实时监控集群处理方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229474A (zh) * 2017-05-31 2017-10-03 成都药王科技股份有限公司 基于可视化界面快速配置Java接口和图表服务的方法及装置
CN108170722A (zh) * 2017-12-07 2018-06-15 深圳市华力特电气有限公司 一种统计任务控制***和方法
CN108509595A (zh) * 2018-04-02 2018-09-07 深圳市华傲数据技术有限公司 异构数据的整理方法、装置、存储介质及设备
CN110519316A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现基于arm平台的集群资源监控方法
CN109067565A (zh) * 2018-07-03 2018-12-21 深圳市脉山龙信息技术股份有限公司 一种用于异构时序运维数据的融合计算方法和装置
CN109635311A (zh) * 2018-10-24 2019-04-16 中国电子科技集团公司第二十八研究所 一种基于dds的仿真试验数据采集***
CN110113421A (zh) * 2019-05-08 2019-08-09 西南民族大学 一种基于物联网的大数据信息处理***
CN111209943A (zh) * 2019-12-30 2020-05-29 广州高企云信息科技有限公司 数据融合方法、装置及服务器
CN111209943B (zh) * 2019-12-30 2020-08-25 广州高企云信息科技有限公司 数据融合方法、装置及服务器
CN111158918A (zh) * 2019-12-31 2020-05-15 深圳大学 支撑点并行枚举负载均衡方法、装置、设备及介质
CN111158918B (zh) * 2019-12-31 2022-11-11 深圳大学 支撑点并行枚举负载均衡方法、装置、设备及介质
CN113836130A (zh) * 2021-09-28 2021-12-24 深圳创维智慧科技有限公司 数据质量评估方法、装置、设备及存储介质
CN113836130B (zh) * 2021-09-28 2024-05-10 深圳创维智慧科技有限公司 数据质量评估方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2017008604A1 (zh) 2017-01-19
EP3324304A1 (en) 2018-05-23
KR20180017198A (ko) 2018-02-20
JP6659820B2 (ja) 2020-03-04
CN106708815B (zh) 2021-09-17
EP3324304A4 (en) 2018-05-23
KR102125219B1 (ko) 2020-06-23
JP2018524733A (ja) 2018-08-30
US20180225346A1 (en) 2018-08-09

Similar Documents

Publication Publication Date Title
CN106708815A (zh) 数据处理方法、装置和***
CN109756364A (zh) 一种基于日志分析的微服务性能优化***和分析方法
CN110428127B (zh) 自动化分析方法、用户设备、存储介质及装置
CN105893583A (zh) 基于人工智能的数据采集方法及***
CN108763490A (zh) 一种专利信息管理分析***
DE112021002820T5 (de) Dynamische automatisierung einer auswahl von pipeline-artefakten
CN110807026A (zh) 一种用于分析金融大数据血缘关系的自动化捕获***
CN109446816A (zh) 一种基于大数据平台审计日志的用户行为分析方法
CN109324960A (zh) 基于大数据分析的自动测试方法及终端设备
CN106649718B (zh) 一种用于pdm***的大数据采集与处理方法
CN109711707B (zh) 一种船舶动力装置综合状态评估方法
CN104022913A (zh) 用于数据集群的测试方法和装置
CN109933515A (zh) 一种回归测试用例集的优化方法和自动优化装置
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN113242157A (zh) 一种分布式处理环境下的集中式数据质量监测方法
CN113542074A (zh) 一种可视化管理kubernetes集群的东西向网络流量的方法及***
CN104077128B (zh) 一种数据处理方法及装置
CN116167370A (zh) 基于日志时空特征分析的分布式***异常检测方法
CN108073582A (zh) 一种计算框架选择方法和装置
CN107871055A (zh) 一种数据分析方法和装置
CN111277427B (zh) 一种数据中心网络设备的巡检方法及***
CN106326400A (zh) 基于多维数据集的数据处理***
CN110377741A (zh) 文本分类方法、智能终端及计算机可读存储介质
CN109683989A (zh) 一种配置项之间关联关系的自动采集方法及装置
CN115114264A (zh) 基于运维流程平台的应用***数据库性能管控方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant