CN115964418A - 一种面向物联网的多源异构数据接入***及方法 - Google Patents
一种面向物联网的多源异构数据接入***及方法 Download PDFInfo
- Publication number
- CN115964418A CN115964418A CN202211294978.4A CN202211294978A CN115964418A CN 115964418 A CN115964418 A CN 115964418A CN 202211294978 A CN202211294978 A CN 202211294978A CN 115964418 A CN115964418 A CN 115964418A
- Authority
- CN
- China
- Prior art keywords
- data
- structured
- text
- interface
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向物联网的多源异构数据接入***及方法,***包括:设备接入管理模块,用于屏蔽多源设备数据异构性,对物联网设备及数据进行统一管理和标准化接入;数据分析融合模块,用于将不同来源、不同格式、多样结构、碎片化的感知数据根据业务需要进行汇总、处理、聚合;数据存储模块,用于引接设备产生的非结构化数据和结构化数据进行高效存储与分类管理。本发明解决了物联网领域海量设备如何一体化管控、大量多源异构数据如何实时快速引接、分散混乱数据如何清洗整合和质量管理的问题。
Description
技术领域
本发明属于物联网的数据引接和处理技术领域,具体涉及一种面向物联网的多源异构数据接入***及方法。
背景技术
物联网作为新一轮信息产业革命的核心领域,更多的业务需求开始追逐物联网“万物互联”的风口,大量的物联网设备接入到物联网平台。随之产生大量的XML、JSON、音频、图片、视频信息等非结构化数据、半结构化数据,需要能够存储多种格式的数据类型;同时大量的物联网设备缺乏统一的通信标准和安全标准,平台需要针对每类设备的接入分别进行编码接入,造成平台复杂度和耦合度较高;并且感知数据来源不同厂家的设备、获取手段多样、数据格式各异,内容存在冲突、重复、缺失等问题。
物联网数据具有海量性、复杂、多源、异构特点,对于物联网数据接入***提出更高的接入、存储、分析要求。因此,如何对海量繁杂、来源广泛、不确定、关联弱的多源异构数据进行快速引接、分析融合和高效存储,是物联网平台保持实用性、通用性、高效性亟需解决的技术难题。
发明内容
本发明的目的之一在于提供一种面向物联网的多源异构数据接入***,针对感知数据呈现来源广泛、引接手段少、数据格式多样、分析程度低的特点,解决了感知数据如何多源引接、清洗转换、高效存储的问题。
为实现上述目的,本发明所采取的技术方案为:
一种面向物联网的多源异构数据接入***,所述面向物联网的多源异构数据接入***,包括:设备接入管理模块、数据分析融合模块和数据存储模块,其中:
所述设备接入管理模块,用于统一接入大批量多源异构的感知设备,通过统一的物联数据协议为应用层面提供开发的数据服务总线;所述设备接入管理模块包括设备管理单元、接口协议引接单元、文本数据引接单元,其中:
所述设备管理单元,用于对所接入的感知设备进行管理和安全接入认证,同时判断该设备是否满足标准协议接入,针对不兼容标准协议的感知设备预先建立数据结构转换模型;
所述接口协议引接单元,用于制定针对多源异构的感知设备的各种类型感知数据的元数据模型、数据格式以及数据采集标准协议接口;
所述文本数据引接单元,用于通过文件接口接收感知设备传输的不同格式的文本数据;
所述数据分析融合模块,用于将设备接入管理模块接收的大批量结构化数据和半结构化数据转换为同型同构的结构化数据传送至所述数据存储模块;
所述数据存储模块,用于对设备接入管理模块接收的半结构化数据和非结构化数据、以及数据分析融合模块发送的结构化数据进行分类存储与管理。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为优选,所述接口协议引接单元包括标准协议服务单元和私有接口适配单元;
所述标准协议服务单元,用于针对同属性感知设备提供统一标准接口服务进行多源异构数据引接;所述多源异构数据包括不同设备产生的结构化数据、半结构化数据和非结构化数据;
所述私有接口适配单元,用于针对不兼容标准协议的感知设备采用拓展接口和数据结构转模型换将接入数据转换为标准接口数据。
作为优选,所述标准协议服务单元根据设备数据属性将多源异构数据定义为上报数据、状态数据、控制指令数据、联动指令数据这四类标准协议数据;
所述标准协议服务单元根据每类标准协议数据定义相应的接口,包括设备采集数据接口、设备状态上报接口、设备控制接口和设备联动接口,其中:
所述设备采集数据接口,用于接收感知设备所采集的上报数据,包括目标数据、告警信息及其当前工作参数;
所述设备状态上报接口,用于接收感知设备按照接口协议定时上报的状态数据,包括心跳状态数据、校时信息、开关机信息;
所述设备控制接口,用于将感知设备的控制指令数据转化为接口参数传送至感知设备,以控制感知设备的工作参数或状态;
所述设备联动接口,用于向处置类设备发出跟踪目标信息的联动指令数据请求,该目标信息为接收到的探测类设备的目标信息。
作为优选,所述数据分析融合模块包括:数据解析分类单元、数据清洗单元和数据转换单元,其中:
所述数据解析分类单元,用于从所述数据存储模块获取半结构化文本数据转换为结构化数据传输至所述数据清洗单元;所述的半结构化文本数据包括二进制文本数据、XML文本数据、JSON文本数据,所述半结构化文本数据由设备接入管理模块发送至所述数据存储模块缓存;
所述数据清洗单元,用于对数据解析分类单元处理后的结构化数据以及所述设备接入管理模块直接接入的结构化数据进行重复剔除、缺失补充、异常纠正操作后传输至所述数据转换单元;所述结构化数据包括结构化文本数据,所述的结构化文本数据包括CSV、XLS格式的文本数据;
所述数据转换单元,用于通过ETL工具对所述数据清洗单元发送的结构化数据进行数据抽取后传输至所述数据存储模块。
作为优选,所述数据解析分类单元采用改进的分布式并行计算框架MapReduce将所述数据存储模块中分布式存储缓存的大批量半结构化文本数据并行处理分析,快速实时转换为单设备的结构化数据,执行如下操作:
步骤a:从存储区域读取待操作的半结构化文本数据,将数据分割成若干个的逻辑分片,其中分片的大小=读取文件总内存大小/hdfs块默认大小;
步骤b:调用Map端将分片数据解析成一系列键值对<key,value>供后续处理,相同文本类型的分片数据具有相同的key键;
步骤c:根据感知设备的业务需求和文本类型对Map端的处理的键值对分为n个分区处理;
步骤d:对每个分区的分片数据进行从小到大排序,将排序后的分区中key键相同的value进行合并;
步骤e:调用Reduce端对分区合并后的value进行分类处理,将文本类型相同的分片数据整理到相同类型文本;
步骤f:读取完成分类的文本数据,根据数据中的感知设备类型和该感知设备的字段长度将其分割为单个设备的结构化数据流,并传输至数据清洗单元。
本发明提供的一种面向物联网的多源异构数据接入***,与现有技术相比具有以下有益效果:
(1)、通过设备接入管理模块实现兼容多类感知设备的通信标准和安全协议,快速自动采集海量的感知数据,自适应适配感知设备私有接口协议,降低平台复杂度和耦合度。
(2)、通过数据分析融合模块提供分布式并行计算框架,为平台实时快速处理大批量的设备感知数据,防止数据丢包和堵塞。
(3)、通过数据存储模块提供分布式、多格式、安全性高的存储架构,保证感知数据分类存储和高算力需求。
本发明的目的之二在于提供一种面向物联网的多源异构数据接入方法,针对感知数据呈现来源广泛、引接手段少、数据格式多样、分析程度低的特点,解决了感知数据如何多源引接、清洗转换、高效存储的问题。
为实现上述目的,本发明所采取的技术方案为:
一种面向物联网的多源异构数据接入方法,所述面向物联网的多源异构数据接入方法,包括:
步骤1、添加接入感知设备的信息,同时判断该感知设备是否满足标准接口协议,对于不兼容标准协议的感知设备添加数据结构转换模型;
步骤2、判断引接的感知设备所传输的数据类型,数据类型为文本数据执行步骤6,数据类型为接口协议数据执行步骤3;
步骤3、判断引接的感知设备是否兼容标准接口服务,若兼容则执行步骤4;否则执行步骤5;
步骤4、针对可兼容标准协议的感知设备,按照标准接口协议进行多源异构数据引接,执行步骤6;
步骤5、针对无法兼容标准协议的感知设备,采用拓展接口和数据结构转模型换将接入数据转换为标准接口数据,实现该类感知设备的多源异构数据引接,执行步骤6;
步骤6、将接入的结构化数据和半结构化文本数据转换为同型同构的结构化数据,执行步骤7;
步骤7、对直接引接的多源异构数据中的半结构化数据和非结构化数据、以及步骤6处理得到的结构化数据进行独立存储与管理。
作为优选,所述将接入的结构化数据和半结构化数据转换为同型同构的结构化数据,包括:
步骤6.1、将接入的半结构化文本数据转换为结构化数据;
步骤6.2、对步骤6.1处理后的结构化数据以及直接接入的结构化数据进行重复剔除、缺失补充、异常纠正操作;
步骤6.3、利用ETL工具对步骤6.2操作后的结构化数据进行数据抽取,得到同型同构的结构化数据。
作为优选,所述将接入的半结构化文本数据转换为结构化数据,包括采用改进的分布式并行计算框架MapReduce将分布式存储缓存的大批量半结构化文本数据并行处理分析,快速实时转换为单个设备的结构化数据,具体步骤如下:
步骤a:从存储区域读取待操作的半结构化文本数据,将数据分割成若干个的逻辑分片,其中分片的大小=读取文件总内存大小/hdfs块默认大小;
步骤b:调用Map端将分片数据解析成一系列键值对<key,value>供后续处理,相同文本类型的分片数据具有相同的key键;
步骤c:根据感知设备的业务需求和文本类型对Map端的处理的键值对分为n个分区处理;
步骤d:对每个分区的分片数据进行从小到大排序,将排序后的分区中key键相同的value进行合并;
步骤e:调用Reduce端对分区合并后的value进行分类处理,将文本类型相同的分片数据整理到相同类型文本;
步骤f:读取完成分类的文本数据,根据数据中的感知设备类型和该感知设备的字段长度将其分割为单个设备的结构化数据流,完成数据转换。
本发明提供的一种面向物联网的多源异构数据接入方法,与现有技术相比具有以下有益效果:
(1)、通过设备接入管理模块实现兼容多类感知设备的通信标准和安全协议,快速自动采集海量的感知数据,自适应适配感知设备私有接口协议,降低平台复杂度和耦合度。
(2)、通过数据分析融合模块实现多源异构数据融合,为平台提供准确、标准、高质量的数据。
(3)、通过数据存储模块提供分布式、多格式、安全性高的存储架构,保证感知数据分类存储和高算力需求。
附图说明
图1为本发明的面向物联网的多源异构数据接入***的结构示意图;
图2为本发明数据解析分类单元将半结构化数据转换为结构化数据的流程图;
图3为本发明面向物联网的多源异构数据接入方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
为了解决现有技术中针对多源异构感知数据难以实现多源引接、清洗转换、高效存储的问题,本实施例提供一种面向物联网的多源异构数据接入***。
如图1所示,本实施例面向物联网的多源异构数据接入***,主要包括:设备接入管理模块、数据分析融合模块和数据存储模块。
1)多源异构数据接入***的设备接入管理模块,用于统一接入多数据结构、跨单位、跨***的感知设备,通过统一的物联数据协议为应用层面提供开发的数据服务总线。
本实施例通过设备接入管理模块对物联网感知设备及数据进行统一管理和接入,屏蔽多源设备数据异构性,通过开放多类型协议对多源异构设备实现全源信息引接,支持接入实时流数据、音频、视频、图片、二进制数据、文件等多种类型的数据。
在本实施例中,物联网感知设备可为摄像机、雷达、光电、电子围栏、无人机、振动光纤、反无人机装置、气象监测传感器等。当然,还可为其他物联网感知设备或者传感器,本实施例不做具体限定。
为了提高本实施例多源异构数据接入***的适配性,本实施例设备接入管理模块定义接口标准设置标准协议接口,同时适配私有接口,具体为设备接入管理模块包括设备管理单元、接口协议引接单元、文本数据引接单元。
1-1)设备管理单元,用于对所接入的感知设备进行管理和安全接入认证,同时判断该设备是否满足标准协议接入,针对不兼容标准协议的感知设备预先建立数据结构转换模型。
1-2)接口协议引接单元,用于***制定针对多源异构的感知设备的各种类型感知数据的元数据模型、数据格式以及数据采集标准协议接口,为数据接入实现数据采集层面的互联互通。
本实施例接口协议引接单元通过制定数据接收协议标准,对不同来源、不同手段、不同格式的多源异构数据实时、并发、快速采集,实现物联网动态接入各种形式的感知信息。具体的,在一个实施例中设置接口协议引接单元包括:标准协议服务单元和私有接口适配单元。
1-2-1)标准协议服务单元,用于针对同属性感知设备提供统一标准接口服务进行多源异构数据引接;多源异构数据包括不同设备产生的结构化数据、半结构化数据和非结构化数据。这里的结构化数据包括结构化接口协议数据和结构化文本数据,半结构化数据包括半结构化文本数据。
本实施例针对遵守***自定义标准接口的感知设备,对同型设备传输的数据项、数据结构、数据存储、数据接口等制定自定义开放标准协议,保证同类型设备同构数据的标准化接入和管理。
为了提高数据获取的灵活性以及本实施例标准接口的适配性,本实施例根据设备数据属性将多源异构数据定义为上报数据、状态数据、控制指令数据、联动指令数据这四类标准协议数据,并提供的标准接口服务包括设备采集数据接口、设备状态上报接口、设备控制接口和设备联动接口。
A、设备采集数据接口,用于***接收引接设备所采集的目标数据、告警信息及其当前工作参数等上报数据,为业务层提供数据支撑。
B、设备状态上报接口,用于接收感知设备按照接口协议定时上报的设备状态数据;即该接口用于***与连接设备之间的状态数据上报,设备按照接口协议定时向***上报状态数据、心跳状态数据、校时信息、开关机信息。
C、设备控制接口,用于将感知设备控制指令数据转化为接口参数传送至感知设备,以控制感知设备的工作参数或状态。即该接口用于***控制某些设备工作参数或者状态,***接收设备控制指令转化为接口参数传送给设备。
D、设备联动接口,用于向处置类设备发出跟踪目标信息的数据请求,该目标信息为接收到的探测类设备的目标信息。即该接口用于***接收到探测类设备的目标信息后,经过上层***分析后向处置类设备发出跟踪目标信息的数据请求。
1-2-2)私有接口适配单元,采用拓展接口和数据结构转换模型针对无法升级兼容标准接口服务的感知设备的感知数据转换为标准接口数据。
本实施例针对某些设备无法升级只能以设备私有协议进行对接的情况,自适应扩展私有接口和信息转换模型实现该类设备的快速引接,以保证本实施例的多源异构数据接入***具有较高的适配性。
1-3)文本数据引接单元,用于***通过文件接口接收感知设备传输的二进制、JSON、XML、CSV、XLS等不同格式的文本数据。文本数据引接单元引入的文本数据包括结构化文本数据和半结构化文本数据。
2)多源异构数据接入***的数据分析融合模块,用于将设备接入管理模块接收的结构化数据和半结构化数据转换为同型同构的高质量结构化数据。
本实施例通过数据分析融合模块将大批量不同来源、多样结构(结构化、半结构化)的数据根据业务需要通过汇总、校验、聚合实时快速的转换为同型同构数据。由于半结构化数据直接通过接口解析会出现数据阻塞的问题,因此本实施例将待解析的半结构化数据先进行缓存,再由数据分析融合模块获取处理,以实现实时数据解析。
具体的,在一个实施例中设置数据分析融合模块包括:数据解析分类单元、数据清洗单元和数据转换单元。
2-1)数据解析分类单元,用于从数据存储模块获取半结构化文本数据转换为结构化数据传输至数据清洗单元,半结构化文本数据包括二进制文本数据、XML文本数据、JSON文本数据。
本实施例的数据解析分类单元对标准接口服务和私有接口适配获取的二进制、JSON、XML等格式数据转换为结构化数据。为了防止数据丢包阻塞和保证数据实时性,采用改进的分布式并行计算框架MapReduce将半结构化文本数据快速转换为结构化数据。
如图2所示,数据解析分类单元采用分布式并行计算框架MapReduce解析二进制、JSON、XML等格式文件,执行如下操作:
步骤a:从存储区域读取待操作的半结构化文本数据,将数据分割成若干个的逻辑分片,其中分片大小根据数据大小和分布式服务器块内存自定义,默认大小=读取文件总内存大小/hdfs块默认大小,本实施例hdfs块大小为128M;
步骤b:调用Map端将分片数据解析成一系列键值对<key,value>供后续处理,相同文本类型的分片数据具有相同的key键;
步骤c:根据感知设备的业务需求和数据类型对Map端的处理的键值对分为n个分区处理,本实施例n取值为3;
步骤d:对每个分区的分片数据进行从小到大排序,将排序后的分区中key键相同的value进行合并;
步骤e:调用Reduce端对分区合并后的value进行分类处理,将文本类型相同的分片数据整理到相同类型文本;
步骤f:调用MapReduce的InputFormat方法读取完成分类的文本数据,根据数据中的感知设备类型和字段长度将其分割为单个设备的感知数据流,并传输至数据清洗单元。
2-2)数据清洗单元,用于对数据解析分类单元处理后的结构化数据以及设备接入管理模块直接接入的结构化数据(包括接口协议引接单元接入的结构化数据和文本数据引接单元接入的结构化文本数据)进行重复剔除、缺失补充、异常纠正操作后传输至数据转换单元。
为了得到高质量数据,本实施例通过数据清洗单元对分类处理的文件或者直接接入的结构化数据进行数据一致检查、重复数据剔除、缺失数据补充、异常数据纠正等操作,生成满足质量要求和后续数据应用要求的数据。
2-3)数据转换单元,用于通过ETL工具对数据清洗单元发送的结构化数据进行数据抽取后传输至数据存储模块。
本实施例通过ETL工具根据制定的数据类型标准对数据进行标准转换、数据代码翻译、数据字段归一化等操作,得到标准、高质量的数据传输至数据存储模块。
3)多源异构数据接入***数据存储模块,用于对设备接入管理模块接收的半结构化数据和非结构化数据、以及数据分析融合模块发送的结构化数据进行独立存储与管理。
本实施例对接入设备产生的视频、图像等非结构化数据、半结构化数据和结构化数据进行针对性的分类存储与管理。具体设置数据存储模块包括:对象存储单元、块存储单元和分布式文本存储单元。
3-1)对象存储单元,用于存储数据分析融合模块发送的结构化数据。在实际实施时对象存储可使用关系型数据库MySQL用于存储数据分析融合模块处理过的标准完整的结构化数据。
3-2)块存储单元,用于存储由设备接入管理模块引接的非结构化数据;块存储使用CVR存储设备接入管理模块引接的非结构化视频、图像类的感知数据。
3-3)分布式文本存储单元,用于通过分布式文本存储HDFS对设备接入管理模块引接的半结构化数据进行高速存储。本实施例分布式文件存储基于Hadoop架构使用分布式文件***服务HDFS存储设备接入管理模块引接的半结构化文件数据高速存储,包括静态的文本数据、图片等半结构化数据。
本实施例提供的***引入设备接入管理模块,用于屏蔽多源设备数据异构性,对物联网设备及数据进行统一管理和标准化接入;引入数据分析融合模块,用于将不同来源、不同格式、多样结构、碎片化的感知数据根据业务需要进行汇总、处理、聚合;引入数据存储模块,用于引接设备产生的非结构化数据和结构化数据进行高效存储与分类管理。解决了物联网领域海量设备如何一体化管控、大量多源异构数据如何实时快速引接、分散混乱数据如何清洗整合和质量管理的问题。
本实施例提供的多源异构数据接入***各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各模块的功能。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在另一个实施例中,如图3所示,提供一种面向物联网的多源异构数据接入方法,实施在前述任一面向物联网的多源异构数据接入***,本实施例的面向物联网的多源异构数据接入方法,包括以下步骤:
步骤1、添加接入感知设备的信息,同时判断该感知设备是否满足标准接口协议,对于不兼容标准协议的感知设备添加数据结构转换模型;
步骤2、判断引接的感知设备所传输的数据类型,数据类型为文本数据执行步骤6,数据类型为接口协议数据执行步骤3;
步骤3、判断引接的感知设备是否兼容标准接口服务,若兼容则执行步骤4;否则执行步骤5;
步骤4、针对可兼容标准协议的感知设备,按照标准接口协议进行多源异构数据引接,执行步骤6;
步骤5、针对无法兼容标准协议的感知设备,采用拓展接口和数据结构转模型换将接入数据转换为标准接口数据,实现该类感知设备的多源异构数据引接,执行步骤6;
步骤6、将接入的结构化数据和半结构化文本数据转换为同型同构的结构化数据,执行步骤7;
步骤7、对直接引接的多源异构数据中的半结构化数据和非结构化数据、以及步骤6处理得到的结构化数据进行独立存储与管理。
其中,将接入的结构化数据和半结构化数据转换为同型同构的结构化数据,包括:
步骤6.1、将接入的半结构化文本数据转换为结构化数据;
步骤6.2、对步骤6.1处理后的结构化数据以及直接接入的结构化数据进行重复剔除、缺失补充、异常纠正操作;
步骤6.3、利用ETL工具对步骤6.2操作后的结构化数据进行数据抽取,得到同型同构的结构化数据。
其中,将接入的半结构化文本数据转换为结构化数据,包括采用改进的分布式并行计算框架MapReduce将分布式存储缓存的大批量半结构化文本数据并行处理分析,快速实时转换为单个设备的结构化数据,具体步骤如下:
步骤a:从存储区域读取待操作的半结构化文本数据,将数据分割成若干个的逻辑分片,其中分片的大小=读取文件总内存大小/hdfs块默认大小;
步骤b:调用Map端将分片数据解析成一系列键值对<key,value>供后续处理,相同文本类型的分片数据具有相同的key键;
步骤c:根据感知设备的业务需求和文本类型对Map端的处理的键值对分为n个分区处理;
步骤d:对每个分区的分片数据进行从小到大排序,将排序后的分区中key键相同的value进行合并;
步骤e:调用Reduce端对分区合并后的value进行分类处理,将文本类型相同的分片数据整理到相同类型文本;
步骤f:调用MapReduce的InputFormat方法读取完成分类的文本数据,根据数据中的感知设备类型和该感知设备的字段长度将其分割为单个设备的结构化数据流,完成数据转换。
关于面向物联网的多源异构数据接入方法的具体限定可参见前述对于面向物联网的多源异构数据接入***的限定,这里不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
Claims (8)
1.一种面向物联网的多源异构数据接入***,其特征在于,所述面向物联网的多源异构数据接入***,包括:设备接入管理模块、数据分析融合模块和数据存储模块,其中:
所述设备接入管理模块,用于统一接入大批量多源异构的感知设备,通过统一的物联数据协议为应用层面提供开发的数据服务总线;所述设备接入管理模块包括设备管理单元、接口协议引接单元、文本数据引接单元,其中:
所述设备管理单元,用于对所接入的感知设备进行管理和安全接入认证,同时判断该设备是否满足标准协议接入,针对不兼容标准协议的感知设备预先建立数据结构转换模型;
所述接口协议引接单元,用于制定针对多源异构的感知设备的各种类型感知数据的元数据模型、数据格式以及数据采集标准协议接口;
所述文本数据引接单元,用于通过文件接口接收感知设备传输的不同格式的文本数据;
所述数据分析融合模块,用于将设备接入管理模块接收的大批量结构化数据和半结构化数据转换为同型同构的结构化数据传送至所述数据存储模块;
所述数据存储模块,用于对设备接入管理模块接收的半结构化数据和非结构化数据、以及数据分析融合模块发送的结构化数据进行分类存储与管理。
2.如权利要求1所述的面向物联网的多源异构数据接入***,其特征在于,所述接口协议引接单元包括标准协议服务单元和私有接口适配单元;
所述标准协议服务单元,用于针对同属性感知设备提供统一标准接口服务进行多源异构数据引接;所述多源异构数据包括不同设备产生的结构化数据、半结构化数据和非结构化数据;
所述私有接口适配单元,用于针对不兼容标准协议的感知设备采用拓展接口和数据结构转模型换将接入数据转换为标准接口数据。
3.如权利要求2所述的面向物联网的多源异构数据接入***,其特征在于,所述标准协议服务单元根据设备数据属性将多源异构数据定义为上报数据、状态数据、控制指令数据、联动指令数据这四类标准协议数据;
所述标准协议服务单元根据每类标准协议数据定义相应的接口,包括设备采集数据接口、设备状态上报接口、设备控制接口和设备联动接口,其中:
所述设备采集数据接口,用于接收感知设备所采集的上报数据,包括目标数据、告警信息及其当前工作参数;
所述设备状态上报接口,用于接收感知设备按照接口协议定时上报的状态数据,包括心跳状态数据、校时信息、开关机信息;
所述设备控制接口,用于将感知设备的控制指令数据转化为接口参数传送至感知设备,以控制感知设备的工作参数或状态;
所述设备联动接口,用于向处置类设备发出跟踪目标信息的联动指令数据请求,该目标信息为接收到的探测类设备的目标信息。
4.如权利要求1所述的面向物联网的多源异构数据接入***,其特征在于,所述数据分析融合模块包括:数据解析分类单元、数据清洗单元和数据转换单元,其中:
所述数据解析分类单元,用于从所述数据存储模块获取半结构化文本数据转换为结构化数据传输至所述数据清洗单元;所述的半结构化文本数据包括二进制文本数据、XML文本数据、JSON文本数据,所述半结构化文本数据由设备接入管理模块发送至所述数据存储模块缓存;
所述数据清洗单元,用于对数据解析分类单元处理后的结构化数据以及所述设备接入管理模块直接接入的结构化数据进行重复剔除、缺失补充、异常纠正操作后传输至所述数据转换单元;所述结构化数据包括结构化文本数据,所述的结构化文本数据包括CSV、XLS格式的文本数据;
所述数据转换单元,用于通过ETL工具对所述数据清洗单元发送的结构化数据进行数据抽取后传输至所述数据存储模块。
5.如权利要求4所述的面向物联网的多源异构数据接入***,其特征在于,所述数据解析分类单元采用改进的分布式并行计算框架MapReduce将所述数据存储模块中分布式存储缓存的大批量半结构化文本数据并行处理分析,快速实时转换为单设备的结构化数据,执行如下操作:
步骤a:从存储区域读取待操作的半结构化文本数据,将数据分割成若干个的逻辑分片,其中分片的大小=读取文件总内存大小/hdfs块默认大小;
步骤b:调用Map端将分片数据解析成一系列键值对<key,value>供后续处理,相同文本类型的分片数据具有相同的key键;
步骤c:根据感知设备的业务需求和文本类型对Map端的处理的键值对分为n个分区处理;
步骤d:对每个分区的分片数据进行从小到大排序,将排序后的分区中key键相同的value进行合并;
步骤e:调用Reduce端对分区合并后的value进行分类处理,将文本类型相同的分片数据整理到相同类型文本;
步骤f:读取完成分类的文本数据,根据数据中的感知设备类型和该感知设备的字段长度将其分割为单个设备的结构化数据流,并传输至数据清洗单元。
6.一种面向物联网的多源异构数据接入方法,其特征在于,所述面向物联网的多源异构数据接入方法,包括:
步骤1、添加接入感知设备的信息,同时判断该感知设备是否满足标准接口协议,对于不兼容标准协议的感知设备添加数据结构转换模型;
步骤2、判断引接的感知设备所传输的数据类型,数据类型为文本数据执行步骤6,数据类型为接口协议数据执行步骤3;
步骤3、判断引接的感知设备是否兼容标准接口服务,若兼容则执行步骤4;否则执行步骤5;
步骤4、针对可兼容标准协议的感知设备,按照标准接口协议进行多源异构数据引接,执行步骤6;
步骤5、针对无法兼容标准协议的感知设备,采用拓展接口和数据结构转模型换将接入数据转换为标准接口数据,实现该类感知设备的多源异构数据引接,执行步骤6;
步骤6、将接入的结构化数据和半结构化文本数据转换为同型同构的结构化数据,执行步骤7;
步骤7、对直接引接的多源异构数据中的半结构化数据和非结构化数据、以及步骤6处理得到的结构化数据进行独立存储与管理。
7.如权利要求6所述的面向物联网的多源异构数据接入方法,其特征在于,所述将接入的结构化数据和半结构化数据转换为同型同构的结构化数据,包括:
步骤6.1、将接入的半结构化文本数据转换为结构化数据;
步骤6.2、对步骤6.1处理后的结构化数据以及直接接入的结构化数据进行重复剔除、缺失补充、异常纠正操作;
步骤6.3、利用ETL工具对步骤6.2操作后的结构化数据进行数据抽取,得到同型同构的结构化数据。
8.如权利要求7所述的面向物联网的多源异构数据接入方法,其特征在于,所述将接入的半结构化文本数据转换为结构化数据,包括采用改进的分布式并行计算框架MapReduce将分布式存储缓存的大批量半结构化文本数据并行处理分析,快速实时转换为单个设备的结构化数据,具体步骤如下:
步骤a:从存储区域读取待操作的半结构化文本数据,将数据分割成若干个的逻辑分片,其中分片的大小=读取文件总内存大小/hdfs块默认大小;
步骤b:调用Map端将分片数据解析成一系列键值对<key,value>供后续处理,相同文本类型的分片数据具有相同的key键;
步骤c:根据感知设备的业务需求和文本类型对Map端的处理的键值对分为n个分区处理;
步骤d:对每个分区的分片数据进行从小到大排序,将排序后的分区中key键相同的value进行合并;
步骤e:调用Reduce端对分区合并后的value进行分类处理,将文本类型相同的分片数据整理到相同类型文本;
步骤f:读取完成分类的文本数据,根据数据中的感知设备类型和该感知设备的字段长度将其分割为单个设备的结构化数据流,完成数据转换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294978.4A CN115964418A (zh) | 2022-10-21 | 2022-10-21 | 一种面向物联网的多源异构数据接入***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294978.4A CN115964418A (zh) | 2022-10-21 | 2022-10-21 | 一种面向物联网的多源异构数据接入***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115964418A true CN115964418A (zh) | 2023-04-14 |
Family
ID=87351862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211294978.4A Pending CN115964418A (zh) | 2022-10-21 | 2022-10-21 | 一种面向物联网的多源异构数据接入***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115964418A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252514A (zh) * | 2023-11-20 | 2023-12-19 | 中铁四局集团有限公司 | 基于深度学习和模型训练的建筑物资库数据处理方法 |
-
2022
- 2022-10-21 CN CN202211294978.4A patent/CN115964418A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252514A (zh) * | 2023-11-20 | 2023-12-19 | 中铁四局集团有限公司 | 基于深度学习和模型训练的建筑物资库数据处理方法 |
CN117252514B (zh) * | 2023-11-20 | 2024-01-30 | 中铁四局集团有限公司 | 基于深度学习和模型训练的建筑物资库数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009236B (zh) | 一种大数据查询方法、***、计算机及存储介质 | |
US11582123B2 (en) | Distribution of data packets with non-linear delay | |
US11182098B2 (en) | Optimization for real-time, parallel execution of models for extracting high-value information from data streams | |
US12008027B2 (en) | Optimization for real-time, parallel execution of models for extracting high-value information from data streams | |
CN112714030B (zh) | 告警方法、装置、设备及计算机可读存储介质 | |
US10706062B2 (en) | Method and system for exchanging data from a big data source to a big data target corresponding to components of the big data source | |
CN111813573B (zh) | 管理平台与机器人软件的通信方法及其相关设备 | |
WO2023103419A1 (zh) | 基于消息队列的5g消息批量发送方法、装置及电子设备 | |
CN111522786A (zh) | 日志处理***及方法 | |
US10097656B2 (en) | Control method and apparatus for publish/subscribe systems | |
CN115964418A (zh) | 一种面向物联网的多源异构数据接入***及方法 | |
CN112631754A (zh) | 数据处理方法、装置、存储介质及电子装置 | |
CN112307046A (zh) | 数据采集方法和装置、计算机可读存储介质、电子设备 | |
CN105721179A (zh) | 日志收集***及其中的数据传输方法和本地服务器 | |
CN112667683A (zh) | 流计算***及其电子设备和存储介质 | |
CN112039936A (zh) | 数据传输方法、第一数据处理设备及监控*** | |
WO2021097713A1 (zh) | 分布式安全检测***、方法、设备及存储介质 | |
CN112256446B (zh) | 一种Kafka消息总线管控方法及*** | |
CN113157475A (zh) | 日志处理方法、装置、存储介质及电子设备 | |
EP3380906A1 (en) | Optimization for real-time, parallel execution of models for extracting high-value information from data streams | |
CN112152915A (zh) | 消息转发网关***和消息转发方法 | |
CN116938934B (zh) | 一种基于报文的任务切换控制方法及*** | |
CN117743425A (zh) | 一种用于电力***的实时业务数据处理方法、装置及介质 | |
CN105765569A (zh) | 一种数据分发方法,装载机及存储*** | |
CN114840715A (zh) | 数据查询方法、装置及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |