CN113254445B - 实时数据存储方法、装置、计算机设备及存储介质 - Google Patents

实时数据存储方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113254445B
CN113254445B CN202110575138.4A CN202110575138A CN113254445B CN 113254445 B CN113254445 B CN 113254445B CN 202110575138 A CN202110575138 A CN 202110575138A CN 113254445 B CN113254445 B CN 113254445B
Authority
CN
China
Prior art keywords
json string
real
message
preset
string message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110575138.4A
Other languages
English (en)
Other versions
CN113254445A (zh
Inventor
王慧云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heliang Technology Shanghai Co ltd
Shenzhen Lian Intellectual Property Service Center
Original Assignee
Heliang Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heliang Technology Shanghai Co ltd filed Critical Heliang Technology Shanghai Co ltd
Priority to CN202110575138.4A priority Critical patent/CN113254445B/zh
Publication of CN113254445A publication Critical patent/CN113254445A/zh
Application granted granted Critical
Publication of CN113254445B publication Critical patent/CN113254445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于大数据领域,涉及一种实时数据存储方法、装置、计算机设备及存储介质,其中方法包括:接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Top i c中;创建Kafka消费者,并设置所述Kafka消费者的消费Top i c,所述消费Top i c指向所述预创建的Top i c;配置f l i nk数据流AP I的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;调用所述f l i nk数据流AP I,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。基于f l i nk的可灵活扩展的消费kafka消息并保存数据在HBASE和ES的方法,支持自动扩展,数据***耗时更短,索引时也更为便捷。

Description

实时数据存储方法、装置、计算机设备及存储介质
技术领域
本申请涉及大数据技术领域,尤其涉及实时数据存储方法、装置、计算机设备及存储介质。
背景技术
在当前各行业中用到流式数据的场景越来越多:电商和市场营销中数据报表、广告投放、业务流程需要;物联网中传感器实时数据采集和显示、实时报警、交通运输业;电信业中基站流量调配;银行和金融业中的实时结算和通知推送,实时检测异常行为等都需要对数据进行实时处理。
传统的实时数据处理技术延迟时间长,扩展不方便,且索引速度慢、占用数据库空间大。
发明内容
本申请实施例的目的在于提出一种实时数据存储方法、装置、计算机设备及存储介质,以解决实时数据处理延迟时间长、不方便扩张的问题。
为了解决上述技术问题,本申请实施例提供一种实时数据存储方法,采用了如下所述的技术方案:
接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;
将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;
创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;
配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;
调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
进一步的,在所述调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库的步骤之前,还包括:
将所述Json串消息根据预设的过滤条件进行过滤,得到过滤后的Json串消息;
调用所述flink数据流API,将所述过滤后的Json串消息保存到预设的Hbase数据库和预设的ES数据库。
进一步的,在所述调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库的步骤之前,还包括:
创建ES索引;
调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库。
进一步的,所述Json串消息中包含ID字段,且ID字段被定义为主键,所述调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库步骤,包括:
将所述ID通过hash算法转换为所述Json串消息在所述ES数据库中的ES-ID;
将所述Json串消息与所述ES索引对应的字段,***到所述ES数据库中与所述ES-ID对应的记录中。
进一步的,所述Json串消息中包含ID字段,在所述调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库的步骤之前,还包括:
将所述Json串消息中的ID字段与预设的ID合法性规则进行比较;
当所述ID字段与所述预设的ID合法性规则相符时,将所述Json串消息通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
进一步的,在所述接收实时数据,对所述实时数据进行Json格式化,得到Json串消息的步骤之后,还包括:
将所述Json串消息存储至区块链中。
为了解决上述技术问题,本申请实施例还提供一种实时数据存储装置,采用了如下所述的技术方案:
接收模块,用于接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;
消息存储模块,用于将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;
创建模块,用于创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;
配置模块,用于配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;
数据存储模块,用于调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
进一步的,所述实时数据存储装置,还包括:
第一过滤子模块,用于将所述Json串消息根据预设的过滤条件进行过滤,得到过滤后的Json串消息;
第一存储子模块,用于调用所述flink数据流API,将所述过滤后的Json串消息保存到预设的Hbase数据库和预设的ES数据库。
进一步的,所述实时数据存储装置,还包括:
第一创建子模块,用于创建ES索引;
第二存储子模块,用于调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库。
进一步的,所述第二存储子模块,还包括:
第一转换子模块,用于将所述ID通过hash算法转换为所述Json串消息在所述ES数据库中的ES-ID;
第一***子模块,用于将所述Json串消息与所述ES索引对应的字段,***到所述ES数据库中与所述ES-ID对应的记录中。
进一步的,所述实时数据存储装置,还包括:
第一比较子模块,用于将所述Json串消息中的ID字段与预设的ID合法性规则进行比较;
第三存储子模块,用于当所述ID字段与所述预设的ID合法性规则相符时,将所述Json串消息通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
进一步的,所述实时数据存储装置,还包括:
第四存储子模块,用于将所述Json串消息存储至区块链中
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,处理器执行计算机可读指令时实现如上述实时数据存储方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上述实时数据存储方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:通过接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。基于flink的可灵活扩展的消费kafka消息并保存数据在HBASE和ES的方法,支持自动扩展,数据***耗时更短,索引时也更为便捷。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2 根据本申请的实时数据存储方法的一个实施例的流程图;
图3是根据本申请的实时数据存储装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的实时数据存储方法一般由服务器/终端设 执行,相应地,实时数据存储装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的实时数据存储的方法的一个实施例的流程图。所述的实时数据存储方法,包括以下步骤:
步骤S201,接收实时数据,对所述实时数据进行Json格式化,得到Json串消息。
在本实施例中,实时数据存储方法运行于其上的电子设备(例如图1所示的服务 器/终端设备)可以通过有线连接方式或者无线连接方式接收实时数据。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。
实时数据可以是物联网中传感器实时数据采集和显示、实时报警、交通运输业实时车流量信息、电信业中基站实时流量调配、银行和金融业中的实时结算和通知推送等。将实时数据进行Json格式化,Json是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得Json成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。Json格式化通过通用的软件实现。
步骤S202,将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中。
Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理消费者在网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理。每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个服务器上,但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处。将Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中。
步骤S203,创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic。
新建一个Kafka消费者(kafkaConsumer),设置消费topic指向预创建的Topic,表示Kafka消费者取预创建的Topic中的数据分发。还可以设置其他属性,包括kafka broker地址,即Topic保存的服务器地址;设置Kafka消费者的消费策略,例如使用earliest,使用该策略时,每个Topic包含一个或多个分区Partition,当各分区下有已提交的offset时,offset即消息消费点,从提交的offset开始消费;无提交的offset时,从头开始消费,即使用该策略不会因重启程序而丢失数据。
步骤S204,配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源。
flink的数据流API支持有界或无界数据流上的转换(如过滤器、聚合和窗口函数),可以在Java和Scala中使用。流计算执行环境的配置即对flink数据流API调用的变量、参数、函数进行声明和赋值。在其中配置数据源source并行度,并行度是指指令或数据并行执行的最大数目。
步骤S205,调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
调用flink数据流API,在flink数据流API中,Kafka消费者被定义为数据源,且指向基于Kafka的消息发布***中预创建的Topic,实时数据经过Json格式化后存储在预创建的Topic中,flink数据流API执行从数据源到目的的sink操作,即将实时数据存到预设的Hbase数据库和预设的ES(Elasticsearch)数据库。
本申请通过接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。基于flink的可灵活扩展的消费kafka消息并保存数据在HBASE和ES的方法,支持自动扩展,数据***耗时更短,索引时也更为便捷。
在本实施例的一些可选的实现方式中,在步骤S204之前,上述电子设备还可以执行以下步骤:
根据所述消费Topic的分区数,将所述数据源的并行度配置成与所述分区数一致。
并行度是指指令或数据并行执行的最大数目,如资源允许,设置为和要消费的kafka topic的分区数一致可达到最佳,此时一个并行度对应读取一个分区的数据。
Flink程序的执行具有并行、分布式的特性。
在执行过程中,一个 stream 包含一个或多个 stream partition ,而每一个operator 包含一个或多个 operator subtask,这些operator subtasks在不同的线程、不同的物理机或不同的容器中彼此互不依赖得执行。
一个特定operator的subtask的个数被称之为其parallelism(并行度)。一个stream的并行度总是等同于其producing operator的并行度。
并行度parallelism是动态概念,即TaskManager运行程序时实际使用的并发能力,可以通过参数parallelism.default进行配置。
本申请通过将数据源的并行度配置成与消费topic分区数一致,提升了处理速度。
在一些可选的实现方式中,上述步骤S204中,上述电子设备可以执行以下步骤:
启用并配置flink数据流API的检查点。
启用和配置检查点(checkpoint),checkpoint是flink实现容错机制最核心的功能,它能够根据配置周期性的基于stream状态来生成快照,从而将这些状态数据定期持久化存储下来,当flink程序一旦意外崩溃时,重新运行程序,可以有选择地从这些快照进行恢复,从而修正因为故障带来的程序数据异常,其CheckpointingMode默认是EXACTLY_ONCE。设置checkpoint保存的HDFS路径(程序启动时,该路径会自动创建),当任务重启时,可从该检查点继续消费后续数据,而不需要借助其余专门的缓存组件来保存。
Checkpoint的存储的位置取决于配置的State backend。默认情况下,State存储在TaskManager内存中,Checkpoint存储在JobManager内存中。Flink支持在其他statebackend中存储State和Checkpoint。可以通过如下方法配置:StreamExecutionEnvironment.setStateBackend( )
Flink提供了不同的State backend,支持不同的State存储方式和位置。默认会使用配置文件flink-conf.yaml指定的选项。
在一些可选的实现方式中,在步骤S205之前,上述电子设备可以执行以下步骤:
将所述Json串消息根据预设的过滤条件进行过滤,得到过滤后的Json串消息;
调用所述flink数据流API,将所述过滤后的Json串消息保存到预设的Hbase数据库和预设的ES数据库。
在本实施例中,根据实际需要设置Json串消息的过滤条件,例如消息格式:{"Id":"56411767","name":"张三"},其中ID为每条消息的主键,设置过滤条件为“ID合法”,经过过滤,只保留含有Id合法的json串消息,其余的消息都丢弃。
在一些实施方式中,预设的ID合法性规则,例如ID合法性规则包含:不含特殊字符、不含禁用词等,将Json串消息中的ID字段与预设的ID合法性规则进行比较;当ID字段与所述预设的ID合法性规则相符时,将Json串消息通过数据源保存到预设的Hbase数据库和预设的ES数据库,否则,丢弃该Json串消息。
通过设置过滤条件,根据过滤条件过滤Json串消息,去除了冗余无效数据,节省了存储空间,提升了数据存储的效率。
在一些可选的实现方式中,在步骤S205之前,上述电子设备可以执行以下步骤:
创建ES索引;
调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库。
在本实施例中,ES中要保存的字段可在配置文件中配置,在程序运行前根据实际类型需要,建立ES索引。
后续如消息增加字段,则只需要增加字段对用的ESmapping,并将其加入配置文件中的索引字段即可自动保存对应字段信息。
借助ES实现多字段索引比单纯基于HBASE本身的二级索引更节省存储,数据***耗时更短,索引时也更为便捷。
在一些可选的实现方式中,上述电子设备还可以执行以下步骤:
将所述ID通过hash算法转换为所述Json串消息在所述ES数据库中的ES-ID;
将所述Json串消息与所述ES索引对应的字段,***到所述ES数据库中与所述ES-ID对应的记录中。
将任意长度的二进制字符串映射为定长二进制字符串的映射规则我们称为哈希(hash)算法,哈希算法中哈希表是基于数组的一种存储方式,它主要由哈希函数和数组构成。当要存储一个数据的时候,首先用一个函数计算数据的地址,然后再将数据存进指定地址位置的数组里面。这个函数就是哈希函数,而这个数组就是哈希表。哈希算法主要特点从哈希值不能反向推导原始数据,对输入数据敏感,输入数据修改1位,最后得到的哈希值也大不相同,散列冲突的概率要小。通过hash算法将Json串消息的ID转换为Json串消息在ES数据库中的ES-ID,可以对Json串消息在ES数据库进行唯一标识,不容易出现散列冲突。
需要强调的是,为进一步保证上述实时数据的私密和安全性,上述表示实时信息的Json串消息还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种实时数据存储装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的实时数据存储装置300包括:接收模块301、消息存储模块302、创建模块303、配置模块304以及数据存储模块305。其中:
接收模块301,用于接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;
消息存储模块302,用于将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;
创建模块303,用于创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;
配置模块304,用于配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;
数据存储模块305,用于调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
在本实施例中,通过接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。基于flink的可灵活扩展的消费kafka消息并保存数据在HBASE和ES的方法,支持自动扩展,数据***耗时更短,索引时也更为便捷。
在本实施例的一些可选的实现方式中,所述配置模块305包括:
第一过滤子模块,用于将所述Json串消息根据预设的过滤条件进行过滤,得到过滤后的Json串消息;
第一存储子模块,用于调用所述flink数据流API,将所述过滤后的Json串消息保存到预设的Hbase数据库和预设的ES数据库。
在本实施例的一些可选的实现方式中,所述配置模块305包括:
第一创建子模块,用于创建ES索引;
第二存储子模块,用于调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库。
在本实施例的一些可选的实现方式中,所述第二存储子模块,还包括:
第一转换子模块,用于将所述ID通过hash算法转换为所述Json串消息在所述ES数据库中的ES-ID;
第一***子模块,用于将所述Json串消息与所述ES索引对应的字段,***到所述ES数据库中与所述ES-ID对应的记录中。
在本实施例的一些可选的实现方式中,实时数据存储装置300,还包括:
第一比较子模块,用于将所述Json串消息中的ID字段与预设的ID合法性规则进行比较;
第三存储子模块,用于当所述ID字段与所述预设的ID合法性规则相符时,将所述Json串消息通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
进一步的,实时数据存储装置300,还包括:
第四存储子模块,用于将所述Json串消息存储至区块链中
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件,例如实时数据存储方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述实时数据存储方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
通过接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。基于flink的可灵活扩展的消费kafka消息并保存数据在HBASE和ES的方法,支持自动扩展,数据***耗时更短,索引时也更为便捷。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的实时数据存储方法的步骤。
通过接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。基于flink的可灵活扩展的消费kafka消息并保存数据在HBASE和ES的方法,支持自动扩展,数据***耗时更短,索引时也更为便捷。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (7)

1.一种实时数据存储方法,其特征在于,包括下述步骤:
接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;
将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;
创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;
配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;
将所述Json串消息根据预设的过滤条件进行过滤,得到过滤后的Json串消息;调用所述flink数据流API,将所述过滤后的Json串消息保存到预设的Hbase数据库和预设的ES数据库;或,创建ES索引;调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库;
所述Json串消息中包含ID字段,且ID字段被定义为主键,所述调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库步骤,包括:
将Json串消息的ID通过hash算法转换为所述Json串消息在所述ES数据库中的ES-ID;
将所述Json串消息与所述ES索引对应的字段,***到所述ES数据库中与所述ES-ID对应的记录中。
2.根据权利要求1所述的实时数据存储方法,其特征在于,所述Json串消息中包含ID字段,在所述调用所述flink数据流API,将所述实时数据通过所述数据源保存到预设的Hbase数据库和预设的ES数据库的步骤之前,还包括:
将所述Json串消息中的ID字段与预设的ID合法性规则进行比较;
当所述ID字段与所述预设的ID合法性规则相符时,将所述Json串消息通过所述数据源保存到预设的Hbase数据库和预设的ES数据库。
3.根据权利要求1所述的实时数据存储方法,其特征在于,在所述接收实时数据,对所述实时数据进行Json格式化,得到Json串消息的步骤之后,还包括:
将所述Json串消息存储至区块链中。
4.一种实时数据存储装置,其特征在于,包括:
接收模块,用于接收实时数据,对所述实时数据进行Json格式化,得到Json串消息;
消息存储模块,用于将所述Json串消息输入到基于Kafka的消息发布***,并保存在所述基于Kafka的消息发布***中预创建的Topic中;
创建模块,用于创建Kafka消费者,并设置所述Kafka消费者的消费Topic,所述消费Topic指向所述预创建的Topic;
配置模块,用于配置flink数据流API的流计算执行环境,并在所述流计算执行环境中将所述Kafka消费者配置成数据源;
所述配置模块包括:第一过滤子模块,用于将所述Json串消息根据预设的过滤条件进行过滤,得到过滤后的Json串消息;第一存储子模块,用于调用所述flink数据流API,将所述过滤后的Json串消息保存到预设的Hbase数据库和预设的ES数据库;或,所述配置模块包括:第一创建子模块,用于创建ES索引;第二存储子模块,用于调用所述flink数据流API,将所述Json串消息中与所述ES索引对应的字段存储到预设的ES数据库;第一转换子模块,用于将Json串消息的ID通过hash算法转换为所述Json串消息在所述ES数据库中的ES-ID;第一***子模块,用于将所述Json串消息与所述ES索引对应的字段,***到所述ES数据库中与所述ES-ID对应的记录中。
5.根据权利要求4所述的实时数据存储装置,其特征在于,所述配置模块包括:
第一配置子模块,用于根据所述消费Topic的分区数,将所述数据源的并行度配置成与所述分区数一致;
第二配置子模块,用于启用并配置flink数据流API的检查点。
6.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至3中任一项所述的实时数据存储方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至3中任一项所述的实时数据存储方法的步骤。
CN202110575138.4A 2021-05-26 2021-05-26 实时数据存储方法、装置、计算机设备及存储介质 Active CN113254445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575138.4A CN113254445B (zh) 2021-05-26 2021-05-26 实时数据存储方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575138.4A CN113254445B (zh) 2021-05-26 2021-05-26 实时数据存储方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113254445A CN113254445A (zh) 2021-08-13
CN113254445B true CN113254445B (zh) 2024-01-05

Family

ID=77184427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575138.4A Active CN113254445B (zh) 2021-05-26 2021-05-26 实时数据存储方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113254445B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360292B (zh) * 2021-06-01 2024-03-15 北京百度网讯科技有限公司 消息处理方法、装置、电子设备、存储介质和程序产品
CN114610765B (zh) * 2022-03-14 2024-05-03 平安国际智慧城市科技股份有限公司 流计算方法、装置、设备及存储介质
CN115460222A (zh) * 2022-09-05 2022-12-09 蚂蚁区块链科技(上海)有限公司 区块链数据流计算装置
CN115617495A (zh) * 2022-12-06 2023-01-17 深圳安德空间技术有限公司 一种基于分布式架构的探地雷达数据推理方法及其***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681489A (zh) * 2018-05-25 2018-10-19 西安交通大学 一种超算环境下的海量数据实时采集与处理方法
CN110502510A (zh) * 2019-08-28 2019-11-26 南威软件股份有限公司 一种wifi终端设备轨迹数据的实时分析和去重方法及***
CN110928954A (zh) * 2019-12-04 2020-03-27 深圳前海环融联易信息科技服务有限公司 HBase索引同步方法、装置、计算机设备及存储介质
CN111966943A (zh) * 2020-08-13 2020-11-20 上海哔哩哔哩科技有限公司 流式数据分发方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783270B2 (en) * 2018-08-30 2020-09-22 Netskope, Inc. Methods and systems for securing and retrieving sensitive data using indexable databases

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681489A (zh) * 2018-05-25 2018-10-19 西安交通大学 一种超算环境下的海量数据实时采集与处理方法
CN110502510A (zh) * 2019-08-28 2019-11-26 南威软件股份有限公司 一种wifi终端设备轨迹数据的实时分析和去重方法及***
CN110928954A (zh) * 2019-12-04 2020-03-27 深圳前海环融联易信息科技服务有限公司 HBase索引同步方法、装置、计算机设备及存储介质
CN111966943A (zh) * 2020-08-13 2020-11-20 上海哔哩哔哩科技有限公司 流式数据分发方法和***

Also Published As

Publication number Publication date
CN113254445A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113254445B (zh) 实时数据存储方法、装置、计算机设备及存储介质
CN112199442B (zh) 分布式批量下载文件方法、装置、计算机设备及存储介质
CN112184169A (zh) 用户待办事项的动态规划方法、装置、设备及存储介质
CN112182004B (zh) 实时查看数据方法、装置、计算机设备及存储介质
WO2022095518A1 (zh) 接口自动化测试方法、装置、计算机设备及存储介质
CN112860662A (zh) 数据血缘关系建立方法、装置、计算机设备及存储介质
CN115357761A (zh) 链路追踪方法、装置、电子设备及存储介质
CN116860856A (zh) 一种财务数据处理方法、装置、计算机设备及存储介质
CN113010542B (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN116974927A (zh) 性能自动化测试方法、***、计算机设备及存储介质
CN114626352B (zh) 报表自动化生成方法、装置、计算机设备及存储介质
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN115033574A (zh) 信息生成方法、信息生成装置、电子设备及存储介质
CN115328764A (zh) 基于自动化测试的测试代码优化方法及其相关设备
CN114238466A (zh) 一种消息推送方法、装置、计算机设备及存储介质
CN117407191A (zh) 数据处理方法、***、计算机设备及存储介质
CN117743291A (zh) 数据处理方法、装置、计算机设备及存储介质
CN116467145A (zh) 页面性能数据采集方法、装置、计算机设备及存储介质
CN115168472A (zh) 基于Flink的实时报表生成方法与***
CN117579457A (zh) 一种业务逻辑隔离方法、装置、计算机设备及存储介质
CN115526731A (zh) 任务批处理方法、装置、计算机设备及存储介质
CN117331804A (zh) 一种前端页面监控方法、装置、计算机设备及存储介质
CN116206032A (zh) 任务校验方法、装置、计算机设备及其介质
CN117873831A (zh) Sql性能监控方法、装置、计算机设备及存储介质
CN113590372A (zh) 基于日志的链路追踪方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231206

Address after: Room A-1591, Building 3, No. 888, Jianhai Road, Chenjia Town, Chongming District, Shanghai 200085 (Shanghai Smart Island Data Industry Park)

Applicant after: Heliang Technology (Shanghai) Co.,Ltd.

Address before: 518000 Room 202, block B, aerospace micromotor building, No.7, Langshan No.2 Road, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen LIAN intellectual property service center

Effective date of registration: 20231206

Address after: 518000 Room 202, block B, aerospace micromotor building, No.7, Langshan No.2 Road, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen LIAN intellectual property service center

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: PING AN PUHUI ENTERPRISE MANAGEMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant