CN115794783A

CN115794783A - 数据去重方法、装置、设备和介质

Info

Publication number: CN115794783A
Application number: CN202211139209.7A
Authority: CN
Inventors: 潘永克; 简瑞峰
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-03-14

Abstract

本发明提供一种数据去重方法、装置、设备和介质，涉及轨道交通技术领域，包括：在接收到实时业务需求的情况下，基于实时业务需求对分布式消息***中的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；在达到预设去重条件的情况下，获取实时业务需求匹配的预设配置文件，基于预设配置文件配置分析型数据库的目标存储引擎，并基于配置好的目标存储引擎对分析型数据库中存储的业务结果数据进行去重，由此通过配置的预设去重条件、预设配置文件及目标存储引擎实现数据落库分析型数据库后的自动去重操作，进而提高了数据去重效率。

Description

数据去重方法、装置、设备和介质

技术领域

本发明涉及轨道交通技术领域，尤其涉及一种数据去重方法、装置、设备和介质。

背景技术

随着我国家经济的发展，我国各城市轨道交通也越来越信息化、数字化与智能化。城市轨道交通运营过程中会涉及多种城轨业务数据需要实时或者准实时采集、处理以及结果数据存储。面向城轨业务大批量实时数据处理与存储，会涉及到对相同数据或者部分相同数据进行替换更新，从而实现数据去重的业务需求。

传统方式在对数据进行去重过程中，普遍采用开发去重程序代码、编写去重查询脚本，并依赖相关定时器定时启动去重任务，实现去重操作，然而此种方式过程较为繁琐且被动，在进行大批量数据处理时处理效率将大大降低。

发明内容

本发明提供一种数据去重方法、装置、设备和介质，用以解决现有技术中采用开发去重程序代码、编写去重查询脚本，并依赖相关定时器定时启动去重任务，实现去重操作，导致处理效率低的缺陷。

本发明提供一种数据去重方法，包括：

在接收到实时业务需求的情况下，基于所述实时业务需求对分布式消息***中存储的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；

在达到预设去重条件的情况下，获取所述实时业务需求匹配的预设配置文件，基于所述预设配置文件配置所述分析型数据库的目标存储引擎；

基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重。

根据本发明提供的数据去重方法，所述基于所述预设配置文件配置所述分析型数据库的目标存储引擎，包括：

获取所述实时业务需求匹配的预设配置文件；

确定所述预设配置文件中预先配置的去重范围及去重字段；

基于所述去重范围配置所述分析型数据库的目标存储引擎的分区键，并基于所述去重字段配置所述目标存储引擎的排序键。

根据本发明提供的数据去重方法，所述达到预设去重条件的判定方式，包括：

在监测到所述分布式消息***中的业务数据消费异常的情况下，判定达到预设去重条件；或者，

在监测到所述分析型数据库出现数据库重启备份的情况下，判定达到预设去重条件。

根据本发明提供的数据去重方法，所述将消费后得到的业务结果数据存储至分析型数据库中之前，还包括：

在所述分析型数据库初始化阶段选取目标存储引擎作为所述分析型数据库的数据库引擎；

接收用户对所述目标存储引擎的去重规则配置。

根据本发明提供的数据去重方法，所述基于所述实时业务需求对所述分布式消息***中的业务数据进行消费，包括：

生成所述实时业务需求对应的查询语句；

基于所述查询语句控制实时计算引擎对所述分布式消息***中的业务数据进行消费。

根据本发明提供的数据去重方法，所述基于所述实时业务需求对分布式消息***中存储的业务数据进行消费之前，还包括：

将从实时数据***中采集的业务数据分区写入分布式消息***。

本发明还提供一种数据去重装置，包括：

消费单元，用于在接收到实时业务需求的情况下，基于所述实时业务需求对所述分布式消息***中的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；

配置单元，用于在达到预设去重条件的情况下，获取所述实时业务需求匹配的预设配置文件，基于所述预设配置文件配置所述分析型数据库的目标存储引擎；

去重单元，用于基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重。

根据本发明提供的数据去重装置，所述配置单元，还用于：

获取所述实时业务需求匹配的预设配置文件；确定所述预设配置文件中预先配置的去重范围及去重字段；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述数据去重方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述数据去重方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述数据去重方法。

本发明提供的数据去重方法、装置、设备和介质，通过在接收到实时业务需求的情况下，基于实时业务需求对分布式消息***中的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；在达到预设去重条件的情况下，获取实时业务需求匹配的预设配置文件，基于预设配置文件配置分析型数据库的目标存储引擎，并基于配置好的目标存储引擎对分析型数据库中存储的业务结果数据进行去重，由此通过配置的预设去重条件、预设配置文件及目标存储引擎实现数据落库分析型数据库后的自动去重操作，进而提高了数据去重效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的数据去重方法的流程示意图之一；

图2是本发明提供的数据去重装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的一种数据去重方法。

图1为本发明提供的数据去重方法的流程示意图之一，如图1所示，该方法包括：

步骤100，在接收到实时业务需求的情况下，基于所述实时业务需求对分布式消息***中存储的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；

其中，本实施例中的分布式消息***指代Kafka集群，是一个高吞吐的分布式消息队列***，具有高水平扩展和高吞吐量的特点。

在Kafka集群中，没有“中心主节点”的概念，集群中所有节点都是对等的，Kafka将消息分类，也即将实时业务中不同业务类型的业务数据基于集合进行划分，每一类的消息称为一个主题，消费者可以对不同的主题进行不同的处理。

该步骤中，基于实时业务需求来确定分布式消息***中所需要消费的主题，例如，当实时业务需求是分析挖掘早晚点列车的信息，则去分布式消息***中对应的线路行车日志主题数据中进行抽取、转换及维度关联操作，以进行消费，并将消费后业务结果数据存储至分析型数据库中。

需要说明的是，分析型数据库指代可以对数据进行在线统计、数据在线分析、随即查询等发掘信息数据价值的工作的数据库。

优选地，本实施例中选取ClickHouse数据库作为本实施例中所用到的分析型数据库，ClickHouse数据库较传统数据库具有如下优势：

第一、硬件资源成本更低、占用的资源更小、写入性能更高，支持每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据；

第二、ClickHouse数据库是分布式实时数据分析型数据库，支持线性扩展、高可靠性强；

第三、支持实时数据更新、支持近实时计算并提供丰富的函数SQL函数以灵活的DDL配置。

由此，ClickHouse数据库结合以上特点可以完成城轨客流预测高峰时段海量实时业务数据的处理与存储。

本实施例中，在将数据存储至ClickHouse数据库中的过程中，以表的形式存储各个主题下的数据。

步骤200，在达到预设去重条件的情况下，获取所述实时业务需求匹配的预设配置文件，基于所述预设配置文件配置所述分析型数据库的目标存储引擎；

其中，预设去重条件指代用户预先配置的去重条件，在分析型数据库中存储的数据状况达到用户预先配置的去重条件的情况下，自动执行分析型数据库中的数据去重。

本实施例中，在监测到所述分布式消息***中的业务数据消费异常的情况下，判定达到预设去重条件。

具体地，业务数据消费异常的情况包括但不限于消费过程出现任务重启及在一时间段内消费的业务数据量达到消费阈值。

本实施例中，还可以在监测到所述分析型数据库出现数据库重启备份的情况下，判定达到预设去重条件。

此外，本实施例中，还可以在监测到达到预先设置的去重时间的情况下，自动执行分析型数据库中的数据去重，对此不进行限制。

由此，用户通过在分析型数据库运行之前，配置预设去重条件，即可实现分析型数据库在存储数据的过程中实现自动去重操作。

其中，预设配置文件指代与该实时业务需求对应的主题匹配的包括去重范围及去重字段等引擎配置参数的文件。

本实施例中，由于分析型数据库中存储有若干个主题的业务数据，而在实际应用中，对于各主题下的业务数据消费后得到的业务结果数据也均不相同，因此用户在数据落地存储至分析型数据库之前，可先设置好各主题下数据进行去重操作时所需要的引擎配置参数，由此实现各类主题的重复数据去重。

进一步地，本实施例中，为了实现数据的自动过滤，优选地，选取ReplacingMergeTree引擎作为目标存储引擎，由此基于数据库后台功能，异步删除排序键值相同的重复项，完成数据自动过滤。

步骤300，基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重。

该步骤中，在进行去重过程中，配置好的目标存储引擎基于指定的去重范围去分析型数据库中获取该去重范围内的所有数据，接着基于指定的去重字段去进行该去重范围内的所有数据的去重操作。

例如，当指定的去重字段为字段1、字段2及字段3的情况下，则对所有数据下该三个字段下的数据进行排序比对，当出现该三个字段下的数据均相同时，则判定出现重复数据，保留数据存储时间戳最新的一条数据，并删除其他重复的数据。

当指定的去重字段为所有字段的情况下，例如对于客流预测表结构下的所有数据，则其去重字段为客流预测表结构下的所有字段：index_id指标ID、index_name指标名称、date日期、time_id时间段ID、road_network_id路网ID、road_network_name路网名称、line_id线路ID、line_name线路名称、section_id区间ID、section_name区间名称及predict_value预测值，则若存在以上11个字段值均相同时，即同一天同一个时段，如有多个相同的预测值时，保留最新一条预测值数据即可，由此不仅保证分析型数据库中存储的数据不是重复数据，还能保证数据的版本是最新版本。

本实施例提供的数据去重方法，通过在将消费后得到的业务结果数据存储至分析型数据库中的过程中，对存储的数据及业务数据的消费过程进行实时监控，并在达到预设去重条件的情况下，通过预先设置的预设配置文件配置分析型数据库的目标存储引擎的去重规则，由此通过配置的预设去重条件、预设配置文件及目标存储引擎实现数据落库分析型数据库后的自动去重操作，进而提高了数据去重效率。

基于以上实施例，所述基于所述预设配置文件配置所述分析型数据库的目标存储引擎，包括：

确定所述预设配置文件中预先配置的去重范围及去重字段；

该步骤中，去重范围也即指代对分析型数据库中存储的该实时业务需求匹配的主题下的业务结果数据进行分区范围，而去重字段指代分区后的待去重表结构数据中需要进行去重的表结构中的字段。

例如当去重范围的指定字段为date日期字段时，则去重规则会是以同一个日期时间范围去重，并结合去重字段完成去重。

由此本实施例中，通过用户设置的预设配置文件中的去重范围及去重字段进行目标存储引擎的分区键及排序键的相关配置，进而通过配置好的去重规则的自动配置实现数据落库分析型数据库后的自动去重操作，进而提高了数据去重效率。

基于以上实施例，所述将消费后得到的业务结果数据存储至分析型数据库中之前，还包括：

接收用户对所述目标存储引擎的去重规则配置。

该步骤中，在初始化阶段将数据库引擎设置为ReplacingMergeTree引擎。进一步地，在引擎设置完毕之后，当检测到用户触发的引擎配置请求的情况下，显示ReplacingMergeTree引擎对应的去重规则配置界面，获取用户基于去重规则配置界面设置的预设去重条件、各主题下的去重范围及去重字段的去重参数，从而根据该去重参数完成ReplacingMergeTree引擎针对各主题下的分区去重规则配置。

由此本实施例中，在初始化阶段将数据库引擎配置为ReplacingMergeTree引擎，进而实现后续数据落库分析型数据库后的自动去重操作。

基于以上实施例，所述基于所述实时业务需求对所述分布式消息***中存储的业务数据进行消费，包括：

生成所述实时业务需求对应的查询语句；

优选地，本实施例中实时计算引擎指代Flink计算引擎，Flink计算引擎是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态计算，可部署在各种集群环境，对各种大小的数据规模进行快速计算。

该步骤中，先确定实时业务需求对应的抽取对象，接着根据抽取对应的属性维度确定抽取对象的查询条件，进而生成该查询条件对应的查询语句，接着将查询语句上传至Flink计算引擎，以供Flink计算引擎转换成Flink语句执行。

其中，Flink计算引擎转换成Flink语句执行的过程中，先从分布式消息***中抽取出目标业务数据，接着依次进行转换和维度关联处理，最终得到消费后得到的业务结果数据。

为了便于理解，对此以业务数据为轨道交通***中的行车日志数据为例进行说明：在实时业务需求为确定一个在对应车站站台实时播报列车早晚点信息时，则首先从行车日志数据中抽取出早晚点及到站标识数据，并进行相应格式数据的转换，接着将转换后的数据与车站维度表、站台维度表关联，获取统一明细数据，最后将整合形成统一的明细数据存储于对应的表结构列表中。

进一步地，所述基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重之后，还包括：

生成记录有去重范围、去重字段、去重操作时间戳及去重结果的去重日志。

也即在每次进行去重之后，记录有相应的去重过程数据的去重日志，以便后续基于去重日志进行数据追溯。

基于以上实施例，所述基于所述实时业务需求对分布式消息***中存储的业务数据进行消费之前，还包括：

将从实时数据***中采集的业务数据分区写入分布式消息***；

需要说明的是，在实际应用中，城市轨道交通运营过程中会涉及多种城轨业务数据需要实时或者准实时采集、处理以及结果数据存储，面向城轨业务大批量实时数据处理与存储，会涉及到对相同数据或者部分相同数据进行替换更新，从而实现数据去重的业务需求。

本实施例中，城市轨道交通运营过程中实时数据***记录着产生的实时业务数据，例如线路行车日志数据。此处需要说明的是，业务数据的可以是不同领域的数据，可以是购物网站的用户行为数据，也可以是轨道交通***中的线路行车日志数据等等，此处不作具体限定。

此处对Kafka集群进行简单介绍，其是一个分布式、支持分区的、多副本的分布式消息***，具备高吞吐量、低延迟、可扩展性、持久性、高并发等特征。

因此本实施例中，通过将业务数据接入至Kafka集群中进行分区存储，进而实现后续可以实时的处理大量业务数据以满足各种需求场景的目的。

下面对本发明提供的数据去重装置进行描述，下文描述的数据去重装置与上文描述的数据去重方法可相互对应参照。

参考图2，图2是本发明提供的数据去重装置的结构示意图，如图2所示，所述数据去重装置包括：消费单元210，用于在接收到实时业务需求的情况下，基于所述实时业务需求对分布式消息***中的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；配置单元220，用于在达到预设去重条件的情况下，获取所述实时业务需求匹配的预设配置文件，基于所述预设配置文件配置所述分析型数据库的目标存储引擎；去重单元230，用于基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重。

进一步地，配置单元220，还用于获取所述实时业务需求匹配的预设配置文件；确定所述预设配置文件中预先配置的去重范围及去重字段；基于所述去重范围配置所述分析型数据库的目标存储引擎的分区键，并基于所述去重字段配置所述目标存储引擎的排序键。

进一步地，配置单元220，还用于在监测到所述分布式消息***中的业务数据消费异常的情况下，判定达到预设去重条件；或者，在监测到所述分析型数据库出现数据库重启备份的情况下，判定达到预设去重条件。

进一步地，消费单元210，还用于在所述分析型数据库初始化阶段选取目标存储引擎作为所述分析型数据库的数据库引擎；接收用户对所述目标存储引擎的去重规则配置。

进一步地，消费单元210，还用于生成所述实时业务需求对应的查询语句；基于所述查询语句控制实时计算引擎对所述分布式消息***中的业务数据进行消费。

进一步地，去重单元230，还用于生成记录有所述去重操作对应的去重范围、去重字段、去重操作时间戳及去重结果的去重日志。

进一步地，消费单元210，还用于将从实时数据***中采集的业务数据分区写入分布式消息***。

本发明提供的数据去重装置，通过在接收到实时业务需求的情况下，基于实时业务需求对分布式消息***中的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；在达到预设去重条件的情况下，获取实时业务需求匹配的预设配置文件，基于预设配置文件配置分析型数据库的目标存储引擎，并基于配置好的目标存储引擎对分析型数据库中存储的业务结果数据进行去重，由此通过配置的预设去重条件、预设配置文件及目标存储引擎实现数据落库分析型数据库后的自动去重操作，进而提高了数据去重效率。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行数据去重方法，该方法包括：在接收到实时业务需求的情况下，基于所述实时业务需求对分布式消息***中存储的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；在达到预设去重条件的情况下，获取所述实时业务需求匹配的预设配置文件，基于所述预设配置文件配置所述分析型数据库的目标存储引擎；基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的数据去重方法，该方法包括：在接收到实时业务需求的情况下，基于所述实时业务需求对分布式消息***中存储的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；在达到预设去重条件的情况下，获取所述实时业务需求匹配的预设配置文件，基于所述预设配置文件配置所述分析型数据库的目标存储引擎；基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的数据去重方法，该方法包括：在接收到实时业务需求的情况下，基于所述实时业务需求对分布式消息***中存储的业务数据进行消费，并将消费后得到的业务结果数据存储至分析型数据库中；在达到预设去重条件的情况下，获取所述实时业务需求匹配的预设配置文件，基于所述预设配置文件配置所述分析型数据库的目标存储引擎；基于配置好的目标存储引擎对所述分析型数据库中存储的业务结果数据进行去重。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据去重方法，其特征在于，包括：

2.根据权利要求1所述的数据去重方法，其特征在于，所述基于所述预设配置文件配置所述分析型数据库的目标存储引擎，包括：

确定所述预设配置文件中预先配置的去重范围及去重字段；

3.根据权利要求1所述的数据去重方法，其特征在于，所述达到预设去重条件的判定方式，包括：

4.根据权利要求1所述的数据去重方法，其特征在于，所述将消费后得到的业务结果数据存储至分析型数据库中之前，还包括：

接收用户对所述目标存储引擎的去重规则配置。

5.根据权利要求1所述的数据去重方法，其特征在于，所述基于所述实时业务需求对所述分布式消息***中存储的业务数据进行消费，包括：

生成所述实时业务需求对应的查询语句；

6.根据权利要求1至5任一项所述的数据去重方法，其特征在于，所述基于所述实时业务需求对分布式消息***中存储的业务数据进行消费之前，还包括：

将从实时数据***中采集的业务数据分区写入分布式消息***。

7.一种数据去重装置，其特征在于，包括：

8.根据权利要求7所述的数据去重装置，其特征在于，所述配置单元，还用于：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述数据去重方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据去重方法。