CN113672671A - 一种实现数据加工的方法和装置 - Google Patents

一种实现数据加工的方法和装置 Download PDF

Info

Publication number
CN113672671A
CN113672671A CN202010413617.1A CN202010413617A CN113672671A CN 113672671 A CN113672671 A CN 113672671A CN 202010413617 A CN202010413617 A CN 202010413617A CN 113672671 A CN113672671 A CN 113672671A
Authority
CN
China
Prior art keywords
message
wide table
data
theme
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010413617.1A
Other languages
English (en)
Other versions
CN113672671B (zh
Inventor
李小印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Jingxundi Supply Chain Technology Co ltd
Original Assignee
Xi'an Jingxundi Supply Chain Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Jingxundi Supply Chain Technology Co ltd filed Critical Xi'an Jingxundi Supply Chain Technology Co ltd
Priority to CN202010413617.1A priority Critical patent/CN113672671B/zh
Publication of CN113672671A publication Critical patent/CN113672671A/zh
Application granted granted Critical
Publication of CN113672671B publication Critical patent/CN113672671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/567Integrating service provisioning from a plurality of service providers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现数据加工的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题;根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表;其中,所述宽表为根据配置的宽表元数据得到的实例化组件;根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工。该方法能够统一处理多个业务***的消息流,实现数据的实时加工,简化了数据加工逻辑的配置,以及,实现了清晰易读的数据加工关系与数据加工逻辑的统一化描述,降低了开发、维护成本,解决了实时数据加工逻辑描述复杂与开发维护困难的问题。

Description

一种实现数据加工的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种实现数据加工的方法和装置。
背景技术
对于实时数据加工的应用,目前存在的加工工具是以面向消息主题topic的逻辑配置加工方式进行的。其中,每一张宽表描述的数据可称为一个宽表模型。宽表模型的形成,即为数据加工的过程,将分散在不同业务***或者库表中的同一领域数据,汇总到一张数据表中,以用来做数据的分析、聚合、查询与展示。由于数据是汇总数据,描述字段较多,所以叫宽表。同一个宽表模型,往往会由多个业务***的topic数据汇总,现有技术是通过面向业务数据表的众多topic,将指定宽表模型的加工逻辑直接分散到了每一个topic加工逻辑中。具体的,接入业务***,对于每个接入的业务***的topic,编辑其topic加工逻辑,以及部署宽表模型的加工逻辑,以实现将该topic数据写入宽表模型中。
上述现有技术存在以下问题:1.宽表模型加工逻辑散乱,与实际业务主题关系模糊,只有开发者或者非常熟悉业务的人员才知道数据来源与分布,而且数据通过了怎样的处理写入宽表,逻辑也是分散的,开发人员往往需要经过很长时间的学习与熟悉***后才能掌握,需要大量依靠人工记忆的加工逻辑。2.开发流程繁琐、维护难度较大,可读性严重不足,整体数据模型理解起来难度非常高,尤其是维护时,由于关联关系散乱,难于梳理,导致开发成本提高。3.维护阶段容易导致一处改,处处改,或者漏改等研发维护失误,增加了维护成本。
发明内容
有鉴于此,本发明实施例提供一种实现数据加工的方法和装置,能够统一处理多个业务***的消息流,实现数据的实时加工,简化实时数据加工逻辑配置。以及,实现了清晰易读的数据加工关系与数据加工逻辑的统一化描述,降低了开发、维护成本。
为实现上述目的,根据本发明实施例的一个方面,提供了一种实现数据加工的方法。
本发明实施例的实现数据加工的方法包括:基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题;根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表;其中,所述宽表为根据配置的宽表元数据得到的实例化组件;根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工。
可选地,在基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题之后,根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表之前,还包括:根据确定的各个消息的主题,将所述消息流中的各个消息进行数据格式转换。
可选地,根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表包括:针对确定的每个主题,根据配置的宽表和主题的关联关系,生成该主题对应的宽表记录清单,所述宽表记录清单中包括该主题所关联的宽表;根据所述宽表记录清单,将所述消息流中的消息分发给宽表记录清单中的每个宽表。
可选地,在根据所述宽表记录清单,将所述消息流中的消息分发给宽表记录清单中的每个宽表之前,还包括:根据配置的主题依赖关系,生成任务注册清单;其中,所述主题依赖关系指示了主题对应消息的数据加工顺序;
所述根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工的步骤包括:根据所述任务注册清单以及所述每个宽表接收到的消息进行数据加工。
可选地,在根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工之后,还包括:确定用于存储数据加工得到的宽表的数据源;其中,所述数据源至少包括以下一种:MySQL关系型数据库、Redis数据库、ElasticSearch。
可选地,针对确定所述消息流中各个消息的主题,和/或将所述消息流中的各个消息分发给其主题所对应的宽表,和/或根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工,创建监控任务列表;基于所述监控任务列表,输出监控结果。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种实现数据加工的装置。
本发明实施例的实现数据加工的装置包括:
确定主题模块,用于基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题;
消息分发模块,用于根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表;其中,所述宽表为根据配置的宽表元数据得到的实例化组件;
加工模块,用于根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工。
可选地,还包括格式转换模块,用于根据确定的各个消息的主题,将所述消息流中的各个消息进行数据格式转换。
可选地,消息分发模块还用于,针对确定的每个主题,根据配置的宽表和主题的关联关系,生成该主题对应的宽表记录清单,所述宽表记录清单中包括该主题所关联的宽表;根据所述宽表记录清单,将所述消息流中的消息分发给宽表记录清单中的每个宽表。
可选地,消息分发模块还用于,根据配置的主题依赖关系,生成任务注册清单;其中,所述主题依赖关系指示了主题对应消息的数据加工顺序;
加工模块还用于,根据所述任务注册清单以及所述每个宽表接收到的消息进行数据加工。
可选地,还包括数据源确定模块,用于确定用于存储数据加工得到的宽表的数据源;其中,所述数据源至少包括以下一种:MySQL关系型数据库、Redis数据库、ElasticSearch。
可选地,还包括监控模块,用于针对确定所述消息流中各个消息的主题,和/或将所述消息流中的各个消息分发给其主题所对应的宽表,和/或根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工,创建监控任务列表;基于所述监控任务列表,输出监控结果。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项的实现数据加工的方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一项的实现数据加工的方法。
上述发明中的一个实施例具有如下优点或有益效果:基于配置的宽表和主题的关联关系以及宽表元数据,可统一处理多个业务***的消息流,实现数据的实时加工,简化了实时数据加工逻辑的配置。以及,通过配置的宽表和主题的关联关系以及宽表元数据,可实现清晰易读的数据加工关系与数据加工逻辑的统一化描述,降低了开发、维护成本,解决了实时数据加工逻辑描述复杂与开发维护困难的问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的实现数据加工的方法的主要流程的示意图;
图2是根据本发明实施例的实现数据加工的方法的实现***的示意图;
图3是根据本发明实施例的数据主题适配器的示意图;
图4是根据本发明实施例的实时消息调度触发器的示意图;
图5是根据本发明实施例的数据加工引擎的示意图;
图6是根据本发明实施例的目标数据源的示意图;
图7是根据本发明实施例的实现数据加工的方法的实现***执行逻辑的示意图;
图8是根据本发明实施例的实现数据加工的装置的主要模块的示意图;
图9是本发明实施例可以应用于其中的示例性***架构图;
图10是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的实现数据加工的方法的主要流程的示意图,如图1所示,本发明实施例的实现数据加工的方法主要包括:
步骤S101:基于对接的多个业务***获取请求数据加工的消息流,并确定消息流中各个消息的主题。其中,该对接的业务***是指从该业务***中获取数据,以进一步根据获取的数据进行数据加工。以及,请求数据加工的消息流中的各个消息是指各个业务***中指示数据加工的消息,消息中还可包括待加工的数据。
步骤S102:根据配置的宽表和主题的关联关系,将消息流中的各个消息分发给其主题所对应的宽表;其中,宽表为根据配置的宽表元数据得到的实例化组件。宽表元数据包括宽表名称、字段、数据类型等具体的表结构信息。其中,每一张宽表的描述称为一个宽表模型,根据配置的宽表元数据实例化即得到宽表模型对象,即一个宽表。
步骤S103:根据每个宽表的宽表元数据,对接收到的消息进行数据加工。在该步骤中,进行数据加工为执行数据加工逻辑,即将分散在不同业务***或者库表中的同一领域数据,汇总到一张数据表中,或者对该汇总的数据表进行增删改等操作,以便做数据分析、聚合、查询与展示。由于数据是汇总数据,描述字段较多,所以叫宽表。
根据本发明实施例,基于配置的宽表和主题的关联关系以及宽表元数据,可统一处理多个业务***的消息流,实现数据的实时加工,简化了数据加工逻辑的配置。以及,通过配置的宽表和主题的关联关系以及宽表元数据,可实现清晰易读的数据加工关系与数据加工逻辑的统一化描述,降低了开发、维护成本,解决了实时数据加工逻辑描述复杂与开发维护困难的问题。
在本发明实施例中,在基于对接的多个业务***获取请求数据加工的消息流,并确定消息流中各个消息的主题之后,根据配置的宽表和主题的关联关系,将消息流中的各个消息分发给其主题所对应的宽表之前,根据确定的各个消息的主题,将消息流中的各个消息进行数据格式转换。
在本发明实施例中,根据配置的宽表和主题的关联关系,将消息流中的各个消息分发给其主题所对应的宽表的过程中,针对确定的每个主题,根据配置的宽表和主题的关联关系,生成该主题对应的宽表记录清单,宽表记录清单中包括该主题所关联的宽表,每个宽表记录清单对应一个主题,其中包括确定的和该主题关联的所有宽表。以及根据宽表记录清单,将消息流中的消息分发给宽表记录清单中的每个宽表。
在本发明实施例中,在根据宽表记录清单,将消息流中的消息分发给宽表记录清单中的每个宽表之前,根据配置的主题依赖关系,生成任务注册清单;其中,主题依赖关系指示了主题对应消息的数据加工顺序。根据每个宽表的宽表元数据,对接收到的消息进行数据加工的步骤包括:根据任务注册清单以及每个宽表接收到的消息进行数据加工。宽表中的数据字段通常来自不同的业务***,而这些事实数据往往发生的先后顺序是不可控的,存在必要的依赖数据未到而其他数据已来的情况,此时就需要等待,以及确定数据加工的顺序。
在本发明实施例中,在根据每个宽表的宽表元数据,对接收到的消息进行数据加工之后,确定用于存储数据加工得到的宽表的数据源。其中,数据源至少包括以下一种:MySQL关系型数据库、Redis数据库、ElasticSearch。ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,很方便的使大量数据具有搜索、分析和探索的能力。在数据加工得到的宽表中的数据为运行必要的数据时,数据源可确定为关系型数据库或者缓存。缓存是存储可能存在数据等待时的信息临时记录。在数据加工得到的宽表中的数据为其它***提供数据支撑的数据时,数据源可确定为与外部***交互的ElasticSearch。
在本发明实施例中,针对确定消息流中各个消息的主题,和/或将消息流中的各个消息分发给其主题所对应的宽表,和/或根据每个宽表的宽表元数据,对接收到的消息进行数据加工,创建监控任务列表。以及,基于监控任务列表,输出监控结果。
图2是根据本发明实施例的实现数据加工的方法的实现***的示意图;图3是根据本发明实施例的数据主题适配器的示意图;图4是根据本发明实施例的实时消息调度触发器的示意图;图5是根据本发明实施例的数据加工引擎的示意图;图6是根据本发明实施例的目标数据源的示意图;图7是根据本发明实施例的实现数据加工的方法的实现***执行逻辑的示意图。
通过现有技术中得到的宽表仅仅是一张数据库表,不包含数据来源信息,而数据来源信息以及加工过程又分布在未知的业务topic,不能通过宽表找到对应来源,只有开发者或者非常熟悉业务的人员才知道数据来源与分布,而且数据通过了怎样的处理写入宽表,逻辑也是分散的,开发人员往往需要经过很长时间的学习与熟悉***后才能掌握。现有技术通过面向业务数据表的众多topic,将指定宽表模型的加工逻辑直接分散到了每一个topic加工逻辑中,由此可知其存在开发流程繁琐、维护难度较大,可读性严重不足等问题。根据本发明实施例,开发方式由原来的编辑业务topic消息流开发逻辑为,编辑宽表统一模型描述配置文件,即由原来的面向消息消费过程修改为面向统一模型。在本发明实施例中,如图2-6所示,本发明实施例的实现数据加工的方法的实现***至少包括以下组件:宽表模型管理器、数据主题适配器,实时消息调度触发器,数据加工引擎。在本发明实施例中,该实现***还包括web应用、目标数据源适配器、任务调度组件、监控***和关系型数据库、缓存和外部***交互组件。其中,图2所示的箭头用于表示组件之间可能存在的交互关系,但不限定图2所示的交互关系,组件之间还可有除图中所示的其他交互关系。由于组件之间有上下依赖关系,该实现***采用分布式集群部署形态,web应用、监控***整合部署,以及数据库缓存可为独立***。***内的组件可按照如下初始化:目标数据源初始化,实时数据加工引擎初始化,实时调度触发器,任务调度组件,初始化宽表模型管理器,实时数据流主题适配器,外部***对接组件初始化。当所有组件初始化后可处理实时消息,即实现数据加工。
具体的,web应用用于操作可视化数据配置。监控***,负责监控整个实现***的任务运行情况、性能,以及访问,日志等数据。宽表模型管理器,用于存储宽表元数据、宽表与主题的对应关系,以及宽表元数据的管理,任务调度关系等的信息的维护。该宽表模型管理器,支持多主题配置,可配置指定关联关系的业务主键,以及自定义加工逻辑配置应对不同数据获取或者多步骤数据依赖时候的逻辑配置。当宽表模型加载时候,将按照指定模型组为一个虚拟的应用***,可按组批量加载模型,进行数据加工。宽表模型管理器记录目标宽表加工需要的必要信息,也称之为描述宽表元数据,该模型描述的信息包含了目标数据宽表的名称、字段、数据类型、字段含义等,以及宽表模型管理器存储了宽表关联了哪些业务***的topic主题数据,某些宽表字段需要哪些定制化的处理逻辑等信息。
数据主题适配器,对接消息流平台,比如MQ、Kafka、自定义数据、Rpc调用、woker任务执行机等,以及数据主题适配器可将异构数据适配为本组件统一的数据格式。
任务调度组件用于添加指定规则任务的编排执行,同时具备触发实时消息调度触发器能力,再次拉起数据加工,解决复杂消息间的延迟等待与依赖处理。宽表中的数据字段通常来自不同的业务***,而这些事实数据往往发生的先后顺序是不可控的,存在必要的依赖数据未到而其他数据已来的情况,此时就需要等待,而等待的过程中数据需要缓存与再次加工,该过程可依赖任务调度组件再次触发数据处理。
实时消息调度触发器由各个实时数据流消息主题生成,接收消息,触发对应加工引擎,执行加工任务。数据加工引擎,用于根据不同宽表模型的元数据描述,完成实时宽表模型的初始化,并将初始化后的模型对象与实时消息调度触发器产生关联,接收数据变动事件,执行数据增改变化。目标数据源适配器用于对接宽表数据模型持久化保存目标的数据源,比如Mysql,ES等。
关系型数据库以及缓存,用来保存***运行时的必要数据。外部***交互组件,用于为其它***(不同于该实现***)提供数据支撑。
由于不同的业务***对topic主题数据描述方式方法各不相同,因此对其数据进行处理就必须统一消息描述方式格式,这样才能在该实现***内进行流转。在本发明实施例中,如图3所示,消息的接入将由不同类型的消息适配器组件建立主题连接,以转换不同类型消息内容至统一格式。数据主题适配器根据对接消息流平台,比如MQ、Kafka、自定义数据流,以及将异构数据适配为本组件统一的数据格式,并将格式转换后的消息分发至实时消息调度触发器。
如图4所示,每个实时数据流生成对应的一个实时消息调度触发器,该实时消息调度触发器接收经过数据主题适配器转换后的消息流,以及模型管理器匹配的加工规则,确定具体的加工描述详细信息,并根据规则将消息派发给数据加工引擎中对应的模型对象,触发数据加工。模型管理器匹配的加工规则,指的是接收业务topic主题数据消息后,确定哪些宽表关联了这个主题的数据,即根据宽表模型管理器所存储的模型描述信息进行匹配,找到哪些宽表需要这个topic的数据。以及,根据主题相关依赖,检查是否发起任务调度,补录依赖数据,处理等待数据等任务。其中,主题相关依赖是指业务主题在加工描述模型信息中,都指定依赖了哪些其他topic主题中的数据,是否需要等待这些数据也到来之后进行加工,即根据主题确定对应的数据加工执行顺序。接受任务调度器的指派,触发数据加工引擎,用于复杂数据多次获取等的异步任务拉起。
如图5所示,获取需要进行实时处理的模型配置,将全部模型实体对象初始化(实例化),并根据指定的消息主题配置,将模型实体注册到实时消息调度触发器的监听列表。数据加工引擎接收实时消息调度触发器发来的消息,可以是一个消息,或一批消息。按照事件触发类型(如图5所示的单条数据集加工、批量数据集加工)对数据进行insert,update,delete等事件类型操作转换,根据规则完成数据加工后,交由数据源适配器进行数据持久化操作。以及,上报消息或者一批消息的完成,结束一次实时数据操作。
如图6所示,目标数据源适配器,主要用途是管理数据最终存储载体的数据源,数据源的创建,链接获取、销毁。数据源可以是关系型数据库,ES,Redis等。在***启动时按照指定配置,创建对应的目标数据源。
如图7所示,本发明实施例的实现数据加工的方法的实现***的实现过程主要包括:每一个消息主题中的消息经过数据主题适配器之后都将到达一个与主题对应的实时消息调度触发器。实时消息调度触发器负责将消息数据分发给宽表记录清单中的每一个模型对象即宽表。根据数据加工需要还可生成任务注册清单,存储需要的任务监听对象。宽表记录清单中的模型,就是指定宽表信息在***中建立的抽象描述,可以理解为比如一个javaclass。java有两种对象:实例对象和Class对象。每个类的运行时的类型信息就是用Class对象表示的。它包含了与类有关的信息。其实我们的实例对象就通过Class对象来创建的。Java使用Class对象执行其RTTI(运行时类型识别,Run-Time Type Ide ntification),多态是基于RTTI实现的。每一个类都有一个Class对象,每当编译一个新类就产生一个Class对象,基本类型(boolean,byte,char,s hort,int,long,float,and double)有Class对象,数组有Class对象,就连关键字void也有Class对象(void.class)。Class对象对应着java.lang.Class类,如果说类是对象抽象和集合的话,那么Class类就是对类的抽象和集合。以及,任务注册清单存储有与任务调度组件交互的关联任务。
每一个宽表模型在实时数据加工引擎初始化之后都将实例化为一个模型对象,其具备生命周期操作能力,并在模型所有涉及的数据主题触发器中注册成为消息接收者。每个实时消息调度触发器都将得到一个宽表注册列表。消息数据经由数据加工引擎处理后,通过目标数据源适配器到达数据存储层。数据存储层得到的完整模型数据,将具备对外输出服务的能力,用于数据展示,或者第三方API支持。
根据本发明实施例,开发方式由原来的编辑业务topic消息流开发逻辑为,编辑宽表统一模型描述配置文件,即由原来的面向消息消费过程修改为面向统一模型。实现数据的实时加工,简化实时数据加工逻辑配置。以及,通过配置的宽表和主题的关联关系以及宽表元数据,可实现清晰易读的数据加工关系与数据加工逻辑的统一化描述,降低了开发、维护成本。可实现事件监听与实时消息处理触发,宽表模型描述的程序化转换。加工逻辑的执行,与目标数据源的适配。解决了多消息流之间实时数据关联处理的延迟与等待处理问题。以及,通过组件的配置与协调,实现实时数据加工的统一化管理,解决了实时数据加工逻辑描述复杂与开发维护困难的问题。
图8是根据本发明实施例实现数据加工的装置的主要模块的示意图,如图8所示,本发明实施例的实现数据加工的装置800包括确定主题模块801、消息分发模块802和加工模块803。
确定主题模块801用于,基于对接的多个业务***获取请求数据加工的消息流,并确定消息流中各个消息的主题。
消息分发模块802用于,根据配置的宽表和主题的关联关系,将消息流中的各个消息分发给其主题所对应的宽表;其中,宽表为根据配置的宽表元数据得到的实例化组件。
加工模块808用于,根据每个宽表的宽表元数据,对接收到的消息进行数据加工。
可选地,在本发明实施例中,消息分发模块还用于,针对确定的每个主题,根据配置的宽表和主题的关联关系,生成该主题对应的宽表记录清单,宽表记录清单中包括该主题所关联的宽表;根据宽表记录清单,将消息流中的消息分发给宽表记录清单中的每个宽表。本发明实施例实现数据加工的装置还包括格式转换模块,用于根据确定的各个消息的主题,将消息流中的各个消息进行数据格式转换。消息分发模块还用于,根据配置的主题依赖关系,生成任务注册清单;其中,主题依赖关系指示了主题对应消息的数据加工顺序。加工模块还用于,根据任务注册清单以及每个宽表接收到的消息进行数据加工。本发明实施例实现数据加工的装置还包括数据源确定模块,用于确定用于存储数据加工得到的宽表的数据源;其中,数据源至少包括以下一种:MySQL关系型数据库、Redis数据库、ElasticSearch。本发明实施例实现数据加工的装置还包括监控模块,用于针对确定消息流中各个消息的主题,和/或将消息流中的各个消息分发给其主题所对应的宽表,和/或根据每个宽表的宽表元数据,对接收到的消息进行数据加工,创建监控任务列表;基于监控任务列表,输出监控结果。
根据本发明实施例,开发方式由原来的编辑业务topic消息流开发逻辑为,编辑宽表统一模型描述配置文件,即由原来的面向消息消费过程修改为面向统一模型。基于配置的宽表和主题的关联关系以及宽表元数据,可统一处理多个业务***的消息流,实现数据的实时加工,简化实时数据加工逻辑配置。以及,通过配置的宽表和主题的关联关系以及宽表元数据,可实现清晰易读的数据加工关系与数据加工逻辑的统一化描述,降低了开发、维护成本。可实现事件监听与实时消息处理触发,宽表模型描述的程序化转换。加工逻辑的执行,与目标数据源的适配。解决了多消息流之间实时数据关联处理的延迟与等待处理问题,实现实时数据加工的统一化管理,解决了实时数据加工逻辑描述复杂与开发维护困难的问题。
图9示出了可以应用本发明实施例的实现数据加工的方法或实现数据加工的装置的示例性***架构900。
如图9所示,***架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的实现数据加工的方法一般由服务器905执行,相应地,实现数据加工的装置一般设置于服务器905中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备的计算机***1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机***1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有***1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括确定主题模块、消息分发模块和加工模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定主题模块还可以被描述为“基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:基于对接的多个业务***获取请求数据加工的消息流,并确定消息流中各个消息的主题;根据配置的宽表和主题的关联关系,将消息流中的各个消息分发给其主题所对应的宽表;其中,宽表为根据配置的宽表元数据得到的实例化组件;根据每个宽表的宽表元数据,对接收到的消息进行数据加工。
根据本发明实施例,基于配置的宽表和主题的关联关系以及宽表元数据,可统一处理多个业务***的消息流,实现数据的实时加工,简化实时数据加工逻辑配置。以及,通过配置的宽表和主题的关联关系以及宽表元数据,可实现清晰易读的数据加工关系与数据加工逻辑的统一化描述,降低了开发、维护成本。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种实现数据加工的方法,其特征在于,包括:
基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题;
根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表;其中,所述宽表为根据配置的宽表元数据得到的实例化组件;
根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工。
2.根据权利要求1所述的方法,其特征在于,在基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题之后,根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表之前,还包括:
根据确定的各个消息的主题,将所述消息流中的各个消息进行数据格式转换。
3.根据权利要求1所述的方法,其特征在于,根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表包括:
针对确定的每个主题,根据配置的宽表和主题的关联关系,生成该主题对应的宽表记录清单,所述宽表记录清单中包括该主题所关联的宽表;
根据所述宽表记录清单,将所述消息流中的消息分发给宽表记录清单中的每个宽表。
4.根据权利要求3所述的方法,其特征在于,
在根据所述宽表记录清单,将所述消息流中的消息分发给宽表记录清单中的每个宽表之前,还包括:根据配置的主题依赖关系,生成任务注册清单;其中,所述主题依赖关系指示了主题对应消息的数据加工顺序;
所述根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工的步骤包括:根据所述任务注册清单以及所述每个宽表接收到的消息进行数据加工。
5.根据权利要求1所述的方法,其特征在于,在根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工之后,还包括:
确定用于存储数据加工得到的宽表的数据源;其中,所述数据源至少包括以下一种:MySQL关系型数据库、Redis数据库、ElasticSearch。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
针对确定所述消息流中各个消息的主题,和/或将所述消息流中的各个消息分发给其主题所对应的宽表,和/或根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工,创建监控任务列表;
基于所述监控任务列表,输出监控结果。
7.一种实现数据加工的装置,其特征在于,包括:
确定主题模块,用于基于对接的多个业务***获取请求数据加工的消息流,并确定所述消息流中各个消息的主题;
消息分发模块,用于根据配置的宽表和主题的关联关系,将所述消息流中的各个消息分发给其主题所对应的宽表;其中,所述宽表为根据配置的宽表元数据得到的实例化组件;
加工模块,用于根据所述每个宽表的宽表元数据,对接收到的消息进行数据加工。
8.根据权利要求7所述的装置,其特征在于,消息分发模块还用于,针对确定的每个主题,根据配置的宽表和主题的关联关系,生成该主题对应的宽表记录清单,所述宽表记录清单中包括该主题所关联的宽表;根据所述宽表记录清单,将所述消息流中的消息分发给宽表记录清单中的每个宽表。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202010413617.1A 2020-05-15 2020-05-15 一种实现数据加工的方法和装置 Active CN113672671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010413617.1A CN113672671B (zh) 2020-05-15 2020-05-15 一种实现数据加工的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010413617.1A CN113672671B (zh) 2020-05-15 2020-05-15 一种实现数据加工的方法和装置

Publications (2)

Publication Number Publication Date
CN113672671A true CN113672671A (zh) 2021-11-19
CN113672671B CN113672671B (zh) 2024-04-19

Family

ID=78537692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010413617.1A Active CN113672671B (zh) 2020-05-15 2020-05-15 一种实现数据加工的方法和装置

Country Status (1)

Country Link
CN (1) CN113672671B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201490A (zh) * 2021-12-06 2022-03-18 上海中通吉网络技术有限公司 一种数据生成***、方法和可读存储介质
CN115062028A (zh) * 2022-07-27 2022-09-16 中建电子商务有限责任公司 一种OLTP领域多表join查询的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150012584A1 (en) * 2013-07-05 2015-01-08 Qualcomm Incorporated Method and apparatus for using http redirection to mediate content access via policy execution
CN104866487A (zh) * 2014-02-24 2015-08-26 阿里巴巴集团控股有限公司 一种宽表刷新的方法和装置
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
US20170155938A1 (en) * 2015-12-01 2017-06-01 Rovi Guides, Inc. Systems and methods for managing available bandwidth in a household
CN108228817A (zh) * 2017-12-29 2018-06-29 华为技术有限公司 数据处理方法、装置和***
CN109189835A (zh) * 2018-08-21 2019-01-11 北京京东尚科信息技术有限公司 实时生成数据宽表的方法和装置
CN110019397A (zh) * 2017-12-06 2019-07-16 北京京东尚科信息技术有限公司 用于进行数据处理的方法及装置
CN110019087A (zh) * 2017-11-09 2019-07-16 北京京东尚科信息技术有限公司 数据处理方法及其***
CN110785749A (zh) * 2018-06-25 2020-02-11 北京嘀嘀无限科技发展有限公司 用于生成宽表的***和方法
CN110928879A (zh) * 2019-11-20 2020-03-27 贵州电网有限责任公司电力科学研究院 宽表生成方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150012584A1 (en) * 2013-07-05 2015-01-08 Qualcomm Incorporated Method and apparatus for using http redirection to mediate content access via policy execution
CN104866487A (zh) * 2014-02-24 2015-08-26 阿里巴巴集团控股有限公司 一种宽表刷新的方法和装置
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
US20170155938A1 (en) * 2015-12-01 2017-06-01 Rovi Guides, Inc. Systems and methods for managing available bandwidth in a household
CN110019087A (zh) * 2017-11-09 2019-07-16 北京京东尚科信息技术有限公司 数据处理方法及其***
CN110019397A (zh) * 2017-12-06 2019-07-16 北京京东尚科信息技术有限公司 用于进行数据处理的方法及装置
CN108228817A (zh) * 2017-12-29 2018-06-29 华为技术有限公司 数据处理方法、装置和***
CN110785749A (zh) * 2018-06-25 2020-02-11 北京嘀嘀无限科技发展有限公司 用于生成宽表的***和方法
CN109189835A (zh) * 2018-08-21 2019-01-11 北京京东尚科信息技术有限公司 实时生成数据宽表的方法和装置
CN110928879A (zh) * 2019-11-20 2020-03-27 贵州电网有限责任公司电力科学研究院 宽表生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张宇;阮雪灵;: "大数据环境下移动用户画像的构建方法研究", 中国信息化, no. 04 *
江天;乔嘉林;黄向东;***;: "开源软件中的大数据管理技术", 科技导报, no. 03 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201490A (zh) * 2021-12-06 2022-03-18 上海中通吉网络技术有限公司 一种数据生成***、方法和可读存储介质
CN115062028A (zh) * 2022-07-27 2022-09-16 中建电子商务有限责任公司 一种OLTP领域多表join查询的方法
CN115062028B (zh) * 2022-07-27 2023-01-06 中建电子商务有限责任公司 一种OLTP领域多表join查询的方法

Also Published As

Publication number Publication date
CN113672671B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN109086409B (zh) 微服务数据处理方法、装置、电子设备及计算机可读介质
US9363195B2 (en) Configuring cloud resources
CN111400061A (zh) 一种数据处理方法和***
CN111427701A (zh) 一种工作流引擎***和业务处理方法
CN112783874A (zh) 一种数据分析方法、装置和***
CN111126948A (zh) 用于审批流程的处理方法和装置
CN111831461A (zh) 一种处理业务流程的方法和装置
CN110764796A (zh) 更新缓存的方法和装置
CN113672671B (zh) 一种实现数据加工的方法和装置
CN115794262A (zh) 任务处理方法、装置、设备、存储介质以及程序产品
CN112947919A (zh) 构建业务模型和处理业务请求的方法和装置
CN112818026A (zh) 数据整合方法和装置
CN112398669A (zh) 一种Hadoop部署方法和装置
CN113326305A (zh) 一种处理数据的方法和装置
CN110807535A (zh) 统一预约平台的构建方法、构建装置和统一预约平台***
WO2024001240A1 (zh) 多种技术栈的任务集成方法及装置
CN110764769A (zh) 处理用户请求的方法和装置
CN111414154A (zh) 前端开发的方法、装置、电子设备和存储介质
CN109144864B (zh) 用于测试窗口的方法及装置
CN111382953A (zh) 一种动态流程生成方法和装置
CN112860538A (zh) 基于线上日志进行接口回归测试的方法和装置
CN114237765B (zh) 功能组件处理方法、装置、电子设备和介质
CN111143408B (zh) 一种基于业务规则的事件处理方法和装置
CN113779018A (zh) 一种数据处理方法和装置
CN111767185A (zh) 一种数据埋点方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant