CN111970195A

CN111970195A - 数据传输方法和流式数据传输***

Info

Publication number: CN111970195A
Application number: CN202010812508.7A
Authority: CN
Inventors: 郑志升; 周晖栋
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-11-20
Anticipated expiration: 2040-08-13
Also published as: CN111970195B

Abstract

本申请实施例提供了一种数据传输方法，所述方法包括：应用于流式数据传输***中，所述流式传输***包括由网关集群组成的数据传输层、由Kafka集群组成的数据缓存层、由Flink集群组成的数据分发层、及由多个终端组成的数据存储层，所述方法包括：所述网关集群接收待传输的数据流，并根据所述数据流的标识信息选择对应的逻辑管道将所述数据流写入至Kafka集群中与所述逻辑管道对应的主题中；所述Flink集群通过任务分发线程消费所述主题中的数据流，并将消费到的所述数据流分发至对应的终端中。本申请可以避免不同数据流的传输之间会相互影响。

Description

数据传输方法和流式数据传输***

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种数据传输方法、***、计算机设备及计算机可读存储介质。

背景技术

网关(Gateway)又称网间连接器、协议转换器，是多个网络间提供数据转换服务的计算机***或设备。随着网络的快速普及和应用的日益深入，时刻都会产生大量数据需要通过网关进行转发操作。以发明人了解的流式数据传输***为例，网关作为统一的数据收集入口，需要将各个数据源的不同种类的数据流进行解析并转发到后续的网络设备中。然而，发明人发现现有的网关采用服务的方式将数据流转发到后续的网络设备中，当转发的数据流出现异常时，会影响其他数据流的传输。

发明内容

本申请实施例的目的是提供一种数据传输方法、***、计算机设备及计算机可读存储介质，可以用于解决不同数据流的传输会相互影响的问题。

本申请实施例的一个方面提供了一种数据传输方法，应用于流式数据传输***中，所述流式传输***包括由网关集群组成的数据传输层、由Kafka集群组成的数据缓存层、由Flink集群组成的数据分发层、由多个终端组成的数据存储层，其特征在于，所述方法包括：

所述网关集群接收待传输的数据流，并根据所述数据流的标识信息选择对应的逻辑管道将所述数据流写入至Kafka集群中与所述逻辑管道对应的主题中；

所述Flink集群通过任务分发线程消费所述主题中的数据流，并将消费到的所述数据流分发至对应的终端中。

可选的，所述流式数据传输***还包括数据传输管理模块，所述方法还包括：

所述数据传输管理模块根据用户对所述数据流的配置信息生成所述数据流的元数据信息，并将所述元数据信息保存至预设的数据库中，其中，所述元数据信息包括所述标识信息，所述数据流对应的逻辑管道信息以及所述数据流分发的终端信息；

所述数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题。

可选的，所述方法还包括：

所述网关集群检测所述数据库中存储的元数据信息中是否存在新的标识信息，并在检测到存在新的标识信息时，创建与所述新的标识信息对应的逻辑管道。

可选的，所述数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题包括：

所述数据传输管理模块将所述元数据信息发送给管理员，以使所述管理员对所述元数据信息进行审批；

所述管理员在审批通过后，所述数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题。

可选的，所述方法还包括：

所述数据传输管理模块创建与所述逻辑管道关联的监测模块，并通过所述监测模块监测所述逻辑管道的传输质量。

可选的，所述通过所述监测模块监测所述逻辑管道的传输质量包括：

所述监测模块定时生成第一测试数据，并将所述测试数据通过所述逻辑管道写入至Kafka集群中与所述逻辑管道对应的主题中；

所述监测模块对所述Flink集群通过任务分发线程消费到的第二测试数据与所述第一测试数据进行分析，并根据分析结果确定所述逻辑管道的传输质量。

可选的，所述方法还包括：

所述数据传输管理模块监测所述任务分发线程对所述数据流的分发速度，并在监测到所述分发速度低于预设阈值时，分配额外的处理资源给所述任务分发线程。

本申请实施例的再一个方面提供了一种数据传输***，所述***包括：由网关集群组成的数据传输层、由Kafka集群组成的数据缓存层、由Flink集群组成的数据分发层、由多个终端组成的数据存储层，其中，

所述网关集群，用于接收待传输的数据流，并根据所述数据流的标识信息选择对应的逻辑管道将所述数据流写入至Kafka集群中与所述逻辑管道对应的主题中；

所述Flink集群，用于通过任务分发线程消费所述主题中的数据流，并将消费到的所述数据流分发至对应的终端中。

本申请实施例的再一个方面提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，上述处理器执行上述计算机程序时用于实现如上任一项所述的数据传输方法的步骤。

本申请实施例的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时用于实现如上任一项所述的数据传输方法的步骤。

本申请实施例提供的数据传输方法、***、计算机设备及计算机可读存储介质，通过将不同类别的数据流分别通过不同的逻辑管道写入至Kafka集群中与所述逻辑管道对应的主题中，从而实现不同数据流之间的隔离，避免不同数据流之间的传输影响，提高数据流传输的准确率。

附图说明

图1示意性示出了流式数据传输***的***架构图；

图2示意性示出了根据本申请一实施例的数据传输方法的流程图；

图3为意性示出了根据本申请另一实施例的数据传输方法的流程图；

图4示意性示出了数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题的步骤细化流程图；

图5示意性示出了通过所述监测模块监测所述逻辑管道的传输质量的步骤细化流程图；

图6示意性示出了根据本申请实施例的数据传输***的框图；以及

图7示意性示出了根据本申请实施例的适于实现数据传输方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1示意性示出了根据本申请实施例的流式数据传输***，所述流式数据传输***在于提供流式的数据传输服务，如用于实时流和离线流两大场景的数据收集和分发。实时流场景，对应于秒级别的数据时效性，主要用于将数据写入到kafka、hbase等数据库中。离线流场景，对应于小时级别或天级别的数据时效性，主要用于将数据写入到hdfs、hive等数据库中。所述流式数据传输***可以由下几部分组成：数据源1、数据传输层2、数据缓存层3、数据分发层4、数据存储层5和数据传输管理模块6等。

所述数据源1，可以是内部数据源，也可以连接外部数据源的数据接口。所述数据源1中可以有多种格式的数据，例如，APP和Web的上报数据是HTTP(HyperText TransferProtocol，超文本传输协议)格式的数据，服务端的内部通信数据是RPC(Remote ProcedureCall，远程过程调用)格式的数据。

所述数据传输层2，可以通过一个或多个网关节点组成的网关集群实现，用于协议解析、打包和压缩等，以保障数据在不丢失的前提下写入到数据缓存层3。具体的，所述数据传输层2被配置连接于数据源1，并可以适应各种不同的业务场景和数据协议，例如，被配置用于兼容解析多种协议的数据，诸如基于HTTP(HyperText Transfer Protocol，超文本传输协议)协议的APP和Web数据，和基于RPC协议的服务端的内部通信数据。解析得到的数据可以被转换为标准格式数据库文件并被存储到数据缓冲层3。

所述数据缓存层3，可以通过Kafka集群(一种消息分发订阅***)实现，起到数据削峰填谷的作用。不同重要性、优先级、数据吞吐量的数据流，可以被分流到kafka集群中的不同的Topic(主题)中，以保障不同类型的数据流的价值，避免***故障影响整体数据。

数据分发层4，可以由Flink集群组成的流量分发***(Collector)实现，用于内容转换和分发存储，即保障数据流从数据缓冲层3获取并写入到数据存储层5中对应的存储终端中。具体的，所述数据分发层4用于数据的分发落地，支持的分发场景包括HDFS(HadoopDistributed File System，Hadoop分布式文件***)、Kafka、Hbase、ES(Elasticsearch)等，而在分发的过程中，由于不同存储终端的数据落地时效性要求可能不同，例如，HDFS的数据写入是按天进行任务的计算和应用，Kafka的数据写入一般是按秒进行任务的计算和应用，通常用于诸如实时推荐、实时计算等场景中。

所述数据存储层5，由多个终端组成，用于存储数据，各个终端可以由不同形式的数据库构成，所述数据库可以ES、Hive、Kafka、Hadoop和Hbase等。

所述数据传输管理模块6，用于对传输数据流的逻辑管道进行管理，以及用于整条传输链路中所体现的传输质量进行监控。传输质量是衡量所述流式数据传输***的重要指标之一，例如，所述流式数据传输***数据丢失率、延迟率、接收数据量、分发数据量等。

为了帮助理解所述数据传输***的工作原理，下面对其提供的数据传输服务进行介绍：数据源1可以以logId为单位形成一批一批的数据流，其中每条数据流具有一个用于唯一区分不同的数据流的logId(数据流的标识信息)，通过HTTP、RPC等协议将这些数据上报给数据传输层2，并依次经过数据传输层2、数据缓存层3进入到数据分发层4，通过数据分发层4将这些数据发到数据存储层5中的终端中。

图2示意性示出了根据本申请实施例一的数据传输方法的流程图。应用于流式数据传输***中，所述流式传输***包括由网关集群组成的数据传输层、由Kafka集群组成的数据缓存层、由Flink集群组成的数据分发层、由多个终端组成的数据存储层以及数据传输管理模块。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。如图2所示，该数据传输方法可以包括步骤S20～步骤S21，其中：

步骤S20，所述网关集群接收待传输的数据流，并根据所述数据流的标识信息选择对应的逻辑管道将所述数据流写入至Kafka集群中与所述逻辑管道对应的主题中。

具体地，所述数据流可以是由一批基于HTTP(S)、RPC等各类协议的数据组成的，所述数据流中的数据都携带有所述数据流的标识信息(logId)，该标识信息用于唯一区分不同数据流，该标识信息可以通过三段式语义(如，部门+项目+业务)进行定义，以便可以快速锁定数据所属的范畴。

在本实施例中，会预先为每一个待传输的数据流配置对应的标识信息，也会为配置每一个待传输的数据流与用于传输该数据流的逻辑管道(channel)对应关系，即多个数据流可以通过一个逻辑管道进行传输，也可以一个数据流就通过一个逻辑管道进行传输。此外，也可以预先为每一个逻辑管道配置该逻辑管道中传输的数据对应的Kafka集群中的主题(Topic)，其中，Kafka集群中可以缓存多个Topic的数据，每个Topic中用于存储一类消息，每个Topic还可以分为多个partition(消息分区)。

当网关集群接收到数据源发送的待传输的数据流时，该网关集群会对该接收到的数据流进行解析，以从该数据流中获取到该数据流的标识信息，并在获取到该标识信息后，会从预先创建的各个逻辑管道(channel)中选择与该数据标识相对应的逻辑管道来将该数据流写入至Kafka集群中与所述逻辑管道对应的主题(Topic)中。

在一示例性的实施方式中，为了使得网关集群可以将接收到的数据流选择对应的逻辑通道进行传输，以及所述Flink集群可以将消费到的数据流分发至对应的终端，参照图3，在本实施例中，所述流式数据传输***还包括数据传输管理模块，所述数据传输方法还包括：

步骤S30，所述数据传输管理模块根据用户对所述数据流的配置信息生成所述数据流的元数据信息，并将所述元数据信息保存至预设的数据库中，其中，所述元数据信息包括所述标识信息，所述数据流对应的逻辑管道信息以及所述数据流分发的终端信息。

具有地，用户可以通过数据传输管理模块提供的配置界面来对数据流进行配置。在一实施方式中，用户可以为该数据流配置产生该数据流的部门信息，产出该数据流的项目信息，以及产生该数据流的业务信息。在本实施例中，用户还可以为该数据流配置数据优先级信息、数据重要性信息、数据价值信息、数据流传输的管道信息，数据流分发的终端信息等等。在另一实施方式中，用户还可以对该数据流中的数据的schema(数据库的组织与结构)信息进行配置，如字段、类型、必填与否等信息，schema可以用于数据的分析和评估操作。

在本实施例中，在用户对数据流完成配置之后，该数据传输管理模块即可以根据用户的配置信息来生成所述数据流的元数据信息。

其中，该元数据信息中包含的数据流的标识信息可以根据用户为该数据流所配置的部门信息、项目信息及业务信息进行生成，比如，可以将用户为该数据流配置的部门信息作为该数据流的标识信息，也可以将用户为该数据流配置的业务信息作为该数据流的标识信息，可以将用户为该数据流配置的项目信息作为该数据流的标识信息，或者可以将用户为该数据流配置的部门信息、项目信息及业务信息中的至少两者的组合作为该数据流的标识信息。

其中，该元数据信息中包含的逻辑管道信息为用于确定传输该数据流的管道，比如，该逻辑管道信息为管道A，则在需要将该数据流写入至Kafka集群中与所述逻辑管道对应的主题中时，则网关集群会选择管道A来传输该数据流。

其中，该元数据信息中包含的分发终端信息为用于确定该数据流需要分发的终端，比如，该分发终端信息包括Hbase、ES，则表明该数据流需要分发至Hbase终端与ES终端中。

在本实施例中，数据传输管理模块在生成所述数据流的元数据信息后，会将该元数据信息存储至预设的数据库中。其中，所述预设的数据库为预先设定的数据库，该数据库可以为Mysql数据库，也可以为其他类型的数据库，比如，oracle数据库。

步骤S31，所述数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题。

具体地，在将所述元数据信息保存至数据库之后，为了使得数据流可以写入至Kafka集群中，所述数据传输管理模块还会控制Kafka集群在其中创建用于存储该逻辑管道中的数据流的主题(Topic)，这样，当网关集群接收到数据流之后，即可以将该数据流通过逻辑管道写入至该逻辑管道对应的主题(Topic)中。在本实施例中，Kafka集群中的一个Topic对应一个逻辑管道，不同的逻辑管道对应的Kafka集群中的Topic不同。

本实施例通过根据配置信息生成所述数据流的元数据信息，以便后续在对该数据流进行传输时，可以将该数据流通过对应的逻辑管道写入至Kafka集群中，并可以通过Flink集群将该数据流分发至对应的终端。

在一示例性的实施例例中，为了避免用户对所述数据流的配置出现问题，进而导致Kafka集群创建的与所述逻辑管道对应的主题出错，参照图4，在本实施例，所述数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题包括：

步骤S40，所述数据传输管理模块将所述元数据信息发送给管理员，以使所述管理员对所述元数据信息进行审批；

步骤S41，所述管理员在审批通过后，所述数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题。

具体地，本实施例中通过将该数据流对应的元数据信息先发给管理员，以便管理员可以对该元数据信息进行审核，以审核该元数据信息是否存在问题，比如，该元数据信息中的部门信息是否正确，该元数据信息中的业务信息是否正确等。在管理员对该元数据信息的审核通过后，该数据传输管理模块即可以控制所述Kafka集群创建与所述逻辑管道对应的主题(Topic)。在一实施方式中，该数据传输模块可以发送该主题对应的名称信息TopicA给所述Kafka集群，所述Kafka集群在接收到该名称信息后，即可以创建一个名称信息为TopicA的主题(Topic)。在管理员对该元数据信息的审核为不通过时，则可以发送提示信息以提供用户该对数据流进行重新配置。此外，在管理员对该元数据信息的审核为不通过时，还可以将数据库中存储的该数据流对应的元数据信息进行删除，以节省存储空间。

在一示例性的实施方式中，为了使得网关集群在接收到待传的数据流之后，可以及时选择对应的逻辑通道来传输该数据流，在本实施例中，所述数据传输方法还包括：

具体地，网关集群会实时或者定时对所述数据库存储的元数据信息进行检测，以检测数据库中是否有新的标识信息，并在检测到新的标识信息之后，创建与该新的标识信息相对应的逻辑管道，这样，当存在携带有该标识信息的数据流需要传输时，该网关集群即可以立即选择与该数据标识对应的逻辑管道来传输该数据流，而无需再创建逻辑管道，从而可以节省数据流的传输时间。

在一实施方式中，由于多个数据流可能会同时采用同一个逻辑管道进行传输，因此，在本实施例中，在根据该新的标识信息创建对应的逻辑管道之前，还需要查询对该数据流所配置的逻辑管道信息，然后根据该逻辑管道信息查询网格集群中是否已经创建有与该逻辑管道信息相对应的逻辑管道，若已创建，则在检测到新的标识信息之后，则无需再重新创建与该新的标识信息相对应的逻辑管道。

步骤S21，所述Flink集群通过任务分发线程消费所述主题中的数据流，并将消费到的所述数据流分发至对应的终端中。

具体地，所述任务分发线程为一个用于从Kafka集群中消费缓存在对应主题(Topic)中的数据流的任务，每一个任务分发线程对应一个主题(Topic)，即每一个主题(Topic)在Flink集群中存在一个与其相对应的任务分发线程，通过该任务分发线程可以将该主题中缓存的数据流消费出来。在具体应用中，该任务分发线程为Flink集群中的一个Flink job。

在本实施例中，在消费到所述主题中缓存的数据流之后，该任务分发线程还会将该数据流分发至对应的终端中。其中，该对应的终端可以根据该消费到的数据流进行确定。具体地，每一个数据流中都会预先配置该数据流需要分发的终端，这样，在消费到该数据流之后，可以查询该数据流预先配置的分发终端，然后可以根据查询到的分发终端将该数据流分发至查找到的终端中。

本实施例通过将不同类别的数据流分别通过不同的逻辑管道写入至Kafka集群中与所述逻辑管道对应的主题(Topic)中，从而实现不同数据流之间的隔离，避免不同数据流之间的传输影响，提高数据流传输的准确率。

在一示例性的实施方式中，为了可以及时了解各个逻辑管道的传输质量，在本实施例中，所述方法还包括：

具体地，所述监测模块用于对逻辑管道的传输质量进行监测，其中，所述传输质量包括数据丢失率、传输延迟、接收数据量、分发数据量等。

在一实施方式中，该监测模块可以为一个“哨兵”。

在本实施例中，每一个逻辑管道都具有一个与其相关联的监测模块。

在一示例性的实施方式中，参照图5，通过所述监测模块监测所述逻辑管道的传输质量包括：

步骤S50，所述监测模块定时生成第一测试数据，并将所述测试数据通过所述逻辑管道写入至Kafka集群中与所述逻辑管道对应的主题中。

步骤S51，所述监测模块对所述Flink集群通过任务分发线程消费到的第二测试数据与所述第一测试数据进行分析，并根据分析结果确定所述逻辑管道的传输质量。

具体地，所述第一测试数据为用于测试逻辑管道传输质量的数据，该第一测试数据中包含有测试标记，以便可以与数据流中的其他数据进行区分。所述第二测试数据为Flink集群通过任务分发线程对缓存至该所述主题(Topic)中的第一测试数据进行消费后得到的数据。

在本实施例中，监测模块可以定时生成该第一测试数据，比如，每隔一分钟生成200条第一测试数据，在生成该第一测试数据后，该监测模块会将该第一测试数据通过所述逻辑管道将其写入至Kafka集群中与所述逻辑管道对应的主题(Topic)中。

在将该第一测试数据写入至Kafka集群中与所述逻辑管道对应的主题(Topic)中后，Flink集群会通过任务分发线程对缓存至该所述主题(Topic)中的第一测试数据进行消费，以从Kafka集群中得到所述第二测试数据。在得到该第二测试数据之后，Flink集群会将该第二测试数据发送给监测模块，以便该监测模块可以对该第一测试数据与第二测试数据进行分析，比如，监测模块会对该第一测试数据与第二测试数据进行比较，以确定该第一测试数据与第二测试数据是否相同，并在该第一测试数据与第二测试数据全部相同时，判断所述逻辑管道的传输质量较好；在该第一测试数据与第二测试数据不完全相同时，则可以断所述逻辑管道的传输质量一般，此外，还可以根据第一测试数据与第二测试数据中不完全相同的数据数量来确定该逻辑管道的数据丢失率，比如，该第一测试数据包括100条数据，该第二测试数据中与该第一测试数据完全相同的数据有98条，则可以确定该逻辑管道的数据丢失率为：(100-98)/100＝2％。

在另一实施方式中，该监测模块还可以对该第一测试数据的发送时间戳与该消费到该第二测试数据的时间戳进行分析，以根据两者的时间戳之差来确定该逻辑管道的传输延迟。

本实施例通过监测模块对逻辑管道的传输质量进行监测，从而可以在监测到逻辑管道的传输质量较差时，可以及时通知用户对该逻辑管道进行检测。

在一示例性的实施例中，所述数据传输方法还包括：

具体地，所述分发速度为所述任务分发线程在单位时间内所分发的数据量，比如为每秒钟分发的数据量。所述预设阈值为预先设定的，比如，该预设阈值为20M/s。

在本实施例中，数据传输管理模块会实时或者定时对任务分发线程分发数据流的分发速度进行监测，并在监测到该任务分发线程分发数据流的分发速度小于预设阈值时，为了避免数据流不能及时分发至对应的终端，所述数据传输管理模块会分配额外的处理资源给该任务分发线程，以便该任务分发线程可以提高对数据流的分发速度。其中，该处理资源为CPU，比如，在调整之前，任务分发线程调用5个CPU对所述数据流进行分发，则在检测到任务分发线程的分发速度低于预设阈值时，则数据传输管理模块可以调用额外的CPU给该任务分发线程，比如，再调用2个CPU给该任务分发线程。需要说明的是，在本实施例中具体额外分配的处理资源可以根据该任务分发线程当前的分发速度进行确定，该任务分发线程当前的分发速度越低时，额外分配的处理资源会越多。

图6示出了根据本申请实施例的数据传输***的框图，该数据传输***600可以包括：由网关集群601组成的数据传输层、由Kafka集群602组成的数据缓存层、由Flink集群603组成的数据分发层、及由多个终端604组成的数据存储层，其中，

所述网关集群601，用于接收待传输的数据流，并根据所述数据流的标识信息选择对应的逻辑管道将所述数据流写入至Kafka集群602中与所述逻辑管道对应的主题中。

所述数据流可以是由一批基于HTTP(S)、RPC等各类协议的数据组成的，所述数据流中的数据都携带有所述数据流的标识信息(logId)，该标识信息用于唯一区分不同数据流，该标识信息可以通过三段式语义(如，部门+项目+业务)进行定义，以便可以快速锁定数据所属的范畴。

在本实施例中，会预先为每一个待传输的数据流配置对应的标识信息，也会为配置每一个待传输的数据流与用于传输该数据流的逻辑管道(channel)对应关系，即多个数据流可以通过一个逻辑管道进行传输，也可以一个数据流就通过一个逻辑管道进行传输。此外，也可以预先为每一个逻辑管道配置该逻辑管道中传输的数据对应的Kafka集群602中的主题(Topic)，其中，Kafka集群602中可以缓存多个Topic的数据，每个Topic中用于存储一类消息，每个Topic还可以分为多个partition(消息分区)。

当网关集群601接收到数据源发送的待传输的数据流时，该网关集群601会对该接收到的数据流进行解析，以从该数据流中获取到该数据流的标识信息，并在获取到该标识信息后，会从预先创建的各个逻辑管道(channel)中选择与该数据标识相对应的逻辑管道来将该数据流写入至Kafka集群602中与所述逻辑管道对应的主题(Topic)中。

在一示例性的实施方式中，为了使得网关集群601可以将接收到的数据流选择对应的逻辑通道进行传输，以及所述Flink集群603可以将消费到的数据流分发至对应的终端，所述流式数据传输***还包括数据传输管理模块605。

所述数据传输管理模块605，用于根据用户对所述数据流的配置信息生成所述数据流的元数据信息，并将所述元数据信息保存至预设的数据库中，其中，所述元数据信息包括所述标识信息，所述数据流对应的逻辑管道信息以及所述数据流分发的终端信息。

具有地，用户可以通过数据传输管理模块605提供的配置界面来对数据流进行配置。在一实施方式中，用户可以为该数据流配置产生该数据流的部门信息，产出该数据流的项目信息，以及产生该数据流的业务信息。在本实施例中，用户还可以为该数据流配置数据优先级信息、数据重要性信息、数据价值信息、数据流传输的管道信息，数据流分发的终端信息等等。在另一实施方式中，用户还可以对该数据流中的数据的schema(数据库的组织与结构)信息进行配置，如字段、类型、必填与否等信息，schema可以用于数据的分析和评估操作。

在本实施例中，在用户对数据流完成配置之后，该数据传输管理模块605即可以根据用户的配置信息来生成所述数据流的元数据信息。

其中，该元数据信息中包含的逻辑管道信息为用于确定传输该数据流的管道，比如，该逻辑管道信息为管道A，则在需要将该数据流写入至Kafka集群602中与所述逻辑管道对应的主题中时，则网关集群601会选择管道A来传输该数据流。

在本实施例中，数据传输管理模块605在生成所述数据流的元数据信息后，会将该元数据信息存储至预设的数据库中。其中，所述预设的数据库为预先设定的数据库，该数据库可以为Mysql数据库，也可以为其他类型的数据库，比如，oracle数据库。

所述数据传输管理模块605，还用于控制所述Kafka集群602创建与所述逻辑管道对应的主题。

具体地，在将所述元数据信息保存至数据库之后，为了使得数据流可以写入至Kafka集群602中，所述数据传输管理模块605还会控制Kafka集群602在其中创建用于存储该逻辑管道中的数据流的主题(Topic)，这样，当网关集群601接收到数据流之后，即可以将该数据流通过逻辑管道写入至该逻辑管道对应的主题(Topic)中。在本实施例中，Kafka集群602中的一个Topic对应一个逻辑管道，不同的逻辑管道对应的Kafka集群602中的Topic不同。

本实施例通过根据配置信息生成所述数据流的元数据信息，以便后续在对该数据流进行传输时，可以将该数据流通过对应的逻辑管道写入至Kafka集群602中，并可以通过Flink集群603将该数据流分发至对应的终端。

在一示例性的实施例例中，为了避免用户对所述数据流的配置出现问题，进而导致Kafka集群602创建的与所述逻辑管道对应的主题出错，所述数据传输管理模块605，还用于将所述元数据信息发送给管理员，以使所述管理员对所述元数据信息进行审批；

所述管理员在审批通过后，所述数据传输管理模块605，还用于控制所述Kafka集群602创建与所述逻辑管道对应的主题。

具体地，本实施例中通过将该数据流对应的元数据信息先发给管理员，以便管理员可以对该元数据信息进行审核，以审核该元数据信息是否存在问题，比如，该元数据信息中的部门信息是否正确，该元数据信息中的业务信息是否正确等。在管理员对该元数据信息的审核通过后，该数据传输管理模块605即可以控制所述Kafka集群602创建与所述逻辑管道对应的主题(Topic)。在一实施方式中，该数据传输模块可以发送该主题对应的名称信息TopicA给所述Kafka集群602，所述Kafka集群602在接收到该名称信息后，即可以创建一个名称信息为TopicA的主题(Topic)。在管理员对该元数据信息的审核为不通过时，则可以发送提示信息以提供用户该对数据流进行重新配置。此外，在管理员对该元数据信息的审核为不通过时，还可以将数据库中存储的该数据流对应的元数据信息进行删除，以节省存储空间。

在一示例性的实施方式中，为了使得网关集群601在接收到待传的数据流之后，可以及时选择对应的逻辑通道来传输该数据流，所述网关集群601，还用于检测所述数据库中存储的元数据信息中是否存在新的标识信息，并在检测到存在新的标识信息时，创建与所述新的标识信息对应的逻辑管道。

具体地，网关集群601会实时或者定时对所述数据库存储的元数据信息进行检测，以检测数据库中是否有新的标识信息，并在检测到新的标识信息之后，创建与该新的标识信息相对应的逻辑管道，这样，当存在携带有该标识信息的数据流需要传输时，该网关集群601即可以立即选择与该数据标识对应的逻辑管道来传输该数据流，而无需再创建逻辑管道，从而可以节省数据流的传输时间。

所述Flink集群603，用于通过任务分发线程消费所述主题中的数据流，并将消费到的所述数据流分发至对应的终端中。

具体地，所述任务分发线程为一个用于从Kafka集群602中消费缓存在对应主题(Topic)中的数据流的任务，每一个任务分发线程对应一个主题(Topic)，即每一个主题(Topic)在Flink集群603中存在一个与其相对应的任务分发线程，通过该任务分发线程可以将该主题中缓存的数据流消费出来。在具体应用中，该任务分发线程为Flink集群中的一个Flink job。

本实施例通过将不同类别的数据流分别通过不同的逻辑管道写入至Kafka集群602中与所述逻辑管道对应的主题(Topic)中，从而实现不同数据流之间的隔离，避免不同数据流之间的传输影响，提高数据流传输的准确率。

在一示例性的实施方式中，为了可以及时了解各个逻辑管道的传输质量，在本实施例中，所述数据传输管理模块605，还用于创建与所述逻辑管道关联的监测模块，并通过所述监测模块监测所述逻辑管道的传输质量。

具体地，所述监测模块用于对逻辑管道的传输质量进行监测，其中，所述传输质量包括数据丢失率、传输延迟、接收数据量、分发数据量等。在一实施方式中，该监测模块可以为一个“哨兵”。

在一示例性的实施方式中，通过所述监测模块监测所述逻辑管道的传输质量包括：所述监测模块定时生成第一测试数据，并将所述测试数据通过所述逻辑管道写入至Kafka集群602中与所述逻辑管道对应的主题中；所述监测模块对所述Flink集群603通过任务分发线程消费到的第二测试数据与所述第一测试数据进行分析，并根据分析结果确定所述逻辑管道的传输质量。

具体地，所述第一测试数据为用于测试逻辑管道传输质量的数据，该第一测试数据中包含有测试标记，以便可以与数据流中的其他数据进行区分。所述第二测试数据为Flink集群603通过任务分发线程对缓存至该所述主题(Topic)中的第一测试数据进行消费后得到的数据。

在本实施例中，监测模块可以定时生成该第一测试数据，比如，每隔一分钟生成200条第一测试数据，在生成该第一测试数据后，该监测模块会将该第一测试数据通过所述逻辑管道将其写入至Kafka集群602中与所述逻辑管道对应的主题(Topic)中。

在将该第一测试数据写入至Kafka集群602中与所述逻辑管道对应的主题(Topic)中后，Flink集群603会通过任务分发线程对缓存至该所述主题(Topic)中的第一测试数据进行消费，以从Kafka集群602中得到所述第二测试数据。在得到该第二测试数据之后，Flink集群603会将该第二测试数据发送给监测模块，以便该监测模块可以对该第一测试数据与第二测试数据进行分析，比如，监测模块会对该第一测试数据与第二测试数据进行比较，以确定该第一测试数据与第二测试数据是否相同，并在该第一测试数据与第二测试数据全部相同时，判断所述逻辑管道的传输质量较好；在该第一测试数据与第二测试数据不完全相同时，则可以断所述逻辑管道的传输质量一般，此外，还可以根据第一测试数据与第二测试数据中不完全相同的数据数量来确定该逻辑管道的数据丢失率，比如，该第一测试数据包括100条数据，该第二测试数据中与该第一测试数据完全相同的数据有98条，则可以确定该逻辑管道的数据丢失率为：(100-98)/100＝2％。

在一示例性的实施例中，所述数据传输管理模块605，还用于监测所述任务分发线程对所述数据流的分发速度，并在监测到所述分发速度低于预设阈值时，分配额外的处理资源给所述任务分发线程。

在本实施例中，数据传输管理模块605会实时或者定时对任务分发线程分发数据流的分发速度进行监测，并在监测到该任务分发线程分发数据流的分发速度小于预设阈值时，为了避免数据流不能及时分发至对应的终端，所述数据传输管理模块605会分配额外的处理资源给该任务分发线程，以便该任务分发线程可以提高对数据流的分发速度。其中，该处理资源为CPU，比如，在调整之前，任务分发线程调用5个CPU对所述数据流进行分发，则在检测到任务分发线程的分发速度低于预设阈值时，则数据传输管理模块605可以调用额外的CPU给该任务分发线程，比如，再调用2个CPU给该任务分发线程。需要说明的是，在本实施例中具体额外分配的处理资源可以根据该任务分发线程当前的分发速度进行确定，该任务分发线程当前的分发速度越低时，额外分配的处理资源会越多。

图7示意性示出了根据本申请实施例的适于实现数据传输方法的计算机设备的硬件架构示意图。本实施例中，计算机设备20是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是网关等数据转发设备。如图7所示，计算机设备20至少包括但不限于：可通过***总线相互通信连接存储器21、处理器22、网络接口23。其中：

存储器21至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储模块，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(FlashCard)等。当然，存储器21还可以既包括计算机设备20的内部存储模块也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作***和各类应用软件，例如数据传输方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作，例如执行与计算机设备20进行数据交互或者通信相关的控制和处理等。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据。

网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在计算机设备20与其他计算机设备之间建立通信连接。例如，网络接口23用于通过网络将计算机设备20与外部终端相连，在计算机设备20与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(GlobalSystem of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图7仅示出了具有部件21-23的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的数据传输方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的数据传输方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作***和各类应用软件，例如实施例中的数据传输方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据传输方法，应用于流式数据传输***中，所述流式传输***包括由网关集群组成的数据传输层、由Kafka集群组成的数据缓存层、由Flink集群组成的数据分发层、及由多个终端组成的数据存储层，其特征在于，所述方法包括：

2.根据权利要求1所述的数据传输方法，其特征在于，所述流式数据传输***还包括数据传输管理模块，所述方法还包括：

3.根据权利要求2所述的数据传输方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的数据传输方法，其特征在于，所述数据传输管理模块控制所述Kafka集群创建与所述逻辑管道对应的主题包括：

5.根据权利要求1所述的数据传输方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的数据传输方法，其特征在于，所述通过所述监测模块监测所述逻辑管道的传输质量包括：

7.根据权利要求1所述的数据传输方法，其特征在于，所述方法还包括：

8.一种流式数据传输***，其特征在于，所述***包括：由网关集群组成的数据传输层、由Kafka集群组成的数据缓存层、由Flink集群组成的数据分发层、及由多个终端组成的数据存储层，其中，

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至7任一项所述数据传输方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现权利要求1至7任一项所述数据传输方法的步骤。