CN117149746B - 基于云原生和存算分离的数据仓库管理*** - Google Patents
基于云原生和存算分离的数据仓库管理*** Download PDFInfo
- Publication number
- CN117149746B CN117149746B CN202311412436.7A CN202311412436A CN117149746B CN 117149746 B CN117149746 B CN 117149746B CN 202311412436 A CN202311412436 A CN 202311412436A CN 117149746 B CN117149746 B CN 117149746B
- Authority
- CN
- China
- Prior art keywords
- transmission
- data
- layer
- data set
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 title abstract description 10
- 230000005540 biological transmission Effects 0.000 claims abstract description 220
- 238000004458 analytical method Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000007906 compression Methods 0.000 claims description 43
- 230000006835 compression Effects 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000004806 packaging method and process Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000007726 management method Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0894—Packet rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/36—Flow control; Congestion control by determining packet size, e.g. maximum transfer unit [MTU]
- H04L47/365—Dynamic adaptation of the packet size
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/38—Flow control; Congestion control by adapting coding or compression rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/508—Monitor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及数据仓库技术领域,尤其涉及一种基于云原生和存算分离的数据仓库管理***,包括用以采集数据的采集层,用以处理采集的所述数据并生成对应数据集的运算层,用以传输数据集的传输层,用以存储传输的所述数据集的存储层,用以检测数据信息的检测单元,用以根据传输速率判定单条传输通道是否符合预设标准的分析单元,以及用以根据所述分析单元判定的结果将***的运行参数调节至对应值的调节单元,提高了数据仓库的数据传输效率和稳定性。
Description
技术领域
本发明涉及数据仓库技术领域,尤其涉及一种基于云原生和存算分离的数据仓库管理***。
背景技术
信息技术与数据智能大环境下,数据仓库在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。存算分离是将数据存储和计算分离的架构设计,是数据仓库常用的架构设计,这种方式可以产生更少的数据迁移,降低机器间、机柜间的网络带宽消耗,有效解决了分散在各个弱连接的存储节点间的海量数据访问的困难。
在数据接入到数据仓库后,一般会经历从消息中心到采集通道再到数据仓库的数据存储集群的过程,如果高频地向数据仓库传输更新的数据,数据仓库为了满足应用需求也会被配置强大的计算能力,不断根据数据的更新进行运算,对数据结果进行及时更新,从而导致数据仓库本身容易出现结构混乱并且数据传输出现阻塞,最终导致数据传输效率和稳定性都无法满足运行需求。
发明内容
为此,本发明提供一种基于云原生和存算分离的数据仓库管理***,用以克服现有技术中高频地向数据仓库传输更新的数据而出现数据仓库结构混乱并且数据传输出现阻塞,进而影响数据传输效率和稳定性的问题。
为实现上述目的,本发明提供一种基于云原生和存算分离的数据仓库管理***,包括:
采集层,用以采集数据,其设置有若干采集终端;
运算层,其与所述采集层相连,用以处理采集的所述数据并生成对应数据集,所述处理的方式为分类、分包以及压缩;
传输层,其与所述运算层相连,包括若干条用以传输数据集的传输通道;
存储层,其与所述传输层相连,用以存储传输的所述数据集,包括设置有若干子库的数据仓库和用以调度子库的调度单元;
检测单元,其分别与所述采集层、所述运算层、所述传输层以及所述存储层相连,用以检测数据信息,所述数据信息包括传输通道的传输速率和数据集大小;
分析单元,其与所述检测单元相连,用以根据测得的传输速率判定单条传输通道在不符合预设标准时将该传输速率对应的数据集标记为一类数据集,或基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定;
调节单元,其分别与所述分析单元,所述运算层,所述传输层和所述存储层相连,用以根据所述分析单元判定的结果将***的运行参数调节至对应值。
进一步地,所述分析单元在第一预设条件下基于单条传输通道的传输速率在判定该传输通道的传输不符合预设标准时将该传输速率对应的数据集标记为一类数据集,或基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定;所述第一预设条件为所述***开始运行且所述存储层接收到所述数据集。
进一步地,按照公式计算所述历史传输评价值C,设定
式中,a为评价系数,设定a=0.45,为单条传输通道的额定传输速率,/>为单次传输速率波动周期内的谷值,i=(1...n),其中n为预设时长内检测到的传输速率波动的次数。
进一步地,所述分析单元在第二预设条件下基于历史传输评价值C二次判定所述传输通道的传输不符合预设标准时,判定所述传输存在传输波动并将传输存在波动的数据集标记为二类数据集,或判定所述传输存在传输递减并将传输存在递减的数据集标记为一类数据集,所述分析单元控制所述调度单元调度新子库以完成该数据集的存储;所述第二预设条件为所述分析单元完成所述历史传输评价值的计算。
进一步地,所述分析单元设置有基于所述传输递减的时长判定调度的所述新子库存储容量大小的若干调度方式,每种调度方式对于新子库存储容量大小的调度不同。
进一步地,所述分析单元在第三预设条件下基于各类数据集与传输的总数据集的占比判定所述传输层的传输不符合预设标准时,确定不符合预设标准的原因为运算层负载、所述运算层处理所述数据不合格和网络波动,
若原因为运算层负载,则基于一类数据集占比与第一预设一类占比的差值将所述运算层扩容至对应值,
若原因为运算层处理所述数据不合格,则基于传输的数据集大小的平均值判定运算层处理数据是否符合预设标准,
若原因为网络波动,则基于所述一类数据集占比与第二预设一类占比的差值将所述传输层的所述传输通道的带宽增加至对应值;
所述第三预设条件为所述分析单元完成所述传输层的所有传输通道的传输的判定。
进一步地,所述分析单元设置有针对运算层扩容的若干调节方式,且各调节方式对运算层扩容的调节幅度均不相同。
进一步地,所述分析单元基于传输的数据集大小的平均值判定所述运算层处理数据不符合预设标准时将所述运算层对数据的分包处理的分包长度降低至对应值,或将所述运算层对数据的压缩处理的压缩比减小至对应值。
进一步地,所述分析单元设置有针对所述分包长度的若干调节方式,且各调节方式对所述运算层对数据的分包处理的分包长度的调节幅度均不相同。
进一步地,所述分析单元设置有针对所述压缩比的若干调节方式,且各调节方式对所述运算层对数据的压缩处理的压缩比的调节幅度均不相同。
与现有技术相比,本发明的有益效果在于:本发明设置了用以采集数据的采集层,用以处理采集的所述数据并生成对应数据集的运算层,用以传输数据集的传输层,用以存储传输的所述数据集的存储层,用以检测数据信息的检测单元,用以根据传输速率判定单条传输通道是否符合预设标准的分析单元,以及用以根据所述分析单元判定的结果将***的运行参数调节至对应值的调节单元,提高了数据仓库的数据传输的效率。
进一步地,本发明通过传输速率初步判定该传输通道的传输是否符合预设标准,并在判定不符合预设标准时,基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定,或将该传输速率对应的数据集标记为一类数据集,初步完成了传输不达标时的判定和数据集标定。
进一步地,本发明设定了历史传输评价值,量化了二次判定的基准。
进一步地,本发明在完成二次判定后,完成对应数据集的标记,完成了传输不达标时的判定和数据集标定。
进一步地,当调度单元调度新子库以完成该数据集的存储时,基于所述传输递减的时长判定调度的所述新子库存储容量大小,从而实现字库的精准调度。
进一步地,本发明基于各类数据集与传输的总数据集的占比判定所述传输层的传输是否符合预设标准,并在不符合预设标准时判定出不符合标准的原因,从而对应的调整***运行的参数,保证了数据仓库的数据传输的效率。
进一步地,本发明在对所述运算层扩容时,设置有多种调节方式,且每种调节方式调节的幅度不同,实现了运算层精准扩容。
进一步地,本发明基于传输的数据集大小的平均值对所述运算层处理数据是否符合预设标准进行判定,解决了在出现运算层处理所述数据不合格时的对应处理方式的调节。
进一步地,本发明针对分包处理的分包长度和压缩处理的压缩比的调节,均设置有不同的调节方式,从而在对应状况下将其调节至对应值,实现了***运行数据的精准调节,从而优化了***的运行,保证了数据传输效率和稳定性。
附图说明
图1为本发明实施例基于云原生和存算分离的数据仓库管理***的示意图;
图2为本发明实施例单条传输通道的传输是否符合预设标准的判定的流程图;
图3为本发明实施例传输层的传输是否符合预设标准的判定的流程图;
图4为本发明实施例压缩比的调节方式的流程图。
实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
需要指出的是在本实施例中的数据均为通过本发明所述***在进行本次运行前三个月的历史检测数据以及对应的历史检测结果中综合分析评定得出。本发明所述分析单元在本次判定前根据前三个月中累计进行的124420次数据的处理综合确定针对本次***运行的各项预设参数标准的数值。本领域的技术人员可以理解的是,本发明所述***针对单项上述参数的确定方式可以为根据数据分布选取占比最高的数值作为预设标准参数、使用加权求和以将求得的数值作为预设标准参数、将各历史数据代入至特定公式并将利用该公式求得的数值作为预设标准参数或其他选取方式,只要满足本发明所述***能够通过获取的数值明确界定单项判定过程中的不同特定情况即可。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
请参阅图1、图2、图3以及图4所示,其分别本发明实施例基于云原生和存算分离的数据仓库管理***的示意图;本发明实施例单条传输通道的传输是否符合预设标准的判定的流程图;本发明实施例传输层的传输是否符合预设标准的判定的流程图;本发明实施例压缩比的调节方式的流程图。
本发明实施例基于云原生和存算分离的数据仓库管理***,包括:
采集层,用以采集数据,其设置有若干采集终端,采集终端例如二维码扫码器,具体不做限定,用以采集数据。
运算层,其与所述采集层相连,用以处理采集的所述数据并生成对应数据集,所述处理的方式为分类、分包以及压缩;
传输层,其与所述运算层相连,包括若干条用以传输数据集的传输通道;
存储层,其与所述传输层相连,用以存储传输的所述数据集,包括设置有若干子库的数据仓库和用以调度子库的调度单元;
检测单元,其分别与所述采集层、所述运算层、所述传输层以及所述存储层相连,用以检测数据信息,所述数据信息包括传输通道的传输速率和数据集大小;
分析单元,其与所述检测单元相连,用以根据测得的所述传输速率判定单条传输通道在不符合预设标准时将该传输速率对应的数据集标记为一类数据集,或基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定;
调节单元,其分别与所述分析单元,所述运算层,所述传输层和所述存储层相连,用以根据所述分析单元判定的结果将***的运行参数调节至对应值。
具体而言,所述分析单元在第一预设条件下控制所述检测单元实时检测所述传输层中所述传输通道的传输速率,针对单条传输通道,分析单元基于该传输通道的传输速率确定针对该传输通道的传输是否符合预设标准的判定,其中,
第一判定为所述分析单元判定所述传输通道的传输不符合预设标准,并将该传输速率对应的数据集标记为一类数据集;所述第一判定满足所述传输速率小于第一预设传输速率12.50MB/s;
第二判定为所述分析单元判定所述传输通道的传输不符合预设标准,并基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定;所述第二判定满足所述传输速率大于等于所述第一预设传输速率且小于第二预设传输速率13.00MB/s;
第三判定为所述分析单元判定所述传输通道的传输符合预设标准,并按照当前的传输方式传输所述数据集;所述第三判定满足所述传输速率大于等于所述第二预设传输速率;
所述第一预设条件为所述***开始运行且所述存储层接收到所述数据集。
具体而言,按照公式计算所述历史传输评价值C,设定
式中,a为评价系数,设定a=0.45,为单条传输通道的额定传输速率,/>为单次传输速率波动周期内的谷值,i=(1...n),其中n为预设时长内检测到的传输速率波动的次数。
具体而言,所述分析单元在第二预设条件下基于历史传输评价值对所述传输通道的传输是否符合预设标准进行二次判定,其中,
第一二次判定为所述分析单元判定所述传输通道的传输符合预设标准,并按照当前的传输方式传输所述数据集;所述第一二次判定满足所述历史传输评价值小于第一预设评价值1.54;
第二二次判定为所述分析单元判定所述传输通道的传输不符合预设标准,并判定所述传输存在传输波动,所述分析单元将传输存在波动的数据集标记为二类数据集;所述第二二次判定满足所述历史传输评价值大于等于所述第一预设评价值且小于第二预设评价值6.33;
第三二次判定为所述分析单元判定所述传输通道的传输不符合预设标准,并判定所述传输存在传输递减,所述分析单元将传输存在递减的数据集标记为一类数据集,并控制所述调度单元调度新子库以完成该数据集的存储;
所述第二预设条件为所述分析单元完成所述历史传输评价值的计算。
具体而言,所述分析单元在第三二次判定下基于所述传输递减的时长判定调度的所述新子库存储容量大小,其中,
第一调度方式为所述分析单元使用第一预设调度系数1.10与原子库存储容量的乘积确定新子库的存储容量,并筛选该存储容量的新子库以完成所述数据集的存储;所述第一调度方式满足所述传输递减的时长小于第一预设时长4.50s;
第二调度方式为所述分析单元使用第二预设调度系数1.20与原子库存储容量的乘积确定新子库的存储容量,并筛选该存储容量的新子库以完成所述数据集的存储;所述第二调度方式满足所述传输递减的时长大于等于所述第一预设时长且小于第二预设时长13.35s;
第三调度方式为所述分析单元使用第三预设调度系数1.40与原子库存储容量的乘积确定新子库的存储容量,并筛选该存储容量的新子库以完成所述数据集的存储;所述第三调度方式满足所述传输递减的时长大于等于所述第二预设时长。
具体而言,所述分析单元在第三预设条件下基于各类数据集与传输的总数据集的占比确定针对所述传输层的传输是否符合预设标准的判定,其中,
第一传输判定为所述分析单元判定所述传输层的传输符合预设标准,并按照当前的传输方式传输所述数据集;所述第一传输判定满足所述一类数据集占比小于第一预设一类占比12%且所述二类数据集占比小于第一预设二类占比20%;
第二传输判定为所述分析单元判定所述传输层的传输不符合预设标准且不符合预设标准的原因为运算层负载,分析单元基于所述一类数据集占比与所述第一预设一类占比的差值将所述运算层扩容至对应值;所述第二传输判定满足所述一类数据集占比大于等于所述第一预设一类占比12%且小于第二预设一类占比45%,以及所述二类数据集占比小于所述第一预设二类占比20%;
第三传输判定为所述分析单元判定所述传输层的传输不符合预设标准且不符合预设标准的原因为所述运算层处理所述数据不合格,分析单元基于传输的数据集大小的平均值确定针对运算层处理数据是否符合预设标准的判定;所述第三传输判定满足所述二类数据集占比大于等于所述第一预设二类占比20%且小于第二预设二类占比50%,以及所述一类数据集占比小于所述第一预设一类占比12%;
第四传输判定为所述分析单元判定所述传输层的传输不符合预设标准且不符合预设标准的原因为网络波动,分析单元基于所述一类数据集占比与所述第二预设一类占比的差值将所述传输层的所述传输通道的带宽增加至对应值;所述第四传输判定满足所述一类数据集占比大于等于第二预设一类占比45%或所述二类数据集占比大于等于所述第二预设二类占比50%;
所述第三预设条件为所述分析单元完成所述传输层的所有传输通道的传输的判定。
具体而言,所述分析单元在所述第二传输判定下计算所述一类数据集占比与所述第一预设一类占比的差值,并将该差值记为扩容差值,所述调节单元根据扩容差值确定针对所述运算层扩容的调节方式,其中,
第一扩容调节方式为所述调节单元使用第一预设扩容系数1.01将所述运算层扩容至对应值;所述第一扩容调节方式满足所述扩容差值小于第一预设扩容差值8.30;
第二扩容调节方式为所述调节单元使用第二预设扩容系数1.04将所述运算层扩容至对应值;所述第二扩容调节方式满足所述扩容差值大于等于所述第一预设扩容差值且小于第二预设扩容差值20.28;
第三扩容调节方式为所述调节单元使用第三预设扩容系数1.08将所述运算层扩容至对应值;所述第三扩容调节方式满足所述扩容差值大于等于所述第二预设扩容差值。
具体而言,所述分析单元在所述第三传输判定下基于传输的数据集大小的平均值确定针对所述运算层处理数据是否符合预设标准的判定,其中
第一处理判定为所述运算层处理数据不符合预设标准,并基于预设平均值与所述数据集大小的平均值之间的差值将所述运算层对数据的分包处理的分包长度降低至对应值;所述第一处理判定满足所述数据集大小的平均值小于所述预设平均值1.52B;
第二处理判定为所述运算层处理数据不符合预设标准,基于所述数据集大小的平均值与所述预设平均值之间的差值将所述运算层对数据的压缩处理的压缩比减小至对应值;所述一处理判定满足所述数据集大小的平均值大于等于所述预设平均值;
具体而言,所述分析单元在所述第一处理判定下计算所述预设平均值与所述数据集大小的平均值之间的差值,并将该差值记为分包差值,所述调节单元根据分包差值确定针对所述运算层对数据的分包处理的分包长度的调节方式,其中,
第一分包调节方式为所述调节单元使用第一预设分包调节系数0.98将所述分包长度降低至对应值;所述第一分包调节方式满足所述分包差值小于第一预设分包差值0.14;
第二分包调节方式为所述调节单元使用第二预设分包调节系数0.95将所述分包长度降低至对应值;所述第二分包调节方式满足所述分包差值大于等于所述第一预设分包差值且小于第二预设分包差值0.37;
第三分包调节方式为所述调节单元使用第三预设分包调节系数0.90将所述分包长度降低至对应值;所述第三分包调节方式满足所述分包差值大于等于所述第二预设分包差值。
具体而言,所述分析单元在所述第二处理判定下计算所述数据集大小的平均值与所述预设平均值之间的差值,并将该差值记为压缩差值,所述调节单元根据压缩差值确定针对所述运算层对数据的压缩处理的压缩比的调节方式,其中,
第一压缩调节方式所述调节单元使用第一预设压缩调节系数0.96将所述压缩比减小至对应值;所述第一压缩调节方式满足所述压缩差值小于第一预设压缩差值0.22;
第二压缩调节方式所述调节单元使用第二预设压缩调节系数0.92将所述压缩比减小至对应值;所述第二压缩调节方式满足所述压缩差值大于等于所述第一预设压缩差值且小于第二预设压缩差值0.49;
第三压缩调节方式所述调节单元使用第三预设压缩调节系数0.83将所述压缩比减小至对应值;所述第三压缩调节方式满足所述压缩差值大于等于所述第二预设压缩差值。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于云原生和存算分离的数据仓库管理***,其特征在于,包括:
采集层,用以采集数据,其设置有若干采集终端;
运算层,其与所述采集层相连,用以处理采集的所述数据并生成对应数据集,所述处理的方式为分类、分包以及压缩;
传输层,其与所述运算层相连,包括若干条用以传输数据集的传输通道;
存储层,其与所述传输层相连,用以存储传输的所述数据集,包括设置有若干子库的数据仓库和用以调度子库的调度单元;
检测单元,其分别与所述采集层、所述运算层、所述传输层以及所述存储层相连,用以检测数据信息,所述数据信息包括传输通道的传输速率和数据集大小;
分析单元,其与所述检测单元相连,用以根据测得的传输速率判定单条传输通道在不符合预设标准时将该传输速率对应的数据集标记为一类数据集,或基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定:在所述单条传输速率小于第一预设传输速率时判定将该传输速率对应的数据集标记为一类数据集,以及,在所述传输速率大于等于所述第一预设传输速率且小于第二预设传输速率时判定基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定;
所述分析单元基于历史传输评价值C二次判定所述传输通道的传输不符合预设标准时,判定所述传输存在传输波动并将传输存在波动的数据集标记为二类数据集,或判定所述传输存在传输递减并将传输存在递减的数据集标记为一类数据集,所述分析单元控制所述调度单元调度新子库以完成该数据集的存储;在所述历史传输评价值大于等于第一预设评价值且小于第二预设评价值时判定标记二类数据集;
调节单元,其分别与所述分析单元,所述运算层,所述传输层和所述存储层相连,用以在所述分析单元基于各类数据集与传输的总数据集的占比判定运算层负载时将所述运算层扩容至对应值,判定网络波动时将所述传输通道的带宽增加至对应值,以及,判定运算层处理所述数据不合格时将运算层对数据的分包处理的分包长度降低至对应值,或将所述运算层对数据的压缩处理的压缩比减小至对应值;
所述历史传输评价值C,设定,式中,a为评价系数,设定a=0.45,/>为单条传输通道的额定传输速率,/>为单次传输速率波动周期内的谷值,i=(1...n),其中n为预设时长内检测到的传输速率波动的次数。
2.根据权利要求1所述的基于云原生和存算分离的数据仓库管理***,其特征在于,所述分析单元设置有基于所述传输递减的时长判定调度的所述新子库存储容量大小的若干调度方式,每种调度方式对于新子库存储容量大小的调度不同。
3.根据权利要求2所述的基于云原生和存算分离的数据仓库管理***,其特征在于,所述分析单元在第三预设条件下基于各类数据集与传输的总数据集的占比判定所述传输层的传输不符合预设标准时,确定不符合预设标准的原因为运算层负载、所述运算层处理所述数据不合格和网络波动,
若原因为运算层负载,则基于一类数据集占比与第一预设一类占比的差值将所述运算层扩容至对应值,
若原因为运算层处理所述数据不合格,则基于传输的数据集大小的平均值判定运算层处理数据是否符合预设标准,
若原因为网络波动,则基于所述一类数据集占比与第二预设一类占比的差值将所述传输层的所述传输通道的带宽增加至对应值;
所述第三预设条件为所述分析单元完成所述传输层的所有传输通道的传输的判定。
4.根据权利要求3所述的基于云原生和存算分离的数据仓库管理***,其特征在于,所述分析单元设置有针对运算层扩容的若干调节方式,且各调节方式对运算层扩容的调节幅度均不相同。
5.根据权利要求4所述的基于云原生和存算分离的数据仓库管理***,其特征在于,所述分析单元基于传输的数据集大小的平均值判定所述运算层处理数据不符合预设标准时将所述运算层对数据的分包处理的分包长度降低至对应值,或将所述运算层对数据的压缩处理的压缩比减小至对应值。
6.根据权利要求5所述的基于云原生和存算分离的数据仓库管理***,其特征在于,所述分析单元设置有针对所述分包长度的若干调节方式,且各调节方式对所述运算层对数据的分包处理的分包长度的调节幅度均不相同。
7.根据权利要求6所述的基于云原生和存算分离的数据仓库管理***,其特征在于,所述分析单元设置有针对所述压缩比的若干调节方式,且各调节方式对所述运算层对数据的压缩处理的压缩比的调节幅度均不相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412436.7A CN117149746B (zh) | 2023-10-30 | 2023-10-30 | 基于云原生和存算分离的数据仓库管理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412436.7A CN117149746B (zh) | 2023-10-30 | 2023-10-30 | 基于云原生和存算分离的数据仓库管理*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117149746A CN117149746A (zh) | 2023-12-01 |
CN117149746B true CN117149746B (zh) | 2024-02-02 |
Family
ID=88884708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311412436.7A Active CN117149746B (zh) | 2023-10-30 | 2023-10-30 | 基于云原生和存算分离的数据仓库管理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117149746B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117880218B (zh) * | 2024-03-11 | 2024-05-10 | 中联云港数据科技股份有限公司 | 一种高算力网络资源调度*** |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009289258A (ja) * | 2008-04-30 | 2009-12-10 | Toshiba Corp | 事業活動分析評価システム及び事業活動分析評価プログラム |
WO2020125716A1 (zh) * | 2018-12-21 | 2020-06-25 | 中兴通讯股份有限公司 | 一种实现网络优化的方法及相关设备 |
CN112182048A (zh) * | 2020-09-11 | 2021-01-05 | 南方科技大学 | 数据标注方法、网络设备、终端、***及存储介质 |
WO2021012869A1 (zh) * | 2019-07-25 | 2021-01-28 | 广州市百果园信息技术有限公司 | 传输速率的确定方法、装置、设备和存储介质 |
CN113377832A (zh) * | 2021-06-08 | 2021-09-10 | 无锡美林数联科技有限公司 | 一种基于数据分析的物联网管理控制***及方法 |
CN114064359A (zh) * | 2021-11-12 | 2022-02-18 | 广州泳泳信息科技有限公司 | 一种跨平台多机房分布式数据库备份*** |
CN116132553A (zh) * | 2023-02-20 | 2023-05-16 | 武汉骏信达信息咨询有限公司 | 一种大数据传输优化方法及*** |
CN116150191A (zh) * | 2023-02-22 | 2023-05-23 | 上海威固信息技术股份有限公司 | 一种用于云端数据架构的数据运算加速方法及*** |
CN116228466A (zh) * | 2023-04-17 | 2023-06-06 | 国网黑龙江省电力有限公司齐齐哈尔供电公司 | 一种智能电网大数据分析*** |
CN116339975A (zh) * | 2023-02-10 | 2023-06-27 | 浙江仰天云信息技术有限公司 | 一种用于卷宗批量处理的协同服务器通信管理*** |
CN116708134A (zh) * | 2023-07-12 | 2023-09-05 | 韩山师范学院 | 基于流量控制的点对点网络传输*** |
CN116842240A (zh) * | 2023-08-30 | 2023-10-03 | 山东海博科技信息***股份有限公司 | 一种基于全链路治理管控的数据治理*** |
-
2023
- 2023-10-30 CN CN202311412436.7A patent/CN117149746B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009289258A (ja) * | 2008-04-30 | 2009-12-10 | Toshiba Corp | 事業活動分析評価システム及び事業活動分析評価プログラム |
WO2020125716A1 (zh) * | 2018-12-21 | 2020-06-25 | 中兴通讯股份有限公司 | 一种实现网络优化的方法及相关设备 |
WO2021012869A1 (zh) * | 2019-07-25 | 2021-01-28 | 广州市百果园信息技术有限公司 | 传输速率的确定方法、装置、设备和存储介质 |
CN112182048A (zh) * | 2020-09-11 | 2021-01-05 | 南方科技大学 | 数据标注方法、网络设备、终端、***及存储介质 |
CN113377832A (zh) * | 2021-06-08 | 2021-09-10 | 无锡美林数联科技有限公司 | 一种基于数据分析的物联网管理控制***及方法 |
CN114064359A (zh) * | 2021-11-12 | 2022-02-18 | 广州泳泳信息科技有限公司 | 一种跨平台多机房分布式数据库备份*** |
CN116339975A (zh) * | 2023-02-10 | 2023-06-27 | 浙江仰天云信息技术有限公司 | 一种用于卷宗批量处理的协同服务器通信管理*** |
CN116132553A (zh) * | 2023-02-20 | 2023-05-16 | 武汉骏信达信息咨询有限公司 | 一种大数据传输优化方法及*** |
CN116150191A (zh) * | 2023-02-22 | 2023-05-23 | 上海威固信息技术股份有限公司 | 一种用于云端数据架构的数据运算加速方法及*** |
CN116228466A (zh) * | 2023-04-17 | 2023-06-06 | 国网黑龙江省电力有限公司齐齐哈尔供电公司 | 一种智能电网大数据分析*** |
CN116708134A (zh) * | 2023-07-12 | 2023-09-05 | 韩山师范学院 | 基于流量控制的点对点网络传输*** |
CN116842240A (zh) * | 2023-08-30 | 2023-10-03 | 山东海博科技信息***股份有限公司 | 一种基于全链路治理管控的数据治理*** |
Non-Patent Citations (1)
Title |
---|
基于XML技术为数据存储层的数据仓库应用***的设计;乔溪;张晓明;;北京石油化工学院学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117149746A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117149746B (zh) | 基于云原生和存算分离的数据仓库管理*** | |
US20070214261A1 (en) | Analysis method and apparatus | |
CN110417591B (zh) | 投票节点配置方法及*** | |
CN109471847B (zh) | 一种i/o拥塞控制方法及控制*** | |
CN107241440B (zh) | 一种确定集群的节能策略的方法 | |
Jedwab et al. | Traffic estimation for the largest sources on a network, using packet sampling with limited storage | |
CN113610331B (zh) | 基于信息瀑布的成本核算方法、装置及存储介质 | |
CN111325451B (zh) | 智能楼宇多级调度方法、智能楼宇调度中心及*** | |
CN114726862A (zh) | 基于状态监控芯片确定计算节点运行状态的方法及*** | |
CN115441456A (zh) | 一种电网调度支持***故障诊断方法及装置 | |
CN113032239A (zh) | 风险提示方法、装置、电子设备及存储介质 | |
CN109952743A (zh) | 用于低内存和低流量开销大流量对象检测的***和方法 | |
CN114064204A (zh) | 一种微服务环境下基于业务预测动态扩容的方法 | |
EP1704500B1 (en) | Clustering technique for cyclic phenomena | |
CN112636763A (zh) | 一种面向多数据流的分布式实时压缩方法 | |
CN112925964A (zh) | 基于云计算服务的大数据采集方法及大数据采集服务*** | |
US11847619B2 (en) | System-state monitoring method and device and storage medium | |
CN108900804B (zh) | 一种基于视频熵的自适应视频流处理方法 | |
Baykasoğlu et al. | Genetic programming based data mining approach to dispatching rule selection in a simulated job shop | |
CN115880100A (zh) | 一种基于云端平台的智慧电网数据处理方法与*** | |
CN112667392B (zh) | 云计算资源分配方法、装置、计算机设备和存储介质 | |
CN106888237B (zh) | 一种数据调度方法及*** | |
CN115334592A (zh) | 一种基于量子行为粒子群优化策略的IoT用户感知任务卸载方法 | |
CN112862136B (zh) | 一种分拣方法、装置、***、服务器及存储介质 | |
CN107316056B (zh) | 一种网络安防等级自动化评定***、自动评定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |