CN114357069B - 一种基于分布式存储的大数据采样方法及*** - Google Patents

一种基于分布式存储的大数据采样方法及*** Download PDF

Info

Publication number
CN114357069B
CN114357069B CN202111588216.0A CN202111588216A CN114357069B CN 114357069 B CN114357069 B CN 114357069B CN 202111588216 A CN202111588216 A CN 202111588216A CN 114357069 B CN114357069 B CN 114357069B
Authority
CN
China
Prior art keywords
sampling
data
index
sampling rate
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111588216.0A
Other languages
English (en)
Other versions
CN114357069A (zh
Inventor
杨忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN202111588216.0A priority Critical patent/CN114357069B/zh
Publication of CN114357069A publication Critical patent/CN114357069A/zh
Application granted granted Critical
Publication of CN114357069B publication Critical patent/CN114357069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于分布式存储的大数据采样方法及***,包括:针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时作为该指标的最终采样率;采用该指标的最终采样率自分布式存储模块采样指标数据。基于试算确定最终采样率,降低了服务器成本,节省了计算时间。

Description

一种基于分布式存储的大数据采样方法及***
技术领域
本发明涉及据分析领域,具体涉及一种基于分布式存储的大数据采样方法及***。
背景技术
随着互联网的快速普及,每天都会产生大量的数据。对于互联网企业,需要有大数据平台,对海量数据进行计算。这种计算要消耗很多的算力,同时要计算很长的时间。
举个例子,某互联网大型企业,每天的用户行为日志有上百亿,为了计算某个用户行为指标,需要动用上百台服务器,运算4~5个小时,才能计算完成。这种海量数据计算,费时费力,给企业带来很大的成本。
发明内容
本发明实施例提供一种基于分布式存储的大数据采样方法及***,基于试算确定最终采样率,在能够保证计算准确度满足业务需求的同时,降低了服务器成本,节省了计算时间。
为达上述目的,一方面,本发明实施例提供一种基于分布式存储的大数据采样方法,包括:
将包括各种指标数据的大数据采用分布式存储模块存储,并设置自分布式存储模块采样指标数据时指标的初始采样率;
针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;以及按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率;其中,所述初始采样率是第一个采样率;
采用该指标的最终采样率自分布式存储模块采样指标数据。
另一方面,本发明实施例提供一种基于分布式存储的大数据采样***,包括:
数据存储单元,用于将包括各种指标数据的大数据采用分布式存储模块存储;
协调管理器,用于设置自分布式存储模块采样指标数据时指标的初始采样率;
采样率计算单元,用于针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按协调管理器设置的初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;以及按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率;其中,所述初始采样率是第一个采样率;
采样单元,用于采用该指标的最终采样率自分布式存储模块采样指标数据。
上述技术方案具有如下有益效果:基于试算确定的最终采样率确定方案,在能够保证计算准确度满足业务需求的同时,降低了服务器成本,节省了计算时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于分布式存储的大数据采样方法的流程图;
图2是本发明实施例的一种基于分布式存储的大数据采样***的结构图;
图3是本发明实施例的大数据***结构图;
图4是本发明实施例的分布式数据存储结构;
图5是本发明实施例的采样计算架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,集合本发明的实施例,提供一种基于分布式存储的大数据采样方法,包括:
S101:将包括各种指标数据的大数据采用分布式存储模块存储;
大数据(big data),业界普遍认为数据量很大,超过了传统数据库的分析计算能力,一般需要多机器集群才能计算的规模。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
S102:设置自分布式存储模块采样指标数据时指标的初始采样率;
S103:针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;以及按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率;其中,所述初始采样率是第一个采样率;
S104:采用该指标的最终采样率自分布式存储模块采样指标数据。
优选地,步骤101包括:
采用封装hdfs***将大数据顺序写入所述封装hdfs***中不同的分布式存储模块。
优选地,在步骤103中,所述按预设方式修正前一采样率得到后一采样率包括:采用对前一采样率折半迭代的方式修正前一采样率得到后一采样率。
优选地,在步骤103中,所述针对每一指标,对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率,包括:
S1031:针对每个采样率的指标采样数据,计算该指标采样数据内异常指标数据在所述预设时间段的指标数据内的占比,计算该采样率相应的异常数据占比误差;其中,所述异常数据占比误差是指采样时异常指标数据在所述预设时间段的指标数据内的占比与非采样时异常指标数据占比的差值,所述非采样时异常指标数据占比是指预设时间段内所有异常指标数据在所述预设时间段的指标数据内的占比;
S1032:当前一采样率相应的异常数据占比误差小于预设误差阈值、且后一采样率相应的异常数据占比误差大于预设误差阈值时,将前一采样率作为该指标的最终采样率。
优选地,还包括:
S105:针对所有指标,按指定时间间隔推送自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据;
在步骤103中,所述对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果,具体包括:
在接收到自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据之后,对采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果。
如图2所示,结合本发明的实施例,提供一种基于分布式存储的大数据采样***,包括:
数据存储单元21,用于将包括各种指标数据的大数据采用分布式存储模块存储;
协调管理器22,用于设置自分布式存储模块采样指标数据时指标的初始采样率;
采样率计算单元23,用于针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按协调管理器设置的初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;以及按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率;其中,所述初始采样率是第一个采样率;
采样单元24,用于采用该指标的最终采样率自分布式存储模块采样指标数据。
优选地,所述数据存储单元21包括:
封装hdfs***,用于将大数据顺序写入本封装hdfs***中不同的分布式存储模块。
优选地,所述采样率计算单元23包括:
采样率修正子单元231,用于按预设方式修正前一采样率得到后一采样率,所述按预设方式修正前一采样率得到后一采样率包括:采用对前一采样率折半迭代的方式修正前一采样率得到后一采样率。
优选地,所述采样率计算单元23包括:
采样率验证子单元232,用于针对每个采样率的指标采样数据,计算该指标采样数据内异常指标数据在所述预设时间段的指标数据内的占比,计算该采样率相应的异常数据占比误差;其中,所述异常数据占比误差是指采样时异常指标数据在所述预设时间段的指标数据内的占比与非采样时异常指标数据占比的差值,所述非采样时异常指标数据占比是指预设时间段内所有异常指标数据在所述预设时间段的指标数据内的占比;
采样率确定子单元233,用于当前一采样率相应的异常数据占比误差小于预设误差阈值、且后一采样率相应的异常数据占比误差大于预设误差阈值时,将前一采样率作为该指标的最终采样率。
优选地,还包括数据推送单元25,所述采样率计算单元23包括聚合计算子单元233,其中:
所述数据推送单元25,用于针对所有指标,按指定时间间隔推送自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据;
所述聚合计算子单元234,用于在接收到数据推送单元推送的自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据之后,对采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果。
本发明所取得的有益效果如下:
可以快速的对海量数据进行快速计算,大大节省了服务器成本,节省计算时间。
这种通过试算的方式确定采样率,可以灵活的适应各种指标的计算精度。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明涉及的缩略语和关键术语定义如下:
实时采样:本发明专利首创的一种快速大数据计算***,比传统大数据计算快很多。
分布式:相对集中式,把任务分散给很多服务器。
数据采样:依据采样算法,从海量数据集中,获取一部分数据来进行数据分析。
分布式数据采样:采样操作是分布式进行,运算速度更快。
本发明为一种基于分布式实时采样的快速大数据计算***,属于大数据技术领域、数据分析技术领域;实现了一种基于分布式实时采样的快速大数据计算***,能够在计算的同时,对数据进行分布式采样,能大大节省运算需要对服务器和时间,即采用分布式实时采样机制,能够实现快速的大数据计算;基于试算确定最终采样率,在能够保证计算准确度满足业务需求的同时,降低了服务器成本,节省了计算时间。
例如,同样一份上百亿的日志,只需要几台服务器,十几分钟时间就能完成相应业务指标的运算。既节省了成本,又节省了运算时间。可以给企业带来很好的收益。是一种实用性极强的大数据计算***。
本发明技术方案的大数据***的架构图如图3所示,本分布式实时采样大数据计算***主要由数据存储模块(数据存储单元)、采样计算模块(采样率计算单元)、协调管理器组成。其中:
数据存储模块,如图4所示,负责存储准备计算的海量数据。将包括各种指标数据的大数据采用分布式存储模块存储,采用封装hdfs***将大数据顺序写入所述封装hdfs***中不同的分布式存储模块。具体地:
因为数据量很大,单机无法容纳。此数据存储模块采用了分布式文件存储***。是通过封装hdfs***实现的。为了方便快速取用数据,要求文件是顺序写入的,每1G大小一个文件。顺序写入的文件,可以快速读取。每1G大小一个文件,可以控制文件数量不会过多(1G大小的文件不算多)。
采样计算模块:针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;以及按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率;其中,所述初始采样率是第一个采样率。
具体地:一个单独的采样计算模块架构如图5所示,从数据存储模块获取数据,同时和协调管理器进行通讯,根据协调管理器给出的采样率,确定当前处理的数据要保留多少,同时进行相应的聚合计算。不同的数据指标,采样率对计算精度的影响不同。因此不能采用统一的采样率。按预设方式修正前一采样率得到后一采样率包括:采用对前一采样率折半迭代的方式修正前一采样率得到后一采样率(采样率是通过折半迭代试算的方式进行确定的)。针对每个采样率的指标采样数据,计算该指标采样数据内异常指标数据在所述预设时间段的指标数据内的占比,计算该采样率相应的异常数据占比误差;其中,所述异常数据占比误差是指采样时异常指标数据在所述预设时间段的指标数据内的占比与非采样时异常指标数据占比的差值,所述非采样时异常指标数据占比是指预设时间段内所有异常指标数据在所述预设时间段的指标数据内的占比。当前一采样率相应的异常数据占比误差小于预设误差阈值、且后一采样率相应的异常数据占比误差大于预设误差阈值时,将前一采样率作为该指标的最终采样率。比如,初始的采样率是50%,协调管理器会取一小批数据,对50%和折半后的25%进行试算。如果两者之间的计算误差可以接受,就会对25%进行再次折半取整(省略小数取整),采样率取到12%进行试算,和50%采样的小批数据试算进行对比。直到采样率大于提前设定的可接受误差停止。此时可接受误差最大的采样率,就会成为接受的采样率。
一般提前设定的误差,每个指标不一样。需要看业务能接受的程度。比如视频播放秒开率,这是一个比例指标,业务能接受的误差是0.03%。这个指标的采样率可以做到6%(每100份,取其中6份。)
采样率设定原则如下:
(1)初始采样率都是50%。
(2)试算采样率的时候,不断进行折半迭代。对采样率除以二取整(省去小数部分取整)。
(3)依据业务预设的误差率,迭代试算出对应的采样率,保存在协调管理器中。
这种通过试算的方式确定采样率,可以灵活的适应各种指标的计算精度。
采样率是保存在协调管理器中,这样可以保证各个采样计算模块可以协调一致。
比如采样率是3%采样,每个采样计算模块在顺序读取数据文件的时候,会每100份数据,随机保留其中3份,进行计算。
没有命中采样的数据,直接舍弃,不进行计算,大大节省了计算资源。
上述的例子是3%的采样率,实际使用中,基于不同的业务接受准确率,有不同的采样率。
如果业务要求的准确率过高,那么就不适合用这套***进行运算。实际情况是,正常的业务需求,都可以用12%甚至更高的采样率来满足。
针对所有指标,按指定时间间隔推送自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据。具体地:采样的同时,会每隔指定的时间(协调管理器给定,例如每10秒。间隔时间可以配置,根据业务方的需求设置,默认是10秒)把一批数据送给计算模块去计算(计算模块计算的全部都是采样后的数据)。计算模块是封装了分布式计算引擎,这里是采用spark streaming来实现的。
协调管理器:是整个大数据***的总控制核心。负责协调各个采样计算模块从数据存储模块获取数据,按照设定的采样率进行采样,并执行相应的大数据运算。
本发明所取得的有益效果如下:
可以快速的对海量数据进行快速计算,大大节省了服务器成本,节省计算时间。
这种通过试算的方式确定采样率,可以灵活的适应各种指标的计算精度。
通过如下手段保持计算结果的准确性:
(1)计算指标最好是比例指标,比例分子和比例分母是同一份日志,使用相同的采样率。
(2)采样需要均匀进行,并且尽量保证小的时间间隔内都有数据。比如采样后,不会出现某一秒或几秒内没有数据。
(3)采样率的确定,由采样协调管理器进行试算。
采样率设定原则如下:
(a)初始采样率都是50%。
(b)试算采样率的时候,不断进行折半迭代。对采样率除以二取整(省去小数部分取整)。
(c)依据业务预设的误差率,迭代试算出对应的采样率,保存在协调管理器中。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个***的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于分布式存储的大数据采样方法,其特征在于,包括:
将包括各种指标数据的大数据采用分布式存储模块存储,并设置自分布式存储模块采样指标数据时指标的初始采样率;
针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;以及按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率;其中,所述初始采样率是第一个采样率;
采用该指标的最终采样率自分布式存储模块采样指标数据;
所述针对每一指标,对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率,包括:
针对每个采样率的指标采样数据,计算该指标采样数据内异常指标数据在所述预设时间段的指标数据内的占比,计算该采样率相应的异常数据占比误差;其中,所述异常数据占比误差是指采样时异常指标数据在所述预设时间段的指标数据内的占比与非采样时异常指标数据占比的差值,所述非采样时异常指标数据占比是指预设时间段内所有异常指标数据在所述预设时间段的指标数据内的占比;
当前一采样率相应的异常数据占比误差小于预设误差阈值、且后一采样率相应的异常数据占比误差大于预设误差阈值时,将前一采样率作为该指标的最终采样率。
2.根据权利要求1所述的基于分布式存储的大数据采样方法,其特征在于,所述包括各种指标数数据的大数据采用分布式存储模块存储,包括:
采用封装hdfs***将大数据顺序写入所述封装hdfs***中不同的分布式存储模块。
3.根据权利要求1所述的基于分布式存储的大数据采样方法,其特征在于,所述按预设方式修正前一采样率得到后一采样率包括:采用对前一采样率折半迭代的方式修正前一采样率得到后一采样率。
4.根据权利要求1所述的基于分布式存储的大数据采样方法,其特征在于,还包括:
针对所有指标,按指定时间间隔推送自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据;
所述对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果,具体包括:
在接收到自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据之后,对采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果。
5.一种基于分布式存储的大数据采样***,其特征在于,包括:
数据存储单元,用于将包括各种指标数据的大数据采用分布式存储模块存储;
协调管理器,用于设置自分布式存储模块采样指标数据时指标的初始采样率;
采样率计算单元,用于针对每一指标,自分布式存储模块内获取预设时间段内的指标数据,按协调管理器设置的初始采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;以及按预设方式修正前一采样率得到后一采样率,按照后一采样率自所述预设时间段的指标数据内随机采样得到相应的指标采样数据;对每个采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果;直至对按照修正的采样率随机采样得到的指标采样数据进行聚合计算得到的计算结果满足预设要求时,将满足预设要求的计算结果所对应的采样率作为该指标的最终采样率;其中,所述初始采样率是第一个采样率;
采样单元,用于采用该指标的最终采样率自分布式存储模块采样指标数据;
所述采样率计算单元包括:
采样率验证子单元,用于针对每个采样率的指标采样数据,计算该指标采样数据内异常指标数据在所述预设时间段的指标数据内的占比,计算该采样率相应的异常数据占比误差;其中,所述异常数据占比误差是指采样时异常指标数据在所述预设时间段的指标数据内的占比与非采样时异常指标数据占比的差值,所述非采样时异常指标数据占比是指预设时间段内所有异常指标数据在所述预设时间段的指标数据内的占比;
采样率确定子单元,用于当前一采样率相应的异常数据占比误差小于预设误差阈值、且后一采样率相应的异常数据占比误差大于预设误差阈值时,将前一采样率作为该指标的最终采样率。
6.根据权利要求5所述的基于分布式存储的大数据采样***,其特征在于,所述数据存储单元包括:
封装hdfs***,用于将大数据顺序写入本封装hdfs***中不同的分布式存储模块。
7.根据权利要求5所述的基于分布式存储的大数据采样***,其特征在于,所述采样率计算单元包括:
采样率修正子单元,用于按预设方式修正前一采样率得到后一采样率,所述按预设方式修正前一采样率得到后一采样率包括:采用对前一采样率折半迭代的方式修正前一采样率得到后一采样率。
8.根据权利要求5所述的基于分布式存储的大数据采样***,其特征在于,还包括数据推送单元,所述采样率计算单元包括聚合计算子单元,其中:
所述数据推送单元,用于针对所有指标,按指定时间间隔推送自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据;
所述聚合计算子单元,用于在接收到数据推送单元推送的自分布式存储模块内获取的预设时间段内的指标数据、以及自所述预设时间段的指标数据内随机采样得到的指标采样数据之后,对采样率相应的指标采样数据进行聚合计算得到采样率对应的计算结果。
CN202111588216.0A 2021-12-23 2021-12-23 一种基于分布式存储的大数据采样方法及*** Active CN114357069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111588216.0A CN114357069B (zh) 2021-12-23 2021-12-23 一种基于分布式存储的大数据采样方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111588216.0A CN114357069B (zh) 2021-12-23 2021-12-23 一种基于分布式存储的大数据采样方法及***

Publications (2)

Publication Number Publication Date
CN114357069A CN114357069A (zh) 2022-04-15
CN114357069B true CN114357069B (zh) 2024-05-28

Family

ID=81102301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111588216.0A Active CN114357069B (zh) 2021-12-23 2021-12-23 一种基于分布式存储的大数据采样方法及***

Country Status (1)

Country Link
CN (1) CN114357069B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423433A (zh) * 2017-08-03 2017-12-01 聚好看科技股份有限公司 一种数据采样率控制方法及装置
WO2018027466A1 (zh) * 2016-08-08 2018-02-15 马岩 分布式***中大数据的存储方法及***
CN113807396A (zh) * 2021-08-12 2021-12-17 华南理工大学 一种物联网高维数据异常检测方法、***、装置及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8578041B2 (en) * 2005-06-03 2013-11-05 Adobe Systems Incorporated Variable sampling rates for website visitation analysis
CN107133190A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种机器学习***的训练方法和训练***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018027466A1 (zh) * 2016-08-08 2018-02-15 马岩 分布式***中大数据的存储方法及***
CN107423433A (zh) * 2017-08-03 2017-12-01 聚好看科技股份有限公司 一种数据采样率控制方法及装置
CN113807396A (zh) * 2021-08-12 2021-12-17 华南理工大学 一种物联网高维数据异常检测方法、***、装置及介质

Also Published As

Publication number Publication date
CN114357069A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN106407190B (zh) 一种事件记录查询方法及装置
US11379687B2 (en) Method for extracting feature string, device, network apparatus, and storage medium
US20150324135A1 (en) Automatic storage system configuration based on workload monitoring
CN104750703B (zh) 一种提高数据准确性的方法和装置
CN104811344A (zh) 网络动态业务监控方法及装置
CN107070940B (zh) 一种从流式登录日志中判断恶意登录ip地址的方法及装置
CN106202280B (zh) 一种信息处理方法及服务器
CN107729375B (zh) 一种日志数据排序的方法及装置
CN109801693B (zh) 病案分组方法及装置、终端和计算机可读存储介质
CN109388550B (zh) 一种缓存命中率确定方法、装置、设备及可读存储介质
CN111258593A (zh) 应用程序预测模型的建立方法、装置、存储介质及终端
CN108228679B (zh) 时序数据计量方法和时序数据计量装置
CN114357069B (zh) 一种基于分布式存储的大数据采样方法及***
CN111913913B (zh) 访问请求的处理方法和装置
CN106294457B (zh) 网络信息推送方法及装置
CN116501715A (zh) 一种多表全量数据的实时关联更新方法及装置
CN116070958A (zh) 归因分析方法、装置、电子设备和存储介质
CN112149036A (zh) 一种批量非正常互动行为的识别方法及***
CN112861128B (zh) 一种批量识别机器账号的方法及***
CN110716798B (zh) 一种php定时任务管理方法及***
CN108984101B (zh) 在分布式存储***中确定事件之间关系的方法及装置
CN113312218A (zh) 磁盘的检测方法和装置
CN111158994A (zh) 一种压测性能测试方法及装置
CN116776310B (zh) 用户账号自动识别方法、装置、计算机设备及存储介质
CN115328923B (zh) 时序生理数据的存储结构、查询方法、存储介质及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant