CN103473271A - 一种针对大量数据的优化储存方法 - Google Patents
一种针对大量数据的优化储存方法 Download PDFInfo
- Publication number
- CN103473271A CN103473271A CN2013103631307A CN201310363130A CN103473271A CN 103473271 A CN103473271 A CN 103473271A CN 2013103631307 A CN2013103631307 A CN 2013103631307A CN 201310363130 A CN201310363130 A CN 201310363130A CN 103473271 A CN103473271 A CN 103473271A
- Authority
- CN
- China
- Prior art keywords
- data
- magnitudes
- time period
- cutting
- reach
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对大量数据的优化存储方法,按如下步骤进行:S1.将经过合法性校验的数据按照一定的规则分割成小块,将每个小块的数据存入对应的表中;S2.对步骤S1中存储数据的表进行判断,如果表中的数据达到百万量级,则将此表按照设定的时间段做为时间间隔进行数据切割,再次分割成小表存储,每个小表中只存储对应时间段内的数据。本发明解决了大量数据的累积导致数据库急速膨胀,无限扩大,查询速度慢,降低了数据利用效率等弊端,达到降低数据库负载,提高数据利用效率的效果。
Description
技术领域
本发明涉及一种数据的优化存储方法,具体涉及一种大量数据的优化存储方法,属于计算机数据处理技术领域。
背景技术
目前,由于数据的飞速发展,数据量越来越大,大数据的存储与查询成为很大的难题。现今云技术做为大数据和快数据的处理技术,被越来越多的应用在很多信息领域,如何根据需要来处理庞大的云数据成了自然而然的问题。处理大量数据最直接的方法是直接存入相应的数据库,这种方法对服务器性能要求高,而且如果每次使用都要到庞大的数据库中去查询所需的数据,查询速度慢,效率低,而如果只做简单的分表也无法达到理想的效果,数据库的负载仍然很大,不能快速的对数据进行定位,无法提高数据查询速度。
发明内容
发明目的:本发明的目的在于针对现有技术的不足,提供一种降低数据库负载、提高数据查询速度及利用效率的针对大量数据的优化存储方法。
技术方案:本发明提供一种针对大量数据的优化存储方法,按如下步骤进行:
S1、将经过合法性校验的数据按照一定的规则分割成小块,将每个小块的数据存入对应的表中;
S2、对步骤S1中存储数据的表进行判断,如果表中的数据达到百万量级,则将此表按照设定的时间段做为时间间隔进行数据切割,再次分割成小表存储,每个小表中只存储对应时间段内的数据。
本发明技术方案的进一步限定为,步骤S2中,所述设定的时间段为时间间隔由短到长的i个时间段,按照设定的时间段进行数据切割时,先选择第i个时间段做为时间间隔进行数据切割;数据切割之后,对生成的小表进行判断,如果还存在数据达到百万量级的表,则选择第i-1个时间段做为时间间隔再次对数据达到百万量级的表进行数据切割,循环如上操作,直至无数据达到百万量级的表存在或者设定的时间段全部使用。
进一步地,步骤S2中,所述设定的时间段为一天、一周和一个月,按照设定的时间段进行数据切割时,先选择一个月做为时间间隔进行数据切割;数据切割之后,对生成的小表进行判断,如果不存在数据达到百万量级的表,则完成此次数据存储;如果还存在数据达到百万量级的表,则选择一周时间段再次对数据达到百万量级的表进行数据切割;数据切割之后,对生成的小表进行判断,如果不存在数据达到百万量级的表,则完成此次数据存储;如果还存在数据达到百万量级的表,则选择一天时间段再次对数据达到百万量级的表进行数据切割,完成此次数据存储。
进一步地,如果再次分割成的小表中的数据超出设定的时间段的范围,则进行自动的删除。
进一步地,步骤S2中,将数据达到百万量级的表进行数据切割后,对分割的数据进行判断,如果两个及两个以上的数据单位合并后的表仍小于百万量级,则先将表进行合并,然后再存入小表。
有益效果:本发明提供的一种针对大量数据的优化存储方法,通个分时段对数据达到百万量级的表进行数据切割,对各个时间段的数据进行单独维护,解决了大量数据的累积导致数据库急速膨胀,无限扩大,查询速度慢,降低了数据利用效率等弊端,达到降低数据库负载,提高数据利用效率的效果。
附图说明
图1为本发明提供的一种针对大量数据的优化存储方法的流程图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例:本实施例提供一种针对大量数据的优化存储方法,本发明应用于云技术对大数据的接收处理中,当云服务器接收大量数据对数据进行解析后,将对数据进行优化存储,具体优化存储的方法流程图如图1所示,按如下步骤进行:
S1、将经过合法性校验的数据按照一定的规则分割成小块,将每个小块的数据存入对应的表中。
合法性校验包括对收到数据包的校验和对包中数据的校验,数据包主要是通过md5值来校验包的来源是否正确,是否为网络攻击注入包,如果数据包是合法的,将数据包进行解析,对里面的数据进行分析,是否为所需要的正确的数据。
数据分割的规则,根据数据对应的表而定,所有的数据不可能存放在一张表中,解析后的数据会有固定的标识来显示各部分数据该存在哪些表中,比如用户信息存在用户表中,网络流量信息存在网络流量所对应的表中,固定的规则即为约定好的标识。
存储数据的表是在建库时就建好的,并不需要动态建表。不同的表数据结构是不同的,表是表与表之间是相互依存又各自独立的,一张表中的数据是另一张表中数据通过计算合并后存入的,使用时各自独立被使用。表中的数据如果不处理的话表中的数据会一直增加,该方法的目的就是处理一直增加的数据,使之不会无限增大。
对网络数据合法性的校验、对数据的分割及数据库建表为目前成熟的技术,本领域的技术人员可以采用常规的知识实现,此处不做论述。
S2、对步骤S1中存储数据的表进行判断,如果表中的数据达到百万量级,则将此表按照设定的时间段做为时间间隔进行数据切割对分割的数据进行判断,如果两个及两个以上的数据单位合并后的表仍小于百万量级,则先将表进行合并,然后再存入小表。每个小表中只存储对应时间段内的数据。比如每15分钟收到一笔数据,将该笔数据存入最近一天的表中,然后每四笔数据合成一笔数据存入最近一周的数据表中,以此类推,将各表中超出时间范围的数据自动删掉,如此数据库的大小以及数据量都不会无效增大。
具体分时段进行数据分隔的方法为:设定的时间段为时间间隔由短到长的i个时间段,按照设定的时间段进行数据切割时,先选择第i个时间段做为时间间隔进行数据切割;数据切割之后,对生成的小表进行判断,如果还存在数据达到百万量级的表,则选择第i-1个时间段做为时间间隔再次对数据达到百万量级的表进行数据切割,循环如上操作,直至无数据达到百万量级的表存在或者设定的时间段全部使用。如果再次分割成的小表中的数据超出设定的时间段的范围,则进行自动的删除。
本实施例中,设定的时间段为一天、一周和一个月,按照设定的时间段进行数据切割时,先选择一个月做为时间间隔进行数据切割;数据切割之后,对生成的小表进行判断,如果不存在数据达到百万量级的表,则完成此次数据存储;如果还存在数据达到百万量级的表,则选择一周时间段再次对数据达到百万量级的表进行数据切割;数据切割之后,对生成的小表进行判断,如果不存在数据达到百万量级的表,则完成此次数据存储;如果还存在数据达到百万量级的表,则选择一天时间段再次对数据达到百万量级的表进行数据切割,完成此次数据存储。如果再次分割成的小表中的数据超出设定的时间段的范围,则进行自动的删除。
本发明通个分时段对数据庞大的表进行数据切割,对各个时间段的数据进行单独维护,解决了大量数据的累积导致数据库急速膨胀,无限扩大,查询速度慢。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。
Claims (5)
1.一种针对大量数据的优化存储方法,其特征在于,按如下步骤进行:
S1、将经过合法性校验的数据按照一定的规则分割成小块,将每个小块的数据存入对应的表中;
S2、对步骤S1中存储数据的表进行判断,如果表中的数据达到百万量级,则将此表按照设定的时间段做为时间间隔进行数据切割,再次分割成小表存储,每个小表中只存储对应时间段内的数据。
2.根据权利要求1所述的一种针对大量数据的优化存储方法,其特征在于,步骤S2中,所述设定的时间段为时间间隔由短到长的i个时间段,按照设定的时间段进行数据切割时,先选择第i个时间段做为时间间隔进行数据切割;数据切割之后,对生成的小表进行判断,如果还存在数据达到百万量级的表,则选择第i-1个时间段做为时间间隔再次对数据达到百万量级的表进行数据切割,循环如上操作,直至无数据达到百万量级的表存在或者设定的时间段全部使用。
3.根据权利要求2所述的一种针对大量数据的优化存储方法,其特征在于,步骤S2中,所述设定的时间段为一天、一周和一个月,按照设定的时间段进行数据切割时,先选择一个月做为时间间隔进行数据切割;数据切割之后,对生成的小表进行判断,如果不存在数据达到百万量级的表,则完成此次数据存储;如果还存在数据达到百万量级的表,则选择一周时间段再次对数据达到百万量级的表进行数据切割;数据切割之后,对生成的小表进行判断,如果不存在数据达到百万量级的表,则完成此次数据存储;如果还存在数据达到百万量级的表,则选择一天时间段再次对数据达到百万量级的表进行数据切割,完成此次数据存储。
4.根据权利要求1所述的一种针对大量数据的优化存储方法,其特征在于,如果再次分割成的小表中的数据超出设定的时间段的范围,则进行自动的删除。
5.根据权利要求1所述的一种针对大量数据的优化存储方法,其特征在于,步骤S2中,将数据达到百万量级的表进行数据切割后,对分割的数据进行判断,如果两个及两个以上的数据单位合并后的表仍小于百万量级,则先将表进行合并,然后再存入小表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310363130.7A CN103473271B (zh) | 2013-08-20 | 2013-08-20 | 一种针对大量数据的优化储存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310363130.7A CN103473271B (zh) | 2013-08-20 | 2013-08-20 | 一种针对大量数据的优化储存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473271A true CN103473271A (zh) | 2013-12-25 |
CN103473271B CN103473271B (zh) | 2017-09-26 |
Family
ID=49798119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310363130.7A Active CN103473271B (zh) | 2013-08-20 | 2013-08-20 | 一种针对大量数据的优化储存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473271B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182546A (zh) * | 2014-09-09 | 2014-12-03 | 北京国双科技有限公司 | 数据库的数据查询方法及装置 |
CN106233287A (zh) * | 2015-03-02 | 2016-12-14 | 微软技术许可有限责任公司 | 对大型数据集的数据库查询的管理 |
CN106600735A (zh) * | 2016-12-14 | 2017-04-26 | 天津飞鸟科技有限公司 | 一种指纹打卡机与手机通信识别智能*** |
CN107798048A (zh) * | 2017-07-28 | 2018-03-13 | 昆明理工大学 | 一种用于射电日像仪海量数据管理的负数据库管理方法 |
CN109800252A (zh) * | 2019-03-05 | 2019-05-24 | 深圳市国晨工程造价咨询有限公司 | 一种工程项目档案信息管理*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1747398A (zh) * | 2004-09-08 | 2006-03-15 | 大唐移动通信设备有限公司 | 网元管理***中海量性能数据的统计方法 |
CN101207513A (zh) * | 2006-12-22 | 2008-06-25 | 中兴通讯股份有限公司 | 保存历史数据的方法及装置 |
CN101566986A (zh) * | 2008-04-21 | 2009-10-28 | 阿里巴巴集团控股有限公司 | 联机事务处理中的数据处理方法和装置 |
CN101697152A (zh) * | 2009-10-23 | 2010-04-21 | 金蝶软件(中国)有限公司 | 一种数据库存储***及其数据的拆分方法和装置 |
US20130066882A1 (en) * | 2011-09-09 | 2013-03-14 | Onzo Limited | Data storage method and system |
-
2013
- 2013-08-20 CN CN201310363130.7A patent/CN103473271B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1747398A (zh) * | 2004-09-08 | 2006-03-15 | 大唐移动通信设备有限公司 | 网元管理***中海量性能数据的统计方法 |
CN101207513A (zh) * | 2006-12-22 | 2008-06-25 | 中兴通讯股份有限公司 | 保存历史数据的方法及装置 |
CN101566986A (zh) * | 2008-04-21 | 2009-10-28 | 阿里巴巴集团控股有限公司 | 联机事务处理中的数据处理方法和装置 |
CN101697152A (zh) * | 2009-10-23 | 2010-04-21 | 金蝶软件(中国)有限公司 | 一种数据库存储***及其数据的拆分方法和装置 |
US20130066882A1 (en) * | 2011-09-09 | 2013-03-14 | Onzo Limited | Data storage method and system |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182546A (zh) * | 2014-09-09 | 2014-12-03 | 北京国双科技有限公司 | 数据库的数据查询方法及装置 |
CN104182546B (zh) * | 2014-09-09 | 2017-10-27 | 北京国双科技有限公司 | 数据库的数据查询方法及装置 |
CN106233287A (zh) * | 2015-03-02 | 2016-12-14 | 微软技术许可有限责任公司 | 对大型数据集的数据库查询的管理 |
CN106233287B (zh) * | 2015-03-02 | 2019-07-02 | 微软技术许可有限责任公司 | 对大型数据集的数据库查询的管理 |
CN106600735A (zh) * | 2016-12-14 | 2017-04-26 | 天津飞鸟科技有限公司 | 一种指纹打卡机与手机通信识别智能*** |
CN107798048A (zh) * | 2017-07-28 | 2018-03-13 | 昆明理工大学 | 一种用于射电日像仪海量数据管理的负数据库管理方法 |
CN109800252A (zh) * | 2019-03-05 | 2019-05-24 | 深圳市国晨工程造价咨询有限公司 | 一种工程项目档案信息管理*** |
Also Published As
Publication number | Publication date |
---|---|
CN103473271B (zh) | 2017-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103473271A (zh) | 一种针对大量数据的优化储存方法 | |
CN103902593B (zh) | 一种数据迁移的方法和装置 | |
CN105912397A (zh) | 一种资源管理方法和装置 | |
CN106611064B (zh) | 分布式关系数据库的数据处理方法和装置 | |
CN104134173A (zh) | 基于远程调阅和信息交互的主配网图/模/数集成*** | |
CN106649646A (zh) | 一种数据去重的方法及装置 | |
CN103914265A (zh) | 集群细粒度内存管理方法 | |
CN104765749A (zh) | 一种数据存储方法及装置 | |
CN103970853A (zh) | 优化搜索引擎的方法及装置 | |
CN102404411A (zh) | 云存储***的数据同步方法 | |
CN103853838A (zh) | 一种数据处理方法和装置 | |
CN103607731A (zh) | 一种测量报告的处理方法及装置 | |
Sun et al. | A cost-efficient scheduling algorithm of on-demand broadcasts | |
CN104123329B (zh) | 搜索方法和装置 | |
CN102685222B (zh) | 一种用于电力***的云存储资源管理装置 | |
CN104242993B (zh) | 中低压电力通信接入网带宽预测方法 | |
CN103297542A (zh) | 一种支持构件在线伸缩的云操作***总线及均衡方法 | |
CN104679821A (zh) | 数据访问处理方法和装置 | |
CN104992698A (zh) | Ktv点歌***歌曲点播排列方法及装置 | |
CN106612298B (zh) | 一种基于大规模网络节点的内容分发方法及*** | |
CN113626472B (zh) | 一种处理订单数据的方法和装置 | |
CN108021688A (zh) | 一种数据处理方法及装置 | |
CN103796226A (zh) | 一种网络优化方法及装置 | |
Shao et al. | Database performance optimization for SQL Server based on hierarchical queuing network model | |
CN105323320A (zh) | 一种内容分发的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: Room 301-302, 3rd Floor, Tiancheng Information Building, No. 88 South Tiancheng Road, High Speed Rail New City, Xiangcheng District, Suzhou City, Jiangsu Province, 215133 Patentee after: SUZHOU MAXNET NETWORK SAFETY TECHNOLOGY Co.,Ltd. Address before: 215021 International Science and Technology Park Phase III 8B, No. 1355 Jinjihu Avenue, Industrial Park, Suzhou City, Jiangsu Province Patentee before: SUZHOU MAXNET NETWORK SAFETY TECHNOLOGY Co.,Ltd. |