CN108446391A - 数据的处理方法、装置、电子设备和计算机可读介质 - Google Patents

数据的处理方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN108446391A
CN108446391A CN201810246353.8A CN201810246353A CN108446391A CN 108446391 A CN108446391 A CN 108446391A CN 201810246353 A CN201810246353 A CN 201810246353A CN 108446391 A CN108446391 A CN 108446391A
Authority
CN
China
Prior art keywords
data
target
stored
database
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810246353.8A
Other languages
English (en)
Inventor
臧恒
邵丹薇
郑隽
郑隽一
储丹
王美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wanbang Charging Equipment Co Ltd
Original Assignee
Wanbang Charging Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wanbang Charging Equipment Co Ltd filed Critical Wanbang Charging Equipment Co Ltd
Priority to CN201810246353.8A priority Critical patent/CN108446391A/zh
Publication of CN108446391A publication Critical patent/CN108446391A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据的处理方法、装置、电子设备和计算机可读介质,涉及计算机应用的技术领域,包括:从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;对初始数据执行目标操作,得到目标数据,其中,目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;将目标数据按照预设存储规则存储在目标数据库中,其中,目标数据库的数量为多个,缓解了现有的数据处理方式处理效率较低的技术问题。

Description

数据的处理方法、装置、电子设备和计算机可读介质
技术领域
本发明涉及计算机应用的技术领域,尤其是涉及一种数据的处理方法、装置、电子设备和计算机可读介质。
背景技术
相对BAT公司动辄上千PB级的数据量来说,我们国家很多公司拥有的只能算做“小数据”,即数据量较小的数据,但是,这些小数据对很多公司来说还是有足够的价值。关键体现在几个方面:第一、基础数据的整合;第二、数据的统一;第三、指标预测模型的建立。
针对上述基础数据的整合。现有的数据比较粗糙,所以需要深入挖掘才能体现它的价值。互联网公司把数据作为一种资源,针对其他非互联网公司,其实也可以将数据作为一种资源,来对数据资源进行整合。例如,现有的测试统计数据跟HR的数据结合,对于团队内工作人数、人员工作强度、工作压力进行分析,从而得出员工异动概率的大小,为团队管理、资源投入提供指导。
针对数据的统一。由于数据格式的多样性,因此,针对数据来说,格式的统一显得更加重要。
针对指标预测模型的建立。数据分析的几个阶段:常规报表、查询、多维分析、报警、统计分析、预报、预测模型、优化。目前我们是在描述阶段层面,没有真正做到数据挖掘。随着高层质量意识的加强,大家都越来越关注到客户发生的异常,特别是重大异常。理想状况下,我们现有数据的基础之上,也希望能够对我们的产品质量进行预测。比如,重大异常预测模型。随着时间的推移,项目的数据库会积累越来越多历史数据。对数据的检索、管理的代价也会越来越大。需要实现以上的几点业务需求,就需要一种高效的针对这样“小数据”数据分析、统计和保存的方法。
发明内容
有鉴于此,本发明的目的在于提供一种数据的处理方法、装置、电子设备和计算机可读介质,以缓解了现有的数据处理方式处理效率较低的技术问题。
第一方面,本发明实施例提供了一种数据的处理方法,包括:从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,所述初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;对所述初始数据执行目标操作,得到目标数据,其中,所述目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;将所述目标数据按照预设存储规则存储在目标数据库中,其中,所述目标数据库的数量为多个。
进一步地,对所述初始数据执行目标操作,得到目标数据包括:将所述初始数据进行格式转换,得到中间数据,其中,所述中间数据均为结构化数据;删除所述中间数据中的无用数据和空格符,得到第一数据;在所述第一数据中提取有用数据,并建立所述有用数据和所述有用数据的数据来源之间的关联关系;将所述有用数据进行分类处理和/或分段处理,得到至少一组目标数据。
进一步地,将所述目标数据按照预设存储规则存储在目标数据库中包括:按照预设数据维度对所述目标数据进行统计,得到至少一个数据维度的统计结果;将所述至少一个数据维度的统计结果存储在目标数据库中;将存储在所述目标数据库中的统计结果进行合并,从而实现将所述目标数据存储在所述目标数据库中。
进一步地,将所述目标数据按照预设存储规则存储在目标数据库中还包括:将所述目标数据存储在所述目标数据库的目标数据表中,其中,所述目标数据表的数量至少为一个。
进一步地,将所述目标数据存储在所述目标数据库的目标数据表中包括:在所述目标数据的数据量大于预设数据量的情况下,按照预设数据维度对所述目标数据进行统计,得到至少一个数据维度的统计结果;构建至少一个临时数据表;将所述至少一个数据维度的统计结果存储在所述至少一个临时数据表中,其中,一个临时数据表用于存储一个数据维度的统计结果;将所述至少一个临时数据表进行合并,从而实现将所述目标数据存储在所述目标数据库目标数据表中。
进一步地,所述方法还包括:为每个所述目标数据表的目标字段建立索引信息,其中,所述目标字段包括:分组字段,排序字段。
进一步地,将所述目标数据按照预设存储规则存储在目标数据库中包括:使用文本格式将所述目标数据按照预设存储规则存储在目标数据库中。
第二方面,本发明实施例提供了一种数据的处理装置,包括:提取单元,用于从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,所述初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;处理单元,用于对所述初始数据执行目标操作,得到目标数据,其中,所述目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;保存单元,用于将所述目标数据按照预设存储规则存储在目标数据库中,其中,所述目标数据库的数量为多个。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
第四方面,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述任一项所述的方法。
在本发明实施例中,首先,从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;然后,对初始数据执行目标操作,得到目标数据,其中,目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;最后,将目标数据按照预设存储规则存储在目标数据库中,其中,目标数据库的数量为多个。在本实施例中,能够缓解了现有的数据处理方式处理效率较低的技术问题,从而实现对数据的高效检索和管理。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种数据的处理方法的流程图;
图2是根据本发明实施例的一种数据达到速率的示意图;
图3是根据本发明实施例的另一种数据的处理方法的流程图;
图4是根据本发明实施例的一种数据结构的示意图;
图5是根据本发明实施例的一种数据的处理装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
根据本发明实施例,提供了一种数据的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种数据的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,所述初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;
步骤S104,对所述初始数据执行目标操作,得到目标数据,其中,所述目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;
步骤S106,将所述目标数据按照预设存储规则存储在目标数据库中,其中,所述目标数据库的数量为多个。
在本发明实施例中,首先,从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;然后,对初始数据执行目标操作,得到目标数据,其中,目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;最后,将目标数据按照预设存储规则存储在目标数据库中,其中,目标数据库的数量为多个。在本实施例中,能够缓解了现有的数据处理方式处理效率较低的技术问题,从而实现对数据的高效检索和管理。
数据提取的挑战在于速率,这里所说的速率,主要是讨论数据到达的时间问题,如图2所示,包括多种数据的到达速率。在某些应用中,数据的到达以及处理形式可能是成批的,但是在其他的应用中可能数据就需要以连续不断的或者实时的形式展现。一些时候需要对这些数据进行及时的处理和响应。例如为数据中心提供实时的数据活动的管理。
在本实施例中,可以通过以下的方式解决数据提取速率问题:
第一、使用分布式文件***:分布式文件***能够使得负载分摊,并壮大***。
第二、优化写入速度:为了获得更快的写入速度,架构是设计成先写入记录,然后再进行处理。
第三、导入/预处理:对于多数据库和文件***的数据源,为了提高速率,应该先把数据导入一个集中的数据库中再进行相应的处理。
第四、使用批处理来平衡数据传送速度和处理速度。但批处理所带来的挑战在于,数据必须要间断性地进入才能保证流程正常运作,而如果数据源连续地输入,就会造成***崩溃。如果我们增加批处理窗口的话,结果就会增加数据处理过程的时间,使得相关的数据分析报告也要推迟落入我们的手中。在许多***里,他们通常会选择在非高峰时间进行数据批处理,而这个时间是非常有限的。随着数据的体积不断胀大,处理数据的时间就不断增加,这样发展下去的话,需要被处理的数据就会不断积压,这最终的结果有可能一天都处理不完数据。那么就需要根据情况选择另一种方法采用流处理来提升:并不需要等到所有数据记录完后才进行处理,可以边记录边处理。以生产线作类比,可以等到所有的组件齐全后才开始装配汽车,也可以在生产厂那边把组件包装好,然后再送到特定的生产线,并马上组装起来。即,上述步骤S102中所描述的从数据库中每隔预设时间提取初始数据。
在提取到初始数据之后,就可以对初始数据执行目标操作,得到目标数据。
在一个实施例中,如图3所示,步骤S104,对所述初始数据执行目标操作,得到目标数据包括以下步骤:
步骤S1041,将所述初始数据进行格式转换,得到中间数据,其中,所述中间数据均为结构化数据;
步骤S1042,删除所述中间数据中的无用数据和空格符,得到第一数据;
步骤S1043,在所述第一数据中提取有用数据,并建立所述有用数据和所述有用数据的数据来源之间的关联关系;
步骤S1044,将所述有用数据进行分类处理和/或分段处理,得到至少一组目标数据。
在本实施例中,如图4所示,初始包括多种数据格式,例如:结构化数据、半结构化数据、非结构化数据。结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。非结构化数据就是没有固定结构的数据,各种文档、图片、视频/音频等都属于非结构化数据;对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。通过描述可知,结构化数据、半结构化数据、非结构化数据之间的最主要区别在于是否存在预先定义好的数据模型,更确切的说是概念数据模型。在背景技术部分描述到,针对数据来说,格式的统一显得更加重要,因此,当初始数据中包括多种格式的数据时,需要将多样化的数据(即,将非结构化、半结构化、混合型数据)转化为结构化数据,然后,借助传统的关系型数据库进行处理。
具体地,转化过程可以总结为以下几个步骤:
步骤1,确定一个数据源。数据源可以是一个或多个数据源来收集与其业务相关的信息;
步骤2,管理非结构化数据搜索工具。收集到的结构化或非结构化的数据在使用上会有所不同。在提取数据时,如果管理不当,可能会对使用者产生负面影响。因此,在拥有太多非结构化数据之前,需要确定一个良好的业务管理工具(即非结构化数据搜索工具),进而,通过该业务管理工具对数据进行搜索;
步骤3,将所述初始数据进行格式转换,得到中间数据;
步骤4,删除所述中间数据中的无用数据和空格符,得到第一数据。在收集初始数据并实现结构化之后,得到中间数据之后,需要消除中间数据中的无用数据。消除无用数据可以进一步减少混淆,避免浪费时间。其中,无用数据可以是感叹词,用于表征人物称谓的词语;
步骤5,采用数据堆栈和存储技术。使用最新的技术来保存和堆叠数据,(即,第一数据)确保有一个维护和更新的数据备份和恢复服务;
步骤6,保存所有数据(即,第一数据)直到被存储。在删除任何东西之前,无论是结构化的还是非结构化的数据,必需保存;
步骤7,在第一数据中提取有用数据;
步骤8,本体评估,即,建立所述有用数据和所述有用数据的数据来源之间的关联关系。需要记录信息来源与提取的数据之间的关系,有助于提供有关数据组织的有用信息,解释其所采取的步骤和流程;
步骤9,记录统计,即将所述有用数据进行分类处理和/或分段处理,得到至少一组目标数据。通过上述所有步骤将非结构化数据变成结构化数据后,就可以创建统计信息了。对数据进行分类和分段以便于使用和学习,并为将来的使用创造一个良好的流程;
步骤10,分析至少一组目标数据。在所有的原始数据实现结构化之后,就应该分析和做出与业务相关且有益的决策。例如根据业务需求,做出各种维度的统计结果。
通过上述描述可知,在本实施例中,通过数据的结构化并筛选出有利于企业抉择的数据,并建立索引,能够提高这数据的检索效率并节约管理成本。
在本实施例中,在对初始数据执行目标操作,得到目标数据之后,就可以将目标数据按照预设存储规则存储在目标数据库中。
在一个实施例中,步骤S106,将所述目标数据按照预设存储规则存储在目标数据库中包括如下步骤:
步骤S1061,按照预设数据维度对所述目标数据进行统计,得到至少一个数据维度的统计结果;
步骤S1062,将所述至少一个数据维度的统计结果存储在目标数据库中;
步骤S1063,将存储在所述目标数据库中的统计结果进行合并,从而实现将所述目标数据存储在所述目标数据库中。
海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题。例如,如果数据是按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
具体地,在本实施例中,首先,可以按照预设数据维度(例如,年,月,日)对目标数据进行统计,得到至少一个数据维度(也即,至少一个预设数据维度)的统计结果,例如,得到数据维度为“年”的统计结果,得到数据维度为“月”的统计结果,得到数据维度为“日”的统计结果。在得到上述统计结果之后,就可以将至少一个数据维度的统计结果存储在目标数据库中。并将存储在目标数据库中的统计结果进行合并,从而实现将目标数据存储在目标数据库中。
在一个实施例中,步骤S106,将所述目标数据按照预设存储规则存储在目标数据库中还包括:将所述目标数据存储在所述目标数据库的目标数据表中,其中,所述目标数据表的数量至少为一个。
可选地,将所述目标数据存储在所述目标数据库的目标数据表中包括如下步骤:
步骤S1,在所述目标数据的数据量大于预设数据量的情况下,按照预设数据维度对所述目标数据进行统计,得到至少一个数据维度的统计结果;
步骤S2,构建至少一个临时数据表;
步骤S3,将所述至少一个数据维度的统计结果存储在所述至少一个临时数据表中,其中,一个临时数据表用于存储一个数据维度的统计结果;
步骤S4,将所述至少一个临时数据表进行合并,从而实现将所述目标数据存储在所述目标数据库目标数据表中。
在本实施例中,可以使用临时表。当数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作。
在一个实施例中,该方法还包括:为每个所述目标数据表的目标字段建立索引信息,其中,所述目标字段包括:分组字段,排序字段。
在本实施例中,对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况。例如,针对大表(即,目标数据表)的分组、排序等字段,都要建立相应索引。一般还可以建立复合索引,对经常***的表,当***表时,首先删除索引;然后,***完毕,建立索引,并实施聚合操作,聚合完成后,再次***前需要删除索引。
在一个实施例中,该方法还包括:将所述目标数据按照预设存储规则存储在目标数据库中包括:使用文本格式将所述目标数据按照预设存储规则存储在目标数据库中。
在本实施例中,对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。
在本实施例中,还可以建立视图或者物化视图。其中,视图中的数据来源于基表,对大量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O。
通过上述描述可知,在本发明实施例中,通过合理的存储空间规划减少数据管理城泵,同时大幅提高对数据检索效率,快速的从驳杂的原始数据中提取出想要的数据为聚焦问题点提供线索;为产生决策提供依据。
实施例二:
本发明实施例还提供了一种数据的处理装置,该数据的处理装置主要用于执行本发明实施例上述内容所提供的数据的处理方法,以下对本发明实施例提供的数据的处理装置做具体介绍。
图5是根据本发明实施例的一种数据的处理装置的示意图,如图5所示,该数据的处理装置主要包括提取单元10,处理单元20和保存单元30,其中:
提取单元10,用于从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,所述初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;
处理单元20,用于对所述初始数据执行目标操作,得到目标数据,其中,所述目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;
保存单元30,用于将所述目标数据按照预设存储规则存储在目标数据库中,其中,所述目标数据库的数量为多个。
在本发明实施例中,首先,从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;然后,对初始数据执行目标操作,得到目标数据,其中,目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;最后,将目标数据按照预设存储规则存储在目标数据库中,其中,目标数据库的数量为多个。在本实施例中,能够缓解了现有的数据处理方式处理效率较低的技术问题,从而实现对数据的高效检索和管理。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在另一个实施例中,还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例中所描述的步骤。
在另一个实施例中,还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述方法实施例中所描述的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据的处理方法,其特征在于,包括:
从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,所述初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;
对所述初始数据执行目标操作,得到目标数据,其中,所述目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;
将所述目标数据按照预设存储规则存储在目标数据库中,其中,所述目标数据库的数量为多个。
2.根据权利要求1所述的方法,其特征在于,对所述初始数据执行目标操作,得到目标数据包括:
将所述初始数据进行格式转换,得到中间数据,其中,所述中间数据均为结构化数据;
删除所述中间数据中的无用数据和空格符,得到第一数据;
在所述第一数据中提取有用数据,并建立所述有用数据和所述有用数据的数据来源之间的关联关系;
将所述有用数据进行分类处理和/或分段处理,得到至少一组目标数据。
3.根据权利要求2所述的方法,其特征在于,将所述目标数据按照预设存储规则存储在目标数据库中包括:
按照预设数据维度对所述目标数据进行统计,得到至少一个数据维度的统计结果;
将所述至少一个数据维度的统计结果存储在目标数据库中;
将存储在所述目标数据库中的统计结果进行合并,从而实现将所述目标数据存储在所述目标数据库中。
4.根据权利要求2所述的方法,其特征在于,将所述目标数据按照预设存储规则存储在目标数据库中还包括:
将所述目标数据存储在所述目标数据库的目标数据表中,其中,所述目标数据表的数量至少为一个。
5.根据权利要求4所述的方法,其特征在于,将所述目标数据存储在所述目标数据库的目标数据表中包括:
在所述目标数据的数据量大于预设数据量的情况下,按照预设数据维度对所述目标数据进行统计,得到至少一个数据维度的统计结果;
构建至少一个临时数据表;
将所述至少一个数据维度的统计结果存储在所述至少一个临时数据表中,其中,一个临时数据表用于存储一个数据维度的统计结果;
将所述至少一个临时数据表进行合并,从而实现将所述目标数据存储在所述目标数据库目标数据表中。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
为每个所述目标数据表的目标字段建立索引信息,其中,所述目标字段包括:分组字段,排序字段。
7.根据权利要求1至6中任一项所述的方法,其特征在于,将所述目标数据按照预设存储规则存储在目标数据库中包括:
使用文本格式将所述目标数据按照预设存储规则存储在目标数据库中。
8.一种数据的处理装置,其特征在于,包括:
提取单元,用于从数据库中每隔预设时间提取初始数据,其中,任意两次所提取的初始数据的数据量相同或者不同,其中,所述初始数据的数据格式包括以下至少之一:结构化数据,非结构化数据,半结构化数据,混合型数据;
处理单元,用于对所述初始数据执行目标操作,得到目标数据,其中,所述目标操作包括以下至少之一:筛选,格式化,提取,分类,合并;
保存单元,用于将所述目标数据按照预设存储规则存储在目标数据库中,其中,所述目标数据库的数量为多个。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至7中任一项所述的方法。
CN201810246353.8A 2018-03-23 2018-03-23 数据的处理方法、装置、电子设备和计算机可读介质 Pending CN108446391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810246353.8A CN108446391A (zh) 2018-03-23 2018-03-23 数据的处理方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810246353.8A CN108446391A (zh) 2018-03-23 2018-03-23 数据的处理方法、装置、电子设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN108446391A true CN108446391A (zh) 2018-08-24

Family

ID=63196895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810246353.8A Pending CN108446391A (zh) 2018-03-23 2018-03-23 数据的处理方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN108446391A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN109542962A (zh) * 2018-10-26 2019-03-29 北京海数宝科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN110287308A (zh) * 2019-06-13 2019-09-27 薛映杜 一种计算机数据程式统计方法
CN111767279A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 数据合并方法和装置
CN111797279A (zh) * 2020-07-17 2020-10-20 西安数据如金信息科技有限公司 一种存储数据的方法及装置
CN112100211A (zh) * 2020-09-27 2020-12-18 北京有竹居网络技术有限公司 数据存储方法、装置、电子设备和计算机可读介质
CN112100159A (zh) * 2020-09-27 2020-12-18 北京有竹居网络技术有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN112509653A (zh) * 2020-10-29 2021-03-16 望海康信(北京)科技股份公司 病案数据处理方法、***及相应设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412956A (zh) * 2013-08-30 2013-11-27 北京中科江南软件有限公司 异构数据源的数据加工处理方法及***
CN106446131A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司电网技术研究中心 配用电多源异构数据的混合存储方法和***
CN106815296A (zh) * 2016-12-09 2017-06-09 中电科华云信息技术有限公司 面向领域数据模型的结构化和非结构化的融合***及方法
CN107066499A (zh) * 2016-12-30 2017-08-18 江苏瑞中数据股份有限公司 面向异构存储多源数据管理及可视化***的数据查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412956A (zh) * 2013-08-30 2013-11-27 北京中科江南软件有限公司 异构数据源的数据加工处理方法及***
CN106446131A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司电网技术研究中心 配用电多源异构数据的混合存储方法和***
CN106815296A (zh) * 2016-12-09 2017-06-09 中电科华云信息技术有限公司 面向领域数据模型的结构化和非结构化的融合***及方法
CN107066499A (zh) * 2016-12-30 2017-08-18 江苏瑞中数据股份有限公司 面向异构存储多源数据管理及可视化***的数据查询方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542962A (zh) * 2018-10-26 2019-03-29 北京海数宝科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN111767279A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 数据合并方法和装置
CN110287308A (zh) * 2019-06-13 2019-09-27 薛映杜 一种计算机数据程式统计方法
CN111797279A (zh) * 2020-07-17 2020-10-20 西安数据如金信息科技有限公司 一种存储数据的方法及装置
CN111797279B (zh) * 2020-07-17 2024-01-19 西安数据如金信息科技有限公司 一种存储数据的方法及装置
CN112100211A (zh) * 2020-09-27 2020-12-18 北京有竹居网络技术有限公司 数据存储方法、装置、电子设备和计算机可读介质
CN112100159A (zh) * 2020-09-27 2020-12-18 北京有竹居网络技术有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN112100211B (zh) * 2020-09-27 2023-06-27 北京有竹居网络技术有限公司 数据存储方法、装置、电子设备和计算机可读介质
CN112509653A (zh) * 2020-10-29 2021-03-16 望海康信(北京)科技股份公司 病案数据处理方法、***及相应设备和存储介质

Similar Documents

Publication Publication Date Title
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
CN109669934B (zh) 一种切合电力客服业务的数据仓库***及其构建方法
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN105468744B (zh) 一种实现税务舆情分析和全文检索的大数据平台
Liang et al. Express supervision system based on NodeJS and MongoDB
CN103034656B (zh) 章节内容分层方法和装置、文章内容分层方法和装置
CN111950921A (zh) 一种基于离线组网环境的多人协同评审方法
CN104021156A (zh) 一种基于sql语句快速汇总多层事实数据的方法
CN116361487A (zh) 一种多源异构政策知识图谱构建和存储方法及***
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及***
CN113918533A (zh) 一种基于大数据方向的rcs统一消息云服务***及其使用方法
CN115309749A (zh) 一种用于科技服务的大数据实验***
CN110297829A (zh) 一种面向特定行业结构化业务数据的全文检索方法及***
Gadu et al. A knowledge management framework using business intelligence solutions
CN111125045B (zh) 一种轻量级etl处理平台
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN107506475A (zh) 一种基于Spark的海量电力客服文本分类方法
CN115309789B (zh) 一种基于业务对象智能动态化实时生成关联数据图的方法
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质
CN109063063B (zh) 基于多源数据的数据处理方法及装置
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
WO2018100700A1 (ja) データ変換装置とデータ変換方法
CN112328653B (zh) 数据识别方法、装置、电子设备及存储介质
Su et al. [Retracted] Design and Application of Intelligent Management Platform Based on Big Data
CN112507213A (zh) 一种基于行为大数据分析的推荐优化的***方案的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 213100 No. 39 Longhui Road, Wujin High-tech Zone, Changzhou City, Jiangsu Province

Applicant after: Wanbang Charging Equipment Co., Ltd.

Address before: 215000 No. 39 Longhui Road, Wujin High-tech Zone, Suzhou High-tech Zone, Jiangsu Province

Applicant before: Wanbang Charging Equipment Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180824