CN110704381A

CN110704381A - 数据解析方法、装置及存储介质

Info

Publication number: CN110704381A
Application number: CN201910850992.XA
Authority: CN
Inventors: 陈万慧; 苏雪婷; 杨鑫
Original assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Current assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-17

Abstract

本发明涉及数据采集技术，提出了一种数据解析方法、电子装置及存储介质。该方法包括：利用预先配置的网络数据获取脚本从预设网址获取网络数据，对获取的所述网络数据进行预处理，并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中；从所述网络数据文件中收集待解析数据，对每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识，将添加标识后的数据进行缓存；将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区；解析所述缓存分区中的待解析数据，利用预设模板校验解析后的数据，若解析后的数据通过校验，则将解析后的数据保存到数据库中。利用本发明，实现了审核存入数据库前的数据，提升数据存入数据库的效率。

Description

数据解析方法、装置及存储介质

技术领域

本发明涉及数据采集技术领域，尤其涉及一种数据解析方法、装置及存储介质。

背景技术

随着网络的迅速发展，万维网作为大量信息的载体，已经成为数据分析领域的一个重要数据来源，现有技术中，通常是利用数据获取程序或者脚本从万维网自动获取数据。

目前，业界在采用这类数据获取程序或者脚本获取数据后，往往需要提醒相关人员创建数据库表来保存数据。这种人工提醒创建表的方式需要大量的人为干预，无法保证数据存储的实时性，同时，人工方式容易出错且需要花费大量的人工时间。

发明内容

本发明提供一种数据解析方法、装置及存储介质，其主要目的是审核存入数据库前的数据，提升数据存入数据库的效率。

为实现上述目的，本发明提供一种数据解析方法，该方法包括以下步骤：

获取步骤：分别利用预先配置的网络数据获取脚本实时或者定时从预设网址获取网络数据，对获取的所述网络数据进行预处理，并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中；

缓存步骤：实时或者定时从所述网络数据文件中收集待解析数据，对收集到的每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识，将添加标识后的数据进行缓存；

分配步骤：将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区；及

匹配步骤：根据所述各个缓存分区的标识从小到大的顺序解析对应的待解析数据，利用预设模板校验解析后的数据，若解析后的数据通过预设模板的校验，则将解析后的数据保存到数据库中。

优选地，若解析后的数据未通过预设模板的校验，则发送预设格式的附带修改建议的警示信息给预设客户端，在接收到所述预设客户端响应所述警示信息提交的创建模板请求后，重新解析所述缓存分区中的待解析数据，根据解析后的数据创建新的模板，并将新模板与原模板的差异部分写入到日志文件中。

优选地，所述预处理包括：删除所述网络数据中的特殊标点字符，将数字、字母的全角转换为半角，去除所述网络数据中的双引号，将所述网络数据中的日期格式转换为预设格式，删除所述网络数据中的重复数据。

优选地，所述分区建立规则包括根据预先确定的第一差值速度与新建分区数量的映射关系，确定当前的第一差值速度对应的新建分区数量；及

所述分区注销规则包括根据预先确定的第二差值速度与注销分区数量的映射关系，确定当前的第二差值速度对应的注销分区数量。

优选地，若所述缓存分区中的待解析数据的数量大于或者等于第一预设数量，则根据预先确定的分区建立规则新建缓存分区；及

若所述缓存分区中的待解析数据的数量小于或者等于第二预设数量，则根据预先确定的分区注销规则注销相应数量的缓存分区。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的数据解析程序，所述数据解析程序被所述处理器执行时实现如下步骤：

相较现有技术，本发明利用预先配置的网络数据获取脚本从预设网址获取网络数据，对各个待解析数据分别添加不同的数据标识，并建立待解析数据与标识的映射关系，将添加标识后的数据进行缓存；将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区；解析所述各个缓存分区的待解析数据，将解析后的数据与预设模板进行匹配，若与预设模板匹配成功，则将解析后的数据保存到数据库，有效实现了审核存入数据库前的数据，提升数据存入数据库的效率。

附图说明

图1为本发明数据解析方法一实施例的流程图；

图2为本发明电子装置一实施例的内部结构示意图；

图3为图2中的数据解析程序一实施例的程序模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1所示，为本发明一实施例提供的数据解析方法的流程示意图。该方法可以由一个电子装置执行，该电子装置可以由软件和/或硬件实现。

在本实施例中，该数据解析方法包括：

步骤S10，利用预先配置的网络数据获取脚本实时或者定时从预设网址获取网络数据，对获取的所述网络数据进行预处理，并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中。

所述预处理包括：删除所述网络数据中的特殊标点字符，将数字、字母的全角转换为半角，去除所述网络数据中的双引号，将所述网络数据中的日期格式转换为预设格式，删除所述网络数据中的重复数据。

在一实施例中，网络数据获取脚本可以由python或JavaScript语言编写。网络获取设备可以为运行网络数据获取脚本的终端，例如台式电脑。网络获取脚本根据研发人员提供的网址和获取条件，实时或定时获取网址的信息。预处理后的数据可以为json格式，并以键值对(Key-Value)的形式存储到所述网络数据文件中，示例如下：

步骤S20，实时或者定时从所述网络数据文件中收集待解析数据，对收集到的每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识，将添加标识后的数据进行缓存。

在本实施例中，收集数据可以利用flume，缓存数据可以采用kafka。Flume是一个分布式的、高可用的海量日志收集、聚合和传输的日志收集***，支持在日志***中定制各类数据发送方(如：Kafka，HDFS等)，便于收集数据。kafka是一个分布式消息队列，可以实时的处理大量数据以满足各种需求场景，具有高性能、持久化、多副本备份、横向扩展能力。

在本发明的另一实施例中，收集到待解析数据后，对收集到每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识，将添加数据标识的待解析数据备份到预设存储空间，并对备份后的待解析数据执行缓存操作、存储到指定的缓存空间进行缓存，待解析数据缓存成功后，从所述预设存储空间中删除备份的该待解析数据。

例如，flume收集到待解析数据A，为待解析数据A添加数据标识1，形成待解析数据1-A，将待解析数据1-A保存于flume中，将待解析数据1-A发送给kafka。

kafka接收到待解析数据1-A后，将数据标识1发送给flume，flume接收到数据标识1后，表明数据标识为1的待解析数据已成功被kafka缓存，flume根据接收到的数据标识1，查找到待解析数据1-A，并将待解析数据1-A删除。

步骤S30，将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区。

在本发明的一实施例中，kafka将队列中的待解析数据均匀分配到所述缓存空间的各个缓存分区中。存储于数据队列中的待解析数据具有先进先出的特点。例如：数据队列首先接收待解析数据X1，接着接收待解析数据X2，然后接收待解析数据X3，则数据队列输出待解析数据的顺序为X1，X2，X3。

在本发明的同一实施例中，分区建立规则为：若数据队列中的待解析数据数量大于或者等于第一预设数量，则根据队列的待解析数据的接收速度(例如，P1条/毫秒)和输出速度(例如，P2条/毫秒)计算得到第一差值速度(P1-P2)，并根据预先确定的第一差值速度与新建分区数量的映射关系，确定当前的第一差值速度对应的新建分区数量。

根据第一差值速度建立分区数量的对照表如下所示：

分区注销规则为：若队列中的待解析数据数量小于或者等于第二预设数量，则根据队列的待解析数据的接收速度(例如，P1条/毫秒)和输出速度(例如，P2条/毫秒)计算得到第二差值速度(P2-P1)，并根据预先确定的第二差值速度与注销分区数量的映射关系，确定当前的第二差值速度对应的注销分区数量。

根据第一差值速度注销分区数量的对照表如下所示：

步骤S40，根据所述各个缓存分区的待解析数据的标识从小到大的顺序解析对应的待解析数据，利用预设模板校验解析后的数据，若解析后的数据通过预设模板的校验，则将解析后的数据保存到数据库中。

若解析后的数据未通过预设模板的校验，则发送预设格式的附带修改建议的警示信息给管理人员，在接收到管理人员基于所述警示邮件建议的创建模板请求后，重新解析所述缓存分区中的待解析数据，根据解析后的数据创建新的模板，并将新模板与原模板的差异部分写入到日志文件中。

所述预设模板定义了解析数据存储入数据库的规则，用于判断解析后的数据是否符合存入数据库的条件。

在本发明的一个实施例中，预设模板规定了存入数据库的数据的条件，若解析后的数据符合预设模板规定的存入数据库的数据的条件，则允许该解析后的数据存入数据库。例如，预设模板内包括键(键值对Key-Value中的Key，也称为字段)为id、title、url、city这四个字段，并分别给每个字段保存的内容定义规则。

例如，定义id字段保存的内容只能为数字，将解析后的数据中的字段与预设模板中的字段进行对比，若预设模板中存在与解析后的数据中的字段，再判断解析后的数据中的id字段保存的内容是否为数字，若为数字，则该id字段通过了预设模板的检验。

在另一实时例中，若解析待解析数据后发现解析后的数据中有新增字段，则将该新的字段增加到原模板中，形成新的模板。例如，某一待解析数据解析后，发现该数据有一新的name字段，而该字段模板中没有该字段，根据管理人员的设置，将该name字段的名称和该name字段保存的内容要求添加到模板中，形成新的模板，并将新模板与原模板的差异部分写入到日志文件中。

本发明还提出一种电子装置。参照图2所示，为本发明一实施例提供的电子装置的内部结构示意图。

在本实施例中，所述电子装置1至少包括存储器11、处理器12，网络接口13，以及通信总线。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子装置1的内部存储单元，例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子装置1的应用软件及各类数据，例如数据解析程序10的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行数据解析程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线用于实现这些组件之间的连接通信。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-13以及数据解析程序10的电子装置1，本领域技术人员可以理解的是，图2示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的电子装置1实施例中，存储器11中存储有数据解析程序10，处理器12执行存储器11中存储的数据解析程序10时实现如下步骤：

获取步骤：利用各个预先确定的网络获取设备分别利用预先配置的网络数据获取脚本实时或者定时获取网络数据，对获取的所述网络数据进行预处理，并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中；

具体原理请参照下述图3关于数据解析程序10的程序模块图的介绍，在此不作累述。

可选地，在其他的实施例中，数据解析程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述数据解析程序在电子装置中的执行过程。

例如，参照图3所示，为本发明提供的电子装置1一实施例中的数据解析程序的程序模块示意图，该实施例中，数据解析程序10可以被分割为获取模块110、缓存模块120、分配模块130、匹配模块140，示例性地：

获取模块110：用于分别利用预先配置的网络数据获取脚本实时或者定时从预设网址获取网络数据，对获取的所述网络数据进行预处理，并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中。

缓存模块120：用于实时或者定时从所述网络数据文件中收集待解析数据，对收集到的每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识，将添加标识后的数据进行缓存。

在本实施例中，收集数据可以利用flume，缓存数据可以采用kafka。Flume是一个分布式的、高可用的海量日志收集、聚合和传输的日志收集***，支持在日志***中定制各类数据发送方(如：Kafka，HDFS等)，便于收集数据。

在本实施例中，每条待解析数据都有一个long型数字的数据标识，用于区分不同数据，每条待解析数据按对应的数据标识由小到大的顺序排列在一起。

例如，待解析数据X1对应的数据标识为1、待解析数据X2对应的数据标识为2、待解析数据X3对应的数据标识为3，则待解析数据X1、解析数据X2、待解析数据X3的排列顺序是X1、X2、X3。

不同的待解析数据对应不同的数据标识，每条待解析数据对应的long型数据标识的大小与对应的数据接收时间相关，接收时间较早的待解析数据对应的long型数据较小，接收时间较晚的待解析数据对应的long型数据较大。

例如，待解析数据X1的接收时间T1早于待解析数据X2的接收时间T2，待解析数据X2的接收时间T2早于待解析数据X3的接收时间T3，则在为待解析数据X1、解析数据X2、待解析数据X3生成对应的long型数据标识的规则是：待解析数据X1对应的long型数据标识小于待解析数据X2对应的long型数据标识，待解析数据X2对应的long型数据标识小于待解析数据X3对应的long型数据标识。

分配模块130：用于将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区。

若kafka的某一缓存分区接收数据失败，则重新启动该分区，检查最后一次待解析数据输出是否成功，若输出成功，获取最后一次输出待解析数据的数据标识，将该数据标识发送给flume，flume接收到该数据标识后，根据数据标识将已发送的该标识后面的待解析数据发送给该分区。

例如：flume已将标识为10到100的待解析数据发送给kafka的第一分区，在第一分区输出待解析数据过程中出现失败，第一分区输出的最后一个待解析数据的标识15，重启第一分区后，第一分区将数值为15的标识发送给收集模块，flume将16到100的待解析数据再一次发送给该第一分区。

在本发明的一个实施例中，kafka接收待解析数据是将待解析数据存储于kafka的数据队列中，再将队列中的待解析数据均匀分配到kafka的各个缓存分区中。存储于数据队列中的待解析数据具有先进入先输出的特点。例如：数据队列首先接收待解析数据X1，接着接收待解析数据X2，然后接收待解析数据X3，则数据队列输出待解析数据的顺序为X1，X2，X3。

在本发明的另一实施例中，将队列中的待解析数据均匀分配到kafka的各个分区的步骤包括：

若队列中有100条待解析数据，待解析数据的标识是从0到99。将待解析数据平均分成5段，第一段待解析数据的标识为0-19，第二段待解析数据的标识为20-39，以此类推，将每段待解析数据分配到各个分区中。

匹配模块140：用于根据所述各个缓存分区的标识从小到大的顺序解析对应的待解析数据，利用预设模板校验解析后的数据，若解析后的数据通过预设模板的校验，则将解析后的数据保存到数据库中。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有数据解析程序，所述数据解析程序可被一个或多个处理器执行，以实现如下步骤：

本发明存储介质具体实施方式与上述电子装置1和***各实施例基本相同，在此不作累述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据解析方法，应用于电子装置，其特征在于，所述方法包括：

2.如权利要求1所述的数据解析方法，其特征在于，该方法还包括：若解析后的数据未通过预设模板的校验，则发送预设格式的附带修改建议的警示信息给预设客户端，在接收到所述预设客户端响应所述警示信息提交的创建模板请求后，重新解析所述缓存分区中的待解析数据，根据解析后的数据创建新的模板，并将新模板与原模板的差异部分写入到日志文件中。

3.如权利要求1所述的数据解析方法，其特征在于，所述预处理包括：删除所述网络数据中的特殊标点字符，将数字、字母的全角转换为半角，去除所述网络数据中的双引号，将所述网络数据中的日期格式转换为预设格式，删除所述网络数据中的重复数据。

4.如权利要求1所述的数据解析方法，其特征在于，若所述缓存分区中的待解析数据的数量大于或者等于第一预设数量，则根据预先确定的分区建立规则新建缓存分区；及

5.如权利要求4所述的数据解析方法，其特征在于，所述分区建立规则包括根据预先确定的第一差值速度与新建分区数量的映射关系，确定当前的第一差值速度对应的新建分区数量；及

6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括数据解析程序，该数据解析程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，若解析后的数据未通过预设模板的校验，则发送预设格式的附带修改建议的警示信息给预设客户端，在接收到所述预设客户端响应所述警示信息提交的创建模板请求后，重新解析所述缓存分区中的待解析数据，根据解析后的数据创建新的模板，并将新模板与原模板的差异部分写入到日志文件中。

8.如权利要求6所述的电子装置，其特征在于，所述预处理包括：删除所述网络数据中的特殊标点字符，将数字、字母的全角转换为半角，去除所述网络数据中的双引号，将所述网络数据中的日期格式转换为预设格式，删除所述网络数据中的重复数据。

9.如权利要求6至8中任意一项所述的电子装置，其特征在于，若所述缓存分区中的待解析数据的数量大于或者等于第一预设数量，则根据预先确定的分区建立规则新建缓存分区的数量以增加用于存储待解析数据的分区；及

若所述缓存分区中的待解析数据的数量小于或者等于第二预设数量，则根据预先确定的分区注销规则注销缓存分区的数量以减少用于存储待解析数据的分区。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括数据解析程序，所述数据解析程序被处理器执行时，实现如权利要求1至5中任一项所述的数据解析方法的步骤。