CN109254967A

CN109254967A - 一种基于多源异构海量数据的深度分析方法及装置

Info

Publication number: CN109254967A
Application number: CN201810997549.0A
Authority: CN
Inventors: 张军; 苏玉召; 朱光军; 崔红涛; 芦刚
Original assignee: Henan Wisdom Yunda Data Co Ltd
Current assignee: Henan Wisdom Yunda Data Co Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2019-01-22

Abstract

本发明公开了一种基于多源异构海量数据的深度分析方法及装置，包括以下步骤：获取外部服务器中每个数据文件的存储位置和属性信息，选定对应的监测模式；并对数据文件进行追踪，当追踪到存在新增数据或者数据内容发生改变时，重新获取所述数据文件；当判断出所述数据文件为所需数据文件时，创建线程进行分析处理，根据支持的线程数量以及所述数据文件的优先级确定线程号；当轮到所述线程号对应的线程启动时，根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理。本发明能够降低数据文件获取的难度，提高对数据文件分析处理时的效率以及增加***的稳定性。

Description

一种基于多源异构海量数据的深度分析方法及装置

技术领域

本发明属于大数据挖掘分析技术领域，尤其是涉及一种基于多源异构海量数据的深度分析方法及装置。

背景技术

随着信息科技的发展，大数据技术已经成为了社会的重要研究方向和应用热点。众所周知，大数据是从海量的多维度的寻常数据中寻找有意义的关联、挖掘事物变化规律，准确预测事物发展趋势的技术。显然，海量是大数据的一个重要特征，而另一个重要特征则是数据的异构性。根据结构的不同可以将数据分为结构化数据、半结构化数据和非结构化数据。异构数据是指采用多种数据格式，有着不同的数据模型和语义环境的数据。

目前在很多应用场合，例如高校、科研院所和实验室等，由于各业务***建立时间和提供商不同，导致了各种数据的存在形式、来源和记录格式也各不相同，进而使得对数据进行分析的难度增大。另外，目前很多业务***还是以“文件形式”记录数据，由于各类数据的多源性，给数据文件的获取带来不便，在对这些数据进行加工处理时，效率较低并且大量占用***资源、影响***的稳定性等。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于多源异构海量数据的深度分析方法及装置，旨在降低数据文件获取的难度，提高对数据文件分析处理时的效率以及增加***的稳定性。

本发明采用的技术方案如下：

第一方面，本发明实施例提供的一种基于多源异构海量数据的深度分析方法，应用于基于多源异构海量数据的深度分析装置，所述基于多源异构海量数据的深度分析装置与外部服务器通信连接，所述基于多源异构海量数据的深度分析方法包括以下步骤：

获取所述外部服务器中每个数据文件的存储位置和属性信息，根据所述存储位置和属性信息选定对应的监测模式，其中，所述监测模式包括实时监测和定期扫描；

采用选定的监测模式对所述数据文件进行追踪，当追踪到所述数据文件中存在新增数据或者数据内容发生改变时，重新获取所述数据文件；

根据预设条件判断所述数据文件是否为所需数据文件；

当判断出所述数据文件为所需数据文件时，创建线程进行分析处理，根据支持的线程数量以及所述数据文件的优先级确定线程号；

当轮到所述线程号对应的线程启动时，根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理。

进一步地，所述根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理的步骤之后，所述基于多源异构海量数据的深度分析方法还包括：

在抽取后的数据中提取文本信息，并创建元数据；

从元数据库中抽取索引进行关联，将关联结果存储在索引数据库中，以供搜索。

进一步地，所述根据支持的线程数量以及所述数据文件的优先级确定线程号的步骤包括：

当所述数据文件的优先级相同时，随机分配所述数据文件的线程号。

进一步地，所述重新获取所述数据文件的步骤包括：

按照预设标准格式对获取到的数据文件中的数据进行清洗，过滤掉冗余信息；

对清洗后的数据进行分类，得到分类数据后进行存储。

第二方面，本发明实施例提供的一种基于多源异构海量数据的深度分析装置，与外部服务器通信连接，其特征在于，所述基于多源异构海量数据的深度装置包括：

监测模式选择模块，用于获取所述外部服务器中每个数据文件的存储位置和属性信息，根据所述存储位置和属性信息选定对应的监测模式，其中，所述监测模式包括实时监测和定期扫描；

追踪模块，用于采用选定的监测模式对所述数据文件进行追踪，当追踪到所述数据文件中存在新增数据或者数据内容发生改变时，重新获取所述数据文件；

判断模块，用于根据预设条件判断所述数据文件是否为所需数据文件；

线程创建模块，用于在判断出所述数据文件为所需数据文件时，创建线程进行分析处理，根据支持的线程数量以及所述数据文件的优先级确定线程号；

分析处理模块，用于在轮到所述线程号对应的线程启动时，根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理。

进一步地，所述分析处理模块包括元数据创建单元和索引关联单元，其中：

所述元数据创建单元，用于在抽取后的数据中提取文本信息，并创建元数据；

所述索引关联单元，用于从元数据库中抽取索引进行关联，将关联结果存储在索引数据库中，以供搜索。

进一步地，所述线程创建模块，还用于在所述数据文件的优先级相同时，随机分配所述数据文件的线程号。

进一步地，所述追踪模块还包括过滤单元和分类单元，其中：

所述过滤单元，用于按照预设标准格式对获取到的数据文件中的数据进行清洗，过滤掉冗余信息；

所述分类单元，用于对清洗后的数据进行分类，得到分类数据后进行存储。

综上所述，本发明通过获取所述外部服务器中每个数据文件的存储位置和属性信息选定对应的监测模式，根据所述监测模式对所述数据文件进行追踪，能够降低对所述数据文件获取的难度以及提高对所述数据文件进行监测的灵活性和有效性。其次，根据预设条件判断所述数据文件是否为所需数据文件，当判断出所述数据文件为所需数据文件时，创建线程进行分析处理，根据支持的线程数量以及所述数据文件的优先级确定线程号，在轮到所述线程号对应的线程启动时，根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理，如此能够提高对所述数据文件分析处理时的效率以及增加***的稳定性，避免占用大量的***资源。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种基于多源异构海量数据的深度分析方法及装置的应用环境示意图。

图2示出了本发明实施例提供的一种基于多源异构海量数据的深度分析方法的流程示意图。

图3示出了本发明实施例提供的一种基于多源异构海量数据的深度分析装置的功能模块示意图。

主要元件符号说明：

基于多源异构海量数据的深度分析装置100；外部服务器200；

监测模式选择模块101；追踪模块102 ；判断模块103；

线程创建模块104；分析处理模块105；元数据创建单元1051；

索引关联单元1052；过滤单元1021；分类单元1022。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明实施例提供的一种基于多源异构海量数据的深度分析方法及装置的应用环境示意图。所述基于多源异构海量数据的深度分析装置100与外部服务器200通信连接，以进行数据或信令的交互。所述外部服务器200可以是多个或者多种类型的服务器。本实施例中，所述外部服务器200可以是，但不限于远程FTP服务器，局域网远程数据服务器，局域网数据库服务器和本地服务器。优选地，所述基于多源异构海量数据的深度分析装置100可以应用于高校、科研院所和实验室等场所。值得说明的是，数据异构即源数据环境和目的数据环境是不同结构，典型的是源数据和目的数据所在的数据库管理***不同。

如图2所示，是本发明实施例提供的一种基于多源异构海量数据的深度分析方法的流程示意图。本实施例中，所述基于多源异构海量数据的深度分析方法可以包括以下步骤。

步骤S101：获取所述外部服务器200中每个数据文件的存储位置和属性信息，根据所述存储位置和属性信息选定对应的监测模式。

其中，所述监测模式可以包括实时监测和定期扫描。由于不同类型的服务器对数据文件的存储方式和存储位置存在不同，以及不同属性的数据在同一类型的服务器中存储方式和存储位置也存在不同。因此，需要首先获取所述外部服务器200中每个数据文件的存储位置和属性信息，然后根据所述存储位置和属性信息选定对应的监测模式。

值得说明的是，所述实时监测主要适用于局域网数据库服务器和本地服务器。所述定期扫描主要适用于远程FTP服务器和局域网远程数据服务器。

步骤S102：采用选定的监测模式对所述数据文件进行追踪，当追踪到所述数据文件中存在新增数据或者数据内容发生改变时，重新获取所述数据文件。

本实施例中，可以通过大数据技术预先将数据文件从所述外部服务器200复制到所述基于多源异构海量数据的深度分析装置100中，以保持数据文件的同步。在所述外部服务器200中没有新增数据或者数据内容未发生改变时，所述基于多源异构海量数据的深度分析装置100不与所述外部服务器200进行数据访问。只有当追踪到所述数据文件中存在新增数据或者数据内容发生改变时，重新获取所述数据文件。

另外，由于所述数据文件在新增数据或者数据内容发生改变时，存在一定的冗余信息。因此，在步骤S102中，所述重新获取所述数据文件的步骤可以包括按照预设标准格式对获取到的数据文件中的数据进行清洗，过滤掉冗余信息。以及对清洗后的数据进行分类，得到分类数据后进行存储。

步骤S103：根据预设条件判断所述数据文件是否为所需数据文件。

本实施例中，追踪到的所述数据文件为某一路径下的所有内容，但是所述路径下的所有文件并非都需要处理。因此需要按照实际需求预先对所述数据文件是否为所需的数据文件进行判断，以筛选出符合预设条件的数据文件。

步骤S104：当判断出所述数据文件为所需数据文件时，创建线程进行分析处理，根据支持的线程数量以及所述数据文件的优先级确定线程号。

其中，由于可能存在多个数据文件同时发生变化，因此采用多线程技术对所述数据文件进行分析处理。具体地，根据所述支持的线程数量确定当前数据文件是否被处理。在需要处理的数据文件的数量超过支持的线程数量时，根据所述数据文件的优先级决定是否处理所述数据文件。在当所述数据文件的优先级相同时，随机分配所述数据文件的线程号，如此提高对数据文件分析处理时的效率以及增加***的稳定性。

步骤S105：当轮到所述线程号对应的线程启动时，根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理。

具体地，所述基于多源异构海量数据的深度分析装置100按照所述数据文件的属性信息将对应的信息抽取出来。当所述数据文件为文本数据格式时，只需直接进行数据读取。如果所述数据文件采用了加密技术，需要先将该数据文件进行解密，然后再进行数据读取。最后再对抽取出来的信息进行后续的分析处理等。

本实施例中，再对该数据进行分析处理的步骤之后，所述基于多源异构海量数据的深度分析方法还可以包括：在抽取后的数据中提取文本信息，并创建元数据。以及从元数据库中抽取索引进行关联，将关联结果存储在索引数据库中，以供搜索。

如图3所示，是本发明实施例提供的一种基于多源异构海量数据的深度分析装置100的功能模块框图。结合图1，所述基于多源异构海量数据的深度分析装置100与外部服务器200通信连接，所述外部服务器200可以是多个或者多种类型的服务器。其中，所述外部服务器200可以是，但不限于远程FTP服务器，局域网远程数据服务器，局域网数据库服务器和本地服务器。优选地，所述基于多源异构海量数据的深度分析装置100可以应用于高校、科研院所和实验室等场所。

本实施例中，所述基于多源异构海量数据的深度分析装置100可以包括监测模式选择模块101，追踪模块102，判断模块103，线程创建模块104和分析处理模块105等。其中，所述追踪模块102还包括过滤单元1021和分类单元1022。所述分析处理模块105包括元数据创建单元1051和索引关联单元1052。

下面将对以上功能模块进行简要说明。

所述监测模式选择模块101，用于获取所述外部服务器200中每个数据文件的存储位置和属性信息，根据所述存储位置和属性信息选定对应的监测模式，其中，所述监测模式包括实时监测和定期扫描。

所述追踪模块102，用于采用选定的监测模式对所述数据文件进行追踪，当追踪到所述数据文件中存在新增数据或者数据内容发生改变时，重新获取所述数据文件。

本实施例中，所述追踪模块102还包括过滤单元1021和分类单元1022。其中：所述过滤单元1021，用于按照预设标准格式对获取到的数据文件中的数据进行清洗，过滤掉冗余信息。所述分类单元1022，用于对清洗后的数据进行分类，得到分类数据后进行存储。

所述判断模块103，用于根据预设条件判断所述数据文件是否为所需数据文件。

所述线程创建模块104，用于在判断出所述数据文件为所需数据文件时，创建线程进行分析处理，根据支持的线程数量以及所述数据文件的优先级确定线程号。

所述线程创建模块104，还用于在所述数据文件的优先级相同时，随机分配所述数据文件的线程号。

所述分析处理模块105，用于在轮到所述线程号对应的线程启动时，根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理。

本实施例中，所述分析处理模块105包括元数据创建单元1051和索引关联单元1052。具体地，所述元数据创建单元1051，用于在抽取后的数据中提取文本信息，并创建元数据。所述索引关联单元1052，用于从元数据库中抽取索引进行关联，将关联结果存储在索引数据库中，以供搜索。

值得注意的是，本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

综上所述，本发明通过获取所述外部服务器200中每个数据文件的存储位置和属性信息选定对应的监测模式，根据所述监测模式对所述数据文件进行追踪，能够降低对所述数据文件获取的难度以及提高对所述数据文件进行监测的灵活性和有效性。其次，根据预设条件判断所述数据文件是否为所需数据文件，当判断出所述数据文件为所需数据文件时，创建线程进行分析处理，根据支持的线程数量以及所述数据文件的优先级确定线程号，在轮到所述线程号对应的线程启动时，根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理，如此能够提高对所述数据文件分析处理时的效率以及增加***的稳定性，避免占用大量的***资源。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种基于多源异构海量数据的深度分析方法，应用于基于多源异构海量数据的深度分析装置，所述基于多源异构海量数据的深度分析装置与外部服务器通信连接，其特征在于，所述基于多源异构海量数据的深度分析方法包括以下步骤：

根据预设条件判断所述数据文件是否为所需数据文件；

2.根据权利要求1所述的基于多源异构海量数据的深度分析方法，其特征在于，所述根据所述数据文件的属性信息抽取对应的数据，并对该数据进行分析处理的步骤之后，所述基于多源异构海量数据的深度分析方法还包括：

在抽取后的数据中提取文本信息，并创建元数据；

3.根据权利要求1所述的基于多源异构海量数据的深度分析方法，其特征在于，所述根据支持的线程数量以及所述数据文件的优先级确定线程号的步骤包括：

4.根据权利要求1所述的基于多源异构海量数据的深度分析方法，其特征在于，所述重新获取所述数据文件的步骤包括：

对清洗后的数据进行分类，得到分类数据后进行存储。

5.一种基于多源异构海量数据的深度分析装置，与外部服务器通信连接，其特征在于，所述基于多源异构海量数据的深度装置包括：

6.根据权利要求1所述的基于多源异构海量数据的深度分析装置，其特征在于，所述分析处理模块包括元数据创建单元和索引关联单元，其中：

7.根据权利要求1所述的基于多源异构海量数据的深度分析装置，其特征在于，

所述线程创建模块，还用于在所述数据文件的优先级相同时，随机分配所述数据文件的线程号。

8.根据权利要求1所述的基于多源异构海量数据的深度分析装置，其特征在于，所述追踪模块还包括过滤单元和分类单元，其中：