CN109254967A - 一种基于多源异构海量数据的深度分析方法及装置 - Google Patents

一种基于多源异构海量数据的深度分析方法及装置 Download PDF

Info

Publication number
CN109254967A
CN109254967A CN201810997549.0A CN201810997549A CN109254967A CN 109254967 A CN109254967 A CN 109254967A CN 201810997549 A CN201810997549 A CN 201810997549A CN 109254967 A CN109254967 A CN 109254967A
Authority
CN
China
Prior art keywords
data
data file
thread
source heterogeneous
heterogeneous mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810997549.0A
Other languages
English (en)
Inventor
张军
苏玉召
朱光军
崔红涛
芦刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Wisdom Yunda Data Co Ltd
Original Assignee
Henan Wisdom Yunda Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Wisdom Yunda Data Co Ltd filed Critical Henan Wisdom Yunda Data Co Ltd
Priority to CN201810997549.0A priority Critical patent/CN109254967A/zh
Publication of CN109254967A publication Critical patent/CN109254967A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多源异构海量数据的深度分析方法及装置,包括以下步骤:获取外部服务器中每个数据文件的存储位置和属性信息,选定对应的监测模式;并对数据文件进行追踪,当追踪到存在新增数据或者数据内容发生改变时,重新获取所述数据文件;当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号;当轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。本发明能够降低数据文件获取的难度,提高对数据文件分析处理时的效率以及增加***的稳定性。

Description

一种基于多源异构海量数据的深度分析方法及装置
技术领域
本发明属于大数据挖掘分析技术领域,尤其是涉及一种基于多源异构海量数据的深度分析方法及装置。
背景技术
随着信息科技的发展,大数据技术已经成为了社会的重要研究方向和应用热点。众所周知,大数据是从海量的多维度的寻常数据中寻找有意义的关联、挖掘事物变化规律,准确预测事物发展趋势的技术。显然,海量是大数据的一个重要特征,而另一个重要特征则是数据的异构性。根据结构的不同可以将数据分为结构化数据、半结构化数据和非结构化数据。异构数据是指采用多种数据格式,有着不同的数据模型和语义环境的数据。
目前在很多应用场合,例如高校、科研院所和实验室等,由于各业务***建立时间和提供商不同,导致了各种数据的存在形式、来源和记录格式也各不相同,进而使得对数据进行分析的难度增大。另外,目前很多业务***还是以“文件形式”记录数据,由于各类数据的多源性,给数据文件的获取带来不便,在对这些数据进行加工处理时,效率较低并且大量占用***资源、影响***的稳定性等。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于多源异构海量数据的深度分析方法及装置,旨在降低数据文件获取的难度,提高对数据文件分析处理时的效率以及增加***的稳定性。
本发明采用的技术方案如下:
第一方面,本发明实施例提供的一种基于多源异构海量数据的深度分析方法,应用于基于多源异构海量数据的深度分析装置,所述基于多源异构海量数据的深度分析装置与外部服务器通信连接,所述基于多源异构海量数据的深度分析方法包括以下步骤:
获取所述外部服务器中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式,其中,所述监测模式包括实时监测和定期扫描;
采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件;
根据预设条件判断所述数据文件是否为所需数据文件;
当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号;
当轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。
进一步地,所述根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理的步骤之后,所述基于多源异构海量数据的深度分析方法还包括:
在抽取后的数据中提取文本信息,并创建元数据;
从元数据库中抽取索引进行关联,将关联结果存储在索引数据库中,以供搜索。
进一步地,所述根据支持的线程数量以及所述数据文件的优先级确定线程号的步骤包括:
当所述数据文件的优先级相同时,随机分配所述数据文件的线程号。
进一步地,所述重新获取所述数据文件的步骤包括:
按照预设标准格式对获取到的数据文件中的数据进行清洗,过滤掉冗余信息;
对清洗后的数据进行分类,得到分类数据后进行存储。
第二方面,本发明实施例提供的一种基于多源异构海量数据的深度分析装置,与外部服务器通信连接,其特征在于,所述基于多源异构海量数据的深度装置包括:
监测模式选择模块,用于获取所述外部服务器中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式,其中,所述监测模式包括实时监测和定期扫描;
追踪模块,用于采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件;
判断模块,用于根据预设条件判断所述数据文件是否为所需数据文件;
线程创建模块,用于在判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号;
分析处理模块,用于在轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。
进一步地,所述分析处理模块包括元数据创建单元和索引关联单元,其中:
所述元数据创建单元,用于在抽取后的数据中提取文本信息,并创建元数据;
所述索引关联单元,用于从元数据库中抽取索引进行关联,将关联结果存储在索引数据库中,以供搜索。
进一步地,所述线程创建模块,还用于在所述数据文件的优先级相同时,随机分配所述数据文件的线程号。
进一步地,所述追踪模块还包括过滤单元和分类单元,其中:
所述过滤单元,用于按照预设标准格式对获取到的数据文件中的数据进行清洗,过滤掉冗余信息;
所述分类单元,用于对清洗后的数据进行分类,得到分类数据后进行存储。
综上所述,本发明通过获取所述外部服务器中每个数据文件的存储位置和属性信息选定对应的监测模式,根据所述监测模式对所述数据文件进行追踪,能够降低对所述数据文件获取的难度以及提高对所述数据文件进行监测的灵活性和有效性。其次,根据预设条件判断所述数据文件是否为所需数据文件,当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号,在轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理,如此能够提高对所述数据文件分析处理时的效率以及增加***的稳定性,避免占用大量的***资源。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种基于多源异构海量数据的深度分析方法及装置的应用环境示意图。
图2示出了本发明实施例提供的一种基于多源异构海量数据的深度分析方法的流程示意图。
图3示出了本发明实施例提供的一种基于多源异构海量数据的深度分析装置的功能模块示意图。
主要元件符号说明:
基于多源异构海量数据的深度分析装置100; 外部服务器200;
监测模式选择模块101; 追踪模块102 ; 判断模块103;
线程创建模块104; 分析处理模块105; 元数据创建单元1051;
索引关联单元1052; 过滤单元1021; 分类单元1022。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前在很多应用场合,例如高校、科研院所和实验室等,由于各业务***建立时间和提供商不同,导致了各种数据的存在形式、来源和记录格式也各不相同,进而使得对数据进行分析的难度增大。另外,目前很多业务***还是以“文件形式”记录数据,由于各类数据的多源性,给数据文件的获取带来不便,在对这些数据进行加工处理时,效率较低并且大量占用***资源、影响***的稳定性等。
有鉴于此,本发明实施例的目的在于提供一种基于多源异构海量数据的深度分析方法及装置,旨在降低数据文件获取的难度,提高对数据文件分析处理时的效率以及增加***的稳定性。
如图1所示,是本发明实施例提供的一种基于多源异构海量数据的深度分析方法及装置的应用环境示意图。所述基于多源异构海量数据的深度分析装置100与外部服务器200通信连接,以进行数据或信令的交互。所述外部服务器200可以是多个或者多种类型的服务器。本实施例中,所述外部服务器200可以是,但不限于远程FTP服务器,局域网远程数据服务器,局域网数据库服务器和本地服务器。优选地,所述基于多源异构海量数据的深度分析装置100可以应用于高校、科研院所和实验室等场所。值得说明的是,数据异构即源数据环境和目的数据环境是不同结构,典型的是源数据和目的数据所在的数据库管理***不同。
如图2所示,是本发明实施例提供的一种基于多源异构海量数据的深度分析方法的流程示意图。本实施例中,所述基于多源异构海量数据的深度分析方法可以包括以下步骤。
步骤S101:获取所述外部服务器200中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式。
其中,所述监测模式可以包括实时监测和定期扫描。由于不同类型的服务器对数据文件的存储方式和存储位置存在不同,以及不同属性的数据在同一类型的服务器中存储方式和存储位置也存在不同。因此,需要首先获取所述外部服务器200中每个数据文件的存储位置和属性信息,然后根据所述存储位置和属性信息选定对应的监测模式。
值得说明的是,所述实时监测主要适用于局域网数据库服务器和本地服务器。所述定期扫描主要适用于远程FTP服务器和局域网远程数据服务器。
步骤S102:采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件。
本实施例中,可以通过大数据技术预先将数据文件从所述外部服务器200复制到所述基于多源异构海量数据的深度分析装置100中,以保持数据文件的同步。在所述外部服务器200中没有新增数据或者数据内容未发生改变时,所述基于多源异构海量数据的深度分析装置100不与所述外部服务器200进行数据访问。只有当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件。
另外,由于所述数据文件在新增数据或者数据内容发生改变时,存在一定的冗余信息。因此,在步骤S102中,所述重新获取所述数据文件的步骤可以包括按照预设标准格式对获取到的数据文件中的数据进行清洗,过滤掉冗余信息。以及对清洗后的数据进行分类,得到分类数据后进行存储。
步骤S103:根据预设条件判断所述数据文件是否为所需数据文件。
本实施例中,追踪到的所述数据文件为某一路径下的所有内容,但是所述路径下的所有文件并非都需要处理。因此需要按照实际需求预先对所述数据文件是否为所需的数据文件进行判断,以筛选出符合预设条件的数据文件。
步骤S104:当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号。
其中,由于可能存在多个数据文件同时发生变化,因此采用多线程技术对所述数据文件进行分析处理。具体地,根据所述支持的线程数量确定当前数据文件是否被处理。在需要处理的数据文件的数量超过支持的线程数量时,根据所述数据文件的优先级决定是否处理所述数据文件。在当所述数据文件的优先级相同时,随机分配所述数据文件的线程号,如此提高对数据文件分析处理时的效率以及增加***的稳定性。
步骤S105:当轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。
具体地,所述基于多源异构海量数据的深度分析装置100按照所述数据文件的属性信息将对应的信息抽取出来。当所述数据文件为文本数据格式时,只需直接进行数据读取。如果所述数据文件采用了加密技术,需要先将该数据文件进行解密,然后再进行数据读取。最后再对抽取出来的信息进行后续的分析处理等。
本实施例中,再对该数据进行分析处理的步骤之后,所述基于多源异构海量数据的深度分析方法还可以包括:在抽取后的数据中提取文本信息,并创建元数据。以及从元数据库中抽取索引进行关联,将关联结果存储在索引数据库中,以供搜索。
如图3所示,是本发明实施例提供的一种基于多源异构海量数据的深度分析装置100的功能模块框图。结合图1,所述基于多源异构海量数据的深度分析装置100与外部服务器200通信连接,所述外部服务器200可以是多个或者多种类型的服务器。其中,所述外部服务器200可以是,但不限于远程FTP服务器,局域网远程数据服务器,局域网数据库服务器和本地服务器。优选地,所述基于多源异构海量数据的深度分析装置100可以应用于高校、科研院所和实验室等场所。
本实施例中,所述基于多源异构海量数据的深度分析装置100可以包括监测模式选择模块101,追踪模块102,判断模块103,线程创建模块104和分析处理模块105等。其中,所述追踪模块102还包括过滤单元1021和分类单元1022。所述分析处理模块105包括元数据创建单元1051和索引关联单元1052。
下面将对以上功能模块进行简要说明。
所述监测模式选择模块101,用于获取所述外部服务器200中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式,其中,所述监测模式包括实时监测和定期扫描。
所述追踪模块102,用于采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件。
本实施例中,所述追踪模块102还包括过滤单元1021和分类单元1022。其中:所述过滤单元1021,用于按照预设标准格式对获取到的数据文件中的数据进行清洗,过滤掉冗余信息。所述分类单元1022,用于对清洗后的数据进行分类,得到分类数据后进行存储。
所述判断模块103,用于根据预设条件判断所述数据文件是否为所需数据文件。
所述线程创建模块104,用于在判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号。
所述线程创建模块104,还用于在所述数据文件的优先级相同时,随机分配所述数据文件的线程号。
所述分析处理模块105,用于在轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。
本实施例中,所述分析处理模块105包括元数据创建单元1051和索引关联单元1052。具体地,所述元数据创建单元1051,用于在抽取后的数据中提取文本信息,并创建元数据。所述索引关联单元1052,用于从元数据库中抽取索引进行关联,将关联结果存储在索引数据库中,以供搜索。
值得注意的是,本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
综上所述,本发明通过获取所述外部服务器200中每个数据文件的存储位置和属性信息选定对应的监测模式,根据所述监测模式对所述数据文件进行追踪,能够降低对所述数据文件获取的难度以及提高对所述数据文件进行监测的灵活性和有效性。其次,根据预设条件判断所述数据文件是否为所需数据文件,当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号,在轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理,如此能够提高对所述数据文件分析处理时的效率以及增加***的稳定性,避免占用大量的***资源。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (8)

1.一种基于多源异构海量数据的深度分析方法,应用于基于多源异构海量数据的深度分析装置,所述基于多源异构海量数据的深度分析装置与外部服务器通信连接,其特征在于,所述基于多源异构海量数据的深度分析方法包括以下步骤:
获取所述外部服务器中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式,其中,所述监测模式包括实时监测和定期扫描;
采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件;
根据预设条件判断所述数据文件是否为所需数据文件;
当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号;
当轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。
2.根据权利要求1所述的基于多源异构海量数据的深度分析方法,其特征在于,所述根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理的步骤之后,所述基于多源异构海量数据的深度分析方法还包括:
在抽取后的数据中提取文本信息,并创建元数据;
从元数据库中抽取索引进行关联,将关联结果存储在索引数据库中,以供搜索。
3.根据权利要求1所述的基于多源异构海量数据的深度分析方法,其特征在于,所述根据支持的线程数量以及所述数据文件的优先级确定线程号的步骤包括:
当所述数据文件的优先级相同时,随机分配所述数据文件的线程号。
4.根据权利要求1所述的基于多源异构海量数据的深度分析方法,其特征在于,所述重新获取所述数据文件的步骤包括:
按照预设标准格式对获取到的数据文件中的数据进行清洗,过滤掉冗余信息;
对清洗后的数据进行分类,得到分类数据后进行存储。
5.一种基于多源异构海量数据的深度分析装置,与外部服务器通信连接,其特征在于,所述基于多源异构海量数据的深度装置包括:
监测模式选择模块,用于获取所述外部服务器中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式,其中,所述监测模式包括实时监测和定期扫描;
追踪模块,用于采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件;
判断模块,用于根据预设条件判断所述数据文件是否为所需数据文件;
线程创建模块,用于在判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号;
分析处理模块,用于在轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。
6.根据权利要求1所述的基于多源异构海量数据的深度分析装置,其特征在于,所述分析处理模块包括元数据创建单元和索引关联单元,其中:
所述元数据创建单元,用于在抽取后的数据中提取文本信息,并创建元数据;
所述索引关联单元,用于从元数据库中抽取索引进行关联,将关联结果存储在索引数据库中,以供搜索。
7.根据权利要求1所述的基于多源异构海量数据的深度分析装置,其特征在于,
所述线程创建模块,还用于在所述数据文件的优先级相同时,随机分配所述数据文件的线程号。
8.根据权利要求1所述的基于多源异构海量数据的深度分析装置,其特征在于,所述追踪模块还包括过滤单元和分类单元,其中:
所述过滤单元,用于按照预设标准格式对获取到的数据文件中的数据进行清洗,过滤掉冗余信息;
所述分类单元,用于对清洗后的数据进行分类,得到分类数据后进行存储。
CN201810997549.0A 2018-08-29 2018-08-29 一种基于多源异构海量数据的深度分析方法及装置 Pending CN109254967A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810997549.0A CN109254967A (zh) 2018-08-29 2018-08-29 一种基于多源异构海量数据的深度分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810997549.0A CN109254967A (zh) 2018-08-29 2018-08-29 一种基于多源异构海量数据的深度分析方法及装置

Publications (1)

Publication Number Publication Date
CN109254967A true CN109254967A (zh) 2019-01-22

Family

ID=65049845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810997549.0A Pending CN109254967A (zh) 2018-08-29 2018-08-29 一种基于多源异构海量数据的深度分析方法及装置

Country Status (1)

Country Link
CN (1) CN109254967A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915336A (zh) * 2012-09-18 2013-02-06 北京金和软件股份有限公司 一种基于时间戳和日志的增量数据捕获和抽取方法
CN102937988A (zh) * 2012-10-29 2013-02-20 北京腾逸科技发展有限公司 并行化分布式互联网数据抽取方法及其***
CN103810272A (zh) * 2014-02-11 2014-05-21 北京邮电大学 一种数据处理方法和***
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915336A (zh) * 2012-09-18 2013-02-06 北京金和软件股份有限公司 一种基于时间戳和日志的增量数据捕获和抽取方法
CN102937988A (zh) * 2012-10-29 2013-02-20 北京腾逸科技发展有限公司 并行化分布式互联网数据抽取方法及其***
CN103810272A (zh) * 2014-02-11 2014-05-21 北京邮电大学 一种数据处理方法和***
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
耿焕同等: "多源异构海量数据实时处理平台研究与应用", 《计算机应用与软件》 *
韦鹏程等: "《大数据巨量分析与机器学习的整合与开发》", 31 May 2017 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备
CN110096478B (zh) * 2019-05-09 2021-06-29 中国联合网络通信集团有限公司 文档索引生成方法及设备

Similar Documents

Publication Publication Date Title
Wang et al. Industrial big data analytics: challenges, methodologies, and applications
Arribas-Bel et al. The validity of the monocentric city model in a polycentric age: US metropolitan areas in 1990, 2000 and 2010
Chen et al. A survey of traffic data visualization
AU2010330720B2 (en) System and method for attentive clustering and related analytics and visualizations
CA3042926A1 (en) Technology incident management platform
US20120158623A1 (en) Visualizing machine learning accuracy
EP2735984A1 (en) Video query method, device and system
Liao et al. Management and application of mobile big data
CN105808722B (zh) 一种信息判别方法和***
CN111966866A (zh) 一种数据资产管理的方法和装置
CN109063178A (zh) 一种自动扩展的自助分析报表的方法及装置
Mikavicaa et al. Big data: challenges and opportunities in logistics systems
Gu et al. Real-time passenger flow anomaly detection considering typical time series clustered characteristics at metro stations
Schlegel et al. Ts-mule: Local interpretable model-agnostic explanations for time series forecast models
Wu et al. Spatial–temporal visualization of city-wide crowd movement
Rabiei et al. Using text mining techniques for identifying research gaps and priorities: a case study of the environmental science in Iran
TWI544348B (zh) 開端式偵測及文字資料中之字叢集之分類
Pramanik et al. A framework for criminal network analysis using big data
CN109254967A (zh) 一种基于多源异构海量数据的深度分析方法及装置
CN112925899A (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN105069712A (zh) 专利分析***及分析方法
Gebremeskel et al. The paradigm of big data for augmenting internet of vehicle into the intelligent cloud computing systems
CN113360313B (zh) 一种基于海量***日志的行为分析方法
Rodriguez et al. JamVis: exploration and visualization of traffic jams
Bonavita et al. Individual and collective stop-based adaptive trajectory segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122

RJ01 Rejection of invention patent application after publication