CN105787064A - 一种基于大数据的挖掘平台构建方法 - Google Patents
一种基于大数据的挖掘平台构建方法 Download PDFInfo
- Publication number
- CN105787064A CN105787064A CN201610113818.3A CN201610113818A CN105787064A CN 105787064 A CN105787064 A CN 105787064A CN 201610113818 A CN201610113818 A CN 201610113818A CN 105787064 A CN105787064 A CN 105787064A
- Authority
- CN
- China
- Prior art keywords
- data
- platform
- engine
- hadoop
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于大数据的挖掘平台构建方法,适用于处理不同规模、类型多样的数据集。本发明体系架构如图1所示,自底向上分为三层:数据集成平台、Java驱动引擎、可视化展示与应用层,适用于处理不同规模、类型多样的海量数据,允许结果在PC端及移动端展示,并应用于智慧医疗、智慧公安、智慧通信等方面。
Description
技术领域
本发明涉及一种基于海量数据的挖掘平台构建方法,分数据集成平台、Java驱动引擎、可视化展示与应用层三部分,适用于处理不同规模、类型多样的海量数据,允许结果在PC端及移动端展示,并应用于智慧医疗、智慧公安、智慧通信等方面。
背景技术
在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。
大数据在当下的杰出表现有:
大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;
大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;
大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;
大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;
大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格。
发明内容
本发明提供一种基于大数据的挖掘平台构建方法,利用该平台进行数据挖掘,解决社会问题,商业营销问题,科学技术问题。未来还有一个可预见的趋势是以人为本的大数据方针,人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。
为了实现上述目的,所构建***的体系结构从下往上包括如下几个层级:数据集成平台,Java驱动引擎,可视化展示与应用层。
一种基于大数据的挖掘平台构建方法,其中所述数据集成平台包括如下几个步骤:
步骤一:自主研发爬虫平台,爬虫平台抓取外部数据及网页数据,其中外部数据包括用户数据、竞争者数据、供应商数据等;网页数据包括利用网络爬虫技术对相关网站进行信息抓取,形成半结构化以及非结构化的信息,网络信息抓取的时候,一开始指定的抓取对象非常重要,如对于行业政策,指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好;
步骤二:对外部数据及抓取下来的信息进行数据预处理,包括页面信息解析、数据清洗和内容提取,对重复文章信息进行去重,并进行文本分词、特征提取以及关键词提取,以从噪音数据中分离出有用的信息以及减少数据的维数;
步骤三:Hadoop平台用来存储数据,包括:Hadoop分布式文件***(HDFS)子平台,ZooKeeper子平台,Hbase子平台,Hive子平台,HadoopMapReduce子平台;其中Hadoop分布式文件***(HDFS),支持对应用数据高吞吐量访问的分布式文件***;其中HadoopMapReduce是基于YARN的大数据并行处理***;其中Hive是用于Hadoop的一个数据仓库***,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件***中的大数据;其中Hbase是一种分布的、可伸缩的大数据储存库,支持随机、实时读/写访问;其中ZooKeeper是一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务,安装这些项目,并手动地将它们集成到Hadoop中。
一种基于大数据的挖掘平台的构建方法,其中所述Java驱动引擎包括如下几个模块:分布式数据缓存管理模块,数据可视化视图管理、配置引擎模块;
所述分布式数据缓存管理模块,包括可扩展模块和大数据底层引擎模块,其中可扩展模块包括ORM数据持久模块,MySQL数据驱动引擎和Druid数据源连接池引擎;其中ORM数据持久模块是为整个项目提供一个高层、统一、安全和并发的数据持久机制,完成对各种数据进行持久化的编程工作,并为***业务逻辑层提供服务,合理的数据持久层和设计能够简化数据增、删、改、查等功能的开发过程,同时又不丧失多层结构的天然优势,继承延续J2EE特有的可伸缩性和可扩展性;其中MySQL数据驱动引擎包含Innodb和MyIASM两种引擎,MyIASM是MySQL默认的引擎,但是它没有提供对数据库事务的支持,也不支持行级锁和外键,Innodb引擎提供了对数据库ACID事务的支持,并且实现了SQL标准的四种隔离级别;其中Druid数据源连接池引擎可以监控数据库访问性能,Druid内置提供了一个功能强大的StatFilter插件,能够详细统计SQL的执行性能,还可对数据库密码加密,直接把数据库密码写在配置文件中,容易导致安全问题,DruidDruiver和DruidDataSource都支持PasswordCallback,Druid提供了不同的LogFilter,能够支持Common-Logging、Log4j和JdkLog,可以按需要选择相应的LogFilter,监控应用的数据库访问情况;其中大数据底层引擎模块包括Hadoop、Hive、Hbase数据源连接管理引擎和Hadoop、Hive、Hbase驱动引擎,其中Hadoop、Hive、Hbase数据源连接管理引擎从体系架构到数据定义到数据存储再到数据处理,为Hadoop平台上大规模的数据存储和任务处理打下基础,并通过MR来实现对分布式并行任务处理的程序支持;其中Hadoop、Hive、Hbase驱动引擎在遇到对数据进行一连串的操作时只需要定义好各个action,然后把他们串在一个工作流里面即可以自动执行;
所述数据可视化视图管理、配置引擎包括用户管理模块,区域、机构管理模块,权限管理模块,站台设置管理模块,日志、其他管理模块,以上各模块将存储的数据分类,并作相应的配置。
一种基于大数据的挖掘平台构建方法,其中所述可视化展示与应用层包括展示层面和应用层面;所述展示层面指在PC端和移动端来展示,通过主题和图表的方式,或者通过计算机对信息进行更高层次的提炼,形成信息简报。
本发明采用上述方案,具有以下有益效果:
(1)提供主流的挖掘算法,数据收集接口众多,且能够支持处理各种类型的数据;
(2)缓存管理模块能够减轻数据库的负载压力,加速应用访问,并能够提供高吞吐率、低延时的解决方案,支持高并发事务请求处理;
(3)Hadoop集群的并行处理能力能明显提高分析速度,并能够故障容错。
附图说明:
图1是基于大数据的挖掘平台体系架构图。
图2是可视化展现体系图。
具体实施方式:
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于大数据的挖掘平台体系架构,如图1所示,所构建***的体系结构从下往上包括如下几个层级:数据集成平台,Java驱动引擎,可视化展示与应用层。
一种基于大数据的挖掘平台构建方法,其中所述数据集成平台包括如下几个步骤:
步骤一:自主研发爬虫平台,爬虫平台抓取外部数据及网页数据,其中外部数据包括用户数据、竞争者数据、供应商数据等;网页数据包括利用网络爬虫技术对相关网站进行信息抓取,形成半结构化以及非结构化的信息,网络信息抓取的时候,一开始指定的抓取对象非常重要,如对于行业政策,指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好;
步骤二:对外部数据及抓取下来的信息进行数据预处理,包括页面信息解析、数据清洗和内容提取,对重复文章信息进行去重,并进行文本分词、特征提取以及关键词提取,以从噪音数据中分离出有用的信息以及减少数据的维数;
步骤三:Hadoop平台用来存储数据,包括:Hadoop分布式文件***(HDFS)子平台,ZooKeeper子平台,Hbase子平台,Hive子平台,HadoopMapReduce子平台;其中Hadoop分布式文件***(HDFS),支持对应用数据高吞吐量访问的分布式文件***;其中HadoopMapReduce是基于YARN的大数据并行处理***;其中Hive是用于Hadoop的一个数据仓库***,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件***中的大数据;其中Hbase是一种分布的、可伸缩的大数据储存库,支持随机、实时读/写访问;其中ZooKeeper是一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务,安装这些项目,并手动地将它们集成到Hadoop中。
一种基于大数据的挖掘平台的构建方法,其中所述Java驱动引擎包括如下几个模块:分布式数据缓存管理模块,数据可视化视图管理、配置引擎模块;
所述分布式数据缓存管理模块,包括可扩展模块和大数据底层引擎模块,其中可扩展模块包括ORM数据持久模块,MySQL数据驱动引擎和Druid数据源连接池引擎;其中ORM数据持久模块是为整个项目提供一个高层、统一、安全和并发的数据持久机制,完成对各种数据进行持久化的编程工作,并为***业务逻辑层提供服务,合理的数据持久层和设计能够简化数据增、删、改、查等功能的开发过程,同时又不丧失多层结构的天然优势,继承延续J2EE特有的可伸缩性和可扩展性,这部分安装Hibernate框架,通过配置文件(hibernate.properties或hibernate.cfg.xml)和映射文件(***.hbm.xml)把JAVA对象或PO(PersistentObject,持久化对象)映射到数据库中的数据库,然后通过操作PO,对数据表中的数据进行增,删,改,查等操作;
MySQL数据驱动引擎包含Innodb和MyIASM两种引擎,MyIASM是MySQL默认的引擎,但是它没有提供对数据库事务的支持,也不支持行级锁和外键,Innodb引擎提供了对数据库ACID事务的支持,并且实现了SQL标准的四种隔离级别,大尺寸的数据集趋向于选择InnoDB引擎,因为它支持事务处理和故障恢复,数据库的大小决定了故障恢复的时间长短,InnoDB可以利用事务日志进行数据恢复,这会比较快,主键查询在InnoDB引擎下也会相当快,不过需要注意的是如果主键太长也会导致性能问题。
Druid数据源连接池引擎可以监控数据库访问性能,Druid内置提供了一个功能强大的StatFilter插件,能够详细统计SQL的执行性能,还可对数据库密码加密,直接把数据库密码写在配置文件中,容易导致安全问题,DruidDruiver和DruidDataSource都支持PasswordCallback,Druid提供了不同的LogFilter,能够支持Common-Logging、Log4j和JdkLog,可以按需要选择相应的LogFilter,监控应用的数据库访问情况,Druid是一个JDBC组件,它包括三部分:DruidDriver代理Driver,能够提供基于Filter-Chain模式的插件体系,DruidDataSource高效可管理的数据库连接池,SQLParser;Druid能够扩展JDBC,如果对JDBC层有编程的需求,可以通过Druid提供的Filter-Chain机制,很方便编写JDBC层的扩展插件;
大数据底层引擎模块包括Hadoop、Hive、Hbase数据源连接管理引擎和Hadoop、Hive、Hbase驱动引擎,其中Hadoop、Hive、Hbase数据源连接管理引擎从体系架构到数据定义到数据存储再到数据处理,为Hadoop平台上大规模的数据存储和任务处理打下基础,并通过MR来实现对分布式并行任务处理的程序支持;其中Hadoop、Hive、Hbase驱动引擎在遇到对数据进行一连串的操作时只需要定义好各个action,然后把他们串在一个工作流里面即可以自动执行,本平台基于Centos6.x+CDH5.x安装Oozie,分服务端和客户端,配置Oozie使用的MapReduce版本。
所述数据可视化视图管理、配置引擎包括用户管理模块,区域、机构管理模块,权限管理模块,站台设置管理模块,日志、其他管理模块,以上各模块将存储的数据分类,并作相应的配置。
一种基于大数据的挖掘平台构建方法,其中所述可视化展示与应用层包括展示层面和应用层面;所述展示层面指在PC端和移动端来展示,通过主题和图表的方式,或者通过计算机对信息进行更高层次的提炼,形成信息简报,具体的可视化展现体系如图2所示。
Claims (6)
1.一种基于大数据的挖掘平台的构建,其特征在于,从下往上包括如下几个层级:数据集成平台,Java驱动引擎,可视化展示与应用层。
2.如权利要求1所述,一种基于大数据的挖掘平台的构建方法,其中数据集成平台包括如下几个步骤:
步骤一:自主研发爬虫平台,爬虫平台抓取外部数据及网页数据,其中外部数据包括用户数据、竞争者数据、供应商数据等;网页数据包括利用网络爬虫技术对相关网站进行信息抓取,形成半结构化以及非结构化的信息,网络信息抓取的时候,一开始指定的抓取对象非常重要,如对于行业政策,指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好;
步骤二:对外部数据及抓取下来的信息进行数据预处理,包括页面信息解析、数据清洗和内容提取,对重复文章信息进行去重,并进行文本分词、特征提取以及关键词提取,以从噪音数据中分离出有用的信息以及减少数据的维数;
步骤三:Hadoop平台用来存储数据,包括:Hadoop分布式文件***(HDFS)子平台,ZooKeeper子平台,Hbase子平台,Hive子平台,HadoopMapReduce子平台;其中Hadoop分布式文件***(HDFS),支持对应用数据高吞吐量访问的分布式文件***;其中HadoopMapReduce是基于YARN的大数据并行处理***;其中Hive是用于Hadoop的一个数据仓库***,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件***中的大数据;其中Hbase是一种分布的、可伸缩的大数据储存库,支持随机、实时读/写访问;其中ZooKeeper是一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务,安装这些项目,并手动地将它们集成到Hadoop中。
3.如权利要求1所述,一种基于大数据的挖掘平台的构建方法,其中Java驱动引擎包括如下几个模块:分布式数据缓存管理模块,数据可视化视图管理、配置引擎模块;
所述分布式数据缓存管理模块,包括可扩展模块和大数据底层引擎模块,其中可扩展模块包括ORM数据持久模块,MySQL数据驱动引擎和Druid数据源连接池引擎;其中ORM数据持久模块是为整个项目提供一个高层、统一、安全和并发的数据持久机制,完成对各种数据进行持久化的编程工作,并为***业务逻辑层提供服务,合理的数据持久层和设计能够简化数据增、删、改、查等功能的开发过程,同时又不丧失多层结构的天然优势,继承延续J2EE特有的可伸缩性和可扩展性;其中MySQL数据驱动引擎包含Innodb和MyIASM两种引擎,MyIASM是MySQL默认的引擎,但是它没有提供对数据库事务的支持,也不支持行级锁和外键,Innodb引擎提供了对数据库ACID事务的支持,并且实现了SQL标准的四种隔离级别;其中Druid数据源连接池引擎可以监控数据库访问性能,Druid内置提供了一个功能强大的StatFilter插件,能够详细统计SQL的执行性能,还可对数据库密码加密,直接把数据库密码写在配置文件中,容易导致安全问题,DruidDruiver和DruidDataSource都支持PasswordCallback,Druid提供了不同的LogFilter,能够支持Common-Logging、Log4j和JdkLog,可以按需要选择相应的LogFilter,监控应用的数据库访问情况;其中大数据底层引擎模块包括Hadoop、Hive、Hbase数据源连接管理引擎和Hadoop、Hive、Hbase驱动引擎,其中Hadoop、Hive、Hbase数据源连接管理引擎从体系架构到数据定义到数据存储再到数据处理,为Hadoop平台上大规模的数据存储和任务处理打下基础,并通过MR来实现对分布式并行任务处理的程序支持;其中Hadoop、Hive、Hbase驱动引擎在遇到对数据进行一连串的操作时只需要定义好各个action,然后把他们串在一个工作流里面即可以自动执行;
所述数据可视化视图管理、配置引擎包括用户管理模块,区域、机构管理模块,权限管理模块,站台设置管理模块,日志、其他管理模块,以上各模块将存储的数据分类,并作相应的配置。
4.如权利要求1所述,可视化展示与应用层包括展示层面和应用层面;所述展示层面指在PC端和移动端来展示,通过主题和图表的方式,或者通过计算机对信息进行更高层次的提炼,形成信息简报。
5.如权利要求2所述的基于大数据的挖掘平台构建方法,其特征在于:使用Hadoop集群存储数据,并使用分布式缓存模块来减轻数据库的负载压力,支持高并发事务请求处理。
6.如权利要求4所述的基于大数据的挖掘平台构建方法,其特征在于:所述应用层中,可以在PC端和移动端同步展示,用户只需进行图形化的界面操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610113818.3A CN105787064A (zh) | 2016-03-01 | 2016-03-01 | 一种基于大数据的挖掘平台构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610113818.3A CN105787064A (zh) | 2016-03-01 | 2016-03-01 | 一种基于大数据的挖掘平台构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105787064A true CN105787064A (zh) | 2016-07-20 |
Family
ID=56387108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610113818.3A Pending CN105787064A (zh) | 2016-03-01 | 2016-03-01 | 一种基于大数据的挖掘平台构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105787064A (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294580A (zh) * | 2016-07-28 | 2017-01-04 | 武汉虹信技术服务有限责任公司 | 基于hadoop平台的lte网络mr数据分析方法 |
CN106503039A (zh) * | 2016-09-20 | 2017-03-15 | 南京邮电大学 | 一种可视化实时数据挖掘***及方法 |
CN106570107A (zh) * | 2016-11-01 | 2017-04-19 | 广西电网有限责任公司电力科学研究院 | 一种大数据计算分析方案成果化*** |
CN106649773A (zh) * | 2016-12-27 | 2017-05-10 | 北京大数有容科技有限公司 | 一种大数据协同分析工具平台 |
CN106777142A (zh) * | 2016-12-19 | 2017-05-31 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量数据的服务层***及其方法 |
CN106845708A (zh) * | 2017-01-20 | 2017-06-13 | 北京理工大学 | 一种基于不确定度的数据流处理***多目标优化方法 |
CN107169099A (zh) * | 2017-05-16 | 2017-09-15 | 成都四象联创科技有限公司 | 基于hadoop的数据处理方法 |
CN107562825A (zh) * | 2017-08-21 | 2018-01-09 | 北京锐安科技有限公司 | 一种生成数据展示界面的***及方法 |
CN107577805A (zh) * | 2017-09-26 | 2018-01-12 | 华南理工大学 | 一种面向日志大数据分析的业务服务*** |
CN107644107A (zh) * | 2017-10-19 | 2018-01-30 | 金蝶软件(中国)有限公司 | 一种内部审计日志的生成方法及相关装置 |
CN107918818A (zh) * | 2016-10-10 | 2018-04-17 | 香港纺织及成衣研发中心有限公司 | 基于大数据技术的供应链管理决策支持*** |
CN108132982A (zh) * | 2017-12-13 | 2018-06-08 | 湖南中车时代通信信号有限公司 | 基于大数据的列车运行监控装置数据的分析***和方法 |
CN108681588A (zh) * | 2018-05-14 | 2018-10-19 | 北京明朝万达科技股份有限公司 | 一种接口访问实时统计方法及*** |
CN108874762A (zh) * | 2018-06-05 | 2018-11-23 | 北京圣康汇金科技有限公司 | 一种投资研究报告在线显示***和方法 |
CN109272155A (zh) * | 2018-09-11 | 2019-01-25 | 郑州向心力通信技术股份有限公司 | 一种基于大数据的企业行为分析*** |
CN109271384A (zh) * | 2018-09-06 | 2019-01-25 | 语联网(武汉)信息技术有限公司 | 译员行为的大数据库及其建立方法、装置与电子设备 |
CN109460922A (zh) * | 2018-11-13 | 2019-03-12 | 电子科技大学 | 一种具有电力行业特征的网络舆情分析与辅助决策*** |
CN109522365A (zh) * | 2018-10-18 | 2019-03-26 | 四川大学 | 信息管理***中数据表及其字段分布式访问控制的方法 |
CN109766368A (zh) * | 2018-11-14 | 2019-05-17 | 国云科技股份有限公司 | 一种基于Hive的数据查询多类型视图产出***及方法 |
CN109815209A (zh) * | 2019-03-20 | 2019-05-28 | 上海电力学院 | 一种用于医院后勤精益管理的分布式存储*** |
CN109815717A (zh) * | 2019-01-17 | 2019-05-28 | 平安科技(深圳)有限公司 | 数据权限管理方法、数据访问方法、装置、设备及介质 |
CN109828964A (zh) * | 2019-02-19 | 2019-05-31 | 北京奇艺世纪科技有限公司 | 一种数据导入方法、装置及电子设备 |
CN110134704A (zh) * | 2019-05-31 | 2019-08-16 | 厦门大学嘉庚学院 | 一种基于分布式缓存的大数据集群事务实现方法 |
CN111489744A (zh) * | 2020-04-03 | 2020-08-04 | 中数通信息有限公司 | 一种智慧银行管理*** |
CN111814023A (zh) * | 2020-07-30 | 2020-10-23 | 广州威尔森信息科技有限公司 | 一种汽车车型网络价格监测*** |
CN112181940A (zh) * | 2020-08-25 | 2021-01-05 | 天津农学院 | 全国工商大数据处理***的构建方法 |
CN113191595A (zh) * | 2021-04-07 | 2021-07-30 | 东风畅行科技股份有限公司 | 车辆运营全生命周期成本关联数据分析方法及*** |
CN113254514A (zh) * | 2020-07-16 | 2021-08-13 | 北京亦庄国际产业互联网研究院股份公司 | 一种基于大数据技术的智能综合治理平台产品 |
CN113554365A (zh) * | 2021-09-23 | 2021-10-26 | 山东大学 | 医疗机构多元化信用评价方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户***息的用户多维度分析与监测方法 |
CN103838617A (zh) * | 2014-02-18 | 2014-06-04 | 河海大学 | 大数据环境下的数据挖掘平台的构建方法 |
CN104182389A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析商业智能服务*** |
US20150120928A1 (en) * | 2013-10-24 | 2015-04-30 | Vmware, Inc. | Container virtual machines for hadoop |
CN105159723A (zh) * | 2015-09-14 | 2015-12-16 | 四川长虹电器股份有限公司 | 中央空调数据采集方法 |
CN105303326A (zh) * | 2015-11-13 | 2016-02-03 | 上海交通大学 | 基于资源元模型的产品全生命周期信息*** |
-
2016
- 2016-03-01 CN CN201610113818.3A patent/CN105787064A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户***息的用户多维度分析与监测方法 |
US20150120928A1 (en) * | 2013-10-24 | 2015-04-30 | Vmware, Inc. | Container virtual machines for hadoop |
CN103838617A (zh) * | 2014-02-18 | 2014-06-04 | 河海大学 | 大数据环境下的数据挖掘平台的构建方法 |
CN104182389A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析商业智能服务*** |
CN105159723A (zh) * | 2015-09-14 | 2015-12-16 | 四川长虹电器股份有限公司 | 中央空调数据采集方法 |
CN105303326A (zh) * | 2015-11-13 | 2016-02-03 | 上海交通大学 | 基于资源元模型的产品全生命周期信息*** |
Non-Patent Citations (1)
Title |
---|
吴晓英,明均仁: "基于数据挖掘的大数据管理模型研究", 《情报科学》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294580A (zh) * | 2016-07-28 | 2017-01-04 | 武汉虹信技术服务有限责任公司 | 基于hadoop平台的lte网络mr数据分析方法 |
CN106503039A (zh) * | 2016-09-20 | 2017-03-15 | 南京邮电大学 | 一种可视化实时数据挖掘***及方法 |
CN107918818A (zh) * | 2016-10-10 | 2018-04-17 | 香港纺织及成衣研发中心有限公司 | 基于大数据技术的供应链管理决策支持*** |
CN107918818B (zh) * | 2016-10-10 | 2022-01-21 | 香港纺织及成衣研发中心有限公司 | 基于大数据技术的供应链管理决策支持*** |
CN106570107A (zh) * | 2016-11-01 | 2017-04-19 | 广西电网有限责任公司电力科学研究院 | 一种大数据计算分析方案成果化*** |
CN106570107B (zh) * | 2016-11-01 | 2019-08-20 | 广西电网有限责任公司电力科学研究院 | 一种大数据计算分析方案成果化*** |
CN106777142A (zh) * | 2016-12-19 | 2017-05-31 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量数据的服务层***及其方法 |
CN106649773A (zh) * | 2016-12-27 | 2017-05-10 | 北京大数有容科技有限公司 | 一种大数据协同分析工具平台 |
CN106845708A (zh) * | 2017-01-20 | 2017-06-13 | 北京理工大学 | 一种基于不确定度的数据流处理***多目标优化方法 |
CN106845708B (zh) * | 2017-01-20 | 2019-12-06 | 北京理工大学 | 一种基于不确定度的数据流处理***多目标优化方法 |
CN107169099A (zh) * | 2017-05-16 | 2017-09-15 | 成都四象联创科技有限公司 | 基于hadoop的数据处理方法 |
CN107562825A (zh) * | 2017-08-21 | 2018-01-09 | 北京锐安科技有限公司 | 一种生成数据展示界面的***及方法 |
CN107577805A (zh) * | 2017-09-26 | 2018-01-12 | 华南理工大学 | 一种面向日志大数据分析的业务服务*** |
CN107577805B (zh) * | 2017-09-26 | 2020-08-18 | 华南理工大学 | 一种面向日志大数据分析的业务服务*** |
CN107644107A (zh) * | 2017-10-19 | 2018-01-30 | 金蝶软件(中国)有限公司 | 一种内部审计日志的生成方法及相关装置 |
CN108132982A (zh) * | 2017-12-13 | 2018-06-08 | 湖南中车时代通信信号有限公司 | 基于大数据的列车运行监控装置数据的分析***和方法 |
CN108681588A (zh) * | 2018-05-14 | 2018-10-19 | 北京明朝万达科技股份有限公司 | 一种接口访问实时统计方法及*** |
CN108874762A (zh) * | 2018-06-05 | 2018-11-23 | 北京圣康汇金科技有限公司 | 一种投资研究报告在线显示***和方法 |
CN109271384A (zh) * | 2018-09-06 | 2019-01-25 | 语联网(武汉)信息技术有限公司 | 译员行为的大数据库及其建立方法、装置与电子设备 |
CN109272155B (zh) * | 2018-09-11 | 2021-07-06 | 郑州向心力通信技术股份有限公司 | 一种基于大数据的企业行为分析*** |
CN109272155A (zh) * | 2018-09-11 | 2019-01-25 | 郑州向心力通信技术股份有限公司 | 一种基于大数据的企业行为分析*** |
CN109522365A (zh) * | 2018-10-18 | 2019-03-26 | 四川大学 | 信息管理***中数据表及其字段分布式访问控制的方法 |
CN109522365B (zh) * | 2018-10-18 | 2021-06-22 | 四川大学 | 信息管理***中数据表及其字段分布式访问控制的方法 |
CN109460922A (zh) * | 2018-11-13 | 2019-03-12 | 电子科技大学 | 一种具有电力行业特征的网络舆情分析与辅助决策*** |
CN109766368A (zh) * | 2018-11-14 | 2019-05-17 | 国云科技股份有限公司 | 一种基于Hive的数据查询多类型视图产出***及方法 |
CN109766368B (zh) * | 2018-11-14 | 2021-08-27 | 国云科技股份有限公司 | 一种基于Hive的数据查询多类型视图产出***及方法 |
CN109815717A (zh) * | 2019-01-17 | 2019-05-28 | 平安科技(深圳)有限公司 | 数据权限管理方法、数据访问方法、装置、设备及介质 |
CN109828964B (zh) * | 2019-02-19 | 2021-11-26 | 北京奇艺世纪科技有限公司 | 一种数据导入方法、装置及电子设备 |
CN109828964A (zh) * | 2019-02-19 | 2019-05-31 | 北京奇艺世纪科技有限公司 | 一种数据导入方法、装置及电子设备 |
CN109815209A (zh) * | 2019-03-20 | 2019-05-28 | 上海电力学院 | 一种用于医院后勤精益管理的分布式存储*** |
CN110134704A (zh) * | 2019-05-31 | 2019-08-16 | 厦门大学嘉庚学院 | 一种基于分布式缓存的大数据集群事务实现方法 |
CN110134704B (zh) * | 2019-05-31 | 2021-11-02 | 厦门大学嘉庚学院 | 一种基于分布式缓存的大数据集群事务实现方法 |
CN111489744A (zh) * | 2020-04-03 | 2020-08-04 | 中数通信息有限公司 | 一种智慧银行管理*** |
CN113254514A (zh) * | 2020-07-16 | 2021-08-13 | 北京亦庄国际产业互联网研究院股份公司 | 一种基于大数据技术的智能综合治理平台产品 |
CN111814023A (zh) * | 2020-07-30 | 2020-10-23 | 广州威尔森信息科技有限公司 | 一种汽车车型网络价格监测*** |
CN112181940A (zh) * | 2020-08-25 | 2021-01-05 | 天津农学院 | 全国工商大数据处理***的构建方法 |
CN113191595A (zh) * | 2021-04-07 | 2021-07-30 | 东风畅行科技股份有限公司 | 车辆运营全生命周期成本关联数据分析方法及*** |
CN113554365A (zh) * | 2021-09-23 | 2021-10-26 | 山东大学 | 医疗机构多元化信用评价方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787064A (zh) | 一种基于大数据的挖掘平台构建方法 | |
Ouyang et al. | Methodologies, principles and prospects of applying big data in safety science research | |
Chen et al. | Big data: A survey | |
Tian et al. | Optimized cloud resource management and scheduling: theories and practices | |
US9747127B1 (en) | Worldwide distributed job and tasks computational model | |
CN109272155A (zh) | 一种基于大数据的企业行为分析*** | |
Fadiya et al. | Advancing big data for humanitarian needs | |
CN102054025A (zh) | 交通信息资源整合处理方法及*** | |
Lin et al. | Temporal event tracing on big healthcare data analytics | |
CN113392227A (zh) | 面向轨道交通领域的元数据知识图谱引擎*** | |
Yu et al. | Research and implementation of massive health care data management and analysis based on hadoop | |
Bellini et al. | Tassonomy and review of big data solutions navigation | |
Pareek et al. | Real-time ETL in Striim | |
Roth et al. | Event data warehousing for complex event processing | |
Kuo et al. | Design and construction of a big data analytics framework for health applications | |
Chrimes et al. | Towards a real-time big data analytics platform for health applications | |
Pradeep et al. | A survey on various challenges and aspects in handling big data | |
CN114003634A (zh) | 基于es技术的大数据分析检索***及方法 | |
Kuo et al. | A Hadoop/MapReduce based platform for supporting health big data analytics | |
US20230205761A1 (en) | Method of creating a distributed ledger for a blockchain via encapsulation of off-chain data | |
Raghupathi et al. | Data Analytics: Architectures, Implementation, Methodology, and Tools | |
Jambunathan et al. | A review on big data challenges and opportunities | |
Nagarajan et al. | Big data analytics in cloud computing: effective deployment of data analytics tools | |
Wei et al. | A method and application for constructing a authentic data space | |
Yang et al. | Revisiting arguments for a three layered data warehousing architecture in the context of the Hadoop platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |
|
RJ01 | Rejection of invention patent application after publication |