CN111460046A - 一种基于大数据的科技信息聚类方法 - Google Patents

一种基于大数据的科技信息聚类方法 Download PDF

Info

Publication number
CN111460046A
CN111460046A CN202010150066.4A CN202010150066A CN111460046A CN 111460046 A CN111460046 A CN 111460046A CN 202010150066 A CN202010150066 A CN 202010150066A CN 111460046 A CN111460046 A CN 111460046A
Authority
CN
China
Prior art keywords
data
clustering
scientific
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010150066.4A
Other languages
English (en)
Inventor
丁荣荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Haice Science And Technology Information Service Co ltd
Original Assignee
Hefei Haice Science And Technology Information Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Haice Science And Technology Information Service Co ltd filed Critical Hefei Haice Science And Technology Information Service Co ltd
Priority to CN202010150066.4A priority Critical patent/CN111460046A/zh
Publication of CN111460046A publication Critical patent/CN111460046A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的科技信息聚类方法,包括以下步骤:采集用户行为历史数据;用户行为特征分析处理;建立用户行为特征集;建立大数据聚类模型;利用聚类模型对数据集进行聚类处理;将聚类后的信息资源推送给用户。本发明利用云计算的高性能集群***的并行计算能力来解决科技信息聚类面临的大数据处理问题,基于云计算的大数据挖掘开发方便,以并行聚类为目标,屏蔽了底层,提高对大规模数据的处理能力和速度,实现了云计算对数据挖掘中聚类分析的作用,避免简单基于文本近似来进行科技信息推荐,使得科技人员获得更为全面、精准的信息。

Description

一种基于大数据的科技信息聚类方法
技术领域
本发明涉及大数据处理技术领域,特别涉及一种基于大数据的科技信息聚类方法。
背景技术
科技信息是记载科学技术活动、科技知识的信息载体;是记录和传播科技信息的主要手段,也是帮助人们认识客观事物、启发思路、寻求技术支持的重要工具。科技信息包括知识产权、科技论文、科技项目、科技成果、技术标准、科学数据、信息情报、新产品等。目前随着社会科技水平的进步,科技信息数据量呈***性增长。科技信息数据无论是开发还是使用,都离不开网络技术的支撑。但目前网络上的科技信息繁杂,全面性和准确性不高,导致科技企业和科技人员不容易直接获得真实有价值的信息。科技信息碎片化与科技人员时间碎片化、信息需求个性化和多样化之间存在着很大的矛盾,另外终端设备由PC转向手持智能终端,也导致科技人员对科技信息展示和推荐的智能化需求也越来越高。如果能够过滤无用信息,并对各种科技信息进行有效分类和提炼,实现对科技企业和科技人员的精准和高质量信息推荐,日益变得重要。
现有技术中,专利CN201310173534.X提供了提供了一种科技信息自动分类筛选的方法,其主要解决的问题是解决现有搜索技术基于各个单一的词语而不是对整个页面概括的弊端,提高了信息检索的效率,保证数据抓取的完整性和可靠性;专利CN201410150100.2提供一种用于科技信息垂直搜索的异构数据分析方法,其主要解决的问题是提高垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。虽然以上技术所针对领域比较接近,设计思想各有特点,但这些方法都是针对科技信息搜索的,均不是针对科技信息大数据处理而设计的,也不符合实现科技信息智能化聚类推荐的要求。目前,科技信息的推荐仍然是简单基于文本近似来进行推荐,而科技人员希望获得的是更为全面、精准的信息,这也导致了目前科技信息推荐的效果不理想。
因此,发明一种基于大数据的科技信息聚类方法来解决上述问题很有必要。
发明内容
本发明的目的在于提供一种基于大数据的科技信息聚类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于大数据的科技信息聚类方法,其特征在于,包括以下步骤:
S1、采集用户行为历史数据:客户端采集用户数据,并上传到云端服务器上;采集数据包括用户输入的关键词和浏览行为以及个人的基本信息;
S2、用户行为特征分析处理:对用户数据进行预处理和聚合处理,过滤掉不完整的数据以及垃圾无用数据,并将行为特征完整有用数据保存到大数据中;
S3、建立用户行为特征集:***分析模块对用户行为进行分析,提取用户经常浏览的行为信息,综合用户基本信息,建立用户行为特征集;
S4、建立大数据聚类模型:利用深度学习算法、机器学习算法及语义分析算法对用户数据中心进行深度分析,并建立大数据聚类模型算法模型;
S5、利用聚类模型对数据集进行聚类处理:从大数据库中检索出基于分析模块分析出的与用户行为相关的科技信息资源,并对子数据进行局部聚类;
S6、科技信息推送:数据推送模块将将局部聚类后的信息资源推送给用户。
优选的,所述科技信息可以是知识产权、科技论文、科技项目、科技成果、技术标准、科学数据、信息情报、新产品。
优选的,所述大数据聚类模型可以是k-means模型、MapReduce模型中的一种。
优选的,所述步骤S5包括以下分步骤:
S51、对科技信息原始数据集进行预处理;
S52、将数据U分割为M个子数据集,并分配给M个Map函数;
S53、在Map处理过程中,对子数据进行局部聚类;
S54、在Reduce处理过程中,对相同key/Value值的类进行合并;
S55、如果实际聚类个数R小于聚类个数k,则需要调整收缩因子参数,重新进行聚类,直到实际聚类个数R等于聚类个数k为止;
S56、如果N>N||K>K,那么两个数据集重新进行分割,K=[(K+K)/2];反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割,K=K;其中,N和N分别表示新数据源点数和没有更新前数据源点数,K和K分别表示新数据源中心点个数和没有更新前数据源中心点个数;
S57、重复S53、S54、S55阶段直到实际聚类个数R等于聚类个数k为止。
与现有技术相比,本发明一种基于大数据的科技信息聚类方法,具有如下有益效果:
利用云计算的高性能集群***的并行计算能力来解决聚类面临的大数据处理问题;以并行聚类为目标,提出了新的聚类思路和改进方法;企业的数据处理成本大大的降低,同时基于云计算的大数据挖掘开发方便,屏蔽了底层;在并行化条件下,云计算能够利用原有设备提高对大规模数据的处理能力和速度,既保证了容错性,也增加结点;实现了云计算对数据挖掘中聚类分析的作用。科技信息的推荐避免简单基于文本近似来进行推荐,使得科技人员获得更为全面、精准的信息。
附图说明
图1为本发明一种基于大数据的科技信息聚类方法流程图;
图2为本发明一种基于大数据的科技信息聚类方法中分步骤利用聚类模型对数据集进行聚类处理的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考图1描述根据本发明实施例一种基于大数据的科技信息聚类方法。
一种基于大数据的科技信息聚类方法,其特征在于,包括以下步骤:
S1、采集用户行为历史数据:客户端采集用户数据,并上传到云端服务器上;采集数据包括用户输入的关键词和浏览行为以及个人的基本信息;
S2、用户行为特征分析处理:对用户数据进行预处理和聚合处理,过滤掉不完整的数据以及垃圾无用数据,并将行为特征完整有用数据保存到大数据中;
S3、建立用户行为特征集:***分析模块对用户行为进行分析,提取用户经常浏览的行为信息,综合用户基本信息,建立用户行为特征集;
S4、建立大数据聚类模型:利用深度学习算法、机器学习算法及语义分析算法对用户数据中心进行深度分析,并建立大数据聚类模型算法模型;
S5、利用聚类模型对数据集进行聚类处理:从大数据库中检索出基于分析模块分析出的与用户行为相关的科技信息资源,并对子数据进行局部聚类;
S6、科技信息推送:数据推送模块将将局部聚类后的信息资源推送给用户。
进一步的,在上述技术方案中,所述科技信息可以是知识产权、科技论文、科技项目、科技成果、技术标准、科学数据、信息情报、新产品。
进一步的,在上述技术方案中,所述大数据聚类模型可以是k-means模型、MapReduce模型中的一种。
进一步的,在上述技术方案中,所述步骤S5包括以下分步骤:
S51、对科技信息原始数据集进行预处理原始数据集进行预处理,其基本思想为:首先,扫描整个数据源,查看是否存在空值,补充遗漏值;遗漏值的选取根据空值所在的那一维的平均值进行补充;其次,对数据集进行向量化并进行分割,分割后将数据块分布到节点上,各个节点把数据块分配给M个Map函数,在函数中设置一个阈值T(点与点之间的距离)、M(簇内所允许最少的个数),选取c个距离相距最远的点作为代表点进行聚类,将符合T要求的点聚为一类,放到一个簇中,如此循环直到没有符合的点为止,然后把剩余的点划分为一类,形成一个簇,并且在每个簇用(N(簇内所有点的数目),SUM(所有点每维向量之和),SUMSQ(所有点在每一维的分量平方和))表示一个簇的中心;最后,查看最终形成的簇中点的个数,如果簇内个数少于M,则把该簇内所有点删除,否则形成一个数据集合U,得到一个聚类个数K。
S52、将数据U分割为M个子数据集,并分配给M个Map函数;
S53、在Map处理过程中,对子数据进行局部聚类;
S54、在Reduce处理过程中,对相同key/Value值的类进行合并;
S55、如果实际聚类个数R小于聚类个数k,则调整代表点个数c与收缩因子,重新进行聚类,直到实际聚类个数R等于聚类个数k为止;
S56、如果N>N||K>K,那么两个数据集重新进行分割,K=[(K+K)/2];反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割,K=K;其中,N和N分别表示新数据源点数和没有更新前数据源点数,K和K分别表示新数据源中心点个数和没有更新前数据源中心点个数;
S57、重复S53、S54、S55阶段直到实际聚类个数R等于聚类个数k为止。
由于大数据不仅具有高维与海量数据的特征,而且还具有数据产生和数据更新快的特点;因此,基于此特点本算法采用以下方法进行解决,其基本思想为:首先,将科技信息新数据源进行预处理,获得新数据源的数据集U和聚类的中心点的个数K以及所有数据点数N;其次,如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数,那么,把新数据源与没更新的数据源重新进行数据集分割;反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割;然后把子集分配到各个子节点上,分配给若干个Map函数,进行局部聚类;如果是第一种情况,那么K选取为[(K+K)/2],反之,K选取为没有更新前K的值;然后重复预处理阶段。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于大数据的科技信息聚类方法,其特征在于,包括以下步骤:
S1、采集用户行为历史数据:客户端采集用户数据,并上传到云端服务器上;采集数据包括用户输入的关键词和浏览行为以及个人的基本信息;
S2、用户行为特征分析处理:对用户数据进行预处理和聚合处理,过滤掉不完整的数据以及垃圾无用数据,并将行为特征完整有用数据保存到大数据中;
S3、建立用户行为特征集:***分析模块对用户行为进行分析,提取用户经常浏览的行为信息,综合用户基本信息,建立用户行为特征集;
S4、建立大数据聚类模型:利用深度学习算法、机器学习算法及语义分析算法对用户数据中心进行深度分析,并建立大数据聚类模型算法模型;
S5、利用聚类模型对数据集进行聚类处理:从大数据库中检索出基于分析模块分析出的与用户行为相关的科技信息资源,并对子数据进行局部聚类;
S6、科技信息推送:数据推送模块将将局部聚类后的信息资源推送给用户。
2.根据权利要求1所述的一种基于大数据的科技信息聚类方法,其特征在于:所述科技信息可以是知识产权、科技论文、科技项目、科技成果、技术标准、科学数据、信息情报、新产品。
3.根据权利要求1所述的一种基于大数据的科技信息聚类方法,其特征在于:所述大数据聚类模型可以是k-means模型、MapReduce模型中的一种。
4.根据权利要求1所述的一种基于大数据的科技信息聚类方法,其特征在于:所述步骤S5包括以下分步骤:
S51、对科技信息原始数据集进行预处理;
S52、将数据U分割为M个子数据集,并分配给M个Map函数;
S53、在Map处理过程中,对子数据进行局部聚类;
S54、在Reduce处理过程中,对相同key/Value值的类进行合并;
S55、如果实际聚类个数R小于聚类个数k,则需要调整收缩因子参数,重新进行聚类,直到实际聚类个数R等于聚类个数k为止;
S56、如果N>N||K>K,那么两个数据集重新进行分割,K=[(K+K)/2];反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割,K=K;其中,N和N分别表示新数据源点数和没有更新前数据源点数,K和K分别表示新数据源中心点个数和没有更新前数据源中心点个数;
S57、重复S53、S54、S55阶段直到实际聚类个数R等于聚类个数k为止。
CN202010150066.4A 2020-03-06 2020-03-06 一种基于大数据的科技信息聚类方法 Pending CN111460046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010150066.4A CN111460046A (zh) 2020-03-06 2020-03-06 一种基于大数据的科技信息聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010150066.4A CN111460046A (zh) 2020-03-06 2020-03-06 一种基于大数据的科技信息聚类方法

Publications (1)

Publication Number Publication Date
CN111460046A true CN111460046A (zh) 2020-07-28

Family

ID=71682677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010150066.4A Pending CN111460046A (zh) 2020-03-06 2020-03-06 一种基于大数据的科技信息聚类方法

Country Status (1)

Country Link
CN (1) CN111460046A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114661A (zh) * 2021-04-08 2021-07-13 湘潭大学 一种面向智能楼宇物联网设备的云边协同轻量化数据处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235827A (zh) * 2013-05-13 2013-08-07 济南政和科技有限公司 一种科技信息自动分类筛选的方法
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN103984700A (zh) * 2014-04-15 2014-08-13 厦门产业技术研究院 一种用于科技信息垂直搜索的异构数据分析方法
WO2018137104A1 (zh) * 2017-01-24 2018-08-02 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及***
CN108363804A (zh) * 2018-03-01 2018-08-03 浙江工业大学 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN109636495A (zh) * 2018-09-21 2019-04-16 闽南理工学院 一种基于大数据的科技信息在线推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235827A (zh) * 2013-05-13 2013-08-07 济南政和科技有限公司 一种科技信息自动分类筛选的方法
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN103984700A (zh) * 2014-04-15 2014-08-13 厦门产业技术研究院 一种用于科技信息垂直搜索的异构数据分析方法
WO2018137104A1 (zh) * 2017-01-24 2018-08-02 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及***
CN108363804A (zh) * 2018-03-01 2018-08-03 浙江工业大学 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN109636495A (zh) * 2018-09-21 2019-04-16 闽南理工学院 一种基于大数据的科技信息在线推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张攀: "基于历史上下文挖掘的"科技论文在线"用户行为研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114661A (zh) * 2021-04-08 2021-07-13 湘潭大学 一种面向智能楼宇物联网设备的云边协同轻量化数据处理方法

Similar Documents

Publication Publication Date Title
JP5092165B2 (ja) データ構築方法とシステム
Zhang et al. Multi-database mining
CN108647729A (zh) 一种用户画像获取方法
Yassir et al. Sentimental classification analysis of polarity multi-view textual data using data mining techniques.
Mukherjee et al. Bootstrapping semantic annotation for content-rich html documents
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN111460046A (zh) 一种基于大数据的科技信息聚类方法
CN116932612B (zh) 一种基层社会治理智能数据处理***
CN116680090B (zh) 一种基于大数据的边缘计算网络管理方法及平台
Almunirawi et al. A comparative study on serial decision tree classification algorithms in text mining
CN111539465A (zh) 一种基于机器学习的物联网非结构化大数据分析算法
CN106775694A (zh) 一种软件配置代码制品的层次分类方法
CN116383335A (zh) 一种面向多源异构电力数据集的集成方法及***
Inbarani et al. Hybrid tolerance rough set based intelligent approaches for social tagging systems
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测***、电子设备
CN114185875A (zh) 一种基于云计算的大数据统一分析处理***
Si [Retracted] Classification Method of Ideological and Political Resources of Broadcasting and Hosting Professional Courses Based on SOM Artificial Neural Network
CN113971213A (zh) 智慧城市管理公共信息共享***
CN111581420A (zh) 一种基于Flink的医学图像实时检索方法
Hong [Retracted] Application of Data Mining in Network Information Dynamic Push Software
Yu et al. Workflow recommendation based on graph embedding
CN111026745A (zh) 一种基于用户浏览轨迹推的大数据建模***
Tiwari et al. DBSCAN: An Assessment of Density Based Clustering and It’s Approaches
CN112612870B (zh) 一种非结构化数据管理方法及***
Zhang Intelligent Mining Method of Massive Digital Archives Based on Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728

RJ01 Rejection of invention patent application after publication