CN107943947A - 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 - Google Patents
一种基于Hadoop平台的改进并行KNN网络舆情分类算法 Download PDFInfo
- Publication number
- CN107943947A CN107943947A CN201711190525.6A CN201711190525A CN107943947A CN 107943947 A CN107943947 A CN 107943947A CN 201711190525 A CN201711190525 A CN 201711190525A CN 107943947 A CN107943947 A CN 107943947A
- Authority
- CN
- China
- Prior art keywords
- data
- network public
- opinion
- test
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 57
- 230000006872 improvement Effects 0.000 title claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011524 similarity measure Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 10
- 238000003860 storage Methods 0.000 abstract description 6
- 238000013461 design Methods 0.000 abstract description 4
- 230000014759 maintenance of location Effects 0.000 abstract description 4
- 238000012795 verification Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001282153 Scopelogadus mizolepis Species 0.000 description 1
- 235000021167 banquet Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Hadoop平台的改进并行KNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。
Description
技术领域
本发明涉及网络大数据运算技术领域,特别涉及一种基于Hadoop平台的改进并行KNN网络舆情分类算法。
背景技术
随着移动互联网、移动终端和社交平台的快速发展,微博、博客等网络媒体逐渐成为人们获取信息的重要媒介,同时也是人们发布信息的重要渠道,因此网络上每天的数据量正在成几何数量增长。网络舆情已经成为影响社会发展和稳定的重要因素,因此对海量网络舆情进行监控和及时处理网络上的敏感信息,对不同主题的信息进行分类、分析、预警、引导具有现实意义。由于网络舆情数据具有数据量大、非结构化、分散性等特点,使得用于处理文本分类的传统算法很难快速、高效的对网络舆情数据进行分类。
发明内容
本发明的目的在于提供一种基于Hadoop平台的改进并行KNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,能够快速、高效和准确对网络舆情数据进行分类,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于Hadoop平台的改进并行KNN网络舆情分类算法,包括如下步骤:
S1:将测试集和调练集数据上传至HDFS集群中;
S2:HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果;
S3:将步骤S2中输出的结果输入至shuffle函数中重新筛选,再上传至Reduce函数中;
S4:Reduce函数读取MAP函数输出结果,并计算确定测试向量所属类别即输出测试数据的分类结果。
优选的,所述步骤S2中的MAP函数计算步骤如下:
S2.1:读取测试集和调练集数据中的各Node节点数据;
S2.2:对数据进行预处理;
S2.3:计算测试集和训练集之间的相似度;
S2.4:输出结果以<key,value>键值形式。
优选的,所述MAP函数在舆情分类算法中设置有多组,可进行同步计算。
优选的,所述MAP函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示。
优选的,所述步骤S4中的Reduce函数计算步骤如下:
S4.1:读取MAP函数计算结果;
S4.2:根据相似度计算结果选取K个具有最大相似度的特征向量;
S4.3:确定测试向量所属类别;
S4.4:输出分类结果。
与现有技术相比,本发明的有益效果是:
本基于Hadoop平台的改进并行KNN网络舆情分类算法,针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,本发明利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。
附图说明
图1为本发明的整体流程图;
图2为本发明实施例不同数量测试数据集分类时间图;
图3为本发明实施例不同K值运行时间图;
图4为本发明实施例分类算法结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于Hadoop平台的改进并行KNN网络舆情分类算法,包括如下步骤:
第一步:将测试集和调练集数据上传至HDFS集群中;
第二步:HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果,MAP函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示;具体步骤包括首先读取测试集和调练集数据中的各Node节点数据,对数据进行预处理,再计算测试集和训练集之间的相似度,输出结果以<key,value>键值形式
第三步:将步骤二中输出的结果输入至shuffle函数中重新筛选,再上传至Reduce函数中;
第四步:Reduce函数读取MAP函数输出结果,并计算确定测试向量所属类别即输出测试数据的分类结果,Reduce函数计算步骤首先读取MAP函数计算结果,再根据相似度计算结果选取K个具有最大相似度的特征向量,确定测试向量所属类别,输出分类结果。
基于上述算法,提供如下实施例:
一、KNN并行化MapReduce网络舆情分类算法实现函数如下:
1、Map函数:
Input:训练数据集和测试数据集、设定的值一般取奇数、给出训练数据集的类别;
Output:键值对<Key1,Value1>,其中Key1表示测试数据集索引值,Value1由字符串相似度和类别标签组成:
1.1: Method map(Key,Value,Key1,Value1);
1.2: {;
1.3:for each line in Value do, 将line中的数据分解成<id,x,y>的形式; 计算相似度 表示测试向量;表示训练向量; Emit(Key1,Value1);
1.4:};
2、Reduce函数:
Input:map函数的输出结果<Key1,Value1>;
Output:<Key2,Value2>,其中Key2为Key1的值,Value2表示分类结果;
2.1: Method reduce(Key1,Value1,Key2,Value2)
2.2: {;
2.3: Collection sem = new ArrayList();//声明一个集合sem用于存放测试数据;//集与训练数//据集的相似度;
2.4: Collection classify = new ArrayList();//声明一个集合classify用于存放分类标签;
2.5: for each v in Value1 do;构建键值对,其中为相似度,为类别标签; 将的值加入到集合sem中,添加到集合classify中;
2.6:将集合sem中的值进行排序,确定个最近领集合同时得到集合sem数据所对应的类别;
2.7:把Key1的值赋值给Key2;
2.8:Emit(Key2,Value2);
2.9:};
通过将KNN算法构造成MapReduce程序实现算法的并行化处理网络舆情分类,其中Map函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示;Map阶段的输出Key1表示测试数据集的行号,Value1表示计算出的相似度和类别标签;在Reduce阶段Key2表示测试数据集的行号,Value2代表计算出的分类结果。
二、对上述实施例的算法测试和性能评估:
第一步:实验数据通过网络爬虫工具主要爬取互联网网页和微博数据,对爬取到的数据进行前期预处理:过滤网页和微博数据中的@符号、网络地址、图片、广告、视频、语音等;
第二步:采用中国科学院NLPIR汉语分词***对预处理后的数据进行分词处理,利用信息增益算法抽取和计算文档的词频和权重,对并行化kNN算法进行舆情文档分类性能评估;
第三步:利用5台计算机(Intel E7400,4GB内存,CentOS 6.5)搭建基于Hadoop平台的网络舆情处理平台,其中1台作为Master,该结点实现数据的上传管理和作业资料的调度与结果汇总,其余4台作为Slave节点,用于分布式存储数据和计算功能,各服务器上开启的进程,如表1所示:
表1服务器进程表
第四步:算法分类性能测试:采用搜狗实验室提供的SogouT互联网中文分类语料库,该语料库中保存了大量搜狐新闻网站数据,这些数据经过人工整理后将语料与分类信息一一对应,实现数据分类的精确性,语料库规模达到TB级;语料库包含:军事、体育、新闻、娱乐、社会、教育、交通、政治、财经、科技等10大类别,每大类下有80%数据用于模型训练,20%用于算法分类性能测试;同样使用中国科学院NLPIR汉语分词***对语料库进行分词和词性标注,利用信息增益算法计算特征词和权重,每篇语料库中特征词汇平均为186个,通过对不同类别特征词汇排序,提取前500个组建特征词汇库,对剩余测试数据也进行特征词汇提取,选取前20项组建文档特征向量,通过搭建的Hadoop仿真平台测试算法分类性能,分类结果对比,如表2所示:
表2分类算法对比表
由表2可知,基于并行化kNN算法在对网络舆情数据进行分类时能够准确进行分类;该算法在查全率和查准率方面总体在86%以上,具有较好的分类效果,这是因为并行kNN算法可以在每个数据结点上单独获取更多的舆情特征词汇,同时能够根据不同的分类选取不同的特征词汇与权重构造特征向量,增加了算法的分类能力,与行并化朴素贝叶斯算法(Naive Bayes, NB)相比在查全率和查准率这两个方面略好于后者,而在娱乐和社会两个大类别下分类正确率较低,是由于语料库中这两个方面数据重叠较大导致的;
第五步:算法运行效率:为了验证算法的运行效率,现将测试数据集分为以下几个量级:1000、3000、5000、7000、9000、10000;分别在基于Hadoop平台的并行kNN算法和独立服务器(Intel E7400,4GB内存,CentOS 6.5)集中模式的kNN算法进行分类比较最后结果,参阅图2;通过图2可以看出,当测试数据集体量较小时,并行模式与集中模式所耗时间没有较大差距,随着测试数据集体量增大,并行模式采用Hadoop平台的分布式存储与分布计算的特点,使计算能力分布到各数据结点上,这样减少了数据传递带来的开销,因此并行模式在处理大体量数据时具有独特优势,随着测试样本体量的增加集中模式所需计算时间将成倍增加,因为集中模式在计算时需要将数据传输到程序中,在将结果暂时保存到硬盘中,最后将结果进行汇总,移动数据将给程序执行带来很大开销;
kNN算法的处理效率受到选取值的不同而不同,因此通过修改并行kNN算法的值来观察随着值的变化对并行算法运行效率的影响,参阅图3;由图3可知,随着取不同的值,则算法的处理时间也在不断增加,当值较小时,并行kNN算法和集中模式kNN两者之间消耗时间差距不是很大,但是随着值的增加并行模式和集中模式,在进行分类处理时所消耗的时间差距越来越大;
第六步:算法性能验证:微博由于其实时性强、传播速度快、影响范围广的特点,在人们的日常生活中越来越重要,因此微博也是最能反映社会舆情的地方,为验证kNN算法分类性能,实验数据选择网络爬虫抓取微博和论坛数据,抓取2017-7-6到2017-7-12微博和论坛数据共计127456条;将数据分为以下10类:军事、体育、新闻、娱乐、社会、教育、交通、政治、财经、科技;对归类后的数据进行前期预期处理后,采用并行kNN算法和并行NB算法分别对采集到的数据进行分类测试,测试结果如图4所示;
参阅图4,实验结果表明,2017年7月6日至7月12日一周的舆情数据有关“社会”类舆情占比27.8%,“教育”类舆情数据受到高考志愿填报、名校招生乱象和谢师宴因素的影响占比在22.6%,这与新华云智公布的一周网络舆情参考数据结果相一致;并行kNN网络舆情分类算法与朴素贝叶斯算法的分类结果整体一致,而在用时方面基于Hadoop平台的并行kNN算法用时为20分34秒,而基于朴素贝叶斯分类算法用时25分16秒,***分类效率提升18.6%以上。
综上所述,本发明提出的基于Hadoop平台的改进并行KNN网络舆情分类算法,针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,本发明利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,包括如下步骤:
S1:将测试集和调练集数据上传至HDFS集群中;
S2:HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果;
S3:将步骤S2中输出的结果输入至shuffle函数中重新筛选,再上传至Reduce函数中;
S4:Reduce函数读取MAP函数输出结果,并计算确定测试向量所属类别即输出测试数据的分类结果。
2.如权利要求1所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述步骤S2中的MAP函数计算步骤如下:
S2.1:读取测试集和调练集数据中的各Node节点数据;
S2.2:对数据进行预处理;
S2.3:计算测试集和训练集之间的相似度;
S2.4:输出结果以<key,value>键值形式。
3.如权利要求2所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述MAP函数在舆情分类算法中设置有多组,可进行同步计算。
4.如权利要求2所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述MAP函数中key值为测试数据集的行号即偏移量,Value代表该行对应的训练集数据,数据集中包括相应的属性字段和类别标示。
5.如权利要求1所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,所述步骤S4中的Reduce函数计算步骤如下:
S4.1:读取MAP函数计算结果;
S4.2:根据相似度计算结果选取K个具有最大相似度的特征向量;
S4.3:确定测试向量所属类别;
S4.4:输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711190525.6A CN107943947A (zh) | 2017-11-24 | 2017-11-24 | 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711190525.6A CN107943947A (zh) | 2017-11-24 | 2017-11-24 | 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107943947A true CN107943947A (zh) | 2018-04-20 |
Family
ID=61949646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711190525.6A Pending CN107943947A (zh) | 2017-11-24 | 2017-11-24 | 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107943947A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109669987A (zh) * | 2018-12-13 | 2019-04-23 | 国网河北省电力有限公司石家庄供电分公司 | 一种大数据存储优化方法 |
CN109739984A (zh) * | 2018-12-25 | 2019-05-10 | 贵州商学院 | 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 |
CN110263233A (zh) * | 2019-05-06 | 2019-09-20 | 平安科技(深圳)有限公司 | 企业舆情库构建方法、装置、计算机设备及存储介质 |
CN111814892A (zh) * | 2020-07-16 | 2020-10-23 | 贵州民族大学 | 一种分布式对象构建并行knn分类器的设计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955489A (zh) * | 2014-04-15 | 2014-07-30 | 华南理工大学 | 基于信息熵特征权重量化的海量短文本分布式knn分类算法及*** |
CN104536830A (zh) * | 2015-01-09 | 2015-04-22 | 哈尔滨工程大学 | 一种基于MapReduce的KNN文本分类方法 |
-
2017
- 2017-11-24 CN CN201711190525.6A patent/CN107943947A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955489A (zh) * | 2014-04-15 | 2014-07-30 | 华南理工大学 | 基于信息熵特征权重量化的海量短文本分布式knn分类算法及*** |
CN104536830A (zh) * | 2015-01-09 | 2015-04-22 | 哈尔滨工程大学 | 一种基于MapReduce的KNN文本分类方法 |
Non-Patent Citations (3)
Title |
---|
JES´US MAILLO 等: "A MapReduce-based k-Nearest Neighbor Approach for Big Data Classification", 《2015 IEEE TRUSTCOM/BIGDATASE/ISPA》 * |
闫永刚 等: "KNN分类算法的MapReduce并行化实现", 《南京航空航天大学学报》 * |
韩财兴: "海量数据的KNN文本分类算法的MapReduce实现研究", 《万方数据知识服务平台》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109669987A (zh) * | 2018-12-13 | 2019-04-23 | 国网河北省电力有限公司石家庄供电分公司 | 一种大数据存储优化方法 |
CN109739984A (zh) * | 2018-12-25 | 2019-05-10 | 贵州商学院 | 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 |
CN110263233A (zh) * | 2019-05-06 | 2019-09-20 | 平安科技(深圳)有限公司 | 企业舆情库构建方法、装置、计算机设备及存储介质 |
CN111814892A (zh) * | 2020-07-16 | 2020-10-23 | 贵州民族大学 | 一种分布式对象构建并行knn分类器的设计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其*** | |
CN111615706A (zh) | 基于子流形稀疏卷积神经网络分析空间稀疏数据 | |
WO2021109464A1 (zh) | 一种面向大规模用户的个性化教学资源推荐方法 | |
CN104346438B (zh) | 基于大数据数据管理服务*** | |
CN108536870A (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN107943947A (zh) | 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 | |
Dos Santos et al. | Multilabel classification on heterogeneous graphs with gaussian embeddings | |
CN107526819A (zh) | 一种面向短文本主题模型的大数据舆情分析方法 | |
CN106126605A (zh) | 一种基于用户画像的短文本分类方法 | |
Zhu | Topic recommendation system using personalized fuzzy logic interest set | |
Gu et al. | Learning joint multimodal representation based on multi-fusion deep neural networks | |
Rezaei et al. | Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation | |
Islam et al. | MPool: motif-based graph pooling | |
Roy et al. | A tag2vec approach for questions tag suggestion on community question answering sites | |
Martínez-Castaño et al. | Polypus: a big data self-deployable architecture for microblogging text extraction and real-time sentiment analysis | |
Lu et al. | An effective approach for Chinese news headline classification based on multi-representation mixed model with attention and ensemble learning | |
Xu et al. | Research on Tibetan hot words, sensitive words tracking and public opinion classification | |
Yu et al. | Connecting factorization and distance metric learning for social recommendations | |
Prasanth et al. | A mutual refinement technique for big data retrieval using hash tag graph | |
Suresh et al. | A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis | |
Li et al. | Research on hot news discovery model based on user interest and topic discovery | |
Luo et al. | Let the big data speak: Collaborative model of topic extract and sentiment analysis covid-19 based on weibo data | |
Sahin et al. | Streaming event detection in microblogs: Balancing accuracy and performance | |
Zeng et al. | Model-Stacking-based network user portrait from multi-source campus data | |
Zhang et al. | Improve link prediction accuracy with node attribute similarities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180420 |
|
WD01 | Invention patent application deemed withdrawn after publication |