CN104408083A - 一种社会化媒体分析*** - Google Patents
一种社会化媒体分析*** Download PDFInfo
- Publication number
- CN104408083A CN104408083A CN201410634592.2A CN201410634592A CN104408083A CN 104408083 A CN104408083 A CN 104408083A CN 201410634592 A CN201410634592 A CN 201410634592A CN 104408083 A CN104408083 A CN 104408083A
- Authority
- CN
- China
- Prior art keywords
- network address
- module
- data
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 19
- 238000002360 preparation method Methods 0.000 claims description 14
- 241001269238 Data Species 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000002203 pretreatment Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013480 data collection Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种社会化媒体分析***,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;它能够自动采集数据、整理、分析当前的舆论动向,为决策者决策提供参考依据。为学校教育教学的提供可控制性的依据;为其他领域的数据分析提供一个借鉴和参考。
Description
技术领域
本发明涉及社会媒体分析应用技术领域,尤其是一种社会化媒体分析***。
背景技术
社会化媒体是指允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。社会化媒体的产生依赖WEB2.0的发展。现阶段主要包括社交网站、微博、微信、博客、论坛、播客等等。
由于社会化媒体(Social Media)已经在网络化环境中广泛研究,通过对它们的建模分析,从这个超越社会沟通的一个拥有大量数据的超集中,可以很好地反映并提炼出交往互动者之间的思想动态、行为倾向,甚至某一社交群体的集体策略。因而,经过分析和模式识别,我们可以***交往意向和可能发生的行为结果,比如判定投资或营销群体的兴趣方向、旅游公司和游客动态、特定人群的行为意向、学生群体的思维模式和动机等等,从而加以干预,或进行行为控制,达到我们所希望达到的经济社会运行控制、群体和个人行为干预等,其经济价值和社会价值不可估量,极大地有利于经济和社会的稳定、减少行为失误、提高学校教育教学的可控制性。
社会化媒体分析***最大特点是综合数据采集、数据整理、数据分析于一体,完全实现自动采集数据、自动提纯数据、自动分析数据,从分析的数据中为决策者提供有用的信息。
发明内容
现有技术不能满足人们的需要,为弥补现有技术不足,本发明旨在提供一种社会化媒体分析***。
为实现上述目的,本发明采用以下技术方案:一种社会化媒体分析***,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;
S1,数据采集模块的功能是从网页中获取论坛帖子内容,为后面数据分析提供资源。数据采集分为网址采集和内容采集,先采集网址,根据采集到的网址采集相应的帖子内容。网址采集最多采到第四级就是帖子内容网址,有的论坛采集到第二级就是帖子内容网址,采集步骤如下:
1)输入初始化种子,采集一级网址,一级网址入库;
2)如果一级网址是帖子内容网址,直接走向8),否则继续3);
3)根据一级网址,采集二级网址,二级网址入库;
4)如果二级网址是帖子内容网址,直接走向8),否则继续5);
5)根据二级网址,采集三级网址,三级网址入库;
6)如果三级网址是帖子内容网址,直接走向8),否则继续7);
7)根据三级网址,采集四级网址,四级网址入库;
8)采集帖子内容,采集标题、帖子内容、发帖以及回帖用户名、
帖子存在的时间、帖子的关注度、讨论区;
S2,数据整理模块:在数据整理中,主要是对采集到的数据进行提纯,采集到的论坛数据无意义的词比较多,需要进行分词,通过分词剔除这些垃圾数据为后续的数据分析提供保障。
与现有技术相比,本发明的有益效果是:该社会化媒体分析***,它能够自动采集数据、整理、分析当前的舆论动向,为决策者决策提供参考依据。为学校教育教学的提供可控制性的依据;为其他领域的数据分析提供一个借鉴和参考。
附图说明
图1为本发明的流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中,一种社会化媒体分析***,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;
S1,数据采集模块的功能是从网页中获取论坛帖子内容,为后面数据分析提供资源。数据采集分为网址采集和内容采集,先采集网址,根据采集到的网址采集相应的帖子内容。网址采集最多采到第四级就是帖子内容网址,有的论坛采集到第二级就是帖子内容网址,采集步骤如下:
1)输入初始化种子,采集一级网址,一级网址入库;
2)如果一级网址是帖子内容网址,直接走向8),否则继续3);
3)根据一级网址,采集二级网址,二级网址入库;
4)如果二级网址是帖子内容网址,直接走向8),否则继续5);
5)根据二级网址,采集三级网址,三级网址入库;
6)如果三级网址是帖子内容网址,直接走向8),否则继续7);
7)根据三级网址,采集四级网址,四级网址入库;
8)采集帖子内容,采集标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区;
S2,数据整理模块:在数据整理中,主要是对采集到的数据进行提纯,采集到的论坛数据无意义的词比较多,需要进行分词[1],通过分词剔除这些垃圾数据为后续的数据分析提供保障。针对论坛数据可采用的预处理步骤如下:
1)分词,***采用采用ICTCLAS进行中文分词,分词正确率高达97.58%(973专家组评测结果)另外,考虑到互联网不断有网络专用语和固定搭配出现,将积累并整理过的网络专用语加入了分词用户词典,以此提高分词的性能;
2)过滤停用词:停用词是指那些对文本主题没有贡献的词,例如:的、地、得,通过对停用词的过滤,不仅可以减少文本特征的维度,而且可以减少计算量。
3)同义词合并:在分词中,同义词比较多,对同义词的合并能够减少关键词的数量,提高后期聚类的准确性;
S3,数据分析模块是社会化媒体分析***的关键,主要涉及到帖子文本特征的提取,提取特征的方法有多种,例如TF-IDF,互信息、信息熵,在这篇文章中采用TF-IDF,它涉及到向量空间模型,向量空间模型的思想是用向量的形式来描述文档,即将文档表示成形如(w1,w2,w3,…)的形式,其中wi是出现在文档中的各个词的权重。TF称为词频,用于计算该词描述文档内容的能力,IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上:在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点,目前通常使用的是TF-IDF公式来计算权重。TF-IDF公式有多种形式,最常用的公式形式如下:
其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为文本的总数,nt为文本集中出现词t的文本数,分母为归一化因子。
提取特征后,需要对这些帖子进行识别分类,***中使用k-mean聚类方法来进行分类,k-means算法的核心思想是把一个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小,算法处理过程:
输入:聚类个数k,包含n个数据对象的数据集。
输出:k个聚类。
1)从n个数据对象中任意选取k个对象作为初始的聚类中心。
2)分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中。
3)所有对象分配完成后,重新计算k个聚类的中心。
4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。
5)输出聚类结果;
分完类,需要进行一系列话题热度评分,评出哪一类帖子最受大家的浏览和回帖,最能代表此类话题的中心意思。评分的参数主要包含帖子数、精华帖数、回复数、浏览数,然后评选出最靠前的帖子类,并以帖子类中最热门的前5个关键词作为此类贴的关键词,同时找出此类贴中最热门的一个帖子作为关键贴。
社会化媒体***流程分析:
1)首先在数据采集模块中采集网址,然后根据采集的网址采集帖子内容。
2)然后在数据整理模块中对采集到的内容进去提纯处理,主要采用分词来处理,剔除无用的数据。
3)接着在数据分析模块中对提纯后的数据进行分类识别,找出最关心的话题,并把话题帖子显示出来。
4)关键词检索必须在内容采集完后才可以有检索结果。
5)分析出来的结果通过直方图和直线图显示出来。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其它的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同替换和改进,均应包含在本发明技术方案的保护范围之内。
Claims (1)
1.一种社会化媒体分析***,至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块;所述数据采集模块包括网址采集和内容采集模块;所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块;所述数据分析模块包括内容分析模块和数据显示模块;所述关键词检索模块主要为显示内容模块;所述报表生成模块包括显示直方图和显示直线图模块;其特征在于:
S1,数据采集模块的功能是从网页中获取论坛帖子内容,为后面数据分析提供资源。数据采集分为网址采集和内容采集,先采集网址,根据采集到的网址采集相应的帖子内容。网址采集最多采到第四级就是帖子内容网址,有的论坛采集到第二级就是帖子内容网址,采集步骤如下:
1)输入初始化种子,采集一级网址,一级网址入库;
2)如果一级网址是帖子内容网址,直接走向8),否则继续3);
3)根据一级网址,采集二级网址,二级网址入库;
4)如果二级网址是帖子内容网址,直接走向8),否则继续5);
5)根据二级网址,采集三级网址,三级网址入库;
6)如果三级网址是帖子内容网址,直接走向8),否则继续7);
7)根据三级网址,采集四级网址,四级网址入库;
8)采集帖子内容,采集标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区;
S2,数据整理模块:在数据整理中,主要是对采集到的数据进行提纯,采集到的论坛数据无意义的词比较多,需要进行分词[1],通过分词剔除这些垃圾数据为后续的数据分析提供保障。针对论坛数据可采用的预处理步骤如下:
1)分词,***采用采用ICTCLAS进行中文分词,分词正确率高达97.58%(973专家组评测结果)另外,考虑到互联网不断有网络专用语和固定搭配出现,将积累并整理过的网络专用语加入了分词用户词典,以此提高分词的性能;
2)过滤停用词:停用词是指那些对文本主题没有贡献的词,例如:的、地、得,通过对停用词的过滤,不仅可以减少文本特征的维度,而且可以减少计算量。
3)同义词合并:在分词中,同义词比较多,对同义词的合并能够减少关键词的数量,提高后期聚类的准确性
S3,数据分析模块是社会化媒体分析***的关键,主要涉及到帖子文本特征的提取,提取特征的方法有多种,例如TF-IDF,互信息、信息熵,在这篇文章中采用TF-IDF,它涉及到向量空间模型,向量空间模型的思想是用向量的形式来描述文档,即将文档表示成形如(w1,w2,w3,…)的形式,其中wi是出现在文档中的各个词的权重。TF称为词频,用于计算该词描述文档内容的能力,IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上:在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点,目前通常使用的是TF-IDF公式来计算权重。TF-IDF公式有多种形式,最常用的公式形式如下:
其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为文本的总数,nt为文本集中出现词t的文本数,分母为归一化因子。
提取特征后,需要对这些帖子进行识别分类,***中使用k-mean聚类方法来进行分类,k-means算法的核心思想是把一个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小,算法处理过程:
输入:聚类个数k,包含n个数据对象的数据集。
输出:k个聚类。
1)从n个数据对象中任意选取k个对象作为初始的聚类中心。
2)分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中。
3)所有对象分配完成后,重新计算k个聚类的中心。
4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。
5)输出聚类结果;
分完类,需要进行一系列话题热度评分,评出哪一类帖子最受大家的浏览和回帖,最能代表此类话题的中心意思。评分的参数主要包含帖子数、精华帖数、回复数、浏览数,然后评选出最靠前的帖子类,并以帖子类中最热门的前5个关键词作为此类贴的关键词,同时找出此类贴中最热门的一个帖子作为关键贴。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410634592.2A CN104408083A (zh) | 2014-10-27 | 2014-10-27 | 一种社会化媒体分析*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410634592.2A CN104408083A (zh) | 2014-10-27 | 2014-10-27 | 一种社会化媒体分析*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104408083A true CN104408083A (zh) | 2015-03-11 |
Family
ID=52645714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410634592.2A Pending CN104408083A (zh) | 2014-10-27 | 2014-10-27 | 一种社会化媒体分析*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104408083A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834739A (zh) * | 2015-05-20 | 2015-08-12 | 成都布林特信息技术有限公司 | 互联网信息存储*** |
CN105205048A (zh) * | 2015-10-21 | 2015-12-30 | 上海迪爱斯通信设备有限公司 | 一种热词分析统计***及方法 |
CN105389389A (zh) * | 2015-12-10 | 2016-03-09 | 安徽博约信息科技有限责任公司 | 一种网络舆情传播态势媒体联动分析方法 |
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
CN106485525A (zh) * | 2015-08-31 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置 |
CN106780036A (zh) * | 2016-11-16 | 2017-05-31 | 硕橙(厦门)科技有限公司 | 一种基于互联网数据采集的情绪指数构建方法 |
CN106815199A (zh) * | 2015-11-30 | 2017-06-09 | 任子行网络技术股份有限公司 | 基于机器学习的协议类型分析方法和装置 |
CN107122350A (zh) * | 2017-04-27 | 2017-09-01 | 北京易麦克科技有限公司 | 一种多段落文本的特征抽取***及方法 |
CN107169632A (zh) * | 2017-04-19 | 2017-09-15 | 广东数相智能科技有限公司 | 全球媒体形象分析方法、装置和*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239706A1 (en) * | 2006-04-05 | 2007-10-11 | Paul Zhang | Citation network viewer and method |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化*** |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控***及方法 |
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及*** |
-
2014
- 2014-10-27 CN CN201410634592.2A patent/CN104408083A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239706A1 (en) * | 2006-04-05 | 2007-10-11 | Paul Zhang | Citation network viewer and method |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化*** |
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控***及方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及*** |
Non-Patent Citations (1)
Title |
---|
孟丽 等: "中文分词技术在社会化媒体分析中的应用", 《中国教育技术装备》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834739A (zh) * | 2015-05-20 | 2015-08-12 | 成都布林特信息技术有限公司 | 互联网信息存储*** |
CN104834739B (zh) * | 2015-05-20 | 2017-11-17 | 成都布林特信息技术有限公司 | 互联网信息存储*** |
CN106485525A (zh) * | 2015-08-31 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置 |
CN105205048A (zh) * | 2015-10-21 | 2015-12-30 | 上海迪爱斯通信设备有限公司 | 一种热词分析统计***及方法 |
CN105205048B (zh) * | 2015-10-21 | 2018-05-04 | 迪爱斯信息技术股份有限公司 | 一种热词分析统计***及方法 |
CN106815199A (zh) * | 2015-11-30 | 2017-06-09 | 任子行网络技术股份有限公司 | 基于机器学习的协议类型分析方法和装置 |
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
CN105389389A (zh) * | 2015-12-10 | 2016-03-09 | 安徽博约信息科技有限责任公司 | 一种网络舆情传播态势媒体联动分析方法 |
CN105389389B (zh) * | 2015-12-10 | 2018-09-25 | 安徽博约信息科技股份有限公司 | 一种网络舆情传播态势媒体联动分析方法 |
CN106780036A (zh) * | 2016-11-16 | 2017-05-31 | 硕橙(厦门)科技有限公司 | 一种基于互联网数据采集的情绪指数构建方法 |
CN107169632A (zh) * | 2017-04-19 | 2017-09-15 | 广东数相智能科技有限公司 | 全球媒体形象分析方法、装置和*** |
CN107122350A (zh) * | 2017-04-27 | 2017-09-01 | 北京易麦克科技有限公司 | 一种多段落文本的特征抽取***及方法 |
CN107122350B (zh) * | 2017-04-27 | 2021-02-05 | 北京易麦克科技有限公司 | 一种多段落文本的特征抽取***的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104408083A (zh) | 一种社会化媒体分析*** | |
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
US11416535B2 (en) | User interface for visualizing search data | |
CN103745000B (zh) | 一种中文微博客的热点话题检测方法 | |
Tran et al. | Hashtag recommendation approach based on content and user characteristics | |
CN108170692A (zh) | 一种热点事件信息处理方法和装置 | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
CN104281607A (zh) | 微博热点话题分析方法 | |
CN105095433A (zh) | 实体推荐方法及装置 | |
CN103744877A (zh) | 部署于互联网的舆情监测应用***及运用方法 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN105550216A (zh) | 学术研究信息的搜索方法、挖掘方法及装置 | |
CN104965931A (zh) | 一种基于大数据的舆情分析方法 | |
TW201426360A (zh) | 文字串流訊息分析系統和方法 | |
CN104281608A (zh) | 基于微博的突发事件分析方法 | |
Agarwal et al. | Semantic feature clustering for sentiment analysis of English reviews | |
CN105930470A (zh) | 一种基于特征权重分析技术的文件检索方法 | |
CN105138577A (zh) | 一种基于大数据的事件演化分析方法 | |
Kewsuwun et al. | A sentiment analysis model of agritech startup on Facebook comments using naive Bayes classifier. | |
Rohani et al. | Topic modeling for social media content: A practical approach | |
Zainol et al. | Association analysis of cyberbullying on social media using Apriori algorithm | |
Chen et al. | Research on credit evaluation model of online store based on SnowNLP | |
TWI650655B (zh) | 網路事件自動蒐集分析方法及系統 | |
CN105159879A (zh) | 一种网络个体或群体价值观自动判别方法 | |
Wlodarczyk et al. | Current trends in predictive analytics of big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150311 |
|
WD01 | Invention patent application deemed withdrawn after publication |