CN104408083A

CN104408083A - 一种社会化媒体分析***

Info

Publication number: CN104408083A
Application number: CN201410634592.2A
Authority: CN
Inventors: 李葆青; 张跃; 胡玲芳; 孟丽
Original assignee: LIUPANSHI VOCATIONAL AND TECHNICAL COLLEGE
Current assignee: LIUPANSHI VOCATIONAL AND TECHNICAL COLLEGE
Priority date: 2014-10-27
Filing date: 2014-10-27
Publication date: 2015-03-11

Abstract

一种社会化媒体分析***，至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块；所述数据采集模块包括网址采集和内容采集模块；所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块；所述数据分析模块包括内容分析模块和数据显示模块；所述关键词检索模块主要为显示内容模块；所述报表生成模块包括显示直方图和显示直线图模块；它能够自动采集数据、整理、分析当前的舆论动向，为决策者决策提供参考依据。为学校教育教学的提供可控制性的依据；为其他领域的数据分析提供一个借鉴和参考。

Description

一种社会化媒体分析***

技术领域

本发明涉及社会媒体分析应用技术领域，尤其是一种社会化媒体分析***。

背景技术

社会化媒体是指允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。社会化媒体的产生依赖WEB2.0的发展。现阶段主要包括社交网站、微博、微信、博客、论坛、播客等等。

由于社会化媒体(Social Media)已经在网络化环境中广泛研究，通过对它们的建模分析，从这个超越社会沟通的一个拥有大量数据的超集中，可以很好地反映并提炼出交往互动者之间的思想动态、行为倾向，甚至某一社交群体的集体策略。因而，经过分析和模式识别，我们可以***交往意向和可能发生的行为结果，比如判定投资或营销群体的兴趣方向、旅游公司和游客动态、特定人群的行为意向、学生群体的思维模式和动机等等，从而加以干预，或进行行为控制，达到我们所希望达到的经济社会运行控制、群体和个人行为干预等，其经济价值和社会价值不可估量，极大地有利于经济和社会的稳定、减少行为失误、提高学校教育教学的可控制性。

社会化媒体分析***最大特点是综合数据采集、数据整理、数据分析于一体，完全实现自动采集数据、自动提纯数据、自动分析数据，从分析的数据中为决策者提供有用的信息。

发明内容

现有技术不能满足人们的需要，为弥补现有技术不足，本发明旨在提供一种社会化媒体分析***。

为实现上述目的，本发明采用以下技术方案：一种社会化媒体分析***，至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块；所述数据采集模块包括网址采集和内容采集模块；所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块；所述数据分析模块包括内容分析模块和数据显示模块；所述关键词检索模块主要为显示内容模块；所述报表生成模块包括显示直方图和显示直线图模块；

S1，数据采集模块的功能是从网页中获取论坛帖子内容，为后面数据分析提供资源。数据采集分为网址采集和内容采集，先采集网址，根据采集到的网址采集相应的帖子内容。网址采集最多采到第四级就是帖子内容网址，有的论坛采集到第二级就是帖子内容网址，采集步骤如下：

1)输入初始化种子，采集一级网址，一级网址入库；

2)如果一级网址是帖子内容网址，直接走向8)，否则继续3)；

3)根据一级网址，采集二级网址，二级网址入库；

4)如果二级网址是帖子内容网址，直接走向8)，否则继续5)；

5)根据二级网址，采集三级网址，三级网址入库；

6)如果三级网址是帖子内容网址，直接走向8)，否则继续7)；

7)根据三级网址，采集四级网址，四级网址入库；

8)采集帖子内容，采集标题、帖子内容、发帖以及回帖用户名、

帖子存在的时间、帖子的关注度、讨论区；

S2，数据整理模块：在数据整理中，主要是对采集到的数据进行提纯，采集到的论坛数据无意义的词比较多，需要进行分词，通过分词剔除这些垃圾数据为后续的数据分析提供保障。

与现有技术相比，本发明的有益效果是：该社会化媒体分析***，它能够自动采集数据、整理、分析当前的舆论动向，为决策者决策提供参考依据。为学校教育教学的提供可控制性的依据；为其他领域的数据分析提供一个借鉴和参考。

附图说明

图1为本发明的流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中，一种社会化媒体分析***，至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块；所述数据采集模块包括网址采集和内容采集模块；所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块；所述数据分析模块包括内容分析模块和数据显示模块；所述关键词检索模块主要为显示内容模块；所述报表生成模块包括显示直方图和显示直线图模块；

1)输入初始化种子，采集一级网址，一级网址入库；

2)如果一级网址是帖子内容网址，直接走向8)，否则继续3)；

3)根据一级网址，采集二级网址，二级网址入库；

4)如果二级网址是帖子内容网址，直接走向8)，否则继续5)；

5)根据二级网址，采集三级网址，三级网址入库；

6)如果三级网址是帖子内容网址，直接走向8)，否则继续7)；

7)根据三级网址，采集四级网址，四级网址入库；

8)采集帖子内容，采集标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区；

S2，数据整理模块：在数据整理中，主要是对采集到的数据进行提纯，采集到的论坛数据无意义的词比较多，需要进行分词^[1]，通过分词剔除这些垃圾数据为后续的数据分析提供保障。针对论坛数据可采用的预处理步骤如下：

1)分词，***采用采用ICTCLAS进行中文分词，分词正确率高达97.58％(973专家组评测结果)另外，考虑到互联网不断有网络专用语和固定搭配出现，将积累并整理过的网络专用语加入了分词用户词典，以此提高分词的性能；

2)过滤停用词：停用词是指那些对文本主题没有贡献的词，例如：的、地、得，通过对停用词的过滤，不仅可以减少文本特征的维度，而且可以减少计算量。

3)同义词合并：在分词中，同义词比较多，对同义词的合并能够减少关键词的数量，提高后期聚类的准确性；

S3，数据分析模块是社会化媒体分析***的关键，主要涉及到帖子文本特征的提取，提取特征的方法有多种，例如TF-IDF，互信息、信息熵，在这篇文章中采用TF-IDF，它涉及到向量空间模型，向量空间模型的思想是用向量的形式来描述文档，即将文档表示成形如(w₁，w₂，w₃，…)的形式，其中w_i是出现在文档中的各个词的权重。TF称为词频，用于计算该词描述文档内容的能力，IDF称为反文档频率，用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上：在一个文本中出现很多次的单词，在另一个同类文本中出现次数也会很多，反之亦然。所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点，目前通常使用的是TF-IDF公式来计算权重。TF-IDF公式有多种形式，最常用的公式形式如下：

W (t, d) = \frac{tf (t, d) \times \log (N / n_{t} + 0.01)}{\sqrt{Σ_{t &Element; d} {[tf (t, d) \times \log (N / n_{t} + 0.01)]}^{2}}}

其中，W(t，d)为词t在文本d中的权重，而tf(t，d)为词t在文本d中的词频，N为文本的总数，n_t为文本集中出现词t的文本数，分母为归一化因子。

提取特征后，需要对这些帖子进行识别分类，***中使用k-mean聚类方法来进行分类，k-means算法的核心思想是把一个数据对象划分为k个聚类，使每个聚类中的数据点到该聚类中心的平方和最小，算法处理过程：

输入：聚类个数k，包含n个数据对象的数据集。

输出：k个聚类。

1)从n个数据对象中任意选取k个对象作为初始的聚类中心。

2)分别计算每个对象到各个聚类中心的距离，把对象分配到距离最近的聚类中。

3)所有对象分配完成后，重新计算k个聚类的中心。

4)与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，转(2)，否则转(5)。

5)输出聚类结果；

分完类，需要进行一系列话题热度评分，评出哪一类帖子最受大家的浏览和回帖，最能代表此类话题的中心意思。评分的参数主要包含帖子数、精华帖数、回复数、浏览数，然后评选出最靠前的帖子类，并以帖子类中最热门的前5个关键词作为此类贴的关键词，同时找出此类贴中最热门的一个帖子作为关键贴。

社会化媒体***流程分析：

1)首先在数据采集模块中采集网址，然后根据采集的网址采集帖子内容。

2)然后在数据整理模块中对采集到的内容进去提纯处理，主要采用分词来处理，剔除无用的数据。

3)接着在数据分析模块中对提纯后的数据进行分类识别，找出最关心的话题，并把话题帖子显示出来。

4)关键词检索必须在内容采集完后才可以有检索结果。

5)分析出来的结果通过直方图和直线图显示出来。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其它的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

以上所述，仅为本发明的较佳实施例，并不用以限制本发明，凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同替换和改进，均应包含在本发明技术方案的保护范围之内。

Claims

1.一种社会化媒体分析***，至少包括数据采集模块、数据整理模块、数据分析模块、关键词检索模块和报表生成模块；所述数据采集模块包括网址采集和内容采集模块；所述数据整理模块包括处理同义词、处理停用词、数据内容处理、数据库处理模块；所述数据分析模块包括内容分析模块和数据显示模块；所述关键词检索模块主要为显示内容模块；所述报表生成模块包括显示直方图和显示直线图模块；其特征在于：

1)输入初始化种子，采集一级网址，一级网址入库；

2)如果一级网址是帖子内容网址，直接走向8)，否则继续3)；

3)根据一级网址，采集二级网址，二级网址入库；

4)如果二级网址是帖子内容网址，直接走向8)，否则继续5)；

5)根据二级网址，采集三级网址，三级网址入库；

6)如果三级网址是帖子内容网址，直接走向8)，否则继续7)；

7)根据三级网址，采集四级网址，四级网址入库；

3)同义词合并：在分词中，同义词比较多，对同义词的合并能够减少关键词的数量，提高后期聚类的准确性

W (t, d) = \frac{tf (t, d) \times \log (N / n_{t} + 0.01)}{\sqrt{Σ_{t &Element; d} [tf (t, d) \times \log (N / n_{t} + 0.01)]^{2}}}

输入：聚类个数k，包含n个数据对象的数据集。

输出：k个聚类。

1)从n个数据对象中任意选取k个对象作为初始的聚类中心。

3)所有对象分配完成后，重新计算k个聚类的中心。

5)输出聚类结果；