CN104778209A

CN104778209A - 一种针对千万级规模新闻评论的观点挖掘方法

Info

Publication number: CN104778209A
Application number: CN201510111752.XA
Authority: CN
Inventors: 刘春阳; 程工; 吴俊杰; 张旭; 王卿; 庞琳; 李雄; 袁石
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-03-13
Filing date: 2015-03-13
Publication date: 2015-07-15
Anticipated expiration: 2035-03-13
Also published as: CN104778209B

Abstract

本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下：1)、统计千万级规模新闻评论的数量；2)、判断该数量是否大于或等于阈值K，如果是不予处理，否则进入步骤三；3)、利用中文分词工具，对数量小于阈值K的新闻标题和评论进行分词，进行词性标注；4)、根据分词结果对新闻评论聚类，得到类别标签；5)、对新闻评论进行关键词对提取；6)、统计新闻评论的比例和混杂度；7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具，考虑汉语语言的用法和搭配关系，结合新闻标题的作用，处理千万级规模的新闻评论，具有高效性、鲁棒性和易用性等优点。

Description

一种针对千万级规模新闻评论的观点挖掘方法

技术领域

本发明属于数据挖掘领域，涉及一种观点挖掘技术，具体的说是一种针对千万级规模新闻评论的观点挖掘方法。

背景技术

随着网民规模的不断增大，社会化媒体也得到迅速地发展，以论坛、微博、微信为代表逐渐渗透到全民生活和工作的每一个层面，对人们的行为模式、心理模式产生了极为深远的影响。同时社会化媒体每天都会产生大量的短文本，含有大量的表达事件方面或用户观点的信息。通过分析该信息，人们一方面可以了解某一事件或话题的信息扩散情况，另一方面通过观察其他人对某一事件或话题的看法，了解到其观点偏好和行为特征，这对社会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。如何从大量的社会化媒体短文本中提取出能表达事件方面或用户观点的关键词成为当前的研究重点。

新闻评论是社会各界人士对社会化主流媒体所发布的新闻的看法，这些评论既能反映人们对某一新闻的观点，又能反应人们对某一新闻关注的方面。但是，由于新闻评论具有数量大，长度短，用词口语化，汉语语言的多样性等特点，对新闻评论进行观点挖掘具有一定的难度。

发明内容

本发明的目的是：在信息***式增长的情况下，针对如何高效地从某一话题的大量新闻评论文本中提取出事件方面或用户观点的问题，提出了一种针对千万级规模新闻评论的观点挖掘方法。

该方法具体步骤如下：

步骤一：根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量；初始根据新闻标题为新闻评论进行分类，每个新闻标题下的新闻评论为一类；

步骤二：将新闻评论数量大于或等于阈值K的各类新闻评论不予处理，将新闻评论数量小于阈值K的新闻评论进入步骤三处理；

阈值K计算如下：

K = \max_count \times \sqrt{0.05}

其中，max_count表示所有新闻评论的最大评论数量；

步骤三：利用中文分词工具，对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词，并进行词性标注；

经过分词后，将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形容词和动词；

步骤四：根据分词结果对评论数量小于阈值K的所有新闻评论聚类，并得到聚类后每类新闻评论的类别标签；

步骤五：对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取；

步骤501、对每一类新闻评论进行词频统计，选取词频排名前M个词语作为候选的高频词；

其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论；M为整数。

步骤502、根据候选高频词在新闻评论中出现的位置，选取与候选高频词紧邻的前后词分别构成前后两个词对；

步骤503、统计每一个词对在新闻评论中出现的次数，计算每一个词对的权重W：

W＝F_g×N_c

F_g为核心词权重；N_c表示词对共现权重。

步骤504、根据权重对词对进行降序排序，选取前N个词对作为该类新闻评论中的关键词对；其中，N为整数。

步骤六：根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论，统计每一类新闻评论的比例和混杂度；

新闻评论的混杂度，针对聚类后的含有类别标签的各类新闻评论，统计各类新闻评论中包含的新闻标题个数；

步骤七：根据关键词对，筛选并提取每一类新闻评论中的代表性文本。

本发明的优点在于：

(1)、一种针对千万级规模新闻评论的观点挖掘方法，适用于千万级规模新闻评论的方面分析。

(2)、一种针对千万级规模新闻评论的观点挖掘方法，具有高效性和易用性，在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。

(3)、一种针对千万级规模新闻评论的观点挖掘方法，利用中文分词工具，考虑汉语语言的用法和搭配关系，结合新闻标题的作用，处理千万级规模的新闻评论，具有高效性、鲁棒性和易用性等优点。

附图说明

图1是为本发明一种针对千万级规模新闻评论的观点挖掘方法流程图。

图2为本发明关键词对提取的具体流程流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

一种针对千万级规模新闻评论的观点挖掘方法，基于数据挖掘、自然语言处理等技术，利用中文分词、聚类等方法，对千万级规模的新闻评论进行分析，从中获取能表达事件方面或用户观点的重要信息。

首先，根据某一事件或话题下新闻标题统计每一个标题下的评论数量，将评论数量超过一定值的新闻评论按标题组成一类；再对剩下的新闻标题和评论内容进行中文分词，根据分词的结果进行聚类；然后对每一类新闻评论提取该类的关键词对，并计算每一类新闻评论的比例和混杂度；最后根据每一类的关键词对，从该类的新闻评论中提取出该类下能代表事件方面或用户观点的文本。

具体实施步骤如下：

新闻标题能简明扼要地概括新闻的内容，根据新闻标题对新闻评论进行分类，每一个新闻标题是一类，从而进一步根据新闻标题对新闻评论进行数量统计，统计每一类新闻标题下的千万级规模新闻评论的数量。

比如，关于“APEC”话题下有41067条新闻评论，含有1056个不同的新闻标题，则分别统计1056类标题下的新闻评论的数量。

阈值K计算如下：

K = \max_count \times \sqrt{0.05}

其中，max_count表示所有新闻评论中，新闻标题含有的最大评论数量。

对步骤二中评论数量小于阈值K的新闻评论以及对应的新闻标题进行分词和词性标注。分词的目的是为了将新闻评论转化成一个个词语。根据汉语语言的特点，能反映事件方面或用户观点的词语都是实词。因此，在分词的过程中需要对每一个词语进行词性标注对分词之后的结果进行词性筛选和词频筛选两种处理。

词性筛选是指将分词结果中的名词、形容词、动词保留，将其他词性的词语去掉。对分词进行词性筛选能提高新闻评论的分类精度。

词频筛选是指将分词结果中的低频词和高频词去掉。

低频词很可能是只在少数新闻评论中出现的，不具有代表性。

高频词有两种：一种是大部分新闻评论都出现的词语；另一类是错误分词以后产生的分词碎片。

高频词在一定程度上反映了：新闻评论数据集中人们讨论的较多的方面和问题。

低频词和高频词对含有观点信息的提取没有多大的参考意义，去掉之后能提高处理数据的效率。

评论数量小于阈值K的新闻评论经过分词后得到只含有名词、形容词和动词的评论文本；

将步骤三分词得到的名词、形容词和动词作为新闻评论聚类的属性，构建特征矩阵，对步骤二评论数量小于阈值K的各类新闻标题对应的新闻评论进行K-means聚类。

聚类类别的个数为5到20，优选10个。

K-means聚类算法，是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。实际上是用距离函数来刻画样本点到聚类中心的聚类，根据距离将样本点划分到对应的类别中。

优选距离函数是余弦相似度，余弦相似度是信息检索中常用的相似度的计算方式，假如有两条新闻评论i和j，有n个词语作为聚类的特征属性，文本i表示成向量D_i＝(w_i1,w_i2,…,w_in)，文本j表示成D_j＝(w_j1,w_j2,…,w_jn)，余弦相似度Cos(D_i,D_j)计算公式为：

Cos (D_{i} D_{j}) = \frac{Σ_{k = 1}^{n} w_{ik} w_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2}} \sqrt{Σ_{k = 1}^{n} w_{jk}^{2}}} w_{jk}

其中，w_ik指第k个特征词在文本i中出现的次数，w_jk指第k个特征词在文本j出现的次数。

利用余弦相似度Cos(D_i,D_j)计算公式，得到一个文本距离聚类中心的距离远近程度，根据该距离远近程度将该文本归到最接近的聚类中心的类别中，得到类别标签。

本步骤是针对评论数量大于等于阈值K的各类新闻评论以及聚类后含有类别标签的各类新闻评论进行关键词对的提取。

对关键词对的提取是在高频词的基础上进行的，具体步骤如下：

本发明实施例中M取500。

其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论。

选取与候选高频词紧邻的前一个词语，构成高频词和前词语的词对；同时选取与候选高频词紧邻的后一个词语，构成高频词和后词语的词对；根据高频词和紧邻词构成了词网。

例如，文本中出现A、B、C三个词语，其中B表示高频词，基于高频词B所构建的词对是“AB”和“BC”。

W＝F_g×N_c

其中，词对的权重W即词网中的边的权重，F_g为核心词权重；指词对中高频词的权重，高频词出现的次数越多，越能形成一条边，说明核心词的权重越高。核心词权重用高频词的频率来表示。

N_c表示词对共现权重，指两个词同时紧挨着出现的权重，用两个词共现的次数来表示。

步骤504、根据权重对词对进行降序排序，选取前N个词对作为该类新闻评论中的关键词对；

本发明实施例中N取30。

根据步骤二选出的评论数量大于等于阈值K的每一类新闻评论以及步骤四聚类之后得到的含有类别标签每一类新闻评论，统计每一类新闻评论的数量，计算新闻评论的比例。

新闻评论的混杂度，针对步骤四聚类之后得到的含有类别标签各类新闻评论，表示各类新闻评论中有多少种标题不同的新闻，更好地反映每一类新闻评论的特征。每一类新闻评论的混杂度的指标用标准化之后的熵进行衡量；

根据熵的基本理论，计算每一类新闻评论的熵。由于每一类新闻评论含有的标题数量不一样，对每一类新闻评论的熵S_n进行标准化：

S_{n} = \frac{S - \min (S)}{\max (S) - \min (S)}

其中，S表示每一类新闻评论中含有的标题数量。

步骤701、计算每一类新闻评论中的代表性文本；

根据步骤五提取出的关键词对，遍历每一类新闻评论，计算该类关键词对在每条文本中出现的频数F_w，并乘以关键词对的权重W，将所有关键词对在该文本中出现的频数与权重的乘积之和作为这条文本的权重Wtext。

Wtext＝F_w×W

根据文本权重对文本进行降序排序，选取前J条文本作为该类新闻评论的代表性文本，J依据用户需求而定；本发明中J取30。

步骤702、对代表性文本进行去重；

对新闻评论中选择的重复的代表性文本进行去重操作，以尽量多地展示该类别下权重比较高的不同内容的代表性文本。

本发明从内容角度采用Levenshtein距离来实现代表性文本的去重。Levenshtein距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。Levenshtein距离的编辑操作包括将一个字符替换成另一个字符，***一个字符和删除一个字符。在对代表性文本按权重排序的同时，计算文本两两之间的Levenshtein距离，只保留Levenshtein距离相近的一条文本，将其余文本去掉。

本发明鉴于中文短文本的稀疏性、实时性等特性，研究千万级规模新闻评论的观点挖掘方法，通过结合新闻标题的作用和新闻评论的用词特征，对千万级规模的新闻评论进行聚类，根据聚类结果，在聚类的基础上，考虑汉语语言的用法和搭配关系，提取每一类新闻评论的关键词对，并根据关键词对来筛选能表达事件方面或用户观点的这一类新闻评论中的代表性文本。

Claims

1.一种针对千万级规模新闻评论的观点挖掘方法，其特征在于，对于某个话题，找到关于该话题的所有新闻标题，然后进行如下步骤：

阈值K为：

K = \max_count \times \sqrt{0.05}

其中，max_count表示新闻标题对应的最大评论数量；

2.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法，其特征在于，步骤三中所述的分词，对每一个词语进行词性标注，对分词之后的结果进行词性筛选和词频筛选两种处理；

词性筛选是指将分词结果中的名词、形容词和动词保留，将其他词性的词语去掉；

词频筛选是指将分词结果中的低频词和高频词去掉。

3.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法，其特征在于，步骤四中所述的聚类，采用K-means聚类算法，优选距离函数是余弦相似度，余弦相似度Cos(D_i,D_j)计算公式为：

Cos (D_{i}, D_{j}) = \frac{Σ_{k = 1}^{n} w_{ik} w_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2}} \sqrt{Σ_{k = 1}^{n} w_{jk}^{2}}} w_{jk}

其中，w_ik指第k个特征词在文本i中出现的次数，w_jk指第k个特征词在文本j出现的次数；i和j为两条新闻评论，有n个词语作为聚类的特征属性，文本i表示成向量D_i＝(w_i1,w_i2,…,w_in)，文本j表示成D_j＝(w_j1,w_j2,…,w_jn)。

4.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法，其特征在于，所述的步骤五具体包括：

其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论；M为整数；

W＝F_g×N_c

F_g为核心词权重；N_c表示词对共现权重；

步骤504、根据权重对词对进行降序排序，选取前N个词对作为该类新闻评论中的关键词对；其中，N为正整数。

5.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法，其特征在于，所述的步骤七具体为：

步骤701、计算每一类新闻评论中的代表性文本；

计算关键词对在每条文本中出现的频数F_w，并乘以关键词对的权重W，频数与权重的乘积作为该条文本的权重Wtext:

Wtext＝F_w×W

根据文本权重对文本进行降序排序，选取前J条文本作为该类新闻评论的代表性文本，J为正整数，由用户设定；

步骤702、对代表性文本进行去重；

采用Levenshtein距离对新闻评论中重复的代表性文本去重，在对代表性文本按权重排序的同时，计算文本两两之间的Levenshtein距离，保留Levenshtein距离相近的一条文本，实现去重。