CN110019677A

CN110019677A - 基于聚类分析的微博广告发布者识别方法及装置

Info

Publication number: CN110019677A
Application number: CN201711263641.6A
Authority: CN
Inventors: 赵志宏; 赵星宇; 陈松宇; 王譞
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2019-07-16

Abstract

本发明公开了基于聚类分析的微博广告发布者识别方法及装置，该微博广告识别方法对于用户维度，针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象，提出核心微博的概念，通过提取核心微博主题及其对应的微博序列，以此计算用户特征和对应微博的文本特征，并使用聚类算法对特征进行聚类，从而识别其中的微博广告发布者。实验结果显示该方法具有很高的准确率，证明该方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者，可以为微博垃圾信息识别、清理等工作提供实用方法。

Description

基于聚类分析的微博广告发布者识别方法及装置

技术领域

本发明涉及一种计算机技术，主要利用数据挖掘与自然语言处理方法来解决微博数据中的垃圾信息发布者筛选问题，属于计算机技术、数据挖掘及舆情分析交叉技术应用领域。

背景技术

伴随着微博的迅猛发展，越来越多的垃圾信息随之出现，这些信息不仅影响着用户体验，也对微博相关的研究工作造成了极大的负面影响。目前，针对垃圾信息的研究主要集中在单条垃圾微博的分类和筛选，而单条微博粒度下的计算势必需要对整个微博信息流进行处理，超大数据量使得运算效率低下，且现有研究大都使用分类算法进行计算，分类过程中无法对大数据量训练集进行人工标注，数据量的限制导致其计算结果无法保证足够精确。

中国专利申请CN201310410578.X，一种微博广告用户检测方法，涉及社交网络安全领域，特别是涉及一种微博广告用户检测的方法，为解决新浪自带的检测工具对广告用户十分不灵敏的缺陷而发明。本发明的方法包括：收集用户信息，为每个用户添加分类标识；对获得的用户信息进行特征抽取，基于数据挖掘方法得到广告用户和普通用户的内容和行为的特征属性集；根据具有分类标识的特征属性集进行模型训练，得到广告用户判别模型。该发明主要应用于对新浪微博数据进行广告用户自动检测。

但是使用该方法和装置判定的广告用户准确性和数据处理效率还存在一定的偏差。

发明内容

本发明的目的是克服了现有技术的不足而提供了一种效率高、数据量大、可实施性高的聚类分析微博广告发布者识别方法。

为了解决上述存在的技术问题，本发明采用下列技术方案：

通过对微博用户数据和发帖数据依次进行数据清洗、数据标注、核心微博提取、特征提取、参数选取、聚类分析和结果检测，从而识别出其中的微博广告发布者。其中具体步骤为：

数据清洗：针对用户，将发帖数小于10的用户不纳入计算范围；针对单条微博，将微博中带有转发含义的字段及@符号后的内容进行删除。

数据标注：对用户进行手动标注以便于评判实验的准确度，标注分为广告微博发布者和普通微博发布者两类。广告微博发布者的行为特征为：发布内容带有强烈的商业色彩或转发大量低质信息等。

核心微博提取：

广告微博发布者会在广告微博中夹杂大量的普通微博。普通微博的存在会严重影响各个文本特征计算的准确性。另一方面，几乎每个广告微博发布者都会围绕一个或几个类别的实体进行宣传。因此，在这里引入基于关键词的核心微博提取方法。

使用NLPIR中文分词***提取关键词，每个用户的每条微博都会获得一个关键词列表。

User_i＝{W₁，W₂，W₃，…，W_n}

W_i＝{keyword₁，keyword₂，…，keyword_n}，

keyword_i≤keyword_i-1，i＞0

其中User_i是表示用户i的微博序列，W_i表示其中第i条微博的关键词列表的倒序排列，keyword为具体某个关键词。然后统计每个用户关键词的词频，取最大词频的10个关键词，组成用户关键词列表，并使用该列表查询包含这10 个关键词的所有微博，最终得到该用户的核心微博序列C.

C＝{W′₁，W′₂，…，W′_n}

特征提取：

1)文本相似度

由于广告微博发布者具有较为单一的主题(购物，旅游，活动等)，发帖人也具有比较固定的语言习惯，使得广告微博相较于普通微博具有较强的模板化特征，所以其文本相似度显著高于普通微博。

计算每个用户的核心微博之间的余弦相似度并求平均值以作为该用户的文本相似度。

2)时序相似度

通过对各个用户发帖时间序列的比对，发现广告用户的核心微博相比于普通用户具有明显的时序规律性。分析原因有如下几点：1.广告微博发布者为了广告能够获得更好的收益，即获得更高的关注度，通常会研究广告发布的时间曲线，寻找最佳时间点将广告投放出去；2.为了避免给用户造成刷屏的感觉，广告发布者通常会以一定的间隔进行广告投放；3.部分广告实际为机器自动发布，由人工设定内容和时间间隔，因此机器投放的广告微博会呈现极强的时序规律性。

针对上述问题，对时间序列进行分析，引入信号学中的白噪声检验方法。白噪声序列是没有消息可提取的平稳序列。白噪声检验结果——统计量 whiteNoise值越大表明时间序列随机性越强，即为广告发布者的可能性越低。

3)广告微博关键词倾向性

比对广告微博和正常微博，广告微博在词语使用和语言组织上相比于正常微博具有一定的规律性。这是因为以下几点：1.广告微博发布者为了广告能够获得更好的收益，即获得更高的关注度，通常需要使用具有煽动效果的词语，如爆款、打折等。2.由于广告自身内容决定某些词语的出现频率会明显高于普通微博，如店铺、购买等。

使用已标注的广告发布者数据，统计其关键词词频，并将关键词序列按照词频倒排，从而得到广告微博关键词序列A。但广告微博中也存在许多微博常用语，这些常用语在普通微博中同样高频率存在。为此，我们使用同样的方法针对普通微博统计出普通微博关键词序列P。针对某一词语的广告微博关键词倾向性，定义如下：

其中分别为词语在序列A，P中的位置，I_i为该词语的广告微博关键词倾向性。

而针对某一用户的广告关键词倾向性，我们使用上文提到的用户关键词序列 W，并将W中每一个关键词的广告微博关键词倾向性相加，得到用户的广告倾向值。

4)广告元素数量

由于自身宣传需要，许多微博广告发布者需要多平台多渠道宣传，为了能够促进多平台互通，许多广告发布者会在个人介绍中加入多种联系方式，包含网址 URL、邮箱、手机号、QQ、微信等。而随着个人隐私意识的不断加强和垃圾信息对人们生活影响的不断加深，普通用户对于私密性较强的微信号，QQ等信息的保护意识也在加强，所以，普通用户一般不会在个人信息中透露其他联系方式。因此，会呈现出广告发布者的个人介绍广告元素远多于普通用户的现象。

图4是普通用户与广告发布者个人介绍含广告元素个数对比，图中可以看出，广告发布者账号对应的个人介绍中，含有链接(URL)、QQ号、微信号、手机号的比例远高于普通用户。基于此特点，统计每个用户个人介绍中推广元素的数量，并以此作为聚类中的一项特征值。

DBSCAN聚类：

如上文所述，广告发布者在多个特征维度上与普通用户相比具有较为明显的差异；而考虑广告发布者的内部差异，不同的广告发布者，其发帖习惯也有较大区别，这会导致其行为模型的多种多样。在这种情况下为筛选出样本中的微博广告发布者，将其独立为一个或多个簇显然是不合适的，于我们着眼于聚类问题中的离异点查找，即将聚类方法中的离异点标注为广告发布者。基于这样的要求，选取DBSCAN作为本实验所使用的聚类方法。DBSCAN算法为基于密度的聚类算法，与传统的基于层次的聚类算法不同，该算法可以发现任意形状的聚类簇，且可以在需要时输入过滤噪声的参数。

参数选择：由于DBSCAN中当Eps过大或MinPts过小时，聚类结果将趋近于一个簇。所以我们定义Eps的范围是1～1.5，MinPts的范围是3～50。

附图说明

图1是计算流程图。

图2是核心微博Java示例(使用NLPIR Java版)。

图3是文本相似度计算Java示例。

图4是普通用户与广告发布者个人介绍含广告元素个数对比。

具体实施方式

为了加深对本发明的理解，下面结合附图和实施例对本发明进一步说明，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

微博数据集：

数据集来源于新浪微博，此数据集内包含用户数据和微博数据，都为结构化数据，以CSV格式存储。其中，weibo_users.csv文件描述用户信息； lvX_weibo.csv文件描述微博发帖信息。

表1用户信息数据结构

表2 微博信息数据结构

核心微博序列提取：

文本相似度计算

时间相似度计算

广告元素匹配

针对个人介绍中可能出现的包含网址URL、邮箱、手机号、QQ等广告元素进行筛选。主要使用正则表达式进行匹配。具体对应正则如下：

聚类分析

选取DBSCAN作为所使用的聚类方法，主要涉及聚类参数有：DBSCAN算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts)。此外，由于不同的特征值对结果的影响程度不同，需要对各个特征值赋予权重。对不同的特征值权重与聚类参数的不同组合进行分析，使用同一组数据，计算在不同的特征值权重与聚类参数的组合下的准确率、召回率和F值。

综上所述，本发明的方法和装置，克服了现有方法存在的无法应对广告内容稀释、大量人工标注的问题，提出一种基于聚类分析的微博广告发布者识别方法，该方法只需少量人工标注，且一经训练成模型，之后可直接使用。准确度如下表所示，结果分别为使用核心微博序列和使用完整微博序列的结果对比。

使用核心序列和原序列准确率对比

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.基于基于聚类分析的微博广告发布者识别方法，包括通过对微博用户数据和发帖数据依次进行数据清洗、数据标注、核心微博提取、特征提取、参数选取、聚类分析和结果检测，从而识别出其中的微博广告发布者的步骤；其中：

数据清洗：针对用户，将发帖数小于10的用户不纳入计算范围；针对单条微博，将微博中带有转发含义的字段及@符号后的内容进行删除；

数据标注：将数据清洗得到的判决结果进行人工标注，分别为“普通用户”和“广告发布者”；

核心微博提取：使用中文分词***提取关键词，每个用户的每条微博都会获得一个关键词列表。

User_i＝{W₁，W₂，W₃，…，W_n}

W_i＝{keyword₁，keyword₂，…，keyword_n}，

其中User_i是表示用户i的微博序列，W_i表示其中第i条微博的关键词列表的倒序排列，keyword为具体某个关键词。然后统计每个用户关键词的词频，取最大词频的10个关键词，组成用户关键词列表，并使用该列表查询包含这10个关键词的所有微博，最终得到该用户的核心微博序列C.

C＝{W′₁，W′₂，…，W′_n}

特征提取：使用核心微博序列提取微博数据的文本特征和用户特征，其中文本特征分为文本相似度和时序相似度，用户特征分为广告微博关键词倾向性和广告元素数量；

参数选取：调整DBSCAN算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts)，使得检测结果的F值最高；

聚类分析和结果检测：我们选取DBSCAN作为本实验所使用的聚类方法。DBSCAN算法为基于密度的聚类算法，与传统的基于层次的聚类算法不同，该算法可以发现任意形状的聚类簇，且可以在需要时输入过滤噪声的参数。

2.根据权利要求1所述的聚类分析的微博广告发布者识别方法，其特征在于：数据标注步骤中，设定如下判定规则：对用户进行手动标注以便于评判实验的准确度，标注分为广告微博发布者和普通微博发布者两类。广告微博发布者的行为特征为：发布内容存在某一时间段带有强烈的商业色彩或转发大量低质信息等。

3.根据权利要求1或3所述的基于聚类分析的微博广告发布者识别方法，其特征在于：数据标注由至少三个人进行标注。

4.基于聚类分析的微博广告发布者识别方法，其特征在于：包括微博数据的数据清洗装置、数据标注装置、核心微博计算模块、特征提取模块、聚类分析模块、聚类结果生成标签模块；其中：

数据清洗装置，针对用户，将发帖数小于10的用户不纳入计算范围；针对单条微博，将微博中带有转发含义的字段及@符号后的内容进行删除；

数据标注装置，将数据清洗得到的判决结果进行人工标注，分别为“普通用户”和“广告发布者”；

核心微博计算模块，取关键词词频序列中的前十位作为高频关键词，以保证能够筛选出其中的广告主题，保留包含这十个关键词或其近义词的微博组成核心微博序列。

特征提取模块，使用核心微博序列提取微博数据的文本特征和用户特征，其中文本特征分为文本相似度和时序相似度，用户特征分为广告微博关键词倾向性和广告元素数量；

聚类分析模块，使用DBSCAN算法，调整算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts)使计算结果准确率最高。

聚类结果生成标签模块，通过显示装置显示出来。

5.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法，其特征在于：核心微博序列使用中文分词***提取关键词，每个用户的每条微博都会获得一个关键词列表。

User_i＝{W₁，W₂，W₃，…，W_n}

W_i＝{keyword₁，keyword₂，…，keyword_n}，

C＝{W′₁，W′₂，…，W′_n}

6.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法，其特征在于：特征提取模块中的文本特征(文本相似度和时序相似度)计算使用核心微博序列。其中，文本相似度计算每个用户的核心微博之间的余弦相似度并求平均值以作为该用户的文本相似度。时序相似度计算使用白噪声(whitenoise)检验方法。白噪声检验结果——统计量whiteNoise值越大表明时间序列随机性越强，即为广告发布者的可能性越低。其计算公式如下：

whiteNoise_i＝acorr_ljungbox(time_i，lags＝K)

其中，whiteNoise_i为第i个用户的白噪声显著性水平，time_i表示其发帖时间序列，K为差分阶数。

7.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法，其特征在于：特征提取装置中，用户特征分为广告微博关键词倾向性和广告元素数量。其中，广告微博关键词计算方法如下：使用已标注的广告发布者数据，统计其关键词词频，并将关键词序列按照词频倒排，从而得到广告微博关键词序列A。但广告微博中也存在许多微博常用语，这些常用语在普通微博中同样高频率存在。为此，我们使用同样的方法针对普通微博统计出普通微博关键词序列P。针对某一词语的广告微博关键词倾向性，本文定义如下：

8.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法，其特征在于：特征提取装置中，用户特征分为广告微博关键词倾向性和广告元素数量。其中，广告元素数量统计网址URL、邮箱、手机号、QQ、微信等五种要素。

9.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法，其特征在于：聚类分析结果采用准确率(precision)、召回率(Recall)、F值(F-measure)来评价算法性能。计算公式分别如下，其中A为正确识别广告发布者的数量、CA为实验结果中被标记为广告发布者的总量、TA为数据集中实际广告发布者的总量。