CN107463703A

CN107463703A - 基于信息增益的英文社交媒体账号分类方法

Info

Publication number: CN107463703A
Application number: CN201710700487.8A
Authority: CN
Inventors: 费高雷; 朱闻; 朱闻一; 陈浩; 赵海林; 谢星辰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2017-12-12

Abstract

本发明公开了一种基于信息增益的英文社交媒体账号分类方法，包括以下步骤：S1、数据预处理，得到账号的特征词；S2、特征选取：利用信息增益的方法对账号的特征词进行选择，得到具有类别代表性的特征词；S3、特征扩散：利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词对特征词进行扩散；S4、分类模型构建：采用机器学习技术进行处理，生成账号分类的分类模型；S5、对未知的社交媒体账号进行分类。本发明将常用的文本分类的方法应用于英文社交媒体的账号分类，使用户能从海量的账户中能够快速查找出某一领域类别的账号，并从中获取该领域类别的相关有效信息。

Description

基于信息增益的英文社交媒体账号分类方法

技术领域

本发明属于文本分类技术领域，特别涉及一种基于信息增益的英文社交媒体账号分类方法。

背景技术

文本分类技术，是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记集合下，根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘和生成及动态优化能力，在分类效果和灵活性上都比之前基于知识工程和专家***的文本分类模式有所突破，成为相关领域研究和应用的经典范例。

对于文本分类这一课题，已经有一些常用的流程。基于机器学习文本分类的基础技术由文本的表示、分类方法及效果评估三部分组成。其中文本表示主要用到了项或特征的向量空间表示模型以及特征选择、特征提取等特征提取方法。分类方法主要用到了一些较成熟的分类模型方法，如朴素贝叶斯、支持向量机等。分类效果指标有例如正确率(precision)、召回率(recall)、精度(accuracy)等。但是，文本种类的多样性、标注的困难等问题还是给文本分类带来了巨大的挑战。

随着网络技术的发展，社交媒体已经成为最大最活跃的社交平台，为数亿用户提供优质且良好的沟通渠道。社交媒体在人们的日常生产生活中扮演着越来越重要的角色，社交媒体的账号数量与日俱增，各种信息充斥于社交媒体中，使得从海量社交媒体数据中提取所关注领域信息的工作量十分巨大。社交媒体用户由于个人爱好、工作性质等原因导致用户发布的博文通常具有一定的领域性特点。如果能够将海量的账号根据其所关注领域进行分类，例如分为政治、经济、体育等类别，那么我们就可以从某一类别的账号中快速准确地获取到所关注领域的信息，信息获取更具有针对性。现有对账号分类的研究主要集中于垃圾账号识别这一方面，主要利用账号的一些统计特征，例如一个账号的好友数、发送状态数量等等来对一些广告账号、僵尸账号等垃圾账号进行过滤。然而对于一个社交媒体账号，怎样判断它涉及的内容是属于体育、娱乐或是别的领域的，目前还没有成熟的方法。而且社交网络账号发布的博文文本一般以短文本居多，如何利用社交媒体账号的博文信息进行账号分类成为了难点。利用文本分类的方法去进行社交媒体账号的分类，迄今为止也没有相关的研究。

发明内容

本发明的目的在于克服现有技术的不足，提供一种将常用的文本分类的方法应用于英文社交媒体的账号分类，使用户能从海量的账户中能够快速查找出某一领域类别的账号，并从中获取该领域类别的相关有效信息的基于信息增益的英文社交媒体账号分类方法。

本发明的目的是通过以下技术方案来实现的：基于信息增益的英文社交媒体账号分类方法，包括以下步骤：

S1、数据预处理：对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理，得到账号的特征词；

S2、特征选取：利用信息增益的方法对账号的特征词进行选择，得到具有类别代表性的特征词；

S3、特征扩散：利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散；

S4、分类模型构建：人工标注少量账号样本，并利用词袋模型，选用词频对账号进行特征的提取，构建样本训练集；然后采用机器学习技术进行处理，生成账号分类的分类模型，实现对英文社交媒体账号的识别；

S5、对未知的社交媒体账号进行分类：利用步骤S4生成的分类模型，对未知的社交媒体账号进行分类，得到未知社交媒体账号的类别属性，完成社交媒体账号类别的划分。

进一步地，所述步骤S1具体实现方法为：

分词处理：将账号的文本语句切分成字词，以字词来作为特征表征一个账号；

去除停止词及无用符号处理：将冠词、介词设置为停止词，将语句的标点符号设置为无用符号；将停止词和无用符号删除。

进一步地，所述步骤S2具体实现方法为：信息增益是一种基于熵的评估方法，其用于特征选择时，衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量；其定义为某一特征值在文档中出现前后的信息量之差，计算公式为：

其中P(ω)表示特征词ω在文本中出现的概率；P(c_i|ω)表示文本包含ω时属于c_i类的条件概率；P(c_i)表示c_i类文本在文本集中出现的概率；表示文本中不包含特征词ω的概率，表示文本不包含特征词ω时属于c_i类的条件概率，|c|表示类别总数；

根据信息增益计算公式计算每个特征词的信息增益，并选择信息增益大于设定的阈值的特征词作为具有类别代表性的特征词，进行下一步操作。

进一步地，所述步骤S3具体实现方法为：

利用wordnet进行特征词的扩展：利用wordnet寻找出一个特征词不同词性类别的近义词；

人工增加领域类别关键词：通过字典词库，选择专业词汇对对特征词进行扩充。

进一步地，所述步骤S4中采用支持向量机的机器学***面wx+b＝0，用于对样本集进行分类，其中，w为超平面的法向量，b为截距；

对于给定一个特征空间上的训练数据集T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，其中x_i∈X＝Rⁿ，y_i∈Y＝{+1，-1}，i＝1，2，...，N，N为样本数量；x_i为第i个特征向量，也称为实例；y_i为x_i的类标记，当y_i＝1时，称x_i为正例；当y_i＝-1时，称x_i为负例，(x_i，y_i)称为样本点；直线H把正例样本和负例样本分开，称为分类线；分别在正例样本和负例样本中找到离分类线H最近的样本点，分别过该样本点做平行于分类线H的直线，记为H1和H2；直线H1和H2之间的距离叫做分类间隔；

定义超平面(w,b)关于样本点(x_i，y_i)的函数间隔为：

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(x_i，y_i)的函数间隔之最小值，即：

而对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点(x_i，y_i)的几何间隔为：

||w||为w的L2范数；定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点(x_i，y_i)的几何间隔之最小值，即：

将最大化间隔分离超平面转化为下面的约束优化问题：

因为函数间隔和w，b的取值有关，但是又不影响最优化问题的解，所以取得到下面的线性可分支持向量机学习的最优化问题：

求得：

通过上式，得到使得b最大化的||w||，得到最终的最优分类超平面。

本发明的有益效果是：

1、本发明将常用的文本分类的方法应用于英文社交媒体的账号分类，能够基于英文社交媒体的账号发布的博文文本信息对英文社交媒体账号进行领域类别的划分，使用户能从海量的账户中能够快速查找出某一领域类别的账号，并从中获取该领域类别的相关有效信息；

2、本发明利用wordnet寻找特征词的近义词、并人工添加领域类别的专有词这两种方式，对特征词集进行扩充，使特征词集更具有类别代表性和类别区分度，弥补了单纯使用文本分类的处理方式对账号进行分类的不足，提升了账户分类的准确度。

附图说明

图1为本发明的英文社交媒体账号分类方法的流程图；

图2为本发明的支持向量机最优分类面示意图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，基于信息增益的英文社交媒体账号分类方法，包括以下步骤：

S1、数据预处理：对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理，得到账号的特征词；采用词袋模型来表征账号，词袋模型是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下，像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。

示例：(1)John likes to watch movies.Mary likes movies too.

(2)John also likes to watch football games.

以上两句话中，出现的所有单词的列表为：

["John","likes","to","watch","movies","also","football","games","Mary","too"]

将上述两句话表示为长度为10的词向量分别为(1)[1,2,1,1,2,0,0,0,1,1]；(2)[1,1,1,1,0,1,1,1,0,0]。然后对账号发布的博文做一些基本的处理，主要有分词和去除停止词及无用符号两部分：

分词处理：实际英文社交媒体中的账户的博文文本信息一般都是些短文本。所以对于一个账户来说可以将它的一些近期博文文本信息拼接成长文本进行处理。对于某一领域的账号来说，会有一些具有鲜明代表性的词来表征这个账号。例如一个体育类的账号，则在它的博文文本信息中经常会出现‘sport’、‘game’等词语。为此，将账号的文本语句切分成字词，以字词来作为特征表征一个账号；

去除停止词及无用符号处理：在英文中，有很多冠词、介词等会经常出现在语句中，例如‘a’、‘the’等；将冠词、介词设置为停止词，将语句的标点符号设置为无用符号；停止词和无用符号对于区分账号类别来说区分度不高，因此将停止词和无用符号删除。

经过数据预处理之后，得到了一系列账号的特征词，但是特征词数的数量巨大，如果全部选作账号的特征，则会导致维度灾难，为此，我们必须利用文本的特征选取的方法来对特征进行降维。

一般将文本特征分成三个互不相交的类别，即强相关性文本特征、弱相关性文本特征和不相关性文本特征。如果一个文本特征对一个最优的文本特征子集总是必须的，在不影响最初的类别分布的情况下该文本特征不能被删除。则称之为文本强相关特征。如果一个文本特征对一个最优的文本特征子集并不总是必须的，但是在某种条件下可能加入到一个最优的文本特征子集中去，则称之为弱相关特征。如果文本特征在最优特征子集中总是不必要的，则称为不相关性特征。一个最优文本特征子集应该是由强相关性文本特征和部分弱相关性文本特征组成的。而信息增益是一种非常有效的文本特征选择的方法，经过大量实验结果表明信息增益的效果较显著，所以我们选择信息增益的特征选择方式。

信息增益是文本分类中常见的特征选择方法。在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。尽管信息增益通常被直观地作为是一种度量或距离，但事实上信息增益并不是。就比如信息增益不是对称的，从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益(f-divergences)的一种特殊情况。在1951年由Solomon Kullback和Richard Leibler首先提出作为两个分布的直接增益(directeddivergence)。它与微积分中的增益不同，但可以从Bregman增益(Bregman divergence)推导得到。

信息增益是一种基于熵的评估方法，其用于特征选择时，衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量；其定义为某一特征值在文档中出现前后的信息量之差，计算公式为：

经过特征选择之后，***筛选出了一些具有类别代表性的字词，由于训练集数据有限，这些筛选出的字词的可能不能较为全面代表该类别，为此需要进行特征词的扩展，使特征词集更具有很好的类别区分度。对特征词的扩展我们主要采用两种方式：

利用wordnet进行特征词的扩展：Wordnet是由Princeton大学的心理学家，语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列，而且是一个按照单词的意义覆盖范围宽广的英语词汇语义网。名词，动词，形容词和副词各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接。利用wordnet寻找出一个特征词不同词性类别的近义词；例如输入motorcar，可以查找出它的近义词'car'、'auto'、'automobile'、'machine'、'motorcar'等。

人工增加领域类别关键词：对于某一领域的账号来说，例如体育类别的账号，其一般有一些领域专家构建的字典词库。这些词库里的词具有很强的类别代表性，能有效识别和区分不同类别的账号。通过字典词库，选择专业词汇对对特征词进行扩充，以更加有效地对账号类别进行区分。

S4、分类模型构建：经过前面三个模块的筛选之后得到了用于表征账号的特征词集合，人工标注少量账号样本，并利用词袋模型，选用词频对账号进行特征的提取，构建样本训练集；然后采用机器学习技术进行处理，生成账号分类的分类模型，实现对英文社交媒体账号的识别；本步骤采用支持向量机的机器学习算法对样本集进行分类识别。

支持向量机是一种二分类模型，分为线性支持向量机和非线性支持向量机。在支持向量机的分类模型中，最简单也是最早提出的模型是最大间隔分类器。最优分类超平面只能用于特征空间中线性可分的数据，因此不能在许多实际问题中使用，而支持向量机正是由线性可分情况下的最优平面发展而来的。

最优分类超平面在保证将两类样本无错误分开的情况下，使得两类的分类距离最大。所以我们首要的目的就是去找到一个最优分类超平面。而在最优分类超平面的两边，有一对分别平行于最优分类超平面的平面，要想找到最优分类超平面，就得找到这样的两个平面到这个最优分类超平面的距离最大。其中，线性支持向量机的最优分类超平面写成如下的函数形式：wx+b＝0，用于对样本集进行分类；

构造一个最优分类超平面wx+b＝0，用于对样本集进行分类，其中，w为超平面的法向量，b为截距；

对于给定一个特征空间上的训练数据集T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，其中x_i∈X＝Rⁿ，y_i∈Y＝{+1，-1}，i＝1，2，...，N，N为样本数量；x_i为第i个特征向量，也称为实例；y_i为x_i的类标记，当y_i＝1时，称x_i为正例；当y_i＝-1时，称x_i为负例，(x_i，y_i)称为样本点；直线H把正例样本和负例样本分开，称为分类线；如图2所示，分别在正例样本和负例样本中找到离分类线H最近的样本点，分别过该样本点做平行于分类线H的直线，记为H1和H2；直线H1和H2之间的距离叫做分类间隔(margin)；

定义超平面(w,b)关于样本点(x_i，y_i)的函数间隔为：

将最大化间隔分离超平面转化为下面的约束优化问题：

求得：

由上式可知，得到的b为最大的边缘。那么也可以得到最小的||w|||，使得最大化的b。因此，在支持向量机的训练过程中，主要是获得w。一旦有了一个训练后的支持向量机(这个向量机保证了最大的边缘超平面，使得在此数据集下有较好的分类精度)，就可以用对于的SVM来对线性可分的数据进行分类，这就是线性支持向量机的工作原理。而对于非线性的情况，可以用核技巧的方法来解决。这样就构建了分类模型，以便用于后面对未知的账号样本进行领域类别的分类。

S5、对未知的社交媒体账号进行分类：利用步骤S4生成的分类模型，对未知的社交媒体账号进行分类，得到未知社交媒体账号的类别属性，完成社交媒体账号类别的划分。然后通过对某一领域的账号的重点关注，就能快速有效地获取该领域的一些信息。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于信息增益的英文社交媒体账号分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S1具体实现方法为：

3.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S2具体实现方法为：信息增益是一种基于熵的评估方法，其用于特征选择时，衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量；其定义为某一特征值在文档中出现前后的信息量之差，计算公式为：

<mrow> <mi>I</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>c</mi> <mo>|</mo> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mover> <mi>&omega;</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>c</mi> <mo>|</mo> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mover> <mi>&omega;</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mover> <mi>&omega;</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

4.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S3具体实现方法为：

5.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S4中采用支持向量机的机器学***面wx+b＝0，用于对样本集进行分类，其中，w为超平面的法向量，b为截距；

定义超平面(w,b)关于样本点(x_i，y_i)的函数间隔为：

<mrow> <mover> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> <mo>^</mo> </mover> <mo>=</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>wx</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <mover> <mi>&gamma;</mi> <mo>^</mo> </mover> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>N</mi> </mrow> </munder> <mover> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> <mo>^</mo> </mover> </mrow>

<mrow> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mfrac> <mi>w</mi> <mrow> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <mfrac> <mi>b</mi> <mrow> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>&gamma;</mi> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>N</mi> </mrow> </munder> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> </mrow>

将最大化间隔分离超平面转化为下面的约束优化问题：

<mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>w</mi> <mo>,</mo> <mi>b</mi> </mrow> </munder> <mi>&gamma;</mi> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mfrac> <mi>w</mi> <mrow> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <mfrac> <mi>b</mi> <mrow> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>&gamma;</mi> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>N</mi> </mrow>

s.t.y_i(wx_i+b)-1≥0，i＝1，2，...，N

求得：