CN109597944B - 一种基于深度信念网络的单分类微博谣言检测模型 - Google Patents

一种基于深度信念网络的单分类微博谣言检测模型 Download PDF

Info

Publication number
CN109597944B
CN109597944B CN201811276813.8A CN201811276813A CN109597944B CN 109597944 B CN109597944 B CN 109597944B CN 201811276813 A CN201811276813 A CN 201811276813A CN 109597944 B CN109597944 B CN 109597944B
Authority
CN
China
Prior art keywords
microblog
data
user
deep belief
belief network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811276813.8A
Other languages
English (en)
Other versions
CN109597944A (zh
Inventor
梁刚
许春
杨进
杨文太
陈俊仁
高玉君
王印玺
黄华雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201811276813.8A priority Critical patent/CN109597944B/zh
Publication of CN109597944A publication Critical patent/CN109597944A/zh
Application granted granted Critical
Publication of CN109597944B publication Critical patent/CN109597944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,其特征在于:包括下述具体步骤:1)进行关键用户节点选择,在微博中选择有影响力和有代表性的用户;2)数据的爬取及数据预处理;3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;4)采用SVDD算法进行谣言甄别;该模型基于关键用户的数据收集模式,并将深度信念网络微博谣言检测之中,通过深度信念网络的非线性变换与层层递进实现了特征提取与降维,采用单分类问题中的支持向量数据描述用于谣言的识别。

Description

一种基于深度信念网络的单分类微博谣言检测模型
技术领域
本发明涉及数据抓取、谣言甄别技术等领域,具体的说,是一种基于深度信念网络的单分类微博谣言检测模型。
背景技术
微博作为一种新兴的网络交流工具,其用户数在中国正以惊人的速度不断地增长。与传统媒体相比,微博具有无法比拟的信息传播速度,用户可以实时在网络中了解其关注的各种信息。同时,作为一种全新的自媒体——用户既是信息的消费者,也是信息的生产者,任何用户都可以借助微博发布信息,用户的言论自由在微博网络中得到极大的发挥,因此受到大量网民的追捧。根据新浪微博中心发布的《2017微博用户发展报告》:2017年,微博月活跃用户将达到3.76亿人,每天发送的信息量将超过200亿条。包括中央电视台、***在内的传统媒体亦纷纷在微博中开设账号与网民实现信息的交互,微博已经成为人们获取信息的一个重要来源。
人们在充分享受微博带来的信息大餐的同时,也不得不面对其带来的一个严重问题:微博中充斥着大量的网络谣言。导致这一问题泛滥的根源恰恰是微博倍受青睐的特性——自媒体性。微博允许任意用户在网络中自由地发布信息,但却对其用户发布的信息缺乏有效的监管措施,不怀好意的用户利用这一管理上的不足在微博中大肆发布不实信息。由于信息在微博中的传播速度与广度的裂变传递以及经过多次传递产生级联效应,微博中的谣言问题带来的破坏性远远高于传统“口口相传”方式,“谣言倒逼真相”的案例在微博中时有发生。微博中的谣言问题对社会的和谐和稳定已经构成了极大的威胁,严重时甚至会影响到国家和地区的安全。因此,如何有效地识别出微博中流传的谣言信息已经刻不容缓。
为了及时准确地检测微博网络中传播的谣言,业界与学术界进行了努力与尝试,谣言识别的方法主要包含两类:第一类是以“微博辟谣”和“微博不实举报平台”为代表的人工谣言检测方法,这种方法的优点是谣言准确率高,缺点在于谣言检测耗费大量的人力成本,而且检测时间延迟大,人工检测方法没法有效地应对微博网络中每天数以亿计的数据量;第二种方法是机器学习的检测方法,这种方法将谣言检测问题看作有监督学习问题中的二元分类,通过特征提取,训练模型和样本分类来完成谣言的鉴别,这种方法相较于人工方法,较好的克服成本高、速度慢的缺陷。但是现有方法在进行谣言检测时具有如下局限性:
第一,是用于谣言检测器训练的数据集收集问题,因为新浪微博的安全保护,无法***全面的收集微博网络中的数据。现有的方法采用的是所谓的“滚雪球”的方式收集,即在用户的好友圈中收集数据,这样获得数据具有较大同质性,无法有效的反映信息在微博传播的真实情况;
第二,现有的方法将谣言识别问题看作是监督学习中的二元分类问题,因此用于谣言检测器的数据集需要进行标注,现有的方法大多采用人工标注的方式,手工的方式耗费了大量的人力,同时标注的质量也依赖于标注者知识背景与经验;
第三,因为微博网络中的正常信息远远多于传播的谣言信息,因此构造出的数据集是一种严重不均衡的数据集,集合中正常微博的数量远远多于谣言微博,导致训练的结果偏向识别正常微博,而无法有效地识别谣言微博。
发明内容
本发明的目的在于提供一种基于深度信念网络的单分类微博谣言检测模型,该模型基于关键用户的数据收集模式,并将深度信念网络微博谣言检测之中,通过深度信念网络的非线性变换与层层递进实现了特征提取与降维,并采用单分类问题中的支持向量数据描述用于谣言的识别,克服了现有方法在面对不均衡数据时,训练结果偏向多数数据问题,也避免了由于训练模型需要人工标注数据,导致数据标注质量依赖于标注者的经验与知识背景问题。
本发明通过下述技术方案实现:一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,包括下述具体步骤:
1)进行关键用户节点选择:在微博中选择有影响力和有代表性的用户;
2)数据的爬取及数据预处理;其中,数据的爬取,采用分布式爬虫,完成数据收集,在该部分master节点用户从数据库中获取爬取任务的相关信息,并产生任务分发给slave节点,slave节点负责具体的微博数据的爬取;
数据预处理,对获得的数据按照信息数据类型进行对应的数据预处理;
3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;
4)采用SVDD算法进行谣言甄别。
进一步的为更好地实现本发明,特别采用下述设置方式:在进行关键用户节点选择时,采用基于类别与K-medoids算法对用户的相关性进行筛选关键用户节点。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤1)包括以下具体步骤:
1.1)从指定类别频道获取用户,并将获得的用户信息产生一个新的集合;
1.2)从新的集合中随机选择部分用户,作为中心点,形成中心点用户;
1.3)从步骤1.1)中产生的用户集合中除去步骤1.2)中用到的中心点用户,依次计算剩余用户与选出的中心点用户的距离,并将每个剩余用户到中心点用户点距离最短的中心作为自己所属的类中心;
1.4)将步骤1.3)得到的中心用户数据应用到整个用户集合数据集合,计算每一个用户和中心点的距离,选择距离最小的中心点类别作为该用户的类别;
1.5)重复步骤1.3),步骤1.4),直到类中心不在改变;
1.6)将中心点用户作为关键用户节点存储到数据库。
进一步的为更好地实现本发明,特别采用下述设置方式:
所述步骤2)中,数据的爬取采用分布式爬虫实现,且采用下述任意方式进行数据收集:
2.1)根据设定的时间区间,一次性爬取指定时间段内监控点用户的历史微博内容;
2.2)基于时间窗口的数据方式,根据设定的时间窗口,在窗口时间内持续的获取监控用户的微博数据。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤2)中,数据预处理通过下述方式实现:
如果收集到的数据是字符,通过映射函数,将字符特征映射到一个离散的空间;
如果收集到的数据是连续型的数值,通过min-max标准化对数据进行处理,min-max处理方法如公式2所示:
Figure BDA0001847181210000041
其中fi为特征的取值,fmin为该特征的最小取值,fmax为该特征的最大取值;
如果收集到的数据为离散型,则采用dummy encoding对原始特征进行编码。
进一步的为更好地实现本发明,特别采用下述设置方式:
所述步骤3)实现特征提取与降维时,采用CD-1算法实现,包括下述具体步骤:
3.1)设定模型参数初值:w=0,a=0,b=0;
3.2)从训练数据集合D选择一个变量x,利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount=1|D),从p(hcount=1|D)获得隐藏变量hcount
3.3)对于同样的训练数据集合D,利用公式p(vi=1|h)=sigmod(ai+∑iwijhi)计算p(vcount=1|h),根据计算结果重构训练数据集合D′;
3.4)根据步骤3.2)得到的h,对于隐藏层利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount′=1|D′);
3.5)更新模型的参数,有:
Figure BDA0001847181210000051
Figure BDA0001847181210000052
Figure BDA0001847181210000053
3.6)重复步骤3.2)-步骤3.5),直到训练数据集合D中全部变量都被遍历。
进一步的为更好地实现本发明,特别采用下述设置方式:所述深度信念网络利用逐层训练的方法进行训练,具体为:
从下往上对RBM进行训练,当下层的RBM训练好后,将上层的RBM堆叠到训练好的RBM的上层,将下层的隐藏层输出作为上层RBM的显示层进行训练。
进一步的为更好地实现本发明,特别采用下述设置方式:在所述深度信念网络中,下层RBM的隐藏层作为上层RBM的显示层,显示层与隐藏层之间为双向全连接,显示层之间或隐藏层之间没有连接,每一个显示层神经元或是隐藏层神经元的取值是相互独立的;其中,最下层的显示层用于原始数据的输入,隐藏层隐式的描述输入变量与输出变量的约束关系,在无监督学习中,隐藏层用于特征的提取。
进一步的为更好地实现本发明,特别采用下述设置方式:采用SVDD算法进行谣言识别时,将谣言检测问题看作One-Class中的异常检测问题:
首先,根据收集的正常数据特征构建一个超球体,构造的超球体以能够包容所有的训练样本为准;
其次,若待检测的微博信息在超球体内,则该条微博信息被判定为正常微博信息,否则,则被判定为谣言微博。
进一步的为更好地实现本发明,特别采用下述设置方式:所述采用SVDD算法进行谣言识别包括以下具体步骤:
步骤A:对于训练数据集合D={v1,v2,...,vm1},利用公式r2=(x·x)-2∑iai(x·xi)+∑i,jaiaj(xixj)计算构造的超级球面的极小半径;
步骤B:对于待检测的微博特征向量,利用公式f(x)=I[(x·)-2∑iai(x·xi)+∑ijaiaj(xixj)≤R2]计算向量与球心之间的距离,并根据公式f(x)=I[(x·x)-2∑iai(x·xi)+∑i,jaiaj(xi,xj)≤R2]中的指示函数的返回值判断待检测的微博是否为谣言。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明针对现有方法训练数据收集中的同质性问题而无法有效表征微博网络中信息真实的传播问题,提出了一种基于关键用户的训练数据收集方法,达到以较少的数据量获得较高的信息量的目的。该方法通过新浪微博中的“发现”->“找人”频道收集到微博网络中共计49个领域有影响力的用户,然后通过:1)用户类别分析剔除噪音节点;2)基于两两用户节点之间的微博文本相似度度量监控点集合的相似度,从而选取平均相似度最高的监控点子集用于原始数据获取。
(2)本发明针对谣言识别模型以及谣言检测过程中样本的表征依赖于用户人工选择已经特征纬度高的问题,在谣言检测模型中引入了深度信念网络,通过深度信念网络中非线性变换以及神经网络的层层递进,实现了特征选择与降维。
(3)本发明针对谣言检测中数据集需要标注,导致构建谣言检测模型需要耗费大量的人力与物力,且标注的质量依赖于标注者的经验与知识背景问题,以及数据集中正常微博信息远远多于谣言微博而导致的识别结果偏向多数数据的问题,本文将谣言识别问题看作是一个单分类问题,通过训练一个极小超球面以包容所有训练样本,而将谣言微博看作是落在超球面外的异常信息,从而克服了现有方法中训练谣言分类器需要实现手工标注数据以及数据不均衡的问题,检测效率与准确率有了较大幅度的提高。
附图说明
图1为本发明架构图;
图2为新浪微博“发现”频道“找人”功能截图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
实施例1:
本发明设计出一种基于深度信念网络的单分类微博谣言检测模型,基于关键用户的数据收集模式,并将深度信念网络微博谣言检测之中,通过深度信念网络的非线性变换与层层递进实现了特征提取与降维,并采用单分类问题中的支持向量数据描述用于谣言的识别,克服了现有方法在面对不均衡数据时,训练结果偏向多数数据问题,也避免了由于训练模型需要人工标注数据,导致数据标注质量依赖于标注者的经验与知识背景问题,如图1所示,特别采用下述设置方式:进行谣言的甄别,包括下述具体步骤:
1)进行关键用户节点选择:在微博(新浪微博、腾讯微博、网易微博、搜狐微博等,优选的为新浪微博)中选择有影响力和有代表性的用户;
2)数据的爬取及数据预处理;其中,数据的爬取采用分布式爬虫,完成数据收集,在该部分master节点用户从数据库中获取爬取任务的相关信息,并产生任务分发给slave节点,slave节点负责具体的微博数据的爬取;
数据预处理,对获得的数据按照信息数据类型进行对应的数据预处理;
3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;
4)采用SVDD算法进行谣言甄别。
实施例2:
本实施例是在上述实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:在进行关键用户节点选择时,采用基于类别与K-medoids算法对用户的相关性进行筛选关键用户节点。
对于机器学习而言,数据集的质量至关重要。如公式1所示,概率近似正确(PAC:ProbablyApproximatelyCorrect)学习理论给出了对于任意一个学习算法最少数据集规模m与算法准确率δ、假设空间大小|H|和泛化误差ε之间的关系:
Figure BDA0001847181210000101
相关研究工作表明,当m>5000时,分类算法可以取得较为让人满意的结果。当m>10000000时,分类算法的分类效果超过人的分类效果。对于数据集的质,则要求数据集合中尽量不要包含冗余数据与噪音数据。
基于上述两点,本发明在分析了谣言与数据类型以及借鉴前人工作的基础上提出了一种基于“影响力”用户的数据收集方法。该方法基于社会网络的研究成果:在信息传播过程中,一条信息转变为舆情必然经过网络中的有影响力用户的传播与引导。如何在半开放的微博网络中发掘有影响力的用户是当前社会网络研究的一个热点与难点,这部分内容不属于本发明的研究重点。在本发明中,关键用户节点的获取是通过新浪微博“发现”频道重点“寻人”实现的。如图2所示,新浪微博在“寻人”功能根据用户影响力,提供49个类别,共计44559个有影响力的用户。
通过对谣言信息的传播与用户关系的分析:
(1)谣言与用户的类别密切相关:根据我们从“微博辟谣”与“微博不实信息举报平台”收集的数据的统计结果显示:微博各个类别用户参与谣言传播的比例差异较大。搞笑、财经、公益等18个用户类别内参与谣言传播的人数均超过100,共计2340个用户,占到全部用户(2531)的92.5%。而育儿、职业招聘、电影等31个用户类别内参与谣言传播的人数则不超过100,其中商界、养生、综艺、萌宠、电影这5个用户类别中参与谣言传播的人数不超过20。
(2)关键用户中存在类似雷同的情况:属于同一社区中的用户的信息偏好相同或者相似,由于微博用户发布或者转发微博在一定程度上基于自己的兴趣偏好,具有相同或相似偏好的用户所发布或者转发的微博可能存在重复或者相似的情况,冗余数据除了不必要的人力与时间耗费,还可能导致训练结果出现过拟合。
实施例3:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:
所述步骤1)包括以下具体步骤:
1.1)从指定类别频道获取用户,并将获得的用户信息产生一个新的集合;
1.2)从新的集合中随机选择部分用户,作为中心点,形成中心点用户;
1.3)从步骤1.1)中产生的用户集合中除去步骤1.2)中用到的中心点用户,依次计算剩余用户与选出的中心点用户的距离,并将每个剩余用户到中心点用户点距离最短的中心作为自己所属的类中心;
1.4)将步骤1.3)得到的中心用户数据应用到整个用户集合数据集合,计算每一个用户和中心点的距离,选择距离最小的中心点类别作为该用户的类别;
1.5)重复步骤1.3),步骤1.4),直到类中心不在改变;
1.6)将中心点用户作为关键用户节点存储到数据库。
作为优选的设置方案,对44559个用户基于类别与K-medoids算法对用户的相关性进行筛选后最后获得得到2000个关键用户节点,其具体步骤为:
步骤1:从指定类别频道获取用户,并将获得的用户信息产生一个新的集合;
步骤2:从新的集合中随机选择2000个用户,作为中心点,形成中心点用户;
步骤3:从步骤1中产生的用户集合中除去步骤2中用到的2000个用户,依次计算剩余用户与选出的2000个用户的距离,并将每个剩余用户到2000个中心点用户点距离最短的中心作为自己所属的类中心;
步骤4:步骤3中产生的2000个类中,按照顺序选取该类用户,计算该用户到该类所有用户的距离之和,选择距离和最小用户作为该类的中心;
步骤5:重复步骤3,步骤4,直到类中心不在改变;
步骤6:将2000个中心点用户作为关键用户节点存储到数据库。
实施例4:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:
所述步骤2)中,数据的爬取采用分布式爬虫实现,且采用下述任意方式进行数据收集:
2.1)根据设定的时间区间,一次性爬取指定时间段内监控点用户的历史微博内容;
2.2)基于时间窗口的数据方式,根据设定的时间窗口,在窗口时间内持续的获取监控用户的微博数据。
作为优选的设置方案,在确定关键用户节点后,本发明构建了一个基于关键用户节点的微博数据获取***,***获取数据的方式有两种:
1)根据设定的时间区间,一次性爬取指定时间段内监控点用户的历史微博内容;
2)基于时间窗口的数据方式,该方式能够根据设定的时间窗口,在窗口时间内持续的获取监控用户的微博数据。
实施例5:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤2)中,爬取到原始数据需要根据数据的文本特征进行对应的数据预处理,数据预处理通过下述方式实现:
如果收集到的数据是字符,通过映射函数,将字符特征映射到一个离散的空间;
如果收集到的数据是连续型的数值,通过min-max标准化对数据进行处理,min-max处理方法如公式2所示:
Figure BDA0001847181210000131
其中fi为特征的取值,fmin为该特征的最小取值,fmax为该特征的最大取值;
如果收集到的数据为离散型,则采用dummy encoding对原始特征进行编码。
实施例6:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤3)实现特征提取与降维时,采用CD-1算法实现,包括下述具体步骤:
3.1)设定模型参数初值:w=0,a=0,b=0;
3.2)从训练数据集合D选择一个变量x,利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount=1|D),从p(hcount=1|D)获得隐藏变量hcount
3.3)对于同样的训练数据集合D,利用公式p(vj=1|h)=sigmod(ai+∑jwijhj)计算p(vcount=1|h),根据计算结果重构训练数据集合D′;
3.4)根据步骤3.2)得到的h,对于隐藏层利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount′=1|D′);
3.5)更新模型的参数,有:
Figure BDA0001847181210000141
Figure BDA0001847181210000142
Figure BDA0001847181210000143
3.6)重复步骤3.2)-步骤3.5),直到训练数据集合D中全部变量都被遍历。
由于,数据与数据特征对于机器学习异常重要,可以说数据与数据特征确定了机器学习算法的学习上限。对于一个复杂的,有噪音未知分布样本,人们往往只能观测到有限的局部特征。深度信念网络(DBN)具有良好的无监督学习能力,能够从复杂的数据样本中学习到复杂的规则。深度信念网络可以看作是RBM的堆叠,RBM是一个两层的神经网络,下层称为显示层,上层称为隐藏层,其中最下层的显示层用于原始数据的输入,隐藏层隐式的描述输入变量与输出变量的约束关系,在无监督学习中,隐藏层用于特征的提取。在DBN中,下层RBM的隐藏层作为上层RBM的显示层,显示层与隐藏层之间为双向全连接,而显示层之间或隐藏层之间没有连接,因此对于每一个显示层神经元或是隐藏层神经元的取值是相互独立的。一个RBM由m1个观测变量v=(v1,v2,...,vm1)T和m2个隐藏变量h=(h1,h2,...,hm2)T组成。对于观测变量为二值空间的RBM,其能量函数定义为:
E(v,h)=-∑iaivi-∑jbjhj-∑ijwijvjhj (3)
其中
Figure BDA0001847181210000151
分别为显示变量vi与隐藏变量hj的偏置,wij为显示变量vi与隐藏变量hj之间连接的权重。
对于观测变量为实数值空间时,设观测变量vi服从(μi,σi)的高斯分布,则RBM的能量函数为:
Figure BDA0001847181210000152
在确定了RBM的能量函数后,可得观测变量与隐藏变量的联合概率分布函数:
Figure BDA0001847181210000153
其中Z=∑v,hexp(-E(v,h)),为配分函数。
在RBM中,每个显示变量和隐藏变量的条件概率为:
p(vi=1|h)=sig mod(ai+∑jwijhj) (5)
p(hj=1|v)=sig mod(bj+∑iwijvi) (6)
因为RBM中,同层的变量没有连接,因此在RBM中,在给定显示变量时,可以并行的获得隐藏变量。而在给定隐藏变量时,可以并行获得显示变量。
对于一组给定的可观测向量D={v1,v2,...vm1},可以通过极大似然函数来获取模型中的参数:w,a与b向量,样本的对数似然函数如公式(7)所示:
Figure BDA0001847181210000154
似然函数
Figure BDA0001847181210000155
分别对wij,ai与bj求偏导,有:
Figure BDA0001847181210000156
Figure BDA0001847181210000166
Figure BDA0001847181210000161
其中
Figure BDA0001847181210000162
为观测变量在数据集V上的实际分布。
在获取模型参数w,a与b的过程中,需要计算配分函数Z和两个期望Ep(h|v)和Ep(v,h),因为计算过程非常复杂,因此本发明采用对比散度法(CD:Contrastive Divergence)进行k步吉布斯采样用于获取模型的参数,当k=1时,就能达到较好的拟合效果,因此本文采用CD-1算法进行特征提取与降维,且利用CD-1算法进行特征提取与降维流程如下:
步骤1:设定模型参数初值:w=0,a=0,b=0;
步骤2:从训练数据集合D选择一个观测变量x,利用公式(6)计算p(hcount=1|D),从p(hcount=1|D)获得隐藏变量hcount
步骤3:对于同样的训练数据集合D,利用公式(5)计算p(vcount=1|h),根据计算结果重构训练数据集合D′;
步骤4:根据步骤2得到的h,对于隐藏层利用公式(6)p(hcount′=1|D′);
步骤5:更新模型的参数,有:
Figure BDA0001847181210000163
Figure BDA0001847181210000164
Figure BDA0001847181210000165
步骤6:重复步骤2-5,直到训练数据集合D中全部观测变量都被遍历。
实施例7:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:所述深度信念网络利用逐层训练的方法进行训练,具体为:
从下往上对RBM进行训练,当下层的RBM训练好后,将上层的RBM堆叠到训练好的RBM的上层,将下层的隐藏层输出作为上层RBM的显示层进行训练。对于给定样本数为m,维度为n的数据样本datam*n,经过DBN特征提取后得到集合datam*l,l<n。
实施例8:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:在所述深度信念网络中,下层RBM的隐藏层作为上层RBM的显示层,显示层与隐藏层之间为双向全连接,显示层之间或隐藏层之间没有连接,每一个显示层神经元或是隐藏层神经元的取值是相互独立的;其中,最下层的显示层用于原始数据的输入,隐藏层隐式的描述输入变量与输出变量的约束关系,在无监督学习中,隐藏层用于特征的提取。
实施例9:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,和现有传统方法将谣言分类问题看作二元分类问题不同,特别采用下述设置方式:采用SVDD算法进行谣言识别时,将谣言检测问题看作One-Class中的异常检测问题:
首先,根据收集的正常数据特征构建一个超球体,构造的超球体以能够包容所有的训练样本为准;
其次,若待检测的微博信息在超球体内,则该条微博信息被判定为正常微博信息,否则,则被判定为谣言微博。
本发明采用支持向量描述数据描述(SVDD:Support Vector Data Description)算法用于构建用于区分正常微博信息与谣言微博信息的超级球面。构建的球心为a,半径为R的极小超球面问题,可以被描述为一个优化问题:
min:R2+C∑iξi (11)
Figure BDA0001847181210000182
其中,ξi为松弛变量用于容忍样本中的异常点,C为惩罚因子用于调节松弛变量的大小,C值越大超球面包含的异常点就越少,反之,包含的异常点就越多。引入拉格朗日因子后,得到这个优化问题的对偶问题:
Figure BDA0001847181210000181
在对偶问题中,ai=0时,表示样本位于超球体内,ai=C时,表示样本位于超球体外,0<ai<C时,样本位于超球体上。对于任意一个待检测样本x,其到球心的距离为:
r2=(x·x)-2∑iai(x·xi)+∑ijaiaj(xixj) (14)
因此有判别函数:
f(x)=I[(x·x)-2∑iai(x·xi)+∑ijaiaj(xixj)≤R2] (15)
其中I(·)为指示函数,用来判断测试样本x到球心的距离是否超过R,如果样本点在球体内或球体上,I(·)=1,否者,I(·)=0。
实施例10:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,进一步的为更好地实现本发明,特别采用下述设置方式:所述采用SVDD算法进行谣言识别包括以下具体步骤:
步骤A:对于训练数据集合D={v1,v2,...,vm1},利用公式r2=(x·x)-2∑iai(x·xi)+∑ijaiaj(xixj)计算构造的超级球面的极小半径;
步骤B:对于待检测的微博特征向量,利用公式f(x)=I[(x·x)-2∑iai(x·xi)+∑ijaiaj(xixj)≤R2]计算向量与球心之间的距离,并根据公式f(x)=I[(x·x)-2∑iai(x·xi)+∑ijaiaj(xi-xj)≤R2]中的指示函数的返回值判断待检测的微博是否为谣言。
实施例11:
本实施例是在上述任一实施例的基础上进一步优化,如图1所示,提出的基于深度信念网络单分类微博谣言检测模型包含了关键用户节点选取,数据爬取,数据预处理,特征提取与降维和谣言识别5个部分。该模型共有如下步骤:
步骤1:从新浪微博“发现”频道中的“找人”选取在领域中影响力的微博用户,构建候选监控点用户集合;
步骤2:在步骤1中构建的候选用户集合中,基于候选用户的领域与相似度对用户进行筛选获得监控用户节点集合;
步骤3:根据步骤2获得的监控用户节点集合,构建分布式爬虫,采用定时与基于时间窗口方式从新浪微博上爬取信息,爬取得到信息包括用户发表与转发的所有微博信息,用户的个人信息,用户微博的网络传播信息;
步骤4:利用字符编码、dummy-encoding(哑元编码)与min-max标准化等技术对收集到的数据信息进行数据预处理,以便于后续步骤的处理;
步骤5:采用无监督学习方式,基于收集的样本数据训练深度信念网络的模型参数,获取与训练样本相对应的模型参数;
步骤6:利用支持向量数据描述算法,在收集的数据样本上进行训练,构建描述用于描述数据集合的极小超级球;
步骤7:利用步骤5构建的深度信念网络模型对待检测的微博向量进行特征降维,利用步骤6中构建的细小超级球判断待检测微博特征向量是否在超级球面上或在超级球面内,如果不在,则待检测微博向量被判定为谣言。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (6)

1.一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,其特征在于,包括下述具体步骤:
1)进行关键用户节点选择,在微博中选择有影响力和有代表性的用户,包括以下具体步骤:
1.1)通过新浪微博中的“发现”->“找人”频道收集到微博网络中共计49个领域有影响力的用户,并将获得的用户信息产生一个新的集合;
1.2)从新的集合中随机选择部分用户,作为中心点,形成中心点用户;
1.3)从步骤1.1)中产生的用户集合中除去步骤1.2)中用到的中心点用户,依次计算剩余用户与选出的中心点用户的距离,并将每个剩余用户到中心点用户点距离最短的中心作为自己所属的类中心;
1.4)将步骤1.3)得到的中心用户数据应用到整个用户集合数据集合,计算每一个用户和中心点的距离,选择距离最小的中心点类别作为该用户的类别;
1.5)重复步骤1.3),步骤1.4),直到类中心不在改变;
1.6)将中心点用户作为关键用户节点存储到数据库;
2)数据的爬取及数据预处理;
3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维,在进行特征提取与降维时,采用CD-1算法实现,包括下述具体步骤:
3.1)设定模型参数初值:w=0,a=0,b=0;
3.2)从训练数据集合D选择一个变量x,利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount=1|D),从p(hcount=1|D)获得隐藏变量hcount
3.3)对于同样的训练数据集合D,利用公式p(vi=1|h)=sigmod(ai+∑jwijhj)计算p(vcount=1h),根据计算结果重构训练数据集合D';
3.4)根据步骤3.2)得到的h,对于隐藏层利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount'=1|D');
3.5)更新模型的参数,有:
Figure FDA0003489610320000021
Figure FDA0003489610320000022
Figure FDA0003489610320000023
3.6)重复步骤3.2)-步骤3.5),直到训练数据集合D中全部变量都被遍历;
4)采用SVDD算法,根据收集的正常数据特征构建一个包容所有的训练样本的超球体,通过判断待检测的微博信息是否在超球体内来进行谣言的识别,包括以下具体步骤:
4.1)对于训练数据集合D={v1,v2,...,vm1},利用公式r2=(x·x)-2∑iai(x·xi)+∑i, jaiaj(xi.xj)计算构造的超级球面的极小半径;
4.2)对于待检测的微博特征向量,利用公式f(x)=I[(x·x)-2∑iai(x·xi)+∑i,jaiaj(xi.xj)≤R2]计算向量与球心之间的距离,并根据公式f(x)=I[(x·x)-2∑iai(x·xi)+∑i,jaiaj(xi·xj)≤R2]中的指示函数的返回值判断待检测的微博是否为谣言。
2.根据权利要求1所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:在进行关键用户节点选择时,采用基于类别与K-medoids算法对用户的相关性进行筛选关键用户节点。
3.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:所述步骤2)中,数据的爬取采用分布式爬虫实现,且采用下述任意方式进行数据收集:
2.1)根据设定的时间区间,一次性爬取指定时间段内监控点用户的历史微博内容;
2.2)基于时间窗口的数据方式,根据设定的时间窗口,在窗口时间内持续的获取监控用户的微博数据。
4.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:所述步骤2)中,数据预处理通过下述方式实现:
如果收集到的数据是字符,通过映射函数,将字符特征映射到一个离散的空间;
如果收集到的数据是连续型的数值,通过min-max标准化对数据进行处理,min-max处理方法如公式2所示:
Figure FDA0003489610320000031
其中fi为特征的取值,fmin为该特征的最小取值,fmax为该特征的最大取值;
如果收集到的数据为离散型,则采用dummy encoding对原始特征进行编码。
5.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:所述深度信念网络利用逐层训练的方法进行训练,具体为:
从下往上对RBM进行训练,当下层的RBM训练好后,将上层的RBM堆叠到训练好的RBM的上层,将下层的隐藏层输出作为上层RBM的显示层进行训练。
6.根据权利要求5所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:在所述深度信念网络中,下层RBM的隐藏层作为上层RBM的显示层,显示层与隐藏层之间为双向全连接,显示层之间或隐藏层之间没有连接,每一个显示层神经元或是隐藏层神经元的取值是相互独立的;其中,最下层的显示层用于原始数据的输入,隐藏层隐式的描述输入变量与输出变量的约束关系,在无监督学习中,隐藏层用于特征的提取。
CN201811276813.8A 2018-10-30 2018-10-30 一种基于深度信念网络的单分类微博谣言检测模型 Active CN109597944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811276813.8A CN109597944B (zh) 2018-10-30 2018-10-30 一种基于深度信念网络的单分类微博谣言检测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811276813.8A CN109597944B (zh) 2018-10-30 2018-10-30 一种基于深度信念网络的单分类微博谣言检测模型

Publications (2)

Publication Number Publication Date
CN109597944A CN109597944A (zh) 2019-04-09
CN109597944B true CN109597944B (zh) 2022-04-01

Family

ID=65958210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811276813.8A Active CN109597944B (zh) 2018-10-30 2018-10-30 一种基于深度信念网络的单分类微博谣言检测模型

Country Status (1)

Country Link
CN (1) CN109597944B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990683B (zh) * 2019-11-29 2022-08-23 重庆邮电大学 一种基于地域与情感特征的微博谣言集成识别方法及装置
CN111382278B (zh) * 2020-03-04 2023-08-08 华中师范大学 一种基于时空轨迹的社交网络构建方法及构建***
CN111581534B (zh) * 2020-05-22 2022-12-13 哈尔滨工程大学 一种基于立场一致的谣言传播树结构优化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
业务投诉文本分类与新类识别的研究;陈秋松;《中国优秀硕士学位论文全文数据库 信息科技辑 ISSN 1674-0246》;20180615;第11-17页 *
基于深度信念网络的网络水军识别研究;孙卫强;《中国优秀硕士学位论文全文数据库 信息科技辑 ISSN 1674-0246》;20160415;第16-18页 *
基于突发话题和领域专家的微博谣言检测方法;杨文太 等;《计算机应用》;20171010;全文 *

Also Published As

Publication number Publication date
CN109597944A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN108829763B (zh) 一种基于深度神经网络的影评网站用户的属性预测方法
CN111831905B (zh) 基于团队科研影响力及可持续性建模的推荐方法和装置
CN109597944B (zh) 一种基于深度信念网络的单分类微博谣言检测模型
CN110990718B (zh) 一种公司形象提升***的社会网络模型构建模块
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN113422761B (zh) 基于对抗学习的恶意社交用户检测方法
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
CN111143704A (zh) 一种融合用户影响关系的在线社区好友推荐方法及***
CN112101574A (zh) 一种机器学习有监督模型解释方法、***及设备
CN113705679B (zh) 一种基于超图神经网络的学生成绩预测方法
CN110008975B (zh) 基于免疫危险理论的社交网络水军检测方法
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法
Bi et al. Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction
CN114757433A (zh) 一种饮用水源抗生素抗性相对风险快速识别方法
Schmidt et al. Using spectral clustering of hashtag adoptions to find interest-based communities
CN107577681A (zh) 一种基于社交媒体图片的地域分析、推荐方法及***
Gao et al. Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm
Chen et al. Student Performance Prediction Approach Based on Educational Data Mining
Bingol et al. Machine learning based deception detection system in online social networks
Gul et al. Analyzing complex networks: Extracting key characteristics and measuring structural similarities
Ali et al. A brief analysis of data mining techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant