CN112749559A - 微博谣言检测模型训练方法、微博谣言检测方法及装置 - Google Patents

微博谣言检测模型训练方法、微博谣言检测方法及装置 Download PDF

Info

Publication number
CN112749559A
CN112749559A CN202110069648.4A CN202110069648A CN112749559A CN 112749559 A CN112749559 A CN 112749559A CN 202110069648 A CN202110069648 A CN 202110069648A CN 112749559 A CN112749559 A CN 112749559A
Authority
CN
China
Prior art keywords
rumor
data
microblog
rumor data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110069648.4A
Other languages
English (en)
Inventor
禹可
姚兆远
吴晓非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110069648.4A priority Critical patent/CN112749559A/zh
Publication of CN112749559A publication Critical patent/CN112749559A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种微博谣言检测模型训练方法、微博谣言检测方法及装置,其中,该训练方法包括:获取微博平台的非谣言数据集和谣言数据集;获取所述谣言数据集中谣言数据的发布意图标注信息,并根据发布意图标注信息对所述谣言数据集中的谣言数据进行分类,得到多个不同发布意图类别的谣言数据集;对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量均衡;利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对设定模型进行训练,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型。通过上述方案能够准确地检测出发布意图不同的谣言。

Description

微博谣言检测模型训练方法、微博谣言检测方法及装置
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种微博谣言检测模型训练方法、微博谣言检测方法及装置。
背景技术
随着互联网与自媒体行业的迅速发展,我们已经进入了信息***的时代,人们每天都要接收与发出不计其数的信息,这些信息无时无刻不在影响着人们的生活。然而正如人们在传统的口头交流中那样,互联网所传递的信息并不是完全真实与可信的。在铺天盖地的信息中总会包含那么一些虚假的、对人的认知、思想与行为产生误导的信息,这便是网络谣言。而微博是当今网络用户最多、信息传播最快的社交平台,可以通过网络在任何时间、任何地点即时发布信息,其信息发布与传播速度远超过传统纸媒及网络媒体。
不同网络谣言的发布动机或发布意图不同,发布后在社会上产生的影响不同。然而现有谣言检测方法仅检测一条数据是谣言或非谣言,根据这样的检测结果不能检测出在社会上影响较大或较受关注的谣言。
发明内容
有鉴于此,本发明实施例提供了一种微博谣言检测模型训练方法、微博谣言检测方法及装置,以准确地检测出发布意图不同的谣言。
为了达到上述目的,本发明采用以下方案实现:
根据本发明实施例的一个方面,提供了一种微博谣言检测模型训练方法,包括:
获取微博平台的非谣言数据集和谣言数据集;
获取所述谣言数据集中谣言数据的发布意图标注信息,并根据发布意图标注信息对所述谣言数据集中的谣言数据进行分类,得到多个不同发布意图类别的谣言数据集;
对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量均衡;
利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对设定机器学习和/或神经网络模型进行训练,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型。
在一些实施例中,获取微博平台的非谣言数据集和谣言数据集,包括:
利用模拟浏览器爬虫从微博平台爬取微博数据,得到非谣言数据集;利用模拟浏览器爬虫从微博不实信息公示平台爬取微博数据,得到谣言数据集;或者,
从网络上搜索已爬取好的包含谣言数据和/或非谣言数据的微博数据集,并根据该微博数据集得到微博平台的非谣言数据集和谣言数据集。
在一些实施例中,所述多个不同发布意图类别包括:善意、恶意及无目的。
在一些实施例中,获取微博平台的非谣言数据集和谣言数据集,包括:
通过爬取得到微博平台的非谣言数据集和谣言数据集;
谣言数据数量较小的发布意图类别包括:善意和/或无目的。
在一些实施例中,对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量均衡,包括:
利用EDA方法和/或包括至少一种中间语言的翻译—回译方法对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量达到设定均衡比例。
在一些实施例中,利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对设定机器学习和/或神经网络模型进行训练,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型,包括:
利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对多个设定机器学习和/或神经网络模型进行训练,并选取预测效果较好的训练后的设定机器学习和/或神经网络模型,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型;
其中,所述多个设定机器学习和/或神经网络模型包括朴素贝叶斯模型、决策树模型、支持向量机模型、随机森林模型、xgBoost模型、FastText模型、RNN模型、 CNN模型、LSTM模型中的至少一个。
在一些实施例中,获取微博平台的非谣言数据集和谣言数据集,包括:
通过爬取得到微博平台的非谣言数据集和谣言数据集;
获取所述谣言数据集中谣言数据的发布意图标注信息之前,所述方法,还包括:
对通过爬取得到微博平台的非谣言数据集和谣言数据集进行清洗;
对通过爬取得到微博平台的非谣言数据集和谣言数据集进行清洗,包括:
删除非谣言数据集和谣言数据集中总字段长度不符合设定字段长度要求、设定机器学习和/或神经网络模型无法识别的字符、及不能反映谣言特征的字段。
根据本发明实施例的一个方面,提供了一种微博谣言检测方法,包括:
获取利用上述任一实施例所述的微博谣言检测模型训练方法得到微博谣言检测模型;
利用所述微博谣言检测模型检测待检测微博数据在非谣言数据和各发布意图类别中所属的类别。
根据本发明实施例的一个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
根据本发明实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
本发明实施例的微博谣言检测模型训练方法、微博谣言检测方法、电子设备及计算机可读存储介质,通过对谣言数据按发布意图进行分类,并对谣言数据数量较小的发布意图类别数据进行数据增强,能够均衡各类别数据,并利用类别均衡的数据训练模型,能够防止数量较小类别数据在训练模型时发生过拟合,从而能够使模型得到更准确的各发布意图类别数据的预测结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的微博谣言检测模型训练方法的流程示意图;
图2是本发明一实施例的微博谣言检测与意图识别方法的整体流程示意图;
图3是本发明一实施例中数据预处理模块对应的流程示意图;
图4是本发明一实施例中数据分类模块对应的流程示意图;
图5是本发明一实施例中数据增强模块对应的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
需要预先说明的是,下述实施例或示例的描述或其中所提及的特征可以以相同或类似的方式,与其他实施例或示例中的特征组合,或替换其他实施例或示例中的特征,以形成可能的实施方式。另外,本文所使用的术语“包括/包含”是指特征、要素、步骤或组件的存在,但并不排除还存在一个或多个其他特征、要素、步骤或组件。
根据网络谣言发布后在社会上产生的影响,可以将网络谣言的发布动机,即意图分为“善意”、“恶意”和“无目的”。“善意”的谣言抱有“善意”的社会目的,往往结果是形成空泛的舆情泡沫;“恶意”的谣言抱有“恶意”的社会目的,结果往往会带来社会秩序的混乱和人心的恐慌;“无目的”的谣言并没有什么善恶动机,在微博平台上多发布于自媒体账号,大多时候仅仅是语言的作秀、嘲弄、夸耀,以达到吸引眼球的目的。
在以上三种谣言中,“恶意”的谣言占比最高且对社会的危害最大。因为网络谣言偏好于社会上的负面信息,而负面信息更加容易引起网民的关注,瞬间被大量转载,对事情的真相进行瓦解。通过这种方式,“恶意”谣言对社会信任体系产生摧毁性的巨大负面作用,一些社会的阴暗面被无限制地放大、扩散,从而不断导致矛盾的激化,甚至无中生有进行恶意的攻击。由于“恶意”的谣言危害性远高于其他两种,需要进行更快的识别、处理与防控,所以谣言的检测与意图识别的研究势在必行。
然而目前针对网络谣言的检测大多局限于仅仅进行谣言与非谣言的检测与分类,无法满足对危害性最大的“恶意”谣言的快速识别与处理。同时,对爬取到的谣言数据分类统计后发现,“恶意”谣言数据占比过高,另外两类谣言数据占比过低,使用这种不均衡的数据进行训练很容易造成模型训练过程中的过拟合。
针对上述问题,本发明实施例提供了一种微博谣言检测模型训练方法,以准确地检测出发布意图不同的谣言。
图1是本发明一实施例的微博谣言检测模型训练方法的流程示意图。如图1所示,该实施例的微博谣言检测模型训练方法可包括以下步骤S110~步骤S140。
下面将对步骤S110至步骤S140的具体实施方式进行详细说明。
步骤S110:获取微博平台的非谣言数据集和谣言数据集。
该步骤S110中,可以从网络上,例如,微博平台、微博不实信息公示平台、已有微博数据等,通过爬取技术采集微博数据。
示例性地,该步骤S110,即,获取微博平台的非谣言数据集和谣言数据集,具体可包括步骤:S111,利用模拟浏览器爬虫从微博平台爬取微博数据,得到非谣言数据集;利用模拟浏览器爬虫从微博不实信息公示平台爬取微博数据,得到谣言数据集。
该步骤S111中,微博平台中若有谣言,平台维护人员或关注微博平台的人员可以将谣言剔除,并可以在各种微博不实信息公示平台进行公示。所以,从微博平台得到的微博数据,可以认为是非谣言数据;另外,可以认为从微博不实信息公示平台得到的微博数据为谣言数据。
该实施例中,使用爬虫程序爬取微博网页,可以更加快速高效的得到大量用于训练与预测的高质量数据,且爬取到的数据结构化完整,与人工爬取的数据相比更容易发现内部隐含的特征。
另一示例中,该步骤S110,即,获取微博平台的非谣言数据集和谣言数据集,具体可包括步骤:S112,从网络上搜索已爬取好的包含谣言数据和/或非谣言数据的微博数据集,并根据该微博数据集得到微博平台的非谣言数据集和谣言数据集。
该步骤S112中,从网上搜集到的谣言数据和/或非谣言数据可以单独,或者和其他方式(如步骤S111)得到的相应类别数据合并使用。
在步骤S110,即,获取微博平台的非谣言数据集和谣言数据集,包括:通过爬取得到微博平台的非谣言数据集和谣言数据集,即,通过爬取得到微博数据集的情况下,得到数据集之后,即后续步骤S120之前,即,获取所述谣言数据集中谣言数据的发布意图标注信息之前,图1所示的方法还可包括步骤:S150,对通过爬取得到微博平台的非谣言数据集和谣言数据集进行清洗。
具体实施时,该步骤S150,即,对通过爬取得到微博平台的非谣言数据集和谣言数据集进行清洗,具体可包括步骤:S151,删除非谣言数据集和谣言数据集中总字段长度不符合设定字段长度要求、设定机器学习和/或神经网络模型无法识别的字符、及不能反映谣言特征的字段。
该步骤S151中,设定字段长度要求可以根据需要确定。设定机器学习和/或神经网络模型无法识别的字符例如可以包括emoji表情等字段。不能反映谣言特征的字段例如可以包括用户ID等字段,以此可以删除对训练无意义的字段。
步骤S120:获取所述谣言数据集中谣言数据的发布意图标注信息,并根据发布意图标注信息对所述谣言数据集中的谣言数据进行分类,得到多个不同发布意图类别的谣言数据集。
该步骤S120中,可以由人工标注所述谣言数据集中谣言数据的发布意图标注信息,然后用来分类。所述多个不同发布意图类别可包括:善意、恶意及无目的,以此可以将谣言数据集中谣言数据分成非谣言数据、善意谣言数据、恶意谣言数据及无目的谣言数据。
可以通过预先或现场统计每个发布意图类别的谣言数据集中谣言数据数量,得到谣言数据数量较小的发布意图类别,并得到相应发布意图类别的谣言数据集。例如,针对爬取得到的谣言数据,分别对善意、恶意及无目的发布意图类别的谣言数据进行统计,可以发现善意、无目的谣言数据较少。另外,谣言数据数量较多的发布意图类别可包括恶意。
在步骤S110,即,获取微博平台的非谣言数据集和谣言数据集,包括:通过爬取得到微博平台的非谣言数据集和谣言数据集,即,通过爬取得到微博数据集的情况下,该步骤S120中谣言数据数量较小的发布意图类别可包括:善意和/或无目的。
步骤S130:对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量均衡。
该步骤S130中,数据增强得到的数据,加上未进行数据增强的数据,可以得到总数据集。可以通过判断总数据集中各发布意图类别的数据之间的比例是否达到设定比例来判断是否达到均衡。例如,真实:善意:恶意:无目的设定均衡比例为1:1: 1:1,或者为1:1:2:2。
具体实施例时,可以利用各种方法进行数据增强。
例如,上述步骤S130,即,对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量均衡,具体可包括步骤:利用EDA 方法对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量达到设定均衡比例。
例如,上述步骤S130,具体可包括步骤:利用翻译—回译方法对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量达到设定均衡比例。
再例如,上述步骤S130,具体可包括步骤:利用包括至少一种中间语言的翻译—回译方法对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量达到设定均衡比例。
又例如,上述步骤S130,具体可包括步骤:利用EDA方法和包括至少一种中间语言的翻译—回译方法对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量达到设定均衡比例。
该实施例中,可以利用各种进行数据增强,其中可包括EDA(Easy DataAugmentation,数据增强技术)方法、包含一种中间语言的翻译—回译方法、包含多种中间语言的翻译—回译方法、包含各种中间语言的翻译—回译方法等。例如,中- 英-中、中-法-中、中-德-中的翻译—回译方法。
步骤S140:利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对设定机器学习和/或神经网络模型进行训练,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型。
该步骤S140中,例如,可以得到非谣言数据、恶意谣言数据、善意谣言数据、无目的谣言数据这四类训练样本数据,可以利用这些训练样本数据构成的训练样本集训练模型。该设定机器学习和/或神经网络模型可以为朴素贝叶斯模型、决策树模型、支持向量机模型、随机森林模型、xgBoost(极端梯度提升)模型、FastText(快速文本分类器)模型、RNN(循环神经网络)模型、CNN(卷积神经网络)模型、LSTM (长短期记忆人工神经网络)模型等。
进一步的实施例中,可以利用得到的数据对多个模型进行训练,取最优的模型。
上述步骤S140,具体可包括步骤:利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对多个设定机器学习和/或神经网络模型进行训练,并选取预测效果较好的训练后的设定机器学习和/或神经网络模型,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型。其中,所述多个设定机器学习和/或神经网络模型可以包括朴素贝叶斯模型、决策树模型、支持向量机模型、随机森林模型、xgBoost模型、FastText模型、RNN模型、CNN模型、LSTM模型中的至少一个。其中,朴素贝叶斯模型、决策树模型、支持向量机模型、随机森林模型、xgBoost模型为机器学习模型,FastText模型、RNN模型、CNN 模型、LSTM模型为神经网络模型。
另外,本发明实施例还提供了一种微博谣言检测方法。该些实施例的微博谣言检测方法,可包括步骤:S210,获取利用上述任一实施例所述的微博谣言检测模型训练方法得到微博谣言检测模型;S220,利用所述微博谣言检测模型检测待检测微博数据在非谣言数据和各发布意图类别中所属的类别。
另外,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的微博谣言检测模型训练方法或上述任一实施例所述的微博谣言检测方法的步骤。
另外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的微博谣言检测模型训练方法或上述任一实施例所述的微博谣言检测方法的步骤。
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
在一具体实施例中,提出了一种基于数据增强的微博平台谣言检测与意图识别方法,以在微博平台中检测出谣言并对其进行意图识别,同时通过数据增强的方式防止模型的过拟合及达到更好的检测效果,方便对于特定类别的谣言快速发现以针对性地进行舆情防控等工作。本发明实施例所采用的技术方案,包括以下五个模块:
(1)数据采集模块:面向微博平台进行非谣言数据和谣言数据的采集;
(2)数据预处理模块:面向模型训练与预测的需求对原始数据进行清洗;
(3)数据分类模块:对谣言数据按照规则进行多分类;
(4)数据增强模块:对谣言数据进行增强以使训练数据达到平衡;
(5)数据训练预测模块:使用多种模型对数据进行训练和预测。
所述的微博谣言检测与意图识别方法,在数据采集模块中,可同时使用两种方法进行数据采集,一是使用模拟浏览器爬虫在微博首页进行非谣言数据的爬取,在“微博不实信息公示平台”进行谣言数据的爬取;二是在网络上搜集其他学者已爬取好的微博数据集。数据均可用csv格式进行保存。
所述的微博谣言检测与意图识别方法,在数据预处理模块中,根据模型训练与预测的需求对原始数据进行清洗。可删除总字段长度不符合要求的数据,可删除机器无法识别的emoji表情等字段,可删除对训练无意义的用户ID、微博话题等字段。
所述的微博谣言检测与意图识别方法,在数据分类模块中,按照谣言发布后在社会上产生的影响,将谣言的“发布意图”可定义为三类——“善意”、“恶意”、“无目的”。其中“善意”谣言发布后会对人们的情绪造成正面影响,“恶意”谣言发布后会对人们的情绪造成负面影响,“无目的”谣言发布后对绝大多数民众的情绪没有明显影响。按照上述标准,对谣言数据进行人工数据标注。
所述的微博谣言检测与意图识别方法,在数据增强模块中,将占比较少的两部分数据——“善意”谣言数据、“无目的”谣言数据使用多种方法进行数据增强,以使数据的分布较为均衡。使用的数据增强方法包括EDA(Easy Data Augmentation)和翻译-回译(例如:中-英-中、中-法-中、中-德-中)。
所述的微博谣言检测与意图识别方法,在数据训练预测模块中,对处理后的数据使用多种机器学习和/或神经网络模型进行训练和预测,包括但不限于朴素贝叶斯、决策树、支持向量机、随机森林、xgBoost、FastText、RNN、CNN、LSTM等模型。
本实施例的方法的实现具有以下有益效果:
(1)使用爬虫程序爬取微博网页,可以更加快速高效的得到大量用于训练与预测的高质量数据,且爬取到的数据结构化完整,与人工爬取的数据相比更容易发现内部隐含的特征。
(2)提出谣言的意图多分类规则,方便对于不同类型的谣言进行检测并作出更为迅速有效的处理。特别对于对社会造成负面影响的“恶意”谣言,快速精确的检测可以帮助政府有效的控制舆情及挖掘其背后的发布者。
(3)在机器学习算法模型中,使用不均衡的数据进行训练很容易造成模型训练结果的过拟合,从而导致模型的泛化能力较差。在采集并标注后的微博谣言数据中,“善意”和“无目的”数据占比较少,会导致模型在训练中对“恶意”数据的过拟合。利用数据增强技术对谣言数据进行针对性地增强,可以使数据分布更加均衡,在训练中可以有效避免模型过拟合的问题,从而提高模型的泛化能力,并且可以比较不同数据增强技术对模型训练和预测的效果影响。
图2是本发明一实施例的微博谣言检测与意图识别方法的整体流程示意图,参见图2,该方法可以包括:针对微博平台进行谣言数据和非谣言数据的采集;面向微博谣言检测与意图识别的需求对原始数据进行预处理操作,对原始数据进行清洗和去冗余;按照谣言发布后对社会造成的影响将预处理后谣言数据人工标注为三类,加上非谣言数据,共得到四种标签;使用多种数据增强方法对占比较小的两部分数据进行增强,使得数据的分布趋于均衡,得到多种增强方式生成的数据集,以及四种标签数据占比各不相同的数据集;使用多种机器学习算法模型分别对上步得到了多个数据集进行训练预测,取最优值,可以得到效果相对最好的模型、数据增强方式和数据集比例。
图3是本发明一实施例中数据预处理模块对应的流程示意图。参见图3,本实施例,能够实现面向微博谣言检测与意图识别的需求对原始数据进行预处理操作,对原始数据进行清洗和去冗余的功能。具体方案可包括以下步骤:
1)逐条读入原始微博数据,按照既定分隔符对每一条数据进行切分操作,对切分结果进行判断以确定这条数据是否有效;
2)如果分隔出的字段数等于规定的字段数,表明数据有效,继续处理;若分隔出的字段数不等于规定的字段数,则该条数据无效,改为处理下一条数据;
3)同理再次过滤掉某些位置的字段不符合字符类型要求的记录,以滤除可能存在乱码的数据。处理符合要求的数据,剔除@符号后的对训练无意义的ID字段,至此提取完一条记录的有效字段;
4)将该条字段保存,继续读取下一条数据,以此类推,直至处理完所有原始数据,将结果保存至文件中作为预处理后的文件,留待后续使用。
图4是本发明一实施例中数据分类模块对应的流程示意图。参见图4,本实施例,能够实现对微博谣言数据的发布意图分类及标注。具体方案可包括以下步骤:
对于预处理后的谣言数据逐条分别进行如下操作:
1)该条谣言发布后是否会引发大多数民众的正面情绪,若是,则标为善意,并完成该条数据的标注,若不是,则进行下一步;
2)该条谣言发布后是否会引发大多数民众的负面情绪,若是,则标为恶意,并完成该条数据的标注,若不是,则进行下一步;
3)该条谣言发后是否不会引起大多数民众的情绪变化,若是,则标为无目的,并完成该条数据的标注,若不是,则回到第一步;
4)逐条遍历所有预处理后的数据后完成数据标注。
图5是本发明一实施例中数据增强模块对应的流程示意图。参见图5,本实施例,能够实现对谣言部分不均衡数据的增强。具体方案可包括以下步骤:
1)对标注后的数据进行统计发现,“善意”数据和“无目的”数据占比较少,故对这两部分数据进行增强;
2)对待增强部分的数据逐条进行EDA数据增强,得到EDA增强数据集,由于 EDA模型参数可调,故也可得到不同参数的EDA增强数据集;
3)对待增强部分的数据逐条进行翻译-回译数据增强,及将中文数据翻译至外文再翻译回中文,得到翻译-回译增强数据集,由于中间语言有多种选择,故也可得到不同中间语言的翻译-回译增强数据集;
4)对得到的增强数据集进行人工数据比例调整,可得到不同数据比例的增强数据集,例如,非谣言:善意谣言:恶意谣言:无目的谣言=1:1:1:1,或者非谣言:善意谣言:恶意谣言:无目的谣言=1:1:2:2等。
该实施例,可借助已有微博谣言检测方法,首先爬取微博平台的谣言数据,根据三类不同“发布意图”的标准对数据进行标注,之后对两类数据量较少的谣言数据进行不同比例的文本数据增强,得到多个数据集,最后使用多种模型进行训练预测并比较得出效果最好的模型及数据集。
综上所述,本发明实施例的微博谣言检测模型训练方法、微博谣言检测方法、电子设备及计算机可读存储介质,通过对谣言数据按发布意图进行分类,并对谣言数据数量较小的发布意图类别数据进行数据增强,能够均衡各类别数据,并利用类别均衡的数据训练模型,能够防止数量较小类别数据在训练模型时发生过拟合,从而能够使模型得到更准确的各发布意图类别数据的预测结果。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种微博谣言检测模型训练方法,其特征在于,包括:
获取微博平台的非谣言数据集和谣言数据集;
获取所述谣言数据集中谣言数据的发布意图标注信息,并根据发布意图标注信息对所述谣言数据集中的谣言数据进行分类,得到多个不同发布意图类别的谣言数据集;
对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量均衡;
利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对设定机器学习和/或神经网络模型进行训练,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型。
2.如权利要求1所述的微博谣言检测模型训练方法,其特征在于,获取微博平台的非谣言数据集和谣言数据集,包括:
利用模拟浏览器爬虫从微博平台爬取微博数据,得到非谣言数据集;利用模拟浏览器爬虫从微博不实信息公示平台爬取微博数据,得到谣言数据集;或者,
从网络上搜索已爬取好的包含谣言数据和/或非谣言数据的微博数据集,并根据该微博数据集得到微博平台的非谣言数据集和谣言数据集。
3.如权利要求1所述的微博谣言检测模型训练方法,其特征在于,所述多个不同发布意图类别包括:善意、恶意及无目的。
4.如权利要求3所述的微博谣言检测模型训练方法,其特征在于,
获取微博平台的非谣言数据集和谣言数据集,包括:
通过爬取得到微博平台的非谣言数据集和谣言数据集;
谣言数据数量较小的发布意图类别包括:善意和/或无目的。
5.如权利要求1所述的微博谣言检测模型训练方法,其特征在于,对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量均衡,包括:
利用EDA方法和/或包括至少一种中间语言的翻译—回译方法对谣言数据数量较小的发布意图类别的谣言数据进行数据增强,以使各发布意图类别的谣言数据数量达到设定均衡比例。
6.如权利要求1所述的微博谣言检测模型训练方法,其特征在于,利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对设定机器学习和/或神经网络模型进行训练,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型,包括:
利用谣言数据数量均衡的所有发布意图类别的谣言数据和所述非谣言数据集中的非谣言数据,对多个设定机器学习和/或神经网络模型进行训练,并选取预测效果较好的训练后的设定机器学习和/或神经网络模型,得到用于检测非谣言数据和各发布意图类别的谣言数据的微博谣言检测模型;
其中,所述多个设定机器学习和/或神经网络模型包括朴素贝叶斯模型、决策树模型、支持向量机模型、随机森林模型、xgBoost模型、FastText模型、RNN模型、CNN模型、LSTM模型中的至少一个。
7.如权利要求1所述的微博谣言检测模型训练方法,其特征在于,
获取微博平台的非谣言数据集和谣言数据集,包括:
通过爬取得到微博平台的非谣言数据集和谣言数据集;
获取所述谣言数据集中谣言数据的发布意图标注信息之前,所述方法,还包括:
对通过爬取得到微博平台的非谣言数据集和谣言数据集进行清洗;
对通过爬取得到微博平台的非谣言数据集和谣言数据集进行清洗,包括:
删除非谣言数据集和谣言数据集中总字段长度不符合设定字段长度要求、设定机器学习和/或神经网络模型无法识别的字符、及不能反映谣言特征的字段。
8.一种微博谣言检测方法,其特征在于,包括:
获取利用如权利要求1至7任一项所述的微博谣言检测模型训练方法得到微博谣言检测模型;
利用所述微博谣言检测模型检测待检测微博数据在非谣言数据和各发布意图类别中所属的类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
CN202110069648.4A 2021-01-19 2021-01-19 微博谣言检测模型训练方法、微博谣言检测方法及装置 Pending CN112749559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110069648.4A CN112749559A (zh) 2021-01-19 2021-01-19 微博谣言检测模型训练方法、微博谣言检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110069648.4A CN112749559A (zh) 2021-01-19 2021-01-19 微博谣言检测模型训练方法、微博谣言检测方法及装置

Publications (1)

Publication Number Publication Date
CN112749559A true CN112749559A (zh) 2021-05-04

Family

ID=75652504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110069648.4A Pending CN112749559A (zh) 2021-01-19 2021-01-19 微博谣言检测模型训练方法、微博谣言检测方法及装置

Country Status (1)

Country Link
CN (1) CN112749559A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101594452B1 (ko) * 2015-09-08 2016-02-17 국방과학연구소 온라인 게시물의 유언비어 식별장치
CN108763574A (zh) * 2018-06-06 2018-11-06 电子科技大学 一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合
CN109815383A (zh) * 2018-12-31 2019-05-28 南京理工大学 基于lstm的微博谣言检测及其资源库构建方法
CN111198938A (zh) * 2019-12-26 2020-05-26 深圳市优必选科技股份有限公司 一种样本数据处理方法、样本数据处理装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101594452B1 (ko) * 2015-09-08 2016-02-17 국방과학연구소 온라인 게시물의 유언비어 식별장치
CN108763574A (zh) * 2018-06-06 2018-11-06 电子科技大学 一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合
CN109815383A (zh) * 2018-12-31 2019-05-28 南京理工大学 基于lstm的微博谣言检测及其资源库构建方法
CN111198938A (zh) * 2019-12-26 2020-05-26 深圳市优必选科技股份有限公司 一种样本数据处理方法、样本数据处理装置及电子设备

Similar Documents

Publication Publication Date Title
CN110188194B (zh) 一种基于多任务学习模型的假新闻检测方法及***
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN105005594B (zh) 异常微博用户识别方法
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和***
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN107515873A (zh) 一种垃圾信息识别方法及设备
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN105912716A (zh) 一种短文本分类方法及装置
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及***
CN110727766A (zh) 敏感词的检测方法
Tran et al. Spam detection in online classified advertisements
CN111353044A (zh) 一种基于评论的情感分析方法及***
CN107506472A (zh) 一种学生浏览网页分类方法
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及***
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN114117299A (zh) 一种网站入侵篡改检测方法、装置、设备及存储介质
Sarsam et al. Geo-spatial-based emotions: A mechanism for event detection in microblogs
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警***
CN112434163A (zh) 风险识别方法及模型构建方法、装置、电子设备和介质
CN110704611A (zh) 基于特征解交织的非法文本识别方法及装置
CN112749559A (zh) 微博谣言检测模型训练方法、微博谣言检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210504

RJ01 Rejection of invention patent application after publication