CN111651565A - 一种社交媒体平台虚假信息识别*** - Google Patents

一种社交媒体平台虚假信息识别*** Download PDF

Info

Publication number
CN111651565A
CN111651565A CN202010609485.XA CN202010609485A CN111651565A CN 111651565 A CN111651565 A CN 111651565A CN 202010609485 A CN202010609485 A CN 202010609485A CN 111651565 A CN111651565 A CN 111651565A
Authority
CN
China
Prior art keywords
information
media platform
social media
false information
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010609485.XA
Other languages
English (en)
Inventor
杨良斌
于腊梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Relations, University of
Original Assignee
International Relations, University of
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Relations, University of filed Critical International Relations, University of
Priority to CN202010609485.XA priority Critical patent/CN111651565A/zh
Publication of CN111651565A publication Critical patent/CN111651565A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交媒体平台虚假信息识别***,涉及虚假信息识别技术领域,包括采集模块和识别模块,所述采集模块采集社交媒体平台特征信息并传输至所述识别模块,所述识别模块进行对社交媒体平台特征信息进行识别并确定虚假信息输出,所述识别模块包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析。本发明社交媒体平台虚假信息识别***,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。

Description

一种社交媒体平台虚假信息识别***
技术领域
本发明涉及虚假信息识别技术领域,具体来说,涉及一种社交媒体平台虚假信息识别***。
背景技术
社交媒体平台给我们工作和日常生活带来方便的同时,也产生了很多负面问题,特别是谣言和虚假信息众多,而且通过社交媒体平台,新鲜的消息不再以口耳相传的方式进行传播,通过网络传播的成本大大降低,很多媒体为了造成高影响力而雇佣水军进行转发,这样的转发不仅没有质量,而且容易造成误导,给人们生活带来严重的困扰。因此,对社交媒体平台的虚假信息进行准确快速的识别是非常必要的。
目前识别社交媒体平台虚假信息的方法大都采用统计学***台的全局信息进行虚假识别,这样当数据规模比较大的时候,其识别速度非常慢,也很难满足实时性的要求。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种社交媒体平台虚假信息识别***,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种社交媒体平台虚假信息识别***,包括采集模块和识别模块,其中,所述采集模块采集社交媒体平台特征信息并传输至所述识别模块,所述识别模块进行对社交媒体平台特征信息进行识别并确定虚假信息输出,其中;所述识别模块包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析,其中;
所述词水平语义情感分析,包括:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
Figure BDA0002560440100000021
Figure BDA0002560440100000022
Figure BDA0002560440100000023
来结合
Figure BDA0002560440100000024
Figure BDA0002560440100000025
获取包含以单词wit为中心的所有信息;
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
Figure BDA0002560440100000026
Figure BDA0002560440100000027
Figure BDA0002560440100000028
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
所述句子水平语义情感分析,包括:
每条评论中的句子数量为s个,表示为:
Figure BDA0002560440100000029
Figure BDA00025604401000000210
Figure BDA00025604401000000211
来结合
Figure BDA00025604401000000212
Figure BDA00025604401000000213
获取包含以句子si为中心的所有信息,
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
Figure BDA00025604401000000214
Figure BDA00025604401000000215
Figure BDA00025604401000000216
其中,v是包含了评论中所有信息的向量。
进一步的,所述识别模块进一步包括虚假信息分析单元和推荐单元。
进一步的,所述虚假信息分析单元,包括获取媒体平台信息otui和标记虚假信息rui,过滤恶意虚假信息,并确定dui作为恶意虚假信息交互行为指示符,表示如下:
{dui|dui=1,|otui―rui|≥α;dui=0,|otui―rui∣<α};
其中,标定恶意虚假信息交互行为指示符dui构建用户项目交互指示矩阵Rin,Rin∈Rm*n
指示符dui,恶意虚假信息用户集合us的计算函数,表示为:
Figure BDA0002560440100000031
进一步的,所述推荐单元包括将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;获取计算评论意见水平ot,表示为:
ot=F(softmax(Wvv+bv))。
进一步的,所述采集模块包括数据信息采集单元、音频信息采集单元和图像信息采集单元,其中,
所述数据信息采集单元,用于社交媒体平台数据信息进行采集;
所述音频信息采集单元,用于社交媒体平台音频信息进行采集;
所述图像信息采集单元,用于社交媒体平台图像信息进行采集。
本发明的有益效果:
本发明社交媒体平台虚假信息识别***,通过采集模块采集社交媒体平台特征信息并传输至所述识别模块,而识别模块进行对社交媒体平台特征信息进行识别并确定虚假信息输出,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种社交媒体平台虚假信息识别***的原理框图;
图2是根据本发明实施例的一种社交媒体平台虚假信息识别***的识别模块模型示意图。
图中:
1、采集模块;2、识别模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种社交媒体平台虚假信息识别***。
如图1-图2所示,根据本发明实施例的社交媒体平台虚假信息识别***,包括采集模块1和识别模块2,其中,所述采集模块1采集社交媒体平台特征信息并传输至所述识别模块2,所述识别模块2进行对社交媒体平台特征信息进行识别并确定虚假信息输出,其中;所述识别模块2包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析,其中;
所述词水平语义情感分析,包括:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
Figure BDA0002560440100000041
Figure BDA0002560440100000042
Figure BDA0002560440100000043
来结合
Figure BDA0002560440100000044
Figure BDA0002560440100000045
获取包含以单词wit为中心的所有信息;
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
Figure BDA0002560440100000051
Figure BDA0002560440100000052
Figure BDA0002560440100000053
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
所述句子水平语义情感分析,包括:
每条评论中的句子数量为s个,表示为:
Figure BDA0002560440100000054
Figure BDA0002560440100000055
Figure BDA0002560440100000056
来结合
Figure BDA0002560440100000057
Figure BDA0002560440100000058
获取包含以句子si为中心的所有信息,
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
Figure BDA0002560440100000059
Figure BDA00025604401000000510
Figure BDA00025604401000000511
其中,v是包含了评论中所有信息的向量。
借助于上述方案,通过采集模块1采集社交媒体平台特征信息并传输至所述识别模块2,而识别模块2进行对社交媒体平台特征信息进行识别并确定虚假信息输出,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。
其中,所述识别模块2进一步包括虚假信息分析单元和推荐单元。
其中,所述虚假信息分析单元,包括获取媒体平台信息otui和标记虚假信息rui,过滤恶意虚假信息,并确定dui作为恶意虚假信息交互行为指示符,表示如下:
{dui|dui=1,∣otui―rui∣≥α;dui=0,∣otui―rui∣<α};
其中,标定恶意虚假信息交互行为指示符dui构建用户项目交互指示矩阵Rin,Rin∈Rm*n
指示符dui,恶意虚假信息用户集合us的计算函数,表示为:
Figure BDA0002560440100000061
其中,所述推荐单元包括将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;获取计算评论意见水平ot,表示为:
ot=F(softmax(Wvv+bv))。
其中,所述采集模块1包括数据信息采集单元、音频信息采集单元和图像信息采集单元,其中,
所述数据信息采集单元,用于社交媒体平台数据信息进行采集;
所述音频信息采集单元,用于社交媒体平台音频信息进行采集;
所述图像信息采集单元,用于社交媒体平台图像信息进行采集。
另外,采集模块1,以社交媒体平台中的无标签数据为输入,利用Word2vec词嵌套技术映射成长度为u的一维输入向量,然后输入到去噪自编码器(DAE,DenoisingAutoEncoder)中实现无标签数据的特征提取。在去噪自编码器中,我们随机产生长度为u的一维随机噪声向量,该噪声向量的各分量取值只能为0或1,并将它与一维输入向量做位与操作得到一个新的带噪声的一维向量。
综上所述,借助于本发明的上述技术方案,通过采集模块1采集社交媒体平台特征信息并传输至所述识别模块2,而识别模块2进行对社交媒体平台特征信息进行识别并确定虚假信息输出,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种社交媒体平台虚假信息识别***,其特征在于,包括采集模块(1)和识别模块(2),其中,所述采集模块(1)采集社交媒体平台特征信息并传输至所述识别模块(2),所述识别模块(2)进行对社交媒体平台特征信息进行识别并确定虚假信息输出,其中;所述识别模块(2)包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析,其中;
所述词水平语义情感分析,包括:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
Figure RE-FDA0002612740300000011
Figure RE-FDA0002612740300000012
Figure RE-FDA0002612740300000013
来结合
Figure RE-FDA0002612740300000014
Figure RE-FDA0002612740300000015
获取包含以单词wit为中心的所有信息;
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
Figure RE-FDA0002612740300000016
Figure RE-FDA0002612740300000017
Figure RE-FDA0002612740300000018
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
所述句子水平语义情感分析,包括:
每条评论中的句子数量为s个,表示为:
Figure RE-FDA0002612740300000019
Figure RE-FDA00026127403000000110
Figure RE-FDA00026127403000000111
来结合
Figure RE-FDA00026127403000000112
Figure RE-FDA00026127403000000113
获取包含以句子si为中心的所有信息,
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
Figure RE-FDA00026127403000000114
Figure RE-FDA0002612740300000021
Figure RE-FDA0002612740300000022
其中,v是包含了评论中所有信息的向量。
2.根据权利要求1所述的社交媒体平台虚假信息识别***,其特征在于,所述识别模块(2)进一步包括虚假信息分析单元和推荐单元。
3.根据权利要求1所述的社交媒体平台虚假信息识别***,其特征在于,所述虚假信息分析单元,包括获取媒体平台信息otui和标记虚假信息rui,过滤恶意虚假信息,并确定dui作为恶意虚假信息交互行为指示符,表示如下:
{dui|dui=1,∣otui-rui∣≥α;dui=0,∣otui-rui∣<α};
其中,标定恶意虚假信息交互行为指示符dui构建用户项目交互指示矩阵Rin,Rin∈Rm*n
指示符dui,恶意虚假信息用户集合us的计算函数,表示为:
Figure RE-FDA0002612740300000023
4.根据权利要求3所述的社交媒体平台虚假信息识别***,其特征在于,所述推荐单元包括将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;获取计算评论意见水平ot,表示为:
ot=F(softmax(Wvv+bv))。
5.根据权利要求1所述的社交媒体平台虚假信息识别***,其特征在于,所述采集模块(1)包括数据信息采集单元、音频信息采集单元和图像信息采集单元,其中,
所述数据信息采集单元,用于社交媒体平台数据信息进行采集;
所述音频信息采集单元,用于社交媒体平台音频信息进行采集;
所述图像信息采集单元,用于社交媒体平台图像信息进行采集。
CN202010609485.XA 2020-06-29 2020-06-29 一种社交媒体平台虚假信息识别*** Withdrawn CN111651565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010609485.XA CN111651565A (zh) 2020-06-29 2020-06-29 一种社交媒体平台虚假信息识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010609485.XA CN111651565A (zh) 2020-06-29 2020-06-29 一种社交媒体平台虚假信息识别***

Publications (1)

Publication Number Publication Date
CN111651565A true CN111651565A (zh) 2020-09-11

Family

ID=72347565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010609485.XA Withdrawn CN111651565A (zh) 2020-06-29 2020-06-29 一种社交媒体平台虚假信息识别***

Country Status (1)

Country Link
CN (1) CN111651565A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177164A (zh) * 2021-05-13 2021-07-27 聂佼颖 基于大数据的多平台协同新媒体内容监控管理***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177164A (zh) * 2021-05-13 2021-07-27 聂佼颖 基于大数据的多平台协同新媒体内容监控管理***
CN113177164B (zh) * 2021-05-13 2022-12-09 深圳市欣易辰信息科技有限公司 基于大数据的多平台协同新媒体内容监控管理***

Similar Documents

Publication Publication Date Title
CN102629904B (zh) 一种网络水军的探测与判定方法
CN107491435B (zh) 基于计算机自动识别用户情感的方法及装置
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN109325860A (zh) 用于海外投资风险预警的网络舆情检测方法及***
CN113220533B (zh) 一种网络舆情监控方法及***
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
CN112434194A (zh) 基于知识图谱的相似用户识别方法、装置、设备及介质
CN116663664A (zh) 一种基于nlp算法的客户营销场景数据分析***及方法
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN111651565A (zh) 一种社交媒体平台虚假信息识别***
CN108399238A (zh) 一种融合文本概念化和网络表示的观点检索***及方法
CN117576632B (zh) 基于多模态ai大模型的电网监控火灾预警***及方法
CN110689447A (zh) 一种基于深度学习的社交软件用户发布内容的实时检测方法
WO2021128721A1 (zh) 文本分类处理方法和装置
CN113642867A (zh) 评估风险的方法及***
CN110674288A (zh) 一种应用于网络安全领域的用户画像方法
CN117216264A (zh) 一种基于bert算法的机床设备故障分析方法和***
CN117113973A (zh) 一种信息处理方法及相关装置
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN113627498B (zh) 人物丑化图像识别和模型训练方法与装置
KR20200140543A (ko) 빅데이터 분석에 의한 개인 맞춤형 한국어 학습 콘텐츠를 제공하는 콘텐츠 큐레이션 시스템
CN114387118B (zh) 一种基于粒球计算的人物社交网络主题识别方法及***
CN113705186B (zh) 一种留言语义分析下的自动回复方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200911