CN111651565A - 一种社交媒体平台虚假信息识别*** - Google Patents
一种社交媒体平台虚假信息识别*** Download PDFInfo
- Publication number
- CN111651565A CN111651565A CN202010609485.XA CN202010609485A CN111651565A CN 111651565 A CN111651565 A CN 111651565A CN 202010609485 A CN202010609485 A CN 202010609485A CN 111651565 A CN111651565 A CN 111651565A
- Authority
- CN
- China
- Prior art keywords
- information
- media platform
- social media
- false information
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种社交媒体平台虚假信息识别***,涉及虚假信息识别技术领域,包括采集模块和识别模块,所述采集模块采集社交媒体平台特征信息并传输至所述识别模块,所述识别模块进行对社交媒体平台特征信息进行识别并确定虚假信息输出,所述识别模块包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析。本发明社交媒体平台虚假信息识别***,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。
Description
技术领域
本发明涉及虚假信息识别技术领域,具体来说,涉及一种社交媒体平台虚假信息识别***。
背景技术
社交媒体平台给我们工作和日常生活带来方便的同时,也产生了很多负面问题,特别是谣言和虚假信息众多,而且通过社交媒体平台,新鲜的消息不再以口耳相传的方式进行传播,通过网络传播的成本大大降低,很多媒体为了造成高影响力而雇佣水军进行转发,这样的转发不仅没有质量,而且容易造成误导,给人们生活带来严重的困扰。因此,对社交媒体平台的虚假信息进行准确快速的识别是非常必要的。
目前识别社交媒体平台虚假信息的方法大都采用统计学***台的全局信息进行虚假识别,这样当数据规模比较大的时候,其识别速度非常慢,也很难满足实时性的要求。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种社交媒体平台虚假信息识别***,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种社交媒体平台虚假信息识别***,包括采集模块和识别模块,其中,所述采集模块采集社交媒体平台特征信息并传输至所述识别模块,所述识别模块进行对社交媒体平台特征信息进行识别并确定虚假信息输出,其中;所述识别模块包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析,其中;
所述词水平语义情感分析,包括:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
所述句子水平语义情感分析,包括:
每条评论中的句子数量为s个,表示为:
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
其中,v是包含了评论中所有信息的向量。
进一步的,所述识别模块进一步包括虚假信息分析单元和推荐单元。
进一步的,所述虚假信息分析单元,包括获取媒体平台信息otui和标记虚假信息rui,过滤恶意虚假信息,并确定dui作为恶意虚假信息交互行为指示符,表示如下:
{dui|dui=1,|otui―rui|≥α;dui=0,|otui―rui∣<α};
其中,标定恶意虚假信息交互行为指示符dui构建用户项目交互指示矩阵Rin,Rin∈Rm*n;
指示符dui,恶意虚假信息用户集合us的计算函数,表示为:
进一步的,所述推荐单元包括将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;获取计算评论意见水平ot,表示为:
ot=F(softmax(Wvv+bv))。
进一步的,所述采集模块包括数据信息采集单元、音频信息采集单元和图像信息采集单元,其中,
所述数据信息采集单元,用于社交媒体平台数据信息进行采集;
所述音频信息采集单元,用于社交媒体平台音频信息进行采集;
所述图像信息采集单元,用于社交媒体平台图像信息进行采集。
本发明的有益效果:
本发明社交媒体平台虚假信息识别***,通过采集模块采集社交媒体平台特征信息并传输至所述识别模块,而识别模块进行对社交媒体平台特征信息进行识别并确定虚假信息输出,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种社交媒体平台虚假信息识别***的原理框图;
图2是根据本发明实施例的一种社交媒体平台虚假信息识别***的识别模块模型示意图。
图中:
1、采集模块;2、识别模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种社交媒体平台虚假信息识别***。
如图1-图2所示,根据本发明实施例的社交媒体平台虚假信息识别***,包括采集模块1和识别模块2,其中,所述采集模块1采集社交媒体平台特征信息并传输至所述识别模块2,所述识别模块2进行对社交媒体平台特征信息进行识别并确定虚假信息输出,其中;所述识别模块2包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析,其中;
所述词水平语义情感分析,包括:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
所述句子水平语义情感分析,包括:
每条评论中的句子数量为s个,表示为:
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
其中,v是包含了评论中所有信息的向量。
借助于上述方案,通过采集模块1采集社交媒体平台特征信息并传输至所述识别模块2,而识别模块2进行对社交媒体平台特征信息进行识别并确定虚假信息输出,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。
其中,所述识别模块2进一步包括虚假信息分析单元和推荐单元。
其中,所述虚假信息分析单元,包括获取媒体平台信息otui和标记虚假信息rui,过滤恶意虚假信息,并确定dui作为恶意虚假信息交互行为指示符,表示如下:
{dui|dui=1,∣otui―rui∣≥α;dui=0,∣otui―rui∣<α};
其中,标定恶意虚假信息交互行为指示符dui构建用户项目交互指示矩阵Rin,Rin∈Rm*n;
指示符dui,恶意虚假信息用户集合us的计算函数,表示为:
其中,所述推荐单元包括将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;获取计算评论意见水平ot,表示为:
ot=F(softmax(Wvv+bv))。
其中,所述采集模块1包括数据信息采集单元、音频信息采集单元和图像信息采集单元,其中,
所述数据信息采集单元,用于社交媒体平台数据信息进行采集;
所述音频信息采集单元,用于社交媒体平台音频信息进行采集;
所述图像信息采集单元,用于社交媒体平台图像信息进行采集。
另外,采集模块1,以社交媒体平台中的无标签数据为输入,利用Word2vec词嵌套技术映射成长度为u的一维输入向量,然后输入到去噪自编码器(DAE,DenoisingAutoEncoder)中实现无标签数据的特征提取。在去噪自编码器中,我们随机产生长度为u的一维随机噪声向量,该噪声向量的各分量取值只能为0或1,并将它与一维输入向量做位与操作得到一个新的带噪声的一维向量。
综上所述,借助于本发明的上述技术方案,通过采集模块1采集社交媒体平台特征信息并传输至所述识别模块2,而识别模块2进行对社交媒体平台特征信息进行识别并确定虚假信息输出,通过对输入特征信息进行定义词水平语义情感分析和句子水平语义情感分析,实现虚假信息检测识别并过滤,提高虚假信息识别的准确度和提高虚假信息识别的泛化能力,应用范围广。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种社交媒体平台虚假信息识别***,其特征在于,包括采集模块(1)和识别模块(2),其中,所述采集模块(1)采集社交媒体平台特征信息并传输至所述识别模块(2),所述识别模块(2)进行对社交媒体平台特征信息进行识别并确定虚假信息输出,其中;所述识别模块(2)包括虚假信息检测单元,所述虚假信息检测单元包括词水平语义情感分析和句子水平语义情感分析,其中;
所述词水平语义情感分析,包括:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
所述句子水平语义情感分析,包括:
每条评论中的句子数量为s个,表示为:
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
其中,v是包含了评论中所有信息的向量。
2.根据权利要求1所述的社交媒体平台虚假信息识别***,其特征在于,所述识别模块(2)进一步包括虚假信息分析单元和推荐单元。
4.根据权利要求3所述的社交媒体平台虚假信息识别***,其特征在于,所述推荐单元包括将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;获取计算评论意见水平ot,表示为:
ot=F(softmax(Wvv+bv))。
5.根据权利要求1所述的社交媒体平台虚假信息识别***,其特征在于,所述采集模块(1)包括数据信息采集单元、音频信息采集单元和图像信息采集单元,其中,
所述数据信息采集单元,用于社交媒体平台数据信息进行采集;
所述音频信息采集单元,用于社交媒体平台音频信息进行采集;
所述图像信息采集单元,用于社交媒体平台图像信息进行采集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010609485.XA CN111651565A (zh) | 2020-06-29 | 2020-06-29 | 一种社交媒体平台虚假信息识别*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010609485.XA CN111651565A (zh) | 2020-06-29 | 2020-06-29 | 一种社交媒体平台虚假信息识别*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111651565A true CN111651565A (zh) | 2020-09-11 |
Family
ID=72347565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010609485.XA Withdrawn CN111651565A (zh) | 2020-06-29 | 2020-06-29 | 一种社交媒体平台虚假信息识别*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651565A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177164A (zh) * | 2021-05-13 | 2021-07-27 | 聂佼颖 | 基于大数据的多平台协同新媒体内容监控管理*** |
-
2020
- 2020-06-29 CN CN202010609485.XA patent/CN111651565A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177164A (zh) * | 2021-05-13 | 2021-07-27 | 聂佼颖 | 基于大数据的多平台协同新媒体内容监控管理*** |
CN113177164B (zh) * | 2021-05-13 | 2022-12-09 | 深圳市欣易辰信息科技有限公司 | 基于大数据的多平台协同新媒体内容监控管理*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102629904B (zh) | 一种网络水军的探测与判定方法 | |
CN107491435B (zh) | 基于计算机自动识别用户情感的方法及装置 | |
CN108052505A (zh) | 文本情感分析方法及装置、存储介质、终端 | |
CN109325860A (zh) | 用于海外投资风险预警的网络舆情检测方法及*** | |
CN113220533B (zh) | 一种网络舆情监控方法及*** | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN112434194A (zh) | 基于知识图谱的相似用户识别方法、装置、设备及介质 | |
CN116663664A (zh) | 一种基于nlp算法的客户营销场景数据分析***及方法 | |
CN112308148A (zh) | 缺陷类别识别、孪生神经网络训练方法、装置及存储介质 | |
CN111651565A (zh) | 一种社交媒体平台虚假信息识别*** | |
CN108399238A (zh) | 一种融合文本概念化和网络表示的观点检索***及方法 | |
CN117576632B (zh) | 基于多模态ai大模型的电网监控火灾预警***及方法 | |
CN110689447A (zh) | 一种基于深度学习的社交软件用户发布内容的实时检测方法 | |
WO2021128721A1 (zh) | 文本分类处理方法和装置 | |
CN113642867A (zh) | 评估风险的方法及*** | |
CN110674288A (zh) | 一种应用于网络安全领域的用户画像方法 | |
CN117216264A (zh) | 一种基于bert算法的机床设备故障分析方法和*** | |
CN117113973A (zh) | 一种信息处理方法及相关装置 | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN113627498B (zh) | 人物丑化图像识别和模型训练方法与装置 | |
KR20200140543A (ko) | 빅데이터 분석에 의한 개인 맞춤형 한국어 학습 콘텐츠를 제공하는 콘텐츠 큐레이션 시스템 | |
CN114387118B (zh) | 一种基于粒球计算的人物社交网络主题识别方法及*** | |
CN113705186B (zh) | 一种留言语义分析下的自动回复方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200911 |