CN113158082B - 一种基于人工智能的媒体内容真实度分析方法 - Google Patents
一种基于人工智能的媒体内容真实度分析方法 Download PDFInfo
- Publication number
- CN113158082B CN113158082B CN202110523827.0A CN202110523827A CN113158082B CN 113158082 B CN113158082 B CN 113158082B CN 202110523827 A CN202110523827 A CN 202110523827A CN 113158082 B CN113158082 B CN 113158082B
- Authority
- CN
- China
- Prior art keywords
- content
- social
- comment
- feature
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000004458 analytical method Methods 0.000 title claims abstract description 9
- 230000008451 emotion Effects 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 21
- 239000002131 composite material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 238000013144 data compression Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于人工智能的媒体内容真实度分析方法,包括:根据每个社交用户发表的评论内容获取每个社交用户的第一评论信息和第二评论信息;基于所述第一评论信息确定每个社交用户之间的元素集合的元素交集,基于所述第二评论信息确定每个社交用户之间的情感相似度,基于上述数据得到每个社交用户之间的评论相关度,并为不同社交用户构建相应的关联拓扑图,基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并验证所述焦点内容是否为虚假新闻内容。
Description
技术领域
本发明涉及人工智能和媒体内容分析领域,尤其涉及一种基于人工智能的媒体内容真实度分析方法。
背景技术
AI(Artificial Intelligence,人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
随着互联网社交平台的迅速崛起,极大提升了网络信息传播的效率,传播途径的便捷助长了虚假新闻的生成和传播。假新闻不仅会使媒体的可信度减弱,还会造成不良的社会影响与经济损失,引起社会秩序的混乱,影响人们的正常生活。传统虚假新闻的识别主要依赖用户的自发举报及工作人员的人工审核,需耗费大量人力,且此类监控手段具有较强的滞后性,通常举报上来的虚假信息已传播一段时间,并已造成一定的影响,识别效率不高。
发明内容
此外,由于新闻中包含大量的内容,常用的人工智能识别方法则通过抽取整条文章序列对新闻进行虚假识别,难以聚焦假新闻有问题的部分,增加了虚假新闻识别的复杂度以及识别时提取的数据量。
针对前述问题,本发明提供了一种基于人工智能的媒体内容真实度分析方法,包括:
对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构;
利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向;
基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定;
基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容。
根据一个优选实施方式,所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括超链接、图片和符号元素;
基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息。
根据一个优选实施方式,所述元素类型包括人名、地名、机构名、组织名和时间。
所述先验附加特征词分为前缀特征词和后缀特征词,所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词。
根据一个优选实施方式,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
根据一个优选实施方式,所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
根据一个优选实施方式,所述基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
根据一个优选实施方式,所述多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。
根据一个优选实施方式,所述关联评论特征的计算公式包括:
其中,T(ui)为社交用户ui与社交用户uj之间的关联评论特征,Q(ui,uj)为社交用户ui与社交用户uj之间边的权重值,T(uj)为一个预设的随机初始值,nb(ui)为与ui存在关联关系的相邻社交用户,nb(uj)为与uj存在关联关系的相邻社交用户,Q(uj,uk)为社交用户uj与社交用户uk之间边的权重值,d为设置的阻尼系数。
根据一个优选实施方式,所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括:
对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征,并将所述焦点内容的文本内容和文本语言特征输入至验证模型中,其中,所述文本语言特征包括文本长度、特殊符号、语气词和文本链接;
利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征;
利用验证模型的第二卷积层对所述文本语言特征进行归一化操作,其中,具有参数线性整流函数PReLU作为激活函数;
利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合;
利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作,并对输出后的连接向量进行压平操作以将所述连接向量一维化,并将一维化后的连接向量输入到分类器中得到最终的分类结果。
本发明具有以下有益效果:
本发明提供的基于人工智能的媒体内容真实度分析方法通过对新闻内容下的不同用户发表的评论进行分析,识别不同用户共同关注的新闻焦点,并通过人工智能自动验证新闻焦点内容的真伪性,降低虚假新闻识别的复杂度,能够从海量新闻数据中快速的识别出虚假新闻,相较于传统识别方式中抽取新闻内容的整条文章序列进行识别,大幅减少识别虚假新闻时提取的数据量。
附图说明
图1为本发明的基于人工智能的媒体内容真实度分析方法的流程图。
具体实施方式
本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
如图1所示,本发明的基于人工智能的媒体内容真实度分析方法可以包括:
S1、对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构。
具体地,所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括超链接、图片和符号元素;
基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息,其中,所述元素集合中包括多个同一元素类型的关键词。
可选地,多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。
可选地,先验附加特征词分为前缀特征词和后缀特征词,所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词,其包括省、市和街等;用于对机构进行识别的先验机构附加特征词,其包括厂、公司、医院和大学等。所述常用关键词包括公共数据库中记录的人名、地名、机构名和组织名。
元素类型包括人名、地名、机构名、组织名和时间;所述观察窗口用于指示初始特征模板选取的字符长度。
可选地,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
可选地,在进行地名关键词识别时,所述尾部先验特征字词可以是省、市、街等,所述首部先验特征字词可以是“在、位于”等;在进行机构关键词识别时,所述尾部先验特征字词可以是厂、公司、医院和大学,所述首部先验特征字词可以是“关心、领导、承担”等。
S2、利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向。
可选地,情感词典为网络中公开的情感词典,例如知网(HowNet)情感词典以及台湾大学简体中文情感词典。
S3、基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定。
具体地,所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
可选地,所述基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度包括:
其中,P(vi,vj)表示社交用户之间的焦点相似度,i与j均为评论内容的数据索引,e(vi∩vj)表示评论内容vi和评论内容vj的交集元素,e(vi)表示评论内容vi中的关键词个数,e(vj)表示评论内容vj中的关键词个数。
S4、基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容。
可选地,所述焦点内容即为新闻内容中存在问题和争议的部分。
具体地,所述基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征,其中,所述预设时刻一般设置为最后时刻;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
可选地,所述预设阈值为***预先设置的用于判断每个社交用户之间评论相关度大小的数值。
可选地,所述关联评论特征的计算公式包括:
其中,T(ui)为社交用户ui与社交用户uj之间的关联评论特征,i、j与k均为社交用户的数据索引,Q(ui,uj)为社交用户ui与社交用户uj之间边的权重值,T(uj)为一个预设的随机初始值,nb(ui)为与ui存在关联关系的相邻社交用户,nb(uj)为与uj存在关联关系的相邻社交用户,Q(uj,uk)为社交用户uj与社交用户uk之间边的权重值,d为设置的阻尼系数。
具体地,所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括:
对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征,并将所述焦点内容的文本内容和文本语言特征输入至验证模型中,其中,所述文本语言特征包括文本长度、特殊符号、语气词和文本链接;
利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征;
利用验证模型的第二卷积层对所述文本语言特征进行归一化操作,其中,具有参数线性整流函数PReLU作为激活函数;
利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合;
利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作,并对输出后的连接向量进行压平操作以将所述连接向量一维化,并将一维化后的连接向量输入到分类器中得到最终的分类结果,其中,所述分类结果用于表征对应焦点内容的真伪性。
在另一个实施例中,还包括:在识别所述焦点内容为虚假新闻内容时,对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力,其中,所述用户影响力用于表征所述媒体用户的权威度和知名度;
根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级,基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。
具体地,所述根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括:
基于所述虚假新闻内容在不同媒体平台中的转发数据和浏览数据对所述虚假新闻内容的实际影响范围进行分析以得到所述虚假新闻内容在当前时刻下的实时传播范围和实时传播速度;
从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户,并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络,然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率,其中,所述历史交互数据包括相关社交用户对目标社交用户转发和发表的所有新闻内容的转发量;
基于相关社交用户的转发概率对所述新闻传播网络在未来时间段的传播状态进行预测以得到所述虚假新闻内容的预测传播范围和预测传播速度,基于所述虚假新闻内容的实时传播范围、实时传播速度、预测传播范围和预测传播速度对所述虚假新闻内容的影响力进行评级。
可选地,相关社交用户对虚假新闻内容转发概率的计算公式为:
其中,R(ui,n)为社交用户ui对所述虚假新闻内容n的转发概率,i与j均为社交用户的数据索引,Ui为社交用户ui的关系列表中已转发所述虚假新闻内容的用户集合,R(ui,uj)为社交用户ui对社交用户uj发表或转发的新闻内容的转发概率,由社交用户ui与对社交用户uj之间的历史交互数据分析所得。
可选地,所述管理方式包括口头警告、依法撤销和账号封禁。所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。
可选地,当所述虚假新闻内容的影响力评价为初级时,对发布所述虚假新闻内容的媒体用户进行口头警告;当所述虚假新闻内容的影响力评价为中级时,勒令发布所述虚假新闻内容的媒体用户对虚假新闻进行撤销;当所述虚假新闻内容的影响力评价为高级时,对发布所述虚假新闻内容的媒体用户进行封禁。
本发明提供的基于人工智能的媒体内容真实度分析方法通过对新闻内容下的不同用户发表的评论进行分析,识别不同用户共同关注的新闻焦点,并通过人工智能自动验证新闻焦点内容的真伪性,降低虚假新闻识别的复杂度,能够从海量新闻数据中快速的识别出虚假新闻,相较于传统识别方式中抽取新闻内容的整条文章序列进行识别,大幅减少识别虚假新闻时提取的数据量。
本发明对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得台终端设备执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAMD、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (9)
1.一种基于人工智能的媒体内容真实度分析方法,其特征在于,所述方法包括:
对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构;
利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向;
基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定;
基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容;
基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征;
基于关联评论特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
2.根据权利要求1所述的方法,其特征在于,所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括超链接、图片和符号元素;
基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息。
3.根据权利要求2所述的方法,其特征在于,所述元素类型包括人名、地名、机构名、组织名和时间。
4.根据权利要求3所述的方法,其特征在于,所述先验附加特征词分为前缀特征词和后缀特征词,所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词。
5.根据权利要求4所述的方法,其特征在于,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;
根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
6.根据权利要求5所述的方法,其特征在于,所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
7.根据权利要求6所述的方法,其特征在于,所述多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。
9.根据权利要求8所述的方法,其特征在于,所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括:
对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征,并将所述焦点内容的文本内容和文本语言特征输入至验证模型中,其中,所述文本语言特征包括文本长度、特殊符号、语气词和文本链接;
利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征;
利用验证模型的第二卷积层对所述文本语言特征进行归一化操作,其中,具有参数线性整流函数PReLU作为激活函数;
利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合;
利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作,并对输出后的连接向量进行压平操作以将所述连接向量一维化,并将一维化后的连接向量输入到分类器中得到最终的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523827.0A CN113158082B (zh) | 2021-05-13 | 2021-05-13 | 一种基于人工智能的媒体内容真实度分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523827.0A CN113158082B (zh) | 2021-05-13 | 2021-05-13 | 一种基于人工智能的媒体内容真实度分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158082A CN113158082A (zh) | 2021-07-23 |
CN113158082B true CN113158082B (zh) | 2023-01-17 |
Family
ID=76874954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110523827.0A Active CN113158082B (zh) | 2021-05-13 | 2021-05-13 | 一种基于人工智能的媒体内容真实度分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158082B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110081A (zh) * | 2007-08-21 | 2008-01-23 | 北京大学 | 一种文本上下文中实体地址信息的提取方法 |
WO2011019749A2 (en) * | 2009-08-12 | 2011-02-17 | Google Inc. | Presenting comments from various sources |
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和*** |
CN102236650A (zh) * | 2010-04-20 | 2011-11-09 | 日电(中国)有限公司 | 用于修正和/或扩展情感词典的方法和装置 |
CN102880600A (zh) * | 2012-08-30 | 2013-01-16 | 北京航空航天大学 | 基于通用知识网络的词语语义倾向性预测方法 |
CN106295702A (zh) * | 2016-08-15 | 2017-01-04 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN107341270A (zh) * | 2017-07-28 | 2017-11-10 | 东北大学 | 面向社交平台的用户情感影响力分析方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN108197332A (zh) * | 2018-02-13 | 2018-06-22 | 黑龙江大学 | 社会网中基于主题兴趣的影响最大化方法 |
CN111639252A (zh) * | 2020-05-18 | 2020-09-08 | 华中科技大学 | 一种基于新闻-评论关联性分析的虚假新闻识别方法 |
CN111898038A (zh) * | 2020-07-04 | 2020-11-06 | 西北工业大学 | 一种基于人机协作的社交媒体假新闻检测方法 |
CN111950273A (zh) * | 2020-07-31 | 2020-11-17 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112699662A (zh) * | 2020-12-31 | 2021-04-23 | 太原理工大学 | 一种基于文本结构算法的虚假信息早期检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8966593B2 (en) * | 2013-03-14 | 2015-02-24 | International Business Machines Corporation | Delivering author specific content |
CN104572807B (zh) * | 2014-10-29 | 2018-02-06 | 中国科学院计算技术研究所 | 一种基于微博信息源的新闻认证方法及*** |
CN107357889B (zh) * | 2017-07-11 | 2020-07-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
CN107544961A (zh) * | 2017-08-29 | 2018-01-05 | 中国地质大学(武汉) | 一种社交媒体评论的情感分析方法、设备及其存储设备 |
CN109345272A (zh) * | 2018-11-28 | 2019-02-15 | 中国计量大学 | 一种基于改进马尔科夫链的店铺信用风险预测方法 |
CN110807091B (zh) * | 2019-03-01 | 2023-08-18 | 王涵 | 一种酒店智能问答推荐与决策支持分析方法及*** |
-
2021
- 2021-05-13 CN CN202110523827.0A patent/CN113158082B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110081A (zh) * | 2007-08-21 | 2008-01-23 | 北京大学 | 一种文本上下文中实体地址信息的提取方法 |
WO2011019749A2 (en) * | 2009-08-12 | 2011-02-17 | Google Inc. | Presenting comments from various sources |
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和*** |
CN102236650A (zh) * | 2010-04-20 | 2011-11-09 | 日电(中国)有限公司 | 用于修正和/或扩展情感词典的方法和装置 |
CN102880600A (zh) * | 2012-08-30 | 2013-01-16 | 北京航空航天大学 | 基于通用知识网络的词语语义倾向性预测方法 |
CN106295702A (zh) * | 2016-08-15 | 2017-01-04 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN107341270A (zh) * | 2017-07-28 | 2017-11-10 | 东北大学 | 面向社交平台的用户情感影响力分析方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN108197332A (zh) * | 2018-02-13 | 2018-06-22 | 黑龙江大学 | 社会网中基于主题兴趣的影响最大化方法 |
CN111639252A (zh) * | 2020-05-18 | 2020-09-08 | 华中科技大学 | 一种基于新闻-评论关联性分析的虚假新闻识别方法 |
CN111898038A (zh) * | 2020-07-04 | 2020-11-06 | 西北工业大学 | 一种基于人机协作的社交媒体假新闻检测方法 |
CN111950273A (zh) * | 2020-07-31 | 2020-11-17 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112699662A (zh) * | 2020-12-31 | 2021-04-23 | 太原理工大学 | 一种基于文本结构算法的虚假信息早期检测方法 |
Non-Patent Citations (3)
Title |
---|
基于用户偏好和信任度的移动社交网络社区聚类模型;张继东等;《情报杂志》;20180709(第10期);第178-186页 * |
基于用户情感倾向的意见领袖发现算法研究;汪洋等;《软件导刊》;20180717(第09期);第99-104页 * |
网络舆论环境下公民媒介素养研究;蔡梦虹;《新媒体与社会》;20171231(第04期);第116-144页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158082A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820629B (zh) | 一种智能的舆情突发事件应急处理***及方法 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN108595525B (zh) | 一种律师信息处理方法和*** | |
CN111950285A (zh) | 多模态数据融合的医疗知识图谱智能自动构建***和方法 | |
CN108681548B (zh) | 一种律师信息处理方法和*** | |
CN108614855A (zh) | 一种谣言识别方法 | |
CN112464656A (zh) | 关键词抽取方法、装置、电子设备和存储介质 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN107679075B (zh) | 网络监控方法和设备 | |
CN110543590A (zh) | 一种微博突发事件的检测方法 | |
CN113312478A (zh) | 基于阅读理解的观点挖掘方法及装置 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成***及生成方法 | |
CN111274494B (zh) | 结合深度学习和协同过滤技术的复合标签推荐方法 | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成***及其方法 | |
CN117009524A (zh) | 一种基于舆情情感分析的互联网大数据分析方法及*** | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN117251685B (zh) | 一种基于知识图谱的标准化政务数据构建方法和装置 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理*** | |
CN113158082B (zh) | 一种基于人工智能的媒体内容真实度分析方法 | |
CN115630357A (zh) | 一种应用程序越界收集个人信息行为的判定方法 | |
CN115660695A (zh) | 客服人员标签画像构建方法、装置、电子设备及存储介质 | |
CN112668284B (zh) | 一种法律文书分段方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230104 Address after: Room 350, New Building, No. 291, Wenshui East Road, Hongkou District, Shanghai 200080 Applicant after: Hehongguang Technology (Shanghai) Co.,Ltd. Address before: 610200 Meide science and Technology Park, IOT 3rd road, Shuangliu District, Chengdu City, Sichuan Province Applicant before: Nie Jiaoying |
|
GR01 | Patent grant | ||
GR01 | Patent grant |