CN113158082B

CN113158082B - 一种基于人工智能的媒体内容真实度分析方法

Info

Publication number: CN113158082B
Application number: CN202110523827.0A
Authority: CN
Inventors: 聂佼颖
Original assignee: Hehongguang Technology Shanghai Co ltd
Current assignee: Hehongguang Technology Shanghai Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2023-01-17
Anticipated expiration: 2041-05-13
Also published as: CN113158082A

Abstract

本发明涉及一种基于人工智能的媒体内容真实度分析方法，包括：根据每个社交用户发表的评论内容获取每个社交用户的第一评论信息和第二评论信息；基于所述第一评论信息确定每个社交用户之间的元素集合的元素交集，基于所述第二评论信息确定每个社交用户之间的情感相似度，基于上述数据得到每个社交用户之间的评论相关度，并为不同社交用户构建相应的关联拓扑图，基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容，并验证所述焦点内容是否为虚假新闻内容。

Description

一种基于人工智能的媒体内容真实度分析方法

技术领域

本发明涉及人工智能和媒体内容分析领域，尤其涉及一种基于人工智能的媒体内容真实度分析方法。

背景技术

AI(Artificial Intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

随着互联网社交平台的迅速崛起，极大提升了网络信息传播的效率，传播途径的便捷助长了虚假新闻的生成和传播。假新闻不仅会使媒体的可信度减弱，还会造成不良的社会影响与经济损失，引起社会秩序的混乱，影响人们的正常生活。传统虚假新闻的识别主要依赖用户的自发举报及工作人员的人工审核，需耗费大量人力，且此类监控手段具有较强的滞后性，通常举报上来的虚假信息已传播一段时间，并已造成一定的影响，识别效率不高。

发明内容

此外，由于新闻中包含大量的内容，常用的人工智能识别方法则通过抽取整条文章序列对新闻进行虚假识别，难以聚焦假新闻有问题的部分，增加了虚假新闻识别的复杂度以及识别时提取的数据量。

针对前述问题，本发明提供了一种基于人工智能的媒体内容真实度分析方法，包括：

对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息，并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集，其中，所述第一评论信息包括多个元素集合，所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构；

利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息，并从每个社交用户的第二评论信息中提取对应社交用户的情感特征，其中，所述第二评论信息包括多个情感元素词，所述情感元素词用于表征每个社交用户的情感倾向；

基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度，并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图，其中，所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定；

基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容，并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容。

根据一个优选实施方式，所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括：

对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息，对处理后的评论内容进行分词以得到若干分词词汇，其中，所述无用信息包括超链接、图片和符号元素；

基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板，根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选；所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界，并判断当前词汇的附加特征词是否与先验附加特征词相同；若相同，根据常用关键词判断当前词汇是否为关键词；

对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息，构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板，利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正；

获取修正后的每个关键词的元素类型，以为相同元素类型的关键词生成相应的元素集合，并对所有元素集合进行排序以得到社交用户的第一评论信息。

根据一个优选实施方式，所述元素类型包括人名、地名、机构名、组织名和时间。

所述先验附加特征词分为前缀特征词和后缀特征词，所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词。

根据一个优选实施方式，更新后的匹配规则包括：将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界，将复合特征模板中的首部先验特征字词作为关键词识别的首部边界；根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合，根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。

根据一个优选实施方式，所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括：

基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度，并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。

根据一个优选实施方式，所述基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括：

获取关联拓扑图中每个社交用户之间边的权重值，并将所述权重值与预设阈值进行比较；在所述权重值小于预设阈值时，将所述权重值对应的边从关联拓扑图中删除；

获取与对应社交用户存在关联关系的所有相邻社交用户，对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征，其中，所述关联关系用于表征对应社交用户之间存在边；

获取对应评论内容包含的每个词汇的词向量，并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列，将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征；

基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。

根据一个优选实施方式，所述多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。

根据一个优选实施方式，所述关联评论特征的计算公式包括：

其中，T(u_i)为社交用户u_i与社交用户u_j之间的关联评论特征，Q(u_i,u_j)为社交用户u_i与社交用户u_j之间边的权重值，T(u_j)为一个预设的随机初始值，nb(u_i)为与u_i存在关联关系的相邻社交用户，nb(u_j)为与u_j存在关联关系的相邻社交用户，Q(u_j,u_k)为社交用户u_j与社交用户u_k之间边的权重值，d为设置的阻尼系数。

根据一个优选实施方式，所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括：

对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征，并将所述焦点内容的文本内容和文本语言特征输入至验证模型中，其中，所述文本语言特征包括文本长度、特殊符号、语气词和文本链接；

利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征；

利用验证模型的第二卷积层对所述文本语言特征进行归一化操作，其中，具有参数线性整流函数PReLU作为激活函数；

利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合；

利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作，并对输出后的连接向量进行压平操作以将所述连接向量一维化，并将一维化后的连接向量输入到分类器中得到最终的分类结果。

本发明具有以下有益效果：

本发明提供的基于人工智能的媒体内容真实度分析方法通过对新闻内容下的不同用户发表的评论进行分析，识别不同用户共同关注的新闻焦点，并通过人工智能自动验证新闻焦点内容的真伪性，降低虚假新闻识别的复杂度，能够从海量新闻数据中快速的识别出虚假新闻，相较于传统识别方式中抽取新闻内容的整条文章序列进行识别，大幅减少识别虚假新闻时提取的数据量。

附图说明

图1为本发明的基于人工智能的媒体内容真实度分析方法的流程图。

具体实施方式

本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

如图1所示，本发明的基于人工智能的媒体内容真实度分析方法可以包括：

S1、对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息，并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集，其中，所述第一评论信息包括多个元素集合，所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构。

具体地，所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括：

获取修正后的每个关键词的元素类型，以为相同元素类型的关键词生成相应的元素集合，并对所有元素集合进行排序以得到社交用户的第一评论信息，其中，所述元素集合中包括多个同一元素类型的关键词。

可选地，多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。

可选地，先验附加特征词分为前缀特征词和后缀特征词，所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词，其包括省、市和街等；用于对机构进行识别的先验机构附加特征词，其包括厂、公司、医院和大学等。所述常用关键词包括公共数据库中记录的人名、地名、机构名和组织名。

元素类型包括人名、地名、机构名、组织名和时间；所述观察窗口用于指示初始特征模板选取的字符长度。

可选地，更新后的匹配规则包括：将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界，将复合特征模板中的首部先验特征字词作为关键词识别的首部边界；根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合，根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。

可选地，在进行地名关键词识别时，所述尾部先验特征字词可以是省、市、街等，所述首部先验特征字词可以是“在、位于”等；在进行机构关键词识别时，所述尾部先验特征字词可以是厂、公司、医院和大学，所述首部先验特征字词可以是“关心、领导、承担”等。

S2、利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息，并从每个社交用户的第二评论信息中提取对应社交用户的情感特征，其中，所述第二评论信息包括多个情感元素词，所述情感元素词用于表征每个社交用户的情感倾向。

可选地，情感词典为网络中公开的情感词典，例如知网(HowNet)情感词典以及台湾大学简体中文情感词典。

S3、基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度，并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图，其中，所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定。

具体地，所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括：

可选地，所述基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度包括：

其中，P(v_i,v_j)表示社交用户之间的焦点相似度，i与j均为评论内容的数据索引，e(v_i∩v_j)表示评论内容v_i和评论内容v_j的交集元素，e(v_i)表示评论内容v_i中的关键词个数，e(v_j)表示评论内容v_j中的关键词个数。

S4、基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容，并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容。

可选地，所述焦点内容即为新闻内容中存在问题和争议的部分。

具体地，所述基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括：

获取对应评论内容包含的每个词汇的词向量，并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列，将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征，其中，所述预设时刻一般设置为最后时刻；

可选地，所述预设阈值为***预先设置的用于判断每个社交用户之间评论相关度大小的数值。

可选地，所述关联评论特征的计算公式包括：

其中，T(u_i)为社交用户u_i与社交用户u_j之间的关联评论特征，i、j与k均为社交用户的数据索引，Q(u_i,u_j)为社交用户u_i与社交用户u_j之间边的权重值，T(u_j)为一个预设的随机初始值，nb(u_i)为与u_i存在关联关系的相邻社交用户，nb(u_j)为与u_j存在关联关系的相邻社交用户，Q(u_j,u_k)为社交用户u_j与社交用户u_k之间边的权重值，d为设置的阻尼系数。

具体地，所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括：

利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作，并对输出后的连接向量进行压平操作以将所述连接向量一维化，并将一维化后的连接向量输入到分类器中得到最终的分类结果，其中，所述分类结果用于表征对应焦点内容的真伪性。

在另一个实施例中，还包括：在识别所述焦点内容为虚假新闻内容时，对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力，其中，所述用户影响力用于表征所述媒体用户的权威度和知名度；

根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级，基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。

具体地，所述根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括：

基于所述虚假新闻内容在不同媒体平台中的转发数据和浏览数据对所述虚假新闻内容的实际影响范围进行分析以得到所述虚假新闻内容在当前时刻下的实时传播范围和实时传播速度；

从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户，并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络，然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率，其中，所述历史交互数据包括相关社交用户对目标社交用户转发和发表的所有新闻内容的转发量；

基于相关社交用户的转发概率对所述新闻传播网络在未来时间段的传播状态进行预测以得到所述虚假新闻内容的预测传播范围和预测传播速度，基于所述虚假新闻内容的实时传播范围、实时传播速度、预测传播范围和预测传播速度对所述虚假新闻内容的影响力进行评级。

可选地，相关社交用户对虚假新闻内容转发概率的计算公式为：

其中，R(u_i,n)为社交用户u_i对所述虚假新闻内容n的转发概率，i与j均为社交用户的数据索引，U_i为社交用户u_i的关系列表中已转发所述虚假新闻内容的用户集合，R(u_i,u_j)为社交用户u_i对社交用户u_j发表或转发的新闻内容的转发概率，由社交用户u_i与对社交用户u_j之间的历史交互数据分析所得。

可选地，所述管理方式包括口头警告、依法撤销和账号封禁。所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。

可选地，当所述虚假新闻内容的影响力评价为初级时，对发布所述虚假新闻内容的媒体用户进行口头警告；当所述虚假新闻内容的影响力评价为中级时，勒令发布所述虚假新闻内容的媒体用户对虚假新闻进行撤销；当所述虚假新闻内容的影响力评价为高级时，对发布所述虚假新闻内容的媒体用户进行封禁。

本发明对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得台终端设备执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAMD、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于人工智能的媒体内容真实度分析方法，其特征在于，所述方法包括：

基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容，并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容；

基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括：

基于关联评论特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。

2.根据权利要求1所述的方法，其特征在于，所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括：

3.根据权利要求2所述的方法，其特征在于，所述元素类型包括人名、地名、机构名、组织名和时间。

4.根据权利要求3所述的方法，其特征在于，所述先验附加特征词分为前缀特征词和后缀特征词，所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词。

5.根据权利要求4所述的方法，其特征在于，更新后的匹配规则包括：将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界，将复合特征模板中的首部先验特征字词作为关键词识别的首部边界；

根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合，根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。

6.根据权利要求5所述的方法，其特征在于，所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括：

7.根据权利要求6所述的方法，其特征在于，所述多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。

8.根据权利要求7所述的方法，其特征在于，所述关联评论特征的计算公式为：

9.根据权利要求8所述的方法，其特征在于，所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括：