CN105447036B

CN105447036B - 一种基于观点挖掘的社交媒体信息可信度评估方法及装置

Info

Publication number: CN105447036B
Application number: CN201410436605.5A
Authority: CN
Inventors: 尚利峰; 李斌阳; 黄锦辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2019-08-16
Anticipated expiration: 2034-08-29
Also published as: CN105447036A

Abstract

本发明实施例公开了一种基于观点挖掘的社交媒体信息可信度评估方法及装置，方法包括：获取待评估信息；计算每条待评估信息的不确定性得分；计算每条待评估信息的发布者的可信度；统计每条待评估信息的评论中支持意见所占的比例；将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，所述量化评估模型的输出为每条待评估信息的可信度排序。本发明实施例能够对社交媒体信息的可信度进行准确评估。

Description

一种基于观点挖掘的社交媒体信息可信度评估方法及装置

技术领域

本发明涉及通信技术领域，具体涉及一种基于观点挖掘的社交媒体信息可信度评估方法及装置。

背景技术

随着第二代互联网WEB2.0技术的发展和普及，各种类型的社交媒体(如：微博、微信、Twitter等)不断涌现并深刻地改变着人们发布、获取、交流、表达信息或观点的方式。特别是随着新一代无线通讯技术的成熟和智能移动设备的广泛使用，社交媒体已经成为人们日常生活中不可或缺的用来分享信息和表达观点的平台。但是由于该平台上的内容主要由大批网民自发创造、提取的，所以虚假、不可靠信息广泛存在。如何自动地评估社交媒体信息的可信度将对后续的信息推荐、市场调查、自动问答等应用***的效果产生直接的影响。

现有技术提供的信息可信度分析主要针对某一特定领域、特定类型的数据，比如生物医学实验报告、新闻专线、***等。以生物医学实验报告的可信度评估为例，由于该类数据有固定的结构和模式，所以可以很容易地提取不同的特征，特别是对于某一个课题有多篇与之相关的实验报告，所以可以通过实验报告之间的互相验证来鉴别出可信度低的实验报告。而***信息的可信度主要是通过信息的修改记录来进行表征的。

即早期的信息可信度分析工具主要是为了特定结构化的数据而设计的，并没有考虑到社交媒体信息本身的数据结构特点和语言表达习惯，特别是社交媒体上的文本信息是一种非结构化的数据，该类数据的处理严重的依赖于自然语言处理技术：比如语义分析和情感分析等，所以这类早期的技术并不适用于社交媒体信息的可信度评估。因此，有必要提供一种新的方法对社交媒体信息的可信度进行评估。

发明内容

有鉴于此，本发明提供了一种基于观点挖掘的社交媒体信息可信度评估方法及装置，能够对社交媒体信息的可信度进行准确评估。

第一方面，本发明实施例提供的基于观点挖掘的社交媒体信息可信度评估方法，包括：

获取待评估信息；

计算每条待评估信息的不确定性得分；

计算每条待评估信息的发布者的可信度；

统计每条待评估信息的评论中支持意见所占的比例；

将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，所述量化评估模型的输出为每条待评估信息的可信度排序。

结合第一方面，在第一方面的第一种实施方式中，在获取待评估信息之前，所述方法还包括：

构建与当前议题相关的主题词库；

将所述主题词库中的各个主题词与情感词库中的各个情感词组合形成观点词对；

获取与当前议题相关的社交媒体信息；

根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值；

过滤观点值小于预设阈值的社交媒体信息，将剩余的社交媒体信息作为所述待评估信息。

结合第一方面的第一种实施方式中，在第一方面的第二种实施方式中，所述构建与当前议题相关的主题词库具体包括：

在社交网络中搜索与当前议题相关的社交媒体信息；

提取所述社交媒体信息中的关键词并统计每个关键词出现的频率；

按照频率从高到低的顺序选取预设数量的关键词作为主题词构建所述主题词库。

结合第一方面的第一种实施方式中，在第一方面的第三种实施方式中，所述根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值具体包括：

计算一个观点词对中的主题词与一条社交媒体信息中的每个关键词的相似度，提取相似度最大值a；计算所述观点词对中的主题词与所述社交媒体信息的评论中的每个关键词的相似度，提取相似度最大值x；

计算所述观点词对中的情感词与所述社交媒体信息中的每个情感词的相似度，提取相似度最大值b；计算所述观点词对中的情感词与所述社交媒体信息的评论中的每个情感词的相似度，提取相似度最大值y；

所述观点词对与所述社交媒体信息的相似度为s1＝λa+(1-λ)b，λ大于0小于1，所述观点词对与所述社交媒体信息的评论的相似度为s2＝μx+(1-μ)y，μ大于0小于1；

将所述观点词对与所述社交媒体信息的相似度及所述观点词对与所述社交媒体信息的评论的相似度相加得到所述社交媒体信息的观点子值；

将每个观点词对都做同样处理得到所述社交媒体信息的所有观点子值，将所有观点子值累加得到所述社交媒体信息的观点值，以此类推，得到每个社交媒体信息的观点值。

结合第一方面，或第一方面的第一种实施方式，或第一方面的第二种实施方式，或第一方面的第三种实施方式，在第一方面的第四种实施方式中，所述计算每条待评估信息的不确定性得分包括：

确定每条待评估信息中包含的不确定内容的类别；

计算每条待评估信息中包含的每类不确定内容的类别得分；

将每条待评估信息中包含的每类不确定内容的类别得分乘以预设的权重后累加得到每条待评估信息的不确定性得分。

结合第一方面，或第一方面的第一种实施方式，或第一方面的第二种实施方式，或第一方面的第三种实施方式，在第一方面的第五种实施方式中，在将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算的过程中，所述待评估信息的不确定性得分越高，所述待评估信息的可信度越低；所述待评估信息的发布者的可信度越低，所述待评估信息的可信度越低；所述待评估信息的评论中支持意见所占的比例越小，和/或随着时间的变化，所述待评估信息的评论中支持意见所占的比例越来越小，所述待评估信息的可信度越低。

第二方面，本发明实施例提供的基于观点挖掘的社交媒体信息可信度评估装置，包括：

第一获取单元，用于获取待评估信息；

第一计算单元，用于计算每条待评估信息的不确定性得分；

第二计算单元，计算每条待评估信息的发布者的可信度；

统计单元，用于统计每条待评估信息的评论中支持意见所占的比例；

可信度评估单元，用于将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，所述量化评估模型的输出为每条待评估信息的可信度排序。

结合第二方面，在第二方面的第一种实施方式中，所述装置还包括：

词库构建单元，用于构建与当前议题相关的主题词库；

词对形成单元，用于将所述主题词库中的各个主题词与情感词库中的各个情感词组合形成观点词对；

第二获取单元，用于获取与当前议题相关的社交媒体信息；

第三计算单元，用于根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值；

信息过滤单元，用于过滤观点值小于预设阈值的社交媒体信息，将剩余的社交媒体信息作为所述待评估信息。

结合第二方面的第一种实施方式，在第二方面的第二种实施方式中，所述词库构建单元具体包括：

搜索子单元，用于在社交网络中搜索与当前议题相关的社交媒体信息；

统计子单元，用于提取所述社交媒体信息中的关键词并统计每个关键词出现的频率；

词库构建子单元，用于按照频率从高到低的顺序选取预设数量的关键词作为主题词构建所述主题词库。

结合第二方面的第一种实施方式，在第二方面的第三种实施方式中，所述第三计算单元具体用于：

结合第二方面，或第二方面的第一种实施方式，或第二方面的第二种实施方式，或第二方面的第三种实施方式，在第二方面的第四种实施方式中，所述第一计算单元具体用于：

确定每条待评估信息中包含的不确定内容的类别；

计算每条待评估信息中包含的每类不确定内容的类别得分；

结合第二方面，或第二方面的第一种实施方式，或第二方面的第二种实施方式，或第二方面的第三种实施方式，在第二方面的第五种实施方式中，所述可信度评估单元在将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算的过程中，所述待评估信息的不确定性得分越高，所述待评估信息的可信度越低；所述待评估信息的发布者的可信度越低，所述待评估信息的可信度越低；所述待评估信息的评论中支持意见所占的比例越小，和/或随着时间的变化，所述待评估信息的评论中支持意见所占的比例越来越小，所述待评估信息的可信度越低。

本发明实施例中，将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，通过这三类数据对每条待评估信息进行评估，增加了评估的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，还可以如这些附图获得其他的附图。

图1是本发明提供的基于观点挖掘的社交媒体信息可信度评估方法一个实施例示意图；

图2是本发明提供的基于观点挖掘的社交媒体信息可信度评估方法的另一实施例示意图；

图3是本发明提供的基于观点挖掘的社交媒体信息可信度评估装置的一个实施例示意图；

图4是本发明提供的基于观点挖掘的社交媒体信息可信度评估装置的另一实施例示意图；

图5是本发明提供的基于观点挖掘的社交媒体信息可信度评估装置的另一实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于观点挖掘的社交媒体信息可信度评估方法，所述方法包括：

101、获取待评估信息；

待评估信息为从社交网络中的社交媒体信息中抽取的信息，这些信息都与当前议题相关，社交网络可以为微博、微信、Twitter等。

102、计算每条待评估信息的不确定性得分；

此步骤主要用于判断每条待评估信息中是否包含了不确定的内容及该信息的不确定程度。

103、计算每条待评估信息的发布者的可信度；

信息发布者的可信度的计算主要基于信息发布者在社交网络上的各种特征，例如：发表微博的个数、是否是认证用户，用户等级等对用户进行可信度评估，具体评估方法可参照现有方法，此处不再赘述。

104、统计每条待评估信息的评论中支持意见所占的比例；

105、将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，量化评估模型的输出为每条待评估信息的可信度排序。

需要说明的是，上述步骤102至104在具体实现中，执行顺序并没有先后之分，可以并列执行。

本实施例中，将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，通过这三类数据对每条待评估信息进行评估，增加了评估的准确度。

为便于理解，下面以一个具体实施例对本发明信息可信度评估方法进行描述，请参阅图2，本实施例的方法包括：

201、构建与当前议题相关的主题词库；

本实施例中，可通过词频统计法构建与当前议题相关的主题词库，具体方法如下：在社交网络中搜索与当前议题相关的社交媒体信息，提取社交媒体信息中的关键词并统计每个关键词出现的频率，按照频率从高到低的顺序选取预设数量的关键词作为主题词构建主题词库。

在一个具体的例子中，例如华为公司发布了p7手机，社交网络中很快涌现出了与p7手机相关的社交媒体信息，即可以搜索与当前议题p7手机相关的社交媒体信息，提取搜索到的这些信息中的关键词例如：华为、屏幕、海思、小米等，统计每个关键词出现的频率，然后选取出现频率较高的预设数量的关键词作为主题词构建主题词库。

另外，在其他的实施例中，还可以使用常用的潜在话题模型latent topic model构建与当前议题相关的主题词库。

202、将所述主题词库中的各个主题词与情感词库中的各个情感词组合形成观点词对；

情感词库可以采用现有的主流情感词典，每个观点词对由一个主题词和一个情感词组成，观点词对例如<外观，漂亮>，<海思，骄傲>。

203、获取与当前议题相关的社交媒体信息；

具体实现中，可以将当前议题中的关键词作为输入在社交媒体上进行搜索和爬取。

204、根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值；

任意两个词A、B的相似度其中A₀、B₀分别表示词A、B的词向量，||A₀||表示A₀的范数，||B₀||表示B₀的范数。

首先按照上述相似度计算公式计算一个观点词对中的主题词与一条社交媒体信息中的每个关键词的相似度，提取相似度最大值a；同时计算该观点词对中的主题词与该社交媒体信息的评论中的每个关键词的相似度，提取相似度最大值x；

接下来按照上述相似度计算公式计算该观点词对中的情感词与该社交媒体信息中的每个情感词的相似度，提取相似度最大值b；同时计算该观点词对中的情感词与该社交媒体信息的评论中的每个情感词的相似度，提取相似度最大值y；

该观点词对与该社交媒体信息的相似度为s1＝λa+(1-λ)b，λ大于0小于1，λ可预设，该观点词对与该社交媒体信息的评论的相似度为s2＝μx+(1-μ)y，μ大于0小于1，μ可预设。

将该观点词对与该社交媒体信息的相似度及该观点词对与该社交媒体信息的评论的相似度相加得到该社交媒体信息的观点子值；

将每个观点词对都做同样处理得到该社交媒体信息的所有观点子值，将所有观点子值累加得到该社交媒体信息的观点值，以此类推，得到每个社交媒体信息的观点值。

205、过滤观点值小于预设阈值的社交媒体信息，将剩余的社交媒体信息作为所述待评估信息；

本实施例中，可以认为观点值小于预设阈值的社交媒体信息没有主观地、明确地表达一些观点，例如只是毫无情感色彩地陈述某件事情或描述某个产品，这部分社交媒体信息将被过滤掉；可以认为观点值大于或等于预设阈值的社交媒体信息主观地、明确地表达了一些观点，这部分社交媒体信息往往会成为舆论热点，影响人们对事件或产品的认知，因此本实施例中将这部分社交媒体信息作为待评估信息，主要评估这部分信息的可信度。

206、计算每条待评估信息的不确定性得分；

本实施例中，可先训练一个信息不确定性评估模型，以将信息中包含的不确定内容进行分类，例如可将信息中包含的不确定内容做如下分类：

类型	线索词或短语	例句
			问题型	真的吗	p7用的真的是海思芯片吗？
听说型	据说	据说p7在欧洲已经开卖了
			希望型	真想	真想现在就有台p7
信念型	相信	我相信终有一天我会有台p7

条件型	如果	如果涨薪，我会买p7
			可能型	应该	我应该会买p7手机

具体实现中，可通过线索词或短语在线检测每条待评估信息，以确定每条待评估信息中包含的不确定内容的类别，然后计算每条待评估信息中包含的每类不确定内容的类别得分，最后将每条待评估信息中包含的每类不确定内容的类别得分乘以预设的权重后累加得到每条待评估信息的不确定性得分。

例如，给定一条待评估的信息，它可能同时属于多个类别，比如同时属于A、B、C三类，根据模型每个类别都有一个得分，分数越高表示属于该类别的可能性越大，例如计算得到该待评估信息的不确定性分到这三个类别的分数分别为S_A、S_B、S_C，那么最终该待评估信息的不确定性得分为H＝W_A*S_A+W_B*S_B*W_C*S_C，其中W_A、W_B、W_C为权重系数，三个权重系数的取值可以不同，例如可根据需要预先为每个类别设置一个权重系数，当然三个权重系数也可以取同一值。

207、计算每条待评估信息的发布者的可信度；

208、统计每条待评估信息的评论中支持意见所占的比例；

209、将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，量化评估模型的输出为每条待评估信息的可信度排序。

具体在计算的过程中，待评估信息的不确定性得分越高，该待评估信息的可信度越低；待评估信息的发布者的可信度越低，该待评估信息的可信度越低；待评估信息的评论中支持意见所占的比例越小，和/或随着时间的变化，待评估信息的评论中支持意见所占的比例越来越小，该待评估信息的可信度越低。

需要说明的是，上述步骤206至208在具体实现中，执行顺序并没有先后之分，可以并列执行。

本实施例中，在获取与当前议题相关的社交媒体信息之后，利用所构建的主题词库及情感词库计算情感词对与社交媒体信息及其评论信息的相似度，从而提取主观地、明确地表达了一些观点的社交信息进行评估，在评估的过程中，将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，通过这三类数据对每条待评估信息进行评估，增加了评估的准确度。

在实际应用中，可根据评估结果准确地了解社交网络中用户对某一事件的看法、用户关注的热点或用户对某一产品的需求，从而可以准确地为用户做一些信息推荐或对产品做一些改进，以提升用户体验。

下面对本发明实施例提供的信息可信度评估装置进行描述，请参阅图3，本实施例的装置300包括：

第一获取单元301，用于获取待评估信息；

第一计算单元302，用于计算每条待评估信息的不确定性得分；

第二计算单元303，计算每条待评估信息的发布者的可信度；

统计单元304，用于统计每条待评估信息的评论中支持意见所占的比例；

可信度评估单元305，用于将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，量化评估模型的输出为每条待评估信息的可信度排序。

本实施例中，可信度评估单元将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例作为量化评估模型的输入进行计算，通过这三类数据对每条待评估信息进行评估，增加了评估的准确度。

为便于理解，下面以一个具体实施例对本发明信息可信度评估装置进行描述，请参阅图4，本实施例的装置400包括：

词库构建单元401，用于构建与当前议题相关的主题词库；

词对形成单元402，用于将所述主题词库中的各个主题词与情感词库中的各个情感词组合形成观点词对；

第二获取单元403，用于获取与当前议题相关的社交媒体信息；

第三计算单元404，用于根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值；

信息过滤单元405，用于过滤观点值小于预设阈值的社交媒体信息，将剩余的社交媒体信息作为所述待评估信息；

第一获取单元406，用于获取待评估信息；

第一计算单元407，用于计算每条待评估信息的不确定性得分；

第二计算单元408，计算每条待评估信息的发布者的可信度；

统计单元409，用于统计每条待评估信息的评论中支持意见所占的比例；

可信度评估单元410，用于将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，量化评估模型的输出为每条待评估信息的可信度排序。

另外，词库构建单元401具体包括搜索子单元4011、统计子单元4012及词库构建子单元4013，其中：

搜索子单元4011用于，在社交网络中搜索与当前议题相关的社交媒体信息；

统计子单元4012用于，提取所述社交媒体信息中的关键词并统计每个关键词出现的频率；

词库构建子单元4013用于，按照频率从高到低的顺序选取预设数量的关键词作为主题词构建所述主题词库。

为进一步理解，下面以一个实际应用场景对本实施例中信息可信度评估装置400内的各单元之间的交互方式进行描述，具体如下：

首先，词库构建单元401可通过词频统计法构建与当前议题相关的主题词库。具体地，可由搜索子单元4011在社交网络中搜索与当前议题相关的社交媒体信息，然后统计子单元4012提取搜索子单元4011搜索到的社交媒体信息中的关键词并统计每个关键词出现的频率，词库构建子单元4013按照频率从高到低的顺序选取预设数量的关键词作为主题词构建主题词库。

在一个具体的例子中，例如华为公司发布了p7手机，社交网络中很快涌现出了与p7手机相关的社交媒体信息，搜索子单元4011即可以搜索与当前议题p7手机相关的社交媒体信息，统计子单元4012提取搜索到的这些信息中的关键词例如：华为、屏幕、海思、小米等，统计每个关键词出现的频率，然后词库构建子单元4013选取出现频率较高的预设数量的关键词作为主题词构建主题词库。

另外，在其他的实施例中，词库构建单元401还可以使用常用的潜在话题模型latent topic model构建与当前议题相关的主题词库。

词对形成单元402将词库构建单元401构建的主题词库中的各个主题词与情感词库中的各个情感词组合形成观点词对，情感词库可以采用现有的主流情感词典，每个观点词对由一个主题词和一个情感词组成，观点词对例如<外观，漂亮>，<海思，骄傲>。

第二获取单元403获取与当前议题相关的社交媒体信息，具体实现中，第二获取单元403可以将当前议题中的关键词作为输入在社交媒体上进行搜索和爬取与当前议题相关的社交媒体信息。

任意两个词A、B的相似度其中A₀、B₀分别表示词A、B的词向量，||A₀||表示A0的范数，||B₀||表示B₀的范数。

第三计算单元404根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值。

具体地，第三计算单元404可以按照上述相似度计算公式计算一个观点词对中的主题词与一条社交媒体信息中的每个关键词的相似度，提取相似度最大值a；同时计算该观点词对中的主题词与该社交媒体信息的评论中的每个关键词的相似度，提取相似度最大值x；

接下来第三计算单元404按照上述相似度计算公式计算该观点词对中的情感词与该社交媒体信息中的每个情感词的相似度，提取相似度最大值b；同时计算该观点词对中的情感词与该社交媒体信息的评论中的每个情感词的相似度，提取相似度最大值y；

第三计算单元404将该观点词对与该社交媒体信息的相似度及该观点词对与该社交媒体信息的评论的相似度相加得到该社交媒体信息的观点子值；

第三计算单元404将每个观点词对都做同样处理得到该社交媒体信息的所有观点子值，将所有观点子值累加得到该社交媒体信息的观点值，以此类推，得到每个社交媒体信息的观点值。

信息过滤单元405过滤观点值小于预设阈值的社交媒体信息，将剩余的社交媒体信息作为所述待评估信息，第一获取单元406获取信息过滤单元405过滤后剩余的社交媒体信息。

第一计算单元407计算每条待评估信息的不确定性得分，本实施例中，第一计算单元407可先训练一个信息不确定性评估模型，以将信息中包含的不确定内容进行分类，例如可将信息中包含的不确定内容做如下分类：

类型	线索词或短语	例句
			问题型	真的吗	p7用的真的是海思芯片吗？
听说型	据说	据说p7在欧洲已经开卖了
			希望型	真想	真想现在就有台p7
信念型	相信	我相信终有一天我会有台p7
			条件型	如果	如果涨薪，我会买p7
可能型	应该	我应该会买p7手机

具体实现中，第一计算单元407可通过线索词或短语在线检测每条待评估信息，以确定每条待评估信息中包含的不确定内容的类别，然后计算每条待评估信息中包含的每类不确定内容的类别得分，最后将每条待评估信息中包含的每类不确定内容的类别得分乘以预设的权重后累加得到每条待评估信息的不确定性得分。

例如，给定一条待评估的信息，它可能同时属于多个类别，比如同时属于A、B、C三类，根据模型每个类别都有一个得分，分数越高表示属于该类别的可能性越大，例如计算得到该待评估信息的不确定性分到这三个类别的分数分别为S_A、S_B、S_C，那么第一计算单元407计算得到的最终该待评估信息的不确定性得分为H＝W_A*S_A+W_B*S_B*W_C*S_C，其中W_A、W_B、W_C为权重系数，三个权重系数的取值可以不同，例如可根据需要预先为每个类别设置一个权重系数，当然三个权重系数也可以取同一值。

第二计算单元408计算每条待评估信息的发布者的可信度，信息发布者的可信度的计算主要基于信息发布者在社交网络上的各种特征，例如：发表微博的个数、是否是认证用户，用户等级等对用户进行可信度评估，具体评估方法可参照现有方法，此处不再赘述。

统计单元409统计每条待评估信息的评论中支持意见所占的比例，可信度评估单元410将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，量化评估模型的输出为每条待评估信息的可信度排序。在可信度评估单元410计算的过程中，待评估信息的不确定性得分越高，该待评估信息的可信度越低；待评估信息的发布者的可信度越低，该待评估信息的可信度越低；待评估信息的评论中支持意见所占的比例越小，和/或随着时间的变化，待评估信息的评论中支持意见所占的比例越来越小，该待评估信息的可信度越低。

本实施例中，在第二获取单元获取与当前议题相关的社交媒体信息之后，第三计算单元利用词库构建单元所构建的主题词库及情感词库计算情感词对与社交媒体信息及其评论信息的相似度，从而提取主观地、明确地表达了一些观点的社交信息进行评估，在可信度评估单元对每条待评估信息进行评估的过程中，将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例作为量化评估模型的输入进行计算，通过这三类数据对每条待评估信息进行评估，增加了评估的准确度。

下面请参阅图5，图5提供了本发明信息可信度评估装置另一实施例示意图，本实施例的信息可信度评估装置500可以用于实施上述实施例提供的信息可信度评估方法，在实际应用中，信息可信度评估装置500可以集成到电子设备中，该电子设备可以是手机、平板电脑等设备。具体来讲：

信息可信度评估装置500可以包括RF(Radio Frequency，射频)电路510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、WiFi(wireless fidelity，无线保真)模块570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的结构并不构成对信息可信度评估装置500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路510可用于收发消息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器580处理；另外，将涉及上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据存储设备的使用创建数据(比如音频数据、电话本等)。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器580和输入单元530对存储器520的访问。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板541。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面531与显示面板541集成而实现输入和输出功能。

信息可信度评估装置500还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在装置500移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别装置姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于装置500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与装置之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一装置，或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔，以提供外设耳机与装置的通信。

WiFi属于短距离无线传输技术，信息可信度评估装置500通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于装置的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是信息可信度评估装置的控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行存储设备的各种功能和处理数据，从而对存储设备进行整体监控。可选的，处理器580可包括一个或多个处理核心；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

信息可信度评估装置置500还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，信息可信度评估装置500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，信息可信度评估装置500包括有存储器520，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器520中，且经配置以由一个或者一个以上处理器580执行上述一个或者一个以上程序包含用于进行以下操作的指令：

获取待评估信息；

计算每条待评估信息的不确定性得分；

计算每条待评估信息的发布者的可信度；

统计每条待评估信息的评论中支持意见所占的比例；

将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算，量化评估模型的输出为每条待评估信息的可信度排序。

需要说明的是，本发明实施例提供的信息可信度评估装置500，还可以用于实现上述装置实施例中的其它功能，在此不再赘述。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上对本发明实施例所提供的一种基于观点挖掘的社交媒体信息可信度评估方法及装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，因此，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于观点挖掘的社交媒体信息可信度评估方法，其特征在于，包括：

获取与当前议题相关的社交媒体信息；

根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值，其中，所述每个观点词对由主题词和情感词组成，所述主题词从与所述当前议题相关的主题词库中获取；

过滤观点值小于预设阈值的社交媒体信息，将剩余的社交媒体信息作为待评估信息；

获取待评估信息，所述待评估信息为影响用户对事件或产品的认知的社交媒体信息；

计算每条待评估信息的不确定性得分；

计算每条待评估信息的发布者的可信度；

统计每条待评估信息的评论中支持意见所占的比例；

2.如权利要求1所述的方法，其特征在于，在获取待评估信息之前，所述方法还包括：

构建与所述当前议题相关的主题词库；

将所述主题词库中的各个主题词与情感词库中的各个情感词组合形成所述观点词对。

3.如权利要求2所述的方法，其特征在于，所述构建与当前议题相关的主题词库具体包括：

在社交网络中搜索与当前议题相关的社交媒体信息；

4.如权利要求2所述的方法，其特征在于，所述根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值具体包括：

5.如权利要求1至4中任意一项所述的方法，其特征在于，所述计算每条待评估信息的不确定性得分包括：

确定每条待评估信息中包含的不确定内容的类别；

计算每条待评估信息中包含的每类不确定内容的类别得分；

6.如权利要求1至4中任意一项所述的方法，其特征在于，在将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算的过程中，所述待评估信息的不确定性得分越高，所述待评估信息的可信度越低；所述待评估信息的发布者的可信度越低，所述待评估信息的可信度越低；所述待评估信息的评论中支持意见所占的比例越小，和/或随着时间的变化，所述待评估信息的评论中支持意见所占的比例越来越小，所述待评估信息的可信度越低。

7.一种基于观点挖掘的社交媒体信息可信度评估装置，其特征在于，包括：

第二获取单元，用于获取与当前议题相关的社交媒体信息；

第三计算单元，用于根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值，其中，所述每个观点词对由主题词和情感词组成，所述主题词从与所述当前议题相关的主题词库中获取；

信息过滤单元，用于过滤观点值小于预设阈值的社交媒体信息，将剩余的社交媒体信息作为待评估信息；

第一获取单元，用于获取待评估信息，所述待评估信息为影响用户对事件或产品的认知的社交媒体信息；

第一计算单元，用于计算每条待评估信息的不确定性得分；

第二计算单元，计算每条待评估信息的发布者的可信度；

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

词库构建单元，用于构建与所述当前议题相关的主题词库；

词对形成单元，用于将所述主题词库中的各个主题词与情感词库中的各个情感词组合形成所述观点词对。

9.如权利要求8所述的装置，其特征在于，所述词库构建单元具体包括：

10.如权利要求8所述的装置，其特征在于，所述第三计算单元具体用于：

11.如权利要求7至10任意一项所述的装置，其特征在于，所述第一计算单元具体用于：

确定每条待评估信息中包含的不确定内容的类别；

计算每条待评估信息中包含的每类不确定内容的类别得分；

12.如权利要求7至10任意一项所述的装置，其特征在于，所述可信度评估单元在将每条待评估信息的不确定性得分，每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算的过程中，所述待评估信息的不确定性得分越高，所述待评估信息的可信度越低；所述待评估信息的发布者的可信度越低，所述待评估信息的可信度越低；所述待评估信息的评论中支持意见所占的比例越小，和/或随着时间的变化，所述待评估信息的评论中支持意见所占的比例越来越小，所述待评估信息的可信度越低。