CN113392334B - 冷启动环境下的虚假评论检测方法 - Google Patents

冷启动环境下的虚假评论检测方法 Download PDF

Info

Publication number
CN113392334B
CN113392334B CN202110733235.1A CN202110733235A CN113392334B CN 113392334 B CN113392334 B CN 113392334B CN 202110733235 A CN202110733235 A CN 202110733235A CN 113392334 B CN113392334 B CN 113392334B
Authority
CN
China
Prior art keywords
comment
comments
user
product
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110733235.1A
Other languages
English (en)
Other versions
CN113392334A (zh
Inventor
向凌云
郭国庆
游卉擎
刘宇航
夏卓群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202110733235.1A priority Critical patent/CN113392334B/zh
Publication of CN113392334A publication Critical patent/CN113392334A/zh
Application granted granted Critical
Publication of CN113392334B publication Critical patent/CN113392334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种冷启动环境下的虚假评论检测方法,包括以下步骤:步骤(1)特征提取;步骤(2)异构图构建;步骤(3)基于图卷积的共享特征学习;步骤(4)特征融合与分类。通过本发明能够对冷启动环境下的虚假评论进性较为准确的判别。

Description

冷启动环境下的虚假评论检测方法
技术领域
本发明涉及计算机信息处理领域,尤其涉及一种冷启动环境下的虚假评论检测方法。
背景技术
用户在社交网站上遗留的行为信息越丰富,传统的行为特征分析方法越有效,而在冷启动环境下,新用户仅发布了一条评论,难以从中提取出有效的行为特征,而文本特征已经被证明在检测商业网站的虚假评论时表现不佳,因此,冷启动环境下虚假评论检测的主要难点在于新用户活动轨迹的匮乏,这导致现有技术中缺乏有效的检测手段。
为此本发明提供了一种冷启动环境下的虚假评论检测方法。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种冷启动环境下的虚假评论检测方法,包括以下步骤:
步骤(1)特征提取;
步骤(2)异构图构建;
步骤(3)基于图卷积的共享特征学习;
步骤(4)特征融合与分类。
所述的冷启动环境下的虚假评论检测方法,其中:
步骤(1)特征提取包括:提取用户实体、产品实体、评论实体的行为特征,并基于CNN提取评论的文本特征,将用户、产品以及评论用特征向量进行表示;
步骤(2)异构图构建包括:以用户实体和产品实体作为节点,以发布的评论和收到的评论作为边构建异构图;
步骤(3)基于图卷积的共享特征学习包括:对于每个冷启动用户发表的评论,使用图卷积神经网络学习基于用户的共享行为特征与基于产品的共享行为特征;
步骤(4)特征融合与分类包括:通过将评论原有的行为特征和文本特征与学习到的共享行为特征融合,生成冷启动评论的新的特征向量,将新的特征向量用于构建分类器,进行虚假评论的判别。
所述的冷启动环境下的虚假评论检测方法,其中步骤(1)特征提取包括:
对于所有用户评论,提取所有用户的行为特征以及所有产品的行为特征,并将它们分别作为用户节点以及产品节点的特征值。
对于所有的用户实体u和产品实体p,行为特征值分别为:
BFu={uMNR,uPR,uNR,uERD,uavgRD,uBST} (1)
BFp={pMNR,pPR,pNR,pavgRD,pERD} (2)
其中,BFu为用户实体的行为特征,BFp为产品实体的行为特征;
此外,对于每条评论,提取基于评论实体的行为特征
BFr={Rank,RD,EXT,DEV,ISR} (3)
结合评论所对应用户的用户的行为特征和对应产品的基于产品的行为特征,形成一个评论r的完整的行为特征向量q(r),
q(r)=[o1,o2,…,oj,…,o16] (4)
预训练文本特征提取模型获得每条评论的文本特征,分类采用softmax激活函数:
classTe=softmax(WTe·Te(r)+bTe) (5)
其中,Te(r)是评论文本r通过卷积得到的文本特征向量,WTe为可学习的权重矩阵,bTe表示偏差,classTe的取值用于表示分类为真实评论还是虚假评论;
在训练好文本特征提取模型后,对于每条评论r使用基于CNN的文本特征提取模型得到的Te(r)作为该评论的文本特征向量。
所述的冷启动环境下的虚假评论检测方法,其中步骤(2)异构图构建包括:用三元组表示异构图关系,如下:源节点类型,边类型,目标节点类型;步骤2构建的异构图包括两组关系:用户,评论,产品以及产品,被评论,用户;其中,用户类型的节点用该用户对应的行为特征BFu表示,产品类型的用该产品对应的行为特征BFp表示,边用评论或被评论的行为特征表示,上述关系用s表示,分为评论、被评论两种。
所述的冷启动环境下的虚假评论检测方法,其中步骤(3)基于图卷积的共享特征学习包括:
在构建好了异构图之后,对于图中的每条边,采用两层图卷积神经网络提取老用户对新用户的共享行为特征,卷积过程如公式6所示,
其中fs是每个关系s对应的卷积模块,AGG是聚合函数,表示关系s中源节点的特征,/>表示关系s中目标节点的特征。初始化时,根据如果节点类型为用户,则其初始特征值h为节点对应的用户特征BFu;如果节点类型为产品,则其特征值h为节点对应的产品特征BFp,l+1表示当前迭代次数,l表示此前的迭代次数,l的初始值为0;
卷积模块fs由下式表示:
其中,N(i)是节点i的邻居集,j是集合N(i)中的元素,cji是节点度的平方根的乘积,即 表示节点j经过l次迭代后的特征值,Wl表示可学习的权重,bl表示偏差,σ是激活函数;
经过异构图上的卷积操作,得到每条边的源节点的隐藏特征值hsrc,和每条边的目标节点的隐藏特征值hdst
所述的冷启动环境下的虚假评论检测方法,其中步骤(4)特征融合与分类包括:在特征融合与分类阶段,拼接异构图中每条边原有的文本特征,行为特征,源节点共享特征,目标节点共享特征,然后使用带有softmax激活函数的全连接层对拼接的特征向量进行处理,得到最终的分类结果。
最后,使用带有softmax激活函数的全连接层对F(r)处理,得到最终的分类结果y:
y=softmax(WF·F(r)+bF) (9)
其中,WF是可学习的参数矩阵,bF表示偏差,y的维度为2,分别表示当前边为虚假评论和真实评论的概率。
附图说明
图1为冷启动环境下的虚假评论检测方法框架示意图;
图2为基于图卷积网络的共享特征学习过程示意图;
图3为文本特征提取模型示意图。
具体实施方式
下面结合附图1-3对本发明的具体实施方式进行详细说明。
如图1所示,冷启动环境下的虚假评论检测方法包括以下步骤:
步骤(1)特征提取。对于用户评论提取用户实体、产品实体、评论实体的行为特征,并基于CNN(卷积神经网络)提取用户评论的文本特征,从而将用户、产品以及评论用特征向量进行表示。
步骤(2)异构图构建。以用户实体和产品实体作为节点,以发布的评论和收到的评论作为边构建异构图。由于特征提取获得的特征向量在各个实体间是互相独立的,因此通过构建异构图的方式可以保存各个实体之间的关联信息。
步骤(3)基于图卷积的共享特征学习。对于每个冷启动用户发表的评论,使用图卷积神经网络学习基于用户的共享行为特征与基于产品的共享行为特征,补充冷启动用户缺失的行为信息,从而提升冷启动下虚假评论的检测效果。
步骤(4)特征融合与分类。通过将冷启动用户发表的评论的原有的行为特征和文本特征与学习到的两类共享特征融合,生成冷启动评论的新的特征向量。新的特征向量被用于构建分类器,以实现虚假评论的判别。
具体来说:步骤1.特征提取:
步骤1中的用户实体、产品实体、评论实体的行为特征分别说明如下:
表1用户实体中的行为特征
表2产品实体中的行为特征
表3评论实体中的行为特征
对于所有用户评论,提取所有用户的行为特征以及所有产品的行为特征,并将它们分别作为用户节点以及产品节点的特征值。
对于所有的用户实体u和产品实体p,行为特征值分别为:
BFu={uMNR,uPR,uNR,uERD,uavgRD,uBST} (10)
BFp={pMNR,pPR,pNR,pavgRD,pERD} (11)
其中,BFu为用户实体的行为特征,BFp为产品实体的行为特征,各个特征值的含义如表1、表2所示。
此外,对于每条评论,根据表3提取5个基于评论实体的行为特征
BFr={Rank,RD,EXT,DEV,ISR} (12)
结合评论所对应用户的6个基于用户的行为特征和对应产品的5个基于产品的行为特征,形成一个评论r的完整的行为特征向量q(r)。
q(r)=[o1,o2,…,oj,…,o16] (13)
然后,使用虚假评论文本与普通评论文本预训练了一个基于CNN(卷积神经网络)的文本特征提取模型,用于获得每条评论的文本特征。该模型结构如图3所示。
其中,特征图1,2,3分别是卷积窗口高度为3,4,5的卷积核得到的隐藏层;分类采用softmax激活函数,描述为:
classTe=softmax(WTe·Te(r)+bTe) (14)
其中,Te(r)是评论文本r通过卷积得到的文本特征向量,WTe为可学习的权重矩阵,bTe表示偏差,classTe的取值用于表示分类为真实评论还是虚假评论。
卷积操作将评论文本表示为一个特征向量Te,文本特征提取模型通过训练使得Te能够最大程度的表征评论文本是否真实,因此,该特征向量被提取出来用作评论对应的文本特征向量。
预训练的基于CNN文本特征提取模型中,参数设置方面,卷积核个数设为60,文本特征长度设定为10,使用最大池化,学***衡的问题,并保存训练过程中F1值最高的模型作为最终特征提取模型。
在训练好基于CNN的文本特征提取模型后,对于每条评论r使用基于CNN的文本特征提取模型得到的Te(r)作为该评论的文本特征向量,它的长度即为参数设定时给定的文本特征长度。
步骤2.异构图构建:
为了从与新用户存在关联的老用户中提取共享特征以改善新用户行为信息缺失的问题,本发明在提取了每个用户和产品的行为特征后,以用户和产品作为节点,构建了异构图。
异构图关系可以用三元组表示:(源节点类型,边类型,目标节点类型),步骤2构建的异构图包括两组关系:(用户,评论,产品),(产品,被评论,用户)。其中,用户类型的节点用该用户对应的行为特征BFu表示,产品类型的用该产品对应的行为特征BFp表示,边用评论或被评论的行为特征表示。上述关系用s表示,分为评论、被评论两种。
步骤3.基于GCN(图卷积网络)的共享特征学习
在构建好了异构图之后,对于图中的每条边,采用两层图卷积神经网络提取老用户对新用户的共享行为特征,卷积过程如公式6所示,其中的特征矩阵是异构图中每个节点的特征值构成的矩阵。异构图中的图卷积的数学定义为:
其中fs是每个关系s对应的卷积模块,AGG是聚合函数,表示关系s中源节点的特征,/>表示关系s中目标节点的特征。初始化时,根据如果节点类型为用户,则其初始特征值h为节点对应的用户特征BFu;如果节点类型为产品,则其特征值h为节点对应的产品特征BFp,l+1表示当前迭代次数,l表示此前的迭代次数,l的初始值为0。
本发明采用的聚合函数AGG为sum。
卷积模块fs由下式表示:
其中,N(i)是节点i的邻居集,j是集合N(i)中的元素,cji是节点度的平方根的乘积,即 表示节点j经过l次迭代后的特征值,Wl表示可学习的权重,bl表示偏差,σ是激活函数,本发明采用Relu。
在构建图时,根据节点类型的不同,使用公式(1)或公式(2)描述的特征向量为每个节点i的初始特征值hi 0赋值。节点i经过公式(7)所述过程,对节点的所有邻居节点进行图卷积,然后使用公式(6)汇聚i所有邻居节点的特征向量。迭代上述过程,使得每个节点学习到其隐藏特征值h。
经过异构图上的卷积操作,令每条边的源节点的隐藏特征值为hsrc,每条边的目标节点的隐藏特征值为hdst,那么这两个隐藏特征被视为源节点和目标节点的共享特征,这两组特征向量被用于丰富每条边缺失的行为信息。根据边表示的关系,hsrc与hdst分别表示用户共享行为特征或者产品共享行为特征:边表示(用户,评论,产品)关系时,hsrc为用户共享行为特征,hdst为产品共享行为特征;边表示(产品,被评论,用户)关系时,hsrc为产品共享行为特征,hdst为用户共享行为特征。
步骤4.特征融合与分类
在特征融合与分类阶段,拼接异构图中每条边(即每条评论)原有的文本特征,行为特征,源节点共享特征,目标节点共享特征,然后使用带有softmax激活函数的全连接层对拼接的特征向量进行处理,得到最终的分类结果。
最后,使用带有softmax激活函数的全连接层对F(r)处理,得到最终的分类结果y:
y=softmax(WF·F(r)+bF) (18)
其中,WF是可学习的参数矩阵,bF表示偏差,y的维度为2,分别表示当前边(即待检测评论)为虚假评论和真实评论的概率。
实验结果与分析
为了证明本发明所提出方法的有效性,将所提出的模型与其他7类基线方法进行对比,以下为对比基线方法的简要说明:
(1)LF:采用传统二元语法特征作为评论文本特征。
(2)Supervised-CNN:仅利用有标注的评论训练卷积神经网络,从而提取评论的语义信息作为评论的文本特征并仅依此对虚假评论进行识别。
(3)LF+BF:评价评论实体的文本特征以及行为特征表示评论,并用拼接得到的特征进行虚假评论检测,其中文本特征为二元语法特征,行为特征包括评论文本长度,评分,评分的绝对偏差率,评论与对应产品中其他评论的最大余弦相似度。
(4)BF_EditSim+LF:使用基于表示学习的方法,将新用户与老用户进行关联,然后用最相似的老用户的行为特征作为新用户的行为特征,最后拼接该行为特征与二元语法特征作为冷启动评论的特征表示,从而检测评论是否真实。
(5)BF_W2Vsim+W2V:首先通过词向量模型word2vec得到评论中每个单词的词向量,然后取均值得到评论的文本特征,之后使用冷启动评论与已有评论文本特征间的余弦相似度得到与冷启动评论最相似的评论,最后用最相似评论的行为特征与该评论自身的文本特征构成冷启动的特征表示,并依据组合的特征向量对评论进行检测。
(6)RE:使用TransE模型构建用户的行为特征,文本特征则采用CNN,并采用约束保存文本的情感倾向。
(7)RE+RRE+PRE:该模型在RE模型上进行了扩展,该模型拼接了RE模型得到的评论表示、评论得分与产品评论得分作为最终评论表示。
为了验证本发明的有效性,选取Yelp数据集中的酒店评论数据进行实验。Yelp数据集是一种公开可用的商业网站数据集,它在商业真实性和ground truth之间提供了很好的平衡,因此在许多前人的著作中得到了广泛的应用。将2012年1月1日之后有标注的新用户发表的第一条评论作为测试集,将2012年1月1日之前用户发表的第一条有标注评论作为训练集用于学习基于GCN的共享特征提取模型。此外,为了训练全局的文本特征表示模型,单独提取了2012年1月1日之前所有有标注的评论数据用于单独训练基于CNN的文本特征提取模型。
表1针对冷启动环境不同方法的对比实验结果
实验结果如表4所示。本发明提出的方法在所有的评价指标上均优于对比方法。特别的,本发明提出的方法在召回率上相比于其他方法提升了10%左右,这表明,本发明提出的方法能够更加准确的识别虚假评论。此外,通过分析表1,有如下结论:
1)冷启动环境下,文本特征表现依旧不佳。基于二元语法特征的方法LF识别准确度在所有对比方法中最低,而基于CNN文本特征的方法Supervised-CNN相比于其他方法F1值最低。这表明,仅依靠评论文本无法有效地进行虚假评论的识别。
2)结合行为特征一定程度上提高了冷启动环境下的检测效果。由LF+BF模型的结果可以看出,结合行为特征与文本特征能够改善冷启动下虚假评论的检测准确度,但是从模型3的召回率与F1反而降低,可以得出结论:冷启动下,仅依靠评论自身的行为特征将导致更多虚假评论被识别为正常评论。
3)冷启动下直接用相似评论行为特征替换待检测评论行为特征的方法效果不佳。模型4与模型5分别从用户和文本相似角度,通过用特征替换的方式进行了虚假评论检测,实验结果表明,无论是从用户相似的角度或者从文本相似的角度,模型准确度提升并不明显,部分指标(如模型4的F1值,召回率)甚至低于仅使用文本特征的方法。
4)通过从现有评论中提取关联从而构建冷启动评论的行为特征并与冷启动原有的行为特征进行结合,能够达到更好的效果。模型8通过异构图提取关联用户的行为特征并与自身原有的行为特征进行组合,取得的实验效果最好,相比于其他方法,各项参数均有较大提升。
5)基于图卷积学习的共享特征有效的改善了冷启动用户行为特征信息缺失的问题,提升了冷启动环境下虚假评论检测的准确度。相比于其他对比的方法本文提出的模型在所有评价指标上均优于其他对比方法。
通过本发明能够以图的方式表述用户、产品、评论三者之间的关联,并通过图卷积学习共享行为特征,用于补充冷启动用户缺失的·行为特征;融合评论本身的文本特征、行为特征、和评论存在关联的实体的共享行为特征进行虚假评论检测;较为有效的解决了冷启动环境下用户行为信息匮乏引起的虚假评论检测效果不佳问题。

Claims (2)

1.一种冷启动环境下的虚假评论检测方法,其特征在于包括以下步骤:
步骤(1)特征提取;
步骤(2)异构图构建;
步骤(3)基于图卷积的共享特征学习;
步骤(4)特征融合与分类;
其中:
步骤(1)特征提取包括:
对于所有用户评论,提取所有用户的行为特征以及所有产品的行为特征,并将它们分别作为用户节点以及产品节点的特征值;
对于所有的用户实体u和产品实体p,行为特征值分别为:
BFu={uMNR,uPR,uNR,uERD,uavgRD,uBST} (1)
BFp={pMNR,pPR,pNR,pavgRD,pERD} (2)
其中,BFu为用户实体的行为特征,BFp为产品实体的行为特征;uMNR为用户在一天内发表评论的最大数量;uPR为用户发布的所有评论中,正面评论所占的比例;uNR为用户发布的所有评论中,负面评论所占的比例;uERD为用户所发布评价分数的分布熵;uavgRD为平均偏差率;uBST为突发性;pMNR为产品在一天内收到评论的最大数量;pPR为产品收到的所有评论中,正面评论所占的比例;pNR为产品收到的所有评论中,负面评论所占的比例;pavgRD为平均偏差率;
pERD为产品所得平均评价分数的分布熵;
此外,对于每条评论,提取基于评论实体的行为特征
BFr={Rank,RD,EXT,DEV,ISR} (3)
Rank为评论的顺序;RD为评分偏差率的绝对值;EXT为评分的极值;DEV为基于β1阈值的评分偏差率,β1是通过递归最小熵划分学习到的;
结合评论所对应用户的行为特征和对应产品的基于产品的行为特征,形成一个评论r的完整的行为特征向量q(r),
q(r)=[o1,o2,…,oj,…,o16] (4)
预训练文本特征提取模型获得每条评论的文本特征,分类采用softmax激活函数:
classTe=softmax(WTe·Te(r)+bTe) (5)
其中,Te(r)是评论文本r通过卷积得到的文本特征向量,WTe为可学习的权重矩阵,bTe表示偏差,classTe的取值用于表示分类为真实评论还是虚假评论;
在训练好文本特征提取模型后,对于每条评论r使用基于CNN的文本特征提取模型得到的Te(r)作为该评论的文本特征向量;
步骤(2)异构图构建包括:以用户实体和产品实体作为节点,以发布的评论和收到的评论作为边构建异构图;
步骤(3)基于图卷积的共享特征学习包括:
在构建好了异构图之后,对于图中的每条边,采用两层图卷积神经网络提取老用户对新用户的共享行为特征,卷积过程如公式6所示,
其中fs是每个关系s对应的卷积模块,AGG是聚合函数,表示关系s中源节点的特征,表示关系s中目标节点的特征;初始化时,根据如果节点类型为用户,则其初始特征值h为节点对应的用户特征BFu;如果节点类型为产品,则其特征值h为节点对应的产品特征BFp,l+1表示当前迭代次数,l表示此前的迭代次数,l的初始值为0;
卷积模块fs由下式表示:
其中,N(i)是节点i的邻居集,j是集合N(i)中的元素,cji是节点度的平方根的乘积,即 表示节点j经过l次迭代后的特征值,Wl表示可学习的权重,bl表示偏差,σ是激活函数;
经过异构图上的卷积操作,得到每条边的源节点的隐藏特征值hsrc,和每条边的目标节点的隐藏特征值hdst
步骤(4)特征融合与分类包括:通过将评论原有的行为特征和文本特征与学习到的共享行为特征融合,生成冷启动评论的新的特征向量,将新的特征向量用于构建分类器,进行虚假评论的判别。
2.根据权利要求1所述的冷启动环境下的虚假评论检测方法,其特征在于:
步骤(1)特征提取包括:提取用户实体、产品实体、评论实体的行为特征,并基于CNN提取评论的文本特征,将用户、产品以及评论用特征向量进行表示。
CN202110733235.1A 2021-06-29 2021-06-29 冷启动环境下的虚假评论检测方法 Active CN113392334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733235.1A CN113392334B (zh) 2021-06-29 2021-06-29 冷启动环境下的虚假评论检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733235.1A CN113392334B (zh) 2021-06-29 2021-06-29 冷启动环境下的虚假评论检测方法

Publications (2)

Publication Number Publication Date
CN113392334A CN113392334A (zh) 2021-09-14
CN113392334B true CN113392334B (zh) 2024-03-08

Family

ID=77624525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733235.1A Active CN113392334B (zh) 2021-06-29 2021-06-29 冷启动环境下的虚假评论检测方法

Country Status (1)

Country Link
CN (1) CN113392334B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692007B (zh) * 2022-06-01 2022-08-23 腾讯科技(深圳)有限公司 表示信息的确定方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN110321436A (zh) * 2019-07-04 2019-10-11 中国人民解放军国防科技大学 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及***
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111753884A (zh) * 2020-06-08 2020-10-09 浙江工业大学 基于网络特征强化的深度图卷积模型防御方法及装置
CN112417099A (zh) * 2020-11-20 2021-02-26 南京邮电大学 一种基于图注意力网络的欺诈用户检测模型构建方法
CN112732921A (zh) * 2021-01-19 2021-04-30 福州大学 一种虚假用户评论检测方法及***
CN112765313A (zh) * 2020-12-31 2021-05-07 太原理工大学 一种基于原文和评论信息分析算法的虚假信息检测方法
CN112990972A (zh) * 2021-03-19 2021-06-18 华南理工大学 一种基于异构图神经网络的推荐方法
CN113032525A (zh) * 2021-03-23 2021-06-25 深圳大学 虚假新闻检测方法、装置、电子设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9537814B2 (en) * 2012-12-14 2017-01-03 Facebook, Inc. Spam detection and prevention in a social networking system

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN110321436A (zh) * 2019-07-04 2019-10-11 中国人民解放军国防科技大学 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及***
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111753884A (zh) * 2020-06-08 2020-10-09 浙江工业大学 基于网络特征强化的深度图卷积模型防御方法及装置
CN112417099A (zh) * 2020-11-20 2021-02-26 南京邮电大学 一种基于图注意力网络的欺诈用户检测模型构建方法
CN112765313A (zh) * 2020-12-31 2021-05-07 太原理工大学 一种基于原文和评论信息分析算法的虚假信息检测方法
CN112732921A (zh) * 2021-01-19 2021-04-30 福州大学 一种虚假用户评论检测方法及***
CN112990972A (zh) * 2021-03-19 2021-06-18 华南理工大学 一种基于异构图神经网络的推荐方法
CN113032525A (zh) * 2021-03-23 2021-06-25 深圳大学 虚假新闻检测方法、装置、电子设备以及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Ao Li 等.Spam Review Detection with Graph Convolutional Networks.《CIKM ’19》.2019,2703-2711. *
Deepdom: Malicious domain detection with scalable and heterogeneous graph convolutional networks;Xiaoqing Sun 等;《Computers & Security》;20201231;第99卷;1-16 *
Spam Review Detection with Graph Convolutional Networks;Ao Li 等;《CIKM ’19》;2703-2711 *
基于特征融合的虚假评论检测研究;郭国庆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230115(第01期);I138-3407 *
基于融合特征的虚假评论检测算法;焦易于;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170615(第06期);I138-1559 *

Also Published As

Publication number Publication date
CN113392334A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
US11687728B2 (en) Text sentiment analysis method based on multi-level graph pooling
Vateekul et al. A study of sentiment analysis using deep learning techniques on Thai Twitter data
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN112417099B (zh) 一种基于图注意力网络的欺诈用户检测模型构建方法
CN112084335B (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN111368074A (zh) 一种基于网络结构和文本信息的链路预测方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN111814842A (zh) 基于多通路图卷积神经网络的对象分类方法及装置
CN114492423B (zh) 基于特征融合及筛选的虚假评论检测方法、***及介质
CN110889282A (zh) 一种基于深度学习的文本情感分析方法
CN111259140A (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN112905894B (zh) 一种基于增强图学习的协同过滤推荐方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN114020928A (zh) 一种基于异质图对比学习的虚假新闻识别方法
CN116776889A (zh) 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法
CN112215629B (zh) 基于构造对抗样本的多目标广告生成***及其方法
CN113361269A (zh) 一种用于文本情感分类的方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN115329085A (zh) 一种社交机器人分类方法及***
CN113392334B (zh) 冷启动环境下的虚假评论检测方法
CN111428181A (zh) 一种基于广义加性模型结合矩阵分解的银行理财产品推荐方法
Johnson et al. Handwriting identification using random forests and score‐based likelihood ratios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant