CN112732921A - 一种虚假用户评论检测方法及*** - Google Patents
一种虚假用户评论检测方法及*** Download PDFInfo
- Publication number
- CN112732921A CN112732921A CN202110070347.3A CN202110070347A CN112732921A CN 112732921 A CN112732921 A CN 112732921A CN 202110070347 A CN202110070347 A CN 202110070347A CN 112732921 A CN112732921 A CN 112732921A
- Authority
- CN
- China
- Prior art keywords
- comment
- vector
- comments
- representing
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种虚假用户评论检测方法及***,包括以下步骤:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集;使用用户评论数据集S,对虚假用户评论检测模型行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。本发明的方法能够得到准确性更高的检测结果。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是一种虚假用户评论检测方法及***。
背景技术
虚假用户评论指故意提升或诋毁商品声誉和口碑的不真实评论,虚假用户评论检测是自然语言处理中文本分类任务的一项基本任务,其基本目标是根据用户评论的相关信息分析其语义关系,检测虚假性。随着电商平台的快速发展和逐渐成熟,虚假用户评论问题也越来越突出,许多国内外研究工作者开始就该问题开展工作。
虚假用户评论检测的早期研究通常采用传统的监督学习算法,该类研究着重于通过诸如N-gram、LDA等方法来提取特征以训练分类器。这些方法需要复杂的特征工程来提取文本特征,十分繁琐。最近,深度学习的神经网络模型,例如卷积神经网络(ConvolutionalNeural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN),已经在该任务上表现出最先进的性能,而且无需任何费力的特征工程。LiL等人使用卷积神经网络在文档级别上做语义表示进行虚假评论分类,通过在CNN中加入注意力机制,使用KL散度作为权重计算,先计算句中每一个词的重要性,再进一步得到评论句的重要性权重,与评论句向量加权后组合为文档向量用于分类;Zhao等人提出在CNN的卷积层和池化层中嵌入语序特征,以捕获评论的语序相关的语义特征,使得CNN更适合解决虚假评论检测的问题;Wang等人提出一种基于注意力机制的CNN模型,通过CNN的进行特征提取,结合注意力机制对评论的语义和行为两个维度进行分析,使得模型学会从语义或者行为角度,甚至同时参考两个角度进行分类;Y.Ren等人使用卷积神经网络并结合循环神经网络建立模型识别虚假评论,其中使用卷积神经网络来学习评论句表示,然后使用带有注意机制的门控循环神经网络对其进行组合,以对话语信息进行建模并生成文档向量,最后,文档表示形式将直接用于虚假评论识别;Yuan等人结合评论者和产品进行特征提取和虚假评论分类,提出了一种基于自注意力的模型,通过对评论文本进行自注意力编码得到语义表示,再利用向量分解得到评论者相关表示和产品相关表示,组合特征后进行分类;Li等人提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的虚假评论检测,分别使用异构图和同构图来获取局部信息和全局信息,通过聚合从复杂的图数据结构信息和多模态属性信息中提取关键特征,结合这些关键特征进行虚假评论检测,用以适应更多变的评论环境;Deng等人提出一种基于PU学习的自编码模型,基于输入的评论相关元数据构建特征向量,通过自编码模型对特征向量进行编码学习,再利用K均值方法计算聚类距离确定类别,进行PU学习;Aghakhani等人提出了首次将GAN引入虚假评论检测任务的模型FakeGAN,采用基于SeqGAN的框架,将小部分的标记数据用于GAN的样本生成,利用GAN生成的大量标记数据来满足分类神经网络的庞大样本需求,取得相当不错的成果;StantonG等人提出SpamGAN,在FakeGAN的基础上做改进,减少了计算量,优化了奖励函数,从而得到性能提升。
尽管深度学习的引入对虚假评论检测模型的性能提升巨大,但是由于虚假评论具有一定的隐蔽性、迷惑性,且评论数量巨大,人工检测难度很大,标记数据集匮乏,现有深度学习模型都容易出现过拟合现象,因此依然具有较大的优化空间,同时虚假评论检测的识别维度仅有评论文本,角度过于单一,模型检测性能容易受到离群噪声的干扰。
发明内容
有鉴于此,本发明的目的是提出一种虚假用户评论检测方法及***,模型检测不容易受到离群噪声的干扰,得到的结果更加准确。
本发明采用以下方案实现:一种虚假用户评论检测方法,具体包括以下步骤:
步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=SL∪SU,其中SL表示已标记的用户评论数据集,SU表示未标记的用户评论数据集;
步骤B:使用用户评论数据集S,对虚假用户评论检测模型进行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;
步骤C:使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;
步骤D:将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。
进一步地,步骤B具体包括以下步骤:
步骤B1:使用用户评论数据集S对文本生成器进行预训练;
步骤B2:使用步骤B1得到的文本生成器生成评论,与用户评论数据集S中的评论一起用于对鉴别器及其评价器进行预训练;
步骤B3:使用用户评论数据集S对分类器及其评价器进行预训练。
进一步地,步骤B1具体包括以下步骤:
步骤B11:遍历评论训练集S,将SL中的每个已标记训练样本表示为s=(r,t,c),将SU中的每个未标记训练样本表示为s=(r,t),其中r表示评论文本,t表示评论涉及的主题文本,c为该评论虚假与否的类别标记;对训练样本s中的评论r和主题t进行分词并去除停用词,之后将评论r和主题t的文本分别设置为固定长度N和M,若经过分词与去除停用词后的评论r和主题t中的词语数量小于固定长度值,则使用补充符号<PAD>进行补充,大于固定长度值则进行截断;
其中,评论r经过分词及去除停用词并设置为固定长度后,表示为:
其中,主题t经过分词及去除停用词并设置为固定长度后,表示为:
步骤B12:对步骤B11处理后的评论文本r和主题文本t进行编码,分别得到评论与主题的表征向量vr和vt;
其中,vr表示为:
其中,vt表示为:
步骤B14:将构成vr的向量序列依次输入生成器中的融合主题的多头注意力单元,第i个时间步的输入为在每个时间步将与结合,通过多头注意力机制融合评论与主题信息,得到每个时间步的融合主题的表征向量,并与随机噪声拼接,最后得到向量序列{x1,x2,...,xi,...,xN};
步骤B15:将步骤B14得到的向量序列{x1,x2,...,xi,...,xN}输入双向GRU,在第i个时间步,对于双向GRU的前向层,输出的隐层状态向量为 i=1,2,...,N,对于双向GRU的反向层,输出的隐层状态向量为i=1,2,...,N,丁为激活函数;在每个时间步采用谱归一化对GRU的各个权值矩阵进行更新,以Wi G表示GRU在第i个时间步的某个权值矩阵,求得Wi G的最大奇异值对Wi G进行谱归一化,得到GRU在第i+1个时间步的权值矩阵表示如下:
步骤B17:对融合主题的评论表征向量H进行线性变换后输入softmax,得到词概率分布矩阵B,根据词概率分布矩阵B进行随机采样,生成评论文本的词序列y={y1,y2,...,yi,...,yN};
步骤B18:根据以下目标损失函数对文本生成器G进行训练:
进一步地,所述步骤B14具体为:
对垂直向量进行线性变换得到作为多头注意力机制中的Q,对进行线性变换得到和分别作为注意力机制中的K和V,将 输入多头注意力单元中进行多头注意力计算,得到再通过softmax函数,得到垂直向量经过多头注意力机制后在垂直方向上的信息门向量利用和两个门向量对Xi进行信息筛选,得到第i个时间步的融合主题的表征向量表示为:
进一步地,步骤B2具体包括以下步骤:
步骤B21:完成生成器G的预训练后,利用生成器G生成评论数据集SG,从SG和S中随机提取已标注评论与未标注评论构成鉴别器D的预训练集SD,SD中的每个训练样本表示为s=(r,cD),其中r表示评论文本,cD表示该评论文本是否为生成器生成的类别标记,将SD中的训练样本输入基于Transformer的鉴别器D中进行预训练;
步骤B24:对OD进行线性变换后输入softmax,计算鉴别器D在评论的所有词上的类别概率分布QD:
QD=softmax(ODWD+bD);
依据评论所有词项上的类别概率分布QD,得到整个句子关于类别cD的鉴别器平均类别概率分布:
步骤B25:将评论的表征向量OD输入评价器Dcritic,,评价器由一个全连接层组成,OD经过线性变换与softmax后,得到评论的类别概率分布VD:
式中,表示对SD中提取自S的样本进行分类的损失,表示对SD中提取自SG的样本进行分类的损失,表示对数据集S上采样的评论进行期望计算得到关于类别cD的交叉熵损失期望值,表示对生成器生成的评论进行期望计算得到关于类别cD的交叉熵损失期望值;
进一步地,步骤B3具体包括以下步骤:
步骤B31:使用已标注数据集SL对分类器进行预训练,对SL中的每个训练样本s=(r,t,c),按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
步骤B32:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声拼接,得到融合主题的评论表征向量其中表示融合主题的评论表征向量中第i个词的表征向量;查询位置向量矩阵Ep∈Rd×N,得到位置向量与相加,得到位置感知的评论表征向量输入到Transformer网络中,得到评论中所有词的表示矩阵
QC=softmax(OCWC+bC);
根据QC得到整个句子的分类器关于类别c的平均类别概率分布:
步骤B34:将评论的表征向量OC输入评价器Ccritic,,评价器由一个全连接层组成,OC经过线性变换与softmax后,得到实际类别概率分布的目标分布VC,表示为:
式中,VC i表示评论在第i个词上关于类别c的目标类别概率分布。
进一步地,步骤C具体包括以下步骤:
步骤C3:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声拼接,得到融合主题的评论表征向量其中中表示融合主题的评论表征向量中第i个词的表征向量,其中上标FG表示对生成器输入进行融合主题的多头注意力计算;之后按照B15-B17的处理步骤,生成评论y;
步骤C5:采用强化学习的方式对生成器进行训练。
进一步地,步骤C5具体为:
将生成器生成评论的过程视为序列决策过程,生成器则作为强化学习中的智能体或者行为者,在生成评论的过程中,将已生成的词项序列{y1,y2,...,yi-1}视为智能体当前所处的状态,所要生成的下一个词yi为智能体所采取的行为,智能体所采取的行为基于策略分布进行选择,策略分布通过计算各行为的期望奖励,给出各行为的概率,智能体依据概率选择相应的行为,生成器智能体将会学习去最大化期望奖励,即:
其中,
式中,Qi-Vi为优势函数,其中:
式中,β是一个线性递减的参数,β=N-i,用于更新生成器的参数θg时提高初始生成的词的重要性,使得生成器在初始生成阶段得到更加多样化的生成词项。
本发明提供了一种虚假用户评论检测***,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文方法步骤。
与现有技术相比,本发明有以下有益效果:本发明中的模型不易出现过拟合和模式崩溃的现象,同时具备评论文本与主题文本的角度,模型的检测性能不容易受到离群噪声的干扰,检测结果具有更高的准确性。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明一实施例中***结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种虚假用户评论检测方法及***,具体包括以下步骤:
步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=SL∪SU,其中SL表示已标记的用户评论数据集,SU表示未标记的用户评论数据集;
步骤B:使用用户评论数据集S,对虚假用户评论检测模型进行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;
步骤C:使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;
步骤D:将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。
在本实施例中,步骤B具体包括以下步骤:
步骤B1:使用用户评论数据集S对文本生成器进行预训练;
步骤B2:使用步骤B1得到的文本生成器生成评论,与用户评论数据集S中的评论一起用于对鉴别器及其评价器进行预训练;
步骤B3:使用用户评论数据集S对分类器及其评价器进行预训练。
在本实施例中,步骤B1具体包括以下步骤:
步骤B11:遍历评论训练集S,将SL中的每个已标记训练样本表示为s=(r,t,c),将SU中的每个未标记训练样本表示为s=(r,t),其中r表示评论文本,t表示评论涉及的主题文本,c为该评论虚假与否的类别标记;对训练样本s中的评论r和主题t进行分词并去除停用词,之后将评论r和主题t的文本分别设置为固定长度N和M,若经过分词与去除停用词后的评论r和主题t中的词语数量小于固定长度值,则使用补充符号<PAD>进行补充,大于固定长度值则进行截断;
其中,评论r经过分词及去除停用词并设置为固定长度后,表示为:
其中,主题t经过分词及去除停用词并设置为固定长度后,表示为:
步骤B12:对步骤B11处理后的评论文本r和主题文本t进行编码,分别得到评论与主题的表征向量vr和vt;
其中,vr表示为:
其中,vt表示为:
步骤B14:将构成vr的向量序列依次输入生成器中的融合主题的多头注意力单元(TMAU),第i个时间步的输入为在每个时间步将与结合,通过多头注意力机制融合评论与主题信息,得到每个时间步的融合主题的表征向量,并与随机噪声拼接,最后得到向量序列{x1,x2,...,xi,...,xN};
步骤B15:将步骤B14得到的向量序列{x1,x2,...,xi,...,xN}输入双向GRU,在第i个时间步,对于双向GRU的前向层,输出的隐层状态向量为 i=1,2,...,N,对于双向GRU的反向层,输出的隐层状态向量为i=1,2,...,N,f为激活函数;在每个时间步采用谱归一化对GRU的各个权值矩阵进行更新,以Wi G表示GRU在第i个时间步的某个权值矩阵,求得Wi G的最大奇异值对Wi G进行谱归一化,得到GRU在第i+1个时间步的权值矩阵表示如下:
步骤B17:对融合主题的评论表征向量H进行线性变换后输入softmax,得到词概率分布矩阵B,根据词概率分布矩阵B进行随机采样,生成评论文本的词序列y={y1,y2,...,yi,...,yN};
步骤B18:根据以下目标损失函数对文本生成器G进行训练:
在本实施例中,所述步骤B14具体为:
对垂直向量进行线性变换得到作为多头注意力机制中的Q,对进行线性变换得到和分别作为注意力机制中的K和V,将 输入多头注意力单元中进行多头注意力计算,得到再通过softmax函数,得到垂直向量经过多头注意力机制后在垂直方向上的信息门向量利用和两个门向量对Xi进行信息筛选,得到第i个时间步的融合主题的表征向量表示为:
在本实施例中,步骤B2具体包括以下步骤:
步骤B21:完成生成器G的预训练后,利用生成器G生成评论数据集SG,从SG和S中随机提取已标注评论与未标注评论构成鉴别器D的预训练集SD,SD中的每个训练样本表示为s=(r,cD),其中r表示评论文本,cD表示该评论文本是否为生成器生成的类别标记,将SD中的训练样本输入基于Transformer的鉴别器D中进行预训练;
步骤B24:对OD进行线性变换后输入softmax,计算鉴别器D在评论的所有词上的类别概率分布QD:
QD=softmax(ODWD+bD);
依据评论所有词项上的类别概率分布QD,得到整个句子关于类别cD的鉴别器平均类别概率分布:
步骤B25:将评论的表征向量OD输入评价器Dcritic,,评价器由一个全连接层组成,OD经过线性变换与softmax后,得到评论的类别概率分布VD:
式中,表示对SD中提取自S的样本进行分类的损失,表示对SD中提取自SG的样本进行分类的损失,表示对数据集S上采样的评论进行期望计算得到关于类别cD的交叉熵损失期望值,表示对生成器生成的评论进行期望计算得到关于类别cD的交叉熵损失期望值;
在本实施例中,步骤B3具体包括以下步骤:
步骤B31:使用已标注数据集SL对分类器进行预训练,对SL中的每个训练样本s=(r,t,c),按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
步骤B32:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声拼接,得到融合主题的评论表征向量其中表示融合主题的评论表征向量中第i个词的表征向量;查询位置向量矩阵Ep∈Rd×N,得到位置向量与相加,得到位置感知的评论表征向量输入到Transformer网络中,得到评论中所有词的表示矩阵
QC=softmax(OCWC+bC);
根据QC得到整个句子的分类器关于类别c的平均类别概率分布:
步骤B34:将评论的表征向量OC输入评价器Ccritic,,评价器由一个全连接层组成,OC经过线性变换与softmax后,得到实际类别概率分布的目标分布VC,表示为:
式中,VC i表示评论在第i个词上关于类别c的目标类别概率分布。
在本实施例中,步骤C具体包括以下步骤:
步骤C3:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声拼接,得到融合主题的评论表征向量其中中表示融合主题的评论表征向量中第i个词的表征向量,其中上标FG表示对生成器输入进行融合主题的多头注意力计算;之后按照B15-B17的处理步骤,生成评论y;
步骤C5:采用强化学习的方式对生成器进行训练。
在本实施例中,步骤C5具体为:
将生成器生成评论的过程视为序列决策过程,生成器则作为强化学习中的智能体或者行为者,在生成评论的过程中,将已生成的词项序列{y1,y2,...,yi-1}视为智能体当前所处的状态,所要生成的下一个词yi为智能体所采取的行为,智能体所采取的行为基于策略分布进行选择,策略分布通过计算各行为的期望奖励,给出各行为的概率,智能体依据概率选择相应的行为,生成器智能体将会学习去最大化期望奖励,即:
其中,
式中,Qi-Vi为优势函数,其中:
式中,β是一个线性递减的参数,β=N-i,用于更新生成器的参数θg时提高初始生成的词的重要性,使得生成器在初始生成阶段得到更加多样化的生成词项。
本实施例还提供了一种虚假用户评论检测***,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文方法步骤。
较佳的,如图2所示,本实施例对应包括以下功能模块:
数据收集模块,用于提取用户评论、评论相关的主题信息,并对评论的虚假类别标签进行标注,构建训练集;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括大小写统一、分词处理和去除停用词;
文本编码模块,用于在预训练的词向量矩阵中查找经过预处理的用户评论和主题中词的词向量,得到用户评论的表征向量和主题的表征向量;
预训练模块,用于将用户评论的表征向量和主题的表征向量输入到深度学习网络的各个组件中分别进行预训练,得到经过预训练的深度网络模型。
对抗训练模块,用于将用户评论的表征向量和主题的表征向量输入到深度学习网络的各个模块中,各个模块得到融合主题的评论表征向量并以此通过强化学习训练深度学习网络,利用该表征向量属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到经过对抗训练的深度学习网络模型;
虚假评论分析模块,利用经过对抗训练的深度学习网络模型对输入的用户评论和主题进行分析处理,输出用户评论的虚假类别。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (10)
1.一种虚假用户评论检测方法,其特征在于,包括以下步骤:
步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=SLUSU,其中SL表示已标记的用户评论数据集,SU表示未标记的用户评论数据集;
步骤B:使用用户评论数据集S,对虚假用户评论检测模型进行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;
步骤C:使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;
步骤D:将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。
2.根据权利要求1所述的一种虚假用户评论检测方法,其特征在于,步骤B具体包括以下步骤:
步骤B1:使用用户评论数据集S对文本生成器进行预训练;
步骤B2:使用步骤B1得到的文本生成器生成评论,与用户评论数据集S中的评论一起用于对鉴别器及其评价器进行预训练;
步骤B3:使用用户评论数据集S对分类器及其评价器进行预训练。
3.根据权利要求2所述的一种虚假用户评论检测方法,其特征在于,步骤B1具体包括以下步骤:
步骤B11:遍历评论训练集S,将SL中的每个已标记训练样本表示为s=(r,t,c),将SU中的每个未标记训练样本表示为s=(r,t),其中r表示评论文本,t表示评论涉及的主题文本,c为该评论虚假与否的类别标记;对训练样本s中的评论r和主题t进行分词并去除停用词,之后将评论r和主题t的文本分别设置为固定长度N和M,若经过分词与去除停用词后的评论r和主题t中的词语数量小于固定长度值,则使用补充符号<PAD>进行补充,大于固定长度值则进行截断;
其中,评论r经过分词及去除停用词并设置为固定长度后,表示为:
其中,主题t经过分词及去除停用词并设置为固定长度后,表示为:
步骤B12:对步骤B11处理后的评论文本r和主题文本t进行编码,分别得到评论与主题的表征向量vr和vt;
其中,vr表示为:
其中,vt表示为:
步骤B14:将构成vr的向量序列依次输入生成器中的融合主题的多头注意力单元,第i个时间步的输入为在每个时间步将与结合,通过多头注意力机制融合评论与主题信息,得到每个时间步的融合主题的表征向量,并与随机噪声拼接,最后得到向量序列{x1,x2,...,xi,...,xN};
步骤B15:将步骤B14得到的向量序列{x1,x2,...,xi,...,xN}输入双向GRU,在第i个时间步,对于双向GRU的前向层,输出的隐层状态向量为 对于双向GRU的反向层,输出的隐层状态向量为f为激活函数;在每个时间步采用谱归一化对GRU的各个权值矩阵进行更新,以Wi G表示GRU在第i个时间步的某个权值矩阵,求得Wi G的最大奇异值对Wi G进行谱归一化,得到GRU在第i+1个时间步的权值矩阵表示如下:
步骤B17:对融合主题的评论表征向量H进行线性变换后输入softmax,得到词概率分布矩阵B,根据词概率分布矩阵B进行随机采样,生成评论文本的词序列y={y1,y2,...,yi,...,yN};
步骤B18:根据以下目标损失函数对文本生成器G进行训练:
4.根据权利要求3所述的一种虚假用户评论检测方法,其特征在于,所述步骤B14具体为:
对垂直向量进行线性变换得到作为多头注意力机制中的Q,对进行线性变换得到和分别作为注意力机制中的K和V,将 输入多头注意力单元中进行多头注意力计算,得到再通过softmax函数,得到垂直向量经过多头注意力机制后在垂直方向上的信息门向量利用和两个门向量对Xi进行信息筛选,得到第i个时间步的融合主题的表征向量表示为:
5.根据权利要求2所述的一种虚假用户评论检测方法,其特征在于,步骤B2具体包括以下步骤:
步骤B21:完成生成器G的预训练后,利用生成器G生成评论数据集SG,从SG和S中随机提取已标注评论与未标注评论构成鉴别器D的预训练集SD,SD中的每个训练样本表示为s=(r,cD),其中r表示评论文本,cD表示该评论文本是否为生成器生成的类别标记,将SD中的训练样本输入基于Transformer的鉴别器D中进行预训练;
步骤B24:对OD进行线性变换后输入softmax,计算鉴别器D在评论的所有词上的类别概率分布QD:
QD=Softmax(ODWD+bD);
依据评论所有词项上的类别概率分布QD,得到整个句子关于类别cD的鉴别器平均类别概率分布:
步骤B25:将评论的表征向量OD输入评价器Dcritic,,评价器由一个全连接层组成,OD经过线性变换与softmax后,得到评论的类别概率分布VD:
式中,表示对SD中提取自S的样本进行分类的损失,表示对SD中提取自SG的样本进行分类的损失,表示对数据集S上采样的评论进行期望计算得到关于类别cD的交叉熵损失期望值,表示对生成器生成的评论进行期望计算得到关于类别cD的交叉熵损失期望值;
6.根据权利要求3所述的一种虚假用户评论检测方法,其特征在于,步骤B3具体包括以下步骤:
步骤B31:使用已标注数据集SL对分类器进行预训练,对SL中的每个训练样本s=(r,t,c),按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
步骤B32:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声拼接,得到融合主题的评论表征向量其中表示融合主题的评论表征向量中第i个词的表征向量;查询位置向量矩阵Ep∈Rd×N,得到位置向量与相加,得到位置感知的评论表征向量输入到Transformer网络中,得到评论中所有词的表示矩阵
QC=softmax(OCWC+bC);
根据QC得到整个句子的分类器关于类别c的平均类别概率分布:
步骤B34:将评论的表征向量OC输入评价器Ccritic,,评价器由一个全连接层组成,OC经过线性变换与softmax后,得到实际类别概率分布的目标分布VC,表示为:
式中,VC i表示评论在第i个词上关于类别c的目标类别概率分布。
7.根据权利要求3所述的一种虚假用户评论检测方法,其特征在于,步骤C具体包括以下步骤:
步骤C3:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声拼接,得到融合主题的评论表征向量其中中表示融合主题的评论表征向量中第i个词的表征向量,其中上标FG表示对生成器输入进行融合主题的多头注意力计算;之后按照B15-B17的处理步骤,生成评论y;
步骤C5:采用强化学习的方式对生成器进行训练。
8.根据权利要求7所述的一种虚假用户评论检测方法,其特征在于,步骤C5具体为:
将生成器生成评论的过程视为序列决策过程,生成器则作为强化学习中的智能体或者行为者,在生成评论的过程中,将已生成的词项序列{y1,y2,...,yi-1}视为智能体当前所处的状态,所要生成的下一个词yi为智能体所采取的行为,智能体所采取的行为基于策略分布进行选择,策略分布通过计算各行为的期望奖励,给出各行为的概率,智能体依据概率选择相应的行为,生成器智能体将会学习去最大化期望奖励,即:
其中,
式中,Qi-Vi为优势函数,其中:
式中,β是一个线性递减的参数,β=N-i,用于更新生成器的参数θg时提高初始生成的词的重要性,使得生成器在初始生成阶段得到更加多样化的生成词项。
9.一种虚假用户评论检测***,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8所述的方法步骤。
10.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110070347.3A CN112732921B (zh) | 2021-01-19 | 2021-01-19 | 一种虚假用户评论检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110070347.3A CN112732921B (zh) | 2021-01-19 | 2021-01-19 | 一种虚假用户评论检测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732921A true CN112732921A (zh) | 2021-04-30 |
CN112732921B CN112732921B (zh) | 2022-06-14 |
Family
ID=75592450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110070347.3A Active CN112732921B (zh) | 2021-01-19 | 2021-01-19 | 一种虚假用户评论检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732921B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392334A (zh) * | 2021-06-29 | 2021-09-14 | 长沙理工大学 | 冷启动环境下的虚假评论检测方法 |
CN114610877A (zh) * | 2022-02-23 | 2022-06-10 | 苏州大学 | 基于判别方差准则的影评情感分析预处理方法及*** |
CN115168677A (zh) * | 2022-06-09 | 2022-10-11 | 天翼爱音乐文化科技有限公司 | 一种评论分类方法、装置、设备及存储介质 |
CN117296050A (zh) * | 2021-05-25 | 2023-12-26 | 维萨国际服务协会 | 用于使交叉嵌入对齐的嵌入归一化的方法、***和计算机程序产品 |
US12001489B1 (en) * | 2023-01-25 | 2024-06-04 | Fujitsu Limited | Ethics-based multi-modal user post monitoring |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109829733A (zh) * | 2019-01-31 | 2019-05-31 | 重庆大学 | 一种基于购物行为序列数据的虚假评论检测***和方法 |
KR20190123397A (ko) * | 2018-04-24 | 2019-11-01 | 성균관대학교산학협력단 | 가짜 리뷰 판별을 위한 분류 모델 선정 방법 |
CN110580341A (zh) * | 2019-09-19 | 2019-12-17 | 山东科技大学 | 一种基于半监督学习模型的虚假评论检测方法及*** |
CN111666480A (zh) * | 2020-06-10 | 2020-09-15 | 东北电力大学 | 一种基于滚动式协同训练的虚假评论识别方法 |
-
2021
- 2021-01-19 CN CN202110070347.3A patent/CN112732921B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190123397A (ko) * | 2018-04-24 | 2019-11-01 | 성균관대학교산학협력단 | 가짜 리뷰 판별을 위한 분류 모델 선정 방법 |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109829733A (zh) * | 2019-01-31 | 2019-05-31 | 重庆大学 | 一种基于购物行为序列数据的虚假评论检测***和方法 |
CN110580341A (zh) * | 2019-09-19 | 2019-12-17 | 山东科技大学 | 一种基于半监督学习模型的虚假评论检测方法及*** |
CN111666480A (zh) * | 2020-06-10 | 2020-09-15 | 东北电力大学 | 一种基于滚动式协同训练的虚假评论识别方法 |
Non-Patent Citations (1)
Title |
---|
吕海等: "在线产品虚假评论检测技术研究", 《沈阳理工大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117296050A (zh) * | 2021-05-25 | 2023-12-26 | 维萨国际服务协会 | 用于使交叉嵌入对齐的嵌入归一化的方法、***和计算机程序产品 |
CN113392334A (zh) * | 2021-06-29 | 2021-09-14 | 长沙理工大学 | 冷启动环境下的虚假评论检测方法 |
CN113392334B (zh) * | 2021-06-29 | 2024-03-08 | 长沙理工大学 | 冷启动环境下的虚假评论检测方法 |
CN114610877A (zh) * | 2022-02-23 | 2022-06-10 | 苏州大学 | 基于判别方差准则的影评情感分析预处理方法及*** |
CN114610877B (zh) * | 2022-02-23 | 2023-04-25 | 苏州大学 | 基于判别方差准则的影评情感分析预处理方法及*** |
CN115168677A (zh) * | 2022-06-09 | 2022-10-11 | 天翼爱音乐文化科技有限公司 | 一种评论分类方法、装置、设备及存储介质 |
CN115168677B (zh) * | 2022-06-09 | 2023-03-28 | 天翼爱音乐文化科技有限公司 | 一种评论分类方法、装置、设备及存储介质 |
US12001489B1 (en) * | 2023-01-25 | 2024-06-04 | Fujitsu Limited | Ethics-based multi-modal user post monitoring |
Also Published As
Publication number | Publication date |
---|---|
CN112732921B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112732921B (zh) | 一种虚假用户评论检测方法及*** | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及*** | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN110232395B (zh) | 一种基于故障中文文本的电力***故障诊断方法 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
Islam et al. | InceptB: a CNN based classification approach for recognizing traditional bengali games | |
CN110297888A (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112733764A (zh) | 一种基于多模态识别视频情感信息的方法 | |
CN113705715B (zh) | 一种基于lstm和多尺度fcn的时间序列分类方法 | |
CN116383387A (zh) | 一种基于事理逻辑的联合事件抽取方法 | |
CN116842194A (zh) | 一种电力语义知识图谱***及方法 | |
CN111898704A (zh) | 对内容样本进行聚类的方法和装置 | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
CN107423697A (zh) | 基于非线性融合深度3d卷积描述子的行为识别方法 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN112347252B (zh) | 一种基于cnn文本分类模型的可解释性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |