CN112732921A - 一种虚假用户评论检测方法及*** - Google Patents

一种虚假用户评论检测方法及*** Download PDF

Info

Publication number
CN112732921A
CN112732921A CN202110070347.3A CN202110070347A CN112732921A CN 112732921 A CN112732921 A CN 112732921A CN 202110070347 A CN202110070347 A CN 202110070347A CN 112732921 A CN112732921 A CN 112732921A
Authority
CN
China
Prior art keywords
comment
vector
comments
representing
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110070347.3A
Other languages
English (en)
Other versions
CN112732921B (zh
Inventor
陈羽中
徐闽樟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110070347.3A priority Critical patent/CN112732921B/zh
Publication of CN112732921A publication Critical patent/CN112732921A/zh
Application granted granted Critical
Publication of CN112732921B publication Critical patent/CN112732921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种虚假用户评论检测方法及***,包括以下步骤:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集;使用用户评论数据集S,对虚假用户评论检测模型行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。本发明的方法能够得到准确性更高的检测结果。

Description

一种虚假用户评论检测方法及***
技术领域
本发明涉及自然语言处理技术领域,特别是一种虚假用户评论检测方法及***。
背景技术
虚假用户评论指故意提升或诋毁商品声誉和口碑的不真实评论,虚假用户评论检测是自然语言处理中文本分类任务的一项基本任务,其基本目标是根据用户评论的相关信息分析其语义关系,检测虚假性。随着电商平台的快速发展和逐渐成熟,虚假用户评论问题也越来越突出,许多国内外研究工作者开始就该问题开展工作。
虚假用户评论检测的早期研究通常采用传统的监督学习算法,该类研究着重于通过诸如N-gram、LDA等方法来提取特征以训练分类器。这些方法需要复杂的特征工程来提取文本特征,十分繁琐。最近,深度学习的神经网络模型,例如卷积神经网络(ConvolutionalNeural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN),已经在该任务上表现出最先进的性能,而且无需任何费力的特征工程。LiL等人使用卷积神经网络在文档级别上做语义表示进行虚假评论分类,通过在CNN中加入注意力机制,使用KL散度作为权重计算,先计算句中每一个词的重要性,再进一步得到评论句的重要性权重,与评论句向量加权后组合为文档向量用于分类;Zhao等人提出在CNN的卷积层和池化层中嵌入语序特征,以捕获评论的语序相关的语义特征,使得CNN更适合解决虚假评论检测的问题;Wang等人提出一种基于注意力机制的CNN模型,通过CNN的进行特征提取,结合注意力机制对评论的语义和行为两个维度进行分析,使得模型学会从语义或者行为角度,甚至同时参考两个角度进行分类;Y.Ren等人使用卷积神经网络并结合循环神经网络建立模型识别虚假评论,其中使用卷积神经网络来学习评论句表示,然后使用带有注意机制的门控循环神经网络对其进行组合,以对话语信息进行建模并生成文档向量,最后,文档表示形式将直接用于虚假评论识别;Yuan等人结合评论者和产品进行特征提取和虚假评论分类,提出了一种基于自注意力的模型,通过对评论文本进行自注意力编码得到语义表示,再利用向量分解得到评论者相关表示和产品相关表示,组合特征后进行分类;Li等人提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的虚假评论检测,分别使用异构图和同构图来获取局部信息和全局信息,通过聚合从复杂的图数据结构信息和多模态属性信息中提取关键特征,结合这些关键特征进行虚假评论检测,用以适应更多变的评论环境;Deng等人提出一种基于PU学习的自编码模型,基于输入的评论相关元数据构建特征向量,通过自编码模型对特征向量进行编码学习,再利用K均值方法计算聚类距离确定类别,进行PU学习;Aghakhani等人提出了首次将GAN引入虚假评论检测任务的模型FakeGAN,采用基于SeqGAN的框架,将小部分的标记数据用于GAN的样本生成,利用GAN生成的大量标记数据来满足分类神经网络的庞大样本需求,取得相当不错的成果;StantonG等人提出SpamGAN,在FakeGAN的基础上做改进,减少了计算量,优化了奖励函数,从而得到性能提升。
尽管深度学习的引入对虚假评论检测模型的性能提升巨大,但是由于虚假评论具有一定的隐蔽性、迷惑性,且评论数量巨大,人工检测难度很大,标记数据集匮乏,现有深度学习模型都容易出现过拟合现象,因此依然具有较大的优化空间,同时虚假评论检测的识别维度仅有评论文本,角度过于单一,模型检测性能容易受到离群噪声的干扰。
发明内容
有鉴于此,本发明的目的是提出一种虚假用户评论检测方法及***,模型检测不容易受到离群噪声的干扰,得到的结果更加准确。
本发明采用以下方案实现:一种虚假用户评论检测方法,具体包括以下步骤:
步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=SL∪SU,其中SL表示已标记的用户评论数据集,SU表示未标记的用户评论数据集;
步骤B:使用用户评论数据集S,对虚假用户评论检测模型进行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;
步骤C:使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;
步骤D:将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。
进一步地,步骤B具体包括以下步骤:
步骤B1:使用用户评论数据集S对文本生成器进行预训练;
步骤B2:使用步骤B1得到的文本生成器生成评论,与用户评论数据集S中的评论一起用于对鉴别器及其评价器进行预训练;
步骤B3:使用用户评论数据集S对分类器及其评价器进行预训练。
进一步地,步骤B1具体包括以下步骤:
步骤B11:遍历评论训练集S,将SL中的每个已标记训练样本表示为s=(r,t,c),将SU中的每个未标记训练样本表示为s=(r,t),其中r表示评论文本,t表示评论涉及的主题文本,c为该评论虚假与否的类别标记;对训练样本s中的评论r和主题t进行分词并去除停用词,之后将评论r和主题t的文本分别设置为固定长度N和M,若经过分词与去除停用词后的评论r和主题t中的词语数量小于固定长度值,则使用补充符号<PAD>进行补充,大于固定长度值则进行截断;
其中,评论r经过分词及去除停用词并设置为固定长度后,表示为:
Figure BDA0002905791190000031
式中,
Figure BDA0002905791190000032
i=1,2,...,RN为评论r经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,RN,RN≤N;
其中,主题t经过分词及去除停用词并设置为固定长度后,表示为:
Figure BDA0002905791190000033
式中,
Figure BDA0002905791190000034
i=1,2,...,TM为主题t经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,TM,TM≤M;
步骤B12:对步骤B11处理后的评论文本r和主题文本t进行编码,分别得到评论与主题的表征向量vr和vt
其中,vr表示为:
Figure BDA0002905791190000041
式中,
Figure BDA0002905791190000042
为评论文本的第i个词
Figure BDA0002905791190000043
所对应的词向量,通过在预训练的词向量矩阵
Figure BDA0002905791190000044
中查找得到,i=1,2,...,N,d表示词向量的维度,|V|是词典中的词语数;
其中,vt表示为:
Figure BDA0002905791190000045
式中,
Figure BDA0002905791190000046
为主题文本的第i个词
Figure BDA0002905791190000047
所对应的词向量,通过在预训练的词向量矩阵
Figure BDA0002905791190000048
中查找得到,i=1,2,...,M,d表示词向量的维度,|V|是词典中的词语数;
步骤B13:对主题的表征向量vt,通过线性变换与激活函数后采用最大池化提取主题的主干信息的表征向量
Figure BDA0002905791190000049
Figure BDA00029057911900000410
其中,
Figure BDA00029057911900000411
为主题的主干信息的表征向量,
Figure BDA00029057911900000412
为权值矩阵,·表示矩阵点乘操作,
Figure BDA00029057911900000413
为偏置项;
步骤B14:将构成vr的向量序列
Figure BDA00029057911900000414
依次输入生成器中的融合主题的多头注意力单元,第i个时间步的输入为
Figure BDA00029057911900000415
在每个时间步将
Figure BDA00029057911900000416
Figure BDA00029057911900000417
结合,通过多头注意力机制融合评论与主题信息,得到每个时间步的融合主题的表征向量,并与随机噪声
Figure BDA00029057911900000418
拼接,最后得到向量序列{x1,x2,...,xi,...,xN};
步骤B15:将步骤B14得到的向量序列{x1,x2,...,xi,...,xN}输入双向GRU,在第i个时间步,对于双向GRU的前向层,输出的隐层状态向量为
Figure BDA00029057911900000419
Figure BDA0002905791190000051
i=1,2,...,N,对于双向GRU的反向层,输出的隐层状态向量为
Figure BDA0002905791190000052
i=1,2,...,N,丁为激活函数;在每个时间步采用谱归一化对GRU的各个权值矩阵进行更新,以Wi G表示GRU在第i个时间步的某个权值矩阵,求得Wi G的最大奇异值
Figure BDA0002905791190000053
对Wi G进行谱归一化,得到GRU在第i+1个时间步的权值矩阵
Figure BDA0002905791190000054
表示如下:
Figure BDA0002905791190000055
重复上述步骤,得到正向隐层状态向量序列
Figure BDA0002905791190000056
和反向隐层状态向量序列
Figure BDA0002905791190000057
步骤B16:连接正向与反向隐层状态向量,得到融合主题的评论表征向量H,H=[h1,...,hi,...,hN]T
Figure BDA0002905791190000058
hi为正向隐层状态向量
Figure BDA0002905791190000059
与反向隐层状态向量
Figure BDA00029057911900000510
的连接;
步骤B17:对融合主题的评论表征向量H进行线性变换后输入softmax,得到词概率分布矩阵B,根据词概率分布矩阵B进行随机采样,生成评论文本的词序列y={y1,y2,...,yi,...,yN};
步骤B18:根据以下目标损失函数对文本生成器G进行训练:
Figure BDA00029057911900000511
其中,
Figure BDA00029057911900000512
表示生成器在目标词位置上计算得到的条件概率,θg为生成器的参数集,c为类别标签,z为随机噪声。
进一步地,所述步骤B14具体为:
首先,以Xi表示第i个时间步的输入
Figure BDA00029057911900000513
对Xi
Figure BDA00029057911900000514
的向量方向上进行正交分解操作,得到Xi中关于主题部分的信息和其他信息,分别对应平行向量
Figure BDA00029057911900000515
和垂直向量
Figure BDA0002905791190000061
表示为:
Figure BDA0002905791190000062
Figure BDA0002905791190000063
式中,
Figure BDA0002905791190000064
为平行向量,
Figure BDA0002905791190000065
为垂直向量,
Figure BDA0002905791190000066
表示向量
Figure BDA0002905791190000067
的转置;
然后,利用多头注意力机制进行信息筛选:对于每个注意力头,对平行向量
Figure BDA0002905791190000068
进行线性变换得到
Figure BDA0002905791190000069
作为多头注意力机制中的Q;对
Figure BDA00029057911900000610
进行线性变换得到
Figure BDA00029057911900000611
Figure BDA00029057911900000612
分别作为多头注意力机制中的K和V,表示为:
Figure BDA00029057911900000613
Figure BDA00029057911900000614
Figure BDA00029057911900000615
式中,
Figure BDA00029057911900000616
分别为待训练的权值矩阵;
之后,将
Figure BDA00029057911900000617
输入多头注意力单元中进行多头注意力计算,表示为:
Figure BDA00029057911900000618
式中,
Figure BDA00029057911900000619
表示平行方向的多头注意力机制的输出向量,M片A表示多头注意力机制,H表示注意力头的总数,
Figure BDA00029057911900000620
表示第i个注意力头的计算结果,
Figure BDA00029057911900000621
为待训练的权值矩阵;
之后,通过softmax函数将
Figure BDA00029057911900000622
映射到0到1之间,得到平行向量
Figure BDA00029057911900000623
经过多头注意力机制后在平行方向上的信息门向量
Figure BDA00029057911900000624
表示为:
Figure BDA00029057911900000625
对垂直向量
Figure BDA00029057911900000626
进行线性变换得到
Figure BDA00029057911900000627
作为多头注意力机制中的Q,对
Figure BDA00029057911900000628
进行线性变换得到
Figure BDA00029057911900000629
Figure BDA00029057911900000630
分别作为注意力机制中的K和V,将
Figure BDA00029057911900000631
Figure BDA0002905791190000071
输入多头注意力单元中进行多头注意力计算,得到
Figure BDA0002905791190000072
再通过softmax函数,得到垂直向量
Figure BDA0002905791190000073
经过多头注意力机制后在垂直方向上的信息门向量
Figure BDA0002905791190000074
利用
Figure BDA0002905791190000075
Figure BDA0002905791190000076
两个门向量对Xi进行信息筛选,得到第i个时间步的融合主题的表征向量
Figure BDA0002905791190000077
表示为:
Figure BDA0002905791190000078
式中,
Figure BDA0002905791190000079
分别表示平行方向和垂直方向上的权值矩阵,
Figure BDA00029057911900000710
分别表示平行方向和垂直方向上的输入偏置项,·表示矩阵点乘操作;
之后将
Figure BDA00029057911900000711
与随机噪声
Figure BDA00029057911900000712
进行拼接,得到第i个时间步的输出向量xi,表示为:
Figure BDA00029057911900000713
式中,
Figure BDA00029057911900000714
;表示连接操作,
Figure BDA00029057911900000715
为随机噪声,表示为:
Figure BDA00029057911900000716
式中,
Figure BDA00029057911900000717
从符合标准高斯分布的随机分布Pz中采样获得,Pz符合标准高斯分布,类别标签c从符合标准伯努利分布的随机分布Pc中采样获得,c=1时表示正常评论,当c=0时表示虚假评论。
进一步地,步骤B2具体包括以下步骤:
步骤B21:完成生成器G的预训练后,利用生成器G生成评论数据集SG,从SG和S中随机提取已标注评论与未标注评论构成鉴别器D的预训练集SD,SD中的每个训练样本表示为s=(r,cD),其中r表示评论文本,cD表示该评论文本是否为生成器生成的类别标记,将SD中的训练样本输入基于Transformer的鉴别器D中进行预训练;
步骤B22:对SD中的每个训练样本,按照步骤B11得到评论文本r的初始表征向量vr,加入位置向量得到位置感知的表征向量
Figure BDA0002905791190000081
表示为:
Figure BDA0002905791190000082
式中,
Figure BDA0002905791190000083
为位置向量,通过查询位置向量矩阵Ep∈Rd×N得到,表示为:
Figure BDA0002905791190000084
式中,
Figure BDA0002905791190000085
表示第i个词对应的位置编码向量,d表示位置向量的维度,与词向量维度相同,N是评论文本的固定最大长度;
步骤B23:将
Figure BDA0002905791190000086
输入鉴别器D的Transformer网络中,得到评论的表征向量
Figure BDA0002905791190000087
步骤B24:对OD进行线性变换后输入softmax,计算鉴别器D在评论的所有词上的类别概率分布QD
QD=softmax(ODWD+bD);
式中,
Figure BDA0002905791190000088
表示评论在所有词项上的实际类别概率分布,QD中第i行表示鉴别器在第i个词的实际类别概率分布,
Figure BDA0002905791190000089
为权值矩阵,
Figure BDA00029057911900000810
为偏置项;
依据评论所有词项上的类别概率分布QD,得到整个句子关于类别cD的鉴别器平均类别概率分布:
Figure BDA00029057911900000811
式中,
Figure BDA00029057911900000812
表示鉴别器对评论进行计算得到的类别条件概率,θd表示鉴别器D的参数集,QD i表示鉴别器在第i个词项上的实际类别概率分布;
步骤B25:将评论的表征向量OD输入评价器Dcritic,,评价器由一个全连接层组成,OD经过线性变换与softmax后,得到评论的类别概率分布VD
Figure BDA00029057911900000813
式中,
Figure BDA0002905791190000091
表示评论在所有词项上的目标类别概率分布,以此为标准评价实际类别概率分布QD,VD中第i行表示鉴别器在第i个词项的目标类别概率分布,
Figure BDA0002905791190000092
为鉴别器的评价器权值矩阵,
Figure BDA0002905791190000093
为偏置项;
步骤B26:采用交叉熵损失
Figure BDA0002905791190000094
对鉴别器进行训练,采用均方差损失
Figure BDA0002905791190000095
对评价器Dcritic进行训练;
其中,
Figure BDA0002905791190000096
表示为:
Figure BDA0002905791190000097
Figure BDA0002905791190000098
Figure BDA0002905791190000099
式中,
Figure BDA00029057911900000910
表示对SD中提取自S的样本进行分类的损失,
Figure BDA00029057911900000911
表示对SD中提取自SG的样本进行分类的损失,
Figure BDA00029057911900000912
表示对数据集S上采样的评论进行期望计算得到关于类别cD的交叉熵损失期望值,
Figure BDA00029057911900000913
表示对生成器生成的评论进行期望计算得到关于类别cD的交叉熵损失期望值;
其中,
Figure BDA00029057911900000914
表示为:
Figure BDA00029057911900000915
式中,
Figure BDA00029057911900000916
表示评价器的目标类别概率分布与实际类别概率分布的均方差损失期望值,VD i表示鉴别器在第i个词项上的目标类别概率分布。
进一步地,步骤B3具体包括以下步骤:
步骤B31:使用已标注数据集SL对分类器进行预训练,对SL中的每个训练样本s=(r,t,c),按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
Figure BDA00029057911900000919
步骤B32:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与
Figure BDA00029057911900000917
结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声
Figure BDA00029057911900000918
拼接,得到融合主题的评论表征向量
Figure BDA0002905791190000101
其中
Figure BDA0002905791190000102
表示融合主题的评论表征向量中第i个词的表征向量;查询位置向量矩阵Ep∈Rd×N,得到位置向量
Figure BDA0002905791190000103
Figure BDA0002905791190000104
相加,得到位置感知的评论表征向量
Figure BDA0002905791190000105
输入到Transformer网络中,得到评论中所有词的表示矩阵
Figure BDA0002905791190000106
步骤B33:对OC进行线性变换后输入softmax,计算分类器对评论的所有词的类别概率分布
Figure BDA0002905791190000107
QC=softmax(OCWC+bC);
式中,
Figure BDA0002905791190000108
为权值矩阵,
Figure BDA0002905791190000109
为偏置项;
根据QC得到整个句子的分类器关于类别c的平均类别概率分布:
Figure BDA00029057911900001010
式中,QC i表示评论在第i个词上实际类别的概率分布,
Figure BDA00029057911900001011
表示鉴别器对评论进行计算得到的类别条件概率;
采用交叉熵损失
Figure BDA00029057911900001012
对分类器进行预训练,
Figure BDA00029057911900001013
的计算公式如下:
Figure BDA00029057911900001014
式中,
Figure BDA00029057911900001015
表示对从数据集SL中采样的样本进行期望计算得到关于类别c的交叉熵损失期望值,
Figure BDA00029057911900001016
表示鉴别器对评论进行计算得到的类别条件概率,θc表示分类器参数;
步骤B34:将评论的表征向量OC输入评价器Ccritic,,评价器由一个全连接层组成,OC经过线性变换与softmax后,得到实际类别概率分布的目标分布VC,表示为:
Figure BDA00029057911900001017
式中,
Figure BDA0002905791190000111
为分类器的评价器权值矩阵,
Figure BDA0002905791190000112
为偏置项;
步骤B35:采用均方差损失
Figure BDA0002905791190000113
对分类器的评价器Ccritic进行训练:
Figure BDA0002905791190000114
式中,VC i表示评论在第i个词上关于类别c的目标类别概率分布。
进一步地,步骤C具体包括以下步骤:
步骤C1:遍历数据集S中的每个训练样本,对每个训练样本,按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
Figure BDA0002905791190000115
步骤C2:对数据集S中的每个训练样本,利用生成器从随机分布Pz和随机分布Pc中分别采样得到随机噪声z和类别c,得到包含类别信息的噪声
Figure BDA0002905791190000116
表示为:
Figure BDA0002905791190000117
步骤C3:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与
Figure BDA0002905791190000118
结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声
Figure BDA0002905791190000119
拼接,得到融合主题的评论表征向量
Figure BDA00029057911900001110
其中中
Figure BDA00029057911900001111
表示融合主题的评论表征向量中第i个词的表征向量,其中上标FG表示对生成器输入进行融合主题的多头注意力计算;之后按照B15-B17的处理步骤,生成评论y;
步骤C4:将y与数据集S中对应的训练样本一起输入到鉴别器和分类器中,分别进行评论类别分类,对于鉴别器采用损失函数
Figure BDA00029057911900001112
进行参数更新,对于分类器采用对抗训练的损失函数
Figure BDA00029057911900001113
进行更新;
其中,
Figure BDA00029057911900001114
表示为:
Figure BDA00029057911900001115
Figure BDA0002905791190000121
Figure BDA0002905791190000122
式中,
Figure BDA0002905791190000123
是分类器在数据集S的已标记样本上进行预测分类分值的交叉熵;
Figure BDA0002905791190000124
是分类器在生成器生成的评论上进行分类预测的损失,其中
Figure BDA0002905791190000125
表示香农信息熵,α是平衡参数,用于平衡香农熵的影响;
步骤C5:采用强化学习的方式对生成器进行训练。
进一步地,步骤C5具体为:
将生成器生成评论的过程视为序列决策过程,生成器则作为强化学习中的智能体或者行为者,在生成评论的过程中,将已生成的词项序列{y1,y2,...,yi-1}视为智能体当前所处的状态,所要生成的下一个词yi为智能体所采取的行为,智能体所采取的行为基于策略分布
Figure BDA0002905791190000126
进行选择,策略分布通过计算各行为的期望奖励,给出各行为的概率,智能体依据概率选择相应的行为,生成器智能体将会学习去最大化期望奖励,即:
Figure BDA0002905791190000127
其中,
Figure BDA0002905791190000128
式中,R(r)表示整个评论样本的奖励,由鉴别器和分类器共同确定提供,D表示鉴别器对评论进行计算得到的类别条件概率,
Figure BDA0002905791190000129
表示鉴别器对评论进行计算得到的类别条件概率;
为了最大化
Figure BDA00029057911900001210
生成器通过梯度策略算法一步步学习调整自己的参数θg,表示为:
Figure BDA00029057911900001211
式中,Qi-Vi为优势函数,其中:
Figure BDA0002905791190000131
Figure BDA0002905791190000132
式中,β是一个线性递减的参数,β=N-i,用于更新生成器的参数θg时提高初始生成的词的重要性,使得生成器在初始生成阶段得到更加多样化的生成词项。
本发明提供了一种虚假用户评论检测***,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文方法步骤。
与现有技术相比,本发明有以下有益效果:本发明中的模型不易出现过拟合和模式崩溃的现象,同时具备评论文本与主题文本的角度,模型的检测性能不容易受到离群噪声的干扰,检测结果具有更高的准确性。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明一实施例中***结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种虚假用户评论检测方法及***,具体包括以下步骤:
步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=SL∪SU,其中SL表示已标记的用户评论数据集,SU表示未标记的用户评论数据集;
步骤B:使用用户评论数据集S,对虚假用户评论检测模型进行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;
步骤C:使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;
步骤D:将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。
在本实施例中,步骤B具体包括以下步骤:
步骤B1:使用用户评论数据集S对文本生成器进行预训练;
步骤B2:使用步骤B1得到的文本生成器生成评论,与用户评论数据集S中的评论一起用于对鉴别器及其评价器进行预训练;
步骤B3:使用用户评论数据集S对分类器及其评价器进行预训练。
在本实施例中,步骤B1具体包括以下步骤:
步骤B11:遍历评论训练集S,将SL中的每个已标记训练样本表示为s=(r,t,c),将SU中的每个未标记训练样本表示为s=(r,t),其中r表示评论文本,t表示评论涉及的主题文本,c为该评论虚假与否的类别标记;对训练样本s中的评论r和主题t进行分词并去除停用词,之后将评论r和主题t的文本分别设置为固定长度N和M,若经过分词与去除停用词后的评论r和主题t中的词语数量小于固定长度值,则使用补充符号<PAD>进行补充,大于固定长度值则进行截断;
其中,评论r经过分词及去除停用词并设置为固定长度后,表示为:
Figure BDA0002905791190000151
式中,
Figure BDA0002905791190000152
i=1,2,...,RN为评论r经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,RN,RN≤N;
其中,主题t经过分词及去除停用词并设置为固定长度后,表示为:
Figure BDA0002905791190000153
式中,
Figure BDA0002905791190000154
i=1,2,...,TM为主题t经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,TM,TM≤M;
步骤B12:对步骤B11处理后的评论文本r和主题文本t进行编码,分别得到评论与主题的表征向量vr和vt
其中,vr表示为:
Figure BDA0002905791190000155
式中,
Figure BDA0002905791190000156
为评论文本的第i个词
Figure BDA0002905791190000157
所对应的词向量,通过在预训练的词向量矩阵
Figure BDA0002905791190000158
中查找得到,i=1,2,...,N,d表示词向量的维度,|V|是词典中的词语数;
其中,vt表示为:
Figure BDA0002905791190000159
式中,
Figure BDA00029057911900001510
为主题文本的第i个词wi t所对应的词向量,通过在预训练的词向量矩阵
Figure BDA00029057911900001511
中查找得到,i=1,2,...,M,d表示词向量的维度,|V|是词典中的词语数;
步骤B13:对主题的表征向量vt,通过线性变换与激活函数后采用最大池化提取主题的主干信息的表征向量
Figure BDA00029057911900001512
Figure BDA0002905791190000161
其中,
Figure BDA0002905791190000162
为主题的主干信息的表征向量,
Figure BDA0002905791190000163
为权值矩阵,·表示矩阵点乘操作,
Figure BDA0002905791190000164
为偏置项;
步骤B14:将构成vr的向量序列
Figure BDA0002905791190000165
依次输入生成器中的融合主题的多头注意力单元(TMAU),第i个时间步的输入为
Figure BDA0002905791190000166
在每个时间步将
Figure BDA0002905791190000167
Figure BDA0002905791190000168
结合,通过多头注意力机制融合评论与主题信息,得到每个时间步的融合主题的表征向量,并与随机噪声
Figure BDA0002905791190000169
拼接,最后得到向量序列{x1,x2,...,xi,...,xN};
步骤B15:将步骤B14得到的向量序列{x1,x2,...,xi,...,xN}输入双向GRU,在第i个时间步,对于双向GRU的前向层,输出的隐层状态向量为
Figure BDA00029057911900001610
Figure BDA00029057911900001611
i=1,2,...,N,对于双向GRU的反向层,输出的隐层状态向量为
Figure BDA00029057911900001612
i=1,2,...,N,f为激活函数;在每个时间步采用谱归一化对GRU的各个权值矩阵进行更新,以Wi G表示GRU在第i个时间步的某个权值矩阵,求得Wi G的最大奇异值
Figure BDA00029057911900001613
对Wi G进行谱归一化,得到GRU在第i+1个时间步的权值矩阵
Figure BDA00029057911900001614
表示如下:
Figure BDA00029057911900001615
重复上述步骤,得到正向隐层状态向量序列
Figure BDA00029057911900001616
和反向隐层状态向量序列
Figure BDA00029057911900001617
步骤B16:连接正向与反向隐层状态向量,得到融合主题的评论表征向量H,H=[h1,...,hi,...,hN]T
Figure BDA00029057911900001618
hi为正向隐层状态向量
Figure BDA00029057911900001619
与反向隐层状态向量
Figure BDA00029057911900001620
的连接;
步骤B17:对融合主题的评论表征向量H进行线性变换后输入softmax,得到词概率分布矩阵B,根据词概率分布矩阵B进行随机采样,生成评论文本的词序列y={y1,y2,...,yi,...,yN};
步骤B18:根据以下目标损失函数对文本生成器G进行训练:
Figure BDA0002905791190000171
其中,
Figure BDA0002905791190000172
表示生成器在目标词位置上计算得到的条件概率,θg为生成器的参数集,c为类别标签,z为随机噪声。
在本实施例中,所述步骤B14具体为:
首先,以Xi表示第i个时间步的输入
Figure BDA0002905791190000173
对Xi
Figure BDA0002905791190000174
的向量方向上进行正交分解操作,得到Xi中关于主题部分的信息和其他信息,分别对应平行向量
Figure BDA0002905791190000175
和垂直向量
Figure BDA0002905791190000176
表示为:
Figure BDA0002905791190000177
Figure BDA0002905791190000178
式中,
Figure BDA0002905791190000179
为平行向量,
Figure BDA00029057911900001710
为垂直向量,
Figure BDA00029057911900001711
表示向量
Figure BDA00029057911900001712
的转置;
然后,利用多头注意力机制进行信息筛选:对于每个注意力头,对平行向量
Figure BDA00029057911900001713
进行线性变换得到
Figure BDA00029057911900001714
作为多头注意力机制中的Q;对
Figure BDA00029057911900001715
进行线性变换得到
Figure BDA00029057911900001716
Figure BDA00029057911900001717
分别作为多头注意力机制中的K和V,表示为:
Figure BDA00029057911900001718
Figure BDA00029057911900001719
Figure BDA00029057911900001720
式中,
Figure BDA00029057911900001721
分别为待训练的权值矩阵;
之后,将
Figure BDA00029057911900001722
输入多头注意力单元中进行多头注意力计算,表示为:
Figure BDA00029057911900001723
式中,
Figure BDA0002905791190000181
表示平行方向的多头注意力机制的输出向量,M片A表示多头注意力机制,H表示注意力头的总数,
Figure BDA0002905791190000182
表示第i个注意力头的计算结果,
Figure BDA0002905791190000183
为待训练的权值矩阵;
之后,通过softmax函数将
Figure BDA0002905791190000184
映射到0到1之间,得到平行向量
Figure BDA0002905791190000185
经过多头注意力机制后在平行方向上的信息门向量
Figure BDA0002905791190000186
表示为:
Figure BDA0002905791190000187
对垂直向量
Figure BDA0002905791190000188
进行线性变换得到
Figure BDA0002905791190000189
作为多头注意力机制中的Q,对
Figure BDA00029057911900001810
进行线性变换得到
Figure BDA00029057911900001811
Figure BDA00029057911900001812
分别作为注意力机制中的K和V,将
Figure BDA00029057911900001813
Figure BDA00029057911900001814
输入多头注意力单元中进行多头注意力计算,得到
Figure BDA00029057911900001815
再通过softmax函数,得到垂直向量
Figure BDA00029057911900001816
经过多头注意力机制后在垂直方向上的信息门向量
Figure BDA00029057911900001817
利用
Figure BDA00029057911900001818
Figure BDA00029057911900001819
两个门向量对Xi进行信息筛选,得到第i个时间步的融合主题的表征向量
Figure BDA00029057911900001820
表示为:
Figure BDA00029057911900001821
式中,
Figure BDA00029057911900001822
分别表示平行方向和垂直方向上的权值矩阵,
Figure BDA00029057911900001823
分别表示平行方向和垂直方向上的输入偏置项,·表示矩阵点乘操作;
之后将
Figure BDA00029057911900001824
与随机噪声
Figure BDA00029057911900001830
进行拼接,得到第i个时间步的输出向量xi,表示为:
Figure BDA00029057911900001825
式中,
Figure BDA00029057911900001826
;表示连接操作,
Figure BDA00029057911900001827
为随机噪声,表示为:
Figure BDA00029057911900001828
式中,
Figure BDA00029057911900001829
从符合标准高斯分布的随机分布Pz中采样获得,Pz符合标准高斯分布,类别标签c从符合标准伯努利分布的随机分布Pc中采样获得,c=1时表示正常评论,当c=0时表示虚假评论。
在本实施例中,步骤B2具体包括以下步骤:
步骤B21:完成生成器G的预训练后,利用生成器G生成评论数据集SG,从SG和S中随机提取已标注评论与未标注评论构成鉴别器D的预训练集SD,SD中的每个训练样本表示为s=(r,cD),其中r表示评论文本,cD表示该评论文本是否为生成器生成的类别标记,将SD中的训练样本输入基于Transformer的鉴别器D中进行预训练;
步骤B22:对SD中的每个训练样本,按照步骤B11得到评论文本r的初始表征向量vr,加入位置向量得到位置感知的表征向量
Figure BDA0002905791190000191
表示为:
Figure BDA0002905791190000192
式中,
Figure BDA0002905791190000193
为位置向量,通过查询位置向量矩阵Ep∈Rd×N得到,表示为:
Figure BDA0002905791190000194
式中,
Figure BDA0002905791190000195
表示第i个词对应的位置编码向量,d表示位置向量的维度,与词向量维度相同,N是评论文本的固定最大长度;
步骤B23:将
Figure BDA0002905791190000196
输入鉴别器D的Transformer网络中,得到评论的表征向量
Figure BDA0002905791190000197
步骤B24:对OD进行线性变换后输入softmax,计算鉴别器D在评论的所有词上的类别概率分布QD
QD=softmax(ODWD+bD);
式中,
Figure BDA0002905791190000198
表示评论在所有词项上的实际类别概率分布,QD中第i行表示鉴别器在第i个词的实际类别概率分布,
Figure BDA0002905791190000199
为权值矩阵,
Figure BDA00029057911900001910
为偏置项;
依据评论所有词项上的类别概率分布QD,得到整个句子关于类别cD的鉴别器平均类别概率分布:
Figure BDA0002905791190000201
式中,
Figure BDA0002905791190000202
表示鉴别器对评论进行计算得到的类别条件概率,θd表示鉴别器D的参数集,QD i表示鉴别器在第i个词项上的实际类别概率分布;
步骤B25:将评论的表征向量OD输入评价器Dcritic,,评价器由一个全连接层组成,OD经过线性变换与softmax后,得到评论的类别概率分布VD
Figure BDA0002905791190000203
式中,
Figure BDA0002905791190000204
表示评论在所有词项上的目标类别概率分布,以此为标准评价实际类别概率分布QD,VD中第i行表示鉴别器在第i个词项的目标类别概率分布,
Figure BDA0002905791190000205
为鉴别器的评价器权值矩阵,
Figure BDA0002905791190000206
为偏置项;
步骤B26:采用交叉熵损失
Figure BDA0002905791190000207
对鉴别器进行训练,采用均方差损失
Figure BDA0002905791190000208
对评价器Dcritic进行训练;
其中,
Figure BDA0002905791190000209
表示为:
Figure BDA00029057911900002010
Figure BDA00029057911900002011
Figure BDA00029057911900002012
式中,
Figure BDA00029057911900002013
表示对SD中提取自S的样本进行分类的损失,
Figure BDA00029057911900002014
表示对SD中提取自SG的样本进行分类的损失,
Figure BDA00029057911900002015
表示对数据集S上采样的评论进行期望计算得到关于类别cD的交叉熵损失期望值,
Figure BDA00029057911900002016
表示对生成器生成的评论进行期望计算得到关于类别cD的交叉熵损失期望值;
其中,
Figure BDA00029057911900002017
表示为:
Figure BDA0002905791190000211
式中,
Figure BDA0002905791190000212
表示评价器的目标类别概率分布与实际类别概率分布的均方差损失期望值,VD i表示鉴别器在第i个词项上的目标类别概率分布。
在本实施例中,步骤B3具体包括以下步骤:
步骤B31:使用已标注数据集SL对分类器进行预训练,对SL中的每个训练样本s=(r,t,c),按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
Figure BDA0002905791190000213
步骤B32:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与
Figure BDA0002905791190000214
结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声
Figure BDA0002905791190000215
拼接,得到融合主题的评论表征向量
Figure BDA0002905791190000216
其中
Figure BDA0002905791190000217
表示融合主题的评论表征向量中第i个词的表征向量;查询位置向量矩阵Ep∈Rd×N,得到位置向量
Figure BDA0002905791190000218
Figure BDA0002905791190000219
相加,得到位置感知的评论表征向量
Figure BDA00029057911900002110
输入到Transformer网络中,得到评论中所有词的表示矩阵
Figure BDA00029057911900002111
步骤B33:对OC进行线性变换后输入softmax,计算分类器对评论的所有词的类别概率分布
Figure BDA00029057911900002112
QC=softmax(OCWC+bC);
式中,
Figure BDA00029057911900002113
为权值矩阵,
Figure BDA00029057911900002114
为偏置项;
根据QC得到整个句子的分类器关于类别c的平均类别概率分布:
Figure BDA00029057911900002115
式中,QC i表示评论在第i个词上实际类别的概率分布,
Figure BDA00029057911900002116
表示鉴别器对评论进行计算得到的类别条件概率;
采用交叉熵损失
Figure BDA0002905791190000221
对分类器进行预训练,
Figure BDA0002905791190000222
的计算公式如下:
Figure BDA0002905791190000223
式中,
Figure BDA0002905791190000224
表示对从数据集SL中采样的样本进行期望计算得到关于类别c的交叉熵损失期望值,
Figure BDA0002905791190000225
表示鉴别器对评论进行计算得到的类别条件概率,θc表示分类器参数;
步骤B34:将评论的表征向量OC输入评价器Ccritic,,评价器由一个全连接层组成,OC经过线性变换与softmax后,得到实际类别概率分布的目标分布VC,表示为:
Figure BDA0002905791190000226
式中,
Figure BDA0002905791190000227
为分类器的评价器权值矩阵,
Figure BDA0002905791190000228
为偏置项;
步骤B35:采用均方差损失
Figure BDA0002905791190000229
对分类器的评价器Ccritic进行训练:
Figure BDA00029057911900002210
式中,VC i表示评论在第i个词上关于类别c的目标类别概率分布。
在本实施例中,步骤C具体包括以下步骤:
步骤C1:遍历数据集S中的每个训练样本,对每个训练样本,按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vr,按照B13的处理步骤得到主题的主干信息表征
Figure BDA00029057911900002211
步骤C2:对数据集S中的每个训练样本,利用生成器从随机分布Pz和随机分布Pc中分别采样得到随机噪声z和类别c,得到包含类别信息的噪声
Figure BDA00029057911900002212
表示为:
Figure BDA00029057911900002213
步骤C3:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与
Figure BDA00029057911900002214
结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声
Figure BDA00029057911900002215
拼接,得到融合主题的评论表征向量
Figure BDA0002905791190000231
其中中
Figure BDA0002905791190000232
表示融合主题的评论表征向量中第i个词的表征向量,其中上标FG表示对生成器输入进行融合主题的多头注意力计算;之后按照B15-B17的处理步骤,生成评论y;
步骤C4:将y与数据集S中对应的训练样本一起输入到鉴别器和分类器中,分别进行评论类别分类,对于鉴别器采用损失函数
Figure BDA0002905791190000233
进行参数更新,对于分类器采用对抗训练的损失函数
Figure BDA0002905791190000234
进行更新;
其中,
Figure BDA0002905791190000235
表示为:
Figure BDA0002905791190000236
Figure BDA0002905791190000237
Figure BDA0002905791190000238
式中,
Figure BDA0002905791190000239
是分类器在数据集S的已标记样本上进行预测分类分值的交叉熵;
Figure BDA00029057911900002310
是分类器在生成器生成的评论上进行分类预测的损失,其中
Figure BDA00029057911900002311
表示香农信息熵,α是平衡参数,用于平衡香农熵的影响;
步骤C5:采用强化学习的方式对生成器进行训练。
在本实施例中,步骤C5具体为:
将生成器生成评论的过程视为序列决策过程,生成器则作为强化学习中的智能体或者行为者,在生成评论的过程中,将已生成的词项序列{y1,y2,...,yi-1}视为智能体当前所处的状态,所要生成的下一个词yi为智能体所采取的行为,智能体所采取的行为基于策略分布
Figure BDA00029057911900002312
进行选择,策略分布通过计算各行为的期望奖励,给出各行为的概率,智能体依据概率选择相应的行为,生成器智能体将会学习去最大化期望奖励,即:
Figure BDA00029057911900002313
其中,
Figure BDA0002905791190000241
式中,R(r)表示整个评论样本的奖励,由鉴别器和分类器共同确定提供,D表示鉴别器对评论进行计算得到的类别条件概率,
Figure BDA0002905791190000242
表示鉴别器对评论进行计算得到的类别条件概率;
为了最大化
Figure BDA0002905791190000243
生成器通过梯度策略算法一步步学习调整自己的参数θg,表示为:
Figure BDA0002905791190000244
式中,Qi-Vi为优势函数,其中:
Figure BDA0002905791190000245
Figure BDA0002905791190000246
式中,β是一个线性递减的参数,β=N-i,用于更新生成器的参数θg时提高初始生成的词的重要性,使得生成器在初始生成阶段得到更加多样化的生成词项。
本实施例还提供了一种虚假用户评论检测***,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文方法步骤。
较佳的,如图2所示,本实施例对应包括以下功能模块:
数据收集模块,用于提取用户评论、评论相关的主题信息,并对评论的虚假类别标签进行标注,构建训练集;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括大小写统一、分词处理和去除停用词;
文本编码模块,用于在预训练的词向量矩阵中查找经过预处理的用户评论和主题中词的词向量,得到用户评论的表征向量和主题的表征向量;
预训练模块,用于将用户评论的表征向量和主题的表征向量输入到深度学习网络的各个组件中分别进行预训练,得到经过预训练的深度网络模型。
对抗训练模块,用于将用户评论的表征向量和主题的表征向量输入到深度学习网络的各个模块中,各个模块得到融合主题的评论表征向量并以此通过强化学习训练深度学习网络,利用该表征向量属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到经过对抗训练的深度学习网络模型;
虚假评论分析模块,利用经过对抗训练的深度学习网络模型对输入的用户评论和主题进行分析处理,输出用户评论的虚假类别。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (10)

1.一种虚假用户评论检测方法,其特征在于,包括以下步骤:
步骤A:收集用户的产品评论和评论涉及的主题文本,建立用户评论数据集S=SLUSU,其中SL表示已标记的用户评论数据集,SU表示未标记的用户评论数据集;
步骤B:使用用户评论数据集S,对虚假用户评论检测模型进行预训练,模型由文本生成器G、鉴别器D以及分类器C三个模块构成;
步骤C:使用用户评论数据集S,对虚假用户评论检测模型进行对抗训练;
步骤D:将用户评论与主题输入虚假用户评论检测模型的分类器中,输出对用户评论的检测结果,即用户评论为虚假评论或真实评论。
2.根据权利要求1所述的一种虚假用户评论检测方法,其特征在于,步骤B具体包括以下步骤:
步骤B1:使用用户评论数据集S对文本生成器进行预训练;
步骤B2:使用步骤B1得到的文本生成器生成评论,与用户评论数据集S中的评论一起用于对鉴别器及其评价器进行预训练;
步骤B3:使用用户评论数据集S对分类器及其评价器进行预训练。
3.根据权利要求2所述的一种虚假用户评论检测方法,其特征在于,步骤B1具体包括以下步骤:
步骤B11:遍历评论训练集S,将SL中的每个已标记训练样本表示为s=(r,t,c),将SU中的每个未标记训练样本表示为s=(r,t),其中r表示评论文本,t表示评论涉及的主题文本,c为该评论虚假与否的类别标记;对训练样本s中的评论r和主题t进行分词并去除停用词,之后将评论r和主题t的文本分别设置为固定长度N和M,若经过分词与去除停用词后的评论r和主题t中的词语数量小于固定长度值,则使用补充符号<PAD>进行补充,大于固定长度值则进行截断;
其中,评论r经过分词及去除停用词并设置为固定长度后,表示为:
Figure FDA0002905791180000011
式中,
Figure FDA0002905791180000021
为评论r经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,RN,RN≤N;
其中,主题t经过分词及去除停用词并设置为固定长度后,表示为:
Figure FDA0002905791180000022
式中,
Figure FDA0002905791180000023
为主题t经过分词、去除停用词并设置为固定长度后文本中的第i个词,i=1,2,...,TM,TM≤M;
步骤B12:对步骤B11处理后的评论文本r和主题文本t进行编码,分别得到评论与主题的表征向量vr和vt
其中,vr表示为:
Figure FDA0002905791180000024
式中,
Figure FDA0002905791180000025
为评论文本的第i个词
Figure FDA0002905791180000026
所对应的词向量,通过在预训练的词向量矩阵
Figure FDA0002905791180000027
中查找得到,i=1,2,...,N,d表示词向量的维度,|V|是词典中的词语数;
其中,vt表示为:
Figure FDA0002905791180000028
式中,
Figure FDA0002905791180000029
为主题文本的第i个词
Figure FDA00029057911800000210
所对应的词向量,通过在预训练的词向量矩阵
Figure FDA00029057911800000211
中查找得到,i=1,2,...,M,d表示词向量的维度,|V|是词典中的词语数;
步骤B13:对主题的表征向量vt,通过线性变换与激活函数后采用最大池化提取主题的主干信息的表征向量
Figure FDA00029057911800000212
Figure FDA00029057911800000213
其中,
Figure FDA00029057911800000214
为主题的主干信息的表征向量,
Figure FDA00029057911800000215
为权值矩阵,·表示矩阵点乘操作,
Figure FDA0002905791180000031
为偏置项;
步骤B14:将构成vr的向量序列
Figure FDA0002905791180000032
依次输入生成器中的融合主题的多头注意力单元,第i个时间步的输入为
Figure FDA0002905791180000033
在每个时间步将
Figure FDA0002905791180000034
Figure FDA0002905791180000035
结合,通过多头注意力机制融合评论与主题信息,得到每个时间步的融合主题的表征向量,并与随机噪声
Figure FDA0002905791180000036
拼接,最后得到向量序列{x1,x2,...,xi,...,xN};
步骤B15:将步骤B14得到的向量序列{x1,x2,...,xi,...,xN}输入双向GRU,在第i个时间步,对于双向GRU的前向层,输出的隐层状态向量为
Figure FDA0002905791180000037
Figure FDA0002905791180000038
对于双向GRU的反向层,输出的隐层状态向量为
Figure FDA0002905791180000039
f为激活函数;在每个时间步采用谱归一化对GRU的各个权值矩阵进行更新,以Wi G表示GRU在第i个时间步的某个权值矩阵,求得Wi G的最大奇异值
Figure FDA00029057911800000310
对Wi G进行谱归一化,得到GRU在第i+1个时间步的权值矩阵
Figure FDA00029057911800000311
表示如下:
Figure FDA00029057911800000312
重复上述步骤,得到正向隐层状态向量序列
Figure FDA00029057911800000313
和反向隐层状态向量序列
Figure FDA00029057911800000314
步骤B16:连接正向与反向隐层状态向量,得到融合主题的评论表征向量H,H=[h1,...,hi,...,hN]T
Figure FDA00029057911800000315
hi为正向隐层状态向量
Figure FDA00029057911800000316
与反向隐层状态向量
Figure FDA00029057911800000317
的连接;
步骤B17:对融合主题的评论表征向量H进行线性变换后输入softmax,得到词概率分布矩阵B,根据词概率分布矩阵B进行随机采样,生成评论文本的词序列y={y1,y2,...,yi,...,yN};
步骤B18:根据以下目标损失函数对文本生成器G进行训练:
Figure FDA0002905791180000041
其中,
Figure FDA0002905791180000042
表示生成器在目标词位置上计算得到的条件概率,θg为生成器的参数集,c为类别标签,z为随机噪声。
4.根据权利要求3所述的一种虚假用户评论检测方法,其特征在于,所述步骤B14具体为:
首先,以Xi表示第i个时间步的输入
Figure FDA0002905791180000043
对Xi
Figure FDA0002905791180000044
的向量方向上进行正交分解操作,得到Xi中关于主题部分的信息和其他信息,分别对应平行向量
Figure FDA0002905791180000045
和垂直向量
Figure FDA0002905791180000046
表示为:
Figure FDA0002905791180000047
Figure FDA0002905791180000048
式中,
Figure FDA0002905791180000049
为平行向量,
Figure FDA00029057911800000410
为垂直向量,
Figure FDA00029057911800000411
表示向量
Figure FDA00029057911800000412
的转置;
然后,利用多头注意力机制进行信息筛选:对于每个注意力头,对平行向量
Figure FDA00029057911800000413
进行线性变换得到
Figure FDA00029057911800000414
作为多头注意力机制中的Q;对
Figure FDA00029057911800000415
进行线性变换得到
Figure FDA00029057911800000416
Figure FDA00029057911800000417
分别作为多头注意力机制中的K和V,表示为:
Figure FDA00029057911800000418
Figure FDA00029057911800000419
Figure FDA00029057911800000420
式中,
Figure FDA00029057911800000421
分别为待训练的权值矩阵;
之后,将
Figure FDA00029057911800000422
输入多头注意力单元中进行多头注意力计算,表示为:
Figure FDA00029057911800000423
式中,
Figure FDA00029057911800000424
表示平行方向的多头注意力机制的输出向量,MHA表示多头注意力机制,H表示注意力头的总数,
Figure FDA0002905791180000051
表示第i个注意力头的计算结果,
Figure FDA0002905791180000052
为待训练的权值矩阵;
之后,通过softmax函数将
Figure FDA0002905791180000053
映射到0到1之间,得到平行向量
Figure FDA0002905791180000054
经过多头注意力机制后在平行方向上的信息门向量
Figure FDA0002905791180000055
表示为:
Figure FDA0002905791180000056
对垂直向量
Figure FDA0002905791180000057
进行线性变换得到
Figure FDA0002905791180000058
作为多头注意力机制中的Q,对
Figure FDA0002905791180000059
进行线性变换得到
Figure FDA00029057911800000510
Figure FDA00029057911800000511
分别作为注意力机制中的K和V,将
Figure FDA00029057911800000512
Figure FDA00029057911800000513
输入多头注意力单元中进行多头注意力计算,得到
Figure FDA00029057911800000514
再通过softmax函数,得到垂直向量
Figure FDA00029057911800000515
经过多头注意力机制后在垂直方向上的信息门向量
Figure FDA00029057911800000516
利用
Figure FDA00029057911800000517
Figure FDA00029057911800000518
两个门向量对Xi进行信息筛选,得到第i个时间步的融合主题的表征向量
Figure FDA00029057911800000519
表示为:
Figure FDA00029057911800000520
式中,
Figure FDA00029057911800000521
分别表示平行方向和垂直方向上的权值矩阵,
Figure FDA00029057911800000522
分别表示平行方向和垂直方向上的输入偏置项,·表示矩阵点乘操作;
之后将
Figure FDA00029057911800000523
与随机噪声
Figure FDA00029057911800000524
进行拼接,得到第i个时间步的输出向量xi,表示为:
Figure FDA00029057911800000525
式中,
Figure FDA00029057911800000526
;表示连接操作,
Figure FDA00029057911800000527
为随机噪声,表示为:
Figure FDA00029057911800000528
式中,
Figure FDA00029057911800000529
从符合标准高斯分布的随机分布Pz中采样获得,Pz符合标准高斯分布,类别标签c从符合标准伯努利分布的随机分布Pc中采样获得,c=1时表示正常评论,当c=0时表示虚假评论。
5.根据权利要求2所述的一种虚假用户评论检测方法,其特征在于,步骤B2具体包括以下步骤:
步骤B21:完成生成器G的预训练后,利用生成器G生成评论数据集SG,从SG和S中随机提取已标注评论与未标注评论构成鉴别器D的预训练集SD,SD中的每个训练样本表示为s=(r,cD),其中r表示评论文本,cD表示该评论文本是否为生成器生成的类别标记,将SD中的训练样本输入基于Transformer的鉴别器D中进行预训练;
步骤B22:对SD中的每个训练样本,按照步骤B11得到评论文本r的初始表征向量vr,加入位置向量得到位置感知的表征向量
Figure FDA0002905791180000061
表示为:
Figure FDA0002905791180000062
式中,
Figure FDA0002905791180000063
为位置向量,通过查询位置向量矩阵Ep∈Rd×N得到,表示为:
Figure FDA0002905791180000064
式中,
Figure FDA0002905791180000065
表示第i个词对应的位置编码向量,d表示位置向量的维度,与词向量维度相同,N是评论文本的固定最大长度;
步骤B23:将
Figure FDA0002905791180000066
输入鉴别器D的Transformer网络中,得到评论的表征向量
Figure FDA0002905791180000067
步骤B24:对OD进行线性变换后输入softmax,计算鉴别器D在评论的所有词上的类别概率分布QD
QD=Softmax(ODWD+bD);
式中,
Figure FDA0002905791180000068
表示评论在所有词项上的实际类别概率分布,QD中第i行表示鉴别器在第i个词的实际类别概率分布,
Figure FDA0002905791180000069
为权值矩阵,
Figure FDA00029057911800000610
为偏置项;
依据评论所有词项上的类别概率分布QD,得到整个句子关于类别cD的鉴别器平均类别概率分布:
Figure FDA0002905791180000071
式中,
Figure FDA0002905791180000072
表示鉴别器对评论进行计算得到的类别条件概率,θd表示鉴别器D的参数集,QD i表示鉴别器在第i个词项上的实际类别概率分布;
步骤B25:将评论的表征向量OD输入评价器Dcritic,,评价器由一个全连接层组成,OD经过线性变换与softmax后,得到评论的类别概率分布VD
Figure FDA0002905791180000073
式中,
Figure FDA0002905791180000074
表示评论在所有词项上的目标类别概率分布,以此为标准评价实际类别概率分布QD,VD中第i行表示鉴别器在第i个词项的目标类别概率分布,
Figure FDA0002905791180000075
为鉴别器的评价器权值矩阵,
Figure FDA0002905791180000076
为偏置项;
步骤B26:采用交叉熵损失
Figure FDA00029057911800000717
对鉴别器进行训练,采用均方差损失
Figure FDA0002905791180000077
对评价器Dcritic进行训练;
其中,
Figure FDA0002905791180000078
表示为:
Figure FDA0002905791180000079
Figure FDA00029057911800000710
Figure FDA00029057911800000711
式中,
Figure FDA00029057911800000712
表示对SD中提取自S的样本进行分类的损失,
Figure FDA00029057911800000713
表示对SD中提取自SG的样本进行分类的损失,
Figure FDA00029057911800000714
表示对数据集S上采样的评论进行期望计算得到关于类别cD的交叉熵损失期望值,
Figure FDA00029057911800000715
表示对生成器生成的评论进行期望计算得到关于类别cD的交叉熵损失期望值;
其中,
Figure FDA00029057911800000716
表示为:
Figure FDA0002905791180000081
式中,
Figure FDA0002905791180000082
表示评价器的目标类别概率分布与实际类别概率分布的均方差损失期望值,VD i表示鉴别器在第i个词项上的目标类别概率分布。
6.根据权利要求3所述的一种虚假用户评论检测方法,其特征在于,步骤B3具体包括以下步骤:
步骤B31:使用已标注数据集SL对分类器进行预训练,对SL中的每个训练样本s=(r,t,c),按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
Figure FDA0002905791180000083
步骤B32:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与
Figure FDA0002905791180000084
结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声
Figure FDA0002905791180000085
拼接,得到融合主题的评论表征向量
Figure FDA0002905791180000086
其中
Figure FDA0002905791180000087
表示融合主题的评论表征向量中第i个词的表征向量;查询位置向量矩阵Ep∈Rd×N,得到位置向量
Figure FDA0002905791180000088
Figure FDA0002905791180000089
相加,得到位置感知的评论表征向量
Figure FDA00029057911800000810
输入到Transformer网络中,得到评论中所有词的表示矩阵
Figure FDA00029057911800000811
步骤B33:对OC进行线性变换后输入softmax,计算分类器对评论的所有词的类别概率分布
Figure FDA00029057911800000812
QC=softmax(OCWC+bC);
式中,
Figure FDA00029057911800000813
为权值矩阵,
Figure FDA00029057911800000814
为偏置项;
根据QC得到整个句子的分类器关于类别c的平均类别概率分布:
Figure FDA00029057911800000815
式中,QC i表示评论在第i个词上实际类别的概率分布,
Figure FDA00029057911800000816
表示鉴别器对评论进行计算得到的类别条件概率;
采用交叉熵损失
Figure FDA0002905791180000091
对分类器进行预训练,
Figure FDA0002905791180000092
的计算公式如下:
Figure FDA0002905791180000093
式中,
Figure FDA0002905791180000094
表示对从数据集SL中采样的样本进行期望计算得到关于类别c的交叉熵损失期望值,
Figure FDA0002905791180000095
表示鉴别器对评论进行计算得到的类别条件概率,θc表示分类器参数;
步骤B34:将评论的表征向量OC输入评价器Ccritic,,评价器由一个全连接层组成,OC经过线性变换与softmax后,得到实际类别概率分布的目标分布VC,表示为:
Figure FDA0002905791180000096
式中,
Figure FDA0002905791180000097
为分类器的评价器权值矩阵,
Figure FDA0002905791180000098
为偏置项;
步骤B35:采用均方差损失
Figure FDA0002905791180000099
对分类器的评价器Ccritic进行训练:
Figure FDA00029057911800000910
式中,VC i表示评论在第i个词上关于类别c的目标类别概率分布。
7.根据权利要求3所述的一种虚假用户评论检测方法,其特征在于,步骤C具体包括以下步骤:
步骤C1:遍历数据集S中的每个训练样本,对每个训练样本,按照B11-B12的处理步骤得到评论表征向量vr和主题表征向量vt,按照B13的处理步骤得到主题的主干信息表征
Figure FDA00029057911800000911
步骤C2:对数据集S中的每个训练样本,利用生成器从随机分布Pz和随机分布Pc中分别采样得到随机噪声z和类别c,得到包含类别信息的噪声
Figure FDA00029057911800000912
表示为:
Figure FDA00029057911800000913
步骤C3:按照B14的处理步骤,将构成vr的向量序列依次输入融合主题的多头注意力单元,在每个时间步与
Figure FDA0002905791180000101
结合,通过多头注意力机制将评论与主题进行融合,得到每个时间步的融合向量,将每个时间步的融合向量与随机噪声
Figure FDA0002905791180000102
拼接,得到融合主题的评论表征向量
Figure FDA0002905791180000103
其中中
Figure FDA0002905791180000104
表示融合主题的评论表征向量中第i个词的表征向量,其中上标FG表示对生成器输入进行融合主题的多头注意力计算;之后按照B15-B17的处理步骤,生成评论y;
步骤C4:将y与数据集S中对应的训练样本一起输入到鉴别器和分类器中,分别进行评论类别分类,对于鉴别器采用损失函数
Figure FDA0002905791180000105
进行参数更新,对于分类器采用对抗训练的损失函数
Figure FDA0002905791180000106
进行更新;
其中,
Figure FDA0002905791180000107
表示为:
Figure FDA0002905791180000108
Figure FDA0002905791180000109
Figure FDA00029057911800001010
式中,
Figure FDA00029057911800001011
是分类器在数据集S的已标记样本上进行预测分类分值的交叉熵;
Figure FDA00029057911800001012
是分类器在生成器生成的评论上进行分类预测的损失,其中
Figure FDA00029057911800001013
表示香农信息熵,α是平衡参数,用于平衡香农熵的影响;
步骤C5:采用强化学习的方式对生成器进行训练。
8.根据权利要求7所述的一种虚假用户评论检测方法,其特征在于,步骤C5具体为:
将生成器生成评论的过程视为序列决策过程,生成器则作为强化学习中的智能体或者行为者,在生成评论的过程中,将已生成的词项序列{y1,y2,...,yi-1}视为智能体当前所处的状态,所要生成的下一个词yi为智能体所采取的行为,智能体所采取的行为基于策略分布
Figure FDA00029057911800001014
进行选择,策略分布通过计算各行为的期望奖励,给出各行为的概率,智能体依据概率选择相应的行为,生成器智能体将会学习去最大化期望奖励,即:
Figure FDA0002905791180000111
其中,
Figure FDA0002905791180000112
式中,R(r)表示整个评论样本的奖励,由鉴别器和分类器共同确定提供,D表示鉴别器对评论进行计算得到的类别条件概率,
Figure FDA0002905791180000113
表示鉴别器对评论进行计算得到的类别条件概率;
为了最大化
Figure FDA0002905791180000114
生成器通过梯度策略算法一步步学习调整自己的参数θg,表示为:
Figure FDA0002905791180000115
式中,Qi-Vi为优势函数,其中:
Figure FDA0002905791180000116
Figure FDA0002905791180000117
式中,β是一个线性递减的参数,β=N-i,用于更新生成器的参数θg时提高初始生成的词的重要性,使得生成器在初始生成阶段得到更加多样化的生成词项。
9.一种虚假用户评论检测***,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8所述的方法步骤。
10.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8所述的方法步骤。
CN202110070347.3A 2021-01-19 2021-01-19 一种虚假用户评论检测方法及*** Active CN112732921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110070347.3A CN112732921B (zh) 2021-01-19 2021-01-19 一种虚假用户评论检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110070347.3A CN112732921B (zh) 2021-01-19 2021-01-19 一种虚假用户评论检测方法及***

Publications (2)

Publication Number Publication Date
CN112732921A true CN112732921A (zh) 2021-04-30
CN112732921B CN112732921B (zh) 2022-06-14

Family

ID=75592450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110070347.3A Active CN112732921B (zh) 2021-01-19 2021-01-19 一种虚假用户评论检测方法及***

Country Status (1)

Country Link
CN (1) CN112732921B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN114610877A (zh) * 2022-02-23 2022-06-10 苏州大学 基于判别方差准则的影评情感分析预处理方法及***
CN115168677A (zh) * 2022-06-09 2022-10-11 天翼爱音乐文化科技有限公司 一种评论分类方法、装置、设备及存储介质
CN117296050A (zh) * 2021-05-25 2023-12-26 维萨国际服务协会 用于使交叉嵌入对齐的嵌入归一化的方法、***和计算机程序产品
US12001489B1 (en) * 2023-01-25 2024-06-04 Fujitsu Limited Ethics-based multi-modal user post monitoring

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN109829733A (zh) * 2019-01-31 2019-05-31 重庆大学 一种基于购物行为序列数据的虚假评论检测***和方法
KR20190123397A (ko) * 2018-04-24 2019-11-01 성균관대학교산학협력단 가짜 리뷰 판별을 위한 분류 모델 선정 방법
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及***
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190123397A (ko) * 2018-04-24 2019-11-01 성균관대학교산학협력단 가짜 리뷰 판별을 위한 분류 모델 선정 방법
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN109829733A (zh) * 2019-01-31 2019-05-31 重庆大学 一种基于购物行为序列数据的虚假评论检测***和方法
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及***
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕海等: "在线产品虚假评论检测技术研究", 《沈阳理工大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117296050A (zh) * 2021-05-25 2023-12-26 维萨国际服务协会 用于使交叉嵌入对齐的嵌入归一化的方法、***和计算机程序产品
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113392334B (zh) * 2021-06-29 2024-03-08 长沙理工大学 冷启动环境下的虚假评论检测方法
CN114610877A (zh) * 2022-02-23 2022-06-10 苏州大学 基于判别方差准则的影评情感分析预处理方法及***
CN114610877B (zh) * 2022-02-23 2023-04-25 苏州大学 基于判别方差准则的影评情感分析预处理方法及***
CN115168677A (zh) * 2022-06-09 2022-10-11 天翼爱音乐文化科技有限公司 一种评论分类方法、装置、设备及存储介质
CN115168677B (zh) * 2022-06-09 2023-03-28 天翼爱音乐文化科技有限公司 一种评论分类方法、装置、设备及存储介质
US12001489B1 (en) * 2023-01-25 2024-06-04 Fujitsu Limited Ethics-based multi-modal user post monitoring

Also Published As

Publication number Publication date
CN112732921B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112732921B (zh) 一种虚假用户评论检测方法及***
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及***
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN110232395B (zh) 一种基于故障中文文本的电力***故障诊断方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN111027595A (zh) 双阶段语义词向量生成方法
Islam et al. InceptB: a CNN based classification approach for recognizing traditional bengali games
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
CN113705715B (zh) 一种基于lstm和多尺度fcn的时间序列分类方法
CN116383387A (zh) 一种基于事理逻辑的联合事件抽取方法
CN116842194A (zh) 一种电力语义知识图谱***及方法
CN111898704A (zh) 对内容样本进行聚类的方法和装置
CN113076490B (zh) 一种基于混合节点图的涉案微博对象级情感分类方法
CN107423697A (zh) 基于非线性融合深度3d卷积描述子的行为识别方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN112347252B (zh) 一种基于cnn文本分类模型的可解释性分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant