CN112541340B

CN112541340B - 基于变分双主题表征的弱监督涉案微博评价对象识别方法

Info

Publication number: CN112541340B
Application number: CN202011500553.5A
Authority: CN
Inventors: 相艳; 余正涛; 郭军军; 线岩团; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-11-23
Anticipated expiration: 2040-12-18
Also published as: CN112541340A

Abstract

本发明涉及基于变分双主题表征的弱监督涉案微博评价对象识别方法。本发明首先利用神经主题表征网络对评论进行两次变分编码和重构，获得主题特征；然后，计算神经主题表征网络的重构损失，再利用标签样本计算评价对象分类损失；最后采用联合训练策略，对神经主题表征网络的重构损失与评价对象分类损失进行联合调优，实现对微博评价对象的自动识别。本发明先利用变分双主题表征网络对评论进行两次编码和重构,获得丰富的主题特征，其次利用少量标签评论，引导主题表征网络自动判别评价对象类别。实现了对评价对象的自动分类和评价对象词项的挖掘。并在涉案舆情的两个数据集上进行了理论与技术的验证，实验结果充分证明了该方法的有效性。

Description

基于变分双主题表征的弱监督涉案微博评价对象识别方法

技术领域

本发明涉及基于变分双主题表征的弱监督涉案微博评价对象识别方法，属于自然语言处理技术领域。

背景技术

案件相关的负面突发事件通常会引发网友在互联网微博热议，并在短时间内形成传播快、范围广的热点话题，进而产生涉案网络舆情。从大量评论语料中识别出涉案舆情所关心的评价对象，如法律机构、当事人、媒体等，是舆情分析和态势评估等任务的基础。涉案微博评价对象识别的具体任务为：从评论语料中识别对象词项，并将含义相近的评价对象词项聚集到相应的类别中，进而将评论句判别为某个评价对象类别。针对微博评价对象的识别，目前的方法主要是基于主题表征的方法。传统的主题模型是将每类评价对象建模为一个主题，而评论被建模为这些主题的混合，如潜在Dirichlet分布模型(LatentDirichlet Allocation,LDA)。但这类主题模型仅限于应用到正式的且句法良好的长文档中，如新闻报道和科技文本。当处理涉案微博评论时，由于文本较短和表达繁复导致的数据稀疏问题，会影响这类模型的评价对象识别性能。

近年来,基于深度学习框架的神经主题模型得到了较好的发展，其中He等人提出了基于注意力的自编码模型(Attention-based Aspect Extraction,ABAE)，该模型利用数据集上预训练的词向量来获取词共现的分布，并基于自编码的框架来预测句子的评价对象概率分布，从而识别评价对象。与传统的基于多项式词分布的主题模型相比，基于连续空间构建的神经主题模型可以更好的处理低频词，从而在短文本评价对象识别任务中取得比LDA等传统主题模型更好的识别效果。但是,这类神经主题模型用于涉案微博评价对象识别仍然存在以下不足：(1)模型只对文本进行一次重构,这限制了模型对主题表征的学习。(2)模型可以获取若干组词项来表示不同评价对象类别，但某组词项究竟表示哪类评价对象则需要人工推断。如果某组词项难以推断，则会直接影响句子的分类结果。

针对以上两个问题,本发明提出一种基于变分双主题表征的弱监督评价对象识别方法。

发明内容

本发明提供了基于变分双主题表征的弱监督涉案微博评价对象识别方法，实现了对评价对象的自动分类和评价对象词项的挖掘，本发明的方法标注句子评价对象类别的方式更容易实现，分类性能更好；同时,所提出的两次变分编码和重构，能使模型学习到更合理的主题表征，从而提高分类性能。

本发明的技术方案是：基于变分双主题表征的弱监督涉案微博评价对象识别方法，首先利用神经主题表征网络对评论进行两次变分编码和重构，获得主题特征；然后，计算神经主题表征网络的重构损失，再利用标签样本计算评价对象分类损失；最后采用联合训练策略，对神经主题表征网络的重构损失与评价对象分类损失进行联合调优，实现对微博评价对象的自动识别。

作为本发明的进一步方案，所述识别方法的具体步骤包括：

步骤一、预训练数据集的词向量，将词向量进行拼接运算获得对应句子的原始句向量；

步骤二、通过注意力操作,原始句向量被表示为初始句向量；

步骤三、利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构，在相同的向量空间中建立词向量、句向量和主题表征向量之间的关系；

步骤四、计算神经主题表征网络的重构损失和评价对象分类损失；

步骤五、联合训练神经主题表征网络的重构损失和评价对象分类损失，实现对微博评价对象的自动识别。

作为本发明的进一步方案，所述步骤一首先预训练数据集的词向量，得到每个词的词向量，用

表示输入句子x中第i个单词的词向量，则句子嵌入为

是拼接操作,

n是句子长度,D是词向量维度；所述步骤二中，利用注意力来计算句子的初始句向量r，具体计算过程如公式(1)、(2)、(3)、(4)所示；

A＝(EM+bu^T)E^T (1)

其中,

为待优化的参数,

是值全为1的向量。

作为本发明的进一步方案，所述步骤三中，利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构，包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构,进而得到句子的辅助主题表征和核心主题表征、重构的辅助句向量和重构的核心句向量。

作为本发明的进一步方案，所述获得主题特征或所述利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构；

所述基于辅助主题表征的编码和重构包括：

将得到的初始句向量r用变分网络编码为隐向量

z为K维的辅助主题分布，其中的某个值z_l表示输入句子x属于第l个评价对象的概率；假设z服从正态分布

则：

z＝μ+σ⊙ε (5)

其中,μ＝d₁(r),logσ＝d₂(r),d₁和d₂为两个线性变换层,ε为服从正态分布的随机值；

若用

表示数据集中第l个评价对象的D维向量,则辅助主题表征为

辅助句向量由p_z和T进行重构，如公式7所示，p_z由公式6计算获得；

p_z＝softmax(z) (6)

r′＝T^Tp_z (7)

由此，可得重构的辅助句向量r′。

作为本发明的进一步方案，所述基于核心主题表征的编码和重构包括：

将得到的辅助句向量r′用变分网络编码为隐向量

z′代表K′维的核心主题分布，分布中的某个值z_l′表示输入句子x属于第l个核心评价对象的概率；假设z′服从正态分布

则：

z′＝μ′+σ′⊙ε (8)

其中,μ′＝d₁′(r′),logσ′＝d₂′(r′)，d₁′和d₂′为两个线性变换层,ε为服从正态分布的随机值；

若用

表示数据集中第l个核心主题的D维向量,则核心主题表征为

句子的核心句向量由p_z′和T′进行重构，如公式10所示，p_z′由公式9计算而得；

p_z′＝softmax(z′) (9)

由此，可得第二次重构的核心句向量r″。

作为本发明的进一步方案，所述步骤四中，计算神经主题表征网络的重构损失包括：

将得到的初始句向量r，两次变分编码和重构得到的辅助句向量r′和核心句向量r″作为输入神经主题表征网络的句子的三个表征，对于输入句子，从数据集中随机采样num个句子作为负样本，将每个负样本向量用其平均词向量n_i来表征；第j个句子的损失使用铰链损失J_j(θ),即最大化r′、r″和r之间的内积，同时最小化r′、r″和负样本之间的内积，如公式11所示：

其中,λ是一个超参数,用于控制辅助主题重构的权重，将数据集中所有句子的重构损失J_j(θ)加和,得到神经主题表征网络的重构损失J(θ)。

作为本发明的进一步方案，所述步骤四中，计算神经主题表征网络的评价对象分类损失包括：

步骤二中进行注意力操作的注意力层、步骤三中，评论的初始句向量两次重构所用到的辅助主题表征T和核心主题表征T′是与无标签数据共享参数的,而两次变分编码所用到的线性变换层d_1c、d_1c′、d_2c、d_2c′则与无标签数据不同；将标签数据的辅助主题分布z_c和核心主题分布z′_c进行拼接,

z_c为标签数据的K维的辅助主题分布，z′_c代表标签数据的K′维的核心主题分布，之后将拼接的特征用于分类,计算出标签数据属于评价对象类别的概率r1，如公式12所示。

r1＝z_{c_all}W_c+b_c (12)

用softmax对r1进行归一化，得到模型所预测的评价对象类别y，如公式13所示：

y＝softmax(r1) (13)

最后评价对象分类损失采用交叉熵代价函数计算，如公式14所示。

其中,g_i表示真实的评价对象类别标签，y_i为预测的第i个评价对象类别。

作为本发明的进一步方案，所述步骤五中通过最小化神经主题表征网络的重构损失,优化神经主题表征网络参数，通过最小化神经主题表征网络的评价对象分类损失,优化模型的分类网络参数；考虑到两个优化目标互有影响,采用联合训练策略,同时优化重构损失和评价对象分类损失。

作为本发明的进一步方案，所述步骤五中，联合训练神经主题表征网络的重构损失和评价对象分类损失包括：

通过最小化步骤四中的神经主题表征网络的重构损失J(θ),能优化神经主题表征网络参数；通过最小化步骤四中的评价对象分类损失J_c(θ),则能优化模型的分类网络参数；考虑到两个优化目标互有影响，因此，采用联合训练策略，同时优化重构损失J(θ)和评价对象分类损失J_c(θ)；此外，评价对象类型可能遭遇冗余问题,因此在损失函数中加入两个正则项,分别如公式15和公式16所示，以确保评价对象的多样性；

其中,I是单位矩阵,T′_n是T的行归一化，T″_n是T′的行归一化，T是辅助主题表征，T′是核心主题表征，当任意两个不同行向量的内积为零时,V′和V″达到它们的最小值；因此,正则化项鼓励主题表征的各行向量之间的正交性，并惩罚不同行向量之间的冗余，最终的目标函数L(θ)如公式17所示：

L(θ)＝J(θ)+αJ_c(θ)+βV′(θ)+βV″(θ) (17)

其中,α是控制分类损失权重的超参数,β是控制评价对象多样性权重的超参数；

模型学习目标是通过优化参数来最小化目标函数L(θ)，模型训练完成后，通过标签数据属于评价对象类别的概率将测试句子分类到对应的评价对象类别，并选择词向量最接近于主题表征中某个行向量的前n个词作为对应评价对象类别的词项。

本发明的有益效果是：

1、本发明先利用变分双主题表征网络对评论进行两次编码和重构,获得丰富的主题特征，其次利用少量标签评论，引导主题表征网络自动判别评价对象类别。实现了对评价对象的自动分类和评价对象词项的挖掘。并在涉案舆情的两个数据集上进行了理论与技术的验证，实验结果充分证明了该方法的有效性；

2、本发明结合了两个不同的主题表征来重构句子表示，同时基于少量标签样本的类别信息，能较好的将评论句自动分类为评价对象类别，挖掘评价对象词项。相比其他无监督主题模型，本发明的方法通过有效利用少量有标签样本的类别信息，使模型准确预测评价对象类别。相比需要挑选种子词的弱监督主题模型，本发明的方法标注句子评价对象类别的方式更容易实现，分类性能更好。同时,所提出的两次变分编码和重构，能使模型学习到更合理的主题表征，从而提高分类性能。

附图说明

图1为本发明提出的基于变分双主题表征的弱监督涉案微博评价对象识别方法实现的流程图；

图2为本发明提出的基于变分双主题表征的弱监督涉案微博评价对象识别方法的变分网络编码结构图；

图3为案件1数据集的一次重构模型与完整模型的分类结果比较；

图4为案件2数据集的一次重构模型与完整模型的分类结果比较。

具体实施方式

实施例1：如图1-图4所示，基于变分双主题表征的弱监督涉案微博评价对象识别方法，所述识别方法的具体步骤包括：

本发明采用采集了2个案件的新浪微博评论数据集来进行模型训练和评估。数据集基本信息如表1所示。案件1为某车牌女车主维权案，数据集包含44907条无标签样本,有4种标注的评价对象类别,分别为法律机构、商家(当事人)、消费者(当事人)、其他，标签样本共1925条。案件2为某地公交车坠江案，数据集包含23705条无标签样本，有4种手动标注的评价对象类别，分别为政府机构、公交司机(当事人)、媒体、其他，标签样本共1660条。两个数据集均划分80％的标签样本作为最终分类性能评估的测试集。

表1为实验数据集

步骤二、用Skip-gram模型预训练步骤一中数据集的词向量，将该词向量拼接得到原始句向量，再将该句向量经过注意力操作，原始句向量被表示为初始句向量；通过注意力操作,输入句子被表示为初始句向量r,它更多地关注与评价对象相关的单词；

所述步骤一首先预训练数据集的词向量，得到每个词的词向量，用

表示输入句子x中第i个单词的词向量，则句子嵌入为

是拼接操作,

A＝(EM+bu^T)E^T (1)

其中,

为待优化的参数,

是值全为1的向量。

利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构，包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构,进而得到句子的辅助主题表征和核心主题表征、重构的辅助句向量和重构的核心句向量。

所述基于辅助主题表征的编码和重构包括：

将得到的初始句向量r用变分网络编码为隐向量

z为K维的辅助主题分布，其中的某个值z_l表示输入句子x属于第l个评价对象的概率；变分网络编码结构如图2所示；假设z服从正态分布

则：

若用

表示数据集中第l个评价对象的D维向量,则辅助主题表征为

辅助句向量由p_z和T进行重构，如公式7所示，pz由公式6计算获得；

p_z＝softmax(z) (6)

r′＝T^Tp_z (7)

由此，可得重构的辅助句向量r′。

所述基于核心主题表征的编码和重构包括：

将得到的辅助句向量r′用如图2所示的变分网络编码为隐向量

则：

z′＝μ′+σ′⊙ε (8)

若用

表示数据集中第l个核心主题的D维向量,则核心主题表征为

p_z′＝softmax(z′) (9)

由此，可得第二次重构的核心句向量r″。

步骤三中具体的，将步骤二得到的初始句向量作为本发明提出的句向量变分编码和重构网络的输入，如图1所示，则输出即为该网络识别出的评价对象词项。在此，本发明还比较了传统主题模型Biterm主题模型(Biterm Topic Model,BTM)、基于词嵌入的主题模型(Embedded Topic Model,ETM)和本发明提出的变分编码和重构模型挖掘到的案件1中表征主题的前10个(top10)评价对象词项,如表2所示。每个模型有10个主题,表2中列举了6个主题。由表2可知，相比其他模型,本发明提出的模型所挖掘到的同类评价对象代表词项更为相似，更容易推断出评价对象类别。这得益于本文模型利用了主题向量和词向量在向量空间中的关系,相近的词更容易聚集为一类主题。

表2案件1的评价对象词项

所述步骤四中，计算神经主题表征网络的重构损失包括：

r1＝z_{c_all}W_c+b_c (12)

y＝softmax(r1) (13)

根据步骤三所得的句子主题分布可为挖掘出的评价对象分配对应的标签。在此步骤四中，本发明使用少量的标签数据来训练分类器，且在实验中将本发明提出的方法与其他几个同类模型作了对比。其中，同类模型包括LDA、BTM、ETM、基于注意力的自编码模型(Attention-based Aspect Extraction,ABAE)、多种子评价对象抽取模型(MultiSeedAspect Extractor,MATE)、ABAE_lablled(该模型与ABAE的区别在于以标签样本的主题分布为分类特征，而ABAE是以无标签样本的主题分布作为分类特征)。分类评估指标是精度(Precision,P)、召回率(Recall,R)和F1值,实验结果如表3和表4所示。LDA的分类结果在两个数据集上都最差，ETM稍好。Ours_unlabeled相比ABAE有0.02和0.03的F1值提升，说明本文模型通过两次变分编码和解码能得到更好的核心主题分布,有利于评价对象分类。相比MATE，本文模型的加权平均F1值在两个数据集上分别提升了0.13和0.176。ABAE_labelled在ABAE基础上加入标签样本训练分类器,相比原来的ABAE模型也有较大的提升,两个数据集的加权宏平均F1值相比ABAE分别提升了0.064和0.088,证明了本文提出的利用少量有标签样本进行评价对象类别指导的有效性。

表3不同模型对于案件1的评价对象分类结果

表4不同模型对于案件2的评价对象分类结果

L(θ)＝J(θ)+αJ_c(θ)+βV′(θ)+βV″(θ) (17)

为了证明本发明提出的双主题表征的有效性，对其进行了消融实验。将本发明中模型的辅助主题重构去除，即模型只对句向量进行一次重构，学习一个主题表征，标签样本也只使用一种主题分布作为分类特征。对于一次重构学习的主题表征，分别设置主题数k为10、20和30，本发明中完整模型的核心主题数为10，辅助主题数为20。辅助主题表征的主题数目设置为较核心主题表征更大的值,因此辅助主题向量代表向量空间中较小的主题聚类簇。核心主题表征则对应于较大的主题聚类簇，基于不同大小聚类簇的编码与重构能使句子学到更多的主题特征。案件1使用了12％的标签样本，比较结果如图3所示。案件2使用了15％的标签样本，比较结果如图4所示。如图3和图4所示，本发明的完整模型相比只进行一次重构的模型，在三个评价指标上都有明显提升，其中在案件1数据集上F1值提升了0.04左右，在案件2数据集上F1值提升了0.02左右。由此证明通过辅助主题重构学习到的主题分布对于评价对象分类有较好的作用。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：首先利用神经主题表征网络对评论进行两次变分编码和重构，获得主题特征；然后，计算神经主题表征网络的重构损失，再利用标签样本计算评价对象分类损失；最后采用联合训练策略，对神经主题表征网络的重构损失与评价对象分类损失进行联合调优，实现对微博评价对象的自动识别；

所述获得主题特征包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构；

所述基于辅助主题表征的编码和重构包括：

将得到的初始句向量r用变分网络编码为隐向量

则：

z＝μ+σ⊙ε (1)

其中，μ＝d₁(r)，logσ＝d₂(r)，d₁和d₂为两个线性变换层，ε为服从正态分布的随机值；

若用

表示数据集中第l个评价对象的D维向量，则辅助主题表征为

是拼接操作，辅助句向量由p_z和T进行重构，如公式3所示，p_z由公式2计算获得；

p_z＝softmax(z) (2)

r′＝T^Tp_z (3)

由此，可得重构的辅助句向量r′；

所述基于核心主题表征的编码和重构包括：

将得到的辅助句向量r′用变分网络编码为隐向量

则：

z′＝μ′+σ′⊙ε (4)

其中，μ′＝d₁′(r′)，logσ′＝d₂′(r′)，d₁′和d₂′为两个线性变换层，ε为服从正态分布的随机值；

若用

表示数据集中第l个核心主题的D维向量，则核心主题表征为

句子的核心句向量由p_z′和T′进行重构，如公式6所示，p_z′由公式5计算而得；

p_z′＝softmax(z′) (5)

r″＝T′^Tp_z′ (6)

由此，可得第二次重构的核心句向量r″。

2.根据权利要求1所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：所述识别方法的具体步骤包括：

步骤二、通过注意力操作，原始句向量被表示为初始句向量；

3.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：所述步骤一首先预训练数据集的词向量，得到每个词的词向量，用

表示输入句子x中第i个单词的词向量，则句子嵌入为

是拼接操作，

n是句子长度，D是词向量维度；所述步骤二中，利用注意力来计算句子的初始句向量r，具体计算过程如公式(7)、(8)、(9)、(10)所示；

A＝(EM+bu^T)E^T (7)

其中，

为待优化的参数，

是值全为1的向量。

4.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：所述步骤三中，利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构，包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构，进而得到句子的辅助主题表征和核心主题表征、重构的辅助句向量和重构的核心句向量。

5.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：所述步骤四中，计算神经主题表征网络的重构损失包括：

将得到的初始句向量r，两次变分编码和重构得到的辅助句向量r′和核心句向量r″作为输入神经主题表征网络的句子的三个表征，对于输入句子，从数据集中随机采样num个句子作为负样本，将每个负样本向量用其平均词向量n_i来表征；第j个句子的损失使用铰链损失J_j(θ)，即最大化r′、r″和r之间的内积，同时最小化r′、r″和负样本之间的内积，如公式11所示：

其中，λ是一个超参数，用于控制辅助主题重构的权重，将数据集中所有句子的重构损失J_j(θ)加和，得到神经主题表征网络的重构损失J(θ)。

6.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：所述步骤四中，计算神经主题表征网络的评价对象分类损失包括：

步骤二中进行注意力操作的注意力层、步骤三中，评论的初始句向量两次重构所用到的辅助主题表征T和核心主题表征T′是与无标签数据共享参数的，而两次变分编码所用到的线性变换层d_1c、d_1c′、d_2c、d_2c′则与无标签数据不同；将标签数据的辅助主题分布z_c和核心主题分布z′_c进行拼接，

z_c为标签数据的K维的辅助主题分布，z′_c代表标签数据的K′维的核心主题分布，之后将拼接的特征用于分类，计算出标签数据属于评价对象类别的概率r1，如公式12所示：

r1＝z_{c_all}W_c+b_c (12)

y＝softmax(r1) (13)

最后评价对象分类损失采用交叉熵代价函数计算，如公式14所示：

其中，g_i表示真实的评价对象类别标签，y_i为预测的第丁个评价对象类别。

7.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：所述步骤五中，通过最小化神经主题表征网络的重构损失，优化神经主题表征网络参数，通过最小化神经主题表征网络的评价对象分类损失，优化模型的分类网络参数；考虑到两个优化目标互有影响，采用联合训练策略，同时优化重构损失和评价对象分类损失。

8.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法，其特征在于：所述步骤五中，联合训练神经主题表征网络的重构损失和评价对象分类损失包括：

通过最小化步骤四中的神经主题表征网络的重构损失J(θ)，能优化神经主题表征网络参数；通过最小化步骤四中的评价对象分类损失J_c(θ)，则能优化模型的分类网络参数；考虑到两个优化目标互有影响，因此，采用联合训练策略，同时优化重构损失J(θ)和评价对象分类损失J_c(θ)；此外，评价对象类型可能遭遇冗余问题，因此在损失函数中加入两个正则项，分别如公式15和公式16所示，以确保评价对象的多样性；

V′(θ)＝||T′_n·T′_n ^T-I|| (15)

V″(θ)＝||T″_n·T″_n ^T-I|| (16)

其中，I是单位矩阵，T′_n是T的行归一化，T″_n是T′的行归一化，T是辅助主题表征，T′是核心主题表征，当任意两个不同行向量的内积为零时，V′和V″达到它们的最小值；因此，正则化项鼓励主题表征的各行向量之间的正交性，并惩罚不同行向量之间的冗余，最终的目标函数L(θ)如公式17所示：

L(θ)＝J(θ)+αJ_c(θ)+βV′(θ)+βV″(θ) (17)

其中，α是控制分类损失权重的超参数，β是控制评价对象多样性权重的超参数；