CN113901990A - 多视角集成学习的案件与新闻相关性分析方法 - Google Patents

多视角集成学习的案件与新闻相关性分析方法 Download PDF

Info

Publication number
CN113901990A
CN113901990A CN202111078776.1A CN202111078776A CN113901990A CN 113901990 A CN113901990 A CN 113901990A CN 202111078776 A CN202111078776 A CN 202111078776A CN 113901990 A CN113901990 A CN 113901990A
Authority
CN
China
Prior art keywords
news
case
information
learner
cases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111078776.1A
Other languages
English (en)
Inventor
余正涛
汪翠
黄于欣
毛存礼
张玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111078776.1A priority Critical patent/CN113901990A/zh
Publication of CN113901990A publication Critical patent/CN113901990A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及多视角集成学习的案件与新闻相关性分析方法,属于自然语言处理技术领域。本发明包括步骤:以孪生网络为基础框架,并结合CNN网络、Transformer编码网络以及主题模型来实现局部信息、结构信息以及主题信息的特征抽取,考虑到案件要素蕴含案件的关键语义信息,将案件要素用于指导三个预训练基学习器获取指向性信息,再通过多头自注意力机制构建权重学习器,结合三种指向性信息并计算曼哈顿距离,最终获取到更为均衡合理的相似性关系。实验结果表明本发明多视角集成的方法相比基于语义相似度的方法F1值提升了2.5%。

Description

多视角集成学习的案件与新闻相关性分析方法
技术领域
本发明涉及多视角集成学习的案件与新闻相关性分析方法,属于自然语言处理技术领域。
背景技术
近年来,深度学习在文本相似度计算中的应用备受关注,常见方法大体可分为三类:表示型网络、交互型网络、预训练语言模型。其中,表示型网络的代表作包括孪生网络框架(Siamese Network),是由一组具有相同参数的网络作为基础构成的神经网络。交互型网络,代表作如ESIM,该框架主要特点是能够捕获两个句子之间更多的交互特征。但是,该框架捕获交互信息时的匹配操作往往需要耗费部分时间。此外近几年兴起的预训练语言模型也取得了优越的效果,代表作如BERT、RoBERTa等。BERT是上下文表示学习的最新进展中的关键创新之一。BERT采用了一种微调方法,几乎不需要为每个最终任务使用特定的体系结构,在许多NLP任务中均达到了最先进的性能。
由以上分析可知,案件和新闻之间的文本内容差异过大的特点,导致需要使用多种视角共同建模其相似性。而集成学习可以组合多个不同的个体学习器以获取更好的结果,且异构个体学习器可以代表多种相似角度,可以很好适用于案件与新闻相关性分析。因此,本发明借鉴前人工作,使用集成学习思想,选取三种个体学习器代表三种不同的视角,以此来对案件和新闻的相似性问题进行深入探究。
发明内容
本发明提供了多视角集成学习的案件与新闻相关性分析方法,本发明用于提高案件与新闻相关性分析的准确率;本发明使用孪生网络框架为基础,遵循集成学习的思想,选取了三种不同特点的网络结构代表三种视角,构建了局部信息学习器、结构信息学习器以及主题信息学习器,使它们在获取语义特征的同时,保持侧重不同。对三种个体学习器分别进行预训练,使得每种学习器都得到最好的结果。最后由多头注意力机制构建的权重学习器对三种信息进行结合,获取最终的相似性度量。
本发明的技术方案是:多视角集成学习的案件与新闻相关性分析方法,所述方法的具体步骤如下:
Step1、使用CNN网络构建局部信息学习器,用于获取案件和新闻之间的局部信息相似性;
Step2、使用Transformer网络构建局部信息学习器,用于获取案件和新闻之间的结构信息相似性;
Step3、使用预训练主题模型构建局部信息学习器,用于获取案件和新闻之间的主题信息相似性;
Step4、使用多头注意力机制构建权重学习器,用于从多个角度共同评判相似程度。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,得到加权后的案件和新闻的特征向量;
Step1.2、使用CNN网络对案件和新闻的特征向量进行局部信息抽取,通过池化操作后,对CNN的输出通道使用自注意力机制进行权重学习,用于提高重要局部信息的权重。
Step1.3、将抽取到的案件和新闻的局部信息编码向量进行曼哈顿距离计算得到最终的相似关系。
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,并在其中加入案件和新闻文本的绝对位置编码信息,得到加权后的案件和新闻的特征向量。
Step2.2、使用Transformer网络层对包含位置编码信息的案件和新闻特征向量进行结构信息抽取。
Step2.3、将抽取到的案件和新闻的结构信息编码向量进行曼哈顿距离计算得到最终的相似关系。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用变分自编码器(VAE)对案件和新闻的全部数据进行无监督预训练,得到无监督主题模型。
Step3.2、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,并在其中加入由主题模型抽取到的案件和新闻的主题向量,得到加权后的案件和新闻的特征向量。
Step3.3、使用双向LSTM网络层对包含主题信息的案件和新闻特征向量进行主题信息抽取。
Step3.4、将抽取到的案件和新闻的主题信息编码向量进行曼哈顿距离计算得到最终的相似关系。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
使用个体学习器学习单个视角并将预训练效果达到最优后,为了更均衡的衡量三种表征的重要程度,联合Step1、Step2、Step3分别得到的三种表征进行权重学习,使用多头自注意力机制来获取不同角度下的权重信息后再通过前馈神经网络,最后进行距离计算,得到最终相似度y。
outputc=fn(MultiHead([Partc;Compositionc;Topicc])) (1)
outputx=fn(MultiHead([Partx;Compositionx;Topicx])) (2)
y=1-Sigmoid(Manhattan(outputc,outputx)) (3)
其中outputc和outputx表示前馈神经网络的输出,代表了案件和新闻的最终表征。
本发明的有益效果是:
本发明的多视角集成学***衡,内容差距过大这一问题,本发明提出从多个视角对案件和新闻之间的相似性进行评判,并通过实验验证了本发明的有效性。
附图说明
图1为本发明中的具体流程框架图;
图2为本发明中的局部信息学习器示意图;
图3为本发明中的结构信息学习器示意图;
图4为本发明中的VAE主题学习器示意图;
图5为本发明中的基于多头自注意力机制构建的权重学习器模型结构图。
具体实施方式
实施例1:如图1-图5所示,本发明的多视角集成学习的案件与新闻相关性分析方法,所述方法包括:
Step1、使用CNN网络构建局部信息学习器,用于获取案件和新闻之间的局部信息相似性;
如图2的局部信息学习器所示,使用案件要素作为外部指导,并使用自注意力机制对CNN网络的输出通道进行加权,提升网络对局部信息的捕捉能力。对局部信息学习器进行预训练,并使用交叉熵损失作为损失函数,使用Adam算法作为优化器。
Step2、使用Transformer网络构建局部信息学习器,用于获取案件和新闻之间的结构信息相似性;
如图3的结构信息学习器所示,Transformer的编码层是以self-attention为基础的网络结构,每次处理后都进行残差连接,这种网络有利于获取案件和新闻的全局信息。这里同样使用案件要素外部指导,并在Embedding层加入位置编码信息,增强网络对于全局结构信息的捕捉能力,以及使用交叉熵损失作为损失函数,使用Adam算法作为优化器来进行预训练。
Step3、使用预训练主题模型构建局部信息学习器,用于获取案件和新闻之间的主题信息相似性;
如图4的VAE主题学习器所示,基于变分自编码器(VAE)的主题模型是一个无监督的文档生成模型,旨在从文档的词向量空间中抽取潜在主题特征,并生成相应文档。Suchin等人曾使用VAE抽取主题信息用来辅助文本分类任务,本发明参考前人的工作,使用预训练VAE获取主题信息并用于辅助构建主题信息学习器。
Step4、使用多头注意力机制构建权重学习器,用于从多个角度共同评判相似程度。使用个体学习器学习单个视角并将预训练效果达到最优后,为了更均衡的衡量三种表征的重要程度,联合Step1、Step2、Step3分别得到的三种表征进行权重学习,使用多头自注意力机制来获取不同角度下的权重信息后再通过前馈神经网络,最后进行距离计算,得到最终相似度。
如图5基于多头自注意力机制构建的权重学习器模型结构图所示,在预训练三种个体学习器后,使用它们的输出结果作为训练集对权重学习器进行训练。不同于传统集成学习结合策略,本发明选用各个体学习器最终输出表征部分来作为训练集,使得权重学习器可以学习到原始文本的信息。
Step5、在微博等新闻网站上通过XPath爬取原始新闻语料,并对原始语料进行数据预处理以及数据集划分等操作。
Step6、采用准确率(Acc.)、精确率(P)、召回(R)和F1值、Q统计量作为评价指标来衡量本发明的实验有效性。
Step7、本发明主要采用了六种经典的文本相似度计算模型作为基线模型进行对比实验,基线模型包括了孪生网络模型、聚合-匹配模型以及预训练模型。
Step8、为了验证本发明中的方法对案件与新闻相关性分析任务的有效性,采用6种基线模型进行对比实验,并对实验结果进行分析。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、首先对案件描述进行人工标注得到案件要素,并对根据新闻标题对新闻文本进行压缩,用于去除新闻冗余信息。通过共享Embedding层编码后的案件描述为
Figure BDA0003263093460000051
新闻文本为
Figure BDA0003263093460000052
案件要素为
Figure BDA0003263093460000053
其中m表示案件描述文本的长度,n表示新闻文本长度,k表示案件要素的个数。得到三种信息的编码矩阵后,再使用案件要素编码矩阵E对新闻编码矩阵X进行指导加权,具体操作如下:
H=XWE∈Rn*v,W∈Rv*k (1)
X'=tanh(H)∈Rn*v (2)
X'表示由案件要素指导后的新闻编码矩阵。式(1)和式(2)的操作可以理解为简化版本的注意力机制,权重矩阵W是可训练矩阵,可以看成从案件要素矩阵E对新闻编码矩阵X之间的加权函数,通过模型自主学习,可以学到E对X每个元素的加权规则,再通过tanh激活函数,将加权后的矩阵元素映射到0-1区间,提高收敛速度。
Step1.2、将案件描述的词嵌入C以及由案件要素指导生成的新闻矩阵X'分别输入到共享参数的CNN层进行卷积后获得窗口化的局部信息。之后,再通过池化操作减小数据的空间大小,以缓解过拟合,具体操作如下:
hiddenx=MaxPooling(CNN(X')) (3)
hiddenc=MaxPooling(CNN(C)) (4)
其中MaxPooling表示池化操作,hiddenx和hiddenc表示CNN网络提取到的局部信息。
将hiddenx和hiddenc分别通过自注意力机制进行加权,再通过前馈神经网络层后获得新闻文本和案件文本的局部信息表征向量,即Partx和Partc。如式(5)、式(6)所示。
Partx=fn(Attention(hiddenx)) (5)
Partc=fn(Attention(hiddenc)) (6)
值得注意的是,这里的自注意力机制是对CNN网络的输出通道进行加权,因为每个通道都表示一个卷积核通过卷积操作获得的局部信息,对输出通道使用自注意力机制表示让网络自主学习哪个卷积核得到局部信息的输出更重要。自注意力机制的实现如下。
Figure BDA0003263093460000061
其中Q、K、V均为向量形式,且三者相等。计算Q和K点积后除以
Figure BDA0003263093460000062
来起到调节作用,以控制Q,K的内积不会太大。
Step1.3、本发明的局部信息学习器选用曼哈顿距离计算新闻文本和案件文本之间的距离,用以衡量两者之间的相似性差异。
yP=1-Sigmoid(Manhattan(Partx,Partc)) (8)
其中Manhattan表示曼哈顿距离计算,通过该函数得到案件和新闻两个局部信息表征向量之间的曼哈顿距离,再通过Sigmoid函数将距离值映射到0-1区间内。由于距离越近的时相似度越高,即距离和相似度成反比,因此使用1减去Sigmoid的结果作为最终的相似度yp
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、结构信息学习器和局部信息学习器结构类似,不同的是结构信息学习器在Embedding层加入了位置信息,且中间的共享网络层换成了Transformer的编码层。这是由于整个网络的前半部分是在进行编码和加权,可以看成信息的收集,而中间的共享网络层是进行特征提取的部分。这里使用的位置信息是原生Transformer中的绝对位置信息,即对每个词的绝对位置进行计算,生成一个固定的位置矩阵。
Figure BDA0003263093460000063
Figure BDA0003263093460000064
其中pos是每个词的位置索引,其大小等同于词表大小,dmodel是编码维度,i表示任意维度且2*i=dmodel
Step2.2、将案件和新闻通过与上述步骤1中局部信息学习器同样的Embedding过程,获得词向量C和X',再联合其位置编码Cpos和Xpos组成完整的词向量Cwhole和Xwhole,之后通过一层Transformer的编码层,获得文本结构信息。具体过程如下式(11)~(14)所示:
Xattn=Norm([MultiHead(Xwhole);Xwhole]) (11)
Cattn=Norm([MultiHead(Cwhole);Cwhole]) (12)
Compositionx=Norm([fn(Xattn);Xattn]) (13)
Compositionc=Norm([fn(Cattn);Cattn]) (14)
其中Xattn和Cattn表示归一化后多头自注意力机制的输出,Compositionx和Compositionc表示案件和新闻的结构信息。
Step2.3、最后通过曼哈顿距离计算得到最终的相似度yc
yc=1-Sigmoid(Manhattan(Compositionx,Compositionc)) (15)
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、VAE架构是一种编码器-解码器架构。在编码器中,将输入压缩为潜在主题Z,而解码器根据数据潜在空间中Z的分布通过采样重构出输入信号D。
Figure BDA0003263093460000071
其中Z表示潜在主题,P(D|Z)描述了由Z生成D的概率。
通常情况下,VAE模型假设输入数据D的潜在主题Z的后验概率近似满足高斯分布,即:
logP(Z|d(i))=logN(z;μ(i)2(i)I) (17)
其中d(i)表示D中的某个真实样本,每个μ和δ2均是由d(i)通过神经网络生成的。
通过μ(i)和δ2(i)进一步获得每个d(i)对应的分布P(Z(i)|d(i)),然后通过解码网络
Figure BDA0003263093460000072
重构出
Figure BDA0003263093460000073
μ(i)=f1(d(i)) (18)
logδ2(i)=f2(d(i)) (19)
为了使重构数据尽可能接近原始数据,VAE最终的优化目标为在最大化d(i)的生成概率P(d(i))的同时,利用KL散度使从数据中得到的后验概率P(Z(i)|d(i))尽可能逼近其理论变分概率,即N(0,I)。此优化目标的表达式如式(20)所示。
Figure BDA0003263093460000081
Step3.2、如图4所示,其中D表示输入的案件文本和新闻文本,需要对D进行两种不同的处理。首先是对D中的案件和新闻文本进行与上述步骤1中局部学习器同样的编码过程,使用案件要素进行指导,获得案件表征C和案件要素指导的新闻表征X'。此外,将案件文本和新闻文本分别输入到预训练VAE主题模型中,分别获取到案件和新闻的潜在主题向量Zc与Zx,如式(21)和式(22)所示。
ZC=PreTrainedVAE(C)∈Rtopic_size (21)
ZX=PreTrainedVAE(X)∈Rtopic_size (22)
其中topic_size表示预设的潜在主题个数。将主题向量、案件向量以及新闻向量进行拼接后再通过双向LSTM,使得主题信息和文本信息进行交互,最后通过全连接网络获得案件和新闻的主题信息表征。具体操作如式(23)~(25)所示:
Topicx=MLP(BiLSTM([ZX;X'])) (23)
Topicc=MLP(BiLSTM([ZC;C])) (24)
yT=1-Sigmoid(Manhattan(Topicx,Topicc)) (25)
其中Topicx和Topicc分别代表新闻文本和案件文本的主题信息向量。
最后通过曼哈顿距离计算,再经过Sigmoid函数进行归一化处理,得到最终的相似度yT。该学习器的预训练使用交叉熵为损失函数以及使用Adam算法作为优化器。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、使用个体学习器学习单个视角并将预训练效果达到最优后,为了衡量不同个体学习器三种表征的重要程度,本发明联合了三种个体学习器的输出表征进行权重学习,以及使用多头自注意力机制来获取不同角度下的权重信息,通过前馈神经网络后再进行距离计算,得到最终相似度y。
outputc=fn(MultiHead([Partc;Compositionc;Topicc])) (26)
outputx=fn(MultiHead([Partx;Compositionx;Topicx])) (27)
y=1-Sigmoid(Manhattan(outputc,outputx)) (28)
其中outputc和outputx表示前馈神经网络的输出,代表了案件和新闻的最终表征。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、通过分析近年来的热门案件,本发明选择了15个具有代表性的热门案件,爬取了与案件相关的新闻6049条。根据爬取的案件与新闻的关联关系,建立案件与新闻相似关系的三元组,形式如(案件,新闻,相似关系),得到相关的案件-新闻数据对6049对,以及使用数据增广方法,获得不相关的案件-新闻数据对6000对,最终共得12049个三元组。数据集的具体划分如表1所示。
表1 案件与新闻数据分布表
Figure BDA0003263093460000091
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.1、本发明的评价指标主要采用准确率(Acc.)、精确率(P)、召回(R)和F1值,并且本发明选取Q统计量作为个体学习器多样性度量指标。Q统计量的取值范围为[-1.1],其中-1表示负相关,1表示正相关,0表示无关。
作为本发明的优选方案,所述步骤Step7的具体步骤为:
Step7.1、本发明主要采用了六种经典的文本相似度计算模型来作为基线模型进行对比,包括了孪生网络模型、聚合-匹配模型以及预训练模型,基线模型如下:
●Siamese-CNN模型:Shen等人通过用CNN增强模型捕获窗口特征的能力。该模型主要包括一个卷积层和一个池化层,最后再通过一个全连接层进行相似度计算。
●Siamese-LSTM模型:Neculoiu等人使用两层的LSTM进行特征提取,再通过一个全连接层进行相似度计算。
●Siamese-Transformer模型:使用Transformer的单个编码层进行特征提取,再通过一个全连接层进行相似度计算。
●ESIM模型:Qian等人采用基于注意力的LSTM来捕获两个句子之间的高阶交互信息。本模型主要组成为:输入编码,局部推理建模和推理组合,再通过全连接层进行相似度计算。
●BiMPM模型:Wang等人提出了四种匹配函数,交互融合后获得匹配结果。该模型主要组成为:输入编码,匹配层,特征融合层,以及通过两层前馈网络进行相似度计算。
●BERT模型:谷歌提出的预训练语言模型,主要是在BERT后续加上全连接层进行微调,获得文本相似性。
作为本发明的优选方案,所述步骤Step8的具体步骤为:
Step8.1、本发明与六种基线模型的对比实验:该实验部分主要是为了验证本发明对案件与新闻相关性分析任务的有效性。本发明采用上诉6种基线模型进行对比实验,实验结果对比结果如表2所示。
表2 本发明与基线模型实验结果对比
Figure BDA0003263093460000101
分析表2可知,本发明的Acc.、P、R和F1值均超过其他基线模型,其中,Acc.提升了3.2%,F1值提升了2.5%。由此证明了本发明提出的基于集成学***衡文本的匹配问题,从多视角进行相似度匹配是一种有效的解决思路。
Step8.2、个体学习器多样性分析实验:该实验部分是为了验证本发明所提出的个体学习器的多样性。表3是各个体学习器预测结果的列联表。特别说明,表中横轴和纵轴表示各个体学习器,“G1”表示局部信息学习器,“G2”表示结构信息学习器,“G3”表示主题信息学习器,“+”表示个体学习器判定为相关的样本个数,“-”表示个体学习器判定为不相关的样本个数。结果如表3所示。
表3 预测结果列联表
Figure BDA0003263093460000102
Figure BDA0003263093460000111
对表3中的结果进行Q统计量计算,得到如表4所示结果。其中“Q12”表示个体学习器G1与G2之间的多样性度量结果,“Q”表示整个集成***的多样性度量。
表4 个体学习器多样性度量结果
Figure BDA0003263093460000112
由表4可知,Q12、Q13、Q22均在0-1之间,由此说明三者之间都属于正相关,且存在一定的多样性。Q值的结果说明了整个集成***的具有多样性。此实验结果证明三个不同的个体学习器分别学习到了不同侧面的信息且权重学习器也很好的综合了三种不同的信息。
Step8.3、集成策略效用分析实验:该实验部分是为了验证本发明权重学***均法、投票法以及逻辑回归算法作为对比实验,使用每个个体学习器的最终输出作为对比实验的训练集。实验结果如下表5所示。
表5 集成策略实验结果
Figure BDA0003263093460000113
对比其他集成策略,本发明的方法取得了最优的效果,F1值超过了约1%的效果,充分证明了本发明的集成策略在本发明任务上具有优越性。其中,平均法和投票法的效果不仅没有提升,反而略微下降了,说明这两种策略并未起到集成作用,其原因在于个体学习器数量较少,且结构信息学习器的效果优于其他实验效果,存在结果覆盖的现象。逻辑回归集成取得了超过个体学习器的效果,说明集成策略有作用,再结合本发明方法可以看出,学习型集成策略的集成效果优于其他策略。
Step8.4、各个体学习器内部关键模块效用分析实验:该实验部分是为了对本发明方法中各个体学习器的关键模块进行有效性验证。实验结果如表6所示。特别说明,“(-)case”表示各个体学习器都未使用案件要素作为外部指导,“(-)position”表示结构信息学习器未使用位置信息,“(-)self-Attention”表示局部信息学习器未使用自注意力机制,“(-)topic”表示主题信息学习器未使用主题信息。
表6 各部分特征有效性验证实验结果
Figure BDA0003263093460000121
分析表6可知,在“(-)case”的情况下,三种个体学习器的效果相比本发明的方法都有较为明显的下降,且对比表2可知,由于获得了案件要素的指导,使得原本结构简单的孪生网络,取得超过ESIM这种复杂的匹配-聚合网络的性能。由此充分证明本发明利用案件要素做外部指导的有效性。在“(-)position”的情况下,结构信息学习器的结果存在较大的下降,说明该学习器有效学习到了结构信息;在“(-)self-Attention”的情况下,局部信息学习器效果的下降说明了对于CNN通道做自注意力的有效性,而CNN的通道代表了不同的局部特征信息,侧面验证了该学习器可以鉴别局部信息的重要程度。最后在“(-)topic”的情况下,主题信息学习器效果的下降也反应出该学习器能够有效利用主题信息进行相似度计算。
Step8.5、新闻实例测试分析实验:该部分实验主要是为了验证本发明方法对案件与新闻相关性分析准确率的提升。本发明选用如下的表7和表8所示新闻与案件构建出案件与新闻相似关系的三元组。
表7 新闻文本举例
Figure BDA0003263093460000122
表8 案件描述文本举例
Figure BDA0003263093460000123
表7和表8构成的三元组形式如下:
(案情描述,新闻1,相似)
(案情描述,新闻2,相似)
(案情描述,新闻3,相似)
本发明选用上述基线模型中具有代表性的Siamese-LSTM、BiMPM以及BERT来进行实验,实验结果如下,其中0代表不相似,1代表相似。
表9 新闻实例测试结果
Figure BDA0003263093460000131
实验结果如上表9所示,本发明方法对三个新闻实例与对应案件的相似关系都做出了准确的判断。对于Siamese-LSTM、BiMPM以及BERT来说,它们都无法对这三个例子同时做出准确判断。由此可以证明,本发明的思路可以很好的利用到多个视角的相似关系,有效应对案件与新闻之间文本不平衡的问题,提高了案件与新闻相似度计算的准确率。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述方法的具体步骤如下:
Step1、使用CNN网络构建局部信息学习器,用于获取案件和新闻之间的局部信息相似性;
Step2、使用Transformer网络构建局部信息学习器,用于获取案件和新闻之间的结构信息相似性;
Step3、使用预训练主题模型构建局部信息学习器,用于获取案件和新闻之间的主题信息相似性;
Step4、使用多头注意力机制构建权重学习器,用于从多个角度共同评判相似程度。
2.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,得到加权后的案件和新闻的特征向量;
Step1.2、使用CNN网络对案件和新闻的特征向量进行局部信息抽取,通过池化操作后,对CNN的输出通道使用自注意力机制进行权重学习,用于提高重要局部信息的权重;
Step1.3、将抽取到的案件和新闻的局部信息进行曼哈顿距离计算得到最终的相似关系。
3.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,并在其中加入案件和新闻文本的绝对位置编码信息,得到加权后的案件和新闻的特征向量;
Step2.2、使用Transformer网络层对包含位置编码信息的案件和新闻特征向量进行结构信息抽取;
Step2.3、将抽取到的案件和新闻的结构信息编码向量进行曼哈顿距离计算得到最终的相似关系。
4.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、使用变分自编码器VAE对案件和新闻的全部数据进行无监督预训练,得到无监督主题模型;
Step3.2、使用中文微博词向量来获得标题中每个词的嵌入表征,引入案件要素作为新闻的外部指导,并在其中加入由主题模型抽取到的案件和新闻的主题向量,得到加权后的案件和新闻的特征向量;
Step3.3、使用双向LSTM网络层对包含主题信息的案件和新闻特征向量进行主题信息抽取;
Step3.4、将抽取到的案件和新闻的主题信息编码向量进行曼哈顿距离计算得到最终的相似关系。
5.根据权利要求1所述的多视角集成学习的案件与新闻相关性分析方法,其特征在于:所述步骤Step4中包括:
使用个体学习器学习单个视角并将预训练效果达到最优后,联合Step1、Step2、Step3分别得到的三种表征进行权重学习,使用多头自注意力机制来获取不同角度下的权重信息后再通过前馈神经网络,最后进行距离计算,得到最终相似度。
CN202111078776.1A 2021-09-15 2021-09-15 多视角集成学习的案件与新闻相关性分析方法 Pending CN113901990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111078776.1A CN113901990A (zh) 2021-09-15 2021-09-15 多视角集成学习的案件与新闻相关性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111078776.1A CN113901990A (zh) 2021-09-15 2021-09-15 多视角集成学习的案件与新闻相关性分析方法

Publications (1)

Publication Number Publication Date
CN113901990A true CN113901990A (zh) 2022-01-07

Family

ID=79028500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111078776.1A Pending CN113901990A (zh) 2021-09-15 2021-09-15 多视角集成学习的案件与新闻相关性分析方法

Country Status (1)

Country Link
CN (1) CN113901990A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817501A (zh) * 2022-04-27 2022-07-29 马上消费金融股份有限公司 一种数据处理方法、数据处理装置、电子设备及存储介质
CN114926206A (zh) * 2022-05-18 2022-08-19 阿里巴巴(中国)有限公司 预测模型的训练方法、物品销售信息的预测方法及装置
CN117056874A (zh) * 2023-08-17 2023-11-14 国网四川省电力公司营销服务中心 一种基于深度孪生自回归网络的无监督窃电检测方法
CN117236323A (zh) * 2023-10-09 2023-12-15 青岛中企英才集团商业管理有限公司 一种基于大数据的信息处理方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018757A1 (en) * 2016-07-13 2018-01-18 Kenji Suzuki Transforming projection data in tomography by means of machine learning
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
CN110717332A (zh) * 2019-07-26 2020-01-21 昆明理工大学 基于非对称孪生网络的新闻与案件相似度计算方法
CN110766065A (zh) * 2019-10-18 2020-02-07 山东浪潮人工智能研究院有限公司 一种基于深度超信息的哈希学习方法
CN111368087A (zh) * 2020-03-23 2020-07-03 中南大学 基于多输入注意力网络的中文文本分类方法
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112287687A (zh) * 2020-09-17 2021-01-29 昆明理工大学 基于案件属性感知的案件倾向性抽取式摘要方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018757A1 (en) * 2016-07-13 2018-01-18 Kenji Suzuki Transforming projection data in tomography by means of machine learning
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
CN110717332A (zh) * 2019-07-26 2020-01-21 昆明理工大学 基于非对称孪生网络的新闻与案件相似度计算方法
CN110766065A (zh) * 2019-10-18 2020-02-07 山东浪潮人工智能研究院有限公司 一种基于深度超信息的哈希学习方法
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及***
CN111368087A (zh) * 2020-03-23 2020-07-03 中南大学 基于多输入注意力网络的中文文本分类方法
CN112287687A (zh) * 2020-09-17 2021-01-29 昆明理工大学 基于案件属性感知的案件倾向性抽取式摘要方法
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵承鼎;郭军军;余正涛;黄于欣;刘权;宋燃;: "基于非对称孪生网络的新闻与案件相关性分析", 中文信息学报, no. 03, 15 March 2020 (2020-03-15) *
陈佳伟;韩芳;王直杰;: "基于自注意力门控图卷积网络的特定目标情感分析", 计算机应用, no. 08, 10 August 2020 (2020-08-10) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817501A (zh) * 2022-04-27 2022-07-29 马上消费金融股份有限公司 一种数据处理方法、数据处理装置、电子设备及存储介质
CN114926206A (zh) * 2022-05-18 2022-08-19 阿里巴巴(中国)有限公司 预测模型的训练方法、物品销售信息的预测方法及装置
CN117056874A (zh) * 2023-08-17 2023-11-14 国网四川省电力公司营销服务中心 一种基于深度孪生自回归网络的无监督窃电检测方法
CN117236323A (zh) * 2023-10-09 2023-12-15 青岛中企英才集团商业管理有限公司 一种基于大数据的信息处理方法及***
CN117236323B (zh) * 2023-10-09 2024-03-29 京闽数科(北京)有限公司 一种基于大数据的信息处理方法及***

Similar Documents

Publication Publication Date Title
CN113901990A (zh) 多视角集成学习的案件与新闻相关性分析方法
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及***
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及***
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***
CN111930887B (zh) 基于联合训练方式的多文档多答案机器阅读理解***
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN113254604B (zh) 一种基于参考规范的专业文本生成方法及装置
CN111651558A (zh) 基于预训练语义模型的超球面协同度量推荐装置和方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN113901847A (zh) 基于源语言句法增强解码的神经机器翻译方法
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113157919A (zh) 语句文本方面级情感分类方法及***
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN115810351A (zh) 一种基于视听融合的管制员语音识别方法及装置
Wang et al. EfficientTDNN: Efficient architecture search for speaker recognition
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN117953405A (zh) 融合跨模态注意力和关注模态内信息的视听零次学习方法
Fajcik et al. Pruning the index contents for memory efficient open-domain qa
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及***
CN116663523A (zh) 多角度增强网络的语义文本相似度计算方法
CN116596031A (zh) 一种去负样本的无监督句子表征学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination