CN115292447A

CN115292447A - 融合主题与实体知识的新闻匹配方法

Info

Publication number: CN115292447A
Application number: CN202210823699.6A
Authority: CN
Inventors: 余正涛; 梁胤; 朱恩昌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-11-04

Abstract

本发明提出一种融合主题与实体知识的新闻匹配方法，属于自然语言处理技术领域。该方法通过把待匹配的文本分别通过主题分析模型和实体识别工具得到主题与实体知识，提取到的主题和实体知识的特征对新闻文本进行进一步的理解，构成伪孪生网络的形式，计算两者的相似分数，判断其是否匹配。本发明提出的方法能够基于多种形式的新闻文本有效地提升匹配的准确率，适用于新闻与案件的新闻相关性匹配。

Description

融合主题与实体知识的新闻匹配方法

技术领域

本发明提出一种融合主题与实体知识的新闻匹配方法，属于自然语言处理技术领域。

背景技术

随着舆情信息监管力度的逐步提升，准确地从海量新闻中匹配到特定案件对应的新闻是舆情信息监管的重要部分。新闻的匹配是法律领域更深层次任务研究的基础工作，比如智能问答、信息检索等，也是法律领域舆情信息监管的关键任务之一，主要是通过计算待匹配文本的相似分数，从而根据相似分数判断其是否匹配。

现阶段新闻匹配的研究工作较少，本发明根据任务特性可将其视为文本相似度计算任务，主要是指带匹配文本在语义层面的相似性。然而常规的文本相似度计算主要针对结构相似或对称的短文本，而新闻数据来源广泛、内容表述多样化，导致新闻文本语义、结构差异加大，并且包含较多冗余信息。因此常规的文本相似度计算方法不适用于新闻匹配任务。

新闻的主题主要包含“动词”为主的手段及过程，实体知识主要包含时间、地点、人物、组织机构，显而易见主题与实体知识具有相似或相同的特性。基于此分析，提出一种融合主题与实体知识的新闻匹配方法。

发明内容

本发明提供一种融合主题与实体知识的新闻匹配方法。增强了待匹配文本的语义信息，辅助计算待匹配文本的相似性，从而改进新闻匹配的性能；该方法通过主题信息生成模型 (BERT-ECTM)获取主题分布向量，然后利用主流实体识别模型识别出新闻的实体知识(人名、时间、地点和机构名称)，并通过模板化词向量的方法获取实体知识嵌入向量，同时将两个向量与新闻上下文语义表示向量进行融合，得到待匹配文本的表示向量，再利用曼哈顿距离计算两者匹配度。

本发明的发明技术方案是：融合主题与实体知识的新闻匹配方法，所述方法通过主题信息生成模型获取主题分布向量，然后利用主流实体识别模型识别出新闻的实体知识，并通过模板化词向量的方法获取实体知识嵌入向量，同时将主题分布向量、实体知识嵌入向量两个向量与新闻上下文语义表示向量进行融合，得到具备偏好的待匹配新闻上下文语义文本嵌入向量，再利用曼哈顿距离计算两者匹配度。

作为本发明的进一步方案，所述融合主题与实体知识的新闻匹配方法的具体步骤如下：

Step1、语料预处理：预处理不同规模的平行训练语料、验证语料和测试语料，用于模型训练、参数调优和效果测试；

Step2、文本编码：获取预处理的新闻文档数据后，将其通过WoBERT模型进行训练获得具有上下文语义信息的词嵌入表征，从而得到新闻文本的词袋表示向量和词嵌入向量；训练过程中的输入编码向量是词、句和位置三个嵌入表征的结合；

Step3、主题提取：利用主题信息生成模型BERT-ECTM获取主题分布向量，以获取新闻语料；具体为：将Step2中获取的新闻文本的词袋表示向量和词嵌入向量输入到主题分析模型中，获取具有新闻的主题分布；

Step4、实体知识提取：当输入待匹配新闻进行命名实体识别后，输出其命名实体标注信息，选取其中的“NR、NS、NT和T”词性标签；利用模板Embedding方法获取新闻中的实体嵌入，使用“e”的嵌入来表示实体知识嵌入向量，利用最大池化中的平滑方式获取每个实体的实体嵌入；将Step2得到的BERT编码的新闻文本的词嵌入向量进行线性变换后将其与Step3得到的新闻的主题分布向量和Step4得到的实体知识嵌入向量进行拼接，获取具备偏好的待匹配新闻上下文语义文本嵌入向量，用于后续文本匹配计算；

Step5、匹配：根据得到的具有偏好的待匹配新闻的上下文语义文本嵌入向量，先计算两个的语义表示向量的曼哈顿距离，然后经过sigmoid函数进行归一化处理，从而计算新闻a和新闻b的匹配度，也就是相似分数。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、选取若干个热点案件，爬取相关的新闻，并经过人工校对的方法，选取若干个案件相关的热点新闻；

Step1.2、在Step1.1的所获得的热点新闻语料上，利用新闻匹配数据集构建方法，构成“新闻-新闻”对的形式，其中每个类别新闻正负例各500对，共13000对；

Step1.3、在Step1.2的基础上，将整个数据集划分为10600对训练集、1200对验证集和1200对测试集。

作为本发明的进一步方案，所述Step3的具体步骤为：

Step3.1、将编码模块中获取的新闻文本的词袋表示向量

和词嵌入向量

输入到主题分析模型中，获取具有偏好的主题分布；

Step3.2、从主题中采样，利用第n个单词的主题，根据主题，结合新闻的词嵌入向量

进行解码，得到具备偏好的主题-词分布W_dn；

Step3.3、然后将主题-词分布向量W_dn输入多头自注意力机制中进行计算，从而得到新的更具偏好的主题分布向量：

W_dn～BERT-ECTM(Q_d,N_d)

其中W_dn表示具有偏好主题分布-词分布向量，Mulit-Head-Attention表示多头自注意力机制的计算过程，M_d表示更具偏好的主题分布向量，将其融入到新闻匹配中，以提升其性能，d表示主题分布向量的维度大小。

作为本发明的进一步方案，所述Step4的具体步骤为：

Step4.1、采用的中文命名实体识别工具jieba识别新闻中案件相关实体知识，当文本输入待匹配新闻进行命名实体识别后，输出其命名实体标注信息，选取其中的“NR、NS、NT和T”词性标签，其中NR对应人名这一实体类别，NS对应地名，NT对应组织机构名， T对应时间，实体用m_i表示；

Step4.2、因为新闻的实体知识数量有限，常规的实体嵌入编码方法并不合理，因此利用模板Embedding方法获取新闻中的实体嵌入e_i；具体做法为：使用“e”的嵌入来表示后文中提到的实体知识嵌入向量，利用最大池化中的平滑方式，即log-sumexp pooling获取每个实体m_i的实体嵌入e_i：

其中i表示实体知识的数量，p表示实体知识嵌入的维度大小，p等于主题分布向量的维度大小d；n表示整个篇章中的词汇数目，n_i表示实体词汇在句子中的排位；

Step4.3、首先将BERT编码的新闻的词嵌入向量

进行线性变换得到

然后将其与新闻的主题分布向量和实体知识嵌入向量进行拼接，获取具备偏好的待匹配新闻上下文语义文本嵌入向量，用于后续文本匹配计算；

其中q表示新闻上下文语义的嵌入维度大小，M_d表示更具偏好的主题分布向量。

作为本发明的进一步方案，所述Step5的具体步骤为：

Step5.1、根据Step4得到的具备偏好的待匹配新闻a和新闻b的上下文语义表示向量H_qa和H_qb，第一步便是计算H_qa和H_qb的曼哈顿距离；选择曼哈顿距离作为损失函数，原因是新闻无论是结构还是语义具有较大的差异性，计算新闻的直接差异性来判断是否匹配表现一般；故而根据曼哈顿距离定义，推断其更适于计算待匹配新闻的实际距离，进一步判断是否匹配；

Step5.2、将得到的曼哈顿距离经过sigmoid函数进行归一化处理，从而计算新闻a和新闻b的匹配度，也就是相似分数；

Similarity(N_out,X_out)＝1-sigmoid(manhattan(H_qa,H_qb))

P＝Simlarity(H_qa,H_qb)

其中P表示待匹配文本计算出的匹配分数，当P>0.6时，预测待匹配的新闻是匹配的。

本发明的有益效果是：

1、本发明对现有的文本匹配方法进行了改进，融合了主题知识和实体知识来进行相似度计算，从而最大化提升文本匹配准确率和计算速度；

2、本发明对文本匹配框架进行了改进，分别将新闻文本输入到使用相同参数的伪孪生网络中以更直观的比较相似度；

3、选择曼哈顿距离作为损失函数，原因是新闻无论是结构还是语义具有较大的差异性，计算新闻的直接差异性来判断是否匹配表现一般。故而根据曼哈顿距离定义，可推断其更适于计算待匹配新闻的实际距离，进一步判断是否匹配。

4、本发明融合模型自动生成的主题与主流方法识别的实体知识，增强待匹配文本的语义信息，辅助计算待匹配文本的相似性，从而改进新闻匹配的性能。实验中，本发明把待匹配的文本分别通过新闻主题分析模型(BERT-ECTM)和主流的实体识别工具，分别得到待匹配新闻的主题与实体知识，并用信息和实体知识的特征辅助新闻的上下文语义理解，同时构成伪孪生网络的形式，计算两者的相似分数，判断其是否匹配。值得一提的是融合主题和实体知识计算匹配分数，能有效提高计算速度与精确性。

5、为证明本发明所提融合主题与实体知识新闻匹配方法的性能。本发明基于新闻匹配数据集进行相关验证。实验结果可知，对比基线模型来看，本发明所提方法效果更加显著，评估指标更是优于基线模型，同时F1值最大提升接近5％。

附图说明

图1是本发明提出的模型整体结构图。

具体实施方式

实施例1：如图1所示，融合主题与实体知识的新闻匹配方法，所述方法的具体步骤如下：

Step1、语料预处理：预处理不同规模的平行训练语料、验证语料和测试语料，用于模型训练、参数调优和效果测试；分析近年的高频热点新闻事件，选取其中热点关注度较高，较有代表性的13个热点案件，在新浪微博、百度资讯和天涯论坛等站点爬取相关的新闻，并经过人工校对的方法，选取13案件相关的热点新闻，利用新闻匹配数据集构建方法，构成“新闻-新闻”对的形式，其中每个类别新闻正负例各500对，共13000对。数据集中训练集、测试集和验证集的划分如表1所示。

表1实验数据

所述Step3的具体步骤为：

Step3.1、将编码模块中获取的新闻文本的词袋表示向量

和词嵌入向量

输入到主题分析模型中，获取具有偏好的主题分布；

进行解码，得到具备偏好的主题-词分布W_dn；

W_dn～BERT-ECTM(Q_d,N_d)

为了验证所提模型中各模块的合理性，设计模块消融对比实验。其中“-主题”表示去除新闻的主题-词，只融入实体知识进行匹配，反之“-实体知识”表示去除新闻的实体知识，只融入主题-词进行匹配，“Bert-Encoder”表示去除新闻的主题和实体知识，只使用Bert编码的上下文表示向量进行匹配，设计实验对比结果如表2所示

表2消融实验

分析表2可知，当本发明进行消融实验时，融入主题和实体知识的模型性能比只使用 Bert编码的方法提升3.2％以上的性能，同时无论是主题还是实体知识，当此模块消融进行实验时，模型均有大约2％的性能下降，由此验证了本发明模型设计的合理性和鲁棒性，主题与实体知识对新闻匹配任务来说显得尤为重要。

所述Step4的具体步骤为：

Step4.3、首先将BERT编码的新闻的词嵌入向量

进行线性变换得到

作为本发明的进一步方案，所述Step5的具体步骤为：

Step5.1、根据Step4得到的具备偏好的待匹配新闻a和新闻b的上下文语义表示向量 H_qa和H_qb，第一步便是计算H_qa和H_qb的曼哈顿距离；选择曼哈顿距离作为损失函数，原因是新闻无论是结构还是语义具有较大的差异性，计算新闻的直接差异性来判断是否匹配表现一般；故而根据曼哈顿距离定义，推断其更适于计算待匹配新闻的实际距离，进一步判断是否匹配；

Similarity(N_out,X_out)＝1-sigmoid(manhattan(H_qa,H_qb))

P＝Simlarity(H_qa,H_qb)

为了证明提出方法的有效性，使用精确率(P)、召回率(R)和F1值作为评价指标将其与以下四种模型相对比：

Siamese BILSTM：Paul Neculoiu等人提出了一种基于双向循环神经网络构建的孪生网络模型计算两段文本的相似度。

HASM：李兰君等人提出一种基于层级注意力机制构建的孪生网络模型(HASM)来计算文本的相似度，该方法基于TextRank压缩长文档，利用层级注意力机制各级分别编码汇总得到文档表示。

Un-siamese Nertwork：赵成鼎等人提出一种基于非对称孪生网络模型的新闻相关性分析方法，此文中赵等人基于标题压缩新闻文档方法解决新闻冗余信息较多的问题，同时融合案件要素监督指导编码新闻文档信息。

BIMPM：Wang等人提出了一种多角度交互匹配的孪生网络模型，利用了更多角度的信息计算文本的相似度。

表3 BLEU值评测结果(％)

从表3中可知，Siamese BILSTM和HASM方法在新闻匹配数据集上性能一般，由此本章分析在新闻匹配任务上，新闻文档较长，且结构与语义差异大，并包含很多冗余信息，基于层级注意力机制编码的信息在各级模块间压缩传播过程中信息损失，此外，新闻数据过长，冗余信息干扰较强，很难捕捉到有效的案件信息。而Un-siamese Nertwork和 BIMPM方法在新闻匹配数据集的性能相对有一定提升，Un-siamese Nertwork方法的性能相对提升的主要原因是：赵等人结合标题将新闻的文档进行压缩，以此缓解冗余信息的干扰，融合案件要素进行注意力机制计算，是为了捕捉更多有效的信息，缓解冗余信息的干扰；BIMPM方法性能提升的主要原因是：Wang等人把待匹配文本进行不同角度的交互匹配，并拼接到原文档表示向量中，获取更多彼此有效的关键信息进行匹配。

值得一提的是，本发明所提方法不需要进行以上复杂的操作也能取得良好的效果。由此证明新闻间特有的主题和实体知识信息，可以使待匹配文本语义信息更具偏好，对于新闻匹配任务而言能够捕捉足够的关键信息，以此辅助新闻匹配取得良好的性能。与基线模型相比，F1值最大提升5.5％，由此可证明本发明所提方法更适合于新闻这类不均衡文档匹配任务。

为了进一步验证主题与实体知识的在新闻匹配任务中的有效性，本文通过简单拼接的方法，把编码的待匹配新闻和主题与实体知识与其他基线模型拼接进行实验分析，其中-F1 表示基线模型未加入主题与实体知识的真实F1值，如表4所示(其中使用Topic-Entity来表示主题与实体知识)。

表4 BLEU值评测结果(％)

从表4可知，在基线模型中加入主题和实体知识后，所有基线模型F1值均有明显提升。由此证明融合主题和实体知识指导新闻匹配是有效的，原因在于主题和实体知识是新闻的核心知识体现，能改进待匹配文档的相似性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合主题与实体知识的新闻匹配方法，其特征在于：通过主题信息生成模型获取主题分布向量，然后利用主流实体识别模型识别出新闻的实体知识，并通过模板化词向量的方法获取实体知识嵌入向量，同时将主题分布向量、实体知识嵌入向量两个向量与新闻上下文语义表示向量进行融合，得到具备偏好的待匹配新闻上下文语义文本嵌入向量，再利用曼哈顿距离计算两者匹配度。

2.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述融合主题与实体知识的新闻匹配方法的具体步骤如下：

3.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述Step1的具体步骤为：

4.根据权利要求1所述的融合主题与实体知识的新闻匹配方法，其特征在于：所述Step3的具体步骤为：

Step3.1、将编码模块中获取的新闻文本的词袋表示向量