CN113672693A

CN113672693A - 基于知识图谱和标签关联的在线问答平台的标签推荐方法

Info

Publication number: CN113672693A
Application number: CN202110970089.4A
Authority: CN
Inventors: 李洋; 王乐田
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-19
Anticipated expiration: 2041-08-23
Also published as: CN113672693B

Abstract

基于知识图谱和标签关联的在线问答平台的标签推荐方法，涉及人工智能、自然语言处理、推荐***技术领域。本发明是为了解决目前的标签推荐方法并不适用于问答平台的场景从而导致推荐效果差的问题。本发明具体过程为：将在线问答平台的问题文本和外部知识图谱输入到训练好的KOCIN模型中获得推荐的标签；KOCIN模型包括：知识集成层、序列编码层、关联捕获层；知识集成层用于从问题文本qi和外部知识图谱

中提取知识三元组，将知识三元组合集成到问题文本qi中，生成Qtree；序列编码层用于将Qtree转化为Qtree的稠密向量化表示进而获得预测的问题文本原始标签；关联捕获层用于根据预测的问题文本原始标签获得问题文本的推荐标签。本发明用于获取问答平台的推荐标签。

Description

基于知识图谱和标签关联的在线问答平台的标签推荐方法

技术领域

本发明涉及人工智能、自然语言处理、推荐***技术领域，特别涉及基于知识图谱和标签关联的在线问答平台的标签推荐方法。

背景技术

随着互联网的迅速发展，互联网在各行业内越来越广泛的普及与应用，电商、互联网金融、生活服务、游戏等多个领域的企业都致力于通过互联网向用户更好的推荐产品或服务，以挖掘用户需求，增加用户流量，提高服务质量。问答网站就丰富了信息的来源，加速了信息的扩散，但也同时引发了信息过载、搜寻负荷加重、信息品质降低等问题。那么，用户如何从海量网络信息资源中快速地、低成本地、有效地获取合适而又高质量的信息，这就体现了标签推荐的重要性，标签如何可以根据用户的喜好有针对性的给用户推荐可能感兴趣的话题，成为了摆在我们前面的不可逾越的重大研究课题。

目前的标签推荐方法分为：基于用户的方法和基于内容的方法。基于用户的方法里代表性的方法包括协同过滤、张量分解和基于图的方法。协同过滤(CF)方法充分利用了集体智能，旨在填补用户-项目关联矩阵中缺失的条目。Kywe等人提出了一种协同过滤模型，将用户的偏好和推特内容都包含在标签推荐工作中。随着信息的日益丰富，Wang等人将主题信息和用户的偏好结合起来，根据特定微博的相关分数来推荐标签。但是上述这些基于协同过滤的方法还存在冷启动问题。Rendle和Schmidt-Thieme提出了一种基于Tucker分解的成对交互张量分解(PITF)模型用于标签推荐。Chen和Li将张量分解与敌对学***台；2.基于内容的方法仅仅关注问题句子本身来推荐标签，对平台上频繁出现的生僻专业词汇不适用；但是问答平台标签推荐任务上，问题与回答的语料常常包含罕见的专业词汇，而通用领域的词向量或预训练模型不能对这些专业词汇进行向量化从而导致效果下降，因此目前的标签推荐方法并不适用于问答平台的场景。

发明内容

本发明目的是为了解决目前的标签推荐方法并不适用于问答平台的场景从而导致推荐效果差的问题，而提出了基于知识图谱和标签关联的在线问答平台的标签推荐方法。

基于知识图谱和标签关联的在线问答平台的标签推荐方法具体过程为：

将在线问答平台的问题文本和外部知识图谱输入到训练好的KOCIN模型中获得推荐的标签；

所述KOCIN模型包括：知识集成层、序列编码层、关联捕获层；

所述知识集成层用于从问题文本qi和外部知识图谱

中提取知识三元组，然后将知识三元组集成到问题文本qi中，生成句子树Qtree；

所述序列编码层采用基于BERT的序列编码器，用于将Qtree转化为Qtree的稠密向量化表示进而获得预测的问题文本原始标签；

所述关联捕获层包括：多个标签关联网络CorNet，用于根据预测的问题文本原始标签获得问题文本的推荐标签。

本发明的有益效果为：

本发明提出了基于Transformer的神经网络模型KOCIN，将大规模的外部知识图谱和内部标签关联网络结合到一个统一的框架中。KOCIN将专业知识作为文本的补充，将标签关联作为一种元数据，丰富了问题文本的表现形式，缓解了标签的长尾效应。本发明提出的KOCIN是第一个结合外部知识图的模型，也是第一个融合内部标签相关性的模型，本发明大大缓解了标签的长尾问题，更适用于问答平台场景，同时提高了标签推荐的效果。

附图说明

图1为KOCIN模型的结构图；

其中(a)为总体结构图，(b)为知识集层结构图，(c)为关联捕获层中单个关联网络(CorNet)的结构图。

具体实施方式

具体实施方式一：本实施方式基于知识图谱和标签关联的在线问答平台的标签推荐方法具体过程为：将在线问答平台的问题文本和外部知识图谱输入到训练好的KOCIN模型中获得推荐的标签。

所述知识集成层用于从问题文本和外部知识图谱

中提取知识三元组，然后将知识三元组集成到问题文本中，生成句子树Qtree；

所述关联捕获层包括：多个标签关联网络CorNet，用于根据预测的问题文本原始标签获得问题文本的推荐标签，学习预测标签之间的相关性，从而缓解标签的稀疏性问题；本发明将标签推荐任务表述为多标签文本分类问题。

具体实施方式二：所述知识集成层用于从问题文本和外部知识图谱

中提取知识三元组，然后将知识三元组集成到问题文本中，生成句子树Qtree，包括以下步骤：

步骤一一、对于问题文本qi中的每个实体e_j进行知识查询，从而提取知识三元组的集合，具体过程为：

其中，E＝{(e_j,r_j1,e_j1),...,(e_j,r_jk,e_jk)}是与e_j匹配的知识三元组的集合，r_j1是实体e_j与匹配到的第一个知识三元组的关系，e_j1是实体e_j匹配到的第1个知识三元组的实体，(e_j,r_jk,e_jk)是第k个知识三元组，K_Query()是查询函数；

步骤一二、将E中的所有知识三元组***到问题文本qi中相应的位置，生成句子树Qtree：

Qtree＝K_Insert(e_j,E)＝{w₁,w₂,...e_j{(r_j1,e_j1),...,(r_jk,e_jk)},...,w_n}

其中，Qtree＝{w₁,w₂,...e_j{(r_j1,e_j1),...,(r_jk,e_jk)},...,w_n}，w_i是构成句子的词，i∈[1,n]是当前是第i个词，K_Insert()是***函数，n表示词的总数量。

本实施方式允许每个实体链接多个知识三元组。然而，为了防止句子树产生无关分支，避免引入无关知识加重噪声，只能根据实体加入一跳的知识查询。

具体实施方式三：所述序列编码层采用基于BERT的序列编码器，用于将Qtree转化为Qtree的稠密向量化表示进而获得预测的问题文本原始标签，包括以下步骤：

步骤二一、将步骤一二获得的Qtree的开头***多个[CLS]标记：

Qtree_CLS＝{[CLS₁],...,[CLS_c],w₁,w₂,...e_j{(r_j1,e_j1),...,(r_jk,e_jk)},...,w_n}

其中，c是***的[CLS]标记总数，实体e_j是匹配到知识三元组的词wi；

步骤二二、利用Qtree_CLS获得[CLS]标记的隐藏状态向量，再根据[CLS]标记的隐藏状态向量获取Qtree的稠密向量化表示：

采用动态最大池化的方法，将多[CLS]捕获的信息进行汇总，并生成一个综合特征向量u：

其中，

为第a个[CLS]对应的隐藏状态向量，a∈[1,c]，c是***的[CLS]标记总数；

步骤二三、利用Qtree的稠密向量化表示获得预测的问题文本原始标签：

y＝Wσ(u)+b

其中，W是权重矩阵，b是偏差，σ是sigmoid激活函数。

本实施方式的效果为：基于BERT的模型在分类任务中通常在每个输入句子前添加一个特殊符号[CLS]，并使用其对应的最终隐藏状态h_CLS作为句子序列的表示，这对大多数普通任务来说效果不错。然而，对于现实世界语料库中的CQA标签推荐，问题文本通常很短，其标签空间非常大。因此我们对BERT进行了改进，使其更适合这项任务。我们首先将融合了知识图谱的句子树Qtree转化为为词向量形式。假设我们使用了300维的词向量，那么BERT的[CLS]将相应地输出一个300维向量，在此向量的基础上我们可以进行文本分类任务。一个潜在的问题是，输入的所有必要信息都必须被压缩到一个固定长度的向量。这可能会使我们难以应付长问题和大量的分类标签，因此，我们采用了一种多[CLS]策略。得到综合特征向量u后，普通标签推荐不会考虑到标签之间的关联性，仅仅使用全连接层和激活函数得到最终的标签作为预测结果输出，因此本发明添加了标签关联网络来解决这一问题。

具体实施方式四：所述关联捕获层包括：多个标签关联网络CorNet，用于根据预测的问题文本原始标签获得问题文本的推荐标签，如下式：

y'＝W₁δ(W₂σ(y)+b1)+b2+y

其中，y'是作为输出的相关增强标签(问题文本的推荐标签)，W₁、W₂是权重矩阵，b1,b2是偏差，σ是sigmoid激活函数，δ是ELU激活函数。

本实施方式的效果为：在CQA标签推荐任务中，标签的数量是巨大的。标签之间的关联性是一种有价值的元数据。例如，如果一个问题包含"CNN"和"Backpropagation"的标签，那么"Deep Learning"很有可能也是其标签。为了充分利用标签的相关性，我们在模型中添加了一个关联捕获层。具体地说，我们在y'和y之间添加了一个瓶颈层，如图1中的(c)所示，它可以防止模型参数在标签数量变大时呈指数增长。此外，我们将多个CorNets堆叠起来，形成一个深度的关联捕获网络，以获得标签之间的相关性。值得注意的是，第一层CorNet的输入即是上文得到综合特征向量u。而第二层CorNet的输入即是第一层输出的y'。经实验发现，CorNet的层数为3时模型效果最好。上述所有的设置都是为了缓解长尾标签的问题。

具体实施方式五：所述KOCIN模型的损失函数为：

loss(y',b)＝Mean{l₁,...l_N}

其中，

l_m＝-(b_m*log(σ(y'_m))+(1-b_m)*log(1-σ(y'_m)))

其中，m∈[1,N]为批量(Batch)的序号，N为批量的数目，b为问题文本的真实标签，σ代表sigmoid激活函数，l_m为第m个批量的损失值，y'_m是第m个批量的推荐标签，b_m是第m个批量问题文本的真实标签，Mean{}是求平均函数。

实施例：

本发明在一个公开的大规模CQA数据集上将KOCIN与众多基线方法进行了对比试验。实验结果表明，该模型明显优于现有方法。与标准的Transformer模型相比，知识图和关联网络相结合的KOCIN将F1得分提高了8.3％以上。此外，本发明还将KOCIN与AttentionXML(极端多标签文本分类领域的SOTA方法)进行了比较。在F1评分上比AttentionXML高5.6％。

Claims

1.基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于所述方法具体过程为：将在线问答平台的问题文本和外部知识图谱输入到训练好的KOCIN模型中获得推荐的标签；

所述知识集成层用于从问题文本qi和外部知识图谱

2.根据权利要求1所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述知识集成层用于从问题文本和外部知识图谱

步骤一一、对于问题文本qi中的每个实体e_j进行知识查询，从而提取知识三元组的集合E；

步骤一二、将知识三元组的集合E中的所有知识三元组***到问题文本qi中，生成句子树Qtree。

3.根据权利要求2所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述步骤一一中对于问题文本qi中的每个实体e_j进行知识查询，从而提取知识三元组的集合E，如下式：

其中，E＝{(e_j，r_j1，e_j1)，...，(e_j，r_jk，e_jk)}是与e_j匹配的知识三元组的集合，r_j1是实体e_j与匹配到的第一个知识三元组的关系，e_j1是实体e_j匹配到的第一个知识三元组的实体，(e_j，r_jk，e_jk)是第k个知识三元组，K_Query()是查询函数。

4.根据权利要求3所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述步骤一二中将知识三元组的集合E中的所有知识三元组***到问题文本qi中，生成句子树Qtree，如下式：

Qtree＝K_Insert(e_j，E)＝{w₁，w₂，...e_j{(r_j1，e_j1)，...，(r_jk，e_jk)}，...，w_n}

其中，Qtree＝{w₁,w₂,...e_j{(r_j1,e_j1),...,(r_jk,e_jk)},...,w_n}，w_i是构成句子的词，i∈[1,n]，K_Insert()是***函数，n是构成句子的词的总数量。

5.根据权利要求4所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述序列编码层采用基于BERT的序列编码器，用于将Qtree转化为Qtree的稠密向量化表示进而获得预测的问题文本原始标签，包括以下步骤：

步骤二一、将步骤一二获得的Qtree的开头***多个[CLS]标记，获得***[CLS]标记后的句子树：

其中，c是***的[CLS]标记总数；

步骤二二、序列编码器利用Qtree_CLS获得[CLS]标记的隐藏状态向量，再根据[CLS]标记的隐藏状态向量获取Qtree的稠密向量化表示；

步骤二三、利用Qtree的稠密向量化表示获得问题文本的原始标签。

6.根据权利要求5所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述步骤二二中的根据[CLS]标记的隐藏状态向量获取Qtree的稠密向量化表示，如下式：

其中，

为第a个[CLS]对应的隐藏状态向量，a∈[1,c]。

7.根据权利要求6所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述步骤二三中利用Qtree的稠密向量化表示获得预测的问题文本原始标签，如下：

y＝Wσ(u)+b

其中，W是权重矩阵，b是偏差，σ是sigmoid激活函数。

8.根据权利要求7所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述关联捕获层包括：多个标签关联网络CorNet，用于根据预测的问题文本原始标签获得问题文本的推荐标签，如下式：

y'＝W₁δ(W₂σ(y)+b1)+b2+y

其中，y'是问题文本的推荐标签，W₁、W₂是权重矩阵，b1,b2是偏差，σ是sigmoid激活函数，δ是ELU激活函数。

9.根据权利要求8所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述KOCIN模型的损失函数为：

loss(y',b)＝Mean{l₁,...l_N}

其中，m∈[1,N]为批量的序号，N为批量的数目，b为问题文本的真实标签，l_m为第m个批量的损失值，Mean{}是求平均函数。

10.根据权利要求9所述的基于知识图谱和标签关联的在线问答平台的标签推荐方法，其特征在于：所述l_m为第m个批量的损失值，如下式：

l_m＝-(b_m*log(σ(y'_m))+(1-b_m)*log(1-σ(y'_m)))

其中，y'_m是第m个批量的问题文本的推荐标签，b_m是第m个批量问题文本的真实标签。