CN108804689A

CN108804689A - 面向问答平台的融合用户隐连接关系的标签推荐方法

Info

Publication number: CN108804689A
Application number: CN201810614031.4A
Authority: CN
Inventors: 刘业政; 田志强; 姜元春; 孙见山; 陶丹丹; 孙春华; 陈夏雨; 刘春丽
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-13
Anticipated expiration: 2038-06-14
Also published as: CN108804689B

Abstract

本发明的面向问答平台的融合用户隐连接关系的标签推荐方法，可解决传统标签推荐方法推荐结果有限不能满足用户需求的技术问题。包括构建问题集合、问题对应的标签集合、用户集合；构建用户网络；经处理得到用户的特征向量；再得到问题的特征向量；将所述用户的特征向量和所述问题的特征向量做拼接，经过一层全连接网络，得到融合用户隐性连接的多特征向量集；将所述多特征向量集使用逻辑回归模型映射成概率，基于输出的概率值对标签进行降序排序，取前top个标签；训练初步模型，训练终止后，得到最终的推荐模型；当用户在向网站提交问题时，从所述推荐模型中把前top个标签推荐给用户。本发明能提高标签***的多样性及准确性，能够满足用户需求。

Description

面向问答平台的融合用户隐连接关系的标签推荐方法

技术领域

本发明涉及信息检索技术领域，具体涉及一种面向问答平台的融合用户隐连接关系的标签推荐方法。

背景技术

在一些问答网站上，用户可以提交问题，搜索问题、浏览问题，回答问题等，导致信息呈现***性增长。而标签有助于改善问题信息的杂乱无章，并有助于用户浏览问题，根据标签去索引可以帮助用户在网页大量的信息中更容易获取到感兴趣的问题。在问答网站上看到标签是非常常见的，它允许用户用自己的语言去标记各种问题，这种标签既描述了他们发布的问题的重要特征属性，又反映了用户的兴趣点。

但是用户在打标签时会按照自己的想法，自己的语言去给问题打上奇奇怪怪的标签，不同用户想表达的的意思可能相同或相近，但是用的词汇不同，这就造成了标签***变得非常庞大而且繁乱无章，使得一些问题没有很好的归类；另外打标签需要用户从键盘上输入，一些用户避免麻烦不愿意去给问题打标签。所以如何在用户想给问题打标签时为其推荐适合的标签就变得非常重要，这样不仅能提高打标签的质量，还能提高用户打标签的参与度。

当前多数的问答网站进行标签推荐时，一般推荐整个网站最热门的标签，或者从问题本身提取关键词作为标签，或者推荐类似问题最热门的标签，或者推荐用户最常用的标签，但是以上推荐方式对一些新用户或者新问题推荐结果不佳，推荐的结果有限，缺乏多样性，供用户选择的可能比较少，不能满足用户的需求。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种面向问答平台的融合用户隐连接关系的标签推荐方法，解决了传统标签推荐方法没有考虑到网站上用户与用户的共现关系，推荐结果缺乏多样性，不能满足用户的需求的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种面向问答平台的融合用户隐连接关系的标签推荐方法，包括以下步骤：

从问答网站上获取问题、问题对应的标签、问题对应的用户信息，并构建问题集合、问题对应的标签集合、用户集合；

根据问题与用户信息的对应关系，构建用户网络；

将所述用户网络输入到node2vec模型中，得到用户的特征向量；

将所述问题集合输入到卷积神经网络中，得到问题的特征向量；

将所述用户的特征向量和所述问题的特征向量做拼接，经过一层全连接网络，得到融合用户隐性连接的多特征向量集；

将所述多特征向量集使用逻辑回归模型映射成概率，表示属于每个标签的概率，在[0,1]之间，基于输出的概率值对标签进行降序排序，取前top个标签，至此初步模型即构建好；

将所述问题、问题对应的标签、问题对应的用户信息作为输入，训练初步模型，训练终止后，得到最终的推荐模型；

当用户在向网站提交问题时，从所述推荐模型中把前top个标签推荐给用户。

进一步的，所述根据问题与用户信息的对应关系，构建用户网络，是通过挖掘用户间共同回答问题的关系，构建一个带权重的无向的用户网络。

进一步的，所述构建一个带权重的无向的用户网络，具体包括：

构建一个带权重的无向的用户网络G；

G定义如(1)：

G＝(U,E,W) (1)

其中U代表所有用户，每个用户看作一个节点；E是边，表示用户曾共同回答过问题的关系，记作E＝{(user_i′,user_i″)|(user_i′,user_i″)∈ques_user}，当用户user_i′和user_i″共同回答了某个问题，就在他们间建立一条连接的边；W是边的权重，表示共同回答问题的次数。

进一步的，所述构建问题集合、问题对应的标签集合、用户集合；具体包括：

获取网站m个问题构成问题集合Q，记为Q＝{ques₁,ques₂,......ques_m}，m表示所述问题集合Q中的问题总数；ques表示某个问题，一个问题是由若干个单词组成，记为ques＝{word₁,word₂,......word_m′}，m′表示问题中包含的单词数，word表示某个单词；

获取网站k个标签构成标签集合L，记为L＝{label₁,label₂,......label_k}，k表示所述标签集合L中的标签总数，label表示某个标签；

获取网站n个用户构成用户集合U，记为U＝{user₁,user₂,......user_n}，n表示所述用户集合U中的用户总数，user表示某个用户；

每个问题对应着一组标签，记作ques_label＝{label₁,label₂,......}，其中lable₁,label₂,...∈L；

每个问题对应多个用户，包含一个提问者和若干个回答者，记作ques_user＝{user_ask；user_a1,user_a2,....}，其中，user_ask，user_a1,user_a2...∈U，第一个位置user_ask表示提问者，剩下的user_a1,user_a2,...表示若干个回答者。

进一步的，将所述用户网络输入到node2vec模型中，得到用户的特征向量；具体包括：

通过随机游走的方式对用户网络G＝(U,E,W)进行采样，生成一个节点序列；

对于给定的源节点u，使用如下的分布，公式(2)产生固定长度为Length的邻居序列：

其中c_r表示节点序列中第r个节点，初始值c₀＝u，Z为归一化常数，π_vx是节点v到x的非归一化转移概率，通过公式(3)计算：

π_vx＝α_pq(t,x)·W_vx (3)

其中W_vx为节点v与节点x边上的权重，α_pq(t,x)由公式(4)得到，假设已知路径为t→v，t为上一个节点，v为当前节点，x为待选择的与v相邻的节点；

其中，d_tx为邻居节点x与上一节点t的最短距离；p，q为参数变量，p为返回概率参数，控制回到原来节点的概率；q为离开概率参数，控制跳到其他节点的概率，调节p，q，控制随机游走的方向，从而得到相应的邻居节点序列；

利用word2vec算法框架中的skim-gram模型对采样出来的邻居节点序列进行训练，得到每个节点的特征向量uservect，uservect即用户的特征向量。

进一步的，将所述问题集合输入到卷积神经网络中，得到问题的特征向量；具体包括：

搭建卷积神经网络；卷积神经网络包括输入层、卷积层和池化层；其中，输入层为网络的第一层；卷积层由三个不同尺寸大小的卷积核所构成，尺寸设为h*k′，其中h为卷积核的长度，表示纵向取词语的个数，k′为卷积核的宽度等于词向量的维数，每个尺寸的卷积核各若干个；池化层采用max-pooling方法；

利用word2vec模型将问题集合Q＝{ques₁,ques₂,......ques_m}中包含的词语ques＝{word₁,word₂,......word_m′}预训练成词向量，词向量维度为k′，于是问题表示成m′*k′矩阵，作为卷积神经网络的输入，其中m′表示某个问题中含有的词个数，k′表示词向量的维数；

卷积和池化操作；输入的m′*k′矩阵通过卷积操作得到若干个Feature Map，再通过池化操作从各个Feature Map中提取最大的值，将这些最大值连接起来，得到表征该问题的向量questionvect，所述questionvect即为问题的特征向量。

进一步的，将所述用户的特征向量和所述问题的特征向量做拼接，经过一层全连接网络，得到融合用户隐性连接的多特征向量集；具体包括：

将用户特征向量uservect和问题特征向量questionvect做拼接，经过一层全连接网络，得到融合用户隐性连接的多特征向量集，记作X，如公式(5)，其中全连接网络的神经元个数与标签数一致，为k个；

进一步的，将所述多特征向量集使用逻辑回归模型映射成概率，表示属于每个标签的概率，在[0,1]之间，基于输出的概率值对标签进行降序排序，取前top个标签，具体包括：

将多特征向量集X使用逻辑回归模型映射成概率，表示属于每个标签的概率，在[0,1]之间；其过程用如下公式(6)计算：

其中θ^j表示第j个标签Label_j所对应的向量参数；

然后基于输出的概率对标签进行降序排序，取前top个标签，形成初步模型。

进一步的，将所述问题、问题对应的标签、问题对应的用户信息作为输入，训练初步模型，具体包括：

将问题ques、问题对应的标签ques_label＝{label₁,label₂,......}、问题对应的用户ques_user＝{user_ask}作为网络的输入，将对数损失函数binary_crossentropy如公式(7)作为整个模型的目标函数，设置迭代次数nb_epoch，采用学习率为η，指数衰减率为β₁,β₂的Adam优化算法和反向传播算法训练整个网络，当迭代次数≥nb_epoch时，停止训练；

用精确度accuracy，评估模型的准确性；

其中m为训练的问题样本总数，y_i为第i个样本期望的输出，h_θj(X_i)为第i个样本神经元实际输出，1≤i≤m。

进一步的，所述当用户在向网站提交问题时，从所述推荐模型中把前top个标签推荐给用户，具体包括：

当用户在向网站提交问题时，提取用户提的问题中的关键词，找到和其经常在一起回答问题的用户常用的标签，两种方式相结合，从推荐模型的标签***中取前top个概率的标签推荐给用户。

(三)有益效果

从本发明的一种融合用户隐连接关系的标签推荐方法，考虑到将用户间的隐性连接关系与从问题本身提取关键词两种方式相结合，进行标签推荐，即经常回答同样问题的人，即共现次数多(是一种隐性的连接关系)，说明感兴趣的点相似，利用用户和关注问题点相似的其他用户，给用户推荐那些和他们关注问题点相似的其他用户最常用的标签，能提高标签***的多样性及准确性，供用户选择的较多，较好的满足用户的需求。

另外本发明基于深度学习的相关方法去建模，利用卷积神经网络善于提取文本中的特征，将问题输入到卷积神经网络中得到问题的关键词的向量表达；利用node2vec模型可以用低维、稠密、实值的向量表示网络中的节点并且能保持原来网络的结构特征，本发明通过挖掘用户共同回答问题的关系，建立用户网络，将用户抽象网络中的节点，将用户间的关系作为node2vec模型的输入，得到每个用户的低维向量表示，将问题向量与用户向量相结合，去推荐相应的标签。综上本发明利用深度学习技术可以考虑到单词与单词之间的顺序关系，而不是像之前的那种忽略词顺序的词袋模型，运用node2vec模型可以利用用户与用户之间的关系，发现用户的标签偏好以及挖掘用户的潜在群体，可以在线增量学习提高了推荐的总体效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的流程示意图；

图2是本发明实施例构建的用户网络图；

图3是本发明实施例node2vec模型中随机游走的策略示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

由于当前多数的问答网站进行标签推荐时，一般推荐整个网站最热门的标签，或者从问题本身提取关键词作为标签，或者推荐类似问题最热门的标签，或者推荐用户最常用的标签，但是以上推荐方式往往对一些新用户或者新问题推荐结果不佳，或者是推荐的结果有限，缺乏多样性，供用户选择的可能比较少，不能满足用户的需求。

故本发明实施例提出一种融合用户隐连接关系的标签推荐方法，如图1所示，包括以下步骤：

S100、从问答网站上获取问题、问题对应的标签、问题对应的用户信息，并构建问题集合、问题对应的标签集合、用户集合；

S110、根据问题与用户信息的对应关系，构建用户网络；

S120、将用户网络输入到node2vec模型中，得到用户的特征向量；

S130、将问题集合输入到卷积神经网络中，得到问题的特征向量；

S140、将步骤S120得到的用户的特征向量和步骤S130得到的问题的特征向量做拼接，经过一层全连接网络，得到融合用户隐性连接的多特征向量集；

S150、将多特征向量集使用逻辑回归模型映射成概率，表示属于每个标签的概率，在[0,1]之间，基于输出的概率值对标签进行降序排序，取前top个标签，至此初步模型即构建好；

S160、将问题、问题对应的标签、问题对应的用户信息作为输入，训练初步模型，训练终止后，得到最终的推荐模型；

S170、当用户在向网站提交问题时，从推荐模型中把前top个标签推荐给用户。

下面结合每一个步骤，进行详细说明：

S100、以Stack Overflow网站为例，Stack Overflow是一个与程序相关的IT技术问答网站，网站上有多个问题，每个问题下有多个标签，用户可以在网站免费提交问题，并在问题下打上相关的标签，也可以浏览问题，索引相关内容，在问题下进行评论，从StackOverflow问答网站上获取问题、问题对应的标签、问题对应的用户信息，并构建问题集合、问题对应的标签集合、用户集合；

具体步骤如下：

获取Stack Overflow技术问答网站m个问题构成问题集合Q，记为Q＝{ques₁,ques₂,......ques_m}，m表示所述问题集合Q中的问题总数；ques表示某个问题，一个问题是由若干个单词组成，记为ques＝{word₁,word₂,......word_m′}，m′表示问题中包含的单词数，word表示某个单词；

获取Stack Overflow技术问答网站k个标签构成标签集合L，记为L＝{label₁,label₂,......label_k}，k表示所述标签集合L中的标签总数，label表示某个标签；

获取Stack Overflow技术问答网站n个用户构成用户集合U，记为U＝{user₁,user₂,......user_n}，n表示所述用户集合U中的用户总数，user表示某个用户；

S110、通过挖掘用户间共同回答问题的关系，构建一个带权重的无向的用户网络。

构建一个带权重的无向的用户网络G；

G定义如(1)：

G＝(U,E,W) (1)

其中U代表所有用户，每个用户看作一个节点；E是边，表示用户曾共同回答过问题的关系，记作E＝{(user_i′,user_i″)|(user_i′,user_i″)∈ques_user}，当用户(user_i′,user_i″)同时在集合ques_user中，即用户user_i′和user_i″共同回答了某个问题，就在他们间建立一条连接的边；W是边的权重，表示共同回答问题的次数。图2是本发明实施例构建的用户网络图。

node2vec模型是将社交网络中的节点通过无监督学习方法映射到低维空间中的向量表示，如图3所示，先采取带权重的随机游走的方式，采样出一些邻居节点构建线性序列，再利用skim-gram模型对线性序列进行训练得出每个节点的向量表示。node2vec的输入是两个带有权重连接的节点，输出是节点的向量表示，输出向量的维度可根据具体情况设定，本实例设置为256维。

具体步骤如下：

S121：通过随机游走的方式对用户网络G＝(U,E,W)进行采样，生成一个节点序列；

对于给定的源节点u，使用如下的分布，公式(2)产生固定长度为Length的邻居序列，邻居序列的长度Length可根据具体情况进行确定，本实施例设置Length＝80：

其中c_r表示节点序列中第r个节点，0≤r＜Length，初始值c₀＝u，Z为归一化常数，π_vx是节点v到x的非归一化转移概率，通过公式(3)计算：

π_vx＝α_pq(t,x)·W_vx (3)

其中，d_tx为邻居节点x与上一节点t的最短距离；p，q为参数变量，p为返回概率参数，控制回到原来节点的概率；q为离开概率参数，控制跳到其他节点的概率，调节p，q，控制随机游走的方向，p控制往回走，访问走过的节点，q控制往外走，访问没走过的节点，从而得到相应的邻居节点序列；

S122：利用word2vec算法框架中的skim-gram模型对采样出来的邻居节点序列进行训练，得到每个节点的特征向量uservect。

S130、将问题集合输入到卷积神经网络中，得到问题的特征向量；具体步骤如下：

S131：搭建卷积神经网络；卷积神经网络由输入层、卷积层和池化层构成；其中，输入层为网络的第一层；卷积层由3个不同尺寸大小的卷积核所构成，尺寸设为h*k′，其中h为卷积核的长度，表示纵向取词语的个数，h可根据具体情况确定，本实例设置h分别取3，4，5，k′为卷积核的宽度等于词向量的维数，k′可根据具体情况确定，本实例设置k′为256，每个尺寸的卷积核各300个；池化层采用max-pooling方法；

S132：利用word2vec模型将问题集合Q＝{ques₁,ques₂,......ques_m}中包含的词语ques＝{word₁,word₂,......word_m′}预训练成词向量，词向量的维度为k′，于是问题表示成m′*k′矩阵，卷积神经网络的输入窗口的大小是一定的，但是每个问题句子长度不一样，即包含的单词数m′不一样，为使得句子长度保持一致，假设最长的句子长度为m″，我们取m″作为固定长度，对于长度小于m″的句子，使用0进行填充的方式，将m′*k′矩阵变为m″*k′，作为卷积神经网络的输入，其中m′表示某个问题中含有的词个数，m″表示最长问题含有的词个数，k′表示词向量的维数；

S133：卷积和池化操作；输入的问题矩阵m″*k′通过卷积操作得到若干个FeatureMap，Feature Map是一种特征映射，指矩阵与卷积核进行卷积操作后得到的特征，再通过池化操作从各个Feature Map中提取最大的值，将这些最大值连接起来，得到表征该问题的向量questionvect。

S140、将步骤S122和步骤S133得到的uservect和questionvect向量做拼接，经过一层全连接网络，得到融合用户隐性连接的多特征向量集，记作X，如公式(5)，其中全连接网络的神经元个数与标签数一致，为k个；

S150、将步骤S140的多特征向量集X使用逻辑回归模型，映射成概率，表示属于每个标签的概率，在[0,1]之间；其过程用如下公式(6)计算：

其中θ^j表示第j个标签Label_j所对应的向量参数；

然后基于输出的概率对标签进行降序排序，取前top个标签。本实例中将top的值设置为7，即将排名前7的标签推荐给用户。

S160、将问题、问题对应的标签、问题对应的用户作为输入，训练模型，得到最终的推荐模型；将问题ques、问题对应的标签ques_label＝{label₁,label₂,......}、问题对应的提问者ques_user＝{user_ask}作为网络的输入，训练模型，得到最终的推荐模型；取数据集的90％作为训练集，10％作为测试集。训练时采用批处理方式，批处理大小设置为50。

将对数损失函数binary_crossentropy如公式(7)作为整个模型的目标函数，设置迭代次数nb_epoch，nb_epoch根据具体情况自行设定，本实施例中选取nb_epoch＝50,采用学习率为η，指数衰减率为β₁,β₂的Adam优化算法和反向传播算法训练整个网络，本实施例中选取η＝le-4，β₁＝0.9，β₂＝0.999，当迭代次数≥nb_epoch时，停止训练；训练过程中采用dropout的策略，本实施例中对每个隐藏层的神经元以0.5的概率舍弃掉，防止网络过拟合。，

用精确度accuracy，评估模型的准确性；精确度accuracy的计算公式如公式(8)：

S170、从推荐模型中把标签推荐给用户。当用户在向网站提交问题时，根据用户找到和其经常在一起回答问题的人常用的标签，同时根据用户提的问题提取问题中的关键词，两种方式相结合，从推荐模型的标签***中取前top＝7个概率的标签推荐给用户。

综上可知，本发明实施例考虑到将用户间的隐性连接关系与从问题本身提取关键词两种方式相结合，并基于深度学习的相关方法去建模，通过将问题输入到卷积神经网络中得到问题的关键词的向量表示；挖掘用户共同回答问题的关系，建立用户网络，将用户抽象网络中的节点，将用户间的关系作为node2vec模型的输入，得到每个用户的低维向量表示，将问题向量与用户向量相结合，去推荐相应的标签，能提高标签***的准确性以及多样性，从而提高了推荐效果，满足用户需求。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，包括以下步骤：

根据问题与用户信息的对应关系，构建用户网络；

2.如权利要求1所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于：所述根据问题与用户信息的对应关系，构建用户网络，是通过挖掘用户间共同回答问题的关系，构建一个带权重的无向的用户网络。

3.如权利要求2所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，所述构建一个带权重的无向的用户网络，具体包括：

构建一个带权重的无向的用户网络G；

G定义如(1)：

G＝(U,E,W) (1)

4.如权利要求1所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，所述构建问题集合、问题对应的标签集合、用户集合；具体包括：

5.如权利要求3所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，将所述用户网络输入到node2vec模型中，得到用户的特征向量；具体包括：

π_vx＝α_pq(t,x)·W_vx (3)

6.如权利要求5所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，将所述问题集合输入到卷积神经网络中，得到问题的特征向量；具体包括：

7.如权利要求6所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，将所述用户的特征向量和所述问题的特征向量做拼接，经过一层全连接网络，得到融合用户隐性连接的多特征向量集；具体包括：

8.如权利要求7所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，将所述多特征向量集使用逻辑回归模型映射成概率，表示属于每个标签的概率，在[0,1]之间，基于输出的概率值对标签进行降序排序，取前top个标签，具体包括：

其中θ^j表示第j个标签Label_j所对应的向量参数；

9.如权利要求4所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，将所述问题、问题对应的标签、问题对应的用户信息作为输入，训练初步模型，具体包括：

用精确度accuracy，评估模型的准确性；

其中m为训练的问题样本总数，y_i为第i个样本期望的输出，为第i个样本神经元实际输出，1≤i≤m。

10.如权利要求1所述的面向问答平台的融合用户隐连接关系的标签推荐方法，其特征在于，所述当用户在向网站提交问题时，从所述推荐模型中把前top个标签推荐给用户，具体包括：