CN108804689A - 面向问答平台的融合用户隐连接关系的标签推荐方法 - Google Patents

面向问答平台的融合用户隐连接关系的标签推荐方法 Download PDF

Info

Publication number
CN108804689A
CN108804689A CN201810614031.4A CN201810614031A CN108804689A CN 108804689 A CN108804689 A CN 108804689A CN 201810614031 A CN201810614031 A CN 201810614031A CN 108804689 A CN108804689 A CN 108804689A
Authority
CN
China
Prior art keywords
user
label
node
ques
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810614031.4A
Other languages
English (en)
Other versions
CN108804689B (zh
Inventor
刘业政
田志强
姜元春
孙见山
陶丹丹
孙春华
陈夏雨
刘春丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810614031.4A priority Critical patent/CN108804689B/zh
Publication of CN108804689A publication Critical patent/CN108804689A/zh
Application granted granted Critical
Publication of CN108804689B publication Critical patent/CN108804689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的面向问答平台的融合用户隐连接关系的标签推荐方法,可解决传统标签推荐方法推荐结果有限不能满足用户需求的技术问题。包括构建问题集合、问题对应的标签集合、用户集合;构建用户网络;经处理得到用户的特征向量;再得到问题的特征向量;将所述用户的特征向量和所述问题的特征向量做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集;将所述多特征向量集使用逻辑回归模型映射成概率,基于输出的概率值对标签进行降序排序,取前top个标签;训练初步模型,训练终止后,得到最终的推荐模型;当用户在向网站提交问题时,从所述推荐模型中把前top个标签推荐给用户。本发明能提高标签***的多样性及准确性,能够满足用户需求。

Description

面向问答平台的融合用户隐连接关系的标签推荐方法
技术领域
本发明涉及信息检索技术领域,具体涉及一种面向问答平台的融合用户隐连接关系的标签推荐方法。
背景技术
在一些问答网站上,用户可以提交问题,搜索问题、浏览问题,回答问题等,导致信息呈现***性增长。而标签有助于改善问题信息的杂乱无章,并有助于用户浏览问题,根据标签去索引可以帮助用户在网页大量的信息中更容易获取到感兴趣的问题。在问答网站上看到标签是非常常见的,它允许用户用自己的语言去标记各种问题,这种标签既描述了他们发布的问题的重要特征属性,又反映了用户的兴趣点。
但是用户在打标签时会按照自己的想法,自己的语言去给问题打上奇奇怪怪的标签,不同用户想表达的的意思可能相同或相近,但是用的词汇不同,这就造成了标签***变得非常庞大而且繁乱无章,使得一些问题没有很好的归类;另外打标签需要用户从键盘上输入,一些用户避免麻烦不愿意去给问题打标签。所以如何在用户想给问题打标签时为其推荐适合的标签就变得非常重要,这样不仅能提高打标签的质量,还能提高用户打标签的参与度。
当前多数的问答网站进行标签推荐时,一般推荐整个网站最热门的标签,或者从问题本身提取关键词作为标签,或者推荐类似问题最热门的标签,或者推荐用户最常用的标签,但是以上推荐方式对一些新用户或者新问题推荐结果不佳,推荐的结果有限,缺乏多样性,供用户选择的可能比较少,不能满足用户的需求。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种面向问答平台的融合用户隐连接关系的标签推荐方法,解决了传统标签推荐方法没有考虑到网站上用户与用户的共现关系,推荐结果缺乏多样性,不能满足用户的需求的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种面向问答平台的融合用户隐连接关系的标签推荐方法,包括以下步骤:
从问答网站上获取问题、问题对应的标签、问题对应的用户信息,并构建问题集合、问题对应的标签集合、用户集合;
根据问题与用户信息的对应关系,构建用户网络;
将所述用户网络输入到node2vec模型中,得到用户的特征向量;
将所述问题集合输入到卷积神经网络中,得到问题的特征向量;
将所述用户的特征向量和所述问题的特征向量做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集;
将所述多特征向量集使用逻辑回归模型映射成概率,表示属于每个标签的概率,在[0,1]之间,基于输出的概率值对标签进行降序排序,取前top个标签,至此初步模型即构建好;
将所述问题、问题对应的标签、问题对应的用户信息作为输入,训练初步模型,训练终止后,得到最终的推荐模型;
当用户在向网站提交问题时,从所述推荐模型中把前top个标签推荐给用户。
进一步的,所述根据问题与用户信息的对应关系,构建用户网络,是通过挖掘用户间共同回答问题的关系,构建一个带权重的无向的用户网络。
进一步的,所述构建一个带权重的无向的用户网络,具体包括:
构建一个带权重的无向的用户网络G;
G定义如(1):
G=(U,E,W) (1)
其中U代表所有用户,每个用户看作一个节点;E是边,表示用户曾共同回答过问题的关系,记作E={(useri′,useri″)|(useri′,useri″)∈quesuser},当用户useri′和useri″共同回答了某个问题,就在他们间建立一条连接的边;W是边的权重,表示共同回答问题的次数。
进一步的,所述构建问题集合、问题对应的标签集合、用户集合;具体包括:
获取网站m个问题构成问题集合Q,记为Q={ques1,ques2,......quesm},m表示所述问题集合Q中的问题总数;ques表示某个问题,一个问题是由若干个单词组成,记为ques={word1,word2,......wordm′},m′表示问题中包含的单词数,word表示某个单词;
获取网站k个标签构成标签集合L,记为L={label1,label2,......labelk},k表示所述标签集合L中的标签总数,label表示某个标签;
获取网站n个用户构成用户集合U,记为U={user1,user2,......usern},n表示所述用户集合U中的用户总数,user表示某个用户;
每个问题对应着一组标签,记作queslabel={label1,label2,......},其中lable1,label2,...∈L;
每个问题对应多个用户,包含一个提问者和若干个回答者,记作quesuser={userask;usera1,usera2,....},其中,userask,usera1,usera2...∈U,第一个位置userask表示提问者,剩下的usera1,usera2,...表示若干个回答者。
进一步的,将所述用户网络输入到node2vec模型中,得到用户的特征向量;具体包括:
通过随机游走的方式对用户网络G=(U,E,W)进行采样,生成一个节点序列;
对于给定的源节点u,使用如下的分布,公式(2)产生固定长度为Length的邻居序列:
其中cr表示节点序列中第r个节点,初始值c0=u,Z为归一化常数,πvx是节点v到x的非归一化转移概率,通过公式(3)计算:
πvx=αpq(t,x)·Wvx (3)
其中Wvx为节点v与节点x边上的权重,αpq(t,x)由公式(4)得到,假设已知路径为t→v,t为上一个节点,v为当前节点,x为待选择的与v相邻的节点;
其中,dtx为邻居节点x与上一节点t的最短距离;p,q为参数变量,p为返回概率参数,控制回到原来节点的概率;q为离开概率参数,控制跳到其他节点的概率,调节p,q,控制随机游走的方向,从而得到相应的邻居节点序列;
利用word2vec算法框架中的skim-gram模型对采样出来的邻居节点序列进行训练,得到每个节点的特征向量uservect,uservect即用户的特征向量。
进一步的,将所述问题集合输入到卷积神经网络中,得到问题的特征向量;具体包括:
搭建卷积神经网络;卷积神经网络包括输入层、卷积层和池化层;其中,输入层为网络的第一层;卷积层由三个不同尺寸大小的卷积核所构成,尺寸设为h*k′,其中h为卷积核的长度,表示纵向取词语的个数,k′为卷积核的宽度等于词向量的维数,每个尺寸的卷积核各若干个;池化层采用max-pooling方法;
利用word2vec模型将问题集合Q={ques1,ques2,......quesm}中包含的词语ques={word1,word2,......wordm′}预训练成词向量,词向量维度为k′,于是问题表示成m′*k′矩阵,作为卷积神经网络的输入,其中m′表示某个问题中含有的词个数,k′表示词向量的维数;
卷积和池化操作;输入的m′*k′矩阵通过卷积操作得到若干个Feature Map,再通过池化操作从各个Feature Map中提取最大的值,将这些最大值连接起来,得到表征该问题的向量questionvect,所述questionvect即为问题的特征向量。
进一步的,将所述用户的特征向量和所述问题的特征向量做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集;具体包括:
将用户特征向量uservect和问题特征向量questionvect做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集,记作X,如公式(5),其中全连接网络的神经元个数与标签数一致,为k个;
进一步的,将所述多特征向量集使用逻辑回归模型映射成概率,表示属于每个标签的概率,在[0,1]之间,基于输出的概率值对标签进行降序排序,取前top个标签,具体包括:
将多特征向量集X使用逻辑回归模型映射成概率,表示属于每个标签的概率,在[0,1]之间;其过程用如下公式(6)计算:
其中θj表示第j个标签Labelj所对应的向量参数;
然后基于输出的概率对标签进行降序排序,取前top个标签,形成初步模型。
进一步的,将所述问题、问题对应的标签、问题对应的用户信息作为输入,训练初步模型,具体包括:
将问题ques、问题对应的标签queslabel={label1,label2,......}、问题对应的用户quesuser={userask}作为网络的输入,将对数损失函数binary_crossentropy如公式(7)作为整个模型的目标函数,设置迭代次数nb_epoch,采用学习率为η,指数衰减率为β12的Adam优化算法和反向传播算法训练整个网络,当迭代次数≥nb_epoch时,停止训练;
用精确度accuracy,评估模型的准确性;
其中m为训练的问题样本总数,yi为第i个样本期望的输出,hθj(Xi)为第i个样本神经元实际输出,1≤i≤m。
进一步的,所述当用户在向网站提交问题时,从所述推荐模型中把前top个标签推荐给用户,具体包括:
当用户在向网站提交问题时,提取用户提的问题中的关键词,找到和其经常在一起回答问题的用户常用的标签,两种方式相结合,从推荐模型的标签***中取前top个概率的标签推荐给用户。
(三)有益效果
从本发明的一种融合用户隐连接关系的标签推荐方法,考虑到将用户间的隐性连接关系与从问题本身提取关键词两种方式相结合,进行标签推荐,即经常回答同样问题的人,即共现次数多(是一种隐性的连接关系),说明感兴趣的点相似,利用用户和关注问题点相似的其他用户,给用户推荐那些和他们关注问题点相似的其他用户最常用的标签,能提高标签***的多样性及准确性,供用户选择的较多,较好的满足用户的需求。
另外本发明基于深度学习的相关方法去建模,利用卷积神经网络善于提取文本中的特征,将问题输入到卷积神经网络中得到问题的关键词的向量表达;利用node2vec模型可以用低维、稠密、实值的向量表示网络中的节点并且能保持原来网络的结构特征,本发明通过挖掘用户共同回答问题的关系,建立用户网络,将用户抽象网络中的节点,将用户间的关系作为node2vec模型的输入,得到每个用户的低维向量表示,将问题向量与用户向量相结合,去推荐相应的标签。综上本发明利用深度学习技术可以考虑到单词与单词之间的顺序关系,而不是像之前的那种忽略词顺序的词袋模型,运用node2vec模型可以利用用户与用户之间的关系,发现用户的标签偏好以及挖掘用户的潜在群体,可以在线增量学习提高了推荐的总体效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的流程示意图;
图2是本发明实施例构建的用户网络图;
图3是本发明实施例node2vec模型中随机游走的策略示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
由于当前多数的问答网站进行标签推荐时,一般推荐整个网站最热门的标签,或者从问题本身提取关键词作为标签,或者推荐类似问题最热门的标签,或者推荐用户最常用的标签,但是以上推荐方式往往对一些新用户或者新问题推荐结果不佳,或者是推荐的结果有限,缺乏多样性,供用户选择的可能比较少,不能满足用户的需求。
故本发明实施例提出一种融合用户隐连接关系的标签推荐方法,如图1所示,包括以下步骤:
S100、从问答网站上获取问题、问题对应的标签、问题对应的用户信息,并构建问题集合、问题对应的标签集合、用户集合;
S110、根据问题与用户信息的对应关系,构建用户网络;
S120、将用户网络输入到node2vec模型中,得到用户的特征向量;
S130、将问题集合输入到卷积神经网络中,得到问题的特征向量;
S140、将步骤S120得到的用户的特征向量和步骤S130得到的问题的特征向量做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集;
S150、将多特征向量集使用逻辑回归模型映射成概率,表示属于每个标签的概率,在[0,1]之间,基于输出的概率值对标签进行降序排序,取前top个标签,至此初步模型即构建好;
S160、将问题、问题对应的标签、问题对应的用户信息作为输入,训练初步模型,训练终止后,得到最终的推荐模型;
S170、当用户在向网站提交问题时,从推荐模型中把前top个标签推荐给用户。
下面结合每一个步骤,进行详细说明:
S100、以Stack Overflow网站为例,Stack Overflow是一个与程序相关的IT技术问答网站,网站上有多个问题,每个问题下有多个标签,用户可以在网站免费提交问题,并在问题下打上相关的标签,也可以浏览问题,索引相关内容,在问题下进行评论,从StackOverflow问答网站上获取问题、问题对应的标签、问题对应的用户信息,并构建问题集合、问题对应的标签集合、用户集合;
具体步骤如下:
获取Stack Overflow技术问答网站m个问题构成问题集合Q,记为Q={ques1,ques2,......quesm},m表示所述问题集合Q中的问题总数;ques表示某个问题,一个问题是由若干个单词组成,记为ques={word1,word2,......wordm′},m′表示问题中包含的单词数,word表示某个单词;
获取Stack Overflow技术问答网站k个标签构成标签集合L,记为L={label1,label2,......labelk},k表示所述标签集合L中的标签总数,label表示某个标签;
获取Stack Overflow技术问答网站n个用户构成用户集合U,记为U={user1,user2,......usern},n表示所述用户集合U中的用户总数,user表示某个用户;
每个问题对应着一组标签,记作queslabel={label1,label2,......},其中lable1,label2,...∈L;
每个问题对应多个用户,包含一个提问者和若干个回答者,记作quesuser={userask;usera1,usera2,....},其中,userask,usera1,usera2...∈U,第一个位置userask表示提问者,剩下的usera1,usera2,...表示若干个回答者。
S110、通过挖掘用户间共同回答问题的关系,构建一个带权重的无向的用户网络。
构建一个带权重的无向的用户网络G;
G定义如(1):
G=(U,E,W) (1)
其中U代表所有用户,每个用户看作一个节点;E是边,表示用户曾共同回答过问题的关系,记作E={(useri′,useri″)|(useri′,useri″)∈quesuser},当用户(useri′,useri″)同时在集合quesuser中,即用户useri′和useri″共同回答了某个问题,就在他们间建立一条连接的边;W是边的权重,表示共同回答问题的次数。图2是本发明实施例构建的用户网络图。
S120、将用户网络输入到node2vec模型中,得到用户的特征向量;
node2vec模型是将社交网络中的节点通过无监督学习方法映射到低维空间中的向量表示,如图3所示,先采取带权重的随机游走的方式,采样出一些邻居节点构建线性序列,再利用skim-gram模型对线性序列进行训练得出每个节点的向量表示。node2vec的输入是两个带有权重连接的节点,输出是节点的向量表示,输出向量的维度可根据具体情况设定,本实例设置为256维。
具体步骤如下:
S121:通过随机游走的方式对用户网络G=(U,E,W)进行采样,生成一个节点序列;
对于给定的源节点u,使用如下的分布,公式(2)产生固定长度为Length的邻居序列,邻居序列的长度Length可根据具体情况进行确定,本实施例设置Length=80:
其中cr表示节点序列中第r个节点,0≤r<Length,初始值c0=u,Z为归一化常数,πvx是节点v到x的非归一化转移概率,通过公式(3)计算:
πvx=αpq(t,x)·Wvx (3)
其中Wvx为节点v与节点x边上的权重,αpq(t,x)由公式(4)得到,假设已知路径为t→v,t为上一个节点,v为当前节点,x为待选择的与v相邻的节点;
其中,dtx为邻居节点x与上一节点t的最短距离;p,q为参数变量,p为返回概率参数,控制回到原来节点的概率;q为离开概率参数,控制跳到其他节点的概率,调节p,q,控制随机游走的方向,p控制往回走,访问走过的节点,q控制往外走,访问没走过的节点,从而得到相应的邻居节点序列;
S122:利用word2vec算法框架中的skim-gram模型对采样出来的邻居节点序列进行训练,得到每个节点的特征向量uservect。
S130、将问题集合输入到卷积神经网络中,得到问题的特征向量;具体步骤如下:
S131:搭建卷积神经网络;卷积神经网络由输入层、卷积层和池化层构成;其中,输入层为网络的第一层;卷积层由3个不同尺寸大小的卷积核所构成,尺寸设为h*k′,其中h为卷积核的长度,表示纵向取词语的个数,h可根据具体情况确定,本实例设置h分别取3,4,5,k′为卷积核的宽度等于词向量的维数,k′可根据具体情况确定,本实例设置k′为256,每个尺寸的卷积核各300个;池化层采用max-pooling方法;
S132:利用word2vec模型将问题集合Q={ques1,ques2,......quesm}中包含的词语ques={word1,word2,......wordm′}预训练成词向量,词向量的维度为k′,于是问题表示成m′*k′矩阵,卷积神经网络的输入窗口的大小是一定的,但是每个问题句子长度不一样,即包含的单词数m′不一样,为使得句子长度保持一致,假设最长的句子长度为m″,我们取m″作为固定长度,对于长度小于m″的句子,使用0进行填充的方式,将m′*k′矩阵变为m″*k′,作为卷积神经网络的输入,其中m′表示某个问题中含有的词个数,m″表示最长问题含有的词个数,k′表示词向量的维数;
S133:卷积和池化操作;输入的问题矩阵m″*k′通过卷积操作得到若干个FeatureMap,Feature Map是一种特征映射,指矩阵与卷积核进行卷积操作后得到的特征,再通过池化操作从各个Feature Map中提取最大的值,将这些最大值连接起来,得到表征该问题的向量questionvect。
S140、将步骤S122和步骤S133得到的uservect和questionvect向量做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集,记作X,如公式(5),其中全连接网络的神经元个数与标签数一致,为k个;
S150、将步骤S140的多特征向量集X使用逻辑回归模型,映射成概率,表示属于每个标签的概率,在[0,1]之间;其过程用如下公式(6)计算:
其中θj表示第j个标签Labelj所对应的向量参数;
然后基于输出的概率对标签进行降序排序,取前top个标签。本实例中将top的值设置为7,即将排名前7的标签推荐给用户。
S160、将问题、问题对应的标签、问题对应的用户作为输入,训练模型,得到最终的推荐模型;将问题ques、问题对应的标签queslabel={label1,label2,......}、问题对应的提问者quesuser={userask}作为网络的输入,训练模型,得到最终的推荐模型;取数据集的90%作为训练集,10%作为测试集。训练时采用批处理方式,批处理大小设置为50。
将对数损失函数binary_crossentropy如公式(7)作为整个模型的目标函数,设置迭代次数nb_epoch,nb_epoch根据具体情况自行设定,本实施例中选取nb_epoch=50,采用学习率为η,指数衰减率为β12的Adam优化算法和反向传播算法训练整个网络,本实施例中选取η=le-4,β1=0.9,β2=0.999,当迭代次数≥nb_epoch时,停止训练;训练过程中采用dropout的策略,本实施例中对每个隐藏层的神经元以0.5的概率舍弃掉,防止网络过拟合。,
其中m为训练的问题样本总数,yi为第i个样本期望的输出,hθj(Xi)为第i个样本神经元实际输出,1≤i≤m。
用精确度accuracy,评估模型的准确性;精确度accuracy的计算公式如公式(8):
S170、从推荐模型中把标签推荐给用户。当用户在向网站提交问题时,根据用户找到和其经常在一起回答问题的人常用的标签,同时根据用户提的问题提取问题中的关键词,两种方式相结合,从推荐模型的标签***中取前top=7个概率的标签推荐给用户。
综上可知,本发明实施例考虑到将用户间的隐性连接关系与从问题本身提取关键词两种方式相结合,并基于深度学习的相关方法去建模,通过将问题输入到卷积神经网络中得到问题的关键词的向量表示;挖掘用户共同回答问题的关系,建立用户网络,将用户抽象网络中的节点,将用户间的关系作为node2vec模型的输入,得到每个用户的低维向量表示,将问题向量与用户向量相结合,去推荐相应的标签,能提高标签***的准确性以及多样性,从而提高了推荐效果,满足用户需求。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,包括以下步骤:
从问答网站上获取问题、问题对应的标签、问题对应的用户信息,并构建问题集合、问题对应的标签集合、用户集合;
根据问题与用户信息的对应关系,构建用户网络;
将所述用户网络输入到node2vec模型中,得到用户的特征向量;
将所述问题集合输入到卷积神经网络中,得到问题的特征向量;
将所述用户的特征向量和所述问题的特征向量做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集;
将所述多特征向量集使用逻辑回归模型映射成概率,表示属于每个标签的概率,在[0,1]之间,基于输出的概率值对标签进行降序排序,取前top个标签,至此初步模型即构建好;
将所述问题、问题对应的标签、问题对应的用户信息作为输入,训练初步模型,训练终止后,得到最终的推荐模型;
当用户在向网站提交问题时,从所述推荐模型中把前top个标签推荐给用户。
2.如权利要求1所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于:所述根据问题与用户信息的对应关系,构建用户网络,是通过挖掘用户间共同回答问题的关系,构建一个带权重的无向的用户网络。
3.如权利要求2所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,所述构建一个带权重的无向的用户网络,具体包括:
构建一个带权重的无向的用户网络G;
G定义如(1):
G=(U,E,W) (1)
其中U代表所有用户,每个用户看作一个节点;E是边,表示用户曾共同回答过问题的关系,记作E={(useri′,useri″)|(useri′,useri″)∈quesuser},当用户useri′和useri″共同回答了某个问题,就在他们间建立一条连接的边;W是边的权重,表示共同回答问题的次数。
4.如权利要求1所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,所述构建问题集合、问题对应的标签集合、用户集合;具体包括:
获取网站m个问题构成问题集合Q,记为Q={ques1,ques2,......quesm},m表示所述问题集合Q中的问题总数;ques表示某个问题,一个问题是由若干个单词组成,记为ques={word1,word2,......wordm′},m′表示问题中包含的单词数,word表示某个单词;
获取网站k个标签构成标签集合L,记为L={label1,label2,......labelk},k表示所述标签集合L中的标签总数,label表示某个标签;
获取网站n个用户构成用户集合U,记为U={user1,user2,......usern},n表示所述用户集合U中的用户总数,user表示某个用户;
每个问题对应着一组标签,记作queslabel={label1,label2,......},其中lable1,label2,...∈L;
每个问题对应多个用户,包含一个提问者和若干个回答者,记作quesuser={userask;usera1,usera2,....},其中,userask,usera1,usera2...∈U,第一个位置userask表示提问者,剩下的usera1,usera2,...表示若干个回答者。
5.如权利要求3所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,将所述用户网络输入到node2vec模型中,得到用户的特征向量;具体包括:
通过随机游走的方式对用户网络G=(U,E,W)进行采样,生成一个节点序列;
对于给定的源节点u,使用如下的分布,公式(2)产生固定长度为Length的邻居序列:
其中cr表示节点序列中第r个节点,初始值c0=u,Z为归一化常数,πvx是节点v到x的非归一化转移概率,通过公式(3)计算:
πvx=αpq(t,x)·Wvx (3)
其中Wvx为节点v与节点x边上的权重,αpq(t,x)由公式(4)得到,假设已知路径为t→v,t为上一个节点,v为当前节点,x为待选择的与v相邻的节点;
其中,dtx为邻居节点x与上一节点t的最短距离;p,q为参数变量,p为返回概率参数,控制回到原来节点的概率;q为离开概率参数,控制跳到其他节点的概率,调节p,q,控制随机游走的方向,从而得到相应的邻居节点序列;
利用word2vec算法框架中的skim-gram模型对采样出来的邻居节点序列进行训练,得到每个节点的特征向量uservect,uservect即用户的特征向量。
6.如权利要求5所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,将所述问题集合输入到卷积神经网络中,得到问题的特征向量;具体包括:
搭建卷积神经网络;卷积神经网络包括输入层、卷积层和池化层;其中,输入层为网络的第一层;卷积层由三个不同尺寸大小的卷积核所构成,尺寸设为h*k′,其中h为卷积核的长度,表示纵向取词语的个数,k′为卷积核的宽度等于词向量的维数,每个尺寸的卷积核各若干个;池化层采用max-pooling方法;
利用word2vec模型将问题集合Q={ques1,ques2,......quesm}中包含的词语ques={word1,word2,......wordm′}预训练成词向量,词向量维度为k′,于是问题表示成m′*k′矩阵,作为卷积神经网络的输入,其中m′表示某个问题中含有的词个数,k′表示词向量的维数;
卷积和池化操作;输入的m′*k′矩阵通过卷积操作得到若干个Feature Map,再通过池化操作从各个Feature Map中提取最大的值,将这些最大值连接起来,得到表征该问题的向量questionvect,所述questionvect即为问题的特征向量。
7.如权利要求6所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,将所述用户的特征向量和所述问题的特征向量做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集;具体包括:
将用户特征向量uservect和问题特征向量questionvect做拼接,经过一层全连接网络,得到融合用户隐性连接的多特征向量集,记作X,如公式(5),其中全连接网络的神经元个数与标签数一致,为k个;
8.如权利要求7所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,将所述多特征向量集使用逻辑回归模型映射成概率,表示属于每个标签的概率,在[0,1]之间,基于输出的概率值对标签进行降序排序,取前top个标签,具体包括:
将多特征向量集X使用逻辑回归模型映射成概率,表示属于每个标签的概率,在[0,1]之间;其过程用如下公式(6)计算:
其中θj表示第j个标签Labelj所对应的向量参数;
然后基于输出的概率对标签进行降序排序,取前top个标签,形成初步模型。
9.如权利要求4所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,将所述问题、问题对应的标签、问题对应的用户信息作为输入,训练初步模型,具体包括:
将问题ques、问题对应的标签queslabel={label1,label2,......}、问题对应的用户quesuser={userask}作为网络的输入,将对数损失函数binary_crossentropy如公式(7)作为整个模型的目标函数,设置迭代次数nb_epoch,采用学习率为η,指数衰减率为β12的Adam优化算法和反向传播算法训练整个网络,当迭代次数≥nb_epoch时,停止训练;
用精确度accuracy,评估模型的准确性;
其中m为训练的问题样本总数,yi为第i个样本期望的输出,为第i个样本神经元实际输出,1≤i≤m。
10.如权利要求1所述的面向问答平台的融合用户隐连接关系的标签推荐方法,其特征在于,所述当用户在向网站提交问题时,从所述推荐模型中把前top个标签推荐给用户,具体包括:
当用户在向网站提交问题时,提取用户提的问题中的关键词,找到和其经常在一起回答问题的用户常用的标签,两种方式相结合,从推荐模型的标签***中取前top个概率的标签推荐给用户。
CN201810614031.4A 2018-06-14 2018-06-14 面向问答平台的融合用户隐连接关系的标签推荐方法 Active CN108804689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810614031.4A CN108804689B (zh) 2018-06-14 2018-06-14 面向问答平台的融合用户隐连接关系的标签推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810614031.4A CN108804689B (zh) 2018-06-14 2018-06-14 面向问答平台的融合用户隐连接关系的标签推荐方法

Publications (2)

Publication Number Publication Date
CN108804689A true CN108804689A (zh) 2018-11-13
CN108804689B CN108804689B (zh) 2020-10-16

Family

ID=64086920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810614031.4A Active CN108804689B (zh) 2018-06-14 2018-06-14 面向问答平台的融合用户隐连接关系的标签推荐方法

Country Status (1)

Country Link
CN (1) CN108804689B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710852A (zh) * 2018-12-27 2019-05-03 丹翰智能科技(上海)有限公司 一种用于确定财经信息的标签信息的方法与设备
CN109949076A (zh) * 2019-02-26 2019-06-28 北京首钢自动化信息技术有限公司 建立超球面映射模型的方法、信息推荐方法及装置
CN110110130A (zh) * 2019-05-21 2019-08-09 山东财经大学 基于卷积特征与加权随机游走的个性化标签推荐方法及***
CN110188272A (zh) * 2019-05-27 2019-08-30 南京大学 一种基于用户背景的社区问答网站标签推荐方法
CN110442977A (zh) * 2019-08-08 2019-11-12 广州华建工智慧科技有限公司 基于建筑施工工序网络推荐的移动端bim模型智能缓存方法
CN110442618A (zh) * 2019-07-25 2019-11-12 昆明理工大学 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN110443574A (zh) * 2019-07-25 2019-11-12 昆明理工大学 多项目卷积神经网络评审专家推荐方法
CN110674417A (zh) * 2019-09-24 2020-01-10 中国人民大学 一种基于用户关注关系的标签推荐方法
CN110795558A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 标签获取方法和装置、存储介质及电子装置
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN111080338A (zh) * 2019-11-11 2020-04-28 中国建设银行股份有限公司 用户数据的处理方法、装置、电子设备及存储介质
CN111241419A (zh) * 2020-01-09 2020-06-05 辽宁工程技术大学 一种基于用户关系嵌入模型的下一个兴趣点推荐方法
CN111488438A (zh) * 2020-02-21 2020-08-04 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
CN111723287A (zh) * 2020-06-03 2020-09-29 开普云信息科技股份有限公司 一种基于大规模机器学习的内容和服务推荐方法及其***
CN111767440A (zh) * 2020-09-03 2020-10-13 平安国际智慧城市科技股份有限公司 基于知识图谱的车辆画像方法、计算机设备和存储介质
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN112528010A (zh) * 2020-12-15 2021-03-19 建信金融科技有限责任公司 知识推荐方法、装置、计算机设备及可读存储介质
CN113076405A (zh) * 2021-06-04 2021-07-06 明品云(北京)数据科技有限公司 基于用户画像的解决方案匹配方法及***
CN113254782A (zh) * 2021-06-15 2021-08-13 济南大学 问答社区专家推荐方法及***
CN113379500A (zh) * 2021-06-21 2021-09-10 北京沃东天骏信息技术有限公司 排序模型训练方法和装置、物品排序方法和装置
CN113641791A (zh) * 2021-08-12 2021-11-12 卓尔智联(武汉)研究院有限公司 专家推荐方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107273396A (zh) * 2017-03-06 2017-10-20 扬州大学 一种社交网络信息传播检测节点的选择方法
CN107622307A (zh) * 2017-09-11 2018-01-23 浙江工业大学 一种基于深度学习的无向网络连边权重预测方法
CN107807919A (zh) * 2017-11-15 2018-03-16 浙江大学 一种利用循环随机游走网络进行微博情感分类预测的方法
US20180157990A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Automating Table-Based Groundtruth Generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157990A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Automating Table-Based Groundtruth Generation
CN107273396A (zh) * 2017-03-06 2017-10-20 扬州大学 一种社交网络信息传播检测节点的选择方法
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107622307A (zh) * 2017-09-11 2018-01-23 浙江工业大学 一种基于深度学习的无向网络连边权重预测方法
CN107807919A (zh) * 2017-11-15 2018-03-16 浙江大学 一种利用循环随机游走网络进行微博情感分类预测的方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710852A (zh) * 2018-12-27 2019-05-03 丹翰智能科技(上海)有限公司 一种用于确定财经信息的标签信息的方法与设备
CN109949076A (zh) * 2019-02-26 2019-06-28 北京首钢自动化信息技术有限公司 建立超球面映射模型的方法、信息推荐方法及装置
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN110110130A (zh) * 2019-05-21 2019-08-09 山东财经大学 基于卷积特征与加权随机游走的个性化标签推荐方法及***
CN110110130B (zh) * 2019-05-21 2021-03-02 山东财经大学 基于卷积特征与加权随机游走的个性化标签推荐方法及***
CN110188272A (zh) * 2019-05-27 2019-08-30 南京大学 一种基于用户背景的社区问答网站标签推荐方法
CN110188272B (zh) * 2019-05-27 2023-04-21 南京大学 一种基于用户背景的社区问答网站标签推荐方法
CN110442618A (zh) * 2019-07-25 2019-11-12 昆明理工大学 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN110443574A (zh) * 2019-07-25 2019-11-12 昆明理工大学 多项目卷积神经网络评审专家推荐方法
CN110442977A (zh) * 2019-08-08 2019-11-12 广州华建工智慧科技有限公司 基于建筑施工工序网络推荐的移动端bim模型智能缓存方法
CN110442977B (zh) * 2019-08-08 2023-09-29 广州华建工智慧科技有限公司 基于建筑施工工序网络推荐的移动端bim模型智能缓存方法
CN110795558B (zh) * 2019-09-03 2023-09-29 腾讯科技(深圳)有限公司 标签获取方法和装置、存储介质及电子装置
CN110795558A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 标签获取方法和装置、存储介质及电子装置
CN110674417B (zh) * 2019-09-24 2022-03-11 中国人民大学 一种基于用户关注关系的标签推荐方法
CN110674417A (zh) * 2019-09-24 2020-01-10 中国人民大学 一种基于用户关注关系的标签推荐方法
CN111080338B (zh) * 2019-11-11 2024-05-24 建信金融科技有限责任公司 用户数据的处理方法、装置、电子设备及存储介质
CN111080338A (zh) * 2019-11-11 2020-04-28 中国建设银行股份有限公司 用户数据的处理方法、装置、电子设备及存储介质
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN111241419B (zh) * 2020-01-09 2023-11-24 辽宁工程技术大学 一种基于用户关系嵌入模型的下一个兴趣点推荐方法
CN111241419A (zh) * 2020-01-09 2020-06-05 辽宁工程技术大学 一种基于用户关系嵌入模型的下一个兴趣点推荐方法
CN111488438B (zh) * 2020-02-21 2022-07-29 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
CN111488438A (zh) * 2020-02-21 2020-08-04 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
CN111723287A (zh) * 2020-06-03 2020-09-29 开普云信息科技股份有限公司 一种基于大规模机器学习的内容和服务推荐方法及其***
CN111767440A (zh) * 2020-09-03 2020-10-13 平安国际智慧城市科技股份有限公司 基于知识图谱的车辆画像方法、计算机设备和存储介质
CN112528010B (zh) * 2020-12-15 2022-09-02 建信金融科技有限责任公司 知识推荐方法、装置、计算机设备及可读存储介质
CN112528010A (zh) * 2020-12-15 2021-03-19 建信金融科技有限责任公司 知识推荐方法、装置、计算机设备及可读存储介质
CN113076405A (zh) * 2021-06-04 2021-07-06 明品云(北京)数据科技有限公司 基于用户画像的解决方案匹配方法及***
CN113254782A (zh) * 2021-06-15 2021-08-13 济南大学 问答社区专家推荐方法及***
CN113379500A (zh) * 2021-06-21 2021-09-10 北京沃东天骏信息技术有限公司 排序模型训练方法和装置、物品排序方法和装置
CN113641791A (zh) * 2021-08-12 2021-11-12 卓尔智联(武汉)研究院有限公司 专家推荐方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN108804689B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN108804689A (zh) 面向问答平台的融合用户隐连接关系的标签推荐方法
CN110555112B (zh) 一种基于用户正负偏好学习的兴趣点推荐方法
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
US20220405480A1 (en) Text sentiment analysis method based on multi-level graph pooling
CN103886054B (zh) 一种网络教学资源的个性化推荐***和推荐方法
CN103903164B (zh) 基于领域信息的半监督方面自动提取方法及其***
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108364028A (zh) 一种基于深度学习的互联网网站自动分类方法
CN108829763A (zh) 一种基于深度神经网络的影评网站用户的属性预测方法
CN106095872A (zh) 用于智能问答***的答案排序方法及装置
CN108172047B (zh) 一种网络在线学习资源个性化实时推荐方法
CN106408343A (zh) 一种基于bp神经网络的用户行为分析与预测的建模方法及其装置
CN109325112A (zh) 一种基于emoji的跨语言情感分析方法和装置
CN109858797A (zh) 基于知识网络精准在线教育***的多维度信息学情分析方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN106951471A (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN113344053B (zh) 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN110489523A (zh) 一种基于网购评价的细粒度情感分析方法
CN110532379A (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN110232113A (zh) 一种提高知识库问答准确度的方法及***
CN115329200A (zh) 一种基于知识图谱和用户相似度的教学资源推荐方法
CN108763367A (zh) 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
CN107944049A (zh) 一种基于深度学习的电影推荐方法
US20180365324A1 (en) Method of data organization and data searching for use in constructing evidence-based beliefs
Wang et al. Education Data‐Driven Online Course Optimization Mechanism for College Student

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant