CN109062995B

CN109062995B - 一种社交策展网络上画板(Board)封面的个性化推荐算法

Info

Publication number: CN109062995B
Application number: CN201810727069.2A
Authority: CN
Inventors: 毋立芳; 杨博文; 张岱; 简萌; 刘海英; 张恒; 李丰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2021-07-30
Anticipated expiration: 2038-07-05
Also published as: CN109062995A

Abstract

一种社交策展网络上画板(Board)封面的个性化推荐算法涉及智能媒体计算和大数据分析技术领域。本发明基于社交策展网站花瓣网，利用了花瓣网中的多模态数据，设计了一种个性化的画板封面推荐算法，在对采集进行多模态表示后，通过聚类算法将采集向量进行无监督聚类，并选出最靠近模型聚类中心的采集作为画板的新封面。本发明的提出，填补了当前社交策展网络中的功能空缺。

Description

一种社交策展网络上画板(Board)封面的个性化推荐算法

技术领域

本发明涉及智能媒体计算和大数据分析技术领域，特别是涉及一种社交策展网络上画板(Board)封面的个性化推荐算法。具体涉及一种利用图片、文本等多模态信息对社交策展网络上的采集、画板自下而上逐一建模，最后为用户发布的画板个性化的推荐封面的算法。

背景技术

随着Facebook、Twitter、微博等社交网络的盛行，社交网络在近年来越来越多的引入了更多的用户社交行为数据和社会成员之间关系来丰富自己的功能。近年来，许多社交网站加入了“策展”功能，“策展”意为策划、筛选并展示。社交策展网络允许用户对其网络中展示的物品进行收集、分类、分享、点赞、评论、打分、关注等操作(如图1所示)，鼓励用户主动的将网站上的信息收集、整理，自主表达自己的爱好。社交策展网络与传统网络相比，更重视物品与用户之间的互动，用户表达方式更加丰富多样。不同于传统社交网络——如基于信息分享的微博、Twitter，基于用户间社交关系的Facebook等，社交策展网络是一种由用户的兴趣点驱动，基于用户对网络中所展示的物品的兴趣建立而成的社交网络。对Pinterest、花瓣网这样的社交策展网络的研究，成为了近年来的热点之一。

与传统社交网络不同的是，在社交策展网络中，基本的用户信息只起到辅助作用，用户与网站展示的物品之间的互动则占据了主导地位。采集(Pin)是策展网络中最基本的物品单位，一个采集由包含一张图片和一段由用户给出的与图片对应的文本描述这两种不同模态的信息。画板(Board)作为一种社交策展网络中的中层物品单位，功能类似于相册，是收集采集的容器，用户可以将他感兴趣的采集整理重组，保存到不同的画板中，如图1所示。

如图2所示，画板在页面中均是以三到四张略缩图封面的形式呈现的。一组精心设计过的缩略图封面，可以更好地代表画板中所有采集的主题，展现出画板中最精彩的部分，吸引其他用户来关注或喜欢画板，是决定画板是否成功、发布画板的用户是否能够成为热门用户的重要因素之一。但是，虽然社交策展网络提供了选择画板中的一张图片作为封面的功能，却未提供封面推荐功能。用户自己决定的封面，受到主观性、时效性等因素影响，往往并不能作为整个画板的精华，精准的展现画板的兴趣分布。以图2为例，顶部及中间为Pinterest上的四个画板缩略图，如果用户为画板选择了封面，则缩略图由封面及两个最近添加的采集构成，如果用户未设置封面，则缩略图由六个最近添加的采集构成；顶部两画板中的采集主题相似程度较高，表明该画板涉及的兴趣较窄，其缩略图容易出现重复信息；中间两画板兴趣较宽，除信息重复外，主要问题是难以用少量图片准确表示；底部为花瓣网上的两个画板缩略图，如果用户为画板选择了封面，则缩略图由封面及三个最近添加的采集构成，反之，则缩略图由四个最近添加的采集构成；底部靠左兴趣较窄的画板和底部靠右兴趣较宽的画板也分别存在与Pinterest上画板缩略图相同的问题。分析表明，当今热门社交策展网络的画板封面推荐算法逻辑较为简单直接，在大部分时候，并不能很好的作为画板的“门面”，体现作者在画板中表达的内容。在为用户推荐画板封面时，缺少一种个性化的推荐算法。

本发明基于社交策展网站花瓣网，利用了花瓣网中的多模态数据，设计了一种个性化的画板封面推荐算法，在对采集进行多模态表示后，通过聚类算法将采集向量进行无监督聚类，并选出最靠近模型聚类中心的采集作为画板的新封面。本发明的提出，填补了当前社交策展网络中的功能空缺。

发明内容

本发明的目的是提供一种社交策展网络上画板(Board)封面的个性化推荐算法，如图3所示，算法流程包含以下步骤：

1、采集(Pin)的多模态联合表示

社交策展网络中，采集与画板存在明显的上下包含关系。本发明基于这种结构，先对构成画板的采集进行了多模态联合表示，再用画板中全部采集的多模态表示，构建画板模型。采集的多模态联合表示流程图如图4所示，其特征在于，包括以下步骤：

1)、文本表示

描述是采集中图片的重要内容补充，对于转采树中的不同采集，描述是区分其用户偏好的主要内容之一，优质的文本表示对于社交策展网络中的用户分析尤其是其个性化分析十分重要。本发明中将词向量的均值池化作为文本表示。对于文本T，其最终表示为

其中M_T为文本中词数，

为词Word_i的向量表示。

2)、图像表示

图片是采集的核心内容，是社交策展网络中用户兴趣最主要的载体，社交策展网络中的图片表示不仅应该含有图片的本征信息，还应该能够与社交策展网络中的用户兴趣建立某种关系。综合考虑效率与性能，本发明选取CaffeNet作为图像表示学习的基础模型。

CaffeNet最初是针对1000类互斥对象的多分类问题而设计的，相比出传统的Alexnet，CaffeNet没有使用主成分分析(PCA，principal component analysis)进行数据增强，并对调了池化层与归一化层的顺序。其损失层为softmax with loss layer。本发明替换了CaffeNet的损失函数。调整后的损失函数为：

其中N_C为样本集合，

为分类频数

相应的sigmoid输出。本发明最终使用的模型参数细节如图5所示。

3)、多模态融合

本发明使用了多模态DBM来融合采集的图片与本文信息，其结构如图6所示，多模态DBM的结构为在两个两层的DBM顶部添加一个共享的隐藏层，除了两个可见层，全部隐藏层均由二值单元构成。每个DBM可以视为由两个RBM层叠相连而成。RBM是一种无向二部图模型，也就是说，可见层与隐藏层的层内无连接、层间双向全连接。本发明多模态DBM的联合分布为

其中θ为全部模型参数，V_I、V_T、H_I1、H_T1、H_I2、H_T2、H₃分别为图6中相应层。

2、采集多模态表示聚类

在得到采集的多模态表示后，本发明使用高斯混合模型(GMM)的最大期望(EM)聚类算法对采集向量进行无监督聚类。将采集分成几个主题相近的簇后，再从中选出推荐候选。EM聚类算法流程包含以下步骤：

(1)选择簇的数量。在花瓣网中，每个画板均有三个封面展示位，即需要产生三个不重复的封面推荐结果。因此，这里将簇的数量设置为3。随后，随机初始化每个簇的高斯分布参数(均值和方差)。

(2)给定每个簇的高斯分布，计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。

(3)基于高斯分布概率计算高斯分布参数，使得数据点的概率最大化。

(4)重复步骤(2)(3)直到迭代收敛，每个采集的概率不再发生变化。

3、画板封面推荐

在得到画板的多模态建模后，封面推荐算法将计算画板中的所有采集表示与全部采集表示构成的中心点的距离，其计算公式如下

其中V_cen为前一步中得到的画板的聚类中心向量，V_p为采集的多模态向量表示，n为多模态表示向量的维度，i代表向量第i维的取值。求出画板中每一个采集与画板中心的距离后，由于每个画板有三个封面位置，故本发明将距离画板模型中心最近的三个采集的图片作为推荐封面，并在用户设置封面时进行推荐或定期为画板更新。

附图说明

图1为社交策展网络中的多级用户关系示意图；

图2为社交策展网络中的画板样例；

图3为本发明的算法流程图；

图4为本发明中所使用采集的多模态联合表示方法流程图；

图5为本发明用于提取图片表示所使用的CNN结构图；

图6为本发明的推荐结果与原画板封面设置对比图；

图7为画板缩略图推荐的结果。

具体实施方式

本发明目的是提供一种社交策展网络上画板封面的个性化推荐算法，其框架如图3所示。下面结合附图和具体例子对本发明做进一步的详细说明。

该发明的实现步骤如下：

1、采集(Pin)的多模态联合表示

1)、文本表示

描述是采集中图片的重要内容补充，对于转采树中的不同采集，描述是区分其用户偏好的主要内容之一，优质的文本表示对于社交策展网络中的用户分析尤其是其个性化分析十分重要。与图像表示一样，文本表示也隐含与社交策展网络中用户兴趣的关系。本发明中将词向量的均值池化作为文本表示。对于文本T，其最终表示为

其中

为词Word_i的向量表示，M_T为文本中词数。

训练用公开数据集包括Wikipedia dumps的enwiki和zhwiki、搜狗实验室的全网新闻数据和搜狐新闻数据。公开数据集及描述均是自然语言，均需要进行大量的文本预处理才能用于机器学习。本发明进行的文本预处理包括繁简转换、去除标点符号、分词、去除停用词、机器翻译。具体操作流程包括：

1、考虑到标点符号几乎是无语义的或难以学习其语义信息的，利用Unicode编码表配合string包和zhon包建立了标点符号表，编写正则表达式利用re包或regex包滤除了全角及半角标点符号；

2、为了避免同一中文的繁体中文与简体中文被机器误认为是不同文本，分别使用开放中文转换(OpenCC，Open Chinese Convert)、langconv包及zhconv包将繁体中文转换为简体中文，对比后选取了OpenCC的繁简转换结果；

3、考虑到自然语言中除了中文及英文还有其它多种语言，用requests包或urllib2包模拟人工使用Google翻译、百度翻译、有道在线翻译的方式发送请求，从接收到的响应中提取翻译结果，对比后选取了Google翻译的结果。

4、为了将中文切分以供word2vec训练，使用jieba包的精确模式、THULAC包、PyNLPIR包进行中文分词，对比后选取了jieba包的分词结果；

主题建模工具包gensim提供了能够快速训练word2vec的模块，通过参数设置，利用公开数据集训练了一个CBOW模型，词向量维数被设置为300，该维数通常是word2vec的最优维数，训练过程中忽略了词频小于5的词并使用了负采样、多CPU加快了训练速度。

在对描述的词向量进行均值池化之前，先对模型获得的全部词向量进行了PCA以提升均值池化后文本向量的性能。文本向量的维数与词向量相同。

2)、图像表示

图片是采集的核心内容，是社交策展网络中用户兴趣最主要的载体，优质的图像表示对于在社交策展网络中进行用户分析大有裨益。社交策展网络中的图片表示不仅应该含有图片的本征信息，还应该能够与社交策展网络中的用户兴趣建立某种关系。综合考虑效率与性能，本发明选取CaffeNet作为图像表示学习的基础模型，并进行了多处调整。

本发明CNN模型的详细结构见图5。其中ReLU为线性整流函数，又称线性修正单元(rectified linear unit)，LRN为局部响应归一化(local response normalization)。本发明CNN模型实质上是一个多标签的回归器。经过微调后的模型参数将被保存用于特征提取。全连接7层的激活值将被提取作为图像表示。

由于CaffeNet需要固定输入尺寸，本发明在进行图像预处理时进行了图像缩放、图像裁剪。图片首先被缩放至更短的一边，边长为256像素，然后以缩放后图片的中心为中心将图片裁剪至256×256像素。数据集未使用镜像、旋转、颜色变换等进行数据增强，但在微调过程中以随机裁剪图片中227×227像素的方式扩充了数据集。图片输入卷积层前还进行了去均值以加速损失函数的收敛。

本发明根据花瓣网中采集的实际分类类别对网络进行了少许改动，将原本的1000类最终分类类别改成了33类，使用深度学习框架Caffe运行，并利用了NVIDIA的GPU和CUDA实现并行化加速了运算。本发明实际加载的模型参数为在ImageNet上训练过的CaffeNet，该模型与AlexNet有两点细微区别：一是没有使用主成分分析(PCA，principal componentanalysis)进行数据增强；二是对调了池化层与归一化层的顺序。模型全连接层8数据尺寸被设置为33。结构如图5所示，由5个卷积层和3个全连接层组成，共有6千万个参数和65万个神经元。CaffeNet共有八层网络，其结构如下：

卷积层1：输入227*227*3卷积核11*11*3步长4激活函数ReLU

卷积层2：输入27*27*96卷积核5*5*48步长1填充2激活函数ReLU

卷积层3：输入13*13*256卷积核3*3*256步长1填充1激活函数ReLU

卷积层4：输入13*13*384卷积核3*3*192步长1填充1激活函数ReLU

卷积层5：输入13*13*384卷积核3*3*192步长1填充1激活函数ReLU

全连接层1：输入6*6*256输出4096 drop_out 0.5激活函数ReLU

全连接层2：输入4096输出4096 drop_out 0.5激活函数ReLU

全连接层3：输入4096输出33

除此之外，本发明另外还微调和测试了一个仅将CaffeNet全连接层8数据尺寸设置为33、损失层不变的多类分类模型以作为对比，微调所用的标签为采集的分类频率表示中值最大的分类即主分类。由于Caffe的一般数据层不支持多标签和实数标签输入，本发明在此处编写了一个Python层以读取标签。模型微调完成后，提取全连接层7的激活值作为图像表示。

3)、多模态融合

本发明使用了多模态DBM来融合采集的图片与本文信息，多模态DBM的结构为在两个两层的DBM顶部添加一个共享的隐藏层，除了两个可见层，全部隐藏层均由二值单元构成。每个DBM可以视为由两个RBM层叠相连而成。RBM是一种无向二部图模型，也就是说，可见层与隐藏层的层内无连接、层间双向全连接。本发明多模态DBM的联合分布为

在现实数据集中，社交策展网络中的采集可能没有描述，因此多模态融合模型必须能够处理单模态数据的缺失。针对这一问题，在模型训练完成后，本发明使用标准吉布斯采样器(Gibbs sampler)交替采样实现缺失文本表示生成。同样地，用吉布斯采样器推断顶层，并将顶层H₃的激活概率作为本发明最终的多模态联合表示。

多模态DBM的训练使用了NVIDIA的GPU和CUDA加速了运算。隐藏层H_I1、H_T1、H_T2的维数分别被设置为4096、300、300即与各自模态输入维数一致以最大限度提升特征性能，H_I2、H₃的维数均被设置为2048以压缩特征。全部图像表示和文本表示成对送入模型并逐层使用CD算法预训练完成后，运行吉布斯采样器推断了缺失的文本表示，并提取了H₃的激活概率作为了最终采集的多模态联合表示。

2、采集多模态表示聚类

(2)选择簇的数量。在花瓣网中，每个画板均有三个封面展示位，即需要产生三个不重复的封面推荐结果。因此，这里将簇的数量设置为3。随后，随机初始化每个簇的高斯分布参数(均值和方差)。

本发明基于Python 2.7实现了EM聚类算法。

3、基于画板多模态建模的画板封面推荐

在得到画板的多模态建模后，推荐算法将计算画板中的所有采集表示与全部采集表示构成的中心点的距离，其计算公式如下

其中V_cen为画板的中心点向量，V_p为采集的多模态向量表示，n为多模态表示向量的维度，i代表向量第i维的取值。求出画板中每一个采集与画板中心的距离后，本发明将距离画板模型中心最近的采集的图片作为推荐封面，在用户设置封面时进行推荐或定期为画板更新。本发明基于Python 2.7实现了上述推荐过程。

4、推荐结果评价

图7为画板缩略图推荐的结果，左侧为原始画板缩略图，中间为基于采集的多模态联合兴趣分布的推荐结果，右侧为基于采集的图像表示的推荐结果。由于花瓣网未提供修改除封面外缩略图其它图片的功能，因此结果是由人工转采画板中全部采集以调整顺序来生成的。

顶部画板的采集均为某偶像组合的专辑封面，画板内采集涉及到的兴趣面较窄，但以花瓣网分类来说，其主要兴趣为“电影/图书”(20.87％)、“平面”(16.24％)和“建筑设计”(11.50％)，现实生活中图书音像也往往一并出现，且该画板的真实分类确为“电影/图书”，因此主要兴趣的预测是合理的。基于采集的多模态联合兴趣分布推荐的封面主要兴趣为“电影/图书”(20.44％)、“平面”(14.15％)和“建筑设计”(10.81％)；其余三张图片由k-均值聚类得到，第一类采集数为30，距中心最近的采集主要兴趣为“摄影”(15.72％)、“平面”(14.08％)、“建筑设计”(13.96％)和“电影/图书”(13.25％)，第二类采集数为7，距中心最近的采集主要兴趣为“电影/图书”(80.93％)，第三类采集数为4，距中心最近的采集主要兴趣为“建筑”(47.19％)、“旅行”(33.67％)、“插画/漫画”(15.71％)。由于封面中含有外景摄影，故“建筑”亦可以理解，“旅行”也可以同样解释，“插画/漫画”则可能是摄影后期处理所致。由于该结果的四张图片出自不同单曲，相比于原缩略图由于按时间顺序四张图片均出自同一单曲，显然对画板的表示更全面。这说明，即使窄兴趣的画板在社交策展网络上也是兴趣可分的，而本发明能够准确的划分画板的兴趣点，并为窄兴趣的画板较为准确的推荐画板封面。

底部画板的兴趣较宽，其主要兴趣为“摄影”(17.49％)、“平面”(13.59％)，真实分类为“摄影”。基于采集的多模态联合兴趣分布推荐的封面主要兴趣为“摄影”(18.46％)、“平面”(10.92％)；k-均值聚类第一类采集数为492，距中心最近的采集主要兴趣为“摄影”(15.77％)，第二类采集数为154，距中心最近的采集主要兴趣为“平面”(37.73％)、“摄影”(13.63％)，第三类采集数为20，距中心最近的采集主要兴趣为“婚礼”(78.09％)。宽兴趣的画板显然是可分且易分的，相比于原缩略图，该结果对画板的呈现更为全面。本发明所提出的方法推荐的结果封面及后两张图片与基于采集的多模态联合兴趣分布的推荐结果相应图片类似，再次印证了图像表示中含有兴趣信息。