CN112396091B - 社交媒体图像流行度预测方法、***、存储介质及应用 - Google Patents
社交媒体图像流行度预测方法、***、存储介质及应用 Download PDFInfo
- Publication number
- CN112396091B CN112396091B CN202011148291.0A CN202011148291A CN112396091B CN 112396091 B CN112396091 B CN 112396091B CN 202011148291 A CN202011148291 A CN 202011148291A CN 112396091 B CN112396091 B CN 112396091B
- Authority
- CN
- China
- Prior art keywords
- features
- image
- model
- layer
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000011426 transformation method Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于图像流行度预测技术领域,公开了一种社交媒体图像流行度预测方法、***、存储介质及应用,获取社交媒体数据集并对其进行预处理。其次从数据集中提取多种信息特征:基于MSDNet模型快速构建高分辨率特征图以提取数据集图像特征;采用具有多个不同大小卷积核的Doc2vec‑TextCNN模型提取数据集文本信息特征,从而更好地获取文本局部相关性;利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征。将图像特征、文本特征与社交提示特征进行融合得到多模态信息特征。最后基于极限梯度提升算法设计回归器处理多模态信息融合特征得到流行度预测结果,实现社交媒体图像流行度的即时、精准预测。
Description
技术领域
本发明属于图像流行度预测技术领域,尤其涉及一种社交媒体图像流行度预测方法、***、存储介质及应用。
背景技术
目前:随着互联网技术的高速发展,诸如Facebook、微博、微信等众多社交媒体已经成为人们获取信息、交流信息的重要平台,对人们的工作生活产生了巨大影响。社交网络中信息主要通过文字、图像、语音等媒介进行传播。智能手机等终端设备的普及与图像处理相关技术的更新,使得社交网络中图像质量越来越高,包含的信息越来越丰富,用户更倾向于使用图像的形式在社交媒体中分享信息。图像流行度的有效预测能够有助于提升社交网络服务质量,推动社交网络应用及其网络规模的发展,进一步发掘社交网络的应用潜力,同时能够帮助政府正确引导社会舆论,提高决策水平,促进经济领域的发展。因此,社交媒体图像流行度预测问题的研究具有重要的实际意义。
社交媒体中传播的内容可大致分为文本、视频、图片等多种模态。近年来机器学习领域相关技术被广泛应用于社交媒体图像流行度预测问题的研究:Khosla等人在论文“What makes an image popular?”(《Proceedings of the 23rd internationalconference on World wide web》2014:867-876.)中提出了一种图像流行度预测方法。该方法结合简单的图像特征(例如颜色和强度差异),低级视觉特征(例如Gist,纹理,色块和渐变)以及高级图像特征(例如来自Flickr的图像数据集中的各种图像信息的存在),通过线性支持向量回归(LinearSVR)技术预测图像获得的浏览次数,该方法的不足之处是:具有针对性,实际应用价值不高。
Gelli等人在论文“Image popularity prediction in social media usingsentiment and context features”(《Proceedings of the 23rd ACM internationalconference on Multimedia.》2015:907-910.)中提出了一种图像流行度预测方法。该方法通过提取Flickr上图像数据集的视觉情感特征对象特征,上下文特征和用户特征,使用支持向量机(Support Vector Machine,SVM)和卷积神经网络(Convolutional NeuralNetworks,CNN)预测社交图像的观看次数,该方法的不足之处是:忽略了社会特征,影响流行度预测准确度。
Wu等人在论文“Sequential prediction of social media popularity withdeeptemporal context networks”(《arXiv preprint arXiv》1712.04443,2017)提出了一种新的预测框架,称为深度时态上下文网络(Deep Temporal Context Networks,DTCN),以研究流行度的顺序预测。同时使用包含Flickr上共享的68万张照片的TPIC17数据集对预测框架进行验证,结果表示DTCN方法优于以前在该数据集中使用的所有方法,该方法的不足之处是:无法满足实际应用中计算效率与即时性的要求。
通过上述分析,现有技术存在的问题及缺陷为:现有预测模型计算效率不足、即时性差。
解决以上问题及缺陷的难度为:传统神经网络的架构设计下图像预测准确性高度依赖于网络层数,过深的网络层带来了计算时间长、计算资源消耗大等问题。
解决以上问题及缺陷的意义为:移动互联网时代具有终端设备海量化、设备性能差异化的特点,现有网络模型无法适应其对即时性、计算资源的要求。因此,函需一种能够随时分类、弹性建模的图像流行度预测模型。
发明内容
针对现有技术存在的问题,本发明提供了一种社交媒体图像流行度预测方法、***、存储介质及应用。
本发明是这样实现的,一种社交媒体图像流行度预测方法,所述社交媒体图像流行度预测方法包括:
获取社交媒体原始数据集,包括图片、文字、社交提示信息内容,并对数据集进行预处理;
构建基于特征级联与密集连接的MSDNet模型,同时基于MSDNet模型进行数据集中图像特征的提取;
利用Doc2vec模型进行文本信息向量化处理,同时构建TextCNN模型提取数据集中文本信息特征;
利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;
采用极限梯度提升XGBoost方法设计回归器执行预测任务,得到流行度预测结果。
进一步,图像特征提取是通过MSDNet模型的第一层以及后续层获取图像尺度特征图实现,其中MSDNet模型的具体结构如下:MSDNet模型共包含L层,每一层具有S个尺度,所提取的特征图随着深度由左往右,尺度由上往下,从精细到粗糙。尺度s、第l层的输出特征图可表示为模型第一层的结构是唯一的,其在s尺度上的输出特征可由下式给出:
在此,h0(·)和分别表示常规的卷积变换和跨步的卷积变换,第一层的输出为特征图可表示为/>
后续层结构特征遵循密集连接的形式,MSDNet的第l层(l>1)以s尺度输出一组特征可由下式给出:
此处,[···]表示级联运算符,hl(·)表示常规卷积变换,表示跨步卷积变换,hl和/>的输出具有相同的映射大小;输出沿通道维度串联在一起。
进一步,MSDNet模型能够根据预算确定网络深度以及运行于特征图上的分类器数量,每一个分类器由两个下采样卷积层、一个平均池化层、一个线性层组成,附加至某些网络中间层上的分类器,通过仅使用相近粗糙层特征图进行分类,使得图像在通过网络所有层传播之前能够随时输出预测结果。
进一步,文本信息的向量化处理,文本内容包含图像描述、用户情感值对于流行度预测有重要价值的信息;将文本内容中的“uid”,“title”,“alltags”,“concept”,“category”,“description”,“subcategory”七个属性数据定义为文本信息,作为Doc2vec模型的训练数据。同时将用户ID作为隐含文本加入其中,使用户与图像的文本内容相关。
进一步,包含Doc2vec模型进行文本信息向量化处理和TextCNN模型提取数据集中文本信息特征两个过程:
所述Doc2vec模型处理中,Doc2vec训练过程包括:
1)从已知的训练数据中得到词向量,softmax的参数和,以及段落向量/句向量;
2)对于新的段落,得到其向量表达,经Doc2vec预训练得到的数据矩阵作为TextCNN模型的输入以进行文本特征提取;
所述TextCNN模型处理中,TextCNN模型结构包括输入层-卷积层-池化层-全连接层,输入层为经Doc2vec处理的n*k二维矩阵,矩阵每一行代表一个长度为k的词向量;卷积层采用多个h*k的卷积核对输入层数据进行局部特征提取;之后由池化层的1-max pooling对卷积层特征进行抽象提取,提取出的多个特征被拼接为一个一维向量;最后该向量经全连接层特征映射得到文本特征。
进一步,社交提示特征的处理,包括整值映射和时间尺度变换两个过程;
所述整值映射方法是将数据集中社交提示信息的所有属性进行预处理,即将所有属性的一系列属性值采用连续的整数表示;
所述时间尺度变换是将元数据中的时间戳,即“发布日期postdate”属性转换为具有不同时间尺度的6个新特征,分别为“年”,“季节”,“月”,“周”,“日”,以及“时刻”,用以观察社交媒体流行度预测中时间信息的有效性;其中,考虑到用户上网行为具有时段性,人们正常使用网络的高峰期为8点-12点,14点-17点,20点-22点,所以对24小时进行错分,转化为“时刻”特征。
进一步,使用极限梯度提升XGBoost设计回归器执行预测任务,XGBoost以梯度提升为框架,利用加法模型与前向分布算法实现学习优化过程。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取社交媒体原始数据集,包括图片、文字、社交提示信息内容,并对数据集进行预处理;
构建基于特征级联与密集连接的MSDNet模型,同时基于MSDNet模型进行数据集中图像特征的提取;
利用Doc2vec模型进行文本信息向量化处理,同时构建TextCNN模型提取数据集中文本信息特征;
利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;
采用极限梯度提升XGBoost方法设计回归器执行预测任务,得到流行度预测结果。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的社交媒体图像流行度预测方法。
本发明的另一目的在于提供一种实施所述的社交媒体图像流行度预测方法的社交媒体图像流行度预测***,所述社交媒体图像流行度预测***包括:
数据集预处理模块,用于获取社交网络原始数据集,并对数据集进行预处理;
MSDNet网络结构构建模块,用于构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;
数据集中文本信息特征提取模块,用于利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextCNN模型提取数据集中文本信息特征;
社交提示信息特征提取模块,用于利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
多模态信息特征融合模块,用于融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;
预测任务执行模块,用于采用极限梯度提升方法设计回归器以执行预测任务。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明的MSDNet模型能够根据预算资源确定网络深度以及运行于特征图上的分类器数量。每一个分类器由两个下采样卷积层、一个平均池化层、一个线性层组成。附加至某些网络中间层上的分类器,通过仅使用相近粗糙层特征图进行分类,使得图像在通过网络所有层传播之前能够随时输出预测结果。多个分类器在训练过程中的共同优化保证了最终预测结果的准确性,同时减少了前置分类器对最终结果的不良影响。本发明将“uid”,“title”,“alltags”“,concept”“,category”,“description”,“subcategory”7个属性数据定义为文本信息,作为Doc2vec模型的训练数据。同时将用户ID作为隐含文本加入其中,使用户与图像的文本内容相关联,有效解决了流行度预测中忽视用户信息的问题。本发明TextCNN模型结构包括输入层-卷积层-池化层-全连接层。输入层为经Doc2vec处理的n*k二维矩阵,矩阵每一行代表一个长度为k的词向量;卷积层采用多个h*k的卷积核对输入层数据进行局部特征提取;池化层使用最大池化(max-pooling)对卷积层输出的特征图谱进行局部最优特征提取操作,对不同尺寸过滤器生成的特征向量逐一最大池化后,将标量横向拼接,得到一个一维特征向量;最后该向量经全连接层特征映射得到文本特征。为了防止训练过程中可能导致的过拟合问题,需要同时执行dropout操作,以p的概率随机舍弃部分特征节点,提高模型的泛化能力。
本发明对数据集中社交提示信息的所有属性采用整值映射方法进行预处理。本发明将元数据中的时间戳,即“发布日期(postdate)”属性转换为具有不同时间尺度的新特征,以观察社交媒体流行度预测中时间信息的有效性。时间信息被转化为6个特征,分别为“年”,“季节”,“月”,“周”,“日”,以及“时刻”。其中,考虑到用户上网行为具有时段性,人们正常使用网络的高峰期为8点-12点,14点-17点,20点-22点,所以对24小时进行错分,转化为“时刻”特征,使时间特性更加精确。
本发明的XGBoost是一种基于决策树的集成机器学***方和。XGBoost在优化时使用一、二阶导数信息,并对缺失值进行了处理,通过学习模型自动选择最优的缺失值默认切分方向。XGBoost除了增加正则项来防止过拟合,同时支持行列采样的方式来解决过拟合问题。
与现有技术相比,本发明具有以下优点:
1)本发明首次将MSDNet应用于图像流行度预测领域。利用MSDNet减少网络与懒惰计算的特点,使得整个流行度预测模型更加紧凑高效,计算资源的利用率大大提升。同时MSDNet随时分类与批量预算的特点使得模型可以根据计算资源的要求进行实时构建,并且能够随时输出预测结果,满足了流行度预测问题的即时性要求。
2)本发明基于Doc2vec-TextCNN模型提取文本信息特征,能够更好的获取文本的局部相关性。同时基于XGBoost设计回归器进行预测,有效解决了过拟合问题,降低了整个预测模型的时间复杂度。
3)本发明通过分析多模态信息融合特征进行流行度预测,充分考虑了图像、文本、社交提示信息在流行度预测中的作用,使得预测结果更加可信、准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的社交媒体图像流行度预测方法流程图。
图2是本发明实施例提供的社交媒体图像流行度预测***的结构示意图;
图2中:1、数据集预处理模块;2、MSDNet网络结构构建模块;3、数据集中文本信息特征提取模块;4、社交提示信息特征提取模块;5、多模态信息特征融合模块;6、预测任务执行模块。
图3是本发明实施例提供的社交媒体图像流行度预测方法的实现流程图。
图4是本发明实施例提供的构建的多尺度密集网络模型结构示意图。
图5是本发明实施例提供的TextCNN模型整体构架示意图。
图6是本发明实施例提供的预测精度指标评估趋势图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种社交媒体图像流行度预测方法、***、存储介质及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的社交媒体图像流行度预测方法包括以下步骤:
S101:获取社交网络原始数据集,包括图片、文字、社交信息等内容,并对数据集进行预处理。每条数据应包含该用户上传的一张图片以及对应属性,每张图片的流行度分数可定义为ln(‘浏览数’+1);
S102:构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;
S103:利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextCNN模型提取数据集中文本信息特征;
S104:利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
S105:融合提取出的图像特征与文本特征,之后再与社交提示信息特征进一步融合得到多模态信息特征;
S106:采用极限梯度提升(XGBoost)回归器执行预测任务。
本发明提供的社交媒体图像流行度预测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的社交媒体图像流行度预测方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的社交媒体图像流行度预测***包括:
数据集预处理模块1,用于获取社交网络原始数据集,并对数据集进行预处理;
MSDNet网络结构构建模块2,用于构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;
数据集中文本信息特征提取模块3,用于利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextCNN模型提取数据集中文本信息特征;
社交提示信息特征提取模块4,用于利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
多模态信息特征融合模块5,用于融合提取出的图像特征与文本特征,之后再与社交提示信息特征进一步融合得到多模态信息特征;
预测任务执行模块6,用于采用极限梯度提升回归器执行预测任务。
下面结合附图对本发明的技术方案作进一步的描述。
如图3所示,本发明提供的社交媒体图像流行度预测方法具体包括以下步骤:
1)获取社交网络原始数据集,包括图片、文字、社交信息等内容,并对数据集进行预处理。每条数据应包含该用户上传的一张图片以及对应属性,每张图片的流行度分数可定义为ln(‘浏览数’+1)。
2)构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;
3)利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextC NN模型提取数据集中文本信息特征;
4)利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
5)融合提取出的图像特征与文本特征,之后再与社交提示信息特征进一步融合得到多模态信息特征。
6)采用极限梯度提升(XGBoost)回归器执行预测任务。
上述步骤2)中,MSDNet模型构建与图像特征提取包括以下步骤:
假设网络为L*S形式(L层,尺度为S),如附图2所示,则尺度s、第l层的输出特征图表示为原始输入图像表示为/>第一层在s尺度上的输出可由下式给出:
在此,h0(·)和分别表示常规的卷积变换和跨步的卷积变换。第一层的输出为特征图/>每个尺度一个。
后续层。按照密集连接模式,随后的l>1层上生成的输出特征图是来自尺度s和s-1的所有先前特征图和变换后的特征图的串联(如果s>1)。MSDNet的第l层以s尺度输出一组特征/>其中:
此处,[···]表示级联运算符,hl(·)表示常规卷积变换,表示跨步卷积变换。hl和/>的输出具有相同的映射大小;它们的输出沿通道维度串联在一起。
更深的网络层数意味着模型具有更强的学习能力,但随着层数的增加,整个模型的复杂度也随之加剧,网络容易出现过拟合现象,造成预测准确度的下降。本发明通过实验确定,MSDNet模型的密集连接模块数量为5时模型的性能最佳。
分类器
MSDNet中分类器由两个卷积层、一个平均池化层、一个线性层组成。分类器仅被附加到某些中间层上,fk(·)表示第k个分类器。根据密集连接模式特点,l层上的分类器可使用前置层及本层的所有特征网络中每个分类器都被设置预测置信度阙值θk,一旦到达预定阙值,则网络会以分类器fk为最终结果并退出。如果网络中每个分类器的固定退出概率均为常数q,取值范围为[0,1],则可计算出网络在分类器k处退出的概率为:
qk=z(1-q)k-1q
其中qk表示网络在分类器k处退出的概率,z是归一化常数(因为只有有限数量的层),qk随着层数的增加呈指数递减。这提供了一种依据网络总预算确定所需网络深度的自然方法:假设网络遍历至第k个分类器所需成本为Ck,对所有样本进行分类的总成本不超过网络预期计算资源B,则产生如下约束:
|Dtest|∑kqkCk≤B
其中Dtest表示测试集数据成本参数,由上式可计算出在网络预期计算资源B之内的最大网络层数。
损失函数
训练过程中,为每个分类器使用逻辑损失函数L(fk)并最小化加权得到网络累积损失lossk:
其中D表示训练集,wk≥0是分类器k的权重。如果网络预期计算资源B已知,则可根据预算设置适当的权重。否则,由经验可知,当所有分类器分配wk=1时网络计算效果较好。
上述步骤3)中文本信息特征提取包括以下步骤:
3.1)文本信息向量化
文本内容包含了图像描述、用户情感值等对于流行度预测有重要价值的信息。本发明将“uid”,“title”,“alltags”“,concept”“,category”,“description”,“subcategory”7个属性数据定义为文本信息,作为Doc2vec模型的训练数据。同时将用户ID作为隐含文本加入其中,从而使用户与图像的文本内容相关联,有效解决了流行度预测中忽视用户信息的问题。
3.2)Doc2vec模型处理
Doc2vec训练过程主要包括:1)从已知的训练数据中得到词向量,softmax的参数和,以及段落向量/句向量;2)对于新的段落,得到其向量表达。在矩阵中添加更多的列,固定所有权重对其进行训练,使用梯度下降的方法得到新的D,从而得到新段落的向量表达。经Doc2vec预训练得到的数据矩阵作为TextCNN模型的输入以进行文本特征提取。
3.3)TextCNN模型处理
TextCNN模型结构包括输入层-卷积层-池化层-全连接层,如图5所示:
3.3.1)输入层
输入层是文本信息经Doc2vec预训练所得到的大小为n×|d|的二维矩阵,文本信息的句子向量维度为|d|,本发明设置其值为6。
3.3.2)卷积层
卷积层使用3种不同尺寸的过滤器:3×|d|、4×|d|及5×|d|。设置步幅为1执行卷积操作,采用reLU作为卷积层激活函数。为了提取更多的抽象特征,每种尺寸的过滤器数量为128个。
3.3.3)池化层
池化层使用最大池化(max-pooling)对卷积层输出的特征图谱进行局部最优特征提取操作,即抽取每个特征向量的最大值表示该特征。池化层中每个过滤器的输出结果为一个标量,对不同尺寸过滤器生成的特征向量逐一最大池化后,将标量横向拼接,从而得到一个特征向量。
3.3.4)全连接层
全连接层将拼接后的特征向量映射为长度为50的输出向量,该向量即文本特征。为了防止训练过程中可能导致的过拟合问题,需要同时执行dropout操作,以p=0.5的概率随机舍弃部分特征节点,提高模型的泛化能力。
上述步骤4)中社交提示特征的处理包括如下步骤:
4.1)整值映射
整值映射方法即将某个属性的一系列属性值采用连续的整数表示。如属性geoaccuracy有16个属性值,对该属性进行整值映射,得到的是0-15数字中的任意一个。本发明对数据集中社交提示信息的所有属性采用整值映射方法进行预处理。
4.2)时间尺度变换
时间信息在社交媒体流行度预测中起着重要作用。现有模型基于时间对上下文语境进行建模以预测流行度,并提出了基于多时间尺度的社交媒体流行度研究。本发明将元数据中的时间戳,即“发布日期(postdate)”属性转换为具有不同时间尺度的新特征,以观察社交媒体流行度预测中时间信息的有效性。时间信息被转化为6个特征,分别为“年”,“季节”,“月”,“周”,“日”,以及“时刻”。其中,考虑到用户上网行为具有时段性,人们正常使用网络的高峰期为8点-12点,14点-17点,20点-22点,所以对24小时进行错分,转化为“时刻”特征,使时间特性更加精确。
上述步骤6)中XGBoost回归器设计如下:
XGBoost是一种基于决策树的集成机器学习算法,以梯度提升为框架,利用加法模型与前向分布算法实现学习优化过程。其将K(树的个数)个树的结果进行求和,作为最终的预测值;通过最小化带有正则项的目标函数,达到准确分类的效果,如下式:
式中表示模型的预测值,yi表示第i个样本的类别标签,K表示树的数量,fk表示第k颗树模型,T表示每棵树的叶子节点数量,ω表示每棵树的叶子节点的分数组成的集合,γ和λ表示系数,在实际应用中需要进行调参。XGBoost的损失函数通过添加正则化项以控制模型的复杂度,防止过拟合现象。正则项中包含了树的叶子节点个数、每个叶子节点权重(叶结点的socre值)的平方和。XGBoost在优化时使用一、二阶导数信息,并对缺失值进行处理,通过学习模型自动选择最优的缺失值默认切分方向。
下面结合实验对本发明的技术效果作详细的描述。
1、实验条件
本实验使用深度学习框架Pytorch1.0,网络的训练、验证与测试均在Pytorch环境下完成。编程语言为python3.6,基于Window7操作***。实验的硬件环境为Intel(R)Core(TM)i7-4790处理器,主频为3.60GHz,内存为8GB,显卡为NVIDIA GeForceGTX 1080Ti。
本实验使用的数据集来自ACM MM 2019Grand Challenge中的时间流行度预测(Temporal Popularity Prediction任务,数据集名为SMPD(Social Media PredictionDataset),包含来自著名的社交图片分享网站Flickr中70,000位用户486,000个社交多媒体帖子以及各种社交媒体信息。
2、实验内容
本实验应用所提出的图像流行度预测模型于SPMD数据集中,从均方误差、平均绝对误差、斯皮尔曼等级相关系数三个指标与已有模型进行评估比较。
均方误差(Mean Squared Error,MSE)是度量预测的流行度分数与实际流行度分数yi的接近程度,计算公式如下:
平均绝对误差(Mean Absolute Error,MAE)度量预测的流行度分数与其实际分数的偏差,值越小表示模型预测准确度越高,计算公式如下:
斯皮尔曼等级相关系数(Spearman's rho)用于衡量预测的流行度分数与实际分数之间的线性关系,+1值意味着正相关,-1的值意味着负相关,值越大表示预测效果越好,计算公式如下:
其中,ρ表示通常的斯皮尔曼相关系数,但在此应用于秩变量计算,cov(rgX,rgY)表示秩变量的协方差,σgX与σgY表示秩变量的标准偏差。
3、实验结果
采用随机梯度下降法将训练集与验证集按照0.85:0.15的比例对模型神经网络部分(MSDNet+TextCNN)进行训练。由图6可看出,预处理后的数据质量相对粗糙,导致多模态特征信息微弱。随着迭代次数的增加,原始的多模态特征被映射到有序的、突出的多模态融合特征空间中,MSE、MAE值大大减小,模型预测精度得到提升,同时模型迭代175轮后即趋于稳定。
在回归层使用不同的回归器进行性能比较。由表1可看出,本发明的方法所使用的XGBoost回归器在MAE、MSE、Spearman's rho三项指标方面整体情况优于其他算法。同时XGBoost回归器能够无缝连接神经网络,有效防止过拟合现象。
表1回归层方法性能对比
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种社交媒体图像流行度预测方法,其特征在于,所述社交媒体图像流行度预测方法包括:
获取社交媒体原始数据集,包括图片、文字、社交提示信息内容,并对数据集进行预处理;
构建基于特征级联与密集连接的MSDNet模型,同时基于MSDNet模型进行数据集中图像特征的提取;
利用Doc2vec模型进行文本信息向量化处理,同时构建TextCNN模型提取数据集中文本信息特征;
利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;
采用极限梯度提升XGBoost方法设计回归器执行预测任务,得到流行度预测结果;
图像特征提取是通过MSDNet模型的第一层以及后续层获取图像尺度特征图实现,其中MSDNet模型的具体结构如下:MSDNet模型共包含L层,每一层具有S个尺度,所提取的特征图随着深度由左往右,尺度由上往下,从精细到粗糙,尺度s、第l层的输出特征图可表示为模型第一层的结构是唯一的,其在s尺度上的输出特征可由下式给出:
在此,h0(·)和分别表示常规的卷积变换和跨步的卷积变换,第一层的输出为特征图可表示为/>
后续层结构特征遵循密集连接的形式,MSDNet的第l层(l>1)以s尺度输出一组特征可由下式给出:
此处,[···]表示级联运算符,hl(·)表示常规卷积变换,表示跨步卷积变换,hl和/>的输出具有相同的映射大小;输出沿通道维度串联在一起;
文本信息的向量化处理,文本内容包含图像描述、用户情感值对于流行度预测有重要价值的信息;将文本内容中的“uid”,“title”,“alltags”,“concept”,“category”,“description”,“subcategory”七个属性数据定义为文本信息,作为Doc2vec模型的训练数据,同时将用户ID作为隐含文本加入其中,使用户与图像的文本内容相关;
社交提示特征的处理,包括整值映射和时间尺度变换两个过程;
所述整值映射方法是将数据集中社交提示信息的所有属性进行预处理,即将所有属性的一系列属性值采用连续的整数表示;
所述时间尺度变换是将元数据中的时间戳,即“发布日期postdate”属性转换为具有不同时间尺度的6个新特征,分别为“年”,“季节”,“月”,“周”,“日”,以及“时刻”,用以观察社交媒体流行度预测中时间信息的有效性;其中,考虑到用户上网行为具有时段性,人们正常使用网络的高峰期为8点-12点,14点-17点,20点-22点,所以对24小时进行错分,转化为“时刻”特征。
2.如权利要求1所述的社交媒体图像流行度预测方法,其特征在于,MSDNet模型能够根据预算确定网络深度以及运行于特征图上的分类器数量,每一个分类器由两个下采样卷积层、一个平均池化层、一个线性层组成,附加至某些网络中间层上的分类器,通过仅使用相近粗糙层特征图进行分类,使得图像在通过网络所有层传播之前能够随时输出预测结果。
3.如权利要求1所述的社交媒体图像流行度预测方法,其特征在于,包含Doc2vec模型进行文本信息向量化处理和TextCNN模型提取数据集中文本信息特征两个过程:
所述Doc2vec模型处理中,Doc2vec训练过程包括:
1)从已知的训练数据中得到词向量,softmax的参数和,以及段落向量/句向量;
2)对于新的段落,得到其向量表达,经Doc2vec预训练得到的数据矩阵作为TextCNN模型的输入以进行文本特征提取;
所述TextCNN模型处理中,TextCNN模型结构包括输入层-卷积层-池化层-全连接层,输入层为经Doc2vec处理的n*k二维矩阵,矩阵每一行代表一个长度为k的词向量;卷积层采用多个h*k的卷积核对输入层数据进行局部特征提取;之后由池化层的1-max pooling对卷积层特征进行抽象提取,提取出的多个特征被拼接为一个一维向量;最后该向量经全连接层特征映射得到文本特征。
4.如权利要求1所述的社交媒体图像流行度预测方法,其特征在于,使用极限梯度提升XGBoost设计回归器执行预测任务,XGBoost以梯度提升为框架,利用加法模型与前向分布算法实现学习优化过程。
5.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~4任意一项所述的社交媒体图像流行度预测方法。
6.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~4任意一项所述的社交媒体图像流行度预测方法。
7.一种实施权利要求1~4任意一项所述的社交媒体图像流行度预测方法的社交媒体图像流行度预测***,其特征在于,所述社交媒体图像流行度预测***包括:
数据集预处理模块,用于获取社交网络原始数据集,并对数据集进行预处理;
MSDNet网络结构构建模块,用于构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;
数据集中文本信息特征提取模块,用于利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextCNN模型提取数据集中文本信息特征;
社交提示信息特征提取模块,用于利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;
多模态信息特征融合模块,用于融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;
预测任务执行模块,用于采用极限梯度提升方法设计回归器以执行预测任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148291.0A CN112396091B (zh) | 2020-10-23 | 2020-10-23 | 社交媒体图像流行度预测方法、***、存储介质及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148291.0A CN112396091B (zh) | 2020-10-23 | 2020-10-23 | 社交媒体图像流行度预测方法、***、存储介质及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396091A CN112396091A (zh) | 2021-02-23 |
CN112396091B true CN112396091B (zh) | 2024-02-09 |
Family
ID=74596082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011148291.0A Active CN112396091B (zh) | 2020-10-23 | 2020-10-23 | 社交媒体图像流行度预测方法、***、存储介质及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396091B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883231B (zh) * | 2021-02-24 | 2023-11-17 | 广东技术师范大学 | 短视频流行度预测方法、***、电子设备及存储介质 |
JPWO2023286652A1 (zh) * | 2021-07-15 | 2023-01-19 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876643A (zh) * | 2018-05-24 | 2018-11-23 | 北京工业大学 | 一种社交策展网络上采集(Pin)的多模态表示方法 |
WO2019095570A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 预测事件流行度方法、服务器及计算机可读存储介质 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
-
2020
- 2020-10-23 CN CN202011148291.0A patent/CN112396091B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019095570A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 预测事件流行度方法、服务器及计算机可读存储介质 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN108876643A (zh) * | 2018-05-24 | 2018-11-23 | 北京工业大学 | 一种社交策展网络上采集(Pin)的多模态表示方法 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
Non-Patent Citations (2)
Title |
---|
在线社交网络信息流行度预测综述;艾擎;张凤荔;陈学勤;邓一娇;;计算机应用研究(第S1期);全文 * |
基于在线社交网络事件库多因素耦合的流行度预测方法;于海;吕晴晴;时鹏;王铮;胡长军;;天津大学学报(自然科学与工程技术版)(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112396091A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163165B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
US11874862B2 (en) | Community question-answer website answer sorting method and system combined with active learning | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN116097250A (zh) | 用于多模式文档理解的布局感知多模式预训练 | |
CN112800292A (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN112396091B (zh) | 社交媒体图像流行度预测方法、***、存储介质及应用 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN113378573A (zh) | 面向内容大数据的小样本关系抽取方法和装置 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN114547230A (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
CN114579741B (zh) | 融合句法信息的gcn-rn方面级情感分析方法和*** | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
CN113392341A (zh) | 封面选择方法、模型训练方法、装置、设备及存储介质 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及*** | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
Li et al. | Alpha-SGANet: A multi-attention-scale feature pyramid network combined with lightweight network based on Alpha-IoU loss | |
CN114020871B (zh) | 基于特征融合的多模态社交媒体情感分析方法 | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 | |
Shi et al. | Product feature extraction from Chinese online reviews: Application to product improvement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |