CN107563394B - 一种预测图片流行度的方法及*** - Google Patents

一种预测图片流行度的方法及*** Download PDF

Info

Publication number
CN107563394B
CN107563394B CN201710848297.0A CN201710848297A CN107563394B CN 107563394 B CN107563394 B CN 107563394B CN 201710848297 A CN201710848297 A CN 201710848297A CN 107563394 B CN107563394 B CN 107563394B
Authority
CN
China
Prior art keywords
data
analyzed
time
interval
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710848297.0A
Other languages
English (en)
Other versions
CN107563394A (zh
Inventor
刘文印
司徒润威
李六武
高俊艳
杨振国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiqin Technology (Beijing) Co.,Ltd.
Original Assignee
Qiqin Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiqin Technology Beijing Co ltd filed Critical Qiqin Technology Beijing Co ltd
Priority to CN201710848297.0A priority Critical patent/CN107563394B/zh
Publication of CN107563394A publication Critical patent/CN107563394A/zh
Application granted granted Critical
Publication of CN107563394B publication Critical patent/CN107563394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种预测图片流行度的方法,方法包括:将采集到的图片数据进行预处理得到待分析数据;利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度;该方法能够准确预测图片的流行度,有利于新媒体的发展;本申请还公开了一种预测图片流行度的***、一种计算机可读存储介质及服务器,具有以上有益效果。

Description

一种预测图片流行度的方法及***
技术领域
本发明涉及数据分析领域,特别涉及一种预测图片流行度的方法、***和一种计算机可读存储介质及服务器。
背景技术
信息技术的飞速发展推动了社交媒体的流行,社交媒体改变了人们交互的方式。用户主要通过发送图片的方式,在社交媒体平台分享自己的生活和经历。因此,社交媒体积累了海量的图片数据。然而,这些图片的流行度不尽相同。不同知名度的用户所发的图片的流行度相差甚远,同一用户发的图片的流行度也不同。许多领域的应用,例如新闻个性化推荐***的设计,网上广告的投放等等,都得益于社交媒体图片流行度预测这一课题研究。
现有技术中,基于循环神经网络的社交网络消息爆发检测是对社交网络中用户发布与转发的历史消息的分类预测,判断消息是否爆发。该现有技术只涉及到对社交媒体上面的文本信息的预测,无法实现对社交图片流行度的精准预测。
因此,如何实现对社交图片流行度进行精准预测,是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种预测图片流行度的方法、***和一种计算机可读存储介质及服务器,能够实现对社交图片流行度进行精准预测。
为解决上述技术问题,本申请提供一种预测图片流行度的方法,该方法包括:
将采集到的图片数据进行预处理得到待分析数据;
利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度。
可选的,所述将采集到的图片数据进行预处理得到待分析数据包括:
根据社交线索特征将采集到的图片数据划分为时间特征数据和非时间特征数据;
利用多时态标度的方法对所述时间特征数据进行处理得到待分析时间数据;
利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据;
其中,所述待分析数据包括所述待分析时间数据和所述待分析非时间数据。
可选的,所述利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据包括:
根据函数
Figure BDA0001412626630000021
对所述非时间特征数据的取值范围进行区间划分;其中,b0、b1…bi-1为映射值;ai为第i个所述区间上的所述非时间特征数据的取值;
根据所述非时间特征数据确定对应区间上的映射值,并通过get_dummies函数进行相应转化得到待分析非时间数据。
可选的,根据所述非时间特征数据确定对应区间上的映射值包括:
在所述区间中设置重叠区间,判断所述非时间特征数据是否落在所述重叠区间;
若是,则判定所述非时间特征数据对应的所述区间为所述重叠区间相邻的区间;
若否,则对所述非时间特征数据的映射值确定对应区间上的映射值。
可选的,所述利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本包括:
利用一维卷积神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接起来得到全连接层的输入数据;
利用所述全连接层,对所述输入数据进行特征提取操作得到所述特征样本。
本申请还提供了一种预测图片流行度的***,该***包括:
初始化模块,用于将采集到的图片数据进行预处理得到待分析数据;
特征提取模块,用于利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
回归模块,用于利用经过参数优化的XGBoost对所述特征样本进行参数优化得到所述图片流行度。
可选的,所述初始化模块包括:
划分子模块,用于根据社交线索特征将采集到的图片数据划分为时间特征数据和非时间特征数据;
时间数据处理子模块,用于利用多时态标度的方法对所述时间特征数据进行处理得到待分析时间数据;
非时间数据处理子模块,用于利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据;
其中,所述待分析数据包括所述待分析时间数据和所述待分析非时间数据。
可选的,所述非时间数据处理子模块包括:
分区单元,用于根据函数
Figure BDA0001412626630000031
对所述非时间特征数据的取值范围进行区间划分;其中,b0、b1…bi-1为映射值;ai为第i个所述区间上的所述非时间特征数据的取值;
转化单元,用于根据所述非时间特征数据确定对应的区间,并通过get_dummies函数进行相应转化得到待分析非时间数据。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现以下步骤:
将采集到的图片数据进行预处理得到待分析数据;
利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度。
本申请还提供了一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现以下步骤:
将采集到的图片数据进行预处理得到待分析数据;
利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度。
本发明提供了一种预测图片流行度的方法,将采集到的图片数据进行预处理得到待分析数据;利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度。
本方法中对源数据进行预处理得到可以识别的待分析数据,通过人工神经网络与经过参数优化的XGBoost的结合对待分析数据中的特征样本进行预测。该方法人工神经网络与经过参数优化的XGBoost构成的混合模型堆叠能够准确预测图片的流行度,有利于新媒体的发展;本申请同时还提供了一种预测图片流行度的***、一种计算机可读存储介质及服务器,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种预测图片流行度的方法的流程图;
图2为本申请实施例所提供的另一种预测图片流行度的方法的流程图;
图3为多时态标度划分示意图;
图4为本申请实施例所提供的又一种预测图片流行度的方法的流程图;
图5低层特征与高层特征拼接示意图;
图6为本申请实施例所提供的另外一种预测图片流行度的方法的流程图;
图7为重叠区域划分示意图;
图8为本申请实施例所提供的一种预测图片流行度的***的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种预测图片流行度的方法的流程图;
具体步骤可以包括:
S101:将采集到的图片数据进行预处理得到待分析数据;
其中,本方案的目的是预测图片的流行度,因此在本步骤中采集的图片数据为图片的相关信息,图片数据的来源可以是Flickr(一个图片分享网站)、微博、QQ空间等社交平台或图片分享网站,此处并不对图片数据的采集来源进行限定,只要是公开的、与图片相关的网站即可。可以理解的是,由于本发明的目的是预测图片流行度,因此采集的图片数据可以是受关注度很高的图片,也可以是基本不受关注的图片。但是出于法律道德的要求,对于某些携带不良信息(如色情、暴力、政治反动)的图片数据就可以在进行预处理时剔除不进行流行度预测。
可以理解的是,图片数据可以按照社交线索特征划分为时间特征和非时间特征,时间特征可以包括用户在社交媒体上发图的日期、用户所在的时区等,而非时间特征可以包括用户发的图片总数、图片的被点赞总数、用户的联系人总数等。因此,相应的在对图片数据进行预处理时,需要对时间特征进行预处理,也需要对非时间特征进行预处理。由于与处理的对象不同,因此对其进行的预处理的方式也不同。
对于时间特征,可以采用多时态标度的方法进行处理,可以将用户在社交媒体上发图的日期转换为多个特征,例如可以细化到一年中的第几个月,一年中的第几个周,一个月的第几个周、一周的第几天、一天的第几个小时等等。对于非时间特征,利用特征图谱的去获取非时间特征的统计信息,可以理解的是,通过特征图谱获得非时间特征的具体方法有很多,本文将在下一具体是实施例中进行详细的说明。
S102:利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
其中,神经网络的输入层为经过预处理得到的待分析数据,隐层是神经网络除了输入层输出层之外的层。深度神经网络具有多个隐层,经过隐层低层的处理得到的特征为低层特征,而经过隐层高层的处理得到的特征为高层特征。低层特征表示待分析数据的原始的简单的信息,而高层特征是最能够代表待分析数据的特征信息,与输出目标联系密切。通过将低层特征与高层特征进行拼接获得需要进行下一步计算的特征样本。本步骤中提到的低层特征是数据的较为简单原始的,与输出目标联系不太密切的特征表示;高层特征是数据的较为复杂抽象的,与输出目标联系密切的特征表示。
本步骤中用到的人工神经网络可以有很多种如一维卷积神经网络、LSTM(LongShort-Term Memory,长短期记忆网络)循环神经网络等,本领域的技术人员可以根据方案的实际应用情况选择适当的人工神经网络,此处不进行具体的限定。
S103:利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度;
其中,本步骤采用经过参数优化的XGBoost执行对图片流行度的预测的任务。本步骤将人工神经网络提取的特征输出至经过参数优化的XGBoost,进行参数优化,最终获得关于图片的图片流行度的预测结果。
值得注意的是,本步骤中使用到的经过参数优化的XGBoost是一种可扩展的提升决策树***,与其他回归模型相比,具有许多优点。例如,可以自动处理数据的缺失值,可以定制优化的目标函数以及评估标准,采用并行处理以提高计算速度等等。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括kaggle比赛的夺冠方案。在工业界规模方面,经过参数优化的XGBoost的分布式版本有广泛的可移植性,支持在各种平台上面运行,并且保留了单机并行版本的各种优化,使得它可以很好地解决于工业界规模的问题。
下面请参见图2、图3,图2为本申请实施例所提供的另一种预测图片流行度的方法的流程图;图3为多时态标度划分示意图。
本实施例是针对上一实施例中S101中如何将采集到的图片数据进行预处理得到待分析数据所做出的一个具体的限定,其他步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
具体步骤可以包括:
S201:根据社交线索特征将采集到的图片数据划分为时间特征数据和非时间特征数据;
其中,本步骤的划分标准为:与时间相关的数据为时间特征数据,剩下的数据均为非时间特征数据。
S202:利用多时态标度的方法对所述时间特征数据进行处理得到待分析时间数据;
请参见图3,多时态标度的方法对于用户在社交媒体上发图的日期,将其转换成了多个特征,包括一天中第几个时刻,一周中的第几天,一个月中的第几天,一个月中的第几周,一年中的第几周,一年中的第几个月以及一年中的第几个季节。
S203:利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据;
其中,对于一个特定的非时间特征,第n个样本在该特征上的取值an(n=0,1,2…i-1,i…)不尽相同。
可以利用阶梯函数
Figure BDA0001412626630000071
用多个区间[ai-1,ai+ci-1](i=1,2,3…)对该特征的取值范围进行划分,落在相同区间内的不同样本的特征值将被映射成同一个值。其中,落在第0个区间的特征值被映射成b0,落在第1个区间的特征值被映射成b1……依次类推。最后,使用pandas(编程语言python的数据分析包)的get_dummies函数,将映射值b0,b1……转换成一系列0与1的组合。举例来说,若用5个区间对样本特征值的取值范围进行划分,则映射值的范围为1,2,3,4,5。给定一个样本的特征值,如果该样本的取值落在第3个区间内,则被映射成3,最后,由get_dummies函数转换成0,0,1,0,0的一组数,即只在Feature 2(特征位)的位置取1,其余位置取0。给定所有样本在一个特征的取值范围,这样的一组数,反映了一个样本的特征值在所有样本特征的取值范围中的分布情况。
下面请参见图4、图5,图4为本申请实施例所提供的又一种预测图片流行度的方法的流程图;图5低层特征与高层特征拼接示意图。
本实施例是针对上一实施例中S102中如何将所述低层特征与所述高层特征拼接得到所述特征样本所做出的一个具体的限定,其他步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
S301:利用一维卷积神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接起来得到全连接层的输入数据;
其中,本步骤采用一维卷积神经网络。一维卷积神经网络与图像识别领域常用的卷积神经网络不同,只从一个方向上完成卷积的操作。该神经网络框架结构如图5所示,由4个卷积层,4个池化层以及3个全连接层组成。卷积层是最基本的用于提取特征的部件,用于提取低层的特征。在每个卷积层之后,都紧跟着一个池化层,使用Relu(一种激活函数)进行激活。池化层用于减少特征的维度,起到加速计算,减少时间复杂度的效果。有别于卷积层,全连接层提取高层的特征。全连接层之后的是由激活函数Relu进行激活的丢弃操作,丢弃操作可以有效地防止过拟合。
S302:利用所述全连接层,对所述输入数据进行特征提取操作得到所述特征样本。
其中,请参阅图5,输入经过阶段1预处理的数据,经过卷积神经网络逐层处理,本框架将卷积层2输出的相对低层的特征与最后一个卷积层4输出的相对高层的特征拼接起来,作为全连接层1的输入,经过全连接层的进一步提取,产生最终作为经过参数优化的XGBoost输入的特征。
下面请参见图6、图7,图6为本申请实施例所提供的另外一种预测图片流行度的方法的流程图;图7为重叠区域划分示意图。
本实施例是针对上一实施例中S202中如何利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据所做出的一个具体的限定,其他步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
S401:在所述区间中设置重叠区间,判断所述非时间特征数据是否落在所述重叠区间;若是,则进入S402;若否,则进入S403。
S402:判定所述非时间特征数据对应的所述区间为所述重叠区间相邻的区间;
S403:对所述非时间特征数据的映射值确定对应区间上的映射值。
下面举例说明步骤S401,S402,S403。请参见图7在实际操作中可能出现这样的情况:有相当多的样本特征值落在了相邻区间的交界处。为了更好地刻画原始数据的分布情况,对于特征的取值范围的区间划分,本发明采用了重叠的方式,如图7所示。若一个样本的特征值恰好落在图中区间的重叠区域内,将会通过阶梯函数同时产生分别对应于区间[ai-1,ai+ci-1]和区间[ai,ai+1]的两个映射值,bi-1和bi,最后由get_dummies函数转换成含有两个1和多个0的一组数,其中,两个1总是位于相邻的位置上。这样的一组数,反映了一个样本的特征值落在两个区间的交界处时的情况。重叠区域的大小可以设置成区间A长度的五分之一。
另外,基于对原始数据样本的特征值分布情况的观察,本发明设计了以下三条用于对特征的取值范围进行区间划分的规则。
规则1:为了使最后产生的特征(0和1的组合)更具表现力,每个区间应该包含足够多的样本特征值。
规则2:调整各个区间的长度,使得每个区间包含的样本特征数大致相同。
规则3:区间的长度设置与非时间特征的平均值有关。例如,给定一个非时间特征,第一个区间的长度可以设置为非时间特征的平均值的三分之一,第二个区间的长度可以设置为非时间特征的平均值的一半等等。
请参见图8,图8为本申请实施例所提供的一种预测图片流行度的***的结构示意图;
该***可以包括:
初始化模块100,用于将采集到的图片数据进行预处理得到待分析数据;
特征提取模块200,用于利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
回归模块300,用于利用经过参数优化的XGBoost对所述特征样本进行参数优化得到所述图片流行度。
在本申请提供的另一种预测图片流行度的***的实施例中,所述初始化模块100包括:
划分子模块,用于根据社交线索特征将采集到的图片数据划分为时间特征数据和非时间特征数据;
时间数据处理子模块,用于利用多时态标度的方法对所述时间特征数据进行处理得到待分析时间数据;
非时间数据处理子模块,用于利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据;
其中,所述待分析数据包括所述待分析时间数据和所述待分析非时间数据。
进一步的,所述非时间数据处理子模块包括:
分区单元,用于根据函数
Figure BDA0001412626630000101
对所述非时间特征数据的取值范围进行区间划分;其中,b0、b1…bi-1为映射值;ai为第i个所述区间上的所述非时间特征数据的取值;
转化单元,用于根据所述非时间特征数据确定对应的区间,并通过get_dummies函数进行相应转化得到待分析非时间数据。
进一步的,所述转化单元包括:
判断子单元,用于在所述区间中设置重叠区间,判断所述非时间特征数据是否落在所述重叠区间;
重叠处理子单元,用于当所述非时间特征数据落在所述重叠区间时,判定所述非时间特征数据对应的所述区间为所述重叠区间相邻的区间;
非重叠处理子单元,用于当所述非时间特征数据不落在所述重叠区间时,对所述非时间特征数据的映射值确定所述区间。
进一步的,所述特征提取模块200包括:
拼接子模块,用于利用一维卷积神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接起来得到全连接层的输入数据;
提取子模块,用于对所述输入数据进行特征提取操作得到所述特征样本。
由于***部分的实施例与方法部分的实施例相互对应,因此***部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种服务器,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述服务器还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (6)

1.一种预测图片流行度的方法,其特征在于,包括:
将采集到的图片数据进行预处理得到待分析数据;
利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度;
其中,所述将采集到的图片数据进行预处理得到待分析数据包括:
根据社交线索特征将采集到的图片数据划分为时间特征数据和非时间特征数据;
利用多时态标度的方法对所述时间特征数据进行处理得到待分析时间数据;
利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据;其中,所述待分析数据包括所述待分析时间数据和所述待分析非时间数据;
其中,所述利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据包括:
根据函数
Figure FDA0002711385820000011
对所述非时间特征数据的取值范围进行区间划分;其中,b0、b1…bi-1为映射值;ai为第i个所述区间上的所述非时间特征数据的取值;ci为小于[ai-1,ai]区间跨度的任意数值;
根据所述非时间特征数据确定对应区间上的映射值,并通过get_dummies函数进行相应转化得到待分析非时间数据;get_dummies函数为pandas的函数,pandas为编程语言python的数据分析包。
2.根据权利要求1所述方法,其特征在于,根据所述非时间特征数据确定对应区间上的映射值包括:
在所述区间中设置重叠区间,判断所述非时间特征数据是否落在所述重叠区间;
若是,则判定所述非时间特征数据对应的所述区间为所述重叠区间相邻的区间;
若否,则对所述非时间特征数据的映射值确定对应区间上的映射值。
3.根据权利要求1所述方法,其特征在于,所述利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本包括:
利用一维卷积神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接起来得到全连接层的输入数据;
利用所述全连接层,对所述输入数据进行特征提取操作得到所述特征样本。
4.一种预测图片流行度的***,其特征在于,包括:
初始化模块,用于将采集到的图片数据进行预处理得到待分析数据;
特征提取模块,用于利用人工神经网络提取待分析数据的低层特征与高层特征,并将所述低层特征与所述高层特征拼接得到所述特征样本;
回归模块,用于利用经过参数优化的XGBoost对所述特征样本进行回归预测得到所述图片流行度;
其中,所述初始化模块包括:
划分子模块,用于根据社交线索特征将采集到的图片数据划分为时间特征数据和非时间特征数据;
时间数据处理子模块,用于利用多时态标度的方法对所述时间特征数据进行处理得到待分析时间数据;
非时间数据处理子模块,用于利用特征图谱的方法对所述非时间特征数据进行处理得到待分析非时间数据;其中,所述待分析数据包括所述待分析时间数据和所述待分析非时间数据;
其中,所述非时间数据处理子模块包括:
分区单元,用于根据函数
Figure FDA0002711385820000021
对所述非时间特征数据的取值范围进行区间划分;其中,b0、b1…bi-1为映射值;ai为第i个所述区间上的所述非时间特征数据的取值;ci为小于[ai-1,ai]区间跨度的任意数值;
转化单元,用于根据所述非时间特征数据确定对应的区间,并通过get_dummies函数进行相应转化得到待分析非时间数据;get_dummies函数为pandas的函数,pandas为编程语言python的数据分析包。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序执行时实现如权利要求1至3任一项所述的方法。
6.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至3任一项所述的方法。
CN201710848297.0A 2017-09-19 2017-09-19 一种预测图片流行度的方法及*** Active CN107563394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710848297.0A CN107563394B (zh) 2017-09-19 2017-09-19 一种预测图片流行度的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710848297.0A CN107563394B (zh) 2017-09-19 2017-09-19 一种预测图片流行度的方法及***

Publications (2)

Publication Number Publication Date
CN107563394A CN107563394A (zh) 2018-01-09
CN107563394B true CN107563394B (zh) 2021-01-26

Family

ID=60980164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710848297.0A Active CN107563394B (zh) 2017-09-19 2017-09-19 一种预测图片流行度的方法及***

Country Status (1)

Country Link
CN (1) CN107563394B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489787B (zh) * 2020-04-21 2023-05-12 桂林电子科技大学 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法
CN111708865B (zh) * 2020-06-18 2021-07-09 海南大学 一种基于改进XGBoost算法的技术预见及专利预警分析方法
US20220084187A1 (en) * 2020-09-14 2022-03-17 City University Of Hong Kong Method, device and computer readable medium for intrinsic popularity evaluation and content compression based thereon
CN116401532B (zh) * 2023-06-07 2024-02-23 山东大学 一种电力***受扰后频率失稳识别方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107087160A (zh) * 2017-04-28 2017-08-22 南京邮电大学 一种基于BP‑Adaboost神经网络的用户体验质量的预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107087160A (zh) * 2017-04-28 2017-08-22 南京邮电大学 一种基于BP‑Adaboost神经网络的用户体验质量的预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Prediction of image popularity over time on social media networks;Khaled Almgren等;《IEEE》;20170302;1-6 *
微博信息流行度预测研究综述;吴越等;《西华大学学报(自然科学版)》;20170131;第36卷(第1期);1-6 *

Also Published As

Publication number Publication date
CN107563394A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107563394B (zh) 一种预测图片流行度的方法及***
US10108701B2 (en) System and method for determining context
US20180260385A1 (en) Symbol management
US8924409B1 (en) Presentation of match quality in auto-complete suggestions
US20160125432A1 (en) Identifying influential users of a social networking service
US9436768B2 (en) System and method for pushing and distributing promotion content
CN111881343A (zh) 信息推送方法、装置、电子设备及计算机可读存储介质
JP6547070B2 (ja) プッシュ情報粗選択ソーティングの方法、デバイス、およびコンピュータ記憶媒体
TW201304516A (zh) 使用自使用者活動更新所得觀點增加內容關聯性之方法
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN113254777B (zh) 信息推荐方法、装置、电子设备及存储介质
CN111159557A (zh) 一种热点信息获取方法、装置、服务器及介质
CN110598126B (zh) 基于行为习惯的跨社交网络用户身份识别方法
CN112101484B (zh) 基于知识巩固的增量事件识别方法、***、装置
CN116383521B (zh) 主题词挖掘方法及装置、计算机设备及存储介质
CN113051911A (zh) 提取敏感词的方法、装置、设备、介质及程序产品
Constantin et al. Hateful meme detection with multimodal deep neural networks
CN112766288B (zh) 图像处理模型构建方法、装置、电子设备和可读存储介质
CN113010788A (zh) 信息推送方法及装置、电子设备、计算机可读存储介质
CN113076450A (zh) 一种目标推荐列表的确定方法和装置
CN115034211B (zh) 未登录词发现方法、装置、电子设备及存储介质
CN113343082B (zh) 可热字段预测模型生成方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210106

Address after: 100094 A420, 4 / F, building 22, East District, yard 10, xibeiwangdong Road, Haidian District, Beijing

Applicant after: Qiqin Technology (Beijing) Co.,Ltd.

Address before: 510062 courtyard 729, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong

Applicant before: GUANGDONG University OF TECHNOLOGY

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant