CN113705873B - 影视作品评分预测模型的构建方法及评分预测方法 - Google Patents
影视作品评分预测模型的构建方法及评分预测方法 Download PDFInfo
- Publication number
- CN113705873B CN113705873B CN202110948252.7A CN202110948252A CN113705873B CN 113705873 B CN113705873 B CN 113705873B CN 202110948252 A CN202110948252 A CN 202110948252A CN 113705873 B CN113705873 B CN 113705873B
- Authority
- CN
- China
- Prior art keywords
- data
- correlation
- video
- reserved
- film
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000010276 construction Methods 0.000 title claims description 15
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000002950 deficient Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- KJONHKAYOJNZEC-UHFFFAOYSA-N nitrazepam Chemical compound C12=CC([N+](=O)[O-])=CC=C2NC(=O)CN=C1C1=CC=CC=C1 KJONHKAYOJNZEC-UHFFFAOYSA-N 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种影视作品评分预测模型的构建方法及评分预测方法,构建方法包括:采集影视平台上的视频的属性数据;去除属性数据中与视频评分的相关性小于相关性阈值下限的数据,得到保留数据项;将保留数据项中数据间的相关性大于相关性阈值上限的数据按照合并规则进行合并;将经合并处理后的数据与保留数据项中原有的小于相关性阈值上限的数据拼接构造视频的特征向量;对特征向量进行独热编码,并与保留数据项中原有的小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型。该方法能对数据集所在的电影平台用户的视频评分数据进行较为准确的预测,为影视行业投资提供一种科学的预测方式。
Description
技术领域
本发明涉及影视作品评分预测技术领域,尤其涉及一种影视作品评分预测模型的构建方法及评分预测方法。
背景技术
近年来,随着人们经济生活水平的提高,影视行业的投资规模也随之逐步增大。然而,对于电影投资者与发行者,日益增长的拍摄成本与激烈的竞争环境也使得电影的投资风险大大增加;而对于观众,铺天盖地的广告与营销手段也使得挑选一部值得观看的电影变得越来越困难,因此与之相关的影视作品推荐、艺人选角等研究逐渐成为行业内的热门话题。
影视作品的评分预测技术就是一种超前挖掘出影视价值信息的途径,也是影视作品领域推荐工作研究的技术前提,因为无论是在影视作品的构思策划阶段,还是影视作品上映之前,若能可靠地预测出影视作品的大众评价,则能帮助投资者理性地作出投资,也能帮助观众挑选出真正精彩与值得期待的影视作品。
当前,在搭建影视作品预测模块的具体问题上,如何通过数据挖掘的手段对海量数据进行具体分析以筛选出高相关数据,以构建影视作品评分预测模型成为关键的问题。传统影视作品评分预测模型以影视社区、互联网百科信息等平台获取的影视作品相关数据作为数据来源,使用机器学习方法进行数据的分析与预测模型的构建。然而,由于与一部影视作品相关的数据项数量繁多,而且从互联网获得的初始数据具有数据噪声大、稀疏性高等特点,使得大多影视作品评分预测模型在建模的过程中不仅数据处理量大,且未能考虑选取与大众评价相关度高的预测指标体系进行预测模型的构建,从而导致传统影视评分预测模型预测结果精度不高,预测结果可解释性低。
发明内容
本发明提供一种影视作品评分预测模型的构建方法及评分预测方法,用以解决现有技术中影视作品评分预测中预测项与目标预测项相关性不高导致预测结果可解释性低的缺陷,实现准确高效的影视作品评分预测。
本发明提供一种影视作品评分预测模型的构建方法,包括以下步骤:
采集影视平台上的视频的属性数据;
去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型。
根据本发明提供的一种影视作品评分预测模型的构建方法,通过网络爬虫采集影视平台上的视频的属性数据;
其中,所述属性数据包括影片特征属性数据和创作人员属性数据。
根据本发明提供的一种影视作品评分预测模型的构建方法,去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项的具体方法为:
构造所述属性数据内数据间的皮尔逊系数;
将所述属性数据中与视频评分的皮尔逊系数小于所述相关性阈值下限的数据进行删除,即得到所述保留数据项。
根据本发明提供的一种影视作品评分预测模型的构建方法,将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限的具体方法为:
将所述保留数据项中的数据间的皮尔逊系数大于相关性阈值上限的数据作为高相关待合并特征数据;
选择所述高相关待合并特征数据中皮尔逊系数最大的两个数据进行特征合并;
将所述保留数据项中已进行特征合并的数据删除,并重复高相关待合并特征数据判断和特征合并操作,直至所述保留数据项中不存在数据间的皮尔逊系数大于相关性阈值上限的数据。
根据本发明提供的一种影视作品评分预测模型的构建方法,对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型的具体方法为:
对所述特征向量的数据进行独热编码处理后,构造视频特征数据集;
按照预定的比例将所述视频特征数据集划分为验证集、训练集和测试集;
利用所述验证集对预设的极端梯度提升模型进行超参数优化;
将所述训练集和测试集放入经验证集优化的极端梯度提升模型进行训练,并使用交叉验证法进行模型评估,即得所述评分预测模型。
根据本发明提供的一种影视作品评分预测模型的构建方法,所述验证集基于机器学习结合k折交叉验证法的网格搜索法对极端梯度提升模型进行超参数优化。
本发明还提供一种影视作品评分预测模型的构建装置,包括:
采集模块,用于采集影视平台上的视频的属性数据;
第一处理模块,用于去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
第二处理模块,用于将由所述第一处理模块得到的保留数据项中的数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
构造模块,用于将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
训练模块,用于对所述构造模块构造的特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内进行训练,从而得到评分预测模型。
本发明还提供一种应用如前所述的影视作品评分预测模型的影视作品评分预测方法,包括:
获取待预测视频所包含的用于构造特征向量的数据;
将所述用于构造特征向量的数据输入评分预测模型中进行评分预测,输出对应于所述待预测视频的评分。
根据本发明提供的一种影视作品评分预测方法,将所述用于构造特征向量的数据输入评分预测模型中进行评分预测前,还判断所述用于构造特征向量的数据中是否包含创作人员属性数据:是,则将所述用于构造特征向量的数据输入评分预测模型中进行评分预测;否,则根据下述公式进行缺乏创作人员属性数据的数据初始化:
其中,Datainit为空缺数据的初始化值,N为待预测作品包含的视频类型数量,Pwork为缺乏的创作人员所对应的职位,为属性数据里包含第i个类别的视频历史数据中职位为Pwork的参与创作人员相应数据缺失项的历史数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述任一种影视作品评分预测模型的构建方法或影视作品评分预测方法的步骤。
本发明提供的影视作品评分预测模型的构建方法及评分预测方法,通过对获取的数据进行相关性分析处理,使得用于预测的数据项与待预测特征具有更高的相关性,最大程度地去除冗余的以及对预测增益不大的特征;而后通过构造出与视频的评分高相关性的视频特征向量,实现准确与高效的影视作品评分预测模型的构造,解决了由于数据稀缺度高、数据项繁多难以建立高解释性高准确性的影视平台评分预测问题,实现了准确高效的影视作品评分预测。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的影视作品评分预测模型的构建方法的流程示意图;
图2是本发明提供的影视作品评分预测模型的构建装置的结构示意图;
图3是本发明提供的影视作品评分预测方法的流程示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的影视作品评分预测模型的构建方法,该方法是一种基于影视社区平台的视频数据与影片创作人员历史数据构造出影视特征向量并由机器学习算法从数据中学习得到视频评分的特征从而实现影视作品评分预测的方法,具体包括以下步骤:
101、采集影视平台上的视频的属性数据;
在该步骤中,将用于预测的数据按照数据的意义划分为影片特征属性数据和参与创作影片的创作人员属性数据,并根据划分的属性数据项分别采集影视平台上对应的数据;
可以理解的是,影片特征属性数据能够包括:视频的名称、电影的上映年份、视频的创作人员名单、视频的主题类型、视频在目标影视平台的评分数据;
创作人员属性数据能够包括:主演名单、导演名单、编剧名单、艺人影视社区网站编号、艺人新近作品评分、相应艺人的历史视频平均分。
在一个实施例中,根据选定的目标影视平台中可获取的目标数据类别把视频的名称、视频的上映年份、视频的创作人员名单、视频的主题类型以及视频在目标影视平台的评分数据项划分为影片特征属性数据,记初始划分的影片特征属性数据集合为第一维度特征数据项集SET_c1,根据影片特征属性数据的数据需求使用爬虫技术以上述影片的相关信息,该影片特征属性数据划分的具体数据的数据项如表1所示:
表1影片特征属性数据的数据项含义对应表
对获得的视频的创作人员名单根据其职位把视频的前几位主演名单、导演名单、编剧名单数据划分为影片参与创作人员属性项,根据参与影片创作人员属性数据的数据需求使用爬虫技术以获得创作人员的相关基本信息包括但不限于创作人员名字、创作人员承担职位、艺人影视社区网站编号、艺人新近作品评分以及其历史视频平均分,而后将采集的数据做为第二维度特征数据项集SET_c2,划分的具体数据的数据项如表2所示:
表2影片创作人员属性数据的数据项含义对应表
数据项 | 数据项的含义 |
p_name | 参与创作者的名字 |
p_nnx | 艺人新近作品评分 |
p_tnx | 艺人历史视频平均分 |
p_id | 艺人影视社区网站编号 |
其中,p代表视频参与者的不同职位,在本实例的实际数据中p包含dir(导演)、scr(编剧)、act(主演),x代表同一个职位下第x位艺人,如实际数据中主演2号的新近作品评分数据项命名为act_nn2。在其他影视社区网站进行数据收集的时候可以包括但不限于以上的职位,以及影片特征属性数据。
102、去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项。
可以理解的是,对于采集的用于视频的评分预测的数据,数据与视频评分的相关性直接影响评分的效率和准确性,因而在模型的构建过程中需要去除冗余的以及对预测增益不大的数据,从而提高模型构建的效率。
在一个实施例中,首先,对第一维度特征数据项集SET_c1与第二维度特征数据项集SET_c2进行拼接构造视频特征数据项集SET_cA,计算视频特征数据项集SET_cA内数据与目标影视平台中视频评分间的皮尔逊系数,所述皮尔逊系数可以根据下述公式1计算得到:
其中,PXY为皮尔逊系数,n为数据样本量,X、Y分别为影片特征属性数据和创作人员属性数据的数据样本值;μ为数学期望值。
根据计算的皮尔逊系数PXY结果,从视频特征数据项集SET_cA中删去与视频评分间的皮尔逊系数PXY小于预设的相关性阈值下限的数据,例如,将相关性阈值下限预设为0.3,则删除视频特征数据项集的数据项集SET_cA中皮尔逊系数PXY小于0.3的数据,得到保留数据项,而该保留数据项中的数据可以构成高相关初始视频特征数据项集SET_cA*。
103、将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限。
在本步骤中,对采集的数据中确定保留的预测数据项进行特征工程的处理,即将相关性大于预设的相关性阈值上限的数据进行合并,即对具有一定相似性的数据进行合并,从而进一步减少数据的冗余,而后将特征工程处理后的数据与保留的预测数据项拼接构造视频特征向量。
具体地,根据前述步骤中相关性分析的结果,对得到的高相关初始视频特征数据项集SET_cA*中数据之间相关性系数大于预设的相关性阈值上限的数据进行特征合并为新特征数据,以构成新特征数据集,例如,将相关性阈值上限设定为0.6。
更具体地,在进行数据的特征合并时,每次优先选取皮尔逊系数最大的一对数据作为待合并特征对,并记构造的新特征集为SET_newFeature。
更具体地,对于每一对待合并特征对具体特征向量的合并规则参照下述公式2:
其中,T为经合并处理后的数据特征,A、B为需要执行合并的数据特征,FA、FB为需要执行特征合并的具体样本数据,PA,T为FA与目标影视平台中的视频评分间的皮尔逊系数值,PB,T为FB与视频评分间的皮尔逊系数值。
将执行了新特征合并的数据从高相关初始视频特征数据项集SET_cA*中删除;然后继续寻找下一组高相关数据进行合并,即当相关性阈值上限设定为0.6时,直至所有的相关性系数大于0.6的数据均执行了特征合并操作为止。
104、将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量。
具体地,即为将视频特征数据项集SET_cA*中的数据和合并后的数据拼接构造视频特征向量集SET_cF。
105、对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型。
具体地,在训练之前,先把构造的视频特征向量集SET_cF中的数据进行独热编码处理,以构造视频特征数据集S,并按照预定的比例,例如1:2:7,将视频特征数据集S划分为验证集S_validation、训练集S_train与测试集S_test。而后基于机器学习领域结合k折交叉验证法的网格搜索法与验证集S_validation对预设的极端梯度提升模型,即XGBoost模型进行超参数优化。
例如,在一个实施例中,k折交叉验证选择k=10,并且轮流对以下参数进行调优:学***衡权重scale_pos_weight。
之后,将构造的训练集S_train与测试集S_test放入进行了超参数优化以后的XGBoost模型进行训练,并使用交叉验证法进行模型评估以建立基于视频特征向量的影视作品评分预测模型。
例如,在一个实施例中,选取了拟合优度R2与均方误差MSE作为预测指标。且为了更好地进行效果的表现,还选取了随机森林算法Random Forest、自适应增强算法Adaboost、临近算法KNN与本发明的构建的极端梯度提升算法XGBoost进行了对比,实际预测模型效果如表3所示。
表3算法模型效果对比
算法模型 | 均方误差MSE | 拟合优度R2 |
XGBoost | 0.6238 | 0.7165 |
Random forest | 0.6922 | 0.6854 |
Adaboost | 0.8117 | 0.6314 |
KNN | 0.8244 | 0.6253 |
由表3可以看出,相比其他机器学习算法,基于XGBoost算法实现的评分预测模型具有更好的评分预测表现。
下面结合图2对本发明提供的影视作品评分预测模型的构建装置进行描述,下文描述的影视作品评分预测模型的构建装置与上文描述的影视作品评分预测模型的构建方法可相互对应参照。
该构建装置包括采集模块210、第一处理模块220、第二处理模块230、构造模块240,以及训练模块250;其中,
采集模块210用于采集影视平台上的视频的属性数据;
第一处理模块220用于去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
第二处理模块230用于将由所述第一处理模块得到的保留数据项中的数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
构造模块240用于将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
训练模块250用于对所述构造模块构造的特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内进行训练,从而得到评分预测模型。
具体地,通过采集模块在目标影视平台上采集视频的属性数据,然后,通过第一处理模块将采集的属性数据中与视频评分相关性较低的数据进行删除,即去除一部分对目标视频评分预测影响不大的数据,减少数据的冗余,之后,通过第二处理模块将剩余的属性数据中数据间相关性较大的,即数据间较为类似的数据进行合并,进一步减少属性数据的冗余,再通过构造模块对合并后的数据与先前保留的与视频评分相关性较高的数据进行拼接,以构造视频的特征向量,最后通过训练模块将构造的特征向量进行编码并和第二处理模块处理后剩余的属性数据进行拼接后,用于模型的训练,进而得到评分预测模型。
该装置通过构造出与视频的评分高相关性的影视作品特征向量,实现准确与高效的影视作品评分预测模型的构造,能够有效解决现有研究当中影视作品评分的预测问题,以及预测指标体系中预测项与目标预测项相关性不高导致预测结果可解释性低的问题,实现准确高效的影视作品评分预测。
进一步的,本发明还提供一种应用如前所述的影视作品评分预测模型的影视作品评分预测方法,下面结合图3对该影视作品评分预测方法进行描述,该方法包括:
301、获取待预测视频所包含的用于构造特征向量的数据;
302、将所述用于构造特征向量的数据输入评分预测模型中进行评分预测,输出对应于所述待预测视频的评分。
具体实施时,基于待预测的作品信息向训练好的评分预测模型中输入构造视频特征向量需要的基本数据进行预测;首先根据视频特征数据项集SET_cA*中包含的数据项,对应输入待预测的作品信息,在一个实施例中,在目标影视平台上选取了七部电影作预测,获得待预测视频的信息后,根据构造的SET_cA*数据项集获取对应创作人员在数据库中已有的历史数据。
进一步的,若输入的待预测作品信息中提供了完整的影片创作人员属性项信息,可直接将用于构造特征向量的所述待预测作品的数据输入训练好的影视作品评分预测模型中进行预测,所得结果为最终的目标预测评分。
若待预测数据提供的基础信息里有数据缺失项,则根据下述公式3所表示的规则进行数据的填补:
其中,Datainit为空缺数据的初始化值,N为待预测作品包含的视频类型数量,Pwork为缺乏的创作人员所对应的职位,为属性数据里包含第i个类别的视频历史数据中职位为Pwork的参与创作人员相应数据缺失项的历史数据。
例如,待预测数据提供的基础信息里中缺乏编剧的信息,而此电影包含剧情、动作、犯罪三个视频主题类型,则根据数据填补规则公
式3可变形为下述公式4:
其中,因包含剧情、动作、犯罪三个视频主题类型,所以取N=3,Data(i)P编剧是数据库里包含第i个类别的视频中编剧的相应历史数据,本实例中i对应了剧情、动作、犯罪三个视频主题类型;最终将计算所得的Datainit值作为预测数据启动的初始化值。即通过对空缺数据的初始化值的计算,实现了预测数据冷启动的预处理方案,进一步解决了由于数据稀缺度高难以建立高解释性高准确性的影视平台评分预测的问题。
具体地,选取的影片的具体预测分数与影片真实分数的对比如表4所示:
表4影片预测分数与真实分数对比表
由表4可以看出,即使在历史数据缺失的情况下本影视作品预测评分方法仍然能给出较为准确的预测。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行影视作品评分预测模型的构建方法或影视作品评分预测方法的步骤。
其中,影视作品评分预测模型的构建方法包括:
101、采集影视平台上的视频的属性数据;其中,所述属性数据包括影片特征属性数据和创作人员属性数据;
102、去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
103、将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
104、将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
105、对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型。
影视作品评分预测方法包括:
301、获取待预测视频所包含的用于构造特征向量的数据;
302、将所述用于构造特征向量的数据输入评分预测模型中进行评分预测,输出对应于所述待预测视频的评分。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的影视作品评分预测模型的构建方法或影视作品评分预测方法。
其中,影视作品评分预测模型的构建方法包括:
101、采集影视平台上的视频的属性数据;其中,所述属性数据包括影片特征属性数据和创作人员属性数据;
102、去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
103、将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
104、将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
105、对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型。
影视作品评分预测方法包括:
301、获取待预测视频所包含的用于构造特征向量的数据;
302、将所述用于构造特征向量的数据输入评分预测模型中进行评分预测,输出对应于所述待预测视频的评分。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行时以执行上述各方法所提供的影视作品评分预测模型的构建方法或影视作品评分预测方法。
其中,影视作品评分预测模型的构建方法包括:
101、采集影视平台上的视频的属性数据;其中,所述属性数据包括影片特征属性数据和创作人员属性数据;
102、去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
103、将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
104、将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
105、对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型。
影视作品评分预测方法包括:
301、获取待预测视频所包含的用于构造特征向量的数据;
302、将所述用于构造特征向量的数据输入评分预测模型中进行评分预测,输出对应于所述待预测视频的评分。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种影视作品评分预测模型的构建方法,其特征在于,包括以下步骤:
采集影视平台上的视频的属性数据;
去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型;
其中,得到保留数据项的具体方法为:
构造所述属性数据内数据间的皮尔逊系数;
将所述属性数据中与视频评分的皮尔逊系数小于所述相关性阈值下限的数据进行删除,即得到所述保留数据项;
将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限的具体方法为:
将所述保留数据项中的数据间的皮尔逊系数大于相关性阈值上限的数据作为高相关待合并特征数据;
选择所述高相关待合并特征数据中皮尔逊系数最大的两个数据进行特征合并;
将所述保留数据项中已进行特征合并的数据删除,并重复高相关待合并特征数据判断和特征合并操作,直至所述保留数据项中不存在数据间的皮尔逊系数大于相关性阈值上限的数据。
2.根据权利要求1所述的影视作品评分预测模型的构建方法,其特征在于,通过网络爬虫采集影视平台上的视频的属性数据;
其中,所述属性数据包括影片特征属性数据和创作人员属性数据。
3.根据权利要求1所述的影视作品评分预测模型的构建方法,其特征在于,对所述特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内训练得到评分预测模型的具体方法为:
对所述特征向量的数据进行独热编码处理后,构造视频特征数据集;
按照预定的比例将所述视频特征数据集划分为验证集、训练集和测试集;
利用所述验证集对预设的极端梯度提升模型进行超参数优化;
将所述训练集和测试集放入经验证集优化的极端梯度提升模型进行训练,并使用交叉验证法进行模型评估,即得所述评分预测模型。
4.根据权利要求3所述的影视作品评分预测模型的构建方法,其特征在于,利用所述验证集基于机器学习结合k折交叉验证法的网格搜索法对极端梯度提升模型进行超参数优化。
5.一种影视作品评分预测模型的构建装置,其特征在于,包括:
采集模块,用于采集影视平台上的视频的属性数据;
第一处理模块,用于去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据,得到保留数据项;
第二处理模块,用于将由所述第一处理模块得到的保留数据项中的数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并,直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限;
构造模块,用于将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量;
训练模块,用于对所述构造模块构造的特征向量进行编码,并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后,输入预设的模型内进行训练,从而得到评分预测模型;
其中,第一处理模块具体用于:
构造所述属性数据内数据间的皮尔逊系数;
将所述属性数据中与视频评分的皮尔逊系数小于所述相关性阈值下限的数据进行删除,即得到所述保留数据项;
第二处理模块具体用于:
将所述保留数据项中的数据间的皮尔逊系数大于相关性阈值上限的数据作为高相关待合并特征数据;
选择所述高相关待合并特征数据中皮尔逊系数最大的两个数据进行特征合并;
将所述保留数据项中已进行特征合并的数据删除,并重复高相关待合并特征数据判断和特征合并操作,直至所述保留数据项中不存在数据间的皮尔逊系数大于相关性阈值上限的数据。
6.一种应用如权利要求1-4中任一项所述的影视作品评分预测模型的影视作品评分预测方法,其特征在于,包括:
获取待预测视频所包含的用于构造特征向量的数据;
将所述用于构造特征向量的数据输入评分预测模型中进行评分预测,输出对应于所述待预测视频的评分。
7.根据权利要求6所述的影视作品评分预测方法,其特征在于,将所述用于构造特征向量的数据输入评分预测模型中进行评分预测前,还判断所述用于构造特征向量的数据中是否包含创作人员属性数据:是,则将所述用于构造特征向量的数据输入评分预测模型中进行评分预测;否,则根据下述公式进行缺乏创作人员属性数据的数据初始化:
其中,Datainit为空缺数据的初始化值,N为待预测作品包含的视频类型数量,Pwork为缺乏的创作人员所对应的职位,为属性数据里包含第i个类别的视频历史数据中职位为Pwork的参与创作人员相应数据缺失项的历史数据。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述影视作品评分预测模型的构建方法或如权利要求6-7任一项所述影视作品评分预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948252.7A CN113705873B (zh) | 2021-08-18 | 2021-08-18 | 影视作品评分预测模型的构建方法及评分预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948252.7A CN113705873B (zh) | 2021-08-18 | 2021-08-18 | 影视作品评分预测模型的构建方法及评分预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705873A CN113705873A (zh) | 2021-11-26 |
CN113705873B true CN113705873B (zh) | 2024-01-19 |
Family
ID=78653211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110948252.7A Active CN113705873B (zh) | 2021-08-18 | 2021-08-18 | 影视作品评分预测模型的构建方法及评分预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705873B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462383A (zh) * | 2014-12-10 | 2015-03-25 | 山东科技大学 | 一种基于用户多种行为反馈的电影推荐方法 |
CN106548206A (zh) * | 2016-10-27 | 2017-03-29 | 太原理工大学 | 基于最小生成树的多模态磁共振影像数据分类方法 |
CN106980909A (zh) * | 2017-03-30 | 2017-07-25 | 重庆大学 | 一种基于模糊线性回归的电影票房预测方法 |
CN107025606A (zh) * | 2017-03-29 | 2017-08-08 | 西安电子科技大学 | 一种社交网络中结合评分数据和信任关系的项目推荐方法 |
CN107038494A (zh) * | 2017-03-06 | 2017-08-11 | 中国电影科学技术研究所 | 一种影院票房预测方法及装置 |
CN108764972A (zh) * | 2018-05-08 | 2018-11-06 | 中国电影科学技术研究所 | 一种影片票房预测方法及装置 |
CN109766950A (zh) * | 2019-01-18 | 2019-05-17 | 东北大学 | 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法 |
CN111143425A (zh) * | 2019-09-16 | 2020-05-12 | 昆明理工大学 | 一种基于XGBoost的高维数据集自适应特征选择方法 |
CN111243751A (zh) * | 2020-01-17 | 2020-06-05 | 河北工业大学 | 一种基于双重特征选择和XGBoost算法的心脏病预测方法 |
CN112562312A (zh) * | 2020-10-21 | 2021-03-26 | 浙江工业大学 | 一种基于融合特征的GraphSAGE交通路网数据预测的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101616909B1 (ko) * | 2012-10-31 | 2016-04-29 | 에스케이텔레콤 주식회사 | 자동 채점 장치 및 방법 |
SG11202104882WA (en) * | 2018-11-15 | 2021-06-29 | Ampel Biosolutions Llc | Machine learning disease prediction and treatment prioritization |
-
2021
- 2021-08-18 CN CN202110948252.7A patent/CN113705873B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462383A (zh) * | 2014-12-10 | 2015-03-25 | 山东科技大学 | 一种基于用户多种行为反馈的电影推荐方法 |
CN106548206A (zh) * | 2016-10-27 | 2017-03-29 | 太原理工大学 | 基于最小生成树的多模态磁共振影像数据分类方法 |
CN107038494A (zh) * | 2017-03-06 | 2017-08-11 | 中国电影科学技术研究所 | 一种影院票房预测方法及装置 |
CN107025606A (zh) * | 2017-03-29 | 2017-08-08 | 西安电子科技大学 | 一种社交网络中结合评分数据和信任关系的项目推荐方法 |
CN106980909A (zh) * | 2017-03-30 | 2017-07-25 | 重庆大学 | 一种基于模糊线性回归的电影票房预测方法 |
CN108764972A (zh) * | 2018-05-08 | 2018-11-06 | 中国电影科学技术研究所 | 一种影片票房预测方法及装置 |
CN109766950A (zh) * | 2019-01-18 | 2019-05-17 | 东北大学 | 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法 |
CN111143425A (zh) * | 2019-09-16 | 2020-05-12 | 昆明理工大学 | 一种基于XGBoost的高维数据集自适应特征选择方法 |
CN111243751A (zh) * | 2020-01-17 | 2020-06-05 | 河北工业大学 | 一种基于双重特征选择和XGBoost算法的心脏病预测方法 |
CN112562312A (zh) * | 2020-10-21 | 2021-03-26 | 浙江工业大学 | 一种基于融合特征的GraphSAGE交通路网数据预测的方法 |
Non-Patent Citations (5)
Title |
---|
个性化推荐***评价方法综述;刘建国;周涛;郭强;汪秉宏;;复杂***与复杂性科学(第03期);全文 * |
基于Pearson相关指标的BP神经网络PM2.5预测模型;张怡文;敖希琴;时培俊;郭傲东;费久龙;陈家丽;;青岛大学学报(自然科学版)(第02期);全文 * |
基于多维度用户相似性度量的协同过滤推荐算法;王明佳;韩景倜;;统计与决策(第09期);全文 * |
基于梯度提升的城市轨道交通客流量预测分析;丁聪;倪少权;吕红霞;;城市轨道交通研究(第09期);全文 * |
基于随机森林回归算法的电影评分预测模型;陆君之;《江苏通信》;第34卷(第01期);第75-77页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113705873A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797321B (zh) | 一种面向不同场景的个性化知识推荐方法及*** | |
CN112765486B (zh) | 一种融合知识图谱的注意力机制的电影推荐方法 | |
US20160132815A1 (en) | Skill estimation method in machine-human hybrid crowdsourcing | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN110889450B (zh) | 超参数调优、模型构建方法和装置 | |
US10956716B2 (en) | Method for building a computer-implemented tool for assessment of qualitative features from face images | |
CN107679031B (zh) | 基于堆叠降噪自编码机的广告博文识别方法 | |
CN109902823B (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN111506785B (zh) | 基于社交文本的网络舆情话题识别方法和*** | |
CN113127716B (zh) | 一种基于显著性图的情感时间序列异常检测方法 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及*** | |
CN112734104B (zh) | 一种融合生成对抗网络和自编码器的跨域推荐方法 | |
CN113283795A (zh) | 基于二分类模型的数据处理方法及装置、介质、设备 | |
CN113553831A (zh) | 基于bagcnn模型的方面级别情感分析方法和*** | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN111079011A (zh) | 一种基于深度学习的信息推荐方法 | |
CN115170874A (zh) | 一种基于解耦蒸馏损失的自蒸馏实现方法 | |
CN113705873B (zh) | 影视作品评分预测模型的构建方法及评分预测方法 | |
Rui et al. | Data Reconstruction based on supervised deep auto-encoder | |
CN114443956A (zh) | 内容推荐方法以及相关设备 | |
CN109299260B (zh) | 数据分类方法、装置以及计算机可读存储介质 | |
CN108733824B (zh) | 考虑专家知识的交互式主题建模方法及装置 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN112348257A (zh) | 一种多源数据融合与时序分析驱动的选举预测方法 | |
CN112559905A (zh) | 一种基于双模式注意力机制和社交相似度的会话推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |