CN113705873B

CN113705873B - 影视作品评分预测模型的构建方法及评分预测方法

Info

Publication number: CN113705873B
Application number: CN202110948252.7A
Authority: CN
Inventors: 张树武; 刘杰; 王艺颖
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2024-01-19
Anticipated expiration: 2041-08-18
Also published as: CN113705873A

Abstract

本发明提供一种影视作品评分预测模型的构建方法及评分预测方法，构建方法包括：采集影视平台上的视频的属性数据；去除属性数据中与视频评分的相关性小于相关性阈值下限的数据，得到保留数据项；将保留数据项中数据间的相关性大于相关性阈值上限的数据按照合并规则进行合并；将经合并处理后的数据与保留数据项中原有的小于相关性阈值上限的数据拼接构造视频的特征向量；对特征向量进行独热编码，并与保留数据项中原有的小于相关性阈值上限的数据拼接后，输入预设的模型内训练得到评分预测模型。该方法能对数据集所在的电影平台用户的视频评分数据进行较为准确的预测，为影视行业投资提供一种科学的预测方式。

Description

影视作品评分预测模型的构建方法及评分预测方法

技术领域

本发明涉及影视作品评分预测技术领域，尤其涉及一种影视作品评分预测模型的构建方法及评分预测方法。

背景技术

近年来，随着人们经济生活水平的提高，影视行业的投资规模也随之逐步增大。然而，对于电影投资者与发行者，日益增长的拍摄成本与激烈的竞争环境也使得电影的投资风险大大增加；而对于观众，铺天盖地的广告与营销手段也使得挑选一部值得观看的电影变得越来越困难，因此与之相关的影视作品推荐、艺人选角等研究逐渐成为行业内的热门话题。

影视作品的评分预测技术就是一种超前挖掘出影视价值信息的途径，也是影视作品领域推荐工作研究的技术前提，因为无论是在影视作品的构思策划阶段，还是影视作品上映之前，若能可靠地预测出影视作品的大众评价，则能帮助投资者理性地作出投资，也能帮助观众挑选出真正精彩与值得期待的影视作品。

当前，在搭建影视作品预测模块的具体问题上，如何通过数据挖掘的手段对海量数据进行具体分析以筛选出高相关数据，以构建影视作品评分预测模型成为关键的问题。传统影视作品评分预测模型以影视社区、互联网百科信息等平台获取的影视作品相关数据作为数据来源，使用机器学习方法进行数据的分析与预测模型的构建。然而，由于与一部影视作品相关的数据项数量繁多，而且从互联网获得的初始数据具有数据噪声大、稀疏性高等特点，使得大多影视作品评分预测模型在建模的过程中不仅数据处理量大，且未能考虑选取与大众评价相关度高的预测指标体系进行预测模型的构建，从而导致传统影视评分预测模型预测结果精度不高，预测结果可解释性低。

发明内容

本发明提供一种影视作品评分预测模型的构建方法及评分预测方法，用以解决现有技术中影视作品评分预测中预测项与目标预测项相关性不高导致预测结果可解释性低的缺陷，实现准确高效的影视作品评分预测。

本发明提供一种影视作品评分预测模型的构建方法，包括以下步骤：

采集影视平台上的视频的属性数据；

去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据，得到保留数据项；

将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并，直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限；

将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量；

对所述特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内训练得到评分预测模型。

根据本发明提供的一种影视作品评分预测模型的构建方法，通过网络爬虫采集影视平台上的视频的属性数据；

其中，所述属性数据包括影片特征属性数据和创作人员属性数据。

根据本发明提供的一种影视作品评分预测模型的构建方法，去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据，得到保留数据项的具体方法为：

构造所述属性数据内数据间的皮尔逊系数；

将所述属性数据中与视频评分的皮尔逊系数小于所述相关性阈值下限的数据进行删除，即得到所述保留数据项。

根据本发明提供的一种影视作品评分预测模型的构建方法，将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并，直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限的具体方法为：

将所述保留数据项中的数据间的皮尔逊系数大于相关性阈值上限的数据作为高相关待合并特征数据；

选择所述高相关待合并特征数据中皮尔逊系数最大的两个数据进行特征合并；

将所述保留数据项中已进行特征合并的数据删除，并重复高相关待合并特征数据判断和特征合并操作，直至所述保留数据项中不存在数据间的皮尔逊系数大于相关性阈值上限的数据。

根据本发明提供的一种影视作品评分预测模型的构建方法，对所述特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内训练得到评分预测模型的具体方法为：

对所述特征向量的数据进行独热编码处理后，构造视频特征数据集；

按照预定的比例将所述视频特征数据集划分为验证集、训练集和测试集；

利用所述验证集对预设的极端梯度提升模型进行超参数优化；

将所述训练集和测试集放入经验证集优化的极端梯度提升模型进行训练，并使用交叉验证法进行模型评估，即得所述评分预测模型。

根据本发明提供的一种影视作品评分预测模型的构建方法，所述验证集基于机器学习结合k折交叉验证法的网格搜索法对极端梯度提升模型进行超参数优化。

本发明还提供一种影视作品评分预测模型的构建装置，包括：

采集模块，用于采集影视平台上的视频的属性数据；

第一处理模块，用于去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据，得到保留数据项；

第二处理模块，用于将由所述第一处理模块得到的保留数据项中的数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并，直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限；

构造模块，用于将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量；

训练模块，用于对所述构造模块构造的特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内进行训练，从而得到评分预测模型。

本发明还提供一种应用如前所述的影视作品评分预测模型的影视作品评分预测方法，包括：

获取待预测视频所包含的用于构造特征向量的数据；

将所述用于构造特征向量的数据输入评分预测模型中进行评分预测，输出对应于所述待预测视频的评分。

根据本发明提供的一种影视作品评分预测方法，将所述用于构造特征向量的数据输入评分预测模型中进行评分预测前，还判断所述用于构造特征向量的数据中是否包含创作人员属性数据：是，则将所述用于构造特征向量的数据输入评分预测模型中进行评分预测；否，则根据下述公式进行缺乏创作人员属性数据的数据初始化：

其中，Data_init为空缺数据的初始化值，N为待预测作品包含的视频类型数量，P_work为缺乏的创作人员所对应的职位，为属性数据里包含第i个类别的视频历史数据中职位为P_work的参与创作人员相应数据缺失项的历史数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述任一种影视作品评分预测模型的构建方法或影视作品评分预测方法的步骤。

本发明提供的影视作品评分预测模型的构建方法及评分预测方法，通过对获取的数据进行相关性分析处理，使得用于预测的数据项与待预测特征具有更高的相关性，最大程度地去除冗余的以及对预测增益不大的特征；而后通过构造出与视频的评分高相关性的视频特征向量，实现准确与高效的影视作品评分预测模型的构造，解决了由于数据稀缺度高、数据项繁多难以建立高解释性高准确性的影视平台评分预测问题，实现了准确高效的影视作品评分预测。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的影视作品评分预测模型的构建方法的流程示意图；

图2是本发明提供的影视作品评分预测模型的构建装置的结构示意图；

图3是本发明提供的影视作品评分预测方法的流程示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的影视作品评分预测模型的构建方法，该方法是一种基于影视社区平台的视频数据与影片创作人员历史数据构造出影视特征向量并由机器学习算法从数据中学习得到视频评分的特征从而实现影视作品评分预测的方法，具体包括以下步骤：

101、采集影视平台上的视频的属性数据；

在该步骤中，将用于预测的数据按照数据的意义划分为影片特征属性数据和参与创作影片的创作人员属性数据，并根据划分的属性数据项分别采集影视平台上对应的数据；

可以理解的是，影片特征属性数据能够包括：视频的名称、电影的上映年份、视频的创作人员名单、视频的主题类型、视频在目标影视平台的评分数据；

创作人员属性数据能够包括：主演名单、导演名单、编剧名单、艺人影视社区网站编号、艺人新近作品评分、相应艺人的历史视频平均分。

在一个实施例中，根据选定的目标影视平台中可获取的目标数据类别把视频的名称、视频的上映年份、视频的创作人员名单、视频的主题类型以及视频在目标影视平台的评分数据项划分为影片特征属性数据，记初始划分的影片特征属性数据集合为第一维度特征数据项集SET_c1，根据影片特征属性数据的数据需求使用爬虫技术以上述影片的相关信息，该影片特征属性数据划分的具体数据的数据项如表1所示：

表1影片特征属性数据的数据项含义对应表

对获得的视频的创作人员名单根据其职位把视频的前几位主演名单、导演名单、编剧名单数据划分为影片参与创作人员属性项，根据参与影片创作人员属性数据的数据需求使用爬虫技术以获得创作人员的相关基本信息包括但不限于创作人员名字、创作人员承担职位、艺人影视社区网站编号、艺人新近作品评分以及其历史视频平均分，而后将采集的数据做为第二维度特征数据项集SET_c2，划分的具体数据的数据项如表2所示：

表2影片创作人员属性数据的数据项含义对应表

数据项	数据项的含义
		p_name	参与创作者的名字
p_nnx	艺人新近作品评分
		p_tnx	艺人历史视频平均分
p_id	艺人影视社区网站编号

其中，p代表视频参与者的不同职位，在本实例的实际数据中p包含dir(导演)、scr(编剧)、act(主演)，x代表同一个职位下第x位艺人，如实际数据中主演2号的新近作品评分数据项命名为act_nn2。在其他影视社区网站进行数据收集的时候可以包括但不限于以上的职位，以及影片特征属性数据。

102、去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据，得到保留数据项。

可以理解的是，对于采集的用于视频的评分预测的数据，数据与视频评分的相关性直接影响评分的效率和准确性，因而在模型的构建过程中需要去除冗余的以及对预测增益不大的数据，从而提高模型构建的效率。

在一个实施例中，首先，对第一维度特征数据项集SET_c1与第二维度特征数据项集SET_c2进行拼接构造视频特征数据项集SET_cA，计算视频特征数据项集SET_cA内数据与目标影视平台中视频评分间的皮尔逊系数，所述皮尔逊系数可以根据下述公式1计算得到：

其中，P_XY为皮尔逊系数，n为数据样本量，X、Y分别为影片特征属性数据和创作人员属性数据的数据样本值；μ为数学期望值。

根据计算的皮尔逊系数P_XY结果，从视频特征数据项集SET_cA中删去与视频评分间的皮尔逊系数P_XY小于预设的相关性阈值下限的数据，例如，将相关性阈值下限预设为0.3，则删除视频特征数据项集的数据项集SET_cA中皮尔逊系数P_XY小于0.3的数据，得到保留数据项，而该保留数据项中的数据可以构成高相关初始视频特征数据项集SET_cA*。

103、将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并，直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限。

在本步骤中，对采集的数据中确定保留的预测数据项进行特征工程的处理，即将相关性大于预设的相关性阈值上限的数据进行合并，即对具有一定相似性的数据进行合并，从而进一步减少数据的冗余，而后将特征工程处理后的数据与保留的预测数据项拼接构造视频特征向量。

具体地，根据前述步骤中相关性分析的结果，对得到的高相关初始视频特征数据项集SET_cA*中数据之间相关性系数大于预设的相关性阈值上限的数据进行特征合并为新特征数据，以构成新特征数据集，例如，将相关性阈值上限设定为0.6。

更具体地，在进行数据的特征合并时，每次优先选取皮尔逊系数最大的一对数据作为待合并特征对，并记构造的新特征集为SET_newFeature。

更具体地，对于每一对待合并特征对具体特征向量的合并规则参照下述公式2：

其中，T为经合并处理后的数据特征，A、B为需要执行合并的数据特征，FA、FB为需要执行特征合并的具体样本数据，P_A,T为FA与目标影视平台中的视频评分间的皮尔逊系数值，P_B,T为FB与视频评分间的皮尔逊系数值。

将执行了新特征合并的数据从高相关初始视频特征数据项集SET_cA*中删除；然后继续寻找下一组高相关数据进行合并，即当相关性阈值上限设定为0.6时，直至所有的相关性系数大于0.6的数据均执行了特征合并操作为止。

104、将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量。

具体地，即为将视频特征数据项集SET_cA*中的数据和合并后的数据拼接构造视频特征向量集SET_cF。

105、对所述特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内训练得到评分预测模型。

具体地，在训练之前，先把构造的视频特征向量集SET_cF中的数据进行独热编码处理，以构造视频特征数据集S，并按照预定的比例，例如1:2:7，将视频特征数据集S划分为验证集S_validation、训练集S_train与测试集S_test。而后基于机器学习领域结合k折交叉验证法的网格搜索法与验证集S_validation对预设的极端梯度提升模型，即XGBoost模型进行超参数优化。

例如，在一个实施例中，k折交叉验证选择k＝10，并且轮流对以下参数进行调优：学***衡权重scale_pos_weight。

之后，将构造的训练集S_train与测试集S_test放入进行了超参数优化以后的XGBoost模型进行训练，并使用交叉验证法进行模型评估以建立基于视频特征向量的影视作品评分预测模型。

例如，在一个实施例中，选取了拟合优度R²与均方误差MSE作为预测指标。且为了更好地进行效果的表现，还选取了随机森林算法Random Forest、自适应增强算法Adaboost、临近算法KNN与本发明的构建的极端梯度提升算法XGBoost进行了对比，实际预测模型效果如表3所示。

表3算法模型效果对比

算法模型	均方误差MSE	拟合优度R²
			XGBoost	0.6238	0.7165
Random forest	0.6922	0.6854
			Adaboost	0.8117	0.6314
KNN	0.8244	0.6253

由表3可以看出，相比其他机器学习算法，基于XGBoost算法实现的评分预测模型具有更好的评分预测表现。

下面结合图2对本发明提供的影视作品评分预测模型的构建装置进行描述，下文描述的影视作品评分预测模型的构建装置与上文描述的影视作品评分预测模型的构建方法可相互对应参照。

该构建装置包括采集模块210、第一处理模块220、第二处理模块230、构造模块240，以及训练模块250；其中，

采集模块210用于采集影视平台上的视频的属性数据；

第一处理模块220用于去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据，得到保留数据项；

第二处理模块230用于将由所述第一处理模块得到的保留数据项中的数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并，直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限；

构造模块240用于将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量；

训练模块250用于对所述构造模块构造的特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内进行训练，从而得到评分预测模型。

具体地，通过采集模块在目标影视平台上采集视频的属性数据，然后，通过第一处理模块将采集的属性数据中与视频评分相关性较低的数据进行删除，即去除一部分对目标视频评分预测影响不大的数据，减少数据的冗余，之后，通过第二处理模块将剩余的属性数据中数据间相关性较大的，即数据间较为类似的数据进行合并，进一步减少属性数据的冗余，再通过构造模块对合并后的数据与先前保留的与视频评分相关性较高的数据进行拼接，以构造视频的特征向量，最后通过训练模块将构造的特征向量进行编码并和第二处理模块处理后剩余的属性数据进行拼接后，用于模型的训练，进而得到评分预测模型。

该装置通过构造出与视频的评分高相关性的影视作品特征向量，实现准确与高效的影视作品评分预测模型的构造，能够有效解决现有研究当中影视作品评分的预测问题，以及预测指标体系中预测项与目标预测项相关性不高导致预测结果可解释性低的问题，实现准确高效的影视作品评分预测。

进一步的，本发明还提供一种应用如前所述的影视作品评分预测模型的影视作品评分预测方法，下面结合图3对该影视作品评分预测方法进行描述，该方法包括：

301、获取待预测视频所包含的用于构造特征向量的数据；

302、将所述用于构造特征向量的数据输入评分预测模型中进行评分预测，输出对应于所述待预测视频的评分。

具体实施时，基于待预测的作品信息向训练好的评分预测模型中输入构造视频特征向量需要的基本数据进行预测；首先根据视频特征数据项集SET_cA*中包含的数据项，对应输入待预测的作品信息，在一个实施例中，在目标影视平台上选取了七部电影作预测，获得待预测视频的信息后，根据构造的SET_cA*数据项集获取对应创作人员在数据库中已有的历史数据。

进一步的，若输入的待预测作品信息中提供了完整的影片创作人员属性项信息，可直接将用于构造特征向量的所述待预测作品的数据输入训练好的影视作品评分预测模型中进行预测，所得结果为最终的目标预测评分。

若待预测数据提供的基础信息里有数据缺失项，则根据下述公式3所表示的规则进行数据的填补：

例如，待预测数据提供的基础信息里中缺乏编剧的信息，而此电影包含剧情、动作、犯罪三个视频主题类型，则根据数据填补规则公

式3可变形为下述公式4：

其中，因包含剧情、动作、犯罪三个视频主题类型，所以取N＝3，Data(i)_P编剧是数据库里包含第i个类别的视频中编剧的相应历史数据，本实例中i对应了剧情、动作、犯罪三个视频主题类型；最终将计算所得的Data_init值作为预测数据启动的初始化值。即通过对空缺数据的初始化值的计算，实现了预测数据冷启动的预处理方案，进一步解决了由于数据稀缺度高难以建立高解释性高准确性的影视平台评分预测的问题。

具体地，选取的影片的具体预测分数与影片真实分数的对比如表4所示：

表4影片预测分数与真实分数对比表

由表4可以看出，即使在历史数据缺失的情况下本影视作品预测评分方法仍然能给出较为准确的预测。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行影视作品评分预测模型的构建方法或影视作品评分预测方法的步骤。

其中，影视作品评分预测模型的构建方法包括：

101、采集影视平台上的视频的属性数据；其中，所述属性数据包括影片特征属性数据和创作人员属性数据；

102、去除所述属性数据中与视频评分的相关性小于预设的相关性阈值下限的数据，得到保留数据项；

103、将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并，直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限；

104、将经合并处理后的数据与所述保留数据项中原有的相关性小于相关性阈值上限的数据进行拼接构造视频的特征向量；

影视作品评分预测方法包括：

301、获取待预测视频所包含的用于构造特征向量的数据；

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的影视作品评分预测模型的构建方法或影视作品评分预测方法。

其中，影视作品评分预测模型的构建方法包括：

影视作品评分预测方法包括：

301、获取待预测视频所包含的用于构造特征向量的数据；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行时以执行上述各方法所提供的影视作品评分预测模型的构建方法或影视作品评分预测方法。

其中，影视作品评分预测模型的构建方法包括：

影视作品评分预测方法包括：

301、获取待预测视频所包含的用于构造特征向量的数据；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种影视作品评分预测模型的构建方法，其特征在于，包括以下步骤：

采集影视平台上的视频的属性数据；

对所述特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内训练得到评分预测模型；

其中，得到保留数据项的具体方法为：

构造所述属性数据内数据间的皮尔逊系数；

将所述属性数据中与视频评分的皮尔逊系数小于所述相关性阈值下限的数据进行删除，即得到所述保留数据项；

将所述保留数据项中数据间的相关性大于预设的相关性阈值上限的数据按照合并规则进行合并，直至所述保留数据项中的数据间的相关性均小于所述相关性阈值上限的具体方法为：

2.根据权利要求1所述的影视作品评分预测模型的构建方法，其特征在于，通过网络爬虫采集影视平台上的视频的属性数据；

3.根据权利要求1所述的影视作品评分预测模型的构建方法，其特征在于，对所述特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内训练得到评分预测模型的具体方法为：

4.根据权利要求3所述的影视作品评分预测模型的构建方法，其特征在于，利用所述验证集基于机器学习结合k折交叉验证法的网格搜索法对极端梯度提升模型进行超参数优化。

5.一种影视作品评分预测模型的构建装置，其特征在于，包括：

采集模块，用于采集影视平台上的视频的属性数据；

训练模块，用于对所述构造模块构造的特征向量进行编码，并与所述保留数据项中原有的相关性小于相关性阈值上限的数据拼接后，输入预设的模型内进行训练，从而得到评分预测模型；

其中，第一处理模块具体用于：

构造所述属性数据内数据间的皮尔逊系数；

第二处理模块具体用于：

6.一种应用如权利要求1-4中任一项所述的影视作品评分预测模型的影视作品评分预测方法，其特征在于，包括：

获取待预测视频所包含的用于构造特征向量的数据；

7.根据权利要求6所述的影视作品评分预测方法，其特征在于，将所述用于构造特征向量的数据输入评分预测模型中进行评分预测前，还判断所述用于构造特征向量的数据中是否包含创作人员属性数据：是，则将所述用于构造特征向量的数据输入评分预测模型中进行评分预测；否，则根据下述公式进行缺乏创作人员属性数据的数据初始化：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4任一项所述影视作品评分预测模型的构建方法或如权利要求6-7任一项所述影视作品评分预测方法的步骤。