CN110992101A

CN110992101A - 车站广告媒体资源价值及收益预测回归方法及预测模型

Info

Publication number: CN110992101A
Application number: CN201911235631.0A
Authority: CN
Inventors: 许娜; 吴刚; 单杏花; 陈靖; 付睿; 杨琳; 卢迪; 宋卿; 赵亚涛; 赵小强
Original assignee: China Railway Trip Science And Technology Co ltd; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Current assignee: CHINA RAILWAY TRIP SCIENCE AND TECHNOLOGY Co.,Ltd.; China Academy of Railway Sciences Corp Ltd CARS; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-10

Abstract

本发明实施例提供了一种车站广告媒体资源价值及收益预测回归方法及预测模型。通过从不同数据源获取高铁车站的生产经营数据对回归预测模型进行训练，在训练过程中采用训练和测试相结合，并通过交叉验证的方式寻找最优的回归算法，并进一步对回归算法进行参数调优，才能够建立一套科学可行的铁路经营数据分析与评估预测模型，对铁路媒体广告的经营与发展提供更加有效的支撑，从而解决现有技术中对车站广告媒体资源价值及收益的预测缺乏科学方法体系的问题。

Description

车站广告媒体资源价值及收益预测回归方法及预测模型

【技术领域】

本发明涉及人工智能技术领域，尤其涉及一种车站广告媒体资源价值及收益的回归预测模型的训练方法、车站广告媒体资源价值及收益的回归预测方法。

【背景技术】

中国高铁营业里程2018年底达到2.9万公里，成为世界上运营里程最长、运输密度最高、场景最复杂、客流量最大的国家。高铁广告媒体当下正经历着前所未有的发展空间和机遇，蕴含着巨大的经济价值潜力，特别是高铁乘客群体规模快速增长，新媒体类型日趋多元，其广告学意义上的传播效应是巨大的。

而当前高铁媒体经营价值收入评估因分局经营，各自为政，还停留在以经营单位内有限的招商历史数据和相关业务管理人员决策为依据，辅以传统抽样调查评估方法为手段，未形成全路局媒体业务大数据为依据的科学、综合、有效的方法和技术支撑体系。

【发明内容】

有鉴于此，本发明实施例提供了一种车站广告媒体资源价值及收益的回归预测模型的训练方法、车站广告媒体资源价值及收益的回归预测方法，用以解决现有技术中对车站广告媒体资源价值及收益的预测缺乏科学方法体系的问题。

一方面，本发明实施例提供了一种车站广告媒体资源价值及收益的回归预测模型的训练方法，包括：从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据；对所述原始数据进行预处理，以得到数据样本集；从所述数据样本集中选取训练样本集和测试样本集；分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的各个回归算法进行训练测试和交叉验证，以得到各个回归算法的模型评价参数指标；比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型；基于所述最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。

在一个可能的设计中，对所述原始数据进行预处理，以得到数据样本集之后还包括：根据不同的业务需求从所述数据样本集中提取数据特征集；从所述数据样本集中选取训练样本集和测试样本集包括：从所述数据特征集中选取训练样本集和测试样本集。

在一个可能的设计中，从所述数据样本集中选取训练样本集和测试样本集包括：

设定所述测试样本集占所述数据样本集的百分比；

依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集，并将其余的数据样本作为当前的训练样本集；

从所述数据样本集中还未被选取为测试样本集的数据样本中，依照所述百分比任意选取数据样本作为下次的测试样本集，并将其余的数据样本作为下次的训练样本集，直至所述数据样本集中所有数据样本都已被选取为测试样本集。

在一个可能的设计中，分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的各个回归算法进行训练测试和交叉验证，以得到各个回归算法的模型评价参数指标包括：

将本次选取的训练样本集对所述回归预测模型中的各个回归算法进行训练，并将对应的测试样本集对训练后的各个回归算法进行测试；

将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试，直至遍历所有测试样本集对回归算法的测试，从而得到回归算法的模型评价参数指标。在一个可能的设计中，所述模型评价参数指标包括：方差得分、平均绝对误差、均方差以及判定系数r²。

在一个可能的设计中，所述数据源包括：全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。

另一方面，本发明实施例还提供了一种车站广告媒体资源价值及收益的回归预测方法，包括：从多个数据源获取待预测车站的实际经营参数；将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测；其中，所述训练好的回归预测模型是采用上述车站广告媒体资源价值及收益的回归预测模型的训练方法训练得到。

在一个可能的设计中，在所述从多个数据源获取待预测车站的实际经营参数之后还包括：根据业务需求设置动态可配置参数；基于所述动态可配置参数对所述实际经营参数进行调整，以得到调整经营参数。

在一个可能的设计中，将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的经营收入进行回归预测，包括：将所述调整经营参数输入训练好的回归预测模型，以对所述待预测车站的经营收入进行回归预测。

又一方面，本发明实施例提供了一种车站广告媒体资源价值及收益的回归预测模型的训练装置，包括：原始数据获取模块，用于从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据；数据预处理模块，用于对所述原始数据进行预处理，以得到数据样本集；样本集选取模块，用于从所述数据样本集中选取训练样本集和测试样本集；训练处理模块，用于分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证，以得到回归算法的模型评价参数指标；参数指标比较模块，用于比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型；参数调优模块，用于基于所述最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。

再一方面，本发明实施例还提供了一种车站广告媒体资源价值及收益的回归预测装置，包括：经营参数获取模块，用于从多个数据源获取待预测车站的实际经营参数；回归预测处理模块，用于将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测；其中，所述训练好的回归预测模型是采用上述车站广告媒体资源价值及收益的回归预测模型的训练装置训练得到。

与现有技术相比，本技术方案至少具有如下有益效果：

根据本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练方法，从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据，并对原始数据进行预处理以得到适于回归预测模型训练使用的数据样本集。在利用数据样本集对回归预测模型进行训练过程中，先设定测试样本集占数据样本集的百分比，然后从数据样本集依照设定的百分比选取数据样本作为当前的测试样本集，将其余部分的数据样本作为当前的训练样本集，利用测试样本集对经过训练样本集训练后的回归算法进行测试；进而再从数据样本集中还未被选取为测试样本集的数据样本中，再依照该百分比选取数据样本作为下次的测试样本集，并将其余的数据样本作为下次的训练样本集，以此类推，直至所述数据样本集中所有数据样本都已被选取为测试样本集，从而实现对各个回归算法的交叉验证，从而得到各个回归算法的模型评价参数指标。也就是说，选取的训练样本集会有重复，而每次选取的测试样本集在历次的交叉验证中是无重复的，且遍历所有的数据样本集。

然后，比较各个模型评价参数指标确定基于所述数据样本集的最优回归预测模型，再根据最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。从而可以利用训练好的回归预测模型对待预测车站的经营收入进行回归预测，为媒体招商及后期优化提供数据支撑。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练方法的一个具体实施例的流程示意图；

图2是本发明实施例提供的车站广告媒体资源价值及收益的回归预测方法的一个具体实施例的流程示意图；

图3是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练装置的一个具体实施例的结构示意图；

图4是本发明实施例提供的车站广告媒体资源价值及收益的回归预测装置的一个具体实施例的结构示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练方法的一个具体实施例的流程示意图。参考图1，所述训练方法包括：

步骤101、从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据；

步骤102、对所述原始数据进行预处理，以得到数据样本集；

步骤103、从所述数据样本集中选取训练样本集和测试样本集；

步骤104、分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证，以得到回归算法的模型评价参数指标；

步骤105、比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型；

步骤106、基于所述最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。

本领域技术人员理解，回归预测模型是一种研究自变量与因变量之间关系的建模技术，通过建立变量之间的回归方程，并将回归方程作为预测模型，根据自变量在预测期的数量变化来预测因变量。

在本实施例中，所述回归预测模型通过建立高铁车站相关的经营参数(作为自变量)与高铁车站的媒体经营收入(作为因变量)之间的回归方程，然后利用该回归预测模型根据待预测车站在预测期内的经营参数来预测该待预测车站在预测期内的媒体经营收入。

在所述步骤101中，所述数据源为与车站广告媒体资源价值及收益相关的数据源。

例如，所述数据源可以是全路媒体管理***，通过全路媒体管理***可以收集到高铁车站的媒体点位统计数据、媒体类型统计数据、媒体招商合同历史数据、客户数据等原始数据。

例如，所述数据源可以是第三方数据源(公开统计网站)，利用爬虫技术从网站上抓取统计周期内的地区GDP经济数据、居民消费支出、人均可支配收入、地区产业结构数据等原始数据。

例如，所述数据源可以是通过全路媒体上刊及巡检***。通过全路媒体上刊及巡检***可以获取统计的业务相关人员数量、业务审批流程平均用时、上刊换刊用平均用时、媒体巡检故障率、报修后维修平均时长等原始数据。

例如，所述数据源可以是客运售票***(例如12306***)。通过客运售票***获取到高铁车站周期内运输动车车次数据、到发旅客人次、所乘席别、验检票平均时长、发送辐射省份分布等原始数据。

例如，所述数据源可以是客运旅客用户画像***。通过客运旅客用户画像***可以获取到群体性别分布、年龄分布、商务/学生/旅游/探亲客流分布等原始数据。

在实际应用中，所述数据源不限于上述列举的这些***，也可以其他可以获取到的与车站广告媒体资源价值及收益相关的其他数据源，在此不一一列举。

需要说明的是，上述各个数据源中的相关数据可能会周期性地更新，因此在训练过程中可以实时或者周期性地从各个数据源中获取更新后的原始数据。

如步骤102所述，对所述原始数据进行预处理，以得到数据样本集。

具体来说，由于从上述数据源获取到的原始数据不可直接用来训练，需要对原始数据预处理。其中，所述预处理可以包括对原始数据进行汇聚、清洗、过滤、缺失值处理、标准化、归一化等处理，从而得到数据样本集。所述数据样本集为可进行特征选取和机器学习算法模型(例如本实施例中的回归预测模型)训练的数据集。

如步骤103所述，从所述数据样本集中选取训练样本集和测试样本集。

具体来说，本步骤包括：

步骤1031、设定所述测试样本集占所述数据样本集的百分比；

步骤1032、依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集，并将其余的数据样本作为当前的训练样本集；

步骤1033、从所述数据样本集中还未被选取为测试样本集的数据样本中，依照所述百分比任意选取数据样本作为下次的测试样本集，并将其余的数据样本作为下次的训练样本集，直至所述数据样本集中所有数据样本都已被选取为测试样本集。

在本实施例中，为了后续对回归预测模型中的各个回归算法进行训练和测试，需要将数据样本集分为训练样本集和测试样本集。进一步，为了使得训练测试后得到的回归预测模型最优，在对每个回归算法进行训练测试过程中，需要进行交叉验证。所谓交叉验证是指在选取训练样本集和测试样本集时，每次从数据样本集中选取的测试样本集无重复，且遍历数据样本集；其余的数据样本作为训练样本集，训练样本集会有重复。

在实际应用中，可以采用K-fold交叉验证。具体地，将数据样本集分割成k个数据子样本集，将其中一个单独的数据子样本集保留作为测试样本集，其他k-1个数据子样本集作为训练样本集。交叉验证重复k次，每个测试样本集验证一次，平均k次的结果得到对该回归算法的评价。该方法的优势在于，依次遍历随机产生的数据子样本集进行训练和验证，每次的结果验证一次，通常进行10折(即k＝10)交叉验证来获取训练测试后的回归预测模型。

具体地，如上述步骤1031～步骤1033所述，设定所述测试样本集占所述数据样本集的百分比。例如，设定的百分比为10％，即选取所述数据样本集中10％的数据样本作为测试样本集，其余的90％的数据样本作为训练样本集。

若所述数据样本集中有100个数据样本，根据上述设定的百分比，可以理解为将这100个数据样本分为10份数据样本(例如分别为A1～A10)，每一份数据样本中包括10个数据样本。第一次选取其中一份(例如A1)作为当前的测试样本集，其余9份(即A2～A10)作为训练样本集。第二次则选取另一份(例如A2)作为当前的测试样本集，其余9份(即A1、A3～A10)作为训练样本集。依次类推，直至每一份数据样本都已被选取过作为测试样本集。

如步骤104所述，分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证，以得到回归算法的模型评价参数指标。

具体来说，本步骤包括：

步骤1041、将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试；

步骤1042、将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试，直至遍历所有测试样本集对回归算法的测试，从而得到回归算法的模型评价参数指标。

在所述回归预测模型中包括算法库，在所述算法库中包含多个回归算法，例如，贝叶斯岭回归算法、线性回归算法、弹性网络回归算法、支持向量机回归算法以及梯度增强回归算法等。

在本实施例中，需要利用数据样本集中的训练样本集和测试样本集分别对每个回归算法进行训练和测试，从而得到每个回归算法的模型评价参数指标。

例如，沿用上述实施例，所述数据样本集中有100个数据样本，将这100个数据样本分为10份数据样本(例如分别为A1～A10)，每一份数据样本中包括10个数据样本。当前选取A1作为测试样本集，利用A2～A10作为训练样本集对所述回归预测模型中的一个回归算法(例如贝叶斯岭回归算法)进行训练，并将A1作为测试样本集对训练后的该回归算法进行测试。下次选取A2作为测试样本集，利用A1、A3～A10作为训练样本集对该回归算法进行训练，并将A2作为测试样本集对训练后的该回归算法进行测试。依此类推，直至A1～A10都已作为测试样本集对该回归算法进行测试过，从而得到该回归算法的模型评价参数指标。然后，依照上述方式分别对回归预测模型中的每个回归算法都进行训练和测试，从而得到每个回归算法的模型评价参数指标。

在数据样本集中包含真实的数据值y_true，通过上述训练和测试过程可以得到回归预测模型中每个回归算法的预测数据值y_pred。所述模型评价参数指标包括：方差得分(explained_variance_score，简称ev)、平均绝对误差(mean_absolute_error，简称MAE)、均方差(mean_squared_error，简称MSE)以及判定系数r²(r2_score)。

其中，ev指标用来衡量回归预测模型对数据集波动的解释程度，其数值取值范围是[0,1]，数值越接近于1说明自变量越能解释因变量的方差变化(即效果越佳)，数值越小说明效果越差。MAE指标用于评估预测数据值和真实的数据值的接近程度，其值越小说明拟合效果越好。MSE指标用于计算拟合数据和原始数据对应样本点的误差的平方和的均值，其值越小说明拟合效果越好。判定系数r²类似于ev，其含义也是解释回归预测模型的方差得分，其值取值范围是[0,1]，越接近于1说明自变量越能解释因变量的方差变化，值越小则说明效果越差。

在实际应用中，模型评价参数指标并不限于上述列举的四个指标，也可以采用其他模型评价参数指标，在此不再一一列举。

如步骤105所述，比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型。

具体地，在利用所述数据样本集中的训练样本集和测试样本集对所述回归预测模型中的每个回归算法进行训练测试以及交叉验证后，通过比较不同的回归算法的模型评价参数指标，从中选取模型评价参数指标最好的回归算法作为该回归预测模型的最优回归算法，从而基于最优回归算法确定最优回归预测模型。

如步骤106所述，基于所述最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。

在本实施例中，在确定了最优回归预测模型之后，还需要根据该最优回归预测模型中所选取的回归算法进行参数调优。例如，若采用的是支持向量机算法(support vectormachine，简称SVC)，则需要调整其核函数。又例如，若采用的是梯度提升回归算法(Gradient boosting regression，简称GBR)，则需要调整弱学习器的最大迭代次数n_estimators、最大深度max_depth,、每个弱学习器的权重缩减系数learning_rate以及损失函数loss等。

然后，将经过参数调优后的最优回归预测模型输出得到训练好的回归预测模型(即作为当前评估预测模型)。

进一步，在本实施例中，在所述步骤102之后还包括如下：根据不同的业务需求从所述数据样本集中提取数据特征集。

具体来说，在实际应用中，由于不同业务需求对应的评估预测目标不同，可以根据实际业务需求对数据样本集进行特征选择和特征降维，即从所述数据样本集中提取数据特征子集。此过程中，可以采用Pearson相关系数计算所提取的各数据特征因子相对于车站广告媒体资源价值及收益的Pearson系数，若Pearson系数的绝对值越大，则表示所选择的数据特征因子与车站广告媒体资源价值及收益的相关性越强，通过特征降维可以降低原始数据的冗余性，提高后期回归预测模型中所采用的回归算法的运算效率。

相应地，在所述步骤103中，所述从所述数据样本集中选取训练样本集和测试样本集包括：从所述数据特征集中选取训练样本集和测试样本集。也就是说，在对数据样本集经过特征选择和特征降维后得到的数据特征集中选取训练样本集和测试样本集，由于数据特征集中的数据特征因子的数目少于数据样本集中数据样本的数目，因此减少了后续利用训练样本集和测试样本集对回归预测模型中的回归算法进行训练测试和交叉验证的计算量，提升了计算效率。

图2是本发明实施例提供的车站广告媒体资源价值及收益的回归预测方法的一个具体实施例的流程示意图。参考图2，所述回归预测方法包括：

步骤201、从多个数据源获取待预测车站的实际经营参数；

步骤202、将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测；其中，所述训练好的回归预测模型是采用上述车站广告媒体资源价值及收益的回归预测模型的训练方法训练得到。

在本实施例中，所述数据源可以包括上述图1所述的实施例中的全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。

与上文训练回归预测模型不同，本实施例中，从数据源获取的仅为与所述待预测车站相关的实际经营参数，而不需要获取其他非待预测车站的实际经营参数。

然后，将获取到的待预测车站的实际经营参数输入训练好的回归预测模型进行回归预测，从而得到所述待预测车站的媒体经营收入。其中，所述回归预测模型的训练过程可以参考上文图1所述的实施例。

进一步，在所述步骤201之后还包括如下步骤：

根据业务需求设置动态可配置参数；

基于所述动态可配置参数对所述实际经营参数进行调整，以得到调整经营参数。

具体来说，在对待预测车站的媒体经营收入进行预测过程中，根据不同的业务需求引入动态可配置参数，使得业务操作人员不仅可根据待预测车站的实际经营参数进行回归预测，并可根据不同的业务需求对实际经营参数进行调整，从而得到调整经营参数。

相应地，所述步骤202，将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测包括：将所述调整经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测。通过将调整经营参数输入至训练好的回归预测模型可以得到优化设计后的预测经营收入，为媒体招商及后期车站优化提供数据支撑。

图3是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练装置的一个具体实施例的结构示意图。

参考图3，所述训练装置3包括：原始数据获取模块301，用于从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据；数据预处理模块302，用于对所述原始数据进行预处理，以得到数据样本集；样本集选取模块303，用于从所述数据样本集中选取训练样本集和测试样本集；训练处理模块304，用于分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证，以得到回归算法的模型评价参数指标；参数指标比较模块305，用于比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型；参数调优模块306，用于基于所述最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。

其中，所述数据源包括：全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。

在本实施例中，所述样本集选取模块303包括：比例设置模块(图中未示出)，用于设定所述测试样本集占所述数据样本集的百分比；训练样本集和测试样本集选取模块(图中未示出)，用于依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集，并将其余的数据样本作为当前的训练样本集；从所述数据样本集中还未被选取为测试样本集的数据样本中，依照所述百分比任意选取数据样本作为下次的测试样本集，并将其余的数据样本作为下次的训练样本集，直至所述数据样本集中所有数据样本都已被选取为测试样本集。

所述训练处理模块304还用于，将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试；将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试，直至遍历所有测试样本集对回归算法的测试，从而得到回归算法的模型评价参数指标。所述模型评价参数指标包括：方差得分、平均绝对误差、均方差以及判定系数r²。

本实施例中，所述训练装置3还包括：数据特征提取模块(图中未示出)，用于根据不同的业务需求从所述数据样本集中提取数据特征集。所述样本集选取模块303还用于从所述数据特征集中选取训练样本集和测试样本集。

本实施例中，所述训练装置3中各个模块的具体实施过程可以参考上文图1所述的方法实施例，在此不再赘述。

参考图4，所述回归预测装置4包括：经营参数获取模块401，用于从多个数据源获取待预测车站的实际经营参数；回归预测处理模块402，用于将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测；其中，所述训练好的回归预测模型是采用上述图3所示的车站广告媒体资源价值及收益的回归预测模型的训练装置训练得到。

本实施例中，所述回归预测装置4还包括：动态可配置参数设置模块(图中未示出)，用于根据业务需求设置动态可配置参数；经营参数调整模块(图中未示出)，用于基于所述动态可配置参数对所述实际经营参数进行调整，以得到调整经营参数。

所述回归预测处理模块402还用于将所述调整经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测。

本实施例中，所述回归预测装置4中各个模块的具体实施过程可以参考上文图2所述的方法实施例，在此不再赘述。

综上所述，本技术方案通过从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据，并对原始数据进行预处理以得到适于回归预测模型训练使用的数据样本集。在利用数据样本集对回归预测模型进行训练过程中，从数据样本集任意选取部分数据样本作为当前的测试样本集，将其余部分的数据样本作为当前的训练样本集，利用测试样本集对经过训练样本集训练后的回归算法进行测试；进而再从数据样本集中还未被选取为测试样本集的数据样本中，任意选取数据样本作为下次的测试样本集，并将其余的数据样本作为下次的训练样本集，直至所述数据样本集中所有数据样本都已被选取为测试样本集，从而实现对各个回归算法的交叉验证，从而得到各个回归算法的模型评价参数指标。也就是说，选取的训练样本集会有重复，而每次选取的测试样本集在历次的交叉验证中是无重复的，且遍历所有的数据样本集。

然后，比较回归预测算法库中各个模型评价参数指标确定基于所述数据样本集的最优回归预测模型，再根据最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。从而可以利用训练好的回归预测模型对待预测车站的经营收入进行回归预测，为媒体招商及后期优化提供数据支撑。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种车站广告媒体资源价值及收益的回归预测模型的训练方法，其特征在于，所述训练方法包括：

从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据；

对所述原始数据进行预处理，以得到数据样本集；

从所述数据样本集中选取训练样本集和测试样本集；

分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证，以得到回归算法的模型评价参数指标；

比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型；

基于所述最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。

2.如权利要求1所述的训练方法，其特征在于，对所述原始数据进行预处理，以得到数据样本集之后还包括：

根据不同的业务需求从所述数据样本集中提取数据特征集；

所述从所述数据样本集中选取训练样本集和测试样本集包括：

从所述数据特征集中选取训练样本集和测试样本集。

3.如权利要求1所述的训练方法，其特征在于，所述从所述数据样本集中选取训练样本集和测试样本集包括：

设定所述测试样本集占所述数据样本集的百分比；

4.如权利要求3所述的训练方法，其特征在于，所述分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证，以得到回归算法的模型评价参数指标包括：

将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试；

将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试，直至遍历所有测试样本集对回归算法的测试，从而得到回归算法的模型评价参数指标。

5.如权利要求1所述的训练方法，其特征在于，所述模型评价参数指标包括：方差得分、平均绝对误差、均方差以及判定系数r²。

6.如权利要求1所述的训练方法，其特征在于，所述数据源包括：全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。

7.一种车站广告媒体资源价值及收益的回归预测方法，其特征在于，包括：

从多个数据源获取待预测车站的实际经营参数；

将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测；

其中，所述训练好的回归预测模型是采用权利要求1～6中任一项所述的车站广告媒体资源价值及收益的回归预测模型的训练方法训练得到。

8.如权利要求7所述的回归预测方法，其特征在于，在所述从多个数据源获取待预测车站的实际经营参数之后还包括：

根据业务需求设置动态可配置参数；

9.如权利要求8所述的回归预测方法，其特征在于，将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测包括：

将所述调整经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测。

10.一种车站广告媒体资源价值及收益的回归预测模型的训练装置，其特征在于，包括：

原始数据获取模块，用于从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据；

数据预处理模块，用于对所述原始数据进行预处理，以得到数据样本集；

样本集选取模块，用于从所述数据样本集中选取训练样本集和测试样本集；

训练处理模块，用于分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证，以得到回归算法的模型评价参数指标；

参数指标比较模块，用于比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型；

参数调优模块，用于基于所述最优回归预测模型中的回归算法进行参数调优，以得到训练好的回归预测模型。

11.如权利要求10所述的训练装置，其特征在于，还包括：

数据特征提取模块，用于根据不同的业务需求从所述数据样本集中提取数据特征集；

所述样本集选取模块，还用于从所述数据特征集中选取训练样本集和测试样本集。

12.如权利要求10所述的训练装置，其特征在于，所述样本集选取模块包括：

比例设置模块，用于设定所述测试样本集占所述数据样本集的百分比；

训练样本集和测试样本集选取模块，用于依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集，并将其余的数据样本作为当前的训练样本集；从所述数据样本集中还未被选取为测试样本集的数据样本中，依照所述百分比任意选取数据样本作为下次的测试样本集，并将其余的数据样本作为下次的训练样本集，直至所述数据样本集中所有数据样本都已被选取为测试样本集。

13.如权利要求12所述的训练装置，其特征在于，所述训练处理模块，还用于，将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试；将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练，并将对应的测试样本集对训练后的回归算法进行测试，直至遍历所有测试样本集对回归算法的测试，从而得到回归算法的模型评价参数指标。

14.如权利要求10所述的训练装置，其特征在于，所述模型评价参数指标包括：方差得分、平均绝对误差、均方差以及判定系数r²。

15.如权利要求10所述的训练装置，其特征在于，所述数据源包括：全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。

16.一种车站广告媒体资源价值及收益的回归预测装置，其特征在于，包括：

经营参数获取模块，用于从多个数据源获取待预测车站的实际经营参数；

回归预测处理模块，用于将所述实际经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测；其中，所述训练好的回归预测模型是采用权利要求10～16中任一项所述的车站广告媒体资源价值及收益的回归预测模型的训练装置训练得到。

17.如权利要求16所述的回归预测装置，其特征在于，还包括：

动态可配置参数设置模块，用于根据业务需求设置动态可配置参数；

经营参数调整模块，用于基于所述动态可配置参数对所述实际经营参数进行调整，以得到调整经营参数。

18.如权利要求17所述的回归预测装置，其特征在于，所述回归预测处理模块还用于将所述调整经营参数输入训练好的回归预测模型，以对所述待预测车站的媒体经营收入进行回归预测。