CN110992101A - 车站广告媒体资源价值及收益预测回归方法及预测模型 - Google Patents

车站广告媒体资源价值及收益预测回归方法及预测模型 Download PDF

Info

Publication number
CN110992101A
CN110992101A CN201911235631.0A CN201911235631A CN110992101A CN 110992101 A CN110992101 A CN 110992101A CN 201911235631 A CN201911235631 A CN 201911235631A CN 110992101 A CN110992101 A CN 110992101A
Authority
CN
China
Prior art keywords
sample set
data
training
regression
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911235631.0A
Other languages
English (en)
Inventor
许娜
吴刚
单杏花
陈靖
付睿
杨琳
卢迪
宋卿
赵亚涛
赵小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA RAILWAY TRIP SCIENCE AND TECHNOLOGY Co.,Ltd.
China Academy of Railway Sciences Corp Ltd CARS
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Original Assignee
China Railway Trip Science And Technology Co ltd
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Railway Trip Science And Technology Co ltd, Institute of Computing Technologies of CARS, Beijing Jingwei Information Technology Co Ltd filed Critical China Railway Trip Science And Technology Co ltd
Priority to CN201911235631.0A priority Critical patent/CN110992101A/zh
Publication of CN110992101A publication Critical patent/CN110992101A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种车站广告媒体资源价值及收益预测回归方法及预测模型。通过从不同数据源获取高铁车站的生产经营数据对回归预测模型进行训练,在训练过程中采用训练和测试相结合,并通过交叉验证的方式寻找最优的回归算法,并进一步对回归算法进行参数调优,才能够建立一套科学可行的铁路经营数据分析与评估预测模型,对铁路媒体广告的经营与发展提供更加有效的支撑,从而解决现有技术中对车站广告媒体资源价值及收益的预测缺乏科学方法体系的问题。

Description

车站广告媒体资源价值及收益预测回归方法及预测模型
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种车站广告媒体资源价值及收益的回归预测模型的训练方法、车站广告媒体资源价值及收益的回归预测方法。
【背景技术】
中国高铁营业里程2018年底达到2.9万公里,成为世界上运营里程最长、运输密度最高、场景最复杂、客流量最大的国家。高铁广告媒体当下正经历着前所未有的发展空间和机遇,蕴含着巨大的经济价值潜力,特别是高铁乘客群体规模快速增长,新媒体类型日趋多元,其广告学意义上的传播效应是巨大的。
而当前高铁媒体经营价值收入评估因分局经营,各自为政,还停留在以经营单位内有限的招商历史数据和相关业务管理人员决策为依据,辅以传统抽样调查评估方法为手段,未形成全路局媒体业务大数据为依据的科学、综合、有效的方法和技术支撑体系。
【发明内容】
有鉴于此,本发明实施例提供了一种车站广告媒体资源价值及收益的回归预测模型的训练方法、车站广告媒体资源价值及收益的回归预测方法,用以解决现有技术中对车站广告媒体资源价值及收益的预测缺乏科学方法体系的问题。
一方面,本发明实施例提供了一种车站广告媒体资源价值及收益的回归预测模型的训练方法,包括:从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据;对所述原始数据进行预处理,以得到数据样本集;从所述数据样本集中选取训练样本集和测试样本集;分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的各个回归算法进行训练测试和交叉验证,以得到各个回归算法的模型评价参数指标;比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型;基于所述最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。
在一个可能的设计中,对所述原始数据进行预处理,以得到数据样本集之后还包括:根据不同的业务需求从所述数据样本集中提取数据特征集;从所述数据样本集中选取训练样本集和测试样本集包括:从所述数据特征集中选取训练样本集和测试样本集。
在一个可能的设计中,从所述数据样本集中选取训练样本集和测试样本集包括:
设定所述测试样本集占所述数据样本集的百分比;
依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集,并将其余的数据样本作为当前的训练样本集;
从所述数据样本集中还未被选取为测试样本集的数据样本中,依照所述百分比任意选取数据样本作为下次的测试样本集,并将其余的数据样本作为下次的训练样本集,直至所述数据样本集中所有数据样本都已被选取为测试样本集。
在一个可能的设计中,分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的各个回归算法进行训练测试和交叉验证,以得到各个回归算法的模型评价参数指标包括:
将本次选取的训练样本集对所述回归预测模型中的各个回归算法进行训练,并将对应的测试样本集对训练后的各个回归算法进行测试;
将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试,直至遍历所有测试样本集对回归算法的测试,从而得到回归算法的模型评价参数指标。在一个可能的设计中,所述模型评价参数指标包括:方差得分、平均绝对误差、均方差以及判定系数r2
在一个可能的设计中,所述数据源包括:全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。
另一方面,本发明实施例还提供了一种车站广告媒体资源价值及收益的回归预测方法,包括:从多个数据源获取待预测车站的实际经营参数;将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测;其中,所述训练好的回归预测模型是采用上述车站广告媒体资源价值及收益的回归预测模型的训练方法训练得到。
在一个可能的设计中,在所述从多个数据源获取待预测车站的实际经营参数之后还包括:根据业务需求设置动态可配置参数;基于所述动态可配置参数对所述实际经营参数进行调整,以得到调整经营参数。
在一个可能的设计中,将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的经营收入进行回归预测,包括:将所述调整经营参数输入训练好的回归预测模型,以对所述待预测车站的经营收入进行回归预测。
又一方面,本发明实施例提供了一种车站广告媒体资源价值及收益的回归预测模型的训练装置,包括:原始数据获取模块,用于从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据;数据预处理模块,用于对所述原始数据进行预处理,以得到数据样本集;样本集选取模块,用于从所述数据样本集中选取训练样本集和测试样本集;训练处理模块,用于分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证,以得到回归算法的模型评价参数指标;参数指标比较模块,用于比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型;参数调优模块,用于基于所述最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。
再一方面,本发明实施例还提供了一种车站广告媒体资源价值及收益的回归预测装置,包括:经营参数获取模块,用于从多个数据源获取待预测车站的实际经营参数;回归预测处理模块,用于将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测;其中,所述训练好的回归预测模型是采用上述车站广告媒体资源价值及收益的回归预测模型的训练装置训练得到。
与现有技术相比,本技术方案至少具有如下有益效果:
根据本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练方法,从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据,并对原始数据进行预处理以得到适于回归预测模型训练使用的数据样本集。在利用数据样本集对回归预测模型进行训练过程中,先设定测试样本集占数据样本集的百分比,然后从数据样本集依照设定的百分比选取数据样本作为当前的测试样本集,将其余部分的数据样本作为当前的训练样本集,利用测试样本集对经过训练样本集训练后的回归算法进行测试;进而再从数据样本集中还未被选取为测试样本集的数据样本中,再依照该百分比选取数据样本作为下次的测试样本集,并将其余的数据样本作为下次的训练样本集,以此类推,直至所述数据样本集中所有数据样本都已被选取为测试样本集,从而实现对各个回归算法的交叉验证,从而得到各个回归算法的模型评价参数指标。也就是说,选取的训练样本集会有重复,而每次选取的测试样本集在历次的交叉验证中是无重复的,且遍历所有的数据样本集。
然后,比较各个模型评价参数指标确定基于所述数据样本集的最优回归预测模型,再根据最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。从而可以利用训练好的回归预测模型对待预测车站的经营收入进行回归预测,为媒体招商及后期优化提供数据支撑。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练方法的一个具体实施例的流程示意图;
图2是本发明实施例提供的车站广告媒体资源价值及收益的回归预测方法的一个具体实施例的流程示意图;
图3是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练装置的一个具体实施例的结构示意图;
图4是本发明实施例提供的车站广告媒体资源价值及收益的回归预测装置的一个具体实施例的结构示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练方法的一个具体实施例的流程示意图。参考图1,所述训练方法包括:
步骤101、从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据;
步骤102、对所述原始数据进行预处理,以得到数据样本集;
步骤103、从所述数据样本集中选取训练样本集和测试样本集;
步骤104、分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证,以得到回归算法的模型评价参数指标;
步骤105、比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型;
步骤106、基于所述最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。
本领域技术人员理解,回归预测模型是一种研究自变量与因变量之间关系的建模技术,通过建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量。
在本实施例中,所述回归预测模型通过建立高铁车站相关的经营参数(作为自变量)与高铁车站的媒体经营收入(作为因变量)之间的回归方程,然后利用该回归预测模型根据待预测车站在预测期内的经营参数来预测该待预测车站在预测期内的媒体经营收入。
在所述步骤101中,所述数据源为与车站广告媒体资源价值及收益相关的数据源。
例如,所述数据源可以是全路媒体管理***,通过全路媒体管理***可以收集到高铁车站的媒体点位统计数据、媒体类型统计数据、媒体招商合同历史数据、客户数据等原始数据。
例如,所述数据源可以是第三方数据源(公开统计网站),利用爬虫技术从网站上抓取统计周期内的地区GDP经济数据、居民消费支出、人均可支配收入、地区产业结构数据等原始数据。
例如,所述数据源可以是通过全路媒体上刊及巡检***。通过全路媒体上刊及巡检***可以获取统计的业务相关人员数量、业务审批流程平均用时、上刊换刊用平均用时、媒体巡检故障率、报修后维修平均时长等原始数据。
例如,所述数据源可以是客运售票***(例如12306***)。通过客运售票***获取到高铁车站周期内运输动车车次数据、到发旅客人次、所乘席别、验检票平均时长、发送辐射省份分布等原始数据。
例如,所述数据源可以是客运旅客用户画像***。通过客运旅客用户画像***可以获取到群体性别分布、年龄分布、商务/学生/旅游/探亲客流分布等原始数据。
在实际应用中,所述数据源不限于上述列举的这些***,也可以其他可以获取到的与车站广告媒体资源价值及收益相关的其他数据源,在此不一一列举。
需要说明的是,上述各个数据源中的相关数据可能会周期性地更新,因此在训练过程中可以实时或者周期性地从各个数据源中获取更新后的原始数据。
如步骤102所述,对所述原始数据进行预处理,以得到数据样本集。
具体来说,由于从上述数据源获取到的原始数据不可直接用来训练,需要对原始数据预处理。其中,所述预处理可以包括对原始数据进行汇聚、清洗、过滤、缺失值处理、标准化、归一化等处理,从而得到数据样本集。所述数据样本集为可进行特征选取和机器学习算法模型(例如本实施例中的回归预测模型)训练的数据集。
如步骤103所述,从所述数据样本集中选取训练样本集和测试样本集。
具体来说,本步骤包括:
步骤1031、设定所述测试样本集占所述数据样本集的百分比;
步骤1032、依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集,并将其余的数据样本作为当前的训练样本集;
步骤1033、从所述数据样本集中还未被选取为测试样本集的数据样本中,依照所述百分比任意选取数据样本作为下次的测试样本集,并将其余的数据样本作为下次的训练样本集,直至所述数据样本集中所有数据样本都已被选取为测试样本集。
在本实施例中,为了后续对回归预测模型中的各个回归算法进行训练和测试,需要将数据样本集分为训练样本集和测试样本集。进一步,为了使得训练测试后得到的回归预测模型最优,在对每个回归算法进行训练测试过程中,需要进行交叉验证。所谓交叉验证是指在选取训练样本集和测试样本集时,每次从数据样本集中选取的测试样本集无重复,且遍历数据样本集;其余的数据样本作为训练样本集,训练样本集会有重复。
在实际应用中,可以采用K-fold交叉验证。具体地,将数据样本集分割成k个数据子样本集,将其中一个单独的数据子样本集保留作为测试样本集,其他k-1个数据子样本集作为训练样本集。交叉验证重复k次,每个测试样本集验证一次,平均k次的结果得到对该回归算法的评价。该方法的优势在于,依次遍历随机产生的数据子样本集进行训练和验证,每次的结果验证一次,通常进行10折(即k=10)交叉验证来获取训练测试后的回归预测模型。
具体地,如上述步骤1031~步骤1033所述,设定所述测试样本集占所述数据样本集的百分比。例如,设定的百分比为10%,即选取所述数据样本集中10%的数据样本作为测试样本集,其余的90%的数据样本作为训练样本集。
若所述数据样本集中有100个数据样本,根据上述设定的百分比,可以理解为将这100个数据样本分为10份数据样本(例如分别为A1~A10),每一份数据样本中包括10个数据样本。第一次选取其中一份(例如A1)作为当前的测试样本集,其余9份(即A2~A10)作为训练样本集。第二次则选取另一份(例如A2)作为当前的测试样本集,其余9份(即A1、A3~A10)作为训练样本集。依次类推,直至每一份数据样本都已被选取过作为测试样本集。
如步骤104所述,分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证,以得到回归算法的模型评价参数指标。
具体来说,本步骤包括:
步骤1041、将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试;
步骤1042、将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试,直至遍历所有测试样本集对回归算法的测试,从而得到回归算法的模型评价参数指标。
在所述回归预测模型中包括算法库,在所述算法库中包含多个回归算法,例如,贝叶斯岭回归算法、线性回归算法、弹性网络回归算法、支持向量机回归算法以及梯度增强回归算法等。
在本实施例中,需要利用数据样本集中的训练样本集和测试样本集分别对每个回归算法进行训练和测试,从而得到每个回归算法的模型评价参数指标。
例如,沿用上述实施例,所述数据样本集中有100个数据样本,将这100个数据样本分为10份数据样本(例如分别为A1~A10),每一份数据样本中包括10个数据样本。当前选取A1作为测试样本集,利用A2~A10作为训练样本集对所述回归预测模型中的一个回归算法(例如贝叶斯岭回归算法)进行训练,并将A1作为测试样本集对训练后的该回归算法进行测试。下次选取A2作为测试样本集,利用A1、A3~A10作为训练样本集对该回归算法进行训练,并将A2作为测试样本集对训练后的该回归算法进行测试。依此类推,直至A1~A10都已作为测试样本集对该回归算法进行测试过,从而得到该回归算法的模型评价参数指标。然后,依照上述方式分别对回归预测模型中的每个回归算法都进行训练和测试,从而得到每个回归算法的模型评价参数指标。
在数据样本集中包含真实的数据值y_true,通过上述训练和测试过程可以得到回归预测模型中每个回归算法的预测数据值y_pred。所述模型评价参数指标包括:方差得分(explained_variance_score,简称ev)、平均绝对误差(mean_absolute_error,简称MAE)、均方差(mean_squared_error,简称MSE)以及判定系数r2(r2_score)。
其中,ev指标用来衡量回归预测模型对数据集波动的解释程度,其数值取值范围是[0,1],数值越接近于1说明自变量越能解释因变量的方差变化(即效果越佳),数值越小说明效果越差。MAE指标用于评估预测数据值和真实的数据值的接近程度,其值越小说明拟合效果越好。MSE指标用于计算拟合数据和原始数据对应样本点的误差的平方和的均值,其值越小说明拟合效果越好。判定系数r2类似于ev,其含义也是解释回归预测模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越小则说明效果越差。
在实际应用中,模型评价参数指标并不限于上述列举的四个指标,也可以采用其他模型评价参数指标,在此不再一一列举。
如步骤105所述,比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型。
具体地,在利用所述数据样本集中的训练样本集和测试样本集对所述回归预测模型中的每个回归算法进行训练测试以及交叉验证后,通过比较不同的回归算法的模型评价参数指标,从中选取模型评价参数指标最好的回归算法作为该回归预测模型的最优回归算法,从而基于最优回归算法确定最优回归预测模型。
如步骤106所述,基于所述最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。
在本实施例中,在确定了最优回归预测模型之后,还需要根据该最优回归预测模型中所选取的回归算法进行参数调优。例如,若采用的是支持向量机算法(support vectormachine,简称SVC),则需要调整其核函数。又例如,若采用的是梯度提升回归算法(Gradient boosting regression,简称GBR),则需要调整弱学习器的最大迭代次数n_estimators、最大深度max_depth,、每个弱学习器的权重缩减系数learning_rate以及损失函数loss等。
然后,将经过参数调优后的最优回归预测模型输出得到训练好的回归预测模型(即作为当前评估预测模型)。
进一步,在本实施例中,在所述步骤102之后还包括如下:根据不同的业务需求从所述数据样本集中提取数据特征集。
具体来说,在实际应用中,由于不同业务需求对应的评估预测目标不同,可以根据实际业务需求对数据样本集进行特征选择和特征降维,即从所述数据样本集中提取数据特征子集。此过程中,可以采用Pearson相关系数计算所提取的各数据特征因子相对于车站广告媒体资源价值及收益的Pearson系数,若Pearson系数的绝对值越大,则表示所选择的数据特征因子与车站广告媒体资源价值及收益的相关性越强,通过特征降维可以降低原始数据的冗余性,提高后期回归预测模型中所采用的回归算法的运算效率。
相应地,在所述步骤103中,所述从所述数据样本集中选取训练样本集和测试样本集包括:从所述数据特征集中选取训练样本集和测试样本集。也就是说,在对数据样本集经过特征选择和特征降维后得到的数据特征集中选取训练样本集和测试样本集,由于数据特征集中的数据特征因子的数目少于数据样本集中数据样本的数目,因此减少了后续利用训练样本集和测试样本集对回归预测模型中的回归算法进行训练测试和交叉验证的计算量,提升了计算效率。
图2是本发明实施例提供的车站广告媒体资源价值及收益的回归预测方法的一个具体实施例的流程示意图。参考图2,所述回归预测方法包括:
步骤201、从多个数据源获取待预测车站的实际经营参数;
步骤202、将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测;其中,所述训练好的回归预测模型是采用上述车站广告媒体资源价值及收益的回归预测模型的训练方法训练得到。
在本实施例中,所述数据源可以包括上述图1所述的实施例中的全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。
与上文训练回归预测模型不同,本实施例中,从数据源获取的仅为与所述待预测车站相关的实际经营参数,而不需要获取其他非待预测车站的实际经营参数。
然后,将获取到的待预测车站的实际经营参数输入训练好的回归预测模型进行回归预测,从而得到所述待预测车站的媒体经营收入。其中,所述回归预测模型的训练过程可以参考上文图1所述的实施例。
进一步,在所述步骤201之后还包括如下步骤:
根据业务需求设置动态可配置参数;
基于所述动态可配置参数对所述实际经营参数进行调整,以得到调整经营参数。
具体来说,在对待预测车站的媒体经营收入进行预测过程中,根据不同的业务需求引入动态可配置参数,使得业务操作人员不仅可根据待预测车站的实际经营参数进行回归预测,并可根据不同的业务需求对实际经营参数进行调整,从而得到调整经营参数。
相应地,所述步骤202,将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测包括:将所述调整经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测。通过将调整经营参数输入至训练好的回归预测模型可以得到优化设计后的预测经营收入,为媒体招商及后期车站优化提供数据支撑。
图3是本发明实施例提供的车站广告媒体资源价值及收益的回归预测模型的训练装置的一个具体实施例的结构示意图。
参考图3,所述训练装置3包括:原始数据获取模块301,用于从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据;数据预处理模块302,用于对所述原始数据进行预处理,以得到数据样本集;样本集选取模块303,用于从所述数据样本集中选取训练样本集和测试样本集;训练处理模块304,用于分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证,以得到回归算法的模型评价参数指标;参数指标比较模块305,用于比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型;参数调优模块306,用于基于所述最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。
其中,所述数据源包括:全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。
在本实施例中,所述样本集选取模块303包括:比例设置模块(图中未示出),用于设定所述测试样本集占所述数据样本集的百分比;训练样本集和测试样本集选取模块(图中未示出),用于依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集,并将其余的数据样本作为当前的训练样本集;从所述数据样本集中还未被选取为测试样本集的数据样本中,依照所述百分比任意选取数据样本作为下次的测试样本集,并将其余的数据样本作为下次的训练样本集,直至所述数据样本集中所有数据样本都已被选取为测试样本集。
所述训练处理模块304还用于,将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试;将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试,直至遍历所有测试样本集对回归算法的测试,从而得到回归算法的模型评价参数指标。所述模型评价参数指标包括:方差得分、平均绝对误差、均方差以及判定系数r2
本实施例中,所述训练装置3还包括:数据特征提取模块(图中未示出),用于根据不同的业务需求从所述数据样本集中提取数据特征集。所述样本集选取模块303还用于从所述数据特征集中选取训练样本集和测试样本集。
本实施例中,所述训练装置3中各个模块的具体实施过程可以参考上文图1所述的方法实施例,在此不再赘述。
图4是本发明实施例提供的车站广告媒体资源价值及收益的回归预测装置的一个具体实施例的结构示意图。
参考图4,所述回归预测装置4包括:经营参数获取模块401,用于从多个数据源获取待预测车站的实际经营参数;回归预测处理模块402,用于将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测;其中,所述训练好的回归预测模型是采用上述图3所示的车站广告媒体资源价值及收益的回归预测模型的训练装置训练得到。
本实施例中,所述回归预测装置4还包括:动态可配置参数设置模块(图中未示出),用于根据业务需求设置动态可配置参数;经营参数调整模块(图中未示出),用于基于所述动态可配置参数对所述实际经营参数进行调整,以得到调整经营参数。
所述回归预测处理模块402还用于将所述调整经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测。
本实施例中,所述回归预测装置4中各个模块的具体实施过程可以参考上文图2所述的方法实施例,在此不再赘述。
综上所述,本技术方案通过从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据,并对原始数据进行预处理以得到适于回归预测模型训练使用的数据样本集。在利用数据样本集对回归预测模型进行训练过程中,从数据样本集任意选取部分数据样本作为当前的测试样本集,将其余部分的数据样本作为当前的训练样本集,利用测试样本集对经过训练样本集训练后的回归算法进行测试;进而再从数据样本集中还未被选取为测试样本集的数据样本中,任意选取数据样本作为下次的测试样本集,并将其余的数据样本作为下次的训练样本集,直至所述数据样本集中所有数据样本都已被选取为测试样本集,从而实现对各个回归算法的交叉验证,从而得到各个回归算法的模型评价参数指标。也就是说,选取的训练样本集会有重复,而每次选取的测试样本集在历次的交叉验证中是无重复的,且遍历所有的数据样本集。
然后,比较回归预测算法库中各个模型评价参数指标确定基于所述数据样本集的最优回归预测模型,再根据最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。从而可以利用训练好的回归预测模型对待预测车站的经营收入进行回归预测,为媒体招商及后期优化提供数据支撑。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种车站广告媒体资源价值及收益的回归预测模型的训练方法,其特征在于,所述训练方法包括:
从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据;
对所述原始数据进行预处理,以得到数据样本集;
从所述数据样本集中选取训练样本集和测试样本集;
分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证,以得到回归算法的模型评价参数指标;
比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型;
基于所述最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。
2.如权利要求1所述的训练方法,其特征在于,对所述原始数据进行预处理,以得到数据样本集之后还包括:
根据不同的业务需求从所述数据样本集中提取数据特征集;
所述从所述数据样本集中选取训练样本集和测试样本集包括:
从所述数据特征集中选取训练样本集和测试样本集。
3.如权利要求1所述的训练方法,其特征在于,所述从所述数据样本集中选取训练样本集和测试样本集包括:
设定所述测试样本集占所述数据样本集的百分比;
依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集,并将其余的数据样本作为当前的训练样本集;
从所述数据样本集中还未被选取为测试样本集的数据样本中,依照所述百分比任意选取数据样本作为下次的测试样本集,并将其余的数据样本作为下次的训练样本集,直至所述数据样本集中所有数据样本都已被选取为测试样本集。
4.如权利要求3所述的训练方法,其特征在于,所述分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证,以得到回归算法的模型评价参数指标包括:
将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试;
将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试,直至遍历所有测试样本集对回归算法的测试,从而得到回归算法的模型评价参数指标。
5.如权利要求1所述的训练方法,其特征在于,所述模型评价参数指标包括:方差得分、平均绝对误差、均方差以及判定系数r2
6.如权利要求1所述的训练方法,其特征在于,所述数据源包括:全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。
7.一种车站广告媒体资源价值及收益的回归预测方法,其特征在于,包括:
从多个数据源获取待预测车站的实际经营参数;
将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测;
其中,所述训练好的回归预测模型是采用权利要求1~6中任一项所述的车站广告媒体资源价值及收益的回归预测模型的训练方法训练得到。
8.如权利要求7所述的回归预测方法,其特征在于,在所述从多个数据源获取待预测车站的实际经营参数之后还包括:
根据业务需求设置动态可配置参数;
基于所述动态可配置参数对所述实际经营参数进行调整,以得到调整经营参数。
9.如权利要求8所述的回归预测方法,其特征在于,将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测包括:
将所述调整经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测。
10.一种车站广告媒体资源价值及收益的回归预测模型的训练装置,其特征在于,包括:
原始数据获取模块,用于从多个数据源获取与车站广告媒体资源价值及收益相关的原始数据;
数据预处理模块,用于对所述原始数据进行预处理,以得到数据样本集;
样本集选取模块,用于从所述数据样本集中选取训练样本集和测试样本集;
训练处理模块,用于分别利用所述训练样本集和所述测试样本集对所述回归预测模型中的回归算法进行训练测试和交叉验证,以得到回归算法的模型评价参数指标;
参数指标比较模块,用于比较各个所述模型评价参数指标确定基于所述数据样本集的最优回归预测模型;
参数调优模块,用于基于所述最优回归预测模型中的回归算法进行参数调优,以得到训练好的回归预测模型。
11.如权利要求10所述的训练装置,其特征在于,还包括:
数据特征提取模块,用于根据不同的业务需求从所述数据样本集中提取数据特征集;
所述样本集选取模块,还用于从所述数据特征集中选取训练样本集和测试样本集。
12.如权利要求10所述的训练装置,其特征在于,所述样本集选取模块包括:
比例设置模块,用于设定所述测试样本集占所述数据样本集的百分比;
训练样本集和测试样本集选取模块,用于依照所述百分比从所述数据样本集中任意选取数据样本作为当前的测试样本集,并将其余的数据样本作为当前的训练样本集;从所述数据样本集中还未被选取为测试样本集的数据样本中,依照所述百分比任意选取数据样本作为下次的测试样本集,并将其余的数据样本作为下次的训练样本集,直至所述数据样本集中所有数据样本都已被选取为测试样本集。
13.如权利要求12所述的训练装置,其特征在于,所述训练处理模块,还用于,将当前选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试;将下次选取的训练样本集对所述回归预测模型中的回归算法进行训练,并将对应的测试样本集对训练后的回归算法进行测试,直至遍历所有测试样本集对回归算法的测试,从而得到回归算法的模型评价参数指标。
14.如权利要求10所述的训练装置,其特征在于,所述模型评价参数指标包括:方差得分、平均绝对误差、均方差以及判定系数r2
15.如权利要求10所述的训练装置,其特征在于,所述数据源包括:全路媒体管理***、第三方数据源、客运售票***、全路媒体上刊及巡检***以及客运旅客用户画像***中的任一种或多种数据源。
16.一种车站广告媒体资源价值及收益的回归预测装置,其特征在于,包括:
经营参数获取模块,用于从多个数据源获取待预测车站的实际经营参数;
回归预测处理模块,用于将所述实际经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测;其中,所述训练好的回归预测模型是采用权利要求10~16中任一项所述的车站广告媒体资源价值及收益的回归预测模型的训练装置训练得到。
17.如权利要求16所述的回归预测装置,其特征在于,还包括:
动态可配置参数设置模块,用于根据业务需求设置动态可配置参数;
经营参数调整模块,用于基于所述动态可配置参数对所述实际经营参数进行调整,以得到调整经营参数。
18.如权利要求17所述的回归预测装置,其特征在于,所述回归预测处理模块还用于将所述调整经营参数输入训练好的回归预测模型,以对所述待预测车站的媒体经营收入进行回归预测。
CN201911235631.0A 2019-12-05 2019-12-05 车站广告媒体资源价值及收益预测回归方法及预测模型 Pending CN110992101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235631.0A CN110992101A (zh) 2019-12-05 2019-12-05 车站广告媒体资源价值及收益预测回归方法及预测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235631.0A CN110992101A (zh) 2019-12-05 2019-12-05 车站广告媒体资源价值及收益预测回归方法及预测模型

Publications (1)

Publication Number Publication Date
CN110992101A true CN110992101A (zh) 2020-04-10

Family

ID=70090534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235631.0A Pending CN110992101A (zh) 2019-12-05 2019-12-05 车站广告媒体资源价值及收益预测回归方法及预测模型

Country Status (1)

Country Link
CN (1) CN110992101A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417327A (zh) * 2020-11-24 2021-02-26 深圳平安综合金融服务有限公司 一种数据处理方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110265A (zh) * 2009-12-23 2011-06-29 深圳市腾讯计算机***有限公司 一种预估网络广告效果的方法及***
CN104537071A (zh) * 2014-12-30 2015-04-22 深圳市科漫达智能管理科技有限公司 停车场收益分析方法及***
CN104573854A (zh) * 2014-12-23 2015-04-29 国家电网公司 钢铁用电量的预测方法及装置
GB201620476D0 (en) * 2016-12-02 2017-01-18 Omarco Network Solutions Ltd Computer-implemented method of predicting performance data
CN106529706A (zh) * 2016-10-25 2017-03-22 国家电网公司 一种基于支持向量机回归的风电场风速预测方法
CN108090599A (zh) * 2016-11-21 2018-05-29 上海海勃物流软件有限公司 集装箱码头运营成本控制和客户价值分析方法
CN108491953A (zh) * 2018-01-31 2018-09-04 国网山东省电力公司电力科学研究院 一种基于非线性理论的pm2.5预测与预警方法及***
AU2017252517A1 (en) * 2016-04-18 2018-12-06 Cerora, Inc. Protocol and signatures for the multimodal physiological stimulation and assessment of traumatic brain injury
CN110363403A (zh) * 2019-06-27 2019-10-22 中国铁道科学研究院集团有限公司 铁路钢轨损伤预测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110265A (zh) * 2009-12-23 2011-06-29 深圳市腾讯计算机***有限公司 一种预估网络广告效果的方法及***
CN104573854A (zh) * 2014-12-23 2015-04-29 国家电网公司 钢铁用电量的预测方法及装置
CN104537071A (zh) * 2014-12-30 2015-04-22 深圳市科漫达智能管理科技有限公司 停车场收益分析方法及***
AU2017252517A1 (en) * 2016-04-18 2018-12-06 Cerora, Inc. Protocol and signatures for the multimodal physiological stimulation and assessment of traumatic brain injury
CN106529706A (zh) * 2016-10-25 2017-03-22 国家电网公司 一种基于支持向量机回归的风电场风速预测方法
CN108090599A (zh) * 2016-11-21 2018-05-29 上海海勃物流软件有限公司 集装箱码头运营成本控制和客户价值分析方法
GB201620476D0 (en) * 2016-12-02 2017-01-18 Omarco Network Solutions Ltd Computer-implemented method of predicting performance data
CN108491953A (zh) * 2018-01-31 2018-09-04 国网山东省电力公司电力科学研究院 一种基于非线性理论的pm2.5预测与预警方法及***
CN110363403A (zh) * 2019-06-27 2019-10-22 中国铁道科学研究院集团有限公司 铁路钢轨损伤预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯聪等: "基于模糊信息粒化和支持向量机的空调负荷预测", 《建筑热能通风空调》, vol. 36, no. 02, pages 28 - 101 *
刘定祥等: "《统计学基础》", 首都师范大学出版社, pages: 271 - 274 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417327A (zh) * 2020-11-24 2021-02-26 深圳平安综合金融服务有限公司 一种数据处理方法、装置、设备及介质
CN112417327B (zh) * 2020-11-24 2024-04-09 深圳平安综合金融服务有限公司 一种数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110135612B (zh) 基于用电量分析的物资供应商生产能力监控及异常预警方法
CN106909933B (zh) 一种三阶段多视角特征融合的窃电分类预测方法
CN109409628B (zh) 基于计量大数据聚类模型的采集终端生产厂商评价方法
CN110570651A (zh) 一种基于深度学习的路网交通态势预测方法及***
CN108009972B (zh) 一种基于多源数据校核的多方式出行o-d需求估计方法
CN109389145B (zh) 基于计量大数据聚类模型的电能表生产厂商评价方法
CN113962314A (zh) 一种基于联邦学习的非侵入式企业负荷分解方法
KR100988609B1 (ko) 지공간 상관관계 통합기법을 이용한 광상 부존 예측시스템 및 이를 이용한 광상 부존 예측방법
CN110866775A (zh) 一种基于机器学习的用户空铁联程城际出行信息处理方法
CN109637196A (zh) 航路扇区交通概率密度预测方法
CN108415885A (zh) 基于近邻回归的实时公交客流预测方法
CN111582738B (zh) 一种区域机场群的航空客流需求预测方法
Petrik et al. Uncertainty analysis of an activity-based microsimulation model for Singapore
Schreiber et al. Generative adversarial networks for operational scenario planning of renewable energy farms: a study on wind and photovoltaic
Sajanraj et al. PASSENGER FLOW PREDICTION FROM AFC DATA USING STATION MEMORIZING LSTM FOR METRO RAIL SYSTEMS.
CN110992101A (zh) 车站广告媒体资源价值及收益预测回归方法及预测模型
CN116128160B (zh) 一种铁路车站高峰客流预测方法、***及设备和介质
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法
CN117350336A (zh) 充电负荷预测及模型训练方法、装置、设备及存储介质
CN110020666B (zh) 一种基于乘客行为模式的公共交通广告投放方法及***
CN115577797A (zh) 一种基于本地噪声感知的联邦学习优化方法及***
CN114492967A (zh) 基于ceemdan和blstm组合模型的城轨车站客流预测方法和介质
CN114037160A (zh) SEM-Logit旅游铁路客流预测模型的构建方法
CN107222328A (zh) 预测饱和拐点的方法及装置
Thandassery et al. Operational pattern forecast improvement with outlier detection in metro rail transport system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220208

Address after: 100081 Beijing Haidian District, No. 2 Daliushu Road, 12 blocks

Applicant after: INSTITUTE OF COMPUTING TECHNOLOGIES, CARS

Applicant after: BEIJING JINGWEI INFORMATION TECHNOLOGY Co.,Ltd.

Applicant after: CHINA RAILWAY TRIP SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: CHINA ACADEMY OF RAILWAY SCIENCES Corp.,Ltd.

Address before: 100081 Beijing Haidian District, No. 2 Daliushu Road, 12 blocks

Applicant before: INSTITUTE OF COMPUTING TECHNOLOGIES, CARS

Applicant before: BEIJING JINGWEI INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: CHINA RAILWAY TRIP SCIENCE AND TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410