CN112380925A

CN112380925A - 数据处理方法、装置、设备和存储介质

Info

Publication number: CN112380925A
Application number: CN202011165351.XA
Authority: CN
Inventors: 吴正中; 冯帆; 常海利; 汪永刚
Original assignee: Beijing Urban Construction Intelligent Control Technology Co ltd
Current assignee: Beijing Urban Construction Intelligent Control Technology Co ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-19

Abstract

本申请实施例提供一种数据处理方法、装置、设备和存储介质，该方法包括：获取媒体待投放位置的历史客流信息以及对应的环境特征信息；基于历史客流量信息以及所述环境特征信息，通过客流量预测模型预测未来预定时间段的客流量预测值；基于历史客流滞留时间信息以及环境特征信息，通过客流滞留时间预测模型预测所述预定时间段的客流滞留时间预测值；基于客流量预测值以及客流滞留时间预测值，对媒体待投放位置在预定时间段的媒体投放价值进行评估，其中，客流量预测模型以及客流滞留时间预测模型均为机器学习模型。根据本申请实施例的技术方案，准确地评估媒体待投放位置在各个预定时间段的媒体投放价值，从而能够实现媒体投放价值最大化。

Description

数据处理方法、装置、设备和存储介质

技术领域

本申请实施例涉及机器学习技术领域，尤其涉及一种数据处理方法、装置、设备和存储介质。

背景技术

在轨道交通日益发展的今天，轨道交通例如地铁领域的媒体因其受众数量巨大，丰富的表现力等优点受到广告主的青睐。因此，如何对轨道交通领域的媒体投放价值进行评估成为了关注的焦点。

目前，大部分媒体投放价值评估的技术方案中，都是根据待投放媒体的特征信息以及用户信息，通过点击率预测模型，获得与待投放媒体对应的预测点击率，根据预测点击率来确定媒体投放价值。然而，这种技术方案由于需要获取用户信息，并不适用于轨道交通领域的媒体投放价值评估。

因此，如何准确地对轨道交通领域的媒体投放价值进行评估成为了亟待解决的技术难题。

发明内容

本申请实施例提供一种数据处理方法、装置、设备和存储介质，用于解决如何准确地对轨道交通领域的媒体投放价值进行评估的问题。

本申请实施例第一方面，提供了一种数据处理方法，包括：

获取媒体待投放位置的历史客流信息以及对应的环境特征信息，所述历史客流信息包括历史客流量信息以及历史客流滞留时间信息，所述媒体待投放位置为目标车站的预定区域；

基于所述历史客流量信息以及所述环境特征信息，通过客流量预测模型预测未来预定时间段的客流量预测值；

基于所述历史客流滞留时间信息以及所述环境特征信息，通过客流滞留时间预测模型预测所述预定时间段的客流滞留时间预测值；

基于所述客流量预测值以及所述客流滞留时间预测值，对所述媒体待投放位置在所述预定时间段的媒体投放价值进行评估，其中，所述客流量预测模型以及所述客流滞留时间预测模型均为机器学习模型。

在本申请的一些实施例中，基于上述方案，所述获取媒体待投放位置的历史客流量信息，包括：

获取通过摄像头拍摄的所述媒体待投放位置历史各个时间段的客流图像，通过所述客流图像确定所述媒体待投放位置历史各个时间段的第一历史客流量；

和/或，

获取通过无线局域网嗅探技术确定的所述媒体待投放位置历史各个时间段的移动终端信号数据，通过所述移动终端信号数据确定所述媒体待投放位置历史各个时间段的第二历史客流量；

和/或，

获取所述媒体待投放位置的闸机的历史各个时间段的客流数据，通过所述客流数据确定所述媒体待投放位置历史各个时间段的第三历史客流量。

在本申请的一些实施例中，基于上述方案，所述方法还包括：

对所述第一历史客流量、所述第二历史客流量以及所述第三历史客流量进行加权求和运算，得到所述媒体待投放位置历史各个时间段的客流量。

在本申请的一些实施例中，基于上述方案，所述基于所述历史客流量信息以及所述环境特征信息，通过客流量预测模型预测未来预定时间段的客流量预测值，包括：

基于所述历史客流量信息以及所述环境特征信息，对所述客流量预测模型进行训练，所述环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；

获取所述预定时间段对应的环境特征信息；

基于所述预定时间段对应的环境特征信息，通过训练后的所述客流量预测模型预测所述预定时间段的所述客流量预测值。

在本申请的一些实施例中，基于上述方案，所述基于所述历史客流量信息以及所述环境特征信息，对所述客流量预测模型进行训练，包括：

基于所述环境特征信息，生成对应的环境特征向量；

将所述历史客流量信息对应的客流量作为所述环境特征向量的客流量标签；

基于所述环境特征向量以及所述客流量标签对所述客流量预测模型进行训练。

在本申请的一些实施例中，基于上述方案，所述获取所述媒体待投放位置的历史客流滞留时间信息，包括：

获取通过无线局域网嗅探技术确定的所述媒体待投放位置历史各个时间段的移动终端信号数据；

获取所述媒体待投放位置历史各个时间段的列车运行时刻信息、对应的列车满载率以及客流量数据；

基于所述移动终端信号数据、所述列车运行时刻信息、所述列车满载率以及所述客流量数据，确定所述媒体待投放位置历史各个时间段的客流滞留时间。

在本申请的一些实施例中，基于上述方案，所述基于所述移动终端信号数据、所述列车运行时刻信息、所述列车满载率以及所述客流量数据，确定所述媒体待投放位置历史各个时间段的客流滞留时间，包括：

基于所述移动终端信号数据确定所述媒体待投放位置历史各个时间段的移动终端以及对应的停留时间，以及所述移动终端以及对应的停留时间确定所述媒体待投放位置各个时间段的第一客流滞留时间；

基于所述媒体待投放位置历史各个时间段的列车运行时刻信息、对应的列车满载率以及所述客流量数据，确定所述媒体待投放位置历史各个时间段的第二客流滞留时间；

对所述第一客流滞留时间以及所述第二客流滞留时间进行加权运算，确定所述媒体待投放位置历史各个时间段的客流滞留时间。

在本申请的一些实施例中，基于上述方案，所述基于所述历史客流滞留时间信息以及所述环境特征信息，通过客流滞留时间预测模型预测所述预定时间段的客流滞留时间预测值，包括：

基于所述历史客流滞留时间信息以及所述环境特征信息，对所述客流滞留时间预测模型进行训练，所述环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；

获取所述预定时间段对应的环境特征信息；

基于所述预定时间段对应的环境特征信息，通过训练后的所述客流滞留时间预测模型，预测所述预定时间段的客流滞留时间预测值。

在本申请的一些实施例中，基于上述方案，所述基于所述历史客流滞留时间信息以及所述环境特征信息，对所述客流滞留时间预测模型进行训练，包括：

基于所述环境特征信息，生成对应的环境特征向量；

将所述历史客流滞留时间信息对应的客流滞留时间作为所述环境特征向量的客流滞留时间标签；

基于所述环境特征向量以及所述客流滞留时间标签对客流滞留时间预测模型进行训练。

在本申请的一些实施例中，基于上述方案，所述基于所述客流量预测值以及所述客流滞留时间预测值，对所述媒体待投放位置在所述预定时间段的媒体投放价值进行评估，包括：

对所述媒体待投放位置在预定日期的各个时间段的客流量预测值以及客流滞留时间预测值进行加权运算，确定所述媒体待投放位置在所述预定日期的媒体投放价值。

在本申请的一些实施例中，基于上述方案，所述通过所述客流图像确定所述媒体待投放位置历史各个时间段的第一历史客流量，包括：

对所述客流图像进行分割处理，得到与所述客流图像对应的人头图像；

通过人头检测模型对所述人头图像进行检测，得到所述客流图像对应的客流量。

对所述人头图像进行标记处理，生成所述客户图像对应的标签；

对所述客流图像进行灰度处理、去燥平滑处理以及特征提取，生成样本特征；

通过所述客流图像对应的样本特征以及标签对所述人头检测模型进行训练。

通过行人再识别处理对所述客流图像的人头进行标记，根据标记结果进行统计，得到所述客流图像对应的客流量。

本申请实施例的第二方面，提供了一种数据处理装置，包括：

信息获取模块，用于获取媒体待投放位置的历史客流信息以及对应的环境特征信息，所述历史客流信息包括历史客流量信息以及历史客流滞留时间信息，所述媒体待投放位置为目标车站的预定区域；

客流量预测模块，用于基于所述历史客流量信息以及所述环境特征信息，通过客流量预测模型预测未来预定时间段的客流量预测值；

滞留时间预测模块，用于基于所述历史客流滞留时间信息以及所述环境特征信息，通过客流滞留时间预测模型预测所述预定时间段的客流滞留时间预测值；

评估模块，用于基于所述客流量预测值以及所述客流滞留时间预测值，对所述媒体待投放位置在所述预定时间段的媒体投放价值进行评估。

在本申请的一些实施例中，基于上述方案，所述信息获取模块被配置为：

和/或，

在本申请的一些实施例中，基于上述方案，所述信息获取模块还被配置为：

在本申请的一些实施例中，基于上述方案，所述客流量预测模块包括：

第一训练单元，用于基于所述历史客流量信息以及所述环境特征信息，对所述客流量预测模型进行训练，所述环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；

第一特征获取单元，用于获取所述预定时间段对应的环境特征信息；

客流量预测单元，用于基于所述预定时间段对应的环境特征信息，通过训练后的所述客流量预测模型预测所述预定时间段的所述客流量预测值。

在本申请的一些实施例中，基于上述方案，所述第一训练单元被配置为：

基于所述环境特征信息，生成对应的环境特征向量；

在本申请的一些实施例中，基于上述方案，所述信息获取模块还被配置为包括：

在本申请的一些实施例中，基于上述方案，所述滞留时间预测模块包括：

第二训练单元，用于基于所述历史客流滞留时间信息以及所述环境特征信息，对所述客流滞留时间预测模型进行训练，所述环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；

第二特征获取单元，用于获取所述预定时间段对应的环境特征信息；

滞留时间预测单元，用于基于所述预定时间段对应的环境特征信息，通过训练后的所述客流滞留时间预测模型，预测所述预定时间段的客流滞留时间预测值。

在本申请的一些实施例中，基于上述方案，所述第二训练单元被配置为：

基于所述环境特征信息，生成对应的环境特征向量；

在本申请的一些实施例中，基于上述方案，所述评估模块被配置为：

本申请实施例的第三方面，提供了一种数据处理设备，包括：接收器、处理器、存储器以及发送器；存储器用于存储计算机程序和数据，所述处理器调用存储器存储的计算机程序，以执行第一方面任一实施例提供的数据处理方法。

本申请实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序在被处理器执行时用于执行第一方面任一实施例提供的数据处理方法。

根据本申请实施例提供的数据处理方法、装置、设备和存储介质，一方面，通过结合媒体待投放位置的历史客流量、客流滞留时间特征以及环境特征例如日期、天气、交通拥挤度等特征数据，通过机器学习模型预测媒体待投放位置未来预定时间段的客流量预测值和客流滞留时间预测值，能够准确地预测媒体待投放位置未来预定时间段的客流量预测值和客流滞留时间预测值；另一方面，由于能够准确地预测媒体待投放位置未来各个时间段的客流量预测值和客流滞留时间预测值，从而能够基于客流量预测值和客流滞留时间预测值，准确地评估轨道交通站点的媒体待投放位置在各个预定时间段的媒体投放价值，从而能够实现媒体投放价值最大化。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请的一些实施例提供的数据处理方法的流程示意图；

图2为根据本申请的另一些实施例提供的数据处理方法的流程示意图；

图3为根据本申请的一些实施例提供的客流量预测模型进行训练的流程示意图；

图4为根据本申请的一些实施例提供的客流滞留时间预测模型的流程示意图；

图5为根据本申请的一些实施例提供的对媒体待投放位置的媒体价值评估的流程示意图；

图6为根据本申请的一些实施例提供的获取环境特征信息的示意图；

图7为根据本申请的一些实施例提供的确定客流量的流程示意图；

图8为根据本申请的一些实施例提供的数据处理装置的示意框图；

图9为根据本申请的一些实施例提供的客流量预测模块的示意框图；

图10为根据本申请的一些实施例提供的滞留时间预测模块的示意框图；

图11为根据本申请的一些实施例提供的数据处理设备实施例的示意框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，大部分媒体投放价值评估的技术方案中，都是根据待投放媒体或广告的特征信息以及用户信息，通过点击率预测模型，获得与待投放媒体对应的预测点击率，根据预测点击率来确定媒体投放价值。然而，这种技术方案由于需要获取用户信息，并不适用于轨道交通领域的媒体投放价值评估。

进一步地，相比传统媒体来说，轨道交通媒体例如地铁媒体的投放价值受客流量和客流滞留时间影响较大。基于上述内容，本申请实施例的基本思想在于：通过获取轨道交通的媒体待投放位置的历史客流量和客流滞留时间特征，结合日期、天气、交通拥挤度等特征数据，预测媒体待投放位置未来预定时间段的客流量预测值和客流滞留时间预测值，基于媒体待投放位置的客流量预测值和客流滞留时间预测值，对媒体待投放位置在未来预定时间段的媒体投放价值进行评估。通过结合媒体待投放位置的历史客流量、客流滞留时间特征、日期、天气、交通拥挤度等特征数据，能够更准确地预测媒体待投放位置未来预定时间段的客流量预测值和客流滞留时间预测值，从而能够基于客流量预测值和客流滞留时间预测值更准确地评估媒体待投放位置在未来预定时间段的媒体投放价值。

图1为根据本申请的一些实施例提供的数据处理方法的流程示意图。该数据处理方法可以应用于服务器，服务器可以为包含独立主机的物理服务器，或者为主机集群承载的虚拟服务器，或者为云服务器，该方法包括步骤S110至步骤S140，下面结合附图对示例实施例中的数据处理方法进行详细的说明。

在步骤S110中，获取媒体待投放位置的历史客流信息以及对应的环境特征信息，历史客流信息包括历史客流量信息以及历史客流滞留时间信息，媒体待投放位置为目标车站的预定区域。

在示例实施例中，媒体待投放位置可以为地铁站、高铁站、火车站的预定区域，本申请对此不进行特殊限定，下面以媒体待投放位置为地铁站进行说明。环境特征信息为与客流量和客流滞留时间相关的环境特征，例如，环境特征信息包括：与所述历史客流信息对应的日期、天气、交通拥挤度中的一种或多种。在示例实施例中，通过网络爬虫技术获取与历史客流信息对应的日期、天气信息，通过交通部门提供的应用程序接口获取与历史客流信息对应的交通拥挤度信息。

需要说明的是，环境特征信息还可以为其他适当的信息，例如环境特征还可以为列车运行时刻信息以及重大活动或节日信息等，这同样在本申请的保护范围内。

进一步地，在示例实施例中，历史客流信息包括历史客流量信息，可以通过以下三种方式中的一种或多种获取目标地铁站的历史各个时间段的客流量信息：

方式一：获取通过摄像头拍摄的媒体待投放位置历史各个时间段的客流图像，通过客流图像确定媒体待投放位置历史各个时间段的历史客流量；

方式二：获取通过无线局域网嗅探技术确定的媒体待投放位置历史各个时间段的移动终端信号数据，通过移动终端信号数据确定媒体待投放位置历史各个时间段的第二历史客流量；

方式三：获取媒体待投放位置的闸机的历史各个时间段的客流数据，通过客流数据确定媒体待投放位置历史各个时间段的第三历史客流量。

此外，在示例实施例中，历史客流信息包括历史客流滞留时间信息，获取媒体待投放位置的历史客流滞留时间信息包括：获取通过无线局域网嗅探技术确定的媒体待投放位置历史各个时间段的移动终端信号数据；获取媒体待投放位置历史各个时间段的列车运行时刻信息、对应的列车满载率以及客流量数据；基于移动终端信号数据、列车运行时刻信息、列车满载率以及客流量数据，确定媒体待投放位置历史各个时间段的客流滞留时间。

在步骤S120中，基于历史客流量信息以及对应的环境特征信息，通过客流量预测模型预测未来预定时间段的客流量预测值。

在示例实施例中，基于历史客流量信息以及所述环境特征信息，对客流量预测模型进行训练，环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；获取预定时间段对应的环境特征信息；基于预定时间段对应的环境特征信息，通过训练后的客流量预测模型预测预定时间段的客流量预测值。例如，生成预定时间段对应的环境特征向量，将环境特征向量输入训练后的客流量预测模型，得到预定时间段的客流量预测值。

需要说明的是，客流量预测模型可以为深度学习网络模型、随机森林模型或逻辑回归模型，也可以为其他适当的机器学习模型，例如梯度提升决策树模型或贝叶斯模型，本申请对此不进行特殊限定。

进一步地，在示例实施例中，基于历史客流量信息以及环境特征信息，对客流量预测模型进行训练，包括：基于历史客流量信息对应的环境特征信息，生成对应的环境特征向量；将历史客流量信息对应的客流量作为环境特征向量的客流量标签；基于环境特征向量以及客流量标签对客流量预测模型进行训练。

在步骤S130中，基于历史客流滞留时间信息以及对应的环境特征信息，通过客流滞留时间预测模型预测预定时间段的客流滞留时间预测值。

在示例实施例中，基于历史客流滞留时间信息以及环境特征信息，对客流滞留时间预测模型进行训练，环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；获取预定时间段对应的环境特征信息；基于预定时间段对应的环境特征信息，通过训练后的客流滞留时间预测模型，预测预定时间段的客流滞留时间预测值。例如，生成预定时间段对应的环境特征向量，将环境特征向量输入训练后的客流滞留时间预测模型，预测该预定时间段的客流滞留时间预测值。

需要说明的是，客流滞留时间预测模型可以为深度学习网络模型、随机森林模型或逻辑回归模型，也可以为其他适当的机器学习模型，例如梯度提升决策树模型或贝叶斯模型，本申请对此不进行特殊限定。

进一步地，在示例实施例中，基于历史客流滞留时间信息以及环境特征信息，对客流滞留时间预测模型进行训练，包括：基于环境特征信息，生成对应的环境特征向量；将历史客流滞留时间信息对应的客流滞留时间作为环境特征向量的客流滞留时间标签；基于环境特征向量以及客流滞留时间标签对客流滞留时间预测模型进行训练。

在步骤S140中，基于客流量预测值以及客流滞留时间预测值，对媒体待投放位置在预定时间段的媒体投放价值进行评估。

在示例实施例中，将该预定时间段的媒体投放有效价值率作为权重，对该预定时间段的客流量预测值以及客流滞留时间预测值进行加权运算，确定媒体待投放位置在预定时间段的媒体投放价值，该媒体投放有效价值率与单位客流量和单位客流滞留时间有关。例如，预先通过媒体投放价值统计数据获取单位客流量和单位滞留时间的媒体投放价值率，将该媒体投放价值率作为权重，对该预定时间段的媒体投放价值进行评估。

进一步地，若要获取预定日期的总的媒体投放价值，则对媒体待投放位置在预定日期的各个时间段的客流量预测值以及客流滞留时间预测值进行加权运算，确定所述媒体待投放位置在所述预定日期的媒体投放价值。

根据图1的示例实施例中的数据处理方法，一方面，通过结合媒体待投放位置的历史客流量、客流滞留时间特征以及环境特征例如日期、天气、交通拥挤度等特征数据，通过机器学习模型预测媒体待投放位置未来预定时间段的客流量预测值和客流滞留时间预测值，能够准确地预测媒体待投放位置未来预定时间段的客流量预测值和客流滞留时间预测值；另一方面，由于能够准确地预测媒体待投放位置未来各个时间段的客流量预测值和客流滞留时间预测值，从而能够基于客流量预测值和客流滞留时间预测值，准确地评估轨道交通站点的媒体待投放位置在各个预定时间段的媒体投放价值，从而能够实现媒体投放价值最大化。

图2为根据本申请的另一些实施例提供的数据处理方法的流程示意图。该数据处理方法可以应用于服务器，服务器可以为包含独立主机的物理服务器，或者为主机集群承载的虚拟服务器，或者为云服务器，下面结合附图对示例实施例中的数据处理方法进行详细的说明。

在步骤S210中，获取历史预定时间区间的各个时间段的历史客流信息，历史客流信息包括历史客流量信息与历史客流滞留时间信息。

在示例实施例中，获取历史上一天或多天的各个时间段的客流量与客流滞留时间数据。可以通过以下三种方式中的一种或多种获取目标地铁站的历史各个时间段的客流量信息：

方式一：获取通过摄像头拍摄的媒体待投放位置历史各个时间段的客流图像，通过客流图像确定媒体待投放位置历史各个时间段的历史客流量。举例而言，对历史日期的一天时间进行时间段划分，按照一定的时间间隔将一天划分为M个时间段，其中，i表示划分后的一天第i个时间段，将通过摄像头获取当前媒体待投放位置的客流图像传入人头检测模型中，通过人头检测模型对该客流图像中的人头进行识别，并通过re-id(Person Re-Identification，行人再识别)处理对连续图像帧中的人头进行目标追踪，以此判断是否是同一个人，对人头数进行统计，获取一天中第i个时间段内的客流量A_i。

步骤S220中，获取与历史客流信息对应的环境特征信息，例如星期、月份、年份、天气、地面交通拥挤度和重要活动等环境特征信息。

在示例实施例中，从环境特征数据库中获取与历史客流信息对应的环境特征信息，该环境特征信息库中存储有历史各个时间段的日期数据、交通拥堵数据、天气数据。例如，参照图6所示，从日期数据库610获取与历史客流信息对应的日期信息例如，星期、月份、年份；通过网络爬虫技术从服务器620获取与历史客流信息对应的天气信息；通过应用程序接口(Application Programming Interface，API)从交通拥挤度数据库中获取与历史客流信息对应的地面交通拥挤度信息，该API可以为交通地图例高德地图对应的交通拥挤度数据库的接口。将获取的日期信息、天气信息以及交通拥挤度信息存储到环境特征数据库600中。

步骤S230中，基于历史客流量信息以对应的环境特征信息，对客流量预测模型进行训练。例如，基于历史客流量信息对应的环境特征信息，生成对应的环境特征向量；将历史客流量信息对应的客流量作为环境特征向量的客流量标签；基于环境特征向量以及客流量标签对客流量预测模型进行训练。

步骤S240中，获取未来预定时间段的环境特征信息，例如客流量、星期、月份、年份、天气、地面交通拥挤度和重要活动等特征信息输入至一训练完成的客流量预测值模型中，获取未来预定时间段的客流量预测值。

在步骤S250中，基于历史客流滞留时间信息以及环境特征信息，对客流量滞留时间预测模型进行训练。例如，基于环境特征信息，生成对应的环境特征向量；将历史客流滞留时间信息对应的客流滞留时间作为环境特征向量的客流滞留时间标签；基于环境特征向量以及客流滞留时间标签对客流滞留时间预测模型进行训练。

步骤S260中，获取未来预定时间段的环境特征信息，例如客流滞留时间、星期、月份、年份、天气、地面交通拥挤度和重要活动等特征信息，将获取的环境特征信息对应的环境特征向量，输入至一训练完成的客流滞留时间预测值模型中，获取未来一段时间的客流滞留时间预测值。

步骤S270中，将客流滞留时间预测值、客流量预测值带入构建的地铁媒体投放价值评估模型中，以获得未来一段时间媒体待投放位置的媒体投放价值度量值，用来评估未来预定时间段的媒体待投放位置的媒体投放价值。媒体待投放位置可以为地铁车站、高铁车站、火车车站等，本申请对此不进行特殊限定。

图3为根据本申请的一些实施例提供的客流量预测模型进行训练的流程示意图。

参照图3所示，步骤S310中，获取摄像头拍摄的媒体待投放位置的图像数据、无线局域网嗅探获取到的设备信号数据以及通过车站闸机的客流数据。

在示例实施例中，参照图6所示，从日期数据库610获取与历史客流信息对应的日期信息例如，星期、月份、年份；通过网络爬虫技术从服务器620获取与历史客流信息对应的天气信息；通过应用程序接口(Application Programming Interface，API)从交通拥挤度数据库中获取与历史客流信息对应的地面交通拥挤度信息，该API可以为交通地图例高德地图对应的交通拥挤度数据库的接口。将获取的日期信息、天气信息以及交通拥挤度信息存储到环境特征数据库600中。

在步骤S320中，根据摄像头拍摄的图像数据、无线局域网嗅探获取的设备信号数据以及通过车站闸机的客流数据获取历史日期各个时间段的客流量信息。

在示例实施例中，由下面三种方式获取历史日期各个时间段的客流量。

对历史日期的一天时间进行时间段划分，按照一定的时间间隔将一天划分为M个时间段，其中，i表示划分后的一天第i个时间段。

方式一：将通过摄像头获取当前媒体待投放位置的客流图像传入人头检测模型中，通过人头检测模型对该客流图像中的人头进行识别，并通过re-id(Person Re-Identification，行人再识别)处理对连续图像帧中的人头进行目标追踪，以此判断是否是同一个人，对人头数进行统计，获取一天中第i个时间段内的客流量A_i。

图7为根据本申请的一些实施例提供的确定客流量的流程示意图。

参照图7所示，在步骤S710中，收集不同时间段摄像头拍摄的经过媒体待投放位置的客流图像。

在步骤S715中，对收集的客流图像按照一定规格分割出大小区域固定的人头图像。

在步骤S720中，对人头图像进行灰度处理、去噪平滑处理和特征提取。

在步骤S725中，利用强分类算法和Haar算法训练样本库数据。

在步骤S730中，基于步骤S725中的训练结果得到人头检测模型。

在步骤S735中，将步骤S720处理后的序列化图像数据作为输入输入到人头检测模型中，通过人头检测模型对图像的人头区域按照与样本库中样本同样规格大小进行分割，得到多个分割子区域，分割后子区域的中心位置即为人头的质心位置；

在步骤S740中，利用re-id处理通过对步骤S735中分割后的图像子区域进行相似性比较，对人头进行标记。

在步骤S745中，根据标记结果对经过图像区域的人头数据进行统计，检测出总人数即客流量。

在步骤S750中，获取历史视频流数据。

在步骤S755中，对历史视频流数据进行处理得到图像帧数据。

在步骤S760中，对图像帧数据进行灰度处理、去燥平滑处理和特征提取，生成样本特征库；

在步骤765中，利用样本特征库中的样本特征对yolo算法进行训练，生成用于人头识别的yolo模型。利用训练后的yolo模型对图像帧数据进行人头识别，识别出来的人头图像和利用强分类算法+Harr模型识别出来的人头图像进行比对，若一个识别出来是人头图像而另一个识别出来不是人头图像，则将该图片放入后期人工校验库中标注，并重新对强分类算法+Harr进行训练得到新的人头检测模型，同时更新yolo模型。

根据图7的示例实施例中的技术方案，能够提高客流量检测的准确率，并且检测效率高，能够应用于车站、商场等地点，从而能够实现媒体投放价值最大化。

方式二：利用无线保真(Wireless Fidelity，WIFI)嗅探技术获取媒体待投放位置即当前媒体待投放区域的WIFI设备数量，将WIFI设备数量带入电子设备常用人群占比模型中，以获取通过WIFI嗅探技术计算出的一天第i个时间段的客流量B_i，具体如计算公式(1)所示：

B_i＝wifi_num_i/(1-ε) (1)

其中，B_i表示利用WIFI嗅探技术获取的一天第i个时间段的客流量，wifi_num_i表示利用WIFI嗅探技术获取的一天第i个时间段的电子设备数量，ε表示不常用电子设备人数占总人数比例。

方式三：利用闸机获取进出媒体待投放位置的客流量，带入客流量计算模型中，该客流量计算模型为统计模型，获取一天第i个时间段的客流量C_i。

综上所述，媒体待投放位置的一天中第i个时间段的客流量计算如计算公式(2)所示：

PL_i＝A_i×α₁+B_i×α₂+C_i×α₃ (2)

其中，PL_i表示一天中第i个时间段的客流量，α₁、α₂、α₃分别表示利用上述三种方式获取客流量的可信度或权重，A_i表示利用摄像头获取的一天第i个时间段的客流量，B_i表示利用WIFI嗅探技术获取的一天第i个时间段的客流量，C_i表示利用闸机获取的一天第i个时间段的客流量。

在S330中，将客流量信息以及环境特征新输入客流量预测模型，对客流量预测模型进行训练。

在示例实施例中，客流量预测模型为深度学习网络模型或随机森林模型或逻辑回归模型或梯度提升决策树模型。以神经网络模型为客流量预测模型为例进行说明，可以将天气、交通拥挤度等外部环境特征数据以及星期、月份、年份数据的环境特征作为输入向量，历史客流量作为标签，预测客流量作为输出向量。将环境特征数据以及标签输入至神经网络模型以训练该神经网络模型，在训练过程中，通过损失函数判断神经网络模型是否收敛，如果收敛，则停止训练，如果不收敛，通过调整设置模型的参数继续训练，直至模型收敛为止。

图4为根据本申请的一些实施例提供的客流滞留时间预测模型的流程示意图。

在步骤S410中，获取无线局域网嗅探得到的设备信号数据、列车运行时刻信息、列车满载率以及对应的客流量数据。客流量数据可以为步骤S320中获取的客流量信息。

在步骤S420中，根据设备信号数据、列车运行时刻信息、列车满载率以及客流量数据，计算历史日期一天各个时间段的客流滞留时间。

在示例实施例中，对历史日期一天时间进行时间段划分，按照一定的时间间隔将一天划分为M个时间段，其中，i表示划分后的一天第i个时间段。

通过WIFI嗅探获取各个电子设备在媒体待投放位置即目标车站的预定区域的滞留时间，则一天中通过WIFI嗅探技术获取的第i个时间段内的第一客流滞留时间ARt_i计算如公式(3)所示：

其中，ARt_i表示一天中通过wifi嗅探技术获取的第i个时间段的乘客滞留时间，N_i表示在第i个时间段内利用wifi嗅探技术获取的电子设备数量，j表示利用wifi嗅探技术探知获取的第j个电子设备，t_ji表示一天第i个时间段内探知的第j个电子设备在车站的停留时间，β_i表示一天第i个时间段的乘客滞留时间有效价值因子。

进一步地，通过列车运行时刻图、满载率及一天中不同时间段的客流量数据，可以得到一天中不同时间段的第二客流滞留时间BRt_i。

因此，一天中第i个时间段的客流滞留时间计算如计算公式(4)所示：

EPST_i＝ARt_i×λ₁+BRt_i×λ₂ (4)

其中，EPST_i表示一天中第i个时间段的客流量，λ₁、λ₂分别表示利用上述两种方式获取客流滞留时间的可信度或权重，ARt_i表示利用WIFI嗅探技术获取的一天第i个时间段的客流滞留时间，BRT_i表示利用列车运行时刻图、列车满载率以及一天中不同客流量获取的一天第i个时间段的客流滞留时间。

在步骤S430中，将客流滞留时间以及环境特征信息输入客流滞留时间预测模型，对客流滞留时间预测模型进行训练。

在示例实施例中，客流滞留时间预测模型为深度学习网络模型或随机森林模型或逻辑回归模型或梯度提升决策树模型。以神经网络模型为客流有效滞留时间预测模型为例进行说明，可以将天气、交通拥挤度等外部环境特征数据和星期、月份、年份数据作为输入向量，对应的客流滞留时间作为标签，客流滞留时间作为输出向量。将环境特征以及标签输入至神经网络模型以训练该神经网络模型，在训练过程中，通过损失函数判断神经网络模型是否收敛，如果收敛，则停止训练，如果不收敛，通过调整设置模型的参数继续训练，直至模型收敛。

图5为根据本申请的一些实施例提供的对媒体待投放位置的媒体价值评估的流程示意图。

参照图5所示，在步骤S510中，根据历史各个时间段的客流量信息以及客流滞留时间信息，构建目标车站的媒体投放价值评估模型。

在示例实施例中，通过下式(5)和(6)建立一种媒体投放价值评估模型，具体如计算公式(5)和计算公式(6)所示：

MDV_i＝PL_i×EPST_i×γ_i (5)

其中，MDV_i表示一天中第i个时间段的媒体投放价值，PL_i表示一天中第i个时间段的客流量，EPST_i表示一天中第i个时间段的客流滞留时间，γ_i表示一天中第i个时间段的媒体投放有效价值率，M表示一天共分成M个时间段，β表示媒体投放价值转换因子，MDV表示一天的媒体投放价值。

在步骤S520中，通过将预测客流量和滞留时间带入媒体投放价值计算模型中，获得未来一段时间的地铁媒体投放价值度量值，进而评估未来一段时间的媒体投放价值。

在示例实施例中，根据预测客流量和滞留时间评估待投放媒***置的媒体投放价值，具体如计算公式(7)和计算公式(8)所示：

MDV_{i_predict}＝PL_{i_predict}×EPST_{i_predict}×γ_i (7)

其中，PL_{i_predict}表示预测的一天第i个时间段的客流量，EPST_{i_predict}表示预测的一天第i个时间段的乘客有效滞留时间预测值，MDV_{i_predict}表示预测的一天第i个时间段媒体投放价值，γ_i表示一天中第i个时间段的媒体投放有效价值率，M表示一天共分成M个时间段，β表示媒体投放价值转换因子，MDV_predict表示预测的一天的媒体投放价值。

图8为根据本申请的一些实施例提供的数据处理装置的示意框图。

参照图8所示，该数据处理装置800包括：信息获取模块810，用于获取媒体待投放位置的历史客流信息以及对应的环境特征信息，所述历史客流信息包括历史客流量信息以及历史客流滞留时间信息，所述媒体待投放位置为目标车站的预定区域；客流量预测模块820，用于基于所述历史客流量信息以及所述环境特征信息，通过客流量预测模型预测未来预定时间段的客流量预测值；滞留时间预测模块830，用于基于所述历史客流滞留时间信息以及所述环境特征信息，通过客流滞留时间预测模型预测所述预定时间段的客流滞留时间预测值；评估模块840，用于基于所述客流量预测值以及所述客流滞留时间预测值，对所述媒体待投放位置在所述预定时间段的媒体投放价值进行评估。

在本申请的一些实施例中，基于上述方案，所述信息获取模块810被配置为：

和/或，

在本申请的一些实施例中，基于上述方案，所述信息获取模块810还被配置为：

在本申请的一些实施例中，基于上述方案，参照图9所示，所述客流量预测模块820包括：

第一训练单元910，用于基于所述历史客流量信息以及所述环境特征信息，对所述客流量预测模型进行训练，所述环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；

第一特征获取单元920，用于获取所述预定时间段对应的环境特征信息；

客流量预测单元930，用于基于所述预定时间段对应的环境特征信息，通过训练后的所述客流量预测模型预测所述预定时间段的所述客流量预测值。

在本申请的一些实施例中，基于上述方案，所述第一训练单元910被配置为：

基于所述环境特征信息，生成对应的环境特征向量；

在本申请的一些实施例中，基于上述方案，所述信息获取模块810还被配置为包括：

在本申请的一些实施例中，基于上述方案，参照图10所示，所述滞留时间预测模块830包括：

第二训练单元1010，用于基于所述历史客流滞留时间信息以及所述环境特征信息，对所述客流滞留时间预测模型进行训练，所述环境特征信息包括与所述历史客流量信息对应的日期、天气、交通拥挤度中的一种或多种；

第二特征获取单元1020，用于获取所述预定时间段对应的环境特征信息；

滞留时间预测单元1030，用于基于所述预定时间段对应的环境特征信息，通过训练后的所述客流滞留时间预测模型，预测所述预定时间段的客流滞留时间预测值。

在本申请的一些实施例中，基于上述方案，所述第二训练单元1010被配置为：

基于所述环境特征信息，生成对应的环境特征向量；

在本申请的一些实施例中，基于上述方案，所述评估模块840被配置为：

本申请实施例提供的数据处理装置能够实现前述方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

图11示出了本申请的一些实施例提供的数据处理设备实施例一的结构示意图，如图11所示，本实施例提供的数据处理设备1100可以包括：存储器1110以及处理器1120。

可选的，该数据处理设备还可以包括总线。其中，总线用于实现各元件之间的连接。

所述存储器1110用于存储计算机程序和数据，所述处理器1120调用存储器1110存储的计算机程序，以执行前述任一方法实施例提供的数据处理方法的技术方案。

其中，存储器1110和处理器1120之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器1110中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器1110中的软件功能模块，处理器1120通过运行存储在存储器1110内的计算机程序以及模块，从而执行各种功能应用以及数据处理。

存储器1110可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器1110用于存储程序，处理器1120在接收到执行指令后，执行程序。进一步地，上述存储器1110内的软件程序以及模块还可包括操作***，其可包括各种用于管理***任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器1120可以是一种集成电路芯片，具有信号的处理能力。上述的处理器1120可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解，图11的结构仅为示意，还可以包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。图11中所示的各组件可以采用硬件和/或软件实现。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一方法实施例提供的数据处理方法。

本实施例中的计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备，可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取媒体待投放位置的历史客流量信息，包括：

和/或，

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述历史客流量信息以及所述环境特征信息，通过客流量预测模型预测未来预定时间段的客流量预测值，包括：

获取所述预定时间段对应的环境特征信息；

5.根据权利要求4所述的方法，其特征在于，所述基于所述历史客流量信息以及所述环境特征信息，对所述客流量预测模型进行训练，包括：

基于所述环境特征信息，生成对应的环境特征向量；

6.根据权利要求1所述的方法，其特征在于，所述获取所述媒体待投放位置的历史客流滞留时间信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述移动终端信号数据、所述列车运行时刻信息、所述列车满载率以及所述客流量数据，确定所述媒体待投放位置历史各个时间段的客流滞留时间，包括：

8.根据权利要求1、6或7所述的方法，其特征在于，所述基于所述历史客流滞留时间信息以及所述环境特征信息，通过客流滞留时间预测模型预测所述预定时间段的客流滞留时间预测值，包括：

获取所述预定时间段对应的环境特征信息；

9.根据权利要求8所述的方法，其特征在于，所述基于所述历史客流滞留时间信息以及所述环境特征信息，对所述客流滞留时间预测模型进行训练，包括：

基于所述环境特征信息，生成对应的环境特征向量；

10.根据权利要求1所述的方法，其特征在于，所述基于所述客流量预测值以及所述客流滞留时间预测值，对所述媒体待投放位置在所述预定时间段的媒体投放价值进行评估，包括：

11.根据权利要求2所述的方法，其特征在于，所述通过所述客流图像确定所述媒体待投放位置历史各个时间段的第一历史客流量，包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

14.一种数据处理装置，其特征在于，包括：

15.一种数据处理设备，其特征在于，包括：处理器以及存储器；所述存储器用于存储计算机程序和数据，所述处理器调用存储器存储的计算机程序，以执行权利要求1至13中任一项所述的数据处理方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序在被处理器执行时用于执行权利要求1至13中任一项所述的数据处理方法。