CN114860802A

CN114860802A - 时序人流量数据和标量标签数的融合方法及***

Info

Publication number: CN114860802A
Application number: CN202210446573.1A
Authority: CN
Inventors: 曲洋; 代光英; 孙亮; 宁玉杰; 王小伟
Original assignee: Shanghai Fenze Times Software Technology Co ltd
Current assignee: Shanghai Fenze Times Software Technology Co ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-05

Abstract

本发明提供了一种时序人流量数据和标量标签数的融合方法及***，包括：清洗时序数据和标签数据，获取时序访问数据和离线标签汇总数据；完成时序数据和标签数据的治理；进行时序数据特征工程；将特征工程结果数据拟合正态分布，去除预设标准值以外的数值；补充预设标准值以外的数值的空缺窗口，并构建时序数据分布曲线；将标签数据标量拟合时序数据的分布曲线，得到任意时刻的人群分布。本发明充分利用不同种类数据所特有优势来进行相互补充，完成时序特征和标量特征，标签数据和非标签数据的融合。本发明能够获得实时预测标签人群的能力，为大屏展示，业务扩展和楼宇画像等诸多场景提供数据支撑。

Description

时序人流量数据和标量标签数的融合方法及***

技术领域

本发明涉及信息技术领域，具体地，涉及一种时序人流量数据和标量标签数的融合方法及***。

背景技术

近年来随着线上和线下广告业务的不断推进，越来越多的广告主对受众人群的探索需求变得越来越迫切。但是真实的场景往往是数据种类不全，数据维度严重缺失，单一数据种类完全无法满足当下需求。目前还没有一种时序人流量数据和标量标签数的融合方法，结合线下广告和线上应用反馈数据，既能够看到人群的分布或者单一的人群标签统计量。所以一个能够将人群时序数据和标签统计数据进行融合，生成时序人群标签数据的方法变得尤为重要。

专利文献CN109145708A(申请号：CN201810648702.9)公开了一种基于RGB和D信息融合的人流量统计方法，包括：步骤1，采集包含人头信息的图像样本；步骤2，对RGB样本进行人头区域的标记，将正负样本裁剪，对裁剪后的样本图像大小做正则化处理并为不同样本附上相应的样本标签；步骤3，提取所有RGB样本图像的HOG特征，将提取的HOG特征和其对应的样本标签输入到SVM分类器进行训练；步骤4，利用训练好的SVM分类器对于新输入的视频帧中的RGB图像进行人头区域检测；步骤5，对新输入的视频帧的Depth图像的深度信息进行人头区域检测；步骤6，将检测结果融合获得最终检测目标框；步骤7，对目标对象进行跟踪获得目标对象的运动轨迹，统计人流量信息。但该发明不能够充分融合现有数据优势，不能弥补单一种类数据的不足，完成时序特征和标量特征，标签数据和非标签数据的融合，不能实现数据维度的补全。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种时序人流量数据和标量标签数的融合方法及***。

根据本发明提供的一种时序人流量数据和标量标签数的融合方法，包括：

步骤S1：清洗时序数据和标签数据，获取时序访问数据和离线标签汇总数据；

步骤S2：完成时序数据和标签数据的治理；

步骤S3：进行时序数据特征工程；

步骤S4：将特征工程结果数据拟合正态分布，去除预设标准值以外的数值；

步骤S5：补充预设标准值以外的数值的空缺窗口，并构建时序数据分布曲线；

步骤S6：将标签数据标量拟合时序数据的分布曲线，得到任意时刻的人群分布。

优选地，在所述步骤S1中：

清洗时序数据和标签数据，获取预设时间内的时序人员访问数据和以预设时间段为窗口的离线标签汇总数据；

时序数据有人群的时间分布规律，拥有时间维度，但是不带有标签；标签数据为统计标量，没有时间属性，时间范围为预设的统计量。

优选地，在所述步骤S2中：

构建ETL管道，完成时序数据和标签数据的治理；治理包括数据指标的筛选和融合，时序数据需要空间距离的约束，业务范畴的约束，离线标签数据需要地理围栏做切割，需要标签选择。

优选地，在所述步骤S3中：

进行时序数据特征工程，将时序数据划分分钟窗口，并做二项差分计算；

将现有非随机变量转换成随机变量，通过二项差分让特征符合正态分布曲线。

优选地，在所述步骤S4中：

将二项差分计算结果数据拟合正态分布，完成预设的数据置信度取值，去除预设标准值以外的数值；

利用正态分布曲线的置信区间完成预设标准值以外的数值的筛选，将预设标准值以外的数值剔除，对于空缺的窗口进行左右窗口平滑的补全处理，将标签数据分配到时间分布曲线中完成数据的融合。

根据本发明提供的一种时序人流量数据和标量标签数的融合***，执行所述的时序人流量数据和标量标签数的融合方法，包括：

数据ETL管道模块：构建数据治理模块，完成时序数据和标签数据治理；

特征工程模块：对治理好的数据进行特征工程，将数据输入映射成数据特征；

异常检测模块：剔除预设标准值以外的数值，并进行数据指标统计；

时间窗口模块：利用时间窗口将时序数据进行汇总，通过窗口时序数据构建时序分布曲线，并完成标签数据对于时序数据分布的拟合，将标签数据分布到时间轴上；

时序预测模块：基于已有数据对将来时序数据和标签进行预测；

优化模块：根据测试集测试结果和第三方的评估反馈修正模型。

优选地，在所述数据ETL管道模块中：

数据ETL管道负责数据输入控制，针对时间范围和标签范围进行数据加工，完成预设时间预设标签的过滤；

通过数据清洗引擎进行筛选，包括对于人群的区域范围、人群所在时间区间、标签种类结合业务规则筛选，并通过预设标准值以外的数值判定和规则引擎去除准确性低于预设值或者监测比率低于预设值的标签。

优选地，在所述特征工程模块中：

使用二项差分的方式构建现有时序数据特征，进一步去除时序数据中预设标准值以外的数值；

在所述异常检测模块中：

时间窗口汇聚人流量信息，通过分钟时间窗口的汇总，完成人流量的区间量化。

优选地，在所述时间窗口模块中：

使用标签数据拟合人群时序分布曲线，将标签人数分布到具有时间轴的空间中；

在所述时序预测模块中：

通过时序预测模型辅助支撑无数据和标签数据存在延迟场景。

优选地，在所述优化模块中：

通过第三方数据和测试集评估现有预测准确性，并不断优化模型。

与现有技术相比，本发明具有如下的有益效果：

1、本发明能够充分融合现有数据优势，弥补单一种类数据的不足，完成时序特征和标量特征，标签数据和非标签数据的融合，最终实现数据维度的补全；能够充分利用不同种类数据的优势，生成一套通用的融合方案，适用于各种应用场景；

2、本发明设计的时序人流量数据和标量标签数的融合方法，不仅仅能够对现有的离线数据进行融合和补全，同时加入了降噪处理步骤和预测模型，使得融合的数据不仅能够用在离线分析场景，还能够使用在实时数据的展示场景；

3、本发明能够获得实时预测标签人群的能力，数据能够通过数据平台进行数据支撑，能够满足实时数据大屏的展示需求，为大屏展示、业务扩展和楼宇画像等诸多场景提供数据支撑；

4、本发明设计的方法已经得到了充分的实践，已经被应用于一些数据质量场景和数据能力展示场景；

5、本发明能够完美的贴合业务，为业务提供更强的数据支撑能类；

6、本发明通用性强，可以应用于各类标量数据和时序数据的融合；

7、本发明提供的对时序数据和标签统计数据的融合方法拥有十分广阔的应用前景；

8、本发明已全面应用于需要受众指标的相关项目，数据融合所产生的交互特征优势得到了充分发挥，从而为数据能力的提升提供了强有力的方法论和理论实践经验。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程示意图；

图2为本发明的功能模块结构示意图；

图3为本发明的数据流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

根据本发明提供的一种时序人流量数据和标量标签数的融合方法，如图1-图3所示，包括：

步骤S2：完成时序数据和标签数据的治理；

步骤S3：进行时序数据特征工程；

具体地，在所述步骤S1中：

具体地，在所述步骤S2中：

具体地，在所述步骤S3中：

具体地，在所述步骤S4中：

具体地，在所述数据ETL管道模块中：

具体地，在所述特征工程模块中：

在所述异常检测模块中：

具体地，在所述时间窗口模块中：

在所述时序预测模块中：

具体地，在所述优化模块中：

实施例2：

实施例2为实施例1的优选例，以更为具体地对本发明进行说明。

本发明涉及正态分布、时序数据和二项差分的技术领域，具体地，涉及一种时序人流量数据和标量标签数的融合方法的展示***及修正***，尤其涉及一种时序人流量数据和标量标签数的融合方法。

根据本发明提供的一种时序人流量数据和标量标签数的融合方法，所述方法包括如下步骤：

步骤S1：清洗时序数据和标签数据，获取一年内的时序人员访问数据和以自然天为窗口的离线标签汇总数据；

步骤S2：构建ETL管道，完成时序数据和标签数据的治理；

步骤S3：进行时序数据特征工程，将时序数据划分分钟窗口，并做二项差分计算；

步骤S4：将步骤S3结果数据拟合正态分布，完成95％的数据置信度取值，去除异常数值；

步骤S5：补充异常值空缺窗口，并构建时序数据分布曲线，窗口大小为分钟；

步骤S6：将标签数据标量拟合时序数据的分布曲线，并最终得到任意时刻的人群分布。

具体地，所述步骤S1收集的两份数据分别为时序数据和标签汇总数据，分别带有各自的特征和优势，时序数据带有人群的时间分布规律，拥有时间这一个维度，但是不带有标签；标签数据通常为统计标量，没有时间属性，时间范围通常为一天的统计量。

具体地，所述步骤S2需要对数据进行一定深度治理，包括数据指标的筛选和融合，时序数据需要空间距离的约束，业务范畴的约束等，离线标签数据需要地理围栏做切割，需要行业规则和品牌偏好做标签选择。

具体地，所述步骤S3中的特征工程需要将现有非随机变量转换成真正的随机变量，通过二项差分的数学变换让特征符合正态分布曲线。

具体地，所述步骤S4是利用正态分布曲线的置信区间完成异常数据的筛选，将异常数据剔除出去，同时对于空缺的窗口进行左右窗口平滑的补全处理，最后通过S5和S6将标签数据分配到时间分布曲线中去，完成数据的融合。

本发明还提供一种时序人流量数据和标量标签数的融合方法，所述方法包括：

模块M1：数据ETL管道，构建数据治理模块，完成时序数据和标签数据的治理任务；

模块M2：特征工程模块，对治理好的数据进行特征工程，将数据输入映射成数据特征；

模块M3：异常检测模块，对数据特征进行异常数据剔除，并进行数据指标统计；

模块M4：时间窗口模块，利用时间窗口将时序数据进行汇总，通过窗口时序数据构建时序分布曲线，并完成标签数据对于时序数据分布的拟合，将标签数据分布到时间轴上；

模块M5：时序预测模型，基于已有数据对将来时序数据和标签进行预测，以此来解决标签数延迟的情况；

模块M6：优化模型，根据测试集测试结果和第三方的评估反馈来修正模型。

具体地，所述模块M1通过数据清洗引擎对于人群的区域范围，人群所在时间区间，标签种类等结合业务规则进行筛选，并通过异常值判定和规则引擎去除准确性不高或者监测比率较低的标签。

具体地，所述模块M2使用二项差分的方式构建现有时序数据特征，此模块是为了进一步去除时序数据中的异常数值。

具体地，所述模块M3中时间窗口汇聚的是人流量信息，通过分钟时间窗口的汇总，完成人流量的区间量化。

具体地，所述模块M4中的使用标签数据去拟合人群时序分布曲线，将标签人数分布到具有时间轴的空间中去。

具体地，所述模块M5中通过时序预测模型辅助支撑无数据和标签数据存在延迟场景。

具体地，所述模块M6通过第三方数据和测试集的佐证，来评估现有预测准确性，并不断优化模型，完成闭环调优操作。

实施例3：

实施例3为实施例1的优选例，以更为具体地对本发明进行说明。

本发明提供了一种时序人流量数据和标量标签数的融合方法，方法的实现和部署方式包括以下步骤：

步骤S1：清洗时序数据和标签数据，获取一年内的时序人员访问数据和以自然天为窗口的离线标签；该步骤需要完成对于时序数据的维度选取和标签数据的初步筛选，时序数据选取最近一年的数据样本，同时获取相应时间窗口的标签数据，并进行统计汇总和分析，包含性别分桶，来源城市定向，购买意向提取等；

步骤S2：构建ETL管道，完成时序数据和标签数据的治理，对于时序数据的清洗需要剔除乱序数据，完成对于时间字段的格式化，对于标签数据的清洗则需要完成标签维度的卡方验证，确认维度可用性；

步骤S3：进行时序数据特征工程，将时序数据划分为分钟窗口，并做二项差分计算，将分钟统计数据存入到分钟窗口，此过程是聚合统计计算，因为现有时序数据在秒级时间窗口下具有一定的稀疏性，同时也不利于计算，所以以分钟为窗口进行聚合，分钟窗口成为数据的最小粒度。同时因为数据不属于完全随机，所以需要特征工程来完成数据的正态分布拟合，对数据进行二项差分，即通过相邻分钟窗口数据的差值来反映数据特征；

步骤S4：将步骤S3结果数据拟合正态分布，完成95％的数据置信度取值，去除异常数值，该步骤能够去除时序数据的噪声，时序数据由于收集时采用实时管道，同时由于设备的多样性，收集到的数据会存在各类型异常，该步骤就是为了降低误差；

步骤S5：补充异常值空缺窗口，并构建时序数据分布曲线，窗口大小为分钟，该曲线为标签数据沿着时间轴展开的概率分布；

步骤S6：将标签数据标量拟合时序数据的分布曲线，并最终得到任意时刻的人群分布，该步骤是将各类标签数据分配到时间分布曲线上去，近似于用标量数据填充时序曲线所围成的图形面积，通过积分完成累加计算。

该方法的数据前提是既要拥有时序数据来反映人群的时间分布情况，又要拥有部分标签数据来反映人群属性；时序数据也需要一定的周期要求，数据可以连续一年效果最佳，时间周期越长，越能反映出数据的周期效应。而标签数据要求相对宽松，只要能够在一定区间范围内保持稳定，即可用来进行融合。该场景适用于大多数拥有时序数据的场景。而通常的场景下时序数据是无法携带标签的，这是边缘计算能力和数据承载量限制所带来的必然结果，就是时序数据的该特征导致了一般的时序数据仅仅能够反映数据分布本身，而无法承载具体人群标签，无法贴近业务实践。标签数据的却由于计算的复杂度和业务的复杂度，具有数据延迟和不准确等情况，所以这两种数据情况是一种必然的且最常见的场景。

本发明应用于有时序数据收集能力且有标签数据计算能力，并且对时序数据有标签需求的场景。

现在的技术方案里并不存在与本专利相仿的对时序数据和标签统计数据的融合方法，现行的技术方案通常情况是数据种类较多或者数据维度齐全，或者并不考虑数据融合的可能性。

本发明人经过广泛而深入的研究，本方法首先要完成时序数据的采集清洗和标签数据采集清洗，然后对数据进行特征工程，最后完成两者的融合。

以时序数据和男女特征比例标签融合为例，首先如图2所示，完成数据管道的设计，男女人群标签统计，时序数据的窗口计算和差分计算等。

然后设计融合模型，计算好的数据种类包括有标签的标量数据，即男性和女性人数和总人数，以及时序数据分布，及每分钟窗口的二项差分数值，即相邻分钟时间窗口的人数差值。通过将时序二项差分输入到正态分布中去，取95％置信区间，剔除不可信数据样本，然后对剔除数据窗口进行补全，数据窗口数值为相邻数据窗口平均值。最后将现有标签标量数据带入到时序分布曲线中去，展开成真实的时序标签数据分布。此场景中将男性标签人数和女性标签人数分别带入到时序曲线分布中，得到任意时刻的男性女性人数。针对T+1的标签数据，无法满足当前实时的标签数据输出场景，则根据标签数据表现利用时序数据预测模型预测当天的标签数据标量，再使用实时的时序数据进行分钟聚合，差分计算和分布曲线绘制，最终得到实时的标签预测数据。

以上仅为数据融合方法的设计和开发样例，其他各类型的标量标签和时序数据的融合方法均是如此。

需要说明的是，本发明在实施过程中，该方法除了需要搭建治理通路，大数据计算管道，还需要针对数据计算逻辑和时序数据预测模型进行定制化开发。

本发明还提供一种时序人流量数据和标量标签数的融合方法***，所述***包括如下模块：

模块M1：数据ETL管道，构建数据治理模块，完成时序数据和标签数据的治理任务，该管道负责数据输入控制，针对时间范围和标签范围进行数据粗加工，完成特定时间特有标签的过滤；

模块M2：特征工程模块，对治理好的数据进行特征工程，将数据输入映射成数据特征。特征工程的目的是将数据更好的适配模型；

模块M4：时间窗口模块，利用时间窗口将时序数据进行汇总，通过窗口时序数据构建时序分布曲线，并完成标签数据对于时序数据分布的拟合，将标签数据分布到时间轴上。为了简化计算，节省在微积分运算上的开销，通过时间窗口把数据镶嵌到分钟维度，从而降低数据的稀疏程度；

模块M5：时序预测模型，基于已有数据对将来时序数据和标签进行预测，以此来解决标签数延迟的情况，该模块通过预测模型的生成数据完成对于多种业务场景的适配；

模块M6：优化模型，根据测试集测试结果和第三方的评估反馈来修正模型。通过真实数据反馈对现有模型进行修正，不断优化超参数和数据清洗方法，保证模型达到最优。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的***、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种时序人流量数据和标量标签数的融合方法，其特征在于，包括：

步骤S2：完成时序数据和标签数据的治理；

步骤S3：进行时序数据特征工程；

2.根据权利要求1所述的时序人流量数据和标量标签数的融合方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的时序人流量数据和标量标签数的融合方法，其特征在于，在所述步骤S2中：

4.根据权利要求1所述的时序人流量数据和标量标签数的融合方法，其特征在于，在所述步骤S3中：

5.根据权利要求1所述的时序人流量数据和标量标签数的融合方法，其特征在于，在所述步骤S4中：

6.一种时序人流量数据和标量标签数的融合***，其特征在于，执行权利要求1所述的时序人流量数据和标量标签数的融合方法，包括：

7.根据权利要求6所述的时序人流量数据和标量标签数的融合***，其特征在于，在所述数据ETL管道模块中：

8.根据权利要求6所述的时序人流量数据和标量标签数的融合***，其特征在于：

在所述特征工程模块中：

在所述异常检测模块中：

9.根据权利要求6所述的时序人流量数据和标量标签数的融合***，其特征在于：

在所述时间窗口模块中：

在所述时序预测模块中：

10.根据权利要求6所述的时序人流量数据和标量标签数的融合***，其特征在于，在所述优化模块中：