CN116166709B

CN116166709B - 时长校正方法、装置、电子设备和存储介质

Info

Publication number: CN116166709B
Application number: CN202211439583.9A
Authority: CN
Inventors: 于志杰
Original assignee: Beijing Bailong Mayun Technology Co ltd
Current assignee: Beijing Bailong Mayun Technology Co ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-10-13
Anticipated expiration: 2042-11-17
Also published as: CN116166709A

Abstract

本发明公开了一种时长校正方法、装置、电子设备和存储介质，所述方法包括：读取离线数据集合和分片时长数据集合；对所述离线数据集合中的中的目标司机状态变化的持续时长按照指定时间粒度进行聚合，得到包括第一持续时长的目标离线数据集合；对所述分片时长数据集合中的目标司机状态的持续时长按照指定时间粒度进行聚合，得到包括多个第二持续时长的目标分片时长数据集合；若所述第一持续时长和所述第二持续时长不同，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合；所述分片时长状态数据集合用于记录在设定的采样时间间隔内的司机状态。本发明提供的技术方案，能在一定程度上能够减少分片时长校正所需要的算力成本。

Description

时长校正方法、装置、电子设备和存储介质

技术领域

本发明涉及数据处理领域，具体涉及一种时长校正方法、装置、电子设备和存储介质。

背景技术

在基于Flink实时计算司机分片时长的方法和***中，因实时场景数据流转的复杂性可能会导致数据乱序、数据迟到问题，与之会带来丢失时长数据计算精度的问题。现有技术中，对于实时时长计算过程中出现数据迟到、延迟问题，主要采用基于离线数据来覆盖实时数据的策略来保证离线和实时数据的一致性。然而，这种计算方式需要对于离线的计算方式开发等同于实时计算的一套时长计算***，需要消耗更多的计算成本。

发明内容

有鉴于此，本发明实施方式提供了一种时长校正方法、装置、电子设备和存储介质，在一定程度上能够减少分片时长校正所需要的算力成本。

本发明一方面提供了一种时长校正方法，所述方法包括：读取离线数据集合和分片时长数据集合；所述离线数据集合用于记录目标司机状态变化的持续时长；所述分片时长数据集合用于记录在设定的采样时间间隔内目标司机状态的持续时长；对所述离线数据集合中的中的目标司机状态变化的持续时长按照指定时间粒度进行聚合，得到目标离线数据集合；所述目标离线数据集合记录有目标司机状态在所述指定时间粒度上的第一持续时长；对所述分片时长数据集合中的目标司机状态的持续时长按照指定时间粒度进行聚合，得到目标分片时长数据集合；所述目标分片时长数据集合中记录有目标司机状态在所述指定时间粒度上的第二持续时长；若所述第一持续时长和所述第二持续时长不同，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合；所述目标离线状态数据集合中用于记录司机状态变化信息；所述分片时长状态数据集合用于记录在设定的采样时间间隔内的司机状态。

在一个实施方式中，所述离线数据集合和分片时长数据集合包括多名司机的数据记录，时长校正方法还包括：计算各个司机的所述第一持续时长和所述第二持续时长；若各个司机的第一持续时长和第二持续时长不同的人数和司机总数的比值大于设定的阈值，基于目标离线状态数据集合中的司机状态更新第一持续时长和第二持续时长不同的司机对应的分片时长状态数据集合。

在一个实施方式中，时长校正方法还包括：获取目标离线状态数据集合和分片时长状态数据集合；在所述目标离线状态数据集合中确定目标司机状态在设定的时间间隔内的持续时长，得到离线数据集合；在所述分片时长状态数据集合中筛选出表征目标司机状态的数据记录，得到分片时长数据集合。

在一个实施方式中，时长校正方法还包括：获取离线状态数据集合；所述离线状态数据集合用于记录司机状态变化信息；所述司机状态变化信息包括司机状态和司机状态发生变化的时间节点；将所述离线状态数据集合中的司机状态变化信息按照司机状态发生变化的时间节点从早到晚的顺序进行排序，得到目标离线状态数据集合。

在一个实施方式中，时长校正方法还包括：若所述第一持续时长和所述第二持续时长之间的时间差异大于预设阈值，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合。

在一个实施方式中，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合包括：获取初始司机状态；所述初始司机状态表征所述目标离线状态数据集合中所述记录时段的起始时间节点的司机状态；基于所述初始司机状态和所述记录时段的起始时间节点，将按照所述设定的时间间隔依次生成司机动作信息；所述司机动作信息包括当前采样的时间节点和所述当前采样的时间节点对应的司机状态；将各个采样时段和各个所述采样时段对应的司机状态更新至分片时长状态数据集合。

在一个实施方式中，时长校正方法还包括：若在所述目标离线状态数据集合中司机状态在所述时间间隔内发生变化，读取位于所述时间间隔内的多个目标时间节点；所述目标时间节点用于表征在所述时间间隔内司机状态发生变化的时间节点；基于所述多个目标时间节点将所述时间间隔划分为多个记录时段，并将各个所述记录时段和所述记录时段的司机状态更新至分片时长状态数据集合中。

在一个实施方式中，时长校正方法还包括：将所述目标离线状态数据集合发送至Flink集群中；所述Flink集群中搭载有时长分片处理的***。

本发明另一方面还提供了一种时长校正装置，所述时长校正装置包括：数据读取单元，用于读取离线数据集合和分片时长数据集合；所述离线数据集合用于记录目标司机状态变化的持续时长；所述分片时长数据集合用于记录在设定的采样时间间隔内目标司机状态的持续时长；目标离线数据集合生成单元，用于对所述离线数据集合中的中的目标司机状态变化的持续时长按照指定时间粒度进行聚合，得到目标离线数据集合；所述目标离线数据集合记录有目标司机状态在所述指定时间粒度上的第一持续时长；目标分片时长状态数据集合生成单元，用于对所述分片时长数据集合中的目标司机状态的持续时长按照指定时间粒度进行聚合，得到目标分片时长数据集合；所述目标分片时长数据集合中记录有目标司机状态在所述指定时间粒度上的第二持续时长；分片时长状态数据集合更新单元，用于若所述第一持续时长和所述第二持续时长不同，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合；所述目标离线状态数据集合中用于记录司机状态变化信息；所述分片时长状态数据集合用于记录在设定的采样时间间隔内的司机状态。

本发明另一方面还提供了一种电子设备，所述电子设备装置包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的时长校正方法。

本发明另一方面还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现上述的时长校正方法。

通过将由于实时计算场景中出现的乱序、迟到的司机状态数据按照时间节点的先后顺序进行排序得到目标离线状态数据集合，并且将分片时长状态数据集合按照一定的时间粒度做聚合处理得到目标分片时长状态数据集合，然后将目标分片时长状态数据集合中的司机状态、司机状态对应的记录时段和目标离线状态数据集合中的数据进行对比，若对比结果表征两者的差异性大于设定的阈值，则需要对该时间粒度上的分片时长进行校正处理，从而可以减少分片时长校正所需要的算力成本。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明一个实施方式中时长校正方法的流程示意图；

图2示出了本发明一个实施方式中时长校正装置示意图；

图3示出了本发明一个实施方式中电子设备的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在网约车/出租车的打车业务的营运过程中，需要掌握司机的在时间维度上的时长指标从而更好的推进相关业务的发展。例如，需要统计所有的司机在早高峰期间的累计出车时长。然而，由于实时场景数据流转的复杂性可能会导致获取司机状态数据时出现乱序、数据迟到等问题，从而导致在实时的时长处理过程中带来的错误。现有技术中，主要是通过离线数据去覆盖实时数据的策略解决离线数据和实时处理过程中数据不一致的问题，然而这相当于需要将离线数据通过实时处理的方法重新计算一次，需要耗费大量的计算成本。因此，需要开发一套能够在耗费的计算成本较少的情况下，实现对实时处理过程中得到的实时数据的校正。

请参阅图1，本申请一个实施方式提供的时长校正方法，该方法可以包括以下多个步骤。

S110：读取离线数据集合和分片时长数据集合；所述离线数据集合用于记录目标司机状态变化的持续时长；所述分片时长数据集合用于记录在设定的采样时间间隔内目标司机状态的持续时长。

在本实施方式中，需要对分片时长实时处理过程中的错误进行纠正，由于只需要对目标司机状态进行统计，因此只需要获取目标离线状态数据集合中用于表示目标司机状态的时长数据和实时计算过程中产生的司机分片时长数据中表示目标司机状态的分片时长数据。具体的，例如，需要对采样时间为1分钟的司机的出车时长进行统计，所述离线数据集合可以是{6:00:00，60s；6:01:00，60s；6:02:00，60s；6:03:00，30s}。所述分片时长数据集合可以是{6:00:00～6:01:00；6:01:00～6:02:00；6:02:00～6:03:00；6:03:00～6:03:30}。

S120：对所述离线数据集合中的中的目标司机状态变化的持续时长按照指定时间粒度进行聚合，得到目标离线数据集合；所述目标离线数据集合记录有目标司机状态在所述指定时间粒度上的第一持续时长。

在本实施方式中，通过将短时间间隔的分片时长聚合为较长时间粒度的分片时长，然后再将其和目标分片时长数据集合进行对比。由于在数据对比过程中需要消耗较多的算力，通过将离线数据集合中的司机状态变化的持续时长进行聚合后，可以节省对比过程中所需要的算力成本。具体的，例如，对于司机A，其在6:00:00～6:05:00这个时间段内的离线数据集合为{6:00:00，60s；6:01:00，60s；6:02:00，60s；6:03:00，30s}，则在目标离线数据集合中的第一持续时长记录为{6:00:00，210s}。对于司机B，其在6:00:00～6:05:00这个时间段内的离线数据集合为{6:00:00，60s；6:01:00，60s；6:02:00，30s；6:04:00，20s}，则在目标离线数据集合中的第一持续时长记录为{6:00:00，170s}。

S130：对所述分片时长数据集合中的目标司机状态的持续时长按照指定时间粒度进行聚合，得到目标分片时长数据集合；所述目标分片时长数据集合中记录有目标司机状态在所述指定时间粒度上的第二持续时长。

在本实施方式中，通过将短时间间隔的分片时长聚合为较长时间粒度的分片时长，然后再将其和目标离线数据集合中的司机状态进行对比。由于在数据对比过程中需要消耗较多的算力，通过将分片时长进行聚合后，可以节省对比过程中所需要的算力成本。由于在后续处理过程中需要将两套数据进行对比，因此在这个过程中的时间粒度和上述目标离线数据的时间粒度需要保持一致。具体的，例如，对于司机A，其在6:00:00～6:05:00这个时间段内的分片时长数据集合为{6:00:00～6:01:00；6:01:00～6:02:00；6:02:00～6:03:00；6:03:00～6:03:30；6:04:15～6:04:50}，则司机B在目标分片时长数据集合中的第二持续时长记录为{6:00:00～6:05:00，245s}。对于司机B，其在6:00:00～6:05:00这个时间段内的分片时长数据集合为{6:01:00～6:01:50；6:02:00～6:03:00；6:04:15～6:04:50}，则司机B在目标分片时长数据集合中的第二持续时长记录为{6:00:00～6:05:00，145s}。

S140：若所述第一持续时长和所述第二持续时长不同，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合；所述目标离线状态数据集合中用于记录司机状态变化信息；所述分片时长状态数据集合用于记录在设定的采样时间间隔内的司机状态。

在本实施方式中，如果上述实施方式中计算得到的第一持续时长和第二持续时长不同，说明在对司机分片时长进行实时处理过程中发生了错误，因此需要对该时间粒度范围内的分片时长进行更正。由于只需要对该时间粒度范围内的分片时长进行更正，其相比于通过离线数据覆盖分片时长实时处理过程中得到的数据相比可以节省更多的算力成本。具体的，例如，在上述实施方式中，设定的采样时间间隔为1分钟，目标离线数据集合中的数据记录为{6:00:00，60s；6:01:00，60s；6:02:00，30s；6:04:00，20s}；目标分片时长数据集合中的数据记录为{6:00:00～6:01:00；6:01:00～6:02:00；6:02:00～6:02:30；6:04:00～6:04:18}，经计算后发现第一持续时长为170s，第二持续时长为168s，由于这两者不一致，那么需要对这五分钟时间粒度上的分片时长数据进行重新处理为{<出车，6:00:00～6:01:00>，<出车，6:01:00～6:02:00>，<出车，6:02:00～6:02:30>，<收车，6:02:30～6:03:00>，<收车，6:03:00～6:04:00>，<收车，6:04:00～6:04:12>，<出车，6:04:12～6:04:32>，<收车，6:04:32～6:05:00>}。

在一个实施方式中，所述离线数据集合和分片时长数据集合包括多名司机的数据记录，时长校正方法还可以包括：计算各个司机的所述第一持续时长和所述第二持续时长；若各个司机的第一持续时长和第二持续时长不同的人数和司机总数的比值大于设定的阈值，基于目标离线状态数据集合中的司机状态更新第一持续时长和第二持续时长不同的司机对应的分片时长状态数据集合。

在本实施方式中，对多名司机的产生的实时数据都进行统计，若统计司机的有效出车时长的数据的出错率大于设定的阈值，则说明对司机活动时长进行实时统计的过程中存在着不稳定性。因此，需要对实时处理过程中对司机出车时长统计错误的司机的活动时长进行校正，以避免实时处理过程中产生的错误对业务进程上产生的影响。

在一个实施方式中，时长校正方法还可以包括：获取目标离线状态数据集合和分片时长状态数据集合；在所述目标离线状态数据集合中确定目标司机状态在设定的时间间隔内的持续时长，得到离线数据集合；在所述分片时长状态数据集合中筛选出表征目标司机状态的数据记录，得到分片时长数据集合。

在本实施方式中，离线数据集合是基于表征司机状态的状态数据集合中对目标司机状态得到的，分片时长数据集合是基于每一个分片时间上的数据集合中对目标司机状态筛选得到的。具体的，例如，一个目标离线状态数据集合为{6:00:00，出车；6:15:20，收车；6:16:10，出车；6:16:40，收车}，现在需要对司机在6:00:00～6:20:00这段时间内司机的出车情况进行统计，采样时间间隔按照1分钟的粒度进行采样，那么离线数据集合可以是{6:00:00，60s；6:01:00，60s；6:02:00，60s；……；6:15:00，20s；6:16:00，30s}，即对于一分钟时间内属于出车时长的数据进行统计，在统计完成之后，可以将其保存至Hive数据中。一个分片时长状态数据集合为{6:00:00～6:01:00，出车；6:01:00～6:02:00，出车；6:02:00～6:03:00，出车；……；6:15:00～6:15:20，出车；6:15:20～6:16:00，收车；6:16:00～6:16:10，收车；6:16:10～6:16:40，出车；6:16:00～6:17:00，收车；……}，那么分片时长数据集合可以是{6:00:00，60s；6:01:00，60s；6:02:00，60s；……；6:15:00，20s；6:16:00，30s}，即对于一分钟时间间隔内属于出车状态的司机活动时长进行累计运算，在计算完成之后，可以将其存储至Hive数据库中。在本实施方式中，离线数据集合和分片时长数据集合可以存储在同一个Hive的数据表中，也可以存储在不同的Hive数据表中。Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据的机制。因此，可以将存储在Flink集群中的离线状态数据在Hive中进行相应的存储。具体的，例如，若离线数据集合和分片时长数据集合可以存储在同一个Hive的数据表中，Hive数据表的表头格式可以是<时间节点，离线数据时长，分片数据时长>，在上述离线数据集合和分片数据集合可以按照{<6:00:00，60s，60s>，<6:01:00，60s，60s>，<6:02:00，60s，60s>，……，<6:15:00，30s，30s>，<6:16:00，30s，30s>，<6:17:00，0s，0s>，<6:18:00，0s，0s>，<6:19:00，0s，0s>}。

在一个实施方式中，时长校正方法还可以包括：获取离线状态数据集合；所述离线状态数据集合用于记录司机状态变化信息；所述司机状态变化信息包括司机状态和司机状态发生变化的时间节点；将所述离线状态数据集合中的司机状态变化信息按照司机状态发生变化的时间节点从早到晚的顺序进行排序，得到目标离线状态数据集合。

在本实施方式中，在一些情况下，由于数据传输过程中网络的延迟，导致司机状态数据在实时计算过程中出现迟到、乱序的现象，从而导致时长实时处理过程中出现错误。如果发现离线状态数据集合中的司机状态数据的顺序发生错误，则需要将其调整至正确的时间顺序。具体的，例如，所述离线状态数据集合为{出车，6:00:00；收车，9:45:10；收车，10:32:10；出车，10:30:20；出车，14:30:45}，在对离线状态数据集合进行排序后得到的目标离线状态数据集合为{出车，6:00:00；收车，9:45:10；出车，10:30:20；收车，10:32:10；出车，14:30:45}。

在一个实施方式中，时长校正方法还可以包括：若所述第一持续时长和所述第二持续时长之间的时间差异大于预设阈值，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合。

在本实施方式中，如果上述实施方式中计算得到的差异度大于设定阈值，说明在对司机分片时长进行实时处理过程中发生了错误，因此需要对该时间粒度范围内的分片时长进行更正。由于只需要对该时间粒度范围内的分片时长进行更正，其相比于通过离线数据覆盖分片时长实时处理过程中得到的数据相比可以节省更多的算力成本。具体的，例如，对于6:00:00～6:05:00这个时间粒度上，在目标离线数据集合中记录的第一持续时长为210s，在目标分片时长数据集合中记录的第二持续时长为202s，由于这两者在五分钟内的时间差异超过了预设阈值5s，则对于实时产生的司机分片时长数据需要进行重算。

在一个实施方式中，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合可以包括：获取初始司机状态；所述初始司机状态表征所述目标离线状态数据集合中所述记录时段的起始时间节点的司机状态；基于所述初始司机状态和所述记录时段的起始时间节点，将按照所述设定的时间间隔依次生成司机动作信息；所述司机动作信息包括当前采样的时间节点和所述当前采样的时间节点对应的司机状态；将各个采样时段和各个所述采样时段对应的司机状态更新至分片时长状态数据集合。

在本实施方式中，若第一持续时长和第二持续时长不同，则说明其在对分片时长数据处理过程中生成的分片时长状态数据集合中的分片时长数据为错误数据，因此，需要对该记录时段内的分片时长数据记录进行更新。对分片时长状态数据集合中该记录时段内分片时长数据更新的方法可以是在目标离线状态数据集合中获取该记录时段的起始时间点的状态信息，然后基于该起始时间点和起始时间点的状态信息按照设定的采样时间间隔依次获取采样时间的司机状态，然后将其更新到分片时长状态数据集合中。具体的，例如，对于6:00:00～6:05:00这个时段，目标分片时长状态数据集合为{出车，6:00；收车，6:04:00}，那么需要将{出车，6:00:00～6:01:00；出车，6:01:00～6:02:00；出车，6:02:00～6:03:00；出车，6:03:00～6:04:00；收车，6:04:00～6:05:00}这些数据记录更新至分片时长状态数据集合中。

在一个实施方式中，时长校正方法还可以包括：若在所述目标离线状态数据集合中司机状态在所述时间间隔内发生变化，读取位于所述时间间隔内的多个目标时间节点；所述目标时间节点用于表征在所述时间间隔内司机状态发生变化的时间节点；基于所述多个目标时间节点将所述时间间隔划分为多个记录时段，并将各个所述记录时段和所述记录时段的司机状态更新至分片时长状态数据集合中。

在本实施方式中，若在一个时间间隔内司机的状态发生了一次或者多次变化，如果将该司机状态仍然按照该时间间隔进行计时，则该状态的计算时间就可能会出错。因此，需要将其按照司机状态发生变化的时间节点进行分段计算。具体的，例如，对于6:00:00～6:05:00这个时段，目标分片时长状态数据集合为{出车，6:00；收车，6:03:20}，对于6:03:00～6:04:00这个时间间隔内司机的状态发生了变化，因此需要对其分段计算，从而将生成的{出车，6:00:00～6:01:00；出车，6:01:00～6:02:00；出车，6:02:00～6:03:00；出车，6:03:00～6:03:20；收车，6:03:20～6:04:00；收车，6:04:00～6:05:00}这些数据记录更新至分片时长状态数据集合中。

在一个实施方式中，时长校正方法还可以包括：将所述目标离线状态数据集合发送至Flink集群中；所述Flink集群中搭载有时长分片处理的***。

在本实施方式中，由于分片时长的实时处理过程中是基于Flink集群生成的，为了避免资源的浪费和***的重复开发，可以在发现实时处理过程中出现的错误之后，再次将其返回给Flink集群中进行该时段内分片时长的处理。

请参阅图2，本申请一个实施方式还提供一种时长校正装置，所述时长校正装置可以包括：数据读取单元、目标离线数据集合生成单元、目标分片时长状态数据集合生成单元、分片时长状态数据集合更新单元。

数据读取单元，用于读取离线数据集合和分片时长数据集合；所述离线数据状态集合用于记录目标司机状态变化的持续时长；所述分片时长数据集合用于记录在设定的采样时间间隔内目标司机状态的持续时长。

目标离线数据集合生成单元，用于对所述离线数据集合中的中的目标司机状态变化的持续时长按照指定时间粒度进行聚合，得到目标离线数据集合；所述目标离线数据集合记录有目标司机状态在所述指定时间粒度上的第一持续时长。

目标分片时长状态数据集合生成单元，用于对所述分片时长数据集合中的目标司机状态的持续时长按照指定时间粒度进行聚合，得到目标分片时长数据集合；所述目标分片时长数据集合中记录有目标司机状态在所述指定时间粒度上的第二持续时长。

分片时长状态数据集合更新单元，用于若所述第一持续时长和所述第二持续时长不同，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合；所述目标离线状态数据集合中用于记录司机状态变化信息；所述分片时长状态数据集合用于记录在设定的采样时间间隔内的司机状态。

关于时长校正装置实现的具体功能和效果，可以参照本说明书其他实施方式对照解释，在此不再赘述。所述目标识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图3，本申请一个实施方式还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的时长校正方法。

其中，处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施方式中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请一个实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现上述的时长校正方法。

本领域普通技术人员可以理解实现所述实施方式方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如所述各方法的实施方式的流程。其中，本说明书所提供的各实施方式中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本说明书多个实施方式之间，采用递进的方式进行描述。不同的实施方式着重于描述相较于其它实施方式不相同的部分。所属领域技术人员在阅读本说明书之后，可以获知本说明书中的多个实施方式，以及实施方式揭示的多个技术特征，可以进行更多种的组合，为使描述简洁，未对所述实施方式中的各个技术特征所有可能的组合都进行描述。然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的多个实施方式本身均着重于强调与其他实施方式不同的部分，各实施方式之间可以相互对照解释。所属领域技术人员基于一般的技术常识对本说明书中的多个实施方式的任意组合均涵盖于本说明书的揭示范围内。

以上所述仅为本案的实施方式而已，并不用以限制本案的权利要求保护范围。对于本领域技术人员来说，本案可以有各种更改和变化。凡在本案的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本案的权利要求范围之内。

Claims

1.一种时长校正方法，其特征在于，所述方法包括：

读取离线数据集合和分片时长数据集合；所述离线数据集合用于记录目标司机状态变化的持续时长；所述分片时长数据集合用于记录在设定的采样时间间隔内目标司机状态的持续时长；

对所述离线数据集合中的目标司机状态变化的持续时长按照指定时间粒度进行聚合，得到目标离线数据集合；所述目标离线数据集合记录有目标司机状态在所述指定时间粒度上的第一持续时长；

对所述分片时长数据集合中的目标司机状态的持续时长按照指定时间粒度进行聚合，得到目标分片时长数据集合；所述目标分片时长数据集合中记录有目标司机状态在所述指定时间粒度上的第二持续时长；

若所述第一持续时长和所述第二持续时长不同，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合；所述目标离线状态数据集合中用于记录司机状态变化信息；所述分片时长状态数据集合用于记录在设定的采样时间间隔内的司机状态。

2.根据权利要求1所述的方法，其特征在于，所述离线数据集合和分片时长数据集合包括多名司机的数据记录，所述方法还包括：

计算各个司机的所述第一持续时长和所述第二持续时长；

若各个司机的第一持续时长和第二持续时长不同的人数和司机总数的比值大于设定的阈值，基于目标离线状态数据集合中的司机状态更新第一持续时长和第二持续时长不同的司机对应的分片时长状态数据集合。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标离线状态数据集合和分片时长状态数据集合；

在所述目标离线状态数据集合中确定目标司机状态在设定的时间间隔内的持续时长，得到离线数据集合；

在所述分片时长状态数据集合中筛选出表征目标司机状态的数据记录，得到分片时长数据集合。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取离线状态数据集合；所述离线状态数据集合用于记录司机状态变化信息；所述司机状态变化信息包括司机状态和司机状态发生变化的时间节点；

将所述离线状态数据集合中的司机状态变化信息按照司机状态发生变化的时间节点从早到晚的顺序进行排序，得到目标离线状态数据集合。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

若所述第一持续时长和所述第二持续时长之间的时间差异大于预设阈值，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合。

6.根据权利要求1所述的方法，其特征在于，基于目标离线状态数据集合中的司机状态更新分片时长状态数据集合包括：

获取初始司机状态；所述初始司机状态表征所述目标离线状态数据集合中所述记录时段的起始时间节点的司机状态；

基于所述初始司机状态和所述记录时段的起始时间节点，将按照所述设定的时间间隔依次生成司机动作信息；所述司机动作信息包括当前采样的时间节点和所述当前采样的时间节点对应的司机状态；

将各个采样时段和各个所述采样时段对应的司机状态更新至分片时长状态数据集合。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

若在所述目标离线状态数据集合中司机状态在所述时间间隔内发生变化，读取位于所述时间间隔内的多个目标时间节点；所述目标时间节点用于表征在所述时间间隔内司机状态发生变化的时间节点；

基于所述多个目标时间节点将所述时间间隔划分为多个记录时段，并将各个所述记录时段和所述记录时段的司机状态更新至分片时长状态数据集合中。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述目标离线状态数据集合发送至Flink集群中；所述Flink集群中搭载有时长分片处理的***。

9.一种时长校正装置，其特征在于，所述时长校正装置包括：

数据读取单元，用于读取离线数据集合和分片时长数据集合；其中，所述离线数据集合中用于记录目标司机状态变化的持续时长；所述分片时长数据集合用于记录在设定的采样时间间隔内目标司机状态的持续时长；

目标离线数据集合生成单元，用于对所述离线数据集合中的目标司机状态变化的持续时长按照指定时间粒度进行聚合，得到目标离线数据集合；所述目标离线数据集合记录有目标司机状态在所述指定时间粒度上的第一持续时长；

目标分片时长数据集合生成单元，用于对所述分片时长数据集合中的目标司机状态的持续时长按照指定时间粒度进行聚合，得到目标分片时长数据集合；所述目标分片时长数据集合中记录有目标司机状态在所述指定时间粒度上的第二持续时长；

10.一种电子设备，其特征在于，所述电子设备装置包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至8中任一所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至8中任一所述的方法。