CN111340234B

CN111340234B - 视频数据处理方法、装置、电子设备和计算机可读介质

Info

Publication number: CN111340234B
Application number: CN202010123747.1A
Authority: CN
Inventors: 陈志熙
Original assignee: Nanjing Starfire Technology Co ltd
Current assignee: Nanjing Starfire Technology Co ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2024-01-30
Anticipated expiration: 2040-02-27
Also published as: CN111340234A

Abstract

本申请公开了一种视频数据处理方法、装置、电子设备和计算机可读介质。该方法包括：基于预设的奖励预测模型，对视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成任务环境的分布激励；基于预设的强化学习模型，根据任务环境，生成任务指令，根据任务指令指导执行主体执行目标任务，得到任务结果；基于预设的奖励评估函数，对任务结果进行评估，生成任务激励，并根据任务激励，对奖励预测模型的参数进行调整；根据分布激励，对强化学习模型的参数进行调整。籍此，通过强化学习模型生成的任务激励对奖励预测模型的参数进行调整，优化奖励预测模型；通过奖励预测模型生成的分布激励对强化学习模型的参数进行调整，优化强化学习模型。

Description

视频数据处理方法、装置、电子设备和计算机可读介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种视频数据处理方法、装置、电子设备和计算机可读介质。

背景技术

自动驾驶作为一项新技术，是汽车行业当前的热点，它是通过人工智能、视觉计算等***的协同合作，使人工智能可以在没有任何人类的主动操作下，指导车辆自主行驶。

发明内容

基于上述问题，本申请提供了一种视频数据处理方法、装置、电子设备和计算机可读介质。

本申请实施例公开了如下技术方案：

本申请实施例提供一种视频数据处理方法，包括：基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。

可选地，在本申请的任一实施例中，所述基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励，包括：按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。

可选地，在本申请的任一实施例中，所述按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励包括：按照时间序列，确定所述视频数据中所述任务环境变化的视频数据，并基于所述奖励预测模型，对所述任务环境变化的视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。

可选地，在本申请的任一实施例中，所述基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，生成任务结果包括：基于预设的所述强化学习模型中的策略网络子模型，根据所述任务环境，生成任务指令集，所述任务指令集中包括多个所述任务指令；基于预设的所述强化学习模型中价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令，并根据最佳的所述任务指令指导所述执行主体执行所述目标任务，得到所述任务结果。

可选地，在本申请的任一实施例中，所述奖励预测模型为图神经网络模型；和/或，所述强化学习模型为深度强化学习神经网络模型。

本申请实施例还提供一种视频数据处理装置，包括：第一神经网络单元，配置为基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；第二神经网络单元，配置为基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；调整单元，配置为基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。

可选地，在本申请的任一实施例中，所述第一神经网络单元，进一步配置为按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。

可选地，在本申请的任一实施例中，所述第一神经网络单元，进一步配置为按照时间序列，确定所述视频数据中所述任务环境变化的视频数据；并基于所述奖励预测模型，对所述任务环境变化的视频数据中，所述执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的所述分布激励。

可选地，在本申请的任一实施例中，所述第二神经网络单元，包括：策略网络子单元，配置为基于预设的所述强化学习模型中的策略网络子模型，根据所述任务环境，生成任务指令集，所述任务指令集中包括多个所述任务指令；价值网络子单元，配置为基于预设的所述强化学习模型中的价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令，并根据最佳的所述任务指令指导所述执行主体执行所述目标任务，得到所述任务结果。

可选地，在本申请的任一实施例中，所述奖励预测模型为图神经网络模型；和/或，所述强化学习模型为深度学习神经网络模型。

本申请实施例还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一所述的视频数据处理方法。

本申请实施例还提供一种电子设备，包括：存储器，处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。

可选地，在本申请的任一实施例中，所述处理器执行基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励的步骤，包括：按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的所述分布激励。

可选地，在本申请的任一实施例中，所述处理器执行按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励的步骤，包括：按照时间序列，确定所述视频数据中所述任务环境变化的视频数据，并基于所述奖励预测模型，对所述任务环境变化的视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。

可选地，在本申请的任一实施例中，所述处理器执行基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果的步骤，包括：基于预设的所述强化学习模型中的策略网络子模型，根据所述任务环境，生成任务指令集，所述任务指令集中包括多个所述任务指令；基于预设的所述强化学习模型中的价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令，根据最佳的所述任务指令指导所述执行主体执行所述目标任务，得到所述任务结果。

本申请实施例的技术方案中，基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。通过奖励预测模型生成任务环境的分布激励，由强化学习模型根据任务环境生成任务指令，并根据任务指令指导执行主体执行目标任务，得到任务结果；而后根据任务结果的评估生成任务激励，进而对奖励预测模型的参数进行调整，同时，根据分布激励对强化学习模型的参数进行调整。籍此，强化学习模型和奖励预测模型之间进行对抗、交互，通过强化学习模型生成的任务激励对奖励预测模型的参数进行调整，不断的优化奖励预测模型，使生成的分布激励更加合理；通过奖励预测模型生成的分布激励对强化学习模型的参数进行调整，不断的优化强化学习模型以做出更加精准的任务指令，以指导执行主体完成目标任务。若将本申请实施例的技术方案应用到自动驾驶场景中，至少可以达到基于人工智能，从而通过视频图像指导车辆行驶。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为根据本申请第一实施例所示的视频数据处理方法的流程示意图；

图1B为根据本申请第一实施例所示的视频数据处理方法中步骤S102的流程示意图；

图1C为根据本申请第一实施例所示的视频数据处理方法的场景应用示意图；

图1D为根据本申请第一实施例所示的视频数据处理方法在自动驾驶中的应用示意图；

图2A为根据本申请第二实施例所示的视频数据处理装置的结构示意图；

图2B为根据本申请第二实施例所示的视频数据处理装置中第二神经网络单元的结构示意图；

图3A为根据本申请第三实施例所示的电子设备的处理器在执行程序时实现的视频数据处理方法的流程示意图；

图3B为根据本申请第三实施例所示的电子设备的处理在执行程序时实现的视频数据处理方法中步骤S302的流程示意图；

图4为根据本申请第四实施例所示的电子设备的结构示意图；

图5为根据本申请第五实施例所示的电子设备的硬件结构。

具体实施方式

实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

图1A为根据本申请第一实施例所示的视频数据处理方法的流程示意图；如图1A所示，该视频数据处理方法，包括：

步骤S101、基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；

在本申请实施例中，预设的奖励预测模型可以为图神经网络模型。所述目标任务可以是预先设定好的执行主体需要完成的任务，比如，在自动驾驶中，自动驾驶汽车为执行主体，从出发地点到目标地点，即可以为自动驾驶汽车的目标任务；而在此过程中，自动驾驶汽车的摄像设备所采集到的视频图像，即为视频数据；自动驾驶汽车在行驶过程中周围的场景（包括道理、护栏、行人、其它车辆等）即为自动驾驶汽车在执行目标任务时的任务环境；任务的分布激励用于对自动驾驶汽车在完成目标任务过程中的任务环境进行评估。分布激励可以为正向分布激励，也可以为负向分布激励，正向分布激励表明自动驾驶汽车的当前任务环境较好（比如道路畅通、视野较好等）；负向分布激励表明自动驾驶汽车的当前任务环境较差（比如道路拥堵、雨雾天气等）。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，在基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励时，在基于所述奖励预测模型，提取所述视频数据中，所述执行主体执行所述目标任务时所述任务环境的环境特征，生成所述环境特征的分布激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

本申请实施例中，响应于所述执行主体执行所述目标任务，根据所述执行主体执行目标任务时的多个不同任务环境，分别提取多个不同所述任务环境的环境特征，生成多个不同所述任务环境的多个不同所述分布激励。比如，在自动驾驶汽车执行目标任务的过程中，在T1至T2时间段内道路畅通（环境特征），在T2至T3时间段内道路拥堵（环境特征），在T3至T4时间段内等待红绿灯（环境特征）……直至到达目标地点。对T1至T2时间段内的任务环境进行特征提取，生成T1至T2时间段内的任务环境的分布激励；对T2至T3时间段内的任务环境进行特征提取，生成T2至T3时间段内的任务环境的分布激励；对T3至T4时间段内的任务环境进行特征提取，生成T3至T4时间段内的任务环境的分布激励等等。籍此，对执行主体执行目标任务进行细分，按照不同的阶段进行划分，更加合理的对不同的任务环境进行评估。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，在基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励时，按照时间序列，基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的所述分布激励。在此，时间序列可定义为时间上的先后顺序。比如，在自动驾驶汽车执行目标任务的过程中，对整个自动驾驶过程中从出发地点开始，到达目标地点结束，按照时间上的先后顺序，分别提取在T1至T2时间段内任务环境的特征、T2至T3时间段内任务环境的特征、T3至T4时间段内任务环境的特征等等。与此同时，按照时间序列，生成T1至T2时间段任务环境的分布激励、T2至T3时间段内任务环境的分布激励、T3至T4时间段内任务环境的分布激励等。籍此，将自动驾驶汽车执行目标任务的过程分为多个不同的阶段，对每个不同的阶段的任务环境分别进行评估，以指导自动驾驶汽车做出更为合理的自动驾驶动作。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一具体的例子中，在按照时间序列，基于预设的奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励时，按照时间序列，确定所述视频数据中所述任务环境变化的视频数据，并基于预设的所述奖励预测模型，对所述任务环境变化的视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。比如，由于自动驾驶汽车在从出发地点到达目标地点的过程中，可能会遇到各种不同的情形，比如堵车、红绿灯等，同时，自动驾驶汽车会根据交通行驶时的道路畅通情况进行加速、减速等，这些不同事件的发生均会产生不同的视频数据。将这些任务环境变化的视频数据按照时间序列分割，划分为多个不同的事件，每个事件即为一个任务环境。通过奖励预测模型对每个不同任务环境变化的视频数据进行特征提取，即可得到对应的任务环境的分布激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

步骤S102、基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；

在本申请实施例中，预设的强化学习模型可以为深度强化学习神经网络模型。强化学习模型根据分布激励生成至少一个任务指令，或者生成多个不同的任务指令。往往，在执行主体执行目标任务过程中，会同时存在多个不同的任务环境，奖励预测模型根据多个不同的任务环境给出多个不同的分布激励，强化学习模型会根据奖励预测模型给出的多个不同的分布激励，生成多个任务指令，以对执行主体执行目标任务进行指导。比如，自动驾驶汽车在从出发地点达到目标地点的过程中，奖励预测模型会根据不同的道路畅通情况，以及不同的行驶路径，作出不同的分布激励，而后由强化学习模型根据不同的分布激励，生成不同的任务指令，根据任务指令指导自动驾驶汽车进行自动驾驶操作，在保证安全的前提下，最快速度、最短时间到达目的地点。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在本申请实施例中，当强化学习模型根据分布激励生成一个任务指令时，根据该任务指令指导执行主体执行目标任务，得到任务结果；当强化学习模型根据分布激励生成多个任务指令时，从多个任务指令中选择一个任务指令，根据选择的任务指令指导执行主体执行目标任务，得到任务结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

图1B为根据本申请第一实施例所示的视频数据处理方法中步骤S102的流程示意图；如图1B所示，在基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果，包括：

步骤S112、基于预设的所述强化学习模型中的策略网络子模型，根据所述任务环境，生成任务指令集，所述任务指令集中包括多个所述任务指令；

在本申请实施例中，强化学习模型中的策略网络子模型根据奖励预测模型作出的分布激励，生成任务指令，所述任务指令用于指导执行主体完成所述目标任务。通常情况下，所述策略网络子模型会根据奖励预测模型作出的一个分布激励，对目标任务作出多个不同的任务指令，多个不同的任务指令组成了一个任务指令集。在该任务指令集中，每个任务指令都可以指导执行主体执行目标任务，得到任务结果。比如，自动驾驶汽车在自动驾驶过程中，会在出发地点到目标地点之间规划多条不同的行驶路径，这多条不同的行驶路径均可以完成整个自动驾驶过程。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

步骤S122 、基于预设的所述强化学习模型中的价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令，并根据最佳的所述任务指令指导所述执行主体执行所述目标任务，得到所述任务结果。

在本申请实施例中，通过价值网络子模型对任务指令集中的多个任务指令分别进行评估，可以预测出每个任务指令在指导执行主体执行目标任务时可能的任务预测结果，进而在这多个任务预测结果中，找到最佳的任务预测结果，选择该最佳的任务预测结果对应的任务指令，即为最佳的任务指令。通过选择的最佳的任务指令指导执行主体执行目标任务，即可得到最佳的任务结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，在基于所述价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令时，基于所述价值网络子模型，采用随机搜索（random search）算法以及启发式搜索（smart search）算法中至少其中一种对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一具体的例子中，在基于所述价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令时，基于所述价值网络子模型，对所述任务指令集中的多个所述任务指令的方差和/或偏差进行评估，选择最佳的所述任务指令。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

本申请实施例中，步骤S101与步骤S102之间并无时间上的先后顺序，可以先执行步骤S101，再执行步骤S102；也可以先执行步骤S102，再执行步骤S101；或者，同时执行步骤S101和步骤S102。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

步骤S103、基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。

在本申请实施例中，奖励评估函数可以为神经网络模型（比如，卷积神经网络模型、图神经网络模型等），也可以是由绝对值函数、指数函数、导数函数、倒数函数或者负数函数中至少其一组成的函数模型。任务激励为根据最佳的任务指令，指导执行主体完成目标任务后的激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，在基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整时，基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型中的网络参数权重进行调整；以及，基于所述分布激励，对所述强化学习模型的网络参数权重进行调整。籍此，通过强化学习模型生成的任务激励不断的对奖励预测模型中网络参数权重进行调整，不断的优化奖励预测模型，使生成的分布激励更加合理；通过奖励预测模型生成的分布激励对强化学习模型的网络权重参数进行调整，不断的优化强化学习模型以做出更加精准的任务指令，以指导执行主体完成目标任务。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

图1C为根据本申请第一实施例所示的视频数据处理方法的场景应用示意图；如图1C所示，由摄像设备采集视频数据，并将视频数据发送给人工智能；在人工智能中，基于奖励预测模型，对视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成任务环境的分布激励；基于强化学习模型，根据视频数据中，执行主体执行目标任务时的任务环境，生成任务指令，并根据任务指令指导执行主体执行目标任务，得到任务结果；而后，基于奖励评估函数，对任务结果进行评估，生成任务激励，并根据任务激励，对奖励预测模型的参数进行调整；以及，根据分布激励，对强化学习模型的参数进行调整。籍此，通过强化学习模型和奖励预测模型之间的对抗、交互，利用强化学习模型生成的任务激励对奖励预测模型的参数进行调整，不断的优化奖励预测模型；利用奖励预测模型生成的分布激励对强化学习模型的参数进行调整。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

图1D为根据本申请第一实施例所示的视频数据处理方法在自动驾驶中的应用示意图；如图1D所示，自动驾驶汽车在行驶过程中，前方道路状况、行驶的其它车辆以及两侧的护栏等均为自动驾驶汽车的任务环境。自动驾驶汽车内人工智能中的奖励预测模型根据采集到的视频图数据，对当前自动驾驶汽车所处的环境进行评估，给出当前所处环境的分布激励；自动驾驶汽车内的人工智能中的强化学习模型根据自动驾驶汽车当前所处的环境，给出自动驾驶汽车的行驶指令，使自动驾驶汽车根据行驶指令行驶；通过奖励预测模型对当前所处环境作出的分布激励可以对强化学习模型的参数进行调整，使强化学习模型能够根据自动驾驶汽车当前所处的环境做出最好的决策（即最佳的任务指令），指导自动驾驶汽车完成驾驶任务。由奖励评估函数对任务结果进行评估生成的任务激励，可以对奖励预测模型的参数进行调整，使奖励预测模型对自动驾驶汽车在各阶段所处的环境进行正确的分析评估，作出更加合理的分布激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

本申请实施例中，通过奖励预测模型生成任务环境的分布激励，由强化学习模型根据任务环境生成任务指令，并根据任务指令指导执行主体执行目标任务，得到任务结果；而后根据任务结果的评估生成任务激励，进而对奖励预测模型的参数进行调整，同时，根据分布激励对强化学习模型的参数进行调整。籍此，强化学习模型和奖励预测模型之间进行对抗、交互，通过强化学习模型生成的任务激励对奖励预测模型的参数进行调整，不断的优化奖励预测模型，使生成的分布激励更加合理；通过奖励预测模型生成的分布激励对强化学习模型的参数进行调整，不断的优化强化学习模型以做出更加精准的任务指令，以指导执行主体完成目标任务。

第二实施例

图2A为根据本申请第二实施例所示的视频数据处理装置的结构示意图；如图2A所示，该视频数据处理装置，包括：

第一神经网络单元201，配置为基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；第二神经网络单元202，配置为基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；调整单元203，配置为基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。

在一具体的例子中，所述第一神经网络单元201，进一步配置为按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述第一神经网络单元201，进一步配置为按照时间序列，确定所述视频数据中所述任务环境变化的视频数据，并基于所述奖励预测模型，对所述任务环境变化的视频数据中，所述执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的所述分布激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

图2B为根据本申请第二实施例所示的视频数据处理装置中第二神经网络单元的结构示意图；如图2B所示，所述第二神经网络单元202，包括：策略网络子单元212，配置为基于预设的所述强化学习模型中的策略网络子模型，根据所述任务环境，生成任务指令，所述任务指令集中包括多个所述任务指令；价值网络子单元222，配置为基于预设的所述强化学习模型中的价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令，并根据最佳的所述任务指令指导执行主体执行所述目标任务，得到所述任务结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述奖励预测模型为图神经网络模型；和/或，所述强化学习模型为深度强化学习神经网络模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

本申请实施例的视频数据处理装置执行上述第一实施例中的视频数据处理方法的流程，可以实现上述第一实施例所述的视频数据处理方法的有益效果，在此不再一一赘述。

第三实施例

图3A为根据本申请第三实施例所示的电子设备的处理器在执行程序时实现的视频数据处理方法的流程示意图；如图3A所示，所述处理器执行所述程序时实现如下步骤：

步骤S301、基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；

在一些可选实施例中，所述处理器在执行基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励的步骤时，在基于所述奖励预测模型，提取所述视频数据中，所述执行主体执行所述目标任务时所述任务环境的环境特征，生成所述环境特征的分布激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述处理器在执行基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励的步骤时，按照时间序列，基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的所述分布激励。在此，时间序列可定义为时间上的先后顺序。比如，在自动驾驶汽车执行目标任务的过程中，对整个自动驾驶过程中从出发地点开始，到达目标地点结束，按照时间上的先后顺序，分别提取在T1至T2时间段内任务环境的特征、T2至T3时间段内任务环境的特征、T3至T4时间段内任务环境的特征等等。与此同时，按照时间序列，生成T1至T2时间段任务环境的分布激励、T2至T3时间段内任务环境的分布激励、T3至T4时间段内任务环境的分布激励等。籍此，将自动驾驶汽车执行目标任务的过程分为多个不同的阶段，对每个不同的阶段的任务环境分别进行评估，以指导自动驾驶汽车做出更为合理的自动驾驶动作。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一具体的例子中，所述处理器在执行按照时间序列，基于预设的奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励的步骤时，按照时间序列，确定所述视频数据中所述任务环境变化的视频数据，并基于预设的所述奖励预测模型，对所述任务环境变化的视频数据中，所述执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的所述分布激励。比如，由于自动驾驶汽车在从出发地点到达目标地点的过程中，可能会遇到各种不同的情形，比如堵车、红绿灯等，同时，自动驾驶汽车会根据交通行驶时的道路畅通情况进行加速、减速等，这些不同事件的发生均会产生不同视频数据。将这些任务环境变化的视频数据按照时间序列分割，划分为多个不同的事件，每个事件即为一个任务环境。通过奖励预测模型对每个不同任务环境变化的视频数据进行特征提取，即可得到对应的任务环境的分布激励。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

步骤S302、基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；

在本申请实施例中，预设的强化学习模型可以为深度强化学习神经网络模型。强化学习模型根据分布激励生成至少一个任务指令，或者生成多个不同的任务指令。往往，在执行主体执行目标任务过程中，会同时存在多个不同的任务环境，奖励预测模型根据多个不同的任务环境给出多个不同的分布激励，强化学习模型会根据奖励预测模型给出的多个不同的分布激励，生成多个任务指令，以对执行主体执行目标任务进行指导。比如，自动驾驶汽车在从出发地点达到目标地点的过程中，奖励预测模型会根据不同的道路畅通情况，以及不同的行驶路径，作出不同的分布激励，而后由强化学习模型根据不同的分布激励，生成不同的任务指令，根据任务指令指导自动驾驶汽车进行自动驾驶操作，以在保证安全的前提下，最快速度、最短时间到达目的地点。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

图3B为根据本申请第三实施例所示的电子设备的处理在执行程序时实现的视频数据处理方法中步骤S302的流程示意图；如图3B所示，所述处理器在执行基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果步骤，包括：

步骤S312、基于预设的所述强化学习模型中的策略网络子模型，根据所述任务环境，生成任务指令集，所述任务指令集中包括多个所述任务指令；

在本申请实施例中，强化学习模型中的策略网络子模型根据奖励预测模型作出的分布激励，生成任务指令，所述任务指令用于指导所述执行主体完成所述目标任务。通常情况下，所述策略网络子模型会根据奖励预测模型作出的一个分布激励，对目标任务作出多个不同的任务指令，多个不同的任务指令组成了一个任务指令集。在该任务指令集中，每个任务指令都可以指导执行主体完成所述目标任务，得到任务结果。比如，自动驾驶汽车在自动驾驶过程中，会在出发地点到目标地点之间规划多条不同的行驶路径，这多条不同的行驶路径均可以完成整个自动驾驶过程。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

步骤S322 、基于预设的所述强化学习模型中的价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令，并根据最佳的所述任务指令指导所述执行主体执行所述目标任务，得到所述任务结果。

在本申请实施例中，通过价值网络子模型对任务指令集中的多个任务指令分别进行评估，可以预测出每个任务指令在指导执行主体执行目标任务时可能的任务预测结果，进而在这多个任务预测结果中，找到能够得到最佳的任务预测结果，选择该最佳的任务预测结果对应的任务指令，即为最佳的任务指令。通过选择的最佳的任务指令指导执行主体执行目标任务，即可得到最佳的任务结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一些可选实施例中，所述处理器在执行基于所述价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令的步骤时，基于所述价值网络子模型，采用随机搜索（random search）算法以及启发式搜索（smart search）算法中至少其中一种对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在一具体的例子中，在所述处理器执行基于所述价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令的步骤时，基于所述价值网络子模型，对所述任务指令集中的多个所述任务指令的方差和/或偏差进行评估，选择最佳的所述任务指令。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

本申请实施例中，步骤S301与步骤S302之间并无时间上的先后顺序，可以先执行步骤S301，再执行步骤S302；也可以先执行步骤S302，再执行步骤S301；或者，同时执行步骤S301和步骤S302。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

步骤S303、基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。

在一些可选实施例中，所述处理器在执行基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整的步骤时，基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型中的网络参数权重进行调整；以及，基于所述分布激励，对所述强化学习模型的网络参数权重进行调整。籍此，通过强化学习模型生成的任务激励不断的对奖励预测模型中网络参数权重进行调整，不断的优化奖励预测模型，使生成的分布激励更加合理；通过奖励预测模型生成的分布激励对强化学习模型的网络权重参数进行调整，不断的优化强化学习模型以做出更加精准的任务指令，以指导执行主体完成目标任务。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

本申请实施例中，该电子设备通过奖励预测模型生成任务环境的分布激励，由强化学习模型根据任务环境生成任务指令，并根据任务指令指导执行主体执行目标任务，得到任务结果，而后根据任务结果的评估生成任务激励，进而对奖励预测模型的参数进行调整，同时，根据分布激励对强化学习模型的参数进行调整。籍此，该电子设备中强化学习模型和奖励预测模型之间进行对抗、交互，通过强化学习模型生成的任务激励对奖励预测模型的参数进行调整，不断的优化奖励预测模型，使生成的分布激励更加合理；通过奖励预测模型生成的分布激励对强化学习模型的参数进行调整，不断的优化强化学习模型以做出更加精准的任务指令，以指导执行主体完成目标任务。

第四实施例

图4为根据本申请第四实施例所示的电子设备的结构示意图；如图4所示，该电子设备可以包括：

一个或多个处理器401；

计算机可读介质402，可以配置为存储一个或多个程序，

当一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述任一实施例中所述的视频数据处理方法。

第五实施例

图5为根据本申请第五实施例所示的电子设备的硬件结构；如图5所示，该电子设备的硬件结构可以包括：处理器501，通信接口502，计算机可读介质503和通信总线504；

其中，处理器501、通信接口502、计算机可读介质503通过通信总线504完成相互间的通信；

可选的，通信接口502可以为通信模块的接口，如GSM模块的接口；

其中，处理器501具体可以配置为：基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整。

处理器501可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频数据处理方法，其特征在于，包括：

基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；

基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；

基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整；

其中，所述基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果包括：

基于预设的所述强化学习模型中的策略网络子模型，根据所述任务环境，生成任务指令集，所述任务指令集中包括多个所述任务指令；

基于预设的所述强化学习模型中的价值网络子模型，对所述任务指令集中的多个所述任务指令进行评估，选择最佳的所述任务指令，并根据最佳的所述任务指令指导所述执行主体执行所述目标任务，得到所述任务结果；

其中，在执行主体执行目标任务过程中，会同时存在多个不同的任务环境，奖励预测模型根据多个不同的任务环境给出多个不同的分布激励，强化学习模型会根据奖励预测模型给出的多个不同的分布激励，生成多个任务指令，以对执行主体执行目标任务进行指导，强化学习模型中的策略网络子模型根据奖励预测模型作出的分布激励，生成任务指令，所述任务指令用于指导执行主体完成所述目标任务，所述策略网络子模型会根据奖励预测模型作出的一个分布激励，对目标任务作出多个不同的任务指令，多个不同的任务指令组成了一个任务指令集。

2.根据权利要求1所述的方法，其特征在于，所述基于预设的奖励预测模型，对所述视频数据中，执行主体执行所述目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励，包括：

按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。

3.根据权利要求2所述的方法，其特征在于，所述按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励，包括：

按照时间序列，确定所述视频数据中所述任务环境变化的视频数据，并基于所述奖励预测模型，对所述任务环境变化的视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励。

4.根据权利要求1-3任一所述的方法，其特征在于，

所述奖励预测模型为图神经网络模型；

和/或，

所述强化学习模型为深度强化学习神经网络模型。

5.一种视频数据处理装置，其特征在于，包括：

第一神经网络单元，配置为基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；

第二神经网络单元，配置为基于预设的强化学习模型，根据所述任务环境，生成任务指令，并根据所述任务指令指导所述执行主体执行所述目标任务，得到任务结果；

调整单元，配置为基于预设的奖励评估函数，对所述任务结果进行评估，生成任务激励，并根据所述任务激励，对所述奖励预测模型的参数进行调整；以及，根据所述分布激励，对所述强化学习模型的参数进行调整；

6.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：

基于预设的奖励预测模型，对视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励；

7.根据权利要求6所述的电子设备，其特征在于，所述处理器执行基于预设的奖励预测模型，对所述视频数据中，执行主体执行目标任务时的任务环境进行特征提取，生成所述任务环境的分布激励的步骤，包括：

8.根据权利要求7所述的电子设备，其特征在于，所述处理器执行按照时间序列，基于所述奖励预测模型，对所述视频数据中，所述执行主体执行所述目标任务时的所述任务环境进行特征提取，生成所述任务环境的所述分布激励的步骤，包括：

9.根据权利要求6-8任一所述的电子设备，其特征在于，

所述奖励预测模型为图神经网络模型；

和/或，

所述强化学习模型为深度强化学习神经网络模型。