CN117037158B

CN117037158B - 基于视频语义驱动的城市大脑云边协同计算方法及装置

Info

Publication number: CN117037158B
Application number: CN202311298523.4A
Authority: CN
Inventors: 高丰; 郑宇化; 孙铭鸽
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-01-09
Anticipated expiration: 2043-10-09
Also published as: CN117037158A

Abstract

本申请提供体一种基于视频语义驱动的城市大脑云边协同计算方法及装置，包括：获取视频流数据；对所述视频流数据进行语义检测，获得语义检测结果；根据所述语义检测结果从所述视频流数据中抽取得到目标图片；确定与当前边缘节点建立通信且具有处理资源的节点，作为目标节点；向所述目标节点发送所述目标图片，以使所述目标节点对所述目标图片进行语义结果提取，获得语义结果。本申请解决了边缘节点之间带宽受限、视频流直接传输困难、边缘服务器负载容量有限的问题，在面对突发大流量处理时，本申请提供的基于视频语义驱动的城市大脑云边协同计算方法能提供高效的云边协同处理能力，有效保障目标跟踪、流量统计等业务流不中断。

Description

基于视频语义驱动的城市大脑云边协同计算方法及装置

技术领域

本申请涉及视频处理技术领域，尤其涉及一种基于视频语义驱动的城市大脑云边协同计算方法及装置。

背景技术

视频***是智慧交通中的重要组成部分，可用于监控道路交通、车辆行驶、违法行为等，为智慧交通提供数据支持。

如何高效处理城市大脑的海量视频流数据，这给后端信息***带来了巨大的挑战。在边云协同处理过程中，边缘服务器会就近收集多路摄像头的视频流，并对视频流进行实时处理之后产生的结果数据（包括而不限于车流量、车辆追踪信息、人流量等）发送给云侧服务器，从而大幅降低通信开销和云服务器的计算负载。

然而，在云边协同场景下需要将完整的视频流传输至相邻节点，在相邻节点中采用视频目标检测的方法进行重复的处理。在此基础上，如果遇到有突发大流量等情况，边缘服务器会发生过载而不能实时处理，导致业务数据中断等情况。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种基于视频语义驱动的城市大脑云边协同计算方法及装置。

第一方面，本申请提供一种基于视频语义驱动的城市大脑云边协同计算方法，包括：

获取视频流数据；

对所述视频流数据进行语义检测，获得语义检测结果；

根据所述语义检测结果从所述视频流数据中抽取得到目标图片；

确定与当前边缘节点建立通信且具有处理资源的节点，作为目标节点；

向所述目标节点发送所述目标图片，以使所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

可选的，所述与当前边缘节点建立通信且具有处理资源的节点包括：与所述当前边缘节点相邻的边缘节点以及中心节点；

所述确定与当前边缘节点建立通信，且具有处理资源的节点，作为目标节点，包括：

在所述当前边缘节点的图像处理队列长度超过预设队列长度阈值的情况下，根据所述相邻的边缘节点所对应的图像处理队列长度从所述相邻的边缘节点中确定目标节点；

在所述相邻的边缘节点的图像处理队列长度均超过预设队列长度阈值的情况下，将所述中心节点确定为目标节点。

可选的，所述根据所述相邻的边缘节点所对应的图像处理队列长度从所述相邻的边缘节点中确定目标节点，包括：

将图像处理队列长度最短的相邻的边缘节点确定为目标节点。

可选的，所述对所述视频流数据进行语义检测，获得语义检测结果，包括：对所述视频流数据的车牌区域进行检测，获得车牌区域检测结果。

可选的，所述对所述视频流数据的车牌区域进行检测，获得车牌区域检测结果，包括：

利用预先训练好的车牌检测模型对所述视频流数据对应的每一帧图片进行特征提取，获得不同尺度的特征图；其中，所述车牌检测模型是基于SSD目标检测算法训练得到；

利用不同长宽比和尺寸的锚框在所述特征图上生成多个候选框；

对多个所述候选框进行分类与回归预测，获得所述候选框的类别概率以及位置信息；

根据所述候选框的类别概率以及位置信息，通过非极大抑制算法从多个候选框中确定最终的候选框，并将最终的候选框所对应的类别概率以及位置信息作为车牌区域检测结果。

可选的，所述根据所述语义检测结果从所述视频流数据中抽取得到目标图片，包括：

根据所述类别概率从所述视频流数据中抽取得到包含车牌的初始目标图片；

根据所述位置信息，从所述初始目标图片中截取车牌区域，作为最终的目标图片。

第二方面，本申请还提供一种基于视频语义驱动的城市大脑云边协同计算方法，包括：

所述基于视频语义驱动的城市大脑云边协同计算***包括当前边缘节点及目标节点，所述方法包括：

所述当前边缘节点执行如上述任一项所述的基于视频语义驱动的城市大脑云边协同计算方法；

所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

可选的，所述目标节点对所述目标图片进行语义结果提取，获得语义结果，包括：

将从当前边缘节点处获取得到的目标图片存储至所述目标节点的图像处理队列中，依次对图像处理队列中的目标图片进行语义结果提取，获得语义结果。

所述目标节点对所述目标图片进行车牌识别，获得车牌识别结果。

可选的，所述目标节点对所述目标图片进行车牌识别，获得车牌识别结果，包括：

对所述目标图片进行预处理，获得预处理后图片；

对所述预处理后图片进行特征提取；

利用预先训练好的随机森林模型中的多个决策树对提取到的特征进行识别，获得多个初始识别结果；其中，所述初始识别结果与所述决策树对应，所述随机森林模型基于随机森林算法训练得到；

对所述多个初始识别结果进行投票或取均值处理，以获得最终的车牌识别结果。

可选的，所述基于视频语义驱动的城市大脑云边协同计算***还包括中心节点；

在所述目标节点对所述目标图片进行语义结果提取，获得语义结果之后，方法还包括：

所述目标节点向中心节点发送所述语义结果；

所述中心节点获取所述语义结果，并基于所述语义结果进行目标跟踪或流量统计处理，以获得视频业务处理结果。

第三方面，本申请还提供一种基于视频语义驱动的城市大脑云边协同计算装置，包括：

数据获取模块，用于获取视频流数据；

语义检测模块，用于对所述视频流数据进行语义检测，获得语义检测结果；

目标图片获取模块，用于根据所述语义检测结果从所述视频流数据中抽取得到目标图片；

目标节点确定模块，用于确定与当前边缘节点建立通信且具有处理资源的节点，作为目标节点；

目标图片发送模块，用于向所述目标节点发送所述目标图片，以使所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

第四方面，本申请还提供一种基于视频语义驱动的城市大脑云边协同计算装置，所述基于视频语义驱动的城市大脑云边协同计算***包括当前边缘节点及目标节点，所述方法包括：

当前边缘节点处理模块，用于所述当前边缘节点执行如上述任一项所述的基于视频语义驱动的城市大脑云边协同计算方法；

目标节点处理模块，用于所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

第五方面，本申请还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于视频语义驱动的城市大脑云边协同计算方法。

第六方面，本申请还提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现上述的基于视频语义驱动的城市大脑云边协同计算方法。

本申请提供的基于视频语义驱动的城市大脑云边协同计算方法及装置，其中，基于视频语义驱动的城市大脑云边协同计算方法，在当前边缘节点中，先对接收到的多路视频流数据进行语义检测，从而从多路视频流中确定包含语义信息的目标图像，进而根据相邻节点与中心节点的处理资源从相邻节点与中心节点中确定目标节点，通过仍具有处理能力的目标节点进行进一步的语义结果的识别，从而无需当前边缘节点将完整的视频流数据发送至目标节点进行业务处理，解决了边缘节点之间带宽受限、视频流直接传输困难、边缘服务器负载容量有限的问题，在面对突发大流量处理时，本申请提供的基于视频语义驱动的城市大脑云边协同计算方法能提供高效的云边协同处理能力，有效保障目标跟踪、流量统计等业务流不中断。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为相关技术的协同处理场景示意图；

图2为本申请示出的基于视频语义驱动的城市大脑云边协同计算方法的流程示意图之一；

图3为本申请示出的基于视频语义驱动的城市大脑云边协同计算方法的流程示意图之二；

图4为本申请示出的报文定时发送流程示意图；

图5为本申请示出的目标节点确定流程示意图；

图6为本申请示出的基于视频语义驱动的城市大脑云边协同计算方法的流程示意图之三；

图7为本申请示出的一种基于视频语义驱动的城市大脑云边协同计算装置的框图之一；

图8为本申请示出的一种基于视频语义驱动的城市大脑云边协同计算装置的框图之二；

图9为本申请示出的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。除非另作定义，本申请使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请说明书以及权利要求书中使用的“第一”“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“多个”或者“若干”表示两个及两个以上。“包括”或者“包含”等类似词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而且可以包括电性的连接，不管是直接的还是间接的。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

本申请提供一种基于视频语义驱动的城市大脑云边协同计算方法及装置。下面结合附图，对本申请进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

在对本申请提供的基于视频语义驱动的城市大脑云边协同计算方法及装置进行详细说明之前，先对本申请中提到的专业名词进行解释：

视频语义驱动：视频语义驱动是一种新型的视频分析技术，它利用人工智能技术，将视频中的语义信息进行提取，大幅降低后继处理的数据体量，从而实现更小的流量传输、更高效的视频分析和更快速的视频处理。与传统的视频分析技术不同，视频语义驱动不仅仅是对采集的完整图像进行分析，而是结合业务特点对图像中的语义信息进行提取和分析，从而实现更高效的分析和更快速的处理。

城市大脑：城市大脑是一种利用人工智能、大数据、5G、物联网、数字孪生、VR、AR等新一代信息技术，为城市交通治理、公共安全、应急管理、网格防控、医疗卫生、旅游、环境保护、城市精细化管理等构建的一个人工智能中枢，推动建设并打通各类城市数字化管理平台，利用实时全量的城市数据，即时修正运行短板，优化城市公共资源，实现城市治理模式、服务模式和数字产业发展的高质量突破。

边云协同计算：边云协同计算是一种通过边缘侧与云侧的协同计算，通过边缘侧对局部大量数据进行清洗、归纳和推理，并将些处理后的信息提供给云侧从而支持云侧的业务运行。边缘计算技术是在靠近物或数据源头的网络边缘侧，通过融合网络、计算、存储、应用核心能力就近提供实时边缘智能服务。边缘服务器接收端侧数据进行本地处理，但在突发大流量发生时，边缘服务器会将任务卸载到邻近的边缘服务器，从而保证高速实时的处理。

边缘节点、相邻节点和协同节点：在边云协同计算过程中，边缘节点指直接接收视频数据流，并进行业务处理的边缘服务器。边缘节点具有成本敏感性，根据路况和流量统计信息，一个边缘节点通常会接5～8路高清视频信号；相邻节点是指地理上临近的边缘节点构成相邻节点，相邻节点之间互相发送Hello报文交换任务处理队列的长度；协同节点是指本地节点负载过重等情形下，需要其他节点进行协同处理，这些协同处理的节点称为协同节点，协同节点可以是边缘节点，也可以是云侧节点。

图2为本申请示出的基于视频语义驱动的城市大脑云边协同计算方法的流程示意图之一，图3为本申请示出的基于视频语义驱动的城市大脑云边协同计算方法的流程示意图之二；如图2以及图3所示，一种基于视频语义驱动的城市大脑云边协同计算方法，该基于视频语义驱动的城市大脑云边协同计算方法应用在任一一个边缘节点，将某一边缘节点作为当前边缘节点，包括：

步骤S201，获取视频流数据。

在本步骤中，由图1所示的边云协同方式可知，每一边缘节点对应接入有多路摄像头的视频流数据，以某一边缘节点为例，获取当前边缘节点所对应的多路视频流数据。

步骤S202，对所述视频流数据进行语义检测，获得语义检测结果。

在本步骤中，其通过预设在当前边缘节点上的语义检测算法对视频流数据中的每一帧图片进行语义检测，从而获得语义检测结果。

举例来说，可以是利用目标检测算法对视频流数据进行车牌检测、行人检测、物体检测、道路检测等等，对应获得车牌检测结果、行人检测结果、物体检测结果、道路检测结果等等。

需要说明的是，此处的目标检测算法可以是R-CNN系列、SPP-Net等，也可以是YOLO系列、SSD等，本申请对此不做限定。

步骤S203，根据所述语义检测结果从所述视频流数据中抽取得到目标图片。

在本步骤中，若语义检测结果为视频流中的某一帧图片中包含特定的语义信息（该语义信息根据语义检测的目标确定，若语义检测为车牌检测，则语义信息表征为该图片包含车牌），则将包含语义信息的图像提取出来作为目标图片。若语义检测结果为图片不包含语义信息，则将不包含语义信息的图片丢弃。

步骤S204，确定与当前边缘节点建立通信且具有处理资源的节点，作为目标节点。

在本步骤中，根据与当前边缘节点相邻的边缘节点以及中心节点的处理资源情况，从相邻的边缘节点以及中心节点中确定目标节点。

其中，相邻的边缘节点与中心节点均与当前边缘节点通信连接，且在云边协同计算或边边协同计算时，当前边缘节点与相邻的边缘节点和中心节点之间进行定时的报文发送，以确保当前边缘节点与相邻的边缘节点和中心节点之间能够正常通信。如图4所示，报文内容的定时发送过程中，获取当前边缘节点的ID信息与当前的图像处理队列长度n，进而获取相邻边缘节点的地址表（ID信息等），并在定时的时间到的情况下，当前边缘节点根据地址表信息向每个相邻边缘节点发送Hello报文，该Hello报文中包括了当前边缘节点的ID信息以及当前边缘节点中图像处理队列长度n，从而使得相邻节点之间能够实时掌握另外边缘节点的图像处理队列长度。

步骤S205，向所述目标节点发送所述目标图片，以使所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

在本步骤中，在确定目标节点之后，当前边缘节点与目标节点之间通过连接请求形成链路，进而当前边缘节点将目标图片发送至目标节点，实现语义传输（以车牌检测为例，此处即为由当前边缘节点向目标节点发送车牌局部截图序列报文），由目标节点中预设的语义结果获取算法对包含语义信息的目标图片进行进一步地语义结果提取，从而获得语义结果。

举例来说，可以是利用车牌识别算法对目标图片中的车牌进行车牌识别，从而获得车牌识别结果，此处的车牌识别结果是指车牌号码。

也可以是利用人脸识别算法对目标图片中的行人进行人脸识别，以获得人脸识别结果，即行人信息。

或者是利用目标识别算法对目标图片中的物体（包括动态的与静态的，其中，动态的包括车辆等，静态的包括标志牌等）进行物体识别，以获得物体识别结果。

还可以是利用道路检测算法对目标图片中的道路进行类别识别，从而获得道路类别。

其中，车牌识别算法可以是基于机器学习的车牌识别算法，比如决策树、支持向量机等等；也可以是基于深度学习的车牌识别算法，比如SSD、YOLO系列、RCNN系列等等。

人脸识别算法可以是PNet、RNet、ONet等成熟的人脸识别算法，对此不做限定。

在获得语义结果之后，还可以利用语义结果进行目标跟踪、流量统计等，其也为针对语义结果的后续处理。中心节点对目标节点或者当前边缘节点中基于语义结果所形成的目标跟踪、流量统计等业务数据进行汇总。

需要说明的是，如果当前边缘节点本就具有处理资源，那么利用预设在当前边缘节点上的语义结果获取算法对目标图片进行语义结果提取（也即本地处理），从而获得语义结果。此时也说明当前边缘节点能够处理采集到的多路视频流数据，并不需要将数据迁移至邻近的边缘节点或者中心节点，进而也不会产生云边协同和边边协同计算过程因突发大流量等极端情况所引起的业务流中断问题。

本申请实施例提供的基于视频语义驱动的城市大脑云边协同计算方法，在当前边缘节点中，先对接收到的多路视频流数据进行语义检测，从而从多路视频流中确定包含语义信息的目标图像，进而根据相邻节点与中心节点的处理资源从相邻节点与中心节点中确定目标节点，通过仍具有处理能力的目标节点进行进一步的语义结果提取，从而无需当前边缘节点将完整的视频流数据发送至目标节点进行业务处理，解决了边缘节点之间带宽受限、视频流直接传输困难、边缘服务器负载容量有限的问题，在面对突发大流量处理时，本申请提供的基于视频语义驱动的城市大脑云边协同计算方法能提供高效的云边协同处理能力，有效保障目标跟踪、流量统计等业务流不中断。

在上述步骤S202的另一种实施例中，以车牌检测为例，所述对所述视频流数据的车牌区域进行检测，获得车牌区域检测结果，包括：

利用预先训练好的车牌检测模型对所述视频流数据对应的每一帧图片进行特征提取，获得不同尺度的特征图。

其中，所述车牌检测模型是基于SSD目标检测算法训练得到。

利用不同长宽比和尺寸的锚框在所述特征图上生成多个候选框。

对多个所述候选框进行分类与回归预测，获得所述候选框的类别概率以及位置信息。

相关技术的车牌检测算法是基于通用视频流的快速目标检测，在保证准确性的同时提高效率。主要包括检测与跟踪结合的视频目标检测、基于运动信息进行特征迁移或融合的视频流目标检测等。

其中，检测与跟踪结合的视频目标检测是一种常见的视频目标检测方法，它的基本思路是先对视频中每一帧进行静态图像的目标检测，然后使用多目标跟踪算法对目标框进行跟踪，使用跟踪的结果对之前的检测结果进行修正，以提高稳定性和连续性。这种方法的优点是可以利用已有的单帧目标检测器和多目标***，不需要额外设计复杂的网络结构或训练过程。这种方法的缺点是依赖于单帧目标检测器和多目标***的性能，如果其中一个出现错误，会影响整个视频目标检测的效果。一个代表性的工作是T-CNN，它提出了一种基于跟踪和回归的视频目标检测框架，首先使用Faster R-CNN对视频中每一帧进行目标检测，然后使用MDNet对检测结果进行多目标跟踪，最后使用一个回归网络对跟踪结果进行优化和重排。

基于运动信息进行特征迁移或融合的视频流目标检测是一种利用光流等运动信息来估计相邻帧之间的特征变化，然后将特征从关键帧传递或融合到其他帧，以减少重复计算和提高一致性的视频目标检测方法。这种方法的优点是可以利用运动信息来增强视频中的时空信息，提高目标检测的准确性和鲁棒性。这种方法的缺点是需要额外计算光流等运动信息，增加了计算量和时间开销。一些代表性的工作例如Deep Feature Flow，它提出了一种基于光流的特征传递方法，将关键帧的特征通过光流映射到其他帧，然后用一个融合模块将传递的特征和当前帧的特征进行融合，最后用一个检测模块进行目标检测。

本申请中，先利用SSD算法进行车牌区域检测，进而对包含车牌的目标图像进行进一步地车牌识别，中心节点获取各个车牌识别结果之后进行目标跟踪或流量统计，中间不依赖于单帧目标检测器和多目标***的性能，也不需要额外计算光流等运动信息，从而能够在保证检测准确率的同时还能提高效率。

具体地，本申请中的SSD（Single-Shot-MultiBox-Detector）算法是一种基于单阶段（single-stage）的目标检测方法，它结合了深度卷积神经网络和多尺度特征图的思想，可以同时进行目标的位置定位和类别预测。SSD目标检测方法用于车牌检测的方法由以下阶段组成：

多尺度特征图生成：SSD使用一个基础的卷积神经网络（通常是VGG或ResNet等）作为特征提取器。在特征提取器中，通过在不同网络层之后添加额外的卷积层获得不同尺度的特征图。这些特征图具有不同的感受野，能够在不同大小的目标上进行检测。

锚框（Anchor Boxes）生成：在上述获得的不同尺度的特征图上，SSD算法通过不同长宽比和大小的锚框中心化来生成候选框。其中，锚框是一组预定义的矩形框，覆盖了不同形状和尺寸的目标。

特征图分类和回归：对于生成的候选框，SSD通过卷积和全连接层进行分类和回归预测。其中，分类预测使用softmax函数输出每个候选框属于不同类别的概率。回归预测则用于调整锚框的位置和大小，使其更好地匹配车牌。

非最大抑制（Non-Maximum Suppression，NMS）：为了去除冗余的候选框，SSD使用NMS算法来筛选出最终的检测结果。NMS算法根据候选框的置信度和重叠度进行排序和筛选，以保留置信度高且不重叠的检测框。

另外，在训练过程中还包括：

损失函数：SSD使用多任务损失函数来训练模型。该多任务损失函数包括分类损失和位置回归损失。其中，分类损失使用交叉熵损失函数，用于度量分类预测与实际标签之间的差异。位置回归损失使用Smooth L1损失函数，用于度量预测边界框与实际边界框之间的差异。基于多任务损失函数以及训练图像与对应的标签信息训练得到车牌检测模型。

在上述步骤S203的另一种实施例中，以车牌检测为例，所述根据所述语义检测结果从所述视频流数据中抽取得到目标图片，包括：

在本实施例中，为了进一步减少云边计算或边边计算过程中的计算量，对包含车牌的图片进行裁剪，具体是根据车牌区域检测结果中的类别概率确定初始目标图片（若表征为包含车牌区域的概率大于概率阈值，则确定为初始目标图片；若概率小于概率阈值则说明不包含车牌区域，不进行处理），进一步根据车牌区域检测结果中的位置信息对初始目标图片中的车牌区域进行裁剪，从而将裁剪得到的图片作为最终的目标图片。

在上述步骤S204的另一种实施例中，所述与当前边缘节点建立通信且具有处理资源的节点包括：与所述当前边缘节点相邻的边缘节点以及中心节点。

在所述当前边缘节点的图像处理队列长度超过预设队列长度阈值的情况下，根据所述相邻的边缘节点所对应的图像处理队列长度从所述相邻的边缘节点中确定目标节点。

在本实施例中，首先是确定当前边缘节点是否具备处理目标图片的能力，也即检测当前边缘节点中图像处理队列（/>）的长度n是否小于等于预设队列长度阈值n_max，若n≤n_max，则将封装为对象/>的目标图像添加到当前边缘节点的图像处理队列/>中，此时，新的/>。然后，利用预设在当前边缘节点中的语义结果获取算法依次对新的队列Q中的目标图像进行处理，获得语义结果。

若当前边缘节点中图像处理队列的长度n大于n_max，则确定当前边缘节点没有能力进行语义结果获取，需要通过边云协同或边边协同的方式完成语义结果获取。

如图5所示，通过与相邻边缘节点之间的定时报文（该报文中包括相邻节点的ID信息与相邻节点目前的图像处理队列长度，比如Hello报文）通信，确定相邻边缘节点中的图像处理队列Q’的长度n’是否小于等于预设队列长度阈值，若n’≤/>，则确定相邻边缘节点为目标节点，并将封装成对象/>的目标图像发送至目标节点，并添加到图像处理队列Q’中，形成新的Q’，利用目标节点中预设的语义结果获取算法对新的Q’中的目标图像进行处理，获得语义结果。

更进一步地，通过比对与当前边缘节点通信的多个相邻边缘节点中的图像处理队列Q’的长度n’，将长度最短n_min的相邻边缘节点确定为目标节点。

如果比对完所有相邻边缘节点之后，所有相邻边缘节点的图像处理队列Q’的长度n’均大于预设队列长度阈值，则判定相邻边缘节点均没有处理能力，需要通过云边协同的方式完成语义结果获取，也即将云端的中心节点确定为目标节点。当前边缘节点将封装成对象/>的目标图像发送至中心节点，由预设在中心节点上的语义结果获取算法对目标图像进行语义结果获取。

需要说明的是，不同边缘节点上的图像处理队列长度均不同，当前边缘节点可以通过与相邻边缘节点之间实时通信获取相邻边缘节点上的图像处理队列长度。不同边缘节点上的预设队列长度阈值可以相同，也可以不相同，对此不做限定。

各个边缘节点与中心节点上均预设有语义检测算法与语义结果获取算法。

除此之外，各个边缘节点会在一开始进行初始化，其在初始化后获得各自的预设队列长度阈值以及各个边缘节点的ID信息，该ID信息用于作为边缘节点之间通信的依据。

图6为本申请示出的基于视频语义驱动的城市大脑云边协同计算方法的流程示意图之三，如图6所示，一种基于视频语义驱动的城市大脑云边协同计算方法，该基于视频语义驱动的城市大脑云边协同计算方法应用在目标节点与当前边缘节点，此处的目标节点为上述任一实施例中通过基于视频语义驱动的城市大脑云边协同计算方法所确定的节点，所述方法包括：

步骤S601，所述当前边缘节点执行如上述的基于视频语义驱动的城市大脑云边协同计算方法。

在本步骤中，当前边缘节点先通过上述基于视频语义驱动的城市大脑云边协同计算方法确定目标节点，并将目标图片发送至目标节点，具体参见上文描述。

步骤S602，所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

在本步骤中，目标节点在获取目标图片之后，利用预设在目标节点上的语义结果获取算法对目标图片进行识别，从而获得语义结果。

举例来说，可以利用车牌识别算法对包含车牌区域的目标图片进行车牌识别，获得车牌识别结果。

也可以利用人脸识别算法对包含行人的目标图片进行人脸识别，获得人脸识别结果。

本申请实施例提供的基于视频语义驱动的城市大脑云边协同计算方法，目标节点仅针对视频流数据中包含语义信息的目标图片进行语义结果获取，而不需要从当前边缘节点中获取完整的视频流数据，从而缓解了当前边缘节点与相邻边缘节点或中心节点之间的传输压力，且降低了目标节点上的计算压力，还能提高云边协同处理能力，有效保障目标跟踪、流量统计等业务流不中断，足以面对突发大流量场景。

在上述步骤S602的另一种实施例中，所述目标节点对所述目标图片进行语义结果提取，获得语义结果，包括：

将从当前边缘节点处获取得到的目标图片存储至所述目标节点的图像处理队列中，依次对图像处理队列中的目标图片进行语义结果提取，获得语义结果。也即，目标节点将获取到的目标图片存储至已有的图像处理队列中，进而利用预设的语义结果获取算法依次对图像处理队列中的目标图片进行语义结果提取，从而获得语义结果。

在上述步骤S602的另一种实施例中，以车牌识别为例，所述目标节点对所述目标图片进行车牌识别，获得车牌识别结果，包括：

对所述目标图片进行预处理，获得预处理后图片。

对所述预处理后图片进行特征提取。

利用预先训练好的随机森林模型中的多个决策树对提取到的特征进行识别，获得多个初始识别结果。

其中，所述初始识别结果与所述决策树对应，所述随机森林模型基于随机森林算法训练得到。

在本实施例中，车牌检测算法为随机森林算法，该随机森林算法是一种由决策树构成的集成算法，需要利用采集到的数据进行训练得到，具体训练过程为：

首先，通过随机样本选择从采集到的数据中使用有放回抽样（bootstrapsampling）的方式随机选择样本，构建多个训练集。每个训练集的大小通常与原始数据集相同，但其中部分样本可能重复出现，而部分样本则未被选择到。

然后，构建随机特征构建决策树，对于每个决策树的节点，在进行特征划分时，随机选择一部分特征进行考虑。通常是从所有特征中随机选择一个子集，然后从中选取最佳特征进行划分。对于每个训练集，使用随机选取的特征子集构建一个决策树。决策树的构建可以使用常见的决策树算法，如CART（Classification and Regression Trees）算法或者其他，对此不做限定。

接下来是随机森林的集成，其将多个决策树组合成随机森林模型。具体可以是通过投票（分类问题）或取平均值（回归问题）的方式来集成决策树的预测结果。

重复以上步骤，构建多个决策树并形成一个随机森林模型。可以通过设定决策树数量或其他终止条件来控制随机森林的规模。

最后，使用评估数据集来评估随机森林模型的性能和泛化能力。常见的评估指标包括准确率、精确率、召回率、F1值等。在随机森林模型的性能和泛化能力达到一定要求之后，利用随机森林模型进行车牌识别。

在获得训练好的随机森林模型之后，先获取目标图片，对目标图片进行图像去噪、灰度化、二值化等预处理，并对预处理后图片进行特征提取，获得提取后特征，将提取得到的特征输入训练好的随机森林模型中，通过随机森林模型中各个决策树预测得到初始识别结果，初始识别结果的数量与决策树的数量对应。最后，通过投票或取平均值的方式得到最终的车牌识别结果。

相对于传统的车牌识别算法而言，本申请中基于随机森林的车牌识别算法具有较好的鲁棒性和准确性，能够有效地处理车牌图像中的噪声和复杂背景，适用于各种光照条件和车牌类型。

进一步地，所述基于视频语义驱动的城市大脑云边协同计算***还包括中心节点；

所述目标节点向中心节点发送所述语义结果。

需要说明的是，在目标节点为相邻边缘节点的情况下，需要将语义结果发送至中心节点，如果目标节点本就为中心节点，则不需要再进行语义结果的发送。除此之外，当前边缘节点中的语义结果也需要发送至中心节点。

中心节点在获得到语义结果之后，进行后续的目标跟踪、流量统计等业务处理。

另外，本申请中边缘节点采用MLU220智能模组是SOC边缘加速芯片，该模组采用寒武纪国产化的MLUv02架构，基于***大小的模组上可以实现16TOPS AI算力的单***解决方案，功耗仅为15W。MLU220模组可广泛应用于智慧电力，智能制造，智慧轨交，智慧能源等边缘计算场景，支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用，实现各种业务的边缘端智能化解决方案。采用TSMC 16nm工艺，它具有高算力，低功耗和丰富的I/O接口。同时，MLU220芯片采用了寒武纪在处理器架构领域的创新性技术，其架构为寒武纪最新一代智能处理器MLUv02，实现最大32TOPS（INT4）算力，而功耗降低为10W。基于上述硬件，确保基于视频语义驱动的城市大脑云边协同计算能够更加高效。

本申请还提供一种基于视频语义驱动的城市大脑云边协同计算装置，其与基于视频语义驱动的城市大脑云边协同计算方法相对应，如图7所示，图7是本申请示出的一种基于视频语义驱动的城市大脑云边协同计算装置的框图之一，所述装置包括：

数据获取模块701，用于获取视频流数据；

语义检测模块702，用于对所述视频流数据进行语义检测，获得语义检测结果；

目标图片获取模块703，用于根据所述语义检测结果从所述视频流数据中抽取得到目标图片；

目标节点确定模块704，用于确定与当前边缘节点建立通信且具有处理资源的节点，作为目标节点；

目标图片发送模块705，用于向所述目标节点发送所述目标图片，以使所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

本申请还提供一种基于视频语义驱动的城市大脑云边协同计算装置，其与基于视频语义驱动的城市大脑云边协同计算方法相对应，如图8所示，图8是本申请示出的一种基于视频语义驱动的城市大脑云边协同计算装置的框图之二，所述基于视频语义驱动的城市大脑云边协同计算***包括当前边缘节点及目标节点，所述方法包括：

当前边缘节点处理模块801，用于所述当前边缘节点执行如上述任一项所述的基于视频语义驱动的城市大脑云边协同计算方法；

目标节点处理模块802，用于所述目标节点对所述目标图片进行语义结果提取，获得语义结果。

上述基于视频语义驱动的城市大脑云边协同计算装置中各个模块的功能和作用的实现过程具体详见上述基于视频语义驱动的城市大脑云边协同计算方法中对应步骤的实现过程，在此不再赘述。

本申请实施例还提供了一种电子设备，如图9所示，电子设备900可以包括计算机可读存储介质990，计算机可读存储介质990可以存储有可被处理器910调用的程序，可以包括非易失性存储介质。在一些实施例中，电子设备900可以包括内存980和接口970。在一些实施例中，电子设备900还可以根据实际应用包括其他硬件。

本申请实施例的计算机可读存储介质990，其上存储有程序，该程序被处理器910执行时，用于实现如上描述的基于视频语义驱动的城市大脑云边协同计算方法。

本申请可采用在一个或多个其中包含有程序代码的计算机可读存储介质990（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。计算机可读存储介质990包括永久性和非永久性、可移动和非可移动媒体，可以任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质990的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本申请任一实施例所述的基于视频语义驱动的城市大脑云边协同计算方法。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于视频语义驱动的城市大脑云边协同计算方法，其特征在于，包括：

获取视频流数据；

对所述视频流数据进行语义检测，获得语义检测结果；

向所述目标节点发送所述目标图片，以使所述目标节点对所述目标图片进行语义结果提取，获得语义结果；

其中，所述对所述视频流数据进行语义检测，获得语义检测结果包括：

对所述视频流数据的车牌区域进行检测，获得车牌区域检测结果；

所述对所述视频流数据的车牌区域进行检测，获得车牌区域检测结果，包括：

2.如权利要求1所述的方法，其特征在于，所述与当前边缘节点建立通信且具有处理资源的节点包括：与所述当前边缘节点相邻的边缘节点以及中心节点；

3.如权利要求2所述的方法，其特征在于，所述根据所述相邻的边缘节点所对应的图像处理队列长度从所述相邻的边缘节点中确定目标节点，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述语义检测结果从所述视频流数据中抽取得到目标图片，包括：

5.一种基于视频语义驱动的城市大脑云边协同计算方法，其特征在于，所述基于视频语义驱动的城市大脑云边协同计算***包括当前边缘节点及目标节点，所述方法包括：

所述当前边缘节点执行如权利要求1至4任一项所述的基于视频语义驱动的城市大脑云边协同计算方法；

6.如权利要求5所述的方法，其特征在于，所述目标节点对所述目标图片进行语义结果提取，获得语义结果，包括：

7.如权利要求6所述的方法，其特征在于，所述目标节点对所述目标图片进行语义结果提取，获得语义结果，包括：

8.如权利要求7所述的方法，其特征在于，所述目标节点对所述目标图片进行车牌识别，获得车牌识别结果，包括：

对所述目标图片进行预处理，获得预处理后图片；

对所述预处理后图片进行特征提取；

9.如权利要求5-8任一所述的方法，其特征在于，所述基于视频语义驱动的城市大脑云边协同计算***还包括中心节点；

所述目标节点向中心节点发送所述语义结果；

10.一种基于视频语义驱动的城市大脑云边协同计算装置，其特征在于，包括：

数据获取模块，用于获取视频流数据；

根据所述候选框的类别概率以及位置信息，通过非极大抑制算法从多个候选框中确定最终的候选框，并将最终的候选框所对应的类别概率以及位置信息作为车牌区域检测结果；

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~9任一项所述的方法。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~9任一项所述的方法。