CN117710868B - 一种对实时视频目标的优化提取***及方法 - Google Patents
一种对实时视频目标的优化提取***及方法 Download PDFInfo
- Publication number
- CN117710868B CN117710868B CN202410086188.XA CN202410086188A CN117710868B CN 117710868 B CN117710868 B CN 117710868B CN 202410086188 A CN202410086188 A CN 202410086188A CN 117710868 B CN117710868 B CN 117710868B
- Authority
- CN
- China
- Prior art keywords
- video
- prediction
- layer
- algorithm
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 88
- 238000005457 optimization Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims description 25
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000006872 improvement Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims 1
- 230000007704 transition Effects 0.000 abstract description 3
- 230000036544 posture Effects 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种对实时视频目标的优化提取***及方法,通过现场摄像机采集SDI视频信号,对视频信号进行接收和检测,检测成功后对SDI视频信号进行拆帧处理,并把拆解后的且符合算法格式要求的图像帧发送给视频目标提取优化模块,对原有算法进行改进优化,最终根据改进优化的算法对识别结果进行目标提取和优化,准确地对视频目标进行分割,并且可以防止误识别非目标,当视频目标处于不常见的姿态时,也能进行准确分割,在视频目标提取过程中的边缘处过渡更加平滑,不会生成生硬的边界,鲁棒性更高,能够保证预测精度。
Description
技术领域
本发明属于视频处理技术领域,具体涉及一种对实时视频目标的优化提取***及方法。
背景技术
随着科技的进步,智慧城市的发展也日新月异,人工智能技术已被应用于各种行业之中,例如,在视频处理领域,将计算机视觉技术用于图像处理和目标分析等已成为了当今的发展趋势,特别是用于视频监控***的目标识别技术,既要使其能够在复杂的环境中也能够准确稳定的运行,又要保证其实时性。
目前大多视频目标提取技术主要以FCN算法为主体,FCN算法是一种对目标进行像素级分类的全卷积语义分割算法,该模型以一系列卷积层开始,这些卷积层用于提取目标的低级特征。这些层可以捕捉到边缘、纹理等低级视觉特征。FCN算法使用VGG的网络主干来提取目标特征。如果给定一张尺寸为224x224x3的待分割的图片,会先经过5层卷积,特征图的尺寸变为了原来图片的1/32,此时的特征图尺寸为7x7。然后第6层使用卷积核尺寸为7x7的卷积得到尺寸为1x1的特征图。在第7层使用了卷积核尺寸为1x1的卷积,得到一个长度为4096的一维向量。第8层卷积输出通道和数据集的类别有关,PASCAL数据集共有1个背景类及20类物体,因此在第8层卷积的输出通道数为21。最后,经过最后一层转置卷积或者上采样对特征图放大到原图的尺寸进行预测,其中通道数为21,对应着数据集中的每个类别。使用一个逐像素分类器,将每个像素分配到不同的类别中。这样就可以生成一个与原始目标尺寸相同的分割预测结果,在训练的过程中使用交叉熵对每个像素进行分类监督。
但是,如果直接把语义分割FCN算法应用在需要进行视频目标提取的场景会有如下缺点:
提取出的视频目标边缘处比较生硬,不能平滑过渡。由于语义分割是像素级的分类,在视频目标边缘处的显示效果会比较生硬;无法从目标中提取指定的视频目标。目前的语义分割算法会对目标中的所有视频目标进行提取,但是在某些特定场景中,我们只希望提取出特定的视频目标;对于运动模糊场景下鲁棒性较差。目前的分割算法在视频目标边缘由于拍摄条件不理想或者目标自身运动造成的模糊,使得目标的边缘模糊不清,此时的预测效果很差;
发明内容
针对上述现有技术的不足,本申请提供一种对实时视频目标的优化提取***及方法。
第一方面本申请提出一种对实时视频目标的优化提取***,***包括SDI视频信号获取模块、视频信号转换模块、算法改进模块、视频目标提取优化模块和后期处理模块;
所述SDI视频信号获取模块,用于对安装在视频采集现场的摄像机采集的SDI视频信号进行获取;
所述视频信号转换模块,用于通过SDI接口对采集的SDI视频信号进行接收和检测,检测成功后对SDI视频信号进行拆帧处理,将所述SDI视频信号拆解为符合算法格式要求的图像帧后发送给视频目标提取优化模块;
所述算法改进模块,用于对***内预置的FCN算法的网络主干进行替换以及对网络结构进行增加,在优化过程中增加边缘损失计算函数和数据合成算法,最终得到视频目标提取算法,将视频目标提取算法传送给视频目标提取优化模块;
所述视频目标提取优化模块,用于根据时码顺序对图像帧中的视频目标进行识别得到识别结果,并根据视频目标提取算法对识别结果进行视频目标提取和优化,得到视频目标优化提取结果;
所述后期处理模块,用于将视频目标优化提取结果编码为符合格式标准要求的视频进行后期制作/直接发布。
在一些实施例的一些可选的实现方式中,所述算法改进模块包括网络主干替换单元;
所述网络主干替换单元,用于通过残差神经网络对所述FCN算法中的网络主干进行替换,得到第一网络结构。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括网络结构添加单元;
所述网络结构添加单元,用于在所述第一网络结构的基础上增加第二网络结构,得到第三网络结构,所述第二网络结构为FPN网络结构,所述FPN网络结构包括多个目标特征尺寸层级的特征融合层,所述特征融合层通过通道维度按照由小到大的目标特征尺寸层级顺序进行拼接集成,用于输出拼接集成特征。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括预测辅助分支添加单元;
所述预测辅助分支添加单元,用于在所述第三网络结构的输出处增加预测辅助分支,其中,增加所述预测辅助分支的步骤为:
根据目标特征尺寸层级在所述特征融合层的输出处增加对应数量的预测头,所述预测头包括第一卷积核,所述第一卷积核的尺寸与所述特征融合层的目标特征尺寸相对应。
在一些实施例的一些可选的实现方式中,所述预测辅助分支添加单元还包括整合输出组件和预测传递组件;
所述整合输出组件,用于为所述预测辅助分支添加整合输出层,所述整合输出层用于将所述预测头的预测结果和所述拼接集成特征进行二次拼接得到拼接整合特征,所述拼接整合特征的尺寸与FPN网络结构中最大目标特征的尺寸相同。
所述预测传递组件,用于在所述预测辅助分支的整合输出处配置预测传递层,所述预测传递层包括至少一个上采样层和两个第二卷积核,所述第二卷积核的尺寸大小与所述第一卷积核的尺寸相对应。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括边界框分支添加单元;
所述边界框分支添加单元,用于在所述FPN网络结构的最小目标特征尺寸层级对应的特征融合层的输出处配置边界框分支,所述边界框分支包括平均池化层、第一全连接层和第二全连接层,所述平均池化层的输入与最小目标特征尺寸层级对应的特征融合层的输出连接,所述平均池化层的输出与第一全连接层的输入连接,所述第一全连接层的输出与所述第二全连接层的输入连接,所述第二全连接层用于输出视频目标在待处理数据中的坐标位置。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括边缘损失计算单元和数据合成计算单元;
所述边缘损失计算单元,用于在所述预测辅助分支的模型训练过程中增加边缘损失函数,所述边缘损失函数用于根据图像帧的真实标注结果、预测头的预测结果和视频目标轮廓边缘二值图计算得到图像帧的边缘损失;
所述数据合成计算单元,用于在整合输出层的数据处理过程中增加数据合成算法,所述数据合成算法用于根据图像帧的真实标注结果、待合成的图像帧背景和待处理数据计算得到数据合成的结果。
第二方面本申请提出一种对实时视频目标的优化提取方法,包括以下步骤:
通过安装在视频采集现场的摄像机获取SDI视频信号;
对所述SDI视频信号进行接收和检测,检测成功后对SDI视频信号进行拆帧处理,将所述SDI视频信号拆解为符合算法格式要求的图像帧;
对***内预置的FCN算法的网络主干进行替换以及对网络结构进行增加,在优化过程中增加边缘损失计算函数和数据合成算法,最终得到视频目标提取算法;
根据时码顺序对图像帧中的视频目标进行识别得到识别结果,并根据视频目标提取算法对识别结果进行视频目标提取和优化,得到视频目标优化提取结果;
将视频目标优化提取结果编码为符合格式标准要求的视频进行后期制作/直接发布。
第三方面本申请提出一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面本申请提出一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的有益效果:
首先,通过现场摄像机采集稳定、清晰的SDI视频信号,对视频信号进行接收和检测,检测成功后由音视频处理程序对SDI视频信号进行拆帧处理,并把拆解后的且符合算法格式要求的图像帧发送给视频目标提取优化模块,其中,通过算法改进模块对原有算法进行改进优化,最终由视频目标提取优化模块根据时码顺序对图像帧中的运动员目标进行识别,并根据改进优化的算法对识别结果进行目标提取和优化,准确地对视频目标进行分割,并且可以防止误识别非目标,当视频目标处于不常见的姿态时,也能进行准确分割,本方案在视频目标提取过程中的边缘处过渡更加平滑,不会生成生硬的边界,本方案在运动模糊场景下进行视频目标提取处理时的鲁棒性更高,能够保证预测精度。
附图说明
图1为本发明的***原理图。
图2为残差连接的结构示意图。
图3为本发明的总体流程图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制;相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
第一方面本申请提出一种对实时视频目标的优化提取***,***包括SDI视频信号获取模块、视频信号转换模块、算法改进模块、视频目标提取优化模块和后期处理模块;
所述SDI视频信号获取模块,用于对安装在视频采集现场的摄像机采集的SDI视频信号进行获取;
所述视频信号转换模块,用于通过SDI接口对采集的SDI视频信号进行接收和检测,检测成功后对SDI视频信号进行拆帧处理,将所述SDI视频信号拆解为符合算法格式要求的图像帧后发送给视频目标提取优化模块;
所述算法改进模块,用于对***内预置的FCN算法的网络结构进行主干替换以及增加网络结构的优化,在优化过程中增加边缘损失计算函数和数据合成算法,最终得到视频目标提取算法,将视频目标提取算法传送给视频目标提取优化模块;
在一些实施例的一些可选的实现方式中,所述算法改进模块包括网络主干替换单元;
所述网络主干替换单元,用于通过残差神经网络对所述FCN算法中的网络主干进行替换,得到第一网络结构。
其中,基于FCN算法的算法原理进行改进,首先替换网络主干,原始的FCN算法采用VGG作为网络主干,VGG的网络结构非常简洁,它将卷积层、全连接层等结构按照串联顺序简单地连接到一起,每层结构仅接受来自上一层的信息,并在本层处理后传递给下一层,VGG只使用了3x3的卷积核来提取特征,同时使用最大池化层来降低特征的尺寸。但当VGG模型继续增加卷积的层数时,如从16层增加到19层,VGG的效果并没有明显提升,这主要原因是当网络层次加深后,这种单一的连接方式会导致神经网络性能退化,该网络结构会导致计算损失时梯度无法回传,出现梯度消失的现象。
值得一提的是,在实时视频中,视频目标可能会出现大幅度的运动,并且姿态变换剧烈,所以需要使用特征提取更强的网络主干,因此把VGG替换为残差神经网络。
残差神经网络指的是在传统卷积神经网络中加入残差学习的思想,解决了深层网络中梯度弥散和精度下降的问题,使网络能够越来越深,既保证了精度,又控制了速度。在残差神经网络中,基于VGG这种单一的连接方式,引入了shortcut connections(残差连接,指使用残差连接来跳过一些层)。shortcut connections能跨越几个层,将输入x直接映射到输出端,与输出相加。这样做导致的直接结果是,在神经网络中加入上述的结构不再会导致神经网络的退化。
残差连接的具体结构如图2所示:
其中,x表示残差连接的输入,weight layer表示当前残差模块中的两个卷积层,这两层卷积的输出用F(x)表示。
由于引入了残差连接,导致最终输出由F(x)变为F(x)+x。
除此之外,残差神经网络还增加batch normalization(批量归一化层),该层使得特征进行了归一化,使得在模型训练的过程中更加容易收敛。
另外,残差神经网络使用relu激活函数,使得在训练的过程中减小了梯度消失和梯度***现象,也使得算法可以更多层的卷积,提高算法提取基础特征的能力。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括网络结构添加单元;
所述网络结构添加单元,用于在所述第一网络结构的基础上增加第二网络结构,得到第三网络结构,所述第二网络结构为FPN网络结构,所述FPN网络结构包括多个目标特征尺寸层级的特征融合层,所述特征融合层通过通道维度按照由小到大的目标特征尺寸层级顺序进行拼接集成,用于输出拼接集成特征。
其次,FCN算法在进行预测时并没有利用浅层的不同尺寸特征,因此并不能充分利用网络主干提取的特征。由于在视频目标运动场景下,视频目标动作幅度大,在图像帧中呈现的像素尺寸变换较大。为了更好地适应不同尺寸下的我们需要对不同层级的特征进行融合,因此在第二步,增加FPN结构,即增加第二网络结构,得到第三网络结构。
FPN网络结构是一种特征融合网络,可以将较浅层的不同尺寸特征进行融合,例如:输入图像帧的尺寸为512x512x3,该图像帧经过网络主干抽取的c1, c2, c3, c4, c5特征尺寸分别为256x256,128x128,64x64,32x32,16x16,将这些特征和FPN模块进行连接,并输出了新的融合后的相同尺寸的特征p1(256x256), p2(128x128), p3(64x64), p4(32x32), p5(16x16),使得算法获取到更加丰富的特征。之后我们将这些不同尺寸的特征统一缩放为尺寸256x256,并沿着通道维度进行了拼接(concate)得到了集成后的特征,集成后的特征尺寸仍然为256x256。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括预测辅助分支添加单元;
所述预测辅助分支添加单元,用于在所述第三网络结构的输出处增加预测辅助分支,其中,增加所述预测辅助分支的步骤为:
根据目标特征尺寸层级在所述特征融合层的输出处增加对应数量的预测头,所述预测头包括第一卷积核,所述第一卷积核的尺寸与所述特征融合层的目标特征尺寸相对应。
在进行优化的过程中,模型有时候会把视频目标附近的其他实体元素(如观众、座椅、运动器材)分割出来,但是我们希望模型能更加关注视频目标自身而不是周围的实体元素。
由于增加了FPN结构能获取不同尺寸的目标特征图,所以在FPN网络结构的特征融合层的输出处(p5)得到的特征也增加预测辅助分支,增加该分支的目的是为了辅助监督全局特征,让该特征更好地学习视频目标整体的轮廓范围,让模型更加关注视频目标的区域注意力。
在一些实施例的一些可选的实现方式中,所述预测辅助分支添加单元还包括整合输出组件和预测传递组件;
所述整合输出组件,用于为所述预测辅助分支添加整合输出层,所述整合输出层用于将所述预测头的预测结果和所述拼接集成特征进行二次拼接得到拼接整合特征,所述拼接整合特征的尺寸与FPN网络结构中最大目标特征的尺寸相同。
进一步的,由于FPN网络结构的特征融合层的输出处的特征分辨率为16x16,在后面增加了一层核尺寸为3x3的卷积并来实现预测辅助,该分支的输出尺寸也为16x16,训练的过程中也会计算该分支的损失函数,把该分支的预测结果和FPN网络结构集成后的特征进行拼接,并把拼接后的特征作为最终集成后的integration(整合输出),通过整合输出层进行输出,整合输出特征的尺寸和FPN网络结构中的p1处的尺寸相同均为255x256。
所述预测传递组件,用于在所述预测辅助分支的整合输出处配置预测传递层,所述预测传递层包括至少一个上采样层和两个第二卷积核,所述第二卷积核的尺寸大小与所述第一卷积核的尺寸相对应。
其中,按照FCN算法的思路,在得到最终的整合输出特征后会直接进行上采样到原图尺寸进行输出预测,但是我们认为直接上采样会造成精度的损失,需要加入额外的参数来弥补这种损失,所以在最终的预测head之前进一步增加新的预测传递层,具体地,预测传递层是由1个上采样及2个核为3x3的卷积构成。由于进行了上采样,所以该模块输出的结果是512x512,这样就恢复到了原图的尺寸,另外,考虑到多次卷积可能会导致细节纹理特征的损失,所以,在得到预测传递层的特征后我们还把原图和该预测传递层输出的特征进行了拼接作为预测传递层的最终输出特征。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括边界框分支添加单元;
所述边界框分支添加单元,用于在所述FPN网络结构的最小目标特征尺寸层级对应的特征融合层的输出处配置边界框分支,所述边界框分支包括平均池化层、第一全连接层和第二全连接层,所述平均池化层的输入与最小目标特征尺寸层级对应的特征融合层的输出连接,所述平均池化层的输出与第一全连接层的输入连接,所述第一全连接层的输出与所述第二全连接层的输入连接,所述第二全连接层用于输出视频目标在待处理数据中的坐标位置。
其中,在FPN网络结构的p5处额外增加了一个bbox边界框分支,边界框分支用来预测当前视频目标在图像帧中的坐标位置,使用平均池化层把p5的特征变为一个特征向量,然后用一个128个节点的第一全连接层进行过渡,最后使用4个节点的第二全连接层输出运动员的坐标left,top,right, bottom,分别代表相对于p5输出的特征图中心点的左上角、右下角、水平和垂直方向的偏移量。
在一些实施例的一些可选的实现方式中,所述算法改进模块还包括边缘损失计算单元和数据合成计算单元;
所述边缘损失计算单元,用于在所述预测辅助分支的模型训练过程中增加边缘损失函数,所述边缘损失函数用于根据图像帧的真实标注结果、预测头的预测结果和视频目标轮廓边缘二值图计算得到图像帧的边缘损失;
其中,边缘损失计算方法包括:
loss_boundary=|alpha-alpha_prediction|*boundary_mask;
alpha为图像帧的真实标注结果,alpha_prediction表示预测头的预测结果,boundary_mask表示视频目标的轮廓边缘二值图。
其中,通常视频目标提取算法计算的是整个前景区域的整体,会造成忽略视频目标边缘处的局部损失,考虑到视频目标可能动作比较丰富,我们希望算法在训练过程中更加关注视频目标的边缘,因此增加了边缘损失计算;
所述数据合成计算单元,用于在整合输出层的数据处理过程中增加数据合成算法,所述数据合成算法用于根据图像帧的真实标注结果、待合成的图像帧背景和待处理数据计算得到数据合成的结果。
数据合成算法的计算公式为:
result=alpha*image+(1-alpha)*background;
其中,result表示数据合成的结果,alpha为图像帧的真实标注结果,background待合成的图像帧,image表示待处理数据。
最后,为了提高数据的丰富度,在训练过程中通常会使用数据增强。我们数据增强方法,颜色亮度增强、随机缩放,另外,在实时视频中,视频目标可能会出现平躺、倒立等现象,为了适应这种场景等识别,增加随机旋转很大角度的数据增强,随机把视频目标旋转-180°到+180°,可以有效提高视频目标倒立时提取不准确的现象,另外,视频目标在做某些动作时速度比较快,会造成运动模糊,因此随机使用尺寸为3、5、7、9、11、13的高斯核进行高斯模糊,来模拟视频目标的运动模糊。
所述视频目标提取优化模块,用于根据时码顺序对图像帧中的视频目标进行识别得到识别结果,并根据视频目标提取算法对识别结果进行视频目标提取和优化,得到视频目标优化提取结果;
所述后期处理模块,用于将视频目标优化提取结果编码为符合格式标准要求的视频进行后期制作/直接发布。
第二方面本申请提出一种对实时视频目标的优化提取方法,包括以下步骤:
S100:通过安装在视频采集现场的摄像机获取SDI视频信号;
S200:对所述SDI视频信号进行接收和检测,检测成功后对SDI视频信号进行拆帧处理,将所述SDI视频信号拆解为符合算法格式要求的图像帧;
S300:对***内预置的FCN算法的网络结构进行主干替换以及增加网络结构的优化,在优化过程中增加边缘损失计算函数和数据合成算法,最终得到视频目标提取算法;
S400:根据时码顺序对图像帧中的视频目标进行识别得到识别结果,并根据视频目标提取算法对识别结果进行视频目标提取和优化,得到视频目标优化提取结果;
S500:将视频目标优化提取结果编码为符合格式标准要求的视频进行后期制作/直接发布。
第三方面本申请提出一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面本申请提出一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述方法的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅是本发明优选的实施方式,需指出的是,对于本领域技术人员在不脱离本技术方案的前提下,作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。
Claims (7)
1.一种对实时视频目标的优化提取***,其特征在于:***包括SDI视频信号获取模块、视频信号转换模块、算法改进模块、视频目标提取优化模块和后期处理模块;
所述SDI视频信号获取模块,用于对安装在视频采集现场的摄像机采集的SDI视频信号进行获取;
所述视频信号转换模块,用于通过SDI接口对采集的SDI视频信号进行接收和检测,检测成功后对SDI视频信号进行拆帧处理,将所述SDI视频信号拆解为符合算法格式要求的图像帧后发送给视频目标提取优化模块;
所述算法改进模块,用于对***内预置的FCN算法的网络主干进行替换以及对网络结构进行增加,在优化过程中增加边缘损失计算函数和数据合成算法,最终得到视频目标提取算法,将视频目标提取算法传送给视频目标提取优化模块,所述算法改进模块还包括预测辅助分支添加单元和边界框分支添加单元;
所述预测辅助分支添加单元,用于在第三网络结构的输出处增加预测辅助分支,其中,增加所述预测辅助分支的步骤为:
根据目标特征尺寸层级在特征融合层的输出处增加对应数量的预测头,所述预测头包括第一卷积核,所述第一卷积核的尺寸与所述特征融合层的目标特征尺寸相对应;
所述预测辅助分支添加单元还包括整合输出组件和预测传递组件;
所述整合输出组件,用于为所述预测辅助分支添加整合输出层,所述整合输出层用于将所述预测头的预测结果和拼接集成特征进行二次拼接得到拼接整合特征,所述拼接整合特征的尺寸与FPN网络结构中最大目标特征的尺寸相同;
所述预测传递组件,用于在所述预测辅助分支的整合输出处配置预测传递层,所述预测传递层包括至少一个上采样层和两个第二卷积核,所述第二卷积核的尺寸大小与所述第一卷积核的尺寸相对应;
所述边界框分支添加单元,用于在FPN网络结构的最小目标特征尺寸层级对应的特征融合层的输出处配置边界框分支,所述边界框分支包括平均池化层、第一全连接层和第二全连接层,所述平均池化层的输入与最小目标特征尺寸层级对应的特征融合层的输出连接,所述平均池化层的输出与第一全连接层的输入连接,所述第一全连接层的输出与所述第二全连接层的输入连接,所述第二全连接层用于输出视频目标在待处理数据中的坐标位置;
所述视频目标提取优化模块,用于根据时码顺序对图像帧中的视频目标进行识别得到识别结果,并根据视频目标提取算法对识别结果进行视频目标提取和优化,得到视频目标优化提取结果;
所述后期处理模块,用于将视频目标优化提取结果编码为符合格式标准要求的视频进行后期制作/直接发布。
2.根据权利要求1所述的一种对实时视频目标的优化提取***,其特征在于:所述算法改进模块包括网络主干替换单元;
所述网络主干替换单元,用于通过残差神经网络对所述FCN算法中的网络主干进行替换,得到第一网络结构。
3.根据权利要求2所述的一种对实时视频目标的优化提取***,其特征在于:所述算法改进模块还包括网络结构添加单元;
所述网络结构添加单元,用于在所述第一网络结构的基础上增加第二网络结构,得到第三网络结构,所述第二网络结构为FPN网络结构,所述FPN网络结构包括多个目标特征尺寸层级的特征融合层,所述特征融合层通过通道维度按照由小到大的目标特征尺寸层级顺序进行拼接集成,用于输出拼接集成特征。
4.根据权利要求3所述的一种对实时视频目标的优化提取***,其特征在于:所述算法改进模块还包括边缘损失计算单元和数据合成计算单元;
所述边缘损失计算单元,用于在所述预测辅助分支的模型训练过程中增加边缘损失函数,所述边缘损失函数用于根据图像帧的真实标注结果、预测头的预测结果和视频目标轮廓边缘二值图计算得到图像帧的边缘损失;
所述数据合成计算单元,用于在整合输出层的数据处理过程中增加数据合成算法,所述数据合成算法用于根据图像帧的真实标注结果、待合成的图像帧背景和待处理数据计算得到数据合成的结果。
5.一种对实时视频目标的优化提取方法,其特征在于:包括以下步骤:
通过安装在视频采集现场的摄像机获取SDI视频信号;
对所述SDI视频信号进行接收和检测,检测成功后对SDI视频信号进行拆帧处理,将所述SDI视频信号拆解为符合算法格式要求的图像帧;
对***内预置的FCN算法的网络主干进行替换以及对网络结构进行增加,在优化过程中增加边缘损失计算函数和数据合成算法,最终得到视频目标提取算法,其中,包括在第三网络结构的输出处增加预测辅助分支,增加所述预测辅助分支的步骤为:
根据目标特征尺寸层级在特征融合层的输出处增加对应数量的预测头,所述预测头包括第一卷积核,所述第一卷积核的尺寸与所述特征融合层的目标特征尺寸相对应;
还包括:
为所述预测辅助分支添加整合输出层,所述整合输出层用于将所述预测头的预测结果和拼接集成特征进行二次拼接得到拼接整合特征,所述拼接整合特征的尺寸与FPN网络结构中最大目标特征的尺寸相同;
在所述预测辅助分支的整合输出处配置预测传递层,所述预测传递层包括至少一个上采样层和两个第二卷积核,所述第二卷积核的尺寸大小与所述第一卷积核的尺寸相对应;
在FPN网络结构的最小目标特征尺寸层级对应的特征融合层的输出处配置边界框分支,所述边界框分支包括平均池化层、第一全连接层和第二全连接层,所述平均池化层的输入与最小目标特征尺寸层级对应的特征融合层的输出连接,所述平均池化层的输出与第一全连接层的输入连接,所述第一全连接层的输出与所述第二全连接层的输入连接,所述第二全连接层用于输出视频目标在待处理数据中的坐标位置;
根据时码顺序对图像帧中的视频目标进行识别得到识别结果,并根据视频目标提取算法对识别结果进行视频目标提取和优化,得到视频目标优化提取结果;
将视频目标优化提取结果编码为符合格式标准要求的视频进行后期制作/直接发布。
6.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求5中所述方法的步骤。
7.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求5中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410086188.XA CN117710868B (zh) | 2024-01-22 | 2024-01-22 | 一种对实时视频目标的优化提取***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410086188.XA CN117710868B (zh) | 2024-01-22 | 2024-01-22 | 一种对实时视频目标的优化提取***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117710868A CN117710868A (zh) | 2024-03-15 |
CN117710868B true CN117710868B (zh) | 2024-06-21 |
Family
ID=90151814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410086188.XA Active CN117710868B (zh) | 2024-01-22 | 2024-01-22 | 一种对实时视频目标的优化提取***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117710868B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001921A (zh) * | 2020-10-30 | 2020-11-27 | 北京信诺卫康科技有限公司 | 一种基于病灶加权损失函数的新冠肺炎ct影像病灶分割图像处理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741340B (zh) * | 2018-12-16 | 2020-10-16 | 北京工业大学 | 基于fcn-aspp网络的冰盖雷达图像冰层精细化分割方法 |
CN110619632B (zh) * | 2019-09-18 | 2022-01-11 | 华南农业大学 | 一种基于Mask R-CNN的芒果实例对抗分割方法 |
CN112232309B (zh) * | 2020-12-08 | 2021-03-09 | 飞础科智慧科技(上海)有限公司 | 用于热像人脸识别的方法、电子设备和存储介质 |
CN115294468A (zh) * | 2022-07-29 | 2022-11-04 | 大连东软信息学院 | 一种改进Faster RCNN的SAR图像船舶识别方法 |
CN117423134A (zh) * | 2023-11-08 | 2024-01-19 | 群周科技(上海)有限公司 | 一种人体目标检测和解析的多任务协同网络及其训练方法 |
-
2024
- 2024-01-22 CN CN202410086188.XA patent/CN117710868B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001921A (zh) * | 2020-10-30 | 2020-11-27 | 北京信诺卫康科技有限公司 | 一种基于病灶加权损失函数的新冠肺炎ct影像病灶分割图像处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117710868A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
Lv et al. | MBLLEN: Low-light image/video enhancement using cnns. | |
CN110956094B (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN103578116B (zh) | 用于跟踪对象的设备和方法 | |
CN110276767B (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
KR101670282B1 (ko) | 전경-배경 제약 조건 전파를 기초로 하는 비디오 매팅 | |
CN109583345B (zh) | 道路识别方法、装置、计算机装置及计算机可读存储介质 | |
CN111967319B (zh) | 基于红外和可见光的活体检测方法、装置、设备和存储介质 | |
CN112581370A (zh) | 人脸图像的超分辨率重建模型的训练及重建方法 | |
Qian et al. | Video background replacement without a blue screen | |
CN113052170B (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN111985281A (zh) | 图像生成模型的生成方法、装置及图像生成方法、装置 | |
CN114627034A (zh) | 一种图像增强方法、图像增强模型的训练方法及相关设备 | |
CN116052090A (zh) | 图像质量评估方法、模型训练方法、装置、设备及介质 | |
CN113205011B (zh) | 图像掩膜确定方法及装置、存储介质和电子设备 | |
CN103632131B (zh) | 用于提取对象的设备和方法 | |
CN111654747B (zh) | 弹幕显示方法及装置 | |
CN110852172B (zh) | 一种基于Cycle Gan图片拼贴并增强的扩充人群计数数据集的方法 | |
CN117710868B (zh) | 一种对实时视频目标的优化提取***及方法 | |
CN110633705A (zh) | 一种低照度成像车牌识别方法及装置 | |
CN112532938B (zh) | 一种基于大数据技术的视频监控*** | |
CN114387443A (zh) | 一种图像处理方法、存储介质及终端设备 | |
CN112714304B (zh) | 基于增强现实的大屏显示方法及装置 | |
WO2024025134A1 (en) | A system and method for real time optical illusion photography |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |