CN114647761A - 图像帧处理方法及装置、设备、计算机可读存储介质 - Google Patents

图像帧处理方法及装置、设备、计算机可读存储介质 Download PDF

Info

Publication number
CN114647761A
CN114647761A CN202210291706.2A CN202210291706A CN114647761A CN 114647761 A CN114647761 A CN 114647761A CN 202210291706 A CN202210291706 A CN 202210291706A CN 114647761 A CN114647761 A CN 114647761A
Authority
CN
China
Prior art keywords
image frame
frame
target object
difference value
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210291706.2A
Other languages
English (en)
Inventor
张超颖
苏明兰
郭枝虾
梁宝林
王建秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202210291706.2A priority Critical patent/CN114647761A/zh
Publication of CN114647761A publication Critical patent/CN114647761A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本申请的实施例揭示了一种图像帧处理方法及装置、设备、计算机可读存储介质。该方法包括:获取相邻图像帧中的目标对象的变化面积和变化位置,并根据变化面积和变化位置确定出相邻图像帧之间的帧间差异值;若帧间差异值大于第一预设阈值,则将帧间差异值对应的相邻图像帧确定为初选关键图像帧组合;根据初选关键图像帧组合中每一图像帧的目标框内所含有的目标对象的特征信息,计算得到初选关键图像帧组合中相邻图像帧针对目标对象的特征信息差值;若目标对象的特征信息差值大于第二预设阈值,则确定初选关键图像帧组合为关键图像帧组合。本申请通过对图像帧的两次筛选,有效去除了冗余图像帧,准确的确定出了关键图像帧组合。

Description

图像帧处理方法及装置、设备、计算机可读存储介质
技术领域
本申请涉及计算机领域,具体涉及一种图像帧处理方法及装置、设备、计算机可读存储介质。
背景技术
视频数据作为视觉感知的重要来源,在消息存储分析领域发挥着越来越重要的作用。视频结构化分析是针对非结构化视频数据的深入应用,使得视频数据成为可感知且可描述的智能型数据。在视频数据的处理过程中,存在有大量的冗余信息,所以需要提取关键图像帧对数据进行细致分析。
在传统的关键帧提取方法中,包括背景差分、聚类或者目标检测等,但是这些方法存在着不能有效的去除冗余图像帧,影响关键帧的提取精度,从而无法得到目标对象关键帧的相关信息。
因此,亟需一种图像帧的处理方法,快速有效的去除冗余图像帧,提取出准确的关键图像帧。
发明内容
为解决上述技术问题,本申请的实施例分别提供了一种图像帧处理方法及装置、电子设备、计算机可读存储介质,能够有效去除冗余图像帧。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种图像帧处理方法,包括:获取相邻图像帧中的目标对象的变化面积和变化位置,并根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间差异值;若所述帧间差异值大于第一预设阈值,则将所述帧间差异值对应的相邻图像帧确定为初选关键图像帧组合;根据所述初选关键图像帧组合中每一图像帧的目标框内所含有的所述目标对象的特征信息,计算得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值;若所述目标对象的特征信息差值大于第二预设阈值,则确定所述初选关键图像帧组合为关键图像帧组合。
根据本申请实施例的一个方面,提供了一种图像帧处理装置,包括:
获取模块,配置为获取相邻图像帧中的目标对象的变化面积和变化位置,并根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间差异值;
初筛模块,配置为若所述帧间差异值大于第一预设阈值,则将所述帧间差异值对应的相邻图像帧确定为初选关键图像帧组合;
计算模块,配置为根据所述初选关键图像帧组合中每一图像帧的目标框内所含有的所述目标对象的特征信息,计算得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值;
输出模块,配置为若所述目标对象的特征信息差值大于第二预设阈值,则确定所述初选关键图像帧组合为关键图像帧组合。
在另一示例性实施例中,所述计算模块,具体配置为分别获取所述第一图像帧的目标框内对应的所述目标对象的第一特征信息和所述第二图像帧的目标框内对应的所述目标对象的第二特征信息;根据所述第一特征信息和所述第二特征信息计算得到所述第一图像帧和所述第二图像帧针对所述目标对象的特征信息差值。
在另一实施例中,所述计算模块,包括:
特征信息获取单元,配置为获取所述第一图像帧的目标框内对应的所述目标对象的第一尺寸信息和第一数量信息,以及获取所述第二图像帧的目标框内对应的所述目标对象的第二尺寸信息和第二数量信息;
特征信息差计算单元,配置为根据所述目标对象的第一尺寸信息和第一数量信息确定出所述目标对象与所述第一图像帧的第一面积之比,以及根据所述目标对象的第二尺寸信息和第二数量信息确定出所述目标对象与所述第二图像帧的第二面积之比;将所述第一面积之比与所述第二面积之比作差,得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值。
在另一实施例中,所述获取模块,具体配置为获取相邻图像帧中目标对象的第一面积和第二面积,根据所述第一面积和所述第二面积计算得到所述目标对象的变化面积;以及获取所述相邻图像帧中目标对象的中心点的第一位置和第二位置,根据所述第一位置和所述第二位置计算得到所述目标对象的变化位置;并根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间差异值。
在另一实施例中,所述获取模块,具体配置为获取相邻图像帧中的目标对象的变化面积和变化位置,并根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间特征向量;对所述帧间特征向量进行加权,得到所述相邻图像帧之间的帧间差异值。
在另一实施例中,所述图像帧处理装置,还包括:
目标框定位模块,配置为获取所述初选关键图像帧组合中每一图像帧中多个边界框的坐标和所述多个边界框的坐标对应的分值;将所述多个边界框的坐标对应的分值作为权值,并根据所述权值对所述多个边界框的坐标进行融合,得到所述初选关键图像帧组合中每一图像帧的目标框对应的坐标。
在另一实施例中,所述图像帧处理装置,还包括:
第一预设阈值确定模块,配置为获取所有相邻图像帧之间的帧间差异值;将所述所有相邻图像帧之间的帧间差异值通过自适应阈值算法计算,得到所述第一预设阈值。
根据本申请实施例的一个方面,提供了一种电子设备,包括:控制器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述控制器执行时,以执行上述的方法。
根据本申请实施例的一个方面,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述的方法。
根据本申请实施例的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
在本申请的实施例所提供的技术方案中,先将帧间差异值大于第一预设阈值的相邻图像帧作为初选关键图像帧组合,再根据初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值与第二预设阈值进行比较,若大于第二预设阈值,则确定初选关键图像帧组合为关键图像帧组合。通过对图像帧的两次筛选,第一次快速初筛掉多余图像帧,第二次根据目标对象的特征信息差值进行细致筛选,有效去除了冗余图像帧,准确的确定出了关键图像帧组合。
应理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请涉及的一种实施环境的示意图;
图2是本申请一示例性实施例示出的一种图像帧处理方法的流程图;
图3是基于图2所示实施例提出的计算得到目标对象的特征信息差值的流程图;
图4是基于图3所示实施例提出的计算得到目标对象的特征信息差值的流程图;
图5是本申请另一示例性实施例示出的确定相邻图像帧之间的帧间差异值的流程图;
图6是本申请另一示例性实施例示出的图像帧处理的流程图;
图7是本申请一示例性实施例示出的确定关键帧组合的算法模型结构示意图;
图8是本申请另一示例性实施例示出的图像帧处理流程图;
图9是本申请一示例性实施例示出的图像帧处理装置的结构示意图;
图10是本申请的一示例性实施例示出的电子设备的计算机***的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
首先请参阅图1,图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端100和服务器200,终端100和服务器200之间通过有线或者无线网络进行通信。
终端100用于接收视频或图像帧文件,并将接收到的视频或图像帧文件传输至服务器200;服务器200根据视频或图像帧文件得到图像帧,筛选过滤出关键图像帧组合,并将确定出的关键图像帧组合发送至终端100。
示例性地,服务器200根据视频或图像帧文件得到图像帧后,根据相邻图像帧的帧间差异值和目标对象的特征信息差值分布进行两次筛选,确定出关键图像帧组合。
其中,用户终端100包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等,如可以是智能手机、平板、笔记本电脑、计算机等任意能够实现图片可视化的电子设备,本处不进行限制。服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,其中多个服务器可组成一区块链,而服务器为区块链上的节点,服务器200还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处也不对此进行限制。
请参阅图2,图2是本申请一示例性实施例示出的一种图像帧处理方法的流程图,该方法可以由图1所示实施环境中的服务器200具体执行。当然,该方法也可以应用于其它实施环境,并由其它实施环境中的服务器设备执行,本实施例不对此进行限制。如图2所示,该方法至少包括S210至S240,详细介绍如下:
S210:获取相邻图像帧中的目标对象的变化面积和变化位置,并根据变化面积和变化位置确定出相邻图像帧之间的帧间差异值。
本实施例的相邻图像帧可以是对视频进行预处理后得到的,相邻其可以理解为两两相邻或者间隔相邻,其可以理解为实际图像帧的组合,例如将第一图像帧和第二图像帧作为相邻图像帧进行后续处理;或者将第一图像帧和第三图像帧作为第一相邻图像帧,后续都间隔一帧组合,即第三图像帧和第五图像帧作为第二相邻图像帧,这里不做限制。
示例性地,抽取视频文件中的图像帧作为待处理图像帧,其中,待处理图像帧包括图像帧时序等,图像帧时序表示图像帧参量根据时间顺序进行排列。
本实施例的目标对象可以是认为设定的需要进行检测的对象,例如图像帧中的人、动物和花草等。
本实施例的帧间差异值指的是目标对象在相邻图像帧中量化出来的相关值,并根据目标对象在不同图像帧中的量化出来的相关值进行比较计算,得到的两个相关值的差值。
对S210进行示例性说明,选取第一图像帧和第三图像帧为相邻图像帧,获取目标对象在第一图像帧和第三图像帧中的面积和位置,确定出目标对象的变化面积和变化位置,得到变化方向和变化量,最后确定出第一图像帧和第三图像帧之间的帧间差异值。
S220:若帧间差异值大于第一预设阈值,则将帧间差异值对应的相邻图像帧确定为初选关键图像帧组合。
本实施例的第一预设阈值可以人为设定,也可以根据相关算法计算得到。
本实施例的初选关键图像帧组合可以包括至少两个图像帧,例如,在上述S210中,第一图像帧和第三图像帧的差异值大于第一预设阈值,则可以将第一图像帧和第三图像帧作为初选关键图像帧组合,也可以将第一图像帧、第二图像帧和第三图像帧作为初选关键图像帧组合。
对S220进行示例性说明,若第一图像帧和第二图像帧的帧间差异值小于或等于第一预设阈值,则过滤掉第一图像帧,将第二图像帧与第三图像帧的帧间差异值与第一预设阈值进行比较,若第二图像帧与第三图像帧的帧间差异值大于第一预设阈值,则将第二图像帧和第三图像帧作为初选关键帧组合。
另一示例性地,若第一图像帧和第二图像帧的帧间差异值小于或等于第一预设阈值,则过滤掉第一图像帧和第二图像帧,进一步将第三图像帧和第四图像帧的帧间差异值第一预设阈值进行比较,若第三图像帧与第四图像帧的帧间差异值大于第一预设阈值,则将第三图像帧和第四图像帧作为初选关键帧组合。
S230:根据初选关键图像帧组合中每一图像帧的目标框内所含有的目标对象的特征信息,计算得到初选关键图像帧组合中相邻图像帧针对目标对象的特征信息差值。
本实施例的目标框是具有一定尺寸大小的框,每一图像帧中存在一个目标框,目标框里有目标对象的特征信息,这里的特征信息包括所属类型目标对象的面积、数量和位置等信息。
对S230进行示例性说明,首先确定初选关键图像帧组合中每一图像帧的目标框位置,然后获取目标框内所含有的目标对象的面积、数量和位置等信息,若目标对象在初选关键图像帧组合中的相邻图像帧中的特征信息发生了变化,则可计算处特征信息差值,这里可以将特征信息量化为数值,根据具体情况将量化的数值进行加、减、乘、除等计算过程得到特征信息差值。例如,初选关键图像帧组合中包括第一图像帧和第二图像帧,获取第一图像帧的目标框内所含有的目标对象的数量为2,获取第二图像帧的目标框内所含有的目标对象的数量为3,则将目标对象数量进行做差,即3-2=1,则目标对象的特征信息差值为1。
S240:若目标对象的特征信息差值大于第二预设阈值,则确定初选关键图像帧组合为关键图像帧组合。
本实施例的第二预设阈值可以人为设定,也可以根据相关算法计算得到。
对S240进行示例性说明,初选关键图像帧组合包括第一图像帧和第二图像帧,若该组合内的目标对象的特征信息差值小于或等于第二预设阈值,则过滤掉该初选关键图像帧组合,即过滤掉第一图像帧和第二图像帧;另一初选关键图像帧组合包括第三图像帧和第四图像帧,若该组合内的目标对象的特征信息差值大于第二预设阈值,则确定该初选关键图像帧组合为关键图像帧组合。
本实施例通过将帧间差异值大于第一预设阈值的相邻图像帧作为初选关键图像帧组合,再根据初选关键图像帧组合中相邻图像帧针对目标对象的特征信息差值与第二预设阈值进行比较,若大于第二预设阈值,则确定初选关键图像帧组合为关键图像帧组合。通过对图像帧的两次筛选,第一次快速初筛掉多余图像帧,第二次根据目标对象的特征信息差值进行细致筛选,有效去除了冗余图像帧,准确的确定出了关键图像帧组合。
请参阅图3,图3是基于图2所示实施例提出的计算得到目标对象的特征信息差值的流程图。在图2所示S230中包括S310至S320,其中,初选关键图像帧组合包括第一图像帧和第二图像帧,下面进行详细介绍:
S310:分别获取第一图像帧的目标框内对应的目标对象的第一特征信息和第二图像帧的目标框内对应的目标对象的第二特征信息。
本实施例的第一特征信息和第二特征信息的目标对象是相同的,例如,目标对象是狗,则获取第一图像帧的目标框内狗的特征信息,得到第一特征信息,然后获取第二图像帧的目标框内狗的特征信息,得到第二特征信息。
S320:根据第一特征信息和第二特征信息计算得到第一图像帧和第二图像帧针对目标对象的特征信息差值。
本实施例的特征信息可以是目标对象的数量,第一特征信息为目标对象在第一图像帧的目标框内的数量,第二特征信息为目标对象在第二图像帧的目标框内的数量。例如,目标对象为人,特征信息为相应图像帧的目标框内人的数量,若第一图像帧的目标框内人的数量为1,第二图像帧的目标框内人的数量为2,则计算得到第一图像帧和第二图像帧针对目标对象的特征信息差值为1。
本实施例进一步阐明了如何计算得到目标对象的特征信息差值,分别获取初选关键图像帧组合中的每个图像帧的目标框内对应的目标对象的特征信息,从而计算得到图像帧之间的特征信息差值。
图4是基于图3所示实施例提出的计算得到目标对象的特征信息差值的流程图。分别对图3中S310和S320进行了流程细化,包括S410至S430,下面进行详细介绍:
S410:获取第一图像帧的目标框内对应的目标对象的第一尺寸信息和第一数量信息,以及获取第二图像帧的目标框内对应的目标对象的第二尺寸信息和第二数量信息。
本实施例目标对象的特征信息包括尺寸信息和数量信息,尺寸信息为目标对象在相应图像帧的尺寸大小,数量信息则是相应图像帧中目标对象的个数,其中尺寸信息和数量信息存在一定联系,例如每一图像帧中存在尺寸大小相同的多个目标对象。
S420:根据目标对象的第一尺寸信息和第一数量信息确定出目标对象与第一图像帧的第一面积之比,以及根据目标对象的第二尺寸信息和第二数量信息确定出目标对象与第二图像帧的第二面积之比。
将尺寸相同的目标对象的数量与尺寸面积相乘,进一步获得所有不同尺寸的目标对象在目标框中的总面积,从而计算得到该总面积与第一图像帧的面积之比,最终分别计算得到第一面积之比和第二面积之比。
S430:将第一面积之比与第二面积之比作差,得到初选关键图像帧组合中相邻图像帧针对目标对象的特征信息差值。
本实施例的特征信息差值是一个直观的数学参量,即1、2、3、4、5等数值。
本实施例进一步阐明了如何利用目标对象的特征信息计算得到目标对象的特征信息差值,引入面积比计算得到的特征信息差值更加直观准确,能精确的得到关键图像帧组合。
在另一示例性实施例中,基于S210,获取相邻图像帧中的目标对象的变化面积和变化位置的过程包括:
获取相邻图像帧中目标对象的第一面积和第二面积,根据第一面积和第二面积计算得到目标对象的变化面积;以及获取相邻图像帧中目标对象的中心点的第一位置和第二位置,根据第一位置和第二位置计算得到目标对象的变化位置。
本实施例将目标对象中心点的位置变化作为了目标对象的变化位置,因为目标对象的尺寸可能发生变化,若选择边缘点作为参考点,得到的变化位置的误差会较大,以目标对象的中心点位置作为参考量,更加客观准确。
图5是本申请另一示例性实施例示出的确定相邻图像帧之间的帧间差异值的流程图。基于S210,根据变化面积和变化位置确定出相邻图像帧之间的帧间差异值的过程包括S510至S520,下面进行详细介绍:
S510:根据变化面积和变化位置确定出相邻图像帧之间的帧间特征向量。
本实施例根据变化面积和变化位置可以得到目标对象在相邻图像帧之间的相对位移量,从而确定初帧间特征向量。本实施例可以利用三帧差分和块匹配法对目标对象进行运动面积和矢量检测,得到帧间特征向量。其中,三帧差分法能够优化运动物体双边,粗轮廓的现象。块匹配法是先将图像划分为许多子块,然后对当前帧中的每一块根据一定的匹配准则在相邻帧中找出当前块的匹配块,由此得到两者的相对位移,即当前块的运动矢量,从而确定出相邻图像帧之间的帧间特征向量,帧间特征向量融合了运动物体(即目标对象)面积与矢量提取视频图像的底层特征。
S520:对帧间特征向量进行加权,得到相邻图像帧之间的帧间差异值。
对帧间特征向量进行加权,其中,权重值通过网格搜索算法求得。
本实施例进一步阐明帧间差异值是由帧间特征向量得到,对帧间特征向量进行加权,帧间特征向量融合了目标对象面积与矢量提取视频图像的底层特征,从而得到的帧间差异值更加客观准确。
图6是本申请另一示例性实施例示出的图像帧处理的流程图。在上述各实施例步骤的基础上,本实施例图像帧处理方法在S230之前还包括S610至S620,下面进行详细介绍:
S610:获取初选关键图像帧组合中每一图像帧中多个边界框的坐标和多个边界框的坐标对应的分值。
本实施例采用WBF方法(Weighted Boxes Fusion,加权框融合),将每一图像帧中多个边界框的坐标进行打分,得到初选关键图像帧组合中每一图像帧中多个边界框的坐标和多个边界框的坐标对应的分值。
具体的,首先对多个边界框进行预处理打分,把这些边界框按照得分从高到低进行排序,放在一个数组里,数组的每个元素里面记录了每一个边界框的得分和坐标。
S620:将多个边界框的坐标对应的分值作为权值,并根据权值对多个边界框的坐标进行融合,得到初选关键图像帧组合中每一图像帧的目标框对应的坐标。
对上述S610中多个边界框的得分进行加权处理,得到相应的权值,并根据权值对多个边界框的坐标进行融合,使得每一图像帧最后只有一个准确的边界框。
如图7所示,图7是本申请一示例性实施例示出的确定关键帧组合的算法模型结构示意图,在YOLOv5算法的基础上引入动态锚框机制,首先通过K-Means聚类算法为训练数据集生成锚框,然后在模型中加入DAFS模块(Dynamic Anchor feature Selection,动态锚框特征选择),最后在网络的训练过程中动态地对锚框的大小以及位置进行更新。
采用YOLOv5算法得到初始锚框,通过ARM(Anchor refinement module,锚点精化模块)模块过滤掉初始锚框的负样本以及根据真实值对初始锚框进行位置上的微调。然后通过BFF(Bidirectional Feature Fusion,双向特征融合)模块连接至YOLOv5主干网络中,对特征图上对应点做出微调。由于BFF是双向连接模块且连接了不同大小的相邻特征图,因此在下一次迭代中ARM又可以根据特征图的更新对锚框做进一步更新。最后,网络在三个不同尺度上做预测再采用WBF方法,融合得到每一图像帧的边界框,使得预测边框完全利用了有效信息,并且能更好的检测出小物体。
本实施例阐明了利用加权框融合方法对每一图像帧的边界框进行融合,使得预测边框完全利用了有效信息,并提高了算法模型对于小物体的检测率。
另一示例性实施例中,在上述各实施例步骤的基础上,本实施例图像帧处理方法在S220之前还包括S710至S720,下面进行详细介绍:
S710:获取所有相邻图像帧之间的帧间差异值。
S720:将所有相邻图像帧之间的帧间差异值通过自适应阈值算法计算,得到第一预设阈值。
将所有图像帧按照帧号排列,通过自适应阈值算法计算得到第一预设阈值,该阈值为所有帧间差异值的平均值。
本实施例的第一预设阈值非人为设定,而是通过自适应阈值算法确定的,则第一预设阈值更加客观贴合前置数据,能更加准确的得到初选关键帧组合。
图8是本申请另一示例性实施例示出的图像帧处理流程图,其中,包括S810至S870,下面进行详细介绍:
S810:从视频流中获取按顺序排列的图像帧。
本实施例说明图像帧都是按照特定顺序排列的,例如按照时间先后顺序排列,后续也是按照顺序获取相邻图像帧进行处理。
S820:根据图像帧中目标对象的变化面积和变化位置确定出帧间特征向量。
因为目标对象运动,在不同图像帧中,目标对象的面积和位置就会发生变化,据此,就能得到相应的帧间向量,详细说明参考上述S510。
S830:对帧间特征向量进行加权,得到相邻图像帧之间的帧间差异值。
详细说明参考上述S520。
S840:将所有相邻图像帧之间的帧间差异值通过自适应阈值算法计算,得到第一预设阈值。
本实施例的第一预设阈值非人为设定,而是根据算法确定,详细说明参考上述S720。
S850:若帧间差异值大于第一预设阈值,则将帧间差异值对应的相邻图像帧确定为初选关键图像帧组合。
本实施例通过第一预设阈值对图像帧进行初筛,筛选得到初选关键图像帧组合,详细说明参考上述S220。
S860:将初选关键图像帧组合输入改进的YOLOv5算法模型中剔除冗余帧,输出得到关键图像帧组合。
本实施例为解决YOLOv5算法中锚框的先验信息不准确的缺点,加入动态锚框机制对YOLOv5算法模型进行改进。为解决使用NMS(Non-Maximum Suppression,非极大值抑制)预测边框没有完全利用有效信息的缺点,提出了使用WBF代替NMS作为边界框回归中选择合适预测值。最终改进的模型解决了现有检测模型对于实际数据中小物体检测率不高的技术问题,能更好的剔除冗余帧,得到关键图像帧组合。
本申请的另一方面还提供了一种图像帧处理装置,如图9所示,图9是本申请一示例性实施例示出的图像帧处理装置的结构示意图。其中,图像帧处理装置包括:
获取模块910,配置为获取相邻图像帧中的目标对象的变化面积和变化位置,并根据变化面积和变化位置确定出相邻图像帧之间的帧间差异值;
初筛模块920,配置为若帧间差异值大于第一预设阈值,则将帧间差异值对应的相邻图像帧确定为初选关键图像帧组合;
计算模块930,配置为根据初选关键图像帧组合中每一图像帧的目标框内所含有的目标对象的特征信息,计算得到初选关键图像帧组合中相邻图像帧针对目标对象的特征信息差值;
输出模块940,配置为若目标对象的特征信息差值大于第二预设阈值,则确定初选关键图像帧组合为关键图像帧组合。
计算模块930,具体配置为分别获取第一图像帧的目标框内对应的目标对象的第一特征信息和第二图像帧的目标框内对应的目标对象的第二特征信息;根据第一特征信息和第二特征信息计算得到第一图像帧和第二图像帧针对目标对象的特征信息差值。
在另一实施例中,计算模块930,包括:
特征信息获取单元,配置为获取第一图像帧的目标框内对应的目标对象的第一尺寸信息和第一数量信息,以及获取第二图像帧的目标框内对应的目标对象的第二尺寸信息和第二数量信息;
特征信息差计算单元,配置为根据目标对象的第一尺寸信息和第一数量信息确定出目标对象与第一图像帧的第一面积之比,以及根据目标对象的第二尺寸信息和第二数量信息确定出目标对象与第二图像帧的第二面积之比;将第一面积之比与第二面积之比作差,得到初选关键图像帧组合中相邻图像帧针对目标对象的特征信息差值。
在另一实施例中,获取模块910,具体配置为获取相邻图像帧中目标对象的第一面积和第二面积,根据第一面积和第二面积计算得到目标对象的变化面积;以及获取相邻图像帧中目标对象的中心点的第一位置和第二位置,根据第一位置和第二位置计算得到目标对象的变化位置;并根据变化面积和变化位置确定出相邻图像帧之间的帧间差异值。
在另一实施例中,获取模块910,具体配置为获取相邻图像帧中的目标对象的变化面积和变化位置,并根据变化面积和变化位置确定出相邻图像帧之间的帧间特征向量;对帧间特征向量进行加权,得到相邻图像帧之间的帧间差异值。
在另一实施例中,图像帧处理装置,还包括:
目标框定位模块,配置为获取初选关键图像帧组合中每一图像帧中多个边界框的坐标和多个边界框的坐标对应的分值;将多个边界框的坐标对应的分值作为权值,并根据权值对多个边界框的坐标进行融合,得到初选关键图像帧组合中每一图像帧的目标框对应的坐标。
在另一实施例中,图像帧处理装置,还包括:
第一预设阈值确定模块,配置为获取所有相邻图像帧之间的帧间差异值;将所有相邻图像帧之间的帧间差异值通过自适应阈值算法计算,得到第一预设阈值。
需要说明的是,上述实施例所提供的图像帧处理装置与前述实施例所提供的图像帧处理方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,这里不再赘述。
本申请的另一方面还提供了一种电子设备,包括:控制器;存储器,用于存储一个或多个程序,当一个或多个程序被控制器执行时,以执行上述各个实施例中图像帧处理的方法。
请参阅图10,图10是本申请的一示例性实施例示出的电子设备的计算机***的结构示意图,其示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
需要说明的是,图10示出的电子设备的计算机***1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机***1000包括中央处理单元(Central Processing Unit,CPU)1001,其可以根据存储在只读存储器(Read-Only Memory,ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory,RAM)1003中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1003中,还存储有***操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output,I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的***中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不相同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的图像帧处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的图像帧处理方法。
根据本申请实施例的一个方面,还提供了一种计算机***,包括中央处理单元(Central Processing Unit,CPU),其可以根据存储在只读存储器(Read-Only Memory,ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM中,还存储有***操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(Input/Output,I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (10)

1.一种图像帧处理方法,其特征在于,所述方法包括:
获取相邻图像帧中的目标对象的变化面积和变化位置,并根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间差异值;
若所述帧间差异值大于第一预设阈值,则将所述帧间差异值对应的相邻图像帧确定为初选关键图像帧组合;
根据所述初选关键图像帧组合中每一图像帧的目标框内所含有的所述目标对象的特征信息,计算得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值;
若所述目标对象的特征信息差值大于第二预设阈值,则确定所述初选关键图像帧组合为关键图像帧组合。
2.根据权利要求1所述的方法,其特征在于,所述初选关键图像帧组合包括第一图像帧和第二图像帧;所述根据所述初选关键图像帧组合中每一图像帧的目标框内所含有的所述目标对象的特征信息,计算得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值,包括:
分别获取所述第一图像帧的目标框内对应的所述目标对象的第一特征信息和所述第二图像帧的目标框内对应的所述目标对象的第二特征信息;
根据所述第一特征信息和所述第二特征信息计算得到所述第一图像帧和所述第二图像帧针对所述目标对象的特征信息差值。
3.根据权利要求2所述的方法,其特征在于,所述分别获取所述第一图像帧的目标框内对应的所述目标对象的第一特征信息和所述第二图像帧的目标框内对应的所述目标对象的第二特征信息,包括:
获取所述第一图像帧的目标框内对应的所述目标对象的第一尺寸信息和第一数量信息,以及获取所述第二图像帧的目标框内对应的所述目标对象的第二尺寸信息和第二数量信息;
所述根据所述第一特征信息和第二特征信息计算得到所述第一图像帧和所述第二图像帧针对所述目标对象的特征信息差值,包括:
根据所述目标对象的第一尺寸信息和第一数量信息确定出所述目标对象与所述第一图像帧的第一面积之比,以及根据所述目标对象的第二尺寸信息和第二数量信息确定出所述目标对象与所述第二图像帧的第二面积之比;
将所述第一面积之比与所述第二面积之比作差,得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值。
4.根据权利要求1所述的方法,其特征在于,所述获取相邻图像帧中的目标对象的变化面积和变化位置,包括:
获取相邻图像帧中目标对象的第一面积和第二面积,根据所述第一面积和所述第二面积计算得到所述目标对象的变化面积;以及,
获取所述相邻图像帧中目标对象的中心点的第一位置和第二位置,根据所述第一位置和所述第二位置计算得到所述目标对象的变化位置。
5.根据权利要求1所述的方法,其特征在于,所述根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间差异值,包括:
根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间特征向量;
对所述帧间特征向量进行加权,得到所述相邻图像帧之间的帧间差异值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在根据所述初选关键图像帧组合中每一图像帧的目标框内所含有的所述目标对象的特征信息,计算得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值之前,所述方法还包括:
获取所述初选关键图像帧组合中每一图像帧中多个边界框的坐标和所述多个边界框的坐标对应的分值;
将所述多个边界框的坐标对应的分值作为权值,并根据所述权值对所述多个边界框的坐标进行融合,得到所述初选关键图像帧组合中每一图像帧的目标框对应的坐标。
7.根据权利要求1至5中任一项所述的方法,其特征在于,在所述若所述帧间差异值大于第一预设阈值,确定所述帧间差异值对应的相邻图像帧为初选关键图像帧组合之前,所述方法还包括:
获取所有相邻图像帧之间的帧间差异值;
将所述所有相邻图像帧之间的帧间差异值通过自适应阈值算法计算,得到所述第一预设阈值。
8.一种图像帧处理装置,其特征在于,包括:
获取模块,配置为获取相邻图像帧中的目标对象的变化面积和变化位置,并根据所述变化面积和变化位置确定出所述相邻图像帧之间的帧间差异值;
初筛模块,配置为若所述帧间差异值大于第一预设阈值,则将所述帧间差异值对应的相邻图像帧确定为初选关键图像帧组合;
计算模块,配置为根据所述初选关键图像帧组合中每一图像帧的目标框内所含有的所述目标对象的特征信息,计算得到所述初选关键图像帧组合中相邻图像帧针对所述目标对象的特征信息差值;
输出模块,配置为若所述目标对象的特征信息差值大于第二预设阈值,则确定所述初选关键图像帧组合为关键图像帧组合。
9.一种电子设备,其特征在于,包括:
控制器;
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述控制器执行时,使得所述控制器实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的方法。
CN202210291706.2A 2022-03-22 2022-03-22 图像帧处理方法及装置、设备、计算机可读存储介质 Pending CN114647761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210291706.2A CN114647761A (zh) 2022-03-22 2022-03-22 图像帧处理方法及装置、设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210291706.2A CN114647761A (zh) 2022-03-22 2022-03-22 图像帧处理方法及装置、设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114647761A true CN114647761A (zh) 2022-06-21

Family

ID=81996227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210291706.2A Pending CN114647761A (zh) 2022-03-22 2022-03-22 图像帧处理方法及装置、设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114647761A (zh)

Similar Documents

Publication Publication Date Title
CN110929799B (zh) 用于检测异常用户的方法、电子设备和计算机可读介质
CN111144215A (zh) 图像处理方法、装置、电子设备及存储介质
CN113688957A (zh) 一种基于多模型融合的目标检测方法、装置、设备及介质
CN114926766A (zh) 识别方法及装置、设备、计算机可读存储介质
CN114449343A (zh) 一种视频处理方法、装置、设备及存储介质
CN110060278A (zh) 基于背景减法的运动目标的检测方法及装置
CN112037223A (zh) 图像缺陷检测方法、装置及电子设备
CN116310993A (zh) 目标检测方法、装置、设备及存储介质
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113420165B (zh) 二分类模型的训练、多媒体数据的分类方法及装置
CN110555861A (zh) 光流计算方法、装置及电子设备
CN113723607A (zh) 时空数据处理模型的训练方法、装置、设备及存储介质
CN113378768A (zh) 垃圾桶状态识别方法、装置、设备以及存储介质
CN112949519A (zh) 目标检测方法、装置、设备及存储介质
CN110197459B (zh) 图像风格化生成方法、装置及电子设备
CN109977925B (zh) 表情确定方法、装置及电子设备
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
CN108770014B (zh) 网络服务器的计算评估方法、***、装置及可读存储介质
CN110781809A (zh) 基于注册特征更新的识别方法、装置及电子设备
CN114647761A (zh) 图像帧处理方法及装置、设备、计算机可读存储介质
CN114445716B (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
CN111832354A (zh) 目标对象年龄识别方法、装置及电子设备
CN111488476B (zh) 图像推送方法、模型训练方法及对应装置
CN111652831B (zh) 对象融合方法、装置、计算机可读存储介质及电子设备
CN112465859A (zh) 快速运动目标的检测方法、装置、设备和储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination