CN113569683A - 结合显著区域检测的场景分类方法、***、设备及介质 - Google Patents

结合显著区域检测的场景分类方法、***、设备及介质 Download PDF

Info

Publication number
CN113569683A
CN113569683A CN202110817151.6A CN202110817151A CN113569683A CN 113569683 A CN113569683 A CN 113569683A CN 202110817151 A CN202110817151 A CN 202110817151A CN 113569683 A CN113569683 A CN 113569683A
Authority
CN
China
Prior art keywords
picture information
scene
image
region
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110817151.6A
Other languages
English (en)
Other versions
CN113569683B (zh
Inventor
朱彦浩
胡郡郡
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110817151.6A priority Critical patent/CN113569683B/zh
Publication of CN113569683A publication Critical patent/CN113569683A/zh
Application granted granted Critical
Publication of CN113569683B publication Critical patent/CN113569683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合显著区域检测的场景分类方法、***、设备及介质,场景分类方法包括:短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个视频帧的多个图片信息的图像数据集;非显著区域获取步骤:通过显著区域检测对每一图片信息的显著区域和非显著区域进行识别并对非显著区域进行增强处理;分类识别步骤:通过resnet‑32网络结构对每一所述图片信息的非显著区域进行分类识别获得每一图片信息的图像场景概率;图像概率处理步骤:根据每一图片信息的图像场景概率计算获得短视频图像的每一场景类别的场景概率。通过本发明能够提高短视频图像的识别准确率及分类性能。

Description

结合显著区域检测的场景分类方法、***、设备及介质
技术领域
本发明涉及视频处理技术领域,特别涉及一种结合显著区域检测的场 景分类方法、***、设备及介质。
背景技术
随着科学技术的飞速发展,通讯技术得到了飞速的发展,目前的通讯 技术已经发展到了第五代通信---5G。5G技术的飞速发展带来了互联网信息 传播的新途径—短视频。短视频已经成为了目前社会生活下传播信息最丰 富,最快捷,最受欢迎的途径。在这种丰富的月活人数下,各种短视频平 台的数据量急剧上升,如何能够更好的使用丰富的短视频,并提取出有用 的信息,进行数据分析也成为了一个新的技术课题。
与正常的场景分类不同,短视频场景分类主要面临两个问题需要进行 解决:
一是与图像不同,一副图像中只会描述一种场景。如图1中,这幅图 像就只是描述了室内的场景。而对于短视频而言,由于其是一个较长时间 的故事,因此场景会发生切换。如图2所示。其场景由室内切换至室外, 因此对于一个短视频内的场景要尽可能的将所有的场景都识别到。;
二是与普通的场景识别不同,短视频场景下,周围环境信息的内容较 为稀少,大部分均是人物占据主要区域,因此如何在少量信息下进行准确 的场景识别也是一个非常大的挑战。如图3所示,人物占据主要区域,室 内场景只在图像的右上和左上区域。
基于以上问题现有技术大都采取以下方案:
1、基于视频级的3D卷积场景分类方法
目前,最为广泛C3D是Facebook的一个工作,它主要是把2D Convolution 扩展到3D。我们知道2D的卷积操作是将卷积核在输入图像或特征图(feature map)上进行滑窗,得到下一层的特征图。例如,在一个单通道的图像上做卷 积或在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的3 个颜色通道,也指多张堆叠在一起的帧,即一小段视频),最终的输出都是一 张二维的特征图,也就是说,多通道的信息被完全压缩了。而在3D卷积中, 为了保留时序的信息,对卷积核进行了调整,增加了一维时域深度。3D卷积的输出仍是一个三维的特征图。因此通过3D卷积,C3D可以直接处理视频,同 时利用表观特征和时序特征。但这种方法的缺点是:基于视频的方法,只能给 出这个视频的主题场景,一般会忽略掉短视频中出现时长较为短暂的其他场景, 导致其结果不满足要求。
2、基于图像级的抽帧采样场景分类方法
本技术方法是对于整个短视频先进行帧的提取操作,在提取帧的基础 上使用基于图像的场景分类方法进行分类操作。直接利用现有成熟的网络 架构如ResNet就可以实现图像涉及场所的识别。在对于所有的图像进行识 别后,对于最终的识别结果进行聚合,这样出现频次较高的场景会有相对 较高的结果,出现频次较低的场景会有相对而言较低的结果,但是会包含 所有出现过的场景。但这种方法的缺点是:但由于图像级的条件下,图像 中的主体被人物所遮挡因此识别的准确率可能不高。
因此亟需开发一种克服上述缺陷的结合显著区域检测的场景分类方法、 ***、设备及介质。
发明内容
针对上述问题,本申请实施例提供了一种结合显著区域检测的场景分 类方法、***、设备及介质,以至少解决提高识别的准确率及分类性能的 问题。
本发明提供一种结合显著区域检测的场景分类方法,其中,用于对短 视频图像中的场景进行分类,所述场景分类方法包括:
短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;
非显著区域获取步骤:通过显著区域检测对每一所述图片信息的显著 区域和非显著区域进行识别并对所述非显著区域进行增强处理;
分类识别步骤:通过resnet-32网络结构对每一所述图片信息的所述非 显著区域进行分类识别获得每一所述图片信息的图像场景概率;
图像概率处理步骤:根据每一所述图片信息的图像场景概率计算获得 所述短视频图像的每一场景类别的场景概率。
上述的场景分类方法,其中,所述短视频图像处理步骤包括:将所述 短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视 频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
上述的场景分类方法,其中,所述非显著区域获取步骤包括:
区域划分步骤:对所述图片信息进行显著区域获得具有所述显著区域 和所述非显著区域的掩膜图片信息;
图片信息处理步骤:对所述掩膜图片信息及所述图片信息进行处理获 得增强所述非显著区域后的所述图片信息。
上述的场景分类方法,其中,所述图像概率处理步骤包括:根据每一 场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类 别的场景概率。
本发明还提供一种结合显著区域检测的场景分类***,其中,用于对 短视频图像中的场景进行分类,所述场景分类***包括:
短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;
非显著区域获取单元,通过显著区域检测对每一所述图片信息的显著 区域和非显著区域进行识别并对所述非显著区域进行增强处理;
分类识别单元,通过resnet-32网络结构对每一所述图片信息的所述非 显著区域进行分类识别获得每一所述图片信息的图像场景概率;
图像概率处理单元,根据每一所述图片信息的图像场景概率计算获得 所述短视频图像的每一场景类别的场景概率。
上述的场景分类***,其中,所述短视频图像处理单元将所述短视频 图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧, 根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
上述的场景分类***,其中,所述非显著区域获取单元包括:
区域划分模块,对所述图片信息进行显著区域获得具有所述显著区域 和所述非显著区域的掩膜图片信息;
图片信息处理模块,对所述掩膜图片信息及所述图片信息进行处理获 得增强所述非显著区域后的所述图片信息。
上述的场景分类***,其中,所述图像概率处理单元根据每一场景类 别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场 景概率。
本发明还提供一种设备,包括存储器、处理器以及存储在所述存储器上 并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算 机程序时实现如上述中任一项所述的场景分类方法。
本发明还提供一种介质,其上存储有计算机程序,其中,该程序被处 理器执行时实现如上述中任一项所述的场景分类方法。
本发明相对于现有技术其有益效果在于:
本发明使用基于图像级的抽帧采样分类方法,这种方法可以在短视频的 训练数据较少的情况下通过抽帧获得大量的图像数据,并能够兼顾到短视 频中出现多个场景的问题,为了提高识别的准确率,本发明结合了显著区 域检测的方法,将图像中的主体区域找到,并使网络不去学习主体区域内 的内容,将注意力集中到主体区域后方的非显著区域,以得到更高的分类 性能,同时基于本发明的深度学习技术也提升了计算机视觉能力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从 说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其 他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获 得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地, 下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-图3为图片信息示意图;
图4为本发明的场景分类方法的流程图;
图5为图4中步骤S2的分步骤流程图;
图6为本发明的场景分类***的结构示意图;
图7为本发明的电子设备的结构示意图;
图8为图片信息与显著区域图片信息示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说 明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发 明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件 是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等, 并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以 相同技术用语描述的元件或操作。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等, 仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本 创作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等, 均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的 “多组”包括“两组”及“两组以上”。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微 变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言, 此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实 施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员 应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供 本领域技术人员在有关本申请的描述上额外的引导。
短视频场景分类,是获取短视频有效信息的技术方法之一,通过分析 大量短视频的发生场景,如居家,户外,健身房等,能够有效的获取一定 的规律信息。对于推荐算法而言可以有效提高短视频的推荐质量,可以有 效的增加广告视频的推送后的点击率,提高企业的利润。而对于创作者而 言,可以更好的把控目前相对火爆的短视频类型,提高视频创作的质量, 有更高的概率提高视频的观看数量。
显著区域检测技术,是图像处理中的一个研究课题。显著区域指的是 面对一个场景时,人类自动地对感兴趣区域进行处理而选择性地忽略不感 兴趣区域,这些人们感兴趣区域被称之为显著性区域。在计算机视觉领域, 对于显著性区域的检测是个比较热门的问题,因为这种方法可以找到图像 中最关键的部分,并去除多余的无关信息。
本发明主要是在基于图像级的场景分类的基础上,为解决主体占比太 大导致算法的识别效果不好的问题上进行了发明创造,使用了显著区域检 测的技术与场景识别的技术相结合,解决了主体占比大的问题,并保证了 最后的分类效果,以下结合具体实施例进行说明。
请参照图4-图5,图4为本发明的场景分类方法的流程图;图5为图4 中步骤S2的分步骤流程图。如图4-图5所示,本发明的场景分类方法用于 对短视频图像中的场景进行分类,场景分类方法包括:
短视频图像处理步骤S1:对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集。
具体地说,在本步骤中将短视频图像进行抽帧提取,首先获取到这个 视频的FPS(帧/秒),即这个视频一秒钟有多少帧,基于FPS对于视频帧 进行抽样保存,每一秒钟的时间长度上保存一帧图像,生成一个针对于这 个短视频图像的所有的图像数据集。
非显著区域获取步骤S2:通过显著区域检测对每一所述图片信息的显 著区域和非显著区域进行识别并对所述非显著区域进行增强处理。
其中,所述显著区域获取步骤S2包括:
区域划分步骤S21:对所述图片信息进行显著区域获得具有所述显著区 域和所述非显著区域的掩膜图片信息;
图片信息处理步骤S22:对所述掩膜图片信息及所述图片信息进行处理 获得增强所述非显著区域后的所述图片信息。
具体地说,请参照图8,图8为图片信息与显著区域图片信息示意图, 其中左侧为图片信息,右侧为对应该图片信息的掩膜图片信息。先对于短 视频图像抽帧之后的图片信息进行显著区域提取,可以得到一张与图片信 息大小相同,但是其像素点的值只有0,255两个数的显著区域图片信息, 这是一张黑白图像,白色表示这个部分是显著区域,黑色表示这个部分不 是显著区域。在提取完显著区域后,将提取后的mask掩膜图像,即显著区 域图片信息与图片信息进行处理,使得最后的图像中显著区域部分的像素 值均为0,使图像关注于非显著性区域。
分类识别步骤S3:过resnet-32网络结构对每一所述图片信息的所述非 显著区域进行分类识别获得每一所述图片信息的图像场景概率。
具体地说,图像的分类识别使用resnet-32网络结构进行识别,识别网 络的使用过程是网络结构接受图像并返回最后图像属于每一个场景的图像 场景概率。
其中在本实施例中,本步骤还可包括训练步骤,对resnet-32网络结构 进行训练,具体地说resnet-32网络结构使用了所有训练视频的抽帧图像随 意打乱后的数据进行训练,为了能够避免训练过程中由于训练的数据其类 别不一致的问题,对于每一个类别的所占比重进行了统计,在训练的采样 过程中,尽量做到均匀采样,从而保证训练的可靠性。
图像概率处理步骤S4:根据每一所述图片信息的图像场景概率计算获 得所述短视频图像的每一场景类别的场景概率。
其中,所述图像概率处理步骤S4包括:根据每一场景类别的所有的所 述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
具体地说,在本步骤中,对于任一短视频的所有抽帧的图片信息进行 类别的预测后,会对于所有的图像概率进行直接的加和再除以所有图片信 息的个数,这就会使得最后的概率上出现频次最高的内容会有最高的概率, 且其概率的大小也能反应各个场景出现的频次。
请参照图6,图6为本发明的场景分类***的结构示意图。如图6所示, 本发明的结合显著区域检测的场景分类***用于对短视频图像中的场景进 行分类,场景分类***包括:
短视频图像处理单元11,对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;
非显著区域获取单元12,通过显著区域检测对每一所述图片信息的显 著区域和非显著区域进行识别并对所述非显著区域进行增强处理;
分类识别单元13,通过resnet-32网络结构对每一所述图片信息的所述 非显著区域进行分类识别获得每一所述图片信息的图像场景概率;
图像概率处理单元14,根据每一所述图片信息的图像场景概率计算获 得所述短视频图像的每一场景类别的场景概率。
进一步地,所述短视频图像处理单元11将所述短视频图像进行抽帧提 取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率 对所述视频帧进行抽样保存获得所述图像数据集。
再进一步地,所述非显著区域获取单元12包括:
区域划分模块121,对所述图片信息进行显著区域获得具有所述显著区 域和所述非显著区域的掩膜图片信息;
图片信息处理模块122,对所述掩膜图片信息及所述图片信息进行处理 获得增强所述非显著区域后的所述图片信息。
更进一步地,所述图像概率处理单元14根据每一场景类别的所有的所 述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
请参照图7,图7为本发明的设备的结构示意图。如图7所示,本实施 例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81 以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成 电路(Application Specific Integrated Circuit,简称为ASIC),或者 可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说 而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、 软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光 盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB) 驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可 包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可 在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性 (Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器 (Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory, 简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM (Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为EPROM)、电可擦除PROM (ElectricallyErasable Programmable Read-Only Memory,简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory, 简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合 适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储 器(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、 扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据 文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实 现上述实施例中的任意一种场景分类方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中, 如图7所示,处理器81、存储器82、通信接口83通过总线80连接并完成 相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备 之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/ 数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数 据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。 总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线 (Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、 局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接 口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工 业标准架构(Extended Industry Standard Architecture,简称为EISA) 总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport, 简称为HT)互连、工业标准架构(Industry Standard Architecture,简 称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count, 简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture, 简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协 会局部(Video ElectronicsStandards Association Local Bus,简称为 VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的 情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了 特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中处理方法,本申请实施例可提供一种计算机 可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令; 该计算机程序指令被处理器执行时实现上述实施例中的任意一种场景分类 方法。
综上所述,本发明使用基于图像级的抽帧采样分类方法,这种方法可 以在短视频的训练数据较少的情况下通过抽帧获得大量的图像数据,并能 够兼顾到短视频中出现多个场景的问题,本发明结合了显著区域检测的方 法,将图像中的主体区域找到,并使网络不去学习主体区域内的内容,将 注意力集中到主体区域后方,以提高识别的准确率,从而得到更高的分类 性能。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种结合显著区域检测的场景分类方法,其特征在于,用于对短视频图像中的场景进行分类,所述场景分类方法包括:
短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集;
非显著区域获取步骤:通过显著区域检测对每一所述图片信息的显著区域和非显著区域进行识别并对所述非显著区域进行增强处理;
分类识别步骤:通过resnet-32网络结构对每一所述图片信息的所述非显著区域进行分类识别获得每一所述图片信息的图像场景概率;
图像概率处理步骤:根据每一所述图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
2.如权利要求1所述的场景分类方法,其特征在于,所述短视频图像处理步骤包括:将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
3.如权利要求1所述的场景分类方法,其特征在于,所述非显著区域获取步骤包括:
区域划分步骤:对所述图片信息进行显著区域获得具有所述显著区域和所述非显著区域的掩膜图片信息;
图片信息处理步骤:对所述掩膜图片信息及所述图片信息进行处理获得增强所述非显著区域后的所述图片信息。
4.如权利要求3所述的场景分类方法,其特征在于,所述图像概率处理步骤包括:根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
5.一种结合显著区域检测的场景分类***,其特征在于,用于对短视频图像中的场景进行分类,所述场景分类***包括:
短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集;
非显著区域获取单元,通过显著区域检测对每一所述图片信息的显著区域和非显著区域进行识别并对所述非显著区域进行增强处理;
分类识别单元,通过resnet-32网络结构对每一所述图片信息的所述非显著区域进行分类识别获得每一所述图片信息的图像场景概率;
图像概率处理单元,根据每一所述图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
6.如权利要求5所述的场景分类***,其特征在于,所述短视频图像处理单元将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
7.如权利要求6所述的场景分类***,其特征在于,所述非显著区域获取单元包括:
区域划分模块,对所述图片信息进行显著区域获得具有所述显著区域和所述非显著区域的掩膜图片信息;
图片信息处理模块,对所述掩膜图片信息及所述图片信息进行处理获得增强所述非显著区域后的所述图片信息。
8.如权利要求7所述的场景分类***,其特征在于,所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
9.一种设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的场景分类方法。
10.一种介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的场景分类方法。
CN202110817151.6A 2021-07-20 2021-07-20 结合显著区域检测的场景分类方法、***、设备及介质 Active CN113569683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110817151.6A CN113569683B (zh) 2021-07-20 2021-07-20 结合显著区域检测的场景分类方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110817151.6A CN113569683B (zh) 2021-07-20 2021-07-20 结合显著区域检测的场景分类方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN113569683A true CN113569683A (zh) 2021-10-29
CN113569683B CN113569683B (zh) 2024-04-02

Family

ID=78165606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110817151.6A Active CN113569683B (zh) 2021-07-20 2021-07-20 结合显著区域检测的场景分类方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN113569683B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176405B1 (en) * 2018-06-18 2019-01-08 Inception Institute Of Artificial Intelligence Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations
CN109429066A (zh) * 2017-08-29 2019-03-05 三星电子株式会社 视频编码装置和视频编码***
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110268420A (zh) * 2019-05-09 2019-09-20 京东方科技集团股份有限公司 在图像中检测背景物上的外来物的计算机实现的方法、在图像中检测背景物上的外来物的设备以及计算机程序产品
CN111680698A (zh) * 2020-04-21 2020-09-18 北京三快在线科技有限公司 图像识别方法、装置及图像识别模型的训练方法、装置
CN111757175A (zh) * 2020-06-08 2020-10-09 维沃移动通信有限公司 视频处理方法及装置
CN111898448A (zh) * 2020-06-30 2020-11-06 北京大学 一种基于深度学习的行人属性识别方法和***
CN112270688A (zh) * 2020-11-04 2021-01-26 中国科学院上海微***与信息技术研究所 一种前景提取方法、装置、设备及存储介质
CN112580516A (zh) * 2020-12-21 2021-03-30 上海眼控科技股份有限公司 一种道路场景识别方法、装置、设备及存储介质
CN112766092A (zh) * 2021-01-05 2021-05-07 北京航空航天大学 基于类脑神经网络的背景类别快速识别方法及其应用

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109429066A (zh) * 2017-08-29 2019-03-05 三星电子株式会社 视频编码装置和视频编码***
US10176405B1 (en) * 2018-06-18 2019-01-08 Inception Institute Of Artificial Intelligence Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110268420A (zh) * 2019-05-09 2019-09-20 京东方科技集团股份有限公司 在图像中检测背景物上的外来物的计算机实现的方法、在图像中检测背景物上的外来物的设备以及计算机程序产品
CN111680698A (zh) * 2020-04-21 2020-09-18 北京三快在线科技有限公司 图像识别方法、装置及图像识别模型的训练方法、装置
CN111757175A (zh) * 2020-06-08 2020-10-09 维沃移动通信有限公司 视频处理方法及装置
CN111898448A (zh) * 2020-06-30 2020-11-06 北京大学 一种基于深度学习的行人属性识别方法和***
CN112270688A (zh) * 2020-11-04 2021-01-26 中国科学院上海微***与信息技术研究所 一种前景提取方法、装置、设备及存储介质
CN112580516A (zh) * 2020-12-21 2021-03-30 上海眼控科技股份有限公司 一种道路场景识别方法、装置、设备及存储介质
CN112766092A (zh) * 2021-01-05 2021-05-07 北京航空航天大学 基于类脑神经网络的背景类别快速识别方法及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈硕;于晓升;吴成东;陈东岳;: "用于场景分类的显著建筑物区域检测", 上海交通大学学报, no. 08, pages 1130 - 1135 *

Also Published As

Publication number Publication date
CN113569683B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN109255352B (zh) 目标检测方法、装置及***
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
WO2023174098A1 (zh) 一种实时手势检测方法及装置
CN109726678B (zh) 一种车牌识别的方法及相关装置
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
CN113569687B (zh) 基于双流网络的场景分类方法、***、设备及介质
CN111753721A (zh) 一种人体姿态的识别方法及装置
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN111435445A (zh) 字符识别模型的训练方法及装置、字符识别方法及装置
CN117315406B (zh) 一种样本图像处理方法、装置及设备
CN113688839A (zh) 视频处理方法及装置、电子设备、计算机可读存储介质
CN111079624B (zh) 一种样本信息采集的方法、装置、电子设备以及介质
US20230196838A1 (en) Video recognition method and apparatus, and storage medium
CN113569684A (zh) 短视频场景分类方法、***、电子设备及存储介质
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN115984977A (zh) 活体检测方法和***
CN113569683B (zh) 结合显著区域检测的场景分类方法、***、设备及介质
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN116152908A (zh) 动作识别、活体检测和模型训练方法及装置、电子设备
CN109784226B (zh) 人脸抓拍方法及相关装置
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
CN113221920B (zh) 图像识别方法、装置、设备、存储介质以及计算机程序产品
CN112329925B (zh) 模型生成方法、特征提取方法、装置及电子设备
KR20140104789A (ko) 정지영상의 식별자 생성 방법 및 이를 수행하는 영상 처리 장치
CN112699826B (zh) 人脸检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant