CN111242027B - 一种融合语义信息的无监督学习场景特征快速提取方法 - Google Patents

一种融合语义信息的无监督学习场景特征快速提取方法 Download PDF

Info

Publication number
CN111242027B
CN111242027B CN202010030801.8A CN202010030801A CN111242027B CN 111242027 B CN111242027 B CN 111242027B CN 202010030801 A CN202010030801 A CN 202010030801A CN 111242027 B CN111242027 B CN 111242027B
Authority
CN
China
Prior art keywords
pixel
scene
information
pixels
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010030801.8A
Other languages
English (en)
Other versions
CN111242027A (zh
Inventor
贾克斌
王婷娴
孙中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ge Lei Information Technology Co ltd
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010030801.8A priority Critical patent/CN111242027B/zh
Publication of CN111242027A publication Critical patent/CN111242027A/zh
Application granted granted Critical
Publication of CN111242027B publication Critical patent/CN111242027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合语义信息的无监督学习场景特征快速提取方法,属于图像处理技术领域。主要解决的技术问题是场景识别问题中的图像特征描述问题。针对图像中不稳定信息对场景匹配效果产生严重干扰的问题以及二值化特征描述符对剧烈环境变化鲁棒性差的问题,本发明通过加权模型融合策略获得的语义分割模型提取到精确的场景语义特征指导包含特异性信息关键区域的检测,基于该区域分别采用基于像素点位置线索的筛选策略和无监督学习算法,提取到辨别能力强的二值化特征描述符,能够在降低计算复杂度的同时提升场景匹配精度。

Description

一种融合语义信息的无监督学习场景特征快速提取方法
技术领域
本发明涉及图像处理技术领域,涉及一种融合语义信息的无监督学习场景特征快速提取方法。
背景技术
场景特征提取常常用于提取场景中具有特异性的信息以便于从场景数据库中检索到内容一致的场景,在图像检索、视觉定位、闭环检测等领域有着广泛的应用。
面对复杂多变的场景,如何快速地从中提取稳定不变的特征显是视觉定位任务中的关键技术。手工提取特征被广泛地应用于视觉定位***中,根据特征描述区域的大小可以分为两类:局部特征和全局特征。基于局部特征的方法,如SIFT、SURF、ORB,通过提取特征点的方式对图像进行描述,该方法因为只保留了部分细节信息而缺少整体的结构信息,导致了感知混淆,降低了局部描述符的辨别力。基于全局特征的方法表现出更好的条件不变性,如Gist,通过处理整张图像来获得特征描述符,其具有良好的光照不变性,但极易受到视点变化的影响。考虑到较大的图像块保留了整个图像的条件不变性,而较小的图像块保留了图像的局部特征。因此,为了提高特征描述符对剧烈场景变化的鲁棒性,在图像的部分区域上计算全局描述符成为融合局部特征和全局特征各自优势的首选方案。
发明内容
本发明主要解决的技术问题是场景识别问题中的图像特征描述问题。为解决图像中不稳定信息对场景匹配效果产生严重干扰的问题以及二值化特征描述符对复杂场景辨别力不足的问题,本发明提供一种融合语义信息的无监督学习场景特征快速提取方法。该方法通过语义分割模型去除场景中包含不稳定信息的区域,基于该区域结合像素点位置线索筛选出包含丰富空间和上下文信息的像素对,并利用无监督学习算法获取描述力强的二值化特征描述符,能够在减少特征提取运算量的同时提升场景匹配精度。
本发明所采用的技术方案是,一种融合语义信息的无监督学习场景特征快速提取方法,包括以下步骤:
步骤1:场景显著性区域提取
首先对视频帧进行预处理,将边缘模糊、扭曲的区域去除。然后使用滑动窗口对视频帧行采样,计算图像中每个像素的显著性分数Sp(x,y,ft),保留高于一定阈值的像素作为初步的关键区域。
Figure BDA0002364213700000021
当滑动窗口位于(x,y)位置时,分别计算当前帧所包含的图像块R(x,y,ft)与其他视频帧相同位置以及其十字邻域内,共五个位置图像块R(x±1,y±1,ft')之间的差别,求和即得到当前帧该位置(x,y)的显著性分数。其中,x,y分别代表像素点在图像坐标系中的横纵坐标值;D(·)表示计算图像块之间差别的函数;ft代表需要计算显著性分数的当前帧,N为当前帧时域邻域内所包含视频帧的个数;Sp(x,y,ft)是得到的像素显著性分数。
步骤2:语义分割模型融合
利用多种在Cityscapes数据集上训练的语义分割网络模型对视频帧进行分割。按照特异性和稳定性的原则,在分割时,只保留所需要的六类场景分别是:建筑物、墙、电线杆、围栏、信号灯、标志牌。对不同模型分割后的结果,再通过加权融合的方式生成分割精度更高的二值化掩模。
步骤3:融合语义信息的关键区域检测
在步骤1和步骤2基础上,将利用像素显著性分数初步提取到的特征区域与融合后语义分割模型生成的二值化掩模取交集,得到最终精细化后的关键区域。
步骤4:无监督学习结合位置线索的二值化特征提取
首先,基于关键区域检测结果,利用枚举法获得像素对集合。
其次,利用时间域和空间域中像素对包含的亮度信息,计算像素对的显著性分数S(P,Fq)。
Figure BDA0002364213700000031
其中S(P,Fq)是当前帧内Fq某点对P的显著性分数,D(P,Fq)是当前查询帧Fq内点对P的两个像素之间的灰度差,D(P,Fq)是第i个相邻帧内点对P的两个像素之间的灰度差;M是相邻帧的数量。
然后引入像素点位置线索,保留包含丰富结构信息的像素对集合。提取到的像素对集合中存在两种类型的像素对:一种是两个像素来自同一个特征子区域;另一种是两个像素来自不同的特征子区域。两者二值化的结果分别保留了图像中的局部细节信息和全局结构信息。
最后,基于初步筛选后的结果,计算每个像素对的分布向量以建立K-means++聚类算法的训练矩阵。分布向量P1<P1,ft>表示了像素对集合中的第一个像素对所包含的两个像素的灰度差在视频帧fi,i∈[t-m,t+m]中的分布,
Figure BDA0002364213700000041
代表像素对P1在当前帧ft中对应位置的像素灰度值之差。其中t代表当前帧位置,m+1代表分布向量的长度,I(·)表示像素的灰度值,像素对P1由像素点pi和pj构成,两个像素点在图像坐标系中的对应坐标分别为(xi,yi)和(xj,yj)。
Figure BDA0002364213700000042
Figure BDA0002364213700000043
进行多次迭代训练得到聚类中心;根据聚类中心提取与其距离最近的分布向量所代表的像素对作为视频帧的特征提取模式。
本发明的有益效果是,采用融合后的语义分割模型提取到精确的场景语义特征指导显著性区域提取,减少区域中的无用信息实现对场景中包含特异性信息关键区域的检测,在减少特征提取运算量的同时提升场景匹配的精度。基于检测到的关键区域,分别采用基于像素点位置线索的筛选策略和无监督学习算法,提取到辨别能力强的二值化特征描述符,从而在有效提高场景特征提取方法对剧烈环境变化条件下的鲁棒性的同时降低计算复杂度。
附图说明
图1是本发明的融合语义信息的无监督学习场景特征快速提取方法流程图;
图2是计算像素性分数示意图;
图3是不同语义分割网络得到的结果示例,其中,(a)-(e)分别是是原始图像;Deeplab模型冯结果;BiSeNet模型分割结果;融合后模型分割结果以及真实标定;
图4是关键区域检测结果,其中,(a)是融合语义信息前的关键区域;(b)是融合语义信息后的关键区域;
图5是基于无监督学习的快速场景特征描述算法流程图;
图6是关键区域中两种像素对示意图;
图7是二值化特征抽取模式示例;
图8是不同方法的场景匹配表现,其中,(a)-(d)分别展示了全局特征方法与本发明方法在四组场景真实标定帧中的表现。
表1是不同语义分割模型间的精度对比。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
为实现高精度、高鲁棒性的图像全局-局部特征提取,同时提升场景匹配的效率。本发明考虑到语义特征对场景中显著性区域提取的指导作用以及二值化特征描述符计算效率高的优势,公开了一种融合语义信息的无监督学习场景特征快速提取方法,流程如图1所示,具体按照以下步骤进行:
第一步:场景显著性区域提取
首先对视频帧进行预处理,将边缘模糊、扭曲的区域去除。然后使用滑动窗口对视频帧行采样,计算图像中每个像素的显著性分数S(p(x,y,ft))。
Figure BDA0002364213700000061
如图2所示,记当前待计算的视频帧为ft,其时域邻域内包含N个视频帧(图2中以N等于4为例)。当滑动窗口位于(x,y)位置时,分别计算当前帧所包含的图像块R(x,y,ft)与其他视频帧相同位置以及其十字邻域内,共五个位置图像块R(x±1,y±1,ft')之间的差别,求和即得到当前帧该位置(x,y)的显著性分数,如式(1)所示。其中,D(·)表示图像块之间的差别,本算法使用HOG特征利用欧式距离计算得到,以减少光线带来的影响。R(x±1,y±1,ft')是其他序列帧中相同位置及十字邻域的图像块。S(p(x,y,ft))是最终得到的像素显著性分数。
显著性分数揭示了像素的显著程度。显著性分数高于一定阈值Tk的像素所构成的区域将被视为初步提取的关键性区域,如公式(2)与(3)所示:
Rkey(ft)={p(x,y,ft)|(x,y)∈ROI,S(p(x,y,ft))>Tk(ft)}    (2)
Figure BDA0002364213700000062
其中,M是感兴趣区域中所有像素的数量,K是关于特征区域阈值的系数。
使用图像形态学操作闭操作,去除连通区域边缘的毛刺与内部的空洞,得到如图4的(a)所示,初步筛选出的关键区域。
第二步:语义分割模型融合
利用六种在Cityscapes数据集上训练的语义分割网络模型对视频帧进行分割,这些网络分别是FCN、PSPNet,Deeplab、RefineNet、DFN、BiSeNet。针对道路场景数据集的特点,按照特异性和稳定性的原则,在分割时,只保留所需要的六类场景分别是:建筑物、墙、电线杆、围栏、信号灯、标志牌。对不同模型分割后的结果,再通过加权融合的方式生成分割精度更高的二值化掩模。图3中对分割结果进行了可视化展示。
第三步:融合语义信息的关键区域检测
在步骤1和步骤2基础上,将利用像素显著性分数初步提取到的特征区域与融合后语义分割模型生成的二值化掩模取交集,经过图像闭运算得到最终精细化后的关键区域如图4的(b)所示。
第四步:无监督学习结合位置线索的二值化特征提取
该步骤的详细流程如图5所示。首先,基于关键区域检测结果,利用枚举法获得像素对集合。
其次,如公式(4)所示,利用时间域和空间域中像素对包含的亮度信息,计算像素对的显著性分数S(P,Fq)。
Figure BDA0002364213700000071
其中S(P,Fq)是当前帧内Fq某点对P的显著性分数,D(P,Fq)是当前查询帧Fq内点对P的两个像素之间的灰度差,D(P,Fq)是第i个相邻帧内点对P的两个像素之间的灰度差。M是相邻帧的数量。
然后引入像素点位置线索,保留包含丰富结构信息的像素对集合。如图6所示,提取到的像素对集合中存在两种类型的像素对:像素对P1中的两个像素来自同一个特征子区域;像素对P2中两个像素来自不同的特征子区域。两者二值化的结果分别保留了图像中的局部细节信息和全局结构信息。像素对来自不同区域,会包含不同的信息。保留空间相关性高的像素对会使信息缺失,为了提高描述符的区分力,需进一步筛选得到相关性低的点对。
最后,基于初步筛选后的结果,计算每个像素对的分布向量以建立K-means++聚类算法的训练矩阵。如公式(5)所示,分布向量P1<P1,ft>表示了像素对集合中的第一个像素对所包含的两个像素的灰度差在视频帧fi,i∈[t-m,t+m]中的分布,
Figure BDA0002364213700000081
代表像素对P1在当前帧ft中对应位置的像素灰度值之差。其中t代表当前帧位置,m+1代表分布向量的长度。像素对P1由像素点pi和pj构成,两个像素点在图像坐标系中的对应坐标分别为(xi,yi)和(xj,yj)。
Figure BDA0002364213700000082
其中
Figure BDA0002364213700000083
I(·)表示像素的灰度值。然后,进行多次迭代训练得到聚类中心;最后提取与聚类中心距离最近的分布向量所代表的像素对作为视频帧的特征提取模式。图7所示为利用本发明方法获得的二值化特征抽取模式的示例,可以通过级联一系列的像素对的二值化对比结果来计算出视频帧的二值化特征。
综上所述,通过语义分割模型得到的语义信息对关键区域的检测具有指导作用。利用这种全局与局部相结合的场景二值化特征提取方式,在能够有效地获取对场景外观剧烈变化具有高鲁棒性的特征描述符的同时,提高了场景匹配的计算效率。
针对Nordland数据集和香港轻轨数据集,本发明选择了六种模型对参考序列进行分割,利用加权平均的方式将这些模型融合在一起。从参考序列中筛选出50个关键帧进行人工标定,将标定真值与分割得到的结果进行对比计算平均交并比,得到表1所示结果。可以看出,模型融合后得到的分割效果明显优于单个模型。对于场景更为复杂的轻轨数据集而言,效果提升尤为明显。
本发明使用了来自香港港铁(Mass Transit Railway,MTR)提供的轻轨数据集以及挪威广播公司(Norwegian Broadcasting Corporation,NRK)公开的Nordland数据集。香港轻轨数据集采集自轻轨507号路线,共包含3组视频序列,视频分辨率640×480像素,帧率为25帧/s,共包含13859帧。每组视频序列包含2段序列,这2段序列采集自同一列火车在不同时间运行在相同的路径上,有人工对齐作为真是标定。数据集中包含了诸多富有挑战性的场景,例如车辆遮挡、光照变化以及场景内容变化等。
Nordland数据集包含四段视频,分别采集自春、夏、秋、冬四个季节,其场景包含城市以及自然野外等不同类型环境。采集帧率为25帧/s,分辨率大小为1920×1080像素,不同视频序列中具有相同帧号的视频帧采集自相同的位置。本文使用原始帧率从中选取10000帧作为训练和测试数据,并将视频帧降采样至分辨率大小为640×480像素。
图8展示了以归一化降采样图像为代表的全局特征描述符与本发明提出的全局-局部特征描述符在四组场景真实标定帧中的表现。图中横轴是邻近帧与真实标定位置的相对索引,左侧纵轴为基于全局特征的匹配距离,右侧纵轴为所提出方法的场景匹配分数。匹配距离越小则代表场景越相似,匹配分数越大则代表场景匹配程度越高。在基于全局特征方法的匹配结果中,包括真实标定帧附近的约10个参考帧与当前帧匹配距离均为0。这表明基于全局特征的场景匹配方法无法根据匹配距离区分高相似度场景。与此相对,使用本发明所提出的方法时,匹配分数的峰值总是出现在真实标定位置。以上实验结果证明,本发明所提出的特征提取方法能够保留场景的突出特征,对高度相似的连续场景有较强的区分力,能够对最终获得精确的定位结果起到积极作用。
表1 不同语义分割模型间的精度对比
Figure BDA0002364213700000101
以上具体实施方式仅用于说明本发明的技术方案,而非对其限制。本领域的技术人员应当理解:上述实施方式并不以任何形式限制本发明,凡采用等同替换或等效变换等方式所取得的相似技术方案,均属于本发明的保护范围。

Claims (2)

1.一种融合语义信息的无监督学习场景特征快速提取方法,其特征在于:包括以下步骤:
步骤1场景显著性区域提取;
步骤2语义分割模型融合;
步骤3融合语义信息的关键区域检测;
步骤4无监督学习结合位置线索的二值化特征提取;
语义分割模型融合的实施过程如下,
利用多种在Cityscapes数据集上训练的语义分割网络模型对视频帧进行分割;按照特异性和稳定性的原则,在分割时,只保留六类场景:建筑物、墙、电线杆、围栏、信号灯、标志牌;对不同模型分割后的结果,通过加权融合的方式生成分割精度高的二值化掩模;
融合语义信息的关键区域检测的实施过程如下,
在步骤1和步骤2基础上,将利用像素显著性分数初步提取到的特征区域与融合后的语义分割模型生成的二值化掩模取交集,得到最终精细化后的关键区域;
无监督学习结合位置线索的二值化特征提取的实施过程如下,
首先,基于关键区域检测结果,利用枚举法获得像素对集合;
其次,利用时间域和空间域中像素对包含的亮度信息,计算像素对的显著性分数S(P,Fq);
Figure FDA0004120517700000011
其中S(P,Fq)是当前帧Fq内点对P的显著性分数,D(P,Fq)是当前查询帧Fq内点对P的两个像素之间的灰度差,D(P,Fi)是第i个相邻帧内点对P的两个像素之间的灰度差;M是相邻帧的数量;
然后引入像素点位置线索,保留包含丰富结构信息的像素对集合;提取到的像素对集合中存在两种类型的像素对:一种是两个像素来自同一个特征子区域;另一种是两个像素来自不同的特征子区域;二值化的结果分别保留图像中的局部细节信息和全局结构信息;
最后,基于初步筛选后的结果,计算每个像素对的分布向量以建立K-means++聚类算法的训练矩阵;分布向量P1<P1,ft>表示了像素对集合中的第一个像素对所包含的两个像素的灰度差在视频帧fi,i∈[t-m,t+m]中的分布,Δ<P1,ft>代表像素对P1在当前帧ft中对应位置的像素灰度值之差;其中t代表当前帧位置,I(·)表示像素的灰度值,像素对P1由像素点pi和pj构成,两个像素点在图像坐标系中的对应坐标分别为(xi,yi)和(xj,yj);
Figure FDA0004120517700000021
Δ<P,ft>=ΔP<pi,pj,ft>=I(xi,yi,ft)-I(xj,yj,ft)
进行多次迭代训练得到聚类中心;根据聚类中心提取与其距离最近的分布向量所代表的像素对作为视频帧的特征提取模式。
2.根据权利要求1所述的一种融合语义信息的无监督学习场景特征快速提取方法,其特征在于:该方法包括以下步骤,场景显著性区域提取的实施过程如下,
首先对视频帧进行预处理,将边缘模糊、扭曲的区域去除;然后使用滑动窗口对视频帧行采样,计算图像中每个像素的显著性分数Sp(x,y,ft),保留高于阈值的像素作为初步的关键区域;
Figure FDA0004120517700000031
当滑动窗口位于(x,y)位置时,分别计算当前帧所包含的图像块R(x,y,ft)与其他视频帧相同位置以及其十字邻域内,共五个位置图像块R(x±1,y±1,ft')之间的差别,求和即得到当前帧该位置(x,y)的显著性分数;其中,x,y分别代表像素点在图像坐标系中的横纵坐标值;D(·)表示计算图像块之间差别的函数;ft代表需要计算显著性分数的当前帧,N为当前帧时域邻域内所包含视频帧的个数;Sp(x,y,ft)是得到的像素显著性分数;S(p(x,y,ft))是最终得到的像素显著性分数。
CN202010030801.8A 2020-01-13 2020-01-13 一种融合语义信息的无监督学习场景特征快速提取方法 Active CN111242027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010030801.8A CN111242027B (zh) 2020-01-13 2020-01-13 一种融合语义信息的无监督学习场景特征快速提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010030801.8A CN111242027B (zh) 2020-01-13 2020-01-13 一种融合语义信息的无监督学习场景特征快速提取方法

Publications (2)

Publication Number Publication Date
CN111242027A CN111242027A (zh) 2020-06-05
CN111242027B true CN111242027B (zh) 2023-04-14

Family

ID=70874491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010030801.8A Active CN111242027B (zh) 2020-01-13 2020-01-13 一种融合语义信息的无监督学习场景特征快速提取方法

Country Status (1)

Country Link
CN (1) CN111242027B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微***与信息技术研究所 语义分割方法、***、介质及装置
CN112347899B (zh) * 2020-11-03 2023-09-19 广州杰赛科技股份有限公司 一种运动目标图像提取方法、装置、设备及存储介质
CN112528897B (zh) * 2020-12-17 2023-06-13 Oppo(重庆)智能科技有限公司 人像的年龄估测方法、装置、计算机设备及存储介质
CN112631947B (zh) * 2021-01-15 2023-04-25 抖音视界有限公司 应用程序的测试控制方法、装置、电子设备及存储介质
CN112967309B (zh) * 2021-02-26 2022-07-26 中国科学院大学 一种基于自监督学习的视频目标分割方法
CN113159026A (zh) * 2021-03-31 2021-07-23 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和介质
CN113222870B (zh) * 2021-05-13 2023-07-25 杭州海康威视数字技术股份有限公司 一种图像处理方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794219A (zh) * 2015-04-28 2015-07-22 杭州电子科技大学 一种基于地理位置信息的场景检索方法
CN105426924A (zh) * 2015-12-14 2016-03-23 北京工业大学 一种基于图像中层特征的场景分类方法
CN106897666A (zh) * 2017-01-17 2017-06-27 上海交通大学 一种室内场景识别的闭环检测方法
CN107066916A (zh) * 2016-10-26 2017-08-18 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
WO2018076212A1 (zh) * 2016-10-26 2018-05-03 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794219A (zh) * 2015-04-28 2015-07-22 杭州电子科技大学 一种基于地理位置信息的场景检索方法
CN105426924A (zh) * 2015-12-14 2016-03-23 北京工业大学 一种基于图像中层特征的场景分类方法
CN107066916A (zh) * 2016-10-26 2017-08-18 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
WO2018076212A1 (zh) * 2016-10-26 2018-05-03 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN106897666A (zh) * 2017-01-17 2017-06-27 上海交通大学 一种室内场景识别的闭环检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚萌 等.《计算机工程与应用》.2018,第14-18页. *

Also Published As

Publication number Publication date
CN111242027A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111242027B (zh) 一种融合语义信息的无监督学习场景特征快速提取方法
Li et al. A free lunch for unsupervised domain adaptive object detection without source data
CN106997597B (zh) 一种基于有监督显著性检测的目标跟踪方法
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
CN104978567B (zh) 基于场景分类的车辆检测方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN111260684A (zh) 基于帧差法和背景差分法结合的前景像素提取方法及***
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN109344842A (zh) 一种基于语义区域表达的行人重识别方法
CN113095263B (zh) 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置
CN108509950B (zh) 基于概率特征加权融合的铁路接触网支柱号牌检测识别法
CN111047603B (zh) 一种基于新型马尔可夫随机场和区域合并的航拍图像混合分割算法
CN111882586A (zh) 一种面向剧场环境的多演员目标跟踪方法
CN105654054A (zh) 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法
CN112529901A (zh) 一种复杂环境下的裂缝识别方法
CN111160107B (zh) 一种基于特征匹配的动态区域检测方法
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN110222772B (zh) 一种基于块级别主动学习的医疗图像标注推荐方法
CN108876810A (zh) 视频摘要中利用图割算法进行运动目标检测的方法
CN113033345B (zh) 基于公共特征子空间的v2v视频人脸识别方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111046866B (zh) 一种结合ctpn和svm的人民币冠字号区域检测方法
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
CN108573217A (zh) 一种结合局部结构化信息的压缩跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230425

Address after: 100012 817, Floor 8, No. 101, Floor 3 to 8, Building 17, Rongchuang Road, Chaoyang District, Beijing

Patentee after: Beijing Ge Lei Information Technology Co.,Ltd.

Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing

Patentee before: Beijing University of Technology