CN106778763B - 一种基于属性图的图像表示方法 - Google Patents
一种基于属性图的图像表示方法 Download PDFInfo
- Publication number
- CN106778763B CN106778763B CN201610993025.5A CN201610993025A CN106778763B CN 106778763 B CN106778763 B CN 106778763B CN 201610993025 A CN201610993025 A CN 201610993025A CN 106778763 B CN106778763 B CN 106778763B
- Authority
- CN
- China
- Prior art keywords
- image
- global
- representing
- attribute
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/424—Syntactic representation, e.g. by using alphabets or grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于属性图的图像表示方法,用非直接完全图(V,E)来表示图像,称为属性图;V={Vl,Vg}是图的顶点;Vl表示本地节点,描述图像中包含的所有对象;Vg表示全局节点,描述图像的背景信息或者整体的场景信息;E表示图的边,分为两种边:局部边和全局边;属性图中的边表示图像中对象之间的空间关系以及对象在整个图像中的空间位置。本发明提供的方法用属性图来表示图像,对那些包含了相同对象却表示不同的图像语义的图像能够进行精确分类。属性图既考虑了图像的局部特征,又考虑了图像的全局特征,同时用边的信息描述了对象和对象之间的空间关系,以及对象在整个图像中的空间位置,对图像分类识别有着积极的意义。
Description
技术领域
本发明涉及一种图像的表示方法,尤其涉及一种基于属性图的图像表示方法,属于图像识别技术领域。
背景技术
基于学习的图像识别方法在过去的几年中取得了很大进步。对特定的对象类,特别是人脸和汽车,都有比较可靠和高效的基于底层特征(例如SIFT特征或者HOG特征)的识别。但是这些图像的底层特征不能很好地反映图像类别信息。
最近,新的研究资料提出使用图像固有属性进行分类的方法。属性是指可以由人指定名称并且能在图像中观察到的特性,可以表示图像中对象是否存在,可以描述图像中对象的颜色、形状、材质、部件、类别及功能,也可以表示图像中场景的类别以及上下文信息等。因此,基于图像的属性特征进行分类的研究越来越多。Fahadi等(A.Farhadi,I.Endres,D.Hoiem,and D.Forsyth.Describing objects by their attributes.In CVPR,2009.2,5,6)用属性直接表示图像,并把它应用到对象分类;Patterson等(G.Patterson andJ.Hays.Sun attribute database:Discovering, annotating,and recognizing sceneattributes.In CVPR,2012.2)用属性来描述场景图像,并把它应用于场景图像的分类;While Lan等(T.Lan,W.Yang,Y.W.0003,and G.Mori.Image retrieval with structuredobject queries using latent ranking svm.In ECCV,2012,2)认为可以建立图像中所有对象的空间关系,并用此来表示图像,但是没有考虑所有对象在整个图像中的几何分布,以及单个对象的特征;Kulkarni (G.Kulkarni,V.Premraj,V.Ordonez,S.Dhar,S.Li,Y.Choi,A.C.Berg,and T.L.Berg. Babytalk:Understanding and generating simple imagedescriptions)建立了对象和对象之间相互关系的模型,但是没有考虑到图像整体的背景信息;Zheng等(L.Zheng, S.Wang,Z.Liu,and Q.Tian.Packing and padding:Coupledmulti-index for accurate image retrieval.In CVPR,2014.2)把图像的底层特征SIFT和颜色的信息加入到多维索引中,用这种方式来表示图像,Douze等(M.Douze,A.Ramisa,and C.Schmid. Combining attributes and fisher vectors for efficient imageretrieval.In CVPR,2011.2,6,7)把属性加入到Fisher向量中来表示图像,这些技术只考虑到图像的整体信息,却没有关注图像中的对象和这些对象的局部特征;Cao等(X.Cao,X.wei,X.Guo,Y.Han,and J.Tang.Augmented image retrieval using multi-orderobject layout with attributes.In ACM MM,2014.2,6,7)构建了一个基于属性的三角形对象结构来表示图像,但是却没有考虑图像全局的场景信息;
综上所述,现有技术有的直接用属性描述图像,却忽略了图像中对象的空间信息;有的用对象和对象之间的相互关系来表示图像,但却没有考虑到图像的整体背景信息;还有的考虑了图像的整体特征,但是却忽略了图像中的对象以及这些对象的局部特征。
发明内容
本发明要解决的技术问题是提供一种既考虑了图像的局部特征,又考虑了图像的全局特征,同时兼顾对象和对象之间的空间关系,以及对象在整个图像中的空间位置的图像表示方法。
为了解决上述技术问题,本发明的技术方案是提供一种基于属性图的图像表示方法,其特征在于:用非直接完全图(V,E)来表示图像,称为属性图;
V={Vl,Vg}是图的顶点;
Vl表示本地节点集合,描述图像中包含的所有对象;
Vg表示全局节点集合,描述图像的背景信息或者整体的场景信息;
ei,j∈E表示图的边,分为两种边:局部边和全局边;局部边表示本地节点之间的连线,全局边表示本地节点和全局节点之间的连线;属性图中的边表示图像中对象之间的空间关系以及对象在整个图像中的空间位置。
优选地,所述Vl用本地属性进行描述,本地属性包括对象的颜色、形状、材质。
优选地,所述Vg用全局属性进行描述,全局属性包括图像场景和整体的上下文信息。
优选地,所述属性图中的边的获得方法如下:
其中,eij表示属性图中的边,表示属性图中边的取值;vi和vj表示属性图中任意一个顶点;μij表示两个对象几何中心的像素距离;θij表示局部边和水平方向逆时针方向的夹角;δij表示两个对象的边界盒子重叠部分;μig表示对象的几何中心和全局几何中心的像素距离;θig表示全局边和水平方向逆时针方向的夹角;area(Vi)表示对象边界框区域;weigh表示每个对象的权重;
更优选地,所述全局几何中心为所有对象几何中心的平均值。
优选地,具体步骤为:
步骤1:进行图像对象检测,生成各个对象的边界盒子;
步骤2:根据对象边界盒子,进行对象类别分类,得到对象类别;
步骤3:提取每个对象纹理、HOG、边缘和颜色特征进行分类,得到每个本地节点Vl的本地属性;
步骤4:对全局节点Vg进行分类,得到全局节点的全局属性;
步骤5:构建局部边;
步骤6:构建全局边。
优选地,所述步骤1中,运用卷积神经网络的方法进行图像对象检测。
优选地,所述步骤2中,采用支持向量机方法进行对象类别分类。
优选地,所述步骤4中,用深度神经网络对全局节点Vg进行分类。
本发明提供的方法用属性图来表示图像,对那些包含了相同对象却表示不同的图像语义的图像能够进行精确分类。属性图用局部节点、全局节点、局部边、全局边、局部节点属性和全局节点属性来描述一副图像,既考虑了图像的局部特征,又考虑了图像的全局特征,同时用边的信息描述了对象和对象之间的空间关系,以及对象在整个图像中的空间位置。
相比现有技术,本发明提供的方法具有如下有益效果;
1、研究方法上的更新,构建了具有对象权重的属性图,是一种新的图像表示方式。
2、对于图像中包含相同的对象,但却表达不同的语义的图像分类有较好的效果,适合精细图像分类。
3、由于图像中对象众多,可以通过权重的方式,忽略对图像语义贡献度不大的对象,减少计算量,对图像分类识别有着积极的意义。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
一种基于属性图的图像表示方法,其用非直接完全图(V,E)来表示图像,称为属性图。V={Vl,Vg}是图的顶点;Vl表示本地节点,描述图像中包含的所有对象;Vg表示全局节点,描述图像的背景信息或者整体的场景信息。Vl用本地属性进行描述,如对象的颜色、形状、材质等。Vg用全局属性来描述,如图像场景和整体的上下文信息。E表示图的边,分为两种边:局部边和全局边。属性图中的边表示图像中对象之间的空间关系以及对象在整个图像中的空间位置。
其中,eij表示属性图中的边,表示属性图中边的取值;vi和vj表示属性图中任意一个顶点;μij表示两个对象几何中心的像素距离,θij表示局部边和水平方向逆时针方向的夹角,δ ij 表示两个对象的边界盒子重叠部分;
μig表示对象的几何中心和全局几何中心的像素距离,cg表示全局几何中心,全局几何中心是所有对象几何中心的平均值。
N表示所有对象几何中心的个数,Ck表示某个对象几何中心,k=1,2,……,N。
θig表示全局边和水平方向逆时针方向的夹角,area(Vi)和area(Vj)表示对象边界框区域,min(area(vi),area(vj))表示两个对象边界区域取较小的。 weigh表示每个对象的权重,因为在整个图像中,并不是每个对象作用都是一样的,人们总是关注大一些的对象,关注度大的对象,权重大一些,关注度小的图像,权重小一些。
本实施例提供的基于属性图的图像表示方法概括即为:
输入:图像Image(I);
输出:图像中各个对象边界盒子Bounding boxes(R1,R2,……,RN),对象类 M1,M2,……,MN,本地节点属性,全局节点属性,全局边,局部边。
具体实施步骤如下:
步骤1:运用卷积神经网络的方法进行对象检测,生成各个对象的边界盒子 R1,R2,……,RN。
步骤2:根据对象边界盒子R1,R2,……,RN,采用SVM支持向量机方法进行对象类别分类得到对象类别M1,M2,……,MN。
步骤3:提取每个对象纹理、HOG(方向梯度直方图)、边缘和颜色特征,用属性分类器SVM进行分类,得到每个本地节点Vl(即每个对象)的本地属性,由三个方面的属性构成:形状属性、组成部分属性和材料属性。
步骤4:用深度神经网络对全局节点Vg进行分类,得到全局节点的全局属性。
步骤6:计算全局几何中心cg。
属性图的优势在于:
1)运用了图像属性的特征,符合人类识别图像的基本过程,属性作为人们可理解的对象类别间共享的性质,有助于复杂易变环境中的机器学习。
2)构建的属性图,既考虑了图像的局部特征,又考虑了图像的全局特征,同时用边的信息描述了对象和对象之间的空间关系,已及对象在整个图像中的空间位置。
3)在图像全局边中加入了权重,对于表达一定语义的图像来说,人们总是关注面积比较大的对象,大的对象获取的关注度多,从而对图像语义表达贡献度较大。
Claims (8)
1.一种基于属性图的图像表示方法,其特征在于:用非直接完全图(V,E)来表示图像,称为属性图;
V={Vl,Vg}是图的顶点;
Vl表示本地节点,描述图像中包含的所有对象;
Vg表示全局节点,描述图像的背景信息或者整体的场景信息;
E表示图的边,分为两种边:局部边和全局边;局部边表示本地节点之间的连线,全局边表示本地节点和全局节点之间的连线;属性图中的边表示图像中对象之间的空间关系以及对象在整个图像中的空间位置;
所述属性图中的边的获得方法如下:
2.如权利要求1所述的一种基于属性图的图像表示方法,其特征在于:所述Vl用本地属性进行描述,本地属性包括对象的颜色、形状、材质。
3.如权利要求1所述的一种基于属性图的图像表示方法,其特征在于:所述Vg用全局属性进行描述,全局属性包括图像场景和整体的上下文信息。
4.如权利要求1所述的一种基于属性图的图像表示方法,其特征在于:所述全局几何中心为所有对象几何中心的平均值。
5.如权利要求1所述的一种基于属性图的图像表示方法,其特征在于:具体步骤为:
步骤1:进行图像对象检测,生成各个对象的边界盒子;
步骤2:根据对象边界盒子,进行对象类别分类,得到对象类别;
步骤3:提取每个对象纹理、HOG、边缘和颜色特征进行分类,得到每个本地节点Vl的本地属性;
步骤4:对全局节点Vg进行分类,得到全局节点的全局属性;
步骤5:构建局部边;
步骤6:构建全局边。
6.如权利要求5所述的一种基于属性图的图像表示方法,其特征在于:所述步骤1中,运用卷积神经网络的方法进行图像对象检测。
7.如权利要求5所述的一种基于属性图的图像表示方法,其特征在于:所述步骤2中,采用支持向量机方法进行对象类别分类。
8.如权利要求5所述的一种基于属性图的图像表示方法,其特征在于:所述步骤4中,用深度神经网络对全局节点Vg进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610993025.5A CN106778763B (zh) | 2016-11-11 | 2016-11-11 | 一种基于属性图的图像表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610993025.5A CN106778763B (zh) | 2016-11-11 | 2016-11-11 | 一种基于属性图的图像表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778763A CN106778763A (zh) | 2017-05-31 |
CN106778763B true CN106778763B (zh) | 2020-05-26 |
Family
ID=58972990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610993025.5A Active CN106778763B (zh) | 2016-11-11 | 2016-11-11 | 一种基于属性图的图像表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778763B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239827B (zh) * | 2017-06-18 | 2020-06-09 | 北京理工大学 | 一种基于人工神经网络的空间信息学习方法 |
CN109886301A (zh) * | 2019-01-16 | 2019-06-14 | 深圳创新奇智科技有限公司 | 一种图像特征排布判断方法及其***、终端设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004051544A2 (en) * | 2002-12-02 | 2004-06-17 | Mount Sinai Hospital | Methods and products for representing and analyzing complexes of biological molecules |
CN103870846A (zh) * | 2012-12-07 | 2014-06-18 | 深圳先进技术研究院 | 一种图像表示方法及其在图像匹配、识别中的应用 |
CN104778463A (zh) * | 2015-05-04 | 2015-07-15 | 福建师范大学 | 一种基于sift和多子图匹配的遥感影像城区提取方法 |
CN105279517A (zh) * | 2015-09-30 | 2016-01-27 | 西安电子科技大学 | 基于半监督关系主题模型的弱标签社交图像识别方法 |
CN105976364A (zh) * | 2016-04-28 | 2016-09-28 | 北京理工大学 | 基于简化带权无向图的统计平均模型构建方法 |
-
2016
- 2016-11-11 CN CN201610993025.5A patent/CN106778763B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004051544A2 (en) * | 2002-12-02 | 2004-06-17 | Mount Sinai Hospital | Methods and products for representing and analyzing complexes of biological molecules |
CN103870846A (zh) * | 2012-12-07 | 2014-06-18 | 深圳先进技术研究院 | 一种图像表示方法及其在图像匹配、识别中的应用 |
CN104778463A (zh) * | 2015-05-04 | 2015-07-15 | 福建师范大学 | 一种基于sift和多子图匹配的遥感影像城区提取方法 |
CN105279517A (zh) * | 2015-09-30 | 2016-01-27 | 西安电子科技大学 | 基于半监督关系主题模型的弱标签社交图像识别方法 |
CN105976364A (zh) * | 2016-04-28 | 2016-09-28 | 北京理工大学 | 基于简化带权无向图的统计平均模型构建方法 |
Non-Patent Citations (1)
Title |
---|
基于混合图的图像结构描述与匹配;林杨;《中国优秀硕士学位论文全文数据库 信息科技I辑》;20120315(第3期);第9-11、23-33、43-47页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106778763A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818580B (zh) | 根据深度图对真实对象进行3d重建 | |
Sahin et al. | A review on object pose recovery: From 3D bounding box detectors to full 6D pose estimators | |
Glover et al. | Monte carlo pose estimation with quaternion kernels and the bingham distribution | |
Zhang et al. | Deformable part descriptors for fine-grained recognition and attribute prediction | |
Kendall et al. | Posenet: A convolutional network for real-time 6-dof camera relocalization | |
Liang et al. | Parsing the hand in depth images | |
Eder et al. | Pano popups: Indoor 3d reconstruction with a plane-aware network | |
Liao et al. | Automatic caricature generation by analyzing facial features | |
Li et al. | Object detection in the context of mobile augmented reality | |
CN111340873A (zh) | 一种多视角图像的物体最小外包络尺寸测算方法 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN111951381B (zh) | 一种基于单张人脸图片的三维人脸重建*** | |
CN109272577B (zh) | 一种基于Kinect的视觉SLAM方法 | |
CN109448086B (zh) | 基于稀疏实采数据的分拣场景平行数据集构建方法 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
Feng et al. | 3D shape retrieval using a single depth image from low-cost sensors | |
CN111460193A (zh) | 一种基于多模态信息融合的三维模型分类方法 | |
Liu et al. | Shape context based mesh saliency detection and its applications: A survey | |
CN106778763B (zh) | 一种基于属性图的图像表示方法 | |
CN106203448A (zh) | 一种基于非线性尺度空间的场景分类方法 | |
CN114299339A (zh) | 一种基于区域相关性建模的三维点云模型分类方法及*** | |
Tang et al. | Position-free hand gesture recognition using single shot multibox detector based neural network | |
Proenca et al. | SHREC’15 Track: Retrieval of Oobjects captured with kinect one camera | |
Lu et al. | Research on 3D reconstruction method of human-computer interaction scene based on support vector machine in cloud manufacturing environment | |
Luo et al. | Interactive image segmentation based on samples reconstruction and FLDA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |