CN113159122A - 基于社交媒体图像数据的城市风貌分析方法 - Google Patents

基于社交媒体图像数据的城市风貌分析方法 Download PDF

Info

Publication number
CN113159122A
CN113159122A CN202110280016.2A CN202110280016A CN113159122A CN 113159122 A CN113159122 A CN 113159122A CN 202110280016 A CN202110280016 A CN 202110280016A CN 113159122 A CN113159122 A CN 113159122A
Authority
CN
China
Prior art keywords
city
feature
cities
image data
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110280016.2A
Other languages
English (en)
Other versions
CN113159122B (zh
Inventor
李朋龙
丁忆
罗莉
马泽忠
肖禾
赵玲
***
韦宏林
罗鼎
段松江
魏文杰
钱进
程丽丹
胡艳
殷明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Geographic Information And Remote Sensing Application Center
Central South University
Original Assignee
Chongqing Geographic Information And Remote Sensing Application Center
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Geographic Information And Remote Sensing Application Center, Central South University filed Critical Chongqing Geographic Information And Remote Sensing Application Center
Priority to CN202110280016.2A priority Critical patent/CN113159122B/zh
Publication of CN113159122A publication Critical patent/CN113159122A/zh
Application granted granted Critical
Publication of CN113159122B publication Critical patent/CN113159122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于社交媒体图像数据的城市风貌分析方法,方法包括:获取社交媒体图像数据;对数据集的样本进行分类和去除噪声;使用卷积神经网络进行风貌学***衡问题进行处理;进行迁移学习;对风貌特征进行聚类;计算城市间的风貌距离;分析城市间的风貌相似性及城市的细粒度风貌。本发明将城市风貌编码为一组向量;解决了社交媒体图像分布的不均衡问题;利用城市风貌向量定义了城市风貌距离,使用该距离能分析出不同城市如何表象出风貌相似和风貌相近的,能分析出风貌距离和地理距离的相关性;使用城市风貌向量为嵌入向量的聚类方法,能够更细致地发现城市细粒度风貌。

Description

基于社交媒体图像数据的城市风貌分析方法
技术领域
本发明属于人工智能领域,具体涉及基于社交媒体图像数据的城市风貌分 析方法。
背景技术
城市风貌是指一个城市可以被视觉感知的特色,是城市身份、地域文化和 城市魅力与活力的重要标志。它受物质环境和非物质环境共同影响,包括山水 环境、开敞空间、建筑形体等景观要素。受全球化影响,许多城市逐渐丧失特 色,出现了“千城一面”的风貌趋同问题。近十年来,城市特色营造和城市风貌 规划已经备受重视,但是由于文化特色难以衡量,各城市之间的风貌独特或相 似程度不好评判,适用于城市风貌建设的科学定量方法和客观分析技术仍有待 完善。世界上没有两片完全相同的叶子,城市之间也不会完全的相同或者不同。 提取城市的视觉特征、风貌特征,有利于将其作为城市设计、管理的依据,同时也作为游客们旅游时的参考。
许多研究者已经从视觉元素、要素类型等方面探讨了城市的独特性,也有 人从特征图的角度探索了城市的相似性与独特性。对城市的风貌特征进行描述 与表示有助于衡量城市间的独特或相似程度,但是,较早的研究如专利文献1-3, 主要是依靠调查问卷和访谈的方式来探索城市的风貌特征,这些方法为今后的 研究提供了很好的思路,但是该方法不能快速地捕获关键的视觉信息,是一项 非常耗时耗力的工作。图像数据是客观反映城市风貌的一种重要的信息媒介, 同时也是以日常生活视角去观察城市局部风貌的一种方式。随着各种社交软件 (如Flickr、微博、Instagram)、网络地图服务(如:Google、腾讯)等的快速 发展,图像数据的获取变得更加的容易,覆盖城市各个角落的图像数据也在日 益增加。随着计算机技术的日新月异,许多研究者开始重视针对城市图像数据 的挖掘与利用,如非专利文献4探索最能体现巴黎城市特质的风貌元素,了解 什么样的阳台或窗户看起来最像巴黎;非专利文献5探索是什么使伦敦看起来 非常美丽、安静和快乐。然而,由于已有技术无法处理海量图像数据的任务需 求,社会迫切需要更高效率、智能化的处理方法。近年来,随着深度学习在计 算机视觉领域的快速发展,非专利文献6-9中,具有强大的学习能力与表达能 力的卷积神经网络在图像分类、图像场景识别等任务上取得了突破性进展。在 城市图像研究方面,非专利文献10-12主要是涉及城市感知、城市和建筑风格 以及地点识别与城市相似分析等相关研究。非专利文献13中,Zhang等人建立 了一个覆盖18个城市的社交媒体数据集,使用一个深度卷积神经网络图像分 类方法来衡量城市场景、物体的相似性,并发现城市整体的独特性,但是他们 没有研究构成城市整体特色的细粒度风貌类型。
许多研究已经利用这两种类型的数据全面了解了城市。非专利文献14,15 将网络图像数据用于旅游分析。非专利文献10将街景影像主要用于对城市进 行预测分析、城市安全性分析等。非专利文献16中,周博磊等人利用网络数 据对7个城市进行了城市要素类型分析,并探讨了城市间的相似性与差异性。 还有非专利文献17利用网络图像数据从城市整体的分布结构和独特性等方面 评价了不同城市的意象特征。非专利文献18中,Kita利用Google街景影像的 房屋图像预测了车祸风险,提出了风险预测模型。非专利文献19中,Salesses 等人利用Google街景影像分析了4个城市的街道安全度。然而还没有用网络 图像数据进行城市风貌分析的研究。
非专利文献20中,Matzen等人创建和标注了大型的服饰数据集,并为该 数据集创建了12种服饰属性,使用聚类的方式发现服饰的多种风貌类型组合, 并对南北半球服饰进行了对比分析。非专利文献14中,Miriam等人利用目标 检测方法和美学计算工具分析照片的拍摄文化风貌,使用监督分类的方法定量 分析了照片拍摄的相似程度。非专利文献21中,Shen等人提出了一种视觉一 致性的方法,通过余弦相似度挖掘艺术作品中完全一致的区域。
现有技术还没有一种从海量社交媒体图像中学习城市风貌,并对城市间的 风貌相似性,及城市的细粒度风貌进行分析的方法。
在先技术文献
非专利文献
1.Milgram,S.,A psychological mapof New York City.American Scientist,1972.60(2):p.194-200.
2.Twigger-Ross,C.L.and D.L.Uzzell,Place and identity processes.Journal of environmental psychology,1996.16(3):p.205-220.
3.Paasi,A.,Region and place:regional identity in question. Progressin human geography,2003.27(4):p.475-485.
4.Doersch,C.,et al.,What makes paris look like paris?ACM Transactionson Graphics,Association for Computing Machinery, 2012.31(4).
5.Quercia,D.,N.K.O'Hare,and H.Cramer.Aesthetic capital:what makesLondon look beautiful,quiet,and happy?in Proceedings of the17th ACMconference on Computer supported cooperative work& social computing.2014.
6.Sun,Y.,et al.,Automatically designing CNN architectures using thegenetic algorithm for image classification.IEEE transactions on cybernetics,2020.50(9):p.3840-3854.
7.Ma,B.,et al.,Autonomous deep learning:A genetic DCNN designer forimage classification.Neurocomputing,2020.379:p.152-161.
8.B.Zhou,A.L.,A.Khosla,A.Oliva and A.Torralba,Places:A 10 MillionImage Database for Scene Recognition.in IEEE Transactions on Pattern Analysisand Machine Intelligence,1 June 2018.40,no. 6:p.pp.1452-1464.
9.Tang,P.,H.Wang,and S.Kwong,G-MS2F:GoogLeNet based multi-stagefeature fusion of deep CNN for scene recognition. Neurocomputing,2017.225:p.188-197.
10.Zhang,F.,et al.,Social sensing from street-level imagery:A casestudy in learning spatio-temporal urban mobility patterns.ISPRS Journal ofPhotogrammetry and Remote Sensing,2019.153:p.48-58.
11.Obeso,A.M.,et al.Connoisseur:classification of styles of Mexicanarchitectural heritage with deep learning and visual attention prediction.inProceedings of the 15th international workshop on content-based multimediaindexing.2017.
12.Lee,S.,et al.Linking past to present:Discovering style in twocenturies of architecture.in IEEE International Conference on ComputationalPhotography.2015.
13.Zhang F,Z.B.,Ratti C,Liu Y,Discovering place-informative scenesand objects using social media photos.Royal Society open science, 2019.6(3),181375.
14.车震宇,城市意象要素在城市旅游规划中的应用——以西双版纳州景洪 市为例.社会科学家,2010(6):p.99-101.
15.Ning,D.,PMMS:A Photo based Metadata Mining System for TourismResearch.Tourism and Hospitality Prospects,2017.1(6):p.34-47.
16.Zhou,B.,et al.Recognizing city identity via attribute analysis ofgeo-tagged images.in European conference on computer vision. 2014.Springer.
17.Yuehao,C.,L.Ying,and Y.Peifeng,City Image Study Based On OnlinePictures:24Cities Case.Planners,2017(2):p.10.
18.Kinga Kita,L.K.n.,Google street view image of a house predicts caraccident risk of its resident.arXiv preprint arXiv:1904.05270, 2019.
19.Salesses,P.,K.Schechtner,and C.A.Hidalgo,The collaborative imageof the city:mapping the inequality of urban perception.PloS one,2013.8(7):p.e68400.
20.Matzen,K.,K.Bala,and N.Snavely,Streetstyle:Exploring world-wideclothing styles from millions of photos.arXiv preprint arXiv:1706.01869,2017.
21.Xi Shen,A.A.E.,Mathieu Aubry,Discovering Visual Patterns in ArtCollections with Spatially-consistent Feature Learning. Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019:p.pp.9278-9287.
发明内容
本发明的目的是从海量的图像数据中学习城市的风貌特征来衡量城市间 的风貌视觉差异。视觉差异主要是受到图像数据的影响,图像本身具有“摄影 文化”性质,该性质也是致使城市风貌相似的原因,因此,本发明考虑引入图 像的“摄影文化”性质,这是在以往的研究中没有考虑到的。本发明引入了“风 貌特征”。从特征图的角度来说,越浅层的特征图记录着颜色、纹理等信息, 而越深层得到的特征图则会记录更高级的信息。为了能够获取到更多有用的信 息,本发明使用深层特征图统计信息。为了能够实现以上的想法,本发明使用 了卷积神经网络ResNet-50,并计算了网络layer4的特征图的均值和方差组成了本发明的风貌向量。
为了能够定量描述城市间的风貌差异,本发明由风貌向量计算所得的城市 风貌距离来衡量城市整体特色的相似性与独特性。另外,由于不同时代、不同 区域的城市必然存在着不同的风貌特征,本发明想要分析城市更细致的风貌特 征,由此,提出了构成整体特色的城市细粒度风貌的聚类分析途径。
基于上述目的,本发明提出基于社交媒体图像数据的城市风貌分析方法, 包括以下步骤:
获取社交媒体图像数据,建立数据集;
对数据集的样本进行室内室外图像分类,剔除室内图像样本,对室外图像 样本进行去除噪声处理,去除不代表城市风貌的样本;
对处理后的数据集使用卷积神经网络进行风貌学习;
采用焦点损失函数对样本不平衡问题进行处理;
使用预训练模型进行迁移学习,用于解决过拟合和训练时间长的问题;
使用最小化信息量准则对风貌特征进行聚类;
计算城市间的风貌距离;
根据所述风貌距离分析城市间的风貌相似性,及根据聚类结果分析城市的 细粒度风貌。
进一步的,所述对数据集的样本进行室内室外图像分类的方法采用室内室 外二分类模型resNet18,所述对室外图像样本进行去除噪声处理的方法为无监 督聚类方法。
进一步的,所述风貌学习的方法如下:
训练一个以城市图像数据作为输入,图像分到各个城市的概率值p作为输 出的卷积神经网络;从数据集中随机抽取B张图像输入到所述卷积神经网络中, 其中,B为batchsize,通过卷积神经网络的第l层得到Nl张特征图,每张特征图 的大小为W*H,将所述每张特征图展平为一维向量S=(a1,a2,……,aW*H)T, 得到了Nl维的向量
Figure BDA0002978415630000071
并且分别计算Si的均值Meani和标准 差Stdi,将所有的均值Meani和方差Stdi组成风貌向量:
Figure BDA0002978415630000072
将所述风貌向量作为 风貌特征输入到全连接层中进行学习。
进一步的,所述焦点损失函数如下:
Figure BDA0002978415630000073
其中αi为第i个城市的权重,样本量大的权重越小,αi=Nummin/Numi, Nummin为最小的样本数,Numi为第i个城市的样本数,N为城市的总数,γ为 焦点因子。
进一步的,使用迁移学习建立预训练模型,所述预训练模型采用ImageNet 预训练模型。
进一步的,通过对图像的风貌特征Style进行聚类,揭示城市的细粒度风貌。
进一步的,其特征在于,聚类方法包括以下步骤:
对城市的风貌特征进行了PCA降维处理,消除数据的冗余;
将降维后的向量作为高斯混合模型的输入,通过给予成分数components, 得到components个聚类结果。
进一步的,其特征在于,计算风貌距离的方法如下:
将所述风貌向量Style进行全连接操作后进行度量,生成风貌向量生成相似 性矩阵;
如果城市city_i与城市city_j风貌相似,那么city_i的图像容易被判别为属 于city_j,将被判别为city_j的city_i样本数记为S(i_j);
city_j的图像样本也容易被预测为属于city_i,将被判别为city_i的city_j样本数记为S(j_i),得到分类预测的混淆矩阵;
将所述混淆矩阵进行归一化处理后,得到city_i与city_j的相似性为 T(j,i)=Cj,i+Ci,j,其中Cj,i,Ci,j分别为S(j_i)、S(i_j)归一化后的值。
与现有技术相比,本发明以下优点和有益效果:
1)提出了从海量社交媒体图像中辨识城市风貌的方法,并将城市风貌编 码为一组向量。本发明引入的Focal loss损失函数,解决了社交媒体图像分布 的不均衡问题,让网络能够更好地学习到城市的风貌特征;
2)利用城市风貌向量定义了城市风貌距离,使用该距离能分析出不同城 市如何表象出风貌相似和风貌相近的,同时能分析出风貌距离和地理距离有一 定的相关性和相异质性;
3)为了深入理解单个城市的风貌特征,使用了一种以城市风貌向量为嵌 入向量的聚类方法,这种方法能够更细致的发现城市细粒度风貌。
附图说明
图1为本发明的城市风貌分析方法整体框架图;
图2为本发明的城市风貌分析方法流程图;
图3为本发明的各城市样本总量分布图;
图4为本发明的分类结果归一化混淆矩阵;
图5为本发明的各个城市具有独特的视觉风貌样本;
图6为本发明的归一化风貌相似性矩阵;
图7为本发明的风貌距离最大的前5对城市样本;
图8为本发明的城市视觉相似性与城市所在地理位置关系图;
图9为本发明的北京细粒度分类结果样本展示图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限 制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
获取城市图像的途径主要有两个,(1)社交媒体平台(如Facebook、微博、 Flickr、Twitter);(2)地图服务平台(如:Google、百度)。从社交媒体平台上 获取的图像数据,我们称之为“网络图像数据”,该类数据是由用户拍摄和上传 的,其拍摄角度不统一,且拍摄的内容是各式各样的,但是却是人们对城市的 一个整体认知。而对于从地图服务平台上获取的数据,我们一般称之为“街景 影像数据”,其拍摄角度统一,图像采样分布较为均匀,拍摄内容一般是根据 研究目标所决定的。
本发明使用社交媒体图像数据来进行城市风貌分析,街景图像与社交媒体 图像相比较,两类数据具有一定的差异性和相似性。本发明对网络图像数据和 街景影像数据做了比较。如表1所示,网络图像和街景影像都可以记录城市的 各个角落,但是社交网络图像数据对城市具有特色的区域有偏向性,在研究城 市风貌中具有一定的优势,能较好的发现城市中具有历史文化气息的场景。网 络照片是用户对城市的认知和记录,他们喜欢记录城市中有特色的地方,以及 他们感兴趣的地方,所以本发明获取到的照片数据在内容上会存在偏向性,但 是,正因为如此,可以更容易发现城市具有特色的地方,从而分析城市的风貌。 针对本发明的研究以及数据的特性,本发明选择使用社交网络图像数据。
表1.网络图像数据与街景影像数据的比较
Figure BDA0002978415630000101
本发明收集了10个城市的社交媒体图像数据534,767张,利用卷积神经网 络学习发现了城市的风貌特征,利用该特征衡量城市之间的相似性,并定义了 风貌距离。本发明没有设定特定的城市风貌识别标准,而是以一种无监督的方 式发现城市的风貌类型。
本发明的城市风貌分析方法整体框架如图1所示。为了希望可以学习到城 市的风貌特征,并将该特征用于之后的各种分析,使用卷积神经网络自动学习 给定训练数据中丰富的内部特征层次,其中,本发明统计网络第4层特征图的 均值和方差,并将其连接之后组成的向量作为风貌特征输入到全连接层中。
实施例1
本发明提出了基于社交媒体图像数据的城市风貌分析方法,并利用此风貌 分析方法发现了单个城市的细粒度风貌。如图2所示,本发明的城市风貌分析 方法包括以下步骤:
S10:获取社交媒体图像数据,建立数据集
本发明的研究数据是YFCC-100M(Yahoo Flickr Creative Commons 100Million)数据集,该数据集包含了2004年-2014年用户上传的所有视频与照片 信息,包括下载链接、上传时间、拍摄地点、用户标签与机器标签、经纬度等 23个信息,共有1亿条数据,其中有80万条是视频信息。利用已有的信息, 本发明获取了位于4个洲的10个城市的图像以及用户标签信息:亚洲、欧洲、 北美洲、大洋洲。这些城市是:北京、上海、香港、东京、多伦多、纽约、蒙 特利尔、巴黎、伦敦、悉尼,得到4,387,980条图像信息。
S20:对数据集的样本进行室内室外图像分类,并去除噪声样本
获取到的数据会存在大量的噪声样本,且已经被证实。为了避免这些噪声 样本影响实验结果,需要将其去除。下面是本发明去除噪声样本的过程,分为 两个步骤。
S201:室内室外图像自动分类与剔除
根据网络图像数据的特性,会获取到诸如人物、室内桌椅、食物、动物以 及建筑等各式各样的图像。根据本发明的研究目标,需要找出具有特色场景的 城市图像,这些场景首先应该是室外场景,因此,本发明首先考虑剔除室内图 像。其中,本发明将室内、人物、花草、食物等不具有城市风貌代表性的图像 称为“噪声样本”。
为了去除掉这些无关紧要的室内样本,本发明使用了以Place365数据集训 练的室内室外二分类模型resNet18分别对10个城市做处理,每个城市均会得 到室内、室外两个分类结果,最后每个城市均保留类别为室外的图像,最后一 共剩下750,850张图像。
S202:噪声处理
在步骤S201中训练出的二分类模型存在一定的误差,分类得到的室外图 像中也会存在一定比例的噪声样本,这些噪声样本不具有城市风貌代表性,诸 如花草、动物、飞机、天空等,在本发明的实验过程中,发现这些遗留的噪声 样本对本发明的实验结果存在着一定的影响,所以需要进一步剔除这些噪声样 本。现有技术是先提取噪声样本的HOG特征,再利用提前训练好的SVM分类 器对其进行分类,为了提高分类的精度,对多类噪声,分别训练一对多的SVM 分类器,如果判别为噪声,则将其剔除,否则保留。该方法需要有候选噪声样 本,但是在本发明中,不知道有多少种类的噪声。本发明中的噪声样本与非噪 声样本的特征差异是比较大的,因此,本发明使用无监督聚类的方式剔除噪声, 实验证明噪声是可以被很好的分类出来。
具体做法如下:
S2021:训练一个以城市名称为类别的网络(ResNet50)作为特征提取器, 每个城市随机选取了20%的样本作为训练样本,训练方法为现有技术,不再赘 述。
S2022:本发明使用池化层的特征作为聚类的输入特征,每个城市的聚类 数均设置为30(根据实验情况设置),最后查看聚类结果,发现大部分的噪声 与非噪声样本被很好的区分开,被聚类到各自的类别中,由此,得到了534,767 张图像,具体的数量分布如表2所示。
表2.各个城市图像数量一览表
Figure BDA0002978415630000121
Figure BDA0002978415630000131
S30:对处理后的数据集使用卷积神经网络进行风貌学习
城市风貌学习关键在于城市图像特征的提取。在本发明中,训练了一个以 城市图像数据作为输入,图像分到各个城市的概率值p作为输出的卷积神经网 络ResNet-50,本发明将训练好的网络作为城市图像的特征提取器。
风貌学习的过程如下:
从数据集中随机抽取B张图像输入到网络中(其中,B为batchsize),通过 网络的第l层(本发明设置l=4)可以得到Nl张特征图(本发明中Nl=2048), 每张特征图的大小为W*H,将每张特征图展平为一维向量 S=(a1,a2,……,aW*H)T,由此,得到了Nl维的向量
Figure BDA0002978415630000132
并且 分别计算Si的均值Meani和标准差Stdi,将所有的均值和方差contact组成的向 量称为风貌向量:
Figure BDA0002978415630000133
S40:采用焦点损失函数对样本不平衡问题进行处理
如图3所示,本发明实验数据集存在样本不均衡问题,本发明使用焦点损 失(Focal loss)函数,用于解决前景和背景间样本极度不平衡、样本难分类的 问题。
焦点损失函数表现形式如下:
Figure BDA0002978415630000134
其中αi为第i个城市的权重,样本量大的权重越小,αi=Nummin/Numi, Nummin为最小的样本数,Numi为第i个城市的样本数,N为城市的总数,γ为 焦点因子。通过大量实验,设置合适的α的值解决样本的不均衡。
S50:使用预训练模型进行迁移学习
大量的图像数据使得模型在训练中有足够的训练样本,卷积神经网络能够 学习到足够多的特征,但同时也存在着过拟合、训练时间过长的问题。为了解 决这些问题,本发明引入了迁移学习。迁移学习是通过利用已有的知识帮助解 决现有的问题,它除了能解决以上两个问题以外,还可以提升模型的鲁棒性。
ImageNet预训练模型含有1000类图像数据的特征,对于本发明的迁移学 习是较好的选择。本发明固定了ImageNet预训练模型基础层的训练权重,微 调了全连接层的权重。
S60:对风貌特征进行聚类
使用风貌向量进一步分析城市的细粒度风貌。许多关于风貌类型的研究一 般是先规定风貌的类型,并将风貌作为分类标签,然后再通过机器学习的方法 找到属于这些类型的图像。但是,本发明没有为图像数据设定风貌类型属性, 所以,本发明考虑使用聚类的方式发现城市的风貌类型。
通过对图像的风貌特征Style进行聚类,可以发现和揭示城市的细粒度风貌。 为了消除数据的冗余,本发明对城市的风貌特征进行了PCA降维处理,保留 了90%的方差。随后,本发明将降维后的向量作为GMM(高斯混合模型)的 输入,通过给予成分数components,可以得到components个聚类结果。
为了避免随意指定聚类数,导致过拟合的情况,本发明使用了sciki-learn 库提供的确定成分数的准则:最小化信息量准则(AIC)。
S70:计算城市间的风貌距离
为了能定量的描述城市间的风貌相似程度,本发明使用风貌向量间接地计 算了城市间的风貌距离。一般情况下,距离度量的对象应该是同等或者相似的, 且具有相同的维度。城市相似性度量的对象是城市的图像数据,图像所包含的 内容应该是同一事物,如均是房屋或者桥梁等。但是,本发明的研究对象是城 市风貌,它不仅仅是单一的事物。现有技术中,将模型评估结果(混淆矩阵)作 为度量的标准,该方法可以容纳多种度量对象。与现有技术不同的是,本发明 将风貌向量Style进行全连接操作后进行度量,即使用风貌向量生成相似性矩阵。
该方法的思想是:如果城市city_i与城市city_j风貌相似,那么city_i的图 像容易被判别为属于city_j,将被判别为city_j的city_i样本数记为S(i_j)。同样 地,city_j的图像样本也容易被预测为属于city_i,将被判别为city_i的city_j样 本数记为S(j_i),最后可以得到一个分类预测的混淆矩阵,将其进行归一化处 理后,可以得到city_i与city_j的相似性为T(j,i)=Cj,i+Ci,j。其中Cj,i,Ci,j分别 为S(j_i)、S(i_j)归一化后的值。
S80:城市风貌分析
本发明进行图像分类的过程如下。以6:2:2的比例将数据划分为了训练集、 验证集和测试集,验证集主要用于调整模型训练过程中的参数,以确定何时停 止训练。设置batchsize为1024,应用CNN的前向和后向传播来计算焦点损失 函数的参数梯度。由于原始图像大小不一,本发明输入到网络中训练的图像 scale为224大小。本发明使用动量moments=0.9,学***均精度。本发明在测试集上进行了预测,并使用如图4所示的混淆矩阵展 示预测结果。
S801:城市风貌相似性分析
图4中对角线的值是单个城市图像样本中被正确预测的比例,其值越大, 表示该城市越容易被区分,代表了该城市的独特视觉风貌;非对角线值则表示 容易错分类到其他城市的样本比例,代表了这两个城市之间的视觉风貌相似性。 确切地说,如,北京的测试样本中被正确预测的样本数占总数的64%(第一行 第一列对角线),北京容易被预测为其他城市(第一行非对角线上)的样本占 比分别为:0.07(香港)、0.06(伦敦)、0.01(蒙特利尔)、0.05(纽约)、0.04 (巴黎)、0.03(上海)、0.02(悉尼)、0.06(东京)、0.02(多伦多)。
从混淆矩阵图中可以看出,北京(0.64)、悉尼(0.52)、香港(0.48)、 巴黎(0.48)、上海(0.48)是预测正确概率最高的5个城市,说明相比于其 他城市,这些城市在视觉上更具有自己的风貌,与其他城市的相似性较小。而 伦敦(0.40)、蒙特利尔(0.38)、纽约(0.42)、东京(0.40)、多伦多(0.42) 是容易预测错误的5个城市,相比于其他城市更容易被混淆,视觉上的独特性 相对较弱。
为了可以更清晰的了解每个城市的视觉风貌,如图5所示,10个城市被预 测正确且预测概率较高的图像样本。从图5可以看出,历史遗迹、地标、独特 的城市景观是这些城市具有城市图特性的场景。其中,北京的故宫、天坛等历 史古建筑地标是北京里富有视觉独特性的场景;香港中富有城市信息的场景是 维多利亚港夜景等独特景象;伦敦的伦敦塔桥、大本钟等地标是使伦敦与其他 城市的因素;蒙特利尔的圣母大教堂等地标让蒙特利尔在视觉上更加独特;除 此之外,纽约的布鲁克林大桥、帝国大厦等地标,巴黎的埃菲尔铁塔、凯旋门 等地标,上海的东方明珠等地标以及长江沿岸景色,悉尼的悉尼歌剧院、悉尼大桥等著名建筑,东京的东京塔、东京天空树等地标、浅草寺等历史建筑,多 伦多的多伦多塔等地标,它们都是使城市具有视觉独特性的要素,是与其他城 市在视觉上不相似的独特场景。
为了能够定量的描述城市间的视觉相似性,本发明利用风貌距离计算了两 两城市间的视觉风貌距离,得到了如图6所示的视觉风貌相似性矩阵。
从归一化风貌相似性矩阵中可以分析出,伦敦与巴黎市最为相似(0.31), 其次是纽约-伦敦(0.23)、多伦多-纽约(0.22)、东京-香港(0.20)、东京- 纽约(0.20)。如图7所示,展示了距离最大的前5个所对应的城市间的样本。
从图7可以看到上述视觉相似性较大的两两城市之间易被错分类的景象, 具有视觉相似性的景象:
(1)伦敦-巴黎(0.31):两个城市的建筑在样式设计上是相似的,均是 规整、圆顶的设计,用色也是相近的。
(2)纽约-伦敦(0.23):哥特式建筑以及窗户样式是纽约和伦敦易被错 分类的要素,使纽约和伦敦在视觉上相似。
(3)多伦多-纽约(0.22):从图中可以发现,多伦多与纽约的高楼大厦 现代化建筑在视觉上比较相似,在整体的视觉颜色上也相近。
(4)东京-香港(0.20):东京和香港之间体现人口密集、房屋密集的图 像以及高楼大厦易被错分类,这说明东京和香港都具有人口密集、房屋密集的 特点,而这个特点让这两个城市在视觉上相似,并且高楼大厦也是它们视觉相 似的要素之一。
(5)东京-纽约(0.20):现代化建筑的外表均是玻璃幕墙,而东京的塔 与纽约的个性设计在颜色上是相近的,且由于拍摄的角度缘故,从视觉上是相 似的,纽约的商业街与东京的普通建筑在色调上是相似的。
从而,可以发现,城市相似可以体现在颜色、拍摄视角,以及整体风貌等 方面。
S802:风貌距离与地理距离相关性分析
为了进一步探究城市风貌相似性与地理位置的关系,本发明将风貌距离展 示在空间位置上。图8为城市风貌相似性与城市所在地理位置关系。图中被灰 色线相连的是上述相似性得分较高的一对城市,上面的数字为它们之间的误分 类率之和,即视觉相似度矩阵中的值;圆圈标识的是城市地理位置,其大小、 颜色深浅与该城市的图像被正确分类的比例正相关,即与混淆矩阵中的对角线 值正相关,较大且颜色较深的圈表示该城市与其他城市视觉相似性较低,更具 有视觉独特性。
从图8中不难看出,地理位置相近的城市之间往往有较大的视觉相似性, 这是由于相近的城市之间往往在历史上有着深度的交流、有着相似的文化、相 似的气候和地理环境,而城市视觉特征又在很大程度上受到文化、历史以及气 候、地理环境的影响,因此地理位置更相近的城市在视觉上更相似是有理可循 的。
S803:城市细粒度风貌分析
由于地域、文化历史等的不同,每个城市形成的风貌类型是不一样的。本 发明考虑从更细致的角度分析单个城市的风貌类型,使用了无监督聚类的方式 得到了每个城市的细粒度分类结果。
由于城市比较多,一一叙述太过于繁琐,根据S801步骤中城市风貌相似性 分析的结果,发现北京是相对于其他城市来说,最具有个人的特色,由此本发 明仅对北京进行分析。使用S60步骤中的方法得到聚类结果,如图9所示,选 择了一些离聚类中心较近且具有代表性的聚类中心的样本。根据图9的结果, 可以很清晰的了解到北京的特色,为了能进一步的解释,本发明将粗略地将结 果划分为了5大类:北京的古建筑(A)、目标物体(B)、现代化标志性建筑(C)、 一些独特的风景(D),以及夜晚的北京(E)。
北京的古建筑设计很是特别,一般是左右对称的,中间部分稍高,主要是 想要体现中国古代帝王至高无上的权威,并且墙的颜色一般是砖红色。同时, 古建筑的屋顶、屋前时常伴随着一些诸如:龙、狮子的吉祥图案,在屋前也会 摆放一些香炉(图9(B)前三行)。现代建筑中,北京的大裤衩以及一些高楼 大厦由于其设计、作用而引起了人们的关注,从而形成了北京的特色之一(图 9(C)前5行)。长城、通运桥、十七孔桥等景色成为了北京的一道亮丽风景 线。历史人文、美丽的景色不一定能给人留下非常深刻的印象。越接近生活, 感触会越深。图9(C)后两行展示的是老北京的胡同,胡同最能展示老年人对 老北京的情怀,也最能展示老北京的生活。北京的风貌的形成与中国的历史文 化、发展是息息相关的。
本发明提出了一个从海量社交媒体图像中学习城市风貌的方法,基于该方 法,本发明主要从两个方面对全球10个城市进行了分析:
(1)利用城市风貌向量定义了城市风貌距离,使用该距离分析了不同城 市在风貌视角下是如何表象出风貌相似和风貌相近的,
(2)为了深入理解单个城市的风貌特征,本发明以城市风貌向量为嵌入 向量进行聚类分析,从而更细致的发现城市细粒度风貌。
本发明的有益效果如下:
1)提出了从海量社交媒体图像中辨识城市风貌的方法,并将城市风貌编 码为一组向量,同时本发明引入了Focal loss,解决了社交媒体图像分布的不均 衡问题,让网络能够更好的学习到城市的风貌特征,;
2)利用城市风貌向量定义了城市风貌距离,使用该距离分析了不同城市 如何表象出风貌相似和风貌相近的,同时发现风貌距离和地理距离有一定的相 关性和相异质性;
3)为了深入理解单个城市的风貌特征,使用了一种以城市风貌向量为嵌 入向量的聚类方法,这种方法能够更细致的发现城市细粒度风貌。
上述实施例为本发明方法用于基于社交媒体图像数据的城市风貌分析方 法的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任 何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均 应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.基于社交媒体图像数据的城市风貌分析方法,其特征在于,包括以下步骤:
获取社交媒体图像数据,建立数据集;
对数据集的样本进行室内室外图像分类,剔除室内图像样本,对室外图像样本进行去除噪声处理,去除不代表城市风貌的样本;
对处理后的数据集使用卷积神经网络进行风貌学习;
采用焦点损失函数对样本不平衡问题进行处理;
使用预训练模型进行迁移学习,用于解决过拟合和训练时间长的问题;
使用最小化信息量准则对风貌特征进行聚类;
计算城市间的风貌距离;
根据所述风貌距离分析城市间的风貌相似性,及根据聚类结果分析城市的细粒度风貌。
2.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法,其特征在于,所述对数据集的样本进行室内室外图像分类的方法采用室内室外二分类模型resNet18,所述对室外图像样本进行去除噪声处理的方法为无监督聚类方法。
3.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法,其特征在于,所述风貌学习的方法如下:
训练一个以城市图像数据作为输入,图像分到各个城市的概率值p作为输出的卷积神经网络;从数据集中随机抽取B张图像输入到所述卷积神经网络中,其中,B为batchsize,通过卷积神经网络的第l层得到Nl张特征图,每张特征图的大小为W*H,将所述每张特征图展平为一维向量S=(a1,a2,……,aW*H)T,其中,ai为该张特征图上的第i个特征值,得到了Nl维的向量
Figure FDA0002978415620000011
并且分别计算Si的均值Meani和标准差Stdi,将所有的均值Meani和方差Stdi组成风貌向量:
Figure FDA0002978415620000021
将所述风貌向量作为风貌特征输入到全连接层中进行学习。
4.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法,其特征在于,所述焦点损失函数如下:
Figure FDA0002978415620000022
其中αi为第i个城市的权重,样本量大的权重越小,αi=Nummin/Numi,Nummin为最小的样本数,Numi为第i个城市的样本数,N为城市的总数,γ为焦点因子。
5.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法,其特征在于,使用迁移学习建立预训练模型,所述预训练模型采用ImageNet预训练模型。
6.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法,其特征在于,通过对图像的风貌特征Style进行聚类,揭示城市的细粒度风貌。
7.根据权利要求1或6任意一项所述的基于社交媒体图像数据的城市风貌分析方法,其特征在于,聚类方法包括以下步骤:
对城市的风貌特征进行PCA降维处理,消除数据的冗余;
将降维后的向量作为高斯混合模型的输入,通过给予成分数components,得到components个聚类结果。
8.根据权利要求1或3任意一项所述的基于社交媒体图像数据的城市风貌分析方法,其特征在于,计算风貌距离的方法如下:
将所述风貌向量Style进行全连接操作后进行度量,生成风貌向量生成相似性矩阵;
如果城市city_i与城市city_j风貌相似,那么city_i的图像容易被判别为属于city_j,将被判别为city_j的city_i样本数记为S(i_j);
city_j的图像样本也容易被预测为属于city_i,将被判别为city_i的city_j样本数记为S(j_i),得到分类预测的混淆矩阵;
将所述混淆矩阵进行归一化处理后,得到city_i与city_j的相似性为T(j,i)=Cj,i+Ci,j,其中Cj,i,Ci,j分别为S(j_i)、S(i_j)归一化后的值。
CN202110280016.2A 2021-03-16 2021-03-16 基于社交媒体图像数据的城市风貌分析方法 Active CN113159122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110280016.2A CN113159122B (zh) 2021-03-16 2021-03-16 基于社交媒体图像数据的城市风貌分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110280016.2A CN113159122B (zh) 2021-03-16 2021-03-16 基于社交媒体图像数据的城市风貌分析方法

Publications (2)

Publication Number Publication Date
CN113159122A true CN113159122A (zh) 2021-07-23
CN113159122B CN113159122B (zh) 2022-03-15

Family

ID=76887143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110280016.2A Active CN113159122B (zh) 2021-03-16 2021-03-16 基于社交媒体图像数据的城市风貌分析方法

Country Status (1)

Country Link
CN (1) CN113159122B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258143A (zh) * 2013-06-05 2013-08-21 天津大学城市规划设计研究院 一种城市风貌规划实施效果的评价方法
CN104933229A (zh) * 2015-05-29 2015-09-23 华南理工大学 一种基于网络图片的建成环境景观特征识别方法
US20180039888A1 (en) * 2016-08-08 2018-02-08 Interactive Intelligence Group, Inc. System and method for speaker change detection
CN108009634A (zh) * 2017-12-21 2018-05-08 美的集团股份有限公司 一种卷积神经网络的优化方法、装置及计算机存储介质
CN109993803A (zh) * 2019-02-25 2019-07-09 复旦大学 城市色调的智能分析与评价方法
CN110045335A (zh) * 2019-03-01 2019-07-23 合肥工业大学 基于生成对抗网络的雷达目标航迹识别方法和装置
WO2019149376A1 (en) * 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data using a neural network and normalizations
CN110335212A (zh) * 2019-06-28 2019-10-15 西安理工大学 基于条件对抗网络的缺损古籍汉字修复方法
CN110414305A (zh) * 2019-04-23 2019-11-05 苏州闪驰数控***集成有限公司 人工智能卷积神经网络人脸识别***
US20200065675A1 (en) * 2017-10-16 2020-02-27 Illumina, Inc. Deep Convolutional Neural Networks for Variant Classification
CN111026847A (zh) * 2019-12-09 2020-04-17 北京邮电大学 一种基于注意力网络和长短期记忆网络的文本情感识别方法
US20200285666A1 (en) * 2016-09-06 2020-09-10 Zorroa Corporation Media Search Processing Using Partial Schemas

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258143A (zh) * 2013-06-05 2013-08-21 天津大学城市规划设计研究院 一种城市风貌规划实施效果的评价方法
CN104933229A (zh) * 2015-05-29 2015-09-23 华南理工大学 一种基于网络图片的建成环境景观特征识别方法
US20180039888A1 (en) * 2016-08-08 2018-02-08 Interactive Intelligence Group, Inc. System and method for speaker change detection
US20200285666A1 (en) * 2016-09-06 2020-09-10 Zorroa Corporation Media Search Processing Using Partial Schemas
US20200065675A1 (en) * 2017-10-16 2020-02-27 Illumina, Inc. Deep Convolutional Neural Networks for Variant Classification
CN108009634A (zh) * 2017-12-21 2018-05-08 美的集团股份有限公司 一种卷积神经网络的优化方法、装置及计算机存储介质
WO2019149376A1 (en) * 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data using a neural network and normalizations
CN109993803A (zh) * 2019-02-25 2019-07-09 复旦大学 城市色调的智能分析与评价方法
CN110045335A (zh) * 2019-03-01 2019-07-23 合肥工业大学 基于生成对抗网络的雷达目标航迹识别方法和装置
CN110414305A (zh) * 2019-04-23 2019-11-05 苏州闪驰数控***集成有限公司 人工智能卷积神经网络人脸识别***
CN110335212A (zh) * 2019-06-28 2019-10-15 西安理工大学 基于条件对抗网络的缺损古籍汉字修复方法
CN111026847A (zh) * 2019-12-09 2020-04-17 北京邮电大学 一种基于注意力网络和长短期记忆网络的文本情感识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BOLEI ZHOU 等: "Places: A 10 Million Image Database for Scene Recognition", 《 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
BOLEI ZHOU 等: "Recognizing City Identity via Attribute Analysis", 《COMPUTER SCIENCE》 *
FAN ZHANG 等: "Discovering place-informative scenes and objects using social media photos", 《ROYAL SOCIETY OPEN SCIENCE》 *
曹越皓 等: "基于网络照片数据的城市意象研究——以中国24个主要城市为例", 《规划师》 *
李亮: "基于深度学习的城市遗产有形属性与无形属性价值的识别研究——以苏州河为例", 《城市发展研究》 *
龙瀛 等: "图片城市主义:人本尺度城市形态研究的新思路", 《规划师》 *

Also Published As

Publication number Publication date
CN113159122B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN111666843B (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN106997389B (zh) 一种基于多数据集和协同张量分解的旅游景点推荐方法
Zhang et al. Discovering place-informative scenes and objects using social media photos
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
CN111291604A (zh) 面部属性识别方法、装置、存储介质及处理器
CN108960409A (zh) 标注数据生成方法、设备及计算机可读存储介质
CN103324677B (zh) 一种可分级的快速图像gps位置估计方法
CN109902585A (zh) 一种基于图模型的手指三模态融合识别方法
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN108492301A (zh) 一种场景分割方法、终端及存储介质
CN110738132B (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
KR101224312B1 (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
CN108846416A (zh) 显著图像的提取处理方法及***
CN112070010B (zh) 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法
CN109284760A (zh) 一种基于深度卷积神经网络的家具检测方法及装置
CN110135237A (zh) 一种手势识别方法
CN113989291A (zh) 一种基于PointNet与RANSAC算法的建筑物屋顶平面分割方法
Zhong et al. Notice of Violation of IEEE Publication Principles: A Big Data Framework to Identify Tourist Interests Based on Geotagged Travel Photos
CN116152494A (zh) 基于两阶段3d点云语义分割的建筑物脚点识别分割方法
CN115035341A (zh) 一种自动选择学生模型结构的图像识别知识蒸馏方法
Shen et al. Sightseeing value estimation by analysing geosocial images
CN112116669B (zh) 一种基于颜色和谐和平面构成的图像美学预测方法
CN109741351A (zh) 一种基于深度学习的类别敏感型边缘检测方法
CN109241315A (zh) 一种基于深度学习的快速人脸检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant