CN113159122B

CN113159122B - 基于社交媒体图像数据的城市风貌分析方法

Info

Publication number: CN113159122B
Application number: CN202110280016.2A
Authority: CN
Inventors: 李朋龙; 丁忆; 罗莉; 马泽忠; 肖禾; 赵玲; ***; 韦宏林; 罗鼎; 段松江; 魏文杰; 钱进; 程丽丹; 胡艳; 殷明
Original assignee: Chongqing Geographic Information And Remote Sensing Application Center; Central South University
Current assignee: Chongqing Geographic Information And Remote Sensing Application Center; Central South University
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2022-03-15
Anticipated expiration: 2041-03-16
Also published as: CN113159122A

Abstract

本发明公开了基于社交媒体图像数据的城市风貌分析方法，方法包括：获取社交媒体图像数据；对数据集的样本进行分类和去除噪声；使用卷积神经网络进行风貌学***衡问题进行处理；进行迁移学习；对风貌特征进行聚类；计算城市间的风貌距离；分析城市间的风貌相似性及城市的细粒度风貌。本发明将城市风貌编码为一组向量；解决了社交媒体图像分布的不均衡问题；利用城市风貌向量定义了城市风貌距离，使用该距离能分析出不同城市如何表象出风貌相似和风貌相近的，能分析出风貌距离和地理距离的相关性；使用城市风貌向量为嵌入向量的聚类方法，能够更细致地发现城市细粒度风貌。

Description

基于社交媒体图像数据的城市风貌分析方法

技术领域

本发明属于人工智能领域，具体涉及基于社交媒体图像数据的城市风貌分析方法。

背景技术

城市风貌是指一个城市可以被视觉感知的特色，是城市身份、地域文化和城市魅力与活力的重要标志。它受物质环境和非物质环境共同影响，包括山水环境、开敞空间、建筑形体等景观要素。受全球化影响，许多城市逐渐丧失特色，出现了“千城一面”的风貌趋同问题。近十年来，城市特色营造和城市风貌规划已经备受重视，但是由于文化特色难以衡量，各城市之间的风貌独特或相似程度不好评判，适用于城市风貌建设的科学定量方法和客观分析技术仍有待完善。世界上没有两片完全相同的叶子，城市之间也不会完全的相同或者不同。提取城市的视觉特征、风貌特征，有利于将其作为城市设计、管理的依据，同时也作为游客们旅游时的参考。

许多研究者已经从视觉元素、要素类型等方面探讨了城市的独特性，也有人从特征图的角度探索了城市的相似性与独特性。对城市的风貌特征进行描述与表示有助于衡量城市间的独特或相似程度，但是，较早的研究如专利文献1-3，主要是依靠调查问卷和访谈的方式来探索城市的风貌特征，这些方法为今后的研究提供了很好的思路，但是该方法不能快速地捕获关键的视觉信息，是一项非常耗时耗力的工作。图像数据是客观反映城市风貌的一种重要的信息媒介，同时也是以日常生活视角去观察城市局部风貌的一种方式。随着各种社交软件(如Flickr、微博、Instagram)、网络地图服务(如：Google、腾讯)等的快速发展，图像数据的获取变得更加的容易，覆盖城市各个角落的图像数据也在日益增加。随着计算机技术的日新月异，许多研究者开始重视针对城市图像数据的挖掘与利用，如非专利文献4探索最能体现巴黎城市特质的风貌元素，了解什么样的阳台或窗户看起来最像巴黎；非专利文献5探索是什么使伦敦看起来非常美丽、安静和快乐。然而，由于已有技术无法处理海量图像数据的任务需求，社会迫切需要更高效率、智能化的处理方法。近年来，随着深度学习在计算机视觉领域的快速发展，非专利文献6-9中，具有强大的学习能力与表达能力的卷积神经网络在图像分类、图像场景识别等任务上取得了突破性进展。在城市图像研究方面，非专利文献10-12主要是涉及城市感知、城市和建筑风格以及地点识别与城市相似分析等相关研究。非专利文献13中，Zhang等人建立了一个覆盖18个城市的社交媒体数据集，使用一个深度卷积神经网络图像分类方法来衡量城市场景、物体的相似性，并发现城市整体的独特性，但是他们没有研究构成城市整体特色的细粒度风貌类型。

许多研究已经利用这两种类型的数据全面了解了城市。非专利文献14,15将网络图像数据用于旅游分析。非专利文献10将街景影像主要用于对城市进行预测分析、城市安全性分析等。非专利文献16中，周博磊等人利用网络数据对7个城市进行了城市要素类型分析，并探讨了城市间的相似性与差异性。还有非专利文献17利用网络图像数据从城市整体的分布结构和独特性等方面评价了不同城市的意象特征。非专利文献18中，Kita利用Google街景影像的房屋图像预测了车祸风险，提出了风险预测模型。非专利文献19中，Salesses等人利用Google街景影像分析了4个城市的街道安全度。然而还没有用网络图像数据进行城市风貌分析的研究。

非专利文献20中，Matzen等人创建和标注了大型的服饰数据集，并为该数据集创建了12种服饰属性，使用聚类的方式发现服饰的多种风貌类型组合，并对南北半球服饰进行了对比分析。非专利文献14中，Miriam等人利用目标检测方法和美学计算工具分析照片的拍摄文化风貌，使用监督分类的方法定量分析了照片拍摄的相似程度。非专利文献21中，Shen等人提出了一种视觉一致性的方法，通过余弦相似度挖掘艺术作品中完全一致的区域。

现有技术还没有一种从海量社交媒体图像中学习城市风貌，并对城市间的风貌相似性，及城市的细粒度风貌进行分析的方法。

在先技术文献

非专利文献

1.Milgram,S.,A psychological map of New York City.American Scientist,1972.60(2):p.194-200.

2.Twigger-Ross,C.L.and D.L.Uzzell,Place and identityprocesses.Journal of environmental psychology,1996.16(3):p.205-220.

3.Paasi,A.,Region and place:regional identity in question.Progress inhuman geography,2003.27(4):p.475-485.

4.Doersch,C.,et al.,What makes paris look like paris？ACMTransactionson Graphics,Association for Computing Machinery,2012.31(4).

5.Quercia,D.,N.K.O'Hare,and H.Cramer.Aesthetic capital:what makesLondon look beautiful,quiet,and happy？in Proceedings of the 17th ACMconference on Computer supported cooperative work&social computing.2014.

6.Sun,Y.,et al.,Automatically designing CNN architectures using thegenetic algorithm for image classification.IEEE transactions on cybernetics,2020.50(9):p.3840-3854.

7.Ma,B.,et al.,Autonomous deep learning:A genetic DCNN designer forimage classification.Neurocomputing,2020.379:p.152-161.

8.B.Zhou,A.L.,A.Khosla,A.Oliva and A.Torralba,Places:A 10MillionImage Database for Scene Recognition.in IEEE Transactions on Pattern Analysisand Machine Intelligence,1 June 2018.40,no.6:p.pp.1452-1464.

9.Tang,P.,H.Wang,and S.Kwong,G-MS2F:GoogLeNet based multi-stagefeature fusion of deep CNN for scene recognition.Neurocomputing,2017.225:p.188-197.

10.Zhang,F.,et al.,Social sensing from street-level imagery:A casestudy in learning spatio-temporal urban mobility patterns.ISPRS Journal ofPhotogrammetry and Remote Sensing,2019.153:p.48-58.

11.Obeso,A.M.,et al.Connoisseur:classification of styles of Mexicanarchitectural heritage with deep learning and visual attention prediction.inProceedings of the 15th international workshop on content-based multimediaindexing.2017.

12.Lee,S.,et al.Linking past to present:Discovering style in twocenturies of architecture.in IEEE International Conference on ComputationalPhotography.2015.

13.Zhang F,Z.B.,Ratti C,Liu Y,Discovering place-informative scenesand objects using social media photos.Royal Society open science,2019.6(3),181375.

14.车震宇,城市意象要素在城市旅游规划中的应用——以西双版纳州景洪市为例.社会科学家,2010(6):p.99-101.

15.Ning,D.,PMMS:A Photo based Metadata Mining System for TourismResearch.Tourism and Hospitality Prospects,2017.1(6):p.34-47.

16.Zhou,B.,et al.Recognizing city identity via attribute analysis ofgeo-tagged images.in European conference on computer vision.2014.Springer.

17.Yuehao,C.,L.Ying,and Y.Peifeng,City Image Study Based On OnlinePictures:24Cities Case.Planners,2017(2):p.10.

18.Kinga Kita,L.K.n.,Google street view image of a house predicts caraccident risk of its resident.arXiv preprint arXiv:1904.05270,2019.

19.Salesses,P.,K.Schechtner,and C.A.Hidalgo,The collaborative imageof the city:mapping the inequality of urban perception.PloS one,2013.8(7):p.e68400.

20.Matzen,K.,K.Bala,and N.Snavely,Streetstyle:Exploring world-wideclothing styles from millions of photos.arXiv preprintarXiv:1706.01869,2017.

21.Xi Shen,A.A.E.,Mathieu Aubry,Discovering Visual Patterns in ArtCollections with Spatially-consistent Feature Learning.Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019:p.pp.9278-9287.

发明内容

本发明的目的是从海量的图像数据中学习城市的风貌特征来衡量城市间的风貌视觉差异。视觉差异主要是受到图像数据的影响，图像本身具有“摄影文化”性质，该性质也是致使城市风貌相似的原因，因此，本发明考虑引入图像的“摄影文化”性质，这是在以往的研究中没有考虑到的。本发明引入了“风貌特征”。从特征图的角度来说，越浅层的特征图记录着颜色、纹理等信息，而越深层得到的特征图则会记录更高级的信息。为了能够获取到更多有用的信息，本发明使用深层特征图统计信息。为了能够实现以上的想法，本发明使用了卷积神经网络ResNet-50，并计算了网络layer4的特征图的均值和方差组成了本发明的风貌向量。

为了能够定量描述城市间的风貌差异，本发明由风貌向量计算所得的城市风貌距离来衡量城市整体特色的相似性与独特性。另外，由于不同时代、不同区域的城市必然存在着不同的风貌特征，本发明想要分析城市更细致的风貌特征，由此，提出了构成整体特色的城市细粒度风貌的聚类分析途径。

基于上述目的，本发明提出基于社交媒体图像数据的城市风貌分析方法，包括以下步骤：

获取社交媒体图像数据，建立数据集；

对数据集的样本进行室内室外图像分类，剔除室内图像样本，对室外图像样本进行去除噪声处理，去除不代表城市风貌的样本；

对处理后的数据集使用卷积神经网络进行风貌学习；

采用焦点损失函数对样本不平衡问题进行处理；

使用预训练模型进行迁移学习，用于解决过拟合和训练时间长的问题；

使用最小化信息量准则对风貌特征进行聚类；

计算城市间的风貌距离；

根据所述风貌距离分析城市间的风貌相似性，及根据聚类结果分析城市的细粒度风貌。

进一步的，所述对数据集的样本进行室内室外图像分类的方法采用室内室外二分类模型resNet18，所述对室外图像样本进行去除噪声处理的方法为无监督聚类方法。

进一步的，所述风貌学习的方法如下：

训练一个以城市图像数据作为输入，图像分到各个城市的概率值p作为输出的卷积神经网络；从数据集中随机抽取B张图像输入到所述卷积神经网络中，其中，B为batchsize，通过卷积神经网络的第l层得到N_l张特征图，每张特征图的大小为W*H，将所述每张特征图展平为一维向量S＝(a₁，a₂，......，a_W*H)^T，得到了N_l维的向量

并且分别计算S_i的均值Mean_i和标准差Std_i，将所有的均值Mean_i和方差Std_i组成风貌向量：

将所述风貌向量作为风貌特征输入到全连接层中进行学习。

进一步的，所述焦点损失函数如下：

其中α_i为第i个城市的权重，样本量大的权重越小，α_i＝Num_min/Num_i，Num_min为最小的样本数，Num_i为第i个城市的样本数，N为城市的总数，γ为焦点因子。

进一步的，使用迁移学习建立预训练模型，所述预训练模型采用ImageNet预训练模型。

进一步的，通过对图像的风貌特征Style进行聚类，揭示城市的细粒度风貌。

进一步的，其特征在于，聚类方法包括以下步骤：

对城市的风貌特征进行了PCA降维处理，消除数据的冗余；

将降维后的向量作为高斯混合模型的输入，通过给予成分数components，得到components个聚类结果。

进一步的，其特征在于，计算风貌距离的方法如下：

将所述风貌向量Style进行全连接操作后进行度量，生成风貌向量生成相似性矩阵；

如果城市city_i与城市city_j风貌相似，那么city_i的图像容易被判别为属于city_j，将被判别为city_j的city_i样本数记为S(i_j)；

city_j的图像样本也容易被预测为属于city_i，将被判别为city_i的city_j样本数记为S(j_i)，得到分类预测的混淆矩阵；

将所述混淆矩阵进行归一化处理后，得到city_i与city_j的相似性为T(j，i)＝C_j，i+C_i，j，其中C_j，i，C_i，j分别为S(j_i)、S(i_j)归一化后的值。

与现有技术相比，本发明以下优点和有益效果：

1)提出了从海量社交媒体图像中辨识城市风貌的方法，并将城市风貌编码为一组向量。本发明引入的Focal loss损失函数，解决了社交媒体图像分布的不均衡问题，让网络能够更好地学习到城市的风貌特征；

2)利用城市风貌向量定义了城市风貌距离，使用该距离能分析出不同城市如何表象出风貌相似和风貌相近的，同时能分析出风貌距离和地理距离有一定的相关性和相异质性；

3)为了深入理解单个城市的风貌特征，使用了一种以城市风貌向量为嵌入向量的聚类方法，这种方法能够更细致的发现城市细粒度风貌。

附图说明

图1为本发明的城市风貌分析方法整体框架图；

图2为本发明的城市风貌分析方法流程图；

图3为本发明的各城市样本总量分布图；

图4为本发明的分类结果归一化混淆矩阵；

图5为本发明的各个城市具有独特的视觉风貌样本；

图6为本发明的归一化风貌相似性矩阵；

图7为本发明的风貌距离最大的前5对城市样本；

图8为本发明的城市视觉相似性与城市所在地理位置关系图；

图9为本发明的北京细粒度分类结果样本展示图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

获取城市图像的途径主要有两个，(1)社交媒体平台(如Facebook、微博、Flickr、Twitter)；(2)地图服务平台(如：Google、百度)。从社交媒体平台上获取的图像数据，我们称之为“网络图像数据”，该类数据是由用户拍摄和上传的，其拍摄角度不统一，且拍摄的内容是各式各样的，但是却是人们对城市的一个整体认知。而对于从地图服务平台上获取的数据，我们一般称之为“街景影像数据”，其拍摄角度统一，图像采样分布较为均匀，拍摄内容一般是根据研究目标所决定的。

本发明使用社交媒体图像数据来进行城市风貌分析，街景图像与社交媒体图像相比较，两类数据具有一定的差异性和相似性。本发明对网络图像数据和街景影像数据做了比较。如表1所示，网络图像和街景影像都可以记录城市的各个角落，但是社交网络图像数据对城市具有特色的区域有偏向性，在研究城市风貌中具有一定的优势，能较好的发现城市中具有历史文化气息的场景。网络照片是用户对城市的认知和记录，他们喜欢记录城市中有特色的地方，以及他们感兴趣的地方，所以本发明获取到的照片数据在内容上会存在偏向性，但是，正因为如此，可以更容易发现城市具有特色的地方，从而分析城市的风貌。针对本发明的研究以及数据的特性，本发明选择使用社交网络图像数据。

表1.网络图像数据与街景影像数据的比较

本发明收集了10个城市的社交媒体图像数据534,767张，利用卷积神经网络学习发现了城市的风貌特征，利用该特征衡量城市之间的相似性，并定义了风貌距离。本发明没有设定特定的城市风貌识别标准，而是以一种无监督的方式发现城市的风貌类型。

本发明的城市风貌分析方法整体框架如图1所示。为了希望可以学习到城市的风貌特征，并将该特征用于之后的各种分析，使用卷积神经网络自动学习给定训练数据中丰富的内部特征层次，其中，本发明统计网络第4层特征图的均值和方差，并将其连接之后组成的向量作为风貌特征输入到全连接层中。

实施例1

本发明提出了基于社交媒体图像数据的城市风貌分析方法，并利用此风貌分析方法发现了单个城市的细粒度风貌。如图2所示，本发明的城市风貌分析方法包括以下步骤：

S10：获取社交媒体图像数据，建立数据集

本发明的研究数据是YFCC-100M(Yahoo Flickr Creative Commons 100Million)数据集，该数据集包含了2004年-2014年用户上传的所有视频与照片信息，包括下载链接、上传时间、拍摄地点、用户标签与机器标签、经纬度等23个信息，共有1亿条数据，其中有80万条是视频信息。利用已有的信息，本发明获取了位于4个洲的10个城市的图像以及用户标签信息：亚洲、欧洲、北美洲、大洋洲。这些城市是：北京、上海、香港、东京、多伦多、纽约、蒙特利尔、巴黎、伦敦、悉尼，得到4,387,980条图像信息。

S20：对数据集的样本进行室内室外图像分类，并去除噪声样本

获取到的数据会存在大量的噪声样本，且已经被证实。为了避免这些噪声样本影响实验结果，需要将其去除。下面是本发明去除噪声样本的过程，分为两个步骤。

S201：室内室外图像自动分类与剔除

根据网络图像数据的特性，会获取到诸如人物、室内桌椅、食物、动物以及建筑等各式各样的图像。根据本发明的研究目标，需要找出具有特色场景的城市图像，这些场景首先应该是室外场景，因此，本发明首先考虑剔除室内图像。其中，本发明将室内、人物、花草、食物等不具有城市风貌代表性的图像称为“噪声样本”。

为了去除掉这些无关紧要的室内样本，本发明使用了以Place365数据集训练的室内室外二分类模型resNet18分别对10个城市做处理，每个城市均会得到室内、室外两个分类结果，最后每个城市均保留类别为室外的图像，最后一共剩下750，850张图像。

S202：噪声处理

在步骤S201中训练出的二分类模型存在一定的误差，分类得到的室外图像中也会存在一定比例的噪声样本，这些噪声样本不具有城市风貌代表性，诸如花草、动物、飞机、天空等，在本发明的实验过程中，发现这些遗留的噪声样本对本发明的实验结果存在着一定的影响，所以需要进一步剔除这些噪声样本。现有技术是先提取噪声样本的HOG特征，再利用提前训练好的SVM分类器对其进行分类，为了提高分类的精度，对多类噪声，分别训练一对多的SVM分类器，如果判别为噪声，则将其剔除，否则保留。该方法需要有候选噪声样本，但是在本发明中，不知道有多少种类的噪声。本发明中的噪声样本与非噪声样本的特征差异是比较大的，因此，本发明使用无监督聚类的方式剔除噪声，实验证明噪声是可以被很好的分类出来。

具体做法如下：

S2021：训练一个以城市名称为类别的网络(ResNet50)作为特征提取器，每个城市随机选取了20％的样本作为训练样本，训练方法为现有技术，不再赘述。

S2022：本发明使用池化层的特征作为聚类的输入特征，每个城市的聚类数均设置为30(根据实验情况设置)，最后查看聚类结果，发现大部分的噪声与非噪声样本被很好的区分开，被聚类到各自的类别中，由此，得到了534,767张图像，具体的数量分布如表2所示。

表2.各个城市图像数量一览表

S30：对处理后的数据集使用卷积神经网络进行风貌学习

城市风貌学习关键在于城市图像特征的提取。在本发明中，训练了一个以城市图像数据作为输入，图像分到各个城市的概率值p作为输出的卷积神经网络ResNet-50，本发明将训练好的网络作为城市图像的特征提取器。

风貌学习的过程如下：

从数据集中随机抽取B张图像输入到网络中(其中，B为batchsize)，通过网络的第l层(本发明设置l＝4)可以得到N_l张特征图(本发明中N_l＝2048)，每张特征图的大小为W*H，将每张特征图展平为一维向量S＝(a₁，a₂，......，a_W*H)^T，由此，得到了N_l维的向量

并且分别计算S_i的均值Mean_i和标准差Std_i，将所有的均值和方差contact组成的向量称为风貌向量：

S40：采用焦点损失函数对样本不平衡问题进行处理

如图3所示，本发明实验数据集存在样本不均衡问题，本发明使用焦点损失(Focalloss)函数，用于解决前景和背景间样本极度不平衡、样本难分类的问题。

焦点损失函数表现形式如下：

其中α_i为第i个城市的权重，样本量大的权重越小，α_i＝Num_min/Num_i，Num_min为最小的样本数，Num_i为第i个城市的样本数，N为城市的总数，γ为焦点因子。通过大量实验，设置合适的α的值解决样本的不均衡。

S50：使用预训练模型进行迁移学习

大量的图像数据使得模型在训练中有足够的训练样本，卷积神经网络能够学习到足够多的特征，但同时也存在着过拟合、训练时间过长的问题。为了解决这些问题，本发明引入了迁移学习。迁移学习是通过利用已有的知识帮助解决现有的问题，它除了能解决以上两个问题以外，还可以提升模型的鲁棒性。

ImageNet预训练模型含有1000类图像数据的特征，对于本发明的迁移学习是较好的选择。本发明固定了ImageNet预训练模型基础层的训练权重，微调了全连接层的权重。

S60：对风貌特征进行聚类

使用风貌向量进一步分析城市的细粒度风貌。许多关于风貌类型的研究一般是先规定风貌的类型，并将风貌作为分类标签，然后再通过机器学习的方法找到属于这些类型的图像。但是，本发明没有为图像数据设定风貌类型属性，所以，本发明考虑使用聚类的方式发现城市的风貌类型。

通过对图像的风貌特征Style进行聚类，可以发现和揭示城市的细粒度风貌。为了消除数据的冗余，本发明对城市的风貌特征进行了PCA降维处理，保留了90％的方差。随后，本发明将降维后的向量作为GMM(高斯混合模型)的输入，通过给予成分数components，可以得到components个聚类结果。

为了避免随意指定聚类数，导致过拟合的情况，本发明使用了sciki-learn库提供的确定成分数的准则：最小化信息量准则(AIC)。

S70：计算城市间的风貌距离

为了能定量的描述城市间的风貌相似程度，本发明使用风貌向量间接地计算了城市间的风貌距离。一般情况下，距离度量的对象应该是同等或者相似的，且具有相同的维度。城市相似性度量的对象是城市的图像数据，图像所包含的内容应该是同一事物，如均是房屋或者桥梁等。但是，本发明的研究对象是城市风貌，它不仅仅是单一的事物。现有技术中，将模型评估结果(混淆矩阵)作为度量的标准，该方法可以容纳多种度量对象。与现有技术不同的是，本发明将风貌向量Style进行全连接操作后进行度量，即使用风貌向量生成相似性矩阵。

该方法的思想是：如果城市city_i与城市city_j风貌相似，那么city_i的图像容易被判别为属于city_j，将被判别为city_j的city_i样本数记为S(i_j)。同样地，city_j的图像样本也容易被预测为属于city_i，将被判别为city_i的city_j样本数记为S(j_i)，最后可以得到一个分类预测的混淆矩阵，将其进行归一化处理后，可以得到city_i与city_j的相似性为T(j，i)＝C_j，i+C_i，j。其中C_j，i，C_i，j分别为S(j_i)、S(i_j)归一化后的值。

S80：城市风貌分析

本发明进行图像分类的过程如下。以6:2:2的比例将数据划分为了训练集、验证集和测试集，验证集主要用于调整模型训练过程中的参数，以确定何时停止训练。设置batchsize为1024，应用CNN的前向和后向传播来计算焦点损失函数的参数梯度。由于原始图像大小不一，本发明输入到网络中训练的图像scale为224大小。本发明使用动量moments＝0.9，学***均精度。本发明在测试集上进行了预测，并使用如图4所示的混淆矩阵展示预测结果。

S801：城市风貌相似性分析

图4中对角线的值是单个城市图像样本中被正确预测的比例，其值越大，表示该城市越容易被区分，代表了该城市的独特视觉风貌；非对角线值则表示容易错分类到其他城市的样本比例，代表了这两个城市之间的视觉风貌相似性。确切地说，如，北京的测试样本中被正确预测的样本数占总数的64％(第一行第一列对角线)，北京容易被预测为其他城市(第一行非对角线上)的样本占比分别为：0.07(香港)、0.06(伦敦)、0.01(蒙特利尔)、0.05(纽约)、0.04(巴黎)、0.03(上海)、0.02(悉尼)、0.06(东京)、0.02(多伦多)。

从混淆矩阵图中可以看出，北京(0.64)、悉尼(0.52)、香港(0.48)、巴黎(0.48)、上海(0.48)是预测正确概率最高的5个城市，说明相比于其他城市，这些城市在视觉上更具有自己的风貌，与其他城市的相似性较小。而伦敦(0.40)、蒙特利尔(0.38)、纽约(0.42)、东京(0.40)、多伦多(0.42)是容易预测错误的5个城市，相比于其他城市更容易被混淆，视觉上的独特性相对较弱。

为了可以更清晰的了解每个城市的视觉风貌，如图5所示，10个城市被预测正确且预测概率较高的图像样本。从图5可以看出，历史遗迹、地标、独特的城市景观是这些城市具有城市图特性的场景。其中，北京的故宫、天坛等历史古建筑地标是北京里富有视觉独特性的场景；香港中富有城市信息的场景是维多利亚港夜景等独特景象；伦敦的伦敦塔桥、大本钟等地标是使伦敦与其他城市的因素；蒙特利尔的圣母大教堂等地标让蒙特利尔在视觉上更加独特；除此之外，纽约的布鲁克林大桥、帝国大厦等地标，巴黎的埃菲尔铁塔、凯旋门等地标，上海的东方明珠等地标以及长江沿岸景色，悉尼的悉尼歌剧院、悉尼大桥等著名建筑，东京的东京塔、东京天空树等地标、浅草寺等历史建筑，多伦多的多伦多塔等地标，它们都是使城市具有视觉独特性的要素，是与其他城市在视觉上不相似的独特场景。

为了能够定量的描述城市间的视觉相似性，本发明利用风貌距离计算了两两城市间的视觉风貌距离，得到了如图6所示的视觉风貌相似性矩阵。

从归一化风貌相似性矩阵中可以分析出，伦敦与巴黎市最为相似(0.31)，其次是纽约-伦敦(0.23)、多伦多-纽约(0.22)、东京-香港(0.20)、东京-纽约(0.20)。如图7所示，展示了距离最大的前5个所对应的城市间的样本。

从图7可以看到上述视觉相似性较大的两两城市之间易被错分类的景象，具有视觉相似性的景象：

(1)伦敦-巴黎(0.31)：两个城市的建筑在样式设计上是相似的，均是规整、圆顶的设计，用色也是相近的。

(2)纽约-伦敦(0.23)：哥特式建筑以及窗户样式是纽约和伦敦易被错分类的要素，使纽约和伦敦在视觉上相似。

(3)多伦多-纽约(0.22)：从图中可以发现，多伦多与纽约的高楼大厦现代化建筑在视觉上比较相似，在整体的视觉颜色上也相近。

(4)东京-香港(0.20)：东京和香港之间体现人口密集、房屋密集的图像以及高楼大厦易被错分类，这说明东京和香港都具有人口密集、房屋密集的特点，而这个特点让这两个城市在视觉上相似，并且高楼大厦也是它们视觉相似的要素之一。

(5)东京-纽约(0.20)：现代化建筑的外表均是玻璃幕墙，而东京的塔与纽约的个性设计在颜色上是相近的，且由于拍摄的角度缘故，从视觉上是相似的，纽约的商业街与东京的普通建筑在色调上是相似的。

从而，可以发现，城市相似可以体现在颜色、拍摄视角，以及整体风貌等方面。

S802：风貌距离与地理距离相关性分析

为了进一步探究城市风貌相似性与地理位置的关系，本发明将风貌距离展示在空间位置上。图8为城市风貌相似性与城市所在地理位置关系。图中被灰色线相连的是上述相似性得分较高的一对城市，上面的数字为它们之间的误分类率之和，即视觉相似度矩阵中的值；圆圈标识的是城市地理位置，其大小、颜色深浅与该城市的图像被正确分类的比例正相关，即与混淆矩阵中的对角线值正相关，较大且颜色较深的圈表示该城市与其他城市视觉相似性较低，更具有视觉独特性。

从图8中不难看出，地理位置相近的城市之间往往有较大的视觉相似性，这是由于相近的城市之间往往在历史上有着深度的交流、有着相似的文化、相似的气候和地理环境，而城市视觉特征又在很大程度上受到文化、历史以及气候、地理环境的影响，因此地理位置更相近的城市在视觉上更相似是有理可循的。

S803：城市细粒度风貌分析

由于地域、文化历史等的不同，每个城市形成的风貌类型是不一样的。本发明考虑从更细致的角度分析单个城市的风貌类型，使用了无监督聚类的方式得到了每个城市的细粒度分类结果。

由于城市比较多，一一叙述太过于繁琐，根据S801步骤中城市风貌相似性分析的结果，发现北京是相对于其他城市来说，最具有个人的特色，由此本发明仅对北京进行分析。使用S60步骤中的方法得到聚类结果，如图9所示，选择了一些离聚类中心较近且具有代表性的聚类中心的样本。根据图9的结果，可以很清晰的了解到北京的特色，为了能进一步的解释，本发明将粗略地将结果划分为了5大类：北京的古建筑(A)、目标物体(B)、现代化标志性建筑(C)、一些独特的风景(D)，以及夜晚的北京(E)。

北京的古建筑设计很是特别，一般是左右对称的，中间部分稍高，主要是想要体现中国古代帝王至高无上的权威，并且墙的颜色一般是砖红色。同时，古建筑的屋顶、屋前时常伴随着一些诸如：龙、狮子的吉祥图案，在屋前也会摆放一些香炉(图9(B)前三行)。现代建筑中，北京的大裤衩以及一些高楼大厦由于其设计、作用而引起了人们的关注，从而形成了北京的特色之一(图9(C)前5行)。长城、通运桥、十七孔桥等景色成为了北京的一道亮丽风景线。历史人文、美丽的景色不一定能给人留下非常深刻的印象。越接近生活，感触会越深。图9(C)后两行展示的是老北京的胡同，胡同最能展示老年人对老北京的情怀，也最能展示老北京的生活。北京的风貌的形成与中国的历史文化、发展是息息相关的。

本发明提出了一个从海量社交媒体图像中学习城市风貌的方法，基于该方法，本发明主要从两个方面对全球10个城市进行了分析：

(1)利用城市风貌向量定义了城市风貌距离，使用该距离分析了不同城市在风貌视角下是如何表象出风貌相似和风貌相近的，

(2)为了深入理解单个城市的风貌特征，本发明以城市风貌向量为嵌入向量进行聚类分析，从而更细致的发现城市细粒度风貌。

本发明的有益效果如下:

1)提出了从海量社交媒体图像中辨识城市风貌的方法，并将城市风貌编码为一组向量，同时本发明引入了Focal loss，解决了社交媒体图像分布的不均衡问题，让网络能够更好的学习到城市的风貌特征，；

2)利用城市风貌向量定义了城市风貌距离，使用该距离分析了不同城市如何表象出风貌相似和风貌相近的，同时发现风貌距离和地理距离有一定的相关性和相异质性；

上述实施例为本发明方法用于基于社交媒体图像数据的城市风貌分析方法的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于社交媒体图像数据的城市风貌分析方法，其特征在于，包括以下步骤：

获取社交媒体图像数据，建立数据集；

对处理后的数据集使用卷积神经网络进行风貌学习；

采用焦点损失函数对样本不平衡问题进行处理；

使用最小化信息量准则对风貌特征进行聚类；

计算城市间的风貌距离；

根据所述风貌距离分析城市间的风貌相似性，及根据聚类结果分析城市的细粒度风貌；

其中，所述风貌学***为一维向量S＝(a₁,a₂,……,a_W*H)^T，其中，a_i为该张特征图上的第i个特征值，得到了N_l维的向量

将所述风貌向量作为风貌特征输入到全连接层中进行学习。

2.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法，其特征在于，所述对数据集的样本进行室内室外图像分类的方法采用室内室外二分类模型resNet18，所述对室外图像样本进行去除噪声处理的方法为无监督聚类方法。

3.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法，其特征在于，所述焦点损失函数如下：

其中α_i为第i个城市的权重，样本量大的权重越小，α_i＝Mun_min/Num_i，Num_min为最小的样本数，Num_i为第i个城市的样本数，N为城市的总数，γ为焦点因子。

4.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法，其特征在于，使用迁移学习建立预训练模型，所述预训练模型采用ImageNet预训练模型。

5.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法，其特征在于，通过对图像的风貌向量进行聚类，揭示城市的细粒度风貌。

6.根据权利要求1或5任意一项所述的基于社交媒体图像数据的城市风貌分析方法，其特征在于，聚类方法包括以下步骤：

对城市的风貌特征进行PCA降维处理，消除数据的冗余；

将降维后的向量作为高斯混合模型的输入，通过给予成分数，得到聚类结果，聚类结果的数量为成分数。

7.根据权利要求1所述的基于社交媒体图像数据的城市风貌分析方法，其特征在于，计算风貌距离的方法如下：

将所述混淆矩阵进行归一化处理后，得到city_i与city_j的相似性为T(j,i)＝C_j,i+C_i,j，其中C_j,i，C_i,j分别为S(j_i)、S(i_j)归一化后的值。