CN113538227B - 一种基于语义分割的图像处理方法及相关设备 - Google Patents
一种基于语义分割的图像处理方法及相关设备 Download PDFInfo
- Publication number
- CN113538227B CN113538227B CN202010313277.5A CN202010313277A CN113538227B CN 113538227 B CN113538227 B CN 113538227B CN 202010313277 A CN202010313277 A CN 202010313277A CN 113538227 B CN113538227 B CN 113538227B
- Authority
- CN
- China
- Prior art keywords
- semantic
- images
- image
- resolution
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 327
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims description 89
- 238000000034 method Methods 0.000 claims description 77
- 238000010586 diagram Methods 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 241001465754 Metazoa Species 0.000 claims description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 39
- 230000006870 function Effects 0.000 description 35
- 239000010410 layer Substances 0.000 description 30
- 238000013527 convolutional neural network Methods 0.000 description 15
- 238000007726 management method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000002372 labelling Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 7
- 230000036961 partial effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- RRNIZKPFKNDSRS-UHFFFAOYSA-N Bensulide Chemical compound CC(C)OP(=S)(OC(C)C)SCCNS(=O)(=O)C1=CC=CC=C1 RRNIZKPFKNDSRS-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013529 biological neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种基于语义分割的图像处理方法及相关设备,具体可以应用于图像处理和智能照相等领域,其中,一种基于语义分割的图像处理方法可以包括:获取目标图像;将所述目标图像输入至语义分割网络,得到所述目标图像的目标语义分割图,所述目标语义分割图包括K个第一语义区域和P个第二语义区域;将所述目标语义分割图和所述目标图像输入至超分辨率网络,根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像。如此,可以使得到的超分辨率图像具备真实、自然,符合实际场景的丰富纹理。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于语义分割的图像处理方法及相关设备。
背景技术
超分辨率技术(Super-Resolution,SR)是指从观测到的低分辨率图像重建出相应的高分辨率图像的技术,在拍照细节提升、监控设备、卫星图像和医学影像等领域都有着重要的应用价值。其中,超分辨率技术可分为两类:从多张低分辨率图像重建出高分辨率图像,以及从单张低分辨率图像重建出高分辨率图像。而基于深度学习的超分辨率技术,主要是基于单张低分辨率图像的超分辨率重建方法(Single Image Super-Resolution,SISR)。
虽然基于深度学习的超分辨率技术,可以从单张低分辨率图像得到对应的高分辨率图像,显著提升手机的拍照画质等等。但是,目前的SISR无法对输入的低分辨率图像中纹理强度不同的各个区域进行自适应增强(也即对分辨率图像中各个区域的细节进行不同程度的增强)。因此,现有的超分辨率技术在对低分辨率图像进行超分辨率重建的过程中,往往因为重视细节的提升而使得最终得到的高分辨率图像容易产生虚假的图像信息,产生伪纹理。比如实际场景中原本不存在任何内容的某一区域,在处理后得到的高分辨率图像中出现了虚假内容,原本不存在纹理的区域产生了伪纹理。
因此,如何使得经超分辨率处理后得到的高分辨率图像呈现真实性,避免产生多余的伪纹理,是亟待解决的问题。
发明内容
本申请实施例提供一种基于语义分割的图像处理方法及相关设备,以提高对低分辨率图像进行超分辨率处理后得到的超分辨率图像的真实性,避免在超分辨率图像中产生多余的伪纹理。
第一方面,本申请实施例提供了一种基于语义分割的图像处理方法,可包括:获取目标图像;将所述目标图像输入至语义分割网络,得到所述目标图像的目标语义分割图,所述目标语义分割图包括K个第一语义区域和P个第二语义区域;所述K个第一语义区域中的每一个第一语义区域为按照预设的语义类别分割得到的区域;所述P个第二语义区域中的每一个第二语义区域为所述目标图像中图像频率小于第一预设值,且用于在超分辨率处理中进行纹理添加的区域;K、P为大于或者等于1的整数;将所述目标语义分割图和所述目标图像输入至超分辨率网络,根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像;所述超分辨率图像的分辨率大于或者等于所述目标图像的分辨率。
通过第一方面提供的方法,可以首先将拍摄得到的目标图像(低分辨率图像)输入至预先训练得到的语义分割网络,得到该目标图像的目标语义分割图,该目标语义分割图可以包括多个第一语义区域(例如为根据天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号等等常见的语义类别分割得到的区域)和多个第二语义区域(例如为目标图像中图像频率低于第一预设值,且用于在超分辨率处理中进行纹理添加的区域,也即为纹理较难恢复的弱纹理区域)。然后将得到的目标语义分割图和目标图像传输至预先训练得到的超分辨率网络,针对上述语义分割得到的两类语义区域,分别进行不同的超分辨率处理。例如对于该多个第一语义区域中图像频率大于或者等于第一预设值的第一语义区域,可以根据其分别对应的语义类别,在语义的指导下进行相应的纹理添加,增强纹理,提升图像的细节(比如针对对应于植物这类语义的第一语义区域,添加相应的属于植物这类的纹理)。还例如对图像频率小于第一预设值的第一语义区域,可以不进行纹理添加,从而避免超分辨率图像中出现与实际场景不符的多余纹理(也即避免伪纹理的产生)。又例如,对于该多个第二语义区域,可以通过该预先训练得到的超分辨率网络,匹配其对应的纹理,并对相应的区域进行纹理添加,从而恢复此类较难恢复的弱纹理区域的真实纹理。由此,对比现有技术中,仅仅根据常见的语义类别对低分辨率图像进行语义分割,再根据分割得到的各个语义区域,在不同语义的指导下对低分辨率图像进行超分辨率处理,添加纹理,从而容易产生虚假,不真实的多余纹理的方案而言。本申请实施例可以根据常见的语义类别以及较难恢复的弱纹理区域,对低分辨率图像进行更加精细的语义分割,得到多个第一语义区域和多个第二语义区域,并通过预先训练得到的超分辨率网络,针对该两类语义区域分别进行不同的超分辨率处理,恢复真实、自然的纹理,避免产生多余的伪纹理,保证超分辨率图像的真实性,提升用户的拍照体验。需要说明的是,超分辨率图像的细节和纹理较目标图像更加丰富,但超分辨率图像的分辨率可以大于该目标图像的分辨率,也可以等于该目标图像的分辨率。
在一种可能的实现方式中,所述预设的语义类别包括天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号中的一种或者多种;所述根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,包括:确定所述K个第一语义区域中的M个第一语义区域,并根据所述M个第一语义区域分别对应的所述预设的语义类别,对所述目标图像中相应的M个区域分别进行纹理添加;所述M个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率大于或者等于所述第一预设值的区域;根据所述P个第二语义区域,对所述目标图像中相应的P个区域分别进行纹理添加。
在本申请实施例中,每一个第一语义区域可以为根据包括天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号等等此类常见的语义类别分割得到的区域。每一个第一语义区域的图像频率可能有所不同,针对图像频率大于或者等于第一预设值的第一语义区域,可以根据其对应的语义类别,对目标图像中相应的区域进行纹理添加(例如某一图像频率大于第一预设值的属于植物这类语义的第一语义区域,可以对该目标图像中与该第一语义区域相对应的区域,在植物这一语义信息的指导下添加相应的属于植物这类的纹理),从而使得添加的纹理更加自然,真实,符合实际场景,大大提高了超分辨率图像的质量。另一方面,例如针对图像频率小于第一预设值的第一语义区域(例如湛蓝且无云的天空区域,该区域可能仅仅包括低频信息,比如简单的蓝色色块),可以不进行纹理添加,从而避免超分辨率图像中出现与实际场景不符的多余纹理(也即避免伪纹理的产生)。针对第二语义区域,也即实际场景中存在较为丰富的纹理,但目标图像(低分辨率图像)中几乎没有纹理的区域(比如屋顶等区域,目标图像中可能仅仅为一个色块,但实际场景中还存在瓦片等纹理),可以通过预先训练得到的超分辨率网络,匹配其对应的纹理,并对该多个第二语义区域分别进行相应的纹理添加,恢复其实际场景中的真实纹理。由此,实现针对不同的语义区域,在更为精细的语义信息的知道和约束下,对该目标图像的各个不同区域判断是否需要进行纹理添加,若需要,则进行相应的纹理添加。保证超分辨率处理后得到的超分辨率图像的真实性,提升用户的拍照体验。
在一种可能的实现方式中,所述方法还包括:确定所述K个第一语义区域中的Q个第一语义区域,根据所述Q个第一语义区域,对所述目标图像中相应的Q个区域不进行纹理添加;所述Q个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率小于所述第一预设值的区域;M、Q为大于或者等于0的整数,M与Q的和为K。
在本申请实施例中,针对图像频率小于第一预设值的第一语义区域(例如湛蓝且无云的天空区域,该区域可能仅仅包括低频信息,比如简单的蓝色色块),可以不进行纹理添加,从而避免超分辨率图像中出现与实际场景不符的多余纹理(也即避免伪纹理的产生),保证超分辨率处理后得到的超分辨率图像的真实性,提升用户的拍照体验。
在一种可能的实现方式中,所述方法还包括:获取第一图像集和第二图像集,所述第一图像集包括N张第一图像,所述第二图像集包括N张第二图像,所述N张第一图像与所述N张第二图像一一对应,所述N张第二图像中的每一张第二图像的分辨率大于所述N张第一图像中对应的每一张第一图像的分辨率;N为大于或者等于1的整数;按照所述预设的语义类别对所述N张第一图像进行第一语义分割,得到所述N张第一图像对应的N张第一语义分割图;所述N张第一语义分割图中的每一张第一语义分割图包括一个或多个第一语义区域;对所述N张第一图像以及所述N张第二图像进行频率解析,分别得到所述N张第一图像对应的N张第一频率图,以及所述N张第二图像对应的N张第二频率图;基于所述N张第一频率图和所述N张第二频率图,根据预设条件对所述N张第一图像进行第二语义分割,得到所述N张第一图像对应的N张第二语义分割图,所述N张第二语义分割图中的每一张第二语义分割图包括所述一个或多个第一语义区域和一个或多个第二语义区域。
在本申请实施例中,可以在获取到第一图像集(例如包含多张分辨率较低的第一图像)和第二图像集(例如包含多张与第一图像一一对应的分辨率较高的第二图像,第二图像为对应的第一图像的高分辨率版本,两者的图像内容相同)之后,按照预设的语义类别对每一张第一图像进行第一语义分割(例如开发人员可以利用现有的语义标注工具,对各个语义区域进行框选以及标注,从而实现对每一张第一图像的第一语义分割),得到每一张第一图像对应的第一语义分割图。然后,基于对每一张第一图像和每一张第二图像进行频率解析得到的第一频率图和第二频率图,对每一张第一图像进行第二语义分割(例如开发人员可以利用现有的语义标注工具,将第一频率图与第二频率图中频率差距较大的区域在第一图像中进行框选以及标注,从而实现对每一张第一图像的第二语义分割),得到每一张第一图像对应的第二语义分割图。如此,可以快速准确的得到的N张第二语义分割图,从而为语义分割网络和超分辨率网络提供大量有效的训练数据,使得训练得到的语义分割网络和超分辨率网络更加高效、准确。
在一种可能的实现方式中,所述基于所述N张第一频率图和所述N张第二频率图,根据预设条件对所述N张第一图像进行第二语义分割,得到所述N张第一图像对应的N张第二语义分割图,包括:将所述N张第一频率图和所述N张第二频率图一一对应进行比较,确定所述N张第一频率图中的第i张第一频率图和对应的所述N张第二频率图中的第i张第二频率图中图像频率的差异值大于第二预设值的一个或多个区域为所述一个或多个第二语义区域,所述一个或多个区域中的每一个区域为所述第i张第一频率图中图像频率小于所述第一预设值的区域;根据所述一个或多个第二语义区域,对所述第i张第一频率图对应的第i张第一图像进行第二语义分割,得到所述第i张第一图像对应的第二语义分割图,所述第i张第一图像对应的第二语义分割图包括所述一个或多个第一语义区域和所述一个或多个第二语义区域;i为大于或者等于1,且小于或者等于N的整数。
在本申请实施例中,每一张第一图像进行第二语义分割(例如开发人员可以利用现有的语义标注工具,将第一频率图与第二频率图中频率差距较大的区域在第一图像中进行框选以及标注,从而实现对每一张第一图像的第二语义分割),得到每一张第一图像对应的第二语义分割图。如此,可以快速准确的得到的N张第二语义分割图,从而为语义分割网络和超分辨率网络提供大量有效的训练数据,提升语义分割网络和超分辨率网络的训练效率。
在一种可能的实现方式中,所述方法还包括:获取第一训练样本集,所述第一训练样本集包括所述N张第一图像和所述N张第二语义分割图;以所述N张第一图像和所述N张第二语义分割图作为训练输入,以所述N张第二语义分割图为N个标签,训练得到所述语义分割网络。
在本申请实施例中,以N张第一图像和N张第二语义分割图作为训练数据,高效、准确的训练得到完善的语义分割网络,该语义分割网络可以用于对低分辨率图像进行精细的语义分割,从而得到包括第一语义区域和第二语义区域的语义分割图。进而为后续的超分辨率处理提供精细的语义指导,使得低分辨率图像的纹理在各个语义的指导下得到相应的增强,减少各个语义区域之间的干扰,保证超分辨率图像的真实性,提高用户的拍照体验。
在一种可能的实现方式中,所述方法还包括:获取第二训练样本集,所述第二训练样本集包括所述N张第一图像、所述N张第二语义分割图和所述N张第二图像;以所述N张第一图像、所述N张第二语义分割图和所述N张第二图像作为训练输入,以所述N张第二图像为N个标签,训练得到所述超分辨率网络。
在本申请实施例中,以N张第一图像、N张第二语义分割图和N张第二图像作为训练数据,高效、准确的训练得到完善的超分辨率网络,该超分辨率网络可以基于低分辨率图像的语义分割图,在各个语义的指导下对不同于语义区域进行不同的超分辨率处理,可以提升图像分辨率并恢复真实、自然的纹理,避免产生多余的伪纹理,保证超分辨率图像的真实性,提升用户的拍照体验。
在一种可能的实现方式中,所述以所述N张第一图像、所述N张第二语义分割图和所述N张第二图像作为训练输入,以所述N张第二图像为N个标签,训练得到所述超分辨率网络,包括:将所述N张第一图像和所述N张第二语义分割图输入初始神经网络,基于所述N张第二语义分割图,对所述N张第一图像进行特征提取,并对特征提取后的所述N张第一图像进行上采样处理,得到所述N张第一图像对应的N张第三图像;以所述N张第二图像为N个标签,基于所述N张第二语义分割图,对所述N张第三图像进行损失计算,修正所述初始神经网络中的一个或多个参数,得到所述超分辨率网络。
在本申请实施例中,可以首先将N张第一图像和N张第二语义分割图输入初始神经网络,然后基于该N张第二语义分割图,对N张第一图像进行特征提取,并对特征提取后的N张第一图像进行上采样处理,得到N张第一图像对应的N张第三图像;最后基于该N张第三语义分割图对损失计算进行指导,不断修正初始神经网络的一个或多个参数。如此,可以快速有效的训练得到完善的超分辨率网络,用于后续对低分辨率图像进行基于语义分割的图像处理,得到细节丰富,且纹理真实、自然的超分辨率图像,提升用户的拍照体验。
在一种可能的实现方式中,所述目标图像、所述N张第一图像和所述N张第二图像为针对目标地理区域内的场景进行拍摄所得到的图像;所述语义分割网络为针对所述目标地理区域的语义分割网络,所述超分辨率网络为针对所述目标地理区域的超分辨率网络。
在本申请实施例中,可以首先通过某一地理区域内拍摄得到的低分辨率图像和高分辨率图像训练得到针对该地理区域的语义分割网络和超分辨率网络,如此,当用户通过智能手机等终端设备对该地理区域内的某个场景进行拍摄时,其原始图像可能为低分辨率图像,则可基于上述预先训练得到的语义分割网络和超分辨率网络对该低分辨率图像进行语义分割和超分辨率处理,得到分辨率高,细节丰富,且纹理真实、自然的超分辨率图像,提升用户的拍照体验。
第二方面,本申请实施例提供了一种基于语义分割的图像处理装置,可包括:第一获取单元,用于获取目标图像;第一语义分割单元,用于将所述目标图像输入至语义分割网络,得到所述目标图像的目标语义分割图,所述目标语义分割图包括K个第一语义区域和P个第二语义区域;所述K个第一语义区域中的每一个第一语义区域为按照预设的语义类别分割得到的区域;所述P个第二语义区域中的每一个第二语义区域为所述目标图像中图像频率小于第一预设值,且用于在超分辨率处理中进行纹理添加的区域;K、P为大于或者等于1的整数;超分辨率单元,用于将所述目标语义分割图和所述目标图像输入至超分辨率网络,根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像;所述超分辨率图像的分辨率大于或者等于所述目标图像的分辨率。
在一种可能的实现方式中,所述预设的语义类别包括天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号中的一种或者多种;所述超分辨率单元,具体用于:确定所述K个第一语义区域中的M个第一语义区域,并根据所述M个第一语义区域分别对应的所述预设的语义类别,对所述目标图像中相应的M个区域分别进行纹理添加;所述M个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率大于或者等于所述第一预设值的区域;根据所述P个第二语义区域,对所述目标图像中相应的P个区域分别进行纹理添加。
在一种可能的实现方式中,所述超分辨率单元,还具体用于:确定所述K个第一语义区域中的Q个第一语义区域,根据所述Q个第一语义区域,对所述目标图像中相应的Q个区域不进行纹理添加;所述Q个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率小于所述第一预设值的区域;M、Q为大于或者等于0的整数,M与Q的和为K。
在一种可能的实现方式中,所述装置还包括:第二获取单元,用于获取第一图像集和第二图像集,所述第一图像集包括N张第一图像,所述第二图像集包括N张第二图像,所述N张第一图像与所述N张第二图像一一对应,所述N张第二图像中的每一张第二图像的分辨率大于所述N张第一图像中对应的每一张第一图像的分辨率;N为大于或者等于1的整数;第二语义分割单元,用于按照所述预设的语义类别对所述N张第一图像进行第一语义分割,得到所述N张第一图像对应的N张第一语义分割图;所述N张第一语义分割图中的每一张第一语义分割图包括一个或多个第一语义区域;频率解析单元,用于对所述N张第一图像以及所述N张第二图像进行频率解析,分别得到所述N张第一图像对应的N张第一频率图,以及所述N张第二图像对应的N张第二频率图;第三语义分割单元,用于基于所述N张第一频率图和所述N张第二频率图,根据预设条件对所述N张第一图像进行第二语义分割,得到所述N张第一图像对应的N张第二语义分割图,所述N张第二语义分割图中的每一张第二语义分割图包括所述一个或多个第一语义区域和一个或多个第二语义区域。
在一种可能的实现方式中,所述第三语义分割单元,具体用于包括:将所述N张第一频率图和所述N张第二频率图一一对应进行比较,确定所述N张第一频率图中的第i张第一频率图和对应的所述N张第二频率图中的第i张第二频率图中图像频率的差异值大于第二预设值的一个或多个区域为所述一个或多个第二语义区域,所述一个或多个区域中的每一个区域为所述第i张第一频率图中图像频率小于所述第一预设值的区域;根据所述一个或多个第二语义区域,对所述第i张第一频率图对应的第i张第一图像进行第二语义分割,得到所述第i张第一图像对应的第二语义分割图,所述第i张第一图像对应的第二语义分割图包括所述一个或多个第一语义区域和所述一个或多个第二语义区域;i为大于或者等于1,且小于或者等于N的整数。
在一种可能的实现方式中,所述装置还包括:第三获取单元,用于获取第一训练样本集,所述第一训练样本集包括所述N张第一图像和所述N张第二语义分割图;第一训练单元,用于以所述N张第一图像和所述N张第二语义分割图作为训练输入,以所述N张第二语义分割图为N个标签,训练得到所述语义分割网络。
在一种可能的实现方式中,所述装置还包括:第四获取单元,用于获取第二训练样本集,所述第二训练样本集包括所述N张第一图像、所述N张第二语义分割图和所述N张第二图像;第二训练单元,用于以所述N张第一图像、所述N张第二语义分割图和所述N张第二图像作为训练输入,以所述N张第二图像为N个标签,训练得到所述超分辨率网络。
在一种可能的实现方式中,所述第二训练单元,具体用于:将所述N张第一图像和所述N张第二语义分割图输入初始神经网络,基于所述N张第二语义分割图,对所述N张第一图像进行特征提取,并对特征提取后的所述N张第一图像进行上采样处理,得到所述N张第一图像对应的N张第三图像;以所述N张第二图像为N个标签,基于所述N张第二语义分割图,对所述N张第三图像进行损失计算,修正所述初始神经网络中的一个或多个参数,得到所述超分辨率网络。
在一种可能的实现方式中,所述目标图像、所述N张第一图像和所述N张第二图像为针对目标地理区域内的场景进行拍摄所得到的图像;所述语义分割网络为针对所述目标地理区域的语义分割网络,所述超分辨率网络为针对所述目标地理区域的超分辨率网络。
第三方面,本申请实施例提供的一种终端设备,其特征在于,该终端设备中包括处理器,处理器被配置为支持该终端设备实现第一方面提供的基于语义分割的图像处理方法中相应的功能。该终端设备还可以包括存储器,存储器用于与处理器耦合,其保存该终端设备必要的程序指令和数据。该终端设备还可以包括通信接口,用于该终端设备与其他设备或通信网络通信。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面中任意一项所述的基于语义分割的图像处理方法流程。
第五方面,本申请实施例提供了一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行上述第一方面中任意一项所述的基于语义分割的图像处理方法流程。
第六方面,本本申请实施例提供了一种芯片***,该芯片***包括上述第一方面中任意一项所述的基于语义分割的图像处理装置,用于实现上述第一方面中任意一项所述的基于语义分割的图像处理方法流程所涉及的功能。在一种可能的设计中,所述芯片***还包括存储器,所述存储器,用于保存基于语义分割的图像处理方法必要的程序指令和数据。该芯片***,可以由芯片构成,也可以包含芯片和其他分立器件。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1是现有技术中的一种超分辨率重建的过程示意图。
图2是现有技术中的一种基于SFT-GAN网络进行图像超分辨率重建的过程示意图。
图3是本申请实施例提供的一种终端设备的功能框图。
图4是本申请实施例提供的一种终端设备的软件结构框图。
图5是本申请实施例提供的一种基于语义分割的图像处理方法的应用场景示意图。
图6a-图6c是本申请实施例提供的一组界面示意图。
图7是本申请实施例提供的另一种基于语义分割的图像处理方法的应用场景示意图。
图8是本申请实施例提供的一种基于语义分割的图像处理方法的流程示意图。
图9是本申请实施例提供的一种基于语义分割进行图像超分辨率重建的过程示意图。
图10是本申请实施例提供的一种目标语义分割图的示意图。
图11是本申请实施例提供的一种频率解析的示意图。
图12是本申请实施例提供的一种得到第二语义分割图的过程示意图。
图13是本申请实施例提供的一种超分辨率网络的训练过程示意图。
图14是本申请实施例提供的一种基于语义分割的图像处理装置的结构示意图。
图15是本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例进行描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本说明书中使用的术语“部件”、“模块”、“***”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,部件可以是但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示,在终端设备上运行的应用和终端设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中,部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地***、分布式***和/或网络间的另一部件交互的二个部件的数据,例如通过信号与其它***交互的互联网)的信号通过本地和/或远程进程来通信。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)卷积神经网络(Convolutional Neural Network,CNN),是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形,该部分功能主要由池化层实现。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。基于卷积神经网络的超分辨率技术(Super-Resolution CNN,SRCNN)也是深度学习用在超分辨率重建上的重要内容。
(2)超分辨率技术(Super-Resolution,SR),或者称之为超分辨率重建,是通过硬件或软件的方法提高原有图像的分辨率,通过单张或者一系列低分辨率的图像重建出相应的一张高分辨率的图像过程就是超分辨率重建。其中,基于深度学习的SR,主要是基于单张低分辨率图像的超分辨率(Single Image Super-Resolution,SISR)。请参阅图1,图1是现有技术中的一种超分辨率重建的过程示意图。如图1所示,通过超分辨率卷积神经网络,可以重建出低分辨率图像中的细节,得到细节丰富,纹理多且细腻的高分辨率图像。超分辨率技术在监控设备、卫星图像和医学影像等领域都有重要的应用价值。
(3)语义分割,或者称之为图像语义分割(semantic segmentation),语义分割是计算机视觉中十分重要的领域,它是指像素级地识别图像,即标注出图像中每个像素所属的对象类别。语义分割可以应用于地理信息***、无人车驾驶、医疗影像分析和机器人等领域。
首先,为了便于理解本申请实施例,进一步分析并提出本申请所具体要解决的技术问题。在现有技术中,关于图像的超分辨率技术,包括多种技术方案,以下示例性的列举如下常用的一种方案。
方案一:利用深度空间特征变换恢复图像超分辨率中的真实感纹理。
利用深度空间特征变换恢复图像超分辨率中的真实感纹理(RecoveringRealistic Texture in Image Super-resolution by Deep Spatial FeatureTransform)是现有超分辨率技术中已发表的一篇论文的内容。其核心为基于空间特征变换的生成式对抗网络(Spatial Feature Transform-Generative Adversarial Networks,SFT-GAN),请参阅图2,图2是现有技术中的一种基于SFT-GAN网络进行图像超分辨率重建的过程示意图。如图2所示,SFT-GAN网络的主要思路是将语义分割概率图(semanticsegmentation probability maps)作为先验信息输入至SR网络,采用融合模块将图像信息和语义信息综合到一起,从而减弱不同语义间的干扰,促使每个语义下的细节均得到相应的增强。如图2所示,该网络包括空间特征转换层(Spatial Feature Transform layer,SFTlayer),该空间特征转换层可以对网络的中间特征进行仿射变换,变换的参数由额外的先验条件(如图2所示的语义分割概率图)经过若干层神经网络变换得到。空间特征转换层可以方便地被集成至现有的超分辨率网络中,如SRResNet等。为了提升算法效率,该语义分割概率图没有直接输入网络,而是先经过一个浅层CNN学习,如图2所示,先将语义分割概率图经过一个条件网络(Condition Network)得到共享的中间条件,然后把这些条件“广播”至所有的SFT层。如图2所示,在该网络的训练中,同时使用了感知损失(perceptual loss)和对抗性损失(GAN loss)。由此,如上所述,该方案一可以在语义信息的约束和指导下对低分辨率图像中每个语义下的细节进行相应的增强,从而生成更加自然的纹理,使得超分辨率重建得到的高分辨率图像的视觉效果更为真实。
该方案一的缺点:上述的SFT-GAN网络,其语义分割类别主要包括常见的天空、建筑、人物、植物、动物、水面、道路、桥梁、交通信号和交通工具等等,从而可以根据不同区域的语义进行相应的纹理添加。但是,在上述SFT-GAN网络的训练过程中,当训练数据中低分辨率图像的部分区域的高频信息已经看不到(也即低分辨率图像的部分区域的图像频率较低,该区域几乎没有任何纹理),但该低分辨率图像对应的高分辨率图像(低分辨率图像与对应的高分辨率图像的图像内容相同,两者仅为分辨率不同)的该部分区域存在高频信息(也即高分辨率图像的该部分区域的图像频率较高,该区域存在较多纹理)的情况下,会使网络的映射关系学习错乱。该部分区域细节的过度提升会导致其他相似但实际场景中不存在任何纹理,或者仅存在微弱纹理的区域在超分辨率重建中产成伪纹理。从而导致得到的高分辨率图像虽然提升了细节,但存在与实际场景不符的虚假信息,伪纹理,大大降低了高分辨率图像的真实性,无法满足用户的实际需求。
综上,上述方案一甚至其他的超分辨率网络虽然可以在不同语义信息的指导下进行相应的纹理添加,但由于专注于细节的提升,而在极弱纹理区域的干扰下容易产生实际场景中不存在的伪纹理。因此,为了解决当前图像的超分辨率技术中不满足实际业务需求的问题,本申请实际要解决的技术问题包括如下方面:基于现有的终端设备,实现真实的还原出低分辨率图像中的各部分细节和纹理,在提高分辨率的前提下,保证高分辨率图像的真实和自然,符合实际场景,从而提升用户的拍照体验。
请参阅图3,图3是本申请实施例提供的一种终端设备的功能框图。可选地,在一个实施例中,可将终端设备100配置为完全或部分地自动拍摄模式。例如,终端设备100可以处于定时持续自动拍摄模式,或者根据计算机指令在拍摄范围内检测到预先设置的目标对象(例如目标建筑、人脸等等)时进行拍摄的自动拍摄模式等。在终端设备100处于自动拍摄模式中时,可以将终端设备100设置为在没有和人交互的情况下操作。
下面以终端设备100为例对实施例进行具体说明。应该理解的是,终端设备100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
终端设备100可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中,终端设备100可以包括比图3所示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,等等。图3所示的部件可以以硬件、软件或者软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是终端设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可以从所述存储器中直接调用。避免了指令或数据的重复存取,减少了处理器110的等待时间,因而可以大大提高***的运作效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端设备100的结构限定。在本申请另一些实施例中,终端设备100也可以采用与上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。
终端设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
终端设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端设备100可以包括1个或多个显示屏194。
终端设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。在一些实施例中,终端设备100页可以包括一个或多个摄像头193。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,对比度和人脸肤色等等进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或者视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB或者YUV等格式的图像信号。本申请实施例中,可以通过摄像头193采集目标图像,该目标图像的分辨率可以较低(例如终端设备100最高仅支持300万像素的图像拍摄,则进行拍摄时,摄像头采集到的目标图像分辨率便较低,比如在用户视觉上该目标图像会较不清晰)。在一些实施例中,还可以通过一个以上的摄像头193采集目标图像,等等,本申请实施例对此不作具体限定。在一些实施例中,处理器110可以获取该摄像头193采集到的目标图像,然后将该目标图像输入至预先训练得到的语义分割网络,得到该目标图像的目标语义分割图(例如可以包括一个或多个第一语义区域和一个或多个第二语义区域);然后再将该目标图像以及该目标语义分割图输入至预先训练得到的超分辨率网络,在语义信息的指导和约束下对目标图像的不同区域分别进行超分辨率处理(例如对不同的语义区域添加不同的纹理),由此得到目标图像对应的超分辨率图像,并且超分辨率图像的纹理丰富且真实,自然,符合实际场景。其中,摄像头193可以位于终端设备100的正面,例如位于触控屏的上方,也可以位于其他位置,例如位于终端设备的背面。除此之外,在一些实施例中,摄像头193还可以包括采集人脸识别所需图像的摄像头,如红外摄像头或者其他摄像头。该采集人脸识别所需图像的摄像头一般位于终端设备100的正面,例如位于触控屏的上方,也可以位于其他位置,例如终端设备100的背面,本申请实施例对此不做具体限制。在一些实施例中,终端设备100还可以包括其他摄像头。终端设备100还可以包括点阵发射器(图3中未示出),用于发射光线。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样,终端设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解,语义分割和超分辨率重建等图像处理等等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频,照片等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行终端设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用(比如人脸识别功能,录像功能、拍照功能、语义分割功能和超分辨率重建功能等图像处理功能等),等等。存储数据区可以存储终端设备100使用过程中所创建的数据等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
终端设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。
陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即,x,y和z轴)的角速度。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。
环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。
指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。其中,该指纹传感器180H可以设置在触控屏下方,终端设备100可以接收用户在触控屏上该指纹传感器对应的区域的触摸操作,终端设备100可以响应于该触摸操作,采集用户手指的指纹信息,实现相关功能。
温度传感器180J用于检测温度。在一些实施例中,终端设备100利用温度传感器180J检测的温度,执行温度处理策略。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端设备100的表面,与显示屏194所处的位置不同。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入,产生与终端设备100的用户设置以及功能控制有关的键信号输入。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过***SIM卡接口195,或从SIM卡接口195拔出,实现和终端设备100的接触和分离。在一些实施例中,终端设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端设备100中,不能和终端设备100分离。
终端设备100可以是具备上述功能的摄像机、拍立得相机、智能手机、智能可穿戴设备、平板电脑、膝上计算机和台式电脑等等,本申请实施例对此不作具体限定。
终端设备100的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android***为例,示例性说明终端设备100的软件结构。
请参阅图4,图4是本申请实施例提供的一种终端设备的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图4所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序(也可以称为应用)。还可以包括本申请涉及的相关图像处理应用,通过该图像处理应用可以运用本申请中的一种基于语义分割的图像处理方法,实现对原始图像的处理,从而获得细节丰富,纹理真实,自然的高分辨率图像。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图4所示,应用程序框架层可以包括窗口管理器,内容提供器,视图***,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。例如,在一些实施例中,可以包括相关高清拍照控件的拍照界面,通过点击该高清拍照控件可以实现运用本申请中的一种基于语义分割的图像处理方法,采集原始低分辨率图像,并完成对原始低分辨率图像的一系列处理(包括语义分割和超分辨率处理等等),从而获得细节丰富,纹理真实,自然的高分辨率图像。
电话管理器用于提供终端设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端设备振动,指示灯闪烁等。还例如,在进行本申请中涉及的高清拍照时,可以在拍照结束界面通过文本信息提示用户拍照已完成,并已生成运用本申请中的一种基于语义分割的图像处理方法对原始低分辨率图像进行处理后的高分辨率图像,等等。还可以在进行高清拍照,但终端设备100的内存不足时,通过相应的文本信息提示用户内存不足,拍照无法进行,等等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。本申请中涉及的视频格式例如可以为RM,RMVB,MOV,MTV,AVI,AMV,DMV,FLV等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
为了便于理解本申请实施例,以下示例性列举本申请中一种基于语义分割的图像处理方法所适用的应用场景,可以包括如下2个场景。
场景一,终端设备通过摄像头采集目标图像,最终生成该目标图像的超分辨率图像。
请参阅图5,图5是本申请实施例提供的一种基于语义分割的图像处理方法的应用场景示意图,该应用场景终端设备(图5中以智能手机为例)。并且该终端设备中可以包括相关拍摄模块、显示器和处理器等。其中,拍摄模块、显示器和处理器可以通过***总线进行数据传输。其中拍摄模块可以包括位于终端设备正面和/或背部的摄像头,上述摄像头均可以将捕捉到的光源信号转化为数字信号,完成目标图像的采集(也即完成原始低分辨率图像的采集)。然后通过上述***总线将采集到的目标图像传输至处理器。处理器根据获取到的目标图像,利用本申请中的一种基于语义分割的图像处理方法对目标图像进行处理,例如包括语义分割和超分辨率重建等等一系列处理,使得最终处理后得到的超分辨率图片具备真实、自然的丰富纹理,符合用户的实际需求。
在本申请实施例中,当用户想要进行拍照时,用户对终端设备的操作过程可以参考图6a、图6b和图6c,图6a-图6c是本申请实施例提供的一组界面示意图。如图6a所示,终端设备显示了拍照界面601,其中,该拍照界面601可以包括有拍摄控件602、前后拍摄控件603、图像库控件604、拍摄模式控件组605(例如包括大光圈控件605A、夜景控件605B、拍照控件605C、录像控件605D、人像控件605E和更多控件605F)、设置控件606和其他控件(例如为闪光灯控件和放大倍数控件等等)。当用户想要进行拍照时可以通过点击拍照控件605C,将终端设备置于拍照模式,其次通过输入操作607(例如点击)开始进行拍照。可选地,如图6a和图6b所示,该拍照界面601还可以包括画质增强控件608。如图6b所示,当用户想要拍摄得到更加高清,细节更加丰富的图像时,用户可以通过输入操作609(例如点击)开启画质增强功能,以在拍照时基于摄像头采集得到的原始低分辨率图像(也即上述目标图像),运用本申请提供的一种基于语义分割的图像处理方法对该原始低分辨率图像进行处理,最终得到具备真实、自然的丰富纹理的超分辨率图像。如图6a所示,未开启画质增强功能拍摄得到的图像分辨率较低,模糊,缺少细节,而如图6b所示,开启画质增强功能后拍摄得到的图像分辨率较高,清晰,细节丰富。可选地,开启画质增强功能后拍摄得到的图像的分辨率也可以与未开启画质增强功能拍摄得到的图像的分辨率一致,但是具有丰富的细节,本申请实施例对此不作具体限定。可选地,在画质增强模式下进行拍照时,摄像头采集到的原始低分辨率图像可以在前台提供预览,通过终端设备的显示器显示。可选地,在画质增强模式下进行拍照时,终端设备可以基于用户的操作在拍照过程中持续采集原始低分辨率图像,并对原始低分辨率图像进行同步实时的处理,即在每次结束拍照时终端设备直接生成纹理真实自然的超分辨率图像。此外,可选地,在拍照过程中终端设备也可以仅执行采集操作,而不同步执行相关的图像处理操作(例如包括语义分割和超分辨率重建等操作),在结束拍照时,终端设备可以保存拍照过程中采集到的每一张原始低分辨率图像。然后,终端设备可以响应于用户针对相关控件的输入操作,对该原始低分辨率图像进行处理,得到其对应的超分辨率图像。
可选地,用户可以通过对如图6a和图6b所示的设置控件606的相关操作,对原始采集得到的低分辨率图像(也即目标图像)的分辨率进行设置。如图6c所示,终端设备显示了照片分辨率设置界面610,该拍照界面610可以包括有多个照片分辨率控件(例如图6c所示的[4:3]40MP控件611、[4:3]10MP(推荐)控件612、[1:1]7MP控件613和[全屏]6MP控件614等,其中,[4:3]、[1:1]和[全屏]为照片的长宽比,其中,40MP为4000万像素,10MP为1000万像素,7MP为700万像素,6MP为600万像素,显然40MP的分辨率远远大于6MP的分辨率)等等。用户可以通过点击相应的照片分辨率控件设置自己想要的分辨率,例如,如图6c所示,用户可以通过输入操作615(例如点击)将摄像头采集的原始图像的分辨率设置为10MP。可以理解的是,照片的分辨率通常受到终端设备自身所能提供的分辨率的限制,如图6c所示,终端设备最大可以提供40MP的分辨率,如此,在未开启画质增强功能的情况下,用户无法得到比40MP更高分辨率的图像,严重影响用户的拍照体验。而在开启画质增强功能的情况下,用户可以得到比40MP更高分辨率且纹理丰富、真实自然的图像。
可选地,在开启画质增强功能进行拍照时,终端设备可以将未处理的原始低分辨率图像以及对原始低分辨率图像进行处理后得到的超分辨率图像同时存储至图像库,用户可以通过点击图像库控件604查看拍摄所得的所有图片(例如包括多张未处理的原始低分辨率图像以及多张超分辨率图像等等)。用户还可以通过相关分享控件、编辑控件、收藏控件和删除控件(图中未示出)等分别对该原始低分辨率图像和超分辨率图像进行分享、编辑、收藏和删除。例如,若用户在查看了未处理的原始低分辨率图像以及超分辨率图像后,觉得超分辨率图像的效果较好,不仅清晰,细节丰富,而且超分辨率图像中的纹理均真实、自然,符合实际场景,则可选择删除该原始低分辨率图像,等等,本申请中对此不作具体限定。
可选地,在本申请实施例中,当开发人员想要进行拍照以测试本申请中的一种基于语义分割的图像处理方法时,开发人员对终端设备的操作过程也可以参考图6a、图6b和图6c,此处不再进行赘述。开发人员可以根据得到的超分辨率图像,不断优化本申请中的语义分割网络和超分辨率网络,等等,从而实现更好的拍照效果。
如上所述,该终端设备可以为具备上述图像采集、图像处理(例如包括语义分割和超分辨率重建等等)和显示等功能的摄像机、智能手机、智能可穿戴设备、平板电脑、膝上计算机和台式电脑等等,本申请实施例对此不作具体限定。
场景二,终端设备与计算设备连接,通过计算设备对终端设备采集并发送至计算设备的目标图像进行处理,最终生成该目标图像的超分辨率图像。
请参阅图7,图7是本申请实施例提供的另一种基于语义分割的图像处理方法的应用场景示意图,该应用场景包括终端设备(图7中以智能手机为例)和计算设备(图7中以台式电脑为例)。其中,终端设备和计算设备可以通过蓝牙、Wi-Fi或移动网络等无线通信方式或者数据线等有线通信方式进行数据传输。其中,终端设备可以包括相关拍摄模块、显示器和处理器等。其中,拍摄模块、显示器和处理器可以通过***总线进行数据传输。其中拍摄模块可以包括位于终端设备正面和/或背部的摄像头,上述摄像头均可以将捕捉到的光源信号转化为数字信号,完成目标图像的采集(也即完成原始低分辨率图像的采集)。
然后终端设备可以通过上述无线/有线通信方式将采集到的原始低分辨率图像发送至计算设备。计算机设备根据获取到的原始低分辨率图像,利用本申请中的一种基于语义分割的图像处理方法对原始低分辨率图像进行处理,例如可以包括如图7所示的语义分割和超分辨率重建等一系列处理。最终生成满足用户需求的高分辨率图像,例如为图7所示的分辨率较高,且具备真实、自然的丰富纹理的超分辨率图像。又例如,还可以生成与原始低分辨率图像的分辨率一致,但是具备真实、自然的丰富纹理的超分辨率图像。进一步地,该计算设备还可以将处理后得到的超分辨率图像保存至计算设备本地,并选择发送至该终端设备,又或者是其他设备。进一步地,该终端设备还可以选择将多张原始低分辨率图像发送至计算设备,该多张原始低分辨率图像可以是事先通过该终端设备拍摄得到,并保存于该终端设备本地的多张图像。然后,计算设备可以利用本申请中的一种基于语义分割的图像处理方法同时或者依次对该多张原始低分辨率图像进行处理,最终生成对应的多张具备真实、自然的丰富纹理的超分辨率图像,满足用户的实际需求。
如上所述,该终端设备可以为具备上述功能的摄像机、智能手机、智能可穿戴设备、平板电脑、膝上计算机和台式电脑等等,本申请实施例对此不作具体限定;该计算设备可以为具备上述功能的智能手机、智能可穿戴设备、平板电脑、膝上计算机和台式电脑等等,本申请实施例对此不作具体限定。
请参阅图8,图8是本申请实施例提供的一种基于语义分割的图像处理方法的流程示意图,该方法可应用于上述图5或图7中所述的应用场景及***架构中,以及具体可应用于上述图3的终端设备100中。下面结合附图8以执行主体为上述图3中的终端设备100内部的处理器110为例进行描述。该方法可以包括以下步骤S801-步骤S803。
步骤S801,获取目标图像。
具体地,终端设备启用摄像头对用户视野内的场景进行拍摄,摄像头可以将捕捉到的光源信号转化为数字信号,从而完成目标图像的采集。然后终端设备内部的处理器可以获取该目标图像,该目标图像的分辨率取决于该终端设备所能支持的分辨率(例如可以为20MP、10MP、7MP和6MP等等),该目标图像的分辨率可以较低(例如为7MP、6MP甚至4MP等等)。可选地,该目标图像可以通过终端设备的前置摄像头采集得到,也可以通过该终端设备的后置摄像头采集得到,一般情况下,前置摄像头所支持的最大分辨率一般小于后置摄像头所述支持的最大分辨率,本申请实施例对此不作具体限定。可选地,还可以通过终端设备内部的全球定位***确定该终端设备的地理位置,进而可以确定该目标图像的地理区域信息,例如确定该目标图像所属的目标地理区域。该目标地理区域可以为开发人员事先划分的某一公园、商场、学校、街道、体育馆、商业步行街和旅游景区等等区域,本申请实施例对此不作具体限定。比如可以在确定了终端设备的地理位置和朝向等等的基础上,确定该目标图像所属的目标地理区域为A学校,也即确定该目标图像所包括的场景内容为该A学校。可选地,还可以通过预先训练的模型(例如为根据针对多个地理区域拍摄得到的大量图片进行训练所得的地理区域识别模型)对该目标图像进行图像识别,根据该目标图像内所包括的场景内容,确定该目标图像所属的目标地理区域,等等,本申请实施例对此不作具体限定。
步骤S802,将目标图像输入至语义分割网络,得到目标图像的目标语义分割图,目标语义分割图包括K个第一语义区域和P个第二语义区域。
具体地,终端设备内部的处理器在获取到目标图像后,可以将目标图像传输至预先训练所得的语义分割网络,从而得到该目标图像的目标语义分割图。该目标语义分割图可以包括K个第一语义区域和P个第二语义区域。可选地,该K个第一语义区域中的每一个第一语义区域可以为按照预设的语义类别(例如为天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号等等常见的语义类别)分割得到的区域。该P个第二语义区域中的每一个第二语义区域可以为该目标图像中图像频率小于第一预设值,且用于在超分辨率处理中进行纹理添加的区域,也即纹理较难恢复的弱纹理区域。该K个第一语义区域和该P个第二语义区域用于后续对目标图像的超分辨率重建过程进行指导和约束,减少各个语义区域之间的干扰,从而保证各个语义区域的细节、纹理均得到不同程度的增强,避免伪纹理的产生,使得到的超分辨率图像具备真实、自然的丰富纹理。其中,K、P均可以为大于或者等于1的整数。可选地,该目标语义分割图也可以仅包括K个第一语义区域,还可以仅包括P个第二语义区域,本申请实施例对此不作具体限定。
可选地,请参阅图9,图9是本申请实施例提供的一种基于语义分割进行图像超分辨率重建的过程示意图。如图9所示,可以首先根据该目标图像的地理区域信息确定对应的语义分割网络,例如,若该目标图像所属的目标地理区域为A学校(也即该目标图像为针对A学校内的场景进行拍摄所采集到的图像),则可选择对应的针对A学校的语义分割网络对该目标图像进行语义分割;又例如,若该目标图像所属的目标地理区域为B公园(也即该目标图像为针对B公园内的场景进行拍摄所采集到的图像),则可选择对应的针对B公园的语义分割网络对该目标图像进行语义分割。如此,基于预先训练所得的针对多个不同地理区域的语义分割网络可以对采集到的各个地理区域的目标图像进行语义分割,保证语义分割的高效性和准确性,提升后续基于语义分割进行超分辨率重建的质量,进而保证得到的超分辨率图像的质量,保证用户的拍照体验。如图9所示,目标图像经语义分割网络后得到目标语义分割图可以包括多个语义区域,具体请参阅图10,图10是本申请实施例提供的一种目标语义分割图的示意图。如图10所示,针对图9所示的目标图像,经语义分割网络后得到的目标语义分割图可以包括多个第一语义区域(例如图10所示的第一语义区域1(天空)、第一语义区域2(建筑)和第一语义区域3(植物))和一个第二语义区域(例如图10所示的第二语义区域1)
可选地,上述语义分割网络的训练过程可以包括以下步骤S11-步骤S12。
步骤S11,获取第一图像集和第二图像集。
具体地,终端设备获取第一图像集和第二图像集,该第一图像可以包括N张第一图像(也即N张低分辨率图像),该第二图像集可以包括N张第二图像(也即N张高分辨率图像),该N张第一图像与该N张第二图像一一对应,该N张第二图像中的每一张第二图像的分辨率大于该N张第一图像中对应的每一张第一图像的分辨率,也即每一张第二图像为其对应的第一图像的高清版本,两者包含的图像内容相同;N为大于或者等于1的整数。每一张一一对应的第二图像和第一图像可以为终端设备针对目标地理区域内的同一场景按照不同的分辨率拍摄得到的。可选地,也可以是终端设备先按照较高的分辨率对目标地理区域内的多个场景拍摄得到多张第二图像,在通过终端设备或者其他的设备对该多张第二图像进行降采样处理,得到分辨率较低的多张第一图像,等等,本申请实施例对此不作具体限定。
步骤S12,按照预设的语义类别对所述N张第一图像进行第一语义分割,得述N张第一图像对应的N张第一语义分割图。
具体地,可以通过现有技术中的语义标注工具,按照预设的语义类别(例如为天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号等等常见的语义类别)对N张第一图像中的每一张第一图像中的不同区域进行框选和标注,例如依次框选出第一图像中的一个或多个天空区域、一个或多个建筑区域、一个或多个人物区域和一个或多个植物区域等等并进行相应的语义标注(例如对天空区域进行天空的语义信息标注,对建筑区域进行建筑的语义信息标注,对植物区域进行植物的语义信息标注,等等),此处不再赘述,从而完成对N张第一图像的第一语义分割,得到N张第一图像对应的N张第一语义分割图。所述N张第一语义分割图中的每一张第一语义分割图包括按照预设的语义类别分割得到的一个或多个第一语义区域;
步骤S13,对N张第一图像以及N张第二图像进行频率解析,分别得到N张第一图像对应的N张第一频率图,以及N张第二图像对应的N张第二频率图。
具体地,终端设备对N张第一图像中的每一张第一图像分别进行频率解析,以及对N张第二图像中的每一张第二图像分别进行频率解析。从而分别得到N张第一图像对应的N张第一频率图,以及N张第二图像对应的N张第二频率图。请参阅图11,图11是本申请实施例提供的一种频率解析的示意图,如图11所示,可以通过卷积神经网络对第一图像进行频率解析,得到图像高低频对应的第一频率图,可选地,也可以通过卷积神经网络对第二图像进行频率解析,得到图像高低频对应的第二频率图(图11中未示出)。可选地,还可以采用边缘检测、小波分析(Wavelet)等方法进行频率分析,本申请实施例对此不作具体限定。
步骤S14,基于N张第一频率图和N张第二频率图,根据预设条件对N张第一图像进行第二语义分割,得到N张第一图像对应的N张第二语义分割图。
具体地,将N张第一频率图和N张第二频率图一一对应进行比较,确定N张第一频率图中的第i张第一频率图和对应的N张第二频率图中的第i张第二频率图中图像频率的差异值大于第二预设值的一个或多个区域为一个或多个第二语义区域,该一个或多个区域中的每一个区域为该第i张第一频率图中图像频率小于该第一预设值的区域。该一个或多个区域中的每一个区域也可以为该第i张第一频率图中图像频率小于其他预设值的区域。
可选地,根据该一个或多个第二语义区域,对该第i张第一频率图对应的第i张第一图像进行第二语义分割,得到该第i张第一图像对应的第二语义分割图。i为大于或者等于1,且小于或者等于N的整数,如上所述,由此可以得到N张第一图像对应的N张第二语义分割图,该N张第二语义分割图中的每一张第二语义分割图可以包括一个或多个第一语义区域和一个或多个第二语义区域。可选地,该N张第二语义分割图中的部分第二语义分割图也可以仅仅包括一个或多个第一语义区域或者仅仅包括一个或多个第二语义区域,这取决于每一张第一图像包含的场景内容。
例如,请参阅图12,图12是本申请实施例提供的一种得到第二语义分割图的过程示意图。如图12所示,按照预设的语义类别进行第一语义分割得到的第一语义分割图可以包括第一语义区域4(天空)和第一语义区域5(建筑)。如图12所示,在第一图像和第二图像的屋顶部分两者的图像频率差距较大,例如在第一图像的屋顶部分已经看不到任何纹理,但在第二图像的屋顶部分任然存在清晰看见的瓦片纹理,则该屋顶部分即为超分辨率重建中较难进行纹理恢复的弱纹理区域,并且是容易影响其他弱纹理区域产生伪纹理的区域(也即上述第二语义区域)。开发人员可以利用现有的语义标注工具(例如为常见的图像语义分割标注工具labelme)对该屋顶区域进行框选和标注,从而完成对第一图像的第二语义分割,得到的第二语义分割图如图12所示,可以包括第一语义区域4(天空)、第一语义区域5(建筑)以及第二语义区域2(屋顶部分)。
步骤S15,以N张第一图像和N张第二语义分割图作为训练输入,以N张第二语义分割图为N个标签,训练得到语义分割网络。
具体地,终端设备获取第一训练样本集,该第一训练样本集可以包括上述N张第一图像和N张第二语义分割图。并将作为该N张第一图像和该N张第二语义分割图作为训练输入,其中,该N张第二语义分割图为N个标签,由此可以对初始的神经网络进行训练,不断修正其中的一个或多个参数,最后得到针对该目标地理区域的语义分割网络。
需要说明的是,上述语义分割网络的训练也可以通过除终端设备外的计算设备或者其他设备完成,本申请实施例对此不作具体限定。
如上所述,本申请实施例不仅可以按照预设的语义类别(例如为天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号等等常见的语义类别)对目标图像进行语义分割,同步的,还可以按照该地理区域内较难恢复纹理的弱纹理区域对目标图像进行语义分割,得到更加精细的语义分割图,也即得到更加精细、丰富和全面的语义信息。从而可以大大提升后续基于该语义分割得到的更加精细、丰富和全面的语义信息进行超分辨率重建的质量,进而保证得到的超分辨率图像的质量,使其具备真实、自然的丰富纹理,提升用户的拍照体验。
步骤S803,将目标语义分割图和目标图像输入至超分辨率网络,根据K个第一语义区域对目标图像进行第一超分辨率处理,并且根据P个第二语义区域对目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像。
具体地,在经语义分割网络得到目标图像的目标语义分割图后,终端设备可以将目标语义分割图和目标图像输入至超分辨率网络,根据K个第一语义区域对目标图像进行第一超分辨率处理,并且根据P个第二语义区域对目标图像进行第二超分辨率处理,得到该目标图像对应的超分辨率图像。可选地,该超分辨率图像的分辨率可以大于或者该目标图像的分辨率。例如,如图9所示,可以将该目标图像和该目标语义分割图一同输入至超分辨率网络,得到的超分辨率图像如图9所示,该超分辨率图像的分辨率大于该目标图像的分辨率,且具有真实自然的丰富纹理。可选地,超分辨率图像的分辨率也可以等于目标图像的分辨率,但较目标图像具有更加丰富的纹理,且纹理真实、自然。
可选地,如图9所示,可以首先根据该目标图像的地理区域信息确定对应的超分辨率网络,例如,若该目标图像所属的目标地理区域为A学校(也即该目标图像为针对A学校内的场景进行拍摄所采集到的图像),则可选择对应的针对A学校的超分辨率网络对该目标图像进行超分辨率重建;又例如,若该目标图像所属的目标地理区域为B公园(也即该目标图像为针对B公园内的场景进行拍摄所采集到的图像),则可选择对应的针对B公园的超分辨率网络对该目标图像进行超分辨率重建,等等,此处不再赘述。如此,基于预先训练所得的针对多个不同地理区域的超分辨率网络可以对采集到的各个地理区域的目标图像进行基于语义分割的超分辨率重建,保证超分辨率重建的高效性和准确性,提升超分辨率图像的质量,保证用户的拍照体验。
可选地,上述根据K个第一语义区域对目标图像进行第一超分辨率处理可以包括:确定该K个第一语义区域中的M个第一语义区域,并根据该M个第一语义区域分别对应的预设的语义类别,对该目标图像中相应的M个区域分别进行纹理添加;该M个第一语义区域中的每一个第一语义区域为该目标图像中图像频率大于或者等于该第一预设值的区域;确定该K个第一语义区域中的Q个第一语义区域,根据该Q个第一语义区域,对该目标图像中相应的Q个区域不进行纹理添加;该Q个第一语义区域中的每一个第一语义区域为该目标图像中图像频率小于该第一预设值的区域;M、Q为大于或者等于0的整数,M与Q的和为K。
可选地,上述根据P个第二语义区域对目标图像进行第二超分辨率处理可以包括:根据该P个第二语义区域,对该目标图像中相应的P个区域分别进行纹理添加。可选地,针对第二语义区域,也即实际场景中存在较为丰富的纹理,但目标图像(低分辨率图像)中几乎没有纹理的区域(比如屋顶等区域,目标图像中可能仅仅为一个色块,但实际场景中还存在瓦片等纹理),可以通过预先训练得到的超分辨率网络,匹配其对应的纹理,并对该多个第二语义区域分别进行相应的纹理添加,从而恢复其实际场景中的真实纹理。
例如,针对图9和图10所示的目标图像和目标语义分割图,该目标语义分割图包括三个第一语义区域和一个第二语义区域,具体包括第一语义区域1(天空)、第一语义区域2(建筑)和第一语义区域3(植物)和第二语义区域1。该第二语义区域1为目标图像中视野前方的一栋建筑,该第二语义区域1在目标图像中的图像频率小于第一预设值,仅仅包括低频信息(例如图9所示,该第二语义区域1在目标图像中几乎不存在任何有关建筑的纹理,比如外墙面瓷砖等纹理,但是显然该第二语义区域1在实际场景中存在外墙面瓷砖等纹理),则通过该预先训练所得的超分辨率网络可以匹配其对应的纹理,并进行相应的纹理添加,从而恢复其实际场景中的真实纹理(比如建筑物中的外墙面瓷砖等纹理)。可选地,第一语义区域1(天空)、第一语义区域2(建筑)和第一语义区域3(植物)在目标图像中的图像频率可能有所不同,针对图像频率大于或者等于第一预设值的第一语义区域,可以根据其对应的语义类别,对目标图像中相应的区域进行纹理添加。例如,若第一语义区域2(建筑)和第一语义区域3(植物)的图像频率大于第一预设值,包括部分高频信息,则基于建筑这一语义信息的指导和约束对该目标图像中与该第一语义区域2(建筑)相对应的区域,添加相应的属于建筑这类的纹理;并基于植物这一语义信息的指导和约束对该目标图像中与该第一语义区域3(植物)相对应的区域,添加相应的属于植物这类的纹理,从而使得添加的纹理更加自然,真实,符合实际场景,大大提高了超分辨率图像的质量。另一方面,例如,若第一语义区域1(天空)在目标图像中的图像频率小于第一预设值,仅仅包括低频信息(例如图9所示,该第一语义区域1(天空)为湛蓝且无云的天空区域,是原本实际场景中不存在纹理的区域或者几乎不存在任何纹理,比如云朵、晚霞等纹理),则对于该目标图像中与该第一语义区域1(天空)相对应的区域在进行超分辨率重建时可以不进行纹理添加(或者仅适度添加极弱的纹理),从而避免超分辨率图像中出现与实际场景不符的多余纹理(也即避免伪纹理的产生)。
如上所述,本申请实施例不仅可以按照预设的语义类别(例如为天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号等等常见的语义类别)对目标图像进行语义分割,同步的,还可以按照该地理区域内较难恢复纹理的弱纹理区域对目标图像进行语义分割,得到更加精细的语义分割图,也即得到更加精细、丰富和全面的语义信息。从而可以大大提升后续基于语义分割进行超分辨率重建的质量,例如不仅可以对不同语义区域添加相应的纹理(比如基于植物这类语义的指导和约束对植物区域添加属于植物的相应纹理,又比如基于建筑这类语义的指导和约束对建筑区域添加属于建筑的相应纹理,等等),还可以恢复弱纹理区域的真实纹理,也可以对原本实际场景中不存在纹理的区域选择不进行纹理添加(也即不盲目地进行纹理增强,保证处理后的图像与实际场景相符合),进而保证得到的超分辨率图像的质量,使其具备真实、自然的丰富纹理,提升用户的拍照体验。
可选地,可以通过特征提取模块和上采样模块等实现上述超分辨率重建中的纹理添加。可选地,特征提取模块可以用于提取目标图像的高维信息,目前实现特征提取中较为广泛使用的包括卷积网络、保留块(Res Block)、致密块体(Dense Block)或者两两组合等结构。可选地,上采样模块可以使用传统的上采样方法,例如包括双三次插值算法(bicubic)、双线性插值算法(bilinear)和最邻近元算法(nearest),也可以使用反卷积、像素置换(pixel shuffle)等等方法,本申请实施例对此不作具体限定。
可选地,请参阅图13,图13是本申请实施例提供的一种超分辨率网络的训练过程示意图。下面将结合上述有关语义分割网络训练过程中的步骤S11-S15以及图13对本申请实施例中的超分辨率网络的训练过程进行阐述。超分辨率网络训练过程中的重要组成主要包括特征提取模块、上采样模块和损失模块。如图13所示,可以将N张第一图像和对应的N张第二语义分割图输入初始神经网络,基于该N张第二语义分割图,对该N张第一图像进行特征提取,并对特征提取后的该N张第一图像进行上采样处理,得到该N张第一图像对应的N张第三图像。然后,以该N张第二图像为N个标签,与该N张第三图像一一对应进行比对,并基于所述N张第二语义分割图,对该N张第三图像进行损失计算,修正该初始神经网络中的一个或多个参数,最终得到针对该目标地理区域的超分辨率网络。可选地,如图13所示,损失计算的类型可以包括像素损失(Pixel loss)、对抗性损失(GAN loss)和特征损失(VisualGeometry Group loss,VGG loss)。通常情况下,不同的纹理类型(也即不同的语义类别)对于损失的敏感程度往往不同,此时,往往难以全局调出一个适合所有类别的损失配比。如图13所示,在有语义信息(也即上述第二语义分割图)的情况下,可以对每个语义类别定义不同的损失配比,通过统计不同语义区域的像素占比来进行全局的损失计算,大大提高了超分辨率网络的训练效率,使得训练所得的超分辨率网络可以基于语义信息对低分辨率图像进行更加高效、准确的超分辨率重建,保证得到的超分辨率图像具备真实、自然、符合实际场景的丰富纹理,避免多余的伪纹理的产生,提升用户的拍照体验。
请参阅图14,图14是本申请实施例提供的一种基于语义分割的图像处理装置的结构示意图,该基于语义分割的图像处理装置可以包括装置30,该装置30可以包括第一获取单元309、第一语义分割单元310和超分辨率单元311,其中,各个单元的详细描述如下。
第一获取单元309,用于获取目标图像;
第一语义分割单元310,用于将所述目标图像输入至语义分割网络,得到所述目标图像的目标语义分割图,所述目标语义分割图包括K个第一语义区域和P个第二语义区域;所述K个第一语义区域中的每一个第一语义区域为按照预设的语义类别分割得到的区域;所述P个第二语义区域中的每一个第二语义区域为所述目标图像中图像频率小于第一预设值,且用于在超分辨率处理中进行纹理添加的区域;K、P为大于或者等于1的整数;
超分辨率单元311,用于将所述目标语义分割图和所述目标图像输入至超分辨率网络,根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像;所述超分辨率图像的分辨率大于或者等于所述目标图像的分辨率。
在一种可能的实现方式中,所述预设的语义类别包括天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号中的一种或者多种;所述超分辨率单元311,具体用于:确定所述K个第一语义区域中的M个第一语义区域,并根据所述M个第一语义区域分别对应的所述预设的语义类别,对所述目标图像中相应的M个区域分别进行纹理添加;所述M个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率大于或者等于所述第一预设值的区域;根据所述P个第二语义区域,对所述目标图像中相应的P个区域分别进行纹理添加。
在一种可能的实现方式中,所述超分辨率单元311,还具体用于:确定所述K个第一语义区域中的Q个第一语义区域,根据所述Q个第一语义区域,对所述目标图像中相应的Q个区域不进行纹理添加;所述Q个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率小于所述第一预设值的区域;M、Q为大于或者等于0的整数,M与Q的和为K。
在一种可能的实现方式中,所述装置还包括:
第二获取单元301,用于获取第一图像集和第二图像集,所述第一图像集包括N张第一图像,所述第二图像集包括N张第二图像,所述N张第一图像与所述N张第二图像一一对应,所述N张第二图像中的每一张第二图像的分辨率大于所述N张第一图像中对应的每一张第一图像的分辨率;N为大于或者等于1的整数;
第二语义分割单元302,用于按照所述预设的语义类别对所述N张第一图像进行第一语义分割,得到所述N张第一图像对应的N张第一语义分割图;所述N张第一语义分割图中的每一张第一语义分割图包括一个或多个第一语义区域;
频率解析单元303,用于对所述N张第一图像以及所述N张第二图像进行频率解析,分别得到所述N张第一图像对应的N张第一频率图,以及所述N张第二图像对应的N张第二频率图;
第三语义分割单元304,用于基于所述N张第一频率图和所述N张第二频率图,根据预设条件对所述N张第一图像进行第二语义分割,得到所述N张第一图像对应的N张第二语义分割图,所述N张第二语义分割图中的每一张第二语义分割图包括所述一个或多个第一语义区域和一个或多个第二语义区域。
在一种可能的实现方式中,所述第三语义分割单元304,具体用于包括:将所述N张第一频率图和所述N张第二频率图一一对应进行比较,确定所述N张第一频率图中的第i张第一频率图和对应的所述N张第二频率图中的第i张第二频率图中图像频率的差异值大于第二预设值的一个或多个区域为所述一个或多个第二语义区域,所述一个或多个区域中的每一个区域为所述第i张第一频率图中图像频率小于所述第一预设值的区域;根据所述一个或多个第二语义区域,对所述第i张第一频率图对应的第i张第一图像进行第二语义分割,得到所述第i张第一图像对应的第二语义分割图,所述第i张第一图像对应的第二语义分割图包括所述一个或多个第一语义区域和所述一个或多个第二语义区域;i为大于或者等于1,且小于或者等于N的整数。
在一种可能的实现方式中,所述装置还包括:
第三获取单元305,用于获取第一训练样本集,所述第一训练样本集包括所述N张第一图像和所述N张第二语义分割图;
第一训练单元306,用于以所述N张第一图像和所述N张第二语义分割图作为训练输入,以所述N张第二语义分割图为N个标签,训练得到所述语义分割网络。
在一种可能的实现方式中,所述装置还包括:
第四获取单元307,用于获取第二训练样本集,所述第二训练样本集包括所述N张第一图像、所述N张第二语义分割图和所述N张第二图像;
第二训练单元308,用于以所述N张第一图像、所述N张第二语义分割图和所述N张第二图像作为训练输入,以所述N张第二图像为N个标签,训练得到所述超分辨率网络。
在一种可能的实现方式中,所述第二训练单元308,具体用于:将所述N张第一图像和所述N张第二语义分割图输入初始神经网络,基于所述N张第二语义分割图,对所述N张第一图像进行特征提取,并对特征提取后的所述N张第一图像进行上采样处理,得到所述N张第一图像对应的N张第三图像;以所述N张第二图像为N个标签,基于所述N张第二语义分割图,对所述N张第三图像进行损失计算,修正所述初始神经网络中的一个或多个参数,得到所述超分辨率网络。
在一种可能的实现方式中,所述目标图像、所述N张第一图像和所述N张第二图像为针对目标地理区域内的场景进行拍摄所得到的图像;所述语义分割网络为针对所述目标地理区域的语义分割网络,所述超分辨率网络为针对所述目标地理区域的超分辨率网络。
需要说明的是,本申请实施例中所描述的基于语义分割的图像处理装置中各功能单元的功能可参见上述图8中所述的方法实施例中步骤S801-步骤S803的相关描述,此处不再进行赘述。
图14中每个单元可以以软件、硬件、或其结合实现。以硬件实现的单元可以包括路及电炉、算法电路或模拟电路等。以软件实现的单元可以包括程序指令,被视为是一种软件产品,被存储于存储器中,并可以被处理器运行以实现相关功能,具体参见之前的介绍。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种终端设备。请参阅图15,图15是本申请实施例提供的一种终端设备的结构示意图,该终端设备至少包括处理器401,输入设备402、输出设备403和计算机可读存储介质404,该终端设备还可以包括其他通用部件,在此不再详述。其中,终端设备内的处理器401,输入设备402、输出设备403和计算机可读存储介质404可通过总线或其他方式连接。
处理器401可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
该终端设备内的存储器可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
计算机可读存储介质404可以存储在终端设备的存储器中,所述计算机可读存储介质404用于存储计算机程序,所述计算机程序包括程序指令,所述处理器401用于执行所述计算机可读存储介质404存储的程序指令。处理器401(或称CPU(Central ProcessingUnit,中央处理器))是终端设备的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;在一个实施例中,本申请实施例所述的处理器401可以用于进行基于语义分割的图像处理的一系列处理,包括:获取目标图像;将所述目标图像输入至语义分割网络,得到所述目标图像的目标语义分割图,所述目标语义分割图包括K个第一语义区域和P个第二语义区域;所述K个第一语义区域中的每一个第一语义区域为按照预设的语义类别分割得到的区域;所述P个第二语义区域中的每一个第二语义区域为所述目标图像中图像频率小于第一预设值,且用于在超分辨率处理中进行纹理添加的区域;K、P为大于或者等于1的整数;将所述目标语义分割图和所述目标图像输入至超分辨率网络,根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像;所述超分辨率图像的分辨率大于或者等于所述目标图像的分辨率,等等。
需要说明的是,本申请实施例中所描述的终端设备中各功能单元的功能可参见上述图8中所述的方法实施例中的步骤S801-步骤S803的相关描述,此处不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本申请实施例还提供了一种计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端设备的操作***。并且,在该存储空间中还存放了适于被处理器401加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选地还可以是至少一个位于远离前述处理器的计算机可读存储介质。
本申请实施例还提供一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行任意一种基于语义分割的图像处理方法的部分或全部步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以为个人计算机、服务端或者网络设备等,具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中,而前述的存储介质可包括:U盘、移动硬盘、磁碟、光盘、只读存储器(Read-OnlyMemory,缩写:ROM)或者随机存取存储器(RandomAccessMemory,缩写:RAM)等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (20)
1.一种基于语义分割的图像处理方法,其特征在于,包括:
获取目标图像;
将所述目标图像输入至语义分割网络,得到所述目标图像的目标语义分割图,所述目标语义分割图包括K个第一语义区域和P个第二语义区域;所述K个第一语义区域中的每一个第一语义区域为按照预设的语义类别分割得到的区域;所述P个第二语义区域中的每一个第二语义区域为所述目标图像中图像频率小于第一预设值,且用于在超分辨率处理中进行纹理添加的区域;K、P为大于或者等于1的整数;
将所述目标语义分割图和所述目标图像输入至超分辨率网络,根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像;所述超分辨率图像的分辨率大于或者等于所述目标图像的分辨率。
2.根据权利要求1所述的方法,其特征在于,所述预设的语义类别包括天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号中的一种或者多种;所述根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,包括:
确定所述K个第一语义区域中的M个第一语义区域,并根据所述M个第一语义区域分别对应的所述预设的语义类别,对所述目标图像中相应的M个区域分别进行纹理添加;所述M个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率大于或者等于所述第一预设值的区域,M为大于或者等于0的整数;
根据所述P个第二语义区域,对所述目标图像中相应的P个区域分别进行纹理添加。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述K个第一语义区域中的Q个第一语义区域,根据所述Q个第一语义区域,对所述目标图像中相应的Q个区域不进行纹理添加;所述Q个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率小于所述第一预设值的区域;Q为大于或者等于0的整数,M与Q的和为K。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述方法还包括:
获取第一图像集和第二图像集,所述第一图像集包括N张第一图像,所述第二图像集包括N张第二图像,所述N张第一图像与所述N张第二图像一一对应,所述N张第二图像中的每一张第二图像的分辨率大于所述N张第一图像中对应的每一张第一图像的分辨率;N为大于或者等于1的整数;
按照所述预设的语义类别对所述N张第一图像进行第一语义分割,得到所述N张第一图像对应的N张第一语义分割图;所述N张第一语义分割图中的每一张第一语义分割图包括一个或多个第一语义区域;
对所述N张第一图像以及所述N张第二图像进行频率解析,分别得到所述N张第一图像对应的N张第一频率图,以及所述N张第二图像对应的N张第二频率图;
基于所述N张第一频率图和所述N张第二频率图,根据预设条件对所述N张第一图像进行第二语义分割,得到所述N张第一图像对应的N张第二语义分割图,所述N张第二语义分割图中的每一张第二语义分割图包括所述一个或多个第一语义区域和一个或多个第二语义区域。
5.根据权利要求4所述的方法,其特征在于,所述基于所述N张第一频率图和所述N张第二频率图,根据预设条件对所述N张第一图像进行第二语义分割,得到所述N张第一图像对应的N张第二语义分割图,包括:
将所述N张第一频率图和所述N张第二频率图一一对应进行比较,确定所述N张第一频率图中的第i张第一频率图和对应的所述N张第二频率图中的第i张第二频率图中图像频率的差异值大于第二预设值的一个或多个区域为所述一个或多个第二语义区域,所述一个或多个区域中的每一个区域为所述第i张第一频率图中图像频率小于所述第一预设值的区域;
根据所述一个或多个第二语义区域,对所述第i张第一频率图对应的第i张第一图像进行第二语义分割,得到所述第i张第一图像对应的第二语义分割图,所述第i张第一图像对应的第二语义分割图包括所述一个或多个第一语义区域和所述一个或多个第二语义区域;i为大于或者等于1,且小于或者等于N的整数。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取第一训练样本集,所述第一训练样本集包括所述N张第一图像和所述N张第二语义分割图;
以所述N张第一图像和所述N张第二语义分割图作为训练输入,以所述N张第二语义分割图为N个标签,训练得到所述语义分割网络。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取第二训练样本集,所述第二训练样本集包括所述N张第一图像、所述N张第二语义分割图和所述N张第二图像;
以所述N张第一图像、所述N张第二语义分割图和所述N张第二图像作为训练输入,以所述N张第二图像为N个标签,训练得到所述超分辨率网络。
8.根据权利要求7所述的方法,其特征在于,所述以所述N张第一图像、所述N张第二语义分割图和所述N张第二图像作为训练输入,以所述N张第二图像为N个标签,训练得到所述超分辨率网络,包括:
将所述N张第一图像和所述N张第二语义分割图输入初始神经网络,基于所述N张第二语义分割图,对所述N张第一图像进行特征提取,并对特征提取后的所述N张第一图像进行上采样处理,得到所述N张第一图像对应的N张第三图像;
以所述N张第二图像为N个标签,基于所述N张第二语义分割图,对所述N张第三图像进行损失计算,修正所述初始神经网络中的一个或多个参数,得到所述超分辨率网络。
9.根据权利要求4所述的方法,其特征在于,所述目标图像、所述N张第一图像和所述N张第二图像为针对目标地理区域内的场景进行拍摄所得到的图像;所述语义分割网络为针对所述目标地理区域的语义分割网络,所述超分辨率网络为针对所述目标地理区域的超分辨率网络。
10.一种基于语义分割的图像处理装置,其特征在于,包括:
第一获取模块,用于获取目标图像;
第一语义分割模块,用于将所述目标图像输入至语义分割网络,得到所述目标图像的目标语义分割图,所述目标语义分割图包括K个第一语义区域和P个第二语义区域;所述K个第一语义区域中的每一个第一语义区域为按照预设的语义类别分割得到的区域;所述P个第二语义区域中的每一个第二语义区域为所述目标图像中图像频率小于第一预设值,且用于在超分辨率处理中进行纹理添加的区域;K、P为大于或者等于1的整数;
超分辨率模块,用于将所述目标语义分割图和所述目标图像输入至超分辨率网络,根据所述K个第一语义区域对所述目标图像进行第一超分辨率处理,并且根据所述P个第二语义区域对所述目标图像进行第二超分辨率处理,得到所述目标图像对应的超分辨率图像;所述超分辨率图像的分辨率大于或者等于所述目标图像的分辨率。
11.根据权利要求10所述的装置,其特征在于,所述预设的语义类别包括天空、建筑、人物、植物、动物、水面、道路、桥梁、交通工具和交通信号中的一种或者多种;所述超分辨率模块,具体用于:
确定所述K个第一语义区域中的M个第一语义区域,并根据所述M个第一语义区域分别对应的所述预设的语义类别,对所述目标图像中相应的M个区域分别进行纹理添加;所述M个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率大于或者等于所述第一预设值的区域,M为大于或者等于0的整数;
根据所述P个第二语义区域,对所述目标图像中相应的P个区域分别进行纹理添加。
12.根据权利要求11所述的装置,其特征在于,所述超分辨率模块,还具体用于:
确定所述K个第一语义区域中的Q个第一语义区域,根据所述Q个第一语义区域,对所述目标图像中相应的Q个区域不进行纹理添加;所述Q个第一语义区域中的每一个第一语义区域为所述目标图像中图像频率小于所述第一预设值的区域;Q为大于或者等于0的整数,M与Q的和为K。
13.根据权利要求10-12任意一项所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取第一图像集和第二图像集,所述第一图像集包括N张第一图像,所述第二图像集包括N张第二图像,所述N张第一图像与所述N张第二图像一一对应,所述N张第二图像中的每一张第二图像的分辨率大于所述N张第一图像中对应的每一张第一图像的分辨率;N为大于或者等于1的整数;
第二语义分割模块,用于按照所述预设的语义类别对所述N张第一图像进行第一语义分割,得到所述N张第一图像对应的N张第一语义分割图;所述N张第一语义分割图中的每一张第一语义分割图包括一个或多个第一语义区域;
频率解析模块,用于对所述N张第一图像以及所述N张第二图像进行频率解析,分别得到所述N张第一图像对应的N张第一频率图,以及所述N张第二图像对应的N张第二频率图;
第三语义分割模块,用于基于所述N张第一频率图和所述N张第二频率图,根据预设条件对所述N张第一图像进行第二语义分割,得到所述N张第一图像对应的N张第二语义分割图,所述N张第二语义分割图中的每一张第二语义分割图包括所述一个或多个第一语义区域和一个或多个第二语义区域。
14.根据权利要求13所述的装置,其特征在于,所述第三语义分割模块,具体用于包括:
将所述N张第一频率图和所述N张第二频率图一一对应进行比较,确定所述N张第一频率图中的第i张第一频率图和对应的所述N张第二频率图中的第i张第二频率图中图像频率的差异值大于第二预设值的一个或多个区域为所述一个或多个第二语义区域,所述一个或多个区域中的每一个区域为所述第i张第一频率图中图像频率小于所述第一预设值的区域;
根据所述一个或多个第二语义区域,对所述第i张第一频率图对应的第i张第一图像进行第二语义分割,得到所述第i张第一图像对应的第二语义分割图,所述第i张第一图像对应的第二语义分割图包括所述一个或多个第一语义区域和所述一个或多个第二语义区域;i为大于或者等于1,且小于或者等于N的整数。
15.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取第一训练样本集,所述第一训练样本集包括所述N张第一图像和所述N张第二语义分割图;
第一训练模块,用于以所述N张第一图像和所述N张第二语义分割图作为训练输入,以所述N张第二语义分割图为N个标签,训练得到所述语义分割网络。
16.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第四获取模块,用于获取第二训练样本集,所述第二训练样本集包括所述N张第一图像、所述N张第二语义分割图和所述N张第二图像;
第二训练模块,用于以所述N张第一图像、所述N张第二语义分割图和所述N张第二图像作为训练输入,以所述N张第二图像为N个标签,训练得到所述超分辨率网络。
17.根据权利要求16所述的装置,其特征在于,所述第二训练模块,具体用于:
将所述N张第一图像和所述N张第二语义分割图输入初始神经网络,基于所述N张第二语义分割图,对所述N张第一图像进行特征提取,并对特征提取后的所述N张第一图像进行上采样处理,得到所述N张第一图像对应的N张第三图像;
以所述N张第二图像为N个标签,基于所述N张第二语义分割图,对所述N张第三图像进行损失计算,修正所述初始神经网络中的一个或多个参数,得到所述超分辨率网络。
18.根据权利要求13所述的装置,其特征在于,所述目标图像、所述N张第一图像和所述N张第二图像为针对目标地理区域内的场景进行拍摄所得到的图像;所述语义分割网络为针对所述目标地理区域的语义分割网络,所述超分辨率网络为针对所述目标地理区域的超分辨率网络。
19.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1至9任意一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述权利要求1至9任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313277.5A CN113538227B (zh) | 2020-04-20 | 2020-04-20 | 一种基于语义分割的图像处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313277.5A CN113538227B (zh) | 2020-04-20 | 2020-04-20 | 一种基于语义分割的图像处理方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538227A CN113538227A (zh) | 2021-10-22 |
CN113538227B true CN113538227B (zh) | 2024-04-12 |
Family
ID=78093739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010313277.5A Active CN113538227B (zh) | 2020-04-20 | 2020-04-20 | 一种基于语义分割的图像处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538227B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116029951B (zh) * | 2022-05-27 | 2024-06-07 | 荣耀终端有限公司 | 图像处理方法与电子设备 |
CN115147628B (zh) * | 2022-09-06 | 2022-12-02 | 深圳市明源云科技有限公司 | 房屋图像数据的处理方法、装置、终端设备及介质 |
CN115601688B (zh) * | 2022-12-15 | 2023-02-21 | 中译文娱科技(青岛)有限公司 | 基于深度学习的视频主体内容检测方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335306A (zh) * | 2018-02-28 | 2018-07-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN109191392A (zh) * | 2018-08-09 | 2019-01-11 | 复旦大学 | 一种语义分割驱动的图像超分辨率重构方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10825219B2 (en) * | 2018-03-22 | 2020-11-03 | Northeastern University | Segmentation guided image generation with adversarial networks |
-
2020
- 2020-04-20 CN CN202010313277.5A patent/CN113538227B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335306A (zh) * | 2018-02-28 | 2018-07-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN109191392A (zh) * | 2018-08-09 | 2019-01-11 | 复旦大学 | 一种语义分割驱动的图像超分辨率重构方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113538227A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113538227B (zh) | 一种基于语义分割的图像处理方法及相关设备 | |
WO2021078001A1 (zh) | 一种图像增强方法及装置 | |
WO2021180046A1 (zh) | 图像留色方法及设备 | |
CN113099146A (zh) | 一种视频生成方法、装置及相关设备 | |
WO2023284715A1 (zh) | 一种物体重建方法以及相关设备 | |
WO2022156473A1 (zh) | 一种播放视频的方法及电子设备 | |
WO2024021742A9 (zh) | 一种注视点估计方法及相关设备 | |
US20240187725A1 (en) | Photographing method and electronic device | |
CN113536866A (zh) | 一种人物追踪显示方法和电子设备 | |
CN115242983A (zh) | 拍摄方法、电子设备、计算机程序产品及可读存储介质 | |
CN116916151B (zh) | 拍摄方法、电子设备和存储介质 | |
CN115115679A (zh) | 一种图像配准方法及相关设备 | |
CN114979457B (zh) | 一种图像处理方法及相关装置 | |
CN115760931A (zh) | 图像处理方法及电子设备 | |
CN116152123B (zh) | 图像处理方法、电子设备及可读存储介质 | |
CN115880350A (zh) | 图像处理方法、设备、***及计算机可读存储介质 | |
CN116453131B (zh) | 文档图像矫正方法、电子设备及存储介质 | |
CN116757963B (zh) | 图像处理方法、电子设备、芯片***及可读存储介质 | |
US20240046504A1 (en) | Image processing method and electronic device | |
CN114697525B (zh) | 一种确定跟踪目标的方法及电子设备 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
CN116363017B (zh) | 图像处理方法及装置 | |
WO2023072113A1 (zh) | 显示方法及电子设备 | |
WO2023231696A1 (zh) | 一种拍摄方法及相关设备 | |
WO2023280021A1 (zh) | 一种生成主题壁纸的方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |