CN113362343A - 一种适合运行在Android端的轻量化的图像语义分割算法 - Google Patents
一种适合运行在Android端的轻量化的图像语义分割算法 Download PDFInfo
- Publication number
- CN113362343A CN113362343A CN202110692929.5A CN202110692929A CN113362343A CN 113362343 A CN113362343 A CN 113362343A CN 202110692929 A CN202110692929 A CN 202110692929A CN 113362343 A CN113362343 A CN 113362343A
- Authority
- CN
- China
- Prior art keywords
- picture
- semantic segmentation
- network
- image
- mobile terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
Abstract
本文公开了一种适合于运行在Andro i d端的轻量化的语义分割算法。本文首先对Mob i l eNetV3网络进行改进,包括对其网络结构的调整和使用优化的激活函数L‑ReLU6,然后用改进后的Mob i l eNetV3替换经典的语义分割算法FCN中的下采样部分来进行图片的特征提取,以减少模型的运算和时间开销;采用双线性插值的方式替换FCN中的上采样部分,并将低级和高级特征进行add融合,解决图像特征丢失的问题。在此基础上,根据***的任务需求,将提出的轻量化语义分割模型运行在移动端进行图片分割任务,实现了在Andro i d移动端对图片进行预分割的抄表***。
Description
技术领域
本发明涉及深度学习模型优化以及图像语义分割领域,具体涉及的是使用深度学习框架搭建轻量化的适合于运行在Android端的轻量化的语义分割网络。
背景技术
随着深度学习算法和人工智能技术的高速发展,智能化的抄表***逐渐被开发出来,能够自动化的对图片中的表读数、二维码等目标区域的信息进行高效准确的提取,从而减少人工读取操作的成本。但智能抄表***也存在一些缺陷:移动端上传大尺寸图片会增加网络传输时间;服务端***保存大量的原尺寸图片会造成存储空间的压力;图片中信息要素过多,准确提取目标区域的信息需要大量样本对模型进行训练,增加了***运算时间。由于移动智能终端的普及,在移动端将采集到的图片根据实际需要把目标区域分割出来后再上传,服务端接收后便可直接将图片传入图片识别模型进行相关的信息提取操作,从而提高***的整体运行效率。手机移动端具有小巧便携、实时性高的特点,能够承载多样化的App。当前主流的手机移动端主要是 IOS***和Android***。Android***具有庞大的用户群体,能够为Android端的研发人员提供更多交流探讨的支撑空间。
在移动终端实现图片的预分割,可以采用相关的图片分割算法。一些传统的图像分割算法如阈值法、边缘检测以及区域法等,大部分的都是依据图片像素的一些较为低阶的视觉信息来处理图片,在一些复杂的工程分割任务上分割的效果不佳。2014年,FCN(Fully Convolutional Networks)语义分割神经网络的出现使得语义分割有了重大突破,图片分割效果相比于传统方法得到了大幅提升,端到端的训练方式为后续语义分割算法的发展奠定了基础。随后基于FCN又提出了很多优秀的网络,现在比较常见语义分割网络主要有基于编解码器的方法、基于空洞卷积的方法和基于特征融合的方法。目前这些基于FCN的语义分割模型虽然在图片分割准确率上得到了提升,但模型计算量和参数量也增加了,并不适合运行在计算存储能力受限的移动端。
基于以上的分析,本文将在经典的FCN语义分割算法上进行改进,提出面向移动端的轻量化的语义分割算法。
发明内容
本发明主要是提出了一种适合运行在Android端的轻量化的图像语义分割算法,并将此算法训练得到的模型运行到Android平台上,实现了在Android移动端对图片进行预分割的抄表***。本文提出的轻量化语义分割算法的网络结构主要分为两部分:一是用MobileNetV3提取图片特征,二是特征图上采样。
(1)用MobileNetV3提取图片特征:首先对MobileNetV3网络进行改进,使其能够适用于图片分割任务中进行图片特征提取。对 MobileNetV3的改进包括两方面:
a)调整MobileNetV3的网络结构。为了减少计算开销和内存占用,本文方法仅采用MobileNetV3的输出通道数为160之前的层,即网络的前16层,从而避免了因为通道数骤增而增加的计算资源。通过改变Bneck中的步长大小使得图片经过特征提取后输出的特征图尺寸为原图的1/16,相比于原来的1/32大小的特征图,能相对保留更多的图片特征。
b)使用优化的激活函数L-ReLU6。MobileNetV3的前7层使用优化的L-ReLU6激活函数,高层网络中使用的仍然是H-Swise激活函数, L-ReLU6激活函数能避免网络无法学习的情况发生,使网络获取更多的图片特征,使分割结果更加精确。本文提出的优化后的激活函数 L-ReLU6公式如下:
L-ReLU6(x)=min(6,max(αx,x)) (1)
将图片输入到模型中,进入网络结构已经调整的MobileNetV3部分进行图片特征提取,MobileNetV3提取图片特征部分的详细结构如附图2所示。主干部分主要有一个Cov2d和四个大的Bneck模块的结构,这四个大的Bneck模块能改变输入图片的尺寸,每个大的Bneck 模块会重复执行,Bneck1到Bneck4进行图片特征提取操作执行的次数n分别为2、2、5、6。输入的图片在经过Cov2d和Bneck1后变为原图的尺寸的1/2,经过Bneck2后变为原图的尺寸的1/4,经过Bneck3 后变为原图的尺寸的1/8,最后经过Bneck4后变为原图的尺寸的1/16,并需要保存1/2、1/4、1/8的特征图,在图片上采样中需要进行add 融合操作。Bneck3和Bneck4模块调整了MobileNetV3中第8、10、 14层的步长,使其保证最终输出特征图为原图的1/16。Bneck结构中的具体操作如附图3所示,图中的NL代表是激活函数,前三个操作模块中使用的是本文提出的L-ReLU6激活函数,后面两个操作模块中使用的H-Swise激活函数。
(2)特征图上采样:图片经过MobileNetV3提取特征后,需要将特征图上采样后才能得到分割图,特征图上采样部分的结构如附图4所示。本文提出采用双线性插值加深度可分离卷积的方式来进行特征图的上采样,深度可分离卷积最大的特点就是可以比较明显的降低网络的计算量和参数量,若以的3x3卷积核来计算,参数量能够少到九分之一左右,从而便能够在有限的资源下取得更短的运行时间;并在上采样的时候通过跳跃连接结构将图片大小为1/2,1/4,1/8的特征图和上采样过程中相应大小特征图进行add融合,有效融合低级和高级特征,能够解决图像特征信息丢失的问题。add操作的实质是将两个特征图相加,得到的结果图像的通道数是不变的。通道数没有增加,但是增加了add融合操作,每一维下的信息量都增加了,能让最终像素的分类的结果更加准确。
经过测试,本文设计的网络相比于经典的语义分割网络FCN,在模型体积以及模型的运行时间上均减少了大约10倍,在保持分割精度的同时极大的提升了分割模型的运行速度,适合于运行在内存资源受限的移动端。
本文将此轻量化的语义分割模型运行在移动端,并开发了相关功能模块,包括图片采集模块、模型调用模块、前后端通信模块等,实现了在Android移动端对图片进行预分割的抄表***。
附图说明
图1是本文设计的轻量化的语义分割模型的完整结构;
图2是本文设计的轻量化的语义分割模型中用MobileNetV3提取图片特征部分的详细结构图;
图3是Bneck结构中详细操作步骤图;
图4是本文设计的轻量化的语义分割模型中特征图上采样部分的详细结构图;
具体实施方法
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1、2、3,本发明实施例包括:
(a)将图1中的轻量化网络结构运行在安卓端,实现了在Android 移动端对图片进行预分割的抄表***。在***中调用分割模型,首先需要判定用户是否存在,如不存在需要注册后登录。进入***之后从任务列表中选择抄表任务,获取到目标表的图片后即可送入分割模型中进行分割。
(b)将图片输入到模型中,进入网络结构已经调整的MobileNetV3 部分进行图片特征提取,详细结构如图2所示。主干部分主要有一个 Cov2d和四个大的Bneck模块的结构,这四个大的Bneck模块能改变输入图片的尺寸,每个大的Bneck模块会重复执行,Bneck1到Bneck4 进行图片特征提取操作执行的次数n分别为2、2、5、6。输入的图片在经过几个Bneck块后变为原图的尺寸的1/16。另外需要保存1/2、 1/4、1/8的特征图,在图片上采样中需要进行add融合操作。Bneck3 和Bneck4模块调整了MobileNetV3中第8、10、14层的步长,使其保证最终输出特征图为原图的1/16。前三个操作模块中使用的是本文提出的L-ReLU6激活函数,后面两个操作模块中使用的H-Swise激活函数。
(c)经过图2中所示的结构提取图片特征后,会将特征图进行上采样以获得最终的分割图。上采样部分的详细结构如下图3所示,图片中的D-block模块是双线性插值法加深度可分离操作对特征图像进行2倍上采样。本文提出在特征图解码时,加入特征融合的部分,主要是将图片大小为1/2,1/4,1/8的特征图和解码器得到的相应大小特征图进行add融合,此操作的实质是将两个特征图相加,得到的结果图像的通道数是不变的,能有效地融合低层网络和高层网络的特征,使得分割结果更加准确。
(d)如果图片分割成功则可以上传到服务端,并将相关数据保存在本地数据库中。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于Android移动端的轻量化图像语义分割算法,其特征在于,包括:
步骤一:利用标注工具将原始图片进行标记,并将标记图和原始图片一起构成训练集;
步骤二:用改进的MobileNetV3提取图片特征,并采用双线性插值的方式进行特征图的上采样,构建轻量化的语义分割网络;
步骤三:加载训练集,训练构建的分割网络,得到训练后的模型;
步骤四:将需要分割的图片送入轻量化的分割网络中,加载训练好的模型,得到最终的分割结果;
2.根据权利要求1中所述的一种基于Android移动端的轻量化图像语义分割算法,其特征在于:步骤二中构建的轻量化的语义分割网络用改进后的MobileNetV3作为下采样部分进行图片的特征提取,对MobileNetV3网络的改进包括网络结构的调整和使用优化的激活函数L-ReLU6;采用双线性插值的方式进行图像的上采样,并将低级和高级特征进行add融合。
3.根据权利要求2中所述的一种基于Android移动端的轻量化图像语义分割算法,其特征在于:对MobileNetV3的的结构调整主要包括三部分,采用MobileNetV3的输出通道数为160之前的层,即网络的前16层;通过改变第8层、第10层和14层中Bneck的步长大小使得图片经过特征提取后输出的特征图尺寸为原图的1/16;前7层的激活函数均使用优化的L-ReLU6激活函数。
4.根据权利要求3中所述的一种基于Android移动端的轻量化图像语义分割算法,其特征在于:本文提出的优化后的激活函数L-ReLU6公式如下所示:
L-ReLU6(x)=min(6,max(αx,x))
5.根据权利要求2中所述的一种基于Android移动端的轻量化图像语义分割算法,其特征在于:采用双线性插值法加深度可分离操作对特征图像进行2倍上采样,并将图片大小为1/2,1/4,1/8的特征图和上采样过程中得到的相应大小特征图进行add融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692929.5A CN113362343A (zh) | 2021-06-22 | 2021-06-22 | 一种适合运行在Android端的轻量化的图像语义分割算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692929.5A CN113362343A (zh) | 2021-06-22 | 2021-06-22 | 一种适合运行在Android端的轻量化的图像语义分割算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113362343A true CN113362343A (zh) | 2021-09-07 |
Family
ID=77535665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110692929.5A Pending CN113362343A (zh) | 2021-06-22 | 2021-06-22 | 一种适合运行在Android端的轻量化的图像语义分割算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362343A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110692A (zh) * | 2019-05-17 | 2019-08-09 | 南京大学 | 一种基于轻量级全卷积神经网络的实时图像语义分割方法 |
US20200151497A1 (en) * | 2018-11-12 | 2020-05-14 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
CN112183360A (zh) * | 2020-09-29 | 2021-01-05 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN112634276A (zh) * | 2020-12-08 | 2021-04-09 | 西安理工大学 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
-
2021
- 2021-06-22 CN CN202110692929.5A patent/CN113362343A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200151497A1 (en) * | 2018-11-12 | 2020-05-14 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
CN110110692A (zh) * | 2019-05-17 | 2019-08-09 | 南京大学 | 一种基于轻量级全卷积神经网络的实时图像语义分割方法 |
CN112183360A (zh) * | 2020-09-29 | 2021-01-05 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN112634276A (zh) * | 2020-12-08 | 2021-04-09 | 西安理工大学 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
Non-Patent Citations (1)
Title |
---|
YONGJUN ZHANG 等: "Lightweight semantic segmentation algorithm based on MobileNetV3 network", 《2020 INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING, AUTOMATION AND SYSTEMS (ICICAS)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113780296A (zh) | 基于多尺度信息融合的遥感图像语义分割方法及*** | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN111797920B (zh) | 门控特征融合的深度网络不透水面遥感提取方法及*** | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN112085031A (zh) | 目标检测方法及*** | |
CN112580567A (zh) | 一种模型获取方法、模型获取装置及智能设备 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN116561879A (zh) | 基于bim的水利工程信息管理***及其方法 | |
CN115984603A (zh) | 基于gf-2与开放地图数据的城市绿地精细化分类方法与*** | |
CN115984574A (zh) | 一种基于循环Transformer的图像信息提取模型、方法及其应用 | |
CN113744185A (zh) | 一种基于深度学习和图像处理的混凝土表观裂缝分割方法 | |
CN113362343A (zh) | 一种适合运行在Android端的轻量化的图像语义分割算法 | |
CN112149496A (zh) | 一种基于卷积神经网络的实时道路场景分割方法 | |
CN112084815A (zh) | 一种基于摄像机焦距变换的目标检测方法、存储介质及处理器 | |
CN113223006B (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
CN114863094A (zh) | 基于双支路网络的工业图像感兴趣区域分割算法 | |
CN112991398B (zh) | 基于协同深度神经网络的运动边界指导的光流滤波方法 | |
CN115661097A (zh) | 一种物体表面缺陷检测方法及*** | |
CN113378598A (zh) | 一种基于深度学习的动态条码检测方法 | |
CN116680434B (zh) | 基于人工智能的图像检索方法、装置、设备及存储介质 | |
CN116612287B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN115546482B (zh) | 一种基于统计投影的室外点云语义分割方法 | |
CN116778534B (zh) | 图像处理方法、装置、设备和介质 | |
CN112651346A (zh) | 一种基于深度学习的流媒体视频识别与检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |