CN115471659A - 语义分割模型的训练方法、分割方法和电子设备 - Google Patents
语义分割模型的训练方法、分割方法和电子设备 Download PDFInfo
- Publication number
- CN115471659A CN115471659A CN202211160608.1A CN202211160608A CN115471659A CN 115471659 A CN115471659 A CN 115471659A CN 202211160608 A CN202211160608 A CN 202211160608A CN 115471659 A CN115471659 A CN 115471659A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- semantic segmentation
- inputting
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种语义分割模型的训练方法、分割方法和电子设备,该方法包括:获取多个图像样本、以及各图像样本对应的目标分割区域;将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图;根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域;再根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。这样可以结合深度学习训练得到图像处理模型,可以自动地从图像中分割出目标分割区域,从而提高了目标分割区域的分割效率。此外,结合深度学习训练得到图像处理模型分割目标分割区域,还可以提高分割结果的准确度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种语义分割模型的训练方法、分割方法和电子设备。
背景技术
随着档案的种类越来越多,档案数字化应运而生。所谓档案数字化,是指将纸质的档案转变为电子档案,通过电子档案实现档案的管理。
在将纸质的档案转变为电子档案时,通常采用扫描技术对纸质档案进行扫描,得到扫描图像。由于扫描时经常会扫描进不相关的背景,或者由于档案无法拆分使得扫描图像中包括相邻的页码,因此,还需要再采用人工方式对扫描图像进行分割,从扫描图像中分割出纸质档案的主体区域。
但是,采用现有人工方式进行图像分割,耗时较大,从而导致分割效率较低。
发明内容
本发明提供一种语义分割模型的训练方法、分割方法和电子设备,可以自动地从图像中分割出目标分割区域,从而提高了目标分割区域的分割效率。
本发明提供一种语义分割模型的训练方法,该语义分割模型的训练方法可以包括:
获取多个图像样本、以及各图像样本对应的目标分割区域。
将所述多个图像样本输入至初始语义分割模型中,得到所述各图像样本对应的预测类别概率图。
根据所述各图像样本对应的预测类别概率图,确定所述各图像样本对应的预测分割区域。
根据所述各图像样本对应的目标分割区域和预测分割区域,对所述初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
根据本发明提供的一种语义分割模型的训练方法,所述初始语义分割模型包括下采样网络、上采样网络以及映射网络,所述将所述多个图像样本输入至初始语义分割模型中,得到所述各图像样本对应的预测类别概率图,包括:
针对每个所述图像样本执行以下处理:
将所述图像样本输入至所述下采样网络中,得到所述图像样本对应的多个第一特征图;将所述多个第一特征图输入至所述上采样网络中,得到目标特征图;将所述图像样本和所述目标特征图输入至所述映射网络中,得到所述图像样本对应的预测类别概率图。
根据本发明提供的一种语义分割模型的训练方法,所述下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块,所述将所述图像样本输入至所述下采样网络中,得到所述图像样本对应的多个第一特征图,包括:
将所述图像样本输入至所述卷积模块中,得到所述卷积模块输出的第一特征图;将所述卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至所述非首个残差瓶颈模块,得到所述非首个残差瓶颈模块输出的第一特征图。
根据本发明提供的一种语义分割模型的训练方法,所述上采样网络包括多个依次串联的上采样模块,且所述卷积模块和所述多个残差瓶颈模块与多个上采样模块一一对应;其中,所述将所述多个第一特征图输入至所述上采样网络中,得到目标特征图,包括:
将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过所述首个上采样模块对所述尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到所述首个上采样模块输出的第二特征图;将除所述尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至所述残差瓶颈模块在所述上采样网络中对应的上采样模块中,通过所述上采样模块对所述残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将所述卷积模块输出的第一特征图输入至尾个上采样模块中,通过所述尾个上采样模块对所述卷积模块输出的第一特征图和所述次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到所述目标特征图。
根据本发明提供的一种语义分割模型的训练方法,所述根据所述各图像样本对应的预测类别概率图,确定所述各图像样本对应的预测分割区域,包括:
根据所述预测类别概率图中各像素对应的预测类别概率,生成对应的掩码图;根据所述掩码图中各像素对应的像素值,确定最大连通区域;其中,所述最大连通区域为所述预测分割区域。
根据本发明提供的一种语义分割模型的训练方法,所述根据所述各图像样本对应的目标分割区域和预测分割区域,对所述初始语义分割模型的模型参数进行更新,包括:
针对所述各图像样本,根据图像样本对应的目标分割区域和预测分割区域,构造所述图像样本对应的交叉熵损失;根据所述各图像样本对应的交叉熵损失,对所述初始语义分割模型的模型参数进行更新。
本发明还提供一种图像语义分割方法,该图像语义分割方法可以包括:
获取待处理图像。
将所述待处理图像输入至语义分割模型中,得到所述待处理图像对应的类别概率图;其中,所述语义分割模型为上述任一项所述的语义分割模型。
根据所述待处理图像对应的类别概率图,确定所述待处理图像对应的目标分割区域。
根据本发明提供的一种图像语义分割方法,所述语义分割模型包括下采样网络、上采样网络以及映射网络,所述将所述待处理图像输入至语义分割模型中,得到所述待处理图像对应的类别概率图,包括:
将所述待处理图像输入至所述下采样网络中,得到所述待处理图像对应的多个第一特征图;将所述多个第一特征图输入至所述上采样网络中,得到目标特征图;将所述待处理图像和所述目标特征图输入至所述映射网络中,得到所述待处理图像对应的类别概率图。
根据本发明提供的一种图像语义分割方法,所述下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块,所述将所述待处理图像输入至所述下采样网络中,得到所述待处理图像对应的多个第一特征图,包括:
将所述待处理图像输入至所述卷积模块中,得到所述卷积模块输出的第一特征图;将所述卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至所述非首个残差瓶颈模块,得到所述非首个残差瓶颈模块输出的第一特征图。
根据本发明提供的一种图像语义分割方法,所述上采样网络包括多个依次串联的上采样模块,且所述卷积模块和所述多个残差瓶颈模块与多个上采样模块一一对应;其中,所述将所述多个第一特征图输入至所述上采样网络中,得到目标特征图,包括:
将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过所述首个上采样模块对所述尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到所述首个上采样模块输出的第二特征图;将除所述尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至所述残差瓶颈模块在所述上采样网络中对应的上采样模块中,通过所述上采样模块对所述残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将所述卷积模块输出的第一特征图输入至尾个上采样模块中,通过所述尾个上采样模块对所述卷积模块输出的第一特征图和所述次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到所述目标特征图。
根据本发明提供的一种图像语义分割方法,所述根据所述待处理图像对应的类别概率图,确定所述待处理图像对应的目标分割区域,包括:
根据所述待处理图像对应的类别概率图中各像素对应的类别概率,生成对应的掩码图;根据所述掩码图中各像素对应的像素值,确定最大连通区域;其中,所述最大连通区域为所述目标分割区域。
本发明还提供一种语义分割模型的训练装置,该语义分割模型的训练装置可以包括:
第一获取单元,用于获取多个图像样本、以及各图像样本对应的目标分割区域。
第一处理单元,用于将所述多个图像样本输入至初始语义分割模型中,得到所述各图像样本对应的预测类别概率图。
第一确定单元,用于根据所述各图像样本对应的预测类别概率图,确定所述各图像样本对应的预测分割区域。
更新单元,用于根据所述各图像样本对应的目标分割区域和预测分割区域,对所述初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
根据本发明提供的一种语义分割模型的训练装置,所述初始语义分割模型包括下采样网络、上采样网络以及映射网络;所述第一处理单元,具体用于针对每个所述图像样本执行以下处理:
将所述图像样本输入至所述下采样网络中,得到所述图像样本对应的多个第一特征图;将所述多个第一特征图输入至所述上采样网络中,得到目标特征图;将所述图像样本和所述目标特征图输入至所述映射网络中,得到所述图像样本对应的预测类别概率图。
根据本发明提供的一种语义分割模型的训练装置,所述下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块。
所述第一处理单元,具体用于将所述图像样本输入至所述卷积模块中,得到所述卷积模块输出的第一特征图;将所述卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至所述非首个残差瓶颈模块,得到所述非首个残差瓶颈模块输出的第一特征图。
根据本发明提供的一种语义分割模型的训练装置,所述上采样网络包括多个依次串联的上采样模块,且所述卷积模块和所述多个残差瓶颈模块与多个上采样模块一一对应。
其中,所述第一处理单元,具体用于将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过所述首个上采样模块对所述尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到所述首个上采样模块输出的第二特征图;将除所述尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至所述残差瓶颈模块在所述上采样网络中对应的上采样模块中,通过所述上采样模块对所述残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将所述卷积模块输出的第一特征图输入至尾个上采样模块中,通过所述尾个上采样模块对所述卷积模块输出的第一特征图和所述次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到所述目标特征图。
根据本发明提供的一种语义分割模型的训练装置,所述第一确定单元,具体用于根据所述预测类别概率图中各像素对应的预测类别概率,生成对应的掩码图;根据所述掩码图中各像素对应的像素值,确定最大连通区域;其中,所述最大连通区域为所述预测分割区域。
根据本发明提供的一种语义分割模型的训练装置,所述更新单元,具体用于针对所述各图像样本,根据图像样本对应的目标分割区域和预测分割区域,构造所述图像样本对应的交叉熵损失;根据所述各图像样本对应的交叉熵损失,对所述初始语义分割模型的模型参数进行更新。
本发明还提供一种图像语义分割装置,该图像语义分割装置可以包括:
第二获取单元,用于获取待处理图像。
第二处理单元,用于将所述待处理图像输入至语义分割模型中,得到所述待处理图像对应的类别概率图;其中,所述语义分割模型为上述任一种所述的语义分割模型。
第二确定单元,用于根据所述待处理图像对应的类别概率图,确定所述待处理图像对应的目标分割区域。
根据本发明提供的一种图像语义分割装置,所述语义分割模型包括下采样网络、上采样网络以及映射网络。
所述第二处理单元,具体用于将所述待处理图像输入至所述下采样网络中,得到所述待处理图像对应的多个第一特征图;将所述多个第一特征图输入至所述上采样网络中,得到目标特征图;将所述待处理图像和所述目标特征图输入至所述映射网络中,得到所述待处理图像对应的类别概率图。
根据本发明提供的一种图像语义分割装置,所述下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块。
所述第二处理单元,具体用于将所述待处理图像输入至所述卷积模块中,得到所述卷积模块输出的第一特征图;将所述卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至所述非首个残差瓶颈模块,得到所述非首个残差瓶颈模块输出的第一特征图。
根据本发明提供的一种图像语义分割装置,所述上采样网络包括多个依次串联的上采样模块,且所述卷积模块和所述多个残差瓶颈模块与多个上采样模块一一对应。
其中,所述第二处理单元,具体用于将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过所述首个上采样模块对所述尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到所述首个上采样模块输出的第二特征图;将除所述尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至所述残差瓶颈模块在所述上采样网络中对应的上采样模块中,通过所述上采样模块对所述残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将所述卷积模块输出的第一特征图输入至尾个上采样模块中,通过所述尾个上采样模块对所述卷积模块输出的第一特征图和所述次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到所述目标特征图。
根据本发明提供的一种图像语义分割装置,所述第二确定单元,具体用于根据所述待处理图像对应的类别概率图中各像素对应的类别概率,生成对应的掩码图;根据所述掩码图中各像素对应的像素值,确定最大连通区域;其中,所述最大连通区域为所述目标分割区域。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的语义分割模型的训练方法,或者实现如上述任一种所述的语义分割方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的语义分割模型的训练方法,或者实现如上述任一种所述的语义分割方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的语义分割模型的训练方法,或者实现如上述任一种所述的语义分割方法。
本发明提供的语义分割模型的训练方法、分割方法和电子设备,通过获取多个图像样本、以及各图像样本对应的目标分割区域;将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图;根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域;再根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。这样可以结合深度学习训练得到图像处理模型,可以自动地从图像中分割出目标分割区域,从而提高了目标分割区域的分割效率。此外,结合深度学习训练得到图像处理模型分割目标分割区域,还可以提高分割结果的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语义分割模型的训练方法的流程示意图;
图2为本发明实施例提供的一种纠偏处理后的档案图像样本的示意图;
图3为本发明实施例提供的一种主体区域的示意图;
图4为本发明实施例提供的一种初始语义分割模型的结构示意图;
图5为本发明实施例提供的一种图像语义分割方法的流程示意图;
图6为本发明实施例提供的语义分割模型的训练装置的结构示意图;
图7为本发明实施例提供的图像语义分割装置的结构示意图;
图8为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本发明的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例提供的技术方案可以应用于图像分割场景中。以扫描图像的分割场景为例。在将纸质的档案转变为电子档案时,通常采用扫描技术对纸质档案进行扫描,得到扫描图像。由于扫描时经常会扫描进不相关的背景,或者由于档案无法拆分使得扫描图像中包括相邻的页码,因此,还需要再采用人工方式对扫描图像进行分割,从扫描图像中分割出纸质档案的主体区域。
但是,采用现有人工方式进行图像分割,耗时较大,从而导致分割效率较低。
为了提高分割效率,本发明实施例提供了一种语义分割模型的训练方法,通过获取多个图像样本、以及各图像样本对应的目标分割区域;将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图;根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域;再根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。这样可以结合深度学习训练得到图像处理模型,可以自动地从图像中分割出目标分割区域,从而提高了目标分割区域的分割效率。此外,结合深度学习训练得到图像处理模型分割目标分割区域,还可以提高分割结果的准确度。
下面,将通过下述几个具体的实施例对本发明提供的语义分割模型的训练方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的一种语义分割模型的训练方法的流程示意图,该语义分割模型的训练方法可以由软件和/或硬件装置执行。示例的,请参见图1所示,该语义分割模型的训练方法可以包括:
S101、获取多个图像样本、以及各图像样本对应的目标分割区域。
其中,目标分割区域可以理解为图像样本对应的标签。
示例地,在获取多个图像样本时,可以接收其他电子设备发送的多个图像样本,也可以从本地存储中获取多个图像样本,也可以从第三方数据库中获取多个图像样本等,从而获取到多个图像样本,具体可以根据实际需要进行设置。
示例地,假设多个图像样本为扫描的档案图像样本,在获取到档案图像样本时,考虑到在采用扫描仪对纸质档案进行扫描时,可能会因为操作不熟练、失误等原因,使得扫描得到的档案图像样本存在一定角度的倾斜,由于存在倾斜角的图像会影响后续初始语义分割模型的训练,因此,在本发明实施例中,需要进一步对扫描得到的档案图像样本进行纠偏处理,使得档案图像样本的主体区域处于水平线上,从而得到纠偏处理后的档案图像样本,示例地,可参见图2所示,图2为本发明实施例提供的一种纠偏处理后的档案图像样本的示意图,该纠偏处理后的档案图像样本可以用于后续的初始语义分割模型训练,这样不仅可以降低初始语义分割模型学习的复杂度,而且可以提升初始语义分割模型分割结果的准确度。
其中,图像纠偏是指利用Canny边缘检测算法,传统计算机视觉算法检测出档案图像样本中的倾斜角度,并基于倾斜角度对档案图像样本进行纠偏处理。
在获取到多个图像样本后,还可以将多个图像样本输入至初始语义分割模型中,即执行下述S102:
S102、将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图。
示例地,在本发明实施例中,初始语义分割模型包括下采样网络、上采样网络以及映射网络,将多个图像样本输入至初始语义分割模型中,针对每个图像样本执行以下处理:
将图像样本输入至下采样网络中,得到图像样本对应的多个第一特征图;将多个第一特征图输入至上采样网络中,得到目标特征图;将图像样本和目标特征图输入至映射网络中,得到图像样本对应的预测类别概率图。
示例地,在本发明实施例中,下采样网络可以包括一个卷积模块和多个依次串联的残差瓶颈模块,将图像样本输入至下采样网络中,得到图像样本对应的多个第一特征图时,可以将图像样本输入至卷积模块中,得到卷积模块输出的第一特征图;将卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至非首个残差瓶颈模块,得到非首个残差瓶颈模块输出的第一特征图。
示例地,在本发明实施例中,上采样网络包括多个依次串联的上采样模块,且卷积模块和多个残差瓶颈模块与多个上采样模块一一对应;将多个第一特征图输入至上采样网络中,得到目标特征图时,可以先将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过首个上采样模块对尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到首个上采样模块输出的第二特征图;将除尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至残差瓶颈模块在上采样网络中对应的上采样模块中,通过上采样模块对残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将卷积模块输出的第一特征图输入至尾个上采样模块中,通过尾个上采样模块对卷积模块输出的第一特征图和次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到目标特征图。
示例地,在本发明实施例中,在通过上采样网络得到图像样本对应的目标特征图后,可以将图像样本和通过上采样网络得到的目标特征图输入至映射网络中,通过映射网络对图像样本和目标特征图进行拼接融合处理,并对拼接融合处理结果按照预设的分割类别数进行卷积映射,并对卷积映射结果中的每个像素值进行概率变换,例如,可以采用Sigmoid函数对卷积映射结果中的每个像素值进行概率变换,得到图像样本对应的预测类别概率图。其中,预测类别概率图中像素对应的预测类别概率为[0,1]范围内的取值,预设的分割类别数可以根据实际需要进行设置,例如,若需要将图像样本分割为主体区域和其他区域,则对应的分割类别数可以为2;若需要将图像样本分割为主体区域、背景区域和其他区域,则对应的分割类别数可以为3。示例地,结合图2所示的图像样本,其对应的主体区域可参见图3所示,图3为本发明实施例提供的一种主体区域的示意图,其中,主体区域为标注出的区域。
可以理解的是,通常情况下,在通过下采样网络中的卷积模块和多个残差瓶颈模块进行下采样的过程中,随着下采样的不断深入,图像样本中的部分信息会随之丢失,使得后续执行上采样操作后,最终输出的预测类别概率图中仍然会丢失该部分信息。因此,在本发明实施例中,为了解决图像样本中的部分信息丢失的问题,可以将下采样网络中卷积模块和多个残差瓶颈模块输出的第一特征图融合到其对应的上采样网络中的上采样模块中,使得上采样模块可以将输入的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,这样可以有效地增加多尺度能力,在一定程度上解决了随着下采样的不断深入导致的图像样本中部分信息丢失的问题,使得最终输出的预测类别概率图中的图像信息比较完整,从而有效地提高了预测类别概率图的准确度。
示例地,在本发明实施例中,初始语义分割模型可以采用不同的网络架构,例如,可以采用ResNet-50网络架构,也可以采用ResNet-101网络架构、或者ResNet-152网络架构,或者ResNext-101网络架构、或者Res2Net-101等网络层次更深,复杂度更高的深度学习网络架构,具体可以根据实际需要进行设置。
以初始语义分割模型采用ResNet-50网络架构为例,示例地,可参见图4所示,图4为本发明实施例提供的一种初始语义分割模型的结构示意图,其中,下采样网络包括一个卷积模块和4个依次串联的残差瓶颈模块,可以先将图像样本输入至卷积模块中,得到卷积模块输出的第一特征图;将卷积模块输出的第一特征图输入至4个残差瓶颈模块中的首个残差瓶颈模块中,即第1个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;将首个残差瓶颈模块输出的第一特征图输入至第2个残差瓶颈模块中,得到第2个残差瓶颈模块输出的第一特征图;将第2个残差瓶颈模块输出的第一特征图输入至第3个残差瓶颈模块中,得到第3个残差瓶颈模块输出的第一特征图;将第3个残差瓶颈模块输出的第一特征图输入至第4个残差瓶颈模块中,得到第4个残差瓶颈模块输出的第一特征图,从而通过下采样网络输出多个第一特征。可以理解的是,在本发明实施例中,利用图4所示的下采样网络,通过不断缩小特征图尺度并增加特征图通道数的方式,可以获取图像从浅层到深层的语义信息,即可以获得不同层级深度以及相应尺度的第一特征图,这些第一特征图可以作为图像样本对应的编码特征。
结合上述图4所示,首个残差瓶颈模块是指下采样网络中的第一个残差瓶颈模块,即与卷积模块连接的残差瓶颈模块,其他非首个残差瓶颈模块是指下采样网络中除首个残差瓶颈模块之外的其他残差瓶颈模块,尾个残差瓶颈模块是指下采样网络中的最后一个残差瓶颈模块。
示例地,在本发明实施例中,首个残差瓶颈模块可以包括3个[1×1,64;3×3,64;1×1,256]的卷积单元,第2个残差瓶颈模块可以包括4个[1×1,128;3×3,128;1×1,512]的残卷积单元,第3个残差瓶颈模块可以包括6个[1×1,256;3×3,256;1×1,1024]的卷积单元,第4个残差瓶颈模块可以包括3个[1×1,512;3×3,512;1×1,2048]的卷积单元。其中,1×1和3×3表示卷积核大小,64,128,256,512,1024,2048均为卷积核个数。结合图4所示,自上而下从第1层到第5层表示语义分割模型中的下采样网络进行特征提取的过程,经过首个残差瓶颈模块、第2个残差瓶颈模块、第3个残差瓶颈模块以及第4个残差瓶颈模块得到第一特征图尺度逐步减小,且第一特征图通道数逐渐增加。
结合上述图4所示,上采样网络包括一个5个上采样模块,其中,上采样网络中的卷积模块对应5个上采样模块中的第5个上采样模块,即尾个上采样模块;上采样网络中的第1个残差瓶颈模块对应第4个上采样模块,即次尾个上采样模块;上采样网络中的第2个残差瓶颈模块对应第3个上采样模块;上采样网络中的第3个残差瓶颈模块对应第2个上采样模块;上采样网络中的第4个残差瓶颈模块对应第1个上采样模块,即首个上采样模块。在通过上采样网络进行上采样时,可以将第4个残差瓶颈模块输出的第一特征图,输入至第1个上采样模块,通过第1个上采样模块对第4个残差瓶颈模块输出的第一特征图进行反卷积处理,得到第1个上采样模块输出的第二特征图;将第3个残差瓶颈模块输出的第一特征图输入至第2个上采样模块中,通过第2个上采样模块对第3个残差瓶颈模块输出的第一特征图和第1个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到第2个上采样模块输出的第二特征图;将第2个残差瓶颈模块输出的第一特征图输入至第3个上采样模块中,通过第3个上采样模块对第2个残差瓶颈模块输出的第一特征图和第2个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到第3个上采样模块输出的第二特征图;将第1个残差瓶颈模块输出的第一特征图输入至第4个上采样模块中,通过第4个上采样模块对第1个残差瓶颈模块输出的第一特征图和第3个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到第4个上采样模块输出的第二特征图;将卷积模块输出的第一特征图输入至第5个上采样模块中,通过第5个上采样模块对卷积模块输出的第一特征图和第4个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到第5个上采样模块输出的第二特征图,即为得到目标特征图。
可以理解的是,在本发明实施例中,利用图4所示的上采样网络,可以对不同尺度的特征图进行多层的卷积处理以及反卷积处理,并对前一个上采样模块输出的第二特征图与之前下采样后同等分辨率的第一特征图进行拼接融合,最终获得经过不断拼接融合后的与输入的图像样本分辨率大小的目标特征图。可以看出,上采样网络执行上采样操作时,是根据获得的不同层级深度以及相应尺度的特征图进行自底向上的特征融合,对底层特征进行反卷积上采样操作,并和上一层尺度的多通道特征图进行拼接融合,再使用1×1的卷积模块减少输出通道数以便减少模型的参数量,以此方式逐层向上迭代处理,直到得到与输入的图像样本分辨率大小的目标特征图,在整个上采样过程中,通过上采样模块输出的第二特征图尺度逐步增加至输入的图像样本分辨率大小,且第二特征图通道数逐渐减少。
经过上述上采样网络和下采样网络,可以提升初始语义分割模型对图像中不同尺度大小的纹理细节的感知能力,可以更加平滑地分割图像的主体区域和其他区域。
结合上述图4所示,上述图4中卷积层Conv 7×7s/2表示卷积核尺寸为7×7,卷积之后的特征图的宽和高都变为输入的特征图的1/2,实现下采样功能。最大池化层Maxpooling 2×2表示采用池化核尺寸为2×2的最大值池化,池化之后的特征图的宽和高都变为输入的特征图的1/2,实现下采样功能。瓶颈层Bottleneck表示残差瓶颈操作,瓶颈层Bottleneck s/2表示残差瓶颈操作,并且通过步长为2的卷积将特征图的宽和高都变为输入的特征图的1/2。卷积层Conv 1×1表示卷积核尺寸为7×7,卷积之后的特征图的宽和高维持不变,通道数调整为需要的数量。上采样Upscalling表示使用反卷积操作,将反卷积之后的特征图的宽和高都变为输入的特征图的2倍,实现上采样功能。Conv 3×3表示卷积核尺寸为3×3,卷积之后的特征图的宽和高保持不变,通道数减小至指定数量。Copy表示将上采样网络之前在各层处理好的结果进行复制,并拼接至自底向上对应层的不断上采样得到的第二特征图中,从而完成多尺度特征融合,最终输出的目标特征图的参数c表示目标特征图中各像素可以识别的类别数。从整个网络的纵向架构来看,初始语义分割模型含有从第0层至第5层共6层,不同层中蕴含着例如ResNet-50等横向的深度网络结构。因此,无论从整个网络的纵向架构考虑还是从横向架构考虑,初始语义分割模型都具有深层网络结构,对语义特征的提取和解析重构均具有较强的能力。
上述详细描述了初始语义分割模型中的上采样网络和下采样网络,通过上采样网络可以得到图像样本对应的目标特征图,再将图像样本和目标特征图输入至初始语义分割模型中的映射网络中,通过映射网络对图像样本和目标特征图进行拼接融合处理,并对拼接融合处理结果按照预设的分割类别数进行卷积映射,并对卷积映射结果中的每个像素值进行概率变换,例如,可以采用Sigmoid函数对卷积映射结果中的每个像素值进行概率变换,得到图像样本对应的预测类别概率图。
S103、根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域。
示例地,根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域时,可以先根据预测类别概率图中各像素对应的预测类别概率,生成对应的掩码图;示例地,掩码图中像素对应的像素值为0或255;并根据掩码图中各像素对应的像素值,确定最大连通区域;其中,最大连通区域为预测分割区域。
示例地,根据预测类别概率图中各像素对应的预测类别概率,生成对应的掩码图时,可以先采用大津法计算预设的分割类别,例如主体区域和其他区域之间的阈值,并将预测类别概率图中各像素对应的预测类别概率与阈值进行比较,将大于等于阈值的预测类别概率对应的像素对应的像素值设置为255,将小于阈值的预测类别概率对应的像素对应的像素值设置为0,得到对应的掩码图;再确定掩码图中像素值为255的像素对应的最大连通域,该连通域为最终计算得到的图像样本对应的预测分割区域。
在分别获取到各图像样本对应的预测分割区域后,就可以执行下述S104:
S104、根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
示例地,根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新时,针对各图像样本,根据图像样本对应的目标分割区域和预测分割区域,构造图像样本对应的交叉熵损失;根据各图像样本对应的交叉熵损失,对初始语义分割模型的模型参数进行更新,直至更新后的语义分割模型收敛,并将收敛的语义分割模型确定为最终训练得到的语义分割模型。
示例地,根据各图像样本对应的交叉熵损失,对初始语义分割模型的模型参数进行更新时,可以根据各图像样本对应的交叉熵损失,计算多个交叉熵损失对应的平均值,并根据平均值对初始语义分割模型的模型参数进行更新。
可以看出,本发明实施例中,在语义分割模型训练时,通过获取多个图像样本、以及各图像样本对应的目标分割区域;将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图;根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域;再根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。这样可以结合深度学习训练得到图像处理模型,可以自动地从图像中分割出目标分割区域,从而提高了目标分割区域的分割效率。此外,结合深度学习训练得到图像处理模型分割目标分割区域,还可以提高分割结果的准确度。
上述图1所示的实施例详细地描述了在本发明实施例中,如何训练得到语义分割模型,下面,将通过下述图5所示的实施例,对语义分割模型的应用过程进行描述。
图5为本发明实施例提供的一种图像语义分割方法的流程示意图,该图像语义分割方法可以由软件和/或硬件装置执行。示例的,请参见图5所示,该图像语义分割方法可以包括:
S501、获取待处理图像。
示例地,在获取待处理图像时,可以接收其他电子设备发送的待处理图像,也可以从本地存储中获取待处理图像,也可以从第三方数据库中获取待处理图像等,从而获取到待处理图像,具体可以根据实际需要进行设置。
示例地,假设待处理图像为扫描的档案图像,在获取到档案图像样本时,考虑到在采用扫描仪对纸质档案进行扫描时,可能会因为操作不熟练、失误等原因,使得扫描得到的档案图像存在一定角度的倾斜,由于存在倾斜角的图像会影响后续初始语义分割模型的训练,因此,在本发明实施例中,需要进一步对扫描得到的档案图像进行纠偏处理,使得档案图像的主体区域处于水平线上,从而得到纠偏处理后的档案图像。
S502、将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图;其中,语义分割模型为上述实施例所示的语义分割模型。
示例地,语义分割模型包括下采样网络、上采样网络以及映射网络,将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图,包括:
将待处理图像输入至下采样网络中,得到待处理图像对应的多个第一特征图;将多个第一特征图输入至上采样网络中,得到目标特征图;将待处理图像和目标特征图输入至映射网络中,得到待处理图像对应的类别概率图。
示例地,在本发明实施例中,下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块,将待处理图像输入至下采样网络中,得到待处理图像对应的多个第一特征图,包括:
将待处理图像输入至卷积模块中,得到卷积模块输出的第一特征图;将卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至非首个残差瓶颈模块,得到非首个残差瓶颈模块输出的第一特征图。
示例地,在本发明实施例中,上采样网络包括多个依次串联的上采样模块,且卷积模块和多个残差瓶颈模块与多个上采样模块一一对应;其中,将多个第一特征图输入至上采样网络中,得到目标特征图,包括:
将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过首个上采样模块对尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到首个上采样模块输出的第二特征图;将除尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至残差瓶颈模块在上采样网络中对应的上采样模块中,通过上采样模块对残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将卷积模块输出的第一特征图输入至尾个上采样模块中,通过尾个上采样模块对卷积模块输出的第一特征图和次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到目标特征图。
示例地,将待处理图像和目标特征图输入至映射网络中,通过映射网络对待处理图像和目标特征图进行拼接融合处理,并对拼接融合处理结果按照预设的分割类别数进行卷积映射,并对卷积映射结果中的每个像素值进行概率变换,例如,可以采用Sigmoid函数对卷积映射结果中的每个像素值进行概率变换,得到待处理图像对应的预测类别概率图。
需要说明的是,在本发明实施例中,将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图的实现方法,与上述图1所示的实施例中,将图像样本输入至初始语义分割模型中,得到图像样本对应的预测类别概率图的实现方法类似,可参见上述将图像样本输入至初始语义分割模型中,得到图像样本对应的预测类别概率图的相关描述,在此,本发明实施例不做赘述。
S503、根据待处理图像对应的类别概率图,确定待处理图像对应的目标分割区域。
示例地,根据待处理图像对应的类别概率图,确定待处理图像对应的目标分割区域时,可以先根据待处理图像对应的类别概率图中各像素对应的类别概率,生成对应的掩码图;示例地,掩码图中像素对应的像素值为0或255;根据掩码图中各像素对应的像素值,确定最大连通区域;其中,最大连通区域为目标分割区域。
示例地,根据待处理图像对应的类别概率图中各像素对应的类别概率,生成对应的掩码图时,可以先采用大津法计算预设的分割类别,例如主体区域和其他区域之间的阈值,并将大于等于阈值的类别概率对应的像素对应的像素值设置为255,将小于阈值的类别概率对应的像素对应的像素值设置为0,得到对应的掩码图;再确定掩码图中像素值为255的像素对应的最大连通域,该连通域为最终计算得到的图像样本对应的目标分割区域。
可以看出,本发明实施例中,在进行图像语义分割时,可以先获取待处理图像;将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图;再根据待处理图像对应的类别概率图,确定待处理图像对应的目标分割区域。这样可以结合深度学习训练得到图像处理模型,可以自动地从图像中分割出目标分割区域,从而提高了目标分割区域的分割效率。此外,结合深度学习训练得到图像处理模型分割目标分割区域,还可以提高分割结果的准确度。
下面对本发明提供的语义分割模型的训练装置和图像语义分割装置进行描述,下文描述的语义分割模型的训练装置与上文描述的语义分割模型的训练方法可相互对应参照,图像语义分割装置与上文描述的图像语义分割方法可相互对应参照。
图6为本发明实施例提供的语义分割模型的训练装置的结构示意图,示例的,请参见图6所示,该语义分割模型的训练装置60可以包括:
第一获取单元601,用于获取多个图像样本、以及各图像样本对应的目标分割区域。
第一处理单元602,用于将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图。
第一确定单元603,用于根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域。
更新单元604,用于根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
可选地,初始语义分割模型包括下采样网络、上采样网络以及映射网络;第一处理单元602,具体用于针对每个图像样本执行以下处理:
将图像样本输入至下采样网络中,得到图像样本对应的多个第一特征图;将多个第一特征图输入至上采样网络中,得到目标特征图;将图像样本和目标特征图输入至映射网络中,得到图像样本对应的预测类别概率图。
可选地,下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块;第一处理单元602,具体用于将图像样本输入至卷积模块中,得到卷积模块输出的第一特征图;将卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至非首个残差瓶颈模块,得到非首个残差瓶颈模块输出的第一特征图。
可选地,上采样网络包括多个依次串联的上采样模块,且卷积模块和多个残差瓶颈模块与多个上采样模块一一对应。
其中,第一处理单元602,具体用于将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过首个上采样模块对尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到首个上采样模块输出的第二特征图;将除尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至残差瓶颈模块在上采样网络中对应的上采样模块中,通过上采样模块对残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将卷积模块输出的第一特征图输入至尾个上采样模块中,通过尾个上采样模块对卷积模块输出的第一特征图和次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到目标特征图。
可选地,第一确定单元603,具体用于根据预测类别概率图中各像素对应的预测类别概率,生成对应的掩码图;根据掩码图中各像素对应的像素值,确定最大连通区域;其中,最大连通区域为预测分割区域。
可选地,更新单元604,具体用于针对各图像样本,根据图像样本对应的目标分割区域和预测分割区域,构造图像样本对应的交叉熵损失;根据各图像样本对应的交叉熵损失,对初始语义分割模型的模型参数进行更新。
本发明实施例提供的语义分割模型的训练装置60,可以执行上述任一实施例中语义分割模型的训练方法的技术方案,其实现原理以及有益效果与语义分割模型的训练方法的实现原理及有益效果类似,可参见语义分割模型的训练方法的实现原理及有益效果,此处不再进行赘述。
图7为本发明实施例提供的图像语义分割装置的结构示意图,示例的,请参见图7所示,该图像语义分割装置70可以包括:
第二获取单元701,用于获取待处理图像。
第二处理单元702,用于将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图;其中,语义分割模型为上述实施例所示的语义分割模型。
第二确定单元703,用于根据待处理图像对应的类别概率图,确定待处理图像对应的目标分割区域。
可选地,语义分割模型包括下采样网络、上采样网络以及映射网络;第二处理单元702,具体用于将待处理图像输入至下采样网络中,得到待处理图像对应的多个第一特征图;将多个第一特征图输入至上采样网络中,得到目标特征图;将待处理图像和目标特征图输入至映射网络中,得到待处理图像对应的类别概率图。
可选地,下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块;第二处理单元702,具体用于将待处理图像输入至卷积模块中,得到卷积模块输出的第一特征图;将卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至非首个残差瓶颈模块,得到非首个残差瓶颈模块输出的第一特征图。
可选地,上采样网络包括多个依次串联的上采样模块,且卷积模块和多个残差瓶颈模块与多个上采样模块一一对应。
其中,第二处理单元702,具体用于将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过首个上采样模块对尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到首个上采样模块输出的第二特征图;将除尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至残差瓶颈模块在上采样网络中对应的上采样模块中,通过上采样模块对残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;将卷积模块输出的第一特征图输入至尾个上采样模块中,通过尾个上采样模块对卷积模块输出的第一特征图和次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到目标特征图。
可选地,第二确定单元703,具体用于根据待处理图像对应的类别概率图中各像素对应的类别概率,生成对应的掩码图;根据掩码图中各像素对应的像素值,确定最大连通区域;其中,最大连通区域为目标分割区域。
本发明实施例提供的图像语义分割装置70,可以执行上述任一实施例中图像语义分割方法的技术方案,其实现原理以及有益效果与图像语义分割方法的实现原理及有益效果类似,可参见图像语义分割方法的实现原理及有益效果,此处不再进行赘述。
图8为本发明实施例提供的一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(Processor)810、通信接口(Communications Interface)820、存储器(Memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行语义分割模型的训练方法或者语义分割方法。
其中,语义分割模型的训练方法包括:获取多个图像样本、以及各图像样本对应的目标分割区域;将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图;根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域;根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
图像语义分割方法包括:获取待处理图像;将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图;其中,语义分割模型为上述实施例所示的语义分割模型;根据待处理图像对应的类别概率图,确定待处理图像对应的目标分割区域。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语义分割模型的训练方法或者语义分割方法。
其中,语义分割模型的训练方法包括:获取多个图像样本、以及各图像样本对应的目标分割区域;将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图;根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域;根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
图像语义分割方法包括:获取待处理图像;将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图;其中,语义分割模型为上述实施例所示的语义分割模型;根据待处理图像对应的类别概率图,确定待处理图像对应的目标分割区域。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语义分割模型的训练方法或者语义分割方法。
其中,语义分割模型的训练方法包括:获取多个图像样本、以及各图像样本对应的目标分割区域;将多个图像样本输入至初始语义分割模型中,得到各图像样本对应的预测类别概率图;根据各图像样本对应的预测类别概率图,确定各图像样本对应的预测分割区域;根据各图像样本对应的目标分割区域和预测分割区域,对初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
图像语义分割方法包括:获取待处理图像;将待处理图像输入至语义分割模型中,得到待处理图像对应的类别概率图;其中,语义分割模型为上述实施例所示的语义分割模型;根据待处理图像对应的类别概率图,确定待处理图像对应的目标分割区域。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种语义分割模型的训练方法,其特征在于,包括:
获取多个图像样本、以及各图像样本对应的目标分割区域;
将所述多个图像样本输入至初始语义分割模型中,得到所述各图像样本对应的预测类别概率图;
根据所述各图像样本对应的预测类别概率图,确定所述各图像样本对应的预测分割区域;
根据所述各图像样本对应的目标分割区域和预测分割区域,对所述初始语义分割模型的模型参数进行更新,以得到训练后的语义分割模型。
2.根据权利要求1所述的语义分割模型的训练方法,其特征在于,所述初始语义分割模型包括下采样网络、上采样网络以及映射网络,所述将所述多个图像样本输入至初始语义分割模型中,得到所述各图像样本对应的预测类别概率图,包括:
针对每个所述图像样本执行以下处理:
将所述图像样本输入至所述下采样网络中,得到所述图像样本对应的多个第一特征图;
将所述多个第一特征图输入至所述上采样网络中,得到目标特征图;
将所述图像样本和所述目标特征图输入至所述映射网络中,得到所述图像样本对应的预测类别概率图。
3.根据权利要求2所述的语义分割模型的训练方法,其特征在于,所述下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块,所述将所述图像样本输入至所述下采样网络中,得到所述图像样本对应的多个第一特征图,包括:
将所述图像样本输入至所述卷积模块中,得到所述卷积模块输出的第一特征图;
将所述卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;
针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至所述非首个残差瓶颈模块,得到所述非首个残差瓶颈模块输出的第一特征图。
4.根据权利要求3所述的语义分割模型的训练方法,其特征在于,所述上采样网络包括多个依次串联的上采样模块,且所述卷积模块和所述多个残差瓶颈模块与多个上采样模块一一对应;
其中,所述将所述多个第一特征图输入至所述上采样网络中,得到目标特征图,包括:
将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过所述首个上采样模块对所述尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到所述首个上采样模块输出的第二特征图;
将除所述尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至所述残差瓶颈模块在所述上采样网络中对应的上采样模块中,通过所述上采样模块对所述残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;
将所述卷积模块输出的第一特征图输入至尾个上采样模块中,通过所述尾个上采样模块对所述卷积模块输出的第一特征图和所述次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到所述目标特征图。
5.根据权利要求1-4任一项所述的语义分割模型的训练方法,其特征在于,所述根据所述各图像样本对应的预测类别概率图,确定所述各图像样本对应的预测分割区域,包括:
根据所述预测类别概率图中各像素对应的预测类别概率,生成对应的掩码图;
根据所述掩码图中各像素对应的像素值,确定最大连通区域;其中,所述最大连通区域为所述预测分割区域。
6.一种图像语义分割方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像输入至语义分割模型中,得到所述待处理图像对应的类别概率图;其中,所述语义分割模型为上述权利要求1-5任一项所述的语义分割模型;
根据所述待处理图像对应的类别概率图,确定所述待处理图像对应的目标分割区域。
7.根据权利要求6所述的图像语义分割方法,其特征在于,所述语义分割模型包括下采样网络、上采样网络以及映射网络,所述将所述待处理图像输入至语义分割模型中,得到所述待处理图像对应的类别概率图,包括:
将所述待处理图像输入至所述下采样网络中,得到所述待处理图像对应的多个第一特征图;
将所述多个第一特征图输入至所述上采样网络中,得到目标特征图;
将所述待处理图像和所述目标特征图输入至所述映射网络中,得到所述待处理图像对应的类别概率图。
8.根据权利要求7所述的图像语义分割方法,其特征在于,所述下采样网络包括一个卷积模块和多个依次串联的残差瓶颈模块,所述将所述待处理图像输入至所述下采样网络中,得到所述待处理图像对应的多个第一特征图,包括:
将所述待处理图像输入至所述卷积模块中,得到所述卷积模块输出的第一特征图;
将所述卷积模块输出的第一特征图输入至首个残差瓶颈模块中,得到首个残差瓶颈模块输出的第一特征图;
针对非首个残差瓶颈模块,将前一个残差瓶颈模块输出的第一特征图输入至所述非首个残差瓶颈模块,得到所述非首个残差瓶颈模块输出的第一特征图。
9.根据权利要求8所述的图像语义分割方法,其特征在于,所述上采样网络包括多个依次串联的上采样模块,且所述卷积模块和所述多个残差瓶颈模块与多个上采样模块一一对应;
其中,所述将所述多个第一特征图输入至所述上采样网络中,得到目标特征图,包括:
将尾个残差瓶颈模块输出的第一特征图,输入至首个上采样模块中,通过所述首个上采样模块对所述尾个残差瓶颈模块输出的第一特征图进行反卷积处理,得到所述首个上采样模块输出的第二特征图;
将除所述尾个残差瓶颈模块之外的其他残差瓶颈模块输出的第一特征图分别输入至所述残差瓶颈模块在所述上采样网络中对应的上采样模块中,通过所述上采样模块对所述残差瓶颈模块输出的第一特征图和前一个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到次尾个上采样模块输出的第二特征图;
将所述卷积模块输出的第一特征图输入至尾个上采样模块中,通过所述尾个上采样模块对所述卷积模块输出的第一特征图和所述次尾个上采样模块输出的第二特征图进行拼接融合处理,并对拼接融合结果依次进行卷积处理及反卷积处理,得到所述目标特征图。
10.根据权利要求6-9任一项所述的图像语义分割方法,其特征在于,所述根据所述待处理图像对应的类别概率图,确定所述待处理图像对应的目标分割区域,包括:
根据所述待处理图像对应的类别概率图中各像素对应的类别概率,生成对应的掩码图;
根据所述掩码图中各像素对应的像素值,确定最大连通区域;其中,所述最大连通区域为所述目标分割区域。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的语义分割模型的训练方法,或者实现如权利要求6至10任一项所述的语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211160608.1A CN115471659B (zh) | 2022-09-22 | 2022-09-22 | 语义分割模型的训练方法、分割方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211160608.1A CN115471659B (zh) | 2022-09-22 | 2022-09-22 | 语义分割模型的训练方法、分割方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115471659A true CN115471659A (zh) | 2022-12-13 |
CN115471659B CN115471659B (zh) | 2023-04-25 |
Family
ID=84335161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211160608.1A Active CN115471659B (zh) | 2022-09-22 | 2022-09-22 | 语义分割模型的训练方法、分割方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115471659B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218502A1 (en) * | 2017-01-27 | 2018-08-02 | Arterys Inc. | Automated segmentation utilizing fully convolutional networks |
CN109886971A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像分割方法及*** |
CN113688836A (zh) * | 2021-09-28 | 2021-11-23 | 四川大学 | 一种基于深度学习的实时性道路图像语义分割方法及*** |
-
2022
- 2022-09-22 CN CN202211160608.1A patent/CN115471659B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218502A1 (en) * | 2017-01-27 | 2018-08-02 | Arterys Inc. | Automated segmentation utilizing fully convolutional networks |
CN109886971A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像分割方法及*** |
CN113688836A (zh) * | 2021-09-28 | 2021-11-23 | 四川大学 | 一种基于深度学习的实时性道路图像语义分割方法及*** |
Non-Patent Citations (2)
Title |
---|
LONG J ET AL: "Fully convolutional networks for semantic segmentation" * |
刘卫铭 等: "结合跳跃连接的残差网络图像语义分割" * |
Also Published As
Publication number | Publication date |
---|---|
CN115471659B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798132B2 (en) | Image inpainting method and apparatus, computer device, and storage medium | |
CN111902825A (zh) | 多边形对象标注***和方法以及训练对象标注***的方法 | |
CN110705583A (zh) | 细胞检测模型训练方法、装置、计算机设备及存储介质 | |
CN109740515B (zh) | 一种评阅方法及装置 | |
CN109635714B (zh) | 文档扫描图像的矫正方法及装置 | |
CN114529837A (zh) | 建筑物轮廓提取方法、***、计算机设备及存储介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN110852980A (zh) | 交互式图像填充方法及***、服务器、设备及介质 | |
US20210056429A1 (en) | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks | |
CN115147862A (zh) | 底栖动物自动识别方法、***、电子设备和可读存储介质 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
CN111626379A (zh) | 肺炎x光图像检测方法 | |
CN114463335A (zh) | 弱监督语义分割方法、装置、电子设备及存储介质 | |
CN116563303B (zh) | 一种场景可泛化的交互式辐射场分割方法 | |
CN111383207A (zh) | 一种肌骨超声图像处理方法、***、装置及可读存储介质 | |
CN111985471A (zh) | 一种车牌定位方法、装置及存储介质 | |
CN115471659A (zh) | 语义分割模型的训练方法、分割方法和电子设备 | |
CN116342385A (zh) | 文本图像超分辨率网络的训练方法、装置以及存储介质 | |
CN107292840B (zh) | 图像复原方法及装置、计算机可读存储介质、终端 | |
CN113793264B (zh) | 一种基于卷积模型的档案图像处理方法、***和电子设备 | |
EP4390864A1 (en) | Image processing method and related apparatus | |
CN114708471B (zh) | 跨模态图像生成方法、装置、电子设备与存储介质 | |
CN113989511B (zh) | 图像语义分割方法、装置、电子设备和存储介质 | |
CN113761961B (zh) | 一种二维码识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |