CN111881768A - 一种文档版面分析方法 - Google Patents
一种文档版面分析方法 Download PDFInfo
- Publication number
- CN111881768A CN111881768A CN202010637093.4A CN202010637093A CN111881768A CN 111881768 A CN111881768 A CN 111881768A CN 202010637093 A CN202010637093 A CN 202010637093A CN 111881768 A CN111881768 A CN 111881768A
- Authority
- CN
- China
- Prior art keywords
- features
- resolution
- image
- layer
- layout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种文档版面分析方法,该方法包括将输入的版面图像缩放成3种尺度的图像;将各个尺度的图像进行特征的提取和融合;将融合后的图像特征送入分割网络主干进行语义信息特征的提取;将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合;根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,同时,将输出的特征图像恢复到预先指定的分辨率,完成文档版面分析。采用了本发明的技术方案,能够融合多尺度输入图像,增加分割网络对不同尺度输入图像的适应能力,降低输入图像缩放操作对模型的影响,针对版面元素不同属性增加不同分割网络分支,降低不同版面元素的相互影响。
Description
技术领域
本发明涉及光学字符识别技术领域,尤其涉及一种文档版面分析方法。
背景技术
版面分析是光学字符识别(OCR)***的基本步骤之一,是对文档版面中的图像、文本、表格特征和位置关系进行分析、识别和理解的过程。版面分析结果的优劣会直接影响到OCR后续模块的性能,随着深度学习的发展,基于深度学习的文档版面分析***逐渐成为主流方法。
由于图像语义分割技术具有像素级别的识别和定位能力,非常适用于文档版面分析任务。众所周知,文字是一种稀疏的非刚体结构,其尺度变化大、结构复杂、种类繁多、含有极为丰富的语义信息。因此,相比于通用物体的图像处理过程,文档版面对图像的缩放操作更加敏感,如果操作不当很容易导致文字严重变形、模糊,甚至丢失其所包含的语义信息。这些原因导致基于语义分割的文档版面分析方法需要输入图像和输出特征图都具有较高的分辨率,才能保证有较高的精确度。但是,高分辨率的文档图像版面分析不仅会增加深度神经网络模型的复杂度,而且也会增加其计算负荷和显存需求。
另一方面,文档版面的结构非常复杂,大多数文档都存在不同版面元素互相嵌套、交叉重叠的现象。如复杂图像作为文字等的页面背景,表格中含有图像,手写字体与打印字体混杂,以及页面中存在深色水印、***和文字类图标等。然而,通常文本数据的标注方式大都沿袭通用目标检测的标注方法,使用矩形框的大区域块状标注。这种标注方法虽然简便、成本低,但不适合于应用于图像语义分割的数据标注,会降低模型训练的精度。通用的使用多边形标注语义分割数据的方式会严重增加标注成本,而且一个像素还是只能匹配一个标签,并不解决版面元素交叉重叠的问题,这些现象最终都会导致版面元素相互影响,精度低、分割版面杂乱细碎且不规则。
发明内容
为克服相关技术中存在的问题,本发明实施例提供一种文档版面分析方法,能够融合多尺度的输入图像,增加分割网络对不同尺度输入图像的适应能力,降低输入图像缩放操作对模型的影响,针对版面元素的不同属性增加不同的分割网络分支,降低不同版面元素的相互影响。
本发明实施例提供一种文档版面分析方法,包括以下步骤:
将输入的版面图像缩放成3种尺度的图像;
将各个尺度的图像进行特征的提取和融合;
将融合后的图像特征送入分割网络主干进行语义信息特征的提取;
将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合;
根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,同时,将输出的特征图像恢复到预先指定的分辨率,完成文档版面分析。
所述将输入的版面图像缩放成3种尺度的图像,进一步包括以下步骤:
将输入的版面图像进行2倍和0.5倍的缩放操作,获得3种尺度的图像。
所述将多尺度的文本图像进行特征的提取和融合,进一步包括以下步骤:
将所述2倍尺度的版面图像经过输出特征通道数为16、步长为2的3×3的卷积层进行下采样;
与所述原尺度的版面图像的输出特征通道数为32、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第一次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样;
与所述0.5倍尺度的版面图像的输出特征通道数为16、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第二次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样。
进一步地,所述融合后的图像特征送入分割网络主干时分辨率是所述原尺度的版面图像分辨率的1/4,输出特征通道数为64。
进一步地,所述分割网络主干是残差网络,在残差网络的顶端使用密集空洞金字塔池化模块进行多尺度的版面图像的卷积特征的提取,提取后输出特征通道数为256,分辨率为所述原尺度的版面图像分辨率的1/32。
所述将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合,进一步包括以下步骤:
将高语义信息的高层低分辨率特征进行8倍的双线性插值上采样,同时低层高分辨率特征经过一个输出特征通道数为32、步长为1的1×1卷积层进行特征平滑和通道降维;
再与具有丰富空间细节信息的低层高分辨率特征进行融合中,使用特征向量拼接方式和1个3×3卷积层对经过上采样的高层特征和低层特征进行融合,融合后输出特征通道数为320,分辨率为所述原尺度的版面图像分辨率的1/4;
然后分别使用3个输出特征通道数为64、步长为1的3×3或5×5卷积层作为3个不同的分割网络分支的头部来提取属于不同对象属性的特征;
接着,采样双线性插值将特征的分辨率上采样到所述预先指定的分辨率;
最后,使用1个输出特征通道数为64、步长为1的3×3卷积层和1个通道数为所述分割网络分支的分割识别类别数、步长为1的1×1卷积层作为分割网络的顶部识别结构。
进一步地,全部卷积层后都接正则化BN层,激活函数ReLU层。
进一步地,所述高层特征进行上采样后,与所述低层特征具有相同的分辨率。
进一步地,所述分割网络分支使用1个卷积层进行特征提取和通道降维,使用双线性插值上采样到预先指定的分辨率,使用1个3×3卷积层和1×1卷积层作为分割网络的顶部识别结构。
进一步地,三个分割网络分支的分割识别类别数为2。
本发明的实施例提供的技术方案具有以下有益效果:由于融合了多种尺度的输入图像,增加了分割网络对不同尺度输入图像的适应能力,降低了输入图像缩放操作对模型的影响;另外针对版面元素的不同属性,增加了不同的分割网络分支,降低了不同元素的相互影响,更便于交叉重叠元素的分割,使网络具有识别多类别标签元素的能力;同时,也更利于分割结果的后处理。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例中文档版面分析的流程图。
图2是本发明实施例中图像进行特征的提取和融合的流程图。
图3是本发明实施例中高层特征与低层特征进行融合的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置及相关应用、方法的例子。
本发明的技术方案是为了解决复杂文档版面对图像缩放十分敏感,需要较高分辨率的输入图像和输出特征来保留更多的细节信息,同时,版面数据的标注方式导致不同版面元素互相干扰严重,分割版面杂乱细碎这一问题,而提出的针对多尺度输入图像的多任务版面分割网络MLSNet。
图1是本发明实施例中文档版面分析的流程图。如图1所示,该文档版面分析流程包括以下步骤:
步骤10、首先将同一张输入的版面图像缩放成3种尺度的图像。
具体来说,本步骤是先指定一个输入版面图像和输出特征图像的大小,然后对输入版面图像再分别进行一次2倍和0.5倍的缩放操作。例如输入RGB图像有1536*2048,768*1024,384*512等3种尺度大小,输出特征图像的大小为1024*1536。
步骤11、并将各个尺度的图像进行特征的提取和融合。
如图2所示,本步骤进一步包括步骤:
步骤111、首先将输入的1536*2048尺度的版面图像经过输出特征通道数为16、步长为2(stride=2)的3×3的卷积层进行下采样。
步骤112、再与输入的768*1024尺度的版面图像的输出特征通道数为32、步长为1(stride=1)的3×3卷积特征进行特征向量拼接。
步骤113、接着使用1个输出特征通道数为64、步长为1(stride=1)的3×3卷积层进行第一次特征融合。
步骤114、再使用1个输出特征通道数为64、步长为2(stride=2)的3×3卷积层进行下采样。
步骤115、然后与输入的384*512尺度的版面图像的输出特征通道数为16、步长为1(stride=1)的3×3卷积特征进行特征向量拼接。
步骤116、最后使用1个输出特征通道数为64、步长为1(stride=1)的3×3卷积层进行第二次特征融合。
步骤117、并使用1个输出特征通道数为64、步长为2(stride=2)的3×3卷积层进行下采样。
经过上述特征的提取和融合,图像特征送入分割网络主干时分辨率是原尺度的版面图像分辨率(768*1024)的1/4,输出特征通道数为64,具有较高的分辨率。
步骤12、然后将融合后的图像特征送入分割网络主干进行语义信息的提取。
本实施例中分割网络主干是残差网络(resnet-50),同时在残差网络的顶端使用密集空洞金字塔池化模块(DenseASPP)进行多尺度的版面图像的卷积特征的提取,提取后输出特征通道数为256,分辨率为原尺度的版面图像分辨率(768*1024)的1/32。
步骤13、接着将具有高语义信息的高层特征进行上采样,高层特征进行上采样后,与低层特征具有相同的分辨率,再使用特征向量拼接方式和1个3×3卷积层对经过上采样的高层特征与具有丰富空间细节信息的低层特征进行融合。
如图3所示,该融合流程包括以下步骤:
步骤131、将高语义信息的高层低分辨率特征进行8倍的双线性插值上采样,同时低层高分辨率特征经过一个输出特征通道数为32、步长为1(stride=1)的1×1卷积层进行特征平滑和通道降维。
步骤132、再与具有丰富空间细节信息的低层高分辨率特征进行融合中,使用特征向量拼接方式和1个3×3卷积层对经过上采样的高层特征和低层特征进行融合,融合后输出特征通道数为320,分辨率为原尺度的版面图像分辨率(768*1024)的1/4。
步骤133、然后分别使用3个输出特征通道数为64、步长为1(stride=1)的3×3或5×5卷积层作为3个不同的分割网络分支的头部来提取属于不同对象属性的特征。
步骤134、接着,采样双线性插值将特征的分辨率上采样到预先指定的分辨率(1024*1536)。
步骤135、最后,使用1个输出特征通道数为64、步长为1(stride=1)的3×3卷积层和1个通道数为分割网络分支的分割识别类别数、步长为1
(stride=1)的1×1卷积层作为分割网络的顶部识别结构。
全部卷积层后都接正则化BN层,激活函数ReLU层。
步骤14、最后根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,在这个过程中将输出的特征图像恢复到预先指定的分辨率(1024*1536),完成文档版面分析。
为了降低显存的消耗,每个分割网络分支使用1个卷积层进行特征提取和通道降维,再使用双线性插值上采样到预先指定的分辨率(1024*1536),使用1个3×3卷积层和1×1卷积层作为分割网络的顶部结构。由于标注数据类别的限制,三个分割网络分支的分割识别类别数为2(C1=C2=C3=2)。
采用了上述发明的实施例,由于融合了多种尺度的输入图像,增加了分割网络对不同尺度输入图像的适应能力,降低了输入图像缩放操作对模型的影响;另外针对版面元素的不同属性,增加了不同的分割网络分支,降低了不同元素的相互影响,更便于交叉重叠元素的分割,使网络具有识别多类别标签元素的能力;同时,也更利于分割结果的后处理。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文档版面分析方法,其特征在于,包括以下步骤:
将输入的版面图像缩放成3种尺度的图像;
将各个尺度的图像进行特征的提取和融合;
将融合后的图像特征送入分割网络主干进行语义信息特征的提取;
将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合;
根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,同时,将输出的特征图像恢复到预先指定的分辨率,完成文档版面分析。
2.根据权利要求1所述的文档版面分析方法,其特征在于,所述将输入的版面图像缩放成3种尺度的图像,进一步包括以下步骤:
将输入的版面图像进行2倍和0.5倍的缩放操作,获得3种尺度的图像。
3.根据权利要求2所述的文档版面分析方法,其特征在于,所述将多尺度的文本图像进行特征的提取和融合,进一步包括以下步骤:
将所述2倍尺度的版面图像经过输出特征通道数为16、步长为2的3×3的卷积层进行下采样;
与所述原尺度的版面图像的输出特征通道数为32、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第一次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样;
与所述0.5倍尺度的版面图像的输出特征通道数为16、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第二次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样。
4.根据权利要求3所述的文档版面分析方法,其特征在于,所述融合后的图像特征送入分割网络主干时分辨率是所述原尺度的版面图像分辨率的1/4,输出特征通道数为64。
5.根据权利要求1-4中任一权利要求所述的文档版面分析方法,其特征在于,所述分割网络主干是残差网络,在残差网络的顶端使用密集空洞金字塔池化模块进行多尺度的版面图像的卷积特征的提取,提取后输出特征通道数为256,分辨率为所述原尺度的版面图像分辨率的1/32。
6.根据权利要求1所述的文档版面分析方法,其特征在于,所述将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合,进一步包括以下步骤:
将高语义信息的高层低分辨率特征进行8倍的双线性插值上采样,同时低层高分辨率特征经过一个输出特征通道数为32、步长为1的1×1卷积层进行特征平滑和通道降维;
再与具有丰富空间细节信息的低层高分辨率特征进行融合中,使用特征向量拼接方式和1个3×3卷积层对经过上采样的高层特征和低层特征进行融合,融合后输出特征通道数为320,分辨率为所述原尺度的版面图像分辨率的1/4;
然后分别使用3个输出特征通道数为64、步长为1的3×3或5×5卷积层作为3个不同的分割网络分支的头部来提取属于不同对象属性的特征;
接着,采样双线性插值将特征的分辨率上采样到所述预先指定的分辨率;
最后,使用1个输出特征通道数为64、步长为1的3×3卷积层和1个通道数为所述分割网络分支的分割识别类别数、步长为1的1×1卷积层作为分割网络的顶部识别结构。
7.根据权利要求6所述的文档版面分析方法,其特征在于,全部卷积层后都接正则化BN层,激活函数ReLU层。
8.根据权利要求6所述的文档版面分析方法,其特征在于,所述高层特征进行上采样后,与所述低层特征具有相同的分辨率。
9.根据权利要求1所述的文档版面分析方法,其特征在于,所述分割网络分支使用1个卷积层进行特征提取和通道降维,使用双线性插值上采样到预先指定的分辨率,使用1个3×3卷积层和1×1卷积层作为分割网络的顶部识别结构。
10.根据权利要求1所述的文档版面分析方法,其特征在于,三个分割网络分支的分割识别类别数为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010637093.4A CN111881768A (zh) | 2020-07-03 | 2020-07-03 | 一种文档版面分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010637093.4A CN111881768A (zh) | 2020-07-03 | 2020-07-03 | 一种文档版面分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881768A true CN111881768A (zh) | 2020-11-03 |
Family
ID=73151736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010637093.4A Pending CN111881768A (zh) | 2020-07-03 | 2020-07-03 | 一种文档版面分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881768A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966691A (zh) * | 2021-04-14 | 2021-06-15 | 重庆邮电大学 | 基于语义分割的多尺度文本检测方法、装置及电子设备 |
CN113361247A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN113420669A (zh) * | 2021-06-24 | 2021-09-21 | 武汉工程大学 | 基于多尺度训练和级联检测的文档版面分析方法和*** |
CN115294412A (zh) * | 2022-10-10 | 2022-11-04 | 临沂大学 | 基于深度学习的实时煤岩分割网络生成方法 |
CN116129456A (zh) * | 2023-02-09 | 2023-05-16 | 广西壮族自治区自然资源遥感院 | 一种产权权属信息识别录入方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100183225A1 (en) * | 2009-01-09 | 2010-07-22 | Rochester Institute Of Technology | Methods for adaptive and progressive gradient-based multi-resolution color image segmentation and systems thereof |
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、***、装置和存储介质 |
CN110837811A (zh) * | 2019-11-12 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN110895695A (zh) * | 2019-07-31 | 2020-03-20 | 上海海事大学 | 用于文本图片字符切分的深度学习网络、切分方法 |
-
2020
- 2020-07-03 CN CN202010637093.4A patent/CN111881768A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100183225A1 (en) * | 2009-01-09 | 2010-07-22 | Rochester Institute Of Technology | Methods for adaptive and progressive gradient-based multi-resolution color image segmentation and systems thereof |
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、***、装置和存储介质 |
CN110895695A (zh) * | 2019-07-31 | 2020-03-20 | 上海海事大学 | 用于文本图片字符切分的深度学习网络、切分方法 |
CN110837811A (zh) * | 2019-11-12 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
周雯;史天运;李平;马小宁;: "基于深度学习的动车组运行安全图像异物检测", 交通信息与安全, no. 06, 28 December 2019 (2019-12-28) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966691A (zh) * | 2021-04-14 | 2021-06-15 | 重庆邮电大学 | 基于语义分割的多尺度文本检测方法、装置及电子设备 |
CN113361247A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN113420669A (zh) * | 2021-06-24 | 2021-09-21 | 武汉工程大学 | 基于多尺度训练和级联检测的文档版面分析方法和*** |
CN113420669B (zh) * | 2021-06-24 | 2022-05-10 | 武汉工程大学 | 基于多尺度训练和级联检测的文档版面分析方法和*** |
CN115294412A (zh) * | 2022-10-10 | 2022-11-04 | 临沂大学 | 基于深度学习的实时煤岩分割网络生成方法 |
CN116129456A (zh) * | 2023-02-09 | 2023-05-16 | 广西壮族自治区自然资源遥感院 | 一种产权权属信息识别录入方法及*** |
CN116129456B (zh) * | 2023-02-09 | 2023-07-25 | 广西壮族自治区自然资源遥感院 | 一种产权权属信息识别录入方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881768A (zh) | 一种文档版面分析方法 | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN108520247B (zh) | 对图像中的对象节点的识别方法、装置、终端及可读介质 | |
US8634644B2 (en) | System and method for identifying pictures in documents | |
CN110555433B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN111080660A (zh) | 一种图像分割方法、装置、终端设备及存储介质 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN112041851A (zh) | 一种识别文本的方法及终端设备 | |
CN112861539B (zh) | 嵌套命名实体识别方法、装置、电子设备和存储介质 | |
CN113569865A (zh) | 一种基于类别原型学习的单样本图像分割方法 | |
CN113674146A (zh) | 图像超分辨率 | |
CN110569839A (zh) | 一种基于ctpn和crnn的银行***识别方法 | |
CN115311454A (zh) | 一种基于残差特征优化和注意力机制的图像分割方法 | |
CN116645592A (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN112364709A (zh) | 基于编码识别的机柜智能资产盘点方法 | |
CN116563553B (zh) | 一种基于深度学习的无人机图像分割方法和*** | |
WO2021159778A1 (zh) | 图像处理方法、装置、智能显微镜、可读存储介质和设备 | |
CN112257708A (zh) | 一种字符级文本检测方法、装置、计算机设备及存储介质 | |
CN111898608B (zh) | 一种基于边界预测的自然场景多语言文字检测方法 | |
CN116823600A (zh) | 一种融合语义先验与加权损失的场景文本图像重建方法 | |
CN115393868A (zh) | 文本检测方法、装置、电子设备和存储介质 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
CN114943204A (zh) | 一种基于生成对抗网络的中文字体合成的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |