CN112633277A - 基于深度学习的航道船牌检测、定位及识别方法 - Google Patents
基于深度学习的航道船牌检测、定位及识别方法 Download PDFInfo
- Publication number
- CN112633277A CN112633277A CN202011609509.8A CN202011609509A CN112633277A CN 112633277 A CN112633277 A CN 112633277A CN 202011609509 A CN202011609509 A CN 202011609509A CN 112633277 A CN112633277 A CN 112633277A
- Authority
- CN
- China
- Prior art keywords
- ship
- training
- layer
- model
- positioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 102100032202 Cornulin Human genes 0.000 claims abstract description 16
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000013526 transfer learning Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 61
- 238000000605 extraction Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 11
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013518 transcription Methods 0.000 claims description 6
- 230000035897 transcription Effects 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 210000005266 circulating tumour cell Anatomy 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于深度学习的航道船牌检测、定位及识别方法。本发明基于深度学习语义分割技术,利用迁移学习从而能够在小数据集上取得可靠识别精度的船牌检测、定位及识别方法。利用语义分割方法,基于AdvancedEAST算法对船牌图像进行像素级分类,从而得到准确可靠的船牌文本行边界框,并结合CRNN文字识别算法输出准确的船牌文字信息。本发明针对船牌识别难度大、研究内容少但具体应用需求高的问题,实现了准确的船牌检测、定位,克服了图像背景复杂、船牌放置位置不固定等问题。实现了不定长文字序列识别,解决了船牌文字数量多、具体数目不固定、汉字数字混合的问题。
Description
技术领域
本发明属于深度学习、计算机视觉、自然场景文字识别、计算机应用技术领域,涉及一种基于深度学习的航道船牌检测、定位及识别方法。
背景技术
内河运输作为一种污染小、运量大、耗能低的运输方式,在重点大宗货物运送中有着不可替代的作用。内河运输历史悠久,对人类社会经济发展、文化传播产生了深远影响。时代发展、科技进步,内河运输业日久弥新,数量急剧增长的运河行船数量大幅加剧了管理部门的监管负担,同时存在着人工关闭船舶自动识别***(Automatic IdentificationSystem,AIS)或蓄意录入错误信息等手段“隐藏”船只通行记录,从而逃避监管的乱象。而码头、港口或运河两岸架设的大量高清摄像头,目前仅作为监管部门后期执法直接证据使用,采集到的大量船舶数据未有更深层次运用,造成了某种程度上的资源浪费。
随着深度学习、计算机视觉技术的发展,陆路交通通过综合道路监控***与车牌识别技术,建立起成熟的智能交通管理***。车牌识别有效提高了车辆收费管理、道路稽查、违章处罚等应用场景下的工作效率。然而内河航运***中尚未出现智能化的船牌识别技术,船牌作为船舶身份识别的最佳方式,对于打造全信息化、智能化内河航运***具有重要意义,是构建智慧型“水上高速公路”的基础。
目前船牌识别领域研究几乎一片空白的原因在于船牌识别难度远大于车牌识别,主要体现在如下几方面:
1.船牌图像背景往往为更复杂的自然场景,船牌检测、定位难度大,且背景中多存在易导致误识的伪船牌区域。
2.船牌放置位置不固定,导致采集图像中船牌多呈现出倾斜、旋转等非水平方向。且因拍摄距离不同,船牌呈现出尺度多变的特点。
3.船牌图像易因拍摄角度或拍摄环境影响而产生遮挡、光照不均、过曝、过暗、模糊等现象。
4.船牌文字数量多,不同文本行文字大小、字间距变化明显,无显著性构成规律。
5.缺乏公开通用的大型船牌数据集,可应用的数据集规模较小。
因此为解决上述问题,克服船牌识别问题难点,为内河航运智能化综合管理***建设提供技术基础,本发明提供一种基于深度学习的船牌检测、定位及识别方法,通过拍摄采集自然场景中货船船牌图像作为算法输入,直接输出船牌识别结果。
发明内容
本发明的目的就是提供一种基于深度学习的航道船牌检测、定位及识别方法,基于深度学习语义分割技术,利用迁移学习从而能够在小数据集上取得可靠识别精度的船牌检测、定位及识别方法。利用语义分割方法,基于 AdvancedEAST算法对船牌图像进行像素级分类,从而得到准确可靠的船牌文本行边界框,并结合CRNN文字识别算法输出准确的船牌文字信息。
为实现上述目的,本发明的技术方案主要包括如下步骤:
步骤1、船牌检测、定位数据集创建:通过摄像机采集涵盖船牌图像的图片,使用labelme标注软件进行数据标注,从而构建目标数据集。
步骤2、船牌检测、定位模型训练:基于AdvancedEAST算法,利用船牌数据集进行模型训练。
步骤3、船牌文字识别训练集创建:根据标注坐标,裁剪船牌文本行,以文字内容作为标注信息,通过本发明中的数据扩充方法,对裁剪出的船牌文本行数据进行扩充,从而创建识别训练集。
步骤4、识别模型训练:基于CRNN算法,利用船牌文字识别训练集进行模型训练。
步骤5、模型测试及应用:用训练好的模型对船牌图片进行船牌检测、定位及识别结果测试,输出带有文本行边界框的图片及船牌文本行文字内容。
所述步骤1,具体步骤如下:
步骤1-1、在运河岸边、码头、港口等处架设摄像机,对船只号牌进行拍摄,得到不同尺度大小、不同背景、不同光照、不同倾斜角度、不同位置的图片。该步为保证数据分布均衡,比较有代表性,对于模型泛化性能的提高具有重要作用。
步骤1-2、使用labelme标注软件以四边形方式对图像中船牌文本行进行边界框标注,同时标注对应的文字信息,保存为.json文件。标注时以文本行左上角顶点为起点,逆时针旋转。模型训练时,需将.json文件中的边界框坐标信息及文本标注信息提取出,以.txt格式进行保存,保存格式为“(xi,yi),文本”,其中i=1,2,3,4,(xi,yi)表示四边形四个顶点坐标,以图片左上角为坐标原点,向右、向下为横、纵坐标正方向,xi表示横坐标,yi表示纵坐标。以“安吉川达009”为例:850.5,162.3,850.8,174.8,919.6,173.4,919.7,160.6,安吉川达009。
所述步骤2,具体步骤如下:
步骤2-1、AdvancedEAST算法是性能卓越的文字检测算法,基本思想是将文字检测转化为语义分割问题。网络结构分为“特征提取”、“特征融合”、“输出层”三个部分。
步骤2-2、“特征提取”是使用在ImageNet图像数据集上训练过的VGG16 深度模型作为基础网络,去掉全连接层,将其改造成为全卷积网络,使用卷积、池化操作进行下采样。
步骤2-3、“特征融合”通过上采样操作放大feature maps尺寸,然后抽取原图尺寸大小的feature maps,与上采样操作放大的feature maps进行跨层连接,从而实现特征融合,并最终将feature maps放大到原图尺寸大小。
步骤2-4、“输出层”采用四边形框作为文本行的边界框,通过定义边界像素,分别预测一侧的四边形框的两个顶点,从而得到四个顶点坐标,称为geometry map;同时输出图像文字区域及背景区域的二分类信息,称为score map。
步骤2-5、geometry map与score map的训练学习过程使用的损失函数可表示为:L=Ls+λgLg,其中Ls和Lg分别为score map和geometry map损失,λg作为权重衡量两个损失的重要性,使用时可将其设置为1。
其中为geometry map预测结果,Q*为满足步骤1-2描述的文本几何形状的标注数据。是具有不同顶点排列的所有与Q*等价的四边形集合,该操作是为了解决坐标标注顺序不符合步骤1-2描述的情况,使用Q表示中某一四边形。测四边形框坐标指定顺序的四边形框坐标 CQ={x1,y1,x2,y2,x3,y3,x4,y4},通过对Q中元素重排列得来,该操作是为了对齐预测、标注坐标,进而计算平滑L1损失函数smoothed L1 Loss;且 (xi,yi),i=1,2,3,4为四边形框顶点横、纵坐标;正则化项为四边形框短边长度,可用如下公式计算:
其中D(pi,pj)为两个四边形顶点pi,pj之间的L2距离,j=(i mod4)+1, mod表示求余运算,即两个整数做除法运算后的余数。
表示smoothedL1Loss(平滑L1损失函数),令: 其中,ci∈CQ,分别为指定顺序的四边形框坐标CQ、预测四边形框坐标中的对应顶点坐标,Δc表示二者差值。如c1= (x1,y1),具体公式表述为:
步骤2-8、利用迁移学习思想,使用合成文字检测数据集训练检测模型,得到稳定效果后;使用创建的小规模船牌检测数据集进行模型微调。
步骤2-9、使用船牌上数据集具体训练时,将船牌检测数据集中的图片,随机分为8:2的两部分,其中80%为训练样本,剩余的20%为测试样本。加载训练好的VGG16模型,加载文字检测合成数据集上训练好的AdvancedEAST算法模型。使用Adam作为优化器,初始学***均经过20epoch即可收敛。
所述步骤3,具体步骤如下:
步骤3-1、根据标注四边形坐标,计算四边形最小外接矩形及水平方向旋转角度。利用最小外接矩形对文本行区域进行裁剪,利用旋转角度对文本行区域进行粗矫正,得到小规模船牌文本行图片。
步骤3-2、通过对小规模图片数据集在保持图片长宽比的前提下进行随机旋转、随机对比度调整、随机尺度调整、随机分辨率调整、随机模糊处理,处理后图片放置于宽高为100×32的灰色模板上。通过该方式对步骤3-1中得到的小规模船牌文本图片进行扩充,得到可适用于CRNN深度模型训练的数据规模。
步骤3-3、船牌文字识别模型标注,借助步骤1-2中坐标与文本行的对应关系,将裁剪、扩充后的船牌文本行图片以“文件名标注”的格式保存为.txt格式,作为标注信息。从而创建完成船牌文字识别模型训练数据集。
所述步骤4,具体步骤如下:
步骤4-1、CRNN算法是性能优良的文字识别算法,主要分为“卷积层”、“循环层”、“转录层”三部分,分别进行“图像特征提取”、“文字序列识别”、“CTC损失”。其中“CTC”全称为“Connectionist Temporal Classification,联结时序分类”。
步骤4-2、训练前需对输入图片进行预处理,将图像进行二值化,以此降低图像处理计算量,提高训练速度。用于图像特征提取的卷积层使用VGG16深度模型作为基础网络,同时改造其第三、第四最大池化层,使用1×2的pooling strides,以此适应文本行“狭长”的特点。
步骤4-3、循环层使用双向长短时记忆网络(Long short-term memory,LSTM),隐藏层节点设置为256。将卷积层输出feature maps转化为序列特征作为循环层输入。循环层根据输入特征序列在每个时间步t预测当前特征的标签分布最终输出特征序列xr对应的标签分布序列 其中上标r表示该特征序列在循环层网络中使用,以及输出序列为循环层网络输出。
步骤4-4、转录层对循环层输出的每个时间步的预测结果进行处理,消除冗余得到最终的输出文字序列。
所述步骤5,具体步骤如下:
步骤5-1、分别将检测、定位模型以及识别模型训练完成后,利用级联方法关联。以检测、定位模型输出作为识别模型输入,识别模型输出船牌文字识别结果。
步骤5-2、为更方便查看本发明船牌检测、定位及识别结果,可将其在设计的简易GUI界面上进行结果显示,包括标记有文本区域边界框的输出图像,以及文字识别结果和算法识别耗时。
本发明针对船牌识别难度大、研究内容少但具体应用需求高的问题,提出了基于深度学习的船牌检测、定位及识别方法。基于语义分割思路,利用 AdvancedEAST算法,实现了准确的船牌检测、定位,克服了图像背景复杂、船牌放置位置不固定等问题。利用CRNN算法,实现了不定长文字序列识别,解决了船牌文字数量多、具体数目不固定、汉字数字混合的问题。利用迁移学习、数据扩充等方法,仅使用小规模船牌数据集微调大型深度模型便能取得良好检测、定位及识别性能。实验表明,语义分割、迁移学习、数据扩充三者相辅相成,使本方法拥有了较高的识别准确率。
附图说明
图1本发明的适用场景示例图;
图2本发明的流程图;
图3本发明的实际应用效果图。
具体实施方式
下面结合附图和具体实施方式对本发明作详细说明。
如图1所示,本发明的适用场景为运河行船船牌检测、定位与识别,所用图像示例如图所示。主要为蓝色标准船牌,适用于背景环境复杂、拍摄角度不同、船牌存在倾斜、低对比度、光照不均等情况。
如图2所示,本发明的算法流程主要包括如下步骤:
步骤1、船牌检测、定位数据集创建:通过摄像机采集涵盖船牌图像的图片,使用labelme标注软件进行数据标注,从而构建目标数据集。
具体如下:
步骤1-1、在运河岸边、码头、港口等处架设摄像机,对船只号牌进行拍摄,得到不同尺度大小、不同背景、不同光照、不同倾斜角度、不同位置的图片。该步为保证数据分布均衡,比较有代表性,对于模型泛化性能的提高具有重要作用。
步骤1-2、使用labelme标注软件以四边形方式对图像中船牌文本行进行边界框标注,同时标注对应的文字信息,保存为.json文件。标注时以文本行左上角顶点为起点,逆时针旋转。模型训练时,需将.json文件中的边界框坐标信息及文本标注信息提取出,以.txt格式进行保存,保存格式为“(xi,yi),文本”,其中i=1,2,3,4,(xi,yi)表示四边形四个顶点坐标,以图片左上角为坐标原点,向右、向下为横、纵坐标正方向,xi表示横坐标,yi表示纵坐标。以“安吉川达009”为例:850.5,162.3,850.8,174.8,919.6,173.4,919.7,160.6,安吉川达009。
步骤2、船牌检测、定位模型训练:基于AdvancedEAST算法,利用船牌数据集进行模型训练。
具体如下:
步骤2-1、AdvancedEAST算法是性能卓越的文字检测算法,基本思想是将文字检测转化为语义分割问题。网络结构分为“特征提取”、“特征融合”、“输出层”三个部分。
步骤2-2、“特征提取”是使用在ImageNet图像数据集上训练过的VGG16 深度模型作为基础网络,去掉全连接层,将其改造成为全卷积网络,使用卷积、池化操作进行下采样。
步骤2-3、“特征融合”通过上采样操作放大feature maps尺寸,然后抽取原图尺寸大小的feature maps,与上采样操作放大的feature maps进行跨层连接,从而实现特征融合,并最终将feature maps放大到原图尺寸大小。
步骤2-4、“输出层”采用四边形框作为文本行的边界框,通过定义边界像素,分别预测一侧的四边形框的两个顶点,从而得到四个顶点坐标,称为geometry map;同时输出图像文字区域及背景区域的二分类信息,称为score map。
步骤2-5、geometry map与score map的训练学习过程使用的损失函数可表示为:L=Ls+λgLg,其中Ls和Lg分别为score map和geometry map损失,λg作为权重衡量两个损失的重要性,使用时可将其设置为1。
其中为geometry map预测结果,Q*为满足步骤1-2描述的文本几何形状的标注数据。是具有不同顶点排列的所有与Q*等价的四边形集合,该操作是为了解决坐标标注顺序不符合1-2描述的情况,使用Q表示中某一四边形。
预测四边形框坐标指定顺序的四边形框坐标CQ={x1,y1,x2,y2,x3,y3,x4,y4},通过对Q中元素重排列得来,该操作是为了对齐预测、标注坐标,进而计算smoothed L1 Loss;且(xi,yi),i=1,2,3,4为四边形框顶点横、纵坐标;正则化项为四边形框短边长度,可用如下公式计算:
其中D(pi,pj)为两个四边形顶点pi,pj之间的L2距离,j=(i mod4)+1, mod表示求余运算,即两个整数做除法运算后的余数。
表示smoothed L1 Loss(平滑L1损失函数),令: 其中,ci∈CQ,分别为指定顺序的四边形框坐标 CQ、预测四边形框坐标中的对应顶点坐标,Δc表示二者差值。如c1= (x1,y1),则具体公式可表述为:
步骤2-8、AdvancedEAST算法中使用的预训练过的VGG16模型保证了图像特征提取的准确、有效性。在此基础上,进一步利用迁移学习思想,首先使用合成文字检测数据集训练检测模型,如阿里云天池竞赛“场景文字检测”数据集,得到稳定效果后。使用创建的小规模船牌检测数据集进行模型微调,从而克服船牌图像数据量不足的困难。
步骤2-9、使用船牌上数据集具体训练时,将船牌检测数据集中的图片,随机分为8:2的两部分,其中80%为训练样本,剩余的20%为测试样本。加载训练好的VGG16模型,加载文字检测合成数据集上训练好的AdvancedEAST算法模型。使用Adam作为优化器,初始学***均经过20epoch即可收敛。
步骤3、船牌文字识别训练集创建:根据标注坐标,裁剪船牌文本行,以文字内容作为标注信息,通过本发明中的数据扩充方法,对裁剪出的船牌文本行数据进行扩充,从而创建识别训练集。
具体步骤如下:
步骤3-1、根据标注四边形坐标,计算四边形最小外接矩形及水平方向旋转角度。利用最小外接矩形对文本行区域进行裁剪,利用旋转角度对文本行区域进行粗矫正。得到小规模船牌文本行图片。
步骤3-2、通过对小规模图片数据集在保持图片长宽比的前提下进行随机旋转、随机对比度调整、随机尺度调整、随机分辨率调整、随机模糊处理,处理后图片放置于宽高为100×32的灰色模板上。通过该方式对步骤3-1中得到的小规模船牌文本图片进行扩充,得到可适用于CRNN深度模型训练的数据规模。本发明实验测试过程中,将2148张裁剪船牌文本行图片扩充至42891张图片,基于CRNN算法训练得到的船牌文字识别模型取得了可靠的准确率。
步骤3-3、船牌文字识别模型标注,借助步骤1-2中坐标与文本行的对应关系,将裁剪、扩充后的船牌文本行图片以“文件名标注”的格式保存为.txt格式,作为标注信息。以“浙XX货”为例,图片文件名为“zhe_X_X_huo02XX8_ 浙XX货.jpg”,标注为文字内容“浙XX货”中文字在词典中的索引,即标注内容为:zhe_jia_xing_huo02XX8_浙XX货.jpg 16601626 726 1066.从而创建完成船牌文字识别模型训练数据集。
步骤4、识别模型训练:基于CRNN算法,利用船牌文字识别训练集进行模型训练。
具体步骤如下:
步骤4-1、CRNN算法是性能优良的文字识别算法,主要分为“卷积层”、“循环层”、“转录层”三部分,分别进行“图像特征提取”、“文字序列识别”、“CTC损失”。其中“CTC”全称为“Connectionist Temporal Classification,联结时序分类”。
步骤4-2、训练前需对输入图片进行预处理,将图像进行二值化,以此降低图像处理计算量,提高训练速度。用于图像特征提取的卷积层使用VGG16深度模型作为基础网络,同时改造其第三、第四最大池化层,使用1×2的pooling strides,以此适应文本行“狭长”的特点。
步骤4-3、循环层使用双向LSTM(Long short-term memory,LSTM,长短时记忆网络),隐藏层节点设置为256。将卷积层输出feature maps转化为序列特征作为循环层输入。循环层根据输入特征序列在每个时间步t预测当前特征的标签分布最终输出特征序列xr对应的标签分布序列其中上标r表示该特征序列在循环层网络中使用,以及输出序列为循环层网络输出。
步骤4-4、转录层对循环层输出的每个时间步的预测结果进行处理,消除冗余得到最终的输出文字序列。
具体步骤如下:
步骤5-1、分别将检测、定位模型以及识别模型训练完成后,利用级联方法关联。以检测、定位模型输出作为识别模型输入,识别模型输出船牌文字识别结果。
步骤5-2、为更方便查看本发明船牌检测、定位及识别结果,可将其在设计的简易GUI界面上进行结果显示,包括标记有文本区域边界框的输出图像,以及文字识别结果和算法识别耗时。
Claims (6)
1.基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
具体包括如下步骤:
步骤1、船牌检测、定位数据集创建:通过摄像机采集涵盖船牌图像的图片,使用labelme标注软件进行数据标注,从而构建目标数据集;
步骤2、船牌检测、定位模型训练:基于AdvancedEAST算法,利用船牌数据集进行模型训练;
步骤3、船牌文字识别训练集创建:根据标注坐标,裁剪船牌文本行,以文字内容作为标注信息,通过本发明中的数据扩充方法,对裁剪出的船牌文本行数据进行扩充,从而创建识别训练集;
步骤4、识别模型训练:基于CRNN算法,利用船牌文字识别训练集进行模型训练;
步骤5、模型测试及应用:用训练好的模型对船牌图片进行船牌检测、定位及识别结果测试,输出带有文本行边界框的图片及船牌文本行文字内容。
2.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤1,具体步骤如下:
步骤1-1、在运河岸边、码头、港口架设摄像机,对船只号牌进行拍摄,得到不同尺度大小、不同背景、不同光照、不同倾斜角度、不同位置的图片;
步骤1-2、使用labelme标注软件以四边形方式对图像中船牌文本行进行边界框标注,同时标注对应的文字信息,保存为.json文件;标注时以文本行左上角顶点为起点,逆时针旋转;模型训练时,需将.json文件中的边界框坐标信息及文本标注信息提取出,以.txt格式进行保存,保存格式为“(xi,yi),文本”,其中i=1,2,3,4,表示四边形四个顶点坐标。
3.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤2,具体步骤如下:
步骤2-1、选用AdvancedEAST算法将文字检测转化为语义分割问题;网络结构分为“特征提取”、“特征融合”、“输出层”三个部分;
步骤2-2、“特征提取”是使用在ImageNet图像数据集上训练过的VGG16深度模型作为基础网络,去掉全连接层,将其改造成为全卷积网络,使用卷积、池化操作进行下采样;
步骤2-3、“特征融合”通过上采样操作放大feature maps尺寸,然后抽取原图尺寸大小的feature maps,与上采样操作放大的feature maps进行跨层连接,从而实现特征融合,并最终将feature maps放大到原图尺寸大小;
步骤2-4、“输出层”采用四边形框作为文本行的边界框,通过定义边界像素,分别预测一侧的四边形框的两个顶点,从而得到四个顶点坐标,称为geometry map;同时输出图像文字区域及背景区域的二分类信息,称为score map;
步骤2-5、geometry map与score map的训练学习过程使用的损失函数可表示为:L=Ls+λgLg,其中Ls和Lg分别为score map损失和geometry map损失,λg作为权重衡量两个损失的重要性,使用时可将其设置为1;
其中为geometry map预测结果,Q*为满足1-2描述的文本几何形状的标注数据;是具有不同顶点排列的所有与Q*等价的四边形集合,该操作是为了解决坐标标注顺序不符合步骤1-2描述的情况,使用Q表示中某一四边形;测四边形框坐标指定顺序的四边形框坐标CQ={x1,y1,x2,y2,x3,y3,x4,y4},通过对Q中元素重排列得来,该操作是为了对齐预测、标注坐标,进而计算smoothed L1 Loss;且(xi,yi),i=1,2,3,4为四边形框顶点横、纵坐标;正则化项为四边形框短边长度,可用如下公式计算:
其中D(pi,pj)为两个四边形顶点pi,pj之间的L2距离,j=(i mod 4)+1,mod表示求余运算,即两个整数做除法运算后的余数;
表示smoothed L1 Loss,令:i=1,2,3,4;其中,ci∈CQ,分别为指定顺序的四边形框坐标CQ、预测四边形框坐标中的对应顶点坐标,Δc表示二者差值;如c1=(x1,y1), 则具体公式表述为:
步骤2-8、利用迁移学习思想,使用合成文字检测数据集训练检测模型,得到稳定效果后;使用创建的小规模船牌检测数据集进行模型微调;
步骤2-9、使用船牌上数据集具体训练时,将船牌检测数据集中的图片,随机分为8:2的两部分,其中80%为训练样本,剩余的20%为测试样本;加载训练好的VGG16模型,加载文字检测合成数据集上训练好的AdvancedEAST算法模型;使用Adam作为优化器,初始学习率设置为10-4,每个epoch进行衰减,直到衰减到10-5,同时设置早停机制。
4.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤3,具体步骤如下:
步骤3-1、根据标注四边形坐标,计算四边形最小外接矩形及水平方向旋转角度;利用最小外接矩形对文本行区域进行裁剪,利用旋转角度对文本行区域进行粗矫正,得到小规模船牌文本行图片;
步骤3-2、通过对小规模图片数据集在保持图片长宽比的前提下进行随机旋转、随机对比度调整、随机尺度调整、随机分辨率调整、随机模糊处理,处理后图片放置于宽高为100×32的灰色模板上;通过该方式对步骤3-1中得到的小规模船牌文本图片进行扩充,得到可适用于CRNN深度模型训练的数据规模;
步骤3-3、船牌文字识别模型标注,借助步骤1-2中坐标与文本行的对应关系,将裁剪、扩充后的船牌文本行图片以“文件名标注”的格式保存为.txt格式,作为标注信息;从而创建完成船牌文字识别模型训练数据集。
5.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤4,具体步骤如下:
步骤4-1、CRNN算法是性能优良的文字识别算法,主要分为“卷积层”、“循环层”、“转录层”三部分,分别进行“图像特征提取”、“文字序列识别”、“联结时序分类损失”;
步骤4-2、训练前需对输入图片进行预处理,将图像进行二值化,以此降低图像处理计算量,提高训练速度;用于图像特征提取的卷积层使用VGG16深度模型作为基础网络,同时改造其第三、第四最大池化层,使用1×2的pooling strides,以此适应文本行“狭长”的特点;
步骤4-3、循环层使用双向长短时记忆网络,隐藏层节点设置为256;将卷积层输出feature maps转化为序列特征作为循环层输入;循环层根据输入特征序列在每个时间步t预测当前特征的标签分布最终输出特征序列xr对应的标签分布序列其中上标r表示该特征序列在循环层网络中使用,以及输出序列为循环层网络输出;
步骤4-4、转录层对循环层输出的每个时间步的预测结果进行处理,消除冗余得到最终的输出文字序列;
6.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤5,具体步骤如下:
步骤5-1、分别将检测、定位模型以及识别模型训练完成后,利用级联方法关联;以检测、定位模型输出作为识别模型输入,识别模型输出船牌文字识别结果;
步骤5-2、为更方便查看本发明船牌检测、定位及识别结果,能将其在设计的简易GUI界面上进行结果显示,包括标记有文本区域边界框的输出图像,以及文字识别结果和算法识别耗时。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609509.8A CN112633277B (zh) | 2020-12-30 | 2020-12-30 | 基于深度学习的航道船牌检测、定位及识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609509.8A CN112633277B (zh) | 2020-12-30 | 2020-12-30 | 基于深度学习的航道船牌检测、定位及识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633277A true CN112633277A (zh) | 2021-04-09 |
CN112633277B CN112633277B (zh) | 2024-04-05 |
Family
ID=75286626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609509.8A Active CN112633277B (zh) | 2020-12-30 | 2020-12-30 | 基于深度学习的航道船牌检测、定位及识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633277B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239854A (zh) * | 2021-05-27 | 2021-08-10 | 北京环境特性研究所 | 一种基于深度学习的船舶身份识别方法及*** |
CN113269049A (zh) * | 2021-04-30 | 2021-08-17 | 天津科技大学 | 一种用于检测手写汉字区域的方法 |
CN113326842A (zh) * | 2021-06-01 | 2021-08-31 | 武汉理工大学 | 一种金融表单文字识别方法 |
CN113361467A (zh) * | 2021-06-30 | 2021-09-07 | 电子科技大学 | 基于领域适应的车牌识别方法 |
CN113657354A (zh) * | 2021-10-19 | 2021-11-16 | 深圳市菁优智慧教育股份有限公司 | 基于深度学习的答题卡识别方法及*** |
CN113780087A (zh) * | 2021-08-11 | 2021-12-10 | 同济大学 | 一种基于深度学习的邮政包裹文本检测方法及设备 |
CN114049627A (zh) * | 2022-01-11 | 2022-02-15 | 浙江华是科技股份有限公司 | 可智能选择缩放尺度的船牌检测方法、装置及*** |
CN114943975A (zh) * | 2022-05-10 | 2022-08-26 | 山东大学 | 一种基于深度学习的多模态搜题方法及*** |
CN115035541A (zh) * | 2022-06-27 | 2022-09-09 | 中核核电运行管理有限公司 | 一种大尺寸复杂pdf工程图纸文本检测与识别方法 |
CN115063739A (zh) * | 2022-06-10 | 2022-09-16 | 嘉洋智慧安全生产科技发展(北京)有限公司 | 异常行为的检测方法、装置、设备及计算机存储介质 |
CN115331114A (zh) * | 2022-10-14 | 2022-11-11 | 青岛恒天翼信息科技有限公司 | 基于船号深度学习的船舶身份识别方法 |
CN115424275A (zh) * | 2022-08-30 | 2022-12-02 | 青岛励图高科信息技术有限公司 | 一种基于深度学习技术的渔船船牌号识别方法及*** |
CN116912852A (zh) * | 2023-07-25 | 2023-10-20 | 京东方科技集团股份有限公司 | 名片的文本识别方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598693A (zh) * | 2019-08-12 | 2019-12-20 | 浙江工业大学 | 一种基于Faster-RCNN的船牌识别方法 |
CN111291684A (zh) * | 2020-02-10 | 2020-06-16 | 浙江工业大学 | 一种自然场景下的船牌检测方法 |
CN111985470A (zh) * | 2020-07-09 | 2020-11-24 | 浙江工业大学 | 一种自然场景下的船牌矫正识别方法 |
-
2020
- 2020-12-30 CN CN202011609509.8A patent/CN112633277B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598693A (zh) * | 2019-08-12 | 2019-12-20 | 浙江工业大学 | 一种基于Faster-RCNN的船牌识别方法 |
CN111291684A (zh) * | 2020-02-10 | 2020-06-16 | 浙江工业大学 | 一种自然场景下的船牌检测方法 |
CN111985470A (zh) * | 2020-07-09 | 2020-11-24 | 浙江工业大学 | 一种自然场景下的船牌矫正识别方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269049A (zh) * | 2021-04-30 | 2021-08-17 | 天津科技大学 | 一种用于检测手写汉字区域的方法 |
CN113239854B (zh) * | 2021-05-27 | 2023-12-19 | 北京环境特性研究所 | 一种基于深度学习的船舶身份识别方法及*** |
CN113239854A (zh) * | 2021-05-27 | 2021-08-10 | 北京环境特性研究所 | 一种基于深度学习的船舶身份识别方法及*** |
CN113326842A (zh) * | 2021-06-01 | 2021-08-31 | 武汉理工大学 | 一种金融表单文字识别方法 |
CN113361467A (zh) * | 2021-06-30 | 2021-09-07 | 电子科技大学 | 基于领域适应的车牌识别方法 |
CN113780087A (zh) * | 2021-08-11 | 2021-12-10 | 同济大学 | 一种基于深度学习的邮政包裹文本检测方法及设备 |
CN113780087B (zh) * | 2021-08-11 | 2024-04-26 | 同济大学 | 一种基于深度学习的邮政包裹文本检测方法及设备 |
CN113657354A (zh) * | 2021-10-19 | 2021-11-16 | 深圳市菁优智慧教育股份有限公司 | 基于深度学习的答题卡识别方法及*** |
CN114049627A (zh) * | 2022-01-11 | 2022-02-15 | 浙江华是科技股份有限公司 | 可智能选择缩放尺度的船牌检测方法、装置及*** |
CN114049627B (zh) * | 2022-01-11 | 2022-04-08 | 浙江华是科技股份有限公司 | 可智能选择缩放尺度的船牌检测方法、装置及*** |
CN114943975A (zh) * | 2022-05-10 | 2022-08-26 | 山东大学 | 一种基于深度学习的多模态搜题方法及*** |
CN115063739A (zh) * | 2022-06-10 | 2022-09-16 | 嘉洋智慧安全生产科技发展(北京)有限公司 | 异常行为的检测方法、装置、设备及计算机存储介质 |
CN115035541A (zh) * | 2022-06-27 | 2022-09-09 | 中核核电运行管理有限公司 | 一种大尺寸复杂pdf工程图纸文本检测与识别方法 |
CN115424275A (zh) * | 2022-08-30 | 2022-12-02 | 青岛励图高科信息技术有限公司 | 一种基于深度学习技术的渔船船牌号识别方法及*** |
CN115424275B (zh) * | 2022-08-30 | 2024-02-02 | 青岛励图高科信息技术有限公司 | 一种基于深度学习技术的渔船船牌号识别方法及*** |
CN115331114A (zh) * | 2022-10-14 | 2022-11-11 | 青岛恒天翼信息科技有限公司 | 基于船号深度学习的船舶身份识别方法 |
CN116912852A (zh) * | 2023-07-25 | 2023-10-20 | 京东方科技集团股份有限公司 | 名片的文本识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112633277B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633277A (zh) | 基于深度学习的航道船牌检测、定位及识别方法 | |
CN110188705B (zh) | 一种适用于车载***的远距离交通标志检测识别方法 | |
Wang et al. | RENet: Rectangular convolution pyramid and edge enhancement network for salient object detection of pavement cracks | |
CN111145174B (zh) | 基于图像语义特征进行点云筛选的3d目标检测方法 | |
CN111640125B (zh) | 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置 | |
CN111814623A (zh) | 一种基于深度神经网络的车辆车道偏离视觉检测方法 | |
CN112418216B (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN111914795A (zh) | 一种航拍图像中旋转目标检测方法 | |
CN110796143A (zh) | 一种基于人机协同的场景文本识别方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN111753677A (zh) | 基于特征金字塔结构的多角度遥感船舶图像目标检测方法 | |
CN113177503A (zh) | 基于yolov5的任意朝向目标十二参数检测方法 | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN115424017B (zh) | 一种建筑物内外轮廓分割方法、装置及存储介质 | |
CN114677596A (zh) | 一种基于注意力模型的遥感图像船舶检测方法和装置 | |
CN110390228A (zh) | 基于神经网络的交通标志图片识别方法、装置及存储介质 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN113971809A (zh) | 一种基于深度学习的文本识别方法、设备及存储介质 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN113902792A (zh) | 基于改进RetinaNet网络的建筑物高度检测方法、***和电子设备 | |
CN111626971A (zh) | 具有图像语义感知的智慧城市cim实时成像方法 | |
CN116612398A (zh) | 基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法 | |
CN114820931A (zh) | 基于虚拟现实的智慧城市cim可视化实时成像方法 | |
Xu et al. | SPNet: Superpixel pyramid network for scene parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |