CN110991447B - 基于深度学习的列车车号精确定位与识别方法 - Google Patents

基于深度学习的列车车号精确定位与识别方法 Download PDF

Info

Publication number
CN110991447B
CN110991447B CN201911166263.9A CN201911166263A CN110991447B CN 110991447 B CN110991447 B CN 110991447B CN 201911166263 A CN201911166263 A CN 201911166263A CN 110991447 B CN110991447 B CN 110991447B
Authority
CN
China
Prior art keywords
train
groundtruth
train number
network
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911166263.9A
Other languages
English (en)
Other versions
CN110991447A (zh
Inventor
邹琪
艾鑫
罗常津
杨文冠
丁正刚
胡宸瀚
周通
阳勇杰
徐嫣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Beijing Jingwei Information Technology Co Ltd
Original Assignee
Beijing Jiaotong University
Beijing Jingwei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University, Beijing Jingwei Information Technology Co Ltd filed Critical Beijing Jiaotong University
Priority to CN201911166263.9A priority Critical patent/CN110991447B/zh
Publication of CN110991447A publication Critical patent/CN110991447A/zh
Application granted granted Critical
Publication of CN110991447B publication Critical patent/CN110991447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的列车车号精确定位与识别方法,包括:采集列车全景图,对所述全景图进行尺寸调整;构建列车车号定位网络,并将调整后的全景图作为训练集对列车车号定位网络进行训练;根据列车车号定位网络输出的列车车号区域对列车车号识别网络进行训练;将需要识别的列车全景图进行尺寸调整,并输入到已训练好的车号定位网络,得到精确定位的列车车号区域;将列车车号区域输入到训练好的车号识别网络进行识别,得到车号数字识别结果。通过该方法能够处理任意长度的车号序列,解决了复杂场景中手工特征和现有深度学习方法定位精准度低、难以区分小尺寸车号的缺点,而且不涉及字符分割,实现了整体识别。

Description

基于深度学习的列车车号精确定位与识别方法
技术领域
本发明涉及智能交通技术领域,尤其涉及一种基于深度学习的列车车号精确定位与识别方法。
背景技术
列车巡检与货检作业自动化是铁路信息化的重要目标,列车车号的定位与识别作为巡检自动化的基础任务之一,能够自动记录车号信息,避免消耗巨大的人力物力。当检测到货运列车或客运列车发生异常情况时,自动将车号信息作为列车身份的标志,与设备的安全状态信息联系起来,向控制中心发出警报,因此,列车车号识别在列车巡检和货检作业自动化中显得尤为重要。
传统的列车车号识别***((Automatic Terminal Information Service,ATIS)主要是基于射频识别(Radio Frequency Identification,RFID)技术实现的,但是此***的准确性主要依赖于列车底部安装的RFID标签,而RFID标签容易损坏和丢失,因此,很难保证车号识别的准确性。此外,只有在安装了地面标签读取设备的环境下,才能够进行基于RFID的车号识别。由于该设备造价昂贵,在许多场景,如编组站、货运站的仓库和沿途等没有安装地面标签读取设备,仅仅只有监控摄像头,很难实现准确的车号识别。
近年来,用计算机视觉技术自动识别列车车号,它无需为车辆加装其它特殊装置就能实现对车辆的自动监测,给铁路车号识别带来了极大方便。但是,从图像或者视频中识别车号也面临着挑战:首先,列车图像中车号区域在原始图像中占的比例极小,并且有大量非车号的文本信息干扰,因此属于有干扰信息下的超大图像(车厢图像最小为5847*2048,最大为12693*2048,属于超大分辨率图像)中的小目标检测和识别。常规的文本检测方法在这样的情况下均无法取得较好的效果。常规的文本检测方法是在自然场景文本检测的公开数据集ICDAR15上验证,该数据集包括两个子集:难度较小的FSTD数据集和难度较大的ISTD数据集。FSTD数据集中,文本区域在原始图像中占比约8.1%;ISTD数据集中,文本区域在原始图像中占比约0.49%,而列车车号识别任务中,车号区域在原始图像中占比为0.21%至0.40%不等。其次复杂环境也给列车车号识别带来困难,复杂场景包含三方面的因素,一是背景环境复杂。在24小时全天候的监控环境下,由摄像头拍摄到的列车图像包含不同季节(晴天、雨、雪)、不同光照(白天,夜晚)场景;二是监控对象外观差异大。不同车型的列车(平车、敞车、棚车、罐车、漏斗车等),其外观特征差异很大,并且车号在车厢上的位置各不相同,有些敞车有帆布遮盖,这都给车号的定位造成困难;三是列车车号识别的干扰因素,车号存在字符断裂和数字间隔大的特点,阴影、涂鸦、符号和车厢污损也都给车号识别带来干扰。
现有的基于深度学习的文本定位方法在自然场景文本检测中取得了成功,但直接用于本文任务的图像效果却不理想。一方面是不适用于车号区域占比小的车号检测;另一方面基于单词级别实现的自然场景文本检测,不适于列车车号间隔大的情况。此类方法容易将车号定位成单独的两个部分,不能实现定位完整车号。
因此,对于上述复杂场景的情况下,列车车号的精确识别成为亟待解决的问题。
发明内容
本发明提供了一种基于深度学习的列车车号精确定位与识别方法,以解决现有技术问题中的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
本发明提供了一种基于深度学习的列车车号精确定位与识别方法,包括:
采集列车全景图,对所述全景图进行尺寸调整;
构建列车车号定位网络,并将调整后的全景图作为训练集对所述列车车号定位网络进行训练;
根据列车车号定位网络输出的列车车号区域对列车车号识别网络进行训练;
将需要识别的列车全景图进行尺寸调整,并输入到已训练好的列车车号定位网络,得到精确定位的列车车号区域;
将所述列车车号区域输入到训练好的列车车号识别网络进行识别,得到车号数字识别结果。
优选地,对所述全景图进行尺寸调整,包括:将全景图按照同比例缩放至高度为600像素的图片或者是宽度为1000像素的图片。
优选地,构建的列车车号定位网络的目标函数如下式(1)所示,以目标函数最小化为最终目标:
其中,是判断是否为车号的可信度预测损失;/>是车号候选区域的垂直方向坐标预测损失;/>是车号候选区域的水平方向坐标预测损失;Si表示第i个参考框预测为车号或非车号的概率值,即第i个参考框属于和不属于车号的得分;/>是GroundTruth的分类得分;i是训练样本,即参考框的索引;Vj是第j个参考框的纵坐标和高度组成的向量;/>是GroundTruth的纵坐标和高度组成的向量;j是位于y方向回归范围内的参考框的索引,cx是预测的车号候选框的中心点的横坐标;是GroundTruth的中心点的横坐标;/>是参考框的中心点的横坐标;w(a)是参考框的宽度;k是位于x方向回归范围内的参考框的索引,/>采用Softmax损失;/>采用smoothL1损失;λ12是经验参数,分别为1.0和2.0;Ns表示在优化目标函数迭代过程中参考框的数量;NV表示位于y方向回归范围内的参考框的数量;Nd表示位于x方向回归范围内的参考框的数量。
优选地,j是位于y方向回归范围内的参考框的索引,需要满足与GroundTruth的面积交并比率大于设定阈值的参考框;所述的k是位于x方向回归范围内的参考框的索引需要满足位于车号GroundTruth右边界向右延伸w(a)像素宽度,或者GroundTruth左边界向左延伸w(a)像素宽度内的所有参考框。
优选地,将调整后的全景图作为训练集对所述列车车号定位网络进行训练,包括:根据困难样本挖掘策略,对困难样本的记为1,所述的困难样本为:与车号区域左右边界一定范围内的小文本段GroundTruth的IoU超过设定阈值,或者与所述小文本段GroundTruth的IoU为最大值;
在预测车号候选框的中心点的横坐标cx过程中,使用边界敏感的细粒度文本框精确定位策略,即将手工标记的整个车号文本行GroundTruth分割成固定宽度的小GroundTruth,一个车号的文本行GroundTruth划分为6至10个固定宽度的小GroundTruth;在计算确定左右边界的小GroundTruth的中心坐标时,以整个文本行GroundTruth的右边界为起点,向左延伸固定像素宽生成小GroundTruth,或以整个文本行GroundTruth的左边界为起点,向右延伸固定像素宽生成小GroundTruth。
优选地,设定阈值为[0.5,0.7]区间内的固定值。
优选地,列车车号识别网络为Attention-OCR网络。
优选地,将调整后的全景图作为训练集对所述列车车号定位网络进行训练,包括:当车号区域在列车全景图中占比小于0.3%时,在特征提取时加入特征金字塔网络。
由上述本发明的基于深度学***方向回归层,同时在网络训练的过程中采用了边界敏感的细粒度文本框精确定位策略和困难样本挖掘策略,得到样本定位更精准,并且对于车号区域小的全景图,在特征提取中加入了特征金字塔网络,用于解决列车车号定位过程中的多分辨率问题,实现定位阶段端对端的训练过程,无需进一步后处理。对车号文本识别采用基于注意力机制的深度学习方法,可以实现整体识别,能够处理任意长度的车号序列,不涉及字符分割过程,避免了字符分割错误对识别的造成的错误累积效应,从而进一步实现实时精确的定位和精准的识别,解决了复杂场景中手工特征定位精准度低的缺点。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例提供的一种基于深度学习的列车车号精确定位与识别方法流程示意图;
图2为HEM和BSF策略中GroundTruth划分方式示意图,其中(a)和(b)为HEM策略中左右边界GroundTruth划分方式示意图;(c)(d)为BSF策略中右左边界GroundTruth划分方式示意图;
图3为实施例的列车车号定位和识别结果对比示意图;
图4为实施例的另一组列车车号定位和识别结果对比示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤和/或操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤和/或操作的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本发明中所述(IoU,Intersection over Union)面积交并比率,也称为重叠度,即交集区域和并集区域的比值,其中,分子是待计算的检测框和Ground-truth之间的相交重叠区域,分母是并集区域。
为便于对本发明实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明。
实施例
图1为本实施例提供的一种基于深度学习的列车车号精确定位与识别方法流程示意图,参照图1,该方法包括:
S1采集列车全景图,对所述全景图进行尺寸调整。
收集由监控摄像头采集到的列车全景图,将全景图按照同比例缩放至高度为600像素的图片或者是宽度为1000像素的图片。
具体方法为:输入任意大小的全景图,将输入全景图的宽和高按照同比例缩放,直到高度为600像素,如果此时宽度超过1000像素,则继续缩小输入的全景图,直到全景图的宽度为1000像素。
S2构建列车车号定位网络,并将调整后的全景图作为训练集对所述列车车号定位网络进行训练。
本实施例的列车车号定位网络包括:特征提取、文本框检测和边界回归。主要通过对连接文本提议网络(Connectionist Text Proposal network,CTPN)的基础网络进行优化,设计构建的列车车号定位网络的目标函数如下式(1)所示,以目标函数最小化为最终目标:
其中,是判断是否为车号的可信度预测损失;/>是车号候选区域的垂直方向坐标预测损失;/>是车号候选区域的水平方向坐标预测损失;Si表示第i个参考框预测为车号或非车号的概率值,即第i个参考框属于和不属于车号的得分;/>是GroundTruth的分类得分;i是训练样本,即参考框的索引;Vj是第j个参考框的纵坐标和高度组成的向量;/>是GroundTruth的纵坐标和高度组成的向量;j是位于y方向回归范围内的参考框的索引,cx是预测的车号候选框的中心点的横坐标;是GroundTruth的中心点的横坐标;/>是参考框的中心点的横坐标;w(a)是参考框的宽度;k是位于x方向回归范围内的参考框的索引,/>采用Softmax损失;/>采用smoothL1损失;λ12是经验参数,分别为1.0和2.0;Ns表示在优化目标函数迭代过程中参考框的数量;NV表示位于y方向回归范围内的参考框的数量;Nd表示位于x方向回归范围内的参考框的数量。
上式主要结合了判断是否为车号的可信度预测损失车号候选区域的垂直方向坐标预测损失/>车号候选区域的水平方向坐标预测损失/>三部分的多任务损失函数进行目标函数的构建。参考框为:对输入图片提取特征后,在特征图上提取候选文本框(简称候选框),对每个候选框设置不同的参考框,参考框与候选框的横坐标和宽度相同,高度在一定区间内取不同值。每个参考框有6个属性:属于车号的得分、不属于车号的得分、纵坐标、高度、横坐标和宽度。
其中,j是位于y方向回归范围内的参考框的索引,需要满足与GroundTruth的面积交并比率大于设定阈值的参考框;所述的k是位于x方向回归范围内的参考框的索引需要满足位于车号GroundTruth右边界向右延伸w(a)像素宽度,或者GroundTruth左边界向左延伸w(a)像素宽度内的所有参考框。
根据困难样本挖掘策略(Hard Example Mining,HEM),对困难样本的记为1,这样保证不遗漏只包含少部分车号区域的正样本。困难样本为与车号区域左右边界一定范围内的小文本段GroundTruth的IoU超过设定阈值,或者与所述小文本段GroundTruth的IoU为最大值。产生困难样本对应的小GroundTruth的方式为:将手工标记的整个车号文本行GroundTruth分割成固定宽度(可取[12,18]区间内的固定值)的小GroundTruth时,图2(a)和(b)为HEM策略中左右边界GroundTruth划分方式示意图,从左至右分割文本行GroundTruth采取图2(b)的方式,从右至左分割文本行GroundTruth采取图2(a)的方式,双线框的内框为困难样本对应的小GroundTruth,与双线框的IoU超过阈值的参考框,或者与双线框的IoU为最大的参考框,就是困难样本。可以确保不遗漏一些边缘处的正样本,实现边缘处的困难样本挖掘,此时,如果按照图2(c)和(d)的方式划分文本行GroundTruth,则可能会丢弃一些边缘处的正样本。因此,本实施例采用的HEM策略有效改善了因为漏检边缘处的正样本而出现的左右边界不足的情况。
水平方向边界回归目标函数的第三项在预测的车号候选框的中心点的横坐标cx过程中,使用边界敏感的细粒度文本框精确定位策略(Boundary Sensitive Fine-grain text location,BSF),即将手工标记的整个车号文本行GroundTruth分割成固定宽度的小GroundTruth,一个车号的文本行GroundTruth划分为6至10个固定宽度的小GroundTruth;在计算确定左右边界的小GroundTruth的中心坐标/>时,以整个文本行GroundTruth的右边界为起点,向左延伸固定像素宽生成小GroundTruth,或以整个文本行GroundTruth的左边界为起点,向右延伸固定像素宽生成小GroundTruth,以保证紧凑包围车号信息。
示意性地,以小GroundTruth的固定宽度取16像素为例,从左至右划分整个文本行GroundTruth时,最后一个小GroundTruth如果不足16像素宽,则以整个文本行GroundTruth的右边界为起点,向左延伸16像素宽生成小GroundTruth,图2(c)为本实施例的边界敏感细粒度文本框精确定位BSF策略得到的GroundTruth划分方式示意图,虚线框为右边界的小GroundTruth。同理,图2-(d)的虚线框为左边界的小GroundTruth。可以看出,该方法有效地改善了左右边界冗余的情况。
其中,设定阈值为[0.5,0.7]区间内的固定值。
因此,在回归和选取正样本的两个阶段,分别采取了不同的GroundTruth划分方式。既能保证回归边界的准确性,又能保证选取合理的正样本。
进一步地,当车号区域在列车全景图中占比小于0.3%时,在特征提取时加入特征金字塔网络。
从编组站采集到的真实数据集中,图像尺寸很大,且大小多变。在训练和测试过程中都要将长边缩放至1000像素,高度按同等比例缩放。在原图中占比小于0.3%的目标经缩放后,宽或高通常只有几像素至十几像素,常规的目标定位方法已很难检测到。鉴于实际车号尺寸多变,定位模型既需要能检测到大车号也能检测到小车号。本实施例通过加入特征金字塔网络,解决多尺度问题,融合特征金字塔网络的中层和高层特征,优选地,取第4层和第5层,用于预测车号区域的坐标和得分,解决不同分辨率的车号定位问题。
具体地:
A:通过卷积网络执行特征提取的计算,得到由底层到高层不同层次的特征。
B:将高层特征做上采样,然后对其相邻的低层进行卷积操作之后,将二者进行融合,得到一个新的特征图。
利用高层和低层融合,得到的不同融合层,在这些不同的融合层上生成尺寸不同的参考框,分别进行回归和分类操作,生成列车车号文本候选区域。
S3根据列车车号定位网络训练输出的列车车号区域对列车车号识别网络进行训练。
车号识别网络为Attention-OCR网络。
S4将需要识别的列车全景图进行尺寸调整,并输入到已训练好的车号定位网络,得到精确定位的列车车号区域。
该步骤中的尺寸调整与步骤S1相同,都是将全景图按照同比例缩放至高度为600像素的图片或者是宽度为1000像素的图片。
其中,车号区域指仅包含车号数字的区域,一般情况下列车车号位数为7位,精确定位是指定位的区域框紧密包围车号,既不遗漏数字或数字的局部部件,也不包含冗余的区域。
S5将所述列车车号区域输入到训练好的车号识别网络进行识别,得到车号数字识别结果。
将得到的列车车号区域输入到训练好的Attention-OCR网络进行识别,经过卷积层,编码层和解码层对特征序列的处理,得到具体车号内容,输出7位车号数字识别结果
以下为采用上述方法进行的仿真实验:
由于列车表面连续的7个数字文本是所需的车号信息,其他字母、汉字和标识符都是干扰文本。因此在定位和识别的过程中仅需要识别出车号信息即可,绕过其他信息的干扰。
本仿真实施例按照训练集和测试集约为2:1的比例,对采集的列车全景图进行划分。测试集用于测试和评估该方法的效果,与训练集没有交集。
实验过程中共随机标注了4352幅来自于某货运火车站的监控摄像头拍摄到的列车全景图作为训练集,每幅图像均包含一个车号区域。测试集采用与训练集没有交集的随机标注的2109幅图像。
对车号定位与车号识别结果的公用评价指标有3个:精确率、召回率、F1-Measure(F1值)。F1-Measure是精确率与召回率的调和平均值。精确率表示定位或识别得到的正确结果个数与所有定位或识别结果总数之间的比率,召回率表示定位或者识别得到的正确结果个数与所有手工标注的GroundTruth个数之间比值。3个指标均在0和1之间,越接近1说明效果越好。
列车车号定位采用本实施例的列车车号定位网络。实验环境为Ubuntu 16.04,计算机配备Tesla K40c显卡。输入图像可以是任意大小,将输入图像的宽高按照同比例缩放,直到高度为600像素,如果此时宽度超过1000像素,则继续缩小输入图像,直到图像的宽度为1000像素。生成参考框时,设置其宽度为固定宽度16像素,IoU选取了0.5。
本仿真实施例采用的特征金字塔网络为将特征提取层的第5层连接1*1的卷积层得到newp5层。
将高层特征(newp5)做2倍上采样,其次对第4层进行1×1卷积操作之后,将二者进行融合,得到一个新的特征图(newp4)。在新的特征层上根据newp5层特征生成宽度固定为16,高度从11至283以0.7倍均匀变化的参考框;根据newp4层特征生成宽度固定为16,高度从6至142以0.7均匀变化的参考框。
边界敏感的细粒度文本框策略和困难样本挖掘策略中,一个完整的文本行GroundTruth共划分为6个固定宽度为16的小GroundTruth。
采用现有技术的基础网络进行车号定位,得到的精确率、召回率、F1指标分别为0.86、0.81、0.83(指标在0和1之间,越接近1说明效果越好。)。
在基础网络上仅增加水平方向回归层,得到的精确率、召回率和F1指标分别提升至0.89、0.84和0.86,在水平方向回归层中增加边界敏感的细粒度文本框精确定位策略和困难样本挖掘策略,精确率、召回率和F1指标提升至0.99、0.92和0.94,通过再加入特征金字塔网络,召回率进一步提升为0.93。
在测试集中,仅有58幅小车号图像(车号区域在整幅图像中面积占比0.21%-0.3%),加入特征金字塔网络的定位方法可以检测到43幅小车号图像,没有加入特征金字塔网络的定位方法仅可以检测到6幅小车号图像,证明了特征金字塔网络对小车号的有效性。
列车车号识别采用本实施例的列车车号识别网络。实验环境为Ubuntu 16.04,计算机配备Tesla K40c显卡。识别网络的输入是上个步骤中车号定位网络的输出。训练和测试车号识别网络过程中,输入的车号区域图像的高均缩放到32大小,宽度按同比例缩放。编码器的隐藏层特征数为256,解码器隐藏层的特征数是512,训练过程共迭代20000次。车号字符识别的F1指标从基础网络的0.89提升到了0.94。
图3和图4分别为两组列车车号定位和识别结果对比示意图,参照图3和图4,每组图的上行为基础深度学习网络定位结果,下行为本实施例的定位结果,定位结果为虚线框所标示的区域。参照图3,本实施例的车号识别结果为6281442。百度云通用文本识别***的识别结果有三个:(1)G70;(2)6261442已改造;(3)轻油。参照图4,本实施例的车号识别结果为5073546。百度云通用文本识别***的识别结果有两个:(1)一级艮;(2)N17AK5075546。
本领域技术人员应能理解上述仿真实施例仅为举例,其他现有的或今后可能出现的应用类型如可适用于本发明实施例,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解,图1仅为简明起见而示出的各类网络元素的数量可能小于一个实际网络中的数量,但这种省略无疑是以不会影响对发明实施例进行清楚、充分的公开为前提的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于深度学习的列车车号精确定位与识别方法,其特征在于,包括:
采集列车全景图,对所述全景图进行尺寸调整;
构建列车车号定位网络,并将调整后的全景图作为训练集对所述列车车号定位网络进行训练;所述的构建的列车车号定位网络的目标函数如下式(1)所示,以目标函数最小化为最终目标:
其中,是判断是否为车号的可信度预测损失;/>是车号候选区域的垂直方向坐标预测损失;/>是车号候选区域的水平方向坐标预测损失;Si表示第i个参考框预测为车号或非车号的概率值,即第i个参考框属于和不属于车号的得分;/>是GroundTruth的分类得分;i是训练样本,即参考框的索引;Vj是第j个参考框的纵坐标和高度组成的向量;/>是GroundTruth的纵坐标和高度组成的向量;j是位于y方向回归范围内的参考框的索引,cx是预测的车号候选框的中心点的横坐标;/>是GroundTruth的中心点的横坐标;/>是参考框的中心点的横坐标;w(a)是参考框的宽度;k是位于x方向回归范围内的参考框的索引,/>采用Softmax损失;/>采用smooth L1损失;λ12是经验参数,分别为1.0和2.0;Ns表示在优化目标函数迭代过程中参考框的数量;NV表示位于y方向回归范围内的参考框的数量;Nd表示位于x方向回归范围内的参考框的数量;
根据列车车号定位网络输出的列车车号区域对列车车号识别网络进行训练;
将需要识别的列车全景图进行尺寸调整,并输入到已训练好的列车车号定位网络,得到精确定位的列车车号区域;
将所述列车车号区域输入到训练好的列车车号识别网络进行识别,得到车号数字识别结果;
所述的将调整后的全景图作为训练集对所述列车车号定位网络进行训练,包括:根据困难样本挖掘策略,对困难样本的Si *记为1,所述的困难样本为:与车号区域左右边界一定范围内的小文本段GroundTruth的IoU超过设定阈值,或者与所述小文本段GroundTruth的IoU为最大值;
在预测车号候选框的中心点的横坐标cx过程中,使用边界敏感的细粒度文本框精确定位策略,将手工标记的整个车号文本行GroundTruth分割成固定宽度的小GroundTruth,一个车号的文本行GroundTruth划分为6至10个固定宽度的小GroundTruth;在计算确定左右边界的小GroundTruth的中心坐标cx *时,以整个文本行GroundTruth的右边界为起点,向左延伸固定像素宽生成小GroundTruth,或以整个文本行GroundTruth的左边界为起点,向右延伸固定像素宽生成小GroundTruth。
2.根据权利要求1所述的方法,其特征在于,所述的将需要识别的全景图进行尺寸调整的过程包括:将全景图按照同比例缩放至高度为600像素的图片或者是宽度为1000像素的图片。
3.根据权利要求1所述的方法,其特征在于,所述的j是位于y方向回归范围内的参考框的索引,需要满足与GroundTruth的面积交并比率大于设定阈值的参考框;所述的k是位于x方向回归范围内的参考框的索引需要满足位于车号GroundTruth右边界向右延伸w(a)像素宽度,或者GroundTruth左边界向左延伸w(a)像素宽度内的所有参考框。
4.根据权利要求1或3所述的方法,其特征在于,所述的设定阈值为[0.5,0.7]区间内的固定值。
5.根据权利要求1所述的方法,其特征在于,所述的列车车号识别网络为Attention-OCR网络。
6.根据权利要求1所述的方法,其特征在于,所述的将调整后的全景图作为训练集对所述列车车号定位网络进行训练,包括:当车号区域在列车全景图中占比小于0.3%时,在特征提取时加入特征金字塔网络。
CN201911166263.9A 2019-11-25 2019-11-25 基于深度学习的列车车号精确定位与识别方法 Active CN110991447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911166263.9A CN110991447B (zh) 2019-11-25 2019-11-25 基于深度学习的列车车号精确定位与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911166263.9A CN110991447B (zh) 2019-11-25 2019-11-25 基于深度学习的列车车号精确定位与识别方法

Publications (2)

Publication Number Publication Date
CN110991447A CN110991447A (zh) 2020-04-10
CN110991447B true CN110991447B (zh) 2024-05-17

Family

ID=70086514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911166263.9A Active CN110991447B (zh) 2019-11-25 2019-11-25 基于深度学习的列车车号精确定位与识别方法

Country Status (1)

Country Link
CN (1) CN110991447B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926637B (zh) * 2021-02-08 2023-06-09 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种文本检测训练集的生成方法
CN113283418B (zh) * 2021-04-15 2024-04-09 南京大学 一种文本检测攻击方法
CN113327426B (zh) * 2021-05-26 2022-09-09 国能朔黄铁路发展有限责任公司 一种车型码识别方法、装置以及车号码识别方法、装置
CN113371035B (zh) * 2021-08-16 2021-11-23 山东矩阵软件工程股份有限公司 一种列车信息的识别方法和识别***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及***
CN110472633A (zh) * 2019-08-15 2019-11-19 南京拓控信息科技股份有限公司 一种基于深度学习的列车车号检测和识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI431559B (zh) * 2010-10-29 2014-03-21 Univ Nat Chiao Tung 車牌偵測辨識方法及其系統

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及***
CN110472633A (zh) * 2019-08-15 2019-11-19 南京拓控信息科技股份有限公司 一种基于深度学习的列车车号检测和识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Training Cascade Compact CNN With Region-IoU for Accurate Pedestrian;Yun Zhao等;《IEEE Transactions on Intelligent Transportation Systems》;20190813;第21卷(第9期);全文 *

Also Published As

Publication number Publication date
CN110991447A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991447B (zh) 基于深度学习的列车车号精确定位与识别方法
Bang et al. Encoder–decoder network for pixel‐level road crack detection in black‐box images
CN109447018B (zh) 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN111951212A (zh) 对铁路的接触网图像进行缺陷识别的方法
CN111709416B (zh) 车牌定位方法、装置、***及存储介质
CN111489339B (zh) 高速铁路***螺栓备母缺陷的检测方法
CN111428875A (zh) 图像识别方法、装置及相应模型训练方法、装置
CN112633149B (zh) 一种域自适应雾天图像目标检测方法和装置
CN111079746B (zh) 铁路货车轴箱弹簧故障图像识别方法
Hadjidemetriou et al. Automated detection of pavement patches utilizing support vector machine classification
CN114742799B (zh) 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN111008574A (zh) 一种基于形体识别技术的重点人员轨迹分析方法
CN116468730A (zh) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN113052159A (zh) 一种图像识别方法、装置、设备及计算机存储介质
CN111046950A (zh) 一种图像处理方法、装置、存储介质和电子装置
CN113515968A (zh) 街道的异常事件检测方法、装置、设备及介质
CN111881984A (zh) 一种基于深度学习的目标检测方法和装置
CN115601682A (zh) 井下皮带运输机异物检测方法和装置
Yamazaki et al. Vehicle extraction and speed detection from digital aerial images
CN115546742A (zh) 一种基于单目热红外摄像头的铁轨异物识别方法及***
Zhang et al. Image-based approach for parking-spot detection with occlusion handling
CN113486856A (zh) 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法
CN113158954A (zh) 交通非现场的基于ai技术的斑马线区域自动检测方法
CN117294818A (zh) 一种用于机场施工的工地全景监控方法
CN116843983A (zh) 路面病害识别方法、模型训练方法、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant