CN111046886A - 号码牌自动识别方法、装置、设备及计算机可读存储介质 - Google Patents
号码牌自动识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111046886A CN111046886A CN201911276472.9A CN201911276472A CN111046886A CN 111046886 A CN111046886 A CN 111046886A CN 201911276472 A CN201911276472 A CN 201911276472A CN 111046886 A CN111046886 A CN 111046886A
- Authority
- CN
- China
- Prior art keywords
- character
- model
- number plate
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种号码牌自动识别方法、装置、设备及计算机可读存储介质。其中,方法包括利用检测目标为person的目标检测模型从包含至少一个运动员图块的待处理图像中提取运动员目标区域,然后通过文字检测模型从目标区域提取文字区域,并基于文字识别模型对文字区域中文字部分进行识别,得到初始号码信息,最后利用树形过滤算法对初始号码信息进行筛选,得到图像中各运动员对应的一组号码值;文字检测模型为基于CTPN算法,利用训练样本集训练循环神经网络和卷积神经网络相结合的端到端网络模型所得;文字识别模型利用号码牌训练样本集训练卷积循环网络模型所得。本申请可以高效、准确地识别运动员号码牌,有利于提高马拉松运动员照片的识别准确率。
Description
技术领域
本申请涉及基于深度学习的目标检测及识别技术领域,特别是涉及一种号码牌自动识别方法、装置及计算机可读存储介质。
背景技术
近年来,全球马拉松赛事数量呈井喷式增长,仅2018年10月在中国举办的马拉松赛事达81场之多。由于其低门槛,轻装备且无场地、时间、气候等限制,吸引了众多专业选手以及业余爱好者的参与,这对赛事的服务和传播提出了很大的挑战。其中,将赛事期间为运动员拍摄的照片进行精确分类并推送是一项具有挑战性的赛事服务工作。
2018年11月举办的第32届杭州马拉松,参与人数达35000人;同期在美国纽约举办的2018纽约马拉松参与人数达50000人。以杭州马拉松为例,若举办方为每位参与者拍4张以上照片,则照片数量将超过140000张。目前多数马拉松比赛都是通过人工的方式对所拍摄的照片进行分类,然后为运动员进行推送。这种方式效率低,成本高,并且运动员需要在完成比赛数日后,才能获得自身在比赛中的照片。另外,马拉松比赛赛程较长,若运动员单独请摄影师进行全程拍摄,则同样需要花费高额费用。因此,这就需要有一个高效精确的图像识别方法来对大量的照片进行分类和推送。
通过识别运动员号码牌对采集的照片进行识别分类是目前一些马拉松比赛中常用的方法之一。这种方法主要分为两类。一类是通过使用传统的场景文字识别检测对运动员号码牌进行检测识别。另一类是基于深度学习的方法对运动员号码牌进行检测识别。
传统的场景文字识别检测方法首先需要对人体进行检测,通常使用DPM等算法,此类算法大多都是先计算梯度方向直方图,然后利用SVM训练得到物体的梯度模型,利用该模型进行人体的识别分类;接着需要对运动员号码牌进行定位,通常使用k-均值聚类(k-means clustering)、AdaBoost算法和联合概率的方法等,此类方法基本都是训练一个分类器,通过该分类器对号码牌进行定位;在定位后,使用字符分割方法对号码牌上的字符进行分割,主要使用投影法(Projection Method),连通区域分析等方法;最后通过使用OCR(Optical Character Recognition)技术,模板匹配等方法对分割后的字符进行识别。传统的场景文字识别检测方法虽然在速度上优于人工分类的方法,但容易受到光照,号码牌扭曲变形等因素的影响,存在计算复杂度高,精度低等问题,导致分类效果差,在进行照片推送时运动员可能收到较多不属于自身的照片。
目前基于深度学习的方法在很多方面领先于传统的计算机视觉技术,但也存在着诸多弊端:场景文字检测方法中,TextBoxes为一个基于SSD(Single Shot MultiBoxDetector)的自然场景下的文本检测模型,该模型是将一个单词作为物体,对整个单词直接进行检测。但由于该模型使用了默认框,当遇到文字区域过长等问题将导致检测效果不佳。另外,由于在马拉松比赛过程中拍摄的照片由于天气,光线等问题,号码牌部分的文字可能存在反光,模糊等问题,该模型无法进行有效的检测。举例来说,PhotoOCR方法是先对单个字符进行检测,接着使用深度卷积神经网络对检测的字符进行识别。但这种方法需要能够准确检测并裁剪每个字符,才能准确的识别图像中的文字。而另外一种相关技术方法需要将场景文本识别视为图像分类问题,即为每个单词分配一个类标签。这使得模型分类的类别数量非常多,导致该模型存在泛化性差的问题。此外,比较流行的深度模型像DCNN需要对具有固定维度的输入和输出进行操作,因此无法直接应用于序列预测。
鉴于此,如何高效、准确地识别运动员号码牌,以用于对马拉松运动员照片进行识别分类,是本领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种号码牌自动识别方法、装置及计算机可读存储介质,可以高效、准确地识别运动员号码牌,有利于提高马拉松运动员照片的识别准确率。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种号码牌自动识别方法,包括:
利用预先构建的目标检测模型从待处理图像中提取目标区域,所述目标区域包含至少一个运动员图块;
通过预先构建的文字检测模型从所述目标区域提取文字区域;
基于预先构建的文字识别模型对所述文字区域中文字部分进行识别,得到初始号码信息;
对所述初始号码信息利用树形过滤算法进行筛选,得到至少一组号码值,作为所述待处理图像包含运动员的号码牌识别结果;所述号码值组数与所述目标区域包含的运动员图块个数保持一致;
其中,所述目标检测模型的检测目标为person,所述文字检测模型为基于CTPN算法,利用训练样本集训练端到端网络模型所得,所述端到端网络模型为循环神经网络和卷积神经网络相结合生成的训练模型;所述文字识别模型利用号码牌训练样本集训练卷积循环神经网络模型所得。
可选的,所述目标检测模型为利用训练样本集训练YOLOv3网络模型所生成,所述YOLOv3网络模型的检测目标为person。
可选的,所述利用预先构建的目标检测模型从待处理图像中提取目标区域之后,还包括:
按照预设第一图像标准尺寸值对所述目标区域进行规范化处理,以使规范化处理后的目标区域的尺寸与所述第一图像标准尺寸值保持一致。
可选的,所述第一图像标准尺寸值为150×371。
可选的,所述通过预先构建的文字检测模型从所述目标区域提取文字区域之后,还包括:
按照预设第二图像标准尺寸值对所述文字区域进行规范化处理,以使规范化处理后的文字区域的尺寸与所述第二图像标准尺寸值保持一致。
可选的,所述第二图像标准尺寸值为280×83。
可选的,所述目标检测模型的相似度阈值为98.7,且所述目标检测模型提取的目标区域中至多包含4个运动员图块。
本发明实施例另一方面提供了一种号码牌自动识别装置,包括:
目标提取模块,用于利用预先构建的目标检测模型从待处理图像中提取目标区域,所述目标区域包含至少一个运动员图块;
文字检测模块,用于通过预先构建的文字检测模型从所述目标区域提取文字区域;所述文字检测模型为基于CTPN算法,利用训练样本集训练端到端网络模型所得,所述端到端网络模型为循环神经网络和卷积神经网络相结合生成的训练模型;
文字识别模块,用于基于预先构建的文字识别模型对所述文字区域中文字部分进行识别,得到初始号码信息;所述文字识别模型利用号码牌训练样本集训练卷积循环神经网络模型所得;
结果筛选模块,用于对所述初始号码信息利用树形过滤算法进行筛选,得到至少一组号码值,作为所述待处理图像包含运动员的号码牌识别结果;所述号码值组数与所述目标区域包含的运动员图块个数保持一致。
本发明实施例还提供了一种号码牌自动识别装置,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述号码牌自动识别方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有号码牌自动识别程序,所述号码牌自动识别程序被处理器执行时实现如前任一项所述号码牌自动识别方法的步骤。
本申请提供的技术方案的优点在于,通过将每张照片的运动员图像块作为目标区域进行提取,不仅可降低后续图像处理的数据量,还可消除无关图像块的干扰,从而有利于提高后续模型识别准确度;基于CTPN算法对筛选出的运动员的图像块进行文字识别,有效剔除了外在环境中存在的文字,极大的提升了文字识别的效率,降低了最终号码牌筛选的难度;采用CRNN针对该实际需解决的问题进行迁移学习,能够快速高效地识别出相关的文字;由于运动员身上可能存在其他文字部分,因此为了消除干扰,使用树形过滤算法对初始识别结果进行筛选,最终可以得到准确度高的运动员号码牌的文字部分,实现了高效、准确地运动员号码牌识别,有利于提高马拉松运动员照片的识别准确率。
此外,本发明实施例还针对号码牌自动识别方法提供了相应的实现装置及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种号码牌自动识别方法的流程示意图;
图2为本发明实施例提供的采集图像中包含运动员个数与图像符合要求的统计结果示意图;
图3为本发明实施例提供的文字识别模型的损失值统计结果示意图;
图4为本发明实施例提供的号码牌自动识别装置的一种具体实施方式结构图;
图5为本发明实施例提供的号码牌自动识别装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种号码牌自动识别方法的流程示意图,本发明实施例可包括以下内容:
S101:利用预先构建的目标检测模型从待处理图像中提取目标区域。
在本申请中,待处理图像中至少有一个运动员,也就是说,本申请针对的是对同一张图像中多个运动员进行识别。目标检测模型的检测目标为person,用于识别图像中的人像并将识别出来的图像块进行提取,可采用任何一种可识别目标的图像识别算法和图像块提取算法,本申请对此不作任何限定。将待处理图像输入至目标检测模型中,目标检测模型的输出即为提取待处理图像的运动员图像块,若待处理图像包含多个运动员,相应的,目标区域包含至少一个运动员图块。
S102:通过预先构建的文字检测模型从目标区域提取文字区域。
可以理解的是,运动员号码牌文字识别过程中,号码牌上的文字会受到光照,扭曲等干扰。利用传统的方法进行检测时,首先需要对号码牌进行定位,接着对号码牌区域进行二值化处理,最后通过合理的分割方法进行分割。这类方法的检测流程复杂,若遇到光照,扭曲等问题时,将导致无法准确检测。为了解决此类问题,可采用基于深度学习的端到端的文字检测模型,本申请可采用的文字检测模型为基于CTPN算法,利用训练样本集训练端到端网络模型所得,端到端网络模型为循环神经网络和卷积神经网络相结合生成的训练模型。CTPN(Detecting Text in Natural Image with Connectionist Text ProposalNetwork)算法将循环神经网络和卷积神经网络相结合,形成了端到端的可训练模型。该网络引入了一种垂直锚点机制,并提出了一种在卷积特征映射中连接序列文本提议的网络内循环机制,能够准确的定位自然图像中的文本行,包括图像中极其模糊的文本。能够有效地检测自然场景下受到光照,扭曲等干扰的文字。由于CTPN算法能够较为准确的检测图像中的所有文字,因此除了号码牌中的文字,其他区域的文字同样会被检测到。这导致模型存在着检测量大,模型整体效率低的问题。通过所设计的预处理模块提取图像中的运动员,使CTPN仅对图像中运动员进行文字检测,从而有效地减少检测量。
S103:基于预先构建的文字识别模型对文字区域中文字部分进行识别,得到初始号码信息。
在马拉松运动员号码牌的识别中,不同的马拉松比赛可能号码牌上号码的长短不相同,并且识别会受到光照,遮挡,扭曲等因素的影响。使得一般的文字识别方法在该问题上很难有较高的准确率。本申请的文字识别模型可利用号码牌训练样本集训练卷积循环神经网络模型所得。
CRNN(Convolutional Recurrent Neural Network,卷积循环网络)为目前较为优秀的文字识别通用框架,能够应用于各类涉及图像序列预测的领域和问题。在CRNN中可使用连接时间分类(CTC)层中定义的条件概率。条件概率被定义为由映射到l上的所有π的概率之和,也即可表示为:
其中,π的概率定义为:
式中,l为给定为标签序列,y是输入序列,字符集合L′=LU{blank},把L′T中的元素看作路径并且用π表示,是时刻t时有标签πt的概率。CTC方法支持直接对未分割的序列上预测标签,从而使得CRNN能够直接在粗粒度的标签(例如单词)上运行,在训练阶段不需要详细标注每一个单独的元素(例如字符)。
S104:对初始号码信息利用树形过滤算法进行筛选,得到至少一组号码值,作为待处理图像包含运动员的号码牌识别结果。
可以理解的是,S103使用的文字检测模型CRNN会识别图像中的所有文字,即使通过预处理模块减少了文字检测量,但由于运动员所穿服饰可能也存在文字,这将导致存在多个识别结果,无法对照片进行正确分类。也就是说,初始号码信息中可能会包含一些英文字母、非号码牌上的数字信息以及文字信息,而本申请为了得到准确的号码牌信息,可对初始号码信息进行过滤,将非数字的字母或文字检测并删除,基于号码牌的属性信息去除非号码牌上的数字信息,属性信息例如由紧挨着的若干位数字号码组成,举例来说,号码牌为4位数值,若初始号码信息中包含一组3位或5位数值信息,那么这组数值信息必不为号码牌上的信息。此外,若号码值组数与目标区域包含的运动员图块个数保持一致,也就是说,若S101中的目标区域包含4个运动员,那么S104输出的号码牌识别结果为4组号码信息。
本申请的树形过滤算法以输入图像作为根,识别出来的每个运动员作为子节点。对于每个运动员识别出来的文字作为子节点。统计这些子节点相同规则的个数,将个数最多的作为号码牌识别结果,删除其他节点。基于此,本申请的树形过滤算法的流程可如下所述:
在本发明实施例提供的技术方案中,通过将每张照片的运动员图像块作为目标区域进行提取,不仅可降低后续图像处理的数据量,还可消除无关图像块的干扰,从而有利于提高后续模型识别准确度;基于CTPN算法对筛选出的运动员的图像块进行文字识别,有效剔除了外在环境中存在的文字,极大的提升了文字识别的效率,降低了最终号码牌筛选的难度;采用CRNN针对该实际需解决的问题进行迁移学习,能够快速高效地识别出相关的文字;由于运动员身上可能存在其他文字部分,因此为了消除干扰,使用树形过滤算法对初始识别结果进行筛选,最终可以得到准确度高的运动员号码牌的文字部分,实现了高效、准确地运动员号码牌识别,有利于提高马拉松运动员照片的识别准确率。
作为一种可选的实施方式,目标检测模型可为利用训练样本集训练YOLOv3网络模型所生成,YOLOv3网络模型的检测目标为person。为了提高目标检测模型的准确度和效率,目标检测模型的相似度阈值可设置为98.7,且目标检测模型提取的目标区域中至多包含4个运动员图块。YOLOv3基础网络结构为Darknet-53,采用全卷积并引入残差结构,能够进行多尺度预测,每种尺度预测三个box。
为了提高后续图像的处理速度,S101在提取出图像中符合要求的运动员子图后,可能存在图像大小不一的问题,为了方便模型后续的处理和检测,可对提取出的运动员子图进行规范化处理,例如可按照预设第一图像标准尺寸值对目标区域进行规范化处理,以使规范化处理后的目标区域的尺寸与所述第一图像标准尺寸值保持一致,例如可将提取出的运动员子图的大小统一为150×371,也即第一图像标准尺寸值为150×371。
作为另外一种可选的实施方式,通过CTPN提取出运动员身上的相关文字后,为了方便后续的文字识别等处理,需要对提取的结果进行规范化处理。可按照预设第二图像标准尺寸值对文字区域进行规范化处理,以使规范化处理后的文字区域的尺寸与所述第二图像标准尺寸值保持一致。例如可将提取出的文字图像的大小统一为280×83,也即第二图像标准尺寸值为280×83。
为了验证本申请技术方案的有效性,本申请还提供了验证性实验,可包括下述内容:
针对本发明所设计的马拉松运动员号码牌识别模型,采集了一定量的数据对其进行实验。拍摄了3000张不同场次的马拉松比赛的运动员的照片,其中包括终点处和比赛途中的照片,以此作为模型的原始数据集MARD。另外,从原始数据集中随机选取了1000张照片,将其分成800张和200张两组图,对其中每个运动员的号码牌进行人工的裁剪,并将裁剪后的图缩放为280×32。将这两组图制作为号码牌数据集MANUMD,并作为文字识别模型的训练集和测试集。
在预处理模块中,通过实验确定了两个阈值:相似度阈值和检测阈值。
相似度阈值:若相似度阈值设置过低,则可能导致将跑道两侧存在一定遮挡的工作人员以及观众提取出来作为后续检测目标;若相似度阈值设置过高,可能无法检测到部分运动员。因此本申请通过实际的测试统计,将相似度阈值设定为98.7。仅当该目标的相似度高于98.7时,才提取该目标进行后续的检测识别。该阈值虽然会导致少数存在遮挡等情况的运动员无法被检测到,但是能够有效剔除跑道两侧的观众和工作人员。
检测阈值:(1)对不同的马拉松比赛过程中对运动员拍摄的3000张照片通过数理统计方法进行分析。首先将3000张照片随机排序后进行编号;然后,从其中抽取300张样本,通过公式计算抽样的分段间隔k,N为样本总量如3000,n为抽样总数如300,则k为10。
采用随机抽样的方法从第一组抽取编号为6的图像,再依次抽取编号为16,26,…,2986,2996,以此得到样本容量为300的样本。根据实际需求可知,需要将分类后的照片推送给对应的运动员,因此该运动员应为照片中的主体且不存在严重遮挡。这里规定:运动员需在照片中对焦清晰且无遮挡。当满足该条件时才对运动员进行检测。通过对抽取的300样本进行统计,发现每张照片中运动员数量超过4人且满足规定的照片所占比重低于1%。统计分析结果如图2所示,横坐标为图像中包含的运动员个数,纵坐标为满足要求图像的个数。因此,根据分析后得到的数据以及实际需求,本申请将检测阈值设置为4,即至多提取4人进行号码牌的检测与识别,使得模型更加符合实际需求。
根据所要解决的实际问题,将YOLOv3的检测目标设置为person,即仅对人进行检测。实验中使用的CPU为Intel(R)Core(TM)i7-6700k,GPU为NVIDIA GeForce GTX 1080,内存为16G。首先在一个3600000的文字数据集(包含中文,英文,数字)上对文字识别模型进行训练。在该文字数据集上训练后,文字识别模型的识别精度达到98.37%。接着,将预训练的文字识别模型利用本申请制作的号码牌数据集进行迁移学习。图3展示了对文字识别模型进行微调,迭代300次的损失值的结果图,横坐标为迭代次数,纵坐标为损失值,最后模型在测试集上的精度为0.935。
利用所采集的马拉松运动员的原始数据集对SSD和YOLOv3进行对比实验发现:(1)在该数据集上,SSD对运动员的检测精度为96.89%;YOLOv3对运动员的检测精度为95.69%。SSD和YOLOv3都能够较准确的检测图像中的运动员。(2)两者在对数据集中同一张图像进行检测时,SSD需要花费49ms,而YOLOv3仅需21ms。因此,在相同条件下,YOLOv3在检测速度上是SSD的2倍。
利用从原始数据集中裁剪得到的号码牌数据集对二者进行对比实验发现:Tesseract对于受到光照,扭曲,模糊等情况影响的号码牌无法准确识别,对于未受到此类情况影响的号码牌能够较为准确的识别,而基于CRNN的文字识别模型能够较好地处理各类情况。由于自然场景下,号码牌几乎都会受到光照,扭曲等因素的影响,因此,使得Tesseract在裁剪得到的号码牌数据集上的识别精度仅为0.15,而迁移学习后的文字识别模型在该数据集上的识别精度为0.935。
本发明实施例还针对号码牌自动识别方法提供了相应的装置,进一步使得所述方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的号码牌自动识别装置进行介绍,下文描述的号码牌自动识别装置与上文描述的号码牌自动识别方法可相互对应参照。
基于功能模块的角度,参见图4,图4为本发明实施例提供的号码牌自动识别装置在一种具体实施方式下的结构图,该装置可包括:
目标提取模块401,用于利用预先构建的检测目标为person的目标检测模型从待处理图像中提取目标区域,目标区域包含至少一个运动员图块。
文字检测模块402,用于通过预先构建的文字检测模型从目标区域提取文字区域;文字检测模型为基于CTPN算法,利用训练样本集训练端到端网络模型所得,端到端网络模型为循环神经网络和卷积神经网络相结合生成的训练模型。
文字识别模块403,用于基于预先构建的文字识别模型对文字区域中文字部分进行识别,得到初始号码信息;文字识别模型利用号码牌训练样本集训练卷积循环神经网络模型所得。
结果筛选模块404,用于对初始号码信息利用树形过滤算法进行筛选,得到至少一组号码值,作为待处理图像包含运动员的号码牌识别结果;号码值组数与目标区域包含的运动员图块个数保持一致。
可选的,在本实施例的一些实施方式中,所述装置例如还可以包括归一化处理模块,所述归一化处理模块用于按照预设第一图像标准尺寸值对目标区域进行规范化处理,以使规范化处理后的目标区域的尺寸与第一图像标准尺寸值保持一致;以及按照预设第二图像标准尺寸值对文字区域进行规范化处理,以使规范化处理后的文字区域的尺寸与第二图像标准尺寸值保持一致。
本发明实施例所述号码牌自动识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可以高效、准确地识别运动员号码牌,有利于提高马拉松运动员照片的识别准确率。
上文中提到的号码牌自动识别装置是从功能模块的角度描述,进一步的,本申请还提供一种号码牌自动识别装置,是从硬件角度描述。图5为本申请实施例提供的另一种号码牌自动识别装置的结构图。如图5所示,该装置包括存储器50,用于存储计算机程序;
处理器51,用于执行计算机程序时实现如上述实施例提到的号码牌自动识别方法的步骤。
其中,处理器51可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器51可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器51也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器51可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器51还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器50可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器50还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器50至少用于存储以下计算机程序501,其中,该计算机程序被处理器51加载并执行之后,能够实现前述任一实施例公开的测试方法的相关步骤。另外,存储器50所存储的资源还可以包括操作***502和数据503等,存储方式可以是短暂存储或者永久存储。其中,操作***502可以包括Windows、Unix、Linux等。数据203可以包括但不限于测试结果对应的数据等。
在一些实施例中,号码牌自动识别装置还可包括有显示屏52、输入输出接口53、通信接口54、电源55以及通信总线56。
本领域技术人员可以理解,图5中示出的结构并不构成对号码牌自动识别装置的限定,可以包括比图示更多或更少的组件。
本发明实施例所述号码牌自动识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可以高效、准确地识别运动员号码牌,有利于提高马拉松运动员照片的识别准确率。
可以理解的是,如果上述实施例中的号码牌自动识别方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,存储有号码牌自动识别程序,所述号码牌自动识别程序被处理器执行时如上任意一实施例所述号码牌自动识别方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可以高效、准确地识别运动员号码牌,有利于提高马拉松运动员照片的识别准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种号码牌自动识别方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种号码牌自动识别方法,其特征在于,包括:
利用预先构建的目标检测模型从待处理图像中提取目标区域,所述目标区域包含至少一个运动员图块;
通过预先构建的文字检测模型从所述目标区域提取文字区域;
基于预先构建的文字识别模型对所述文字区域中文字部分进行识别,得到初始号码信息;
对所述初始号码信息利用树形过滤算法进行筛选,得到至少一组号码值,作为所述待处理图像包含运动员的号码牌识别结果;所述号码值组数与所述目标区域包含的运动员图块个数保持一致;
其中,所述目标检测模型的检测目标为person,所述文字检测模型为基于CTPN算法,利用训练样本集训练端到端网络模型所得,所述端到端网络模型为循环神经网络和卷积神经网络相结合生成的训练模型;所述文字识别模型利用号码牌训练样本集训练卷积循环神经网络模型所得。
2.根据权利要求1所述的号码牌自动识别方法,其特征在于,所述目标检测模型为利用训练样本集训练YOLOv3网络模型所生成,所述YOLOv3网络模型的检测目标为person。
3.根据权利要求2所述的号码牌自动识别方法,其特征在于,所述利用预先构建的目标检测模型从待处理图像中提取目标区域之后,还包括:
按照预设第一图像标准尺寸值对所述目标区域进行规范化处理,以使规范化处理后的目标区域的尺寸与所述第一图像标准尺寸值保持一致。
4.根据权利要求3所述的号码牌自动识别方法,其特征在于,所述第一图像标准尺寸值为150×371。
5.根据权利要求4所述的号码牌自动识别方法,其特征在于,所述通过预先构建的文字检测模型从所述目标区域提取文字区域之后,还包括:
按照预设第二图像标准尺寸值对所述文字区域进行规范化处理,以使规范化处理后的文字区域的尺寸与所述第二图像标准尺寸值保持一致。
6.根据权利要求4所述的号码牌自动识别方法,其特征在于,所述第二图像标准尺寸值为280×83。
7.根据权利要求1至6任意一项所述的号码牌自动识别方法,其特征在于,所述目标检测模型的相似度阈值为98.7,且所述目标检测模型提取的目标区域中至多包含4个运动员图块。
8.一种号码牌自动识别装置,其特征在于,包括:
目标提取模块,用于利用预先构建的目标检测模型从待处理图像中提取目标区域,所述目标区域包含至少一个运动员图块;
文字检测模块,用于通过预先构建的文字检测模型从所述目标区域提取文字区域;所述文字检测模型为基于CTPN算法,利用训练样本集训练端到端网络模型所得,所述端到端网络模型为循环神经网络和卷积神经网络相结合生成的训练模型;
文字识别模块,用于基于预先构建的文字识别模型对所述文字区域中文字部分进行识别,得到初始号码信息;所述文字识别模型利用号码牌训练样本集训练卷积循环神经网络模型所得;
结果筛选模块,用于对所述初始号码信息利用树形过滤算法进行筛选,得到至少一组号码值,作为所述待处理图像包含运动员的号码牌识别结果;所述号码值组数与所述目标区域包含的运动员图块个数保持一致。
9.一种号码牌自动识别设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述号码牌自动识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有号码牌自动识别程序,所述号码牌自动识别程序被处理器执行时实现如权利要求1至7任一项所述号码牌自动识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911276472.9A CN111046886B (zh) | 2019-12-12 | 2019-12-12 | 号码牌自动识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911276472.9A CN111046886B (zh) | 2019-12-12 | 2019-12-12 | 号码牌自动识别方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046886A true CN111046886A (zh) | 2020-04-21 |
CN111046886B CN111046886B (zh) | 2023-05-12 |
Family
ID=70236753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911276472.9A Active CN111046886B (zh) | 2019-12-12 | 2019-12-12 | 号码牌自动识别方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046886B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832556A (zh) * | 2020-06-04 | 2020-10-27 | 国家***南海调查技术中心(国家***南海浮标中心) | 一种基于深度学习的船舷字符精准检测方法 |
CN112069886A (zh) * | 2020-07-31 | 2020-12-11 | 许继集团有限公司 | 一种变电站呼吸器状态智能识别方法及*** |
CN112580632A (zh) * | 2020-12-24 | 2021-03-30 | 南方电网深圳数字电网研究院有限公司 | 铭牌识别方法、***、电子设备及计算机可读存储介质 |
CN113901925A (zh) * | 2021-10-12 | 2022-01-07 | 苏州大学 | 文本识别方法、装置、电子设备及可读存储介质 |
CN114141108A (zh) * | 2021-12-03 | 2022-03-04 | 中国科学技术大学 | 助盲语音辅助阅读设备及方法 |
WO2022047662A1 (en) * | 2020-09-02 | 2022-03-10 | Intel Corporation | Method and system of neural network object recognition for warpable jerseys with multiple attributes |
WO2022147965A1 (zh) * | 2021-01-09 | 2022-07-14 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅*** |
CN114943976A (zh) * | 2022-07-26 | 2022-08-26 | 深圳思谋信息科技有限公司 | 模型生成的方法、装置、电子设备和存储介质 |
CN114973225A (zh) * | 2022-05-07 | 2022-08-30 | 中移互联网有限公司 | 号牌识别方法、装置及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110111524A1 (en) * | 2006-04-04 | 2011-05-12 | Singulex, Inc. | Highly Sensitive System and Method for Analysis of Troponin |
CN107609108A (zh) * | 2017-09-13 | 2018-01-19 | 杭州景联文科技有限公司 | 一种基于号码牌识别和人脸识别的运动员照片分拣方法 |
CN108564064A (zh) * | 2018-04-28 | 2018-09-21 | 北京宙心科技有限公司 | 一种基于视觉高效ocr识别算法 |
CN108717543A (zh) * | 2018-05-14 | 2018-10-30 | 北京市商汤科技开发有限公司 | 一种***识别方法及装置、计算机存储介质 |
CN108921152A (zh) * | 2018-06-29 | 2018-11-30 | 清华大学 | 基于物体检测网络的英文字符切分方法及装置 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及*** |
US20190019052A1 (en) * | 2017-07-14 | 2019-01-17 | Adobe Systems Incorporated | Text Region Detection in Digital Images using Image Tag Filtering |
WO2019057067A1 (zh) * | 2017-09-20 | 2019-03-28 | 众安信息技术服务有限公司 | 图像质量评估方法及装置 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
WO2019200781A1 (zh) * | 2018-04-18 | 2019-10-24 | 平安科技(深圳)有限公司 | 票据识别方法、装置及存储介质 |
-
2019
- 2019-12-12 CN CN201911276472.9A patent/CN111046886B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110111524A1 (en) * | 2006-04-04 | 2011-05-12 | Singulex, Inc. | Highly Sensitive System and Method for Analysis of Troponin |
US20160202270A1 (en) * | 2006-04-04 | 2016-07-14 | Singulex, Inc. | Highly Sensitive System and Method for Analysis of Troponin |
US20190019052A1 (en) * | 2017-07-14 | 2019-01-17 | Adobe Systems Incorporated | Text Region Detection in Digital Images using Image Tag Filtering |
CN107609108A (zh) * | 2017-09-13 | 2018-01-19 | 杭州景联文科技有限公司 | 一种基于号码牌识别和人脸识别的运动员照片分拣方法 |
WO2019057067A1 (zh) * | 2017-09-20 | 2019-03-28 | 众安信息技术服务有限公司 | 图像质量评估方法及装置 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
WO2019200781A1 (zh) * | 2018-04-18 | 2019-10-24 | 平安科技(深圳)有限公司 | 票据识别方法、装置及存储介质 |
CN108564064A (zh) * | 2018-04-28 | 2018-09-21 | 北京宙心科技有限公司 | 一种基于视觉高效ocr识别算法 |
CN108717543A (zh) * | 2018-05-14 | 2018-10-30 | 北京市商汤科技开发有限公司 | 一种***识别方法及装置、计算机存储介质 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及*** |
CN108921152A (zh) * | 2018-06-29 | 2018-11-30 | 清华大学 | 基于物体检测网络的英文字符切分方法及装置 |
Non-Patent Citations (2)
Title |
---|
任水林: ""交互式***可视识别与分析"", 《计算机辅助设计与图形学学报》 * |
王欣: ""基于多小波收缩与子带增强的图像去噪方法"", 《中国仪器仪表学会第六届青年学术会议论文集》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832556A (zh) * | 2020-06-04 | 2020-10-27 | 国家***南海调查技术中心(国家***南海浮标中心) | 一种基于深度学习的船舷字符精准检测方法 |
CN112069886A (zh) * | 2020-07-31 | 2020-12-11 | 许继集团有限公司 | 一种变电站呼吸器状态智能识别方法及*** |
WO2022047662A1 (en) * | 2020-09-02 | 2022-03-10 | Intel Corporation | Method and system of neural network object recognition for warpable jerseys with multiple attributes |
CN112580632A (zh) * | 2020-12-24 | 2021-03-30 | 南方电网深圳数字电网研究院有限公司 | 铭牌识别方法、***、电子设备及计算机可读存储介质 |
WO2022147965A1 (zh) * | 2021-01-09 | 2022-07-14 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅*** |
CN113901925A (zh) * | 2021-10-12 | 2022-01-07 | 苏州大学 | 文本识别方法、装置、电子设备及可读存储介质 |
CN114141108A (zh) * | 2021-12-03 | 2022-03-04 | 中国科学技术大学 | 助盲语音辅助阅读设备及方法 |
CN114973225A (zh) * | 2022-05-07 | 2022-08-30 | 中移互联网有限公司 | 号牌识别方法、装置及设备 |
CN114973225B (zh) * | 2022-05-07 | 2023-10-27 | 中移互联网有限公司 | 号牌识别方法、装置及设备 |
CN114943976A (zh) * | 2022-07-26 | 2022-08-26 | 深圳思谋信息科技有限公司 | 模型生成的方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111046886B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046886B (zh) | 号码牌自动识别方法、装置、设备及计算机可读存储介质 | |
Zhu et al. | Scene text detection and recognition: Recent advances and future trends | |
Busta et al. | Fastext: Efficient unconstrained scene text detector | |
Busta et al. | Deep textspotter: An end-to-end trainable scene text localization and recognition framework | |
Sun et al. | A robust approach for text detection from natural scene images | |
Neumann et al. | Real-time lexicon-free scene text localization and recognition | |
Goodfellow et al. | Multi-digit number recognition from street view imagery using deep convolutional neural networks | |
Shahab et al. | ICDAR 2011 robust reading competition challenge 2: Reading text in scene images | |
Foggia et al. | Benchmarking HEp-2 cells classification methods | |
WO2020125057A1 (zh) | 牲畜个数的识别方法及装置 | |
Song et al. | Unsupervised Alignment of Actions in Video with Text Descriptions. | |
Zheng et al. | A cascaded method for text detection in natural scene images | |
CN109919060A (zh) | 一种基于特征匹配的身份证内容识别***及方法 | |
Hobson et al. | HEp-2 staining pattern recognition at cell and specimen levels: datasets, algorithms and results | |
Elguebaly et al. | Simultaneous high-dimensional clustering and feature selection using asymmetric Gaussian mixture models | |
CN106203539A (zh) | 识别集装箱箱号的方法和装置 | |
Zhang et al. | Automatic discrimination of text and non-text natural images | |
Pirrone et al. | Papy-s-net: A siamese network to match papyrus fragments | |
CN105117740A (zh) | 字体识别方法及装置 | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
Waqar et al. | Meter digit recognition via Faster R-CNN | |
Pan et al. | Improving scene text detection by scale-adaptive segmentation and weighted CRF verification | |
CN115062186A (zh) | 一种视频内容检索方法、装置、设备以及存储介质 | |
CN104966109A (zh) | 医疗化验单图像分类方法及装置 | |
Manivannan et al. | Hep-2 specimen classification using multi-resolution local patterns and SVM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |