CN110516665A

CN110516665A - 识别图像叠加文字区域的神经网络模型构建方法与***

Info

Publication number: CN110516665A
Application number: CN201910786101.9A
Authority: CN
Inventors: 周康明
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-29

Abstract

本申请的目的是通过识别图像叠加文字区域的神经网络模型构建，首选获取由带有叠加文字区域的样本图像组成的数据训练集，其中，所述样本图像的叠加文字区域已基于坐标值进行标注，然后基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值，完成可识别图像叠加文字区域的神经网络模型的构建。利用该神经网络模型对图像的各种类型的叠加文字区域进行识别，识别效果具有很高鲁棒性，识别效率高，对硬件资源占用少，具有非常好的市场价值。

Description

识别图像叠加文字区域的神经网络模型构建方法与***

技术领域

本申请涉及计算机图像处理技术领域，尤其涉及一种用于识别图像叠加文字区域的神经网络模型构建的技术。

背景技术

目前电子警察图像已成为交通管理部门处理交通违法的重要证据。通常电子警察图像由多张连拍照片组成，在图像上方或下方叠加一些文字信息，以说明例如抓拍时间、地点、目标车辆车牌号码等。而在对这些叠加了文字信息的电子警察图像进行智能审核时，往往需要将这些图像拆分成单张图片以便进行车辆行为以及场景信息的识别。

然而在图像上叠加文字往往会影响对图像有效部分、有效信息的正确识别。目前常规的做法是结合图像上叠加文字区域的像素值与有效区域的像素值之间的对比度，将图像进行灰度变换，接着利用灰度投影的变化识别文字区域叠加的边界，从而识别叠加文字区域。此种方法的鲁棒性不好，对于图像的叠加文字区域像素值与有效区域像素值之间的对比度不明显的情况，文字区域边界就不容易识别；还有一种情况是有些文字区域是直接叠加在图像的有效区域上或有部分重叠的，这种情况下传统方法也无法准确识别文字叠加区域的边界。

发明内容

本申请的目的是提供一种用于识别图像叠加文字区域的神经网络模型构建方法与***。

根据本申请的一个方面，提供了一种用于识别图像叠加文字区域的神经网络模型构建的方法，其特征在于，所述方法包括：

获取由带有叠加文字区域的样本图像组成的数据训练集，其中，所述样本图像的叠加文字区域已基于坐标值进行标注；

基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值。

优选地，所述基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值之前，所述方法还包括：

扩充所述数据训练集，其中，扩充所述数据训练集的方式包括以下至少任一项：

对已标注的所述样本图像进行随机裁剪，将随机裁剪后的样本图像作为新的样本图像；

通过模拟相机程序随机生成图像，并随机生成叠加文字区域叠加至所述图像上以作为新的样本图像。

优选地，所述改进的神经网络模型为基于yolo v3裁剪之后的神经网络模型。

优选地，所述基于yolo v3裁剪之后的神经网络模型结构是四组卷积与下采样全局池化层，然后连接三个卷积层，然后连接一个上采样层以及两个卷积层。

优选地，所述识别图像叠加文字区域的神经网络模型构建的方法还包括：

设置所述基于yolo v3裁剪之后的神经网络模型的anchor初始化参数。

优选地，所述随机生成叠加文字区域包括：

确定所述叠加文字区域的大小预设范围、背景颜色预设范围以及所述叠加文字区域中的文字格式预设范围；

基于上述预设范围随机从数据库中获取对应的背景颜色及文字格式，随机生成对应的叠加文字区域。

设置随机生成叠加文字区域的预设数目，随机生成对应所述预设数目的叠加文字区域。

获取待检测图像；

将所述待检测图像输入所述神经网络模型识别所述待检测图像中的叠加文字区域；

若验证所述叠加文字区域的识别无误，则从所述待检测图像中剪掉所述叠加文字区域，获得所述待检测图像的剩余部分；

对所述待检测图像的剩余部分进行图像分析。

与现有技术相比，本申请通过识别图像叠加文字区域的神经网络模型构建，首选获取由带有叠加文字区域的样本图像组成的数据训练集，其中，所述样本图像的叠加文字区域已基于坐标值进行标注，然后基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值，完成可识别图像叠加文字区域的神经网络模型的构建。利用该神经网络模型对图像的各种类型的叠加文字区域进行识别，识别效果具有很高鲁棒性，识别效率高，对硬件资源占用少，具有非常好的市场价值。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种识别图像叠加文字区域的神经网络模型构建方法流程图；

图2示出根据本申请另一个方面的一种识别图像叠加文字区域的神经网络模型构建***框图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，***各模块和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及优选实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面的一种识别图像叠加文字区域的神经网络模型构建方法流程图，其中，一个实施例的方法包括：

S11获取由带有叠加文字区域的样本图像组成的数据训练集，其中，所述样本图像的叠加文字区域已基于坐标值进行标注；

S12基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值。

在本申请中，所述方法通过设备1执行，所述设备1为计算机设备和/或云，所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集；所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。在此，所述计算机设备和/或云仅为举例，其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

在该实施例中，在所述步骤S11中，获取由带有叠加文字区域的样本图像组成的数据训练集，其中，所述带有叠加文字区域的样本图像中的叠加文字区域已基于坐标值进行标注。其中，获取相应的带有叠加文字区域的样本图像的方式可以是通过用户将带有叠加文字区域的样本图像上传至设备1来获取，上传方式可以是扫描、拍照或者拷贝，或者还可以是通过网络将带有叠加文字区域的样本图像发送到设备1，或者还可以是设备1通过网络接受带有叠加文字区域的样本图像来获取，在此，所述获取方式仅为举例，其他方式如适用于本申请也应包含在本申请的保护范围内。

所述带有叠加文字区域的样本图像可以是在照片、图片或图像的非有效区域叠加了文字信息的照片、图片或者图像，例如叠加了拍摄时间、地点、目标车辆车牌号码等文字信息的电子警察图像，在此，所述电子警察图像仅为举例，其他具有类似特征的图像如适用于本申请也应包含在本申请的保护范围内。

具体地，在带有叠加文字区域的样本图像的有效区域周围的一个或多个方向，例如上方或下方有叠加文字，将所述样本图像划分出叠加文字区域和图像区域，叠加文字区域作为前景，将图像区域作为背景，对前景基于坐标值进行标注，标注前景的坐标值，对于图像的有效区域内或与有效区域有重叠的叠加文字区域，有效区域内或重叠的叠加文字区域视为图像的背景一部分，不作为前景来标注。

所述基于坐标值标注可以是把样本图像最左上角作为坐标原点，把可以唯一确认前景的一个或一组点的坐标都标注出来。作为标注基础的坐标原点还可以是其它标注方式，任何基于坐标原点可以唯一标注出前景的标注方式都包含在本申请范围之内。

具体地，所述步骤S12之前，所述方法还包括：

扩充所述数据训练集，其中，扩充所述数据训练集的方式可以按如下方式进行：

对已标注的所述样本图像进行随机裁剪，将随机裁剪后的样本图像作为新的样本图像，其中，所述对已标注的所述样本图像进行随机裁剪，包括但不限于基于样本图像裁剪出多个包含文字的新样本图像，其中，裁剪后的多个包含文件的新样本图像是基于已标注的样本图像，其中前景坐标已知，无需再行标注。

扩充所述数据训练集的方式还可以按如下方式进行：

优选地，所述随机生成叠加文字区域包括：

确定所述叠加文字区域的大小预设范围、背景颜色预设范围以及所述叠加文字区域中的文字格式预设范围，例如，随机输入可确定文字区域范围的数值，通常文字区域为长方形区域，可以输入文字区域宽高的固定值，也可以输入文字区域宽高的范围值，随机输入文字区域内文字个数或行数范围，可以输入文字的固定个数或行数，也可以输入文字的个数或行数范围，随机组合输入字体颜色和文字区域背景颜色的取值或取值范围，基于文字区域的宽高范围或文字个数或行数范围可以准确地确定文本区域大小，基于文字字体，随机从预设字符数据库中提取文字，基于文字字体颜色和文字区域背景颜色取值范围，从预设颜色数据库中组合选取字体颜色和文字区域背景颜色，需要指出的是，字体颜色和文字区、域背景颜色的取值应可以较直观地区分出文字和文字区域背景。

基于上述预设范围随机从数据库中获取对应的背景颜色及文字格式，随机生成对应的叠加文字区域，具体地，将基于叠加文字区域的大小预设范围、文字格式预设范围提取的文字叠加在基于背景颜色预设范围设置好的文字区域背景颜色的文字区域上，形成叠加文字区域。

优选地，在随机输入文字区域相关参数时，还可以设置随机生成叠加文字区域的预设数目，随机生成对应所述预设数目的叠加文字区域，将叠加文字区域叠加在模拟相机程序随机生成图像上，例如，叠加在随机生成图像的上方或下方，生成新的样本图像，其中，由于叠加文字区域规格明确，在叠加到随机生成图像时程序可自动计算叠加文字区域的坐标值并标注，得到已基于坐标值标注的新的样本图像。

将所述数据训练集中的样本图像缩放至预设尺寸。其中，预设尺寸可根据样本图像特点、对神经网络的预期训练效果、设备1性能等因素确定，例如，结合叠加文字区域的特点，可将输入改进的神经网络模型的样本图像尺寸预设为112x112，在硬件配置要求不太高的情况下，将此尺寸的图像输入改进的神经网络模型也可以获得预期结果。

在该实施例中，在所述步骤S12中，所述基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值。

优选地，所述改进的神经网络模型为基于yolo v3裁剪之后的神经网络模型。其中，结合叠加文字区域图像特点，在yolov3网络基础上，删除了yolov3网络部分卷积层以及池化层，缩减了保留的卷积层的通道数，在可以确保获得预期效果情况下可降低对硬件的要求，以及减少计算耗时。

优选地，所述基于yolo v3裁剪之后的神经网络模型结构是四组卷积与下采样全局池化层，然后连接三个卷积层，然后连接一个上采样层以及两个卷积层。其中，经过卷积与下采样全局池化，可提取到样本图像的边缘信息、梯度变化、纹理信息等基本特征，继而进行上采样，将基本特征中的浅层特征与深层特征进行融合，增强特征的鲁棒性，然后进行叠加文字区域，即前景检测，获得检测得分。

基于yolov3网络原理，对于每个目标，预测一个boundingbox(边界框)，其中包括5个参数值：x(x轴坐标)，y(y轴坐标)，w(宽度)，h(高度)，confidence。(x，y)坐标表示boundingbox相对于网格单元边界框的中心，w和h是相对于整张图像预测得到的boundingbox的宽度和高度，confidence表示预测的boundingbox的置信度。每个网格单元还预测C个条件类别概率，如果样本图像只有1个前景类别，则预测的这个条件类别概率，即为该前景类别的相应检测得分，如果样本图像有C个条件类别，则每个类别都会有相应的条件类别概率，即每个类别都会得到相应检测得分。

可选地，采用相同方法获取样本图像组成测试数据集，用于测试已构建完成的神经网络模型，并采用mAP指标对已构建完成的神经网络模型识别图像叠加文字区域的效果进行评价。

设置所述基于yolo v3裁剪之后的神经网络模型的anchor初始化参数。其中，结合样本图像的特点，例如，叠加文字区域均在宽度或高度方向上基本贯穿整个图像区域的宽度或高度，则可考虑将yolov3网络中的3x3个anchorbox(锚框，或称预测框)简化为2x3个anchorbox，结合样本图像中叠加文字区域特点设置anchorbox的初始化参数，例如，2x3个anchorbox的初始化检测参数分别设置为(111，10)，(110，25)，(112，15)，(112，35)，(110，30)，(111，20)。

优选地，在该实施例中，还可以包括步骤S13(未示出)，

获取待检测图像；

对所述待检测图像的剩余部分进行图像分析。

在所述步骤S13中，将获取到的待检测图像的尺寸调整成预设尺寸，例如112x112，然后输入已构建的神经网络模型进行识别，结合输出的检测得分判断所述待检测图像中是否存在叠加文字区域，若识别存在叠加文字区域，对识别存在叠加文字区域的待检测图像做验证。

在验证实施之前，可结合待检测图像的尺寸设置阈值，例如可设置待检测图像水平对称轴上下各3/5高度内、垂直对称轴左右各3/5宽度内的区域为图像的有效区域，也可以通过预设其它阈值来明确图像的有效区域。通过基于预设的阈值来验证识别出的叠加文字区域是否处于待检测图像的有效区域，若经验证基于所述神经网络模型识别出的叠加文字区域处于待检测图像有效部分内或与待检测图像的有效区域有重叠，则基于所述神经网络模型识别出的叠加文字区域不能裁剪掉，至少处于待检测图像有效部分内的叠加文字区域部分保留，若经验证基于所述神经网络模型识别出的叠加文字区域不在图像有效部分内，则将叠加文字区域裁剪掉，最终获得待检测图像的有效部分。

进一步地，可将获得的待检测图像的有效部分进行进一步处理，例如，获得的待检测电子警察图像有效部分经过处理，如做对切处理，可以得到多张证据图，可作为交通管理部门判断车辆是否具有违法行为的判断证据。

图2示出本申请另一个方面的一种识别图像叠加文字区域的神经网络模型构建***框图，其中一个优选实施例包括以下模块：

获取模块21，用于获取样本图像；

预处理模块22，用于对所述样本图像进行预处理，构建数据训练集；

神经网络模块23，用于基于所述数据训练集训练改进的神经网络模型，当输出满足预设的阈值，完成神经网络模型构建。

可选地，在本实施例中，所述***还可以包括：

识别检测模块24(未示出)，用于基于所述神经网络模型识别获得的待检测图像中的叠加文字区域；

处理模块25(未示出)，用于若经验证所述叠加文字区域的识别无误，剪掉所述叠加文字区域，获得所述待检测图像的剩余部分，对所述待检测图像的剩余部分进行图像分析。

根据本申请的又一方面，还提供了一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

根据本申请的又一方面，还提供了一种识别图像叠加文字区域的神经网络模型构建的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：获取由带有叠加文字区域的样本图像组成的数据训练集，其中，所述样本图像的叠加文字区域已基于坐标值进行标注；基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于识别图像叠加文字区域的神经网络模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述数据训练集训练改进的神经网络模型，直至输出满足预设的训练阈值之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述改进的神经网络模型为基于yolov3裁剪之后的神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述基于yolo v3裁剪之后的神经网络模型结构是四组卷积与下采样全局池化层，然后连接三个卷积层，然后连接一个上采样层以及两个卷积层。

5.根据权利要求3或4中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述随机生成叠加文字区域包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

获取待检测图像；

对所述待检测图像的剩余部分进行图像分析。

9.一种计算机可读介质，其中，

其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至8任一项所述的方法。

10.一种用于识别图像叠加文字区域的神经网络模型构建设备，其中，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至8中任一项所述方法的操作。