CN110532938B

CN110532938B - 基于Faster-RCNN的纸质作业页码识别方法

Info

Publication number: CN110532938B
Application number: CN201910793351.5A
Authority: CN
Inventors: 张东祥; 郭馨茹; 朱君; 陈李江
Original assignee: Hainan Avanti Technology Co ltd
Current assignee: Hainan Avanti Technology Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-05-24
Anticipated expiration: 2039-08-27
Also published as: CN110532938A

Abstract

本发明属于图像识别技术领域，具体涉及了一种基于Faster‑RCNN的纸质作业页码识别方法，旨在解决现有技术训练集不丰富且没有图形和/或图像结合样式的页码训练集从而导致页码识别精确度低、一些页码无法识别的问题。本发明方法包括：通过纸质作业页码定位方法计算页面图片中页码中心坐标，并使用矩形框获取页码图片；通过页码识别模型，获取对应的页码数字类别。其中，页码识别模型基于Faster‑RCNN网络构建，训练样本集、样本标签与待识别页码图片选自同一本书。本发明以同一本书的页码为数据源，进行样本扩充，针对不同样式的页码生成不同效果的样本集，并且自动生成样本对应的标签，页码识别精确度高、鲁棒性强、效率高。

Description

基于Faster-RCNN的纸质作业页码识别方法

技术领域

本发明属于图像识别技术领域，具体涉及了一种基于Faster-RCNN的纸质作业页码识别方法。

背景技术

页码识别的关键在页码印刷体数字的识别，现有的印刷体数字识别方法主要有三类：基于模版匹配的数字识别方法、基于特征分析的数字识别方法、基于人工神经网络的数字识别方法。

基于模版匹配的数字识别方法：主要问题是计算量大，并且，如果模版与需要识别的数字字体相差较大则无法识别，所以对模版的依赖性很强，导致其鲁棒性较弱，对图像的噪声和位移敏感。

基于特征分析的方法：通过提取号码图像中的具有代表性的特征达到识别该数字的目的，当前研究中的数字特征主要有：焦点特征、封闭半封闭特征、横竖直线特征、投影特征以及分区面积特征等等，但是这些特征鲁棒性不够，受数字字体、倾斜度等因素影响程度不一，直接影响到实际应用中数字识别的准确率。

基于人工神经网络的数字识别方法是当前最流行的方法，但是现有的技术问题在两点：1、现成的印刷体数字训练集不丰富；2、如果页码数字外有别的图案设计，没有数据集可以用来训练，必须针对这种设计单独生成训练集。

总的来说，一方面现有技术训练集不丰富且有很多训练集图像质量不高，从而影响页码识别的精确度，另一方面一些页码为与图形和/或图像结合的方式，没有用来训练网络的数据集，从而无法进行页码识别。

发明内容

为了解决现有技术中的上述问题，即现有技术训练集不丰富从而导致页码识别精确度低以及由于没有页码为与图形和/或图像结合方式的训练集从而导致这类页码无法识别的问题，本发明提供了一种基于Faster-RCNN的纸质作业页码识别方法，该页码识别方法包括：

步骤S10，获取包含页码的页面图片作为待处理图片；

步骤S20，基于所述待处理图片，通过预设的纸质作业页码定位方法，计算页码中心坐标，并使用设定长宽的矩形框获取页码图片；

步骤S30，依据所述页码图片，通过训练好的页码识别模型，获取待处理图片对应的页码数字类别；

其中，所述页码识别模型基于Faster-RCNN网络构建，并采用输入的页码图片生成的训练样本集、样本标签训练；所述输入的页码图片与所述待处理图片选取自同一本书。

在一些优选的实施例中，步骤S20中“基于所述待处理图片，通过预设的纸质作业页码定位方法，计算页码中心坐标，并使用设定长宽的矩形框获取页码图片”，其方法为：

步骤S21，将所述待处理图片转换为灰度图，并进行局部自适应阈值化操作，获得二值化待处理图片；

步骤S22，对所述二值化待处理图片进行线段检测，并计算各线段的倾斜角度；

步骤S23，基于所述倾斜角度计算所述二值化待处理图片的整体倾斜角度，并进行图片倾斜矫正，获得矫正后的二值化待处理图片；

步骤S24，使用Canny边缘算法检测所述矫正后的二值化待处理图片的边缘特征，并使用形态学中的腐蚀、膨胀操作，通过闭运算、开运算分别进行轮廓线填补、噪声去除，获得二次处理的二值化待处理图片；

步骤S25，提取所述二次处理的二值化待处理图片的外轮廓，获取页码中心坐标，并利用设定长宽的矩形框获取页码图片。

在一些优选的实施例中，所述训练样本集、样本标签，其生成方法为：

步骤X10，提取所述输入的页码图片的中心坐标，并以所述中心坐标为中心，对所述输入的页码图片增加设定的偏置量，获得设定种类的页码图；

步骤X20，分别基于所述设定种类的页码图中每一个页码图，利用旋转、调整亮度、模糊、设置颜色、增加随机笔迹、增加随机线条中一个或多个方法进行增广，获得训练样本集；

步骤X30，分别对所述训练样本集中每一个样本进行页码标注，获得训练样本集对应的样本标签。

在一些优选的实施例中，所述随机笔迹的字体为字体库中的随机一种或多种；所述随机笔迹、随机线条，分别为随机数量。

在一些优选的实施例中，所述页码识别模型，其训练方法为：

步骤B10，随机选取一组训练样本、样本标签，采用页码识别模型，获取所述训练样本对应的页码数字类别；

步骤B20，计算所述页码数字类别与所述样本标签的交叉熵损失值，并判断所述交叉熵损失值是否低于设定阈值以及是否达到设定的训练次数；

步骤B30，若步骤B20判断结果为所述交叉熵损失值不低于设定阈值且未达到设定的训练次数，则采用反向传播算法更新所述页码识别模型各层参数；否则跳转步骤B50；

步骤B40，采用参数更新后的页码识别模型，并重复执行步骤B10-B30；

步骤B50，完成模型训练，获得训练好的页码识别模型。

在一些优选的实施例中，还可以通过模板匹配的方法进行页码定位，其方法为：

步骤M10，剪裁获取的页面图片中页码所在区域，并将页码不可能存在的区域处理为黑色，作为模板；所述获取的页面图片与所述待处理图片选取自同一本书；

步骤M20，对所述模板以及待处理图像进行减去平均值和除以方差操作，获得标准化后的目标与待处理图像；

步骤M30，通过标准相关性匹配算法(TM_CCORR_NORMED)对标准化后的目标与待处理图像进行匹配，获得带矩形框的匹配页码区域；

步骤M40，基于所述矩形框的匹配页码区域计算页码中心坐标，并利用设定长宽的矩形框获取页码图片。

在一些优选的实施例中，所述样本标签包括：

样本数据格式信息、页码位置坐标信息、真实页码数字类别信息、样本图片面积信息。

本发明的另一方面，提出了一种基于Faster-RCNN的纸质作业页码识别***，该页码识别***包括输入模块、页码定位模块、页码识别模块、输出模块；

所述输入模块，配置为获取包含页码的页面图片作为待处理图片；

所述页码定位模块，配置为基于所述待处理图片，通过预设的纸质作业页码定位方法，计算页码中心坐标，并使用设定长宽的矩形框获取页码图片；

所述页码识别模块，配置为依据所述页码图片，获取待处理图片对应的页码数字类别；

所述输出模块，配置为输出获取的待处理图片对应的页码数字类别。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于Faster-RCNN的纸质作业页码识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于Faster-RCNN的纸质作业页码识别方法。

本发明的有益效果：

(1)本发明基于Faster-RCNN的纸质作业页码识别方法，以与待识别页码同一本书的页码为数据源，进行样本扩充及增强，避免了网络训练过程中因样本数量不足而导致的识别精确度低的问题，同时，本发明方法生成训练集的过程中，考虑了各种干扰情况，比如形变、手写字迹、线条、光线、颜色、模糊程度等，鲁棒性强。

(2)本发明基于Faster-RCNN的纸质作业页码识别方法，针对不同样式的待识别页码生成不同的训练样本集，对于一些特殊样式的页码，比如页码为图形和/或图像与数字结合的样式，相应生成对应的训练样本集，避免了页码样式的变更引起的页码识别精确度下降或无法识别的问题。

(3)本发明基于Faster-RCNN的纸质作业页码识别方法，在生成样本集的过程中通过VOC2007格式自动生成样本对应的标签，避免了人工标注，提高了效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于Faster-RCNN的纸质作业页码识别方法的流程示意图；

图2是本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的页码定位流程示意图；

图3是本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的页码及增加偏置量后的页码示例图；

图4是本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的扩充样本示例图；

图5是本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的页码识别结果可视化示例图；

图6是本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的倾斜矫正后的页面图片。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于Faster-RCNN的纸质作业页码识别方法，包括：

步骤S10，获取包含页码的页面图片作为待处理图片；

为了更清晰地对本发明基于Faster-RCNN的纸质作业页码识别方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于Faster-RCNN的纸质作业页码识别方法，包括步骤S10-步骤S30，各步骤详细描述如下：

步骤S10，获取包含页码的页面图片作为待处理图片。

本发明一个实施例中，将一本书/作业的页面保存为图片或pdf图片格式，用户上传的待处理图片必须包含页码区域，并且上传的待处理图片来自同一本书/作业的任意页面。

步骤S20，基于所述待处理图片，通过预设的纸质作业页码定位方法，计算页码中心坐标，并使用设定长宽的矩形框获取页码图片。

如图2所示，为本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的页码定位流程示意图，其具体过程为：

步骤S21，将所述待处理图片转换为灰度图，并进行局部自适应阈值化操作，获得二值化待处理图片。

局部自适应阈值化是根据像素的邻域块的像素值分布来确定该像素位置上的二值化阈值。这样做的好处在于每个像素位置处的二值化阈值不是固定不变的，而是由其周围邻域像素的分布来决定的。亮度较高的图像区域的二值化阈值通常会较高，而亮度较低的图像区域的二值化阈值则会相适应地变小。不同亮度、对比度、纹理的局部图像区域将会拥有对应的局部二值化阈值。常用的局部自适应阈值有：1)局部邻域块的均值；2)局部邻域块的高斯加权和。本发明的一个实施例中，自适应阈值通过求图片局部邻域块的高斯加权和获得。

步骤S22，对所述二值化待处理图片进行线段检测，并计算各线段的倾斜角度。

线段检测算法首先计算图像中所有点的梯度大小和方向，然后将梯度方向变化小且相邻的点作为一个连通域，接着根据每一个域的矩形度判断是否需要按照规则将其断开以形成多个矩形度较大的域，最后对生成的所有的域做改善和筛选，保留其中满足条件的域，即为最后的线段检测结果。

步骤S23，基于所述倾斜角度计算所述二值化待处理图片的整体倾斜角度，并进行图片倾斜矫正，获得矫正后的二值化待处理图片。

如图6所示，为本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的倾斜矫正后的页面图片，图片倾斜矫正作为图像的一个预处理过程，是图片具体信息的识别和提取的基础，图片倾斜矫正一方面降低了图片处理过程中的损失，另一方面减少了后续图片处理方法的计算时间。

步骤S24，使用Canny边缘算法检测所述矫正后的二值化待处理图片的边缘特征，并使用形态学中的腐蚀、膨胀操作，通过闭运算、开运算分别进行轮廓线填补、噪声去除，获得二次处理的二值化待处理图片。

本发明一个实施例中，在进行二值化图片的二次处理时，首先以闭运算的方法，使用形态学中的腐蚀、膨胀操作进行轮廓线填补；然后以开运算的方法，使用形态学中的腐蚀、膨胀操作进行噪声去除。

还可以通过模板匹配的方法进行页码定位，其方法为：

步骤M10，剪裁获取的页面图片中页码所在区域，并将页码不可能存在的区域处理为黑色，作为模板；所述获取的页面图片与所述待处理图片选取自同一本书。

步骤M20，对所述模板以及待处理图像进行减去平均值和除以方差操作，获得标准化后的目标与待处理图像。

步骤M30，通过标准相关性匹配算法(TM_CCORR_NORMED)对标准化后的目标与待处理图像进行匹配，获得带矩形框的匹配页码区域。

步骤S30，依据所述页码图片，通过训练好的页码识别模型，获取待处理图片对应的页码数字类别。

模型输出的页码数字类别，即识别出的页码，如图3中的页码示例图，其识别结果为“1”。

如图5所示，为本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的页码识别结果可视化示例图，图上采用矩形框标出了页码的具***置，并在矩形框上部进行标注，“:”之前的数字代表识别出的页码数字结果，“:”之后的数字代表识别的页码数字结果正确的概率。

训练样本集、样本标签，其生成方法为：

步骤X10，提取所述输入的页码图片的中心坐标，并以所述中心坐标为中心，对所述输入的页码图片增加设定的偏置量，获得设定种类的页码图。

如图3所示，为本发明基于Faster-RCNN的纸质作业页码识别方法一种实施例的页码及增加偏置量后的页码示例图，获得9种页码图，页码分布在页码图的不同位置，偏置量的选取要保证页码的完整性以及页码在页码图中位置的多样性。

步骤X20，分别基于所述设定种类的页码图中每一个页码图，利用旋转、调整亮度、模糊、设置颜色、增加随机笔迹、增加随机线条中一个或多个方法进行增广，获得训练样本集。

随机笔迹的字体为字体库中的随机一种或多种；随机笔迹、随机线条，分别为随机数量。

本发明一个实施例中，获得如图4所示的基于Faster-RCNN的纸质作业页码识别方法一种实施例的扩充样本示例图，其样本扩充的过程为：

第一步，对9种页码图中每一个页码图进行不同角度的旋转；

第二步，对第一步得到的所有图片进行亮度调节，使图片不同程度地变亮或变暗；

第三步，对第二步得到的所有图片进行中值模糊操作，改变图片的清晰度；

第四步，对第三步得到的所有图片添加颜色滤镜，改变图片的颜色；

第五步，从第四步获得的图片中随机选取20％，在随机位置添加随机数量的笔迹，笔迹的字体为字体库中的随机一种或多种；从第四步获得的图片中随机选取20％，在随机起始位置、终止位置添加随机数量的线条；

第六步，将第五步获得的图片，随机分为6:3:1的训练样本集、测试样本集、验证样本集。

样本标签包括：样本数据格式信息、页码位置坐标信息、真实页码数字类别信息、样本图片面积信息

页码识别模型，其训练方法为：

步骤B50，完成模型训练，获得训练好的页码识别模型。

本发明第二实施例的基于Faster-RCNN的纸质作业页码识别***，该页码识别***包括输入模块、页码定位模块、页码识别模块、输出模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于Faster-RCNN的纸质作业页码识别***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于Faster-RCNN的纸质作业页码识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于Faster-RCNN的纸质作业页码识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于Faster-RCNN的纸质作业页码识别方法，其特征在于，该页码识别方法包括：

步骤S10，获取包含页码的页面图片作为待处理图片；

步骤S20，将所述待处理图片转换为灰度图，并进行局部自适应阈值化操作，对局部自适应阈值化操作获得的二值化待处理图片进行线段检测，并计算各线段的倾斜角度，基于所述倾斜角度计算所述二值化待处理图片的整体倾斜角度，并进行图片倾斜矫正，使用Canny边缘算法检测矫正后的二值化待处理图片的边缘特征，并使用形态学中的腐蚀、膨胀操作，通过闭运算、开运算分别进行轮廓线填补、噪声去除，获得二次处理的二值化待处理图片，提取所述二次处理的二值化待处理图片的外轮廓，获取页码中心坐标，并利用设定长宽的矩形框获取页码图片；

其中，所述页码识别模型基于Faster-RCNN网络构建，并采用输入的页码图片生成的训练样本集、样本标签训练；所述输入的页码图片与所述待处理图片选取自同一本书；

所述训练样本集、样本标签，其生成方法为：

步骤X20，分别基于所述设定种类的页码图中每一个页码图，利用旋转、调整亮度、模糊、设置颜色、增加随机笔迹、增加随机线条中一个或多个方法进行增广，获得训练样本集；所述随机笔迹，其字体为字体库中的随机一种或多种；所述随机笔迹、随机线条，分别为随机数量；

2.根据权利要求1所述的基于Faster-RCNN的纸质作业页码识别方法，其特征在于，所述页码识别模型，其训练方法为：

步骤B50，完成模型训练，获得训练好的页码识别模型。

3.根据权利要求1所述的基于Faster-RCNN的纸质作业页码识别方法，其特征在于，还可以通过模板匹配的方法进行页码定位，其方法为：

步骤M30，通过标准相关性匹配算法对标准化后的目标与待处理图像进行匹配，获得带矩形框的匹配页码区域；

4.根据权利要求1所述的基于Faster-RCNN的纸质作业页码识别方法，其特征在于，所述样本标签包括：

5.一种基于Faster-RCNN的纸质作业页码识别***，其特征在于，该页码识别***包括输入模块、页码定位模块、页码识别模块、输出模块；

所述页码定位模块，配置为将所述待处理图片转换为灰度图，并进行局部自适应阈值化操作，对局部自适应阈值化操作获得的二值化待处理图片进行线段检测，并计算各线段的倾斜角度，基于所述倾斜角度计算所述二值化待处理图片的整体倾斜角度，并进行图片倾斜矫正，使用Canny边缘算法检测矫正后的二值化待处理图片的边缘特征，并使用形态学中的腐蚀、膨胀操作，通过闭运算、开运算分别进行轮廓线填补、噪声去除，获得二次处理的二值化待处理图片，提取所述二次处理的二值化待处理图片的外轮廓，获取页码中心坐标，并利用设定长宽的矩形框获取页码图片；

所述输出模块，配置为输出获取的待处理图片对应的页码数字类别；

其中，页码识别模型基于Faster-RCNN网络构建，并采用输入的页码图片生成的训练样本集、样本标签训练；所述输入的页码图片与所述待处理图片选取自同一本书；

所述训练样本集、样本标签，其生成方法为：

6.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于Faster-RCNN的纸质作业页码识别方法。

7.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-4任一项所述的基于Faster-RCNN的纸质作业页码识别方法。