CN111539416A

CN111539416A - 一种基于深度神经网络的文本检测目标提取关系的端到端方法

Info

Publication number: CN111539416A
Application number: CN202010350060.1A
Authority: CN
Inventors: 丛建亭; 侯进; 黄贤俊
Original assignee: Shenyuan Hengji Technology Co ltd
Current assignee: Shenyuan Hengji Technology Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-14

Abstract

本发明公开了一种基于深度神经网络的文本检测目标提取关系的端到端方法，属于计算机视觉技术领域。所述方法在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块，从而实现检测目标是否匹配的训练和预测。通过将文字结构化提取做到深度学习网络结构中，实现端到端的提取功能，从而达到节省提取功能的维护成本目的。本发明所述基于深度神经网络的方法，在文本检测中能够实现端到端的训练和预测，能够达到鲁棒性强，无需再使用规则库进行关系提取，从而降低提取关系资源开发和维护成本。

Description

一种基于深度神经网络的文本检测目标提取关系的端到端方法

技术领域

本发明属于计算机视觉技术领域，特别是涉及基于深度神经网络的文本检测目标提取关系的端到端方法。

技术背景

OCR(Optical Character Recognition光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将文字图像翻译成计算机文字的过程。目前，深度学***，并在生成环境中得到大规模使用。然而，现有技术中，在文字识别后，通常会对识别结果进行结构化提取，目前大多数结构化提取功能是通过建立规则库来实现的，例如基于先验知识的枚举，模板规则，通常这类方法需要针对具体问题编写大量代码，开发和维护成本高，泛化性能差，不够鲁棒，可维护性较差。

发明内容

针对上述技术问题，本发明提出了一种基于深度神经网络的文本检测目标提取关系的端到端方法，将文字结构化提取做到深度学习网络结构中，实现端到端的提取功能，从而达到节省提取功能的维护成本目的。

本发明包含以下技术方案：

一种基于深度神经网络的文本检测目标提取关系的端到端方法，在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块，从而实现检测目标是否匹配的训练和预测。本方法通过将文本目标匹配关系显式标注，从而实现文本目标匹配关系的端到端训练和预测，具有较好的鲁棒性，同时维护成本非常低。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，所述检测目标的匹配关系判断模块只针对前景roi(感兴趣区域region of interest)特征序列相互之间的匹配关系进行判断。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，所述前景roi特征序列和背景roi特征序列的确定方法具体为：通过该roi的位置坐标与真值位置的iou交集来确定，当iou交集高于0.50时认定是前景，低于0.50时则认定是背景。其中，iou(Intersection-Over-Union)的定义为：两个矩形框(bounding box)的重叠度，矩形框A、B的重叠度iou计算方法：iou＝(A∩B)/(A∪B),即A、B矩形框的重叠面积与他们面积的并集之比。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，所述检测目标的匹配关系判断模块具体包括以下流程：

(1)获取前景roi序列特征；

(2)将任意两个前景roi特征联接；

(3)基于标注真值判断联接的两个前景roi特征是否存在匹配关系，如果匹配，则训练的类别标签设置成1，如果不匹配，则训练的类别标签设置成0；

(4)将联接后的特征向量再经过特征提取网络，并进行分类识别，从而实现任意两个拼接的前景roi特征判断。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，所述步骤(2)中每个roi特征形状是1*1*1024，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*2048。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，所述步骤(2)中每个roi特征形状是1*1*512，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*1024。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，所述步骤(2)中每个roi特征形状是1*1*2048，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*4096。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，所述文本检测基础框架为任意的二阶段的目标检测算法，如Faster RCNN、R2CNN、mask_rcnn中的任意一种。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，基于Faster RCNN框架下，在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，具体流程如下：

(1)输入图像；

(2)第一阶段：通过RPN网络(区域生成网络Region Proposal Network)提取目标候选区域，生成roi特征序列；

(3)第二阶段：第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络分离出前景roi特征序列和背景roi特征序列，然后通过文本检测目标匹配关系判断模块对前景roi特征序列相互之间的匹配关系进行判断。

作为可选方式，在上述文本检测目标提取关系的端到端方法中，具体包括以下步骤：

(1)输入图像；

(2)第一阶段：通过RPN网络提取目标候选区域，生成roi特征序列；

(3)第二阶段：第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络，通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列，当iou交集高于0.50时认定是前景，低于0.50时则认定是背景；然后随机筛选出两个前景roi特征，每个roi特征形状是1*1*1024，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*2048；对于任意两个拼接的前景roi特征，基于标注真值判断这两个前景roi特征是否存在匹配关系，如果匹配，则训练的类别标签设置成1，如果不匹配，则训练的类别标签设置成0；将第2步的特征向量再经过全连接或卷积层特征提取网络，再送入softmax分类识别，最终输出文本目标匹配关系判断结果。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本发明的有益效果：

本发明所述基于深度神经网络的方法，在文本检测中能够实现端到端的训练和预测，能够达到鲁棒性强，无需再使用规则库进行关系提取，从而降低提取关系资源开发和维护成本。

附图说明：

图1为本发明实施例1中采用的Faster RCNN的网络结构示意图；

图2为本发明实施例1中在RCNN网络结构中增加文本检测目标匹配关系判断模块的示意图；

图3为roi前景目标关系判断模块实现流程示意图；

具体实施方式：

以下通过实施例的具体实施方式对本发明的上述内容作进一步的详细说明。但不应当将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明的精神和原则之内做的任何修改，以及根据本领域普通技术知识和惯用手段做出的等同替换或者改进，均应包括在本发明的保护范围内。

实施例1

一种基于深度神经网络的文本检测目标提取关系的端到端方法，基于FasterRCNN框架下，在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块，从而实现检测目标是否匹配的训练和预测(如图2所示)。

目前文本检测技术方案或采用Faster RCNN等两阶段深度网络结构，或采用YOLO等单阶段深度网络结构，本实施例所述的端到端方案采用Faster RCNN两阶段深度网络结构实现，该技术网络结构通常图1所示。

本实施例所述方法具体包括以下步骤：

(1)输入图像；

(3)第二阶段：第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络，通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列，当iou交集高于0.50时认定是前景，低于0.50时则认定是背景；然后随机筛选出两个前景roi特征，每个roi特征形状是1*1*1024，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*2048；对于任意两个拼接的前景roi特征，基于标注真值判断这两个前景roi特征是否存在匹配关系，如果匹配，则训练的类别标签设置成1，如果不匹配，则训练的类别标签设置成0；将第(2)步的特征向量再经过全连接或卷积层特征提取网络，再送入softmax分类识别，最终输出文本检测结果(如图3所示)。

该方法基于深度神经网络在文本检测中能够实现端到端的训练和预测，能够达到鲁棒性强，无需再使用规则库进行关系提取，从而降低提取关系资源开发和维护成本。

实施例2

一种基于深度神经网络的文本检测目标提取关系的端到端方法，基于RCNN框架下，在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块，从而实现检测目标是否匹配的训练和预测。

本实施例所述方法具体包括以下步骤：

(1)输入图像；

(2)第一阶段：通过RPN提取目标候选区域，生成roi特征序列；

(3)第二阶段：第一阶段推送的roi特征序列进入第二阶段RCNN网络，通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列，当iou交集高于0.50时认定是前景，低于0.50时则认定是背景；然后随机筛选出两个前景roi特征，每个roi特征形状是1*1*2048，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*4096；对于任意两个拼接的前景roi特征，基于标注真值判断这两个前景roi特征是否存在匹配关系，如果匹配，则训练的类别标签设置成1，如果不匹配，则训练的类别标签设置成0；将第(2)步的特征向量再经过全连接或卷积层特征提取网络，再送入softmax分类识别，最终输出文本检测结果。

实施例3

一种基于深度神经网络的文本检测目标提取关系的端到端方法，基于FasterRCNN框架下，在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块，从而实现检测目标是否匹配的训练和预测。

本实施例所述方法具体包括以下步骤：

(1)输入图像；

(2)第一阶段：通过RPN提取目标候选区域，生成roi特征序列；

(3)第二阶段：第一阶段推送的roi特征序列进入第二阶段RCNN网络，通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列，当iou交集高于0.50时认定是前景，低于0.50时则认定是背景；然后随机筛选出两个前景roi特征，每个roi特征形状是1*1*512，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*1024；对于任意两个拼接的前景roi特征，基于标注真值判断这两个前景roi特征是否存在匹配关系，如果匹配，则训练的类别标签设置成1，如果不匹配，则训练的类别标签设置成0；将第(2)步的特征向量再经过全连接或卷积层特征提取网络，再送入softmax分类识别，最终输出文本检测结果。

以上所述仅为本发明的优选实施例，对本发明而言仅是说明性的，而非限制性的；本领域普通技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效变更，但都将落入本发明的保护范围。

Claims

1.一种基于深度神经网络的文本检测目标提取关系的端到端方法，其特征在于，在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块，从而实现检测目标是否匹配的训练和预测。

2.根据权利要求1所述的文本检测目标提取关系的端到端方法，其特征在于，所述检测目标的匹配关系判断模块只针对前景roi特征序列相互之间的匹配关系进行判断。

3.根据权利要求2所述的文本检测目标提取关系的端到端方法，其特征在于，所述前景roi特征序列和背景roi特征序列的确定方法具体为：通过该roi的位置坐标与真值位置的iou交集来确定，当iou交集高于0.50时认定是前景，低于0.50时则认定是背景。

4.根据权利要求1所述的文本检测目标提取关系的端到端方法，其特征在于，所述检测目标的匹配关系判断模块具体包括以下流程：

(1)获取前景roi序列特征；

(2)将任意两个前景roi特征联接；

5.根据权利要求4所述的文本检测目标提取关系的端到端方法，其特征在于，所述步骤(2)中每个roi特征形状是1*1*1024，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*2048。

6.根据权利要求1所述的文本检测目标提取关系的端到端方法，其特征在于，所述文本检测基础框架为任意的二阶段的目标检测算法。

7.根据权利要求1所述的文本检测目标提取关系的端到端方法，其特征在于，所述文本检测基础框架为Faster RCNN、R2CNN、mask_rcnn中的一种。

8.根据权利要求1所述的文本检测目标提取关系的端到端方法，其特征在于，基于Faster RCNN框架下，在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块。

9.根据权利要求8所述的文本检测目标提取关系的端到端方法，其特征在于，具体流程如下：

(1)输入图像；

10.根据权利要求9所述的文本检测目标提取关系的端到端方法，其特征在于，具体包括以下步骤：

(1)输入图像；

(3)第二阶段：第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络，通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列，当iou交集高于0.50时认定是前景，低于0.50时则认定是背景；然后随机筛选出两个前景roi特征，每个roi特征形状是1*1*1024，将这两个特征进行concat联接，从而得到联接后的特征向量形状是1*1*2048；对于任意两个拼接的前景roi特征，基于标注真值判断这两个前景roi特征是否存在匹配关系，如果匹配，则训练的类别标签设置成1，如果不匹配，则训练的类别标签设置成0；将第2步的特征向量再经过全连接或卷积层特征提取网络，再送入softmax分类识别，最终输出文本检测结果。