CN106257496B

CN106257496B - 海量网络文本与非文本图像分类方法

Info

Publication number: CN106257496B
Application number: CN201610541508.1A
Authority: CN
Inventors: 白翔; 石葆光; 章成全
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2019-06-07
Anticipated expiration: 2036-07-12
Also published as: CN106257496A

Abstract

本发明公开了一种海量网络文本与非文本图像分类方法，首先构建多尺度空间划分网络，然后对训练图像集中的图像，获取图像的多尺度图像块标签信息，并根据构建的多尺度空间划分网络，利用标注好的训练数据集训练多尺度空间划分网络的网络参数，然后利用构建的多尺度空间划分网络以及训练得到的网络参数，对待测试的大规模网络图像进行分类，最终获取图像的分类结果，对图像是否为文本图像做出判决，并获取文本区域在图像中的大致位置。本发明方法文本与非文本图像分类准确率高，且有很高的分类效率。

Description

海量网络文本与非文本图像分类方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种海量网络文本与非文本图像分类方法。

背景技术

随着电视、互联网的飞速发展，人类社会已经逐渐迈入了信息时代，今后，人类的经济生活将以信息的占有、配置、生产、使用为主。而随着信息时代的到来，越来越多的图像视频数据以各式各样的途径传播，而这些数据包含大量的有用信息，如何从这些海量的数据中提取出这些有用的信息，将是信息时代人类能否快速高效地获取更多收益的关键。当前互联网中提供了海量的视频、图像数据，而这些海量的网络视频帧与网络图像中的文本作为一种极其重要的信息来源，可以被用来辅助于多种实际应用，包括图像检索、人机交互和驾驶导航***等等。

现有的获取图像中的文本信息的方法主要包含文本检测和文本识别两部分，因此这两个图像文本自动阅读的主要技术的研究一直是计算机领域备受关注的课题。然而，在海量传播的数据中，只有极少部分的图像包含文本，而现有的文本检测和文本识别方法受限于提取图像中文本信息的速度，很难直接用于提取这些数据中的有用文本信息，因此关于文本与非文本图像分类算法的研究具备较高的现实意义和使用价值。

发明内容

本发明的目的在于提供一种海量网络文本与非文本图像分类方法，该方法文本与非文本图像分类过程简单易行，且分类准确率高。

为实现上述目的，本发明提供了一种海量网络文本与非文本图像分类方法，包括如下步骤：

(1)多尺度空间划分网络构建，所述的多尺度空间划分网络包括多层次特征图生成子网络、多尺度图像块特征生成子网络以及文本与非文本图像块分类子网络：

(1.1)定义多层次特征图生成子网络网络结构；

(1.1.1)定义图像特征提取网络结构；

具体地，所述的图像特征提取网络结构包括五个卷积阶段，其中第一个和第二个卷积阶段的网络结构均为两个卷积层和一个最大池化层，最后三个卷积阶段的网络结构均为三个卷积层和一个最大池化层，对输入图像I，经过该图像特征提取网络可以得到各个卷积阶段的输出特征图，记为其中表示第s个卷积阶段的输出的特征图序列，M_s,m表示第m个特征图，MNum_s为预设的第s个卷积阶段输出特征图的个数；

(1.1.2)定义多层次特征图生成子网络网络结构；

具体地，对步骤(1.1.1)中所述的图像特征提取网络的第三个、第四个和第五个网络阶段之后分别接一个反卷积层，将这三个卷积阶段的输出中的所有特征图的尺度全部缩放到Wm×Hm大小，所得尺度缩放后的特征图序列记为其中Wm和Hm分别表示预设的特征图尺度缩放后特征图的宽度和高度，表示第s个卷积阶段的输出特征图序列FM_s中的每个特征图经过尺度缩放后得到的特征图序列，M′_s,m表示FM_s中第m个特征图经过尺度缩放后得到的特征图，MNum_s为预设的第s个卷积阶段输出特征图的个数，之后将FMS′中的所有特征图进行堆叠，得到多层次特征图，记为其中M″_c表示图像的多层次特征图的c个特征图，MNum＝MNum₃+MNum₄+MNum₅，表示多层次特征图中特征图个数；

(1.2)定义多尺度图像块特征生成子网络网络结构；

(1.2.1)单一尺度图像块空间划分；

具体地，对步骤(1.1)所述的多层次特征图生成子网络得到的图像多层次特征图F，将多层次特征图划分为尺度为的图像块，划分方法表示为：

这样，可以将多层次特征图划分为SP＝sp×sp个图像块，对于划分的一个图像块F^ij，在输入图像I中对应的图像块I^ij计算方法为：

其中F^ij表示将多层次特征图进行图像块划分后在第i列、第j行的图像块，x和y分别表示像素点在图像块中的横坐标和纵坐标，Wm和Hm分别表示多层次特征图的宽度和高度，W和H分别表示输入图像I的宽度和高度，sp为预设的图像块划分尺度；

(1.2.2)多尺度图像块空间划分；

具体地，预设多个不同的图像块划分尺度，记为对其中的每个划分尺度sp_k，按照步骤(1.2.1)所述的方法，对多层次特征图F进行图像块空间划分，可以得到SP_k＝sp_k×sp_k个图像块，通过多尺度图像块空间划分，得到的所有图像块序列为PS，且其中Patch_n表示第n个图像块，表示图像块总数；

(1.2.3)多尺度图像块特征提取；

具体地，对步骤(1.2.2)中对多层次特征图F进行多尺度图像块空间划分得到的图像块序列PS中的每一个图像块Patch，将图像块按行和列分别分割为Nsp份，则每个图像块Patch可以分割为SPNum＝Nsp×Nsp个子图像块，记为其中SubP_nsp表示第nsp个子图像块，然后利用一个最大池化层将每个子图像块转换为该子图像块对应的特征向量，则可以得到每个图像块Patch对应的子图像块特征向量序列，记为其中SubV_nsp表示第nsp个子图像块对应的特征向量，特征向量长度即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum，将图像块中所有子图像块对应的特征向量进行拼接，可以得到图像块对应的特征向量，记为V＝[SubV₁,...,SubV_SPNum]，则图像块特征向量长度为MNum×SPNum，对多尺度图像块空间划分得到的每一个图像块按上述方法提取图像块的特征向量，得到所有图像块的特征向量集合，记为其中V_n表示第n个图像块对应的特征向量，PNum表示图像块总数；

(1.3)定义文本与非文本图像块分类子网络网络结构；

具体地，在步骤(1.2)所述的多尺度图像块特征生成子网络之后，接一个由三个全连接层构成的文本与非文本图像块分类网络，对步骤(1.2)中所得的多尺度图像块特征向量集合VS中的每一个图像块特征向量V，通过该文本与非文本图像块分类网络进行分类判决，得到的输出Pro表示该图像块为文本图像块的概率，若Pro＞tP，则该图像块的分类结果记为1，否则分类结果为0，由此可以得到所有图像块的分类结果，记为其中Pred_n表示第n个图像块的分类结果，且Pred_n∈{0,1}，若Pred_n＝0则表示该图像块为非文本图像块，Pred_n＝1则表示该图像块为文本图像块；

(1.4)构建多尺度空间划分网络；

具体地，将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级联在一起，即为一个完整的多尺度空间划分网络；

(2)多尺度空间划分网络训练：

(2.1)对训练图像集中的每一张图像，获取多尺度图像块标签信息；

具体地，对训练图像集中的每一张图像Itr，用人工标注的方式获取图像中文本区域的位置，记为其中T表示训练图像的个数，bb_q表示图像中第q个文本区域的包围盒，Q为图像中文本区域的个数，然后按照步骤(1.2.1)所述的方法，根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度，对图像Itr进行多尺度图像块空间划分，对于空间划分之后的每一个图像块PatchTr，记图像块的面积为SPatchTr，图像块的高度为HPatchTr，图像块中文本区域的面积为SText，图像块中文本区域的高度为HText，若该图像块满足条件：

则标注该图像块为文本区域，对应的标签信息为1，否则标注该图像块为非文本区域，对应的标签信息为0，其中tS为预设的图像块中文本区域占整个图像块面积比的阈值，tH为预设的图像块中文本区域的高度与图像块高度比的阈值，记多尺度图像块标签信息为其中lbl_l表示第l个图像块的标签信息，PNum表示多尺度空间划分后图像块的个数；

(2.2)训练得到多尺度空间划分网络的参数；

具体地，利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的多尺度图像块标签信息利用反向传导的方法训练步骤(1)中构建的多尺度空间划分网络，其中，损失函数计算方法为：

其中，lbl_l表示第l个图像块的标签信息，PNum表示多尺度空间划分后图像块的个数，pro_l表示第l个图像块分类结果为文本图像块的概率，为多尺度空间划分网络的输出，训练所得的多尺度空间划分网络参数记为θ；

(3)文本与非文本图像分类：

具体地，对测试图像Ite，首先按照步骤(1.2.1)所述的方法，根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度，对图像Itr进行多尺度图像块空间划分，记空间划分之后得到的所有图像块的集合为然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中训练得到的多尺度空间划分网络的参数θ，得到测试图像的分类判决结果其中PredTe_r表示测试图像中第r个图像块的预测结果，PNum表示多尺度图像块空间划分后的图像块个数，SubPS中所有预测结果为1的图像块集合TextPS即为输入图像Ite中所有文本图像块集合，由此可以得到图像中文本区域的大致位置以及文本区域的尺度信息，如果TextPS不为空，则该测试图像的分类结果为文本图像，否则测试图像的分类结果为非文本图像。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)现有的海量网络文本与非文本图像分类方法通常首先需要提取图像中候选的类文字区域，然后通过分类等方法对这些候选区域进行过滤，最后通过对候选区域的分类判决来完成对图像是否为文本图像的预测；本发明方法首先构建了一个端到端、可训练的多尺度空间划分网络，通过这个网络就能实现以图像为输入，并对图像进行图像块级别的预测，最终得到图像的分类判别结果以及文本在图像中的大致位置，从而可以端到端的做到文本与非文本图像的判别；因此本发明方法实现更加简洁；

(2)由于图像中通常存在非常多的类文字区域，而现有的海量网络文本与非文本图像分类方法提取图像中的候选类文字区域，并采用聚类、分类等方法对所有的候选区域进行过滤分类，得到最终的分类结果，因此这类方法处理速度非常慢，且这类算法很容易受到光照等环境因素的影响；本发明方法采用对光照等外界条件有很强的鲁棒性的卷积神经网络的方法，通过人工对图像进行空间划分，并对每个划分的图像块进行分类，避免了鲁棒性较差的类文字区域提取过程；因此本发明方法具有很高的分类准确率以及非常高效的处理速度，且具有很强的鲁棒性；

(3)本发明关于海量网络文本与非文本图像的判别结果，不仅包含图像是否为文本图像的信息，还能够指出文字在图片中的大致位置和尺度信息，为后续文字检测环节大大缩小文字搜索范围。

附图说明

图1是本发明方法构建的多尺度空间划分网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明海量网络文本与非文本图像分类方法包括以下步骤：

(1.1)定义多层次特征图生成子网络网络结构；

(1.1.1)定义图像特征提取网络结构；

(1.1.2)定义多层次特征图生成子网络网络结构；

(1.2)定义多尺度图像块特征生成子网络网络结构；

(1.2.1)单一尺度图像块空间划分；

(1.2.2)多尺度图像块空间划分；

(1.2.3)多尺度图像块特征提取；

(1.3)定义文本与非文本图像块分类子网络网络结构；

具体地，在步骤(1.2)所述的多尺度图像块特征生成子网络网络之后，接一个由三个全连接层构成的文本与非文本图像块分类网络，对步骤(1.2)中所得的多尺度图像块特征向量集合VS中的每一个图像块特征向量V，通过该文本与非文本图像块分类网络进行分类判决，得到的输出Pro表示该图像块为文本图像块的概率，若Pro＞tP，则该图像块的分类结果记为1，否则分类结果为0，由此可以得到所有图像块的分类结果，记为其中Pred_n表示第n个图像块的分类结果，且Pred_n∈{0,1}，若Pred_n＝0则表示该图像块为非文本图像块，Pred_n＝1则表示该图像块为文本图像块；

(1.4)构建多尺度空间划分网络；

具体地，将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级联在一起，如图1所示，即为一个完整的多尺度空间划分网络；

(2)多尺度空间划分网络训练：

(2.2)训练得到多尺度空间划分网络的参数；

(3)文本与非文本图像分类：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种海量网络文本与非文本图像分类方法，其特征在于，所述方法包含下述步骤：

(1)多尺度空间划分网络构建，包括：(1.1)定义多层次特征图生成子网络网络结构；(1.2)定义多尺度图像块特征生成子网络网络结构；(1.3)定义文本与非文本图像块分类子网络网络结构；(1.4)构建多尺度空间划分网络；

其中对于(1.1)定义多层次特征图生成子网络网络结构，该(1.1)定义多层次特征图生成子网络网络结构的过程具体为：(1.1.1)定义图像特征提取网络结构：所述的图像特征提取网络结构包括五个卷积阶段，其中第一个和第二个卷积阶段的网络结构均为两个卷积层和一个最大池化层，最后三个卷积阶段的网络结构均为三个卷积层和一个最大池化层，对输入图像I，经过该图像特征提取网络得到各个卷积阶段的输出特征图，记为其中表示第s个卷积阶段的输出的特征图序列，M_s,m表示第m个特征图，MNum_s为预设的第s个卷积阶段输出特征图的个数；(1.1.2)定义多层次特征图生成子网络网络结构：对步骤(1.1.1)中所述的图像特征提取网络的后三个卷积阶段之后分别接一个反卷积层，将这三个卷积阶段的输出中的所有特征图的尺度全部缩放到Wm×Hm大小，所得尺度缩放后的特征图序列记为其中Wm和Hm分别表示预设的特征图尺度缩放后特征图宽度和高度，表示第s个卷积阶段的输出特征图序列FM_s中的每个特征图经过尺度缩放后得到的特征图序列，M′_s,m表示FM_s中第m个特征图经过尺度缩放后得到的特征图；之后将FMS′中的所有特征图进行堆叠，得到多层次特征图，记为其中M″_c表示图像的多层次特征图的第c个特征图，MNum＝MNum₃+MNum₄+MNum₅，且表示多层次特征图中特征图个数；

对于(1.2)定义多尺度图像块特征生成子网络网络结构，该(1.2)定义多尺度图像块特征生成子网络网络结构的过程具体为：(1.2.1)单一尺度图像块空间划分：对步骤(1.1)所述的多层次特征图生成子网络得到的图像多层次特征图F，将多层次特征图划分为尺度为的图像块，划分方法表示为：

将多层次特征图划分为SP＝sp×sp个图像块，对于划分的一个图像块F^ij，在输入图像I中对应的图像块I^ij计算方法为：

(1.2.2)多尺度图像块空间划分：预设多个不同的图像块划分尺度，记为对其中的每个划分尺度sp_k，按照步骤(1.2.1)所述的方法，对多层次特征图F进行图像块空间划分，得到SP_k＝sp_k×sp_k个图像块，通过多尺度图像块空间划分，得到的所有图像块序列为PS，且其中Patch_n表示第n个图像块，且表示图像块总数；

(1.2.3)多尺度图像块特征提取：对步骤(1.2.2)中对多层次特征图F进行多尺度图像块空间划分得到的图像块序列PS中的每一个图像块Patch，将图像块按行和列分别分割为Nsp份，则每个图像块Patch分割为SPNum＝Nsp×Nsp个子图像块，记为其中SubP_nsp表示第nsp个子图像块，然后利用一个最大池化层将每个子图像块转换为该子图像块对应的特征向量，则得到每个图像块Patch对应的子图像块特征向量序列，记为其中SubV_nsp表示第nsp个子图像块对应的特征向量，特征向量长度即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum，将图像块中所有子图像块对应的特征向量进行拼接，得到图像块对应的特征向量，记为V＝[SubV₁,...,SubV_SPNum]，则图像块特征向量长度为MNum×SPNum，对多尺度图像块空间划分得到的每一个图像块按上述方法提取图像块的特征向量，得到所有图像块的特征向量集合，记为其中V_n表示第n个图像块对应的特征向量；

(2)多尺度空间划分网络训练，包括：(2.1)对训练图像集中的每一张图像，获取多尺度图像块标签信息；(2.2)根据所述多尺度图像块标签信息训练得到多尺度空间划分网络的参数；

(3)文本与非文本图像分类：根据多尺度空间划分网络的参数，利用所述多尺度空间划分网络对待识别文本或者非文本图像进行分类。

2.根据权利要求1所述的海量网络文本与非文本图像分类方法，其特征在于，所述步骤(1.3)具体为：在步骤(1.2)所述的多尺度图像块特征生成子网络之后，接一个由三个全连接层构成的文本与非文本图像块分类网络，对步骤(1.2)中所得的多尺度图像块特征向量集合VS中的每一个图像块特征向量V，通过该文本与非文本图像块分类网络进行分类判决，得到的输出Pro表示该图像块为文本图像块的概率，若Pro＞tP，则该图像块的分类结果记为1，否则分类结果为0，由此得到所有图像块的分类结果，记为其中Pred_n表示第n个图像块的分类结果，且Pred_n∈{0,1}，若Pred_n＝0则表示该图像块为非文本图像块，Pred_n＝1则表示该图像块为文本图像块。

3.根据权利要求1或2所述的海量网络文本与非文本图像分类方法，其特征在于，所述步骤(1.4)具体为：将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级联在一起，构建一个完整的多尺度空间划分网络。

4.根据权利要求1或2所述的海量网络文本与非文本图像分类方法，其特征在于，所述步骤(2.1)具体为：

对训练图像集中的每一张图像Itr，用人工标注的方式获取图像中文本区域的位置，记为其中T表示训练图像的个数，bb_q表示图像中第q个文本区域的包围盒，Q为图像中文本区域的个数，然后按照步骤(1.2.1)所述的方法，根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度，对图像Itr进行多尺度图像块空间划分，对于空间划分之后的每一个图像块PatchTr，记图像块的面积为SPatchTr，图像块的高度为HPatchTr，图像块中文本区域的面积为SText，图像块中文本区域的高度为HText，若该图像块满足条件：

则标注该图像块为文本区域，对应的标签信息为1，否则标注该图像块为非文本区域，对应的标签信息为0，其中tS为预设的图像块中文本区域占整个图像块面积比的阈值，tH为预设的图像块中文本区域的高度与图像块高度比的阈值，记多尺度图像块标签信息为其中lbl_l表示第l个图像块的标签信息，PNum表示多尺度空间划分后图像块的个数。

5.根据权利要求1或2所述的海量网络文本与非文本图像分类方法，其特征在于，所述步骤(2.2)具体为：

利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的多尺度图像块标签信息利用反向传导的方法训练步骤(1)中构建的多尺度空间划分网络，其中，损失函数计算方法为：

其中，lbl_l表示第l个图像块的标签信息，PNum表示多尺度空间划分后图像块的个数，pro_l表示第l个图像块分类结果为文本图像块的概率，为多尺度空间划分网络的输出，训练所得的多尺度空间划分网络参数记为θ。

6.根据权利要求1或2所述的海量网络文本与非文本图像分类方法，其特征在于，所述步骤(3)具体为：对测试图像，首先按照步骤(1.2.1)所述的方法，根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度，对测试图像进行多尺度图像块空间划分，然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中训练得到的多尺度空间划分网络的参数θ，得到测试图像的分类判决结果其中PredTe_r表示测试图像中第r个图像块的预测结果，PNum表示多尺度图像块空间划分后的图像块个数，其中所有预测结果为1的图像块集合TextPS即为所输入的预测图像中所有文本图像块集合，由此得到图像中文本区域的大致位置以及文本区域的尺度信息，如果TextPS不为空，则该测试图像的分类结果为文本图像，否则测试图像的分类结果为非文本图像。