CN106257496B - 海量网络文本与非文本图像分类方法 - Google Patents
海量网络文本与非文本图像分类方法 Download PDFInfo
- Publication number
- CN106257496B CN106257496B CN201610541508.1A CN201610541508A CN106257496B CN 106257496 B CN106257496 B CN 106257496B CN 201610541508 A CN201610541508 A CN 201610541508A CN 106257496 B CN106257496 B CN 106257496B
- Authority
- CN
- China
- Prior art keywords
- image
- image block
- network
- text
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种海量网络文本与非文本图像分类方法,首先构建多尺度空间划分网络,然后对训练图像集中的图像,获取图像的多尺度图像块标签信息,并根据构建的多尺度空间划分网络,利用标注好的训练数据集训练多尺度空间划分网络的网络参数,然后利用构建的多尺度空间划分网络以及训练得到的网络参数,对待测试的大规模网络图像进行分类,最终获取图像的分类结果,对图像是否为文本图像做出判决,并获取文本区域在图像中的大致位置。本发明方法文本与非文本图像分类准确率高,且有很高的分类效率。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种海量网络文本与非文本图像分类方法。
背景技术
随着电视、互联网的飞速发展,人类社会已经逐渐迈入了信息时代,今后,人类的经济生活将以信息的占有、配置、生产、使用为主。而随着信息时代的到来,越来越多的图像视频数据以各式各样的途径传播,而这些数据包含大量的有用信息,如何从这些海量的数据中提取出这些有用的信息,将是信息时代人类能否快速高效地获取更多收益的关键。当前互联网中提供了海量的视频、图像数据,而这些海量的网络视频帧与网络图像中的文本作为一种极其重要的信息来源,可以被用来辅助于多种实际应用,包括图像检索、人机交互和驾驶导航***等等。
现有的获取图像中的文本信息的方法主要包含文本检测和文本识别两部分,因此这两个图像文本自动阅读的主要技术的研究一直是计算机领域备受关注的课题。然而,在海量传播的数据中,只有极少部分的图像包含文本,而现有的文本检测和文本识别方法受限于提取图像中文本信息的速度,很难直接用于提取这些数据中的有用文本信息,因此关于文本与非文本图像分类算法的研究具备较高的现实意义和使用价值。
发明内容
本发明的目的在于提供一种海量网络文本与非文本图像分类方法,该方法文本与非文本图像分类过程简单易行,且分类准确率高。
为实现上述目的,本发明提供了一种海量网络文本与非文本图像分类方法,包括如下步骤:
(1)多尺度空间划分网络构建,所述的多尺度空间划分网络包括多层次特征图生成子网络、多尺度图像块特征生成子网络以及文本与非文本图像块分类子网络:
(1.1)定义多层次特征图生成子网络网络结构;
(1.1.1)定义图像特征提取网络结构;
具体地,所述的图像特征提取网络结构包括五个卷积阶段,其中第一个和第二个卷积阶段的网络结构均为两个卷积层和一个最大池化层,最后三个卷积阶段的网络结构均为三个卷积层和一个最大池化层,对输入图像I,经过该图像特征提取网络可以得到各个卷积阶段的输出特征图,记为其中表示第s个卷积阶段的输出的特征图序列,Ms,m表示第m个特征图,MNums为预设的第s个卷积阶段输出特征图的个数;
(1.1.2)定义多层次特征图生成子网络网络结构;
具体地,对步骤(1.1.1)中所述的图像特征提取网络的第三个、第四个和第五个网络阶段之后分别接一个反卷积层,将这三个卷积阶段的输出中的所有特征图的尺度全部缩放到Wm×Hm大小,所得尺度缩放后的特征图序列记为其中Wm和Hm分别表示预设的特征图尺度缩放后特征图的宽度和高度,表示第s个卷积阶段的输出特征图序列FMs中的每个特征图经过尺度缩放后得到的特征图序列,M′s,m表示FMs中第m个特征图经过尺度缩放后得到的特征图,MNums为预设的第s个卷积阶段输出特征图的个数,之后将FMS′中的所有特征图进行堆叠,得到多层次特征图,记为其中M″c表示图像的多层次特征图的c个特征图,MNum=MNum3+MNum4+MNum5,表示多层次特征图中特征图个数;
(1.2)定义多尺度图像块特征生成子网络网络结构;
(1.2.1)单一尺度图像块空间划分;
具体地,对步骤(1.1)所述的多层次特征图生成子网络得到的图像多层次特征图F,将多层次特征图划分为尺度为的图像块,划分方法表示为:
这样,可以将多层次特征图划分为SP=sp×sp个图像块,对于划分的一个图像块Fij,在输入图像I中对应的图像块Iij计算方法为:
其中Fij表示将多层次特征图进行图像块划分后在第i列、第j行的图像块,x和y分别表示像素点在图像块中的横坐标和纵坐标,Wm和Hm分别表示多层次特征图的宽度和高度,W和H分别表示输入图像I的宽度和高度,sp为预设的图像块划分尺度;
(1.2.2)多尺度图像块空间划分;
具体地,预设多个不同的图像块划分尺度,记为对其中的每个划分尺度spk,按照步骤(1.2.1)所述的方法,对多层次特征图F进行图像块空间划分,可以得到SPk=spk×spk个图像块,通过多尺度图像块空间划分,得到的所有图像块序列为PS,且其中Patchn表示第n个图像块,表示图像块总数;
(1.2.3)多尺度图像块特征提取;
具体地,对步骤(1.2.2)中对多层次特征图F进行多尺度图像块空间划分得到的图像块序列PS中的每一个图像块Patch,将图像块按行和列分别分割为Nsp份,则每个图像块Patch可以分割为SPNum=Nsp×Nsp个子图像块,记为其中SubPnsp表示第nsp个子图像块,然后利用一个最大池化层将每个子图像块转换为该子图像块对应的特征向量,则可以得到每个图像块Patch对应的子图像块特征向量序列,记为其中SubVnsp表示第nsp个子图像块对应的特征向量,特征向量长度即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum,将图像块中所有子图像块对应的特征向量进行拼接,可以得到图像块对应的特征向量,记为V=[SubV1,...,SubVSPNum],则图像块特征向量长度为MNum×SPNum,对多尺度图像块空间划分得到的每一个图像块按上述方法提取图像块的特征向量,得到所有图像块的特征向量集合,记为其中Vn表示第n个图像块对应的特征向量,PNum表示图像块总数;
(1.3)定义文本与非文本图像块分类子网络网络结构;
具体地,在步骤(1.2)所述的多尺度图像块特征生成子网络之后,接一个由三个全连接层构成的文本与非文本图像块分类网络,对步骤(1.2)中所得的多尺度图像块特征向量集合VS中的每一个图像块特征向量V,通过该文本与非文本图像块分类网络进行分类判决,得到的输出Pro表示该图像块为文本图像块的概率,若Pro>tP,则该图像块的分类结果记为1,否则分类结果为0,由此可以得到所有图像块的分类结果,记为其中Predn表示第n个图像块的分类结果,且Predn∈{0,1},若Predn=0则表示该图像块为非文本图像块,Predn=1则表示该图像块为文本图像块;
(1.4)构建多尺度空间划分网络;
具体地,将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级联在一起,即为一个完整的多尺度空间划分网络;
(2)多尺度空间划分网络训练:
(2.1)对训练图像集中的每一张图像,获取多尺度图像块标签信息;
具体地,对训练图像集中的每一张图像Itr,用人工标注的方式获取图像中文本区域的位置,记为其中T表示训练图像的个数,bbq表示图像中第q个文本区域的包围盒,Q为图像中文本区域的个数,然后按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多尺度图像块空间划分,对于空间划分之后的每一个图像块PatchTr,记图像块的面积为SPatchTr,图像块的高度为HPatchTr,图像块中文本区域的面积为SText,图像块中文本区域的高度为HText,若该图像块满足条件:
则标注该图像块为文本区域,对应的标签信息为1,否则标注该图像块为非文本区域,对应的标签信息为0,其中tS为预设的图像块中文本区域占整个图像块面积比的阈值,tH为预设的图像块中文本区域的高度与图像块高度比的阈值,记多尺度图像块标签信息为其中lbll表示第l个图像块的标签信息,PNum表示多尺度空间划分后图像块的个数;
(2.2)训练得到多尺度空间划分网络的参数;
具体地,利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的多尺度图像块标签信息利用反向传导的方法训练步骤(1)中构建的多尺度空间划分网络,其中,损失函数计算方法为:
其中,lbll表示第l个图像块的标签信息,PNum表示多尺度空间划分后图像块的个数,prol表示第l个图像块分类结果为文本图像块的概率,为多尺度空间划分网络的输出,训练所得的多尺度空间划分网络参数记为θ;
(3)文本与非文本图像分类:
具体地,对测试图像Ite,首先按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多尺度图像块空间划分,记空间划分之后得到的所有图像块的集合为然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中训练得到的多尺度空间划分网络的参数θ,得到测试图像的分类判决结果其中PredTer表示测试图像中第r个图像块的预测结果,PNum表示多尺度图像块空间划分后的图像块个数,SubPS中所有预测结果为1的图像块集合TextPS即为输入图像Ite中所有文本图像块集合,由此可以得到图像中文本区域的大致位置以及文本区域的尺度信息,如果TextPS不为空,则该测试图像的分类结果为文本图像,否则测试图像的分类结果为非文本图像。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)现有的海量网络文本与非文本图像分类方法通常首先需要提取图像中候选的类文字区域,然后通过分类等方法对这些候选区域进行过滤,最后通过对候选区域的分类判决来完成对图像是否为文本图像的预测;本发明方法首先构建了一个端到端、可训练的多尺度空间划分网络,通过这个网络就能实现以图像为输入,并对图像进行图像块级别的预测,最终得到图像的分类判别结果以及文本在图像中的大致位置,从而可以端到端的做到文本与非文本图像的判别;因此本发明方法实现更加简洁;
(2)由于图像中通常存在非常多的类文字区域,而现有的海量网络文本与非文本图像分类方法提取图像中的候选类文字区域,并采用聚类、分类等方法对所有的候选区域进行过滤分类,得到最终的分类结果,因此这类方法处理速度非常慢,且这类算法很容易受到光照等环境因素的影响;本发明方法采用对光照等外界条件有很强的鲁棒性的卷积神经网络的方法,通过人工对图像进行空间划分,并对每个划分的图像块进行分类,避免了鲁棒性较差的类文字区域提取过程;因此本发明方法具有很高的分类准确率以及非常高效的处理速度,且具有很强的鲁棒性;
(3)本发明关于海量网络文本与非文本图像的判别结果,不仅包含图像是否为文本图像的信息,还能够指出文字在图片中的大致位置和尺度信息,为后续文字检测环节大大缩小文字搜索范围。
附图说明
图1是本发明方法构建的多尺度空间划分网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明海量网络文本与非文本图像分类方法包括以下步骤:
(1)多尺度空间划分网络构建,所述的多尺度空间划分网络包括多层次特征图生成子网络、多尺度图像块特征生成子网络以及文本与非文本图像块分类子网络:
(1.1)定义多层次特征图生成子网络网络结构;
(1.1.1)定义图像特征提取网络结构;
具体地,所述的图像特征提取网络结构包括五个卷积阶段,其中第一个和第二个卷积阶段的网络结构均为两个卷积层和一个最大池化层,最后三个卷积阶段的网络结构均为三个卷积层和一个最大池化层,对输入图像I,经过该图像特征提取网络可以得到各个卷积阶段的输出特征图,记为其中表示第s个卷积阶段的输出的特征图序列,Ms,m表示第m个特征图,MNums为预设的第s个卷积阶段输出特征图的个数;
(1.1.2)定义多层次特征图生成子网络网络结构;
具体地,对步骤(1.1.1)中所述的图像特征提取网络的第三个、第四个和第五个网络阶段之后分别接一个反卷积层,将这三个卷积阶段的输出中的所有特征图的尺度全部缩放到Wm×Hm大小,所得尺度缩放后的特征图序列记为其中Wm和Hm分别表示预设的特征图尺度缩放后特征图的宽度和高度,表示第s个卷积阶段的输出特征图序列FMs中的每个特征图经过尺度缩放后得到的特征图序列,M′s,m表示FMs中第m个特征图经过尺度缩放后得到的特征图,MNums为预设的第s个卷积阶段输出特征图的个数,之后将FMS′中的所有特征图进行堆叠,得到多层次特征图,记为其中M″c表示图像的多层次特征图的c个特征图,MNum=MNum3+MNum4+MNum5,表示多层次特征图中特征图个数;
(1.2)定义多尺度图像块特征生成子网络网络结构;
(1.2.1)单一尺度图像块空间划分;
具体地,对步骤(1.1)所述的多层次特征图生成子网络得到的图像多层次特征图F,将多层次特征图划分为尺度为的图像块,划分方法表示为:
这样,可以将多层次特征图划分为SP=sp×sp个图像块,对于划分的一个图像块Fij,在输入图像I中对应的图像块Iij计算方法为:
其中Fij表示将多层次特征图进行图像块划分后在第i列、第j行的图像块,x和y分别表示像素点在图像块中的横坐标和纵坐标,Wm和Hm分别表示多层次特征图的宽度和高度,W和H分别表示输入图像I的宽度和高度,sp为预设的图像块划分尺度;
(1.2.2)多尺度图像块空间划分;
具体地,预设多个不同的图像块划分尺度,记为对其中的每个划分尺度spk,按照步骤(1.2.1)所述的方法,对多层次特征图F进行图像块空间划分,可以得到SPk=spk×spk个图像块,通过多尺度图像块空间划分,得到的所有图像块序列为PS,且其中Patchn表示第n个图像块,表示图像块总数;
(1.2.3)多尺度图像块特征提取;
具体地,对步骤(1.2.2)中对多层次特征图F进行多尺度图像块空间划分得到的图像块序列PS中的每一个图像块Patch,将图像块按行和列分别分割为Nsp份,则每个图像块Patch可以分割为SPNum=Nsp×Nsp个子图像块,记为其中SubPnsp表示第nsp个子图像块,然后利用一个最大池化层将每个子图像块转换为该子图像块对应的特征向量,则可以得到每个图像块Patch对应的子图像块特征向量序列,记为其中SubVnsp表示第nsp个子图像块对应的特征向量,特征向量长度即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum,将图像块中所有子图像块对应的特征向量进行拼接,可以得到图像块对应的特征向量,记为V=[SubV1,...,SubVSPNum],则图像块特征向量长度为MNum×SPNum,对多尺度图像块空间划分得到的每一个图像块按上述方法提取图像块的特征向量,得到所有图像块的特征向量集合,记为其中Vn表示第n个图像块对应的特征向量,PNum表示图像块总数;
(1.3)定义文本与非文本图像块分类子网络网络结构;
具体地,在步骤(1.2)所述的多尺度图像块特征生成子网络网络之后,接一个由三个全连接层构成的文本与非文本图像块分类网络,对步骤(1.2)中所得的多尺度图像块特征向量集合VS中的每一个图像块特征向量V,通过该文本与非文本图像块分类网络进行分类判决,得到的输出Pro表示该图像块为文本图像块的概率,若Pro>tP,则该图像块的分类结果记为1,否则分类结果为0,由此可以得到所有图像块的分类结果,记为其中Predn表示第n个图像块的分类结果,且Predn∈{0,1},若Predn=0则表示该图像块为非文本图像块,Predn=1则表示该图像块为文本图像块;
(1.4)构建多尺度空间划分网络;
具体地,将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级联在一起,如图1所示,即为一个完整的多尺度空间划分网络;
(2)多尺度空间划分网络训练:
(2.1)对训练图像集中的每一张图像,获取多尺度图像块标签信息;
具体地,对训练图像集中的每一张图像Itr,用人工标注的方式获取图像中文本区域的位置,记为其中T表示训练图像的个数,bbq表示图像中第q个文本区域的包围盒,Q为图像中文本区域的个数,然后按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多尺度图像块空间划分,对于空间划分之后的每一个图像块PatchTr,记图像块的面积为SPatchTr,图像块的高度为HPatchTr,图像块中文本区域的面积为SText,图像块中文本区域的高度为HText,若该图像块满足条件:
则标注该图像块为文本区域,对应的标签信息为1,否则标注该图像块为非文本区域,对应的标签信息为0,其中tS为预设的图像块中文本区域占整个图像块面积比的阈值,tH为预设的图像块中文本区域的高度与图像块高度比的阈值,记多尺度图像块标签信息为其中lbll表示第l个图像块的标签信息,PNum表示多尺度空间划分后图像块的个数;
(2.2)训练得到多尺度空间划分网络的参数;
具体地,利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的多尺度图像块标签信息利用反向传导的方法训练步骤(1)中构建的多尺度空间划分网络,其中,损失函数计算方法为:
其中,lbll表示第l个图像块的标签信息,PNum表示多尺度空间划分后图像块的个数,prol表示第l个图像块分类结果为文本图像块的概率,为多尺度空间划分网络的输出,训练所得的多尺度空间划分网络参数记为θ;
(3)文本与非文本图像分类:
具体地,对测试图像Ite,首先按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多尺度图像块空间划分,记空间划分之后得到的所有图像块的集合为然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中训练得到的多尺度空间划分网络的参数θ,得到测试图像的分类判决结果其中PredTer表示测试图像中第r个图像块的预测结果,PNum表示多尺度图像块空间划分后的图像块个数,SubPS中所有预测结果为1的图像块集合TextPS即为输入图像Ite中所有文本图像块集合,由此可以得到图像中文本区域的大致位置以及文本区域的尺度信息,如果TextPS不为空,则该测试图像的分类结果为文本图像,否则测试图像的分类结果为非文本图像。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种海量网络文本与非文本图像分类方法,其特征在于,所述方法包含下述步骤:
(1)多尺度空间划分网络构建,包括:(1.1)定义多层次特征图生成子网络网络结构;(1.2)定义多尺度图像块特征生成子网络网络结构;(1.3)定义文本与非文本图像块分类子网络网络结构;(1.4)构建多尺度空间划分网络;
其中对于(1.1)定义多层次特征图生成子网络网络结构,该(1.1)定义多层次特征图生成子网络网络结构的过程具体为:(1.1.1)定义图像特征提取网络结构:所述的图像特征提取网络结构包括五个卷积阶段,其中第一个和第二个卷积阶段的网络结构均为两个卷积层和一个最大池化层,最后三个卷积阶段的网络结构均为三个卷积层和一个最大池化层,对输入图像I,经过该图像特征提取网络得到各个卷积阶段的输出特征图,记为其中表示第s个卷积阶段的输出的特征图序列,Ms,m表示第m个特征图,MNums为预设的第s个卷积阶段输出特征图的个数;(1.1.2)定义多层次特征图生成子网络网络结构:对步骤(1.1.1)中所述的图像特征提取网络的后三个卷积阶段之后分别接一个反卷积层,将这三个卷积阶段的输出中的所有特征图的尺度全部缩放到Wm×Hm大小,所得尺度缩放后的特征图序列记为其中Wm和Hm分别表示预设的特征图尺度缩放后特征图宽度和高度,表示第s个卷积阶段的输出特征图序列FMs中的每个特征图经过尺度缩放后得到的特征图序列,M′s,m表示FMs中第m个特征图经过尺度缩放后得到的特征图;之后将FMS′中的所有特征图进行堆叠,得到多层次特征图,记为其中M″c表示图像的多层次特征图的第c个特征图,MNum=MNum3+MNum4+MNum5,且表示多层次特征图中特征图个数;
对于(1.2)定义多尺度图像块特征生成子网络网络结构,该(1.2)定义多尺度图像块特征生成子网络网络结构的过程具体为:(1.2.1)单一尺度图像块空间划分:对步骤(1.1)所述的多层次特征图生成子网络得到的图像多层次特征图F,将多层次特征图划分为尺度为的图像块,划分方法表示为:
将多层次特征图划分为SP=sp×sp个图像块,对于划分的一个图像块Fij,在输入图像I中对应的图像块Iij计算方法为:
其中Fij表示将多层次特征图进行图像块划分后在第i列、第j行的图像块,x和y分别表示像素点在图像块中的横坐标和纵坐标,Wm和Hm分别表示多层次特征图的宽度和高度,W和H分别表示输入图像I的宽度和高度,sp为预设的图像块划分尺度;
(1.2.2)多尺度图像块空间划分:预设多个不同的图像块划分尺度,记为对其中的每个划分尺度spk,按照步骤(1.2.1)所述的方法,对多层次特征图F进行图像块空间划分,得到SPk=spk×spk个图像块,通过多尺度图像块空间划分,得到的所有图像块序列为PS,且其中Patchn表示第n个图像块,且表示图像块总数;
(1.2.3)多尺度图像块特征提取:对步骤(1.2.2)中对多层次特征图F进行多尺度图像块空间划分得到的图像块序列PS中的每一个图像块Patch,将图像块按行和列分别分割为Nsp份,则每个图像块Patch分割为SPNum=Nsp×Nsp个子图像块,记为其中SubPnsp表示第nsp个子图像块,然后利用一个最大池化层将每个子图像块转换为该子图像块对应的特征向量,则得到每个图像块Patch对应的子图像块特征向量序列,记为其中SubVnsp表示第nsp个子图像块对应的特征向量,特征向量长度即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum,将图像块中所有子图像块对应的特征向量进行拼接,得到图像块对应的特征向量,记为V=[SubV1,...,SubVSPNum],则图像块特征向量长度为MNum×SPNum,对多尺度图像块空间划分得到的每一个图像块按上述方法提取图像块的特征向量,得到所有图像块的特征向量集合,记为其中Vn表示第n个图像块对应的特征向量;
(2)多尺度空间划分网络训练,包括:(2.1)对训练图像集中的每一张图像,获取多尺度图像块标签信息;(2.2)根据所述多尺度图像块标签信息训练得到多尺度空间划分网络的参数;
(3)文本与非文本图像分类:根据多尺度空间划分网络的参数,利用所述多尺度空间划分网络对待识别文本或者非文本图像进行分类。
2.根据权利要求1所述的海量网络文本与非文本图像分类方法,其特征在于,所述步骤(1.3)具体为:在步骤(1.2)所述的多尺度图像块特征生成子网络之后,接一个由三个全连接层构成的文本与非文本图像块分类网络,对步骤(1.2)中所得的多尺度图像块特征向量集合VS中的每一个图像块特征向量V,通过该文本与非文本图像块分类网络进行分类判决,得到的输出Pro表示该图像块为文本图像块的概率,若Pro>tP,则该图像块的分类结果记为1,否则分类结果为0,由此得到所有图像块的分类结果,记为其中Predn表示第n个图像块的分类结果,且Predn∈{0,1},若Predn=0则表示该图像块为非文本图像块,Predn=1则表示该图像块为文本图像块。
3.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述步骤(1.4)具体为:将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级联在一起,构建一个完整的多尺度空间划分网络。
4.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述步骤(2.1)具体为:
对训练图像集中的每一张图像Itr,用人工标注的方式获取图像中文本区域的位置,记为其中T表示训练图像的个数,bbq表示图像中第q个文本区域的包围盒,Q为图像中文本区域的个数,然后按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多尺度图像块空间划分,对于空间划分之后的每一个图像块PatchTr,记图像块的面积为SPatchTr,图像块的高度为HPatchTr,图像块中文本区域的面积为SText,图像块中文本区域的高度为HText,若该图像块满足条件:
则标注该图像块为文本区域,对应的标签信息为1,否则标注该图像块为非文本区域,对应的标签信息为0,其中tS为预设的图像块中文本区域占整个图像块面积比的阈值,tH为预设的图像块中文本区域的高度与图像块高度比的阈值,记多尺度图像块标签信息为其中lbll表示第l个图像块的标签信息,PNum表示多尺度空间划分后图像块的个数。
5.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述步骤(2.2)具体为:
利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的多尺度图像块标签信息利用反向传导的方法训练步骤(1)中构建的多尺度空间划分网络,其中,损失函数计算方法为:
其中,lbll表示第l个图像块的标签信息,PNum表示多尺度空间划分后图像块的个数,prol表示第l个图像块分类结果为文本图像块的概率,为多尺度空间划分网络的输出,训练所得的多尺度空间划分网络参数记为θ。
6.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述步骤(3)具体为:对测试图像,首先按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度,对测试图像进行多尺度图像块空间划分,然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中训练得到的多尺度空间划分网络的参数θ,得到测试图像的分类判决结果其中PredTer表示测试图像中第r个图像块的预测结果,PNum表示多尺度图像块空间划分后的图像块个数,其中所有预测结果为1的图像块集合TextPS即为所输入的预测图像中所有文本图像块集合,由此得到图像中文本区域的大致位置以及文本区域的尺度信息,如果TextPS不为空,则该测试图像的分类结果为文本图像,否则测试图像的分类结果为非文本图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610541508.1A CN106257496B (zh) | 2016-07-12 | 2016-07-12 | 海量网络文本与非文本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610541508.1A CN106257496B (zh) | 2016-07-12 | 2016-07-12 | 海量网络文本与非文本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106257496A CN106257496A (zh) | 2016-12-28 |
CN106257496B true CN106257496B (zh) | 2019-06-07 |
Family
ID=57714130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610541508.1A Active CN106257496B (zh) | 2016-07-12 | 2016-07-12 | 海量网络文本与非文本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106257496B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657522A (zh) * | 2017-10-10 | 2019-04-19 | 北京京东尚科信息技术有限公司 | 检测可行驶区域的方法和装置 |
CN110378330B (zh) * | 2018-04-12 | 2021-07-13 | Oppo广东移动通信有限公司 | 图片分类方法及相关产品 |
CN109299682A (zh) * | 2018-09-13 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 视频文字检测方法、装置和计算机可读存储介质 |
CN109711241B (zh) * | 2018-10-30 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 物体检测方法、装置与电子设备 |
CN109740482A (zh) * | 2018-12-26 | 2019-05-10 | 北京科技大学 | 一种图像文本识别方法和装置 |
CN109711481B (zh) * | 2019-01-02 | 2021-09-10 | 京东方艺云科技有限公司 | 用于画作多标签识别的神经网络、相关方法、介质和设备 |
CN109858432B (zh) * | 2019-01-28 | 2022-01-04 | 北京市商汤科技开发有限公司 | 一种检测图像中文字信息的方法及装置、计算机设备 |
CN109815473A (zh) * | 2019-01-28 | 2019-05-28 | 四川译讯信息科技有限公司 | 一种文档编辑辅助方法 |
CN114565800B (zh) * | 2022-04-24 | 2022-07-29 | 深圳尚米网络技术有限公司 | 一种用于违规图片检测的方法及图片检测引擎 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105608456A (zh) * | 2015-12-22 | 2016-05-25 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070065003A1 (en) * | 2005-09-21 | 2007-03-22 | Lockheed Martin Corporation | Real-time recognition of mixed source text |
-
2016
- 2016-07-12 CN CN201610541508.1A patent/CN106257496B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105608456A (zh) * | 2015-12-22 | 2016-05-25 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
Non-Patent Citations (3)
Title |
---|
Automatic discrimination of text and non-text natural images;Chengquan Zhang etal.;《International Conference on Document Analysis and Recognition (ICDAR)》;20151231;第886-890页 |
Piecewise linearity based method for text frame classification in video;N. Sharma etal.;《Pattern Recognition》;20151231;第48卷(第3期);第862-881页 |
基于深度学习的自然场景文本识别***的设计与实现;马然;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815;第19-40页 |
Also Published As
Publication number | Publication date |
---|---|
CN106257496A (zh) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106257496B (zh) | 海量网络文本与非文本图像分类方法 | |
CN110414368B (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
CN114220124B (zh) | 一种近红外-可见光跨模态双流行人重识别方法及*** | |
Zhang et al. | Three-dimensional densely connected convolutional network for hyperspectral remote sensing image classification | |
CN114067143B (zh) | 一种基于双子网络的车辆重识别方法 | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
CN104200228B (zh) | 一种安全带识别方法与*** | |
CN110689043A (zh) | 一种基于多重注意力机制的车辆细粒度识别方法及装置 | |
CN103544504B (zh) | 一种基于多尺度图匹配核的场景字符识别方法 | |
CN104778476A (zh) | 一种图像分类方法 | |
CN108596240B (zh) | 一种基于判别特征网络的图像语义分割方法 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN105808757A (zh) | 基于多特征融合的bow模型的中草药植物图片检索方法 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、***及设备 | |
CN105654122A (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和*** | |
Zhang et al. | Semantic segmentation of very high-resolution remote sensing image based on multiple band combinations and patchwise scene analysis | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
Chen et al. | Contrast limited adaptive histogram equalization for recognizing road marking at night based on YOLO models | |
CN117456480B (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
Tian et al. | Domain adaptive object detection with model-agnostic knowledge transferring | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN111797704B (zh) | 一种基于相关物体感知的动作识别方法 | |
Li | A deep learning-based text detection and recognition approach for natural scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |