CN106157284B - 图像中文字区域的定位方法及装置 - Google Patents

图像中文字区域的定位方法及装置 Download PDF

Info

Publication number
CN106157284B
CN106157284B CN201510151823.9A CN201510151823A CN106157284B CN 106157284 B CN106157284 B CN 106157284B CN 201510151823 A CN201510151823 A CN 201510151823A CN 106157284 B CN106157284 B CN 106157284B
Authority
CN
China
Prior art keywords
image
parameter
text
space distribution
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510151823.9A
Other languages
English (en)
Other versions
CN106157284A (zh
Inventor
刘彬
刘扬
张洪明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510151823.9A priority Critical patent/CN106157284B/zh
Publication of CN106157284A publication Critical patent/CN106157284A/zh
Application granted granted Critical
Publication of CN106157284B publication Critical patent/CN106157284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像中文字区域的定位方法,包括构建参数回归模型;通过所述参数回归模型生成与图像对应的文本空间分布参数;根据所述文本空间分布参数重构与所述图像对应的文字‑非文字二值图像。本发明实施例还公开了一种图像中文字区域的定位装置。与现有技术相比,本发明实施例的技术方案,完全摒弃传统通过图像轮廓或者区域特征进行文字区域定位的方式,通过对图像更深层次的语义特征,图像文本空间分布参数,进行分析,对文字区域进行定位,不仅能够避免图像尺寸、字体、颜色、语种等对定位的干扰,使定位更加精准,更加鲁棒,而且该方法基于图像最基本的语义特征,能够适用于各种格式的图像,具有通用性。

Description

图像中文字区域的定位方法及装置
技术领域
本发明涉及图文处理技术领域,更具体而言,涉及一种图像中文字区域的定位方法及装置。
背景技术
在网络商品交易中,由于消费者无法直观的看到商品,商品图像成为商家向消费者描述商品的重要手段。然而,部分商家为了提高商品的关注度,会在商品图像中嵌入虚假的宣传性文字,不仅造成恶意竞争,而且导致消费者体验不好。因此,各个电子商务网站均对商品图像的文字内容进行审核,以形成对商品图像的监控。
通常,现有的审核商品图像中文字的流程一般为,首先,对商品图像中的文字区域进行定位,确定图像中文字部分的位置;然后,根据所确定的文字区域,将文字内容精细化,得到清晰的文字内容。目前对商品图像中文字进行定位的技术手段通常为,首先对商品图像中的文字显著性区域进行粗定位,尽可能排除背景区域;其次,利用边缘和颜色等信息进行进一步的分析,筛除、合并文字区域,得到可能的文字行;最后,使用分类器对候选的文字行区域进行分类验证,得到真实的文字行区域。
然而,商品图像的尺寸、字体、颜色、语种等均具有不确定性,而且商品图像中的文字与商品图像复杂的背景极易混淆,为定位图像中的文字区域带来很大的干扰,导致无法定位图像中的文字区域,进而无法得到清晰的文字内容,无法通过自动化的方式进行商品图像的审核。
发明内容
为克服现有技术中存在的问题,本发明提供一种图像中文字区域的定位方法及装置。
第一方面,本发明提供了一种图像中文字区域的定位方法,包括:构建参数回归模型;通过所述参数回归模型生成与图像对应的文本空间分布参数;根据所述文本空间分布参数重构与所述图像对应的文字-非文字二值图像。
在第一方面第一种可能的实现方式中,所述构建参数回归模型,包括:获取所述参数回归模型的目标文本空间分布参数;将测试图像输入所述参数回归模型生成测试文本空间分布参数;根据所述目标文本空间分布参数与所述测试文本空间分布参数运算得到当前误差;计算所述当前误差与基础误差的差值;其中,所述基础误差为上次运算得到的误差;判断所述差值是否小于第一预设阈值;若所述差值大于或者等于所述第一预设阈值,根据所述当前误差调整所述参数回归模型的未知参数,将所述当前误差确定为基础误差,并重复执行步骤将测试图像输入所述参数回归模型生成测试文本空间分布参数,直至所述差值小于所述第一预设阈值;若所述差值小于所述第一预设阈值,将所述参数回归模型未知参数的当前值确定为模型参数。
结合上述第一方面,在第二种可能的实施方式中,所述根据所述文本空间分布参数重构与所述图像对应的文字-非文字二值图像,包括:将所述文本空间分布参数中小于第二预设阈值的参数设置为0;将所述文本空间分布参数中大于所述第二预设阈值的参数设置为1;将参数0和参数1转换为二值像素灰度值;根据所述的二值像素灰度值构建所述文字-非文字二值图像。
结合上述第一方面,在第三种可能的实施方式中,在所述将所述文本空间分布参数中小于预设阈值的参数设置为0;将所述文本空间分布参数中大于预设阈值的参数设置为1之前,还包括:构建降维模型;将所述文本空间分布参数输入所述降维模型;通过参数重构的方式将所述文本空间分布参数进行降维处理。
结合上述第一方面,在第四种可能的实施方式中,所述构建降维模型,包括:获取预先标注的二值化图像的文本空间分布参数作为标定文本空间分布参数;将所述二值化图像的像素灰度值输入所述降维模型生成重构文本空间分布参数;根据所述标定文本空间分布参数与所述重构文本空间分布参数运算得到当前误差;计算所述当前误差与基础误差的差值;其中,所述基础误差为上次运算得到的误差;判断所述差值是否小于第三预设阈值;若所述差值大于等于所述第三预设阈值,根据所述当前误差调整所述降维模型的未知参数,将所述当前误差确定为基础误差,并重复执行步骤将所述二值化图像的像素灰度值输入所述降维模型生成重构文本空间分布参数,直至所述差值小于所述第三预设阈值;若所述差值小于所述第三预设阈值,将所述降维模型未知参数的当前值确定为模型参数。
结合上述第一方面,在第五种可能的实施方式中,所述获取所述参数回归模型的目标文本空间分布参数,包括:读取所述降维模型最后一层的输出数据;将所述降维模型最后一层的输出数据确定为所述目标文本空间分布参数。
第二方面,本发明提供了一种图像中文字区域的定位装置,包括:构建模块,用于构建参数回归模型;生成模块,用于通过所述构建模块所构建的参数回归模型生成与图像对应的文本空间分布参数;重构模块,用于根据所述生成模块所生成的文本空间分布参数重构与所述图像对应的文字-非文字二值图像。
在第二方面第一种可能的实现方式中,所述构建模块包括:获取单元,生成单元、计算单元、判断单元、调整单元和确定单元,其中,所述获取单元,用于获取所述参数回归模型的目标文本空间分布参数;所述生成单元,用于将测试图像输入所述参数回归模型生成测试文本空间分布参数;所述计算单元,用于根据所述目标文本空间分布参数与所述测试文本空间分布参数运算得到当前误差;还用于计算所述当前误差与基础误差的差值;其中,所述基础误差为上次运算得到的误差;所述判断单元,用于判断所述差值是否小于第一预设阈值;在所述差值大于或者等于所述第一预设阈值时,所述调整单元,用于根据所述当前误差调整所述参数回归模型的未知参数;所述确定单元,用于在所述差值大于或者等于所述第一预设阈值时,将所述当前误差确定为基础误差;在所述差值小于所述第一预设阈值时,所述确定单元,还用于将所述参数回归模型未知参数的当前值确定为模型参数。
结合上述第二方面,在第二种可能的实施方式中,所述重构模块包括:二值化单元、转换单元和构建单元,其中,所述二值化单元,用于将所述文本空间分布参数中小于第二预设阈值的参数设置为0;将所述文本空间分布参数中大于所述第二预设阈值的参数设置为1;所述转换单元,用于将参数0和参数1转换为二值像素灰度值;所述构建单元,用于根据所述的二值像素灰度值构建所述文字-非文字二值图像。
结合上述第二方面,在第三种可能的实施方式中,所述装置还包括:输入单元和降维单元,其中,所述构建模块,还用于构建降维模型;所述输入单元,用于将所述文本空间分布参数输入所述降维模型;所述降维单元,用于通过参数重构的方式将所述文本空间分布参数进行降维处理。
结合上述第二方面,在第四种可能的实施方式中,所述获取单元,还用于获取预先标注的二值化图像的文本空间分布参数作为标定文本空间分布参数;所述生成单元,还用于将所述二值化图像的像素灰度值输入所述降维模型生成重构文本空间分布参数;所述计算单元,还用于根据所述标定文本空间分布参数与所述重构文本空间分布参数运算得到当前误差;计算所述当前误差与基础误差的差值;所述判断单元,还用于判断所述差值是否小于第三预设阈值;在所述差值大于等于所述第三预设阈值时,所述调整单元,还用于根据所述当前误差调整所述降维模型的未知参数;所述确定单元,还用于将所述当前误差确定为基础误差;在所述差值小于所述第三预设阈值时,所述确定单元,还用于将所述降维模型未知参数的当前值确定为模型参数。
结合上述第二方面,在第五种可能的实施方式中,所述获取单元包括:读取子单元,用于读取所述降维模型最后一层的输出数据;所述确定单元,还用于将所述降维模型最后一层的输出数据确定为所述目标文本空间分布参数。
由以上技术方案可知,本发明实施例在定位图像中的文字区域时,首先,构建参数回归模型,通过参数回归模型生成与图像相对应的文本空间分布参数,然后,根据文本空间分布参数构建文字-非文字二值图像,将图像的文本和非文本明确的表示出。即,将图像参数化,通过对图像对应的参数进行处理,将图像中的文字区域进行明确的定位。可以看出,本发明实施例的技术方案,完全摒弃传统通过图像轮廓或者区域特征进行文字区域定位的方式,通过对图像更深层次的语义特征,图像文本空间分布参数,进行分析,对文字区域进行定位,不仅能够避免图像尺寸、字体、颜色、语种等对定位的干扰,使定位更加精准,更加鲁棒,而且该方法基于图像最基本的语义特征,能够适用于各种格式的图像,具有通用性。
应当理解的是,以上的一般描述和后文的细节描述仅为示例性和解释性描述,对本发明技术方案并不构成限制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标注指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1是本发明实施例提供的一种图像中文字区域的定位方法的流程图;
图2是本发明实施例提供的另一种图像中文字区域的定位方法的流程图;
图3是本发明提供待定位图像的示意图;
图4为图3所示图像对应的文字-非文字二值图像;
图5是本发明实施例提供的一种图像中文字区域的定位装置的结构示意图;
图6是本发明实施例提供的另一种图像中文字区域的定位装置的结构示意图。
具体实施方式
现有的定位图像中文字区域的方式包括:基于区域特征提取(Maximally StableExtremal Regions,MSER)或者基于笔画宽度变换(Stroke Width Transform,SWT)的文字区域定位方法等。而现有的文字区域定位方式大多基于人工设计的特征和规则实现,人工设计的特征和规则泛化能力并不好,对于定位颜色单一,文字栏、文字行、文字间隔一致等规则单一的文字区域比较适用,在检测复杂多变的图像中的文字区域时,很容易产生误检,鲁棒性差。为了解决上述技术问题,提出了本发明技术方案。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1为本发明实施例提供的一种图像中文字区域的定位方法的流程,该方法包括以下步骤。
步骤S101,构建参数回归模型。
其中,本发明实施例通过参数回归的方式将图像转换为文本空间分布参数,为了能够精确的得到图像的文本空间分布参数,本发明实施例的技术方案可通过标注样本学习的方式构建参数回归模型。本实施例中,参数回归模型可以为深度卷积网络(Depth ofconvolutional network,DCNN)、深度神经网络(Depth of neural network,DNN)、支持向量机(Support Vector Machine,SVM))或者AdaBoost等。
具体的,本实施例以DCNN学习优化为例,对构建参数回归模型进行说明。首先确定参数回归模型,参数回归模型可以如下述式(1)至式(4),其中,S为参数回归模型的目标文本空间分布参数,x为输入的文本图像,S与x满足映射关系F,如式(1)所示,在本发明实施例中F代表非线性映射函数,该映射关系如式(2)所示。式(2)中fi为每一层的映射函数,映射函数式如式(3)所示。式(3)中σ代表激活函数,例如,式(4)所示,为最后一层的激活函数。
F:S←x (1)
fi(ai-1)=σ(Wiai-1+bi)@ai,i=1,K,k-1 (3)
fk(ak-1)=Wkak-1+bk@S0 (4)
本实施例中,在初始状态时将Wi,bi的值预设为任意非零的参数,该初始化值可以为任意自然数。由于初始时Wi,bi的值为任意值,导致参数回归模型可能并非最佳模型,根据输入样本图像计算所得的文本空间分布参数可能与目标文本空间分布参数存在较大的误差,因此,构建参数回归模型的过程为优化模型中Wi,bi的过程。由于模型的优化程度能够通过文本空间分布参数的误差进行反应,在本发明实施例中,可以以误差为根据对Wi,bi的值进行调整,从而对模型进行优化。
具体的,以一个标注出文字区域的二值图像作为样本,可以将该样本的文本空间分布参数作为参数回归函数的目标文本空间分布参数,即式(1)中的S,然后将该样本的RGB图像作为输入样本图像,即式(1)中的x。将当前参数回归模型计算所得的文本空间分布参数作为测试文本空间分布参数,计算测试文本空间分布参数和目标文本空间分布参数的误差,并计算当前误差与上次所得误差的差值,如果该差值小于预设第一预设阈值,则认为Wi,bi已经收敛到最优值,可以作为参数回归模型的模型参数;如果该差值大于或者等于预设第一预设阈值,说明当前Wi,bi并未收敛到最优值,可以根据当前误差值调整Wi,bi,以缩小测试文本空间分布参数和目标文本空间分布参数的误差,然后重新将该样本的RGB图像作为输入样本图像输入参数回归模型,生成新的测试文本空间分布参数,计算得到新的误差,然后计算本次得到的新的误差与上次误差的差值,直到差值小于预设第一预设阈值。
需要说明的是,本实施例中,当第一次将样本图像输入参数回归模型时,由于不存在上次所产生的误差,因此,在计算本次误差与上次误差的差值时,将上次误差设置为0。
此外,第一预设阈值可以根据参数回归模型的具体函数关系,以及经验值设定,并非固定值,本发明此处不进行赘述。
本实施例中,通过机器学习的方式对参数回归模型进行训练,不仅能够保证模型在使用时输出的参数精确度更高,而且能够避免人工设计的特征,适用性更广。
步骤S102,通过所述参数回归模型生成与图像对应的文本空间分布参数。
其中,如果将图像作为二维空间,那么图像中每个像素均与该二维空间的一个位置对应,而二维空间的位置可以通过文本空间分布参数表示,因此,图像中每个像素均与一个文本空间分布参数相互映射,可以通过文本空间分布参数表示像素所在的位置。根据上述描述可知,参数回归模型通过标注样本反复学习构建,将图像输入参数回归模型即可生成该图像的文本空间分布参数,而且所得到的文本空间分布参数相对较准确。
需要指出的,在得到像素对应位置的同时,还应当得到该像素的颜色值,以便于确定图像中文字区域的位置,因此,在输入图像后,模型通过读取像素的R、G、B三个颜色值计算该像素的文本空间分布参数,而所生成的文本空间分布参数为一系列可以表示像素位置及颜色的浮点数,例如,0.5、0.8等,其中,每个浮点数对应图像中的一个像素。
此外,在构建参数回归模型时,为了减少计算量,提高模型处理图像的效率,可以通过最近邻插值算法将图像进行归一化处理,降低图像的维度,例如,将原大小为1024*1024的图像,通过最近邻插值算法归一化为256*256大小。需要指出的是,为了保证所生成的文本空间分布参数的准确性,构建参数回归模型时输入的样本图像大小为多少,通过参数回归模型定位时输入的图像也应当为相应大小,例如,若构建参数回归模型时,输入的样本图像大小为256*256,那么在使用参数回归模型时所输入的图像大小也为256*256。当然,上述仅为本发明的一个优选实施方式,根据参数回归模型的不同,图像归一化后的大小也不相同,本发明对此不做限制。此外,通过最近邻插值算法将图像进行处理为本领域技术人员所熟知的技术,本发明此处不再赘述。
本实施例的设定,不仅能够准确的得到图像像素对应的文本空间分布参数,为定位文字区域的提供精确的数据依据,而且将图像进行归一化处理,还能够大大减少参数回归模型的计算量。
步骤S103,根据所述文本空间分布参数重构与所述图像对应的文字-非文字二值图像。
其中,在商品图像中,为了能够吸引消费者的注意力,宣传或描述性文字大多醒目,即使图像中可能会出现不同颜色、位置和大小的文字,但是文字在一个小区域内通常具有很强的一致性,那么所表现的为该区域内的像素灰度值接近,而且与其他区域内的像素灰度值不同,因此,可以通过分析图像中的像素灰度值及所在位置,对图像中的文字区域进行定位。
根据上述描述可知,文本空间分布参数所表示的为图像像素灰度值及位置,本实施例通过对文本空间分布参数的处理检测图像的文字区域。为了明确的将文字区域与非文字区域进行区分,本发明实施例将文字与非文字区域设置为两种颜色的二值图像。
例如,将文字区域设置白色,非文字区域设置为黑色。具体的,由于所生成的文本空间分布参数为大小各异的数值,首先,需要将文本空间分布参数二值化,然后将二值化的文本空间分布参数转化为二值化的像素灰度值,从而根据二值化的像素灰度值构建文字-非文字二值图像。将文本空间分布参数二值化包括,设定第二预设阈值,将文本空间分布参数中小于第二预设阈值的参数设置为0;将文本空间分布参数中大于第二预设阈值的参数设置为1,从而使文本空间分布参数只存在两种设置。若构建黑-白二值图像,再将二值化后的文本空间分布参数乘以255,生成黑色和白色两种颜色灰度值,按照颜色灰度值构建形成文字-非文字二值图像。
需要指出的,构建形成的二值图像与输入参数回归模型的图像大小一致,而输入参数回归模型的图像可能已经经过归一化处理,并非原大小,导致构建形成的二值图像并非原大小,因此,在得到文字-非文字二值图像之后,还需要判断该二值图像是否小于原图像的大小,若小于,则通过最近邻插值算法将该二值图像归一化为原图像大小。
由上述实施例可知,本发明实施例所述的图像中文字区域的定位方法,将图像参数化,通过对图像对应的参数进行处理,将图像中的文字区域进行明确的定位。可以看出,本发明实施例的技术方案,完全摒弃传统通过图像轮廓或者区域特征进行文字区域定位的方式,通过对图像更深层次的语义特征,图像文本空间分布参数,进行分析,对文字区域进行定位,不仅能够避免图像尺寸、字体、颜色、语种等对定位的干扰,使定位更加精准,更加鲁棒,而且该方法基于图像最基本的语义特征,能够适用于各种格式的图像,具有通用性。
上述实施例从一个方面描述了本发明实施例的定位方法,为了使本发明的技术方案更加清楚、完善,在上述实施例的基础上,本发明实施例还从另一个方面对本发明技术方案进行了描述。由于本实施例是对上述实施例的补充描述,因此,本实施例与上述实施例相同的部分详见上述实施例的描述,本实施例中不再赘述。
请参见图2,图2为本发明实施例提供的另一种图像中文字区域的定位方法的流程图,该问题定位方法包括以下步骤。
步骤S201,构建参数回归模型。
本实施例中,假设参数回归模型为DCNN,构建DCNN时,样本图像大小的256*256。构建DCNN的过程详见上述实施例的描述,本实施例此处不再赘述。
步骤S202,通过所述参数回归模型生成与图像对应的文本空间分布参数。
参见图3,图3为本发明实施例提供的待定位图像,该图像中区域01、区域02和区域03为文字区域,其他区域为背景区域。假设该图像的大小为1024*1024,由于构建DCNN时的样本图像大小为256*256,因此,在将图3中的图像输入DCNN模型之前,需要将该图像通过最近邻插值算法归一化为256*256,然后将归一化的图像输入DCNN,DCNN模型读取每个像素的R、G和B的值,并进行计算,对应每个像素生成一个文本空间分布参数。
步骤S203,构建降维模型。
其中,在根据文本空间分布参数构建二值图像时,为了降低数据处理量,可以将文本空间分布参数进行降维处理,而将文本空间分布参数进行降维处理需要通过降维模型进行,因此,需要构建降维模型。降维模型设置有多层网络和多个节点,第一层网络接收输入数据后进行运算,运算过程中将节点进行一次合并;第一层网络的输出数据作为第二层网络的输入数据,将节点进行二次合并,并将输出数据作为第三层网络的输入数据,直到得到最后一层网络的输出数据,通过每层的节点合并完成降维处理。本实施例中,降维模型可以为深度玻尔兹曼机(The depth of the Boltzmann machine,DBM)、深度置信网络(Deepbelief network,DBN)或受限玻尔兹曼机(restricted Boltzmann machine,RBM)等。为了能够避免人工设计的特征,与构建参数回归模型类似,降维模型也可以通过标注样本学习的方式构建。
本实施例以DBM为例,对构建降维模型进行详细描述。首先,构建三层DBM模型,详见式(4),其中,v代表可见变量,h1和h2分别为第二层和第三层的隐层变量,w为节点单元之间连接边的权重,b和c为节点单元偏置量。与构建参数回归模型相似,在初始状态时,将上述未知参数设定为任意非零的参数,并通过样本训练确定最优值。
以一个预先标注的二值图像作为样本,获取该二值图像的文本空间分布参数作为DBM模型训练的标定文本空间分布参数,将该样本的像素灰度值输入降维模型生成重构文本空间分布参数。由于重构文本空间分布参数通过降维模型生成,因此,降维模型中未知参数的值,可以直接通过重构文本空间分布参数与标定文本空间分布参数的误差体现,与构建参数回归模型类似,可以以误差值为依据对降维模型进行优化。
具体的,根据标定文本空间分布参数与重构文本空间分布参数运算得到当前误差,计算当前误差与上次所得误差的差值,如果该差值小于预设第三预设阈值,则认为未知参数已经收敛到最优值,可以作为降维模型的模型参数;如果该差值大于或者等于预设第三预设阈值,说明当前未知参数并未收敛到最优值,可以根据当前误差值进行调整,以缩小重构文本空间分布参数和标定文本空间分布参数的误差,然后重新将该样本的像素灰度值输入降维模型,生成新的重构文本空间分布参数,计算得到新的误差,然后计算本次得到的新的误差与上次误差的差值,直到差值小于预设第三预设阈值。
需要说明的是,本实施例中,当第一次将样本的像素灰度值输入降维模型时,由于不存在上次所产生的误差,因此,在计算本次误差与上次误差的差值时,将上次误差设置为0。
此外,将样本的像素灰度值输入降维模型生成重构文本空间分布参数,具体包括:按照预设顺序将二值图像的像素灰度值输入DBM模型的第一层,DBM模型第一层运算的输出数据作为第二层的输入数据继续运算,第二层的输出数据作为第三层的输入数据进行运算,DBM模型从第一层开始逐层将输出数据作为下一层的输入数据,直至得到最后一层的输出数据。然后,利用最后一层的输出数据进行逆运算,得到该二值图像的重构文本空间分布参数。
需要说明的是,由于预先标注的二值图像为二维的图像,而在训练DBM模型时,所输入的数据应当为一维,因此,在读取数据时,以预先设定的排或者列为顺序进行读取。
此外,本实施例中的DBM模型设置有三层网络,第二层的节点数量可以设置为1024,第三层的节点数量可以为256。当然,本实施例仅为本发明的一个优选示例,设计网络时,可以根据需求设置不同数量的网络层和每层的节点数,本发明对此不做限制。
步骤S204,将所述文本空间分布参数输入所述降维模型。
步骤S205,通过参数重构的方式将所述文本空间分布参数进行降维处理。
将DCNN生成的待定位图像的文本空间分布参数输入DBM,DBM通过上述步骤的计算方式逐层进行参数重构,DBM最后一层所输出的数据为降维后的文本空间分布参数。其中,参数重构为本领域技术人员惯用的技术手段,本发明此处不再详述。
由上述实施例可知,DCNN所输出的文本空间分布参数为浮点数,而DBM是通过参数重构的方式降低文本空间分布参数的维度,并不改变文本空间分布参数值,因此,降维后的文本空间分布参数仍然为浮点数。
需要说明的是,由于DCNN与DBM是对同一副图像进行处理,而通过上述描述可知,DBM将最后一层隐层的输出数据作为所抽取的特征,因此,为了增强对文字区域定位的稳定性和鲁棒性,在构建模型时,可以将DBM最后一层的输出数据作为DCNN的目标文本空间分布参数。这样的设定,首先,通过同一个样本对DCNN和DBM进行训练,将DCNN和DBM结合训练和使用,能够大大的提高定位的性能;其次,DBM最后一层的输出数据为所抽取的特征,因此,不仅具有明确的代表性,而且数据量少,作为目标文本空间分布参数训练DCNN时,能够在保证训练精确度的条件下很大程度的减少运算量。
本实施例中,通过将参数回归模型和降维模型结合使用,能够大大的提高定位时的性能,而且能够使得处理结果鲁棒性更高。
步骤S206,将所述文本空间分布参数中小于预设阈值的参数设置为0;将所述文本空间分布参数中大于预设阈值的参数设置为1。
其中,本实施例具体为将DBM降维后的文本空间分布参数进行二值化设置。
步骤S207,将参数0和参数1转换为二值像素灰度值。
本实施例以将图3转换为黑-白二值图为例,将二值化的参数乘以255,得到像素灰度值0和255,其中,像素灰度值255表示该像素为黑色,像素灰度值0表示该像素为白色。当然,上述仅为本发明的优选示例,也可以将二值化的参数转化为其他颜色和白色,只要能够将区域01、区域02、区域03和背景区域明确的进行区分即可,本发明对此不做限制。
步骤S208,根据所述文本空间分布参数重构与所述图像对应的文字-非文字二值图像。
如图4所示,其为根据像素灰度值,构建出的图3对应的黑-白二值图像,其中,区域01、区域02和区域03为白的,背景区域为黑色,从而将图3中的三处文字区域进行了明确的定位。
此外,需要说明的,由于将图3输入DCNN前,将图3归一化为大小256*256,而与该大小的图像对应的文本空间分布参数所表示的也为256*256的二维空间,因此,DBM所生成的二值图像大小也为256*256,而图3为中图像的大小为1024*1024,所以,在DBM生成二值图像后,还需要将二值图像通过最近邻插值算法归一化为1024*1024大小,得到图4所示的图像。
由以上技术方案可知,本发明实施例在定位图像中的文字区域时,首先,构建参数回归模型,通过参数回归模型生成与图像相对应的文本空间分布参数,然后,根据文本空间分布参数构建文字-非文字二值图像,将图像的文本和非文本明确的表示出。即,将图像参数化,通过对图像对应的参数进行处理,将图像中的文字区域进行明确的定位。可以看出,本发明实施例的技术方案,完全摒弃传统通过图像轮廓或者区域特征进行文字区域定位的方式,通过对图像更深层次的语义特征,图像文本空间分布参数,进行分析,对文字区域进行定位,不仅能够避免图像尺寸、字体、颜色、语种等对定位的干扰,使定位更加精准,更加鲁棒,而且该方法基于图像最基本的语义特征,能够适用于各种格式的图像,具有通用性。
与上述实现方法相对应的,本发明实施例还提供了一种图像中文字区域的定位装置,请参见图5,图5为本发明实施例提供的一种图像中文字区域的定位装置的结构示意图,该装置包括:构建模块11、生成模块12和重构模块13。其中,构建模块11,用于构建参数回归模型;生成模块12,用于通过所述构建模块11所构建的参数回归模型生成与图像对应的文本空间分布参数;重构模块13,用于根据所述生成模块12所生成的文本空间分布参数重构与所述图像对应的文字-非文字二值图像。
所述装置中各个单元的功能和作用的实现过程详见上述方法中对应的实现过程,在此不再赘述。
由本实施例可以看出,本发明实施例所述的图像中文字区域的定位方法,将图像参数化,通过对图像对应的参数进行处理,将图像中的文字区域进行明确的定位。可以看出,本发明实施例的技术方案,完全摒弃传统通过图像轮廓或者区域特征进行文字区域定位的方式,通过对图像更深层次的语义特征,图像文本空间分布参数,进行分析,对文字区域进行定位,不仅能够避免图像尺寸、字体、颜色、语种等对定位的干扰,使定位更加精准,更加鲁棒,而且该方法基于图像最基本的语义特征,能够适用于各种格式的图像,具有通用性。
在上述实施例的基础上,在本实施例中,所述构建模块11包括:获取单元,生成单元、计算单元、判断单元、调整单元和确定单元,其中,所述获取单元,用于获取所述参数回归模型的目标文本空间分布参数;所述生成单元,用于将测试图像输入所述参数回归模型生成测试文本空间分布参数;所述计算单元,用于根据所述目标文本空间分布参数与所述测试文本空间分布参数运算得到当前误差;还用于计算所述当前误差与基础误差的差值;其中,所述基础误差为上次运算得到的误差;所述判断单元,用于判断所述差值是否小于第一预设阈值;在所述差值大于或者等于所述第一预设阈值时,所述调整单元,用于根据所述当前误差调整所述参数回归模型的未知参数;所述确定单元,用于在所述差值大于或者等于所述第一预设阈值时,将所述当前误差确定为基础误差;在所述差值小于所述第一预设阈值时,所述确定单元,还用于将所述参数回归模型未知参数的当前值确定为模型参数。
所述重构模块13包括:二值化单元、转换单元和构建单元,其中,所述二值化单元,用于将所述文本空间分布参数中小于第二预设阈值的参数设置为0;将所述文本空间分布参数中大于所述第二预设阈值的参数设置为1;所述转换单元,用于将参数0和参数1转换为二值像素灰度值;所述构建单元,用于根据所述的二值像素灰度值构建所述文字-非文字二值图像。
为了使本发明的技术方案更加详细,本发明实施例还提供了另一种图像中文字区域的定位装置,请参见图6,图6是本发明实施例提供的另一种图像中文字区域的定位装置的结构示意图,该装置包括:构建模块21、生成模块22、输入单元23、降维单元24和重构模块25。其中,构建模块21、生成模块22和重构模块25的功能和作用与上述实施例相似,本发明实施例此处不再赘述。在本实施例中,构建模块21,还用于还用于构建降维模型;输入单元23,用于将所述文本空间分布参数输入所述降维模型;降维单元24,用于通过参数重构的方式将所述文本空间分布参数进行降维处理。
在本实施例中,构建模块21中的获取单元,还用于获取预先标注的二值化图像的文本空间分布参数作为标定文本空间分布参数;所述生成单元,还用于将所述二值化图像的像素灰度值输入所述降维模型生成重构文本空间分布参数;所述计算单元,还用于根据所述标定文本空间分布参数与所述重构文本空间分布参数运算得到当前误差;计算所述当前误差与基础误差的差值;所述判断单元,还用于判断所述差值是否小于第三预设阈值;在所述差值大于等于所述第三预设阈值时,所述调整单元,还用于根据所述当前误差调整所述降维模型的未知参数;所述确定单元,还用于将所述当前误差确定为基础误差;在所述差值小于所述第三预设阈值时,所述确定单元,还用于将所述降维模型未知参数的当前值确定为模型参数。
结合上述实施例,在本实施例中,所述获取单元包括读取子单元,用于读取所述降维模型最后一层的输出数据;在本实施例中,所述确定单元,还用于将所述降维模型最后一层的输出数据确定为所述目标文本空间分布参数。
所述装置中各个单元的功能和作用的实现过程详见上述方法中对应的实现过程,在此不再赘述。
综合上述,本发明实施例在定位图像中的文字区域时,首先,构建参数回归模型,通过参数回归模型生成与图像相对应的文本空间分布参数,然后,根据文本空间分布参数构建文字-非文字二值图像,将图像的文本和非文本明确的表示出。即,将图像参数化,通过对图像对应的参数进行处理,将图像中的文字区域进行明确的定位。可以看出,本发明实施例的技术方案,完全摒弃传统通过图像轮廓或者区域特征进行文字区域定位的方式,通过对图像更深层次的语义特征,图像文本空间分布参数,进行分析,对文字区域进行定位,不仅能够避免图像尺寸、字体、颜色、语种等对定位的干扰,使定位更加精准,更加鲁棒,而且该方法基于图像最基本的语义特征,能够适用于各种格式的图像,具有通用性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种图像中文字区域的定位方法,其特征在于,包括:
构建参数回归模型;
通过所述参数回归模型生成与图像对应的文本空间分布参数;
根据所述文本空间分布参数重构与所述图像对应的文字-非文字二值图像;
所述根据所述文本空间分布参数重构与所述图像对应的文字-非文字二值图像,包括:
将所述文本空间分布参数中小于第二预设阈值的参数设置为0;将所述文本空间分布参数中大于所述第二预设阈值的参数设置为1;
将参数0和参数1转换为二值像素灰度值;
根据所述的二值像素灰度值构建所述文字-非文字二值图像;
在所述将所述文本空间分布参数中小于预设阈值的参数设置为0;将所述文本空间分布参数中大于预设阈值的参数设置为1之前,还包括:
构建降维模型;所述降维模型为三层DBM模型,并利用如下公式构建三层DBM模型,其中,v代表可见变量,h1和h2分别为第二层和第三层的隐层变量,w为节点单元之间连接边的权重,b和c为节点单元偏置量;
将所述文本空间分布参数输入所述降维模型;
通过参数重构的方式将所述文本空间分布参数进行降维处理。
2.根据权利要求1所述的图像中文字区域的定位方法,其特征在于,所述构建参数回归模型,包括:
获取所述参数回归模型的目标文本空间分布参数;
将测试图像输入所述参数回归模型生成测试文本空间分布参数;
根据所述目标文本空间分布参数与所述测试文本空间分布参数运算得到当前误差;
计算所述当前误差与基础误差的差值;其中,所述基础误差为上次运算得到的误差;
判断所述差值是否小于第一预设阈值;
若所述差值大于或者等于所述第一预设阈值,根据所述当前误差调整所述参数回归模型的未知参数,将所述当前误差确定为基础误差,并重复执行步骤将测试图像输入所述参数回归模型生成测试文本空间分布参数,直至所述差值小于所述第一预设阈值;
若所述差值小于所述第一预设阈值,将所述参数回归模型未知参数的当前值确定为模型参数。
3.根据权利要求1所述的图像中文字区域的定位方法,其特征在于,所述构建降维模型,包括:
获取预先标注的二值化图像的文本空间分布参数作为标定文本空间分布参数;
将所述二值化图像的像素灰度值输入所述降维模型生成重构文本空间分布参数;
根据所述标定文本空间分布参数与所述重构文本空间分布参数运算得到当前误差;
计算所述当前误差与基础误差的差值;其中,所述基础误差为上次运算得到的误差;
判断所述差值是否小于第三预设阈值;
若所述差值大于等于所述第三预设阈值,根据所述当前误差调整所述降维模型的未知参数,将所述当前误差确定为基础误差,并重复执行步骤将所述二值化图像的像素灰度值输入所述降维模型生成重构文本空间分布参数,直至所述差值小于所述第三预设阈值;
若所述差值小于所述第三预设阈值,将所述降维模型未知参数的当前值确定为模型参数。
4.根据权利要求2至3中任一权项所述的图像中文字区域的定位方法,其特征在于,所述获取所述参数回归模型的目标文本空间分布参数,包括:
读取所述降维模型最后一层的输出数据;
将所述降维模型最后一层的输出数据确定为所述目标文本空间分布参数。
5.一种图像中文字区域的定位装置,其特征在于,包括:
构建模块,用于构建参数回归模型;
生成模块,用于通过所述构建模块所构建的参数回归模型生成与图像对应的文本空间分布参数;
重构模块,用于根据所述生成模块所生成的文本空间分布参数重构与所述图像对应的文字-非文字二值图像;
所述重构模块包括:二值化单元、转换单元和构建单元,其中,
所述二值化单元,用于将所述文本空间分布参数中小于第二预设阈值的参数设置为0;将所述文本空间分布参数中大于所述第二预设阈值的参数设置为1;
所述转换单元,用于将参数0和参数1转换为二值像素灰度值;
所述构建单元,用于根据所述的二值像素灰度值构建所述文字-非文字二值图像;
所述装置还包括:输入单元和降维单元,其中,
所述构建模块,还用于构建降维模型;所述降维模型为三层DBM模型,并利用如下公式构建三层DBM模型,
其中,v代表可见变量,h1和h2分别为第二层和第三层的隐层变量,w为节点单元之间连接边的权重,b和c为节点单元偏置量;
所述输入单元,用于将所述文本空间分布参数输入所述降维模型;
所述降维单元,用于通过参数重构的方式将所述文本空间分布参数进行降维处理。
6.根据权利要求5所述的装置,其特征在于,所述构建模块包括:获取单元,生成单元、计算单元、判断单元、调整单元和确定单元,其中,
所述获取单元,用于获取所述参数回归模型的目标文本空间分布参数;
所述生成单元,用于将测试图像输入所述参数回归模型生成测试文本空间分布参数;
所述计算单元,用于根据所述目标文本空间分布参数与所述测试文本空间分布参数运算得到当前误差;还用于计算所述当前误差与基础误差的差值;其中,所述基础误差为上次运算得到的误差;
所述判断单元,用于判断所述差值是否小于第一预设阈值;
在所述差值大于或者等于所述第一预设阈值时,所述调整单元,用于根据所述当前误差调整所述参数回归模型的未知参数;所述确定单元,用于在所述差值大于或者等于所述第一预设阈值时,将所述当前误差确定为基础误差;
在所述差值小于所述第一预设阈值时,所述确定单元,还用于将所述参数回归模型未知参数的当前值确定为模型参数。
7.根据权利要求6所述的装置,其特征在于,
所述获取单元,还用于获取预先标注的二值化图像的文本空间分布参数作为标定文本空间分布参数;
所述生成单元,还用于将所述二值化图像的像素灰度值输入所述降维模型生成重构文本空间分布参数;
所述计算单元,还用于根据所述标定文本空间分布参数与所述重构文本空间分布参数运算得到当前误差;计算所述当前误差与基础误差的差值;
所述判断单元,还用于判断所述差值是否小于第三预设阈值;
在所述差值大于等于所述第三预设阈值时,所述调整单元,还用于根据所述当前误差调整所述降维模型的未知参数;所述确定单元,还用于将所述当前误差确定为基础误差;
在所述差值小于所述第三预设阈值时,所述确定单元,还用于将所述降维模型未知参数的当前值确定为模型参数。
8.根据权利要求6或7所述的装置,其特征在于,所述获取单元包括:
读取子单元,用于读取所述降维模型最后一层的输出数据;
所述确定单元,还用于将所述降维模型最后一层的输出数据确定为所述目标文本空间分布参数。
CN201510151823.9A 2015-04-01 2015-04-01 图像中文字区域的定位方法及装置 Active CN106157284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510151823.9A CN106157284B (zh) 2015-04-01 2015-04-01 图像中文字区域的定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510151823.9A CN106157284B (zh) 2015-04-01 2015-04-01 图像中文字区域的定位方法及装置

Publications (2)

Publication Number Publication Date
CN106157284A CN106157284A (zh) 2016-11-23
CN106157284B true CN106157284B (zh) 2019-10-11

Family

ID=57337830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510151823.9A Active CN106157284B (zh) 2015-04-01 2015-04-01 图像中文字区域的定位方法及装置

Country Status (1)

Country Link
CN (1) CN106157284B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444903B (zh) * 2020-03-23 2022-12-09 西安交通大学 漫画气泡内文字定位方法、装置、设备及可读存储介质
CN111401347B (zh) * 2020-06-05 2020-11-10 支付宝(杭州)信息技术有限公司 基于图片的信息定位方法以及装置
CN112668657B (zh) * 2020-12-30 2023-08-29 中山大学 基于分类器预测不确定性的注意力增强分布外图像检测法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299239A (zh) * 2008-06-06 2008-11-05 北京中星微电子有限公司 文字区域图像的获取方法及装置、文字识别***
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置
CN104281850A (zh) * 2013-07-09 2015-01-14 腾讯科技(深圳)有限公司 一种文字区域识别方法和装置
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机***有限公司 一种文字识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US7436994B2 (en) * 2004-06-17 2008-10-14 Destiny Technology Corporation System of using neural network to distinguish text and picture in images and method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299239A (zh) * 2008-06-06 2008-11-05 北京中星微电子有限公司 文字区域图像的获取方法及装置、文字识别***
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN104281850A (zh) * 2013-07-09 2015-01-14 腾讯科技(深圳)有限公司 一种文字区域识别方法和装置
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机***有限公司 一种文字识别方法及装置
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Neural Network-based Text Location for News Video Indexing;Ki-Young Jeong 等;《Image Processing, 1999. ICIP 99. Proceedings. 1999 International Conference on》;19991028;全文 *
一种基于高层语义的文字图像过滤模型;宋广为 等;《现代电子技术》;20131101;第36卷(第21期);全文 *
图像视频复杂场景中文字检测识别方法研究;颜建强;《中国博士学位论文全文数据库 (信息科技辑)》;20150115;全文 *
基于深度信念网络的入侵检测模型;杨昆朋;《研究与开发》;20150131;全文 *
大规模网格模型的实时交互浏览;武宪;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20141215(第12期);第10-13页 *
平面媒体中文字定位的研究与实现;李晨轩;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20101015(第10期);第8、36页 *
支持向量机及其应用研究综述;祁亨年;《计算机工程》;20040531;第30卷(第10期);全文 *
视频文本检测和识别技术研究;朱成军 等;《计算机工程》;20070531;第33卷(第10期);全文 *

Also Published As

Publication number Publication date
CN106157284A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN109840531B (zh) 训练多标签分类模型的方法和装置
US20190294970A1 (en) Systems and methods for polygon object annotation and a method of training an object annotation system
CN105320965B (zh) 基于深度卷积神经网络的空谱联合的高光谱图像分类方法
Robins et al. Theory and algorithms for constructing discrete Morse complexes from grayscale digital images
Cohen-Steiner et al. Extending persistence using Poincaré and Lefschetz duality
JP2019514123A (ja) 地理的領域におけるコンテナ内に格納された量の遠隔決定
Zhao et al. Recognition of building group patterns using graph convolutional network
Cao et al. A new difference image creation method based on deep neural networks for change detection in remote-sensing images
Li et al. A hybrid method combining pixel-based and object-oriented methods and its application in Hungary using Chinese HJ-1 satellite images
Sisodia et al. A comparative analysis of remote sensing image classification techniques
Chen et al. Convolutional neural network based dem super resolution
JP6612486B1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
Ge et al. Multiple-point simulation-based method for extraction of objects with spatial structure from remotely sensed imagery
CN106157284B (zh) 图像中文字区域的定位方法及装置
Xiao et al. Building segmentation and modeling from airborne LiDAR data
CN110458166A (zh) 一种基于可变形卷积的危险品检测方法、装置及设备
CN109635714A (zh) 文档扫描图像的矫正方法及装置
Wang et al. Multi-feature sea–land segmentation based on pixel-wise learning for optical remote-sensing imagery
JP2019185787A (ja) 地理的地域内のコンテナのリモート決定
He et al. Learning to match multitemporal optical satellite images using multi-support-patches Siamese networks
CN103136760A (zh) 一种基于fast与daisy的多传感器图像匹配方法
Wan et al. A geometry-aware attention network for semantic segmentation of MLS point clouds
Chaudhuri et al. Attention-driven cross-modal remote sensing image retrieval
CN107358244B (zh) 一种快速局部不变特征提取与描述方法
CN111144466B (zh) 一种图像样本自适应的深度度量学习方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant