CN103946866B

CN103946866B - 与直方图一起使用多层连接分量的文本检测

Info

Publication number: CN103946866B
Application number: CN201280056944.XA
Authority: CN
Inventors: S-H·蔡; V·帕拉梅斯瓦兰; R·格泽茨克祖克
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2011-11-21
Filing date: 2012-10-17
Publication date: 2018-06-01
Anticipated expiration: 2032-10-17
Also published as: WO2013076358A1; US8611662B2; EP2783328A1; IN2014CN04624A; KR20140091762A; JP5775225B2; KR101617681B1; CN103946866A; JP2014531097A; EP2783328A4; US20130129216A1; EP2783328B1

Abstract

将数字图像转换成多级图像，并且从多级图像的连接分量形成多个比例集合，从而比例集合中的不同比例集合定义不同大小的空间仓。对于多个比例集合中的每个比例集合，生成从用于每个空间仓的相应比例集合提取的连接分量的计数；并且链接代表连接分量的相邻空间仓。然后合并来自不同比例集合的连接分量，并且对合并的连接分量执行文本行检测。在一个实施例中，比例集合中的每个比例集合是直方图，并且在链接之前滤除具有小于预定计数的所有仓；并且延伸每个直方图，从而添加相邻水平和竖直仓的计数(滤除单区域仓)，并且对延伸的直方图链接。

Description

与直方图一起使用多层连接分量的文本检测

技术领域

本发明的示例和非限制实施例总体上涉及数字成像设备和有关软件，并且更具体地涉及从比如可以由智能电话相机捕获的数字图像的文本检测和识别。

背景技术

文本识别经常应用于计算机视觉和模式识别领域中、具体用于其中需要将可视图像转换成数字文本的应用。光学字符识别(OCR)***使用平板扫描仪以将纸件文档转换成数字文档、使用这一技术将文本图像转换成数字文本。在智能电话设备上的移动视觉应用、比如翻译服务也可以使用这一技术以翻译来自用户拍摄的图片的外语文本。在数字地图创建领域中，这一技术可以用来根据比如从车载设备定期地采样的图像来创建数字内容。从这些图像，店面和道路标志上的文本可以被标识并且用来创建兴趣点(POI)信息。然而，当前文本检测方式尚未提供如初始地希望那样多的改进。

目前，其中已经应用文本识别***的最成功应用是经常有90％以上准确度的文档转换***。超出平板扫描仪装置以外，文本识别***尚不很成功。这一差别的一个原因是在自然景物图像中有削弱文本识别准确度的无限制照明和查看条件。一种用于解决这一问题的方式已经运用自然景物文本检测算法，该自然景物文本检测算法通常应用于在进行任何识别尝试之前对文本进行局部定位。该局部定位的文本然后将具有更好的照明条件并且可以在文本识别或者模式匹配的第二阶段中被更好地使用。然而这一方式尚未提供如初始地希望那样多的改进。

广而言之，可以将文本检测主要划分成两个独立的类别：1)基于区域的文本检测；以及2)基于连接分量的文本检测。在基于区域的方法中，滑动窗被应用在数字图像上并且测试被应用以对窗是否包含文本进行分类。例如参见Y.Zhong,H.Zhang,and A.K.Jain,"Automatic caption localization in compressed video,"IEEE Trans.PatternAnal.Mach.Intell,vol.22,no.4,pp.385-392,2000(使用离散余弦变换空间中的特征以对区域进行分类)；并且也参见X.Chen and A.L.Yuille,CVPR-Workshops,2005,p.28中的"Atime-efficient cascade for real-time object detection:With applications forthe visually impaired"(使用强度、梯度和特征；并且训练Adaboost算法以执行分类)。

在连接分量方式中，首先将被分析用于文本的数字图像变换成二元图像。在图像内的连接分量被视为字符候选。将这些字符候选配对和链接以形成文本行。文本行的几何性质通常用来滤除正误识；例如参见A.Clavelli and D.Karatzas,"Text Segmentationin Colour Posters from the Spanish Civil War Era",Int.Conf.on DocumentAnalysis and Recognition,2009,pp.181-185；B.Epshtein,E.Ofek,and Y.Wexler,CVPR,2010,pp.2963-2970中的"Detecting text in natural scenes with stroke widthtransform"(也参见由这些相同三位个人并且标题相似的美国专利申请公开文本2009/0285482)；并且也参见H.Chen,S.S.Tsai,G.Schroth,D.Chen,R.Grzeszczuk,B.Girod,ICIP,2011中的"Robust text detection in natural images with edge-enhancedmaximally stable extremal regions"。

Epshtein等人的工作考虑基于笔划宽度变换(SWT)的文本检测方案。具体地，Epshtein等人的技术使用Canny边缘检测器[参见Canny,J.,"A Computational ApproachTo Edge Detection"IEEE Trans.Pattern Analysis and Machine Intelligence,8(6):679-698,1986]以发现图像中的边缘、然后试着通过在每个检测到的边缘的梯度方向上投射射线、基于对应边缘形成字符候选来发现字符笔划的两侧。H.Chen等人的技术使用MSER[例如参见J.Matas,O.Chum,M.Urban,and T.Pajdla,British Machine VisionConference,2002,vol.1,pp.384-393中的"Robust wide baseline stereo frommaximally stable extremal regions"]作为使用Canny边缘而增强的字符候选。H.Chen等人的这一技术也使用基于距离变换的方法以计算笔划宽度。并且最后，Lukas Neumann,Jiri Matas,"Text localization in real-world images using efficiently prunedexhaustive search",Int.Conf.on Document Analysis and Retrieval,2011使用延伸MSER区域以超出二级处理之外延伸。本发明人在这里将通过在所有可能区域内的穷尽搜索来对文本进行局部定位的Lukas Neumann等人的技术视为太耗时。

在本领域中需要的是一种用于识别经由数字成像而捕获的自然景物中的文本以及具体适于与以上指出的动态应用、比如收集(例如在智能电话中的)兴趣点信息和创建(例如在车载相机中的)数字地图一起使用的改进。

发明内容

通过使用本发明的示例实施例来克服前述和其它问题并且实现其它优点。

根据本发明的第一方面，有一种包括至少一个处理器和至少一个存储器的装置，该至少一个存储器包括计算机程序代码。在这一第一方面中，该至少一个存储器和计算机程序代码被配置用于与至少一个处理器一起使该装置至少：将数字图像转换成多级图像；从该多级图像的连接分量形成多个比例集合，其中该比例集合中的不同比例集合定义不同大小的空间仓；并且对于多个比例集合中的每个比例集合，生成从用于每个空间仓的相应比例集合提取的连接分量的计数；并且链接代表连接分量的相邻空间仓；然后合并来自不同比例集合的连接分量；以及对合并的连接分量执行文本行检测。

根据本发明的第二方面，有一种方法，该方法包括：将数字图像转换成多级图像；由至少一个处理器从多级图像的连接分量形成多个比例集合，其中比例集合中的不同比例集合定义不同大小的空间仓；并且对于多个比例集合中的每个比例集合，生成从用于每个空间仓的相应比例集合提取的连接分量的计数并且链接代表连接分量的相邻空间仓；然后合并来自该不同比例集合的连接分量；以及对合并的连接分量执行文本检测。

根据本发明的第三方面，有一种有形地存储可由至少一个处理器执行的指令程序的计算机可读存储器。该指令程序包括：用于将数字图像转换成多级图像的代码；用于从该多级图像的连接分量形成多个比例集合的代码，其中该比例集合中的不同比例集合定义不同大小的空间仓；并且对于多个比例集合中的每个比例集合：用于生成从用于每个空间仓的相应比例集合提取的连接分量的计数的代码；以及用于链接代表连接分量的相邻空间仓的代码；该程序还包括：用于合并来自不同比例集合的连接分量的代码；以及用于对合并的连接分量执行文本检测的代码。

附图说明

图1图示从捕获的数字图像推导的多级图像；该多级图像的连接分量如在第二行中所示通过不同空间仓和不同比例以形成不同比例集合，并且末行的提取的区域被用于不同比例。

图2示出从不同大小的区域推导的特征计数的直方图，这些区域是从数字图像、比如图1的提取区域来提取的。

图3A图示图2的直方图的水平过滤。

图3B图示标记来自图3的直方图仓以仅保持具有三个或者更多连接分量的直方图仓。

图3C图示在图3B的仓中保持的连接分量的水平和竖直链接。

图4比较用于识别在图1的区域“A”示出的文本的简单二值化方案(左)与根据这些教导的多层方案(右)。

图5图示在直方图过滤之前(左)和在这样的过滤之后(右)的在根据这些教导处理之后的图1的整个数字图像。

图6示出主设备的具体框图，该主设备具有根据这些教导的实施例的在计算机可读存储器中存储的用于执行这里详述的文本检测的程序。

图7是图示根据这些教导的示例实施例的方法的操作和在计算机可读存储器上体现的计算机程序指令的执行结果的逻辑流程图。

具体实施方式

用于从数字捕获的自然景物的背景检测文本的许多现有技术方式使用二值化。在这一方式中，应用二值化阶段以例如经由全局二值化、自适应二值化或者最大限度地稳定的极值区域MSER将自然景物图像转换成二级图像(例如参见在以上背景技术章节中引用的"Robust wide baseline stereo from maximally stable extremal regions")。更多步骤将二级图像的连接分量视为文本字符候选并且用作文本行形成的后续阶段的基本构建块。

本发明人认为字符候选生成是最根本阶段，这意味着以上二值化过程的性能很重要。但是将图像转换成二值形式假设文本在景物/图像中与它的背景比较具有良好对比度。这一假设未对于所有自然景物图像有效。例如考虑使用相机而拍摄的图像；景物中的文本可以散焦，它可以包含运动模糊，或者文本可以表现非均匀照明。

为了更好地解决这些问题，这里的教导利用一种用于文本检测的多级方式。首先呈现概要并且随后呈现参照图1至图5更具体描述以用具体示例更好地详述各种步骤。在这些教导中，取代将自然景物图像转换成二级图像，代之以将它转换成更好地保留细节的多级图像。在二级图像中，是二级图像中的连接分量被用作基本构建块。但是这里详述的多级方式利用不同比例集合的连接分量。然而这产生不同大小的重叠区域，通过这些重叠区域使用多维直方图来对待这些教导。实质上，直方图用来组织多层连接分量。如将在图5所示，这一用于重叠、但是不同大小的区域的***方式的最终结果是一种改进的文本检测算法。

从多级图像的不同比例集合生成重叠连接分量。这些不同连接分量使用多维直方图来组织。多级图像的(例如通过MSER的自适应二值化或者提取而生成的)每个连接分量基于它们的空间和几何大小并且在一些实施例中基于附加几何性质而向直方图仓中入仓。在一个比例集合的仓内对一个大小范围的连接分量进行计数；在不同比例集合的仓中对另一大小范围的连接分量进行计数，等等。以这一方式，多级图像被用来经由连接分量来形成比例集合，这些连接分量是字母数字字符候选。落在由给定数目的连接分量填充的直方图仓中的连接分量如图3B中所示视为字符候选；排除具有少于给定的截止数的那些仓被进一步视为文本。如将用图3所见，也可以在某些实施例中在竖直或者水平方向上延伸直方图。在空间上重叠的直方图可以用来减少边界效果。相同仓的重叠连接分量如果它仅为单个重叠则链接在一起。然后如图3中所示逐对连接在相同直方图仓内的直方图候选，并且也可以连接在空间上邻近的仓直方图。从逐对连接的字符候选的聚类，然后可以形成文本行。

与在现有技术的识别技术中使用的简单二值化过程比较，这些教导使用直方图以将图像的多层连接分量划分成用于文本检测的不同级。也不同于那些现有技术，有可以用来减轻定界效果的重叠直方图。使用直方图的逐对连接和链接也被视为比先前方式新颖。

现在关于图1至5考虑这一技术的更具体示例。将在图1的顶部(第一行)的自然景物图像转换成多级图像；图1使用MSER，但是自适应二值化或者其它提取技术可以用相似有效性来工作。图1的第二行示出由空间网格定界的仓位置。在这一第二行内的每个单个块中的网格线条的不同颜色(图1的不同黑白阴影)揭示每个块具有两个独立网格，这意味着在重叠的两个不同仓内包含图像上的用于给定的块的每个点或者像素。该技术可以容易延伸至每块三个或者更多重叠的相同大小的网格或者减少至一个，因此没有相同大小的仓重叠，然而有许多相同大小的网格，这被视为一个级集合。注意在仓位置行中的每个不同块为不同大小；每个不同大小的网格块因此代表MSER(或者自适应二值等)提取的不同比例集合。图1图示共计五个比例集合。图示该仓位置的第二行用于读者对如何发展图2的直方图的概念理解。

图1的最下行图示从在图1的顶部的图像的多级提取，每个块代表一级并且每个块根据在紧接在它上方的仓位置块中的网格线条在概念上被划分。因此，将最左提取的区域划分成最小仓大小(最小比例集合、例如每仓10-30个像素)，并且将最右提取划分成最大仓大小(最大比例集合、例如42-126个像素)。这是多层提取，每个不同大小的仓代表提取的不同级并且连接分量被定位到其中的不同大小的仓。自然地，在图1的最左区域未图示用于整个图像的提取，但是这限于示例；在实践中，根据不同仓大小来在多个级/比例上提取整个图像。这意味着不仅在给定的块中的相同大小的仓重叠(如果如在图1所示每比例有两个或者更多重叠网格)而且在不同块中的不同大小的仓也重叠(因为在重叠仓中代表原有图像的相同像素中的一些像素)。这些仓用来生成直方图。基于比例集合从多级图像提取连接分量，并且如以上描述的那样，图1的最下行的每个块代表一个比例集合。在图1的左侧的最小比例集合将标识具有相对小的字体大小的字符候选，而在图1的右侧的最大比例集合将标识具有相对大的字体大小的字符候选。对于MSER，每个比例集合可以对应于不同检测的MSER区域。

图1的(最下行中的)每个不同比例集合提取将生成一个直方图，并且将对分量在给定的提取仓中的位置进行计数，并且该计数将被设置于对应直方图的该相同仓中。如果未经由实施软件来纠正，则给定的级的任何重叠的相同大小的仓将使给定的分量被两倍或者三倍计数(根据每级有多少重叠网格)。即使未纠正，仍未影响最终结果，因为所有像素将被相似地两倍或者三倍计数，只要提取的所有比例级利用相同数目的重叠的相同大小的网格。如果在不同提取集合中有不同数目的相同大小的网格，则将在组合重叠的不同大小的仓时的过程中以后需要直方图计数的某个归一化。

MSER已经证实在文本检测中很有用。在图像中，文本字符通常具有有些均匀的颜色；具体而言，它们具有在字符内部中的相对少的颜色差异和在字母边界的高差异。这些条件与MSER在图像内寻找的稳定结果良好地相关，因此MSER可以被视为文本字符候选。在有模糊或者噪声时，边界被更少定义，因此允许用于MSER检测的更宽松门限更好地保证更多区域被标识(并且更少实际字符被识别)。经由这里详述的直方图过滤由快速和高效处理补偿由于宽松门限而在更大数目的MSER中固有的增加的计算复杂性。

图2图示直方图。在这一实施例中，该直方图具有每比例集合的连接分量的维度‘大小’、‘x坐标’和‘y坐标’。其它实施例可以使用其它几何分量(例如取代笛卡尔x和y坐标的径向坐标)。然后按照x或者y中的仅一个值来偏移相邻空间仓，并且是在每个直方图/比例集合中的连接分量的这些相邻仓如以下详述的那样被链接。实施这些教导的体现的软件无需生成如在图2所示图解直方图，仓和与每仓对应的计数在实施软件中由数字位代表就足够了。为了图示清楚，未从图1的提取的级确切地绘制图2的直方图，但是重点在于有用于不同直方图的不同空间网格(意味着不同仓大小)。根据在图1所示多级提取创建具有每仓的连接分量的计数的三维直方图。一种用于创建这些直方图的方式是将如下定界框/仓的仓中心和大小用于计数，在该仓中连接分量将被代表。在图2所示直方图在空间上重叠以减轻边界效果。不同颜色(如图2所示不同灰度)代表用于多少连接分量在该仓内的不同计数或者概率。

独立地过滤直方图的每个不同比例级。如图3A所示，在水平方向上延伸来自紧接上文的图2的直方图，从而对于每个仓添加水平相邻邻居仓的计数。在竖直方向上完成相同计数。这辅助具体通过滤除为相互连接的单区域来发现更好的字符候选。这也通过消除如以上指出的那样由于更宽松的边界门限而生成的大量MSER来大量减少计算负担。

如果在图3A所示水平过滤加上相似竖直过滤的结果被视为有向直方图，则图3B的下一步骤是滤除有向直方图的其中计数小于某个预定(恒定)门限、例如3个连接分量(假设所有单词将具有最少三个字符)的所有那些仓。仅保持落入这些区域内的MSER作为用于文本字符的候选。实施软件可以在用于这一步骤的一个实施例中保持索引列表，这些索引指向落入每级的直方图中的连接分量。使用这一列表，然后合并单独重叠的连接分量。在多个重叠区域的情况下，去除更大区域。图5图示这一过滤的结果；左侧是在过滤之前，而后侧是在过滤之后，这从文本检查算法的以后处理步骤有效地去除更多‘噪声’。也在图5示出来自图1的区域“A”和“B”以针对读者将这些附图更好地相关。

最后在图3C，将在相同直方图仓内并且也在邻近相同大小的仓内的连接分量进行链接。图3C将这用一个颜色(或者灰度阴影级)用于在水平方向上的连接并且用不同颜色(或者灰度阴影级)用于在竖直方向上的连接来图示。

然后合并来自不同比例集合的链接分量。方便的是从更小比例集合开始并且移向更大比例集合从而添加来自用于每个相继集合的下一更大直方图的连接MSER对。如果新添加的MSER区域与在集合内的另一MSER区域在空间上重叠，则它与原有MSER区域合并并且也被更新以反映合并。如果新添加的区域与在集合内的两个或者更多MSER区域在空间上重叠，则不合并区域。

然后可以对链接的连接分量执行文本行检测。由于文本几乎总是以直线或者略微曲线的形式出现，所以文本行检测是用于文本检测的重要线索。用于比较逐对字母候选组的笔划宽度和字符高度的规则用来生成文本行、例如用于笔划宽度中值的最大比值1.5和用于笔划高度中值的最大比值2.0(考虑大写和小写字母)。

在图4示出用于图1的区域“B”的结果，左侧代表来自简单二值化的结果，而右侧代表以上详述的多级直方图过程的结果。注意在文本单词“BAND”中，前三个字符“BAN”在简单二值化之下分辨欠佳、但是使用这些教导来好得多地分辨，这些教导对待在连接不同区域时的问题。注意尽管在图4的左侧的简单二值化技术仍然作为文本可识别，但是在图4所示两个结果之间的区别足够显著使得在其它图像中可能有简单二值化技术未识别为文本、但是根据这些教导而工作的算法遗漏的文本。

还可以向以上步骤添加附加精炼以提高性能、比如例如执行笔划宽度测试以滤除误识字符候选、在逐对链接之前比较候选字符大小以及在逐对链接之前增强候选字符的边缘(例如Canny边缘或者其它技术)。

这些教导的示例实施例与现有技术比较提供以下技术效果。这些技术可以用多级图像来工作并且将能够保留比更早技术更多的信息，并且多维方式可以保留相似和附近连接分量从而去除如在图5具体地所示的充当聚类的其它连接分量。此外，分量连接和链接在直方图如以上详述的那样用来辅助时是更简化的过程。

这些教导的实施例可以被有利地运用在导航绘图和兴趣点服务中以比如从用户的智能电话或者从车载数字绘图平台生成兴趣点信息，从而生成将在这样的数字地图或者兴趣点上或者旁边呈现的兴趣点信息。例如用户可以在他的/她的智能电话上捕获图1的图像并且将其向服务提供者服务器上传，该服务提供者服务器然后执行如以上详述的多层提取和文本识别并且在他的客户录入对于乐队正在表演的酒店的地址或者名称或者乐队本身的名称的搜索时向这样的客户呈现在图4所示乐队的名称和演出时间。

有可以在其中实施本发明的实施例的许多主设备、包括移动终端/智能电话或者服务器以及可以有或者可以没有图像捕获设备的其它计算机设备(例如在以上示例中的服务器不会有它自己的数字相机)。不失一般性，考虑图6的主设备，该主设备包括一个或者多个控制器、比如计算机或者数据处理器(DP)10A、体现为存储计算机指令程序10C以及将要处理/分析的数字图像10E的存储器的计算机可读存储介质，以及用于以各种形式中的任何形式向更多设备、比如其它服务器提供多级提取图像处理的结果的输出10F。

假设程序10C中的至少一个程序包括程序指令，这些程序指令在由关联DP10A执行时使装置10能够根据如以上通过示例详述的本发明的示例实施例来操作。一个这样的程序是如在块10D所示并且也在MEM10B中存储的多级提取和直方图生成算法。本发明的示例实施例因此可以至少部分由可由UE10的DP10A执行的计算机软件或者由软件和硬件(和固件)的组合来实施。

作为代表的主设备无需具有如移动终端/智能电话做到的与其它电子设备无线通信的能力。

计算机可读存储器可以是适合本地技术环境的任何类型并且可以使用任何适当数据存储技术、比如基于半导体的存储器设备、闪存、磁存储器设备和***、光存储器设备和***、固定存储器和可拆卸存储器来实施。DP10A可以是适合于本地技术环境的任何类型并且作为非限制示例可以包括通用计算机、专用计算机、专用集成电路、读出集成电路、微处理器、数字信号处理器(DSP)和基于双/多芯处理器架构的处理器中的一项或者多项。

图7是图示根据本发明的示例实施例的方法操作和计算机程序指令的执行结果的逻辑流程图。根据这些示例实施例，块702给予初始步骤，该步骤将数字图像转换成多级图像并且从多级图像的连接分量形成多个比例集合，其中空间集合中的不同空间集合定义不同大小的空间仓。然后在块704是每比例集合的处理，即对于多个比例集合中的每个比例集合生成从用于每个空间仓的相应级提取的连接分量的计数，并且也对于每个比例集合，链接代表连接分量的相邻空间仓。块705然后进一步添加合并来自不同比例集合的连接分量、然后对合并的连接分量执行文本行检测。

图7的更多部分概括更多具体实施例中的各种具体实施例。块706详述对于多个比例集合中的每个比例集合，用于每个空间仓的分量的计数包括直方图并且还告知对于多个比例集合中的每个比例集合，在生成直方图之后并且在链接相邻空间仓之前，滤除其中计数小于预定值的所有空间仓。块708给予来自以上示例的两个特点：每个直方图定义与任何其它直方图不同大小的仓，并且每个直方图包括定义相同大小的仓的至少两个重叠网格。

块710进一步详述对于多个比例集合中的每个比例集合，在生成直方图之后，通过向每个空间仓添加来自竖直和水平相邻的空间仓来延伸直方图，并且随后滤除包括单区域的空间仓。在这一情况下，在过滤之后对延伸的直方图执行在块704提到的相邻空间仓的链接。块712进一步详述对在块710指出的延伸的直方图完成块706的过滤，其中该块706的过滤具有小于预定门限的计数的所有空间仓。

如以上指出、但是在图7未概括的那样，可以通过在链接相邻仓时或者在执行文本检测时测试文本笔划宽度以滤除误识文本字符候选；和/或通过比较字符的大小并且仅如果潜在字符为相似大小则链接相邻空间仓来提高性能。尽管以上示例使用最大限度地稳定的极值区域MSER从多级中的每级提取分量，但是二值化(包括自适应二值化)也可以用于这一目的。

图7中所示各种块和紧接上文的更多具体实现方式可以视为方法步骤和/或视为计算机程序代码的操作所产生的操作和/或视为被构造用于执行关联功能的多个耦合的逻辑电路元件。

一般而言，可以在硬件或者专用电路、软件、逻辑或者其组合中实施各种示例实施例。例如可以在硬件中实施一些方面而可以在可以由控制器、微处理器或者其它计算设备执行的固件或者软件中实施其它方面，但是本发明不限于此。尽管本发明的示例实施例的各种方面可以图示和描述为框图、流程图或者使用某个其它图解表示来图示和描述，但是适当理解可以在作为非限制示例的硬件、软件、固件、专用电路或者逻辑、通用硬件或者控制器或者其它计算设备或者其某个组合中实施这里描述的这些块、装置、***、技术或者方法。

对本发明的前述示例实施例的各种修改和适配可以在结合附图阅读时按照前文描述而变得为本领域技术人员所清楚。然而任何和所有修改仍将落入本发明的非限制和示例实施例的范围内。

另外，本发明的各种非限制和示例实施例的特征中的一些特征可以在不相应使用其它特征时加以有利使用。这样，前文描述应当仅视为举例说明而不是限制本发明的原理、教导和示例实施例。

Claims

1.一种用于文本检测的装置，包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器，

其中所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使所述装置至少：

将数字图像转换成多级图像；

从所述多级图像的连接分量形成多个比例集合，其中所述比例集合中的不同比例集合定义不同大小的空间仓；

对于所述多个比例集合中的每个比例集合：

生成从用于每个空间仓的相应的比例集合提取的连接分量的计数；并且

链接代表连接分量的相邻空间仓；

合并来自所述不同比例集合的所述连接分量；以及

对所述合并的连接分量执行文本行检测。

2.根据权利要求1所述的装置，其中对于所述多个比例集合中的每个比例集合，用于每个空间仓的连接分量的所述计数包括直方图，

并且所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使所述装置至少还：

对于所述多个比例集合中的每个比例集合，在生成所述直方图之后并且在链接所述相邻空间仓之前，滤除其中所述计数小于预定值的所有空间仓。

3.根据权利要求2所述的装置，其中每个直方图定义与任何其它直方图不同大小的仓。

4.根据权利要求3所述的装置，其中每个直方图包括定义相同大小的仓的至少两个重叠网格。

5.根据权利要求2所述的装置，其中所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使所述装置至少还：

对于所述多个比例集合中的每个比例集合，在生成所述直方图之后，通过向每个空间仓添加来自竖直和水平相邻的空间仓的所述计数来延伸所述直方图；并且此后

滤除包括单区域的空间仓；

其中在过滤之后对所述延伸的直方图执行所述相邻空间仓的链接。

6.根据权利要求5所述的装置，其中从所述延伸的直方图滤除具有小于所述预定值的计数的所有所述空间仓。

7.根据权利要求6所述的装置，其中所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使所述装置还执行以下各项中的至少一项：

在链接相邻空间仓时或者在执行文本行检测时测试文本笔划宽度，以滤除误识文本字符候选；以及

比较字符的大小，并且仅仅如果潜在字符为相似大小才链接相邻空间仓。

8.根据权利要求1至7中任一项所述的装置，其中使用最大限度地稳定的极值区域或者二值化从多级中的每级来提取所述连接分量。

9.一种用于文本检测的方法，包括：

将数字图像转换成多级图像；

由至少一个处理器从所述多级图像的连接分量形成多个比例集合，其中所述比例集合中的不同比例集合定义不同大小的空间仓；

对于所述多个比例集合中的每个比例集合：

链接代表连接分量的相邻空间仓；

合并来自所述不同比例集合的所述连接分量；以及

对所述合并的连接分量执行文本行检测。

10.根据权利要求9所述的方法，其中对于所述多个比例集合中的每个比例集合，用于每个空间仓的连接分量的所述计数包括直方图，

所述方法还包括：

11.根据权利要求10所述的方法，其中每个直方图定义与任何其它直方图不同大小的仓。

12.根据权利要求11所述的方法，其中每个直方图包括定义相同大小的仓的至少两个重叠网格。

13.根据权利要求10所述的方法，所述方法还包括：

滤除包括单区域的空间仓；

14.根据权利要求13所述的方法，其中从所述延伸的直方图滤除具有小于所述预定值的计数的所有所述空间仓。

15.根据权利要求14所述的方法，所述方法还包括以下各项中的至少一项：

16.根据权利要求9至15中任一项所述的方法，其中使用最大限度地稳定的极值区域或者二值化从多级中的每级来提取所述连接分量。

17.一种非暂态计算机可读存储介质，其上存储有计算机可读代码，所述计算机可读代码当由计算设备执行时使得所述计算设备执行动作，所述动作包括：

将数字图像转换成多级图像；

对于所述多个比例集合中的每个比例集合：

生成从用于每个空间仓的相应的比例集合提取的连接分量的计数；以及

链接代表连接分量的相邻空间仓；

合并来自所述不同比例集合的所述连接分量；以及

对所述合并的连接分量执行文本行检测。

18.根据权利要求17所述的非暂态计算机可读存储介质，其中对于所述多个比例集合中的每个比例集合，用于每个空间仓的连接分量的所述计数包括直方图，所述动作还包括：

19.根据权利要求18所述的非暂态计算机可读存储介质，所述动作还包括：

对于所述多个比例集合中的每个比例集合，在生成所述直方图之后，通过向每个空间仓添加来自竖直和水平相邻的空间仓的所述计数来延伸所述直方图；以及此后

滤除包括单区域的空间仓；

其中链接的所述相邻空间仓来自过滤之后的所述延伸的直方图。

20.根据权利要求19所述的非暂态计算机可读存储介质，其中从所述延伸的直方图滤除具有小于所述预定值的计数的所有所述空间仓。