CN111507344A

CN111507344A - 从图像中识别出文字的方法和装置

Info

Publication number: CN111507344A
Application number: CN201910092406.XA
Authority: CN
Inventors: 矫健
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-08-07

Abstract

本发明公开了从图像中识别出文字的方法和装置。所述方法包括：获取待识别的图像集合；从所述图像集合中的各图像中分别提取出文本区域；从各文本区域中抽取出文字；对抽取出的文字进行识别，得到与各图像对应的文字识别结果。该技术方案的有益效果在于，由于避免了对图像进行整体的识别而是从中先提取出文本区域，能够大幅提高识别准确率，避免了图像中类似文字线条的干扰，在对海报等文字与背景融合得较好的图像中识别效果尤佳，可以兼容多种业务场景，减少图像数据生产、校验及运营成本，实现了自动探索图像中包含的内容线索，对于基于图像的数据挖掘有着重要帮助。

Description

从图像中识别出文字的方法和装置

技术领域

本发明涉及图像识别技术领域，具体涉及从图像中识别出文字的方法和装置。

背景技术

随着高科技信息化时代的到来和互联网计算机技术的发展，导致数量繁多的多媒体信息以指数级增长方式出现在人们日常生活之中，急剧增多的图像信息越来越引起了人们的关注，但是由于图像都以像素的形式存储着对象的颜色、亮度等原始信息，缺乏对图像内容的高层次的描述，很难通过对图像进行计算机分析、理解、检索和复用来自动识别内容。

目前，利用OCR(Optical Character Recognition，光学字符识别)等方式对文本进行识别，在技术上有了长足的进步，但是，在对图像进行直接识别时仍然存在一定的不足。例如，海报等图像中往往包含文字，而文字检测受到语种、文字分辨率、文字间距、分布情况、文字的背景、光照、颜色之类因素的影响，这类图像中的某些图案、纹理的背景很难与文字区分开来，如果直接对图像整体进行识别，难度较大，识别效果不能令人满意。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的从图像中识别出文字的方法和装置。

依据本发明的一个方面，提供了一种从图像中识别出文字的方法，包括：

获取待识别的图像集合；

从所述图像集合中的各图像中分别提取出文本区域；

从各文本区域中抽取出文字；

对抽取出的文字进行识别，得到与各图像对应的文字识别结果。

可选地，所述获取待识别的图像集合包括：

在多媒体资源库中的资源描述信息被更新时，获取所述资源描述信息中的海报放入所述图像集合。

可选地，所述方法还包括：

获取所述资源描述信息中的文字描述信息，计算所述文字描述信息与所述文字识别结果的匹配度；

若所述匹配度达到预设阈值，则判定所述海报验证通过；

若所述匹配度未达到预设阈值，则将所述海报放入待验证集合中。

可选地，所述从所述图像集合中的各图像中分别提取出文本区域包括：

从各图像中分别提取出候选文本区域；

将所述候选文本区域输入到预设模型中进行验证，根据验证结果确定文本区域。

可选地，所述从各图像中分别提取出候选文本区域包括如下的一种或多种方式：

基于边缘检测从各图像中分别提取出候选文本区域；

基于纹理特征从各图像中分别提取出候选文本区域；

基于颜色特征从各图像中分别提取出候选文本区域；

基于连通域将从各图像中分别提取出候选文本区域。

可选地，所述基于边缘检测从各图像中分别提取出候选文本区域包括：

根据边缘信息确定初步候选文本区域，以及根据连通域和所述初步候选文本区域确定候选文本区域。

可选地，所述根据边缘信息确定初步候选文本区域包括：

根据中值滤波器对图像进行平滑处理；

对平滑处理后的图像，根据边缘检测算子进行边缘检测，得到边缘图像；

根据边缘滤波器去除非文字边缘，得到初步候选文本区域。

基于高斯函数和二值化方式检测边缘，得到初步候选文本区域；

根据混合高斯模型对所述初步候选文本区域进行颜色建模，确定背景信息；

根据所述背景信息从图像中识别遗漏文字；

根据遗漏文字识别结果和所述初步候选文本区域确定候选文本区域。

根据Sobel边缘检测算子提取图像的彩色边缘；

对边缘图像以熵阈值方式进行二值化处理，根据数学形态学闭操作和开操作得到图像块；

根据图像块的高度、高宽比以及图像块内边缘点密度中的一种或多种，确定初步候选文本区域；

对所述初步候选文本区域进行小波分解，根据小波系数提取特征，从图像中确定候选文本区域。

可选地，所述基于纹理特征从各图像中分别提取出候选文本区域包括：

以预设尺寸的窗口在图像中滑动，抽取窗口内均值、二阶中心矩、三阶中心矩中的一种或多种作为特征，根据基于所述特征的神经网络对窗口内区域进行分类，根据分类结果得到候选文本区域。

将图像进行小波变换，在若干个高频子图中利用直方图提取方差作为特征，根据K- means算法确定候选文本区域。

根据高斯滤波器对图像进行纹理分割，再根据自下而上的连通域确定候选文本区域。

可选地，所述基于颜色特征从各图像中分别提取出候选文本区域包括：

根据欧式距离和余弦相似度对图像进行三均值聚类，再根据log-Gabor滤波器对得到的各子控件进行处理，根据滤波结果确定候选文本区域。

根据RGB三种颜色分量的直方图对图像进行彩色聚类，根据聚类得到各颜色将图像分解为若干二值图像，再基于连通域确定候选文本区域。

对图像进行局部颜色量化；

根据连通域最小包络矩形的尺寸、长宽比和最小包络矩形中字符颜色的比例，在轮廓跟踪中方向的变化情况确定候选文本区域。

可选地，所述基于连通域将从各图像中分别提取出候选文本区域包括：

基于非线性Niblack二值化算法对图像进行分割，再进行连通域标定，提取各连通域的特征；

根据AdaBoost构建级联分类器，对连通域进行筛选，根据筛选结果得到候选文本区域。

生成图像的梯度信息，对梯度图像进行二值化后，根据数学形态学操作确定候选文本区域。

根据相邻像素的颜色差值进行初次连通域标定，根据边界处像素颜色是否能够合并进行迭代判断至不能合并，得到候选文本区域。

可选地，所述预设模型为包含如下的一种或多种特征的支持向量机SVM模型：

文字行投影特征，文字列投影特征，穿越直方图特征，形状匹配特征，共生矩阵特征，边缘密度特征，方向一致性特征。

可选地，所述从各文本区域中抽取出文字包括：

基于OSTU算法对各文本区域进行文字分割和提取。

可选地，所述对抽取出的文字进行识别，得到与各图像对应的文字识别结果包括：

对抽取出的文字，利用投影获取文字中字符的高度信息，再根据回归字切分得到文字中包含的若干个字符。

可选地，所述对抽取出的文字进行识别，得到与各图像对应的文字识别结果进一步包括：

对各字符分别进行OCR文字识别。

依据本发明的另一方面，提供了一种从图像中识别出文字的装置，包括：

图像集合获取单元，适于获取待识别的图像集合；

文本区域提取单元，适于从所述图像集合中的各图像中分别提取出文本区域；

文字抽取单元，适于从各文本区域中抽取出文字；

文字识别单元，适于对抽取出的文字进行识别，得到与各图像对应的文字识别结果。

可选地，所述图像集合获取单元，适于在多媒体资源库中的资源描述信息被更新时，获取所述资源描述信息中的海报放入所述图像集合。

可选地，所述装置还包括：

验证单元，适于获取所述资源描述信息中的文字描述信息，计算所述文字描述信息与所述文字识别结果的匹配度；若所述匹配度达到预设阈值，则判定所述海报验证通过；若所述匹配度未达到预设阈值，则将所述海报放入待验证集合中。

可选地，所述文本区域提取单元，适于从各图像中分别提取出候选文本区域；将所述候选文本区域输入到预设模型中进行验证，根据验证结果确定文本区域。

可选地，所述文本区域提取单元，适于以如下的一种或多种方式从各图像中分别提取出候选文本区域：基于边缘检测从各图像中分别提取出候选文本区域；基于纹理特征从各图像中分别提取出候选文本区域；基于颜色特征从各图像中分别提取出候选文本区域；基于连通域将从各图像中分别提取出候选文本区域。

可选地，所述文本区域提取单元，适于根据边缘信息确定初步候选文本区域，以及根据连通域和所述初步候选文本区域确定候选文本区域。

可选地，所述文本区域提取单元，适于根据中值滤波器对图像进行平滑处理；对平滑处理后的图像，根据边缘检测算子进行边缘检测，得到边缘图像；根据边缘滤波器去除非文字边缘，得到初步候选文本区域。

可选地，所述文本区域提取单元，适于基于高斯函数和二值化方式检测边缘，得到初步候选文本区域；根据混合高斯模型对所述初步候选文本区域进行颜色建模，确定背景信息；根据所述背景信息从图像中识别遗漏文字；根据遗漏文字识别结果和所述初步候选文本区域确定候选文本区域。

可选地，所述文本区域提取单元，适于根据Sobel边缘检测算子提取图像的彩色边缘；对边缘图像以熵阈值方式进行二值化处理，根据数学形态学闭操作和开操作得到图像块；根据图像块的高度、高宽比以及图像块内边缘点密度中的一种或多种，确定初步候选文本区域；对所述初步候选文本区域进行小波分解，根据小波系数提取特征，从图像中确定候选文本区域。

可选地，所述文本区域提取单元，适于以预设尺寸的窗口在图像中滑动，抽取窗口内均值、二阶中心矩、三阶中心矩中的一种或多种作为特征，根据基于所述特征的神经网络对窗口内区域进行分类，根据分类结果得到候选文本区域。

可选地，所述文本区域提取单元，适于将图像进行小波变换，在若干个高频子图中利用直方图提取方差作为特征，根据K-means算法确定候选文本区域。

可选地，所述文本区域提取单元，适于根据高斯滤波器对图像进行纹理分割，再根据自下而上的连通域确定候选文本区域。

可选地，所述文本区域提取单元，适于根据欧式距离和余弦相似度对图像进行三均值聚类，再根据log-Gabor滤波器对得到的各子控件进行处理，根据滤波结果确定候选文本区域。

可选地，所述文本区域提取单元，适于根据RGB三种颜色分量的直方图对图像进行彩色聚类，根据聚类得到各颜色将图像分解为若干二值图像，再基于连通域确定候选文本区域。

可选地，所述文本区域提取单元，适于对图像进行局部颜色量化；根据连通域最小包络矩形的尺寸、长宽比和最小包络矩形中字符颜色的比例，在轮廓跟踪中方向的变化情况确定候选文本区域。

可选地，所述文本区域提取单元，适于基于非线性Niblack二值化算法对图像进行分割，再进行连通域标定，提取各连通域的特征；根据AdaBoost构建级联分类器，对连通域进行筛选，根据筛选结果得到候选文本区域。

可选地，所述文本区域提取单元，适于生成图像的梯度信息，对梯度图像进行二值化后，根据数学形态学操作确定候选文本区域。

可选地，所述文本区域提取单元，适于根据相邻像素的颜色差值进行初次连通域标定，根据边界处像素颜色是否能够合并进行迭代判断至不能合并，得到候选文本区域。

可选地，所述预设模型为包含如下的一种或多种特征的支持向量机SVM模型：文字行投影特征，文字列投影特征，穿越直方图特征，形状匹配特征，共生矩阵特征，边缘密度特征，方向一致性特征。

可选地，所述文字抽取单元，适于基于OSTU算法对各文本区域进行文字分割和提取。

可选地，所述文字识别单元，适于对抽取出的文字，利用投影获取文字中字符的高度信息，再根据回归字切分得到文字中包含的若干个字符。

可选地，所述文字识别单元，适于对各字符分别进行OCR文字识别。

依据本发明的又一方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。

依据本发明的再一方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的方法。

由上述可知，本发明的技术方案，在获取到待识别的图像集合后，从图像集合中的各图像中分别提取出文本区域，从各文本区域中抽取出文字，再对抽取出的文字进行识别，得到与各图像对应的文字识别结果。该技术方案的有益效果在于，由于避免了对图像进行整体的识别而是从中先提取出文本区域，能够大幅提高识别准确率，避免了图像中类似文字线条的干扰，在对海报等文字与背景融合得较好的图像中识别效果尤佳，可以兼容多种业务场景，减少图像数据生产、校验及运营成本，实现了自动探索图像中包含的内容线索，对于基于图像的数据挖掘有着重要帮助。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种从图像中识别出文字的方法的流程示意图；

图2示出了根据本发明一个实施例的一种从图像中识别出文字的装置的结构示意图；

图3示出了根据本发明一个实施例的电子设备的结构示意图；

图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图；

图5示出了一个海报中的文本列及其投影的示意图；

图6a示出了一组边缘点距离相对稳定的字符的示意图；

图6b示出了另一组边缘点距离相对稳定的字符的示意图；

图6c示出了一组边缘点的距离相对不稳定的字符的示意图；

图6d示出了另一组边缘点的距离相对不稳定的字符的示意图；

图7a示出了根据本发明一个实施例的用于去毛刺的矩阵模板示意图；

图7b示出了根据本发明一个实施例的用于线画平滑和孔洞填补的矩阵模板示意图；

图8示出了一组字符及其投影的示意图；

图9示出了回归字切分方法原理的示意图；

图10示出了与图8中字符对应的字符切分结果示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种从图像中识别出文字的方法的流程示意图。

如图1所示，该方法包括：

步骤S110，获取待识别的图像集合。这一步骤是确定要待识别的图像，在可进行识别时，集合中至少有一幅待识别的图像。其中图像可以是带有文字的海报、立绘、漫画等等。现有方式中往往采用人工方式识别图像中的文字等信息，带来的人工、商业、运营等成本也随着图片中信息的增多而提升，识别准确度也与相应工作人员的仔细程度息息相关。

步骤S120，从图像集合中的各图像中分别提取出文本区域。这里的文本区域是被认为包含有文字的图像区域，文字可以是汉字、拉丁字母等等。

步骤S130，从各文本区域中抽取出文字。

步骤S140，对抽取出的文字进行识别，得到与各图像对应的文字识别结果。

上述步骤S120～步骤S140提供了如下的设计思路：先从图像中确定可能包含文字的区域作为文本区域，再从文本区域中抽取出认为是文字的部分，最后再识别出这些到底是什么文字。这样层层递进，将识别拆分出多个步骤，在各步骤中可以采用一定的方式提供该步骤的识别准确率，最终整体识别率也有了显著提升。

可见，图1所示的方法，在获取到待识别的图像集合后，从图像集合中的各图像中分别提取出文本区域，从各文本区域中抽取出文字，再对抽取出的文字进行识别，得到与各图像对应的文字识别结果。该技术方案的有益效果在于，由于避免了对图像进行整体的识别而是从中先提取出文本区域，能够大幅提高识别准确率，避免了图像中类似文字线条的干扰，在对海报等文字与背景融合得较好的图像中识别效果尤佳，可以兼容多种业务场景，减少图像数据生产、校验及运营成本，实现了自动探索图像中包含的内容线索，对于基于图像的数据挖掘有着重要帮助。

在本发明的一个实施例中，上述方法中，获取待识别的图像集合包括：在多媒体资源库中的资源描述信息被更新时，获取资源描述信息中的海报放入图像集合。

例如，在一个多媒体资源库中保存有多部影视剧的视频资源和相应的资源描述信息，这些资源描述信息可以是文字形式的影片介绍、演职员信息等等，也可以是是海报。

在一个具体的实施例中，多媒体资源库利用现有的媒资***的数据库来实现。媒资***根据规定的数据注入接口规范注入资源描述信息到OTT内容管理***，中心平台或地方平台验证API接口的SecretId及SecretKey签名(包括时间戳、随机数、访问的方法、以及方法的参数)，验证通过获取媒资***实时更新资源描述信息，然后根据源数据的图片(海报)源地址进行远程抓取后存到本地，准备预处理时使用。

在本发明的一个实施例中，上述方法还包括：获取资源描述信息中的文字描述信息，计算文字描述信息与文字识别结果的匹配度；若匹配度达到预设阈值，则判定海报验证通过；若匹配度未达到预设阈值，则将海报放入待验证集合中。

在一个具体实施例中可以用于验证海报与影视剧等的视频资源是否匹配。一般来说，视频资源及资源描述信息中的文字描述信息往往是正确的，因为验证起来相对容易，通过简单的文字和特征码匹配等方式即可实现；但是海报的验证涉及到对海报内容的识别，这时可以用到本发明所提出的技术方案，由于海报内的文字也是对相应视频资源的介绍，这些信息通常都包含在在文字描述信息中。例如，设定阈值为80％，从海报中识别出的文字和影片名称匹配度若≥80％则自动通过，否则进入人工审核列表，进行二次校验审核，较大程度的降低了人工干预度，节约了运营成本。

在本发明的一个实施例中，上述方法中，从图像集合中的各图像中分别提取出文本区域包括：从各图像中分别提取出候选文本区域；将候选文本区域输入到预设模型中进行验证，根据验证结果确定文本区域。

文本区域与非文本区域的区别可以例如通过文字与背景所分别具备的不同特征进行区分，例如通过对文字的尺寸特征、颜色和亮度特征、边缘特征、笔画粘连性、纹理特征、排列方式、字符间距等特征的训练，将图像分为文本区域和非文本区域，尽可能降低因语种、文字分辨率、文字间距、分布情况、背景复杂度、光照、颜色等多种因素对文字的影响。在本发明的一个实施例中可以先将提取出的区域作为候选文本区域，再对其利用预先学习得到的预设模型进行验证，验证通过后再确定为文本区域，进一步提高了识别的准确度。

在本发明的一个实施例中，上述方法中，从各图像中分别提取出候选文本区域包括如下的一种或多种方式：基于边缘检测从各图像中分别提取出候选文本区域；基于纹理特征从各图像中分别提取出候选文本区域；基于颜色特征从各图像中分别提取出候选文本区域；基于连通域将从各图像中分别提取出候选文本区域。

基于边缘检测的具体实现方式有若干种，下面仅就其中的三种方式进行举例说明。

方式一：在本发明的一个实施例中，上述方法中，基于边缘检测从各图像中分别提取出候选文本区域包括：根据边缘信息确定初步候选文本区域，以及根据连通域和初步候选文本区域确定候选文本区域。具体地，在本发明的一个实施例中，上述方法中，根据边缘信息确定初步候选文本区域包括：根据中值滤波器对图像进行平滑处理；对平滑处理后的图像，根据边缘检测算子进行边缘检测，得到边缘图像；根据边缘滤波器去除非文字边缘，得到初步候选文本区域。

方式二：在本发明的一个实施例中，上述方法中，基于边缘检测从各图像中分别提取出候选文本区域包括：基于高斯函数和二值化方式检测边缘，得到初步候选文本区域；根据混合高斯模型对初步候选文本区域进行颜色建模，确定背景信息；根据背景信息从图像中识别遗漏文字；根据遗漏文字识别结果和初步候选文本区域确定候选文本区域。

方式三：在本发明的一个实施例中，上述方法中，基于边缘检测从各图像中分别提取出候选文本区域包括：根据Sobel边缘检测算子提取图像的彩色边缘；对边缘图像以熵阈值方式进行二值化处理，根据数学形态学闭操作和开操作得到图像块；根据图像块的高度、高宽比以及图像块内边缘点密度中的一种或多种，确定初步候选文本区域；对初步候选文本区域进行小波分解，根据小波系数提取特征，从图像中确定候选文本区域。

上述三种方式可以结合使用，也可以择一使用，当然，也可以选择除此之外的其他基于边缘检测的从各图像中分别提取出候选文本区域的方法。

接下来介绍基于纹理特征从各图像中分别提取出候选文本区域的设计思路：把文字看成一种特殊的纹理，利用图像的一些纹理特征去判定一个像素点或像素块是否属于文字。由于字符通常由很多较细的笔画构成，因此文字笔画存在的区域通常也是图像中纹理较丰富的区域。

这种构思假定了文本区域与背景区域存在纹理上的区别，先提取能够区分文本区域与背景区域的纹理特征，然后进行纹理分类。常用的纹理特征有图像的一阶导数、二阶导数、边缘强度、局部方差、FFT系数、Gabor系数以及小波系数的各种统计特征如一阶矩、二阶矩、直方图、共生矩阵等等。由于提取的纹理特征通常维数较高，通常采用机器学习的方法来设计分类器。

下面以三种示例性的方式介绍如何基于纹理特征从各图像中分别提取出候选文本区域。

方式一：在本发明的一个实施例中，上述方法中，基于纹理特征从各图像中分别提取出候选文本区域包括：以预设尺寸的窗口在图像中滑动，抽取窗口内均值、二阶中心矩、三阶中心矩中的一种或多种作为特征，根据基于特征的神经网络对窗口内区域进行分类，根据分类结果得到候选文本区域。

方式二：在本发明的一个实施例中，上述方法中，基于纹理特征从各图像中分别提取出候选文本区域包括：将图像进行小波变换，在若干个高频子图中利用直方图提取方差作为特征，根据K-means算法确定候选文本区域。

方式三：在本发明的一个实施例中，上述方法中，基于纹理特征从各图像中分别提取出候选文本区域包括：根据高斯滤波器对图像进行纹理分割，再根据自下而上的连通域确定候选文本区域。

而基于颜色的文字检测方法利用了大多数图像中文字具有均匀颜色这一事实，通过颜色约减的方法可以将原图分解成属于若干个不同颜色的子图，然后在各个子图上独立进行文字检测工作。下面以三种示例性的方式介绍如何基于颜色特征从各图像中分别提取出候选文本区域。

方式一：在本发明的一个实施例中，上述方法中，基于颜色特征从各图像中分别提取出候选文本区域包括：根据欧式距离和余弦相似度对图像进行三均值聚类，再根据log-Gabor滤波器对得到的各子控件进行处理，根据滤波结果确定候选文本区域。

方式二：在本发明的一个实施例中，上述方法中，基于颜色特征从各图像中分别提取出候选文本区域包括：根据RGB三种颜色分量的直方图对图像进行彩色聚类，根据聚类得到各颜色将图像分解为若干二值图像，再基于连通域确定候选文本区域。

方式三：在本发明的一个实施例中，上述方法中，基于颜色特征从各图像中分别提取出候选文本区域包括：对图像进行局部颜色量化；根据连通域最小包络矩形的尺寸、长宽比和最小包络矩形中字符颜色的比例，在轮廓跟踪中方向的变化情况确定候选文本区域。

基于连通域的设计思路则是利用了文字的排列特性，即绝大多数情况下文字是成组出现的，例如多个字母组成一个单词，或者多个汉字组成一个句子。属于同一组的文字会具有比较统一的几何尺寸和排列规则。下面以三种示例性的方式介绍如何基于连通域从各图像中分别提取出候选文本区域。

方式一：在本发明的一个实施例中，上述方法中，基于连通域将从各图像中分别提取出候选文本区域包括：基于非线性Niblack二值化算法对图像进行分割，再进行连通域标定，提取各连通域的特征；根据AdaBoost构建级联分类器，对连通域进行筛选，根据筛选结果得到候选文本区域。

方式二：在本发明的一个实施例中，上述方法中，基于连通域将从各图像中分别提取出候选文本区域包括：生成图像的梯度信息，对梯度图像进行二值化后，根据数学形态学操作确定候选文本区域。

方式三在本发明的一个实施例中，上述方法中，基于连通域将从各图像中分别提取出候选文本区域包括：根据相邻像素的颜色差值进行初次连通域标定，根据边界处像素颜色是否能够合并进行迭代判断至不能合并，得到候选文本区域。

在本发明的一个实施例中，上述方法中，预设模型为包含如下的一种或多种特征的支持向量机SVM模型：文字行投影特征，文字列投影特征，穿越直方图特征，形状匹配特征，共生矩阵特征，边缘密度特征，方向一致性特征。

前面提到过，采用预设模型进行验证的目的就是进一步去除误检测出的文本区域，以提高检测准确率。在一个具体实施例中采用基于SVM的多特征验证策略，主要包括分类器设计和特征选择两个部分，本阶段用到的特征主要有上面提到的这些特征。下面简单介绍一种具体的模型训练过程。

首先，确定各特征相应计算量。在候选文本区域环节，是以整个候选文本区域为单位的，因而需要一些统计量来描述其状态。在实际操作中，概率密度函数P由直方图H转换得到，如下所示：

用到的统计量有均值

方差

峰度K和一致性C，如下所示：

其中，均值根据不同的情况有相应的合适的定义，而非通过矩估计得到的均值；峰度是用来反映分布集中程度的指标，即：刻画分布曲线顶端尖峭或扁平程度，方差在一定程度上也可以反映分布的集中程度，但有时方差相同的数据却有不同的峰度，因此就利用四阶中心矩(m₄)来反映分布的尖峭程度。

下面介绍特征选取的实现方法。

1)文本行投影特征、文本列投影特征

文本由多个字符组成，相邻字符之间具有空隙，字符的宽度相似。以竖直文本行为例，该文本行笔画图像的垂直方向投影具有多个波峰和波谷，而水平方向投影只有很少的波峰或波谷，如图5所示，给出了一个海报中的文本列及其投影示例。因此，我们可以用文本行笔画图像的水平和垂直投影上波峰或波谷的数目和宽度来验证文本行。

2)穿越直方图特征

考虑到文本行字符位置分布呈周期性的特点，即文本行中字符分布有如下特点：文字 -空格-文字-空格，这也是区分文本行和非文本行的一个重要特征。本发明使用一种在空间域上直接使用穿越线捕捉文字周期特点的特征——穿越直方图特征，该特征提取可分解为如下几个步骤：

①提取文字的梯度图，通过将所有像素投影到竖直方向或者水平方向得到一维投影信号。

②对梯度投影进行高斯平滑，如果是文本行图像可以观察到梯度投影有近似的周期和规则。假设有N条穿越线，第k个穿越线的穿越次数是CC(k)次，k＝1，2，3……N，那么穿越直方图可以通过下式计算：

例如，如果梯度投影的最大值是300，使用N＝300条扫描线扫描，得到300个直方图位CCH(k)；k＝1，2，…300，通过均匀的划分直方图的位CCH(k)并将其累加：

从而得到16位的穿越直方图，式中表示一个无重叠的窗口，窗口内的直方图位数累加起来形成直方图的一维。

3)形状匹配特征

在局部二值图像中，字符连通域的轮廓比较光滑，而背景噪声的轮廓则不规则，进行数学形态学开运算，并比较图像在处理前后的变化，就会发现前者变化较小，而后者变化较大。可以利用这个特点，提取形状匹配特征，对粗检测文本区域进行筛选。该特征提取要点如下：

①由于二值化之前不知道字符的极性(极性描述文本和背景之间的颜色深浅对比关系，即：当前的文本区域是白底黑字，还是黑底白字)，所以二值化之后得到第一图像，再对其进行求反，得到第二图像，对两幅图像分别做开运算，计算形状匹配程度。

②对两幅图像都进行开运算，结构元素的尺寸为2×2。

③计算特征。公式如下式所示：

得到的M值越小，表明开运算前后变化的程度越小，就越有可能是文本。

4)共生矩阵特征

共生矩阵用两个位置上像素的联合概率密度来定义，是描述纹理特征的一种方法。观察到字符的笔画宽度均匀，即：字符的左右边缘点(或者上下边缘点)之间的距离相对稳定，如图6a、图6b所示，而背景噪声边缘点之间的距离则不规则，如图6c、图6d所示。这种情况下适宜用共生矩阵特征对候选文本区域进行筛选。

5)其他特征

其他特征包括候选文本区域的边缘密度特征和方向一致性特征，设候选文本区域Ti 宽度为w，高度为h，包含连通域ej；j＝1；2...Ni，ej的像素点数为Pj，方向一致性为Cj，则有边缘密度特征，如下所示：

以及方向一致性特征，如下所示：

下面简单介绍SVM设计方法说明。候选文本区域验证实际上是模式识别的二分类问题：文本区域和非文本区域的分类。SVM是现今机器学习领域最流行的分类器之一，它在许多现实世界的数据集上表现出很强的分类泛化能力。

对于一个二分类问题，给定训练集

：S＝|{(x_i，y_i)|i＝1，2，…，N}∈(X×Y)^N

其中x_i∈X＝Rⁿ是第i个训练样本，y_i∈Y＝{-1，1}：是xi的类别标号，通过从输入特征空间Rn到高维特征空间的映射，如下所示：

训练集S被映射为下：

S＝{(x_i，y_i)|i＝1，2，…，N}＝{(Φ(x_i)，y_i)|i＝1，…，N}

SVM的关键就是要在高维空间中寻找能把两类分开的最优超平面，用于确定这个超平面的矢量ω和实数b可以通过最小化下面的目标函数得到，如下所示：

s.t.y_i(<ω，x_i>+b)≥1-ζ_i，i＝1，…N，ξ_i≥0

其中ξ_i是第i个训练样本的学习误差，C是惩罚因子，用来调整两个目标的权重，<ω，x_i> 表示内积。则上面最优化问题的解可以通过最小化下面的拉格朗日方程得到：

其中α、β是拉格郎日乘子，最小化上述拉格朗日方程等价于求解其对偶问题，如下所示：

a_i≥0，i＝1，...，N

其中K(x_i，x_j)＝<Φ(x_i)，Φ(x_j)>是核函数。通过求解上述对偶问题，可以得到最优超平面如下：

其中SV_s表示支持向量集，对应的

不为0。给定一个待分类样本x，其类别可根据f(x)的符号确定。

下面介绍支持SVM分类器特征训练和候选文本区域验证步骤的一个具体示例：

①准备样本：

按照SVM所要求的格式准备数据集。

正面样本，2905幅从图像中分割出来的文本区域；

负面样本，3601幅从图像中分割出来背景区域。

②特征选择：

观察文本区域和背景区域之间的差异，设计特征，并将计算结果写成lib-SVM要求格式的文件。lib-SVM工具包中带有数据归一化、训练和分类的执行程序，根据特征文件，能够及时的得到分类正确率，用以衡量特征的有效性。

③文本区域训练与验证：

在***中，调用lib-SVM的接口函数γ，读入训练好的参数文件，对候选文本区域进行分类。选用RBF核函数

采用交叉验证选择最佳参数C与γ,并利用最佳参数值对整个训练集进行训练获取支持向量机模型，最终利用获取的模型进行测试与预测，如上所述，进行候选文本区域验证。

分类正确率为被正确分类的样本个数和全部样本个数的比值。在一个具体实验中，实验结果参见表1，得到分类的准确率为91.55％。为了防止SVM分类器过训练，舍弃了一些对提高正确率效果不太明显的特征。

表1

特征种类	特征个数	特征准确率
			共生矩阵特征	6	69.1884％
形状匹配特征	1	78.1098％
			边缘密度特征	1	83.2486％
梯度变化特征	4	91.1316％
			方向一致性特征	1	95.0307％

在本发明的一个实施例中，上述方法中，从各文本区域中抽取出文字包括：基于OSTU 算法对各文本区域进行文字分割和提取。

OSTU算法是一种二值化算法，通过寻找一个最佳阈值将灰度直方图分割为两部分，使两部分分类间方差最大，类内方差最小，该方法简单且适用性较好，而且这种方法的阈值是自动获取的，便于整体自动化实现，一个具体实施的示例如下：

1)阈值获取方法如下：

假设灰度图像的灰度级为M，第i级灰度有n_i个像素，图像中总的像素个数为N，第i级灰度出现的概率为：

假设灰度图像阈值为k，则图像中的像素可以分成两部分，灰度值大于k的像素，和灰度值小于k的像素，则：

C₀＝{1,2，…k}，C₁＝{k+1,k+1,…,M}

图像的总平均灰度级为：

C₀类的平均灰度级为：

C₁类的平均灰度级为：

μ-μ(k)

C₀类和C₁类的均值为：

图像的总均值为：

μ＝ω₀μ₀+ω₁μ₁

类间方差为：

δ²(k)＝ω₀(μ-μ₀)²+ω₁(μ-μ₁)²

简化为：

当k从1～M之间变化时，δ²(k)的值最大时的k即为所求的最合适的阈值。

2)滤波去燥处理：

经过二值化处理后，分离后的文本区域图像中还存在一些噪声，需要进行滤波去燥处理，到本阶段图像中噪声一般是孤立的噪声点、毛刺、线化边缘凹凸不平等问题，已不存在一些较大的鸿沟或细线的干扰，由于此阶段文字信息所占比例较大，图像本身的尺寸已很小，若使用线性和非线性滤波及自适应的选择淹模平滑滤波都很难去除这些噪声且完全不破坏文字的细节细节，本发明采用噪声直接去除法实现，避免以上缺陷。

噪声直接去除法一般采用n×n(n一般为3-5)的辅助模板，逐行逐列与二值图像进行匹配。根据匹配结果，使处于矩阵中心的像素从“0”变为“255”。或者“255”变为“0”，以达到去除噪声的目的。实现步骤如下：

①去毛刺

通常采用如图7a所示3×3的矩阵，和对其进行3次90°旋转所得的矩阵。将矩阵模板在二值图像上移动，只要模板和二值图像匹配，则把模板中心所对应的像素的灰度值由“0”变为“255”，其中“×”代表任意匹配。

②线画平滑和孔洞填补

通常采用图7b所示3×3的矩阵，和对其进行3次90°旋转所得的矩阵。将矩阵模板在二值图像上移动，只要模板和二值图像匹配，则把模板中心所对应的像素的灰度值由“0”变为“255”，其中“×”代表任意匹配。

③独立污点的去除

独立污点(小斑点)是指其周围像素的灰度值都为“255”，而本身的大小可被一个n×n的矩阵覆盖。这样就可以建立n×n的矩阵，将矩阵模板其图像均为255，则将矩阵中心区域的像素值均赋为“255”

在本发明的一个实施例中，上述方法中，对抽取出的文字进行识别，得到与各图像对应的文字识别结果包括：对抽取出的文字，利用投影获取文字中字符的高度信息，再根据回归字切分得到文字中包含的若干个字符。

在一个具体实施例中可以采用投影法和回归式字切分相结合的方法实现单字符分割，两种方法相结合除了因方法具有简单、速度等优点外，还能较好解决字符断裂和粘连等特殊情况。实现方式首先利用投影法中的水平投影进行切分并获得字符的高度信息，然后采用回归字切分完成字切分，由于字符高度和宽度之差大概在某个范围，所以可根据高度信息来估计字符的宽度，预测下一个字符出现的位置。

投影法就是数字图像在某一个方向上进行像素累加，投影法应用到字符分割时通常只有到水平方向和垂直方向上的投影。例：含有字符图像在水平方向和垂直方向上的投影分别为P_x和P_y，设函数f(x,y)表示二值化处理后图像中像素(x,y)是否属于图像的前景，如下所示：

则

P_x和P_y分别记录了沿x轴和y轴的字符图像的前景像素的累加值，即表示了沿x轴和y轴的图像前景像素的分布情况。字符图像的投影效果如图8所示。

从图8中可看出，二值化的字符图像在水平方向的像素分布图中行与行之间有较大的空隙，这可作为行切分的标准，图像中可能出现噪声，所以水平投影后，水平方向向上的前景像素个数小于某一个阈值即可作为一行的开始或结束，取中间值作为切分的分割点。行切分之后可以利用垂直投影进行字切分，原理相同。

采用投影法完成切分之后还必须使用回归字切分将每个字符从图像中分割出来，本发明的一个实施例使用最大宽度回归字切分算法实现。实现方法如下：

设L(i,j)是一行文字图像的点阵，W_M为文字的最大宽度，W_M是使用投影法获得的，是所有行中最大行高。回归范围用d表示，第j字符的起始位置设为j_A,如图9所示。

①在j_A≤j≤j_A+W_M之间计算第一个

的点，设为j_B,切出j_A到j_B之间的图像，N代表各行的行高。

②若j_B-j_A<δ(δ为定常数)，则判定为干扰，忽略不计，否则转④。

③在j_A+W_M-d≤j≤j_A+W_M范围内求

最最小值的点j_B。

④从j_B作一跳垂线作为文字的分界线，第j字的宽度为(j_B-j_A)。

⑤从j_B开始计算

当值不为0(设为j_A)且j_A>j_B时，j_A即为j+1个文字的左边界，重复执行上述的步骤。

本回归式字切分的算法相对简单易懂，适用性也很好，尤其对汉字字符的分割很好，且针对汉字中的左中右断裂情况则很有效。与图8对应的实验结果如图10所示。

在本发明的一个实施例中，上述方法中，对抽取出的文字进行识别，得到与各图像对应的文字识别结果进一步包括：对各字符分别进行OCR文字识别。这一步骤可以使用成熟的OCR文字识别技术，在此不再赘述。

图2示出了根据本发明一个实施例的一种从图像中识别出文字的装置的结构示意图。如图2所示，从图像中识别出文字的装置200包括：

图像集合获取单元210，适于获取待识别的图像集合。此是确定要待识别的图像，在可进行识别时，集合中至少有一幅待识别的图像。其中图像可以是带有文字的海报、立绘、漫画等等。现有方式中往往采用人工方式识别图像中的文字等信息，带来的人工、商业、运营等成本也随着图片中信息的增多而提升，识别准确度也与相应工作人员的仔细程度息息相关。

文本区域提取单元220，适于从图像集合中的各图像中分别提取出文本区域。这里的文本区域是被认为包含有文字的图像区域，文字可以是汉字、拉丁字母等等。

文字抽取单元230，适于从各文本区域中抽取出文字。

文字识别单元240，适于对抽取出的文字进行识别，得到与各图像对应的文字识别结果。

具体来说，提供了如下的设计思路：先从图像中确定可能包含文字的区域作为文本区域，再从文本区域中抽取出认为是文字的部分，最后再识别出这些到底是什么文字。这样层层递进，将识别拆分出多个步骤，在各步骤中可以采用一定的方式提供该步骤的识别准确率，最终整体识别率也有了显著提升。

可见，图2所示的装置，通过各单元的相互配合，在获取到待识别的图像集合后，从图像集合中的各图像中分别提取出文本区域，从各文本区域中抽取出文字，再对抽取出的文字进行识别，得到与各图像对应的文字识别结果。该技术方案的有益效果在于，由于避免了对图像进行整体的识别而是从中先提取出文本区域，能够大幅提高识别准确率，避免了图像中类似文字线条的干扰，在对海报等文字与背景融合得较好的图像中识别效果尤佳，可以兼容多种业务场景，减少图像数据生产、校验及运营成本，实现了自动探索图像中包含的内容线索，对于基于图像的数据挖掘有着重要帮助。

在本发明的一个实施例中，上述装置中，图像集合获取单元210，适于在多媒体资源库中的资源描述信息被更新时，获取资源描述信息中的海报放入图像集合。

在本发明的一个实施例中，上述装置还包括：验证单元，适于获取资源描述信息中的文字描述信息，计算文字描述信息与文字识别结果的匹配度；若匹配度达到预设阈值，则判定海报验证通过；若匹配度未达到预设阈值，则将海报放入待验证集合中。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于从各图像中分别提取出候选文本区域；将候选文本区域输入到预设模型中进行验证，根据验证结果确定文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于以如下的一种或多种方式从各图像中分别提取出候选文本区域：基于边缘检测从各图像中分别提取出候选文本区域；基于纹理特征从各图像中分别提取出候选文本区域；基于颜色特征从各图像中分别提取出候选文本区域；基于连通域将从各图像中分别提取出候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于根据边缘信息确定初步候选文本区域，以及根据连通域和初步候选文本区域确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于根据中值滤波器对图像进行平滑处理；对平滑处理后的图像，根据边缘检测算子进行边缘检测，得到边缘图像；根据边缘滤波器去除非文字边缘，得到初步候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于基于高斯函数和二值化方式检测边缘，得到初步候选文本区域；根据混合高斯模型对初步候选文本区域进行颜色建模，确定背景信息；根据背景信息从图像中识别遗漏文字；根据遗漏文字识别结果和初步候选文本区域确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于根据Sobel边缘检测算子提取图像的彩色边缘；对边缘图像以熵阈值方式进行二值化处理，根据数学形态学闭操作和开操作得到图像块；根据图像块的高度、高宽比以及图像块内边缘点密度中的一种或多种，确定初步候选文本区域；对初步候选文本区域进行小波分解，根据小波系数提取特征，从图像中确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于以预设尺寸的窗口在图像中滑动，抽取窗口内均值、二阶中心矩、三阶中心矩中的一种或多种作为特征，根据基于特征的神经网络对窗口内区域进行分类，根据分类结果得到候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于将图像进行小波变换，在若干个高频子图中利用直方图提取方差作为特征，根据K-means算法确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于根据高斯滤波器对图像进行纹理分割，再根据自下而上的连通域确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于根据欧式距离和余弦相似度对图像进行三均值聚类，再根据log-Gabor滤波器对得到的各子控件进行处理，根据滤波结果确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于根据RGB三种颜色分量的直方图对图像进行彩色聚类，根据聚类得到各颜色将图像分解为若干二值图像，再基于连通域确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于对图像进行局部颜色量化；根据连通域最小包络矩形的尺寸、长宽比和最小包络矩形中字符颜色的比例，在轮廓跟踪中方向的变化情况确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于基于非线性Niblack二值化算法对图像进行分割，再进行连通域标定，提取各连通域的特征；根据AdaBoost构建级联分类器，对连通域进行筛选，根据筛选结果得到候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于生成图像的梯度信息，对梯度图像进行二值化后，根据数学形态学操作确定候选文本区域。

在本发明的一个实施例中，上述装置中，文本区域提取单元220，适于根据相邻像素的颜色差值进行初次连通域标定，根据边界处像素颜色是否能够合并进行迭代判断至不能合并，得到候选文本区域。

在本发明的一个实施例中，上述装置中，预设模型为包含如下的一种或多种特征的支持向量机SVM模型：文字行投影特征，文字列投影特征，穿越直方图特征，形状匹配特征，共生矩阵特征，边缘密度特征，方向一致性特征。

在本发明的一个实施例中，上述装置中，文字抽取单元230，适于基于OSTU算法对各文本区域进行文字分割和提取。

在本发明的一个实施例中，上述装置中，文字识别单元240，适于对抽取出的文字，利用投影获取文字中字符的高度信息，再根据回归字切分得到文字中包含的若干个字符。

在本发明的一个实施例中，上述装置中，文字识别单元240，适于对各字符分别进行 OCR文字识别。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本发明的技术方案，在获取到待识别的图像集合后，从图像集合中的各图像中分别提取出文本区域，从各文本区域中抽取出文字，再对抽取出的文字进行识别，得到与各图像对应的文字识别结果。该技术方案的有益效果在于，由于避免了对图像进行整体的识别而是从中先提取出文本区域，能够大幅提高识别准确率，避免了图像中类似文字线条的干扰，在对海报等文字与背景融合得较好的图像中识别效果尤佳，可以兼容多种业务场景，减少图像数据生产、校验及运营成本，实现了自动探索图像中包含的内容线索，对于基于图像的数据挖掘有着重要帮助。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的从图像中识别出文字的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如，用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本发明的方法步骤的计算机可读程序代码331，可以被电子设备300的处理器310读取，当计算机可读程序代码331由电子设备300运行时，导致该电子设备300执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例公开了A1、一种从图像中识别出文字的方法，包括：

获取待识别的图像集合；

从所述图像集合中的各图像中分别提取出文本区域；

从各文本区域中抽取出文字；

A2、如A1所述的方法，其中，所述获取待识别的图像集合包括：

A3、如A2所述的方法，其中，所述方法还包括：

若所述匹配度达到预设阈值，则判定所述海报验证通过；

A4、如A1所述的方法，其中，所述从所述图像集合中的各图像中分别提取出文本区域包括：

从各图像中分别提取出候选文本区域；

A5、如A4所述的方法，其中，所述从各图像中分别提取出候选文本区域包括如下的一种或多种方式：

基于边缘检测从各图像中分别提取出候选文本区域；

基于纹理特征从各图像中分别提取出候选文本区域；

基于颜色特征从各图像中分别提取出候选文本区域；

基于连通域将从各图像中分别提取出候选文本区域。

A6、如A5所述的方法，其中，所述基于边缘检测从各图像中分别提取出候选文本区域包括：

A7、如A6所述的方法，其中，所述根据边缘信息确定初步候选文本区域包括：

根据中值滤波器对图像进行平滑处理；

根据边缘滤波器去除非文字边缘，得到初步候选文本区域。

A8、如A5所述的方法，其中，所述基于边缘检测从各图像中分别提取出候选文本区域包括：

根据所述背景信息从图像中识别遗漏文字；

A9、如A5所述的方法，其中，所述基于边缘检测从各图像中分别提取出候选文本区域包括：

根据Sobel边缘检测算子提取图像的彩色边缘；

A10、如A5所述的方法，其中，所述基于纹理特征从各图像中分别提取出候选文本区域包括：

A11、如A5所述的方法，其中，所述基于纹理特征从各图像中分别提取出候选文本区域包括：

A12、如A5所述的方法，其中，所述基于纹理特征从各图像中分别提取出候选文本区域包括：

A13、如A5所述的方法，其中，所述基于颜色特征从各图像中分别提取出候选文本区域包括：

A14、如A5所述的方法，其中，所述基于颜色特征从各图像中分别提取出候选文本区域包括：

A15、如A5所述的方法，其中，所述基于颜色特征从各图像中分别提取出候选文本区域包括：

对图像进行局部颜色量化；

A16、如A5所述的方法，其中，所述基于连通域将从各图像中分别提取出候选文本区域包括：

A17、如A5所述的方法，其中，所述基于连通域将从各图像中分别提取出候选文本区域包括：

A18、如A5所述的方法，其中，所述基于连通域将从各图像中分别提取出候选文本区域包括：

A19、如A4所述的方法，其中，所述预设模型为包含如下的一种或多种特征的支持向量机SVM模型：

A20、如A1所述的方法，其中，所述从各文本区域中抽取出文字包括：

基于OSTU算法对各文本区域进行文字分割和提取。

A21、如A1所述的方法，其中，所述对抽取出的文字进行识别，得到与各图像对应的文字识别结果包括：

A22、如A21所述的方法，其中，所述对抽取出的文字进行识别，得到与各图像对应的文字识别结果进一步包括：

对各字符分别进行OCR文字识别。

本发明的实施例还公开了B23、一种从图像中识别出文字的装置，包括：

图像集合获取单元，适于获取待识别的图像集合；

文字抽取单元，适于从各文本区域中抽取出文字；

B24、如B23所述的装置，其中，

所述图像集合获取单元，适于在多媒体资源库中的资源描述信息被更新时，获取所述资源描述信息中的海报放入所述图像集合。

B25、如B24所述的装置，其中，所述装置还包括：

B26、如B23所述的装置，其中，

所述文本区域提取单元，适于从各图像中分别提取出候选文本区域；将所述候选文本区域输入到预设模型中进行验证，根据验证结果确定文本区域。

B27、如B26所述的装置，其中，所述文本区域提取单元，适于以如下的一种或多种方式从各图像中分别提取出候选文本区域：基于边缘检测从各图像中分别提取出候选文本区域；基于纹理特征从各图像中分别提取出候选文本区域；基于颜色特征从各图像中分别提取出候选文本区域；基于连通域将从各图像中分别提取出候选文本区域。

B28、如B27所述的装置，其中，

所述文本区域提取单元，适于根据边缘信息确定初步候选文本区域，以及根据连通域和所述初步候选文本区域确定候选文本区域。

B29、如B28所述的装置，其中，

所述文本区域提取单元，适于根据中值滤波器对图像进行平滑处理；对平滑处理后的图像，根据边缘检测算子进行边缘检测，得到边缘图像；根据边缘滤波器去除非文字边缘，得到初步候选文本区域。

B30、如B27所述的装置，其中，

所述文本区域提取单元，适于基于高斯函数和二值化方式检测边缘，得到初步候选文本区域；根据混合高斯模型对所述初步候选文本区域进行颜色建模，确定背景信息；根据所述背景信息从图像中识别遗漏文字；根据遗漏文字识别结果和所述初步候选文本区域确定候选文本区域。

B31、如B27所述的装置，其中，

所述文本区域提取单元，适于根据Sobel边缘检测算子提取图像的彩色边缘；对边缘图像以熵阈值方式进行二值化处理，根据数学形态学闭操作和开操作得到图像块；根据图像块的高度、高宽比以及图像块内边缘点密度中的一种或多种，确定初步候选文本区域；对所述初步候选文本区域进行小波分解，根据小波系数提取特征，从图像中确定候选文本区域。

B32、如B27所述的装置，其中，

所述文本区域提取单元，适于以预设尺寸的窗口在图像中滑动，抽取窗口内均值、二阶中心矩、三阶中心矩中的一种或多种作为特征，根据基于所述特征的神经网络对窗口内区域进行分类，根据分类结果得到候选文本区域。

B33、如B27所述的装置，其中，

所述文本区域提取单元，适于将图像进行小波变换，在若干个高频子图中利用直方图提取方差作为特征，根据K-means算法确定候选文本区域。

B34、如B27所述的装置，其中，

所述文本区域提取单元，适于根据高斯滤波器对图像进行纹理分割，再根据自下而上的连通域确定候选文本区域。

B35、如B27所述的装置，其中，

所述文本区域提取单元，适于根据欧式距离和余弦相似度对图像进行三均值聚类，再根据log-Gabor滤波器对得到的各子控件进行处理，根据滤波结果确定候选文本区域。

B36、如B27所述的装置，其中，

所述文本区域提取单元，适于根据RGB三种颜色分量的直方图对图像进行彩色聚类，根据聚类得到各颜色将图像分解为若干二值图像，再基于连通域确定候选文本区域。

B37、如B27所述的装置，其中，

所述文本区域提取单元，适于对图像进行局部颜色量化；根据连通域最小包络矩形的尺寸、长宽比和最小包络矩形中字符颜色的比例，在轮廓跟踪中方向的变化情况确定候选文本区域。

B38、如B27所述的装置，其中，

所述文本区域提取单元，适于基于非线性Niblack二值化算法对图像进行分割，再进行连通域标定，提取各连通域的特征；根据AdaBoost构建级联分类器，对连通域进行筛选，根据筛选结果得到候选文本区域。

B39、如B27所述的装置，其中，

所述文本区域提取单元，适于生成图像的梯度信息，对梯度图像进行二值化后，根据数学形态学操作确定候选文本区域。

B40、如B27所述的装置，其中，

所述文本区域提取单元，适于根据相邻像素的颜色差值进行初次连通域标定，根据边界处像素颜色是否能够合并进行迭代判断至不能合并，得到候选文本区域。

B41、如B26所述的装置，其中，

所述预设模型为包含如下的一种或多种特征的支持向量机SVM模型：文字行投影特征，文字列投影特征，穿越直方图特征，形状匹配特征，共生矩阵特征，边缘密度特征，方向一致性特征。

B42、如B23所述的装置，其中，

所述文字抽取单元，适于基于OSTU算法对各文本区域进行文字分割和提取。

B43、如B23所述的装置，其中，

所述文字识别单元，适于对抽取出的文字，利用投影获取文字中字符的高度信息，再根据回归字切分得到文字中包含的若干个字符。

B44、如B43所述的装置，其中，

所述文字识别单元，适于对各字符分别进行OCR文字识别。

本发明的实施例还公开了C45、一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如A1-A22中任一项所述的方法。

本发明的实施例还公开了D46、一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如A1-A22中任一项所述的方法。

Claims

1.一种从图像中识别出文字的方法，包括：

获取待识别的图像集合；

从所述图像集合中的各图像中分别提取出文本区域；

从各文本区域中抽取出文字；

2.如权利要求1所述的方法，其中，所述获取待识别的图像集合包括：

3.如权利要求2所述的方法，其中，所述方法还包括：

若所述匹配度达到预设阈值，则判定所述海报验证通过；

4.如权利要求1所述的方法，其中，所述从所述图像集合中的各图像中分别提取出文本区域包括：

从各图像中分别提取出候选文本区域；

5.一种从图像中识别出文字的装置，包括：

图像集合获取单元，适于获取待识别的图像集合；

文字抽取单元，适于从各文本区域中抽取出文字；

6.如权利要求5所述的装置，其中，

7.如权利要求6所述的装置，其中，所述装置还包括：

8.如权利要求5所述的装置，其中，

9.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-4中任一项所述的方法。