CN108376244A

CN108376244A - 一种自然场景图片中的文本字体的识别方法

Info

Publication number: CN108376244A
Application number: CN201810104830.7A
Authority: CN
Inventors: 连宙辉; 王逸之; 唐英敏; 肖建国
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-08-07
Anticipated expiration: 2038-02-02
Also published as: CN108376244B

Abstract

本发明公布了一种自然场景图片中的文本字体的识别方法，通过图片合成方法获得大量融合不同字体文本的具体类似真实效果的自然场景图片，利用图片训练得到字体识别器和文本***，通过文本***从互联网图片中定位出更多文本图片，再利用迁移学习方法，通过字体识别器从图片中进一步学习，进一步提高识别的准确度。本发明采用自动合成高质量训练图片的方案，避免了耗时耗力的人工标注，大幅度降低成本，使得字体分类器具有更好的识别精度。此外，本发明引入迁移学习方法，充分利用大量无字体标签的图片，进一步增强字体分类器的准确度。

Description

一种自然场景图片中的文本字体的识别方法

技术领域

本发明属于计算机图像处理和人工智能领域，涉及字体识别方法，尤其涉及一种识别自然场景图片中文本字体的方法。

背景技术

在计算机图像处理领域，字体识别是指让计算机自动地判别图片中的文本属于字体列表中的哪一种字体，字体列表由人们事先建立，通常包含现实生活中最常用的字体。如果某张图片中文本的字体不属于上述字体列表，则让计算机从字体列表种找出与其最相似的一款字体。自然场景图片中的字体识别，具体是指在一张包含文本的自然场景图片中，先找出文本的位置，再识别出该段文本的字体。实现文本字体的自动化识别，在满足人们认知需求、辅助设计师工作、字体版权保护、字符内容识别等方面具有相当大的实用价值。

迄今为止，学术界与工业界已经提出诸多字体识别技术，通常情况下文本的字体需要专家进行鉴定，很难获得大量带有字体标注的文本图片，因此大部分技术都使用计算机合成的文本图片作为训练数据。字体识别技术主要可分为基于局部特征的方法和基于神经网络的方法。其中，基于局部特征的方法以文献(Chen G,Yang J,Jin H,et al.Large-Scale Visual Font Recognition[C]//Computer Vision and PatternRecognition.IEEE,2014:3598-3605)提出的LFE方法为代表。它通过一系列人为设定好的规则，来定位特征点的位置，并在这些位置上提取特征用于字体分类。但是，在自然场景图片中，文本所在的背景纷繁复杂，文本被拍摄的角度不固定，某种字体的文本还会被加上一些特效(如发光、阴影等)，并不能给出统一的标准判断哪些特征点较为重要，所以，该方法的识别效果较差，准确性低。

最近，一些方法将神经网络自适应选取特征、对噪声鲁棒性较强的特点用于字体识别问题上。目前最先进的方法是文献(Wang Z,Yang J,Jin H,et al.Deepfont:Identifyyour font from an image[C]//Proceedings of the 23rd ACM internationalconference on Multimedia.ACM,2015:451-459.)中的DeepFont方法。但是，DeepFont方法使用相对简单的合成方式来合成训练数据，数据在真实性方面与自然场景图片相差较大。这一缺陷使得当处理文本背景较为嘈杂，字形特效比较丰富的图片时，该方法的识别精度较低，难以准确识别自然场景图片中的中文字体。

发明内容

为了克服上述现有技术的不足，本发明提供了一种自然场景图片中的文本字体的识别方法，该字体识别方法基于图片合成和迁移学习，首先使用一种全新的图片合成方法，将不同字体、不同语言的文本融合到自然场景图片中，得到更加逼真的图片，这些图片可以训练出识别精度较高的字体分类器和文本***；然后通过文本***从互联网图片中定位出更多文本图片，字体分类器通过迁移学习方法从这些图片中进一步学习，继续提高方法自身的识别准确度。

为方便说明，本发明约定以下术语定义：

自然场景图片：人为拍摄的图片，包含了现实中的场景，区别于计算机合成的图片。

文本图片：以文本内容为主体的图片。

文本行图片：内容仅包含一行文字的图片。

图像分割：根据灰度、颜色、纹理和形状等特征把图像划分成若干互不交迭的区域，并使这些特征在同一区域内呈现出相似性，而在不同区域间呈现出明显的差异性。

深度图像：指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。

文本***：用于从图片定位文本的功能模型。它的输入是一张自然场景图片，输出这张图片里每一行文本所在的位置，即给出每一行文本的最小外接矩形的坐标。

字体分类器：用于识别图片内文本字体的功能模型。它的输入是包含一张文本图片，输出图片中文本的字体类别。

本发明提供的技术方案如下：

一种自然场景图片中的文本字体的识别方法，基于图片合成方法和迁移学习方法，通过图片合成方法将不同字体、不同语言的文本融合到自然场景图片中，使之获得类似真实的效果。利用这些图片可以训练出识别精度较高的字体分类器和文本***，通过文本***从互联网图片中定位出更多文本图片，通过迁移学习方法，利用字体分类器从这些图片中进一步学习，进一步提高识别的准确度；具体包含以下步骤：

1)通过图片合成方法合成大量包含不同字体文本的图片，同时记录所有文本的位置和字体类别信息；每一行文本选用的字体及其放置完成后最小外界矩形的坐标，均以标签的形式被记录；

2)利用步骤1)中得到的图片和记录的字体信息训练一个字体分类器；通过训练使得字体分类器输出的概率向量中真实字体所对应的概率尽可能大；

其中，字体分类器为卷积神经网络结构；具体实施时，本发明通过采用滑动窗口方法将长短不一的文本行图片送入字体分类器进行训练；

3)利用步骤1)中得到的图片和记录的信息训练一个文本***，该文本***从海量的互联网图片中定位文本，得到大量无字体标签的文本行图片。

4)通过字体分类器从无标签文本行图片中学习，使得该分类器的识别准确度进一步提升。

5)对于任意一张包含文本的自然场景图片，使用步骤3)得到的文本***检测文本所在位置，使用步骤4)得到的字体分类器识别文本的字体类别。

通过上述步骤完成自然场景图片中的文本字体的识别。

在步骤1)中，在文献(Gupta A,Vedaldi A,Zisserman A.Synthetic data fortext localisation in natural images[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2016:2315-2324.)记载的图片合成的方法进行改进，原方法将一段英文文本融入到自然场景图片中，本发明将该方法进行扩展，使得可以将多种语言、多种字体的文本融入到自然场景图片，具体包括如下步骤：

11)将一张分割成若干区域，选择出要放置文本的区域。

被选择的区域不能太小，长宽比不能过大或过小。具体实施时，被选择区域的最小外接矩形的宽度和高度不小于30个像素，宽度和高度的比值在0.3和7之间。其中，与水平向右方向夹角较小的两条边的长度是宽度，另外两条边的长度是高度。

12)估计出图像原图的深度图像，从而获得步骤11)中所选区域的法向量。

13)从语料库中抽取一段文本(该文本可以属于任意一种语言)，首先为其分配一种字体列表中的字体，然后根据字体的TTF(True Type Font)或OTF(Open Type Font)文件渲染成基础的字形图像。根据背景区域的颜色为该文本分配一种适合的颜色，随机决定该文本是否有阴影、发光等特殊效果。

14)根据选中区域的法向量和区域大小对文本进行形状变换，使得该段文本平铺在选中区域的表面，并利用泊松编辑方法将其融合到背景里。在步骤13)和步骤14)的执行过程中，每一行文本选用的字体，及其放置完成后每一行文本的最小外接矩形的坐标都会以标签的形式被记录下来。

在步骤2)中，字体分类器使用卷积神经网络结构，典型的网络包括文献(A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenet classification with deepconvolutional neural networks,”in Advances in neural information processingsystems,2012,pp.1097–1105.)中的AlexNet网络，以及(Simonyan K,Zisserman A.VeryDeep Convolutional Networks for Large-Scale Image Recognition[J].ComputerScience,2014.)中的VGG网络。将一张文本图片输入到网络后，经过一系列卷积、池化、全连接等处理，字体分类器最后输出一个概率向量，概率向量的每一个维度代表属于某种字体的概率。概率向量中最大值的位置，对应于该文本图片被预测的字体。训练的目的是使得概率向量中真实字体所对应的概率尽可能地大，其真实字体由步骤1)中记录的标签给出。该类型的网络结构只能接收固定尺寸大小的图片作为输入，但是不同文本行的长短不一，导致不能将整个文本行图片送入字体分类器。

为了解决这个问题，本发明使用一种滑动窗口方法：首先将所有的文本行图片的高度缩放到108个像素，长宽比保持不变，使用一个边长为108个像素的正方形滑动窗口在文本行上进行任意滑动，窗口每滑动到一个位置，截取窗口的内容，形成一张图片，图片中会包含一个或者多个字符。每个文本行都生成了若干个长和宽都为108个像素的图片，这些图片都会被用来训练字体分类器。

在步骤3)中，文本***的模型采用文献(Tian Z,Huang W,He T,etal.Detecting text in natural image with connectionist text proposal network[C]//European Conference on Computer Vision.Springer InternationalPublishing,2016:56-72)中记载的CTPN(Connectionist Text Proposal Network)，该方法假设文本线方向接近于水平方向，利用文本区域中的上下文信息，预测出整个文本行的位置。

在步骤4)中，通过字体分类器从无标签文本行图片中学习的具体步骤是：

41)使用步骤2)中的滑动窗口方法，对每张文本行图片xⁱ裁剪得到t(i)张文本图片其中1≤i≤n，n代表步骤3得到的文本行图片总数量。

42)使用步骤2)得到的字体分类器，为步骤41)得到的文本图片预测字体。对于每张文本行图片xⁱ：将其文本图片输入到字体分类器后，字体分类器为每张文本图片输出一个概率向量。为文本行xⁱ预测字体标签：图片中一个文本行里的所有字符通常属于同一种字体，基于这种特性，统计分析文本图片对应的t(i)个概率向量，选出一种最可能的字体f，将的字体标签全部标注为f。

43)使用获得了预测字体标签的文本行图片，和步骤1)中的合成数据，重新训练字体分类器。此次训练目标在于保证字体分类器对于一行文本的字体预测一致性，可进一步提高字体分类器的识别准确度。

在步骤5)中，字体识别以文本行为单位(通常情况下，一行文字中每个字符属于同一种字体)，具体步骤是：

51)使用步骤3)得到的文本***检测图片中的所有文本行。

52)对于每一个文本行，使用步骤2)中提到的滑动窗口方法，生成若干个长和宽都是108个像素的文本图片，将这些图片全部送入步骤4)得到的字体分类器中，字体分类器为每个文本图片输出一个概率向量。

53)将这些概率向量按位求和得到一个总体概率向量，总体概率向量中最大值所在位置，对应于该文本行被识别的字体。

与现有技术相比，本发明的有益效果：

本发明提供一种自然场景图片中的文本字体的识别方法，该字体识别方法基于图片合成和迁移学习，首先使用一种全新的图片合成方法，将不同字体、不同语言的文本融合到自然场景图片中，得到更加逼真的图片，这些图片可以训练出识别精度较高的字体分类器和文本***；然后通过文本***从互联网图片中定位出更多文本图片，字体分类器通过迁移学习方法从这些图片中进一步学习，继续提高方法自身的识别准确度。与现有技术相比，本发明具有以下技术优势：

(一)本发明采用自动合成高质量训练图片的方案，避免了耗时耗力的人工标注，大幅度降低了字体识别的成本，高质量体现在训练数据更接近于自然场景图片，可以使得字体分类器获得更好的识别精度。

(二)本发明通过引入一种迁移学习的方法来充分利用大量无字体标签的图片，进一步增强了字体分类器的准确度。该方法给本发明搭建的***带来较强的扩展性，使得该***以在合成数据学到的知识作为基础，自主地从自然场景无标签数据中挖掘到更多的知识。

附图说明

图1为本发明提供的字体识别方法的流程框图。

图2为本发明实施例提供的图片合成方法的主要步骤和图示。

图3为DeepFont提供的合成方法合成的一些文本图片；

其中每张小图代表不同英语单词的一部分。

图4为本发明实施例提供的图片合成方法合成的一些文本图片；

其中每一列的小图代表不同语言的文本图片，从左到右依次是***文、孟加拉文、中文、英文、日文、韩文。

图5为本发明实施例使用的字体分类器的结构示意图。

图6为本发明实施例使用文本***从互联网中定位得到的一些文本行图片截图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了一种基于图片合成和迁移学习的字体识别方法。首先，本发明利用一种全新的图片合成方法，将不同字体、不同语言的文本融合到自然场景图片中，得到更加逼真的图片，这些图片可以训练出识别精度较高的字体分类器和文本***。然后文本***会从互联网图片中定位出更多文本图片，这些图片被用于进一步提升字体分类器的识别精确度。

本发明的流程图如附图1所示，具体实施时，包含如下步骤：

1合成大量包含不同字体文本的图片，同时记录所有文本的位置和字体类别信息。首先收集若干张不包含文本的自然场景图片，将文本融入到每张图片中的步骤如下(实现过程可参照附图2)：

1.1对图片进行图像分割，得到若干区域，选择出要放置文本的区域。被选择的区域不能太小，长宽比不能过大或过小。图像分割的具体实现可参考文献(Arbeláez P,Pont-Tuset J,Barron J T,et al.Multiscale combinatorial grouping[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2014:328-335.)

1.2估计图片的深度图像，从而获得步骤1.1中所选区域的法向量。估计深度图像的方法可参考文献(Liu F,Shen C,Lin G.Deep convolutional neural fields fordepth estimation from a single image[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2015:5162-5170.)

1.3从语料库中抽取一段文本(该文本可以属于任意一种语言)，首先为其分配一种字体列表中的字体，然后根据字体的TTF(True Type Font)或OTF(Open Type Font)文件渲染成基础的字形图像。根据背景区域的颜色为该文本分配一种适合的颜色，随机决定该文本是否有阴影、发光等特殊效果。

1.4根据选中区域的法向量和区域大小对文本进行形状变换，使得该段文本平铺在选中区域的表面，并利用泊松编辑方法将其融合到背景里。其中，泊松编辑方法可以有效地保留背景的纹理细节信息，使得融合效果更加自然，具体实现可参照文献(Pérez P,Gangnet M,Blake A.Poisson image editing[C]//ACM Transactions on Graphics(TOG).ACM,2003,22(3):313-318.)。在步骤1.3和步骤1.4的执行过程中，每一行文本选用的字体，及其放置完成后最小外界矩形的坐标都会以标签的形式被记录下来。

附图3和附图4分别为DeepFont和本发明合成的一些文本图片。从附图3和附图4中

可以看出，本发明合成的文本图片在真实感上更近于自然场景中的文本图片。

2利用步骤1中得到的图片和记录的信息去训练一个字体分类器。字体分类器使用卷积神经网络结构。网络的具体结构可以使用文献(A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenet classification with deep convolutional neural networks,”in Advances in neural information processing systems,2012,pp.1097–1105.)中的AlexNet网络，以及文献(Simonyan K,Zisserman A.Very Deep Convolutional Networksfor Large-Scale Image Recognition[J].Computer Science,2014)的VGG16网络。由步骤1中得到的图片和文本位置信息可以得到若干张文本行图片，训练字体分类器的步骤如下：

2.1将所有的文本行图片的高度缩放到108个像素，长宽比保持不变。使用一个边长为108个像素的正方形滑动窗口在文本行上进行任意滑动，窗口每滑动到一个位置，截取窗口的内容，形成一张图片，图片中会包含一个或者多个字符。每个文本行都生成了若干个长和宽都为108个像素文本的图片。

2.2将步骤2.1得到的所有长宽为108个像素的文本图片，送入卷积神经网络中进行训练。经过一系列卷积、池化、全连接等处理，字体分类器最后输出一个概率向量，概率向量的每一个维度代表属于某种字体的概率，详情如附图5所示。概率向量中最大值的位置，对应于该文本图片被预测的字体。通过训练使得概率向量中真实字体所对应的概率尽可能地大，其真实字体由步骤1中记录的标签给出。

3利用步骤1中得到的图片和记录的信息去训练一个文本***，具体的训练细节参照文献(Tian Z,Huang W,He T,et al.Detecting text in natural image withconnectionist text proposal network[C]//European Conference on ComputerVision.Springer International Publishing,2016:56-72)。该文本***从海量的互联网图片中定位文本，得到大量无字体标签的文本行图片，一些样例图片可以参看附图6。

4让字体分类器从步骤3得到的无标签文本行图片中学习，使得该分类器的识别准确度进一步提升。假设字体列表共有m类字体(f₁,f₂,…,f_m)，步骤3得到了n张文本行图片，xⁱ表示其中第i个文本行，滑动窗口在文本行xⁱ上截取了t(i)张的文本图片，每张图片记为其中1≤i≤n,1≤j≤t(i)。字体分类器接受一张图片作为输入，输出它属于每一类的概率其中表示该文本图片属于字体f_k的概率，其中1≤k≤m,先按照如下步骤为文本行xⁱ预测字体标签:

4.1对于每一种字体f_k(1≤k≤m)，定义两个变量A(k)和B(k)来估计整个文本行xⁱ属于这种字体的可能性。

4.2计算其中，表示使得最大的x值，1≤x≤m；如果那么否则，A(k)表示文本行xⁱ中有多少张文本图片的字体被初步预测为f_k。

4.3计算即文本行中每张文本图片属于该字体f_k的概率之和。

4.4将A作为排序的第一要素，B作为排序的第二要素，将字体(f₁,f₂,…,f_m)进行排序。(当A(k)，B(k)较大时，f_k越靠前)

4.5假设排序后排在最前面的字体是f_l，如果B(l)≥th*t(i)，即B(l)大于一定阈值(th*t(i)；th在实验中设置为0.4；t(i)是滑动窗口在文本行xⁱ上截取的图片张数)，把文本图片的字体全部标注为f_l，否则不进行标注。当预测完所有文本行的标签之后，将所有获得标注的文本图片和步骤1得到的合成图片，再次训练字体分类器。

5对于任意一张自然场景图片，使用步骤3得到的文本***检测文本所在位置，使用步骤4得到的字体分类器识别文本的字体类别，字体识别以文本行为单位，具体步骤是：

5.1使用步骤3)得到的文本***检测图片中的所有文本行。

5.2对于每一个文本行，使用步骤2)中提到的滑动窗口方法，生成若干个长和宽都是108个像素的文本图片，将这些图片全部送入步骤4)得到的字体分类器中，字体分类器为每个文本图片输出一个概率向量。

5.3将这些概率向量按位求和得到一个总体概率向量，总体概率向量中最大值所在位置，对应于该文本行被识别的字体。

表1采用本发明与其他现有技术在公开数据集VFRWild-CHS上的识别准确率

	准确率(top-l)准确率(top-5)
		LFE	32.65％60.69％
DeepFont F	50.26％72.93％
		DeepFont CAEFR	55.58％76.21％
SBA(AlexNet*)	70.97％91.05％
		TL(AlexNet＊)	77.68％93.97％
SBA(VGG16)	84.83％96.14％
		TL(VGG16)	87.68％97.53％

表1为采用本发明与其他现有技术在公开数据集VFRWild-CHS上的识别准确率。VFRWild-CHS数据集包含自然场景下拍摄的6857张汉字图片，每张图片有对应的字体标签，共有48种字体。表中LFE和DeepFont是上文提到的现有技术，DeepFont F和DeepFont CAEFR是DeepFont中合成训练图片和利用无标签数据的方法，SBA对应上述步骤1和2，TL对应上述步骤1至4。括号内的标注指明了字体分类器使用的网络结构。具体而言，图表中的SBA(AlexNet*)和TL(AlexNet*)均采用了与DeepFont相同的字体分类器，具体结构类似于附图5中的AlexNet，此举的主要目的在于方便对比，验证本发明所提供的图片合成和迁移学习方法的普适性和有效性；表中的SBA(VGG16)和TL(VGG16)采用了上文介绍到的VGG16网络作为字体分类器结构，比DeepFont字体分类器使用的网络结构更加精细和复杂，识别的准确度也更高。在计算准确率(top-1)时，如果字体分类器预测的最有可能字体是真实字体，则算作分类正确；在计算准确率(top-5)时，如果字体分类器预测的前5种可能字体包含真实字体，则算作分类正确。从表中的识别准确率看出，在自然场景图片字体识别任务中，本发明比现有技术都更加先进。

以上结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。可以理解的是，所描述的实例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种自然场景图片中的文本字体的识别方法，通过图片合成方法获得大量融合不同字体文本的具体类似真实效果的自然场景图片，利用图片训练得到字体分类器和文本***，通过文本***从互联网图片中定位出更多文本图片，再利用迁移学习方法，通过字体分类器从图片中进一步学习，进一步提高识别的准确度；包括以下步骤：

1)通过图片合成方法合成大量包含不同字体文本的图片，同时记录文本的位置和字体类别信息，采用标签记录每一行文本选用的字体及其放置完成后最小外界矩形的坐标；

2)利用步骤1)中得到的图片和记录的信息训练字体分类器，使得字体分类器输出的概率向量中真实字体所对应的概率尽可能大；所述字体分类器为卷积神经网络结构；训练中通过采用滑动窗口方法将长短不一的文本行图片送入字体分类器；

3)利用步骤1)中得到的图片和记录的信息训练文本***，该文本***从海量的互联网图片中定位文本，得到大量无字体标签的文本行图片；

4)利用无标签文本行图片学习字体分类器，使得字体分类器的识别准确度进一步提升；

5)字体识别：对于任意一张包含文本的自然场景图片，以文本行为单位，使用步骤3)得到的文本***检测图片中的所有文本行，得到文本所在位置；对于每一个文本行，使用步骤2)所述滑动窗口方法，生成多个长和宽具有相同像素的文本图片；将文本图片全部送入步骤4)得到的字体分类器中；字体分类器为每个文本图片输出一个概率向量；根据所有概率向量获得一个总体概率向量；总体概率向量中最大值所在位置，对应于该文本行被识别的字体；

通过上述步骤实现自然场景图片中的文本字体的识别。

2.如权利要求1所述的自然场景图片中的文本字体的识别方法，其特征是，步骤1)的图片合成的方法将多种语言、多种字体的文本融入到自然场景图片中，包括如下步骤：

11)将一张图像分割成若干区域，选择出要放置文本的区域；

12)估计出图像原图的深度图像，获得步骤11)中所选区域的法向量；

13)从语料库中抽取一段文本，首先为该段文本分配一种字体列表中的字体，然后渲染成基础的字形图像，根据背景区域的颜色为该段文本分配颜色，随机设定该文本是否具有阴影、发光特殊效果；

14)根据选中区域的法向量和区域大小对文本进行形状变换，使得该段文本平铺在选中区域的表面，并利用泊松编辑方法将该段文本融合到背景里；

在执行步骤13)～14)过程中，以标签的形式记录每一行文本选用的字体和放置完成后该段文本的最小外界矩形的坐标。

3.如权利要求2所述的自然场景图片中的文本字体的识别方法，其特征是，步骤11)中，图像分割具体采用文献(Arbeláez P,Pont-Tuset J,Barron J T,et al.Multiscalecombinatorial grouping[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2014:328-335.)记载的方法。

4.如权利要求2所述的自然场景图片中的文本字体的识别方法，其特征是，步骤12)采用文献(Liu F,Shen C,Lin G.Deep convolutional neural fields for depthestimation from a single image[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2015:5162-5170.)记载的估计深度图像的方法。

5.如权利要求2所述的自然场景图片中的文本字体的识别方法，其特征是，步骤14)具体采用文献(Pérez P,Gangnet M,Blake A.Poisson image editing[C]//ACMTransactions on Graphics(TOG).ACM,2003,22(3):313-318.)记载的泊松编辑方法，使得编辑效果有效保留背景的纹理细节信息。

6.如权利要求1所述的自然场景图片中的文本字体的识别方法，其特征是，在步骤2)中，字体分类器使用文献(A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenetclassification with deep convolutional neural networks,”in Advances in neuralinformation processing systems,2012,pp.1097–1105.)中记载的AlexNet网络和文献(Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-ScaleImage Recognition[J].Computer Science,2014.)中记载的VGG网络。

7.如权利要求1所述的自然场景图片中的文本字体的识别方法，其特征是，在步骤2)中，所述滑动窗口方法具体为：

首先将所有的文本行图片的高度缩放到108个像素，长宽比保持不变；

使用一个边长为108个像素的正方形滑动窗口在文本行上进行任意滑动，窗口每滑动到一个位置，截取窗口的内容，形成一张图片，图片中包含一个或多个字符；

针对每个文本行均生成多个长和宽均为108个像素的图片，将这些图片用来训练字体分类器。

8.如权利要求1所述的自然场景图片中的文本字体的识别方法，其特征是，在步骤3)中，文本***的模型采用文献(Tian Z,Huang W,He T,et al.Detecting text innatural image with connectionist text proposal network[C]//EuropeanConference on Computer Vision.Springer International Publishing,2016:56-72)中记载的CTPN方法，预测得到文本行的位置。

9.如权利要求1所述的自然场景图片中的文本字体的识别方法，其特征是，在步骤4)中，通过字体分类器从无标签文本行图片中学习的具体步骤是：

41)使用所述滑动窗口方法对每张文本行图片xⁱ裁剪，得到t(i)张文本图片其中1≤i≤n，n为步骤3)得到的文本行图片总数量；

42)使用字体分类器为步骤41)得到的文本图片预测字体：

对于每张文本行图片xⁱ，将文本图片输入到字体分类器后，字体分类器为每张文本图片输出一个概率向量；

为文本行图片xⁱ预测字体标签，对于文本图片对应的t(i)个概率向量，选出字体f，将的字体标签全部标注为f；

43)使用获得了预测字体标签的文本行图片和步骤1)中的合成数据，重新训练字体分类器，使得字体分类器对于一行文本的字体预测具有一致性，由此达到进一步提高字体分类器的识别准确度的目的。

10.如权利要求9所述的自然场景图片中的文本字体的识别方法，其特征是，步骤42)为文本行图片xⁱ预测字体标签，具体通过如下步骤选出字体：

421)对于每一种字体f_k(1≤k≤m)，定义变量A(k)和B(k)，用于估计文本行xⁱ属于该字体的可能性；

422)计算得到文本行xⁱ中的字体被初步预测为f_k的文本图片数目；

其中，A(k)表示文本行xⁱ中的字体被初步预测为f_k的文本图片数目；表示使得最大的x值，1≤x≤m；如果那么否则，

423)计算得到文本行中每张文本图片属于该字体f_k的概率之和；

424)将A(k)和B(k)分别作为排序的第一要素和第二要素，按取值从大到小将字体(f₁,f₂,…,f_m)进行排序；设排序后排在最前面的字体是f_l，如果B(l)大于设定阈值，把文本图片的字体全部标注为f_l；否则不进行标注。