CN110097049A

CN110097049A - 一种自然场景文本检测方法及***

Info

Publication number: CN110097049A
Application number: CN201910267048.1A
Authority: CN
Inventors: 韩琥; 宋宇; 崔元顺; 山世光; 陈熙霖
Original assignee: Seetatech Beijing Technology Co ltd; Institute of Computing Technology of CAS
Current assignee: Seetatech Beijing Technology Co ltd; Institute of Computing Technology of CAS
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-08-06

Abstract

本发明提出一种自然场景文本检测方法及***，包含两个神经网络模型：基于多层次语义特征融合的文本检测网络和基于注意力机制的检测筛选网络。文本检测网络是一个基于FCN的图像特征提取融合网络，该网络用于提取输入数据的多语义层次信息，并进行多尺度特征的充分融合，最后通过对融合的多尺度信息进行卷积操作，预测自然场景中的文本信息的位置和置信度。检测筛选网络是利用训练好的卷积循环神经网络对第一部分的卷积神经网络输出的初始检测结果进行判别评分从而过滤掉易与前景文字混淆的背景，从而进一步提升自然场景文本识别的准确率。

Description

一种自然场景文本检测方法及***

技术领域

本发明涉及计算机视觉、文档分析与识别和自然场景文本检测领域，并特别涉及一种自然场景文本检测方法及***。

背景技术

自然场景文本检测是一项既重要又极其富有挑战的任务。由于自然场景文本检测通常是在开放场景下对场景中的文本进行识别，因此光照、角度和畸变等因素对文本检测造成很大的干扰，严重影响文本检测的准确性。传统的文本检测普遍使用基于ConnectedComponents(连通部件)的技术，但是该技术只能提取较为明显的文本区域，难以将图像中全局信息考虑在内，因此该技术性能较为有限。目前基于深度学习的自然场景文本检测由于大多采用了基于Proposal(候选框)的技术，其性能相比传统方法有较大提升，但目前也遇到瓶颈，即难以应对复杂自然场景中光照、背景、角度以及文本表观和角度的多样性，特别是复杂背景易与文本前景混淆。究其原因是现有的特征表示方法在上述条件下缺乏对复杂背景和前景文字的判别力。如果能够在考虑全局特征的情况下，使用文本识别技术加以矫正和精调，自然场景文本检测的精确度和鲁棒性可以获得有效提升。因此，为提升自然场景下文本检测的准确性和鲁棒性，我们提出了一种将基于多层次语义特征的文本检测网络和基于注意力机制的识别后处理网络相结合的自然场景文本检测技术。

发明内容

本发明的目的是解决基于深度卷积神经网络的自然场景文本检测方法中，复杂背景易与前景文本混淆的问题。所提出的方法在保证文本检测召回率的前提下，有效提升了检测准确率。

针对现有技术的不足，本发明提出一种自然场景文本检测方法，其中包括：

步骤1、获取包括多张训练图片的训练集，该训练图片均为自然场景且已被标记文字位置，构建包括特征提取网络和特征融合网络的深度特征融合网络；

步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征，将该多尺度图像特征输入该特征融合网络得到融合特征，并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域，根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数；

步骤3、重新选取该训练图片，多次执行该步骤2以训练该深度特征融合网络，直到该损失函数收敛，保存该深度特征融合网络作为文本检测模型；

步骤4、以该训练集训练卷积循环神经网络，训练完成后，通过修改该卷积循环神经网络的翻译层为二分类层，并将修改后的该卷积循环神经网络作为文本识别网络；

步骤5、将待文字检测的自然场景图像送入该文本检测模型，得到初步文本区域，并通过该文本识别网络筛选该初步文本区域，将筛选结果作为文本检测结果。

所述的自然场景文本检测方法，其中该卷积循环神经网络包括：卷积层、编码层、注意力层、解码层和翻译层；

通过该卷积层提取该训练图片的卷积特征图；

通过该编码层将该卷积特征图整合为序列特征并进行编码；

该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码，将解码后的信息送入该翻译层翻译为目标文本。

所述的自然场景文本检测方法，其中使用联结时间的分类损失函数训练该卷积循环神经网络，直到该联结时间的分类损失函数收敛，训练完成；

loss_ctc＝CTCLoss(predict，labels)

其中，CTCLoss为联结时间的分类损失函数，predict为该卷积循环神经网络最后一层的预测概率输出，labels为输入训练图片的文本内容标签。

所述的自然场景文本检测方法，其中步骤2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数

其中，Dice Loss损失函数用于监督文本区域分类概率的预测：

其中P和G分别对应图像的文本预测置信度的真实的置信度，⊙代表哈达玛积；

IoU Loss损失函数用于监督文本区域位置的预测：

其中R_p和R_g分别代表预测的文本区域坐标和实际的文本区域坐标，θ_p和θ_g分别代表预测的文本区域的角度和实际的文本区域的角度。

所述的自然场景文本检测方法，其中步骤5中该文本识别网络筛选该初步文本区域的过程为：

该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息，将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码，得到编码信息，该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层，将解码后的信息送入该二分类层，判断该初步文本区域内是否具有文本。

本发明还公开了一种自然场景文本检测***，其中包括：

模块1、获取包括多张训练图片的训练集，该训练图片均为自然场景且已被标记文字位置，构建包括特征提取网络和特征融合网络的深度特征融合网络；

模块2、通过该特征提取网络提取该训练图片的多尺度图像特征，将该多尺度图像特征输入该特征融合网络得到融合特征，并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域，根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数；

模块3、重新选取该训练图片，多次执行该模块2以训练该深度特征融合网络，直到该损失函数收敛，保存该深度特征融合网络作为文本检测模型；

模块4、以该训练集训练卷积循环神经网络，训练完成后，通过修改该卷积循环神经网络的翻译层为二分类层，并将修改后的该卷积循环神经网络作为文本识别网络；

模块5、将待文字检测的自然场景图像送入该文本检测模型，得到初步文本区域，并通过该文本识别网络筛选该初步文本区域，将筛选结果作为文本检测结果。

所述的自然场景文本检测***，其中该卷积循环神经网络包括：卷积层、编码层、注意力层、解码层和翻译层；

通过该卷积层提取该训练图片的卷积特征图；

通过该编码层将该卷积特征图整合为序列特征并进行编码；

所述的自然场景文本检测***，其中使用联结时间的分类损失函数训练该卷积循环神经网络，直到该联结时间的分类损失函数收敛，训练完成；

loss_ctc＝CTCLoss(predict，labels)

所述的自然场景文本检测***，其中模块2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数

其中，Dice Loss损失函数用于监督文本区域分类概率的预测：

其中P和G分别对应图像的文本预测置信度的真实的置信度，⊙代表哈达玛积；IoULoss损失函数用于监督文本区域位置的预测：

所述的自然场景文本检测***，其中模块5中该文本识别网络筛选该初步文本区域的过程为：

本发明关键点及对应的技术效果：

1，设计了融合多层次语义特征的卷积神经网络结构用于自然场景文本检测，网络结构如附图2所示。该模型与之前的主流文本检测方法的不同之处主要是以下几个方面：①与传统的基于Connected Components(连通部件)的方法相比，本方法是基于深度学习的方法，能够自动学习并提取到自然场景图像的多种抽象尺度的信息，无需人工设计特征，方法更简洁，更鲁棒；②与深度学习中的基于Proposal(候选框)的方法相比，本方法采用了基于FCN的物体分割模型，能够对自然场景图像产生像素级的预测，方法对自然场景中的多尺度、多角度文本检测更加准确；③与其他基于FCN的分割模型相比，本方法还引入了多尺度特征信息密集融合机制，将网络不同阶段提取的特征在网络的最后阶段进行密集的融合(每个特征融合层，都包含了网络前段的不同阶段特征，并继续传递给下一个融合层以实现网络特征的密集融合)来进行最后的预测，因而能够更加有效的利用不同尺度的信息(网络的不同阶段提取的信息对应于实际图像的不同尺度信息)，模型预测准确率和召回率更高。网络的监督信号包含两部分，一个是通过对预测文本区域的分类概率和该区域的真实分类计算Dice Loss作为分类Loss，另一个是通过对预测得到的文本位置和真实的文本位置计算IoU(交并比)作为回归Loss。该部分技术的效果是在保证文本检测召回率的前提下，准确率比传统方法方法有明显提升。

2，设计了一个Attention-based(基于注意力机制)的卷积循环神经网络结构来识别文字，其结构如附图2所示。基于CRNN网络引入Attention机制，根据编码层的编码结果和原始序列特征进行加权求得新的序列特征，送入解码层进行解码；根据解码结果，翻译层将其翻译为人可读的文本信息。该部分的技术效果是提升CRNN对字符的敏感度(区分能力)，为建立有效的文本检测筛选建立基础(预训练)。

3，基于上步的Attention-based(基于注意力机制)的卷积循环神经网络结构，改进为一个基于注意力机制的检测筛选网络。方法为将拥有注意力机制的CRNN最后的翻译层改为了一个二分类层，以此判别输入图片是否含有文字。该结构在训练时采用由细到粗的训练(Fine-to-Coarse)策略，即先进行前述的字符识别预训练；然后在针对文本和非文本分类问题对网络参数进行精调；该部分的技术效果是通过去除检测结果中被误检为文本的复杂背景区域，提高自然场景文本识别准确率。

附图说明

图1为本发明基于文本检测模型和Attention-based模型精调结果的级联网络模型；

图2为本发明深度特征融合文本检测模型；

图3为本发明基于注意机制的卷积循环神经网络结构图。

具体实施方式

由于自然场景的复杂性，改进自然场景文本检测技术主要需要有两个关键点：1、提升自然场景文本的召回率；2、提升召回文本的准确率。本发明技术创造性的改进了用于物体分割的FCN(全卷积神经网络)结构，实现了保证召回率的前提下，提升了自然场景文本的准确率；同时，通过改进文本识别卷积循环神经网络为Attention-based(基于注意力机制)的文本识别网络提升网络的文字识别能力，再将其修改为文本分类网络来Refine(精调)检测结果来筛选由于具有迷惑性的外观而被误检为正例的文本区域，从而实现更高的准确率。因此，本发明技术主要包含两个神经网络模型：基于多层次语义特征融合的文本检测网络和基于注意力机制的检测筛选网络。第一部分，基于多层次语义特征的文本检测网络是一个基于FCN的图像特征提取融合网络，该网络用于提取输入数据的多语义层次信息，并进行多尺度特征的充分融合，最后通过对融合的多尺度信息进行卷积操作，预测自然场景中的文本信息的位置和置信度。该卷积神经网络结构分为两个阶段，第一个阶段利用卷积神经网络结构提取多个尺度的数据特征信息，第二个阶段利用第一个阶段各个尺度的信息，使用卷积操作对多尺度信息进行深度密集融合，从而有效利用数据的各个尺度的信息来进行预测，提升文本检测的召回率和准确率。第二部分，基于注意力机制的检测筛选网络是利用训练好的卷积循环神经网络对第一部分的卷积神经网络输出的初始检测结果进行判别评分从而过滤掉易与前景文字混淆的背景(误检)，从而进一步提升自然场景文本识别的准确率。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。本发明的实施过程具体包括以下步骤：

1、数据预处理。

文本检测数据集的预处理。对公开的自然场景文本检测数据集SynthText，ICDAR2013，ICDAR2015进行预处理，使其中每个图像对应一个单独的Ground truth(真实的标签)文件，其中每个文件中包含该图片中的所有的文本位置，其格式为(x1,y1,x2,y2,x3,y3,x4,y4)，分别对应文本区域四边形的四个角坐标，顺序为逆时针顺序：(左上角，右上角，右下角，左下角)。

文本识别数据集预处理。本部分主要用到的数据集有Synthetic，SynthText，ICDAR2003，ICDAR2013，SVT，IIIT5K.其中前两个主要用于预训练和训练，后四个主要用于识别任务的评估。其中Synthetic数据集无需特别处理，全部用于预训练文本识别任务的Attention-based(基于注意力机制)的卷积循环神经网络；SynthText数据集是文本场景文本检测的数据集，本发明从其中裁剪出了占文本标注总数约60％的包含文本区域的图片，用于精细化训练识别网络。ICDAR2003数据集同样是由检测数据集裁剪出来的，为了评估网络的识别效果，将其中包含非字母、非数字字符的以及图片中字符长度小于3的全部剔除，剩余860张用于评测，且统计其所有的标注单词构造了全部字典以及对应每张图额外随机挑选了其他50个单词构造了对应每张图的50字典用于字典解码。ICDAR2013数据集在此处使用的是其文字识别任务测试集，去掉了包含非字母和非数字字符的，剩余1015个用于评测。SVT数据集取自Google街景，在此我们使用的是其测试集，裁剪出来后共得到647张用于评测，数据集提供了50字典可直接使用。IIIT5K数据集共包含3,000张测试图片，数据集提供了50字典和1K字典。

Attention-based(基于注意力机制)的卷积循环分类神经网络数据集预处理。本部分用到的数据集主要有上步处理完成的SynthText、ICDAR2015以及来源于网络的自定义数据集。为了完成判别图片内是否含有文字任务，我们从ICDAR2015的检测任务训练集随机裁剪了16,000张只包含背景不含文字图片和SynthText组成训练集；从互联网上获取了一些图片经过裁剪处理后其只包含背景不含文字的部分共26,740张图和在ICDAR2015的识别任务测试集组成此次判别任务测试集。

2、深度特征融合文本检测模型(深度特征融合网络)介绍及模型的预训练、训练。

深度特征Dense融合的网络模型结构如附图2所示。该网络的输入为包含了文本的自然场景图像。其中特征提取网络采用ResNet-50提出的网络结构中的卷积部分，负责提取多个尺度层次的图像特征，包含了49个卷积层，从第二组卷积层开始，每三个卷积层分为一组，每一组之后输出一种尺度的特征，合并第一层卷积的输出，共输出4个尺度的特征，记为M₀。多尺度特征融合网络负责将提取的多尺度特征进行三个子阶段的融合，其融合方式为：第一个子阶段将M₀按照特征的channel(通道)方向进行连接并进行卷积操作，送入第二个子阶段，记为M₁；第二个子阶段将M₀和M₁按照channel方向连接后进行卷积操作，送入第三个子阶段，记为M₂；第三个子阶段将M₀和M₂按照channel方向连接后进行卷积操作，送入最后一个卷积层，记为M₃。最后一个卷积层对M₃进行卷积后，由最后的卷积层预测图像中文本区域和其对应的分类概率。

此处的尺度数量是有ResNet-50网络性质决定，按照其每层网络输出的featuremap的尺度分组，可分为5组，从第一组到第五组的feature map的尺度分别为输入图片大小的1/2,1/4,1/8,1/16,1/32。本实施例融合的特征为后四个尺度(原因：1、第一组只包含一个卷积层，特征太浅；2、尺度太大对于较大的文本行会检测不精准或检测不到，1/4尺度能够兼顾到大小尺度的问本行)，最终将四个尺度的feature map融合为一个1/4尺度的feature map用于检测/回归参数。

第一组到第五组的特征图(feature map)通道数分别为64，256，512，1024，2048。每个特征图的尺寸(size)构成为[B×C×H×W]，其中B为输入图片的批数(Batch Size)，C为通道数，H和W为特征图的尺寸(高和宽)，通道方向是指C所在的一个维度上。

这里的连接指的是特征在通道(C)维度上的连接(或拼接)。若将特征图(featuremap)表示为[尺度，通道数]，则文中M₀为为了得到M₁(其对应尺度为1/16)，首先对M₀内的各特征图进行上/下采样至1/16尺度，然后将其在通道方向连接/拼接在一起为的特征图，进行两次卷积得到的特征图M₁.将M₀以及M₁进行上/下采样至1/8尺度，然后在通道方向连接，然后进行类似卷积操作得到M₂，M₃同理得到。

该网络模型的对输入的自然场景图像预测包含文本的区域和对应的分类概率。其中文本区域是指自然场景图像中包含文本的像素区域及该区域相对于图像坐标的角度，分类概率是指预测的某个区域包含文本的置信度(由0～1的数值代表)。然后根据预测的文本区域生成包含文本区域的四边形坐标值。该网络的监督信号为改进的Dice Loss和IoULoss。

其中，Dice Loss用于监督文本区域分类概率的预测：

其中P和G分别对应图像的文本预测置信度的真实的置信度，⊙代表Hadamardproduct(哈达玛积)，真实的置信度为0或1，即分别代表区域中没有文字和有文字；

IoU Loss用于监督文本区域位置的预测：

使用SnythText数据集进行预训练。为提高网络对难度较大、较为复杂的自然场景的处理能力，我们采用Curriculum Learning(递进学习)的策略，先使用相对简单的SynthText数据集进行预训练，将预处理好的SynthText数据集送入网络中进行特征融合网络的预训练，预训练直至loss收敛，即Dice Loss和IoU Loss二者之和整体收敛。

再使用场景复杂、难度较大的ICDAR2015和ICDAR2013数据集的训练集部分训练网络，训练直至loss再次收敛。

模型的测试。目前通用的测试方法是计算模型的F-measure(F值)，是通过对模型检测结果的准确率(P)和召回率(R)进行计算得到的，其公式如下：

F-measure作为兼顾召回率和准确率的一个标准，只有当准确率和召回率均提高时，F-measure值才能提高。针对我们的模型，使用公开的数据集ICDAR2015的测试集单独测试训练好的深度特征融合文本检测模型时，在网络对送入的图像预测得到文本区域位置和其对应的置信度后，通过Non-Maximum Suppression(NMS，非极大值抑制)处理，筛选掉预测结果中置信度值低于0.8以及重合的区域大于0.2的文本区域，此单网络模型在目前公开的数据集ICDAR2015上可以达到0.82的F-measure值。

3、Attention-based卷积循环神经网络(文本识别模型)介绍及其预训练和训练。

Attention-based卷积循环神经网络结构详细结构如表1所示。

表1：Attention-based卷积循环神经网络配置表

网络在训练和测试时均将输入图片变换到高宽比为32×100的灰度图，前面的卷积层部分(附图3中的卷积部分)主要负责从原始输入图片中提取卷积特征图作为有效信息，将有效信息按照输入图片从左到右的顺序看作序列整合为序列特征送入编码层进行编码，Attention层结合序列信息以及编码信息重新加权整合送入解码层进行解码，将解码后的信息送入翻译层翻译为目标文本。该文本识别模型将图片中的文本看作从左到右的一组序列信息。解编码层对原始序列信息的编码为第一次整合，Attention部分为第二次整合。

其中的Attention部分的公式化描述为：

其中，T是序列长度，H和F分别是编码层输出以及原序列特征信息，是将F投影到H所在空间的线性变换，是将向量g_ij投影到实数空间的线性变换，c_i是原序列特征信息的加权和。

对于网络的训练，我们设计的识别网络以及其对应的分类网络在训练时采用由精到粗Fine-to-Coarse的策略：首先使用Synthetic的全部数据训练识别网络，完成后，修改网络的字母表为英文字母、数字以及常用标点符号，使用处理好的SynthText数据集进行再次精细化训练；训练完成后，基于以上训练好的权重，修改识别网络的翻译层为2分类层，构造我们的Refinement分类网络，在我们构造好的T.nonT数据集上进行最终训练。

首先使用Synthetic的全部数据训练识别网络的具体过程为：

此处识别网络的损失函数为CTC损失(Connectionist TemporalClassification，联结时间的分类损失)，其公式和形式化表达为

loss_ctc＝CTCLoss(predict，labels，predictLength，labelsLength)

其中，predict为网络的预测概率输出(即最后一层的输出)，labels为输入图片对应的文本内容标签。predictLength为网络预测概率时长向量(向量长度为输入的图片数，labelsLength为每张图片对应的文本长度向量(向量长度为输入的图片数)。

或者更简洁的

loss_ctc＝CTCLoss(predict，labels)

其中，predict为网络的预测概率输出(即最后一层的输出)，labels为输入图片对应的文本内容标签。

同样训练的标准是使得损失函数收敛。

对于识别网络(Synthetic上训练完成后)，自由解码时在数据集IIIT5K，SVT，ICDAR2003，ICDAR2013上分别能达到81.2％，80.7％，89.7％，85.7％的准确率。50字典解码时，在IIIT5K，SVT，ICDAR2003上分别能达到98.0％，97.4％，98.5的准确率。对于我们最终的Refinement分类网络，在我们构造的T.nonT测试集上能达到91.77％的判别准确率。

4、当将两个模型级联(模型如附图1所示)后进行测试时，将图像送入文本检测模型中，得到初步的文本区域和其对应的置信度，经过NMS筛选之后再将结果送入训练好的卷积循环神经网络过滤掉由于迷惑性的外观特征被误检为正例的文本区域。经过筛选后的最终结果，准确率进一步提升，同时在目前公开的数据集ICDAR2015上F-measure可以达到83％。

以下为与上述方法实施例对应的***实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还公开了一种自然场景文本检测***，其中包括：

通过该卷积层提取该训练图片的卷积特征图；

通过该编码层将该卷积特征图整合为序列特征并进行编码；

loss_ctc＝CTCLoss(predict，labels)

其中，Dice Loss损失函数用于监督文本区域分类概率的预测：

由以上方案可知，本发明的进步在于：

本发明提出了一种将基于多层次语义特征的文本检测网络和基于注意力机制的识别后处理网络相结合的自然场景文本检测技术，其流程图如附图1所示。该技术不仅改进了当下文本检测方法，不再使用基于Proposal的方法，而是改用基于分割的FCN网络模型和深度特征密集融合策略来进行文本检测，同时提升了自然场景文本检测的召回率和准确率；还通过由文字识别卷积循环神经网络改进的Attention-based分类网络来Refine检测结果，降低了文字识别的误检率，在保证召回率的前提下进一步提升了文本检测的准确率，进而提升了F-measure(目前通用的评价指标)。

Claims

1.一种自然场景文本检测方法，其特征在于，包括：

2.如权利要求1所述的自然场景文本检测方法，其特征在于，该卷积循环神经网络包括：卷积层、编码层、注意力层、解码层和翻译层；

通过该卷积层提取该训练图片的卷积特征图；

通过该编码层将该卷积特征图整合为序列特征并进行编码；

3.如权利要求2所述的自然场景文本检测方法，其特征在于，使用联结时间的分类损失函数训练该卷积循环神经网络，直到该联结时间的分类损失函数收敛，训练完成；

loss_ctc＝CTCLoss(predict，labels)

4.如权利要求1所述的自然场景文本检测方法，其特征在于，步骤2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数

其中，Dice Loss损失函数用于监督文本区域分类概率的预测：

IoU Loss损失函数用于监督文本区域位置的预测：

5.如权利要求1所述的自然场景文本检测方法，其特征在于，步骤5中该文本识别网络筛选该初步文本区域的过程为：

6.一种自然场景文本检测***，其特征在于，包括：

7.如权利要求6所述的自然场景文本检测***，其特征在于，该卷积循环神经网络包括：卷积层、编码层、注意力层、解码层和翻译层；

通过该卷积层提取该训练图片的卷积特征图；

通过该编码层将该卷积特征图整合为序列特征并进行编码；

8.如权利要求7所述的自然场景文本检测***，其特征在于，使用联结时间的分类损失函数训练该卷积循环神经网络，直到该联结时间的分类损失函数收敛，训练完成；

loss_ctc＝CTCLoss(predict，labels)

9.如权利要求6所述的自然场景文本检测***，其特征在于，模块2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数

其中，Dice Loss损失函数用于监督文本区域分类概率的预测：

10.如权利要求6所述的自然场景文本检测***，其特征在于，模块5中该文本识别网络筛选该初步文本区域的过程为：