CN113076814A

CN113076814A - 文本区域的确定方法、装置、设备及可读存储介质

Info

Publication number: CN113076814A
Application number: CN202110274178.5A
Authority: CN
Inventors: 石世昌; 黄飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-07-06
Anticipated expiration: 2041-03-15
Also published as: CN113076814B

Abstract

本申请公开了一种文本区域的确定方法、装置、设备及可读存储介质，涉及机器学习领域。该方法包括：获取目标图像；对目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果；对区域中心预测结果和区域边缘预测结果进行逻辑结合，得到目标图像中的文本连通区域；基于文本连通区域确定文本内容在目标图像中的文本区域。在对图像进行文本识别时，同时识别得到用于表示文本区域的中心预测结果和用于表示边缘的边缘预测结果，从而通过对中心预测结果和边缘预测结果的逻辑结合对文本区域的预测进行修正，并最终得到文本区域，在两层检测结果的优化下，文本区域的检测准确率较高，从而后续基于文本区域进行文本内容处理的效率和准确率也较高。

Description

文本区域的确定方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及机器学习领域，特别涉及一种文本区域的确定方法、装置、设备及可读存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)是一种对图像中的字符进行识别的功能。通常，用户将带有字符的图像输入到光学字符识别模块，并得到输出结果。该输出结果中包括识别得到的图像中的字符。OCR技术可以应用于图像转档中，而在图像转档场景下，在OCR识别之前首先需要对图像中的存在文本的区域进行检测。

相关技术中，在文本区域的检测过程中，通常采用神经网络模型直接预测文本区域的信息，如：基于分割的文本行检测方法(pixel-link)是通过预测每个像素是否属于文本区域，然后根据像素之间的关系对文本区域进行合并后，检测得到文本区域的。

然而，上述方式中，基于分割的文字检测方案检测准确率较低，容易出现虚警的问题，故检测得到结果后的后续处理过程较为复杂，导致文本区域的检测准确率低，从而文本内容处理的效率低。

发明内容

本申请实施例提供了一种文本区域的确定方法、装置、设备及可读存储介质，能够提高文本区域的检测准确率以及效率。所述技术方案如下：

一方面，提供了一种文本区域的确定方法，所述方法包括：

获取目标图像，所述目标图像中包括文本内容，所述目标图像为所述文本内容所在的文本区域待确定的图像；

对所述目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果，所述区域中心预测结果表示预测得到的所述文本区域所处的区域范围，所述区域边缘预测结果表示预测得到的所述文本区域的边缘位置；

对所述区域中心预测结果和所述区域边缘预测结果进行逻辑结合，得到所述目标图像中的文本连通区域，所述文本连通区域表示具有连通关系的所述文本内容在所述目标图像中的区域；

基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域。

另一方面，提供了一种文本区域的确定装置，所述装置包括：

获取模块，用于获取目标图像，所述目标图像中包括文本内容，所述目标图像为所述文本内容所在的文本区域待确定的图像；

识别模块，用于对所述目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果，所述区域中心预测结果表示预测得到的所述文本区域所处的区域范围，所述区域边缘预测结果表示预测得到的所述文本区域的边缘位置；

处理模块，用于对所述区域中心预测结果和所述区域边缘预测结果进行逻辑结合，得到所述目标图像中的文本连通区域，所述文本连通区域表示具有连通关系的所述文本内容在所述目标图像中的区域；

确定模块，用于基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域。

在一个可选的实施例中，所述处理模块，包括：

生成单元，用于基于所述区域中心预测结果生成区域二值图；

所述生成单元，还用于基于所述区域边缘预测结果生成边缘二值图；

逻辑单元，用于对所述边缘二值图和所述区域二值图进行逻辑结合，得到所述文本连通区域。

在一个可选的实施例中，所述逻辑单元，还用于对所述边缘二值图进行取反处理，得到边缘取反图；

所述逻辑单元，还用于对所述边缘取反图与所述区域二值图进行逻辑与运算，得到修正后的所述文本连通区域。

在一个可选的实施例中，所述区域中心预测结果中包括所述目标图像中的像素点在所述文本区域范围内的第一置信度得分；

所述生成单元，还用于获取第一概率阈值；以所述第一概率阈值为二值化分界，基于所述像素点的所述第一置信度得分对所述像素点进行二值化处理，得到所述区域二值图。

在一个可选的实施例中，所述区域边缘预测结果中包括所述目标图像中的像素点在所述文本区域的边缘范围内的第二置信度得分；

所述生成单元，还用于获取第二概率阈值；以所述第二概率阈值为二值化分界，基于所述像素点的所述第二置信度得分对所述像素点进行二值化处理，得到所述边缘二值图。

在一个可选的实施例中，所述识别模块，还用于对所述目标图像进行文本识别，得到像素点位置预测结果和区域角度预测结果，所述像素点位置预测结果表示预测得到的所述像素点到所述文字区域边界的距离，所述区域角度预测结果表示所述文字区域在所述目标图像中相对基准角度的倾斜角度；

所述确定模块，还用于基于所述文本连通区域、所述像素点位置预测结果和所述区域角度预测结果，确定所述文本内容在所述目标图像中的所述文本区域。

在一个可选的实施例中，所述确定模块，还用于基于所述文本连通区域对所述像素点位置预测结果和所述区域角度预测结果进行解码，得到与所述文本连通区域对应的至少两个文本框；基于所述像素点位置预测结果对所述至少两个文本框进行加权融合，得到所述文本内容在所述目标图像中的所述文本区域。

在一个可选的实施例中，所述至少两个文本框中包括第一边缘文本框和第二边缘文本框；

所述确定模块，还用于针对所述第一边缘文本框对应的像素点，根据与所述第一边缘之间的距离确定第一权重；

所述确定模块，还用于针对所述第二边缘文本框对应的像素点，根据与所述第二边缘之间的距离确定第二权重；

所述确定模块，还用于通过所述第一权重对所述第一边缘文本框赋权，以及通过所述第二权重对所述第二边缘文本框赋权，得到所述文本内容在所述目标图像中的所述文本区域。

在一个可选的实施例中，所述识别模块，包括：

编码单元，用于对所述目标图像进行编码，得到所述目标图像的编码特征；

采样单元，用于对所述编码特征进行下采样，得到下采样特征；

所述采样单元，还用于对所述下采样特征进行上采样，得到上采样特征；

解码单元，用于基于所述上采样特征对所述目标图像进行文本识别。

在一个可选的实施例中，所述采样单元，还用于对所述编码特征进行n次下采样，得到n个逐层排列的所述下采样特征，n为正整数；

其中，在第i次下采样过程中，通过第i个下采样层对第i-1次下采样结果进行下采样处理，得到处理结果，并通过可分离卷积层对所述处理结果进行卷积处理，得到第i个下采样结果，1＜i≤n，所述可分离卷积层中包括深度可分卷积层和点态卷积层。

在一个可选的实施例中，所述识别模块，还用于基于所述文本区域对所述文本内容进行字符识别，得到字符识别结果；

所述装置，还包括：

转档模块，用于基于所述字符识别结果对所述目标图像进行转档，得到目标文档，其中，所述目标文档中所述字符识别结果的排版方式与所述文本内容在所述目标图像中的排版方式一致。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的文本区域的确定方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中提供的文本区域的确定方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的文本区域的确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在对图像进行文本识别时，同时识别得到用于表示文本区域的中心预测结果和用于表示边缘的边缘预测结果，从而通过对中心预测结果和边缘预测结果的逻辑结合对文本区域的预测进行修正，并最终得到文本区域，在两层检测结果的优化下，文本区域的检测准确率较高，出现虚警的情况较少，从而后续基于文本区域进行文本内容处理的效率和准确率也较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的在线文档实现过程的界面示意图；

图2是本申请一个示例性实施例提供的文本区域检测结果的示意图；

图3是本申请一个示例性实施例提供的文本区域的确定方法的流程图；

图4是基于图3示出的实施例提供的图像框选过程示意图；

图5是基于图3示出的实施例提供的区域中心预测结果和区域边缘预测结果的示意图；

图6是基于图3示出的实施例提供的区域二值图和边缘二值图的逻辑结合过程示意图；

图7是本申请另一个示例性实施例提供的文本区域的确定方法的流程图；

图8是基于图7示出的实施例提供的文本框加权融合过程的示意图；

图9是基于图7示出的实施例提供的文本区域的确定过程示意图；

图10是本申请另一个示例性实施例提供的文本区域的确定方法的流程图；

图11是基于图10示出的实施例提供的下采样过程示意图；

图12是基于图10示出的实施例提供的文本识别模型对目标图像的编码特征进行处理的过程示意图；

图13是本申请一个示例性实施例提供的样本图像的标注结果示意图；

图14是本申请一个示例性实施例提供的样本图像中文本区域框的倾斜角度确定过程示意图；

图15是本申请一个示例性实施例提供的文本区域的确定装置的结构框图；

图16是本申请另一个示例性实施例提供的文本区域的确定装置的结构框图；

图17是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例中，涉及图像处理过程中，针对图像中的文本内容进行文本区域的检测，也即，通过机器学习模型对图像进行文本区域的识别，从而识别得到图像中连续文本所对应的文本框，如：图像中一行文字对应的文本框。

光学字符识别(Optical Character Recognition，OCR)：光学字符识别是通过字符识别将待识别文件中的文字转换成文本格式的过程。通常，OCR过程需要经过待识别图像输入、文字区域检测、文字特征提取、比对识别等步骤后才能完成。在OCR***中，文字区域检测是较为重要的任务，文字区域检测的准确率将直接影响OCR***的整体效果。

密集长文本检测：在文档图像中的文字通常分布密集，字数较多，每行文字的文本框较长，检测出图像中全部文本行并且给出文本框坐标的过程称为密集长文本检测过程，是文档图像中OCR的主要场景。

得分图位置引导：在文本区域的检测任务中，对每个预测点都会预测一个置信度得分，所有置信度得分会构成一张与原图相对应的得分图，通过设置阈值会得到一张目标前景(与文本区域对应)的二值图像，目标前景中的每个预测点对应一个预测结果，按解码规则对预测的坐标信息解码就可得到一个检测框结果，解码后会得到多个重叠的检测框结果，对检测框合并得到最终的检测结果。在本申请实施例中，对于每一个检测框结果，利用其中的预测点在得分图的位置，引导检测框结果的合并过程。

相关技术中，在进行文本区域检测时，通常采用神经网络模型直接预测文本区域的信息，如：基于分割的文本行检测方法(pixel-link)是通过预测每个像素是否属于文本区域，然后根据像素之间的关系对文本区域进行合并后，检测得到文本区域的。

而密集长文本是文档图像中较为常见的场景，也即，文档图像中常存在多个文本行需要进行文本区域的检测。而相关技术中基于分割的文本行检测方法难以对不同的密集文字区域(不同行的文本内容)进行区分，基于候选框的方案由于卷积模型局部感受野的特性，对于密集长文本难以准确回归四个边的信息。

而本申请实施例中，通过对文本区域和边缘区域分别进行预测，从而基于边缘区域对文本区域的中心的预测进行进一步的修正，提高了文本区域的预测准确率。另外，对于预测得到的文本区域，基于得分图位置引导的加权融合方式，克服卷积神经网络局部感受野的缺点，进一步得到更加准确的文本区域。

本申请提供的文本区域的确定方法可以应用于终端中，也可以应用于终端和服务器交互的实施环境中。

示意性的，以该方法应用于终端和服务器交互的实施环境中为例，则用户在终端中对目标图像进行选择后，终端将目标图像发送至服务器，由服务器对目标图像进行文本识别，并识别得到文本内容在目标图像中的文本区域。在一些实施例中，服务器基于识别得到的文本区域进行后续文本处理(如：文本内容识别、文本内容高亮处理等)后，将文本处理结果反馈至终端进行显示。在一些实施例中，服务器中设置有机器学习模型，通过机器学习模型对文本区域将进行检测。

本申请实施例中，以通过终端确定文本区域为例进行说明，也即，当用户在终端中对目标图像进行选择后，直接由终端线下对目标图像中的文本区域进行检测。在一些实施例中，终端中包括机器学习模型，终端通过机器学习模型对文本区域进行检测。值得注意的是，终端中的机器学习模型相对于服务器中的机器学习模型而言为轻量级模型，也即，终端中的机器学习模型在计算量和资源占用量上小于服务器中的机器学习模型(重量级模型)。

本申请实施例的应用场景至少包括如下场景中的至少一种：

第一种，在线文档场景。

在线文档是指具有协同编辑特性或者多人同时编辑特性的文档形式。在一些实施例中，在线文档为文档发起者上传的可编辑文件，一个或者多个用户能够通过网页链接的形式在网页中打开该在线文档，并对文档的内容进行编辑，其中，当存在多个用户同时开启在线文档时，多个用户中具有编辑权限的用户能够同时对在线文档的文档内容进行编辑。其中，在线文档包括文本文档、表格文档、演示文稿文档中的至少一种。

用户通过终端拍摄图像或者通过导入方式导入图像后，对图像中的文本区域进行检测，并基于文本区域的检测结果对文本内容进行OCR检测，从而根据OCR检测结果将图像导出为可编辑的在线文档。其中，在文本区域的检测过程中，同时识别得到区域中心预测结果和区域边缘预测结果，从而通过区域边缘预测结果对区域中心预测结果进行修正，得到修正好的文本连通区域，并在文本连通区域的基础上确定图像中的文本区域。

示意性的，请参考图1，其示出了本申请一个示例性实施例提供的在线文档实现过程的界面示意图。如图1所示，首先用户在在线文档转档功能中，通过终端摄像头对图像进行拍摄，拍摄对象为纸质文档110，拍摄得到的图像经过识别后得到识别结果120，识别结果120中包括纸质文档110中的文本内容，识别结果120的显示界面中还包括文档生成控件130，通过对文档生成控件130的选择操作，将识别结果120上传为在线文档，并在在线文档显示界面140中进行显示。

其中，请参考图2，其示出了本申请一个示例性实施例提供的文本区域检测结果的示意图，如图2所示，在将纸质文档110对应拍摄的图像转换至OCR识别结果时，首先需要对图像中的文本区域进行识别，如图2所示，对图像200中进行文本区域识别，得到文本框210，文本框210用于表示图像200中各行文本的显示区域。即能够代表图像200中文本内容的排版情况。

第二种，离线转档场景。

离线转档是指在终端本地对第一形式的内容转档为第二形式的内容的方式，本申请实施例中，离线转档涉及的是将图像形式的内容转换为文档形式的内容的过程。

用户通过终端拍摄图像或者通过导入方式导入图像后，对图像中的文本区域进行检测，并基于文本区域的检测结果对文本内容进行OCR检测。针对图像中的其他类型内容，进行与其他类型内容对应的处理，如：对图像类型内容从原图像中进行裁剪，对表格类型内容从原图像中识别得到。从而根据OCR检测结果和裁剪或者识别得到的其他类型内容对图像进行转档，得到文档内容。

第三种，文本突出处理场景。

用户有对文本内容进行高亮显示的需求，如：针对图像针对文本内容，用户存在对其进行黄色高亮突出显示的需求。故，用户通过终端拍摄图像或者通过导入方式导入图像后，对图像中的文本区域进行检测后，自动对检测到的文本区域进行背景色填充，从而实现对图像中文本内容的突出高亮显示。

值得注意的是，上述三种应用场景仅为示意性的举例，本申请实施例还可以应用于其他需要对文本区域进行检测的场景中，本申请实施例对此不加以限定。

结合上述名词简介和实施环境的说明，对本申请实施例提供的文本区域的确定方法进行说明，图3是本申请一个示例性实施例提供的文本区域的确定方法的流程图，以该方法应用于终端中为例进行说明，如图3所示，该方法包括：

步骤301，获取目标图像。

该目标图像中包括文本内容，目标图像为文本内容所在的文本区域待确定的图像。

在一些实施例中，终端通过拍摄的方式获取目标图像；或者，终端通过下载的方式获取目标图像；或者，终端通过接收外部存储设备输入的方式获取目标图像，本申请实施例对此不加以限定；在一些实施例中，目标图像为终端在获取原始图像后，用户对原始图像进行裁剪得到的图像。上述方式仅为示意性的举例，本申请实施例对目标图像的获取方式不加以限定。

可选地，目标图像为经过预处理的图像，其中，预处理方式包括图像框选和图像初步矫正中的至少一种。

一、图像尺寸调整

在一些实施例中，为了避免后续编解码过程中出现维度问题，针对输入的任意尺寸的图像进行尺寸调节。本申请实施例中，将图像的长、宽均变换到最接近原始尺寸的16倍。

示意性的，请参考如下公式一。

公式一：W＝W_in×W_scale

H＝H_in×H_scale

其中，W_in表示输入图像的长，W_scale表示将输入图像的长调节至最接近的16的倍数的系数；H_in表示输入图像的宽，H_scale表示将输入图像的宽调节至最接近的16的倍数的系数。示意性的，W_in为14，最接近14的16的倍数为16，W_scale为8/7。

二、图像框选

可选地，图像框选是指自动对目标图像中包含文本内容的图像部分进行框选，去除目标图像中的多余部分，如：边缘空白部分、非文档内容部分等，示意性的，将书本放置在桌面上进行拍摄时，拍摄的图像内容中还包括桌面的其他物件，通过自动框选，对书本边缘进行框选，并去除桌面上的其他物件。示意性的，请参考图4，对框选前图像410进行自动框选处理后，得到框选后图像420，框选前图像410中的桌面411、阴影412等部分被去除。

可选地，该自动框选的过程中，可以通过OpenCV算法对框选边缘进行检测，如：Canny算法、Sobel算法等，也可以通过深度学习算法，如：边缘检测算法(Holistically-Nested Edge Detection，HED)对框选边缘进行检测。

三、图像矫正

可选地，图像矫正是指对存在扭曲情况的图像矫正至正常平面状态，由于实际场景中，当用户对文档进行拍摄时，文档可能处于折叠、弯曲等变形状态，导致影响OCR识别过程，故首先对图像进行校正，将图像矫正至近似平面的状态。在一些实施例中，由于图像的拍摄存在拍摄角度的影响，在平面状态下，文本行也可能存在一定的旋转角度。

在对图像进行矫正的过程中，通过矫正网络进行矫正。可选地，扭曲图片的矫正中需要预测出图片中每个像素点的实际坐标，故矫正网络中可以采用堆栈式U-net结构。

步骤302，对目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果。

区域中心预测结果表示预测得到的文本区域所处的区域范围，区域边缘预测结果表示预测得到的文本区域的边缘位置。值得注意的是，区域边缘预测结果用于表示的边缘位置为，文本区域内处于边缘范围的像素点所在的位置。

在一些实施例中，针对区域中心预测结果的预测，是针对目标图像中的像素点，得到与像素点对应的第一置信度得分，该第一置信度得分即用于表示预测得到的像素点属于文本区域的概率。在一些实施例中，第一置信度得分构成的目标图像为中心区域得分图。

在一些实施例中，针对区域边缘预测结果的预测，是针对目标图像中的像素点，得到与像素点对应的第二置信度得分，该第二置信度得分用于表示预测得到的像素点属于文本区域边缘的概率。在一些实施例中，第二置信度得分构成的目标图像为边缘区域得分图。

示意性的，请参考图5，其示出了本申请一个示例性实施例提供的区域中心预测结果和区域边缘预测结果的示意图，如图5所示，对图像500进行文本识别后，得到区域中心预测结果510和区域边缘预测结果520(外框与内框之间的边缘区域)。

步骤303，对区域中心预测结果和区域边缘预测结果进行逻辑结合，得到目标图像中的文本连通区域。

文本连通区域表示具有连通关系的文本内容在目标图像中的区域，如：同一行文字构成的连通关系。在一些实施例中，文本连通区域中的像素点为文本区域中置信度较高的像素点，根据文本连通区域能够得到目标图像对应的得分图，并基于得分图进行后续文本区域的确定。其中，得分图中包括文本连通区域中的每个像素点对应的置信度得分，置信度得分用于表示像素点属于文本区域的概率。

在一些实施例中，基于区域中心预测结果生成区域二值图，基于区域边缘预测结果生成边缘二值图，从而对边缘二值图和区域二值图进行逻辑结合，得到文本连通区域。其中，区域二值图为将上述中心区域得分图二值化处理后得到的图，边缘二值图为将上述边缘区域得分图二值化处理后得到的图。

在一些实施例中，对边缘二值图进行取反处理，得到边缘取反图，从而对边缘取反图和区域二值图进行逻辑与运算，得到修正后的文本连通区域。

其中，在获取区域二值图时，区域中心预测结果中包括目标图像中的像素点在文本区域范围内的第一置信度得分。获取第一概率阈值，该第一概率阈值为预先设定的用于对第一置信度得分进行二值化处理的阈值。以第一概率阈值为二值化分界，基于像素点的第一置信度得分对像素点进行二值化处理，得到区域二值图。示意性的，第一概率阈值为0.8，则在区域中心预测结果中，第一置信度得分达到0.8的像素点二值化取值为255，第一置信度得分小于0.8的像素点二值化取值为0，从而得到区域二值化图像，该区域二值化图像体现在：预测到的文本区域范围内的像素点显示为白色，在文本区域范围外的像素点显示为黑色。

类似的，在获取边缘二值图时，区域边缘预测结果中包括目标图像中的像素点在文本区域的边缘范围内的第二置信度得分。获取第二概率阈值，第二概率阈值为预先设定的用于对第二置信度得分进行二值化处理的阈值。以第二概率阈值为二值化分界，基于像素点的第二置信度得分对像素点进行二值化处理，得到边缘二值图。示意性的，第二概率阈值为0.8，则在区域边缘预测结果中，第二置信度得分达到0.8的像素点二值化取值为255，第二置信度得分小于0.8的像素点二值化取值为0，从而得到边缘二值化图像，该边缘二值化图像体现为：在预测到的边缘区域范围内的像素点显示为白色，在边缘区域范围外的像素点显示为黑色。

结合上述区域二值图和边缘二值图，当边缘二值图取反时，则体现为在预测到的边缘区域内的像素点显示为黑色，在边缘区域范围外的像素点显示为白色。以取反后的边缘二值图和区域二值图进行逻辑与运算，即将边缘取反图中的黑色部分，对区域二值图中的黑色部分进行叠加修正，从而提高文本区域的预测准确率。其中，边缘二值图的取反是指将边缘二值图中像素值为255的像素点调整为0，并将边缘二值图中像素值为0的像素点调整为255。从而体现为：在边缘二值图中的黑色区域在边缘取反图中显示为白色，在边缘二值图中的白色区域在边缘取反图中显示为黑色。

示意性的，请参考图6，其示出了本申请一个示例性实施例提供的区域二值图和边缘二值图的逻辑结合过程示意图，如图6所示，根据区域中心预测结果得到区域二值图610，根据区域边缘预测结果得到边缘二值图620，对边缘二值图620进行取反后，得到边缘取反图630，将边缘取反图630与区域二值图610进行逻辑与运算，通过边缘取反图630中的黑色部分对区域二值图610中的黑色部分进行修正，得到最终修正后的文本连通区域640。

步骤304，基于文本连通区域确定文本内容在目标图像中的文本区域。

在一些实施例中，得到文本连通区域后，对文本连通区域进行进一步的修正后，得到文本内容在目标图像中的文本区域。

综上所述，本实施例提供的文本区域的确定方法，在对图像进行文本识别时，同时识别得到用于表示文本区域的中心预测结果和用于表示边缘的边缘预测结果，从而通过对中心预测结果和边缘预测结果的逻辑结合对文本区域的预测进行修正，并最终得到文本区域，在两层检测结果的优化下，文本区域的检测准确率较高，出现虚警的情况较少，从而后续基于文本区域进行文本内容处理的效率和准确率也较高。

在一些实施例中，在对目标图像进行文本识别时，能够同时得到区域中心预测结果、区域边缘预测结果、像素点位置预测结果和区域角度预测结果。示意性的，图7是本申请另一个示例性实施例提供的文本区域的确定方法的流程图，以该方法应用于终端中为例进行说明，如图7所示，该方法包括：

步骤701，获取目标图像。

步骤702，对目标图像进行文本识别，得到区域中心预测结果、区域边缘预测结果、像素点位置预测结果和区域角度预测结果。

其中，区域中心预测结果表示预测得到的文本区域所处的区域范围，区域边缘预测结果表示预测得到的文本区域的边缘位置。

像素点位置预测结果表示预测得到的像素点到文字区域边界的距离，区域角度预测结果表示文字区域在目标图像中相对基准角度的倾斜角度。

在一些实施例中，像素点位置预测结果表示目标图像中的每个像素点到文字框4个边的距离。

在一些实施例中，通过文本识别模型对目标图像进行文本识别。其中，文本识别模型为预先训练得到的神经网络模型。文本识别模型通过对目标图像进行编解码实现文本识别。

步骤703，对区域中心预测结果和区域边缘预测结果进行逻辑结合，得到目标图像中的文本连通区域。

文本连通区域表示具有连通关系的文本内容在目标图像中的区域。

在一些实施例中，基于区域中心预测结果生成区域二值图，基于区域边缘预测结果生成边缘二值图，从而对边缘二值图和区域二值图进行逻辑结合，得到文本连通区域。

步骤704，基于文本连通区域、像素点位置预测结果和区域角度预测结果，确定文本内容在所述目标图像中的所述文本区域。

对区域二值图和边缘二值图逻辑操作得到的文本连通区域图代表文本区域内部的置信度较高的点，利用这些点的像素点位置预测结果和区域角度预测结果能够解码出的最终的文本框信息。也即，针对文本连通区域中的像素点对应预测到的与区域边缘的距离，以及结合区域角度预测结果，确定像素点对应预测得到的文本框。

而由于存在较多的像素点对应较多的文本框预测结果，这些文本框预测结果之间存在冗余的情况，需要进行合并，而由于卷积核的局部感受野特性，这些文本框预测结果存在不准确的地方，主要是对于预测点的远边的预测会出现准确性较低的问题。故本实施例中，采取基于位置敏感的加权融合方式合并文本连通区域的每个文本框预测结果。

在一些实施例中，基于文本连通区域对像素点位置预测结果和区域角度预测结果进行解码，得到与文本连通区域对应的至少两个文本框；基于像素点位置预测结果对至少两个文本框进行加权融合，得到文本内容在目标图像中的文本区域。

在一些实施例中，在基于文本连通区域对像素点位置预测结果和区域角度预测结果进行解码时，针对文本连通区域中的像素点，确定像素点的像素点位置预测结果，从而基于区域角度预测结果和像素点预测结果确定由该像素点确定的文本框信息。

示意性的，在上述文本框的确定过程中，得到的至少两个文本框中包括第一边缘文本框和第二边缘文本框，其中，第一边缘文本框是根据接近第一边缘的像素点确定的文本框，第二边缘文本框是根据接近第二边缘的像素点确定的文本框，第一边缘和第二边缘为相对的两条边，且第一边缘和第二边缘为文本区域的宽边，也即文本区域中较短的两条边。

针对第一边缘文本框对应的像素点，根据与第一边缘之间的距离确定第一权重；针对第二边缘文本框对应的像素点，根据与第二边缘之间的距离确定第二权重，通过第一权重对第一边缘文本框赋权，以及通过第二权重对第二边缘文本框赋权，得到文本内容在目标图像中的文本区域。

在一些实施例中，基于权重对文本框进行融合时，第一权重与距离之间呈负相关关系，且第二权重与距离之间也呈负相关关系，以第一权重为例，当前像素点位置到文本区域的边缘的距离为d，d为正数，则以1/d作为第一权重。

确定第一边缘的第一位置坐标和第二边缘的第二位置坐标，第一边缘相对于第一边缘文本框和第二边缘相对于第二边缘文本框属于同侧；确定第一位置坐标与第一权重的第一乘积，以及第二位置坐标与第二权重的第二乘积，将第一乘积和第二乘积之间的平均值确定为文本区域的第三侧边的第三位置坐标。在一些实施例中，第一位置坐标是指第一侧边中心点的坐标，第二位置坐标是指第二侧边中心点的坐标，第三位置坐标是指第三侧边中心点的坐标。

示意性的，第一侧边包括第一左侧边、第一右侧边、第一上侧边和第一下侧边，第二侧边包括第二左侧边、第二右侧边、第二上侧边和第二下侧边；则针对文本区域的左侧边，通过第一像素点与第一左侧边之间的距离确定第一权重，通过第二像素点与第二左侧边之间的距离确定第二权重，确定第一权重与第一左侧边的第一位置坐标之间的第一乘积，以及第二权重与第二左侧边的第二位置坐标之间的第二乘积，确定第一乘积和第二乘积之间的平均值，作为文本区域左侧边的位置坐标，如：第一权重为0.8，第一位置坐标为(50，60)，第二权重为0.6，第二位置坐标为(58，50)，则对应计算得到的文本区域左侧边的位置坐标为(37.4，39)。同理计算文本区域的右侧边、上侧边以及下侧边的位置坐标。并根据文本框的区域角度预测结果得到文本区域。

值得注意的是，上述加权融合过程中，以第一边缘文本框和第二边缘文本框的加权融合过程为例进行说明，在一些实施例中，基于文本连通区域中像素点的数量确定边缘文本框的数量，如：文本连通区域中包括k个像素点，k为正整数，基于该k个像素点得到k个边缘文本框，从而对k个文本框进行加权融合，得到最终的文本区域。

在另一个实施例中，在通过像素点对应的边缘文本框得到文本区域时，还可以首先将像素点与边缘文本框的左侧边和右侧边进行最大权重值的确定，当最大权重值大于权重阈值(也即像素点与左侧边或者右侧边的距离小于距离阈值)时，保留该边缘文本框，当最大权重值小于权重阈值时，舍弃该边缘文本框，将保留的边缘文本框取并集，最终得到文本区域。由于距离左侧边越近的像素点对左侧边的预测越准确，距离右侧边越近的像素点对右侧边的预测越准确，故最终并集得到的文本区域也较为准确。值得注意的是上述举例是针对横向表达的文本内容的，也即像素点在左右两侧的距离差异较大，故以左侧边和右侧边为例进行说明；针对纵向表达的文本内容，也可以根据像素点与上侧边和下侧边的距离对边缘文本框进行取舍，本申请实施例对此不加以限定。

示意性的，请参考图8，在预测得到文本连通区域810后，针对文本连通区域810左侧的像素点预测得到第一边缘文本框820，根据文本连通区域810右侧的像素点预测得到第二边缘文本框830，对第一边缘文本框820和第二边缘文本框830基于像素点与边缘之间的距离进行加权融合，最终得到合并结果840，也即文本区域。

示意性的，当前像素点位置到文本区域的边缘的距离为d，d为正数，以1/d作为当前文本框的权重进行多个框合并，因为文本框由该像素点到边缘距离越近预测的越准确。

示意性的，请参考图9，文本区域的确定过程中，包括如下步骤。首先输入图像900，通过模型前向运算910对图像900进行文本识别，从而得到得分图，其中包括中心区域得分图(即根据上述区域中心预测结果得到的得分图)和边缘区域得分图(即根据上述区域边缘预测结果得到的得分图)，文本识别后还得到预测距离(即上述像素点位置预测结果)和角度(即上述区域角度预测结果)，对中心区域得分图和边缘区域得分图进行得分图二值化920，得到两个二值图进行逻辑操作930，得到最终的得分图，从而基于得分图对预测距离和角度进行解码940，得到多个文本框，基于像素点的位置引导，对多个文本框加权融合950，输出文字框检测结果960。

本实施例提供的方法，在基于区域中心预测结果和区域边缘预测结果确定文本连通区域后，基于文本连通区域中的像素点确定至少两个文本框，并根据像素点与文本框边缘之间的距离对文本框进行加权融合，从而根据像素点与边缘距离不同导致预测准确度不同的基础上，对准确度越高的边缘以更高的权重值进行融合，而对准确度越低的边缘以更低的权重值进行融合，提高了文本框的融合准确率。

在一些实施例中，文本识别过程通过U-net文本识别模型对目标图像的编解码实现，图10是本申请另一个示例性实施例提供的文本区域的确定方法的流程图，以该方法应用于终端中为例进行说明，如图10所示，该方法包括：

步骤1001，获取目标图像。

步骤1002，对目标图像进行编码，得到目标图像的编码特征。

在一些实施例中，通过特征提取模型对目标图像编码，也即，提取目标图像中的图像特征，得到编码特征，其中，编码特征为将目标图像中的像素点转换为编码向量得到的特征。

步骤1003，对编码特征进行下采样，得到下采样特征。

在一些实施例中，在对编码特征进行下采样时，对编码特征进行n次下采样，得到n个逐层排列的下采样特征，n为正整数。其中，在第i次下采样过程中，通过第i个下采样层对第i-1个下采样结果进行下采样处理，得到处理结果，并通过可分离卷积层对处理结果进行卷积处理，得到第i个下采样结果，1＜i≤n，可分离卷积层中包括深度可分卷积层和点态卷积层。

在一些实施例中，通过k个可分离卷积层对处理结果进行卷积处理，k为正整数。

示意性的，针对第i次下采样过程，请参考图11，在第i次下采样过程中，首先通过下采样层1110对第i-1次下采样结果进行下采样处理，并通过多个可分离卷积层1120对处理结果进行卷积处理，其中，每个可分离卷积层1120中包括深度可分卷积层1121和点态卷积层1122。可选地，可分离卷积是指通过深度可分(depthwise)3x3卷积和点态1x1卷积级联方式代替普通3x3卷积运算，可在保证特征提取效果的前提下，大大减少计算量和模型参数量。

步骤1004，对下采样特征进行上采样，得到上采样特征。

在一些实施例中，对应上采样的过程，对下采样特征进行n次上采样，其中，上采样过程和上采样过程反向依次对应，也即，第n次下采样过程与第1次上采样过程对应。示意性的，请参考图12，其示出了本申请一个示例性实施例提供的文本识别模型对目标图像的编码特征进行处理的过程示意图，如图12所示，首先通过密集块1210对编码特征进行逐层下采样，图12中以4个密集块1210(DenseBlock1、DenseBlock2、DenseBlock3、DenseBlock4)对编码特征进行逐层下采样为例进行说明。DenseBlock4输出的下采样特征通过之前各层输出的下采样特征进行上采样后，得到上采样特征，对上采样特征进行卷积识别后，输出得到识别结果1220，其中包括区域中心预测结果1221、区域边缘预测结果1222、像素点位置预测结果1223以及区域角度预测结果1224。

步骤1005，基于上采样特征对目标图像进行文本识别，得到区域中心预测结果、区域边缘预测结果、像素点位置预测结果和区域角度预测结果。

步骤1006，对区域中心预测结果和区域边缘预测结果进行逻辑结合，得到目标图像中的文本连通区域。

步骤1007，基于文本连通区域、像素点位置预测结果和区域角度预测结果，确定文本内容在所述目标图像中的所述文本区域。

对区域二值图和边缘二值图逻辑操作得到的文本连通区域图代表文本区域内部的置信度较高的点，利用这些点的像素点位置预测结果和区域角度预测结果能够解码出的最终的文本框信息。而由于存在较多的像素点对应较多的文本框预测结果，这些文本框预测结果之间存在冗余的情况，需要进行合并，由于卷积核的局部感受野特性，这些文本框预测结果存在不准确的地方，主要是对于预测点的远边的预测会出现准确性较低的问题。故本实施例中，采取基于位置敏感的加权融合方式合并文本连通区域的每个文本框预测结果。

在一些实施例中，确定文本区域之后，还可以基于文本区域对文本内容进行字符识别，得到字符识别结果，并基于字符识别结果对目标图像进行转档，得到目标文档，其中，目标文档中字符识别结果的排版方式与文本内容在目标图像中的排版方式一致。在一些实施例中，目标文档中显示的字符识别结果在字体、字号、字符位置等方面都与文本内容在目标图像中一致。

本实施例提供的方法，基于可分离卷积的密集连接模块对图像的编码特征进行下采样，利用可分离卷积参数量和计算量较少的优点，便于在移动端实现，提升特征的复用和表达能力。本申请实施例中，经过试验可得，通过轻量级高效的卷积模块，最终模型大小约为900k，提高运算效率，在移动端实现节省内存和运算资源。

本实施例提供的方法，通过区域中心预测结果和区域边缘预测结果两种约束，得到的文本高置信度区域，对密集文本有良好的召回和检测效果。

本实施例提供的方法，采用位置敏感的加权融合方式，能够有效克服卷积的局部感受野限制，对长文本的边框能够准确检测。

值得注意的是，上述文本识别模型，在训练过程中是通过标注有文本区域框的样本数据训练得到的。训练过程中包括如下几个方面。

第一、训练数据的准备。

也即，在对文本识别模型进行训练时，首先需要获取样本图像，并通过样本图像对文本识别模型进行训练。样本图像需要标注有文本区域框的实际信息。示意性的，对样本图像中的每一行文本，按照左上、右上、右下、左下的顺序顺时针标注4个点的坐标值(x，y)，该坐标值用于表示点在样本图像中的位置。标注后每个样本图像对应一个标注文本文件用于存储标注的信息。同时采取仿真生成的方式，利用常用的字体和背景图像，随机生成不同排版的文档数据和标注数据。示意性的，如图13所示，针对样本图像1300，由人工对其中的文本内容“Y国：欢度节日”对应的文本区域框1310进行标注，从而生成标注文本文件。

第二、生成文字中心区域和文字边缘区域对应的得分图。

由样本图像中标注的4个点的坐标值组成的四边形构成文字前景区域。以四边形的最短边基准距离，将文字前景区域内到边框距离大于25％基准距离的文字区域作为文字中心区域，文字前景区域内到边框距离小于25％基准距离的文字区域作为文字边缘区域。

第三、生成文本区域中像素点的位置和文本区域角度的信息。

取4个标注点的最小外接矩形，计算文字中心区域内每个点到矩形框4个边的距离分别为h_t(像素点到上边缘的距离)，h_d(像素点到下边缘的距离)，w_l(像素点到左边缘的距离)，w_r(像素点到右边缘的距离)。找到矩形与横坐标夹角最小的一条边，通过边两个端点坐标值计算出文字框的角度值θ。

示意性的，请参考图14，针对文本区域框1410，确定最小外接矩形1420，并基于最小外接矩形1420与横轴夹角最小的边(下边缘)，通过下边缘确定文本区域框1410的角度值θ。

第四、损失值的计算。

本申请实施例中，文本识别模型的损失值分为四个部分：1、中心区域识别损失值；2、边缘区域识别损失值；3、像素点位置识别损失值；4、角度识别损失值。

其中，对于文本区域框的中心区域和边缘区域的得分损失函数采用如下公式二进行计算。

公式二：

其中，diceloss表示计算得到的损失值，通常为中心区域和边缘区域的得分损失之和。Y为训练中根据标注得到得分图的ground truth(用于表示文本区域的实际范围)，

为预测的得分图结果，Mask为一个预设的参数，用于根据需要忽略部分文字区域，eps为预设数值，通常实现为一个很小的数值，避免公式中除数为0的错误。

对于像素点位置的预测损失值，采用长和宽的交并比(Intersection overUnion，IoU)计算，并且对长边赋予更高的权重，示意性的，请参考如下公式三。

公式三：

其中，iouloss表示像素点位置的预测损失值，w₁和w₂根据文本区域框的长宽比计算得到，使得学习难度大的长边有更大的学习权重。h_intersect是文本区域框高度的交集，h_union指文本区域框高度的并集，w_intersect是文本区域框宽度的交集，w_union指文本区域框宽度的并集。

对于文本区域框的角度预测损失值，采用如下公式四进行计算。

公式四：

其中，L_θ表示角度预测损失值，

表示文本识别模型预测得到的角度值，θ*表示标注的文本区域框实际的角度值。

最终得到的整体损失值计算方式如下公式五所示。

公式五：Loss＝L_center+L_edge+L_box+L_angel

其中，Loss表示最终的总损失值，L_center表示中心区域识别损失值，L_edge表示边缘区域识别损失值，L_center和L_edge通过上述公式二计算得到，L_box表示像素点位置识别损失值，通过上述公式三计算得到，L_angel表示角度识别损失值，通过上述公式四计算得到。

在训练的过程中，以最小化损失函数为训练目标，通过反向传播迭代优化模型参数。样本数据的数据增广方面，采用随机抠取不同比例文字区域图像、随机旋转图像、随机色彩、光照的方式。经过数据增广后，将图像做尺寸变换处理，训练中我们采取动态输入尺寸的方式，对于同一个批次的样本图像输入，从(256，512，768)中随机选择一个尺寸，将图像变换到该尺寸，图像文字框的标注也做相应的变换。

本实施例提供的方法训练中的输入图像大小采取动态尺度的方式，结合卷积神经网络的局部感受野和尺度不变性特点，能够增强模型的鲁棒性，对于任意尺度的输入图像，都能够实现良好的检测效果，同时在计算量上能够针对不同分辨率任务，占用相匹配的计算资源。

图15是本申请一个示例性实施例提供的文本区域的确定装置的结构框图，如图15所示，该装置包括：

获取模块1510，用于获取目标图像，所述目标图像中包括文本内容，所述目标图像为所述文本内容所在的文本区域待确定的图像；

识别模块1520，用于对所述目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果，所述区域中心预测结果表示预测得到的所述文本区域所处的区域范围，所述区域边缘预测结果表示预测得到的所述文本区域的边缘位置；

处理模块1530，用于对所述区域中心预测结果和所述区域边缘预测结果进行逻辑结合，得到所述目标图像中的文本连通区域，所述文本连通区域表示具有连通关系的所述文本内容在所述目标图像中的区域；

确定模块1540，用于基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域。

在一个可选的实施例中，如图16所示，所述处理模块1530，包括：

生成单元1531，用于基于所述区域中心预测结果生成区域二值图；

所述生成单元1531，还用于基于所述区域边缘预测结果生成边缘二值图；

逻辑单元1532，用于对所述边缘二值图和所述区域二值图进行逻辑结合，得到所述文本连通区域。

在一个可选的实施例中，所述逻辑单元1532，还用于对所述边缘二值图进行取反处理，得到边缘取反图；

所述逻辑单元1532，还用于对所述边缘取反图与所述区域二值图进行逻辑与运算，得到修正后的所述文本连通区域。

所述生成单元1531，还用于获取第一概率阈值；以所述第一概率阈值为二值化分界，基于所述像素点的所述第一置信度得分对所述像素点进行二值化处理，得到所述区域二值图。

所述生成单元1531，还用于获取第二概率阈值；以所述第二概率阈值为二值化分界，基于所述像素点的所述第二置信度得分对所述像素点进行二值化处理，得到所述边缘二值图。

在一个可选的实施例中，所述识别模块1520，还用于对所述目标图像进行文本识别，得到像素点位置预测结果和区域角度预测结果，所述像素点位置预测结果表示预测得到的所述像素点到所述文字区域边界的距离，所述区域角度预测结果表示所述文字区域在所述目标图像中相对基准角度的倾斜角度；

所述确定模块1540，还用于基于所述文本连通区域、所述像素点位置预测结果和所述区域角度预测结果，确定所述文本内容在所述目标图像中的所述文本区域。

在一个可选的实施例中，所述确定模块1540，还用于基于所述文本连通区域对所述像素点位置预测结果和所述区域角度预测结果进行解码，得到与所述文本连通区域对应的至少两个文本框；基于所述像素点位置预测结果对所述至少两个文本框进行加权融合，得到所述文本内容在所述目标图像中的所述文本区域。

所述确定模块1540，还用于针对所述第一边缘文本框对应的像素点，根据与所述第一边缘之间的距离确定第一权重；

所述确定模块1540，还用于针对所述第二边缘文本框对应的像素点，根据与所述第二边缘之间的距离确定第二权重；

所述确定模块1540，还用于通过所述第一权重对所述第一边缘文本框赋权，以及通过所述第二权重对所述第二边缘文本框赋权，得到所述文本内容在所述目标图像中的所述文本区域。

在一个可选的实施例中，所述第一权重与所述距离之间呈负相关关系；

所述确定模块1540，还用于确定所述第一边缘的第一位置坐标和所述第二边缘的第二位置坐标，所述第一边缘相对所述第一边缘文本框和所述第二边缘相对所述第二边缘文本框属于通侧；确定所述第一坐标位置与所述第一权重的第一乘积，以及所述第二坐标位置与所述第二权重的第二乘积；将所述第一乘积与所述第二乘积之间的平均值确定为所述文本区域的第三侧边的第三位置坐标。

在一个可选的实施例中，所述识别模块1520，包括：

编码单元1521，用于对所述目标图像进行编码，得到所述目标图像的编码特征；

采样单元1522，用于对所述编码特征进行下采样，得到下采样特征；

所述采样单元1522，还用于对所述下采样特征进行上采样，得到上采样特征；

解码单元1523，用于基于所述上采样特征对所述目标图像进行文本识别。

在一个可选的实施例中，所述采样单元1522，还用于对所述编码特征进行n次下采样，得到n个逐层排列的所述下采样特征，n为正整数；

在一个可选的实施例中，所述识别模块1520，还用于基于所述文本区域对所述文本内容进行字符识别，得到字符识别结果；

所述装置，还包括：

转档模块1550，用于基于所述字符识别结果对所述目标图像进行转档，得到目标文档，其中，所述目标文档中所述字符识别结果的排版方式与所述文本内容在所述目标图像中的排版方式一致。

综上所述，本实施例提供的文本区域的确定装置，在对图像进行文本识别时，同时识别得到用于表示文本区域的中心预测结果和用于表示边缘的边缘预测结果，从而通过对中心预测结果和边缘预测结果的逻辑结合对文本区域的预测进行修正，并最终得到文本区域，在两层检测结果的优化下，文本区域的检测准确率较高，出现虚警的情况较少，从而后续基于文本区域进行文本内容处理的效率和准确率也较高。

需要说明的是：上述实施例提供的文本区域的确定装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本区域的确定装置与文本区域的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图17示出了本申请一个示例性实施例提供的电子设备1700的结构框图。该电子设备1700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1700包括有：处理器1701和存储器1702。

处理器1701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1701可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1701所执行以实现本申请中方法实施例提供的文本区域的确定方法。

在一些实施例中，电子设备1700还可选包括有：***设备接口1703和至少一个***设备。处理器1701、存储器1702和***设备接口1703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1703相连。具体地，***设备包括：射频电路1704、显示屏1705、摄像头组件1706、音频电路1707、定位组件1708和电源1709中的至少一种。

***设备接口1703可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1701和存储器1702。在一些实施例中，处理器1701、存储器1702和***设备接口1703被集成在同一芯片或电路板上；在一些其他实施例中，处理器1701、存储器1702和***设备接口1703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1704包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1705是触摸显示屏时，显示屏1705还具有采集在显示屏1705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1701进行处理。此时，显示屏1705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1705可以为一个，设置在电子设备1700的前面板；在另一些实施例中，显示屏1705可以为至少两个，分别设置在电子设备1700的不同表面或呈折叠设计；在另一些实施例中，显示屏1705可以是柔性显示屏，设置在电子设备1700的弯曲表面上或折叠面上。甚至，显示屏1705还可以设置成非矩形的不规则图形，也即异形屏。显示屏1705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1706用于采集图像或视频。可选地，摄像头组件1706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1701进行处理，或者输入至射频电路1704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1701或射频电路1704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1707还可以包括耳机插孔。

定位组件1708用于定位电子设备1700的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1708可以是基于美国的GPS(Global Positioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1709用于为电子设备1700中的各个组件进行供电。电源1709可以是交流电、直流电、一次性电池或可充电电池。当电源1709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1700还包括有一个或多个传感器1710。该一个或多个传感器1710包括但不限于：加速度传感器1711、陀螺仪传感器1712、压力传感器1713、指纹传感器1714、光学传感器1715以及接近传感器1716。

加速度传感器1711可以检测以电子设备1700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1711可以用于检测重力加速度在三个坐标轴上的分量。处理器1701可以根据加速度传感器1711采集的重力加速度信号，控制显示屏1705以横向视图或纵向视图进行用户界面的显示。加速度传感器1711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1712可以检测电子设备1700的机体方向及转动角度，陀螺仪传感器1712可以与加速度传感器1711协同采集用户对电子设备1700的3D动作。处理器1701根据陀螺仪传感器1712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1713可以设置在电子设备1700的侧边框和/或显示屏1705的下层。当压力传感器1713设置在电子设备1700的侧边框时，可以检测用户对电子设备1700的握持信号，由处理器1701根据压力传感器1713采集的握持信号进行左右手识别或快捷操作。当压力传感器1713设置在显示屏1705的下层时，由处理器1701根据用户对显示屏1705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1714用于采集用户的指纹，由处理器1701根据指纹传感器1714采集到的指纹识别用户的身份，或者，由指纹传感器1714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1714可以被设置在电子设备1700的正面、背面或侧面。当电子设备1700上设置有物理按键或厂商Logo时，指纹传感器1714可以与物理按键或厂商Logo集成在一起。

光学传感器1715用于采集环境光强度。在一个实施例中，处理器1701可以根据光学传感器1715采集的环境光强度，控制显示屏1705的显示亮度。具体地，当环境光强度较高时，调高显示屏1705的显示亮度；当环境光强度较低时，调低显示屏1705的显示亮度。在另一个实施例中，处理器1701还可以根据光学传感器1715采集的环境光强度，动态调整摄像头组件1706的拍摄参数。

接近传感器1716，也称距离传感器，通常设置在电子设备1700的前面板。接近传感器1716用于采集用户与电子设备1700的正面之间的距离。在一个实施例中，当接近传感器1716检测到用户与电子设备1700的正面之间的距离逐渐变小时，由处理器1701控制显示屏1705从亮屏状态切换为息屏状态；当接近传感器1716检测到用户与电子设备1700的正面之间的距离逐渐变大时，由处理器1701控制显示屏1705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图17中示出的结构并不构成对电子设备1700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述实施例中所述的文本区域的确定方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述实施例中所述的文本区域的确定方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的文本区域的确定方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本区域的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述区域中心预测结果和所述区域边缘预测结果进行逻辑结合，得到所述目标图像中的文本连通区域，包括：

基于所述区域中心预测结果生成区域二值图；

基于所述区域边缘预测结果生成边缘二值图；

对所述边缘二值图和所述区域二值图进行逻辑结合，得到所述文本连通区域。

3.根据权利要求2所述的方法，其特征在于，所述对所述边缘二值图和所述区域二值图进行逻辑结合，得到所述文本连通区域，包括：

对所述边缘二值图进行取反处理，得到边缘取反图；

对所述边缘取反图与所述区域二值图进行逻辑与运算，得到修正后的所述文本连通区域。

4.根据权利要求2所述的方法，其特征在于，所述区域中心预测结果中包括所述目标图像中的像素点在所述文本区域范围内的第一置信度得分；

所述基于所述区域中心预测结果生成区域二值图，包括：

获取第一概率阈值；

以所述第一概率阈值为二值化分界，基于所述像素点的所述第一置信度得分对所述像素点进行二值化处理，得到所述区域二值图。

5.根据权利要求2所述的方法，其特征在于，所述区域边缘预测结果中包括所述目标图像中的像素点在所述文本区域的边缘范围内的第二置信度得分；

所述基于所述区域边缘预测结果生成边缘二值图，包括：

获取第二概率阈值；

以所述第二概率阈值为二值化分界，基于所述像素点的所述第二置信度得分对所述像素点进行二值化处理，得到所述边缘二值图。

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

对所述目标图像进行文本识别，得到像素点位置预测结果和区域角度预测结果，所述像素点位置预测结果表示预测得到的所述像素点到所述文字区域边界的距离，所述区域角度预测结果表示所述文字区域在所述目标图像中相对基准角度的倾斜角度；

所述基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域，包括：

基于所述文本连通区域、所述像素点位置预测结果和所述区域角度预测结果，确定所述文本内容在所述目标图像中的所述文本区域。

7.根据权利要求6所述的方法，其特征在于，所述基于所述文本连通区域、所述像素点位置预测结果和所述区域角度预测结果，确定所述文本内容在所述目标图像中的所述文本区域，包括：

基于所述文本连通区域对所述像素点位置预测结果和所述区域角度预测结果进行解码，得到与所述文本连通区域对应的至少两个文本框；

基于所述像素点位置预测结果对所述至少两个文本框进行加权融合，得到所述文本内容在所述目标图像中的所述文本区域。

8.根据权利要求7所述的方法，其特征在于，所述至少两个文本框中包括第一边缘文本框和第二边缘文本框；

所述基于所述像素点位置预测结果对所述至少两个文本框进行加权融合，得到所述文本内容在所述目标图像中的所述文本区域，包括：

针对所述第一边缘文本框对应的像素点，根据与所述第一边缘之间的距离确定第一权重；

针对所述第二边缘文本框对应的像素点，根据与所述第二边缘之间的距离确定第二权重；

通过所述第一权重对所述第一边缘文本框赋权，以及通过所述第二权重对所述第二边缘文本框赋权，得到所述文本内容在所述目标图像中的所述文本区域。

9.根据权利要求8所述的方法，其特征在于，所述第一权重和所述第二权重与所述距离之间呈负相关关系；

所述通过所述第一权重对所述第一边缘文本框赋权，以及通过所述第二权重对所述第二边缘文本框赋权，得到所述文本内容在所述目标图像中的所述文本区域，包括：

确定所述第一边缘的第一位置坐标和所述第二边缘的第二位置坐标，所述第一边缘相对所述第一边缘文本框和所述第二边缘相对所述第二边缘文本框属于同侧；

确定所述第一位置坐标与所述第一权重的第一乘积，以及所述第二位置坐标与所述第二权重的第二乘积；

基于所述第一乘积与所述第二乘积之间的平均值确定所述文本区域的第三侧边的第三位置坐标。

10.根据权利要求1至5任一所述的方法，其特征在于，所述对所述目标图像进行文本识别，包括：

对所述目标图像进行编码，得到所述目标图像的编码特征；

对所述编码特征进行下采样，得到下采样特征；

对所述下采样特征进行上采样，得到上采样特征；

基于所述上采样特征对所述目标图像进行文本识别。

11.根据权利要求10所述的方法，其特征在于，所述对所述编码特征进行下采样，得到下采样特征，包括：

对所述编码特征进行n次下采样，得到n个逐层排列的所述下采样特征，n为正整数；

12.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域之后，还包括：

基于所述文本区域对所述文本内容进行字符识别，得到字符识别结果；

基于所述字符识别结果对所述目标图像进行转档，得到目标文档，其中，所述目标文档中所述字符识别结果的排版方式与所述文本内容在所述目标图像中的排版方式一致。

13.一种文本区域的确定装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的文本区域的确定方法。

15.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的文本区域的确定方法。