CN114332894A

CN114332894A - 图像的文本检测方法及装置

Info

Publication number: CN114332894A
Application number: CN202111458940.1A
Authority: CN
Inventors: 单鼎一
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-12

Abstract

本申请提供了一种图像的文本检测方法、装置、电子设备及计算机可读存储介质；涉及人工智能技术领域和交通领域，方法包括：从包括文本的图像中识别出多个检测框，获取每个检测框的特征图；基于每个检测框的特征图进行掩膜分割处理，得到文本掩膜分割结果；基于每个检测框的特征图进行至少一种方式的文本框预测处理，得到文本框识别结果；基于文本掩膜分割结果和文本框识别结果的交叠率，确定图像中的实际文本框。通过本申请，能够提升图像中文本的文本框的识别准确度。

Description

图像的文本检测方法及装置

技术领域

本申请涉及人工智能技术领域和交通领域，尤其涉及一种图像的文本检测方法及装置。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

图像中的文本通常存在倾斜、拉伸、尺寸变化等问题，相关技术通常通过前景背景分离或像素级别特征聚类进行文本检测，对于文本框的检测效果不佳。对于如何提升文本框的检测精度，相关技术尚无有效解决方案。

发明内容

本申请实施例提供一种图像的文本检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提升图像中文本框的识别准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种方法，包括：

从包括文本的图像中识别出多个检测框，获取每个所述检测框的特征图；

基于每个所述检测框的特征图进行掩膜分割处理，得到文本掩膜分割结果；

基于每个所述检测框的特征图进行至少一种方式的文本框预测处理，得到文本框识别结果；

基于所述文本掩膜分割结果和所述文本框识别结果的交叠率，确定所述图像中的实际文本框。

本申请实施例提供一种图像的文本检测装置，包括：

特征提取模块，配置为从包括文本的图像中识别出多个检测框，获取每个所述检测框的特征图；

掩膜分割模块，配置为基于每个所述检测框的特征图进行掩膜分割处理，得到文本掩膜分割结果；

文本框预测模块，配置为基于每个所述检测框的特征图进行至少一种方式的文本框预测处理，得到文本框识别结果；

文本框确定模块，配置为基于所述文本掩膜分割结果和所述文本框识别结果的交叠率，确定所述图像中的实际文本框。

本申请实施例提供一种用于图像的文本检测的终端设备，所述终端设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的任意一种图像的文本检测方法。

本申请实施例提供一种计算可读存储介质，存储有可执行指令，用于被处理器执行时实现本申请实施例提供的图像的文本检测方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本申请实施例提供的图像的文本检测方法。

本申请实施例具有以下有益效果：

本申请实施例设置多种文本框预测方式，基于文本掩膜分割结果和多种文本框识别结果的交叠率，确定图像中的实际文本框，有效提升了图像中文本框识别的准确度与识别效率。

附图说明

图1是本申请实施例提供的图像的文本检测方法的应用场景的示意图；

图2A是本申请实施例提供的用于图像的文本检测的终端设备400的结构示意图；

图2B是本申请实施例提供的图像的文本检测装置455的结构示意图；

图3A是本申请实施例提供的图像的文本检测方法的流程示意图；

图3B是本申请实施例提供的图像的文本检测方法的流程示意图；

图3C是本申请实施例提供的图像的文本检测方法的流程示意图；

图4A是本申请实施例提供的图像的文本检测方法的图像处理示意图；

图4B是本申请实施例提供的图像的文本检测方法的图像处理示意图；

图4C是本申请实施例提供的图像的文本检测方法的图像处理示意图；

图5是本申请实施例提供的图像的文本检测方法的流程示意图；

图6A是本申请实施例提供的神经网络模型的结构示意图；

图6B是本申请实施例提供的神经网络模型中关键边预测网络模型的结构示意图；

图6C是本申请实施例提供的关键边预测网络模型的图像处理示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)图像分割(OS，Object Segmentation)，计算机视觉领域，指的是将数字图像细分为多个图像子区域(像素的集合)的过程，并且同一个子区域内的特征具有一定相似性，不同子区域的特征呈现较为明显的差异

2)特征图：从待处理图像中直接或间接提取的多个特征，特征图的分辨率可以小于待处理图像的分辨率，也可以等于待处理图像的分辨率。特征图可以从待处理图像中直接提取得到，也可以从待处理图像的特征图中进一步提取(即间接提取)得到。

3)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学***移不变分类(Shift-invariantClassification)。

4)掩膜，用选定的图像、图形或物体，对待处理的图像(全部或局部)进行遮挡，来控制图像处理的区域或处理过程。在数字图像处理中，可以用预先制作的感兴趣区掩模与待处理图像相乘，得到感兴趣区图像，感兴趣区内图像值保持不变，而区外图像值都为0。

5)回归处理，也即通过回归算法对数据进行处理，回归算法是监督型算法的一种，通过利用测试集数据来建立模型，再利用这个模型训练集中的数据进行处理的算法。线性回归旨在寻找到一根线，这个线到到达所有样本点的距离的和是最小的，常用在预测和分类领域。常见的回归算法包括：最小二乘法(Ordinary Least Square)，逐步式回归(Stepwise Regression)，多元自适应回归样条(Multivariate Adaptive RegressionSplines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)。

对于道路矩形牌、地面文字、兴趣点(POI，Point of Interest)自然场景图像的文本检测，道路矩形牌业务中的车载图片质量较差，需要鲁棒的文本检测算法。自然场景文本检测识别难度较大，图片背景极为丰富，面临亮度差，对比度差，遮挡，光照，透视变形，残缺遮挡等问题。检测不准会产生识别精度严重下降。相关技术采用基于分割与基于检测二种思路对这类图像进行文本检测，但文本框识别准确率不高。

本申请实施例提出一种图像的文本检测方法、图像的文本检测装置、用于图像的文本检测的电子设备、计算机可读存储介质、计算机程序产品，能够提升文本框的识别精确度，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供用于图像的文本检测的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。

参见图1，图1是本申请实施例提供的图像的文本检测方法的应用场景的示意图，为实现图像的文本检测的应用场景(例如，应用场景可以是对自然场景中的兴趣点、地面文字、道路矩形牌的文本进行检测)，终端设备400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，终端设备400执行本申请实施例提供的图像的文本检测方法来完成对图像中的文本框的识别，并将识别得到的文本分类、文本框及特征图发送至服务器200，服务器200生成最终的文本识别结果，并将文本识别结果发送至终端设备400。终端设备400将文本识别结果在图像中标注，并向用户显示标注了文本识别结果的图片。

在一些实施例中，终端设备400可以在不借助服务器200的情况下，独自实施本申请实施例的文本检测方法。

本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

本申请实施例可以通过计算机视觉技术(Computer Vision，CV)实现，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。

本申请实施例还可以通过智能车路协同***(Intelligent VehicleInfrastruct ure Cooperative Systems，IVICS)实现，简称车路协同***，是智能交通***(ITS)的一个发展方向。车路协同***是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通***。

在一些实施例中，服务器200中可以生成高精度地图数据，并将地图数据发送至移动终端400，使得用户可以通过移动终端400查看地图。服务器200可以对路测设备采集到的地图数据中的交通元素(如指示牌、广告牌、地标、标志性建筑上的文字)中的文本区域进行文本识别，并基于识别到的文本对交通元素进行标注，便于对电子地图中相关地点的名称进行更新，便于在电子地图中对相关地点的位置进行查询。

以电子设备是终端设备为例，参见图2A，图2A是本申请实施例提供的图像的文本检测方法的终端设备400的结构示意图，图2A所示的终端设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的图像的文本检测装置可以采用软件方式实现，图2A示出了存储在存储器450中的装置455，其可以是程序和插件等形式的软件，包括以下软件模块：特征提取模块4551、掩膜分割模块4552、文本框预测模块4553、文本框确定模块4554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的图像的文本检测装置可以采用硬件方式实现，作为示例，本申请实施例提供的图像的文本检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像的文本检测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，可以通过运行各种计算机程序来实现本申请实施例提供的图像的文本检测方法。举例来说，计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作***中安装才能运行的程序，也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

参见图2B，图2B是本申请实施例提供的图像的文本检测装置455的结构示意图，文本检测装置455包括神经网络模型及文本框确定模块4554，神经网络模型包括特征提取模块4551、掩膜分割模块4552及文本预测模块4553。神经网络模型中输入包括文本的图像后，首先通过特征提取模块4551进行下采样特征提取、多尺度特征融合、检测框生成及检测框尺寸统一等操作，得到检测框的特征图；掩膜分割模块4552基于检测框的特征图进行掩膜分割得到文本掩膜，并将文本掩膜发送至文本框确定模块4554。文本框预测模块4553基于检测框的特征图进行至少一种的文本框预测，得到至少一种文本框识别结果，并将至少一种文本框识别结果发送至文本框确定模块4554。文本框确定模块4554基于文本掩膜及至少一种文本框识别结果确定实际文本框。

图3A，图3A是本申请施例提供的图像的文本检测方法的流程示意图，以终端设备为执行主体，将图3A示出的步骤进行说明。

在步骤101中，从包括文本的图像中识别出多个检测框，获取每个检测框的特征图。

在一些实施例中，步骤101可以通过以下方式实现：对包括文本的图像进行多个层次的下采样，其中，除最后层次之外的每个层次的下采样得到的下采样特征图，用于作为下一层次的下采样的输入；基于多个层次中最后层次的下采样特征图进行多个层次的上采样，其中，除最后层次之外的每个层次的上采样得到的上采样特征图，用于与同尺寸的下采样特征图融合作为下一层次的上采样的输入；基于每个层次的上采样特征图进行是否包括文本的二分类及边界框回归，得到包括文本的多个检测框；对每个检测框内的上采样特征图进行尺寸统一化处理，得到处理后的每个检测框的特征图。

作为示例，对于不同尺寸的图像、不同的文本，检测框的尺寸可以是不同的。每个检测框的特征图是每个检测框在图像的整体特征图中对应的区域的特征图。

作为示例，步骤101可以基于图2B中的特征提取模块4551实现，特征提取模块4551包括用于特征提取的卷积神经网络及特征融合金字塔(FPN，Feature Pyramid Networks)，卷积神经网络可以是视觉几何组网络模型(VGG，Visual Geometry Group)、GoogLeNet深度神经网络、101层残差网络(Resnet101)或者50层残差网络(Resnet50)等，用于提取图像的特征图。特征融合金字塔中的多个层次对卷积神经网络提取到的特征图进行特征融合，每个层次分别输出特征融合后的特征图。

以101层残差网络为例进行说明。101层残差网络能够对图像进行下采样，101层残差网络的由五个层次构成，第一层次C1、第二层次C2、第三层次C3、第四层次C4及第五层次C5，每个层次均包括多个恒等残差块与多个卷积块。卷积块由多个卷积层、归一化层(BatchNormalization)、激活(RELU，Rectified Linear Unit，线性整流函数)层组成，卷积块用于提取特征。底层卷积层负责提取图片边缘纹理等基本特征，高层卷积层负责把底层提取到的纹理特征结合抽象。归一化层会对特征进行归一化正态分布处理。激活层对提取特征进行非线性映射，加强模型的泛化能力。恒等残差块中加入恒等映射与近路连接(Shortcut)机制，确保了梯度的有效回转，防止梯度在训练过程中消失。恒等残差块用于实现101层残差网络内部的跨层连接，使得101层残差网络的训练更容易。

作为示例，101层残差网络的第一层次C1与第二层次C2不进行参数更新及特征融合。101层残差网络的第三层次C3、第四层次C4及第五层次C5进行特征图的输出，101层残差网络的第三层次C3是输出下采样特征图的第一层次。第三层次C3、第四层次C4及第五层次C5，每个层次依次基于上一层次输出的特征图进行下采样，每个层次输出的特征图的尺寸不同。101层残差网络的第五层次C5是输出下采样特征图的最后层次。

作为示例，多个层次的上采样或多个层次的下采样可以是级联的，可以基于特征融合金字塔模型进行采样与特征融合。

作为示例，特征融合金字塔是一个将多个层次的特征图反向融合的结构，特征融合金字塔的每一层用于执行上采样操作。本申请实施例中，特征融合金字塔包括七层，其中第一层P1与第二层P2不进行特征图输出；第三层P3至第七层P7进行特征图输出。特征图反向融合的起始层是特征融合金字塔的第五层P5，将101层残差网络的第五层次C5的下采样特征图作为特征融合金字塔的第五层P5的输入。这里，第四层次C4的下采样特征图的尺寸与特征融合金字塔第四层P4输出的特征图的尺寸、特征融合金字塔第五层P5对应的特征图进行上采样操作后的尺寸相同。第三层次C3的下采样特征图的尺寸与特征融合金字塔第三层P3输出的特征图的尺寸、特征融合金字塔第四层P4对应的特征图进行上采样操作后的尺寸相同。

作为示例，特征融合金字塔的第五层P5输出第五层次C5的下采样特征图，同时，特征融合金字塔的第五层P5对第五层次C5的下采样特征图进行卷积操作，将生成的特征图输入到特征融合金字塔第六层P6、第七层P7，特征融合金字塔第六层P6、第七层P7分别输出卷积操作生成的特征图；特征融合金字塔的第五层P5还对第五层次C5的下采样特征图进行上采样操作，将得到的上采样特征图与第四层次C4的下采样特征图进行融合，得到第一融合特征图，并将第一融合特征图输入到特征融合金字塔的第四层P4。特征融合金字塔的第四层P4输出第一融合特征图，特征融合金字塔的第四层P4还对第一融合特征图进行上采样操作，将得到的上采样特征图与第三层次C3的下采样特征图融合，得到第二融合特征图，将第二融合特征图输入到特征融合金字塔的第三层P3。特征融合金字塔的第三层P3输出第二融合特征图。

作为示例，基于特征融合金字塔中多个层次输出的特征图，确定特征图中哪些部分包括文本，并在文本对应的区域上形成检测框。可以通过区域推荐网络(RPN，RegionProposal Network)确定包括文本的检测框。区域推荐网络基于特征融合金字塔第三至第七层P3-P7输出的特征图的像素点预测多个框，框的尺寸由尺度与比率确定，每个像素点可以对应于多个不同尺寸的框。同时，区域推荐网络能够执行二分类(分类类别为文本与非文本)及矩形框位置回归(根据检测目标的位置区域，以矩形框将检测目标对应的特征图从整个待检测图像对应的特征图中提取的过程)，基于二分类结果中的文本，筛选出所有检测框中包含文本的检测框，得到多个尺寸不同的、包括文本的检测框。

作为示例，得到包括文本的检测框后还需要对这些检测框进行尺寸统一化处理，以便于后续的处理过程。可以通过双线性差值对尺寸不同的检测框的特征图进行处理，降低误差，使得输出到下一处理阶段的每个检测框的特征图的维度是相同的。

在步骤102中，基于每个检测框的特征图进行掩膜分割处理，得到文本掩膜分割结果。

作为示例，掩膜可以用于提取文本对应的区域，文本掩膜分割结果是文本对应的文本图。参考图4A，图4A是本申请实施例提供的图像的文本检测方法的图像处理示意图；图4A中文本为“第一文本”，该段文本对应的文本掩膜是该段文本对应的所有像素。

在一些实施例中，步骤102可以通过以下方式实现：基于每个检测框的特征图进行多个层次的卷积操作，得到每个检测框中的文本掩膜；基于每个检测框的特征图与对应的文本掩膜进行分割处理，得到每个检测框中的文本图，将每个文本图作为文本掩膜分割结果，其中，每个文本图包括对应的文本的像素。

作为示例，文本掩膜中除了文本对应的区域以外的像值均为0，分割处理可以通过以下方式实现：将文本掩膜与检测框的特征图相乘。相乘后的特征图中除文本区域以外的区域的像值均变为0，仅保留文本对应的区域的像值，相乘后的特征图也即文本图。

在步骤103中，基于每个检测框的特征图进行至少一种方式的文本框预测处理，得到文本框识别结果。

在一些实施例中，步骤103中的至少一种文本框预测的方式可以通过步骤1031至步骤1034中的至少一个步骤来实现，每个步骤对应一种文本框预测方式。

作为示例，进行文本框预测时，可以选择下面四种预测方式中的一种或者多种。可以根据文本的倾斜程度确定采用的预测方式的数量，文本的倾斜程度与采用的预测方式的数量是正相关的。例如：图像中文本的倾斜程度较低(例如：倾斜角度小于等于15度)，则采用的预测方式的数量可以为两种；图像中文本的倾斜程度较大(例如：倾斜角度大于15度)，则采用的预测方式的数量可以是四种。

在步骤1031中，从文本掩膜分割结果中获取每个检测框的特征图对应的文本图，对每个文本图进行外接矩形拟合处理，得到每个检测框中的矩形文本框，将每个矩形文本框作为第一文本框识别结果。

作为示例，外接拟合矩形的边可以与检测框的边平行或者不平行。

在一些实施例中，步骤1031可以通过以下方式实现：确定每个检测框的特征图对应的文本图的轮廓线，并对轮廓线拟合外接矩形；选取每个检测框的特征图对应的最小外接矩形框，作为每个检测框对应的矩形文本框。

作为示例，拟合矩形的要求是，基于文本图的轮廓线，使轮廓线上多个点位于外接矩形的边界线上，同时轮廓线不能超出矩形的边界线。

参考图4A，图4A是本申请实施例提供的图像的文本检测方法的图像处理示意图；图4A包括检测框401A、矩形文本框402A。检测框401A内的文本内容为“第一文本”，基于掩膜的原理，“第一文本”的文本图即为第一文本对应的所有像素，矩形文本框402A对应的矩形是“第一文本”的文本图的最小外接矩形。

在步骤1032中，基于每个检测框的特征图的端点确定对应的偏移点，基于每个检测框对应的多个偏移点确定每个检测框中的偏移文本框，将每个偏移文本框作为第二文本框识别结果。

由于实际文本框的端点一定在检测框的端点附近，因此可以通过预测检测框的端点与实际文本框的端点之间的偏移，确定实际文本框的端点的位置。

在一些实施例中，步骤1032可以通过以下方式实现：确定每个检测框的特征图的每个端点对应的偏移点，其中，每个检测框的特征图包括多个端点；依次连接每个检测框对应的所有偏移点，得到每个检测框中的偏移文本框。

作为示例，可以通过深度学习模型预测每个检测框的特征图的端点与其偏移点的偏移量，以每个检测框的特征图对应的参数、每个检测框的端点的位置及端点与偏移点之间的偏移量作为训练数据，使得深度学习模型能够学习每个检测框的端点与偏移量之间的关系。将每个检测框的特征图的端点输入到深度学习模型，深度学习模型输出每个检测框的特征图的端点与偏移点之间的偏移量，将每个检测框的每个端点位置与对应的偏移量相加可以得到偏移点的位置。每个检测框对应的偏移点依次连接可以得到检测框对应的偏移文本框。

以文本框为四边形为例进行说明，参考图4B，图4B是本申请实施例提供的图像的文本检测方法的图像处理示意图，图4B中包括检测框401B、点B1、点B2、点B3、点B4、偏移文本框402B、点C1、点C2、点C3及点C4。检测框401B内的文本为“第二文本”，点B1、点B2、点B3、点B4是检测框401B的四个端点。点C1、点C2、点C3、点C4是偏移点，点C1、点C2、点C3、C4依次连接(各点与距离各点最近的两个点进行连接，而不是交叉连接)构成的文本框是偏移文本框402B。偏移点的偏移可以是在检测框内或者检测框边缘、检测框外等等，例如：参考图4B，C2点位于检测框401B的边界上，C3点则位于检测框401B的边界以内。

作为示例，图像中的文本排布的形状是不规则的，比如文本排布形状为弧形、圆形等，这种情况下，文本框的形状不限制于四边形，偏移点的数量可以是多个，比如：基于检测框的每个端点预测两个偏移点，检测框的四个端点总计得到八个偏移点，连接八个偏移点得到文本框。

在步骤1033中，基于每个检测框的特征图确定文本框端点的多个备选坐标分量值，对多个备选坐标分量值进行组合得到每个检测框的多种备选文本框，基于多种备选文本框进行回归处理，得到每个检测框中的候选文本框，将每个候选文本框作为第三文本框识别结果。

这里，备选坐标分量值的类型包括：备选横坐标分量值及备选纵坐标分量值。备选横坐标分量值与备选纵坐标分量值的数量是相同的。

作为示例，对每个检测框的特征图进行卷积操作可以得到多个预测分量，每个预测分量用于预测一个备选坐标分量值。

作为示例，将一个备选横坐标分量值与一个备选纵坐标分量值进行组合可以得到一个坐标点，基于多个备选横坐标分量值与备选纵坐标分量值进行组合，可以得到多个坐标点，将同一种组合对应的多个坐标点依次连接可以得到备选文本框。基于每个备选文本框的位置进行回归处理，得到候选文本框。

作为示例，基于多个备选文本框生成样本集合，每个备选文本框都是一个样本，每个样本都有一定的概率成为最终的候选文本框。基于每个检测框的特征图及归一化函数(Softmax)确定每个备选文本框成为候选文本框的概率，选取最大概率对应的备选文本框作为候选文本框。

参考图3C，图3C是本申请实施例提供的图像的文本检测方法的流程示意图；在一些实施例中，步骤1033可以通过步骤301C至步骤304C实现。

在步骤301C中，基于每个检测框的特征图进行多个层次的卷积操作，得到多个预测向量。

作为示例，多个层次的卷积操作可以是生成双通道特征图的卷积操作，每个通道对应的预测向量的类型不同。

在一些实施例中，步骤301C可以通以下方式实现：基于每个检测框的特征图进行卷积操作，得到每个检测框的第一通道特征图及第二通道特征图；基于每个检测框的第一通道特征图进行卷积操作，得到第一通道特征图对应的多个预测向量；基于每个检测框的第二通道特征图进行卷积操作，得到第二通道特征图对应的多个预测向量。

这里，第一通道特征图对应的预测向量数量与第二通道特征图对应的预测向量数量相同。

作为示例，将每个检测框的特征图与同一卷积核分别相乘两次得到两个通道对应的特征图。为使每个通道生成不同坐标轴对应的备选坐标分量值，可以将每个通道的特征图与不同的卷积核进行卷积。例如：每个通道的特征图均为N*N(N可以是28、56等特征图常见的尺寸)。将其中一个通道的特征图与1*N的卷积核进行卷积，生成对应于备选横坐标分量值的多个N维预测向量；另一通道的特征图与N*1的卷积核进行卷积，生成对应于备选纵坐标分量值的多个N维预测向量。

以实际文本框是四边形框为例，对应的预测向量的数量可以为8个，其中四个预测向量对应于备选横坐标分量值，另外四个预测向量对应于备选纵坐标分量值。

在步骤302C中，对每个预测向量进行回归处理，得到每个检测框中的候选文本框的多个端点的备选坐标分量值。

在一些实施例中，步骤302C可以通过以下方式实现：基于每个检测框的第一通道特征图对应的多个预测向量进行回归处理，得到每个检测框中的候选文本框的多个端点的备选横坐标分量值；基于每个检测框的第二通道特征图对应的多个预测向量进行回归处理，得到每个检测框中的候选文本框的多个端点的备选纵坐标分量值。

作为示例，为便于对预测向量进行回归处理，可以使用独热(One-Hot)编码将每个通道的特征图对应的多个预测向量表示为二进制向量(将分类值映射到整数值，每个整数值通过二进制表示)进行无监督学习。回归处理可以通过以下方式实现：通过归一化激活函数对学习结果中的以二进制表示的第一通道特征图对应的每个预测向量进行回归处理得到备选横坐标分量值。通过归一化激活函数对学习结果中的以二进制表示的第二通道特征图对应的每个预测向量进行回归处理得到备选纵坐标分量值。

作为示例，每个预测向量都是多维的，预测向量的维度相同，可以通过归一化函数(Softmax)对预测向量进行回归处理，得到每个预测向量对应的备选坐标分量值。回归处理通过以下方式实现：通过归一化函数(Softmax)将每个预测向量映射为同维度的概率分布，每个维度对应于一个概率值，概率值的取值区间为(0，1)。选取概率值最大的维度作为目标维度，将目标维度对应的数值作为预测向量对应的备选坐标分量值。

参考图4C，图4C是本申请实施例提供的图像的文本检测方法的图像处理示意图；图4C包括检测框401C，检测框401C中的文本为“第三文本”，Y＝n₁、Y＝n₂、Y＝n₃、Y＝n₄是四个备选纵坐标分量值对应的直线。X＝m₁、X＝m₂，X＝m₃，X＝m₄是四个备选横坐标分量值对应的直线。

在步骤303C中，根据每个备选坐标分量值对应的坐标轴，对每个检测框对应的多个备选坐标分量值进行组合，得到每个检测框对应的多个备选点。

作为示例，将横坐标值与纵坐标值进行组合可以得到坐标点，为便于解释说明，继续参考图4C，备选坐标分量值对应的八条直线构成了十六个交点，这十六个交点就是备选点。

在步骤304C中，对每个检测框对应的多个备选点进行连接组合，得到每个检测框对应的多种连接组合，并将每种连接组合对应的框作为文本框。

这里，每种连接组合包括四个备选点，四个备选点的坐标值不同。

作为示例，在可以利用的横坐标值为四个、纵坐标值为四个的情况下，若想得到四个不同的坐标点(坐标值对应的数值均不同)，则可以生成24种(4*3*2*1＝24)不同的四个点的组合。每个组合中的四个点依次连接可以生成备选文本框。

作为示例，图4C中，点D1、点D2、点D3、点D4是备选点，将这四个备选点依次连接构成了备选文本框402C，备选文本框402C的四个端点的坐标不同。基于图4C中的八个备选坐标分量值，除备选文本框402C之外，还存在23种备选文本框。

作为示例，在备选纵坐标分量值或备选横坐标分量值的数量均为四的情况下，可以存在至少两个分量值的数值相同。例如：Y＝n₁、Y＝n₂、Y＝n₃、Y＝n₄中，n₁＝n₂，n₃＝n₄，这种情况下，形成的备选文本框可以是两条平行边的四边形。再例如：Y＝n₁、Y＝n₂、Y＝n₃、Y＝n₄中，n₁＝n₂，n₃＝n₄，X＝m₁、X＝m₂，X＝m₃，X＝m₄中，m₁＝m₂，m₃＝m₄，这种情况下，24种组合对应的备选文本框均相同，备选点连接形成的备选文本框可以是矩形，每个备选文本框都可以作为候选文本框。

继续参考图3B，在步骤1034中，对每个检测框的特征图进行分类，得到包括文本的检测框，并基于每个包括文本的检测框的特征图进行检测框位置的回归处理，得到每个检测框中的修正文本框，将每个修正文本框作为第四文本框识别结果。

作为示例，可以通过卷积神经网络实现对每个检测框的特征图的分类，将每个检测框的特征图作为训练神经网络所需的样本数据，标记数据是包括文本或不包括文本，或者标记数据是包括文本(其中，文本类别中还包括多种文本类型)、不包括文本。将每个检测框的特征图输入到卷积神经网络模型中，使模型输出每个检测框的特征图对应的类别。

作为示例，对每个检测框的特征图进行的分类可以是分类文本与非文本的二分类，也即区分有文本的检测框与无文本的检测框。例如：对于多个检测框，一部分检测框的特征图中不存在文本，另一部分检测框的特征图中存在文本。通过二分类区分包含文本的检测框的特征图与不包含文本的检测框的特征图。通过边框回归对检测框进行位置修正，得到修正后的检测框，修正后的检测框中包括文本，可以作为一种文本框，本申请实施例中将这种文本框命名为修正文本框，方便与其他方式预测得到的文本框进行区分。

作为示例，对每个检测框的特征图进行的分类可以是细分类，也即区分文本与非文本、文本与文本之间的类别，可以得到包括文本的检测框及检测框中文本的类别标签。例如：对于多个检测框，一部分检测框的特征图中存在文本，另一部分检测框的特征图不存在文本，通过细分类区分包含文本的检测框的特征图与不包含文本的检测框的特征图，同时根据文本对应的类别对包含文本的检测框进行类别标注。基于修正文本框、文本的类别标签及文本掩膜进行信息融合，可以得到文本的单实例分割结果。

作为示例，基于每个包括文本的检测框的特征图进行检测框位置的回归处理可以通过用于预测回归的卷积神经网络模型实现，将检测框的特征图中的文本对应的位置及包括文本的检测框的特征图中检测框的位置作为训练数据，训练卷积神经网络模型，以使模型能够获取二者之间的映射关系。将每个包括文本的检测框的特征图输入卷积神经网络模型，输出每个包括文本的检测框的特征图相对于当前位置需要进行平移或者缩放的值。将每个包括文本的检测框的特征图根据对应的值进行平移及缩放的修正，使得修正后的检测框。

继续参考图3A，在步骤104中，基于文本掩膜分割结果和文本框识别结果的交叠率，确定图像中的实际文本框。

在一些实施例中，步骤104可以通过以下方式实现：确定文本掩膜分割结果中针对每个检测框记录的文本图，与文本框识别结果中针对每个检测框记录的至少一种文本框的交叠率；选取最大交叠率的文本框作为图像中的实际文本框。

作为示例，交叠率也即并交比(IOU，Intersection-over-Union)，确定文本掩膜与文本框之间的交叠部分、文本掩膜与文本框之间的并集部分，将交叠部分的面积除以并集部分得到的值为交叠率。由于本申请实施例中采用了至少一种预测方式，可以得到多种方案的交叠率，将交叠率最大的文本框作为实际文本框。

作为示例，同一图像中可以包括多段文本，不同类型文本的倾斜程度或放大、缩小的程度是不同的，不同的类型文本适合的文本框预测方式也不同。同一图像中的各个文本之间对应的文本框可以来源于不同的预测方式。

在一些实施例中，可以记录文本框预测方式与对应的文本的倾斜程度作为样本，基于该样本进行训练，得到文本框预测方式与文本倾斜程度之间的映射关系。在检测文本时，先判断文本当前的倾斜程度；基于文本当前的倾斜程度和文本框预测方式与文本倾斜程度之间的映射关系确定文本适合的文本框预测方式，减少不必要的计算量，提升文本框预测效率。

在一些实施例中，基于本申请实施例得到的实际文本框还可以确定文本框中各个字符对应的字符框，例如：基于实际文本框对图4C中的文本“第三文本”进行逐个字符的分割，得到字符框，提升了文本识别的精度。

本申请实施例设置多种文本框预测方式，基于文本掩膜分割结果和多种文本框识别结果的交叠率，确定图像中的实际文本框，采用多种方式进行文本框预测，有效提升了图像中文本框识别的准确度与识别效率，有利于为光学字符识别提供良好的基础，为兴趣点识别、道路数据识别提供帮助。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例可以具有如下应用场景，例如：对于地图的道路数据采集与兴趣点(POI，Point Of Interest)识别，在道路数据相关的业务中，高精度的道路名称牌的文本检测需要较高的文本识别准确度；在兴趣点相关的业务中，兴趣点自动化、兴趣点用反、兴趣点过期、公交站牌名称识别等方面，均需要进行文本检测。

参考图5，图5是本申请实施例提供的图像的文本检测方法的流程示意图；图5包括步骤501至步骤504。参考图6A，图6A是本申请实施例提供的用于识别文本框的神经网络模型的结构示意图；以下基于图5中的步骤并结合图6A所示出的神经网络模型进行说明。

作为示例，参考图6A，图6A示出的神经网络模型包括骨干(Backbone)网络模型601，区域推荐网络(RPN，Region Proposal Network)模型602、单实例分割网络604及关键边预测网络模型603。骨干网络模型601包括残差网络模型及特征金字塔网络模型(FPN，Feature Pyramid Networks)，骨干网络模型601用于提取待检测图像的特征图。区域推荐网络模型602利用3*3的卷积核对待检测图像的特征图进行卷积操作，并通过1*1的卷积核分别生成两通道的待检测图像的特征图，对两个通道的待检测图像的特征图分别进行二值分类(Softmax，归一化指数函数)及边框回归(BBox Reg，Bounding Box Regression)，将两通道的输出结果融合得到推荐区域，也即包括文本的检测框的特征图。区域推荐网络模型602对推荐区域进行区域统一裁剪(ROI-Align，Region Of Interest Align)，将生成的特征图输出至单实例分割网络604。单实例分割网络604中包括多个分支：通过头部卷积层(Head)及全卷积层对特征图进行多层次卷积操作得到文本掩膜，对文本掩膜拟合外接矩形生成矩形文本框，将每个检测框对应的矩形文本框作为输出1；通过全连接层对特征图进行处理，生成双通道的特征图，对其中一个通道的特征图进行边框回归(BBox Reg，BoundingBox Regression)以实现检测框修正，通过归一化指数函数(Softmax)对另一个通道的特征图进行文本细分类(区分文本之间的类别)，将修正位置后的检测框及文本细分类结果作为输出4；基于检测框的特征图的端点以四关键点回归方式进行文本框预测，将预测得到的文本框作为输出2；通过关键边预测网络模型603对检测框的特征图进行文本框预测，将预测得到的文本框作为输出3。融合四种输出结果可以确定最佳的文本框。

在步骤501中，对待检测图像进行特征提取，得到待检测图像的特征图。

作为示例，步骤501通过骨干网络模型601实现，骨干网络模型601在接收到待检测图像后对待检测图像进行一系列的下采样操作得到待检测图像的特征图。本申请实施例中骨干网络模型601采用101层残差网络(Resnet101)结构，101层残差网络内部由多个恒等残差块(Identity Block)与卷积块(Conv Block)组成。卷积块由多个卷积层、归一化层(Batch Normalization)、激活(RELU，Rectified Linear Unit，线性整流函数)层组成，用于提取特征。恒等残差块中加入恒等映射与近路连接(Shortcut)机制，这些机制不会产生额外的参数，也不会增加计算复杂度，能够保证梯度有效地回传，使得训练深度学习网络的过程中梯度不消失。

骨干网络模型601可以分为5个阶段：C1阶段、C2阶段、C3阶段、C4阶段、C5阶段，在C1与C2阶段不更新参数也不进行特征融合，在C1与C2阶段中底层卷积层负责提取图片边缘纹理等基本特征，高层卷积层负责把底层提取到的纹理特征结合抽象。归一化层会对特征进行归一化正态分布处理。激活层对提取特征进行非线性映射，加强模型的泛化能力。C3阶段，C4阶段，C5阶段进行特征输出，得到图6A中骨干网络模型601输出的特征图(featuremap)。

作为示例，骨干网络模型601还加入了特征金字塔网络模型进行多尺度的特征融合。特征金字塔网络模型用于反相融合高层到底层的特征图，充分利用各阶段提取的特征。基于特征金字塔机制，首先提取C5阶段输出的特征图作为P5层(金字塔的第五层)的特征图，在P5层的基础上进行步长为2的卷积操作，分别生成P6、P7层。同时，自上而下进行上采样：P5层的特征图经过2倍上采样与C4阶段输出的特征图相加得到P4层的特征图，P4层的特征图经过2倍上采样与C3阶段的特征图相加得到P3层的特征图，基于P3、P4、P5层的特征图均进行了上采样操作，实现尺度放大的作用，提供更上层上采样融合必要特征信息。每个上采样模块的输入不仅来自于前一个上采样的输出，还在来自于骨干网络模型601输出的同尺寸的特征图，为更好的融合特征信息，特征金字塔网络模型会将二种特征进行加和，并进行卷积操作实现信息融合。

作为示例，特征金字塔网络模型中的P3-P5层都进行特征图的输出。P7层的单像素感受野(卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小)最大，P3层的单像素感受野比P7层小32倍。根据每层输出的特征图对应的单像素感受野大小，特征金字塔模型中的各层输出的特征图分别用于预测不同尺寸的实例，单像素感受野越大能够预测的实例的尺寸越大。

在步骤502中，基于待检测图像的特征图生成多个检测框。

作为示例，步骤502通过区域推荐网络602实现，区域推荐网络602接收到骨干网络模型601中金字塔网络模型的P3-P7层输出的多种尺寸的特征图，基于特征图进行文本的检测框的生成。

作为示例，区域推荐网络602在本申请实施例中用于推荐文本对应的区域，通过在特征图的像素点上生成一系列的框，各个框的大小由特征图对应的尺度(Scale)和比率(Ratio)这两个参数来确定的，每个像素点可以对应于多个不同大小的框。区域推荐网络602是一个二分类的网络(用于分类文本与非文本)，同时区域推荐网络602还能够进行检测框的初步确定。基于区域推荐网络602可以生成多个包括文本的矩形的检测框。

作为示例，多个包括文本的矩形的检测框的尺寸并不相同，通过兴趣点统一裁剪(ROI Align裁剪)机制对多个包括文本的矩形的检测框进行尺寸统一化处理，兴趣点统一裁剪是通过双线性插值来得到固定四个点坐标的像素值，从而使得不连续的操作变得连续起来，返回到原图的时候误差也就更加的小，同时保证输出特征维度的一致性。

在步骤503中，基于每个检测框对应的特征图进行文本掩膜分割及多种方式的文本框预测。

作为示例，步骤503可以通过单实例分割网络604实现，单实例分割网络604包括四条主要分支：检测框细分类与位置回归分支、掩膜拟合分支、四关键点回归分支及关键边预测分支。

作为示例，检测框细分类与位置回归分支，通过进行边框回归对检测框的位置进行修正，通过归一化函数对检测框中的文本进行细分类，得到文本对应的类别标签。由于特征金字塔网络模型可以在不同尺度的特征上面获得许多有用信息，因此分类时可以使用较少的滤波器。

作为示例，掩膜拟合分支基于区域推荐网络602输出的裁剪过的检测框的特征图进行多次卷积操作，例如：裁剪过的检测框的特征图的尺寸为14*14*256，通过全卷积网络模型(FCN，Fully Convolution Network)对特征图进行五次相同的卷积操作，输出28*28大小尺寸的特征图中文本对应的文本掩膜，基于文本掩膜拟合最小外接矩形，将最小外接矩形作为实际文本框的一种预测结果。

作为示例，每个检测框的特征图都对应一段文本，只需对检测框的特征图进行语义分割，相当于是实例分割了。由于大多数文本都是矩形或者近似矩形的，掩膜拟合分支输出的文本掩膜相对于其他分支能够更准确地反应文本形状。

作为示例，四关键点回归分支，关键点是实际文本框的端点。对于包括文本的检测框，四个关键点一定分别坐落在检测框的四个端点附近。该分支基于每个检测框的四个端点进行偏移回归，以预测实际文本框的端点相对于检测框的端点的偏移值，也即每个关键点与对应的检测框的端点偏移的x值与y值，将检测框的端点的坐标值与偏移值相加可以得到关键点对应的坐标值。四个关键点依次连接形成文本框，作为实际文本框的一种预测结果。

作为示例，参考图6B，图6B是本申请实施例提供的神经网络模型中关键边预测网络模型的结构示意图；图6C是本申请实施例提供的关键边预测网络模型的图像处理示意图。

作为示例，本申请实施例中，以区域推荐网络602输出的检测框的特征图为28*28，关键边预测网络模型603对检测框的特征图进行了反卷积得到56*56的特征图，为例进行说明。参考图6B，通过1*1的卷积核，将56*56的特征图变为两个通道的特征图。对于其中一个通道的特征图，使用56*1的卷积核生成4个56维的预测向量(对应于图中y_min、y₂、y₃、y_max)，用于预测y值最大到最小的四个值。对于另一个通道的特征图，使用1*56的卷积核生成4个56维的预测向量(对应于图中x_min、x₂、x₃、x_max)，用于预测x值从最大到最小的四个值。可以使用独热(One-Hot)编码将预测向量表示为二进制向量(将分类值映射到整数值，每个整数值通过二进制表示)进行无监督学习，基于学习结果与归一化激活函数(Softmax)推理得到每条关键边最可能的位置值，预测得到四条对应于x的关键边及四条对应于y的关键边，关键边是文本框角点对应的x坐标或者y坐标所在的直线。这里，只学习一个x或y分量的难度，相比直接学习点的位置(点的位置包括x和y两个分量)的难度就会小很多。

作为示例，参考图6C，图6C是本申请实施例提供的关键边预测网络模型的图像处理示意图。图6C中，虚线框是检测框601C，检测框601C中包括的文本为“面馆”。X5、X6、X7、X8对应的虚直线分别是X值对应的四条件关键边。Y5、Y6、Y7、Y8分别是对应的直线分别是Y值对应的四条件关键边。八条关键边形成了16个交点，这个16个交点是文本框的备选端点。

作为示例，参考图6B，基于关键边进行拼接，得到关键边的特征图谱作为基础特征，而后通过1*1的卷积核与56*56的卷积核对该特征图谱进行卷积操作，得到4个x值与4个y值对应于24种连接组合(4*3*2*1＝24)。继续参考图6C，文本框602C对应于24种连接组合中的一种，文本框602C的四个端点对应的X值与Y值包括X5、X6、X7、X8、Y5、Y6、Y7、Y8中所有值，但每个端点对应的X与Y均不相同，与文本框602C类似的文本框还有23种。使用归一化函数(Softmax)对24种连接组合进行归一化处理，得到最终的文本框连接组合。该组合对应的文本是实际文本框的一种预测结果，也即图6A中的输出3。

在步骤504中，基于每个检测框对应的文本掩膜与多种文本框预测结果确定实际文本框。

作为示例，步骤504可以通过以下方式实现：汇总单实例分割网络604输出的多种文本框预测结果，计算每种结果对应的文本框与文本掩膜之间的交并比(IOU，Intersection-over-Union，交集与并集之间的比率)，并交比最高的文本框预测结果对应的文本框则是最优的文本框，将其作为最终得到的文本框。

作为示例，绝大多数情况四关键点回归分支或关键边预测分支的输出结果是最佳的。若待检测图像中的文本超小、超长、倾斜过度，上述两分支可能会失效，掩膜拟合分支的输出结果反而是最优的。

作为示例，基于本申请实施例的图像的文本检测方法，可为光学字符识别(OCR，Optical Character Recognition)提供良好的基础。光学字符识别技术对道路数据中路牌的差分与更新有重要意义，对兴趣点业务中的挂接，过期等服务有重要帮助。高效的光学字符识别可大幅度减少人工作业量，节约作业成本。快速保持地图数据鲜度，给用户提供更好的体验。

作为示例，对于本申请实施例提供的神经网络模型，可以同时对多分支同步训练网络，同步优化损失函数，多结果融合，效果互补，提升文本检测鲁棒性与精准度，生成高精度紧凑的文本框。

下面继续说明本申请实施例提供的图像的文本检测装置455的实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器440的图像的文本检测装置455中的软件模块可以包括：特征提取模块4551，配置为从包括文本的图像中识别出多个检测框，获取每个检测框的特征图；掩膜分割模块4552，配置为基于每个检测框的特征图进行掩膜分割处理，得到文本掩膜分割结果；文本框预测模块4553，配置为基于每个检测框的特征图进行至少一种方式的文本框预测处理，得到文本框识别结果；文本框确定模块4554，配置为基于文本掩膜分割结果和文本框识别结果的交叠率，确定图像中的实际文本框。

在一些实施例中，特征提取模块4551，还配置为对包括文本的图像进行多个层次的下采样，其中，除最后层次之外的每个层次的下采样得到的下采样特征图，用于作为下一层次的下采样的输入；基于多个层次中最后层次的下采样特征图进行多个层次的上采样，其中，除最后层次之外的每个层次的上采样得到的上采样特征图，用于与同尺寸的下采样特征图融合作为下一层次的上采样的输入；基于每个层次的上采样特征图进行是否包括文本的二分类及边界框回归，得到包括文本的多个检测框；对每个检测框内的上采样特征图进行尺寸统一化处理，得到处理后的每个检测框的特征图。

在一些实施例中，掩膜分割模块4552，还配置为基于每个检测框的特征图进行多个层次的卷积操作，得到每个检测框中的文本掩膜；基于每个检测框的特征图与对应的文本掩膜进行分割处理，得到每个检测框中的文本图，将每个文本图作为文本掩膜分割结果，其中，每个文本图包括对应的文本的像素。

在一些实施例中，文本框预测模块4553，还配置为执行以下至少一种文本框预测的方式：从文本掩膜分割结果中获取每个检测框的特征图对应的文本图，对每个文本图进行外接矩形拟合处理，得到每个检测框中的矩形文本框，将每个矩形文本框作为第一文本框识别结果；基于每个检测框的特征图的端点确定对应的偏移点，基于每个检测框对应的多个偏移点确定每个检测框中的偏移文本框，将每个偏移文本框作为第二文本框识别结果；基于每个检测框的特征图确定文本框端点的多个备选坐标分量值，对多个备选坐标分量值进行组合得到每个检测框的多种备选文本框，基于多种备选文本框进行回归处理，得到每个检测框中的候选文本框，将每个候选文本框作为第三文本框识别结果；对每个检测框的特征图进行分类，得到包括文本的检测框，并基于每个包括文本的检测框的特征图进行检测框位置回归处理，得到每个检测框中的修正文本框，将每个修正文本框作为第四文本框识别结果。

在一些实施例中，文本框预测模块4553，还配置为确定每个检测框的特征图对应的文本图的轮廓线，并对轮廓线拟合外接矩形；选取每个检测框的特征图对应的最小外接矩形框，作为每个检测框对应的矩形文本框。

在一些实施例中，文本框预测模块4553，还配置为确定每个检测框的特征图的每个端点对应的偏移点，其中，每个检测框的特征图包括多个端点；依次连接每个检测框对应的所有偏移点，得到每个检测框中的偏移文本框。

在一些实施例中，文本框预测模块4553，还配置为基于每个检测框的特征图进行多个层次的卷积操作，得到多个预测向量；对每个预测向量进行回归处理，得到每个检测框中的候选文本框的多个端点的备选坐标分量值。

在一些实施例中，文本框预测模块4553，还配置为基于每个检测框的特征图进行卷积操作，得到每个检测框的第一通道特征图及第二通道特征图；基于每个检测框的第一通道特征图进行卷积操作，生成第一通道特征图对应的多个预测向量；基于每个检测框的第二通道特征图进行卷积操作，生成第二通道特征图对应的多个预测向量；其中，第一通道特征图对应的预测向量数量与第二通道特征图对应的预测向量数量相同。

在一些实施例中，备选坐标分量值的类型包括：备选横坐标分量值及备选纵坐标分量值。文本框预测模块4553，还配置为基于每个检测框的第一通道特征图对应的多个预测向量进行回归处理，得到每个检测框中的候选文本框的多个端点的备选横坐标分量值；基于每个检测框的第二通道特征图对应的多个预测向量进行回归处理，得到每个检测框中的候选文本框的多个端点的备选纵坐标分量值。

在一些实施例中，文本框预测模块4553，还配置为根据每个备选坐标分量值对应的坐标轴，对每个检测框对应的多个备选坐标分量值进行组合，得到每个检测框对应的多个备选点；对每个检测框对应的多个备选点进行连接组合，得到每个检测框对应的多种连接组合，并将每种连接组合对应的框作为文本框，其中，每种连接组合包括四个备选点，四个备选点的坐标值不同。

在一些实施例中，文本框确定模块4554，还配置为确定文本掩膜分割结果中针对每个检测框记录的文本图，与文本框识别结果中针对每个检测框记录的至少一种文本框的交叠率；选取最大交叠率的文本框作为图像中的实际文本框。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的图像的文本检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的图像的文本检测方法，例如，如图3A示出的图像的文本检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例设置多种文本框预测方式，基于文本掩膜分割结果和多种文本框识别结果的交叠率，确定图像中的实际文本框，有效提升了图像中文本框识别的准确度与识别效率，有利于为光学字符识别提供良好的基础，为兴趣点识别、道路数据识别提供帮助。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像的文本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从包括文本的图像中识别出多个检测框，获取每个所述检测框的特征图，包括：

对所述包括文本的图像进行多个层次的下采样，其中，除最后层次之外的每个层次的下采样得到的下采样特征图，用于作为下一层次的下采样的输入；

基于所述多个层次中最后层次的下采样特征图进行多个层次的上采样，其中，除最后层次之外的每个层次的上采样得到的上采样特征图，用于与同尺寸的下采样特征图融合作为下一层次的上采样的输入；

基于每个层次的上采样特征图进行是否包括文本的二分类及边界框回归，得到包括文本的多个检测框；

对每个所述检测框内的上采样特征图进行尺寸统一化处理，得到处理后的每个所述检测框的特征图。

3.根据权利要求1所述的方法，其特征在于，所述基于每个所述检测框的特征图进行掩膜分割处理，得到文本掩膜分割结果，包括：

基于每个所述检测框的特征图进行多个层次的卷积操作，得到每个所述检测框中的文本掩膜；

基于每个所述检测框的特征图与对应的文本掩膜进行分割处理，得到每个所述检测框中的文本图，将每个所述文本图作为文本掩膜分割结果，其中，每个所述文本图包括对应的文本的像素。

4.根据权利要求1所述的方法，其特征在于，所述基于每个所述检测框的特征图进行至少一种方式的文本框预测处理，得到文本框识别结果，包括：

执行以下至少一种文本框预测方式：

从所述文本掩膜分割结果中获取每个所述检测框的特征图对应的文本图，对每个所述文本图进行外接矩形拟合处理，得到每个所述检测框中的矩形文本框，将每个所述矩形文本框作为第一文本框识别结果；

基于每个所述检测框的特征图的端点确定对应的偏移点，基于每个所述检测框对应的多个偏移点确定每个检测框中的偏移文本框，将每个所述偏移文本框作为第二文本框识别结果；

基于每个所述检测框的特征图确定文本框端点的多个备选坐标分量值，对所述多个备选坐标分量值进行组合得到每个所述检测框的多种备选文本框，基于所述多种备选文本框进行回归处理，得到每个所述检测框中的候选文本框，将每个所述候选文本框作为第三文本框识别结果；

对每个所述检测框的特征图进行分类，得到包括文本的检测框，并基于每个所述包括文本的检测框的特征图进行检测框位置回归处理，得到每个所述检测框中的修正文本框，将每个所述修正文本框作为第四文本框识别结果。

5.根据权利要求4所述的方法，其特征在于，所述对每个所述文本图拟合外接矩形，得到每个所述检测框的矩形文本框，包括：

确定每个所述检测框的特征图对应的文本图的轮廓线，并对所述轮廓线拟合外接矩形；

选取每个所述检测框的特征图对应的最小外接矩形框，作为每个所述检测框对应的矩形文本框。

6.根据权利要求4所述的方法，其特征在于，所述基于每个所述检测框的特征图的端点确定对应的偏移点，基于每个所述检测框对应的多个偏移点确定每个检测框中的偏移文本框，包括：

确定每个所述检测框的特征图的每个端点对应的偏移点，其中，每个所述检测框的特征图包括多个端点；

依次连接每个所述检测框对应的所有偏移点，得到每个所述检测框中的偏移文本框。

7.根据权利要求4所述的方法，其特征在于，所述基于每个所述检测框的特征图确定文本框端点的多个备选坐标分量值，包括：

基于每个所述检测框的特征图进行多个层次的卷积操作，得到多个预测向量；

对每个所述预测向量进行回归处理，得到每个所述检测框中的候选文本框的多个端点的备选坐标分量值。

8.根据权利要求7所述的方法，其特征在于，所述基于每个所述检测框的特征图进行多个层次的卷积操作，得到多个预测向量，包括：

基于每个所述检测框的特征图进行卷积操作，得到每个所述检测框的第一通道特征图及第二通道特征图；

基于每个所述检测框的第一通道特征图进行卷积操作，得到第一通道特征图对应的多个预测向量；

基于每个所述检测框的第二通道特征图进行卷积操作，得到第二通道特征图对应的多个预测向量；

其中，第一通道特征图对应的预测向量数量与第二通道特征图对应的预测向量数量相同；

所述备选坐标分量值的类型包括：备选横坐标分量值及备选纵坐标分量值；

所述对每个所述预测向量进行回归处理，得到每个所述检测框中的候选文本框的多个端点的备选坐标分量值，包括：

基于每个检测框的第一通道特征图对应的多个预测向量进行回归处理，得到每个所述检测框中的候选文本框的多个端点的备选横坐标分量值；

基于每个检测框的第二通道特征图对应的多个预测向量进行回归处理，得到每个所述检测框中的候选文本框的多个端点的备选纵坐标分量值。

9.根据权利要求4所述的方法，其特征在于，所述对所述多个备选坐标分量值进行组合得到每个所述检测框的多种备选文本框，包括：

根据每个所述备选坐标分量值对应的坐标轴，对每个所述检测框对应的多个备选坐标分量值进行组合，得到每个所述检测框对应的多个备选点；

对每个所述检测框对应的多个备选点进行连接组合，得到每个所述检测框对应的多种连接组合，并将每种所述连接组合对应的框作为文本框，其中，每种所述连接组合包括四个备选点，所述四个备选点的坐标值不同。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述基于所述文本掩膜分割结果和所述文本框识别结果的交叠率，确定所述图像中的实际文本框，包括：

确定所述文本掩膜分割结果中针对每个所述检测框记录的文本图，与所述文本框识别结果中针对每个所述检测框记录的至少一种文本框的交叠率；

选取最大交叠率的文本框作为所述图像中的实际文本框。

11.一种图像的文本检测装置，其特征在于，所述装置包括：