CN107977592B

CN107977592B - 一种图像文本检测方法及***、用户终端及服务器

Info

Publication number: CN107977592B
Application number: CN201610921016.5A
Authority: CN
Inventors: 刘成林; 董振江; 陈凯; 贾霞; 殷飞; 陈和香
Original assignee: ZTE Corp; Institute of Automation of Chinese Academy of Science
Current assignee: ZTE Corp; Institute of Automation of Chinese Academy of Science
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2022-11-01
Anticipated expiration: 2036-10-21
Also published as: CN107977592A

Abstract

本发明实施例提供了一种图像文本检测方法及***、用户终端及服务器；该方法包括：用户终端获取多个显著性图像，生成候选文本连通构件；服务器根据候选文本连通构件获取文本连通部件，将文本连通部件视作节点，连接近邻节点对构成无向图，对无向图中有公共节点的边依次进行融合，获得多个文本行；用户终端对多个文本行进行交叠融合，生成图像文本检测结果；服务器对图像文本检测结果进行识别得到最终文本；用户终端输出最终文本。本发明通过基于显著性模型的文件检测和根据无向图每条边的局部特征和全局特征进行分类得到文本行，提高了图像文本检测效率，降低了计算复杂度。

Description

一种图像文本检测方法及***、用户终端及服务器

技术领域

本发明涉及文字识别领域，尤其涉及一种图像文本检测方法及***、用户终端及服务器。

背景技术

随着数字图像采集设备的快速普及，以及智能无线通讯设备和网络与人们生活之间关系日益密切，互联网上的文本和图像数据呈现***式增长。这些数据在给人们的生活和工作带来丰富的信息和巨大便利的同时，数据的海量性、异构混杂和真伪难辨等特点也给人们有效利用信息带来巨大的困扰。

人们迫切期望对图像中包含的对象、事件以及它们之间的关系等高层语义信息进行分析，从而完成基于内容的图像检索、分类、推荐、过滤等功能。网络上存在的文档图像又以合成文档图像数量最多，主要是网络用户出于各种目的把文本嵌入图片生成的图像，如微信短文图片、长微博和广告图片等人工合成图片。

如何对网络上包含有大量信息的人工合成文档图像进行分析、检测和识别是各大通信企业必须面临的一个新的挑战。

发明内容

本发明实施例提供了一种图像文本检测方法及***、用户终端及服务器，以提供一种图像文本检测方法。

一方面，提供了一种图像文本检测方法，包括：

计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；

提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；

发送候选文本连通构件，接收对候选文本连通构件进行无向图处理得到的多个文本行；

对多个文本行进行交叠融合，生成图像文本检测结果；

发送图像文本检测结果，接收并输出对图像文本检测结果进行识别得到的最终文本。

一方面，提供了一种图像文本检测方法，包括：

接收候选文本连通构件，根据候选文本连通构件获取文本连通部件；

将文本连通部件视作节点，连接近邻节点对构成无向图；

对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；

将无向图中有公共节点的边依次进行融合，获得多个文本行；

发送多个文本行，接收对多个文本行进行交叠融合生成的图像文本检测结果；

对图像文本检测结果进行识别得到最终文本；

发送最终文本。

一方面，提供了一种图像文本检测方法，包括：

用户终端计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；发送候选文本连通构件至服务器；

服务器接收候选文本连通构件，根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；发送多个文本行至用户终端；

用户终端接收对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；发送图像文本检测结果至服务器；

服务器接收图像文本检测结果；对图像文本检测结果进行识别得到最终文本；发送最终文本至用户终端；

用户终端接收并输出最终文本。

一方面，提供了一种图像文本检测方法，包括：

计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；

根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；

对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；

对图像文本检测结果进行识别得到最终文本，输出最终文本。

一方面，提供了一种图像文本检测方法，包括：

接收用户终端发送的待识别图像；

对图像文本检测结果进行识别得到最终文本；

发送最终文本至用户终端。

一方面，提供了一种用户终端，包括：显著性计算模块、连通部件生成模块、终端通信模块、文本融合模块，其中，

显著性计算模块用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；

连通部件生成模块用于提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；

终端通信模块用于发送候选文本连通构件，接收对候选文本连通构件进行无向图处理得到的多个文本行；

文本融合模块用于对多个文本行进行交叠融合，生成图像文本检测结果；

终端通信模块还用于发送图像文本检测结果，接收并输出对图像文本检测结果进行识别得到的最终文本。

一方面，提供了一种服务器，包括：服务器通信模块、连通部件过滤模块、文本行提取模块、文本识别模块，其中，

服务器通信模块用于接收候选文本连通构件；

连通部件过滤模块用于根据候选文本连通构件获取文本连通部件；

文本行提取模块用于将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；

服务器通信模块用于发送多个文本行，接收对多个文本行进行交叠融合生成的图像文本检测结果；

文本识别模块用于对图像文本检测结果进行识别得到最终文本；

服务器通信模块用于发送最终文本。

一方面，提供了一种图像文本检测***，包括本发明实施例提供的用户终端、以及服务器。

一方面，提供了一种用户终端，包括：处理器及存储器，处理器用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；对图像文本检测结果进行识别得到最终文本，输出最终文本；存储器用于存储实现处理器功能的所有程序。

一方面，提供了一种服务器，包括：通信构件、处理器及存储器，通信构件用于接收用户终端发送的待识别图像，并将处理器得到的最终文本发送至用户终端；处理器用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；对图像文本检测结果进行识别得到最终文本；存储器用于存储实现处理器功能的所有程序。

另一方面，提供了一种计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于执行前述的图像文本检测方法。

本发明实施例的有益效果：

本发明实施例提供了一种图像文本检测方法，该方法通过基于显著性模型的文件检测和基于局部特征的无向图构建、以及基于无向图的局部特征和全局特征输入SVM(support vector machine，支持向量机)进行分类得到文本行，提高了合成文档图像文本检测效率，提高了合成文档图像文本的提取的分类性能，降低了计算复杂度。

附图说明

图1为本发明第一实施例提供的图像文本检测方法的流程图；

图2为本发明第二实施例提供的图像文本检测***的结构示意图；

图3为本发明第三实施例涉及的通信***的组网示意图；

图4为本发明第三实施例涉及的图像文本检测方法的信号走向图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明中一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现通过具体实施方式结合附图的方式对本发明做出进一步的诠释说明。

第一实施例：

图1为本发明第一实施例提供的图像文本检测方法的流程图，由图1可知，本实施例提供的图像文本检测方法包括：

S101：用户终端计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；发送候选文本连通构件至服务器；

S102：服务器接收候选文本连通构件，根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；发送多个文本行至用户终端；

S103：用户终端接收对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；发送图像文本检测结果至服务器；

S104：服务器接收图像文本检测结果；对图像文本检测结果进行识别得到最终文本；发送最终文本至用户终端；

S105：用户终端接收并输出最终文本。

在一些实施例中，上述实施例中的图像文本检测方法在用户终端侧的体现包括：

对多个文本行进行交叠融合，生成图像文本检测结果；

在一些实施例中，上述实施例中的计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像包括：

计算待识别图像中各像素点的颜色值；

计算待识别图像中各像素点在各邻域尺度下邻域窗口内所有像素点的颜色均值；

将各像素点的颜色值与各像素点在各邻域尺度下邻域窗口内所有像素点的颜色均值做差，得到各像素点在多个不同大小邻区内的显著性值；

根据各像素点在多个不同大小邻区内的显著性值，绘制多个显著性图像。

在一些实施例中，上述实施例中的提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件包括：

针对各显著性图像，分别提取显著性值高于正阀值的像素点构成的连通部件，获得正显著性连通部件；分别提取显著性值低于负阀值的像素点构成的连通部件，获得负显著性连通部件；

将正显著性连通部件及负显著性连通部件，组合构成候选文本连通部件。

在一些实施例中，上述实施例中的图像文本检测方法在服务器侧的体现包括：

将文本连通部件视作节点，连接近邻节点对构成无向图；

对图像文本检测结果进行识别得到最终文本；

发送最终文本。

在一些实施例中，上述实施例中的根据候选文本连通构件获取文本连通部件包括：

基于空间包含关系，筛选候选文本连通构件中的非文本连通部件，得到文本连通部件；和/或，

基于卷积神经网络，筛选候选文本连通构件中的非文本连通部件，得到文本连通部件。

在一些实施例中，上述实施例中的将文本连通部件视作节点，连接近邻节点对构成无向图，将无向图中有公共节点的边依次进行融合，从而多个文本行包括：

对文本连通部件中的每一节点，将其对应的连通部件外接矩形框的中心点视作其坐标，计算其离其它所有节点的欧式距离，得出与其距离最近的四个节点后，在其与这四个节点间各连一条边，构建无向图；

获取无向图的每一条边的两端节点间的欧氏距离除以两端节点的外接矩形框周长之和、两端节点中较小的笔划宽度与较大的笔划宽度的比值、两端节点中较小的笔划宽度与较大的笔划宽度的绝对差值、及两端节点的颜色差异值，作为无向图的每一条边的局部特征；

获取无向图的每一条边的长度与无向图中所有边的平均长度的比值、每一条边的长度与无向图中最长边的长度的比值、每一条边的方向与无向图中边的平均方向的差异、无向图中经过各边的直线路径上节点和边的数目、无向图中经过各边第一端点且不经过第二端点的直线路径上节点和边的数目、无向图中经过各边第二端点且不经过第一端点的直线路径上节点和边的数目，作为全局特征；

利用支持向量机分类判断是否保留边，将无向图中有公共节点的边依次进行融合，获得多个文本行。

对应的，在一些实施例中，本发明也提供了一种图像文本检测方法，用于用户终端，该方法包括：

对应的，在一些实施例中，本发明也提供了一种图像文本检测方法，用于服务器，该方法包括：

接收用户终端发送的待识别图像；

对图像文本检测结果进行识别得到最终文本；

发送最终文本至用户终端。

第二实施例：

图2为本发明第二实施例提供的图像文本检测***的结构示意图，由图2可知，本实施例提供的图像文本检测***包括：用户终端1及服务器2，其中，

用户终端1用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；发送候选文本连通构件至服务器；

服务器2用于接收候选文本连通构件，根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；发送多个文本行至用户终端；

用户终端1用于接收对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；发送图像文本检测结果至服务器；

服务器2用于接收图像文本检测结果；对图像文本检测结果进行识别得到最终文本；发送最终文本至用户终端；

用户终端1用于接收并输出最终文本。

在一些实施例中，如图2所示，上述实施例中的用户终端1包括：显著性计算模块11、连通部件生成模块12、终端通信模块13、文本融合模块14，其中，

显著性计算模块11用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；

连通部件生成模块12用于提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；

终端通信模块13用于发送候选文本连通构件，接收对候选文本连通构件进行无向图处理得到的多个文本行；

文本融合模块14用于对多个文本行进行交叠融合，生成图像文本检测结果；

终端通信模块13还用于发送图像文本检测结果，接收并输出对图像文本检测结果进行识别得到的最终文本。

在一些实施例中，上述实施例中的显著性计算模块11用于计算待识别图像中各像素点的颜色值；计算待识别图像中各像素点在各邻域尺度下邻域窗口内所有像素点的颜色均值；将各像素点的颜色值与各像素点在各邻域尺度下邻域窗口内所有像素点的颜色均值做差，得到各像素点在多个不同大小邻区内的显著性值；根据各像素点在多个不同大小邻区内的显著性值，绘制多个显著性图像。

在一些实施例中，上述实施例中的连通构件生成模块12用于针对各显著性图像，分别提取显著性值高于正阀值的像素点构成的连通部件，获得正显著性连通部件；分别提取显著性值低于负阀值的像素点构成的连通部件，获得负显著性连通部件；将正显著性连通部件及负显著性连通部件，组合构成候选文本连通部件。

在一些实施例中，如图2所示，上述实施例中的服务器2包括：服务器通信模块21、连通部件过滤模块22、文本行提取模块23、文本识别模块24，其中，

服务器通信模块21用于接收候选文本连通构件；

连通部件过滤模块22用于根据候选文本连通构件获取文本连通部件；

文本行提取模块23用于将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；

服务器通信模块21用于发送多个文本行，接收对多个文本行进行交叠融合生成的图像文本检测结果；

文本识别模块24用于对图像文本检测结果进行识别得到最终文本；

服务器通信模块21用于发送最终文本。

在一些实施例中，上述实施例中的连通部件过滤模块22用于基于空间包含关系，筛选候选文本连通构件中的非文本连通部件，得到文本连通部件；和/或，基于卷积神经网络，筛选候选文本连通构件中的非文本连通部件，得到文本连通部件。

在一些实施例中，上述实施例中的文本行提取模块23用于对文本连通部件中的每一节点，将其对应的连通部件外接矩形框的中心点视作其坐标，计算其离其它所有节点的欧式距离，得出与其距离最近的四个节点后，在其与这四个节点间各连一条边，构建无向图；获取无向图的每一条边的两端节点间的欧氏距离除以两端节点的外接矩形框周长之和、两端节点中较小的笔划宽度与较大的笔划宽度的比值、两端节点中较小的笔划宽度与较大的笔划宽度的绝对差值、及两端节点的颜色差异值，作为无向图的每一条边的局部特征；获取无向图的每一条边的长度与无向图中所有边的平均长度的比值、每一条边的长度与无向图中最长边的长度的比值、每一条边的方向与无向图中边的平均方向的差异、无向图中经过各边的直线路径上节点和边的数目、无向图中经过各边第一端点且不经过第二端点的直线路径上节点和边的数目、无向图中经过各边第二端点且不经过第一端点的直线路径上节点和边的数目，作为全局特征；利用支持向量机分类判断是否保留边，将无向图中有公共节点的边依次进行融合，获得多个文本行。

在实际应用中，图2所示实施例中的所有功能模块，都可以采用处理器、编辑逻辑器件等方式实现。

对应的，在一些实施例中，本发明提供的用户终端，包括：处理器及存储器，处理器用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；对图像文本检测结果进行识别得到最终文本，输出最终文本；存储器用于存储实现处理器功能的所有程序。

对应的，在一些实施例中，本发明提供的服务器，包括：通信构件、处理器及存储器，通信构件用于接收用户终端发送的待识别图像，并将处理器得到的最终文本发送至用户终端；处理器用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取多个显著性图像中正负显著性连通部件，生成候选文本连通构件；根据候选文本连通构件获取文本连通部件；将文本连通部件视作节点，连接近邻节点对构成无向图；对无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将无向图中有公共节点的边依次进行融合，获得多个文本行；对候选文本连通构件进行无向图处理得到的多个文本行；对多个文本行进行交叠融合，生成图像文本检测结果；对图像文本检测结果进行识别得到最终文本；存储器用于存储实现处理器功能的所有程序。

第三实施例：

现结合具体应用场景对本发明做进一步的诠释说明。

现有在文本检测定位方面的研究，提出了不少实现方式。根据使用的特征不同，文本定位分为两个大类：基于纹理和基于区域检测，其中基于区域的又可以分为基于连通部件和基于边缘检测法。基于纹理特征的滑窗文本检测技术，文本区域当作一个整体进行滑窗处理，文本区域的背景也会被当作正样本送进分类器进行训练，这就意味着在训练样本足够多或者训练集与测试集分布相同的情况下，基于纹理特征的滑窗文本检测方法对噪声具有良好的鲁棒性。但是该类方法的缺点也很明显，本身基于滑窗，计算复杂度稍高，性能稍低；同时在训练样本不够充足的情况下，检测性能会大幅下降，业界通常在***实现时不采用基于纹理特征的滑窗文本检测方案。基于连通部件的方法首先通过图像分割技术将图像分成多个连通部件，通过启发式规则或者分类器将非文本连通部件剔除，最后将得到的文本连通部件组合起来得到最终的检测结果，但在光照不均、字符边界模糊、文字与其背景颜色相似或者文字区域颜色发散等情况出现时，字符将难以准确分割。

针对传统***存在的问题，本实施例提出了一种基于显著性模型的检测***，如图3及4所示，各模块特点分开部署，客户端侧对图像进行显著性计算，通过计算图像显著值生成正负文本连通性部件；服务端侧对图像进行基于包含关系和CNN方式过滤非文本连通部件，基于无向图的局部特征和全局特征输入SVM进行分类。本***提高了合成文档图像文本检测效率，提高了合成文档图像文本的提取的分类性能，降低了计算复杂度。

如图4所示，该***中主要包括基于显著性图像的计算模块401、候选文本连通部件生成模块402、非文本连通部件过滤模块403和文本行提取模块404(包括设置在服务器内的404a以及设置在用户终端内的404b)及融合模块405、文本识别模块406、通讯模块407(包括设置在服务器内的407a以及设置在用户终端内的407b)，可以快速准确地检测合成文档图像中的文本。其中，

显著性计算模块401：显著性值计算是通过计算像素点在不同大小邻域内的显著性值，获取一系列显著性图像，显著性模型利用某一区域与其***区域在颜色以及亮度上的差异来衡量该区域的显著性，由于文本不仅被背景环绕而且与背景呈现高对比度，所以文本区域隶属于显著性区域，基于显著性模型不会漏检文字。

传统显著性模型综合考量像素点在不尺度上的显著性，如果将这样的模型应用于检测文字，很容易使得文本与更大区域的背景甚至是其他显著性区域粘连在一起，从而干扰文本像素点显著性的极性，不利于后续文本与背景的分离。而在不同大小的邻域尺度内分别计算显著性，则可以有效避免这样的情况。具体操作为，计算输入图像I每一像素点在四个邻域尺度σ(1，2，4和8)下的显著性值，获得一系列显著性图像(I1、I2、I4和I8)。

计算显著性值的方法首先获取待计算像素点P的颜色值(R,G,B)，接着在四个邻域尺度σ(1，2，4和8)下，计算以P为中心点、长宽均为2*σ+1的窗口内所有像素点的均值(Rμ,Gμ,Bμ)，则P的显著性值为(R+G+B)-(Rμ+Gμ+Bμ)。

候选连通部件生成模块402：用于候选文本连通部件生成，提取由正(负)显著性像素点构成的正(负)显著性连通部件，正负显著性连通部件共同组成候选文本连通部件。

文本被背景环绕并且呈现高对比度，所以文本区域隶属于显著性区域，但此时文本与背景像素点粘连在一起，需要将它们分离以生成候选文本连通部件。在显著性图像中，如果某一像素点亮度高于周边，则其根据步骤(2)计算得出的显著性值为正，否则为负。由于文本像素点集{PT}与邻近的背景像素点集{PN}呈现高对比度，所以{PT}与{PN}对应的显著性值极性相反。通过分离正负显著性像素点，即可分离{PT}与{PN}，从而使{PT}构成独立的连通部件，与{PN}构成的连通部件共同组成候选文本连通部件。具体操作为，针对每一幅显著性图像(I1、I2、I4和I8)，提取显著性值高于正阀值的像素点构成的连通部件，获得正显著性连通部件；提取显著性值低于负阀值的像素点构成的连通部件，获得负显著性连通部件。正负显著性连通部件共同构成候选文本连通部件。T+和T-的选择是在观察大量真实合成文档图像文本后确定的，把它们设置成正负阀值不会漏检文本。

非文本连通部件过滤模块403：非文本连通部件过滤，包括基于连通部件的空间包含关系以及采用CNN过滤非文本连通部件。

在候选文本连通部件中有三类非文本连通部件，一类是由文本背景像素点生成的连通部件，其余两类是由文字以外的显著性物体及其背景像素点生成的连通部件。这些非文本连通部件会干扰后续文本连通部件聚合成文本行的过程，需要予以过滤。

基于空间包含关系过滤非文本连通部件，由于文本连通部件会被背景连通部件环绕，所以如果某一连通部件不被其它连通部件环绕，则可确认其为非文本连通部件。而文本连通部件与背景连通部件显著性极性相反，所以在同一幅显著性图像(I1、I2、I4或I8)中，如果某一正(负)显著性连通部件C不被所有负(正)显著性连通部件中的任何一个所环绕，则可确认C为非文本连通部件并予以过滤。而判断连通部件C1是否被连通部件C2所环绕，需追踪紧邻C1的外一层轮廓像素点，当且仅当这些像素点均属于C2才认为C1被C2所环绕。

采用CNN分类过滤非文本连通部件，尽管字符种类众多，但它们持有一些共性，比如说字符与背景对比度高、字符像素点颜色趋于一致以及字符笔划宽度趋于一致等，这些共性使得字符区域持有不同于其它显著性区域的纹理。CNN是目前图像分类领域性能最好的分类器，它具有强大的特征学习以及分类能力，利用CNN对连通部件对应的原始图像区域进行分类可以准确地过滤文本连通部件。具体操作为，对剩余的每一候选文本连通部件，获取其外接矩形框对应的原始图像，归一化到固定尺寸，输入已训练好的CNN进行分类，若分类标签为非文本则予以过滤。

文本行提取模块404：文本行提取，将文本连通部件视作节点，连接近邻节点对构成无向图，对每一条边E提取局部特征和全局特征，利用SVM分类判断是否保留边E，最后将无向图中有公共节点的边依次进行融合，从而获得若干文本行。

从边两端的节点提供的信息中提取局部特征，从由连通部件构成的无向图提供的信息中提取全局特征，将两类特征输入SVM，如果分类结果为边两端的节点属于同一文本行，则在无向图中保留该边，否则予以剔除。将无向图中有公共节点的边依次进行融合，从而获得若干文本行。

构建无向图具体操作为，对每一节点N，将N对应的连通部件外接矩形框的中心点视作N的坐标，计算N离其它所有节点的欧式距离，得出与N距离最近的四个节点后，在N与这四个节点间各连一条边。由于构建的是无向图，所以如果某一节点对间在上述操作中连接了两次边，则仅保留一条。

局部特征，即仅考虑边E两端的节点N1和N2提供的信息提取的特征，如果N1和N2是属于同一文本行的相邻连通部件，那么N1和N2除了在空间距离上较近以外，颜色以及笔划宽度也相近，所以提取的局部特征有：

N1和N2间的欧氏距离除以N1和N2的外接矩形框周长之和，除以后面一项的目的是使得该特征与字符大小无关；

N1和N2中较小的笔划宽度与较大的笔划宽度的比值；

N1和N2中较小的笔划宽度与较大的笔划宽度的绝对差值；

N1和N2的颜色差异值，假设N1和N2所有像素点的平均颜色值是(R1,G1,B1)和(R2,G2,B2)，则颜色差异值计算公式为abs((R1+G1+B1)-(R2+G2+B2))/(255*3)，其中，abs为绝对值运算符。

全局特征，即考虑无向图提供的整体信息，如果边E两端的节点N1和N2属于同一文本行L，则无向图中应有一条较长的路径对应于L，该路径上的边和节点都与N1和N2位于同一直线上；如果N1和N2分属于文本行L1和L2，则无向图中应有两条较长的路径分别对应于L1和L2，L1和L2上的节点和边分别与N1和N2位于同一直线，并且L1和L2互不交叉。基于这些观察，提取的全局特征有：

E的长度与无向图中所有边的平均长度的比值；

E的长度与无向图中最长边的长度的比值；

E的方向与图中边的平均方向的差异；

在无向图中找出经过E的直线路径，统计路径上节点和边的数目作为特征；

在无向图中找出经过N1而不经过N2的直线路径，统计路径上节点和边的数目作为特征；

在无向图中找出经过N2而不经过N1的直线路径，统计路径上节点和边的数目作为特征。

文本行融合模块405：文本行融合是基于不同显著性图像获取的文本行，基于不同显著性图像获取的文本行可能有重复，所以如果某两行文本在空间上有交叠，则予以合并。

文本识别模块406：文本识别模块是将图像文本检测结果作为输入，将其中的文本识别出来，步骤如下：

(1)输入已经标注好的每一个文本行图像。

(2)文本行图像的切分，采用基于过切分的方式得到一系列连续的基元片段，这些片段绝大多数情况是字的一部分，也有可能是一个完整的字，甚至在粘连严重情况下过切分失败导致得到多个字。

(3)基元片段合并：连续几个相邻的基元片段合并构成候选字符模式，所有的候选字符模式构成了切分候选网格，网格每一条路径构成了整个文本行的字符切分候选路径。

(4)文本识别：每一条切分候选路径上的所有候选字符模式通过字符分类器生成一定数量的候选字符类别，构成候选字符网格，识别出来的字符，可以选择使用词语模型，利用现有的词典，将相邻的字符合并成候选词语，于是每一个候选单字序列可以切分成多个候选词语序列，最终形成候选词语网格，网格中每一路径代表了一个候选词语序列。

(5)路径搜索：每一个候选单字序列(或者词语序列)结合其对应的候选字符模式序列(也就是字符切分候选路径)构成了一条“候选切分识别路径”，利用一定的路径评价准则(包含文本识别器信息、几何上下文信息、语言上下文信息)对每一条这样的路径进行评分，最后通过有效的搜索算法找出其评分最优的路径，得到其切分识别结果。

如图4所示，本实施例提供的***主要包括六个模块：显著性图像计算模块401、候选文本连通部件生成模块402、非文本连通部件过滤模块403、文本行提取模块404、文本行融合模块405和通讯模块407。

具体的，针对显著性图像计算模块401，显著性模型利用某一区域与其***区域在颜色以及亮度上的差异来衡量该区域的显著性，由于文本不仅被背景环绕而且与背景呈现高对比度，所以文本区域隶属于显著性区域，基于显著性模型不会漏检文字。

候选文本连通部件生成模块402，在显著性图像中，亮度高于周边的像素点计算得出的显著性值为正，亮度低于周边的像素点计算得出的显著性值为负。由于文本像素点集{PT}与邻近的背景像素点集{PN}呈现高对比度，所以{PT}与{PN}对应的显著性值极性相反。通过分离正负显著性像素点，即可分离{PT}与{PN}，从而使{PT}构成独立的连通部件，与{PN}构成的连通部件共同组成候选文本连通部件。

非文本连通部件过滤模块403，候选文本连通部件中的非文本连通部件会干扰将文本连通部件聚合成文本行的过程，需要予以过滤，本模块基于正负显著性连通部件的空间包含关系以及采用CNN分类器过滤非文本连通部件。

文本行提取模块404，合成文档图像文本以行的形式排布，需要将文本连通部件聚成文本行以供下一步的分析，本模块将文本连通部件视作节点，在近邻节点对间连边，构成无向图后，利用SVM判断每一条边是否予以保留，不被切分的边将文本连通部件连成行。

文本行融合模块405，基于不同显著性图像获取的文本行可能有重复，所以应合并在空间上有交叠的文本行。

通讯模块407，完成客户端与服务器端图像候选文本连通部件的数据发送和不同显著性图像文本行坐标数据的回复传输。

如图4所示，本实施例提供的图像文本检测方法包括的步骤如下：

客户端对输入图像进行读取，获取每一像素点的颜色值，记为(R,G,B)；

客户端显著性计算模块根据获取的像素点的颜色值计算不同大小邻域内的显著性值，获取一系列显著性图像；

客户端侧的显著性计算模块将获取的显著性图像传给候选文本连通部件生成模块；

客户端侧的候选文本连通部件生成模块根据获取的一序列显著性图数据提取由正显著性像素点构成的正显著性连通部件和提取由负显著性像素点构成的负显著性连通部件，正负显著性连通部件共同组成候选文本连通部件；

客户端侧的通讯模块将生成的图像候选文本连通部件发送给服务端的通讯模块。此处图像候选文本连通部件包括正显著性图像中检测到的连通部件，具体数据包括正显著性坐标值、正显著性像素点和正显著性图像中候选连通部件个数等；包括负显著性图像中检测到的连通部件具体数据包括负显著性坐标值、负显著性像素点和负显著性图像中候选连通部件个数等；

服务端的通讯模块将图像候选文本连通部件传给服务端的非文本连通部件过滤模块；

服务端非文本连通部件过滤模块通过基于连通部件的空间包含关系过滤大量非文本连通部件；

服务端的非文本连通部件过滤模块通过CNN强大的特征学习及分类能力进一步过滤非文本连通部件；

服务端测的非文本连通部件过滤模块将过滤好的文本连通部件传给文本行提取模块；

服务端文本行提取模块将连通部件视作节点，在近邻节点间的边构成无向图，提取无向图中边的局部特征和全局特征；

服务器端的通讯模块将提取无向图中边的局部特征和全局特征发送给客户端的通讯模块，由客户端的通讯模块将无向图中边的局部特征和全局特征传送给客户端的文本行提取模块；

客户端文本行提取模块将输入局部特征和全局特征到SVM分类器，判断边两端的节点属于同一文本行；

客户端的文本行融合模块将不同显著性图像获取的重复和交叠的文本行进行融合；

客户端将融合后的图像文本行结果通过客户端的通讯模块传输给服务器端的的通讯模块；

服务器端的通讯模块将融合文本行结果传送给文本识别模块，文本识别模块进行文本识别，将识别结果通过服务端的通讯模块发送给客户端的通讯模块；

客户端的通讯模块将文本识别结果传送给客户端的展示模块，由客户端展示文字识别结果。

综上可知，通过本发明实施例的实施，至少存在以下有益效果：

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅是本发明的具体实施方式而已，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任意简单修改、等同变化、结合或修饰，均仍属于本发明技术方案的保护范围。

Claims

1.一种图像文本检测方法，包括：

提取所述多个显著性图像中正负显著性连通部件，生成候选文本连通构件；

发送所述候选文本连通构件，接收对所述候选文本连通构件进行无向图处理得到的多个文本行；

对所述多个文本行进行交叠融合，生成图像文本检测结果；

发送所述图像文本检测结果，接收并输出对所述图像文本检测结果进行识别得到的最终文本。

2.如权利要求1所述的图像文本检测方法，其特征在于，所述计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像包括：

计算待识别图像中各像素点的颜色值；

将所述各像素点的颜色值与各像素点在各邻域尺度下邻域窗口内所有像素点的颜色均值做差，得到所述各像素点在多个不同大小邻区内的显著性值；

根据所述各像素点在多个不同大小邻区内的显著性值，绘制所述多个显著性图像。

3.如权利要求1或2所述的图像文本检测方法，其特征在于，所述提取所述多个显著性图像中正负显著性连通部件，生成候选文本连通构件包括：

将所述正显著性连通部件及所述负显著性连通部件，组合构成所述候选文本连通部件。

4.一种图像文本检测方法，包括：

接收候选文本连通构件，根据所述候选文本连通构件获取文本连通部件；

将所述文本连通部件视作节点，连接近邻节点对构成无向图；

对所述无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；

将所述无向图中有公共节点的边依次进行融合，获得多个文本行；

发送所述多个文本行，接收对所述多个文本行进行交叠融合生成的图像文本检测结果；

对所述图像文本检测结果进行识别得到最终文本；

发送所述最终文本。

5.如权利要求4所述的图像文本检测方法，其特征在于，所述根据所述候选文本连通构件获取文本连通部件包括：

基于空间包含关系，筛选所述候选文本连通构件中的非文本连通部件，得到所述文本连通部件；和/或，

基于卷积神经网络，筛选所述候选文本连通构件中的非文本连通部件，得到所述文本连通部件。

6.如权利要求4或5所述的图像文本检测方法，其特征在于，所述将所述文本连通部件视作节点，连接近邻节点对构成无向图，将所述无向图中有公共节点的边依次进行融合，从而多个文本行包括：

对所述文本连通部件中的每一节点，将其对应的连通部件外接矩形框的中心点视作其坐标，计算其离其它所有节点的欧式距离，得出与其距离最近的四个节点后，在其与这四个节点间各连一条边，构建所述无向图；

获取所述无向图的每一条边的两端节点间的欧氏距离除以两端节点的外接矩形框周长之和、两端节点中较小的笔划宽度与较大的笔划宽度的比值、两端节点中较小的笔划宽度与较大的笔划宽度的绝对差值、及两端节点的颜色差异值，作为所述无向图的每一条边的局部特征；

获取所述无向图的每一条边的长度与所述无向图中所有边的平均长度的比值、每一条边的长度与无向图中最长边的长度的比值、每一条边的方向与无向图中边的平均方向的差异、无向图中经过各边的直线路径上节点和边的数目、无向图中经过各边第一端点且不经过第二端点的直线路径上节点和边的数目、无向图中经过各边第二端点且不经过第一端点的直线路径上节点和边的数目，作为所述全局特征；

利用支持向量机分类判断是否保留边，将所述无向图中有公共节点的边依次进行融合，获得所述多个文本行。

7.一种图像文本检测方法，包括：

用户终端计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取所述多个显著性图像中正负显著性连通部件，生成候选文本连通构件；发送所述候选文本连通构件至服务器；

所述服务器接收候选文本连通构件，根据所述候选文本连通构件获取文本连通部件；将所述文本连通部件视作节点，连接近邻节点对构成无向图；对所述无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将所述无向图中有公共节点的边依次进行融合，获得多个文本行；发送所述多个文本行至所述用户终端；

所述用户终端接收对所述候选文本连通构件进行无向图处理得到的多个文本行；对所述多个文本行进行交叠融合，生成图像文本检测结果；发送所述图像文本检测结果至所述服务器；

所述服务器接收所述图像文本检测结果；对所述图像文本检测结果进行识别得到最终文本；发送所述最终文本至所述用户终端；

所述用户终端接收并输出所述最终文本。

8.一种图像文本检测方法，包括：

计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取所述多个显著性图像中正负显著性连通部件，生成候选文本连通构件；

根据所述候选文本连通构件获取文本连通部件；将所述文本连通部件视作节点，连接近邻节点对构成无向图；对所述无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将所述无向图中有公共节点的边依次进行融合，获得多个文本行；

对所述候选文本连通构件进行无向图处理得到的多个文本行；对所述多个文本行进行交叠融合，生成图像文本检测结果；

对所述图像文本检测结果进行识别得到最终文本，输出所述最终文本。

9.一种图像文本检测方法，包括：

接收用户终端发送的待识别图像；

对所述图像文本检测结果进行识别得到最终文本；

发送所述最终文本至所述用户终端。

10.一种用户终端，包括：显著性计算模块、连通部件生成模块、终端通信模块、文本融合模块，其中，

所述显著性计算模块用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；

所述连通部件生成模块用于提取所述多个显著性图像中正负显著性连通部件，生成候选文本连通构件；

所述终端通信模块用于发送所述候选文本连通构件，接收对所述候选文本连通构件进行无向图处理得到的多个文本行；

所述文本融合模块用于对所述多个文本行进行交叠融合，生成图像文本检测结果；

所述终端通信模块还用于发送所述图像文本检测结果，接收并输出对所述图像文本检测结果进行识别得到的最终文本。

11.如权利要求10所述的用户终端，其特征在于，所述显著性计算模块用于计算待识别图像中各像素点的颜色值；计算待识别图像中各像素点在各邻域尺度下邻域窗口内所有像素点的颜色均值；将所述各像素点的颜色值与各像素点在各邻域尺度下邻域窗口内所有像素点的颜色均值做差，得到所述各像素点在多个不同大小邻区内的显著性值；根据所述各像素点在多个不同大小邻区内的显著性值，绘制所述多个显著性图像。

12.如权利要求10或11所述的用户终端，其特征在于，所述连通构件生成模块用于针对各显著性图像，分别提取显著性值高于正阀值的像素点构成的连通部件，获得正显著性连通部件；分别提取显著性值低于负阀值的像素点构成的连通部件，获得负显著性连通部件；将所述正显著性连通部件及所述负显著性连通部件，组合构成所述候选文本连通部件。

13.一种服务器，包括：服务器通信模块、连通部件过滤模块、文本行提取模块、文本识别模块，其中，

所述服务器通信模块用于接收候选文本连通构件；

所述连通部件过滤模块用于根据所述候选文本连通构件获取文本连通部件；

所述文本行提取模块用于将所述文本连通部件视作节点，连接近邻节点对构成无向图；对所述无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将所述无向图中有公共节点的边依次进行融合，获得多个文本行；

所述服务器通信模块用于发送所述多个文本行，接收对所述多个文本行进行交叠融合生成的图像文本检测结果；

所述文本识别模块用于对所述图像文本检测结果进行识别得到最终文本；

所述服务器通信模块用于发送所述最终文本。

14.如权利要求13所述的服务器，其特征在于，所述连通部件过滤模块用于基于空间包含关系，筛选所述候选文本连通构件中的非文本连通部件，得到所述文本连通部件；和/或，基于卷积神经网络，筛选所述候选文本连通构件中的非文本连通部件，得到所述文本连通部件。

15.如权利要求13或14所述的服务器，其特征在于，所述文本行提取模块用于对所述文本连通部件中的每一节点，将其对应的连通部件外接矩形框的中心点视作其坐标，计算其离其它所有节点的欧式距离，得出与其距离最近的四个节点后，在其与这四个节点间各连一条边，构建所述无向图；获取所述无向图的每一条边的两端节点间的欧氏距离除以两端节点的外接矩形框周长之和、两端节点中较小的笔划宽度与较大的笔划宽度的比值、两端节点中较小的笔划宽度与较大的笔划宽度的绝对差值、及两端节点的颜色差异值，作为所述无向图的每一条边的局部特征；获取所述无向图的每一条边的长度与所述无向图中所有边的平均长度的比值、每一条边的长度与无向图中最长边的长度的比值、每一条边的方向与无向图中边的平均方向的差异、无向图中经过各边的直线路径上节点和边的数目、无向图中经过各边第一端点且不经过第二端点的直线路径上节点和边的数目、无向图中经过各边第二端点且不经过第一端点的直线路径上节点和边的数目，作为所述全局特征；利用支持向量机分类判断是否保留边，将所述无向图中有公共节点的边依次进行融合，获得所述多个文本行。

16.一种图像文本检测***，其特征在于，包括如权利要求10至12任一项所述的用户终端、以及如权利要求13至15任一项所述的服务器。

17.一种用户终端，包括：处理器及存储器，所述处理器用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取所述多个显著性图像中正负显著性连通部件，生成候选文本连通构件；根据所述候选文本连通构件获取文本连通部件；将所述文本连通部件视作节点，连接近邻节点对构成无向图；对所述无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将所述无向图中有公共节点的边依次进行融合，获得多个文本行；对所述候选文本连通构件进行无向图处理得到的多个文本行；对所述多个文本行进行交叠融合，生成图像文本检测结果；对所述图像文本检测结果进行识别得到最终文本，输出所述最终文本；所述存储器用于存储实现所述处理器功能的所有程序。

18.一种服务器，包括：通信构件、处理器及存储器，所述通信构件用于接收用户终端发送的待识别图像，并将所述处理器得到的最终文本发送至所述用户终端；所述处理器用于计算待识别图像中各像素点在多个不同大小邻区内的显著性值，获取多个显著性图像；提取所述多个显著性图像中正负显著性连通部件，生成候选文本连通构件；根据所述候选文本连通构件获取文本连通部件；将所述文本连通部件视作节点，连接近邻节点对构成无向图；对所述无向图的每一条边提取局部特征和全局特征，利用支持向量机分类判断是否保留边；将所述无向图中有公共节点的边依次进行融合，获得多个文本行；对所述候选文本连通构件进行无向图处理得到的多个文本行；对所述多个文本行进行交叠融合，生成图像文本检测结果；对所述图像文本检测结果进行识别得到最终文本；所述存储器用于存储实现所述处理器功能的所有程序。