CN106548169B

CN106548169B - 基于深度神经网络的模糊文字增强方法及装置

Info

Publication number: CN106548169B
Application number: CN201610945012.0A
Authority: CN
Inventors: 周曦; 刘盛中
Original assignee: Chongqing Zhongke Yuncong Technology Co Ltd
Current assignee: Chongqing Zhongke Yuncong Technology Co Ltd
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2019-04-23
Anticipated expiration: 2036-11-02
Also published as: CN106548169A

Abstract

本发明提供一种基于深度神经网络的模糊文字增强方法，包括：建立参考数据库；采集包含文字的测试图像；将测试图像按图像块划分规则分割成多个测试图像块；在参考数据库中以每个测试图像块为目标搜索索引，筛选出与测试图像块最相似的多个预设图像块；根据融合系数将多个最相似的预设图像块加权融合为复原图像块，将图像对应相邻的复原图像块加权融合得到复原图像。本发明还提供一种基于深度神经网络的模糊文字增强装置。在建立参考数据与图像块检索时引入深度神经网络特征，提高了图像块的鲁棒性；即使处于离线状态也能通过训练的数据库将包含模糊的文字图像复原成清晰的图像，便于显示或识别图像中文字，提高了图像中文字的识别度和清晰度。

Description

基于深度神经网络的模糊文字增强方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于深度神经网络的模糊文字增强方法及装置。

背景技术

随着社会的发展和科技的进步，人们对图像处理技术的要求越来越高。基于图像处理中文字识别作为一项重要的基础技术，具有巨大的应用价值和广阔的应用前景，特别是自然场景图像的文字识别。例如，通过OCR技术进行图像中文字识别，OCR(OpticalCharacter Recognition，光学文字识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的文字，通过检测暗、亮的模式确定其形状，然后用文字识别方法将形状翻译成计算机文字的过程。

文字是一种重要的信息载体，据不完全统计，目前仍有90％的信息资源的主题是由文档资料提供的。随着科技信息的飞速发展，将这些信息自动化识别出来一句成为一种趋势和热点。高质量文本图像中的文字自动化识别率可以达到99％以上。

然而，在现有技术中，随着图像质量的下降，特别是图像像素不高或图像本身不清楚所带来的图像模糊现象，导致文字的识别率也随之下降。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于深度神经网络的模糊文字增强方法及装置，用于解决现有技术中图像模糊时，无法准确识别图像中文字的问题。

为实现上述目的及其他相关目的，本发明提供一种基于深度神经网络的模糊文字增强的方法，包括：

建立参考数据库；

采集包含文字的测试图像；

将所述测试图像按图像块划分规则分割成多个测试图像块；

在所述参考数据库中以每个所述测试图像块为目标搜索索引，筛选出与所述测试图像块最相似的多个预设图像块；

根据融合系数将多个最相似的预设图像块加权融合为复原图像块，将所述图像对应相邻的复原图像块加权融合得到复原图像。

本发明的另一目的在于提供一种基于深度神经网络的模糊文字增强的装置，包括：

参考数据库，用于建立参考数据库；

采集模块，用于采集包含文字的测试图像；

处理模块，用于将所述测试图像按图像块划分规则分割成多个测试图像块；

检索模块，用于在所述参考数据库中以每个所述测试图像块为目标搜索索引，筛选出与所述测试图像块最相似的多个预设图像块；

融合模块，用于根据融合系数将多个最相似的预设图像块加权融合为复原图像块，将所述图像对应相邻的复原图像块加权融合得到复原图像。

如上所述，本发明的基于深度神经网络的模糊文字增强方法及装置，具有以下有益效果：

本发明通过构建参考数据库并在该数据库中训练识别模型，采集包含文字的测试图像，将测试图像分割成多个测试图像块，在数据库中基于深度神经网络特征匹配该图像块最相似的预设图像块，加权融合多个最相似预设图像块得到复原图像块，按图像位置将相邻复原图像块复原成清晰图像。在建立参考数据与图像块检索时引入深度神经网络特征，提高了图像块的鲁棒性；即使处于离线状态也能通过训练的数据库将包含模糊的文字图像复原成清晰的图像，便于显示或识别图像中文字，提高了图像中文字的识别度和清晰度。

附图说明

图1显示为本发明提供一种基于深度神经网络的模糊文字增强方法流程图；

图2显示为本发明提供一种基于深度神经网络的模糊文字增强方法中步骤S1的详细流程图；

图3显示为本发明提供一种基于深度神经网络的模糊文字增强方法中图像分割示意图；

图4显示为本发明提供一种基于深度神经网络的模糊文字增强方法中步骤S4的详细流程图；

图5显示为本发明提供一种基于深度神经网络的模糊文字增强方法中步骤S5的详细流程图；

图6显示为本发明提供一种基于深度神经网络的模糊文字增强方法中胞元结构示意图；

图7显示为本发明提供一种基于深度神经网络的模糊文字增强方法的第一实施流程图；

图8显示为本发明提供一种基于深度神经网络的模糊文字增强装置结构框图；

图9显示为本发明提供一种基于深度神经网络的模糊文字增强装置中数据库结构框图；

图10显示为本发明提供一种基于深度神经网络的模糊文字增强装置中检索模块结构框图；

图11显示为本发明提供一种基于深度神经网络的模糊文字增强装置中融合模块结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例1

请参阅图1，为本发明提供一种基于深度神经网络的模糊文字增强方法的流程图，包括：

步骤S1，建立参考数据库；

具体的，建立参考数据库的目的为了构建一个用于文字去模糊的先验知识库，专门用于辅助模糊图像增强。

步骤S2，采集包含文字的测试图像；

具体地，采集的包含文字图像为待恢复的模糊文字图像(图片),该文字包含文字行、文本行、字符等。

步骤S3，将所述测试图像按图像块划分规则分割成多个测试图像块；

具体地，先将所述测试图像归一化处理得到标准化格式，再按照像素点尺寸进行均匀分块处理，分割成多个测试图像块，其中，图像块划分规则为每个所述图像块按文字与分块位置进行标识。

步骤S4，在所述参考数据库中以每个所述测试图像块为目标搜索索引，筛选出与所述测试图像块最相似的多个预设图像块；

具体地，以分割所得的测试图像块为目标检索，在参考数据库中按照上述目标进行检索，根据目标检索的测试图像块与参考数据库中预设图像块之间的距离测度为搜索标准，距离测度值越小代表越相似。

步骤S5，根据融合系数将多个最相似的预设图像块加权融合为复原图像块，将所述图像对应相邻的复原图像块加权融合得到复原图像。

具体地，先将最相似的多个预设图像块进行加权融合，按照待恢复的图像中所对应的图像块均加权融合得到其对应复原图像块；将所有复原图像块按像素点逐一加权融合得到复原图像。

在本实施例中，在建立参考数据与图像块检索时引入深度神经网络特征，提高了图像块的鲁棒性；即使处于离线状态也能通过训练的数据库将包含模糊的文字图像复原成清晰的图像，便于显示或识别图像中文字，提高了图像中文字的识别度和清晰度。

实施例2

步骤S101，采集文字清晰的图像，且其中每个文字均包含多张不同形式的图像；

具体地，采集的文字清晰的图像均为高质量图片，并且为了考虑文字的覆盖率以及图片数量，所采集的图片至少应包括常用汉字库、次常用汉字库以及其他常见字符。另外，考虑同一文字可能书写(表达)方式不同，所以，每个文字均包含多张不同形式的图像，至少保证先验知识库的文字尽可能的完整性，用于支撑后续模糊图片增强时的特征空间。

步骤S102，将所述图像归一化处理且将其分割成多个预设图像块，其中，每个所述预设图像块按文字与分块位置进行标识；

具体地，将采集的文字清晰的图像进行归一化处理，主要对图像的尺寸的归一化、灰度化、对比度增强等，将图像转换成相应的唯一标准形式；其次，对归一化的图像进行分块处理，将其分割成多个预设图像块，分块处理的尺寸(Block Size)可以设置在10到40像素左右，此处优选将其固定为图像块尺寸的一半，即相邻图像块之间重合度为50％，且图像块之间的位移增量为该图像块的宽、高的50％，如图3显所示，为本发明提供一种基于深度神经网络的模糊文字增强方法中图像分割示意图；在图中每个预设图像块尺寸为16*16pix，预设图像块均有8pix与相邻的另一预设图像块之间重合，图像中按照文字与分块位置共同进行标识，即同一文字且同一位置分割出的预设图像块才被标识为同一个标签，判定为一类预设图像块。

步骤S103，基于softmaxwithloss结构采用卷积神经网络算法训练所述预设图像块得到深度学习模块；

具体地，采用文字清晰且标识相同的图像块，基于分类目标优化的softmaxwithloss结构采用卷积神经网络算法训练每个预设图像块得到深度学习模块，其中，所述softmaxwithloss结构如下：

式(1)中，z为卷积神经网络中全连接层输出的向量，z＝(z₁,z₂,…z_n)；f(z)为softmax的输出量。

步骤S104，以所述深度学习模块的输出为索引，建立参考数据库的识别模型。

具体地，对于训练好的深度学习模块(深度神经网络)，优选将其最后一个全连接层作为图像特征建模的输出，用于图像块建模和索引；在复原图像之前，需要对每个文字所对应的图像块进行深度神经网络特征提取，进行特征建模索引，生成关于参考数据库的识别模型；在对需要恢复的模糊图像进行处理时，可直接使用离线索引的特征，从而方便、快捷地找到对应相似度最大的前N个图像块。

在本实施例中，通过构建参考数据库，不仅缩短了模糊文字图像恢复的流程，提高了模糊文字图像增加的效率；同时，引入的深度神经网络可大幅度提高图像块搜索的鲁棒性，提高了模糊文字图像的复原能力。

实施例3

步骤S401，提取每个测试图像块的深度神经网络特征；

具体地，针对每个测试图像块在参考数据库中检索与其最相似的10个预设图像块，在搜索时，采用度神经网络特征与L1距离进行度量。

步骤S402，按以下公式计算每个测试图像块对应的深度神经网络特征与参考数据库中的预设图像块的深度神经网络特征之间的距离测度；

d(p,q)＝||p-q|| (2)

式(2)中，d(p,q)为测试图像块与预设图像块之间深度神经网络特征的距离测度，p、q分别为图像块的CNN特征向量；

将公式(2)具体展开，可得如下公式：

d(p,q)＝|p₁-q₁|+|p₂-q₂|+…|p_n-q_n|

其中，p、q分别为图像块的CNN特征向量；p＝(p₁,p₂,…,p_n)和q＝(q₁,q₂,…,q_n)，每个特征为n维向量。

步骤S403，筛选出多个距离测度值最小的图像块为最相似预设图像块。

具体地，在参考数据库中与目标搜索图像块之间的距离测度值最小的10个预设图像块为最相似预设图像块。

在本实施例中，通过采用深度神经网络特征，其具有较高的表征能力，在搜索高清的图像块时更具鲁棒，对于复杂真实环境下的模糊图片具有很好的复原能力，提高了模糊图像复原能力。

实施例4

步骤S501，将图像中每个位置对应的待恢复图像块与最相似预设图像块之间的映射关系固定为一比十，将十个最相似预设图像块按以下公式加权融合进行计算，得到复原图像块；

式(3)中，f(x,y)为融合后的图像块函数，g_k(x,y)为对应搜索到的参考数据库中最相似预设图像块，ω(x_k)为融合系数；

具体地，该融合系数可表达为如下形式：

其中，x_i表示模糊测试图像块的特征参数p和检索到的前十的预设图像块q_i的特征参数距离的倒数，通过图像块函数将前十的相似预设图像块融合为一个复原图像块，因此，可将待复原的图像中所对应的所有测试图像块按上述方式进行融合，得到该图像加权融合的复原图像块。

步骤S502，将每个所述复原图像块划分成四个胞元，按以下公式以胞元为基本单位逐个像素加权融合得到复原图像；

式(4)中，g(x,y)为最终融合后的胞元，f_k(x,y)为对应交叠的四个胞元，(x,y)为胞元像素点的位置标识，ω_k(x,y)为权重系数。

具体地，由于图像被分割成图像块时，设置的交叠比例为50％，因此，将图像中每个图像块按上述方式分割成四个胞元，如图6所示，为本发明提供一种基于深度神经网络的模糊文字增强方法中胞元结构示意图；图中16*16pix的图像块被分割成四个8*8pix的胞元，按照公式(4)进行加权融合，其中，ω_k(x,y)为权重系数的具体计算方式为：

其中，||P_k(x,y)||₂为欧几里得距离公式，为对应胞元上点(x,y)到对应图像块中心(x',y')的距离，ω'_k(x,y)为权重系数归一化后的值，采用其为最终融合权重系数。

在本实施例中，通过对图像块与胞元分别进行加权融合，且在第一次加权融合的基础上再进行第二次加权融合，提高了模糊文字的清晰度，便于后期文字图像的识别。

实施例5

图7显示为本发明提供一种基于深度神经网络的模糊文字增强方法的第一实施流程图，包括：将文字不清楚的“邪”字图像进行复原，首先，依次将其归一化处理与分块处理，得到16个测试图像块；按照图像的所处的位置不同分别对16个测试图像块进行标识，如：图像块1至图像块16，分别以标识的测试图像块为目标检索，在参考数据库中检索与其对应的10个最相似的预设图像块，将这10个最相似的预设图像块进行加权融合，分别得到对应测试图像块(图像块1至图像块16)的复原图像块(去噪的图像块)；将“邪”字图像对应复原图像块按胞元为基本单位逐个像素加权融合得到去噪后的“邪”字图像，如图7中所示，明显的增加了模糊文字的清晰度，便于直观认识；同时，针对包含文字行的图像块，也可按照本方法进行模糊文字的恢复。

实施例

图8显示为本发明提供一种基于深度神经网络的模糊文字增强装置结构框图；包括：

参考数据库1，用于建立参考数据库；

具体地，建立参考数据库的目的为了构建一个用于文字去模糊的先验知识库，专门用于辅助模糊图像增强。

采集模块2，用于采集包含文字的测试图像；

具体地，采集的包含文字图像为待恢复的模糊文字测试图像(图片)，该文字包含文字行、文本行、字符等。

处理模块3，用于将所述测试图像按图像块划分规则分割成多个测试图像块；

检索模块4，用于在所述参考数据库中以每个所述测试图像块为目标搜索索引，筛选出与所述图像块最相似的多个预设图像块；

融合模块5，用于根据融合系数将多个最相似的预设图像块加权融合为复原图像块，将所述图像对应相邻的复原图像块加权融合得到复原图像。

具体地，先将最相似的多个预设图像块进行加权融合，按照待恢复的图像中所对应的图像块均加权融合得到其对应复原图像块；将所有复原图像块按照像素点逐一加权融合得到复原图像。

图9显示为本发明提供一种基于深度神经网络的模糊文字增强装置中数据库结构框图，包括：

采集单元11，用于采集文字清晰的图像，且其中每个文字均包含多张不同形式的图像；

具体地，采集的文字清晰的图像均为高质量图片，且为了考虑文字的覆盖率以及图片数量，所采集的图片至少应包括常用汉字库、次常用汉字库以及其他常见字符，另外，考虑同一文字可能书写(表达)方式不同，所以，每个文字均包含多张不同形式的图像，至少保证先验知识库的文字尽可能的完整性，用于支撑后续模糊图片增强时的特征空间。

处理单元12，将所述图像归一化处理且将其分割成多个预设图像块，其中，每个所述预设图像块按文字与分块位置进行标识；

具体地，将采集的文字清晰的图像进行归一化处理，主要对图像的尺寸的归一化、灰度化、对比度增强等，将图像转换成相应的唯一标准形式；其次，对归一化的图像进行分块处理，将其分割成多个预设图像块，分块处理的尺寸(Block Size)可以设置在10到40像素左右，此处优选将其固定为图像块尺寸的一半，即相邻预设图像块之间重合度为50％，且预设图像块之间的位移增量为该图像块的宽、高的50％，如图3显所示，为本发明提供一种基于深度神经网络的模糊文字增强方法中图像分割示意图；在图中每个预设图像块尺寸为16*16pix，图像块均有8pix与相邻的另一预设图像块之间重合，图像中按照文字与分块位置共同进行标识，即同一文字且同一位置分割出的图像块才被标识为同一个标签，判定为一类图像块。

训练单元13，用于基于softmaxwithloss结构采用卷积神经网络算法训练所述预设图像块得到深度学习模块；

模型识别单元14，以所述深度学习模块的输出为索引，建立参考数据库的识别模型。

图10显示为本发明提供一种基于深度神经网络的模糊文字增强装置中检索模块结构框图，包括：

提取单元41，用于提取每个测试图像块的深度神经网络特征；

计算单元42，用于按以下公式计算每个测试图像块对应的深度神经网络特征与参考数据库中的预设图像块的深度神经网络特征之间的距离测度，

d(p,q)＝||p-q|| (2)

将公式(2)具体展开，可得如下公式：

d(p,q)＝|p₁-q₁|+|p₂-q₂|+…|p_n-q_n|

其中，p、q分别为图像块的CNN特征向量；p＝(p₁,p₂,…,p_n)和q＝(q₁,q₂,…,q_n)，每个特征为n维向量

筛选单元43，用于筛选出多个距离测度值最小的图像块为最相似预设图像块。

图11显示为本发明提供一种基于深度神经网络的模糊文字增强装置中融合模块结构框图，包括：

第一融合单元51，用于将图像中每个位置对应的待恢复图像块与最相似预设图像块之间的映射关系固定为一比十，将十个最相似图像块按以下公式加权融合进行计算，得到复原图像块；

式(3)中，f(x,y)为融合后的图像块函数，g_k(x,y)为对应搜索到的参考数据库中最相似图像块，ω(x_k)为融合系数；

具体地，该融合系数可表达为如下形式：

其中，x_i表示模糊测试图像块的特征参数p和检索到的前十的预设图像块q_i的特征参数距离的倒数，通过图像块函数将前十的相似图像块融合为一个复原图像块，因此，可将待复原的图像中所对应的所有测试图像块按上述方式进行融合，得到该图像加权融合的图像块。

第二融合单元52，用于将每个所述复原图像块划分成四个胞元，按以下公式以胞元为基本单位逐个像素加权融合得到复原图像；

具体地，由于图像被分割成图像块时，设置的交叠比例为50％，因此，将图像中每个复原图像块按照上述方式分割成四个胞元，如图7所示，为本发明提供一种基于深度神经网络的模糊文字增强方法中胞元结构示意图；图中16*16pix的图像块被分割成四个8*8pix的胞元，按照公式(4)进行加权融合，其中，ω_k(x,y)为权重系数的具体计算方式为：

综上所述，本发明通过构建参考数据库并在该数据库中训练识别模型，采集包含文字的测试图像，将测试图像分割成多个待测试图像块，在数据库中基于深度神经网络特征匹配该图像块最相似的预设图像块，加权融合多个最相似预设图像块得到复原图像块，按图像位置将相邻复原图像块复原成清晰图像。在建立参考数据与图像块检索时引入深度神经网络特征，提高了图像块的鲁棒性；即使处于离线状态也能通过训练的数据库将包含模糊的文字图像复原成清晰的图像，便于显示或识别图像中文字，提高了图像中文字的识别度和清晰度。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于深度神经网络的模糊文字增强的方法，其特征在于，包括：

建立参考数据库，包括：采集文字清晰的图像，且其中每个文字均包含多张不同形式的图像；将所述图像归一化处理且将其分割成多个预设图像块，其中，每个所述预设图像块按文字与分块位置进行标识；基于softmaxwithloss结构采用卷积神经网络算法训练每个标识相同的预设图像块得到深度学习模块；以所述深度学习模块的输出为索引，建立参考数据库的识别模型；

采集包含文字的测试图像；

将所述测试图像按图像块划分规则分割成多个测试图像块；

2.根据权利要求1所述的基于深度神经网络的模糊文字增强的方法，其特征在于，所述基于softmaxwithloss结构采用卷积神经网络算法训练所述预设图像块得到深度学习模块的步骤，包括：

采用文字清晰且标识相同的预设图像块，基于分类目标优化的softmaxwithloss结构采用卷积神经网络算法训练每个图像块得到深度学习模块，其中，所述softmaxwithloss结构如下：

3.根据权利要求1所述的基于深度神经网络的模糊文字增强的方法，其特征在于，所述在所述参考数据库中以每个所述测试图像块为目标搜索索引，筛选出与所述图像块最相似的多个预设图像块的步骤，包括：

提取每个测试图像块的深度神经网络特征，按以下公式计算每个测试图像块对应的深度神经网络特征与参考数据库中的预设图像块的深度神经网络特征之间的距离测度，筛选出多个距离测度值最小的图像块为最相似预设图像块；

d(p,q)＝||p-q|| (2)

式(2)中，d(p,q)为测试图像块与预设图像块之间深度神经网络特征的距离测度，p、q分别为图像块的CNN特征向量。

4.根据权利要求1所述的基于深度神经网络的模糊文字增强的方法，其特征在于，所述根据融合系数将多个最相似的预设图像块加权融合为复原图像块，将所述图像对应相邻的复原图像块加权融合得到复原图像的步骤，包括：

将图像中每个位置对应的待恢复图像块与最相似预设图像块之间的映射关系固定为一比十，将十个最相似图像块按以下公式加权融合进行计算，得到复原图像块；

将每个所述复原图像块划分成四个胞元，按以下公式以胞元为基本单位逐个像素加权融合得到复原图像；

5.一种基于深度神经网络的模糊文字增强的装置，其特征在于，包括：

参考数据库，用于建立参考数据库，包括：采集单元，用于采集文字清晰的图像，且其中每个文字均包含多张不同形式的图像；处理单元，将所述图像归一化处理且将其分割成多个预设图像块，其中，每个所述预设图像块按文字与分块位置进行标识；训练单元，用于基于softmaxwithloss结构采用卷积神经网络算法训练每个标识相同的预设图像块得到深度学习模块；模型识别单元，以所述深度学习模块的输出为索引，建立参考数据库的识别模型；

采集模块，用于采集包含文字的测试图像；

6.根据权利要求5所述的基于深度神经网络的模糊文字增强的装置，其特征在于，所述训练单元具体包括：

采用文字清晰且标识相同的预设图像块，基于分类目标优化的softmaxwithloss结构采用卷积神经网络算法训练每个预设图像块得到深度学习模块，其中，所述softmaxwithloss结构如下：

7.根据权利要求5所述的基于深度神经网络的模糊文字增强的装置，其特征在于，所述检索模块具体包括：

提取单元，用于提取每个测试图像块的深度神经网络特征；

计算单元，用于按以下公式计算每个测试图像块对应的深度神经网络特征与参考数据库中的预设图像块的深度神经网络特征之间的距离测度，

d(p,q)＝||p-q|| (2)

筛选单元，用于筛选出多个距离测度值最小的图像块为最相似图像块。

8.根据权利要求5所述的基于深度神经网络的模糊文字增强的装置，其特征在于，所述融合模块具体包括：

第一融合单元，用于将图像中每个位置对应的待恢复图像块与最相似预设图像块之间的映射关系固定为一比十，将十个最相似图像块按以下公式加权融合进行计算，得到复原图像块；

第二融合单元，用于将每个所述复原图像块划分成四个胞元，按以下公式以胞元为基本单位逐个像素加权融合得到复原图像；