CN112801923A

CN112801923A - 文字处理方法、***、可读存储介质及计算机设备

Info

Publication number: CN112801923A
Application number: CN202110397741.8A
Authority: CN
Inventors: 于雪; 曾江佑; 江少锋; 熊慧江
Original assignee: Jiangxi Booway New Technology Co ltd
Current assignee: Jiangxi Booway New Technology Co ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-05-14

Abstract

本发明公开了一种文字处理方法、***、可读存储介质及计算机设备，该方法包括获取原始文字图像，并在原始文字图像中查找待修复文字的目标位置，以目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像；识别第一待修复文字图像中的原始文字高度，创建与第一待修复文字图像尺寸相同的空白图像，并在空白图像内输入与原始文字高度相同的待修复文字，得到第二待修复文字图像；将第一待修复文字图像和第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像，生成式对抗网络模型用于将第一待修复文字图像中的文字风格迁移至第二待修复文字图像中；提取目标图像中的待修复文字，并将待修复文字复制至目标位置处。

Description

文字处理方法、***、可读存储介质及计算机设备

技术领域

本发明涉及人工智能技术领域，特别涉及一种文字处理方法、***、可读存储介质及计算机设备。

背景技术

扫描图像的做旧，目标是修复图像中破损或被污染的文字，用户在损坏的文字位置输入相应的文字，软件可自动地转换文字风格，使之与原有文字的字体风格保持一致，从而实现文字的做旧。

现有技术当中，实现文字做旧的主要方案是人为地将需要修复的文字从其他图像中扣取字体风格相同的文字，通过缩放、滤镜等操作达到文字做旧的目的；或者预先识别图像中所有的文字，建立文字与图像块对应关系（即一个文字对应一个图像块），在输入需要修复的文字时，直接查找相对文字对应的图像块，根据文字大小缩放后粘贴到指定位置。

然而，上述方案中，第一种需要用户具备专业的图像处理能力，文字修复的效果由于用户水平不同而产生差异，且整个过程需要手动操作，自动化程度低，处理效率低下；第二种虽然自动化程度较高，但依赖于文字识别准确率，对于识别错误的文字无能为力，另外，一份文档中大都无法覆盖所有的文字，如果一个文字没有相对应的图像块或者字体风格存在差异，也无法达到满意的做旧效果。

发明内容

有鉴于此，本发明的目的是提供一种文字处理方法、***、可读存储介质及计算机设备，旨在解决现有技术中文字做旧处理效果差的问题。

一种文字处理方法，包括：

获取原始文字图像，并在所述原始文字图像中查找待修复文字的目标位置，以所述目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像；

识别所述第一待修复文字图像中的原始文字高度，创建与所述第一待修复文字图像尺寸相同的空白图像，并在所述空白图像内输入与所述原始文字高度相同的待修复文字，得到第二待修复文字图像；

将所述第一待修复文字图像和所述第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像，所述生成式对抗网络模型用于将所述第一待修复文字图像中的文字风格迁移至所述第二待修复文字图像中；

提取所述目标图像中的所述待修复文字，并将所述待修复文字复制至所述目标位置处。

进一步地，上述文字处理方法，其中，所述获取原始文字图像，并在所述原始文字图像中查找待修复文字的目标位置，以所述目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像的步骤包括：

判断所述目标位置处是否含有所述待修复文字；

若否，则将所述原始文字图像截取成多个所述预设大小像素的区域，遍历多个所述预设大小像素的区域，当判断到所述预设大小像素的区域中含有所述待修复文字时，则判定当前所述预设大小像素的区域为所述第一待修复文字图像。

进一步地，上述文字处理方法中，其中，所述判断到所述预设大小像素的区域中含有所述待修复文字的步骤包括：

对所述预设大小像素的区域进行黑白二值化处理，计算黑白二值化处理后的所述预设大小像素的区域中黑色像素数量占所述预设大小像素中的总像素数量的比例；

当所述比例超过预设值时，则判定所述预设大小像素中含有所述待修复文字。

进一步地，上述文字处理方法中，其中，所述识别所述第一待修复文字图像中的原始文字高度的步骤包括：

对所述第一待修复文字图像进行黑白二值化处理，利用预设像素大小的结构元素对黑白二值化的所述第一待修复文字图像进行形态学膨胀处理；

对膨胀后的所述第一待修复文字图像进行连通区域分析，得到多个连通第一待修复文字子图像块；

计算多个所述连通第一待修复文字子图像块的平均高度，得到所述第一待修复文字图像中的原始文字高度。

进一步地，上述文字处理方法中，其中，所述并将所述待修复文字复制至所述目标位置处的步骤包括：

对所述目标图像进行黑白二值化处理，对黑白二值化后的所述目标图像进行连通区域分析，得到单个文字连通子图像块的位置信息；

根据所述位置信息，从所述目标图像中截取所述待修复文字，并将所述待修复文字复制到所述原始文字图像中的所述目标位置处。

进一步地，上述文字处理方法中，其中，将所述第一待修复文字图像和所述第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像的步骤包括：

利用生成模型和判别模型构建生成式对抗网络模型，利用训练组图像对所述生成式对抗网络模型进行训练，所述训练组图像包括多组内容相同的文档扫描图像、文字图像以及修复后文字图像。

进一步地，上述文字处理方法中，其中，所述以所述目标位置为中心，截取预设大小像素的区域的步骤包括：

以所述目标位置为中心，截取256*256像素的区域。

本发明实施例还提供一种文字处理***，包括;

获取模块，用于获取原始文字图像，并在所述原始文字图像中查找待修复文字的目标位置，以所述目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像；

识别模块，用于识别所述第一待修复文字图像中的原始文字高度，创建与所述第一待修复文字图像尺寸相同的空白图像，并在所述空白图像内输入与所述原始文字高度相同的待修复文字，得到第二待修复文字图像；

生成模块，用于将所述第一待修复文字图像和所述第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像，所述生成式对抗网络模型用于将所述第一待修复文字图像中的文字风格迁移至所述第二待修复文字图像中；

提取模块，用于提取所述目标图像中的所述待修复文字，并将所述待修复文字复制至所述目标位置处。

进一步地，上述文字处理***，其中，所述获取模块包括：

判定单元，用于判断所述目标位置处是否含有所述待修复文字；

进一步地，上述文字处理***，其中，所述判定单元具体用于：

进一步地，上述文字处理***，其中，所述识别模块具体用于：

进一步地，上述文字处理***，其中，所述提取模块具体用于：

进一步地，上述文字处理***，其中，所述生成模块具体用于：

利用生成模型和判别模型构建生成式对抗网络模型，利用训练组图像对所述生成式对抗网络模型进行训练，所述训练组图像包括多组文档扫描图像、文字图像以及修复后文字图像。

进一步地，上述文字处理***，其中，所述获取模块还包括：

截取单元，用于以所述目标位置为中心，截取256*256像素的区域。

本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的文字处理方法。

本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的文字处理方法。

本发明中，采用了目前先进、流行的深度学习网络，生成式对抗网络（GAN），自动地生成所需字体风格的做旧文字，既能使文字做旧自动化、智能化，用户也不需要具备专业图像处理知识，又能满足文字做旧的通用性，不依赖于相同文字是否存在所需字体风格，便可自动地生成不同文字指定的字体风格，通过截取包含待修复文字的文字图像，并重新建立空白图像，在空白图像中输入待修复文字，利用生成式对抗网络模型将包含待修复文字的文字图像中的字体风格迁移至空白图像中的待修复文字中，使得待修复文字的字体风格与包含待修复文字的文字图像中的字体风格一致，在一个文字没有相对应的图像块或者字体风格存在差异时也能很好的对文字进行做旧，提升了文字的做旧效果。

附图说明

图1为本发明第一实施例中的文字处理方法的流程图；

图2a为扫描文档图像；

图2b为文字图像；

图2c为修复后文字图像；

图3为本发明第二实施例中的文字处理方法的流程图；

图4为本发明第三实施例中的文字处理***的结构框图；

图5为图4中获取模块的结构示意图；

图6为本发明实施例中计算机设备的硬件结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

实施例一

请参阅图1，所示为本发明第一实施例中的文字处理方法，所述方法包括步骤S10~S13。

步骤S10，获取原始文字图像，并在所述原始文字图像中查找待修复文字的目标位置，以所述目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像。

该原始文字图像为扫描装置扫描纸质文档（如试卷、作业等）得到的扫描图像或通过摄像设备（如照相机）拍照该纸质文档得到的拍照图像，也可以是从网站直接下载的图像。

在进行文字修复时，可以在原始文字图像中查找待修复文字的目标位置，以目标位置为中心，截取预设大小像素的区域，例如可以是256*256像素大小，以得到第一待修复文字图像，此时的第一待修复文字图像为原始文字图像中出现需要进行文字修复的区域。

步骤S11，识别所述第一待修复文字图像中的原始文字高度，创建与所述第一待修复文字图像尺寸相同的空白图像，并在所述空白图像内输入与所述原始文字高度相同的待修复文字，得到第二待修复文字图像。

为了最大程度完整的修复原始文字图像中的需要修复的文字，通过识别第一修复文字图像中的原始文字高度，可以确定需要修复的文字的大小，通过创建与所述第一待修复文字图像尺寸相同的空白图像，并在所述空白图像内输入与所述原始文字高度相同的待修复文字，得到第二待修复文字图像，此时的第二待修复文字图像为含有待修复文字但与原始文字图像中的文字风格不一的图像。

步骤S12，将所述第一待修复文字图像和所述第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像，所述生成式对抗网络模型用于将所述第一待修复文字图像中的文字风格迁移至所述第二待修复文字图像中。

生成式对抗网络（GAN, Generative Adversarial Networks ）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。

用该生成式对抗网络模型对第一待修复文字图像和第二待修复文字图像进行处理前需对该生成式对抗网络模型进行训练，具体实施时，利用训练组图像对该生成式对抗网络模型进行训练，该训练组图像包括多组内容相同的文档扫描图像、文字图像以及修复后文字图像。

如图2a、图2b和图2c所示，其中，文档扫描图像为实际扫描文档图像中截取的一块固定像素大小的区域，例如可以为256*256像素大小；文字图像为需要输入的文字（标准字体）图像，放置在256×256像素大小的空白图像上，需要说明的是，此时文字图像中的文字可以不需要在文档扫描图像中；修复后文字图像是根据文档扫描图像的风格，得到的文字图像中的文字字体风格迁移后的图像，即修复后的文字。

该GAN模型训练好后，以其生成模型作为图像的处理模型，即将该第一待修复文字图像和第二待修复文字图像输入至训练好的生成模型中输出目标图像，该目标图像即为待修复文字中的文字修复后的图像。

步骤S13，提取所述目标图像中的所述待修复文字，并将所述待修复文字复制至所述目标位置处。

提取所述目标图像中的所述待修复文字，此时的待修复文字为修复好的文字，通过将修复好的待修复文字复制至目标位置处，完成原始文字图像中污损的文字的修复。

本实施例中，采用了目前先进、流行的深度学习网络，生成式对抗网络（GAN），自动地生成所需字体风格的做旧文字，既能使文字做旧自动化、智能化，用户也不需要具备专业图像处理知识，又能满足文字做旧的通用性，不依赖于相同文字是否存在所需字体风格，便可自动地生成不同文字指定的字体风格，通过截取包含待修复文字的文字图像，并重新建立空白图像，在空白图像中输入待修复文字，利用生成式对抗网络模型将包含待修复文字的文字图像中的字体风格迁移至空白图像中的待修复文字中，使得待修复文字的字体风格与包含待修复文字的文字图像中的字体风格一致，在一个文字没有相对应的图像块或者字体风格存在差异时也能很好的对文字进行做旧，提升了文字的做旧效果。

实施例二

请参阅图3，为本发明第二实施例中的文字处理方法，包括步骤S20~S25。

步骤S20，获取原始文字图像，并在所述原始文字图像中查找待修复文字的目标位置，以所述目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像。

步骤S21，判断所述目标位置处是否含有所述待修复文字，若否，执行步骤S22，若是，执行步骤S23

步骤S22，将所述原始文字图像截取成多个所述预设大小像素的区域，遍历多个所述预设大小像素的区域，当判断到所述预设大小像素的区域中含有所述待修复文字时，则判定当前所述预设大小像素的区域为所述第一待修复文字图像。

具体的，对所述预设大小像素的区域进行黑白二值化处理，计算黑白二值化处理后的所述预设大小像素的区域中黑色像素数量占所述预设大小像素中的总像素数量的比例；当所述比例超过预设值时，则判定所述预设大小像素中含有所述待修复文字，其中预设值可以设置成25%。

步骤S23，识别所述第一待修复文字图像中的原始文字高度，创建与所述第一待修复文字图像尺寸相同的空白图像，并在所述空白图像内输入与所述原始文字高度相同的待修复文字，得到第二待修复文字图像。

具体的，为了识别第一待修复文字图像中的原始文字高度，对所述第一待修复文字图像进行黑白二值化处理，利用预设像素大小的结构元素对黑白二值化的所述第一待修复文字图像进行形态学膨胀处理；例如7*3像素大小的结构元素，对膨胀后的所述第一待修复文字图像进行连通区域分析，得到多个连通第一待修复文字子图像块；计算多个所述连通第一待修复文字子图像块的平均高度，得到所述第一待修复文字图像中的原始文字高度。

步骤S24，将所述第一待修复文字图像和所述第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像，所述生成式对抗网络模型用于将所述第一待修复文字图像中的文字风格迁移至所述第二待修复文字图像中

步骤S25，提取所述目标图像中的所述待修复文字，并将所述待修复文字复制至所述目标位置处。

具体的，对所述目标图像进行黑白二值化处理，对黑白二值化后的所述目标图像进行连通区域分析，得到单个文字连通子图像块的位置信息；根据所述位置信息，从所述目标图像中截取所述待修复文字，并将所述待修复文字复制到所述原始文字图像中的所述目标位置处。

本实施例中，通过对第一待修复文字图像进二值化处理，并利用预设像素大小的结构元素对第一待修复文字图像进行形态学膨胀处理后进行连通区域分析，通过计算得到的多个所述连通第一待修复文字子图像块的平均高度，得到所述第一待修复文字图像中的原始文字高度，并对所述目标图像进行黑白二值化处理，对黑白二值化后的所述目标图像进行连通区域分析，根据得到的单个文字连通子图像块的位置信息；并将所述待修复文字复制到所述原始文字图像中的所述目标位置处。

实施例三

请参阅图4，为本发明第三实施例中的文字处理***，包括：

获取模块100，用于获取原始文字图像，并在所述原始文字图像中查找待修复文字的目标位置，以所述目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像；

识别模块200，用于识别所述第一待修复文字图像中的原始文字高度，创建与所述第一待修复文字图像尺寸相同的空白图像，并在所述空白图像内输入与所述原始文字高度相同的待修复文字，得到第二待修复文字图像；

生成模块300，用于将所述第一待修复文字图像和所述第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像，所述生成式对抗网络模型用于将所述第一待修复文字图像中的文字风格迁移至所述第二待修复文字图像中；

提取模块400，用于提取所述目标图像中的所述待修复文字，并将所述待修复文字复制至所述目标位置处。

进一步地，上述文字处理***，其中，所述获取模块100包括：

判定单元110，用于判断所述目标位置处是否含有所述待修复文字；

进一步地，上述文字处理***，其中，所述判定单元110具体用于：

进一步地，上述文字处理***，其中，所述提取模块400具体用于：

进一步地，上述文字处理***，其中，所述生成模块300具体用于：

进一步地，上述文字处理***，其中，所述获取模块100还包括：

截取单元120，用于以所述目标位置为中心，截取256*256像素的区域。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图1描述的本申请实施例中文字处理方法可以由计算机设备来实现，该计算机设备可以是服务器。图6为根据本申请实施例的计算机设备的硬件结构示意图。

该计算机设备可以包括处理器71以及存储有计算机程序指令的存储器72。

具体地，上述处理器71可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器72可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器72可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（SolidState Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（Universal SerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器72可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器72可在数据处理装置的内部或外部。在特定实施例中，存储器72是非易失性（Non-Volatile）存储器。在特定实施例中，存储器72包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（RandomAccess Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable ProgrammableRead-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器72可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器71所执行的可能的计算机程序指令。

处理器71通过读取并执行存储器72中存储的计算机程序指令，以实现上述实施例中的任意一种文字处理方法。

在其中一些实施例中，计算机设备还可包括通讯接口73和总线70。其中，如图6所示，处理器71、存储器72、通讯接口73通过总线70连接并完成相互间的通信。

通讯接口73用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通讯接口73还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线70包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线70包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（Control Bus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线70可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry Standard Architecture，简称为EISA）总线、前端总线（Front Side Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry Standard Architecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、***组件互连（Peripheral Component Interconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnology Attachment，简称为SATA）总线、视频电子标准协会局部（Video ElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线70可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的文字处理方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种文字处理方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文字处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文字处理方法，其特征在于，所述获取原始文字图像，并在所述原始文字图像中查找待修复文字的目标位置，以所述目标位置为中心，截取预设大小像素的区域，得到第一待修复文字图像的步骤包括：

判断所述目标位置处是否含有所述待修复文字；

3.根据权利要求2所述的文字处理方法，其特征在于，所述判断到所述预设大小像素的区域中含有所述待修复文字的步骤包括：

4.根据权利要求1所述的文字处理方法，其特征在于，所述识别所述第一待修复文字图像中的原始文字高度的步骤包括：

5.根据权利要求1所述的文字处理方法，其特征在于，所述并将所述待修复文字复制至所述目标位置处的步骤包括：

6.根据权利要求1所述的文字处理方法，其特征在于，将所述第一待修复文字图像和所述第二待修复文字图像输入训练后的生成式对抗网络模型中，得到目标图像的步骤包括：

7.根据权利要求1所述的文字处理方法，其特征在于，所述以所述目标位置为中心，截取预设大小像素的区域的步骤包括：

以所述目标位置为中心，截取256*256像素的区域。

8.一种文字处理***，其特征在于，包括：

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的文字处理方法。

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文字处理方法。