CN112016545A

CN112016545A - 一种包含文本的图像生成方法及装置

Info

Publication number: CN112016545A
Application number: CN202010800615.8A
Authority: CN
Inventors: 费志军; 邱雪涛; 何朔
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-01

Abstract

本发明提供一种包含文本的图像生成方法及装置，属于计算机技术领域，涉及人工智能和计算机视觉技术。其中，包含文本的图像生成方法包括：获取第一样本图像中各个像素点的像素值；根据像素值，确定所述第一样本图像中的文本区域；将所述第一样本图像进行图像语义分割，得到多个语义分割区域；根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域；获取目标文本图像，并将所述目标文本图像与所述目标背景区域融合，生成第二样本图像。

Description

一种包含文本的图像生成方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种包含文本的图像生成方法及装置。

背景技术

门头，是指企业、事业单位和个体工商户在门口设置的牌匾及相关设施，是一个商铺店门外的装饰形式，是美化销售场所和装饰店铺、吸引顾客的一种手段。

商户的门头中一般包含有商户名称、商户地址等文字内容，在审核商户真实性时，需要根据商户门头中的商户名称进行信息核对。目前一般利用文本识别模型对商户门头图像中的商户名称进行识别。为了训练文本识别模型，需要大量标注的商户门头图像作为训练样本。但依靠巡检人员前往商铺的地址进行拍照得到的商户门头图像数量较少，无法满足网络模型的训练要求。

发明内容

本发明实施例提供了一种包含文本的图像生成方法及装置，用于增加网络模型的训练样本数量，提高网络模型的训练效果和准确度。

一方面，本发明实施例提供了一种包含文本的图像生成方法，包括：

获取第一样本图像中各个像素点的像素值；

根据像素值，确定所述第一样本图像中的文本区域；

将所述第一样本图像进行图像语义分割，得到多个语义分割区域；

根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域；

获取目标文本图像，并将所述目标文本图像与所述目标背景区域融合，生成第二样本图像。

所述根据像素值，确定所述第一样本图像中的文本区域，包括：

将所述第一样本图像输入文本定位模型，通过所述文本定位模型对所述第一样本图像进行特征统计，得到所述第一样本图像中的多个待选文本区域；

利于非极大值抑制算法，对所述多个待选文本区域进行合并过滤，得到所述第一样本图像中的文本区域。

进一步地，所述获取目标文本图像，并将所述目标文本图像与所述目标背景区域融合，生成第二样本图像，包括：

确定目标文本内容，以及所述目标文本内容对应的文本信息；

根据所述目标文本内容和文本信息，生成目标文本图像；

采用图像融合算法，将所述目标文本图像与所述目标背景区域融合，生成所述第二样本图像。

进一步地，所述将所述第一样本图像进行图像语义分割，得到多个语义分割区域之后，所述根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域之前，还包括：

确定所述第一样本图像中文本区域的面积，将面积小于第一面积阈值的文本区域删去；

确定所述语义分割区域的面积，将面积小于第二面积阈值的语义分割区域删去。

一种包含文本的图像生成装置，所述装置包括：

获取单元，用于获取第一样本图像中各个像素点的像素值；

文本单元，用于根据像素值，确定所述第一样本图像中的文本区域；

分割单元，用于将所述第一样本图像进行图像语义分割，得到多个语义分割区域；

重合单元，用于根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域；

融合单元，用于获取目标文本图像，并将所述目标文本图像与所述目标背景区域融合，生成第二样本图像。

进一步地，所述文本单元，具体用于：

进一步地，所述融合单元，具体用于：

根据所述目标文本内容和文本信息，生成目标文本图像；

进一步地，所述重合单元，还用于：

另一方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面的包含文本的图像生成方法。

另一方面，本发明实施例还提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现第一方面的包含文本的图像生成方法。

本发明实施例可以利用第一样本图像生成第二样本图像。首先获取第一样本图像中各个像素点的像素值。根据像素值，确定第一样本图像中的文本区域，并将第一样本图像进行图像语义分割，得到多个语义分割区域。之后根据文本区域与语义分割区域的重合关系，从多个语义分割区域中确定目标背景区域。获取目标文本图像后，将目标文本图像与目标背景区域相融合，得到第二样本图像。本发明实施例中，通过文本定位，确定出第一样本图像中出现文字的文本区域，又通过图像语义分割，将第一样本图像中的不同语义实体进行细化分割，得到如商户门头、人、车、建筑物等语义分割区域。结合文本区域与语义分割区域的重合关系，从多个语义分割区域中得到出现过文本的语义分割区域作为目标背景区域，将目标背景区域与获取的目标文本图像进行图像融合，得到第二样本图像。本发明实施例通过将第一样本图像的目标背景区域中的文本进行替换得到第二样本图像，即针对第一样本图像的商户门头区域中的商户名称，可以对原有的商户名称进行替换以得到新的样本图像。从而可以根据现有的样本图像生成新的样本图像，且生成的新样本图像与拍摄的样本图像相似度较大，进而较适合作为文字识别模型的训练样本，可以提高文字识别模型训练的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种包含文本的图像生成方法的***架构示意图；

图2为本发明实施例提供的一种包含文本的图像生成方法的流程图；

图3为本发明实施例提供的一种包含文本的图像生成装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下对本发明实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

像素点：是指在由一个数字序列表示的图像中的一个最小单位，也称为像素。像素是整个图像中不可分割的单位或者是元素。每一个点阵图像包含了一定量的像素，这些像素决定图像在屏幕上所呈现的大小。一张图片由好多的像素点组成。例如图片尺寸是500×338的，表示图片是由一个500×338的像素点矩阵构成的，这张图片的宽度是500个像素点的长度，高度是338个像素点的长度，共有500×338＝149000个像素点。把鼠标放在一个图片上，这个时候会显示尺寸和大小，这里的尺寸就是像素。

CNN：(Convolutional Neural Networks，卷积神经网络)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学***移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络。

非极大值抑制：(Non-Maximum Suppression,NMS)，顾名思义就是抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。

图像语义分割：(Semantic Segmentation)是图像处理和是机器视觉技术中关于图像理解的重要一环，也是AI领域中一个重要的分支。语义分割即是对图像中每一个像素点进行分类，确定每个点的类别(如属于背景、人或车等)，从而进行区域划分。目前，语义分割已经被广泛应用于自动驾驶、无人机落点判定等场景中。

泊松图像编辑算法：是泊松方程的一个重要应用，在图像编辑中具有较好的效果，可以实现图像的无缝融合。选择融合区域的过程简单且方便，最终可以得到无缝融合的结果。

CRAFT：(Character Region Awareness For Text detection，文本检测中的字符区域识别)一种用于文本定位的深度网络结构，提出单字分割以及单字间分割的方法，更符合目标检测这一核心概念，不是把文本框当做目标，这样使用小感受野也能预测大文本和长文本，只需要关注字符级别的内容而不需要关注整个文本实例，还提出如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法。

CTPN：(Connectionist Text Proposal Network，基于链接关系的文本区域建议网络)一种用于文本定位的深度网络结构，CTPN结合CNN与LSTM深度网络，能有效的检测出复杂场景的横向分布的文字，是目前效果比较好的文字检测算法。

FCN：(Fully Convolutional Networks for Semantic Segmentation，用于图像语义分割的全卷积神经网络)一种用于图像语义分割的深度网络结构，与CNN的区别是，CNN卷积层之后连接的是全连接层；FCN卷积层之后仍连接卷积层，输出的是与输入大小相同的特征图。

为了解决相关技术中的技术问题，本发明实施例提供了一种包含文本的图像生成方法及装置。本发明实施例提供的包含文本的图像生成方法可以应用于目标包含文本的图像生成场景等。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

本发明实施例提供的包含文本的图像生成方法的一种应用场景可以参见图1所示，该应用场景中包括终端设备101、服务器102和数据库103。

其中，终端设备101为具有拍照或摄像功能，可以安装各类客户端，并且能够将已安装的客户端的运行界面进行显示的电子设备，该电子设备可以是移动的，也可以是固定的。例如，手机、平板电脑、笔记本电脑、台式电脑、各类可穿戴设备、智能电视、车载设备或其它能够实现上述功能的电子设备等。客户端可以是视频客户端或浏览器客户端等。各终端设备101通过通信网络与服务器102连接，该通信网络可以是有线网络或无线网络。服务器102可以是客户端对应的服务器，可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心，或者是一个虚拟化平台。

其中，图1是以数据库103独立于所述服务器102存在进行说明的，在其他可能的实现方式中，数据库103也可以位于服务器102中。

服务器102与数据库103连接，数据库103中存储有训练图像等，终端设备101拍摄商户图像后向服务器102发送，服务器102将商户图像作为第一样本图像存储于数据库103，并且服务器102还根据拍摄的第一样本图像生成第二样本图像，存储于数据库103。服务器102训练文字识别模型时，从数据库103中获取第一样本图像和第二样本图像，用于对文字识别模型进行训练。

需要说明的是，本发明提供的包含文本的图像生成方法可以应用于服务器102，由服务器执行本发明实施例提供的包含文本的图像生成方法；也可以由服务器102与终端设备101中的客户端配合完成。

图2示出了本发明一个实施例提供的包含文本的图像生成方法的流程图。如图2所示，该方法包括如下步骤：

步骤S201，获取第一样本图像中各个像素点的像素值。

其中，第一样本图像可以包括但不限于jpg、bmp、tif、gif、png等格式的图像文件，第一样本图像也可以是视频文件中的各个视频帧。第一样本图像可以是终端设备实时拍摄后上传的图像，或者第一样本图像可以是从网络中获取的图像，或者，第一样本图像可以是本地存储的图像。

服务器获取第一样本图像后，确定第一样本图像中各个像素点的像素值。像素值是图像被数字化时由计算机赋予的值，它代表了一个像素点的平均亮度信息，或者说是该像素点的平均反射(透射)密度信息。本发明实施例中，像素点的像素值可以是RGB色彩模式的颜色值，也可以是HSV(Hue-Saturation-Value，色调-饱和度-明度)颜色模型的颜色值，还可以是像素点的灰度值。

本领域技术人员应能理解，上述几种场景和图像来源仅为举例，基于这些范例进行的适当变化也可适用于本发明，本发明实施例并不对目标图像的来源和场景进行限定。

步骤S202、根据像素值，确定所述第一样本图像中的文本区域。

文本是指图像中存在的汉字以及其它字符，例如，数字字符、英文字符等。具体实施过程中，第一样本图像中的像素点可以分为文本像素点和非文本像素点，根据像素点的像素值可以将目标图像中的所有像素点进行分类，确定每一个像素点是文本像素点还是非文本像素点。具体地，可以利用算法模型对像素点进行分类，将第一样本图像输入CNN网络中，对第一样本图像进行特征提取，输出的结果与像素点一一对应，例如，若像素点为文本像素点，则对该像素点标记为1，若像素点为非文本像素点，则对该像素点标记为0。

然后，根据像素点的分类，将所有文本像素点聚集在一起，相邻的文本像素点可以形成一个文本连通域，所有文本像素点可以形成一个或多个文本连通域。再根据这多个文本连通域，可以确定出第一样本图像中的文本区域。

本发明实施例中对像素点进行分类的算法模型，也可以是其它深度学习网络模型，如CRAFT、CTPN等文本定位算法，这里仅为举例，不做限制。

步骤S203、将所述第一样本图像进行图像语义分割，得到多个语义分割区域。

图像语义分割是指像素级地识别图像，即标注出图像中每个像素点。简单来说，分割的目标一般是将一张RGB图像(height*width*3)或是灰度图(height*width*1)作为输入，输出的是分割图，其中每一个像素点包含了其类别的标签所属的对象类别。这样相邻且相同类别的像素点聚合起来，得到语义分割区域。

可以采用Unet算法或FCN对输入的第一样本图像进行图像语义分割。例如，通过FCN对图像进行像素级的分类，与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类不同，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层得到的图像特征值进行上采样,使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息，最后在上采样的特征图上进行逐像素分类。

这样，第一样本图像中的每一个像素点对应一个像素分类，一般同一个物体的像素点对应同一个像素分类，可以根据像素分类将第一样本图像分割为多个语义分割区域，每个语义分割区域对应一个物体。例如，第一样本图像中的一个行人为一个语义分割区域、一辆汽车为一个语义分割区域、一个建筑为一个语义分割区域。

步骤S204、根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域。

具体实施过程中，可以根据文本区域的位置以及语义分割区域的位置计算文本区域与语义分割区域的重合关系。例如计算文本区域a与语义分割区域b之间重合的像素点的个数，将重合的像素点个数与文本区域a的像素点个数相对比，得到文本区域a与语义分割区域b的重合关系。若该重合关系大于阈值，则将该语义分割区域作为文本可替换的目标背景区域。

现有技术中，一般直接基于图像融合技术生成新的文本图像，但这种方式由于没有进行图像语义分割，因此新的文本可能出现在不遵循自然规律或不可能出现的位置，比如天空中或大海中，这样与实际的图像差异过大，不利于后续算法模型的训练。本发明实施例中，根据文本区域与语义分割区域的重合关系，从语义分割区域中确定目标背景区域，从而目标背景区域是实际就存在文本的语义分割区域，文本替换后生成的图像较为接近真实拍摄的图像，从而作为训练样本，提高了算法模型训练的准确度。

步骤S205、获取目标文本图像，并将所述目标文本图像与所述目标背景区域融合，生成第二样本图像。

进一步地，上述步骤S202、所述根据像素值，确定所述第一样本图像中的文本区域，包括：

文本定位模型可以为CNN网络模型，具体如MERS、SWT等。具体实施过程中，将第一样本图像各个像素点的像素值输入文本定位模型中，通过文本定位模型中交替的卷积操作和池化操作得到每一个像素点的像素特征提取结果。根据文本定位模型学习到的历史图像中像素点的分类结果，确定第一样本图像中每个像素点的分类结果，其中，像素点的分类结果为像素点为文本像素点或非文本像素点。

之后，相邻且相同分类结果的像素点连通形成文本连通域，并根据文本连通域得到第一样本图像中的多个待选文本区域。一般来说，在对文本定位中，经文本定位模型提取特征并分类识别后，针对图像中的一个文本，会得到多个候选文本区域。本发明实施例中利用非极大值抑制算法从多个候选文本区域中选择出文本区域。其中，经文本定位模型分类后，每个候选文本区域对应一个得分，将这些得分排序，选取得分最高的候选文本区域，接下来计算其它候选文本区域与得分最高的候选文本区域的重合度，如果重合度大于一定阈值则删除其它候选文本区域，这样不停的迭代下去就会得到最终的文本区域。

另一方面，本发明实施例中可以利用Unet的CNN网络结构，对第一样本图像进行语义分割，获得多个语义分割区域。

进一步地，将所述第一样本图像进行图像语义分割，得到多个语义分割区域之后，根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域之前，还包括：

具体来说，由于商户门头图片中的商户名称一般为包含文本的区域中面积最大的，因此，可以根据面积对第一样本图像中的文本区域以及语义分割区域进行噪声过滤，即确定每一个文本区域的面积，将面积小于第一面积阈值的文本区域删除；同时，确定每一个语义分割区域的面积，将面积小于第二面积阈值的语义分割区域删去。

根据所述目标文本内容和文本信息，生成目标文本图像；

具体实施过程中，目标文本内容可以为用户通过终端输入的文字，服务器获取目标文本内容后，随机选择字体、文字颜色等文本信息，并依据目标文本内容和文本信息，生成目标文本图像。

之后，采用图像融合算法，例如泊松图像编辑算法，将目标文本图像与目标背景区域相融合，形成第二样本图像。这里的泊松图像编辑算法是将一个将前景图像融合进背景图像中的方法，本发明实施例中的前景图像即为目标文本图像，融合过程泊松图像编辑算法改变图像中颜色以及梯度，达到前景图像与背景图像无缝融合效果。

以下通过具体实例说明本发明实施例提供的包含文本的图像生成方法的实现过程。

1、文本定位过程

(1)采用MERS、SWT等文本定位模型初步筛第一样本图像中的文字区域TC。

(2)采用非极大值抑制方法对TC进行合并过滤。

2、图像语义分割过程

采用U-net方法对输入的第一样本图像进行语义分割，获得图像语义分割区域SC。

3、文字语义归并过程

(1)将文本区域TC中区域面积小于阈值S1的区域滤除。

(2)将图像语义分割区域SC中面积小于阈值S2的区域滤除。

(3)计算TC与SC的重合关系，获得可替换文本的图像语义分割区域TSC。

4、文字图像生成过程

确定接收到的目标文本内容，随机选择字体、文本颜色，生成文本图像TImg。

5、图像融合模块：采用泊松图像编辑算法将TImg与TSC进行融合，从而生成新的商户门头图片。

下述为本发明装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图3，其示出了本发明一个实施例提供的包含文本的图像生成装置的结构方框图。该装置包括：

获取单元301，用于获取第一样本图像中各个像素点的像素值；

文本单元302，用于根据像素值，确定所述第一样本图像中的文本区域；

分割单元303，用于将所述第一样本图像进行图像语义分割，得到多个语义分割区域；

重合单元304，用于根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域；

融合单元305，用于获取目标文本图像，并将所述目标文本图像与所述目标背景区域融合，生成第二样本图像。

可选的，所述文本单元302，具体用于：

可选的，所述融合单元305，具体用于：

根据所述目标文本内容和文本信息，生成目标文本图像；

可选的，所述重合单元304，还用于：

与上述方法实施例相对应地，本发明实施例还提供了一种电子设备。该电子设备可以是服务器，如图1中所示的服务器102，也可以是终端，如图1中所示的终端设备101，该电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、GPU(Graphics ProcessingUnit，图形处理单元)、DSP或FPGA实现。对于存储器来说，存储器中存储有操作指令，该操作指令可以为计算机可执行代码，通过该操作指令来实现上述本发明实施例的视频筛选方法的流程中的各个步骤。

图4为本发明实施例提供的一种电子设备的结构示意图；如图4所示，本发明实施例中该电子设备70包括：处理器71、显示器72、存储器73、输入设备76、总线75和通讯设备74；该处理器71、存储器73、输入设备76、显示器72和通讯设备74均通过总线75连接，该总线75用于该处理器71、存储器73、显示器72、通讯设备74和输入设备76之间传输数据。

其中，存储器73可用于存储软件程序以及模块，如本发明实施例中的包含文本的图像生成方法对应的程序指令/模块，处理器71通过运行存储在存储器73中的软件程序以及模块，从而执行电子设备70的各种功能应用以及数据处理，如本发明实施例提供的包含文本的图像生成方法。存储器73可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个应用的应用程序等；存储数据区可存储根据电子设备70的使用所创建的数据(比如动画片段、控制策略网络)等。此外，存储器73可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器71是电子设备70的控制中心，利用总线75以及各种接口和线路连接整个电子设备70的各个部分，通过运行或执行存储在存储器73内的软件程序和/或模块，以及调用存储在存储器73内的数据，执行电子设备70的各种功能和处理数据。可选的，处理器71可包括一个或多个处理单元，如CPU、GPU(Graphics Processing Unit，图形处理单元)、数字处理单元等。

本发明实施例中，处理器71将生成的动画片段通过显示器72展示给用户。

处理器71还可以通过通讯设备74连接网络，如果电子设备是终端设备，则处理器71可以通过通讯设备74与游戏服务器之间传输数据。如果电子设备是游戏服务器，则处理器71可以通过通讯设备74与终端设备之间传输数据。

该输入设备76主要用于获得用户的输入操作，当该电子设备不同时，该输入设备76也可能不同。例如，当该电子设备为计算机时，该输入设备76可以为鼠标、键盘等输入设备；当该电子设备为智能手机、平板电脑等便携设备时，该输入设备76可以为触控屏。

本发明实施例还提供了一种计算机存储介质，该计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于实现本发明任一实施例的包含文本的图像生成方法。

在一些可能的实施方式中，本发明提供的包含文本的图像生成方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的包含文本的图像生成方法的步骤，例如，计算机设备可以执行如图2所示的步骤S201至S205中的包含文本的图像生成流程。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种包含文本的图像生成方法，其特征在于，所述方法包括：

获取第一样本图像中各个像素点的像素值；

根据像素值，确定所述第一样本图像中的文本区域；

2.根据权利要求1所述的方法，其特征在于，所述根据像素值，确定所述第一样本图像中的文本区域，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取目标文本图像，并将所述目标文本图像与所述目标背景区域融合，生成第二样本图像，包括：

根据所述目标文本内容和文本信息，生成目标文本图像；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述将所述第一样本图像进行图像语义分割，得到多个语义分割区域之后，所述根据所述文本区域与语义分割区域的重合关系，从所述多个语义分割区域中确定目标背景区域之前，还包括：

5.一种包含文本的图像生成装置，其特征在于，所述装置包括：

获取单元，用于获取第一样本图像中各个像素点的像素值；

6.根据权利要求5所述的装置，其特征在于，所述文本单元，具体用于：

7.根据权利要求5所述的装置，其特征在于，所述融合单元，具体用于：

根据所述目标文本内容和文本信息，生成目标文本图像；

8.根据权利要求5至7任一项所述的装置，其特征在于，所述重合单元，还用于：

9.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～4任一项所述的方法。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现权利要求1～4任一项所述的方法。