CN111476235B

CN111476235B - 一种3d曲面文本图片的合成方法

Info

Publication number: CN111476235B
Application number: CN202010244183.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-04-25
Anticipated expiration: 2040-03-31
Also published as: CN111476235A

Abstract

本发明公开了一种3D曲面文本图片的合成方法，首先确定平面效果图片中文本行文本框的初始定位点；确定平面效果图片所在平面的基点并标注每个像素点和文本行文本框的初始定位点相应坐标；将像素坐标和文本行文本框的初始定位点坐标都带入曲线方程变换坐标得到对应的新的坐标；文本行的初始定位点根据坐标变换关系得到新定位点；由新定位点确定文本行文本框在曲面效果图片的位置并按照文本行文本框轮廓最小外接矩形分割出文本行图片，得到具有曲面的上下行干扰特征的样本，文本行图片就具有折叠和曲面文字的效果；本发明提供的方法合成曲面文本图片训练模型以适应更多的应用场景，保证平整图片识别准确率，同时也提升折叠、曲面图片的识别准确率。

Description

一种3D曲面文本图片的合成方法

技术领域

本发明涉及智能制造与图文合成技术领域，具体涉及一种OCR技术领域中神经网络训练样本3D曲面文本图片的合成方法。

背景技术

随着深度学***面；图片中文字的变形也是平面变形，最后再透视变换，没有合成折叠和曲面上文字的效果；对于曲面文字忽略了上下行部分文字特征的干扰。为了应对更为复杂的应用场景，如折叠、空间弯曲等曲面效应的影响，提升识别准确率，需要构建具有折叠、曲面效应的图片，以解决各种类型文本图片识别建模的训练样本问题。

发明内容

本发明所要解决的技术问题是：传统OCR技术领域中神经网络训练样本数据合成的曲面文本图片中文字处于同一平面，且图片中文字的变形只是平面变形，没有合成折叠和曲面上文字的效果；对于曲面文字忽略了上下行部分文字特征的干扰。

为解决上述技术问题。

本发明通过下述技术方案实现：

本发明提供一种3D曲面文本图片的合成方法，所述方法包括：

S1.确定平面效果图片中每个文本行文本框的初始定位点；

S2.确定平面效果图片所在平面的基点，标注平面效果图片上的每个像素点和文本行文本框的初始定位点相应坐标；

S3.将平面效果图片上的每个像素坐标和文本行文本框的初始定位点坐标都带入曲线方程进行坐标变换得到一一对应的新的坐标；

S4.平面效果图片上的每个像素点根据坐标变换得到的新坐标合成曲面效果图片；文本行文本框的初始定位点根据坐标变换关系得到新定位点；

S5.渲染曲面效果图片；

S6.根据新定位点确定文本行文本框在曲面效果图片的位置并按照文本行文本框轮廓最小外接矩形分割出文本行图片。

本方案工作原理：为了应对更为复杂的应用场景，如折叠、空间弯曲等曲面效应的影响，提升识别准确率，需要构建具有折叠、曲面效应的图片，以解决各种类型文本图片识别建模的训练样本问题。本方案提供的一种3D曲面文本图片的合成方法，标注图片上的每个文本行文本框的初始定位点，在对平面效果图片进行曲线方程的坐标变换合成曲面效果图片时，也对每个文本行文本框的初始定位点进行曲线方程的坐标变换合成文本行文本框的新定位点，对曲面效果图片进行相应的渲染处理后，按照文本行文本框的新定位点依据文本行文本框轮廓最小外接矩形原则分割出文本行图片，分割出的文本行图片，根据切分结果可以得到部分具有曲面的上下行干扰特征的样本，文字也具有了折叠和曲面上文字的效果，所有的文本行图片就具有了折叠和曲面文字的效果。可以适应更多的应用场景，保证平整图片识别准确率，同时也能提升折叠、曲面图片的识别准确率。

OCR技术领域中神经网络训练样本数据生成过程中，常规方法合成的曲面文本图片中，只有背景图片具有曲面效果，合成后的图片中文字变形也是平面变形，最后再透视变换，并没有合成折叠和曲面文字的效果；在本方案中，先将平面效果图片(即背景图片和文字)进行曲面合成，接下来还要对事先已确定好的文本框定位点也进行变换，合成具有与相同曲面效果的文本行文本框新的定位点，最后再根据文本行文本框新的定位点和相应规则从合成的曲面效果图片中将文本行图片分割出来。针对文本行文本框间距较小的样本，分割出来的文本图片就具有了上下行干扰的效果，并且文字也具有了折叠和曲面上文字的效果；在应对更为复杂的应用场景，如折叠、空间弯曲等曲面效应的影响，提升识别准确率，需要构建具有折叠、曲面效应的图片，以解决各种类型文本图片识别建模的训练样本问题时，可以使用本方案提供的3D曲面文本图片的合成方法生成的训练样本进模型的行训练，以适应更多的应用场景，保证平整图片识别准确率，同时也能提升折叠、曲面图片的识别准确率。

进一步优选方案为，平面效果图片的获取方法为：

首先获得文本内容、文字的属性，确定文本行文本框的最大长度；所述文字的属性包括：文字的字体、字号、字符间距；

其次将文本内容按照文本行文本框的最大长度进行分行处理，得到至少两个文本行文本框；

然后将每个文本行对应的文字嵌入文本行文本框；

最后融合文本行与背景图片得到平面效果图片。

进一步优选方案为，文本内容分行处理的方法为下列情形之一：

情形一：设置相同的文字字号，当文本内容的宽度超过文本行文本框的最大长度时，将文本内容分行得到至少两个字符间距相同的文本行；

情形二：设置相同的字符间距，当文本内容的宽度超过文本行文本框的最大长度时，将文本内容分行得到至少两个文字字号相同的文本行；

情形三：设置相同的行间距，当文本内容的宽度超过文本行文本框的最大长度时，将文本内容分行得到至少两个文字字号、字符间距相同的文本行。

曲面效果图片是以平面效果图片为基础来合成的，所以要得到完整的曲面效果图片就要先保证平面效果图片中文本内容和背景图片规格布置合理，因此生成平面效果图片前要分行处理文本内容，使得文本框在背景图片中适当展示。上述三种文字区域文本框分行处理的方法可以选择任意一种进行文字区域文本框的分行处理，以文字和文本框属性分行，便于整个文字区域文本框与背景图片合适的融合。

进一步优选方案为，平面效果图片中每个文本行文本框的初始坐标定位点方法为：在平面效果图片上每个文本行文本框的左上角点和右上角点之间等间距确定N(包括左上角点和右上角点)个定位点；在平面效果图片上每个文本行文本框的左下角点和右下角点之间等间距确定N(包括左下角点和右下角点)个定位点。

将整个文本内容细分为多个文本行文本内容，再标注每个文本行文本框定位点，将每个文本行文本框上方和下方所在的轮廓定位成多个定位点，用多个定位点来表示一个文本行文本框，在进行曲面变换时是以文本行文本框为单位进行多个坐标变化，常规技术是将按照曲面的背景区域将所有文本适当变形后贴合在背景区域，这种方法得到的曲面文本图片忽略了上下行部分文字特征。

进一步优选方案为，平面效果图片平面的基点确定方法为虚拟摄像法；

所述虚拟摄像法：以平面效果图片作为虚拟摄像头的投影平面，虚拟摄像头位于矩形平面效果图片的垂线上；虚拟摄像头到投影平面的距离为r，以平面效果图片的左下角为坐标原点。

用虚拟摄像法的投影平面与摄像头结合，让平面效果图与虚拟摄像头构成了空间效果，相应的空间坐标系的坐标原点位于平面效果图片的左下角，为合成曲面效果图片提供了空间基础。

进一步优选方案为，在S3中选择不同的曲线方程来确定曲面的形状；通过移动不同的曲线方程的峰值点，来调整曲面变换的效果。

进一步优选方案为，S5中所述对曲面效果图片进行渲染具体包括：

先对曲面效果图片进行透视变换，包括定位点的透视变换；

再对曲面效果图片进行噪声处理和模糊处理。

根据平面效果图片坐标变换后生成曲面效果图片，图片上各个像素点进行了重新合成。然后渲染图片，渲染效果包括，旋转、剪切、噪声、模糊处理等，主要是让生成图片更接近真实拍摄效果。

进一步优选方案为，S6中确定文本行文本框在曲面效果图片的位置方法为：用每个文本行文本框的新定位点坐标，计算文本行文本框的轮廓，通过计算文本行文本框轮廓最小外接矩形，确定文本行文本框的左上角点、右上角点、左下角点和右下角点4个定位角点坐标。

分割出的部分文本行图片样本具有上下行干扰。对于曲面效果强烈的部位，相应的文本行弯曲度就更强烈，针对文本行文本框间距较小的样本，会有上行或下行的部分文字出现。本发明克服现有技术的不足，创建一种合成3D曲面文本图片的方法，解决以往合成文字图片无曲面效果以及上下行干扰效果。利用对本发明提出的3D曲面文本图片合成方法得到的训练样本训练模型，可以适应更多的应用场景，保证平整图片识别准确率，同时也能提升折叠、曲面图片的识别准确率。

本发明与现有技术相比，具有如下的优点和有益效果：

1.本发明提供一种3D曲面文本图片的合成方法；标注图片上的每个文本行文本框的初始定位点，在对平面效果图片进行曲线方程的坐标变换合成曲面效果图片时，对每个文本行文本框的初始定位点也进行曲线方程的坐标变换合成文本行文本框的新定位点，最后分割出的文本行图片，得到部分具有曲面的上下行干扰特征的样本，所有的文本行图片就具有了折叠和曲面文字的效果。

2.本发明提供一种3D曲面文本图片的合成方法；使用本发明提供的方法合成曲面文本图片训练模型，可以适应更多的应用场景，保证平整图片识别准确率，同时也能提升折叠、曲面图片的识别准确率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

在附图中：

图1为本发明曲面文本图片的合成方法流程图。

图2为曲面文本图片的合成流程简图。

图3为平面效果图片到曲面效果图片变换的俯视图。

图4为平面效果图片到曲面效果图片变换的侧视图。

图5为使用本发明方法获得的翻书效果图。

图6为使用本发明方法获得的文本行文本框切分部分效果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

一种3D曲面文本图片的合成方法，所述方法包括：

S1.确定平面效果图片中每个文本行文本框的初始定位点；

S5.渲染曲面效果图片；

平面效果图片的获取方法为：

然后将每个文本行对应的文字嵌入文本行文本框；

最后将文本行与背景图片相融合得到平面效果图片。

文本内容分行处理的方法为下列情形之一：

所述平面效果图片中每个文本行文本框的初始坐标定位点方法为：在平面效果图片上每个文本行文本框的左上角点和右上角点之间等间距确定N个(包括左上角点和右上角点)定位点；在平面效果图片上每个文本行文本框的左下角点和右下角点之间等间距确定N个(包括左下角点和右下角点)定位点。

所述平面效果图片平面的基点确定方法为虚拟摄像法；

虚拟摄像法：以平面效果图片作为虚拟摄像头的投影平面，虚拟摄像头位于矩形平面效果图片的垂线上，该垂线过矩形平面效果图片的中心；虚拟摄像头到投影平面的距离为r,以平面效果图片的左下角为坐标原点。

在S3中选择不同的曲线方程来确定曲面的形状；通过移动不同的曲线方程的峰值点，来调整曲面变换的效果。

S5中所述对曲面效果图片进行渲染具体包括：

首先透视变换曲面效果图片，包括定位点的透视变换；

然后再对曲面效果图片进行噪声处理和模糊处理。

S6中确定文本行文本框在曲面效果图片的位置方法为：用每个文本行文本框的新定位点坐标，计算文本行文本框的轮廓，通过计算轮廓最小外接矩形，确定文本行文本框的左上角点、右上角点、左下角点和右下角点4个定位角点坐标。分割出的部分文本行图片样本具有上下行干扰。

实施例2

如图1和图2所示，本发明提供的一种3D曲面文本图片的合成方法，首先生成平面效果图片，在此基础上通过曲面变换得到曲面效果图片，渲染图片，最后分割出文本行文本框，为文本识别训练模型提供大量的多样化的训练样本。

生成平面效果图片

(1)选择需要的文字内容，设定文字的字体(宋体)、字体大小(四号)、字符间距(默认字体字符间距)、文本行文本框间距(15像素点)；

(2)计算每个文本行文本框的长、宽，根据文本行文本框的规格选择背景图片，这里选择的背景图片的宽度w＝1080和高度h＝1440；

(3)将文字与背景图片融合，并计算每个文本行文本框4个定位点(左上角的定位点，右上角的定位点，右下角的定位点、左下角的定位点)在图片中的位置坐标；

(4)根据每个文本行文本框左上点和右上点，等间距确定30个定位点的；根据左下点和右下点，等间距确定30个定位点。

生成曲面图片及对应的定位点坐标变换后的坐标

(1)以平面曲线图片的左下角作为坐标原点，确定虚拟摄像头的坐标位置O(w/2,h/2)，设置摄像头到投影平面的距离r＝800；

(2)如附图3和附图4所示，选择翻书效果曲线方程f(x)：

作为变换关系，分别设置参数k＝4,a＝160,b＝1000,c＝350和k＝4,a＝160,b＝1500,c＝350，查看效果；用DEPQ来表示平面图片，其中DE表示平面图片左右两边的中心点连线，PQ表示平面图片上下两边的中心点连线。

图片DEPQ上任意一点(x，y)，经过曲面映射的关系，变换到(x′，y′)；

通过移动峰值点k，来调整曲面变换效果；图中翻书效果的曲面进行了x′和y′的标注。

(4)对于合成平面图片中的每个像素点，通过坐标变换关系，合成新的具有曲面效果的图片；

(5)计算每行60个定位点变换后的位置坐标。

(6)将每个文本行文本框的60个定位点，通过坐标变换关系，生成新的坐标定位点。

曲面效果图片渲染

(1)对图片高斯模糊处理。

从曲面效果图片中分割文本行图片

(1)用每行的60个定位点坐标，计算文本行文本框的轮廓，通过计算轮廓最小外接矩形，确定文本行文本框4个定位角点坐标；

(2)根据每行4个定位点坐标，切分出文本行文本框，如图6所示，切分结果可以看见部分样本具有曲面和上下行干扰特征。

图5中展示了不同k值下的翻书效果图。

选择不同的曲线方程，实现了不同的曲面变换效果，如柱面效果、翻书效果等；

由于本发明通过多个定位点进行曲面变换，以变换后的定位点轮廓形成的最小外接矩形作为新的文本定位框，因此针对文本行文本框间距较小的样本，可以生成具有上下行干扰的训练样本。为克服现有技术的不足，本发明创建的一种合成3D曲面文本图片的方法，解决以往合成图片无曲面效果以及上下行干扰效果。通过传统合成方法和本发明提出的3D曲面文本图片合成方法得到的训练样本训练模型以适应更多的应用场景，保证平整图片识别准确率，同时也能提升折叠、曲面图片的识别准确率。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种3D曲面文本图片的合成方法，其特征在于，所述方法包括：

S1.确定平面效果图片中每个文本行文本框的初始定位点；

平面效果图片的获取方法为：

首先获得文字区域文本框和文字的属性，再将文字区域文本框分行处理得到至少2个文本行文本框以适应背景图片，最后将分行处理后的文字区域文本框与背景图片相融合得到平面效果图片；

所述文字的属性包括：文字的字体、字号、字符间距；

所述文字区域文本框的属性包括：文本框的尺寸；

文字区域文本框分行处理的方法为下列情形之一：

情形一：设置相同的文字字号，当文字区域文本框的宽度超过背景图片规定的宽度时，将文字区域文本框分行得到至少两个字符间距相同的文本行文本框；

情形二：设置相同的字符间距，当文字区域文本框的宽度超过背景图片规定的宽度时，将文字区域文本框分行得到至少两个文字字号相同的文本行文本框；

情形三：设置相同的行间距，当文字区域文本框的宽度超过背景图片规定的宽度时，将文字区域文本框分行得到至少两个文字字号、字符间距相同的文本行文本框；

S2.确定平面效果图片所在平面的基点，对平面效果图片上的每个像素点和文本行文本框的初始定位点标注相应坐标；

平面效果图片平面的基点确定方法为虚拟摄像法；

所述虚拟摄像法：以平面效果图片作为虚拟摄像头的投影平面，虚拟摄像头位于矩形平面效果图片的垂线上；虚拟摄像头到投影平面的距离为r, 以平面效果图片的左下角为坐标原点；

S4.平面效果图片上的每个像素点根据坐标变换得到的新坐标合成曲面效果图片；文本行文本框的初始定位点根据坐标变换生成新的定位点；

S5. 对曲面效果图片进行渲染；所述对曲面效果图片进行渲染具体包括：

首先对曲面效果图片进行透视变换，包括定位点的透视变换；

然后再对曲面效果图片进行噪声处理和模糊处理；

S6. 根据新的定位点确定文本行文本框在曲面效果图片的位置并按照文本行文本框轮廓最小外接矩形原则分割出文本行图片；

所述确定文本行文本框在曲面效果图片的位置方法为：用每个文本行文本框新的定位点坐标，计算文本行文本框的轮廓，通过计算文本行文本框轮廓最小外接矩形，确定出文本行文本框的左上角点、右上角点、左下角点和右下角点4个定位角点坐标。

2.根据权利要求1所述的一种3D曲面文本图片的合成方法，其特征在于，平面效果图片中每个文本行文本框的初始坐标定位点确定方法为：在平面效果图片的每个文本行文本框的左上角点和右上角点之间等间距确定N个定位点；在平面效果图片的每个文本行文本框的左下角点和右下角点之间等间距确定N个定位点。

3.根据权利要求1所述的一种3D曲面文本图片的合成方法，其特征在于，在S3中选择不同的曲线方程来确定曲面的形状；通过移动不同的曲线方程的峰值点，来调整曲面变换的效果。

4.根据权利要求1所述的一种3D曲面文本图片的合成方法，其特征在于，分割出的文本行图片部分样本具有上下行干扰。