CN114943972A

CN114943972A - 一种真实场景形变数字图片生成方法及***

Info

Publication number: CN114943972A
Application number: CN202210564904.1A
Authority: CN
Inventors: 孙其凡
Original assignee: Shanghai Yingpu Technology Co ltd
Current assignee: Shanghai Yingpu Technology Co ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-26

Abstract

本发明公开了一种真实场景形变数字图片生成方法及***，根据真实场景图片获取数字图片，并对所述数字图片进行二值化处理；根据二值化图片中白色块的面积获取图片中的数字，并对数字进行霍夫直线检测，获得仿射变换后的多个关键点，并处理得到仿射变换前的多个所述关键点，根据仿射变换前后的多个关键点的坐标计算出仿射变换参数；根据多张真实场景图片计算得到的仿射变换参数确定各仿射变换参数的取值范围；根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片。仅使用少量真实场景的数字图片进行分析，自动获得实际数字大致的形变程度和范围，以减少调试形变参数的时间。

Description

一种真实场景形变数字图片生成方法及***

技术领域

本发明涉及OCR技术领域，具体涉及一种真实场景形变数字图片生成方法及***。

背景技术

在人工智能领域，OCR(Optical CharacterRecognition)是计算机图形学中的一个方向。传统的OCR有两个方向包括文本检测和文本识别。文本检测用于从图片中检测出文字所在的位置，而文本识别用于从文本检测框中识别出文字的内容。针对图片中的文字存在于纸面还是真实场景，印刷体还是手写体会使用不同的方法来进行处理。特别是对于真实场景中的文字，由于文字和拍摄位置的不同，文字所呈现的形变(多为正常情况下仿射变换后的效果)也会不同，这使得文字的识别变得困难。因为要进行真实场景的文字识别，需要大量不同形变程度且符合当前场景的文字数据进行训练，而这些数据的获取仅通过人工拍摄和标注的方式成本过高且太过缓慢，所以必须使用文本合成来制造数据。而进行文本合成时，需要合成的数据涵盖真实场景中文字大致的形变程度和范围，这需要花费大量时间来进行仿射变换参数的调试。

发明内容

为此，本发明提供一种真实场景形变数字图片生成方法及***，以解决现有OCR文字识别训练数据获取仅通过人工拍摄和标注的方式成本过高且太过缓慢，通过文本合成时仿射变换参数的调试需要花费大量时间的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种真实场景形变数字图片生成方法，所述方法包括：

根据真实场景图片获取数字图片，并对所述数字图片进行二值化处理；

根据二值化图片中白色块的面积获取图片中的数字，并对数字进行霍夫直线检测，获得仿射变换后的多个关键点，并处理得到仿射变换前的多个所述关键点，根据仿射变换前后的多个关键点的坐标计算出仿射变换参数；

根据多张真实场景图片计算得到的仿射变换参数确定各仿射变换参数的取值范围；

根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片。

进一步地，根据真实场景图片获取数字图片，具体包括：

对现有需要进行数字图片生成的真实数字编号进行拍摄，尽量包含全部形变程度和范围；通过手工截取图片中数字部分或者使用OCR检测模型检测数字位置并截取图片得到数字图片。

进一步地，对数字进行霍夫直线检测，获得仿射变换后的多个关键点，具体包括：

对于数字顶部或底部都是直线的情况，通过白色块的最高点找到数字顶端的直线段a，通过白色块最低点找到数字低端的直线段b，获取两个直线段中较短的直线段并取其中点计为关键点b；

对于顶部或底部有一处不是直线的情况，如果数字底部是弧形的不是直线，则作一条垂直于顶部直线段a的直线，并使这条直线在白色块中最长，垂线与数字底部的交点即为关键点b，数字顶部是弧形的情况也同样处理；

对于顶部和底部都不是直线的情况忽略；

得到的直线段a的两端点和一个点b作为图片仿射变换后的3个关键点。

进一步地，并处理得到仿射变换前的多个所述关键点，具体包括：

将直线段a左端的点作为固定点；将直线段a右端的点旋转到与左端的点水平的位置得到旋转后的右端点位置；旋转b点到直线段a的垂线，使其竖直，从而得到旋转后的b点位置；最终得到仿射变换前的3个关键点。

进一步地，根据仿射变换前后的多个关键点的坐标计算出仿射变换参数，具体包括：

使用仿射变换前后的两两对应的6个关键点分别代入以下公式，即可得到仿射变换的参数a₁、b₁和c₁的值；

其中，x_after和y_after分别表示仿射变换后点的横坐标和纵坐标；x_before和y_before分别表示仿射变换前点的横坐标和纵坐标；a₁、b₁和c₁为仿射变换的参数。

进一步地，根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片，具体包括：

将从仿射变换参数a₁、b₁和c₁的取值范围A、B和C中随机选取参数a_r、b_r和c_r，以及需要进行形变的数字图片的3个角点坐标代入公式，计算得到形变后的三个点的坐标；根据形变前后的6个点的坐标通过仿射变换得到形变数字图片。

进一步地，对所述数字图片进行二值化处理，具体包括：按照设定阈值对图片进行二值化。

进一步地，根据二值化图片中白色块的面积获取图片中的数字，具体包括：计算二值化后图片中白色块的面积，设定阈值保留面积较大的部分。

根据本发明实施例的第二方面，提出了一种真实场景形变数字图片生成***，所述***包括：

图片处理模块，用于根据真实场景图片获取数字图片，并对所述数字图片进行二值化处理；

参数计算模块，用于根据二值化图片中白色块的面积获取图片中的数字，并对数字进行霍夫直线检测，获得仿射变换后的多个关键点，并处理得到仿射变换前的多个所述关键点，根据仿射变换前后的多个关键点的坐标计算出仿射变换参数；

参数范围获取模块，用于根据多张真实场景图片计算得到的仿射变换参数确定各仿射变换参数的取值范围；

图片生成模块，用于根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片。

本发明具有如下优点：

本发明提出的一种真实场景形变数字图片生成方法及***，根据真实场景图片获取数字图片，并对所述数字图片进行二值化处理；根据二值化图片中白色块的面积获取图片中的数字，并对数字进行霍夫直线检测，获得仿射变换后的多个关键点，并处理得到仿射变换前的多个所述关键点，根据仿射变换前后的多个关键点的坐标计算出仿射变换参数；根据多张真实场景图片计算得到的仿射变换参数确定各仿射变换参数的取值范围；根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片。仅使用少量真实场景的数字图片进行分析，自动获得实际数字大致的形变程度和范围，以减少调试形变参数的时间。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种真实场景形变数字图片生成方法的流程示意图；

图2为本发明实施例1提供的一种真实场景形变数字图片生成方法的详细实施流程示意图；

图3为本发明实施例1提供的一种真实场景形变数字图片生成方法中数字顶部或底部都是直线的情况；

图4为本发明实施例1提供的一种真实场景形变数字图片生成方法中顶部或底部有一处不是直线的情况。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种真实场景形变数字图片生成方法，该方法包括：

S100、根据真实场景图片获取数字图片，并对数字图片进行二值化处理。

对现有的需要进行数字图片生成的真实数字编号进行拍摄，取得的图片尽量包含所有情况(变形程度和变形范围)。手工截取图片中数字部分或者使用OCR检测模型检测数字位置并截取图片。设定阈值对这些图片进行二值化。

S200、根据二值化图片中白色块的面积获取图片中的数字，并对数字进行霍夫直线检测，获得仿射变换后的多个关键点，并处理得到仿射变换前的多个关键点，根据仿射变换前后的多个关键点的坐标计算出仿射变换参数。

如图2所示，计算二值化后图片中白色块的面积，设定阈值保留面积较大的部分。然后对图片中的数字的进行霍夫直线检测。

如图3所示，对于数字顶部或底部都是直线的情况，通过白色块的最高点找到数字顶端的直线段a，通过白色块最低点找到数字低端的直线段b，获取两个直线段中较短的直线段并取其中点计为关键点b；

如图4所示，对于顶部或底部有一处不是直线的情况，如果数字底部是弧形的不是直线，则作一条垂直于顶部直线段a的直线，并使这条直线在白色块中最长，垂线与数字底部的交点即为关键点b，数字顶部是弧形的情况也同样处理；

对于顶部和底部都不是直线的情况忽略；

通过以上所得的一条直线a的两端和一个点b这3个点可以作为图片放射变换后的3个关键点。将直线左端的点固定计算出右端的点旋转到与左端的点水平的位置。旋转b点到直线a的垂线，使其垂直于图片，从而计算出旋转后的b点位置。最终得到仿射变换前的3个关键点。

使用仿射变换前后的两两对应的6个关键点分别代入以下公式1，即可得到仿射变换的参数a₁、b₁和c₁的值；

S300、根据多张真实场景图片计算得到的仿射变换参数确定各仿射变换参数的取值范围。

通过多张真实图片即可获得参数a₁、b₁和c₁的取值范围A、B和C。

S400、根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片。

从A、B和C中随机选取参数a_r、b_r和c_r代入公式1，对需要进行形变的数字图片的3个角(0,0),(0,width),(height,0)分别代入公式1，获得形变后的3个点。根据这6个点可以使用opencv-python的getAffineTransform函数来将图片进行仿射变换，从而生成需要的形变数字图片。

实施例2

与上述实施例1相对应的，本实施例提出了一种真实场景形变数字图片生成***，所述***包括：

本发明实施例提供的一种真实场景形变数字图片生成***中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种真实场景形变数字图片生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种真实场景形变数字图片生成方法，其特征在于，根据真实场景图片获取数字图片，具体包括：

3.根据权利要求1所述的一种真实场景形变数字图片生成方法，其特征在于，对数字进行霍夫直线检测，获得仿射变换后的多个关键点，具体包括：

对于顶部和底部都不是直线的情况忽略；

4.根据权利要求3所述的一种真实场景形变数字图片生成方法，其特征在于，并处理得到仿射变换前的多个所述关键点，具体包括：

5.根据权利要求4所述的一种真实场景形变数字图片生成方法，其特征在于，根据仿射变换前后的多个关键点的坐标计算出仿射变换参数，具体包括：

6.根据权利要求5所述的一种真实场景形变数字图片生成方法，其特征在于，根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片，具体包括：

7.根据权利要求1所述的一种真实场景形变数字图片生成方法，其特征在于，对所述数字图片进行二值化处理，具体包括：按照设定阈值对图片进行二值化。

8.根据权利要求1所述的一种真实场景形变数字图片生成方法，其特征在于，根据二值化图片中白色块的面积获取图片中的数字，具体包括：计算二值化后图片中白色块的面积，设定阈值保留面积较大的部分。

9.一种真实场景形变数字图片生成***，其特征在于，所述***包括：