CN113743416B - 一种ocr领域针对无真实样本情形的数据增强方法 - Google Patents

一种ocr领域针对无真实样本情形的数据增强方法 Download PDF

Info

Publication number
CN113743416B
CN113743416B CN202110973129.0A CN202110973129A CN113743416B CN 113743416 B CN113743416 B CN 113743416B CN 202110973129 A CN202110973129 A CN 202110973129A CN 113743416 B CN113743416 B CN 113743416B
Authority
CN
China
Prior art keywords
center point
heat map
labeling frame
marking
gaussian heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110973129.0A
Other languages
English (en)
Other versions
CN113743416A (zh
Inventor
张存义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dilu Technology Co Ltd
Original Assignee
Dilu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dilu Technology Co Ltd filed Critical Dilu Technology Co Ltd
Priority to CN202110973129.0A priority Critical patent/CN113743416B/zh
Publication of CN113743416A publication Critical patent/CN113743416A/zh
Application granted granted Critical
Publication of CN113743416B publication Critical patent/CN113743416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明公开了一种OCR领域针对无真实样本情形的数据增强方法,包括以下步骤:(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;(2)将高斯热图透视变换到标注框中;(3)将高斯热图的中心点作为标注框的特征中心点;(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;(5)训练步骤(4)中的坐标差,得到检测模型。本发明在不影响性能的情况下,可一步到位的检测文字角度和方向;本发明能够端到端地检测任意角度的文字,可以提升整体OCR的检测性能。

Description

一种OCR领域针对无真实样本情形的数据增强方法
技术领域
本发明涉及文字检测,特别是一种OCR领域针对无真实样本情形的数据增强方法。
背景技术
随着人工智能科技的发展,OCR技术也应用地越来越广泛。OCR技术首先需要对待识别的文字进行一个检测,提取到有效字符然后进行识别。但是OCR应用场景复杂,各种情况都有,很多时候检测的图片中文字会出现各种角度,文字方向也会有颠倒。如何正确有效地检测到文字并区别文字方向是提升OCR技术的核心问题。科研单位注重方法的新颖性和创新性,会尝试很多新的方法,比如文字检测端到端等,但在保持新颖的时候势必失去很多性能上的优势;科技公司为了追求精度,一般都是先采用文字检测,之后对检测到的文字做一个方向的分类,但这种做法使得整个文字的提取变成了两个步骤的串联,存在误差的传递。
发明内容
发明目的:本发明的目的是提供一种OCR领域针对无真实样本情形的数据增强方法,该方法在不影响性能的前提下,开发可检测任意文字角度的端到端文字检测算法。
技术方案:本发明所述的一种OCR领域针对无真实样本情形的数据增强方法,包括以下步骤:
(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;
(2)将高斯热图透视变换到标注框中;
(3)将高斯热图的中心点作为标注框的特征中心点;
(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;
(5)训练步骤(4)中的坐标差,得到检测模型。
所述步骤(1)包括:
(1.1)判断读取文字方向为正的方向,各种场景中有的文字是颠倒的,有的文字可能是左右倾斜的;
(1.2)按照步骤(1.1)确认的文字方向为正的方向开始对数据集从此方向的左上角顺时针进行标注。
所述步骤(2)包括:
(2.1)利用高斯函数生成一个高斯热图;
(2.2)通过透视变换将步骤(2.1)中的高斯热图变换到步骤(1)标注的标注框中。
所述步骤(3)具体为:通过查找步骤(2.2)中高斯热图的最大值来得到标注框的特征中心点。
所述步骤(4)包括:
(4.1)顺序计算步骤(3.1)中特征中心点的X坐标和步骤(1.2)中四个标注点的X坐标差值;
(4.2)顺序计算步骤(3.1)中特征中心点的Y坐标和步骤(1.2)中四个标注点的Y坐标差值;
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的OCR领域针对无真实样本情形的数据增强方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的OCR领域针对无真实样本情形的数据增强方法。
有益效果:与现有技术相比,本发明具有如下优点:1、在不影响性能的情况下,可一步到位的检测文字角度和方向;2、本发明能够端到端地检测任意角度的文字,可以提升整体OCR的检测性能。
附图说明
图1为本方法的步骤流程图;
图2为训练数据标注样式图;
图3为训练数据高斯热图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
实施例1:
如图1所示,本发明公开了一种OCR领域针对无真实样本情形的数据增强方法,包括以下步骤:
(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;
(1.1)判断读取文字方向为正的方向,各种场景中有的文字是颠倒的,有的文字可能是左右倾斜的;
(1.2)如图2所示,按照步骤(1.1)确认的文字方向为正的方向开始对数据集从此方向的左上角顺时针进行标注。
(2)将高斯热图透视变换到标注框中;
(2.1)如图3所示,利用高斯函数生成一个高斯热图;
(2.2)通过透视变换将步骤(2.1)中的高斯热图变换到步骤(1)标注的标注框中。
(3)将高斯热图的中心点作为标注框的特征中心点:通过查找步骤(2.2)中高斯热图的最大值来得到标注框的特征中心点;
(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;
(4.1)顺序计算步骤(3.1)中特征中心点的X坐标和步骤(1.2)中四个标注点的X坐标差值;
(4.2)顺序计算步骤(3.1)中特征中心点的Y坐标和步骤(1.2)中四个标注点的Y坐标差值;
(5)训练步骤(4)中的坐标差,得到检测模型。
实施例2:
本发明公开了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的OCR领域针对无真实样本情形的数据增强方法。
实施例3:
本发明公开了一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的OCR领域针对无真实样本情形的数据增强方法。

Claims (4)

1.一种OCR领域针对无真实样本情形的数据增强方法,其特征在于,包括以下步骤:
(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;
(2)将高斯热图透视变换到标注框中;
(2.1)利用高斯函数生成一个高斯热图;
(2.2)通过透视变换将步骤(2.1)中的高斯热图变换到步骤(1)标注的标注框中;
(3)将高斯热图的中心点作为标注框的特征中心点;通过查找步骤(2.2)中高斯热图的最大值来得到标注框的特征中心点;
(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;
(5)训练步骤(4)中的坐标差,得到检测模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括:
(1.1)判断读取文字方向为正的方向,各种场景中有的文字是颠倒的,有的文字可能是左右倾斜的;
(1.2)按照步骤(1.1)确认的文字方向为正的方向开始对数据集从此方向的左上角顺时针进行标注。
3.根据权利要求1所述的方法,其特征在于,所述步骤(4)包括:
(4.1)顺序计算步骤(3.1)中特征中心点的X坐标和步骤(1.2)中四个标注点的X坐标差值;
(4.2)顺序计算步骤(3.1)中特征中心点的Y坐标和步骤(1.2)中四个标注点的Y坐标差值。
4.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-3中任一项所述的OCR领域针对无真实样本情形的数据增强方法。
CN202110973129.0A 2021-08-24 2021-08-24 一种ocr领域针对无真实样本情形的数据增强方法 Active CN113743416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110973129.0A CN113743416B (zh) 2021-08-24 2021-08-24 一种ocr领域针对无真实样本情形的数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110973129.0A CN113743416B (zh) 2021-08-24 2021-08-24 一种ocr领域针对无真实样本情形的数据增强方法

Publications (2)

Publication Number Publication Date
CN113743416A CN113743416A (zh) 2021-12-03
CN113743416B true CN113743416B (zh) 2024-03-05

Family

ID=78732455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110973129.0A Active CN113743416B (zh) 2021-08-24 2021-08-24 一种ocr领域针对无真实样本情形的数据增强方法

Country Status (1)

Country Link
CN (1) CN113743416B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114926839B (zh) * 2022-07-22 2022-10-14 富璟科技(深圳)有限公司 基于rpa和ai的图像识别方法及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0346080A (ja) * 1989-07-13 1991-02-27 Oki Electric Ind Co Ltd 特徴抽出装置
CN110378287A (zh) * 2019-07-19 2019-10-25 腾讯科技(深圳)有限公司 文档方向识别方法、装置及存储介质
CN110766008A (zh) * 2019-10-29 2020-02-07 北京华宇信息技术有限公司 一种面向任意方向和形状的文本检测方法
CN111476067A (zh) * 2019-01-23 2020-07-31 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
CN112132038A (zh) * 2020-09-23 2020-12-25 深兰科技(上海)有限公司 联合学习物体检测神经网络生成、检测方法、***及介质
CN112580507A (zh) * 2020-12-18 2021-03-30 合肥高维数据技术有限公司 一种基于图像矩矫正的深度学习文本字符检测方法
CN112818985A (zh) * 2021-01-28 2021-05-18 深圳点猫科技有限公司 一种基于分割的文本检测方法、装置、***及介质
CN112966777A (zh) * 2021-03-26 2021-06-15 清华大学 一种基于人机交互的半自动标注方法及***
CN113033380A (zh) * 2021-03-23 2021-06-25 建信览智科技(北京)有限公司 一种文本标注方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7945101B2 (en) * 2007-07-26 2011-05-17 Palo Alto Research Center Incorporated Innovative OCR systems and methods that combine a template based generative model with a discriminative model
US10489645B2 (en) * 2018-03-15 2019-11-26 Sureprep, Llc System and method for automatic detection and verification of optical character recognition data
US11195005B2 (en) * 2019-02-01 2021-12-07 Intuit Inc. Supervised machine learning algorithm application for image cropping and skew rectification

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0346080A (ja) * 1989-07-13 1991-02-27 Oki Electric Ind Co Ltd 特徴抽出装置
CN111476067A (zh) * 2019-01-23 2020-07-31 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
CN110378287A (zh) * 2019-07-19 2019-10-25 腾讯科技(深圳)有限公司 文档方向识别方法、装置及存储介质
CN110766008A (zh) * 2019-10-29 2020-02-07 北京华宇信息技术有限公司 一种面向任意方向和形状的文本检测方法
CN112132038A (zh) * 2020-09-23 2020-12-25 深兰科技(上海)有限公司 联合学习物体检测神经网络生成、检测方法、***及介质
CN112580507A (zh) * 2020-12-18 2021-03-30 合肥高维数据技术有限公司 一种基于图像矩矫正的深度学习文本字符检测方法
CN112818985A (zh) * 2021-01-28 2021-05-18 深圳点猫科技有限公司 一种基于分割的文本检测方法、装置、***及介质
CN113033380A (zh) * 2021-03-23 2021-06-25 建信览智科技(北京)有限公司 一种文本标注方法
CN112966777A (zh) * 2021-03-26 2021-06-15 清华大学 一种基于人机交互的半自动标注方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Character Region Awareness for Text Detection.《arXiv.org》.2019,全文. *
场景文字检测算法的漏检问题研究;陶月锋;姜维;张重生;;河南大学学报(自然科学版)(第05期);全文 *
陶月锋 ; 姜维 ; 张重生 ; .场景文字检测算法的漏检问题研究.河南大学学报(自然科学版).2020,(第05期),全文. *

Also Published As

Publication number Publication date
CN113743416A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN108920580B (zh) 图像匹配方法、装置、存储介质及终端
Huang et al. Mask R-CNN with pyramid attention network for scene text detection
Liao et al. Rotation-sensitive regression for oriented scene text detection
Liu et al. Deep matching prior network: Toward tighter multi-oriented text detection
CN109858361B (zh) 基于街景图像匹配重复结构建筑的定位方法
CN111444781B (zh) 一种水表读数识别方法、设备及存储介质
CN110472652B (zh) 基于语义引导的少量样本分类方法
CN110751232A (zh) 一种中文复杂场景文本检测与识别方法
CN110598686A (zh) ***的识别方法、***、电子设备和介质
CN115683129B (zh) 一种基于高清地图的长期重定位方法和装置
CN101930532A (zh) 基于手机摄像头快速响应矩阵码识读方法
CN113743416B (zh) 一种ocr领域针对无真实样本情形的数据增强方法
CN105447508A (zh) 一种字符图像验证码识别的方法及***
CN114782355B (zh) 基于改进vgg16网络的胃癌数字病理切片检测方法
Wang et al. A target corner detection algorithm based on the fusion of FAST and harris
Sun et al. An improved SIFT algorithm for infringement retrieval
CN115019310B (zh) 图文识别方法及设备
CN115717887A (zh) 基于灰度分布直方图的星点快速提取方法
Li et al. RaP-Net: A region-wise and point-wise weighting network to extract robust features for indoor localization
TW202303451A (zh) 指甲識別方法、裝置、設備及儲存媒體
CN113362380A (zh) 一种图像特征点检测模型训练方法、装置及其电子设备
CN107563415B (zh) 一种基于局部滤波特征矢量的图像匹配方法
Kanji Local map descriptor for compressive change retrieval
Kang et al. Overview of scene text detection and recognition
Liu et al. Robust corner detection using linear fitting error estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant