CN111144305A - 训练数据生成方法、装置、电子设备和介质 - Google Patents

训练数据生成方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN111144305A
CN111144305A CN201911371825.3A CN201911371825A CN111144305A CN 111144305 A CN111144305 A CN 111144305A CN 201911371825 A CN201911371825 A CN 201911371825A CN 111144305 A CN111144305 A CN 111144305A
Authority
CN
China
Prior art keywords
image
target document
mask
document image
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911371825.3A
Other languages
English (en)
Other versions
CN111144305B (zh
Inventor
吴大江
付靖玲
单珂
裴积全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201911371825.3A priority Critical patent/CN111144305B/zh
Publication of CN111144305A publication Critical patent/CN111144305A/zh
Application granted granted Critical
Publication of CN111144305B publication Critical patent/CN111144305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本公开提供了一种训练数据生成方法,包括获得目标文档图像和目标文档图像的文本内容,并将所述目标文档的文本内容作为第一标注信息,识别所述目标文档图像的文本行,并生成覆盖所述文本行的掩膜,得到掩膜覆盖文档图像,拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像,处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息,以及将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。本公开还提供了一种训练数据生成装置、一种电子设备以及一种计算机可读存储介质。

Description

训练数据生成方法、装置、电子设备和介质
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种训练数据生成方法、装置、电子设备和介质。
背景技术
光学字符识别技术(OCR,Optical Character Recognition),是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测明暗模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。随着深度学习在计算机视觉领域的发展,OCR这一计算机视觉分支,也得到越来越多的关注。
现有的OCR自动标注方式一般为借助传统图像变换算法或对抗网络GAN,或是借助Photoshop或3D渲染引擎提供的API,通过批处理的方式进行图像生成。
传统图像变换算法采用脚本批处理的方式进行生成的,即通过设定一些参数,对目标图像进行投射变换及模糊、锐度、亮度、饱和度等变换,这种方式很难模拟出待标注图像的真实光照、形变情况。产生这样的原因是由于大量的待标注的图像数据是根据真实物体或者文字介质拍摄而成,并不一定都如扫描文件一样可获取理想的文字载体副本,而真实物体本身由于自身的材质对光线的反射率、物体材质的弯折程度变化多端,通过直接的图像变化算法很难模拟出这种情况,因而也就不能获取接近真实场景的OCR标注图像数据,而GAN网络受制于目前的硬件及算法发展,产生的效率和图像品质有待提升。通过Photoshop后者3D渲染引擎也很难模拟出真实自然场景下的拍摄条件。
发明内容
有鉴于此,本公开提供了一种训练数据生成方法、装置、电子设备和介质。
本公开的一个方面提供了一种训练数据生成方法,包括获得目标文档图像和目标文档图像的文本内容,并将所述目标文档的文本内容作为第一标注信息,识别所述目标文档图像的文本行,并生成覆盖所述文本行的掩膜,得到掩膜覆盖文档图像,拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像,处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息,以及将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。
可选地,所述获得目标文档包括生成文本内容,获得文档属性信息,所述文档属性信息包括字体、字号、颜色、背景中的一种或多种,以及基于所述文本内容和文档属性信息,生成目标文档图像。
可选地,所述处理所述第二图像以得到包含掩膜标注数据的第三图像包括通过去摩尔纹算法去除所述第二图像中包含的摩尔纹,得到第四图像,从所述第四图像中确定与所述掩膜覆盖图像的四个角点对应的四个位置坐标,通过透射变换处理所述四个位置坐标围成的文档区域,使所述文档区域转换为矩形,得到第五图像,二值化处理所述第五图像,得到第六图像,以及通过所述透射变换的逆变换处理所述第六图像,得到第三图像。
可选地,所述通过去摩尔纹算法去除所述第二图像中包含的摩尔纹,得到第四图像包括通过卷积神经网络处理所述第二图像,以便去除所述第二图像中包含的摩尔纹,其中,所述卷积神经网络包括下采样层、特征提取层以及上采样层,在所述下采样层中以步长为2的卷积层取代池化层的位置。
可选地,所述拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像包括将所述目标文档图像以及所述掩膜覆盖文档图像交替排列组成图像队列,控制屏幕以一定频率播放所述目标文档图像以及所述掩膜覆盖文档图像,同时控制云台相机连续拍摄所述屏幕,得到多个第一图像和多个第二图像。
可选地,所述方法还包括控制补光设备按照所述频率对所述屏幕进行补光。
可选地,所述方法还包括在拍摄过程中控制所述云台相机移动,以拍摄不同角度的图像。
本公开的另一个方面提供了一种训练数据生成装置,包括获得模块、识别模块、控制模块、处理模块以及输出模块。获得模块,用于获得目标文档图像和目标文档图像的文本内容,并将所述目标文档的文本内容作为第一标注信息。识别模块,用于识别所述目标文档图像的文本行,并生成覆盖所述文本行的掩膜,得到掩膜覆盖文档图像。控制模块,用于拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像。处理模块,用于处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息。输出模块,用于将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。
本公开的另一个方面提供了一种电子设备,包括,至少一个处理器以及至少一个存储器,用于存储一个或多个计算机可读指令,其中,当所述一个或多个计算机可读指令被所述至少一个处理器执行时,使得所述处理器执行如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开实施例的方法能够快速合成样本数据,模拟了真实的屏幕翻拍情况,同时极大地降低了标注内容的错误率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的训练数据生成方法的流程图;
图2示意性示出了根据本公开实施例的获得目标文档图像的流程图;
图3示意性示出了根据本公开实施例的处理所述第二图像以得到包含掩膜标注数据的第三图像的流程图;
图4A~图4F示意性示出了根据本公开实施例的训练数据生成方法的示意图;
图5示意性示出了根据本公开实施例的训练数据生成装置的示意图;以及
图6示意性示出了根据本公开实施例的适于实现训练数据生成装置的计算机***的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
为了训练OCR***的识别能力,使用有监督训练时需要准备训练数据。训练数据包括样本数据以及与样本数据对应的标注数据。其中,样本数据可以是一张包含文字图像,标注数据包括该图像中包含文字的区域以及具体包含的文字内容。
本公开的实施例提供了一种训练数据生成方法,通过显示包含文本的内容并拍摄成图像作为样本数据,包含文本的内容中确定文本内容作为第一标注数据,拍摄的带有掩膜的内容并处理得到用于确定文字区域的第二标注信息。将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。
图1示意性示出了根据本公开实施例的训练数据生成方法的流程图。
如图1所示,该方法包括操作S110~S150。
在操作S110,获得目标文档图像和目标文档图像的文本内容,并将所述目标文档的文本内容作为第一标注信息。根据本公开实施例,获得目标文档图像可以是直接获得图像文件,也可以是获得文本文件,通过展示到显示器上形成目标文档图像,也可以是获得文本文件后,基于文本文件合成目标文档图像。
图2示意性示出了根据本公开实施例的获得目标文档图像的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,生成文本内容。例如可以随机生成具有不同文本信息的txt、word等格式的文件。
在操作S220,获得文档属性信息,所述文档属性信息包括字体、字号、颜色、背景中的一种或多种。
在操作S230,基于所述文本内容和文档属性信息,生成目标文档图像。
该方法可以高效地自动生成大量的目标文档图像,并且,其可以具有不同的字体、字号、颜色、背景等等。
返回图1。在操作S120,识别所述目标文档图像的文本行,并生成覆盖所述文本行的掩膜,得到掩膜覆盖文档图像。根据本公开实施例,可以记录下文本行的内容和文本行上下左右四点坐标,并在与合成图像尺寸相同的空白标注图像上依据记录的四点坐标生成掩膜,例如黑色填充的矩形框,参照后文如图4B所示。
在操作S130,拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像。
在操作S140,处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息。
根据本公开实施例,第三图像中仅包括掩膜信息,掩膜所在的区域即文本所在的区域,因此,第三图像可以作为第二标注信息使用,以便训练OCR***识别出文本所在的区域。
图3示意性示出了根据本公开实施例的处理所述第二图像以得到包含掩膜标注数据的第三图像的流程图。
如图3所示,该方法包括操作S310~S350。
在操作S310,通过去摩尔纹算法去除所述第二图像中包含的摩尔纹,得到第四图像。由于是翻拍屏幕的图像,很可能会产生摩尔纹。它的纹路类似于水波。两种原始图案之间最轻微的错位可能会产生大规模,易于看见的摩尔纹。随着未对准程度的增加,摩尔纹的频率也可能增加。若想在拍摄的图像中不出现摩尔纹,必须屏幕点或条纹的间距小于相机像素的尺寸,然而,这通常是很难实现的。本公开实施例的方法可以首先去除第二图像中的摩尔纹,以减少对后续处理造成的干扰。
在去除摩尔纹后,为了准确确定掩膜的位置,需要对文档区域进行二值化处理,而周围环境中的其他信息会对处理造成干扰,因此,需要先提取文档区域。但是,提取出的文档区域通常不是矩形,使得难以应用现有技术对区域内的像素点进行遍历。因此,还需要对图像进行透射变换,以使文本区域转换为矩形。并且,在二值化处理之后,使用透射变换的逆变换还原为之前的角度,得到第三图像。
具体地,在操作S320,从所述第四图像中确定与所述掩膜覆盖图像的四个角点对应的四个位置坐标。
在操作S330,通过透射变换处理所述四个位置坐标围成的文档区域,使所述文档区域转换为矩形,得到第五图像。
在操作S340,二值化处理所述第五图像,得到第六图像。
在操作S350,通过所述透射变换的逆变换处理所述第六图像,得到第三图像。
该方法可以有效降低干扰,得到准确的第二标注数据。
返回参考图1。在操作S150,将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。
本公开实施例的方法能够快速合成样本数据,模拟了真实的屏幕翻拍情况,同时极大地降低了标注内容的错误率。
下面结合图4A~图4F对本公开实施例的方法进行示例性说明。
图4A~图4F示意性示出了根据本公开实施例的训练数据生成方法的示意图。
根据本公开实施例,在操作S110,可以调用文档合成算法,选取不同字体、字号、颜色、背景等条件生成类似真实文档的数据图像。摄像头拍摄效果如图4A所示,拍摄得到的图像即为第一图像。
在合成图像的同时记录下文本行的内容和文本行上下左右四点坐标,并在与合成图像尺寸相同的空白标注图像上依据记录的四点坐标生成黑色填充的矩形框,得到覆盖文本行的掩膜,得到掩膜覆盖文档图像。摄像头拍摄效果如图4B所示,拍摄得到的图像即为第二图像。
在操作S130,根据本公开实施例,所述拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像包括将所述目标文档图像以及所述掩膜覆盖文档图像交替排列组成图像队列,控制屏幕以一定频率播放所述目标文档图像以及所述掩膜覆盖文档图像,同时控制云台相机连续拍摄所述屏幕,得到多个第一图像和多个第二图像。
例如,可以使用编写的屏幕播放工具,按一定频率在屏幕中顺序播放合成图像与标注图像,外设云台相机连续拍摄显示器上显示的内容,得到多张图像。其中,还可以控制补光设备按照所述频率对所述屏幕进行补光,可以削减合成图像与标注图像的亮度差异。此外,还可以在拍摄过程中控制所述云台相机移动,以拍摄不同角度的图像,以丰富样本数量。例如,在屏幕顺序播放合成图像与标注图像时,外置补光光源按照播放合成图像时打开,播放标注图像时关闭的方式工作,并使用外设云台相机以各种角度拍摄连续拍摄合成图像及其标注图像。
在操作S140,处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息,即由图4C到图4F的过程,其中,图4F即为第三图像。下面对S140进行详细描述。
根据本公开实施例,可以通过卷积神经网络处理所述第二图像,以便去除所述第二图像中包含的摩尔纹,其中,所述卷积神经网络包括下采样层、特征提取层以及上采样层,在所述下采样层中以步长为2的卷积层取代池化层的位置。
根据本公开实施例,可以使用全卷积去摩尔纹算法处理第二图像,减少摩尔纹对掩膜提取算法的影响。去摩尔算法网络结构不采用池化层,通过步长为2的卷积核来替换池化操作,从而实现下采样。下采样过程中大量使用3*3卷积核,步长为1。在上采样过程中,增大图像分辨率,生成3通道像素图,最后通过叠加完成输出。这样,粗粒度和细粒度的图像,经过神经网络处理,可以去除低频与高频分量的摩尔纹。与传统线性滤波构建的图像金字塔相比,该网络中的图像金字塔实际上时使用非线性滤波构建。图像的每个分辨率都与一个网络分支相关联,其中多个堆叠卷积层保持相同的分辨率。这样网络分支能够执行复杂的非线性变换(如去除特定频率内的摩尔纹)。
根据本公开实施例,使用掩膜提取算法提取去摩尔纹后的图像中的掩膜,并记录下来,此时训练数据中的文本行掩膜和内容数据已经生成。
使用基于掩膜RCNN(Region with CNN features,基于卷积神经网络特征的区域方法)的神经网络进行带掩膜的标注文档的关键点检测(如图4C),利用检测出的4个角点坐标进行透射变换以校正发生形变的图像并去除背景干扰(如图4D),在此过程中保留投射变换矩阵,以方便进行逆变换,方便将检测出的掩膜还原到原图。
提取出的校正后的图像利用掩膜检测算法进行检测,获得精确的校正后的掩膜标注图(如图4E),再利用保存的透射变换矩阵逆矩阵,将检测到的校正后的掩膜标注图还原到原始的掩膜标注图尺寸,即最终的掩膜标注图像(如图4F)。
在操作S150,将生成的不带标注的图像(即第一图像)及对应内容(即第一标注信息)和生成的文本行掩膜数据(如图4F所示的第二标注信息)作为训练数据提供给OCR算法训练模型。
基于同一发明构思,本公开实施例还提供了一种训练数据生成装置,下面参照图5对本公开实施例的训练数据生成装置进行说明。
图5示意性示出了根据本公开实施例的训练数据生成装置500的框图。
如图5所示,该训练数据生成装置500包括获得模块510、识别模块520、控制模块530、处理模块540以及输出模块550。该装置500可以执行上文参考图2描述的各种方法。
获得模块510,例如执行上文参考图1描述的操作S110,用于获得目标文档图像和目标文档图像的文本内容,并将所述目标文档的文本内容作为第一标注信息。
识别模块520,例如执行上文参考图1描述的操作S120,用于识别所述目标文档图像的文本行,并生成覆盖所述文本行的掩膜,得到掩膜覆盖文档图像。
控制模块530,例如执行上文参考图1描述的操作S130,用于拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像。
处理模块540,例如执行上文参考图1描述的操作S140,用于处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息。
输出模块550,例如执行上文参考图1描述的操作S150,用于将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。
根据本公开实施例,所述获得模块510用于生成文本内容,获得文档属性信息,所述文档属性信息包括字体、字号、颜色、背景中的一种或多种,以及基于所述文本内容和文档属性信息,生成目标文档图像。
根据本公开实施例,所述处理模块540包括去摩尔纹单元、位置确定单元、透射变换单元、二值化单元以及逆变换单元。其中,去摩尔纹单元,用于通过去摩尔纹算法去除所述第二图像中包含的摩尔纹,得到第四图像。位置确定单元,用于从所述第四图像中确定与所述掩膜覆盖图像的四个角点对应的四个位置坐标。透射变换单元,用于通过透射变换处理所述四个位置坐标围成的文档区域,使所述文档区域转换为矩形,得到第五图像。二值化单元,用于二值化处理所述第五图像,得到第六图像。逆变换单元,用于通过所述透射变换的逆变换处理所述第六图像,得到第三图像。
根据本公开实施例,所述去摩尔纹单元用于通过卷积神经网络处理所述第二图像,以便去除所述第二图像中包含的摩尔纹,其中,所述卷积神经网络包括下采样层、特征提取层以及上采样层,在所述下采样层中以步长为2的卷积层取代池化层的位置。
根据本公开实施例,所述控制模块530用于将所述目标文档图像以及所述掩膜覆盖文档图像交替排列组成图像队列,控制屏幕以一定频率播放所述目标文档图像以及所述掩膜覆盖文档图像,同时控制云台相机连续拍摄所述屏幕,得到多个第一图像和多个第二图像。
根据本公开实施例,所述控制模块530还用于控制补光设备按照所述频率对所述屏幕进行补光。
根据本公开实施例,所述控制模块530还用于在拍摄过程中控制所述云台相机移动,以拍摄不同角度的图像。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获得模块510、识别模块520、控制模块530、处理模块540、输出模块550、去摩尔纹单元、位置确定单元、透射变换单元、二值化单元以及逆变换单元中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获得模块510、识别模块520、控制模块530、处理模块540、输出模块550、去摩尔纹单元、位置确定单元、透射变换单元、二值化单元以及逆变换单元中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获得模块510、识别模块520、控制模块530、处理模块540、输出模块550、去摩尔纹单元、位置确定单元、透射变换单元、二值化单元以及逆变换单元中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现训练数据生成方法和装置的计算机***的方框图。图6示出的计算机***仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。图6示出的计算机***可以实现为服务器集群,包括至少一个处理器(例如处理器601)以及至少一个存储器(例如存储部分608)。
如图6所示,根据本公开实施例的计算机***600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有***600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,***600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。***600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
例如,根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (10)

1.一种训练数据生成方法,包括:
获得目标文档图像和目标文档图像的文本内容,并将所述目标文档的文本内容作为第一标注信息;
识别所述目标文档图像的文本行,并生成覆盖所述文本行的掩膜,得到掩膜覆盖文档图像;
拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像;
处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息;以及
将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。
2.根据权利要求1所述的方法,其中,所述获得目标文档包括:
生成文本内容;
获得文档属性信息,所述文档属性信息包括字体、字号、颜色、背景中的一种或多种;
基于所述文本内容和文档属性信息,生成目标文档图像。
3.根据权利要求1所述的方法,其中,所述处理所述第二图像以得到包含掩膜标注数据的第三图像包括:
通过去摩尔纹算法去除所述第二图像中包含的摩尔纹,得到第四图像;
从所述第四图像中确定与所述掩膜覆盖图像的四个角点对应的四个位置坐标;
通过透射变换处理所述四个位置坐标围成的文档区域,使所述文档区域转换为矩形,得到第五图像;
二值化处理所述第五图像,得到第六图像;
通过所述透射变换的逆变换处理所述第六图像,得到第三图像。
4.根据权利要求3所述的方法,其中,所述通过去摩尔纹算法去除所述第二图像中包含的摩尔纹,得到第四图像包括:
通过卷积神经网络处理所述第二图像,以便去除所述第二图像中包含的摩尔纹,其中,所述卷积神经网络包括下采样层、特征提取层以及上采样层,在所述下采样层中以步长为2的卷积层取代池化层的位置。
5.根据权利要求1所述的方法,其中,所述拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像包括:
将所述目标文档图像以及所述掩膜覆盖文档图像交替排列组成图像队列;
控制屏幕以一定频率播放所述目标文档图像以及所述掩膜覆盖文档图像,同时控制云台相机连续拍摄所述屏幕,得到多个第一图像和多个第二图像。
6.根据权利要求5所述的方法,还包括:
控制补光设备按照所述频率对所述屏幕进行补光。
7.根据权利要求5所述的方法,还包括:
在拍摄过程中控制所述云台相机移动,以拍摄不同角度的图像。
8.一种训练数据生成装置,包括:
获得模块,用于获得目标文档图像和目标文档图像的文本内容,并将所述目标文档的文本内容作为第一标注信息;
识别模块,用于识别所述目标文档图像的文本行,并生成覆盖所述文本行的掩膜,得到掩膜覆盖文档图像;
控制模块,用于拍摄所述目标文档图像得到第一图像,作为样本数据,并拍摄所述掩膜覆盖文档图像得到第二图像;
处理模块,用于处理所述第二图像以得到包含掩膜标注数据的第三图像,作为第二标注信息;以及
输出模块,用于将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。
9.一种电子设备,包括:
处理器;以及
存储器,其上存储有计算机可读指令,所述指令被处理器执行时使得处理器执行如权利要求1~7中任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可读指令,所述指令被处理器执行时使得处理器执行如权利要求1~7中任意一项所述的方法。
CN201911371825.3A 2019-12-26 2019-12-26 训练数据生成方法、装置、电子设备和介质 Active CN111144305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911371825.3A CN111144305B (zh) 2019-12-26 2019-12-26 训练数据生成方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911371825.3A CN111144305B (zh) 2019-12-26 2019-12-26 训练数据生成方法、装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN111144305A true CN111144305A (zh) 2020-05-12
CN111144305B CN111144305B (zh) 2021-11-30

Family

ID=70520791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911371825.3A Active CN111144305B (zh) 2019-12-26 2019-12-26 训练数据生成方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN111144305B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612081A (zh) * 2020-05-25 2020-09-01 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN112418224A (zh) * 2021-01-22 2021-02-26 成都无糖信息技术有限公司 一种基于机器学习的通用ocr的训练数据生成***及方法
CN112464828A (zh) * 2020-12-01 2021-03-09 广州视源电子科技股份有限公司 文档图像边缘的数据标注方法、装置、设备及存储介质
CN113159035A (zh) * 2021-05-10 2021-07-23 北京世纪好未来教育科技有限公司 图像处理方法、装置、设备及存储介质
CN113420581A (zh) * 2020-10-19 2021-09-21 杨宏伟 书面文档图像的校正方法、装置、电子设备及可读介质
CN113436222A (zh) * 2021-05-31 2021-09-24 新东方教育科技集团有限公司 图像处理方法、图像处理装置、电子设备及存储介质
CN115457381A (zh) * 2022-08-18 2022-12-09 广州从埔高速有限公司 一种高速公路违法用地检测方法、***、装置及存储介质
CN115546041A (zh) * 2022-02-28 2022-12-30 荣耀终端有限公司 补光模型的训练方法、图像处理方法及其相关设备
WO2024078233A1 (zh) * 2022-10-10 2024-04-18 杭州睿胜软件有限公司 包含文本的图像处理方法、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN109978044A (zh) * 2019-03-20 2019-07-05 广州云测信息技术有限公司 训练数据生成方法和装置、以及模型的训练方法和装置
CN110084172A (zh) * 2019-04-23 2019-08-02 北京字节跳动网络技术有限公司 文字识别方法、装置和电子设备
CN110246567A (zh) * 2018-03-07 2019-09-17 中山大学 一种医学图像预处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246567A (zh) * 2018-03-07 2019-09-17 中山大学 一种医学图像预处理方法
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
CN109978044A (zh) * 2019-03-20 2019-07-05 广州云测信息技术有限公司 训练数据生成方法和装置、以及模型的训练方法和装置
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110084172A (zh) * 2019-04-23 2019-08-02 北京字节跳动网络技术有限公司 文字识别方法、装置和电子设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612081A (zh) * 2020-05-25 2020-09-01 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN111612081B (zh) * 2020-05-25 2024-04-02 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN113420581A (zh) * 2020-10-19 2021-09-21 杨宏伟 书面文档图像的校正方法、装置、电子设备及可读介质
CN112464828A (zh) * 2020-12-01 2021-03-09 广州视源电子科技股份有限公司 文档图像边缘的数据标注方法、装置、设备及存储介质
CN112464828B (zh) * 2020-12-01 2024-04-05 广州视源电子科技股份有限公司 文档图像边缘的数据标注方法、装置、设备及存储介质
CN112418224A (zh) * 2021-01-22 2021-02-26 成都无糖信息技术有限公司 一种基于机器学习的通用ocr的训练数据生成***及方法
CN113159035A (zh) * 2021-05-10 2021-07-23 北京世纪好未来教育科技有限公司 图像处理方法、装置、设备及存储介质
CN113436222A (zh) * 2021-05-31 2021-09-24 新东方教育科技集团有限公司 图像处理方法、图像处理装置、电子设备及存储介质
CN115546041B (zh) * 2022-02-28 2023-10-20 荣耀终端有限公司 补光模型的训练方法、图像处理方法及其相关设备
CN115546041A (zh) * 2022-02-28 2022-12-30 荣耀终端有限公司 补光模型的训练方法、图像处理方法及其相关设备
CN115457381B (zh) * 2022-08-18 2023-09-05 广州从埔高速有限公司 一种高速公路违法用地检测方法、***、装置及存储介质
CN115457381A (zh) * 2022-08-18 2022-12-09 广州从埔高速有限公司 一种高速公路违法用地检测方法、***、装置及存储介质
WO2024078233A1 (zh) * 2022-10-10 2024-04-18 杭州睿胜软件有限公司 包含文本的图像处理方法、***及存储介质

Also Published As

Publication number Publication date
CN111144305B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN111144305B (zh) 训练数据生成方法、装置、电子设备和介质
US6175663B1 (en) Method and apparatus for preserving background continuity in images
CN111311523B (zh) 图像处理方法、装置、***和电子设备
CN111950353B (zh) ***文本识别方法、装置及电子设备
US11887218B2 (en) Image optimization method, apparatus, device and storage medium
CN110992244A (zh) 带有摩尔纹的图片生成方法、***、设备和存储介质
CN109743566B (zh) 一种用于识别vr视频格式的方法与设备
CN113744142B (zh) 图像修复方法、电子设备及存储介质
JP5242248B2 (ja) 欠陥検出装置、欠陥検出方法、欠陥検出プログラム、及び、記録媒体
CN111951172A (zh) 一种图像优化方法、装置、设备和存储介质
CN107517346A (zh) 基于结构光的拍照方法、装置及移动设备
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
JP5541679B2 (ja) 画像処理装置及び方法、並びに、プログラム
CN112418243A (zh) 特征提取方法、装置及电子设备
JP2021189527A (ja) 情報処理装置、情報処理方法及びプログラム
CN113487473A (zh) 一种添加图像水印的方法、装置、电子设备及存储介质
US7387386B2 (en) Ophthalmologic image processing apparatus
JP2005275854A (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
Dey Image Processing Masterclass with Python: 50+ Solutions and Techniques Solving Complex Digital Image Processing Challenges Using Numpy, Scipy, Pytorch and Keras (English Edition)
CN114387315A (zh) 图像处理模型训练、图像处理方法、装置、设备及介质
JP5563390B2 (ja) 画像処理装置およびその制御方法、及びプログラム
Rana et al. Edge guided low-light image enhancement
JP7221919B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN113781544B (zh) 平面检测方法及装置
JP7384502B1 (ja) 真贋判定装置、真贋判定方法及び真贋判定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.