CN113936187A - 文本图像合成方法、装置、存储介质及电子设备 - Google Patents

文本图像合成方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113936187A
CN113936187A CN202111197890.6A CN202111197890A CN113936187A CN 113936187 A CN113936187 A CN 113936187A CN 202111197890 A CN202111197890 A CN 202111197890A CN 113936187 A CN113936187 A CN 113936187A
Authority
CN
China
Prior art keywords
text
image
synthesized
patch
paster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111197890.6A
Other languages
English (en)
Inventor
肖杨
马文伟
王亚领
刘设伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202111197890.6A priority Critical patent/CN113936187A/zh
Publication of CN113936187A publication Critical patent/CN113936187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Abstract

本公开涉及图像处理技术领域,具体涉及一种文本图像合成方法、装置、存储介质及电子设备。该文本图像合成方法包括:读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域;获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片;基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。本公开提供的文本图像合成方法能够解决文本图像合成中合成内容与真实样本相似度低的问题。

Description

文本图像合成方法、装置、存储介质及电子设备
技术领域
本公开涉及图像处理技术领域,具体涉及一种文本图像合成方法、文本图像合成装置、存储介质及电子设备。
背景技术
在金融、保险等应用场景中涉及到各类影像中文字的识别与结构化,在业务***中需要对重要影像中的信息进行录入、校验等,利用OCR技术识别理赔影像,可以节省人力,缩短理赔时耗。
在实际客户上传的影像中,字符种类丰富,基于深度学习的文字识别需要庞大的数据集支撑,通常需要千万级的文本条数据量。但真实的业务场景较难获取大规模的数据,受限于训练样本的内容,导致文字识别***存在泛化能力差,识别精度较低的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本图像合成方法、文本图像合成装置、存储介质及电子设备,旨在解决文本图像合成中合成内容与真实样本相似度低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一方面,提供了文本图像合成方法,包括:读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域;获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片;基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。
根据本公开的一些实施例,基于前述方案,所述获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片,包括:从语料列表中随机选取待合成文本;以及从所述文本字体范围中随机选取一文本字体;以及从所述文本高度范围中随机确定一高度值,并根据所述高度值确定文本字号;根据所述待合成文本、所述文本字体和所述文本字号生成所述文本贴片。
根据本公开的一些实施例,基于前述方案,所述基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件,包括:按预设的贴片方式确定所述文本图像的第一边界和第二边界,以及确定所述文本图像中一预放置坐标;根据所述预放置坐标和所述文本贴片的尺寸信息确定所述文本贴片的预放置区域;在所述预放置区域未超过所述第一边界和所述第二边界且未遮挡所述禁止贴片区域时,返回满足合成条件;在所述预放置区域超过所述第一边界时,返回不满足合成条件。
根据本公开的一些实施例,基于前述方案,所述方法还包括:在所述预放置区域未超过所述第一边界但超过所述第二边界时,以第一方式更新所述预放置坐标;或者未超过所述第一边界和所述第二边界但遮挡所述禁止贴片区域时,以第二方式更新所述预放置坐标;根据更新后的所述预放置坐标判断所述文本贴片是否满足所述合成条件。
根据本公开的一些实施例,基于前述方案,所述方法还包括:在所述贴片方式为从左往右再从上往下,所述第一边界为下边界,所述第二边界为右边界,所述预放置坐标为所述文本图像的左上角坐标。
根据本公开的一些实施例,基于前述方案,在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中之后,所述方法还包括:基于放置的所述文本贴片更新所述文本图像和所述禁止贴片区域;获取新的待合成文本,并根据所述新的待合成文本、所述文本字体范围和所述文本高度范围生成所述新的待合成文本对应的新的文本贴片;基于预设的贴片方式和更新后的所述禁止贴片区域判断所述新的文本贴片是否满足预设的合成条件;在所述新的文本贴片满足合成条件时,将所述新的文本贴片放置在更新后的所述文本图像中。
根据本公开的一些实施例,基于前述方案,所述对所述文本图像进行文本检测得到文本字体范围和文本高度范围,包括:对所述文本图像进行文本检测得到文本外接矩形;对所述文本外接矩形中的文本字体进行识别得到所述文本字体范围;以及根据所述文本外接矩形的高度值得到所述文本高度范围。
根据本公开实施例的第二方面,提供了一种文本图像合成装置,包括:检测模块,用于读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域;贴片模块,用于获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片;判断模块,用于基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;合成模块,用于在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。
根据本公开实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中的文本图像合成方法。
根据本公开实施例的第四方面,提供了一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中的文本图像合成方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一些实施例所提供的技术方案中,首先对获取的文本图像进行文本检测得到文本字体范围和文本高度范围,以及对文本图像进行内容检测得到禁止贴片区域;然后获取待合成文本,并根据文本检测的文本字体范围和文本高度范围生成文本贴片;最后再判断文本贴片是否可以合成进而最终得到合成文本图像。基于本公开提供的文本图像合成方法,一方面生成的文本贴片是基于文本检测的结果得到的,使得生成的文本贴片与真实的文本图像中的文本相似度较高,进而保持增加的文本图像数据量与原真实文本图像中的文本内容风格统一,更具真实性;另一方面,预先对文本图像内容检测得到禁止贴片区域,然后在文本贴片合成时能够避开这些禁止贴片区域,可以排除文本图像中有内容的非空白背景区域干扰,提高文本图片合成的质量;再一方面,基于自动生成文本贴片,并利用文本贴片进行文本图像合成避免了人工标注样本,降低人工标注成本,丰富文字图像数据集,进而用于提升文字识别模型泛化能力和识别准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出本公开示例性实施例中一种文本图像合成方法的流程示意图;
图2示意性示出本公开示例性实施例中一种文本图像的示意图;
图3示意性示出本公开示例性实施例中一种文本图像检测结果的示意图;
图4示意性示出本公开示例性实施例中一种合成文本图像的示意图;
图5(a)示意性示出本公开示例性实施例中一种文本贴片调整前的示意图;
图5(b)示意性示出本公开示例性实施例中一种文本贴片调整后的示意图;
图6(a)示意性示出本公开示例性实施例中另一种文本贴片调整前的示意图;
图6(b)示意性示出本公开示例性实施例中另一种文本贴片调整后的示意图;
图7示意性示出本公开示例性实施例中一种文本图像合成方法的流程示意图;
图8示意性示出本公开示例性实施例中一种卡证类文本合成样本的示意图;
图9示意性示出本公开示例性实施例中一种行驶证类文本合成样本的示意图;
图10示意性示出本公开示例性实施例中一种医疗票据类文本合成样本的示意图;
图11示意性示出本公开示例性实施例中一种文本图像合成装置的组成示意图;
图12示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图;
图13示意性示出本公开示例性实施例中一种电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在金融、保险等应用场景中涉及到各类影像中文字的识别与结构化,例如保险行业的核保、理赔环节中,客户会上传多张影像资料,包含卡证、医疗票据、财务票据、截图、其他印刷体类等,在业务***中需要对重要影像中的信息进行录入、校验等;OCR(OpticalCharacter Recognition,光学字符识别)技术在图像文字识别领域起了至关重要的作用,自动化录入卡证信息、医疗信息等,辅助信息抽取,构建用户多维度结构化数据,建立知识图谱等,用于实现自动化理赔或者核保等重要工作。
OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
在实际客户上传的影像中,字符种类丰富,包含中文、英文、标点符号等,特别是中文汉字字符,其中常用汉字数以千计,生僻汉字数以万计。在各种影像中字符字体丰富,基于深度学习的文字识别需要庞大的数据集支撑,通常需要千万级的文本条数据量。
因此文字识别***常受限于训练样本的数量以及丰富性,导致其在复杂场景中泛化能力差,识别精度较低。真实的业务场景较难获取大规模的数据,所以需要进行文本图像的合成来扩充数据集。目前的文字图像合成方法包含下列等方法:
1、采用人工标注真实样本,但这种方法会耗费大量的人力物力;
2、利用GAN(Generative Adversarial Network,生成式对抗网络)风格迁移方法合成样本,但是对于不同的业务场景的影像或者改变合成样本字体,均需重新训练GAN模型,且背景提取模型泛化能力不高,提取的背景不能有效去除掉真实图像中的字符;
3、利用深度学习和分割技术将特定语料的文本与背景图像轴对齐,可以将文本自然地融合到自然场景,但是不适用于印刷类影像中的文字图像合成。
因此,本公开提供一种文本图像合成方法,利用真实的文本图像数据和特定业务的语料快速合成与真实样本相似度更高的文本图像贴片样本,以得到最终的合成样本对文本数据集进行扩充。
以下对本公开实施例的技术方案的实现细节进行详细阐述。
图1示意性示出本公开示例性实施例中一种文本图像合成方法的流程示意图。如图1所示,该文本图像合成方法包括步骤S1至步骤S4:
步骤S1,读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域;
步骤S2,获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片;
步骤S3,基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;
步骤S4,在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。
在本公开的一些实施例所提供的技术方案中,首先对获取的文本图像进行文本检测得到文本字体范围和文本高度范围,以及对文本图像进行内容检测得到禁止贴片区域;然后获取待合成文本,并根据文本检测的文本字体范围和文本高度范围生成文本贴片;最后再判断文本贴片是否可以合成进而最终得到合成文本图像。基于本公开提供的文本图像合成方法,一方面生成的文本贴片是基于文本检测的结果得到的,使得生成的文本贴片与真实的文本图像中的文本相似度较高,进而保持增加的文本图像数据量与原真实文本图像中的文本内容风格统一,更具真实性;另一方面,预先对文本图像内容检测得到禁止贴片区域,然后在文本贴片合成时能够避开这些禁止贴片区域,可以排除文本图像中有内容的非空白背景区域干扰,提高文本图片合成的质量;再一方面,基于自动生成文本贴片,并利用文本贴片进行文本图像合成避免了人工标注样本,降低人工标注成本,丰富文字图像数据集,进而用于提升文字识别模型泛化能力和识别准确率。
下面,将结合附图及实施例对本示例实施方式中的文本图像合成方法的各个步骤进行更详细的说明。
在步骤S1中,读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域。
其中,文本图像是一张真实影像。文本图像中包括有文字内容,或者是文字内容与其他内容的结合。举例来说,如票据类图像中,包含有文字的内容;还可例如卡证类图像,其中包括文字以及个人照片等其他内容。
可以预先收集多张图像生成图像列表或图像数据库,然后通过遍历图像列表或数据库或者从随机选取一张图像作为文本图像。
图2示意性示出本公开示例性实施例中一种文本图像的示意图。参考图2所示,获取的文本图像为身份证截图,其中包括姓名、性别、出生日期、住址、身份证号等文本信息,也包括头像信息。
获取文本图像之后,对文本图像进行文本检测,可以通过优选深度学习方法,例如基于检测框回归的CTPN等网络,或者基于图像分割的PSENet、PANNet、DBNet等网络,检测得到文本图像中的文本字体范围和文本高度范围。
其中,文本字体范围表示为F_range,即文本图像中所有文本的字体样式的合集,例如一个文本图像的文本字体范围F_range=[黑体,宋体]。
文本高度范围表示为H_range=[hmin,hmax],即文本图像中所有文本对应的文本条外接矩形高度值的取值范围,hmin为文本图像中文本条外接矩形高度最小值,hmax为文本条外接矩形高度最大值。
另外还需要对文本图像进行内容检测,得到禁止贴片区域。
禁止贴片区域是指文本图像中不可用于文本贴片放置的区域。为了保证文本图像合成时,所有的文本内容清晰可见,所以在有文字、图像等包括内容的地方不允许进行样本贴片合成。因此,还需要对文本图像进行内容检测以确定禁止贴片区域。
禁止贴片区域包括了文本图像中所有文本所在的区域,并且在文本图像中包括其他图像等内容时,也需要将这些内容划分为禁止贴片区域。除此之外,还可以在此基础上根据需求设置其他的禁止贴片区域,例如在进行文本贴片合成时不能紧邻文本图片的边界,需要预留出一定距离的页面边距,因此可以根据需求将页面边距的区域也划分为禁止贴片区域。
在本公开的其他实施例中,禁止贴片区域还可以包括出过内容检测的其他区域。例如在进行文本贴片合成时不能紧邻文本图片的边界,需要预留出一定距离的页面边距,因此可以根据需求将页面边距的区域也划分为禁止贴片区域。
另外,在对文本图像进行检测得到禁止贴片区域之后,还可以增加一个验证环节。例如可能存在在内容识别时将文本图像的水印、底纹等非重要的内容识别成为了禁止贴片区域,但水印或底纹其实是不影响文本贴片的,所以可以在这个验证环节中对检测出的禁止贴片区域进行修改,进而获得更精准的禁止贴片区域用于后续的文本图像合成。
图3示意性示出本公开示例性实施例中一种文本图像检测结果的示意图。如图3所示,文本图像的检测结果中包含了多个文本内容对应的文本外接矩形,以及一个图像区域。这些都属于禁止贴片区域。
需要说明的是,在进行内容检测得到禁止贴片区域时,其中禁止贴片区域包括文本区域,由于基于文本检测的结果中已经得到各文本条外接矩形,所以可以将文本条外接矩形所在的位置视为文本区域,进而进行禁止贴片区域的划分。因此,当内容检测需要用到文本检测的结果时,可以先进行文本检测,再执行内容检测。
当然,内容检测也可以采用其他的方法,例如利用预训练的内容检测模型进行检测,其输入是文本图像,输出时禁止贴片区域,此时不需要使用文本检测的结果。这时对文本图像的文本检测和内容检测的执行顺序便没有限定,两个检测可以具有先后顺序,也可以同时执行。
另外,也可以将文本检测和内容检测合并为一次检测,即一次检测得到文本图像的文本字体范围、文本高度范围和禁止贴片范围。
在步骤S2中,获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片。
在本公开的一个实施例中,可以在语料列表中随机选取待合成文本。待合成文本包括的只是文本内容信息,可以包括中文、英文、数字、标点符号等内容。
例如,语料列表中包含的语料为“诸葛孔明”、“山东省青岛市市南区金口”、“110108188801014410”等内容信息,而并不包括文本的样式、大小等信息。
获取待合成文本后,生成待合成文本对应的文本贴片。文本贴片中文本的内容即待合成文本的内容,文本的字体是根据文本图片检测出的文本字体范围来确定的,文本的字号是根据文本图片检测出的文本高度范围来确定的,以此得到文本贴片的具体内容。
同时,在确定了文本内容、文本字体以及文本字号之后,也就可以计算得到该文本贴片对应的文本条外接矩形的长和宽,作为文本贴片的尺寸信息。
步骤S3,基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;
具体地,生成待合成文本对应的文本贴片后,根据预设的贴片方式和禁止贴片区域对该贴片能否与文本图像合成进行判断。
预设贴片方式也就是文本贴片需要事先定好按照何种顺序来进行文本贴片。通常来说,文本图像为矩形,那么预设的贴片方式可以是按照从左到右再从上到下的顺序依次进行文本贴片的合成;当然,贴片方式也可以是按照从上到下再左到右,或者是从右到左再从上到下等等;又或者当文本图像为圆形时,从中心向外等各种形式。
预设的贴片方式不同,判断文本贴片是否满足合成条件时的基础也不同。同时还需要注意文本贴片不能遮挡住禁止贴片区域。因此需要基于贴片方式和述禁止贴片区域来判断文本贴片是否满足预设的合成条件。
在判断文本贴片是否满足合成条件时需要有两方面的原则:原则一,文本贴片不能够超过文本图像能够贴片的区域的边界,因为待合成文字是一个整体,其对应的文本贴片需要完整地放置在文本图像中;原则二,文本贴片不能够遮挡禁止贴片区域,也就是说文本贴片放置的位置不能遮挡住文本图像中本身已有的内容;
因此,按照上述的两个原则,可以根据预设的贴片方式来确定贴片时搜索的文本图像的边界以实现原则一,根据禁止贴片区域来实现原则二,进而判断文本贴片是否满足合成条件。
步骤S4,在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。
具体地,当文本贴片满足预设的合成条件,则将文本贴片放置在文本图像中的目标位置完成文本贴片与文本图像的合成。
另外,在放置后,还可以将该文本贴片进行裁剪,并添加随机数据增强操作,例如模糊、噪声、压缩等,裁剪的该文本贴片即为一条合成样本,该样本对应的待合成文本即为贴入的文本。
基于上述方法,能够快速合成与真实样本相似度高的样本,且排除背景中非空白区域干扰得到和成文本图像,以用于文字识别模型训练,提升其在各业务场景文字泛化能力和识别准确率,增加OCR结果的可信度,有效节省人工标注成本,同时提升数据结构化精度,实现降本增效。
图4示意性示出本公开示例性实施例中一种合成文本图像的示意图。如图4所示,在原来的文本图像中增加合成了多个文本贴片。这些文本贴片的高度、字体等都与原文本图像中的文本内容相似,并且都被放置在文本图像中无内容的区域。
在本公开的一个实施例中,在步骤S1中,所述对所述文本图像进行文本检测得到文本字体范围和文本高度范围,包括:
步骤S111,对所述文本图像进行文本检测得到文本外接矩形;
步骤S112,对所述文本外接矩形中的文本字体进行识别得到所述文本字体范围;以及
步骤S113,根据所述文本外接矩形的高度值得到所述文本高度范围。
参考图3所示,对文本图像检测之后可以得到文本图像中包括各文本内容对应的多个文本外接矩形。
之后,裁剪所有的文本外接矩形框,利用字体识别方法识别每个文本条图像中的文本字体,将所有文本字体的种类进行组合便得到所有框的字体变化范围F_range。
另外,再获取所有文本外接矩形框的坐标,第i个矩形框表示为recti,取左上角顶点、右下角顶点坐标作为recti的坐标[xmini,ymini,xmaxi,ymaxi],根据recti的坐标计算recti的高度值Hi=ymaxi-ymini,得到所有的文本外接矩形框的高度值Hi之后,确定矩形高度最小值hmin以及矩形高度最大值进而得到文本高度范围H_range。
需要说明的是,本公开对步骤S112和步骤S113的执行顺序不作具体限定,即识别得到文本字体范围和文本高度范围的顺序不作限定,可以先执行步骤S112或步骤S113,也可以同时执行。
在本公开的一个实施例中,在步骤S2中,所述获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片,包括:
步骤S21,从语料列表中随机选取待合成文本;
具体地,可以从预设的语料库的语料列表中随机一待合成文本作为文本贴片中文本的内容。待合成文本tectj包括的只是文本内容信息,而并不包括文本的样式、大小等信息,可以是中文、英文、数字、标点符号等内容,例如“诸葛孔明”或者是“110108188801014410”等。
步骤S22,从所述文本字体范围中随机选取一文本字体;
其中,在对文本图像进行检测后得到了文本字体范围F_range,从F_range中随机选取一种文本字体,Fj∈F_range。例如黑体、宋体。
步骤S23,从所述文本高度范围中随机确定一高度值,并根据所述高度值确定文本字号;
在对文本图像进行检测后得到了H_range=[hmin,hmax],从文本高度范围中随机设置一个高度值heght作为文本贴片的高度Hj,然后根据高度值Hj计算出文本贴片中文本的字号大小。通常来说,字号大小可以根据公式font_sizej=(Hj*72)/96计算得到。
步骤S24,根据所述待合成文本、所述文本字体和所述文本字号生成所述文本贴片。
其中,文本的内容tectj已知,字号font_sizej也已知,因此可以计算出文本贴片的宽度,用Wj表示,文本贴片的高度为随机设置的高度值Hj,据此得到了文本贴片的尺寸信息。
在本公开的一个实施例中,在步骤S3中,所述基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件,包括:
步骤S31,按预设的贴片方式确定所述文本图像的第一边界和第二边界,以及确定所述文本图像中一预放置坐标;
步骤S32,根据所述预放置坐标和所述文本贴片的尺寸信息确定所述文本贴片的预放置区域;
步骤S33,在所述预放置区域未超过所述第一边界和所述第二边界且未遮挡所述禁止贴片区域时,返回满足合成条件;
步骤S34,在所述预放置区域超过所述第一边界时,返回不满足合成条件。
具体而言,在判断文本贴片是否满足合成条件之前,首先需要预设贴片方式,也就是需要事先拟定好按照何种顺序来进行文本贴片。预设的贴片方式不同,在判断文本贴片是否满足所述合成条件时,确定的第一边界、第二边界,以及预放置坐标也就不同。
另外,需要说明的是,通常来说,能够用于文本贴片合成的区域是整个文本图像的区域,但也可以是文本图像中的部分区域,记为搜索区域。例如搜索区域可以在文本图像范围内随机选取一块随机大小的区域,或者通过目标检测模型检测图像中的目标区域。
当用于合成的区域只是搜索区域时,那么第一边界、第二边界,以及预放置坐标也就基于这个搜索区域来确定。
在本公开的一个实施例中,在所述贴片方式为从左往右再从上往下,所述第一边界为下边界,所述第二边界为右边界,所述预放置坐标为所述文本图像的左上角坐标。
具体地,由于贴片方式为将文本贴片按照从左往右再从上往下的顺序在文本图像中搜索可放置的区域,那么在文本贴片合成时,当文本贴片超越搜索区域的右边界时,还可以会继续进行换行搜索,但超过了搜索区域的下边界,也就是文本贴片已经不能完全放置在文本图像的搜索区域中了,也就不能再继续搜索了。所以将第一边界定为下边界,第二边界定为右边界。
文本贴片可以贴的初始位置应该是文本图像中搜索区域[left,top,right,bottom]的左上角,所以将左上角坐标[left,top]作为预放置坐标。
在本公开的其他实施例中,当贴片方式为从上往下再从左往右,那么第一边界为右边界,第二边界为下边界,将搜索区域左上角的坐标作为预放置坐标。
在本公开的其他实施例中,当贴片方式为从右往左再从上往下,那么第一边界为左边界,第二边界为下边界,将搜索区域右上角的坐标作为预放置坐标。
在步骤S32中,根据所述预放置坐标和所述文本贴片的尺寸信息确定所述文本贴片的预放置区域。
具体而言,将文本贴片按照预放置坐标进行放置,若贴片方式为从左往右,则将文本贴片也以从左往右的方式放置,将文本贴片的左上角坐标与预放置坐标重合,进而得到预放置区域;若贴片方式为从右往左,则将文本贴片也以从右往左的方式放置。其他的贴片方式可以根据需要进行具体设置,本公开在此就不做过多赘述。
已知文本贴片的尺寸信息,根据预放置坐标就可以确定出文本贴片在文本图像中的预放置区域。举例来说,在初始状态时,确定文本图像的预放置坐标为[left,top],即左上角坐标,那么该文本图像获取的第j个待合成文本的文本贴片的高为Hj,宽为Wj,预放置区域可表示为[left,top,left+Wj,top+Hj]。而当预放置坐标更新为[xj,yj],那么预放置区域可可表示为[xj,yj,xj+Wj,yj+Hj]。
步骤S33和步骤S34是基于预放置区域进行文本贴片是否满足合成条件判断的不同情况的判断结果的示例。
在步骤S33中,在所述预放置区域未超过所述第一边界和所述第二边界且未遮挡所述禁止贴片区域时,返回满足合成条件。
具体地,当将文本贴片放置后,没有超过文本图像的边界,同时也没有遮挡住任何有文本或其他内容的区域,那么就可以将文本贴片放置在该处进行文本图像合成。
在步骤S34中,在所述预放置区域超过所述第一边界时,返回不满足合成条件。
具体地,当将文本贴片放置后,超过了文本图像的第一边界,则可以判断为不满足合成条件。例如,若贴片方式为从左往右再从上往下,第一边界为文本图像的下边界,那么当预放置区域超过了文本图像的下边界linej_bottom,也就是文本图像中已经放不下该文本贴片了,则直接可以判断为不满足合成条件。
进一步地,除了步骤S33和步骤S34两种情况,所述方法还包括:
步骤S35,在所述预放置区域未超过所述第一边界但超过所述第二边界时,以第一方式更新所述预放置坐标;或者
步骤S36,未超过所述第一边界和所述第二边界但遮挡所述禁止贴片区域时,以第二方式更新所述预放置坐标;
步骤S36,根据更新后的所述预放置坐标判断所述文本贴片是否满足所述合成条件。
在步骤S35中,在预放置区域没有超过第一边界,但超过了第二边界,那么还有机会从文本图像中继续搜寻下一预放置坐标。其中,第一方式可以是换行。
综上所示,当在判断文本贴片是否满足合成条件时只能返回两种结果,一种是满足合成条件,另一种是不满足合成条件。但在判断时,可以分为三种情况,一种情况是直接可判断为满足合成条件,另一种是直接可判断为不满足合成条件,还有一种是还需要在文本图像中寻找其他的预放置坐标,并重复上述过程来判断文本贴片是否满足合成条件。
图5(a)示意性示出本公开示例性实施例中一种文本贴片调整前的示意图。图5(b)示意性示出本公开示例性实施例中一种文本贴片调整后的示意图。
参考图5(a)所示,其中501“诸葛孔明”为增加的文本贴片,与之类似的还有“山东省青岛市市南区金口二”、“110108188801014410”,502“民族汉”等为文本图像本身具有的文本字样,与之类似的还有“姓名”、“性别”、“住址”等等,搜索区域为整个文本图像的全部区域503。将该文本贴片放置后,预放置区域504超过了文本图像的右边界right,但还没超过下边界bottom,因此可以采用换行的方式继续搜索文本贴片可以放置的区域。
在换行时,可以预设一个deltay值,用于表示相邻两行的间隔,当预放置区域超过右边界时进行换行,在预放置区域当前行的下边界处增加deltay作为换行后的预放置区域的上边界,然后从左侧的起始位置继续搜索。
具体地,计算当前预放置区域所在行的下边界的坐标linej_bottom,计算下一行的上边界的坐标为linej_bottom+deltay,到下一行的起始点,以此来更新预放置区域的坐标。
参考图5(b)所示,当出现图5(a)中文本贴片的预放置区域的情况时,以换行的方式再次确定一个新的预放置坐标,并将该文本贴片放置后,更新预放置区域为505,完成换行搜索过程。
在步骤S36中,在预放置区域没有超过第一边界和第二边界,但是却遮挡了禁止贴片区域时,也就是预放置区域与禁止贴片区域有交集,则需要以第二种方式进行更新预放置坐标。其中,第二种方式则是跳过禁止贴片区域继续搜寻。
图6(a)示意性示出本公开示例性实施例中另一种文本贴片调整前的示意图。图6(b)示意性示出本公开示例性实施例中另一种文本贴片调整后的示意图。
参考图6(a)所示,与图5(a)类似地,其中601“诸葛孔明”等为增加的文本贴图,602“民族汉”为文本图像本身的字样,搜索区域为整个文本图像603。将该文本贴片放置后,预放置区域604并未超过文本图像的右边界right和下边界bottom,但遮挡了检测出的禁止贴片区域,因此可以将文本贴片越过禁止贴片区域,继续向右进行搜索。
在越过禁止贴片区域时,可以预设一个deltax,用于表示同一行相邻两个区域的最小间隔距离,在越过禁止贴片区域后向右继续右移动deltax的距离进而得到新的预放置坐标。
举例而言,若与当前的预放置区域相交的文本外接矩形框中最右侧的边为maxx,那么向右继续搜索,使得新的预放置坐标的左边界为maxx+deltax,进而更新预放置坐标。
参考图6(b)所示,当出现图6(a)中文本贴片的预放置区域的情况时,越过禁止贴片区域继续进行搜索确定预放置坐标,并将该文本贴片放置后,更新预放置区域为605。
需要说明的是,根据贴片方式的不同,越过禁止贴片区域的方式也存在一些细微的差异。比如贴片方式中是按照从右往左的方式,那么在预放置区域与禁止贴片区域有交集时,就需要将当前禁止贴片区域的最左侧的边maxx再向左移动deltax进而得到新的预放置坐标。其他的更新方法也需要根据贴片方式具体确定,但都属于同一个发明构思,属于本公开的保护范畴之内。
在本公开的一个实施例中,在判断文本贴片是否满足预设的合成条件时,可以根据上述的判断方法确定不同的优先级。其中:
第一优先级是判断文本贴片的预放置区域是否超过文本图像的第一边界:如果超过,则直接结束合成;如果没有超过,那么第二优先级是判断预放置区域是否超过第二边界:如果超过第二边界,则以第一方式更新预放置坐标;如果没有超过,那么第三优先级是判断预放置区域是否遮挡禁止贴片区域:如果未遮挡,则放置成功进行文本贴片的合成;如果遮挡,那么以第二方式在继续更新放置坐标。按照以上的优先级便可一次对文本贴片是否满足合成条件进行判断。
在本公开的一个实施例中,在文本贴片满足预设的合成条件时,将所述文本贴片放置在可贴片区域中;在文本贴片不满足预设的合成条件时,则结束该文本贴片的合成。
在本公开的一个实施例中,一张文本图像还可以贴上多个文本贴片,因此,在将文本贴片放置在文本图像中之后,还可以继续获取待合成文本进行贴片合成。
图7示意性示出本公开示例性实施例中一种文本图像合成方法的流程示意图。如图7所示,在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中之后,所述方法还包括:
步骤S71,基于放置的所述文本贴片更新所述文本图像和所述禁止贴片区域;
步骤S72,获取新的待合成文本,并根据所述新的待合成文本、所述文本字体范围和所述文本高度范围生成所述新的待合成文本对应的新的文本贴片;
步骤S73,基于预设的贴片方式和更新后的所述禁止贴片区域判断所述新的文本贴片是否满足预设的合成条件;
步骤S74,在所述新的文本贴片满足合成条件时,将所述新的文本贴片放置在更新后的所述文本图像中。
具体地,当把文本贴片放置在文本图像之后,在文本图像上也就增加了该文本贴片的内容,所以文本图像发生了变化,禁止贴片区域也增加了已放置的文本贴片的区域。已知文本贴片放置的坐标和文本贴片的尺寸信息,可以据此更新禁止贴片区域。
之后再次获取待合成文本,并重复之前的步骤生成待合成文本对应的文本贴片,以及判断该文本贴片是否满足合成条件。该过程与之前的步骤S2~S4同,此处就不再赘述。
在本公开的一个实施例中,还可以对文本图像合成的结束进行判断。例如在将所述文本贴片放置在文本图像之后,增加一个检测步骤,可以是检测当前的禁止贴片区域占总的文本图像区域的占比,当占比数大于一个阈值时,则表示对于该文本图像的文本图像合成结束,此时可以不再获取新的待合成文本继续贴片合成过程。
还例如对文本图像中增加的文本贴片数量进行限定,当文本图像中增加预设数量个文本贴片之后就结束文本图像合成。
本公开对此仅是示例性说明,但并不能限制本公开,即基于本方案扩充的其他容易想到的方案也属于本申请的保护范畴之内。
基于上述描述,对获取的一个待合成文本,生成对应的文本贴片后,需要在文本区域中不断地重复搜索过程直至得出该文本贴片是否满足合成条件的结论,在满足条件时将文本贴片进行放置合成,在不满足条件时结束该文本贴图的合成。同时,需要重复获取待合成文本,并重复之前每一待合成文本的判断的过程进行多个待合成文本对应的文本贴片的合成。
通过本公开提供的文本图像合成方法,利用真实影像的背景,以及识别影像中文本字体范围,计算影像中文本外接矩形框高度范围,确定合成样本的背景、高度范围、字体范围,字体大小,较真实的合成与真实影像中文本相似的样本,可解决合成文本图像与真实样本相似度低的问题。
利用滑动窗口在真实影像中搜索空白背景区域,利用文字检测、目标检测等获取影像中非空白背景区域文字、头像等坐标位置,判断滑动窗口是否超出滑动区域,是否与非空白背景区域相交,来得到最终用来合成样本的背景区域,可解决合成时提取的背景存在其他字符、头像等干扰,导致合成样本质量差的问题。
使得为文本图像可以自动、高效地生成合成样本用来增加文本数据量,这些数据量用于文字识别模型训练,进而能够提升模型的泛化能力和识别准确率,增加OCR结果的可信度,有效的代替人工,并且普适性很强,适用于生成打印、扫描、电子版的影像类的文本图像合成。
在本公开的一个实施例中,将以一个卡证类文本图像样本的合成为例具体进行步骤说明。
(1)遍历卡证类真实图像列表,随机读取一张图像。
(2)对读取的图像进行文字检测;
采用基于图像分割的PSENet网络,获取图像中所有文本条外接矩形框坐标,其中第i个矩形框recti的取左上角顶点、右下角顶点坐标[xmini,ymini,xmaxi,ymaxi];
(3)裁剪所有文本条外接矩形框并进行识别;
利用字体识别每个文本条图像中的字体,得到所有框的字体变化范围F_range=[“方正黑体简体.ttf”,“华文细黑.ttf”,“OCR-B 10BT.ttf”...];
同时,计算图像中所有文本条外接矩形框的高度,第i个矩形框recti的高度为Hi=ymaxi–ymaxi,得到所有文本条外接矩形框的高度范围H_range=[hmin,hmax];
(4)通过目标检测模型检测图像中的卡证,得到卡证的外接矩形框坐标为[left,top,right,bottom],将该矩形区域作为可用于贴片的文本图像搜索区域;
(5)计算文本贴片;
随机选取滑动窗口高度Hj∈[hmin,hmax],根据Hj以及像素值与字体大小的映射关系,计算出合成文本字号大小font_sizej=(Hj*72)/96,从卡证类重点字段的语料库中随机选取待合成文本tectj,根据字体大小和文本长度计算出文本贴片宽度Wj,因此得到初始的预放置坐标[xj,yj,xj+Wj,yj+Hj],其中xj=left,yj=top,随机选取文字合成字体Fj∈F_range;
(6)将文本贴片从搜索区域[left,top,right,bottom]中起始点[left,top]出发,按照从左到右再从上向下的贴片方式,判断该文本贴片的预放置区域[xj,yj,xj+Wj,yj+Hj]的情况;
(7)计算[xj,yj,xj+Wj,yj+Hj]是否超过搜索区域的下边界:
如果yj+Hj>bottom,则当前预放置区域超过搜索区域的下边界,则表示该贴片在文本图像中已经放不下了,搜索结束了,则结束该贴片的合成。
如果yj+Hj≤bottom,则执行步骤(8);
(8)计算[xj,yj,xj+Wj,yj+Hj]是否超过搜索区域的右边界;
如果xj+Wj>right,则计算当前预放置区域所在行的下边界linej_bottom,然后计算下一行的上边界为linej+1_top=linej_bottom+deltay,其中deltay为预设值,表示相邻两行的间隔,文本贴片被放置到下一行的起始点,更新预放置区域为[left,linej+1_top,left+Wj,linej+1_top+Hj],返回步骤(7)继续判断;
如果xj+Wj≤right,则执行步骤(9);
(9)计算[xj,yj,xj+Wj,yj+Hj]是否与文本图像中的禁止贴片区域有交集;
如果有交集,将当前的预放置区域最右侧的边maxx,继续向右搜索,使得新的预放置坐标的左边界为maxx+deltax,其中deltax为预设值,表示左右相邻搜索的区域的间隔距离,并更新预放置区域坐标即为[maxx+deltax,yj,maxx+deltax+Wj,yj+Hj],返回步骤(7)继续判断;
如果没有交集,则执行步骤(10);
(10)按照选取的待合成文本textj、字体Fj、字体大小font_sizej将文字贴入当前的预放置区域,裁剪该区域,添加随机数据增强操作(例如模糊、噪声、压缩等),该裁剪的文本贴片即为一条合成样本,该合成样本对应的标签即为贴入的文本textj
(11)判断当前文本图像合成是否结束;若结束则将文本图像和所有放置的文本贴片进行合成得到合成文本图像;若未结束,则返回步骤(7)。
图8示意性示出本公开示例性实施例中一种卡证类文本合成样本的示意图。参考图2所示,为本公开一个实施例中初始的文本图像,参考图4所示,表示对图2所示文本图像进行文本合成,增加的文本贴片被放置在真实的文本图像中,即可得到增加的文本数据集如图8所示,其中包括文字以及影像背景,例如“诸葛孔明”、“孙六”等。
按照上述所述步骤即可快速合成大量且与真实样本相似度较高的样本,用于卡证类文字识别模型训练,提升最终项目各字段识别的准确率,以及该模型在不同业务场景中卡证影像识别的泛化能力。
基于类似的方法还可以对行驶证类或医疗票据类的文本图像进行文本图像合成,图9示意性示出本公开示例性实施例中一种行驶证类文本合成样本的示意图,例如“2000-12-01”、“俞亚军”等图像文本数据,图10示意性示出本公开示例性实施例中一种医疗票据类文本合成样本的示意图,例如“岳阳医院”、“氯化铵甘草合剂”等图像文本数据。
图11示意性示出本公开示例性实施例中一种文本图像合成装置的组成示意图,如图11所示,该文本图像合成装置1100可以包括检测模块1101、贴片模块1102、判断模块1103以及合成模块1104。其中:
检测模块1101,用于读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域;
贴片模块1102,用于获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片;
判断模块1103,用于基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;
合成模块1104,用于在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。
根据本公开的示例性实施例,所述贴片模块1102用于从语料列表中随机选取待合成文本;以及从所述文本字体范围中随机选取一文本字体;以及从所述文本高度范围中随机确定一高度值,并根据所述高度值确定文本字号;根据所述待合成文本、所述文本字体和所述文本字号生成所述文本贴片。
根据本公开的示例性实施例,所述判断模块1103用于按预设的贴片方式确定所述文本图像的第一边界和第二边界,以及确定所述文本图像中一预放置坐标;根据所述预放置坐标和所述文本贴片的尺寸信息确定所述文本贴片的预放置区域;在所述预放置区域未超过所述第一边界和所述第二边界且未遮挡所述禁止贴片区域时,返回满足合成条件;在所述预放置区域超过所述第一边界时,返回不满足合成条件。
根据本公开的示例性实施例,所述判断模块1103还用于在所述预放置区域未超过所述第一边界但超过所述第二边界时,以第一方式更新所述预放置坐标;或者未超过所述第一边界和所述第二边界但遮挡所述禁止贴片区域时,以第二方式更新所述预放置坐标;根据更新后的所述预放置坐标判断所述文本贴片是否满足所述合成条件。
根据本公开的示例性实施例,在所述贴片方式为从左往右再从上往下,所述第一边界为下边界,所述第二边界为右边界,所述预放置坐标为所述文本图像的左上角坐标。
根据本公开的示例性实施例,所述合成模块1104还包括循环模块,所述循环模块用于基于放置的所述文本贴片更新所述文本图像和所述禁止贴片区域;获取新的待合成文本,并根据所述新的待合成文本、所述文本字体范围和所述文本高度范围生成所述新的待合成文本对应的新的文本贴片;基于预设的贴片方式和更新后的所述禁止贴片区域判断所述新的文本贴片是否满足预设的合成条件;在所述新的文本贴片满足合成条件时,将所述新的文本贴片放置在更新后的所述文本图像中。
根据本公开的示例性实施例,所述检测模块1101用于对所述文本图像进行文本检测得到文本外接矩形;对所述文本外接矩形中的文本字体进行识别得到所述文本字体范围;以及根据所述文本外接矩形的高度值得到所述文本高度范围。
上述的文本图像合成装置1100中各模块的具体细节已经在对应的文本图像合成方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的存储介质。图12示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图,如图12所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品1200,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如手机上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。图13示意性示出本公开示例性实施例中一种电子设备的计算机***的结构示意图。
需要说明的是,图13示出的电子设备的计算机***1300仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,计算机***1300包括中央处理单元(Central Processing Unit,CPU)1301,其可以根据存储在只读存储器(Read-Only Memory,ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(Random Access Memory,RAM)1303中的程序而执行各种适当的动作和处理。在RAM 1303中,还存储有***操作所需的各种程序和数据。CPU1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output,I/O)接口1305也连接至总线1304。
以下部件连接至I/O接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时,执行本公开的***中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本图像合成方法,其特征在于,包括:
读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域;
获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片;
基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;
在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。
2.根据权利要求1所述的文本图像合成方法,其特征在于,所述获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片,包括:
从语料列表中随机选取待合成文本;以及
从所述文本字体范围中随机选取一文本字体;以及
从所述文本高度范围中随机确定一高度值,并根据所述高度值确定文本字号;
根据所述待合成文本、所述文本字体和所述文本字号生成所述文本贴片。
3.根据权利要求1所述的文本图像合成方法,其特征在于,所述基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件,包括:
按预设的贴片方式确定所述文本图像的第一边界和第二边界,以及确定所述文本图像中一预放置坐标;
根据所述预放置坐标和所述文本贴片的尺寸信息确定所述文本贴片的预放置区域;
在所述预放置区域未超过所述第一边界和所述第二边界且未遮挡所述禁止贴片区域时,返回满足合成条件;
在所述预放置区域超过所述第一边界时,返回不满足合成条件。
4.根据权利要求3所述的文本图像合成方法,其特征在于,所述方法还包括:
在所述预放置区域未超过所述第一边界但超过所述第二边界时,以第一方式更新所述预放置坐标;或者
未超过所述第一边界和所述第二边界但遮挡所述禁止贴片区域时,以第二方式更新所述预放置坐标;
根据更新后的所述预放置坐标判断所述文本贴片是否满足所述合成条件。
5.根据权利要求3所述的文本图像合成方法,其特征在于,所述方法还包括:
在所述贴片方式为从左往右再从上往下,所述第一边界为下边界,所述第二边界为右边界,所述预放置坐标为所述文本图像的左上角坐标。
6.根据权利要求1所述的文本图像合成方法,其特征在于,在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中之后,所述方法还包括:
基于放置的所述文本贴片更新所述文本图像和所述禁止贴片区域;
获取新的待合成文本,并根据所述新的待合成文本、所述文本字体范围和所述文本高度范围生成所述新的待合成文本对应的新的文本贴片;
基于预设的贴片方式和更新后的所述禁止贴片区域判断所述新的文本贴片是否满足预设的合成条件;
在所述新的文本贴片满足合成条件时,将所述新的文本贴片放置在更新后的所述文本图像中。
7.根据权利要求1所述的文本图像合成方法,其特征在于,所述对所述文本图像进行文本检测得到文本字体范围和文本高度范围,包括:
对所述文本图像进行文本检测得到文本外接矩形;
对所述文本外接矩形中的文本字体进行识别得到所述文本字体范围;以及
根据所述文本外接矩形的高度值得到所述文本高度范围。
8.一种文本图像合成装置,其特征在于,包括:
检测模块,用于读取文本图像,并对所述文本图像进行文本检测得到文本字体范围和文本高度范围,以及对所述文本图像进行内容检测得到禁止贴片区域;
贴片模块,用于获取待合成文本,并根据所述待合成文本、所述文本字体范围和所述文本高度范围生成所述待合成文本对应的文本贴片;
判断模块,用于基于预设的贴片方式和所述禁止贴片区域判断所述文本贴片是否满足预设的合成条件;
合成模块,用于在所述文本贴片满足合成条件时,将所述文本贴片放置在所述文本图像中以得到合成文本图像。
9.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至7任一项所述的文本图像合成方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7任一项所述的文本图像合成方法。
CN202111197890.6A 2021-10-14 2021-10-14 文本图像合成方法、装置、存储介质及电子设备 Pending CN113936187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111197890.6A CN113936187A (zh) 2021-10-14 2021-10-14 文本图像合成方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111197890.6A CN113936187A (zh) 2021-10-14 2021-10-14 文本图像合成方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113936187A true CN113936187A (zh) 2022-01-14

Family

ID=79279519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111197890.6A Pending CN113936187A (zh) 2021-10-14 2021-10-14 文本图像合成方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113936187A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758339A (zh) * 2022-06-15 2022-07-15 深圳思谋信息科技有限公司 字符识别模型的获取方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758339A (zh) * 2022-06-15 2022-07-15 深圳思谋信息科技有限公司 字符识别模型的获取方法、装置、计算机设备和存储介质
CN114758339B (zh) * 2022-06-15 2022-09-20 深圳思谋信息科技有限公司 字符识别模型的获取方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US10599924B2 (en) Semantic page segmentation of vector graphics documents
CN109829453B (zh) 一种卡证中文字的识别方法、装置以及计算设备
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
US11227153B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN110874618A (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN110889437A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
US11210507B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
CN112417899A (zh) 文字翻译方法、装置、计算机设备和存储介质
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN113592720B (zh) 图像的缩放处理方法、装置、设备、存储介质
CN112839185B (zh) 用于处理图像的方法、装置、设备和介质
US20190188466A1 (en) Method, system and apparatus for processing a page of a document
CN113936187A (zh) 文本图像合成方法、装置、存储介质及电子设备
CN116860747A (zh) 训练样本的生成方法、装置、电子设备及存储介质
CN112416340A (zh) 基于草图的网页生成方法和***
CN115797955A (zh) 基于单元格约束的表格结构识别方法及其应用
WO2023284670A1 (zh) 图形码提取模型构建方法、识别方法、装置、设备和介质
CN112395834B (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN112766269B (zh) 一种图片文本检索方法、智能终端及存储介质
CN104112135B (zh) 文本图像提取装置以及方法
CN110852229A (zh) 图像中文本区域的位置确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination