CN110414519B - 一种图片文字的识别方法及其识别装置、存储介质 - Google Patents

一种图片文字的识别方法及其识别装置、存储介质 Download PDF

Info

Publication number
CN110414519B
CN110414519B CN201910567298.7A CN201910567298A CN110414519B CN 110414519 B CN110414519 B CN 110414519B CN 201910567298 A CN201910567298 A CN 201910567298A CN 110414519 B CN110414519 B CN 110414519B
Authority
CN
China
Prior art keywords
picture
text line
text
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910567298.7A
Other languages
English (en)
Other versions
CN110414519A (zh
Inventor
彭宇翔
朱帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongan Information Technology Service Co Ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201910567298.7A priority Critical patent/CN110414519B/zh
Publication of CN110414519A publication Critical patent/CN110414519A/zh
Application granted granted Critical
Publication of CN110414519B publication Critical patent/CN110414519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

一种图片文字的识别方法及其识别装置,该识别方法包括:获取待识别的文本行图片,将待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到待识别的文本行图片中的文字,输出待识别的文本行图片中的文字;其中图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。由于用于训练的文本行图片是由标准的文本行图片进行扩充变化处理而得到,使得图片文字识别模型的训练样本集更符合实际应用,相比随机组合字符而得到的训练样本,大大缩减了训练样本的数量,却大幅提高了生成训练样本和训练模型的效率。

Description

一种图片文字的识别方法及其识别装置、存储介质
技术领域
本发明涉及图像处理技术领域,具体涉及一种图片文字的识别方法及其识别装置。
背景技术
光学字符识别(OCR)领域一直是计算机视觉领域一个重要分支,在金融、教育等领域都有很大需求。在现有的光学字符识别方法中,有基于单字识别的情形,也有基于文本行识别的情形。其中,基于单字识别的方法由于有着难以准确切分单字和无法综合上下文的问题,致使实际应用中单字识别精度往往不如人意。此外,基于文本行识别的方法由于需要大量的高质量训练样本才能训练得一个较好的文本行识别模型,并且所需的训练样本量随着文本行的长度而增加甚至是以指数级的形式进行增加,由此致使获取高质量、大样本量的训练样本时遇到困难。
目前,文本行识别技术往往采用了深度神经网络,在训练样本充足的情况下才能有效地对文本行进行识别。然而,在现实中往往收集不到足够多的训练样本,而且通过公开数据集训练得的识别模型对特定应用场景下的识别精度不佳,以及现有的生成字符技术因对真实场景不能很好模拟也影响到文本行的识别精度。
综上所述,光学字符识别技术需要与应用场景进行紧密联系,亟需一种识别方法来解决训练样本缺乏所造成的识别模型训练效果差、文本识别精度低的问题。
发明内容
本发明主要解决的技术问题是如何克服训练样本缺乏所造成的文本识别模型训练效果差、文本识别精度低的问题。为解决上述技术问题,本申请提供一种图片文字的识别方法及其识别装置。
根据第一方面,一种实施例中提供一种图片文字的识别方法,包括以下步骤:
获取待识别的文本行图片,所述待识别的文本行图片包含文字;将所述待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到所述待识别的文本行图片中的文字;所述图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,所述用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片;输出所述待识别的文本行图片中的文字。
所述将所述待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到所述待识别的文本行图片中的文字,其中所述图片文字识别模型通过以下方式建立:获取一幅或多幅标准的文本行图片,所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到;对每幅所述标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据所述样本图片形成训练样本集;利用所述训练样本集,通过深度神经网络,训练得到所述图片文字识别模型。
所述获取一幅或多幅标准的文本行图片,所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到,包括:根据所述待识别的文本行图片中的文字获取多个相关的文本内容,将各个文本内容分别进行不同的字体风格变化,生成对应的文本图像,根据所述文本图像形成预设的文本行二值化图片;根据所述待识别的文本行图片确定相关的标准模板图片,从所述标准模板图片中获取无文字的背景区域,根据所述无文字的背景区域形成预设的背景图片;对于每一个文本行二值化图片,将该文本行二值化图片与所述背景图片进行合成处理,得到一幅所述标准的文本行图片。
所述根据所述待识别的文本行图片中的文字获取一条或多条相关的文本内容,包括:根据所述待识别的文本行图片中的文字获取一个或多个相关的词条,对每个词条进行拆分,组合后生成更多的词条,将生成的每一个词条按照预设的字体类型进行转换得到对应的文本内容。
所述对每幅所述标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据所述样本图片形成训练样本集,包括:对于每幅标准的文本行图片,将该标准的文本行图片进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理之后,得到对应的样本图片;整合每幅标准的文本行图片对应的样本图片以及该样本图片中的文本内容,以形成训练样本集;该样本图片中的文本内容为合成该标准的文本行图片的文本行二值化图片所对应的文本内容。
所述利用所述训练样本集,通过深度神经网络,训练得到所述图片文字识别模型,包括:构建深度神经网络的网络模型;以所述训练样本集中的每个样本图片为训练数据,以每个样本图片中的文本内容为训练数据的标签,对所述深度神经网络的网络模型进行连续训练,得到所述图片文字识别模型。
所述以所述训练样本集中的每个样本图片为训练数据,以每个样本图片中的文本内容为训练数据的标签,对所述深度神经网络的网络模型进行连续训练,得到所述图片文字识别模型,包括:设置CRNN模型为所述深度神经网络的网络模型,所述CRNN模型包括使用CNN的卷积层,使用BiLSTM的循环层和使用CTC的转录层;根据所述卷积层、所述循环层和所述转录层建立所述CRNN模型的目标函数,用公式表示为
其中,χ={Ii,li}i表示训练样本集,Ii为第i个样本图片,li为第i个样本图片中的文本内容,yi为第i个样本图片对应的预测文本内容,下标i为训练样本集中训练数据的序号;
利用所述训练样本集对所述目标函数进行迭代计算,将所述目标函数最小化时对应的CRNN模型作为所述图片文字识别模型。
根据第二方面,一种实施例中提供一种图片文字的识别装置,包括:
获取单元,用于获取待识别的文本行图片,所述待识别的文本行图片包含文字;
识别单元,用于将所述待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到所述待识别的文本行图片中的文字;所述图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,所述用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片;
输出单元,用于输出所述待识别的文本行图片中的文字。
在所述识别单元中,所述图片文字识别模型通过以下方式建立:
所述识别单元获取一幅或多幅标准的文本行图片,所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到;
所述识别单元对每幅所述标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据所述样本图片形成训练样本集;
所述识别单元利用所述训练样本集,通过深度神经网络,训练得到所述图片文字识别模型。
根据第三方面,一种实施例中提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现如上述第一方面所述的识别方法。
本申请的有益效果是:
依据上述实施例的一种实施例中提供一种图片文字的识别方法及其识别装置,该识别方法包括:获取待识别的文本行图片,将待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到待识别的文本行图片中的文字,输出待识别的文本行图片中的文字;其中图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。第一方面,由于用于训练的文本行图片是由标准的文本行图片进行扩充变化处理而得到,使得图片文字识别模型的训练样本集更符合实际应用,相比随机组合字符而得到的训练样本,大大缩减了训练样本的数量,却大幅提高了生成训练样本和训练模型的效率;第二方面,在对标准的文本行图片进行扩充变化处理时,所采用的扩充变化处理手段充分考虑了拍摄角度、拍摄光线、图像传输、文本检测器等各方面可能对文本行图片造成的影响,通过随机添加一些扩充变化处理手段至标准文本行图片上来模拟这些影响,可以使得训练样本的数据真实特性得到增强;第三方面,由于标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到,使得用户只需要根据应用场景输入相关的词条和标准模板图片即可,从而自动生成训练样本集,提高了图片文字识别模型的训练效率和图片文字的识别效率;第四方面,本申请的技术方案实现了一种从样本生成到模型训练及预测的自动实施过程,无需累积许多图片和图片的标注即可快速实现图片文字识别的应用。
附图说明
图1为图片文字的识别方法的流程图;
图2为建立图片文字识别模型的流程图;
图3为获取标准的文本行图片的流程图;
图4为形成训练样本集和训练得到图片文字识别模型的流程图;
图5为图片文字的识别装置的结构示意图;
图6为识别单元的结构示意图;
图7为计算机存储介质的结构示意图;
图8为合成得到标准的文本行图片的示意图;
图9为扩充变化处理得到样本图片的示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,它们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
实施例一、
请参考图1,本申请公开一种图片文字的识别方法,其包括步骤S100-S300,下面分别说明。
步骤S100,获取待识别的文本行图片,待识别的文本行图片包含文字。
需要说明的是,文本行图片是指包含的文字内容成行或成列分布的图片,且仅有一行文字或一列文字。此外,这里的文字是广义的概念,包括各国的语言文字、标点符号、数字、希腊符号等具有信息识别作用的字符。
需要说明的是,待识别的文本行图片中的文字可以是电子邮箱、电话号码、通信地址、姓名、广告语、诗词、外文单词、标志标识等内容,这里不再进行限制。
步骤S200,将待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到该待识别的文本行图片中的文字。
在本实施例中,图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。
步骤S300,输出待识别的文本行图片中的文字。在一具体实施例中,可以将待识别的文本行图片中文字输出至显示器,以供用户进行查看。
本申请技术方案的关键在于:采用了一种新的图片文字识别模型,以期通过该图片文字识别模型来准确、快速地识别得到待识别的文本行图片中的文字。为便于理解本申请的技术方案,接下来将描述如何建立步骤S200中提及的图片文字识别模型,并通过步骤S410-S430进行展开说明。
图片文字识别模型可以通过以下步骤建立:
步骤S410,获取一幅或多幅标准的文本行图片,标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到。在一具体实施例中,件图3,步骤S410可以包括步骤S411-S413,分别说明如下。
步骤S411,根据待识别的文本行图片中的文字获取多个相关的文本内容,将各个文本内容分别进行不同的字体风格变化,生成对应的文本图像,根据该文本图像形成一幅预设的文本行二值化图片。
在本具体实施例中,根据待识别的文本行图片中的文字获取一条或多条相关的文本内容,包括:根据待识别的文本行图片中的文字获取一个或多个相关的词条,对每个词条进行拆分,组合后生成更多的词条,将生成的每一个词条按照预设的字体类型进行转换得到对应的文本内容。预设的字体类型包括宋体、楷体、黑体、New Roman、加粗、加黑、斜体等字体样式。
在本具体实施例中,对文本内容进行字体风格变化包括但不限于:设置文本行高度像素、设置文本行宽度像素、设置文本行的字符数量、设置文本前景颜色、设置文本背景颜色、设置文本图像大小、设置文本图像存储格式。
例如,当待识别的文本行图片为证件图像时,由于识别的文字是证件号码,所以***可以自动收集或者以用户随意输入一些关于证件号码的词条,将每个词条中的数字拆开,再将这些拆开后的字词进行随机组合,使得原先收集到的词条以平方级扩容,生成更多的关于证件号码的词条,再根据应用需求转换将该些词条全部转换为宋体、加黑。然后,设置每个词条的前景色为白色且背景色为黑色,设置文本行高度像素为40,则形成图8中所示的文本图像。由于每个文本图像是黑白形式的图像,所以每个文本图像也就形成了一幅文本行二值化图片。
本领域的技术人员可以理解,对于关于姓名的词条、关于邮箱的词条、关于地址的词条或者其它类型的词条,都可以参考上面的举例内容进行拆分、组合、字体类型转换、文本内容生成、字体风格变化、文本图像生成、文本行二值化图片形成的操作,这里不再进行赘述。
步骤S412,根据待识别的文本行图片确定相关的标准模板图片,从标准模板图片中获取无文字的背景区域,根据无文字的背景区域形成预设的背景图片。
例如,当待识别的文本行图片为证件图像时,由于证件图像上除了证件号码之外,还有一些浅色背景、纯色背景、渐变色背景或者底纹背景,所以***可以自动收集或用户随意输入一些包含此类背景的标准模板图片,获取无文字的背景区域以得到该些样式的背景,从而根据无文字的背景区域进行裁剪或填充等处理,如此可以形成如图8中所示的背景图片。
步骤S413,对于每一个文本行二值化图片,将该文本行二值化图片与背景图片进行合成处理,得到一幅标准的文本行图片。
例如图8,对于里面的4幅文本行二值化图片,选取4幅背景图片分别与每一幅文本行二值化图片进行合成处理,调整文本行二值化图片中前景色的颜色且去除背景色,调整背景图片的亮度或平衡度,以将文本行二值化图像中的文本内容清晰地合成在背景图片上。
在本具体实施例中,可以通过公式Z=f(X)+g(Y)来得到标准的文本行图片,其中,Z为合成后的图片,X为文本行二值化图片,Y为背景图片。此外,函数f为变换函数,负责前景色的颜色调整处理;函数g为变换函数,负责背景的亮度、白平衡的调整处理。
步骤S420,对每幅标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据样本图片形成训练样本集。在一个具体实施中,见图4,步骤S420可以包括步骤S421-S422,分别说明如下。
步骤S421,对于每幅标准的文本行图片,将该标准的文本行图片进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理之后,得到对应的样本图片。
在本具体实施中,透视变换是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换;由于要识别的文本行可能由于拍摄关系不只倾斜还存在透视变换,所以这里也加入透视变换来模拟真实拍摄情况,而且透视变换完后变为不规则四边形,所以还需要裁剪操作。此外,色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩这些处理操作都是图像处理中的常见技术,因此这里不再进行详述。
例如图9,对图8中所示的4幅标准的文本行图片分别进行扩充变化处理而得到对应的样本图片。其中,对图8中图片1对应的标准的文本行图片进行透视变换后得到图9中的图片1,对图8中图片2对应的标准的文本行图片进行透视变换、压缩、裁剪后得到图9中的图片2,对图8中图片3对应的标准的文本行图片进行透视变换、裁剪后得到图9中的图片3,对图8中图片4对应的标准的文本行图片进行透视变换、缩放后得到图9中的图片4。
需要说明的是,在对标准的文本行图片进行扩充变化处理时,所采用的扩充变化处理手段充分考虑了拍摄角度、拍摄光线、图像传输、文本检测器等各方面可能对文本行图片造成的影响,通过随机添加一些扩充变化处理手段至标准文本行图片上来模拟这些影响,可以使得训练样本的数据真实特性得到增强。
步骤S422,整合每幅标准的文本行图片对应的样本图片以及该样本图片中的文本内容,以形成训练样本集;该样本图片中的文本内容为合成该标准的文本行图片的文本行二值化图片所对应的文本内容。
例如图9,将这4幅样本图片和每一幅样本图片中关于证件号码的文本内容进行整合,形成训练样本集。
步骤S430,利用训练样本集,通过深度神经网络,训练得到图片文字识别模型。在一个具体实施例中,见图4,步骤S430可以包括步骤S431-S432,分别说明如下。
步骤S431,构建深度神经网络的网络模型。
步骤S432,以训练样本集中的每个样本图片为训练数据,以每个样本图片中的文本内容为训练数据的标签,对该深度神经网络的网络模型进行连续训练,从而训练得到图片文字识别模型。
在本具体实施例中,可以设置CRNN模型为深度神经网络的网络模型,该CRNN模型包括使用CNN的卷积层,使用BiLSTM(或RNN)的循环层和使用CTC的转录层;其中,卷积层的作用是从输入图像中提取特征序列;循环层的作用是预测从卷积层获取的特征序列的标签(真实值)分布;转录层的作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果。由于,CRNN模型在文本行识别里普遍使用,属于现有技术,所以这里不对其结构和性能进行详细说明。这里,可以根据卷积层、循环层和转录层建立该CRNN模型的目标函数,用公式表示为
其中,χ={Ii,li}i表示训练样本集,Ii为第i个样本图片,li为第i个样本图片中的文本内容,yi为第i个样本图片对应的预测文本内容,i为训练样本集中训练数据的序号。那么,就可以利用训练样本集对目标函数进行迭代计算,将目标函数最小化时对应的CRNN模型作为图片文字识别模型。
实施例二、
请参考图5,在实施例一中公开的识别方法的基础上,本申请相应地公开了一种图片文字的识别装置1,其主要包括获取单元11、识别单元12和输出单元13,下面分别说明。
获取单元11用于获取待识别的文本行图片,待识别的文本行图片包含文字。需要说明的是,待识别的文本行图片中的文字可以是电子邮箱、电话号码、通信地址、姓名、广告语、诗词、外文单词、标志标识等内容,这里不再进行限制。
识别单元12与获取单元11连接,用于将待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到该待识别的文本行图片中的文字。其中,图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片。
输出单元13与识别单元12连接,用于输出该待识别的文本行图片中的文字。例如,可以将待识别的文本行图片中文字输出至显示器,以供用户进行查看。
在本实施例中,识别单元12具有建立图片文字识别模型的作用,那么在一个具体实施中,请参考图6,识别单元12可以包括标准文本行图片的获取模块121、扩充变化处理模块122、网络模型设置模块123、网络模型训练模块124和图片文字识别模型125。
识别单元12中的获取模块121获取一幅或多幅标准的文本行图片,这里标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到。关于获取模块121的具体功能可以参考实施例一中的步骤S410,这里不再进行赘述。
识别单元12中的扩充变化处理模块122对每幅标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据样本图片形成训练样本集。关于扩充变化处理模块122的具体功能可以参考实施例一中的步骤S420,这里不再进行赘述。
识别单元12中的网络模型设置模块123和网络模型训练模块124进行功能结合,利用训练样本集,通过深度神经网络,训练得到图片文字识别模型125。其中,网络模型设置模块123用于设置深度神经网络的网络模型的各项参数,比如设置CRNN模型中卷积层、循环层、转录层的参数,还可以根据这些参数建立CRNN模型的目标函数。其中,网络模型训练模块124从扩充变化处理模块122中获得训练样本集,对网络模型设置模块123中设置的网络模型进行训练,从而在CRNN模型的目标函数最小化时得到图片文字识别模型。关于网络模型设置模块123和网络模型训练模块124的具体功能可以参考实施例一中的步骤S430,这里不再进行赘述。
实施例三、
请参考图7,在本申请实施例一中公开的图片文字的识别方法的基础上,本申请还请求保护一种用于图片文字的识别***2,其主要包括存储器21和处理器22,其中,存储器21用于存储程序,处理器22用于通过执行存储器21中存储的程序以实现实施例一中的识别方法,即实现实施例一中的步骤S100-S300,以及实现步骤S400。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的***进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (4)

1.一种图片文字的识别方法,其特征在于,包括以下步骤:
获取待识别的文本行图片,所述待识别的文本行图片包含文字;
将所述待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到所述待识别的文本行图片中的文字;所述图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,所述用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片;所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到;其中,所述扩充变化处理包括进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理;
输出所述待识别的文本行图片中的文字;其中,所述图片文字识别模型通过以下方式建立:
获取一幅或多幅标准的文本行图片;
对每幅所述标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据所述样本图片形成训练样本集;
构建深度神经网络的网络模型,设置CRNN模型为所述深度神经网络的网络模型;以所述训练样本集中的每个样本图片为训练数据,以每个样本图片中的文本内容为训练数据的标签,对所述深度神经网络的网络模型进行连续训练,得到所述图片文字识别模型;
其中,所述获取一幅或多幅标准的文本行图片,包括:
根据所述待识别的文本行图片中的文字获取一条或多条相关的文本内容,将各个文本内容分别进行不同的字体风格变化,生成对应的文本图像,根据所述文本图像形成预设的文本行二值化图片;
根据所述待识别的文本行图片确定相关的标准模板图片,从所述标准模板图片中获取无文字的背景区域,根据所述无文字的背景区域形成预设的背景图片;
对于每一个文本行二值化图片,将该文本行二值化图片与所述背景图片进行合成处理,得到一幅所述标准的文本行图片;
其中,所述根据所述待识别的文本行图片中的文字获取一条或多条相关的文本内容,包括:
根据所述待识别的文本行图片中的文字获取一个或多个相关的词条,对每个词条进行拆分,组合后生成更多的词条,将生成的每一个词条按照预设的字体类型进行转换得到对应的文本内容;
其中,所述以所述训练样本集中的每个样本图片为训练数据,以每个样本图片中的文本内容为训练数据的标签,对所述深度神经网络的网络模型进行连续训练,得到所述图片文字识别模型,包括:
所述CRNN模型包括使用CNN的卷积层,使用BiLSTM的循环层和使用CTC的转录层;
根据所述卷积层、所述循环层和所述转录层建立所述CRNN模型的目标函数,用公式表示为
其中,χ={Ii,li}i表示训练样本集,Ii为第i个样本图片,li为第i个样本图片中的文本内容,yi为第i个样本图片对应的预测文本内容,i为训练样本集中训练数据的序号;
利用所述训练样本集对所述目标函数进行迭代计算,将所述目标函数最小化时对应的CRNN模型作为所述图片文字识别模型。
2.如权利要求1所述的识别方法,其特征在于,所述对每幅所述标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据所述样本图片形成训练样本集,包括:
对于每幅标准的文本行图片,将该标准的文本行图片进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理之后,得到对应的样本图片;
整合每幅标准的文本行图片对应的样本图片以及该样本图片中的文本内容,以形成训练样本集;该样本图片中的文本内容为合成该标准的文本行图片的文本行二值化图片所对应的文本内容。
3.一种图片文字的识别装置,其特征在于,包括:
获取单元,用于获取待识别的文本行图片,所述待识别的文本行图片包含文字;
识别单元,用于将所述待识别的文本行图片输入至预先建立的图片文字识别模型,以识别得到所述待识别的文本行图片中的文字;所述图片文字识别模型是利用多幅用于训练的文本行图片通过训练深度神经网络而得到,所述用于训练的文本行图片是由标准的文本行图片经过扩充变化处理后得到的图片;所述标准的文本行图片由预设的文本行二值化图片和预设的背景图片进行合成而得到;其中,所述扩充变化处理包括进行透视变换、色调变换、添加阴影效果、添加高光效果、添加噪点、裁剪、缩放、压缩中的一种处理或多种处理;
输出单元,用于输出所述待识别的文本行图片中的文字;
在所述识别单元中,所述图片文字识别模型通过以下方式建立:
所述识别单元获取一幅或多幅标准的文本行图片;
所述识别单元对每幅所述标准的文本行图片进行扩充变化处理,得到对应的样本图片,根据所述样本图片形成训练样本集;
所述识别单元利构建深度神经网络的网络模型,设置CRNN模型为所述深度神经网络的网络模型;以所述训练样本集中的每个样本图片为训练数据,以每个样本图片中的文本内容为训练数据的标签,对所述深度神经网络的网络模型进行连续训练,得到所述图片文字识别模型;
其中,所述识别单元获取一幅或多幅标准的文本行图片,包括:
所述识别单元根据所述待识别的文本行图片中的文字获取一条或多条相关的文本内容,将各个文本内容分别进行不同的字体风格变化,生成对应的文本图像,根据所述文本图像形成预设的文本行二值化图片;
所述识别单元根据所述待识别的文本行图片确定相关的标准模板图片,从所述标准模板图片中获取无文字的背景区域,根据所述无文字的背景区域形成预设的背景图片;
所述识别单元对于每一个文本行二值化图片,将该文本行二值化图片与所述背景图片进行合成处理,得到一幅所述标准的文本行图片;
其中,所述识别单元所述根据所述待识别的文本行图片中的文字获取一条或多条相关的文本内容,包括:
所述识别单元根据所述待识别的文本行图片中的文字获取一个或多个相关的词条,对每个词条进行拆分,组合后生成更多的词条,将生成的每一个词条按照预设的字体类型进行转换得到对应的文本内容;
其中,所述以所述训练样本集中的每个样本图片为训练数据,以每个样本图片中的文本内容为训练数据的标签,对所述深度神经网络的网络模型进行连续训练,得到所述图片文字识别模型,包括:
所述CRNN模型包括使用CNN的卷积层,使用BiLSTM的循环层和使用CTC的转录层;
所述识别单元根据所述卷积层、所述循环层和所述转录层建立所述CRNN模型的目标函数,用公式表示为
其中,χ={Ii,li}i表示训练样本集,Ii为第i个样本图片,li为第i个样本图片中的文本内容,yi为第i个样本图片对应的预测文本内容,i为训练样本集中训练数据的序号;
所述识别单元利用所述训练样本集对所述目标函数进行迭代计算,将所述目标函数最小化时对应的CRNN模型作为所述图片文字识别模型。
4.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1或2所述的识别方法。
CN201910567298.7A 2019-06-27 2019-06-27 一种图片文字的识别方法及其识别装置、存储介质 Active CN110414519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910567298.7A CN110414519B (zh) 2019-06-27 2019-06-27 一种图片文字的识别方法及其识别装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910567298.7A CN110414519B (zh) 2019-06-27 2019-06-27 一种图片文字的识别方法及其识别装置、存储介质

Publications (2)

Publication Number Publication Date
CN110414519A CN110414519A (zh) 2019-11-05
CN110414519B true CN110414519B (zh) 2023-11-14

Family

ID=68359913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910567298.7A Active CN110414519B (zh) 2019-06-27 2019-06-27 一种图片文字的识别方法及其识别装置、存储介质

Country Status (1)

Country Link
CN (1) CN110414519B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942067A (zh) * 2019-11-29 2020-03-31 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN112990208B (zh) * 2019-12-12 2024-04-30 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN111339910B (zh) * 2020-02-24 2023-11-28 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111428710A (zh) * 2020-03-16 2020-07-17 五邑大学 一种文件分类协作机器人及基于其的图像文字识别方法
CN111563500A (zh) * 2020-04-10 2020-08-21 福建电子口岸股份有限公司 一种箱号识别方法和装置
CN111507349B (zh) * 2020-04-15 2023-05-23 北京深智恒际科技有限公司 一种ocr识别模型训练中的动态数据增强方法
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、***、设备及介质
CN111782772A (zh) * 2020-07-24 2020-10-16 平安银行股份有限公司 基于ocr技术的文本自动生成方法、装置、设备及介质
CN112215221A (zh) * 2020-09-22 2021-01-12 国交空间信息技术(北京)有限公司 一种车架号自动识别方法
CN112287969A (zh) * 2020-09-25 2021-01-29 浪潮金融信息技术有限公司 一种文字样本采集处理方法、自助终端设备及独立模块
CN112613510B (zh) * 2020-12-25 2023-10-31 创新奇智(青岛)科技有限公司 图片预处理方法、文字识别模型训练方法和文字识别方法
CN112686243A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 智能识别图片文字的方法、装置、计算机设备及存储介质
CN112329777B (zh) * 2021-01-06 2021-05-04 平安科技(深圳)有限公司 基于方向检测的文字识别方法、装置、设备及介质
CN112861739B (zh) * 2021-02-10 2022-09-09 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN113034415B (zh) * 2021-03-23 2021-09-14 哈尔滨市科佳通用机电股份有限公司 一种铁路机车小部件图像扩增的方法
CN113657445B (zh) * 2021-07-13 2022-06-07 珠海金智维信息科技有限公司 基于Resnet的单行文本图片比对方法及***
CN114065868B (zh) * 2021-11-24 2022-09-02 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN115393872B (zh) * 2022-10-27 2023-01-17 腾讯科技(深圳)有限公司 一种训练文本分类模型的方法、装置、设备及存储介质
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481238A (zh) * 2017-09-20 2017-12-15 众安信息技术服务有限公司 图像质量评估方法及装置
CN109241951A (zh) * 2018-10-26 2019-01-18 北京陌上花科技有限公司 ***识别方法、识别模型构建方法及识别模型和计算机可读存储介质
CN109829462A (zh) * 2019-01-16 2019-05-31 中南大学 一种基于语义分割的多种花卉识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5167016A (en) * 1989-12-29 1992-11-24 Xerox Corporation Changing characters in an image
CN104615656B (zh) * 2014-12-31 2018-07-31 小米科技有限责任公司 图片分类方法及装置
CN104966097B (zh) * 2015-06-12 2019-01-18 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
CN104899571B (zh) * 2015-06-12 2018-12-04 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN105654127A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 基于端到端的图片文字序列连续识别方法
CN106022363B (zh) * 2016-05-12 2019-02-12 南京大学 一种适用于自然场景下的中文文字识别方法
CN109190630A (zh) * 2018-08-29 2019-01-11 摩佰尔(天津)大数据科技有限公司 字符识别方法
CN109117848B (zh) * 2018-09-07 2022-11-18 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109447078B (zh) * 2018-10-23 2020-11-06 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109598270B (zh) * 2018-12-04 2020-05-05 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481238A (zh) * 2017-09-20 2017-12-15 众安信息技术服务有限公司 图像质量评估方法及装置
CN109241951A (zh) * 2018-10-26 2019-01-18 北京陌上花科技有限公司 ***识别方法、识别模型构建方法及识别模型和计算机可读存储介质
CN109829462A (zh) * 2019-01-16 2019-05-31 中南大学 一种基于语义分割的多种花卉识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Development of modified method for text recognition in standardized picture;Касьян Константин Николаевич等;《Eastern-European Journal of Enterprise Technologies》;11-15 *
基于RGB分割的含数字水印图像的文字识别;田瑶琳;《福建电脑》;第35卷(第4期);62-64 *

Also Published As

Publication number Publication date
CN110414519A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110414519B (zh) 一种图片文字的识别方法及其识别装置、存储介质
JP4646797B2 (ja) 画像処理装置及びその制御方法、プログラム
CN108170649B (zh) 一种基于dcgan深度网络的汉字字库生成方法及装置
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
Chernyshova et al. Generation method of synthetic training data for mobile OCR system
WO2023056835A1 (zh) 视频封面生成方法、装置、电子设备及可读介质
CN112861864A (zh) 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
WO2017143973A1 (zh) 文本识别模型建立方法和装置
CN110991303A (zh) 一种图像中文本定位方法、装置及电子设备
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
KR102279164B1 (ko) 인공지능 모델을 이용한 이미지 편집 방법 및 장치
CN114565702A (zh) 文本图像生成方法、装置及电子设备
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
JP2021056796A (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
CN111291758A (zh) 用于识别***文字的方法和装置
CN111476090A (zh) 水印识别方法和装置
CN112749696B (zh) 一种文本检测方法及装置
JP2002236921A (ja) 文書画像認識方法、文書画像認識装置及び記録媒体
CN113435426B (zh) 用于ocr识别的数据增广方法、装置、设备及存储介质
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
US20230063213A1 (en) Image object labeling method, system and computer readable medium
CN116206014A (zh) 图像预览方法、装置、设备及存储介质
CN117576237A (zh) 基于国际中文词汇的图像生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant