CN111626244A - 图像识别方法、装置、电子设备和介质 - Google Patents
图像识别方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN111626244A CN111626244A CN202010482173.7A CN202010482173A CN111626244A CN 111626244 A CN111626244 A CN 111626244A CN 202010482173 A CN202010482173 A CN 202010482173A CN 111626244 A CN111626244 A CN 111626244A
- Authority
- CN
- China
- Prior art keywords
- image
- recognized
- recognition
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/33—Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像识别方法,包括:获取待识别图像;利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域;利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的;以及输出所述识别结果。本公开还提供了一种图像识别装置、电子设备和介质。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种图像识别方法、装置、电子设备和介质。
背景技术
随着电子技术的快速发展,纸质文件大多被电子文件所替代。例如,通常会对已签字的纸质文件拍照而得到图像数据,从而可以直接存储图像数据,或者可以直接在电子文件上签字。
然而,目前对图像中的手写体字符的识别准确率较低。
发明内容
有鉴于此,本公开提供了一种图像识别方法、装置、电子设备和介质。
本公开的一个方面提供了一种图像识别方法,包括:获取待识别图像;利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域;利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的;以及输出所述识别结果。
根据本公开的实施例,该方法还包括:获取多个参考图像,所述参考图像包括参考区域和标识,所述标识用于从所述参数图像中标识出所述参考区域;将所述多个参考图像作为单步检测模型的输入,以利用所述多个参考图像中每个所述参考图像的所述参考区域和所述标识对所述单步检测模型进行训练而得到所述目标检测模型,其中,所述待识别图像作为所述目标检测模型的输入,所述目标检测模型输出标识图像,所述标识图像为在所述待识别图像中标识出待识别区域的图像。
根据本公开的实施例,该方法还包括:根据第一处理方法和/或第二处理方法对所述样本图像进行处理而获得目标合成图像,其中,所述第一处理方法包括:根据字体库中的多个第一字符,生成第一图像;对所述多个第一字符中的每个第一字符进行图像增强处理而得到第二图像;根据所述样本图像的图像特征,生成字符背景图像;以及将所述字符背景图像和所述第二图像叠加而生成所述目标合成图像;所述第二处理方法包括:利用所述样本图像对生成式对抗网络进行训练而获得生成器;以及利用所述生成器生成所述目标合成图像。
根据本公开的实施例,该方法还包括:对所述多个目标合成图像进行识别模型训练而获得初始识别模型;以及将所述样本图像输入到所述初始识别模型中,以对所述初始识别模型进行调整而获得所述识别模型。
根据本公开的实施例,识别结果包括时间信息,所述方法还包括:获取规定时间;将所述时间信息与所述规定时间进行比对而获得比对结果;在所述时间信息晚于所述规定时间的情况下,确定所述识别结果异常;以及输出异常提示信息。
本公开的另一个方面提供了一种图像识别装置,包括:第一获取模块,用于获取待识别图像;确定模块,用于利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域;识别模块,用于利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的;以及输出模块,用于输出所述识别结果。
根据本公开的实施例,该装置还包括:第二获取模块,用于获取多个参考图像,所述参考图像包括参考区域和标识,所述标识用于从所述参考图像中标识出所述参考区域;第一训练模块,用于将所述多个参考图像作为单步检测模型的输入,以利用所述多个参考图像中每个所述参考图像的所述参考区域和所述标识对所述单步检测模型进行训练而得到所述目标检测模型,其中,所述待识别图像作为所述目标检测模型的输入,所述目标检测模型输出标识图像,所述标识图像为在所述待识别图像中标识出待识别区域的图像。
根据本公开的实施例,该装置还包括:第二训练模块,用于对所述多个目标合成图像进行识别模型训练而获得的初始识别模型;以及调整模块,用于将所述样本图像输入到所述初始识别模型中,以对所述初始识别模型进行调整而获得所述识别模型。
本公开的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的图像识别方法的应用场景;
图2A示意性示出了根据本公开实施例的图像识别方法的流程图;
图2B示意性示出了根据本公开实施例的目标检测模型输出的结果图像的示意图;
图2C示意性示出了根据本公开实施例从结果图像中提取出待识别区域的示意图;
图3示意性示出了根据本公开另一实施例的图像识别方法的流程图;
图4示意性示出了根据本公开实施例的第一处理方法的流程图;
图5示意性示出了根据本公开另一实施例的图像识别方法;
图6A示意性示出了根据本公开另一实施例的图像识别方法;
图6B示意性示出了根据本公开另一实施例的图像识别方法;
图7示意性示出了根据本公开实施例的图像识别装置的方框图;以及
图8示意性示出了根据本公开实施例的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
本公开的实施例提供了一种图像识别方法,包括:获取待识别图像;利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域;利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的;以及输出所述识别结果。
图1示意性示出了根据本公开实施例的图像识别方法的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,该应用场景中可以包括图像100,图像100中例如可以包括《个人金融信用信息基础数据库查询授权书》。该《个人金融信用信息基础数据库查询授权书》中包括手写签字。如图1所示,手写签字例如包括授权人姓名、身份证件号和日期等。
根据本公开实施例的图像识别方法,可以对该《个人金融信用信息基础数据库查询授权书》中的手写签字进行识别。
图2A示意性示出了根据本公开实施例的图像识别方法的流程图。
如图2A所示,该方法可以包括操作S201~S204。
在操作S201,获取待识别图像。
待识别图像例如可以是包括手写字符的图像。例如可以从存储装置中读取待识别图像。
根据本公开的实施例,对于获取到的待识别图像可以进行图像预处理。图像预处理例如可以包括对待识别图像去噪,并重塑待识别图像的长和宽,使得待识别图像的尺寸被调整为第一预设尺寸。对待识别图像进行图像预处理可以提高操作S202中对待识别图像进行检测的准确率。
在操作S202,利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域。
根据本公开的实施例,待识别区域例如可以是待识别图像中的手写字符所在的区域。
例如可以将待识别图像输入到目标检测模型中,由目标检测模型输出在待识别图像中添加了标识的图像,该标识用于在待识别图像中标识出待识别区域。
图2B示意性示出了根据本公开实施例的目标检测模型输出的结果图像210的示意图。
如图2B所示,结果图像210可以是在待识别图像100中添加了标识211和标识212的图像。标识211和标识212用于在待识别图像100中标识出待识别区域。
根据本公开的实施例,可以通过标识来区分手写字符的类别。如图2B所示,手写签名的待识别区域使用标识211来标识,手写日期的待识别区域使用标识212来标识。
根据本公开的实施例,该方法还可以包括从结果图像中提取出待识别区域。
图2C示意性示出了根据本公开实施例从结果图像210中提取出待识别区域的示意图。
如图2C所示,从结果图像210中提取出手写日期所在的待识别区域220和手写签名所在的待识别区域230。
根据本公开的实施例,为了进一步提高下一步操作S203的识别准确率,在从结果图像中提取出待识别区域之后,可以对待识别区域进行去噪处理,例如可以去除待识别区域中的噪点和去除待识别区域中的***等。
根据本公开的实施例,例如还可以对待识别区域的长宽进行重塑,使得待识别区域的尺寸被调整为第二预设尺寸,并且可以对待识别区域的边缘做适当的填充。
在操作S203,利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的。
根据本公开的实施例,样本图像例如可以是从真实的《个人金融信用信息基础数据库查询授权书》中提取出的包含手写字符的区域。
根据本公开的实施例,所述目标合成图像可以是根据第一处理方法对样本图像进行处理而获得的,和/或可以是根据第二处理方法对样本图像进行处理而获得的。下文示意性说明了第一处理方法和第二处理方法的实施方式,在此不再赘述。
根据本公开的实施例,例如可以将多个目标合成图像输入到识别模型中,以利用该多个目标合成图像对识别模型进行训练,使得识别模型能够识别待识别区域中的字符。识别模型例如可以是LSTM(Long Short Term Memory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Networks,RNN)等深度学习模型。
在操作S204,输出所述识别结果。例如可以在显示屏的特定区域显示签名和日期。
根据本公开的实施例,该方法利用样本图像生成目标合成图像,并且利用目标合成图像对识别模型进行训练,使得识别模型可以直接对待识别区域进行整体识别来确定待识别区域中的多个字符,而不需要先将待识别区域中的多个字符分割成一个一个的字符后,再分别对每个字符进行识别,从而提高了识别准确度。
图3示意性示出了根据本公开另一实施例的图像识别方法的流程图。
如图3所示,该方法可以包括操作S301~S302。其中,操作S301~S302例如可以在操作S201之前执行。
在操作S301,获取多个参考图像,所述参考图像包括参考区域和标识,所述标识用于从所述参数图像中标识出所述参考区域。
根据本公开的实施例,例如在上文图1所示的情景中,可以收集大量的《个人金融信用信息基础数据库查询授权书》的图像,并且可以利用数据标注工具对该大量的《个人金融信用信息基础数据库查询授权书》的图像中的每一个图像添加标识。例如可以框选出《个人金融信用信息基础数据库查询授权书》中的手写签名区域和手写日期区域来生成参考图像。在参考图像中可以使用不同的标识来区分待识别区域的类别,例如区分手写签名区域和手写日期区域。该多个参考图像存储到存储装置中,以便在操作S301可以从存储装置中获取参考图像。
在操作S302,将所述多个参考图像作为单步检测模型的输入,以利用所述多个参考图像中每个所述参考图像的所述参考区域和所述标识对所述单步检测模型进行训练而得到所述目标检测模型。
待识别图像作为目标检测模型的输入,目标检测模型输出标识图像,标识图像为在待识别图像中标识出待识别区域的图像。
根据本公开的实施例,在操作S302之前可以对参考图像做预处理,预处理例如可以包括去噪、光线校正等,以便提升经过训练得到的目标检测模型的效果。
根据本公开的实施例,单步检测模型例如可以是yolo(You Only Look Once,一种端到端的目标检测方法)模型、R-CNN(region-CNN)模型等。
将多个参考图像输入到单步检测模型中,利用多个参考图像对单步检测模型进行训练而获得适应于当前场景中目标检测模型。例如将包括《个人金融信用信息基础数据库查询授权书》的参考图像输入到单步检测模型中,而获得适应于对《个人金融信用信息基础数据库查询授权书》图像中的手写字符进行识别的目标检测模型。根据本公开的实施例,由于不同的场景下,手写字符所在位置的背景、纹理等会不同,因此需要对单步检测模型进行训练而获得适应于当前场景的目标检测模型。
根据本公开的实施例,本公开采用基于深度学习的手写字符检测方法相比于相关技术中的使用模板提取待识别区域的方法,具有较高的准确度。
图4示意性示出了根据本公开实施例的第一处理方法的流程图。
如图4所示,该第一处理方法可以包括操作S401~S404。
在操作S401,根据字体库中的多个第一字符,生成第一图像。
根据本公开的实施例,字体库中例如可以存储了大量不同字体类型的手写字体。例如可以从字体库中随机选择多个第一字符而生成第一图像。
根据本公开的实施例,字体类型,例如可以包括叶根友签名体、张维镜手写楷书、蔡云汉硬笔行书等。一个第一图像中的多个第一字符可以是同一类型的手写字体。
在操作S402,对多个第一字符中的每个第一字符进行图像增强处理而得到第二图像。
例如可以对多个第一字符中的每个第一字符做拉伸、扭曲等图像增强处理。每个第一字符的拉伸方向、拉伸程度、扭曲程度可以不同。
在操作S403,根据样本图像的图像特征,生成字符背景图像。
例如可以根据样本图像中背景的纹理、光线、颜色等图像特征,生成字符背景图像。
在操作S404,将字符背景图像和第二图像叠加而生成目标合成图像。
例如可以将第二图像的像素值与字符背景图像中部分区域的像素值相加而生成目标合成图像。根据本公开的实施例,第二图像与字符背景图像叠加后,第二图像到字符背景图像的边缘的边距可以是随机的。
根据本公开的实施例,在操作S404可以包括将字符背景图像与第二图像叠加而生成初始目标合成图像,在初始目标合成图像中随机生成直线、圆点等噪点以及将初始目标合成图像重塑为固定长宽而获得目标合成图像。
根据本公开的实施例,该方法产生的图像来自手写字体,生成速度快,并且生成的目标合成图像清晰逼真。
根据本公开的实施例,第二处理方法可以包括利用样本图像对生成式对抗网络进行训练而获得生成器;以及利用生成器生成目标合成图像。
生成式对抗网络可以包括生成器和判别器,生成器用于生成图像,判别器用于识别图像是真实图像还是生成器生成的图像。利用样本图像对生成式对抗网络进行训练,使得生成器生成的图像与真实图像的差异最小,在训练得当后,使用生成器生成目标合成图像。
根据本公开的实施例,第二处理方法是基于神经网络生成目标合成图像,目标合成图像的特征与手写特征相接近。
图5示意性示出了根据本公开另一实施例的图像识别方法。
如图5所示,该方法在前述实施例的基础上还可以包括操作S501~S502。操作S501~S502例如可以在得到多个目标合成图像之后,并且操作S201之前执行。
在操作S501,对多个目标合成图像进行识别模型训练而获得的初始识别模型。
根据本公开的实施例,在得到多个目标合成图像后,可以利用该多个目标合成图像对识别模型进行训练而获得初始识别模型。识别模型例如可以是LSTM(Long Short TermMemory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Networks,RNN)等深度学习模型。
在操作S502,将样本图像输入到初始识别模型中,以对初始识别模型进行调整而获得识别模型。
根据本公开的实施例,对初始识别模型进行调整例如可以包括:首先将样本图像重塑为固定长宽,该固定长宽可以与目标合成图像的长宽一致,接下来,可以对样本图像做图像增强处理。例如可以调整样本图像的亮度、锐度、对比度,略微旋转等操作。然后,还可以对经过图像增强处理后的样本图像进行去噪处理。例如可以包括去除样本图像中的图像噪点、***等。
根据本公开的实施例,对样本图像做图像增强处理可以丰富样本图像,从而使得经过样本图像训练后的识别模型更加强壮,而且对样本图像进行去噪处理可以提升识别模型识别的准确率。
根据本公开的实施例,识别结果可以包括时间信息,图像识别方法还包括:获取规定时间;将时间信息与规定时间进行比对而获得比对结果;在时间信息晚于规定时间的情况下,确定识别结果异常;以及输出异常提示信息。
规定时间例如可以是当前时间,或者也可以是本领域技术人员预先设置的时间。
例如规定时间可以是当前时间2020年5月28日,若识别结果显示的时间信息晚于2020年5月28日,则确定识别结果异常,以及输出识别错误的提示信息。
图6A示意性示出了根据本公开另一实施例的图像识别方法。
如图6A所示,该图像识别方法可以包括操作S601~S608。
在操作S601,例如可以利用上文参考图4描述的第一处理方法生成第一图像数据。
在操作S602,例如可以是利用上文描述的第二处理方法(即,生成式对抗网络)生成第二图像数据。
需要理解的是,操作S601和操作S602的执行不分先后顺序。
在操作S603,将第一图像数据和第二图像数据作为目标合成图像。
在操作S604,例如可以是利用多个目标合成图像对识别模型进行训练而得到初始训练模型。例如可以执行上文参考图5描述的操作S501。
在操作S605,获取样本图像。样本图像例如可以是从真实的《个人金融信用信息基础数据库查询授权书》中提取出的包含手写签名和首先日期的区域。
在操作S606,对样本图像进行图像增强处理,如调整亮度、锐度、对比度,略微旋转等操作,使模型更健壮。对图像做适当的去噪处理,包括去除图像噪点、去***等,提升识别准确率。
在操作S607,对样本图像边缘做适当的填充(padding)和重塑而得到处理后样本图像,以增强卷积神经网络对图像边缘的探测能力。
在操作S608,将处理后样本图像输入到初始识别模型中,以利用处理后样本图像对初始识别模型进行再次训练而得到识别模型。
图6B示意性示出了根据本公开另一实施例的图像识别方法。
如图6B所示,该图像识别方法可以包括操作S610~S680。
在操作S610,例如可以是获取征信授权书图像。
在操作S620,对征信授权书图像进行去噪和重塑。
在操作S630,对待识别的征信授权书图像进行目标检测,以从待识别的征信授权书图像中确定包含手写字符的待识别区域。例如可以执行上文参考图2描述的操作S202。
若在操作S630为检测到包含手写字符的待识别区域,则可以执行操作S680。若在操作S630为检测到包含手写字符的待识别区域,则可以执行操作S640。
在操作S640,将待识别区域从待识别的征信授权书图像中提取出来。
在操作S650,对待识别区域进行去噪、重塑和填充。
在操作S660,例如识别模型对待识别区域进行识别而得到识别结果,以识别待识别区域的手写字符。
在操作S670,输出识别结果,并且对识别结果进行校验。
在操作S680,输出未检测到待识别区域。
图7示意性示出了根据本公开实施例的图像识别装置700的方框图。
如图7所示,图像识别装置700可以包括第一获取模块710、确定模块720、识别模块730和输出模块740。
第一获取模块710,例如可以执行上文参考图2A描述的操作S201,用于获取待识别图像。
确定模块720,例如可以执行上文参考图2A描述的操作S202,用于利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域。
识别模块730,例如可以执行上文参考图2A描述的操作S203,用于利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的。
输出模块740,例如可以执行上文参考图2A描述的操作S204,用于输出所述识别结果。
根据本公开的实施例,图像识别装置700还可以包括第二获取模块,用于获取多个参考图像,所述参考图像包括参考区域和标识,所述标识用于从所述参数图像中标识出所述参考区域;第一训练模块,用于将所述多个参考图像作为单步检测模型的输入,以利用所述多个参考图像中每个所述参考图像的所述参考区域和所述标识对所述单步检测模型进行训练而得到所述目标检测模型,其中,所述待识别图像作为所述目标检测模型的输入,所述目标检测模型输出标识图像,所述标识图像为在所述待识别图像中标识出待识别区域的图像。
根据本公开的实施例,该图像识别装置700还可以包括处理模块,用于根据第一处理方法和/或第二处理方法对所述样本图像进行处理而获得目标合成图像。第一处理方法包括:根据字体库中的多个第一字符,生成第一图像;对所述多个第一字符中的每个第一字符进行图像增强处理而得到第二图像;根据所述样本图像的图像特征,生成字符背景图像;以及将所述字符背景图像和所述第二图像相同位置处像素的像素值叠加而生成所述目标合成图像。第二处理方法包括:利用所述样本图像对生成式对抗网络进行训练而获得生成器;以及利用所述生成器生成所述目标合成图像。
根据本公开的实施例,图像识别装置700还可以包括第二训练模块,用于对所述多个目标合成图像进行识别模型训练而获得的初始识别模型;以及调整模块,用于将所述样本图像输入到所述初始识别模型中,以对所述初始识别模型进行调整而获得所述识别模型。
根据本公开的实施例,识别结果包括时间信息,图像识别装置700还可以包括:第三获取模块,用于获取规定时间;比对模块,用于将所述时间信息与所述规定时间进行比对而获得比对结果;判定模块,用于在所述时间信息晚于所述规定时间的情况下,确定所述识别结果异常;以及提示模块,用于输出异常提示信息。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块710、确定模块720、识别模块730和输出模块740中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块710、确定模块720、识别模块730和输出模块740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块710、确定模块720、识别模块730和输出模块740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的电子设备的方框图。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算机电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分807;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种图像识别方法,包括:
获取待识别图像;
利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域;
利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的;以及
输出所述识别结果。
2.根据权利要求1所述的方法,还包括:
获取多个参考图像,所述参考图像包括参考区域和标识,所述标识用于从所述参数图像中标识出所述参考区域;
将所述多个参考图像作为单步检测模型的输入,以利用所述多个参考图像中每个所述参考图像的所述参考区域和所述标识对所述单步检测模型进行训练而得到所述目标检测模型,
其中,所述待识别图像作为所述目标检测模型的输入,所述目标检测模型输出标识图像,所述标识图像为在所述待识别图像中标识出待识别区域的图像。
3.根据权利要求1所述的方法,还包括:根据第一处理方法和/或第二处理方法对所述样本图像进行处理而获得目标合成图像,
其中,所述第一处理方法包括:
根据字体库中的多个第一字符,生成第一图像;
对所述多个第一字符中的每个第一字符进行图像增强处理而得到第二图像;
根据所述样本图像的图像特征,生成字符背景图像;以及
将所述字符背景图像和所述第二图像叠加而生成所述目标合成图像,
所述第二处理方法包括:
利用所述样本图像对生成式对抗网络进行训练而获得生成器;以及
利用所述生成器生成所述目标合成图像。
4.根据权利要求1所述的方法,还包括:
对所述多个目标合成图像进行识别模型训练而获得初始识别模型;以及
将所述样本图像输入到所述初始识别模型中,以对所述初始识别模型进行调整而获得所述识别模型。
5.根据权利要求1所述的方法,其中,所述识别结果包括时间信息,所述方法还包括:
获取规定时间;
将所述时间信息与所述规定时间进行比对而获得比对结果;
在所述时间信息晚于所述规定时间的情况下,确定所述识别结果异常;以及
输出异常提示信息。
6.一种图像识别装置,包括:
第一获取模块,用于获取待识别图像;
确定模块,用于利用目标检测模型对所述待识别图像进行检测,以从所述待识别图像中确定待识别区域;
识别模块,用于利用识别模型对所述待识别区域中的字符进行识别而获得识别结果,其中,所述识别模型是通过对多个目标合成图像进行训练而获得的,所述目标合成图像是根据样本图像的图像特征生成的;以及
输出模块,用于输出所述识别结果。
7.根据权利要求6所述的装置,还包括:
第二获取模块,用于获取多个参考图像,所述参考图像包括参考区域和标识,所述标识用于从所述参数图像中标识出所述参考区域;
第一训练模块,用于将所述多个参考图像作为单步检测模型的输入,以利用所述多个参考图像中每个所述参考图像的所述参考区域和所述标识对所述单步检测模型进行训练而得到所述目标检测模型,
其中,所述待识别图像作为所述目标检测模型的输入,所述目标检测模型输出标识图像,所述标识图像为在所述待识别图像中标识出待识别区域的图像。
8.根据权利要求6所述的装置,还包括:
第二训练模块,用于对所述多个目标合成图像进行识别模型训练而获得的初始识别模型;以及
调整模块,用于将所述样本图像输入到所述初始识别模型中,以对所述初始识别模型进行调整而获得所述识别模型。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1~5任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1~5任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482173.7A CN111626244B (zh) | 2020-05-29 | 2020-05-29 | 图像识别方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482173.7A CN111626244B (zh) | 2020-05-29 | 2020-05-29 | 图像识别方法、装置、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626244A true CN111626244A (zh) | 2020-09-04 |
CN111626244B CN111626244B (zh) | 2023-09-12 |
Family
ID=72271181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010482173.7A Active CN111626244B (zh) | 2020-05-29 | 2020-05-29 | 图像识别方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626244B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740385A (zh) * | 2023-08-08 | 2023-09-12 | 深圳探谱特科技有限公司 | 一种设备质检方法、装置和*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875731A (zh) * | 2017-12-28 | 2018-11-23 | 北京旷视科技有限公司 | 目标识别方法、装置、***及存储介质 |
CN109241904A (zh) * | 2018-08-31 | 2019-01-18 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN109766885A (zh) * | 2018-12-29 | 2019-05-17 | 北京旷视科技有限公司 | 一种文字检测方法、装置、电子设备及存储介质 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN109934181A (zh) * | 2019-03-18 | 2019-06-25 | 北京海益同展信息科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN110427949A (zh) * | 2019-07-31 | 2019-11-08 | 中国工商银行股份有限公司 | 表单校验的方法、装置、计算设备和介质 |
CN110503105A (zh) * | 2019-09-02 | 2019-11-26 | 苏州美能华智能科技有限公司 | 字符识别方法、训练数据获取方法、装置和介质 |
-
2020
- 2020-05-29 CN CN202010482173.7A patent/CN111626244B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875731A (zh) * | 2017-12-28 | 2018-11-23 | 北京旷视科技有限公司 | 目标识别方法、装置、***及存储介质 |
CN109241904A (zh) * | 2018-08-31 | 2019-01-18 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN109766885A (zh) * | 2018-12-29 | 2019-05-17 | 北京旷视科技有限公司 | 一种文字检测方法、装置、电子设备及存储介质 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN109934181A (zh) * | 2019-03-18 | 2019-06-25 | 北京海益同展信息科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN110427949A (zh) * | 2019-07-31 | 2019-11-08 | 中国工商银行股份有限公司 | 表单校验的方法、装置、计算设备和介质 |
CN110503105A (zh) * | 2019-09-02 | 2019-11-26 | 苏州美能华智能科技有限公司 | 字符识别方法、训练数据获取方法、装置和介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740385A (zh) * | 2023-08-08 | 2023-09-12 | 深圳探谱特科技有限公司 | 一种设备质检方法、装置和*** |
CN116740385B (zh) * | 2023-08-08 | 2023-10-13 | 深圳探谱特科技有限公司 | 一种设备质检方法、装置和*** |
Also Published As
Publication number | Publication date |
---|---|
CN111626244B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9082038B2 (en) | Dram c adjustment of automatic license plate recognition processing based on vehicle class information | |
US9501707B2 (en) | Method and system for bootstrapping an OCR engine for license plate recognition | |
CN109766885B (zh) | 一种文字检测方法、装置、电子设备及存储介质 | |
US20200184212A1 (en) | System and method for detecting fraudulent documents | |
US10043071B1 (en) | Automated document classification | |
CN106980857B (zh) | 一种基于碑帖的毛笔字分割识别方法 | |
CN110222641B (zh) | 用于识别图像的方法和装置 | |
CN116311214B (zh) | 车牌识别方法和装置 | |
CN112712703A (zh) | 车辆视频的处理方法、装置、计算机设备和存储介质 | |
CN111753592A (zh) | 交通标志识别方法、装置、计算机设备和存储介质 | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
JP2021005164A (ja) | 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム | |
KR20220122458A (ko) | 영상 데이터에 포함된 텍스트 플레이트 비식별화 방법 및 이를 수행하기 위한 장치 | |
CN110728193B (zh) | 一种脸部图像丰富度特征的检测方法及设备 | |
CN109087439B (zh) | 票据校验方法、终端设备、存储介质及电子设备 | |
CN114241463A (zh) | 签名验证方法、装置、计算机设备和存储介质 | |
CN111626244B (zh) | 图像识别方法、装置、电子设备和介质 | |
CN111476090B (zh) | 水印识别方法和装置 | |
CN117351505A (zh) | 信息码的识别方法、装置、设备及存储介质 | |
CN117115823A (zh) | 一种篡改识别方法、装置、计算机设备和存储介质 | |
CN114627457A (zh) | 一种票面信息识别方法及装置 | |
CN111950356A (zh) | ***文本定位方法、装置及电子设备 | |
US11710331B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
CN117746442A (zh) | 手写签名验证方法、装置及电子设备 | |
CN116597455A (zh) | 用于票据中磁码数据的增广方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |