CN112183542A - 基于文本图像的识别方法、装置、设备和介质 - Google Patents

基于文本图像的识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN112183542A
CN112183542A CN202010997733.2A CN202010997733A CN112183542A CN 112183542 A CN112183542 A CN 112183542A CN 202010997733 A CN202010997733 A CN 202010997733A CN 112183542 A CN112183542 A CN 112183542A
Authority
CN
China
Prior art keywords
coding
feature map
decoding
text image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010997733.2A
Other languages
English (en)
Inventor
王林武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN202010997733.2A priority Critical patent/CN112183542A/zh
Publication of CN112183542A publication Critical patent/CN112183542A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于文本图像的识别方法、装置、设备和介质。所述方法包括:获取待识别的文本图像;将文本图像输入至分割模型的编码结构,通过编码结构中的至少一个的编码单元依次对文本图像进行编码处理,得到与文本图像对应的第一特征图;其中,编码结构中包括至少一个的可变形卷积;获取各编码单元在编码处理的过程中分别产生的中间编码特征图;通过分割模型中的解码结构,并根据各中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图;根据第二特征图进行像素级分类处理,以识别文本图像中的文本。采用本方法能够提高提取特征图的精准度,并有效地保留完整的语义信息,大大提升了分割精度,且提高了文本识别的效率。

Description

基于文本图像的识别方法、装置、设备和介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于文本图像的识别方法、装置、设备和介质。
背景技术
随着计算机技术的发展,出现了基于文本图像的识别技术。现有的基于文本图像的识别技术,主要是基于OCR(Optical Character Recognition,光学字符识别)技术来实现的。
然而,采用现有的OCR技术进行文本识别时,对文本图像的形状、环境以及识别方式都有严格的要求,比如当文本图像的形状为弧形、文本图像处于强光照射、或者与文本图像的距离太远时,都存在由于文本识别精度不够而导致识别效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升文本识别效率的基于文本图像的识别方法、装置、设备和介质。
一种基于文本图像的识别方法,所述方法包括:
获取待识别的文本图像;
将所述文本图像输入至分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述文本图像进行编码处理,得到与所述文本图像对应的第一特征图;其中,所述编码结构中包括至少一个的可变形卷积;
获取各所述编码单元在编码处理的过程中分别产生的中间编码特征图;
通过所述分割模型中的解码结构,并根据各所述中间编码特征图对所述第一特征图进行解码处理,得到对应的第二特征图;
根据所述第二特征图进行像素级分类处理,以识别所述文本图像中的文本。
一种基于文本图像的识别装置,所述装置包括:
获取模块,用于获取待识别的文本图像;
编码模块,用于将所述文本图像输入至分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述文本图像进行编码处理,得到与所述文本图像对应的第一特征图;其中,所述编码结构中包括至少一个的可变形卷积;
所述获取模块还用于获取各所述编码单元在编码处理的过程中分别产生的中间编码特征图;
解码模块,用于通过所述分割模型中的解码结构,并根据各所述中间编码特征图对所述第一特征图进行解码处理,得到对应的第二特征图;
识别模块,用于根据所述第二特征图进行像素级分类处理,以识别所述文本图像中的文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别的文本图像;
将所述文本图像输入至分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述文本图像进行编码处理,得到与所述文本图像对应的第一特征图;其中,所述编码结构中包括至少一个的可变形卷积;
获取各所述编码单元在编码处理的过程中分别产生的中间编码特征图;
通过所述分割模型中的解码结构,并根据各所述中间编码特征图对所述第一特征图进行解码处理,得到对应的第二特征图;
根据所述第二特征图进行像素级分类处理,以识别所述文本图像中的文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别的文本图像;
将所述文本图像输入至分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述文本图像进行编码处理,得到与所述文本图像对应的第一特征图;其中,所述编码结构中包括至少一个的可变形卷积;
获取各所述编码单元在编码处理的过程中分别产生的中间编码特征图;
通过所述分割模型中的解码结构,并根据各所述中间编码特征图对所述第一特征图进行解码处理,得到对应的第二特征图;
根据所述第二特征图进行像素级分类处理,以识别所述文本图像中的文本。
上述基于文本图像的识别方法、装置、设备和介质,通过分割模型中包括至少一个可变形卷积的编码结构,对文本图像进行编码处理得到对应的第一特征图。通过分割模型的解码结构,并根据编码结构中各编码单元在编码处理的过程中分别产生的中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图。对第二特征图进行像素级分类处理,以识别所述文本图像中的文本。通过这样在编码结构中加入可变形卷积,可以明显增大卷积感受野,更准确地匹配文本图像中的文本形状,从而提高了提取特征图的精准度。并且,通过编码结构中产生的中间编码特征图对第一特征图进行解码处理,也就是将解码结构中产生的特征图与对应的中间编码特征图进行特征融合,可以有效地保留完整的语义信息,避免了语义信息丢失问题,大大提升了分割精度,从而大大提高了文本识别的效率。
附图说明
图1为一个实施例中基于文本图像的识别方法的应用环境图;
图2为一个实施例中基于文本图像的识别方法的流程示意图;
图3为一个具体的实施例中基于文本图像的识别方法的流程示意图;
图4为另一个具体的实施例中基于文本图像的识别方法的流程示意图;
图5为一个实施例中基于文本图像的识别装置的结构框图;
图6为另一个实施例中基于文本图像的识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于文本图像的识别方法,可以应用于如图1所示的应用环境中。其中,计算机设备110通过网络采集车辆120上包含文本的图像,得到待识别的文本图像。当然,在其他的应用场景中,该车辆120还可以是其他的待识别的目标对象,比如建筑楼或者停车位等对象。可以理解,图1所示的应用环境仅仅是用于一种示意性的说明,并不用于限定本方法所应用的具体的一个应用场景。其中,计算机设备具体可以是终端或者服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
可以理解,计算机设备110通过网络采集车辆120上包含文本的图像,得到待识别的文本图像。计算机设备110将文本图像输入至分割模型的编码结构,通过编码结构中的至少一个的编码单元依次对文本图像进行编码处理,得到与文本图像对应的第一特征图,其中,编码结构中包括至少一个的可变形卷积。计算机设备110获取各编码单元在编码处理的过程中分别产生的中间编码特征图。计算机设备110再通过分割模型中的解码结构,并根据各中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图。计算机设备110根据第二特征图进行像素级分类处理,以识别文本图像中的文本。
在一个实施例中,如图2所示,提供了一种基于文本图像的识别方法,以该方法应用于图1中的计算机设备110为例进行说明,该基于文本图像的识别方法包括以下步骤:
S202,获取待识别的文本图像。
其中,文本图像是包括文本的图像,文本具体可以是字符,比如单个字母或数字等。具体地,计算机设备可从本地或其他计算机设备处获取待识别的文本图像。
在一个实施例中,计算机设备可通过本地的图像采集设备,比如摄像头,对出现文本的目标环境或目标场景进行图像采集,以得到采集的文本图像。或者,计算机设备通过网络接收其他计算机设备采集并发送的文本图像,本申请实施例对此不作限定。
在一个具体的实施例中,当一辆车辆进行车辆年检时,计算机设备可通过摄像头获取与车辆相关的文本图像,比如包括车辆识别码的文本图像。计算机设备通过对包括车辆识别码的文本图像进行识别处理,以确定对应的车辆。其中,车辆的车辆识别码(VehicleIdentification Number,简称VIN)一般由十七个字母或数字组成,是车辆上的一组独一无二的号码,VIN可用于识别车辆的生产商、引擎、底盘序号及其他性能等信息,车辆识别码也可以称作车架号。
S204,将文本图像输入至分割模型的编码结构,通过编码结构中的至少一个的编码单元依次对文本图像进行编码处理,得到与文本图像对应的第一特征图;其中,编码结构中包括至少一个的可变形卷积。
其中,分割模型是用于执行分割任务的机器学习模型。可以理解,分割模型是把文本图像中每个文本对应的区域作为一个子区域,并把各个子区域区分开来,以识别出文本图像中的各个文本。
分割模型包括编码结构和解码结构。其中,每一个编码结构包括至少一个编码单元。每一个编码单元中包括卷积网络和池化网络。当然,池化也可以成为下采样,或者降采样等,本申请实施例对此不做限定。并且,对于每一个编码单元来说,通常卷积网络的数量为至少一个,而池化网络的数量为一。
对应的,每一个解码结构包括至少一个解码单元。每一个解码单元中包括卷积网络和上采样网络。并且,对于每一个解码单元来说,通常卷积网络的数量为至少一个,而上采样网络的数量为一。此外,解码结构中还包括分类识别单元,该分类识别单元用于对特征图进行像素级分类处理,以进行文本识别。
具体地,计算机设备将待识别的文本图像输入至分割模型的编码结构,编码结构中包括至少一个的编码单元,通过各个编码单元中的可变形卷积依次对文本图像进行编码处理,从而得到与文本图像对应的第一特征图。可以理解,编码处理具体包括特征提取、以及池化处理。特征提取可以得到对应的特征图,池化处理是对同一编码单元中得到的特征图进行缩小处理。其中,第一特征图是通过编码结构中所有编码单元处理后输出的特征图。
在一个实施例中,分割模型具体可以是segnet(Semantic Segmentation,语义分割)模型,当然也可以是其他的语义分割模型,本申请实施例对此不做限定。其中,segnet模型具体可由编码结构(encoder)和解码结构(decoder)组成。编码结构,也可称作编码器,是一个沿用VGG16的网络模型,用于对目标信息进行解析。解码结构,也可称作解码器,将解析后的信息在图像中进行区分表示,即每个像素都通过对应的目标信息的颜色、或者是标签(label)来表示。
在一个实施例中,编码结构中的可变形卷积的数量与编码单元的不一定相关。可就是说,编码结构中的各个编码单元中可以都引入可变形卷积(Deformable Convolution,简写Def.Conv),也可以只有部分编码单元引入可变形卷积。可以理解,可变形卷积会引入额外的模型参数用于学***衡网络参数量及精确度,可以将编码结构中部分编码单元中的卷积层替换为可变形卷积,比如,计算机设备将第三个和第四个编码单元中引入可变形卷积,第一个和第二个编码单元中使用常规的卷积,也就是VGG16模型中的CONV3模块和CONV4模块中卷积替换为可变形卷积,当然也可以是其他的模块进行替换,本申请实施例对此不做限定。
举例分析,对于一个卷积核大小为3*3的CNN卷积(Convolutional NeuralNetworks,卷积神经网络)来说,常规的卷积是将该卷积核在每个编码单元的输入特征图上做滑窗移动,计算每个卷积核权重与固定形状(即大小为3*3)的滑窗内输入像素值的乘积并求和,从而得到卷积输出值,也可理解为输出特征图的输出像素值。其中,对于每个编码单元的输出特征图上的一个像素点P0的计算公式是:y(p0)=∑w(pn)*x(p0+pn),pn∈R。其中,w(pn)表示卷积核权重,x(p0+pn)表示滑窗内所有像素点的像素值;pn表示滑窗内位置索引值,y(p0)表示一个像素点P0的像素值。
可以理解,可变形卷积是在常规的卷积上进行部分改动,也就是在遍历滑窗内像素时会有一个可学习得到的偏移量△Pn,因此采样的像素点是滑窗内该像素点位置与偏移量求和后的结果,计算公式为:y(p0)=∑w(pn)*x(p0+pn+Δpn),pn∈R。也就是说,可变形卷积是根据文本图像的不同尺寸或外形,采样得到不同形状或范围的像素,感受野更大。其中,每个像素对应的偏移量△Pn不一定相同,具体是通过模型训练后得到的。
在一个实施例中,步骤S204,也就是将文本图像输入至分割模型的编码结构,通过编码结构中的至少一个的编码单元依次对文本图像进行编码处理,得到与文本图像对应的第一特征图的步骤,具体包括:将文本图像输入至分割模型的编码结构中的首个编码单元,通过首个编码单元中的卷积网络和池化网络分别对文本图像进行编码处理,得到首个编码单元输出的中间编码特征图;对于编码结构中处于首个编码单元之后的编码单元,确定与当前编码单元对应的第一输入数据;第一输入数据为上一个编码单元在编码处理的过程中产生的中间编码特征图;将第一输入数据传输至当前编码单元,通过当前编码单元中的卷积网络和池化网络分别对第一输入数据进行编码处理,得到当前编码单元输出的中间编码特征图;将当前编码单元输出的中间编码特征图作为下一个编码单元的第一输入数据,并返回将第一输入数据传输至当前编码单元的步骤并继续执行,直至满足第一停止条件时停止,将编码结构的最后一个编码单元输出的中间编码特征图作为与文本图像对应的第一特征图。
其中,第一停止条件是停止数据传输的条件,具体可以是得到编码结构中的最后一个编码单元输出的中间编码特征图,或编码结构中的最后一个编码单元输出的中间编码特征图的尺寸大小达到预设的大小。可以理解,比如当分割模型中包括四个编码单元时,第一停止条件可以是中间编码特征图大小为待识别的文本图像的1/16。
第一输入数据是与分割模型的编码结构中的除首个编码单元以外的其他编码单元对应的输入数据,具体可以是上一个编码单元在编码处理的过程中产生的中间编码特征图,也可以理解为输入特征图。其中,中间编码特征图是与分割模型的编码结构中的各个编码单元对应的特征图,具体可以是各个编码单元在编码处理的过程中产生的特征图。
具体地,计算机设备将待识别的文本图像输入至分割模型的编码结构中的首个编码单元,通过首个编码单元中的卷积网络和池化网络分别对文本图像进行编码处理,得到首个编码单元输出的中间编码特征图。对于编码结构中处于首个编码单元之后的编码单元,计算机设备将首个编码单元输出的中间编码特征图传输至第二个编码单元,并作为第二个编码单元的第一输入数据,通过第二个编码单元中的卷积网络和池化网络分别对首个编码单元输出的中间编码特征图进行编码处理,得到第二个编码单元输出的中间编码特征图。
进一步地,计算机设备将第二个编码单元输出的中间编码特征图传输至第三个编码单元,并作为第三个编码单元的输入特征图,通过第三个编码单元中的卷积网络和池化网络分别对第二个编码单元输出的中间编码特征图进行编码处理,得到第三个编码单元输出的中间编码特征图。依次类推,直至满足第一停止条件时停止,计算机设备将编码结构的最后一个编码单元输出的中间编码特征图作为与文本图像对应的第一特征图。
在一个实施例中,编码结构中包括至少一个可变形卷积。也就是说,对于编码结构的各个编码单元中的卷积网络来说,可以是由可变形卷积组成、或者由可变形卷积与常规的卷积共同组成,本申请实施例对此不做限定。
可以理解,相比常规的卷积,可变形卷积可提取不同范围、形状或方向的特征图,因而通过可变形卷积所提取的特征图更精确,可以更适配目标。
上述实施例中,计算机设备通过分割模型的编码结构中的可变形卷积对文本图像进行编码处理,从而得到对应的第一特征图。通过这样在编码结构中加入可变形卷积,可以明显增大卷积感受野,更准确地匹配文本图像中的文本形状,从而提高了提取特征图的精准度。并且,通过在部分编码单元中引入可变形卷积,可以平衡网络参数量及精确度,从而大大提高了文本识别的效率。
S206,获取各编码单元在编码处理的过程中分别产生的中间编码特征图。
具体地,分割模型的每个编码单元在各自的编码过程中都会产生对应的中间编码特征图,计算机设备获取各个中间编码特征图,以用于通过解码结构对编码结构输出的第一特征图进行解码处理。
S208,通过分割模型中的解码结构,并根据各中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图。
具体地,分割模型中的解码结构中包括至少一个解码单元,计算机设备通过各个解码单元,以及基于各中间编码特征图对编码结构输出的第一特征图进行解码处理,从而得到对应的第二特征图。可以理解,解码处理是指基于第一特征图进行语义信息恢复,并基于该最后一个解码单元输出的特征图对每个像素进行分类。
在一个实施例中,解码结构包括至少一个的第一解码单元、以及至少一个的第二解码单元;步骤S208,也就是通过分割模型中的解码结构,并根据各中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图的步骤,具体包括:将第一特征图输入至分割模型的解码结构中的首个解码单元,通过首个解码单元对第一特征图进行上采样处理,得到对应的中间解码特征图;对于解码结构中处于首个解码单元之后的解码单元,在当前解码单元为第一解码单元时,确定与第一解码单元对应的第二输入数据;第二输入数据通过将上一个解码单元输出的中间解码特征图、及编码结构中具有相同分辨率的中间编码特征图进行融合得到;通过第一解码单元对第二输入数据进行上采样处理,得到对应的中间解码特征图;第一解码单元对应的中间解码特征图用于直接作为下一个解码单元的输入数据或融合生成下一个解码单元的输入数据;对于解码结构中处于首个解码单元之后的解码单元,在当前解码单元为第二解码单元时,确定与第二解码单元对应的第三输入数据;第三输入数据为上一个解码单元输出的中间解码特征图;通过第二解码单元对第三输入数据进行上采样处理,得到对应的中间解码特征图;第二解码单元对应的中间解码特征图用于直接作为下一个解码单元的输入数据或融合生成下一个解码单元的输入数据;当满足第二停止条件时停止,将解码结构的最后一个解码单元输出的中间解码特征图作为与文本图像对应的第二特征图。
其中,解码单元包括第一解码单元和第二解码单元。可以理解,第一解码单元和第二解码单元的网络结构相同,均为先后通过上采样网络和卷积网路对输入数据进行解码处理,区别点在于第一解码单元和第二解码单元的输入数据不同。
可以理解,第一解码单元对应第二输入数据,具体可以是上一个解码单元输出的中间解码特征图、及编码结构中具有相同分辨率的中间编码特征图进行融合得到的特征图。第二解码单元对应第三输入数据,具体可以是上一个解码单元输出的中间解码特征图。中间编码特征图是与分割模型的编码结构中的各个编码单元对应的特征图,具体可以是各个编码单元在编码处理的过程中产生的特征图。
并且,上一个解码单元输出的中间解码特征图、及编码结构中具有相同分辨率的中间编码特征图进行融合得到的特征图,也可称作中间融合特征图。可以理解,融合具体是将编码结构中的中间编码特征图与解码结构中的中间解码特征图进行叠加处理,也就是说,融合处理并不会改变特征图的尺寸大小,即中间融合特征图与融合之前的中间编码特征图、以及中间解码特征图都具有相同的尺寸大小。
具体地,计算机设备将第一特征图输入至分割模型的解码结构中的首个解码单元,通过首个解码单元对第一特征图进行上采样处理,得到对应的中间解码特征图。计算机设备根据解码结构中处于首个解码单元之后的解码单元的类别,判断处于首个解码单元之后的解码单元的输入数据。
可以理解,当前解码单元为第一解码单元时,计算机设备确定与第一解码单元对应的第二输入数据,也就是确定融合后的中间融合特征图作为第一解码单元的输入数据。计算机设备通过第一解码单元对第二输入数据进行上采样处理,得到对应的中间解码特征图。计算机设备根据处于当前的第一解码单元之后的解码单元的类别,判断下一个解码单元的输入数据。比如,在当前的第一解码单元之后的解码单元为第一解码单元时,计算机设备将该中间解码特征图用于融合生成下一个解码单元的输入数据;在当前的第一解码单元之后的解码单元为第二解码单元时,计算机设备将该中间解码特征图直接作为下一个解码单元的输入数据。
同样地,在当前解码单元为第二解码单元时,计算机设备确定与第二解码单元对应的第三输入数据,也就是确定上一个解码单元输出的中间解码特征图作为第二解码单元的输入数据。计算机设备通过第二解码单元对第三输入数据进行上采样处理,得到对应的中间解码特征图。计算机设备根据处于当前的第二解码单元之后的解码单元的类别,判断下一个解码单元的输入数据。比如,在当前的第二解码单元之后的解码单元为第一解码单元时,计算机设备将该中间解码特征图用于融合生成下一个解码单元的输入数据;在当前的第二解码单元之后的解码单元为第二解码单元时,计算机设备将该中间解码特征图直接作为下一个解码单元的输入数据。
进一步地,当满足第二停止条件时停止,计算机设备将解码结构的最后一个解码单元输出的中间解码特征图作为与文本图像对应的第二特征图。其中,第二停止条件是停止数据传输的条件,具体可以是得到解码结构中的最后一个解码单元输出的中间解码特征图,或解码结构中的最后一个解码单元输出的中间解码特征图的尺寸大小达到预设的大小。可以理解,比如当分割模型中包括四个解码单元时,第二停止条件可以是中间解码特征图大小与待识别的文本图像大小相同。
在一个实施例中,计算机设备可将编码结构中输出的部分中间编码特征图与解码结构中的部分解码单元输出的中间解码特征图按通道拼接,以实现特征融合。比如,当解码结构中包括4个编码单元和4个解码单元时,计算机设备可将第一个解码单元与第四个编码单元的通道进行融合,并将第二个解码单元与第三个编码单元的通道进行融合。也就是说,将第一个解码单元输出的中间解码特征图与编码单元中输出的具有相同分辨率的中间编码特征图进行融合,以作为第二个解码单元的输入数据。并且,将第二个解码单元输出的中间解码特征图与编码单元中输出的具有相同分辨率的中间编码特征图进行融合,以作为第三个解码单元的输入数据。
上述实施例中,计算机设备通过第一解码单元和第二解码单元,以及基于各中间编码特征图对编码结构输出的第一特征图进行解码处理,从而得到对应的第二特征图。通过将编码结构的特征图与解码结构中相同分辨率的特征图进行特征融合,可以解决语义信息丢失问题,也就是保留编码结构中的语义信息,不会导致信息丢失。并且,通过在部分解码单元中实现特征融合,也就是在第一解码单元中输入融合后的特征图,可以平衡网络参数量及精确度,从而大大提高了文本识别的效率。
在一个实施例中,解码单元中包括至少一个第一解码单元,但对第二解码单元的数量并不限定。也就是说,存在解码单元包括至少一个的第一解码单元,且不包括第二解码单元的情况。此时,计算机设备将第一特征图输入至分割模型的解码结构中的首个解码单元,通过首个解码单元对第一特征图进行上采样处理,得到对应的中间解码特征图。可以理解,该中间解码特征图用于融合生成下一个解码单元的输入数据。对于解码结构中处于首个解码单元之后的第一解码单元来说,计算机设备确定与第一解码单元对应的第二输入数据,也就是将该中间解码特征图与编码结构中具有相同分辨率的中间编码特征图进行融合,得到对应的中间融合特征图,确定该中间融合特征图作为第一解码单元的输入数据。
进一步地,当满足第三停止条件时停止,计算机设备将解码结构的最后一个第一解码单元输出的中间解码特征图作为与文本图像对应的第二特征图。其中,第三停止条件是停止数据传输的条件,具体可以是得到解码结构中的最后一个第一解码单元输出的中间解码特征图,或解码结构中的最后一个第一解码单元输出的中间解码特征图的尺寸大小达到预设的大小。可以理解,比如当分割模型中包括四个解码单元时,第三停止条件可以是中间解码特征图大小与待识别的文本图像大小相同。
在一个实施例中,计算机设备可将编码结构中输出的各个中间编码特征图与解码结构中的解码单元输出的中间解码特征图按通道拼接,以实现特征融合。比如,当解码结构中包括4个编码单元和4个解码单元时,计算机设备可将第一个解码单元与第四个编码单元的通道进行融合,将第二个解码单元与第三个编码单元的通道进行融合,将第三个解码单元与第二个编码单元的通道进行融合,以及将第四个解码单元与第一个编码单元的通道进行融合。
S210,根据第二特征图进行像素级分类处理,以识别文本图像中的文本。
具体地,计算机设备获取解码结构输出的与待识别的文本图像尺寸一致的第二特征图,基于该第二特征图对每个像素进行分类,从而识别得到文本图像中的文本。
在一个实施例中,解码结构中还包括用于分类识别单元。当计算机设备获取到解码结构输出的与待识别的文本图像尺寸一致的第二特征图后,可通过分类识别单元中的K类softmax分类器来对每个像素进行分类处理,从而识别出文本图像中的文本。当然,也可以是其他的分类器,本申请实施例对此不作限定。
在一个实施例中,该基于文本图像的识别方法中的文本图像包括与车辆相关的文本图像;文本图像中的文本包括车辆识别码;该基于文本图像的识别方法还包括查找车检信息的步骤。具体包括:当识别出与车辆相关的文本图像中的车辆识别码时,根据车辆识别码查找对应的车辆年检信息;基于车辆年检信息执行相应的业务处理。
可以理解,当文本图像是包括车辆识别码的图像时,计算机设备通过K类softmax分类器对与包括车辆识别码的图像对应的第二特征图进行像素分类,从而识别出该图像中的车辆识别码(VIN)。计算机设备可通过VIN码确定对应的车辆,从而查找出对应的车辆年检信息。当然,与车辆相关的文本图像也可以是包括车辆的车牌号或者车辆铭牌的图像,本申请实施例对此不作限定。
进一步地,计算机设备根据查找到的车辆年检信息,对该车辆执行相应的业务处理。比如,核实车辆年检信息的有效性、或对车辆年检信息进行更新等业务处理。可以理解,当临近车辆年检信息的有效期或者已超过车辆年检信息的有效期时,可向该车辆的车主发送对应的提示信息;或者,当检测到与该车辆相关的新的车辆年检信息时,可对应录入新的车辆年检信息,本申请实施例对此不作限定。
上述实施例中,当计算机设备识别出与车辆相关的文本图像中的车辆识别码时,可根据车辆识别码查找对应的车辆年检信息,并基于车辆年检信息执行相应的业务处理。通过这样的方式,可快速及准确地查找到与车辆对应的车检信息以及进行后续的处理,从而大大提高业务处理的效率。
上述基于文本图像的识别方法,通过分割模型中包括至少一个可变形卷积的编码结构,对文本图像进行编码处理得到对应的第一特征图。通过分割模型的解码结构,并根据编码结构中各编码单元在编码处理的过程中分别产生的中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图。对第二特征图进行像素级分类处理,以识别文本图像中的文本。通过这样在编码结构中加入可变形卷积,可以明显增大卷积感受野,更准确地匹配文本图像中的文本形状,从而提高了提取特征图的精准度。并且,通过编码结构中产生的中间编码特征图对第一特征图进行解码处理,也就是将解码结构中产生的特征图与对应的中间编码特征图进行特征融合,可以有效地保留完整的语义信息,避免了语义信息丢失问题,大大提升了分割精度,从而大大提高了文本识别的效率。
在一个实施例中,将第一特征图输入至分割模型的解码结构中的首个解码单元,通过首个解码单元对第一特征图进行上采样处理,得到对应的中间解码特征图的步骤,具体包括:获取与第一特征图的尺寸相同的索引特征图,并将第一特征图与对应的索引特征图一起传输至首个解码单元;通过首个解码单元遍历索引特征图,从索引特征图中获取与第一特征图中各个像素分别对应的最大值索引;获取预设特征图;预设特征图的尺寸大于第一特征图的尺寸;将预设特征图中对应最大值索引的位置像素赋值为第一特征图的像素值,并将预设特征图中未被赋值的其他位置像素赋值为零,得到对应的中间解码特征图。
具体地,计算机设备获取与第一特征图的尺寸相同的索引特征图,并将第一特征图与对应的索引特征图一起传输至首个解码单元。计算机设备通过首个解码单元遍历该索引特征图,并从索引特征图中获取与第一特征图中各个像素分别对应的最大值索引。
可以理解,第一特征图中各个像素都有各自对应的最大值索引。索引特征图是包括索引值的特征图。第一特征图是最后一个编码单元输出的中间编码特征图,也就是说,每一个中间编码特征图都有对应的索引特征图。
进一步地,计算机设备获取尺寸大于第一特征图的尺寸的预设特征图,并将预设特征图中对应最大值索引的位置像素赋值为第一特征图的像素值,以及将预设特征图中未被赋值的其他位置像素赋值为零,得到的赋值后的预设特征图也就是对应的中间解码特征图。
可以理解,当解码单元的输入数据为第一特征图时,获取的预设特征图的尺寸可以为第一特征图的两倍,比如第一特征图的尺寸为2*2,则预设特征图的尺寸为4*4。计算机设备将预设特征图对应最大值索引位置像素赋值为输入的第一特征图的像素值,并将预设特征图中未被赋值的其他位置像素赋值为零,从而得到对应的中间解码特征图。
可以理解,这里以首个解码单元中的上采样处理为例进行分析,但对于解码结构中的每一个解码单元来说,在进行上采样处理时,都通过上述实施例的步骤来实现。区别点在于每个解码单元的输入数据不同。
在一个实施例中,计算机设备获取与输入的特征图的尺寸相同的索引特征图,并将输入的特征图与对应的索引特征图一起传输至下一个解码单元。计算机设备通过当前的解码单元遍历该索引特征图,并从索引特征图中获取与输入的特征图中各个像素分别对应的最大值索引。计算机设备获取尺寸大于输入的特征图的尺寸的预设特征图,并将预设特征图中对应最大值索引的位置像素赋值为输入的特征图的像素值,以及将预设特征图中未被赋值的其他位置像素赋值为零,得到对应的中间解码特征图。其中,根据解码单元的类别不同,可确定不同的输入数据。比如当解码单元为第一解码单元时,输入的数据为通过将上一个解码单元输出的中间解码特征图、及编码结构中具有相同分辨率的中间编码特征图进行融合得到的中间融合特征图;当解码单元为第二解码单元时,输入的数据为上一个解码单元输出的中间解码特征图。
上述实施例中,计算机设备通过首个解码单元对第一特征图以及对应的索引特征图进行解码处理,得到对应的中间解码特征图。通过这样的方式,可以实现上采样处理,也就是将编码结构中进行编码处理后的特征图进行恢复,从而进行语义分割。
在一个实施例中,该基于文本图像的识别方法中的分割模型通过以下步骤训练得到:获取训练数据;训练数据包括样本文本图像、以及与样本文本图像对应的标签文本;将样本文本图像输入至待训练的分割模型的编码结构,通过编码结构中的至少一个的编码单元依次对样本文本图像进行编码处理,得到与样本文本图像对应的第一样本特征图;其中,编码结构中包括至少一个的可变形卷积;获取各编码单元在编码处理的过程中分别产生的中间样本编码特征图;通过待训练的分割模型中的解码结构,并根据各中间样本编码特征图对第一样本特征图进行解码处理,得到对应的第二样本特征图;根据第二样本特征图进行像素级分类处理,以识别样本文本图像中的样本文本;基于样本文本与标签文本的差异,调整待训练的分割模型的网络参数并继续训练,直至满足训练停止条件时停止训练。
其中,训练数据是用于训练文本识别模型的数据。样本文本图像是用于训练文本识别模型的、且包含文本的图像。
具体地,计算机设备获取训练数据,训练数据中包括样本文本图像、以及与样本文本图像对应的标签文本。通过待训练的分割模型中包括的至少一个可变形卷积的编码结构,对样本文本图像进行编码处理得到对应的第一样本特征图。通过待训练的分割模型的解码结构,并根据编码结构中各编码单元在编码处理的过程中分别产生的中间样本编码特征图对第一样本特征图进行解码处理,得到对应的第二样本特征图。对第二样本特征图进行像素级分类处理,以识别样本文本图像中的样本文本。计算机设备基于样本文本与标签文本的差异,调整待训练的分割模型的网络参数并继续训练,直至满足训练停止条件时停止训练。其中,训练停止条件是停止模型训练的条件,具体可以是达到预设迭代次数或训练后的分割模型达到预设性能指标。
在一个实施例中,获取训练数据的步骤,具体包括:获取第一样本文本图像;对第一样本图像进行图像变换或文本变换,得到对应的第二样本文本图像;将第一样本文本图像和第二样本文本图像共同作为样本文本图像;将样本文本图像中的各个文本对应区域的像素分别标记为标签文本,并将样本文本图像、以及与样本文本图像对应的标签文本共同作为训练数据。
其中,样本文本图像包括第一样本文本图像和第二样本文本图像。其中,第一样本文本图像是计算机设备直接获取的样本文本图像,第二样本文本图像是计算机设备对于获取的第一样本文本图像进行图像变换或文本变换后所得到的图像。
可以理解,图像变换包括对图像进行形状上的改变,具体可以是对第一样本文本图像进行随机裁剪、翻转或旋转一定角度等变换处理。文本变换表示对图像中的文本数量或形状进行变换,具体可以是增加或减少第一样本文本图像中的文本的数量、或修改第一样本文本图像中的文本的排列形式。
在一个实施例中,计算机设备可从本地或其他计算机设备处获取第一样本文本图像。并且,计算机设备对第一样本文本图像进行随机裁剪、翻转或旋转一定角度等变换处理,得到图像变换后的第二样本文本图像。可以理解,第二样本文本图像是第一样本文本图像的局部图像、水平翻转后的第一样本文本图像、或者旋转后的第一样本文本图像,本申请实施例对此不做限定。
在一个实施例中,计算机设备可从本地或其他计算机设备处获取第一样本文本图像。并且,计算机设备通过修改第一样本文本图像中的部分文本、重复第一样本文本图像中的文本,或将第一样本文本图像中的文本从直排调整为弧形排列等,从而得到文本变换后的第二样本文本图像,本申请实施例对此不做限定。
在一个实施例中,当第一样本文本图像为车辆的原始VIN图像时,计算机设备可修改原始VIN图像中的某几个字符、将原始VIN图像中的直排VIN码切割生成双排VIN码、或将原始VIN图像中的直排VIN码变形生成弧形VIN码,从而得到文本变换后的第二样本文本图像,本申请实施例对此不做限定。
在一个实施例中,计算机设备通过对第一样本文本图像的图像变换和文本变换,得到第二样本文本图像,将第一样本文本图像和第二样本文本图像共同作为样本文本图像。计算机设备将样本文本图像中的各个文本对应区域的像素分别标记为标签文本,以及将除文本对应区域以外的区域标记为背景类。计算机设备将样本文本图像、以及与样本文本图像对应的标签文本共同作为训练数据。
上述实施例中,计算机设备通过对第一样本文本图像进行图像变换或文本变换,得到第二样本文本图像。通过这样的数据扩充方式,可以大大扩充训练数据的数量。
在一个实施例中,计算机设备通过可将扩充后的训练数据划分成训练集和验证集,并将各样本文本图像的尺寸大小统一缩放至预设标准尺寸,比如512*128。并通过缩放至预设标准尺寸的样本文本图像、以及对应的标签文本来训练分割模型。
上述实施例中,计算机设备将样本文本图像输入至待训练的分割模型,通过待训练的分割模型的编码结构和解码结构的相应处理,得到对应的第二样本特征图,并识别得到样本文本图像中的样本文本。计算机设备基于样本文本与标签文本的差异,调整待训练的分割模型的网络参数并继续训练。通过这样的方式,可有针对性地训练编码结构和解码结构,从而提高编码结构和解码结构的处理效率。因此,计算机设备可得到训练好的、且提高文本识别效率的分割模型。
在一个具体的实施例中,参考图3,该基于文本图像的识别方法具体包括以下步骤:采用基于SegNet的语义分割算法对包括车辆VIN码的图像(如图3中的input image)进行文本识别,由于VIN码一般是长条形或弧形,为适配VIN码原始的输入图片长宽比不至于丢失较多信息,SegNet网络对输入的图片需统一缩放至为512×128。
其中,SegNet网络结构由编码结构和解码结构构成。编码结构用于通过基网络VGG16提取输入的包括车辆VIN码的图像的特征图。其中,编码结构中包含4个卷积层和4个池化层(核大小为2*2_s2,如图3中的pool、pool2、pool3和pool4),每一个卷积层和一个池化层构成一个编码单元301。并且,VGG16网络中部分卷积层替换为可变形卷积302,即将VGG16的CONV3(conv3_1、conv3_2和conv3_3)模块和CONV4(conv4_1、conv4_2和conv4_3)模块中卷积都替换为可变形卷积,用Def.CONV3(Def.conv3_1、Def.conv3_2和Def.conv3_3)模块和Def.CONV4(Def.conv4_1、Def.conv4_2和Def.conv4_3)表示。通过编码结构中各个编码单元依次对包括车辆VIN码的图像进行编码处理,得到对应的第一特征图。并且,编码结构输出的第一特征图的特征大小为原始输入的包括车辆VIN码的图像尺寸的1/16;
相应的,与编码结构的4个池化层一一对应,解码结构包括4个上采样层(如图3中的upsample1、upsample2、upsample3和upsample4)和4个卷积层,每一个卷积层和一个上采样层构成一个解码单元303。根据池化层的最大值索引做上采样处理,因而解码结构输出的第二特征图的尺寸大小与原始输入的包括车辆VIN码的图像尺寸一致。其中,将编码结构中的Def.CONV3(Def.conv3_1、Def.conv3_2和Def.conv3_3)模块和Def.CONV4(Def.conv4_1、Def.conv4_2和Def.conv4_3)的输出的中间编码特征图与对应解码结构CONV3_D(conv3_3_D、Def.conv3_2_D和conv3_1_D)模块和CONV4_D(Def.conv4_3_D、Def.conv4_2_D和Def.conv4_1_D)进行特征融合,也就是将编码结构中提取的中间编码特征图与解码结构中得到的具有相同分辨率的中间解码特征图按通道拼接融合,得到对应的中间融合特征图。这样可以很好的保留编码结构中的语义信息,不会导致信息丢失。
举例说明,将输入至分割模型中的待识别的文本图像的大小设置为S,编码结构中包括4个编码单元,其中,第1至第4个编码单元输出的中间编码特征图的大小依次为
Figure BDA0002693179490000191
Figure BDA0002693179490000192
其中,第4个编码单元输出的大小为
Figure BDA0002693179490000193
的中间编码特征图也就是第一特征图。解码结构中包括4个解码单元,第一步,将第一特征图作为第1个解码单元的输入数据,对应输出的中间解码特征图的大小为
Figure BDA0002693179490000194
此时,将编码单元中的
Figure BDA0002693179490000195
的中间编码特征图与
Figure BDA0002693179490000196
的中间解码特征图进行融合,得到
Figure BDA0002693179490000197
的中间融合特征图。第二步,将
Figure BDA0002693179490000198
的中间融合特征图作为第2个解码单元的输入数据,对应输出的中间解码特征图的大小为
Figure BDA0002693179490000199
此时,将编码单元中的
Figure BDA00026931794900001910
的中间编码特征图与
Figure BDA00026931794900001911
的中间解码特征图进行融合,得到
Figure BDA00026931794900001912
的中间融合特征图。第三步,将
Figure BDA00026931794900001913
的中间融合特征图作为第3个解码单元的输入数据,对应输出的中间解码特征图的大小为
Figure BDA00026931794900001914
第四步,将
Figure BDA00026931794900001915
的中间融合特征图作为第4个解码单元的输入数据,对应输出的中间解码特征图的大小为S。其中,第4个解码单元输出的大小为S的中间解码特征图也就是第二特征图。
进一步地,计算机设备基于该第二特征图对每个像素分类,以识别出原始输入的包括车辆VIN码的图像中的VIN码。
在一个具体的实施例中,参考图4,该基于文本图像的识别方法具体包括以下步骤:
S402,获取待识别的文本图像。
S404,将文本图像输入至分割模型的编码结构中的首个编码单元,通过首个编码单元中的卷积网络和池化网络分别对文本图像进行编码处理,得到首个编码单元输出的中间编码特征图。
S406,对于编码结构中处于首个编码单元之后的编码单元,确定与当前编码单元对应的第一输入数据。
S408,将第一输入数据传输至当前编码单元,通过当前编码单元中的卷积网络和池化网络分别对第一输入数据进行编码处理,得到当前编码单元输出的中间编码特征图。
S410,将当前编码单元输出的中间编码特征图作为下一个编码单元的第一输入数据,并返回将第一输入数据传输至当前编码单元的步骤并继续执行,直至满足第一停止条件时停止,将编码结构的最后一个编码单元输出的中间编码特征图作为与文本图像对应的第一特征图。
S412,获取各编码单元在编码处理的过程中分别产生的中间编码特征图。
S414,将第一特征图输入至分割模型的解码结构中的首个解码单元,通过首个解码单元对第一特征图进行上采样处理,得到对应的中间解码特征图。
S416,对于解码结构中处于首个解码单元之后的解码单元,在当前解码单元为第一解码单元时,确定与第一解码单元对应的第二输入数据。
S418,通过第一解码单元对第二输入数据进行上采样处理,得到对应的中间解码特征图。
S420,对于解码结构中处于首个解码单元之后的解码单元,在当前解码单元为第二解码单元时,确定与第二解码单元对应的第三输入数据。
S422,通过第二解码单元对第三输入数据进行上采样处理,得到对应的中间解码特征图。
S424,当满足第二停止条件时停止,将解码结构的最后一个解码单元输出的中间解码特征图作为与文本图像对应的第二特征图。
S426,根据第二特征图进行像素级分类处理,以识别文本图像中的文本。
上述基于文本图像的识别方法,通过分割模型中包括至少一个可变形卷积的编码结构,对文本图像进行编码处理得到对应的第一特征图。通过分割模型的解码结构,并根据编码结构中各编码单元在编码处理的过程中分别产生的中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图。对第二特征图进行像素级分类处理,以识别文本图像中的文本。通过这样在编码结构中加入可变形卷积,可以明显增大卷积感受野,更准确地匹配文本图像中的文本形状,从而提高了提取特征图的精准度。并且,通过编码结构中产生的中间编码特征图对第一特征图进行解码处理,也就是将解码结构中产生的特征图与对应的中间编码特征图进行特征融合,可以有效地保留完整的语义信息,避免了语义信息丢失问题,大大提升了分割精度,从而大大提高了文本识别的效率。
应该理解的是,虽然图2和4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于文本图像的识别装置500,包括:获取模块501、编码模块502、解码模块503和识别模块504,其中:
获取模块501,用于获取待识别的文本图像。
编码模块502,用于将文本图像输入至分割模型的编码结构,通过编码结构中的至少一个的编码单元依次对文本图像进行编码处理,得到与文本图像对应的第一特征图;其中,编码结构中包括至少一个的可变形卷积。
获取模块501还用于获取各编码单元在编码处理的过程中分别产生的中间编码特征图。
解码模块503,用于通过分割模型中的解码结构,并根据各中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图。
识别模块504,用于根据第二特征图进行像素级分类处理,以识别文本图像中的文本。
在一个实施例中,编码模块502还用于将文本图像输入至分割模型的编码结构中的首个编码单元,通过首个编码单元中的卷积网络和池化网络分别对文本图像进行编码处理,得到首个编码单元输出的中间编码特征图;对于编码结构中处于首个编码单元之后的编码单元,确定与当前编码单元对应的第一输入数据;第一输入数据为上一个编码单元在编码处理的过程中产生的中间编码特征图;将第一输入数据传输至当前编码单元,通过当前编码单元中的卷积网络和池化网络分别对第一输入数据进行编码处理,得到当前编码单元输出的中间编码特征图;将当前编码单元输出的中间编码特征图作为下一个编码单元的第一输入数据,并返回将第一输入数据传输至当前编码单元的步骤并继续执行,直至满足第一停止条件时停止,将编码结构的最后一个编码单元输出的中间编码特征图作为与文本图像对应的第一特征图。
在一个实施例中,解码结构包括至少一个的第一解码单元、以及至少一个的第二解码单元,解码模块503还用于将第一特征图输入至分割模型的解码结构中的首个解码单元,通过首个解码单元对第一特征图进行上采样处理,得到对应的中间解码特征图;对于解码结构中处于首个解码单元之后的解码单元,在当前解码单元为第一解码单元时,确定与第一解码单元对应的第二输入数据;第二输入数据通过将上一个解码单元输出的中间解码特征图、及编码结构中具有相同分辨率的中间编码特征图进行融合得到;通过第一解码单元对第二输入数据进行上采样处理,得到对应的中间解码特征图;第一解码单元对应的中间解码特征图用于直接作为下一个解码单元的输入数据或融合生成下一个解码单元的输入数据;对于解码结构中处于首个解码单元之后的解码单元,在当前解码单元为第二解码单元时,确定与第二解码单元对应的第三输入数据;第三输入数据为上一个解码单元输出的中间解码特征图;通过第二解码单元对第三输入数据进行上采样处理,得到对应的中间解码特征图;第二解码单元对应的中间解码特征图用于直接作为下一个解码单元的输入数据或融合生成下一个解码单元的输入数据;当满足第二停止条件时停止,将解码结构的最后一个解码单元输出的中间解码特征图作为与文本图像对应的第二特征图。
在一个实施例中,解码模块503还用于获取与第一特征图的尺寸相同的索引特征图,并将第一特征图与对应的索引特征图一起传输至首个解码单元;通过首个解码单元遍历索引特征图,从索引特征图中获取与第一特征图中各个像素分别对应的最大值索引;获取预设特征图;预设特征图的尺寸大于第一特征图的尺寸;将预设特征图中对应最大值索引的位置像素赋值为第一特征图的像素值,并将预设特征图中未被赋值的其他位置像素赋值为零,得到对应的中间解码特征图。
在一个实施例中,参考图6,该基于文本图像的识别装置500还包括训练模块505,用于获取训练数据;训练数据包括样本文本图像、以及与样本文本图像对应的标签文本;将样本文本图像输入至待训练的分割模型的编码结构,通过编码结构中的至少一个的编码单元依次对样本文本图像进行编码处理,得到与样本文本图像对应的第一样本特征图;其中,编码结构中包括至少一个的可变形卷积;获取各编码单元在编码处理的过程中分别产生的中间样本编码特征图;通过待训练的分割模型中的解码结构,并根据各中间样本编码特征图对第一样本特征图进行解码处理,得到对应的第二样本特征图;根据第二样本特征图进行像素级分类处理,以识别样本文本图像中的样本文本;基于样本文本与标签文本的差异,调整待训练的分割模型的网络参数并继续训练,直至满足训练停止条件时停止训练。
在一个实施例中,获取模块501还用于获取第一样本文本图像;对第一样本图像进行图像变换或文本变换,得到对应的第二样本文本图像;将第一样本文本图像和第二样本文本图像共同作为样本文本图像;将样本文本图像中的各个文本对应区域的像素分别标记为标签文本,并将样本文本图像、以及与样本文本图像对应的标签文本共同作为训练数据。
在一个实施例中,文本图像包括与车辆相关的文本图像;文本图像中的文本包括车辆识别码,该基于文本图像的识别装置500还包括业务处理模块506,用于当识别出与车辆相关的文本图像中的车辆识别码时,根据车辆识别码查找对应的车辆年检信息;基于车辆年检信息执行相应的业务处理。
上述基于文本图像的识别装置,通过分割模型中包括至少一个可变形卷积的编码结构,对文本图像进行编码处理得到对应的第一特征图。通过分割模型的解码结构,并根据编码结构中各编码单元在编码处理的过程中分别产生的中间编码特征图对第一特征图进行解码处理,得到对应的第二特征图。对第二特征图进行像素级分类处理,以识别所述文本图像中的文本。通过这样在编码结构中加入可变形卷积,可以明显增大卷积感受野,更准确地匹配文本图像中的文本形状,从而提高了提取特征图的精准度。并且,通过编码结构中产生的中间编码特征图对第一特征图进行解码处理,也就是将解码结构中产生的特征图与对应的中间编码特征图进行特征融合,可以有效地保留完整的语义信息,避免了语义信息丢失问题,大大提升了分割精度,从而大大提高了文本识别的效率。
关于基于文本图像的识别装置的具体限定可以参见上文中对于基于文本图像的识别方法的限定,在此不再赘述。上述基于文本图像的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备具体可以是终端或服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和通信接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI(Wireless Fidelity,无线局域网)、运营商网络、NFC(Near Field Communication,近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于文本图像的识别方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于文本图像的识别方法的步骤。此处基于文本图像的识别方法的步骤可以是上述各个实施例的基于文本图像的识别方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于文本图像的识别方法的步骤。此处基于文本图像的识别方法的步骤可以是上述各个实施例的基于文本图像的识别方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于文本图像的识别方法,其特征在于,所述方法包括:
获取待识别的文本图像;
将所述文本图像输入至分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述文本图像进行编码处理,得到与所述文本图像对应的第一特征图;其中,所述编码结构中包括至少一个的可变形卷积;
获取各所述编码单元在编码处理的过程中分别产生的中间编码特征图;
通过所述分割模型中的解码结构,并根据各所述中间编码特征图对所述第一特征图进行解码处理,得到对应的第二特征图;
根据所述第二特征图进行像素级分类处理,以识别所述文本图像中的文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述文本图像输入至分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述文本图像进行编码处理,得到与所述文本图像对应的第一特征图,包括:
将所述文本图像输入至分割模型的编码结构中的首个编码单元,通过所述首个编码单元中的卷积网络和池化网络分别对所述文本图像进行编码处理,得到所述首个编码单元输出的中间编码特征图;
对于所述编码结构中处于所述首个编码单元之后的编码单元,确定与当前编码单元对应的第一输入数据;所述第一输入数据为上一个编码单元在编码处理的过程中产生的中间编码特征图;
将所述第一输入数据传输至所述当前编码单元,通过所述当前编码单元中的卷积网络和池化网络分别对所述第一输入数据进行编码处理,得到当前编码单元输出的中间编码特征图;
将所述当前编码单元输出的中间编码特征图作为下一个编码单元的第一输入数据,并返回所述将所述第一输入数据传输至所述当前编码单元的步骤并继续执行,直至满足第一停止条件时停止,将所述编码结构的最后一个编码单元输出的中间编码特征图作为与所述文本图像对应的第一特征图。
3.根据权利要求1所述的方法,其特征在于,所述解码结构包括至少一个的第一解码单元、以及至少一个的第二解码单元;所述通过所述分割模型中的解码结构,并根据各所述中间编码特征图对所述第一特征图进行解码处理,得到对应的第二特征图,包括:
将所述第一特征图输入至所述分割模型的解码结构中的首个解码单元,通过所述首个解码单元对所述第一特征图进行上采样处理,得到对应的中间解码特征图;
对于所述解码结构中处于所述首个解码单元之后的解码单元,在当前解码单元为第一解码单元时,确定与所述第一解码单元对应的第二输入数据;所述第二输入数据通过将上一个解码单元输出的中间解码特征图、及所述编码结构中具有相同分辨率的中间编码特征图进行融合得到;
通过所述第一解码单元对所述第二输入数据进行上采样处理,得到对应的中间解码特征图;所述第一解码单元对应的中间解码特征图用于直接作为下一个解码单元的输入数据或融合生成下一个解码单元的输入数据;
对于所述解码结构中处于所述首个解码单元之后的解码单元,在当前解码单元为第二解码单元时,确定与所述第二解码单元对应的第三输入数据;所述第三输入数据为上一个解码单元输出的中间解码特征图;
通过所述第二解码单元对所述第三输入数据进行上采样处理,得到对应的中间解码特征图;所述第二解码单元对应的中间解码特征图用于直接作为下一个解码单元的输入数据或融合生成下一个解码单元的输入数据;
当满足第二停止条件时停止,将所述解码结构的最后一个解码单元输出的中间解码特征图作为与所述文本图像对应的第二特征图。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一特征图输入至所述分割模型的解码结构中的首个解码单元,通过所述首个解码单元对所述第一特征图进行上采样处理,得到对应的中间解码特征图,包括:
获取与所述第一特征图的尺寸相同的索引特征图,并将所述第一特征图与对应的索引特征图一起传输至首个解码单元;
通过所述首个解码单元遍历所述索引特征图,从所述索引特征图中获取与所述第一特征图中各个像素分别对应的最大值索引;
获取预设特征图;所述预设特征图的尺寸大于所述第一特征图的尺寸;
将所述预设特征图中对应最大值索引的位置像素赋值为所述第一特征图的像素值,并将所述预设特征图中未被赋值的其他位置像素赋值为零,得到对应的中间解码特征图。
5.根据权利要求1所述的方法,其特征在于,所述分割模型通过以下步骤训练得到:
获取训练数据;所述训练数据包括样本文本图像、以及与所述样本文本图像对应的标签文本;
将所述样本文本图像输入至待训练的分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述样本文本图像进行编码处理,得到与所述样本文本图像对应的第一样本特征图;其中,所述编码结构中包括至少一个的可变形卷积;
获取各所述编码单元在编码处理的过程中分别产生的中间样本编码特征图;
通过所述待训练的分割模型中的解码结构,并根据各所述中间样本编码特征图对所述第一样本特征图进行解码处理,得到对应的第二样本特征图;
根据所述第二样本特征图进行像素级分类处理,以识别所述样本文本图像中的样本文本;
基于所述样本文本与所述标签文本的差异,调整待训练的分割模型的网络参数并继续训练,直至满足训练停止条件时停止训练。
6.根据权利要求5所述的方法,其特征在于,所述获取训练数据,包括:
获取第一样本文本图像;
对所述第一样本图像进行图像变换或文本变换,得到对应的第二样本文本图像;
将所述第一样本文本图像和第二样本文本图像共同作为样本文本图像;
将所述样本文本图像中的各个文本对应区域的像素分别标记为标签文本,并将所述样本文本图像、以及与所述样本文本图像对应的标签文本共同作为训练数据。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述文本图像包括与车辆相关的文本图像;所述文本图像中的文本包括车辆识别码;所述方法还包括:
当识别出与车辆相关的文本图像中的车辆识别码时,根据所述车辆识别码查找对应的车辆年检信息;
基于所述车辆年检信息执行相应的业务处理。
8.一种基于文本图像的识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的文本图像;
编码模块,用于将所述文本图像输入至分割模型的编码结构,通过所述编码结构中的至少一个的编码单元依次对所述文本图像进行编码处理,得到与所述文本图像对应的第一特征图;其中,所述编码结构中包括至少一个的可变形卷积;
所述获取模块还用于获取各所述编码单元在编码处理的过程中分别产生的中间编码特征图;
解码模块,用于通过所述分割模型中的解码结构,并根据各所述中间编码特征图对所述第一特征图进行解码处理,得到对应的第二特征图;
识别模块,用于根据所述第二特征图进行像素级分类处理,以识别所述文本图像中的文本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010997733.2A 2020-09-21 2020-09-21 基于文本图像的识别方法、装置、设备和介质 Withdrawn CN112183542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010997733.2A CN112183542A (zh) 2020-09-21 2020-09-21 基于文本图像的识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010997733.2A CN112183542A (zh) 2020-09-21 2020-09-21 基于文本图像的识别方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112183542A true CN112183542A (zh) 2021-01-05

Family

ID=73956409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010997733.2A Withdrawn CN112183542A (zh) 2020-09-21 2020-09-21 基于文本图像的识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112183542A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966791A (zh) * 2021-04-30 2021-06-15 平安科技(深圳)有限公司 基于语义分割的图像分类方法、装置、设备及介质
CN113221879A (zh) * 2021-04-30 2021-08-06 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、装置、设备及存储介质
CN113506310A (zh) * 2021-07-16 2021-10-15 首都医科大学附属北京天坛医院 医学图像的处理方法、装置、电子设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966791A (zh) * 2021-04-30 2021-06-15 平安科技(深圳)有限公司 基于语义分割的图像分类方法、装置、设备及介质
CN113221879A (zh) * 2021-04-30 2021-08-06 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、装置、设备及存储介质
CN112966791B (zh) * 2021-04-30 2024-05-28 平安科技(深圳)有限公司 基于语义分割的图像分类方法、装置、设备及介质
CN113506310A (zh) * 2021-07-16 2021-10-15 首都医科大学附属北京天坛医院 医学图像的处理方法、装置、电子设备和存储介质
CN113506310B (zh) * 2021-07-16 2022-03-01 首都医科大学附属北京天坛医院 医学图像的处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN112183542A (zh) 基于文本图像的识别方法、装置、设备和介质
CN106980856B (zh) 公式识别方法及***和符号推理计算方法及***
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN110555433A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN110765795B (zh) 二维码识别方法、装置及电子设备
CN110084172B (zh) 文字识别方法、装置和电子设备
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN111985323B (zh) 基于深度卷积神经网络的人脸识别方法及***
CN114038004A (zh) 一种证件信息提取方法、装置、设备及存储介质
CN116311214B (zh) 车牌识别方法和装置
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN114429636B (zh) 图像扫描识别方法、装置及电子设备
CN112800978A (zh) 属性识别方法、部位属性提取网络的训练方法和装置
CN114005019A (zh) 一种翻拍图像识别方法及其相关设备
CN110796003B (zh) 车道线检测方法、装置及电子设备
CN114491127A (zh) 车险投保信息的检测方法、装置、计算机设备及存储介质
JP6175904B2 (ja) 照合対象抽出システム、照合対象抽出方法、照合対象抽出プログラム
CN110942179A (zh) 一种自动驾驶路线规划方法、装置及车辆
CN116958954B (zh) 基于关键点与旁路矫正的车牌识别方法、装置及存储介质
CN115546780B (zh) 车牌识别方法、模型及装置
CN117912005B (zh) 利用单个标记解码的文本识别方法、***、设备及介质
CN113052124B (zh) 一种起雾场景的识别方法、装置和计算机可读存储介质
CN115359490A (zh) 文本方向识别方法、装置、设备及存储介质
CN111598103A (zh) 车架号码识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210105