CN115620304A - 文本识别模型的训练方法、文本识别方法及相关装置 - Google Patents

文本识别模型的训练方法、文本识别方法及相关装置 Download PDF

Info

Publication number
CN115620304A
CN115620304A CN202211256325.7A CN202211256325A CN115620304A CN 115620304 A CN115620304 A CN 115620304A CN 202211256325 A CN202211256325 A CN 202211256325A CN 115620304 A CN115620304 A CN 115620304A
Authority
CN
China
Prior art keywords
image
mask
text
target
text recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211256325.7A
Other languages
English (en)
Inventor
孟闯
曹莹
陈媛媛
熊剑平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202211256325.7A priority Critical patent/CN115620304A/zh
Publication of CN115620304A publication Critical patent/CN115620304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种文本识别模型的训练方法、文本识别方法及相关装置,该方法包括:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征;对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果;至少基于第一文本识别结果,调整文本识别模型的编码器的参数。通过上述方式,本申请能够提高文本识别模型的文本识别效果。

Description

文本识别模型的训练方法、文本识别方法及相关装置
技术领域
本申请涉及图像处理技术领域,特别是涉及一种文本识别模型的训练方法、文本识别方法及相关装置。
背景技术
自然场景中包含着丰富的文字信息,如卡证识别、短视频字幕智能审核、工业编号识别等众多场景。如果人们能够将这些文字提取出来,并做进一步处理后将会为图像语义的理解提供非常有利的依据和丰富的信息。
文字提取处理的前提是自然场景图像的获取。目前,大多数自然场景图像都是由人手持手机、平板等电子设备拍摄得到的。人为拍摄容易在拍摄过程中发生抖动,导致拍摄的图像模糊,进而导致自然场景图像的识别效果不佳。
发明内容
本申请主要解决的技术问题是提供一种文本识别模型的训练方法、文本识别方法及相关装置,能够提高文本识别模型的文本识别效果。
为解决上述技术问题,本申请第一方面提供了一种文本识别模型的训练方法,该方法包括:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征;对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果;至少基于第一文本识别结果,调整文本识别模型的编码器的参数。
为解决上述技术问题,本申请第二方面提供了一种文本识别方法,该方法包括:获取目标图像;利用文本识别模型的编码器对目标图像进行编码,得到目标图像的目标编码特征;利用文本识别模型的预测模块对目标图像的目标编码特征进行预测,得到目标图像中的目标文本;其中,文本识别模型为利用上述第一方面所述的方法训练得到的文本识别模型。
为解决上述技术问题,本申请第三方面提供了一种电子设备,该设备包括相互耦接的存储器和处理器,存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述第一方面所述的文本识别模型的训练方法,或实现上述第二方面所述的文本识别方法。
为解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,该程序指令能够被执行以实现上述第一方面所述的文本识别模型的训练方法,或实现上述第二方面所述的文本识别方法。
本申请的有益效果是:区别于现有技术的情况,本申请在文本识别模型的训练过程中对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征;对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果;至少基于第一文本识别结果,调整文本识别模型的编码器的参数。通过利用对第一掩码特征和第一编码特征进行预测得到的第一文本识别结果调整编码器的参数,使得文本识别模型的编码器可以在图像模糊的情况下更准确的提取文本图像的特征,进而根据提取的特征预测得到准确的文本内容,以达到提高文本识别模型的识别效果的目的。
附图说明
图1是本申请提供的文本识别模型的训练方法第一实施方式的流程示意图;
图2是本申请提供的位置掩码器确定第一样本文本图像的融合特征的示意图;
图3是本申请提供的编码器得到第一编码特征的示意图;
图4是本申请提供的文本识别模型的训练方法第二实施方式的流程示意图;
图5是本申请提供的文本识别模型的训练方法第二实施方式的总体框架示意图;
图6是本申请提供的文本识别模型的训练方法第三实施方式的流程示意图;
图7是本申请提供的文本识别模型的训练方法第三实施方式的总体框架示意图;
图8是本申请提供的文本识别方法一实施方式的流程示意图;
图9是本申请提供的电子设备一实施方式的框架结构示意图;
图10是本申请提供的计算机可读存储介质一实施方式的框架示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中有涉及“第一”、“第二”等的描述,该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请结合参阅图1-3,图1是本申请提供的文本识别模型的训练方法第一实施方式的流程示意图,图2是本申请提供的位置掩码器确定第一样本文本图像的融合特征的示意图,图3是本申请提供的编码器得到第一编码特征的示意图;文本识别模型的训练方法包括:
S11:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像。
在一实施方式中,步骤S11可以由文本识别模型包含的位置掩码器执行,第一样本文本图像标注有真实文本识别结果。第一样本文本图像中的第一掩码区域图像可以根据掩码比例确定。在一具体实施方式中,可以预先设置掩码比例,根据掩码比例将第一样本文本图像沿预设方向划分为若干图像块,随机对至少一个图像块进行掩码以得到第一掩码区域图像。例如,预设的掩码比例为五分之三,则可以将第一样本文本图像分为五个图像块,随机对其中的三个图像块进行掩码。在另一具体实施方式中,也可以先将第一样本文本图像随机分为若干图像块,再基于掩码比例对至少一个图像块进行掩码以得到第一掩码区域图像。第一样本文本图像中第一掩码区域图像以外的区域即为第一非掩码区域图像。
在基于预设的掩码比例,确定第一样本文本图像中的第一掩码区域图像和第一非掩码区域图像的同时,还可以确定第一掩码区域图像的词嵌入向量。在一具体实施方式中,确定掩码比例后,可以得到掩码比例信息,掩码比例信息可以包含多个维度的信息,例如,掩码比例信息包含掩码比例以及第一掩码区域图像对应的文本信息,根据掩码比例信息,位置掩码器中的嵌入层可返回对应的词嵌入向量。在另一具体实施方式中,还可以先确定第一掩码区域图像,获取该区域包含的文本信息,根据文本信息获得对应的词嵌入向量。获得第一掩码区域图像的词嵌入向量后,将第一掩码区域图像的词嵌入向量和第一掩码区域图像的区域特征融合,得到第一掩码区域图像的第一掩码特征。其中,第一掩码区域图像的区域特征可以由位置掩码器对第一掩码区域图像进行特征提取得到;也可以由其它设备预先对第一样本文本图像进行特征提取,获取第一样本文本图像的图像特征,再从第一样本文本图像的图像特征中获取对应于第一掩码区域图像的特征,得到第一掩码区域图像的区域特征。如图2所示,在一具体实施方式中,第一掩码区域图像的词嵌入向量与第一样本文本图像的第一掩码区域图像的区域特征处于不同的维度,则先将第一掩码区域图像的词嵌入向量经过全连接层映射到预设维度,将预设维度的词嵌入向量与第一掩码区域图像的区域特征进行融合,得到第一掩码区域图像的第一掩码特征。其中,预设维度为第一掩码区域图像的区域特征的维度。第一掩码区域图像的区域特征可以由深度卷积神经网络提取得到,在一实施方式中,可以利用深度卷积神经网络提取第一样本文本图像的图像特征,从第一样本文本图像的图像特征中获取第一掩码区域图像的区域特征。本实施方式中,第一样本文本图像可以是目标样本图像,对应的,第一掩码区域图像和第一非掩码区域图像可以是目标掩码区域图像和目标非掩码区域图像。
S12:利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征。
在一实施方式中,利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征包括利用编码器对第一非掩码区域图像进行特征提取,得到目标非掩码特征,为便于区分,此处将目标非掩码特征称为第一非掩码特征。如图3所示,将第一非掩码特征进行自注意力计算,得到自注意力特征;将自注意力特征与第一非掩码特征进行融合,得到第一编码特征。具体地,使第一非掩码特征经过自注意力层得到自注意力特征。自注意力层可以包括三个全连接层,使得第一非掩码特征分别通过三个全连接层映射得到查询向量、键值向量、值向量,查询向量与键值向量进行点积运算得到分数值,分数值通过归一化后(如通过SoftMax激活函数进行归一化)与值向量进行点乘得到第一非掩码特征的自注意力系数,基于自注意力系数得到自注意力特征。再将自注意特征与第一非掩码特征进行求和,再进行归一化得到第一编码特征。此时得到的自注意力特征可以是多个维度的,也可以是一个维度的。
若第一非掩码特征是多个维度的特征,通过自注意力层得到的第一非掩码特征的自注意力系数也可以是多个维度的特征,将每一个维度的自注意力系数乘以对应的第一非掩码特征,得到该维度对应的自注意力特征;将该维度的自注意力特征与对应的第一非掩码特征进行求和,得到该维度的第三编码特征。将多个维度的第三编码特征进行归一化后经过前馈神经网络,得到各维度的第四编码特征;将各维度的第四编码特征与各维度的第三编码特征进行求和和归一化,得到各维度的第一编码特征。其中,前馈神经网络可以由多个全连接层组成。本实施方式中,第一非掩码区域图像可以是目标非掩码区域图像,第一编码特征可以是目标编码特征。
S13:对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果。
在一实施方式中,可以采用长短期神经网络(LSTM,Long Short Term Memory)对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果。可以理解地,在其他实施方式中,也可以采用其他的神经网络对第一掩码特征和第一编码特征进行预测,在此不做限定。本实施方式在文本预测过程中增加第一掩码特征,可使得调整参数后的文本识别模型具有较高的抗干扰性,即利用训练完成的文本识别模型识别具有污浊的文本图像时,可得到较准确的识别结果。
S14:至少基于第一文本识别结果,调整文本识别模型的编码器的参数。
在一实施方式中,可以根据第一文本识别结果调整编码器的参数。具体地,可以根据第一文本识别结果与真实文本识别结果之间的差异,得到第一识别损失。基于第一识别损失,调整文本识别模型的编码器的参数。其中,第一识别损失可以是CTC损失,即(Connectionist Temporal Classification loss,联结时间分类损失)。CTC损失函数可以解决输入输出是否对齐的问题,避免逐个字符进行标注,只需要逐行标注样本即可。在进行训练过程中,对标签文本进行编码时在重复字符之间***特殊字符,反向传播过程中通过优化器Adam算法(一种自适应动量的随机优化方法)不断调整网络中的权重和偏置项,使得CTC损失越小,那么模型预测出的文本序列越接近真实文本序列。在解码时通过在每个时间步选择最可能的字符计算最佳路径,删除重复字符,然后再从路径中删除所有特殊字符,剩下的即为第一文本识别结果。
在另一实施方式中,可以根据第一文本识别结果和第二文本识别结果调整编码器的参数。具体地,根据第一文本识别结果与真实文本识别结果之间的差异,得到第一识别损失;根据第二文本识别结果与真实文本识别结果之间的差异,得到第二识别损失;根据第一识别损失和第二识别损失调整编码器的参数。其中,第二文本识别结果是利用文本识别模型的第一预测模块对第二编码特征进行预测得到的,第二编码特征由编码器对第一样本文本图像进行编码得到。
上述方式在文本识别模型的训练过程中对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征;对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果;至少基于第一文本识别结果,调整文本识别模型的编码器的参数。通过利用对第一掩码特征和第一编码特征进行预测得到的第一文本识别结果调整编码器的参数,使得文本识别模型的编码器可以在图像模糊的情况下更准确的提取文本图像的特征,进而根据提取的特征预测得到准确的文本内容,以达到提高文本识别模型的识别效果的目的。
请结合参阅图4和图5,图4是本申请提供的文本识别模型的训练方法第二实施方式的流程示意图,图5是本申请提供的文本识别模型的训练方法第二实施方式的总体框架示意图;该方法包括:
S41:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像。
S42:利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征。
其中,步骤S41-S42的具体实施方式请参考文本识别模型的训练方法第一实施方式的步骤S11-S12,在此不再赘述。
S43:对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果。
在一实施方式中,步骤S43可以由第二预测模块执行。具体地,第二预测模块采用LSTM对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果。
S44:利用编码器对第一样本文本图像进行编码得到第二编码特征。
在一实施方式中,对第一样本文本图像进行编码得到第二编码特征的方式可以与对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征的方式相同,此处不再赘述。可以理解地,在其他实施方式中,也可以采用其他方式获取第二编码特征,此处不做具体限定。
S45:利用文本识别模型的第一预测模块对第二编码特征进行预测,得到第一样本文本图像的第二文本识别结果。
在一实施方式中,第一预测模块采用LSTM对第二编码特征进行预测,得到第一样本文本图像的第二文本识别结果。
S46:基于第二文本识别结果调整第一预测模块的参数。
S47:基于第一文本识别结果和第二文本识别结果,调整编码器的参数。
在一实施方式中,基于第一文本识别结果与真实文本识别结果之间的差异,得到第一识别损失,并基于第二文本识别结果与真实文本识别结果之间的差异,得到第二识别损失;基于第一识别损失和第二识别损失,调整编码器的参数。进一步地,得到第一识别损失后,还可以根据第一识别损失调整位置掩码器和第二预测模块的参数;得到第二识别损失后,可以基于第二识别损失调整第一预测模块的参数。其中,第一识别损失和第二识别损失均可以为CTC损失。
本实施方式中,可以采用两个分支对文本识别模型进行训练。如图5所示,在第一分支直接利用编码器对第一样本文本图像进行编码,得到第二编码特征,利用文本识别模型的第一预测模块对第二编码特征进行预测,得到第一样本文本图像的第二文本识别结果。根据第二文本识别结果与真实文本识别结果之间的差异计算第二识别损失,根据第二识别损失调整编码器和第一预测模块的参数。在第二分支,先利用位置掩码器对第一样本文本图像进行随机掩码,获得第一掩码区域的第一掩码特征和第一非掩码区域,利用编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征,利用第二预测模块对第一掩码特征和第一编码特征进行预测,得到第一文本识别结果,利用第一文本识别结果与真实文本识别结果之间的差异计算第一识别损失,根据第一识别损失调整位置掩码器、第二预测模块和编码器的参数。其中,第一分支和第二分支的编码器可以为相同的编码器,即第一分支和第二分支为同一个编码器。采用双分支训练文本识别模型,使得文本识别模型可以使用文本内容所在自然场景图像的视觉纹理特征,还可以使用视觉语境中的语言信息,以一种隐性的形式指导模型在一些遮挡、噪音等复杂场景下准确识别文本内容。
请结合参阅图6和图7,图6是本申请提供的文本识别模型的训练方法第三实施方式的流程示意图,图7是本申请提供的文本识别模型的训练方法第三实施方式的总体框架示意图;该方法包括:
S61:利用第二样本文本图像对位置掩码器和编码器进行预训练。
其中,第二样本文本图像可以为无标注图像,也可以为有标注图像。在实际训练过程中,有标注的样本文本图像的数量是有限的,在这种情况下,可以先利用无标注的样本文本图像对位置掩码器和编码器进行预训练,使得位置掩码器和编码器具有一定的特征提取能力;再利用少量有标注的样本文本图像进行第二次训练,使得文本识别模型具有较好的文本识别能力。
在一实施方式中,第二样本文本图像为无标注图像,利用位置掩码器对第二样本文本图像进行掩码处理,得到第二样本文本图像中的第二掩码区域图像的第二掩码特征和第二非掩码区域图像;利用编码器对第二样本文本图像的第二非掩码区域图像进行编码得到第二编码特征;利用解码器基于第二掩码特征和第二编码特征对第二掩码区域图像进行像素信息重建,得到第二掩码区域图像的重建像素信息;基于第二掩码区域图像的原始像素信息和重建像素信息,调整位置掩码器、编码器和解码器的参数。
具体地,可以预先设置掩码比例,根据掩码比例将第二样本文本图像沿预设方向划分为若干图像块,随机对至少一个图像块进行掩码以得到第二掩码区域图像,第二样本文本图像中第二掩码区域图像以外的区域即为第二非掩码区域图像。在基于预设的掩码比例,确定第二样本文本图像中的第二掩码区域图像和第二非掩码区域图像的同时,可以确定第二掩码区域图像对应的词嵌入向量。在一具体实施方式中,确定掩码比例后,可以得到掩码比例信息,掩码比例信息可以包含多个维度的信息,例如,掩码比例信息包含掩码比例以及第二掩码区域图像的文本信息,根据掩码比例信息,位置掩码器中的嵌入层可返回对应的词嵌入向量。在另一具体实施方式中,还可以先确定第二掩码区域图像,获取该区域包含的文本信息,根据文本信息获得对应的词嵌入向量。
获得第二掩码区域图像的词嵌入向量后,将第二掩码区域图像的词嵌入向量和第二掩码区域图像的区域特征融合,得到第二掩码区域图像的第二掩码特征。在一具体实施方式中,第二掩码区域图像的词嵌入向量与第二样本文本图像的图像特征处于不同的维度,则先将第二掩码区域图像的词嵌入向量经过全连接层映射到预设维度,将预设维度的词嵌入向量与第二掩码区域图像的区域特征进行融合,得到第二掩码区域图像的第二掩码特征。其中,预设维度为第二掩码区域图像的区域特征的维度。第二掩码区域图像的区域特征可以由深度卷积神经网络提取得到。
进一步,利用编码器对第二非掩码区域图像进行特征提取,得到目标非掩码特征,此处将目标非掩码特征称为第二非掩码特征,将第二非掩码特征进行自注意力计算,得到自注意力特征;将自注意力特征与第二非掩码特征进行融合,得到第二编码特征。具体地,使第二非掩码特征分别通过三个全连接层映射得到查询向量、键值向量、值向量,查询向量与键值向量进行点积运算得到分数值,分数值通过SoftMax激活函数与值向量进行点乘得到第二非掩码特征的自注意力系数,将自注意力系数与第二非掩码特征进行相乘得到自注意力特征,再将自注意特征与第二非掩码特征进行求和和归一化后得到第二编码特征。其中,第二非掩码特征、自注意力特征以及第二编码特征均可以是多个维度的特征。在一具体实施方式中,还可以将每一个维度的自注意力系数乘以对应的第二非掩码特征,得到该维度对应的自注意力特征;将该维度的自注意力特征与对应的第二非掩码特征进行求和,得到该维度的第五编码特征。将多个维度的第五编码特征进行归一化后经过前馈神经网络,得到各维度的第六编码特征,将各维度的第六编码特征与各维度的第四编码特征进行求和和归一化,得到各维度的第二编码特征。
将第二掩码特征和第二编码特征进行合并,利用解码器基于合并后的特征对第二掩码区域图像进行像素信息重建,得到第二掩码区域图像的重建像素信息。利用第二掩码区域图像的原始像素信息和重建像素信息计算均方误差损失,根据均方误差损失调整位置掩码器、编码器和解码器的参数。
本实施方式中,第二样本文本图像可以是目标样本图像,对应的,第二掩码区域图像和第二非掩码区域图像可以是目标掩码区域图像和目标非掩码区域图像;第二编码特征可以是目标编码特征。
S62:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像。
在一实施方式中,利用步骤S61训练完成的位置掩码器对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像。其中,第一样本文本图像标注有真实文本识别结果。若第二样本文本图像也标注有真实文本识别结果,则第一样本文本图像可以与第二样本文本图像相同,例如二者均为目标样本图像。
S63:利用文本识别模型的编码器对第一样本文本图像中的第一非掩码区域图像进行编码得到第一编码特征。
S64:对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果。
S65:至少基于第一文本识别结果,调整文本识别模型的编码器的参数。
步骤S62-S65的具体实施方式请参考文本识别模型的训练方法第一实施方式的步骤S11-14,在此不再赘述。
在一具体实施方式中,如图7所示,第一样本文本图像和第二样本文本图像相同,均标注有真实文本识别结果。先对文本识别模型进行自监督训练,利用文本识别模型的位置编码器对该样本文本图像进行掩码,得到第二掩码区域图像(如图7中字符L、字符d以及字符y所在的区域)的第二掩码特征,该样本文本图像中除第二掩码区域图像以外的区域即为第二非掩码区域图像(如图7中字符i、字符n、字符s以及字符a所在的区域),利用编码器对第二非掩码区域图像进行编码得到第二编码特征,将第二编码特征和第二掩码特征合并,得到合并特征;利用解码器基于合并特征对第二掩码区域图像进行像素重建,得到第二掩码区域图像的重建像素信息;基于第二掩码区域图像的原始像素信息和重建像素信息计算均方误差损失,根据均方误差损失调整位置掩码器、编码器和解码器的参数。再对文本识别模型进行有监督训练,此时可以采用两个分支进行训练,第一分支采用训练好的编码器对该样本文本图像进行编码,通过第一预测模块对编码特征进行预测,得到第二文本识别结果;第二分支采用位置掩码器对该样本文本图像进行掩码,得到该样本文本图像的第一掩码区域图像对应的第一掩码特征和第一非掩码区域图像,此时得到的第一掩码区域图像和第一非掩码区域图像可以与自监督训练过程中的第二掩码区域图像和第二非掩码区域图像相同,也可以不同,利用编码器对第一非掩码区域图像进行编码得到对应的第一编码特征,利用第二预测模块对编码器输出的第一编码特征和位置掩码器输出的第一掩码特征进行预测,得到第一文本识别结果;根据第一文本识别结果和第二文本识别结果,调整编码器的参数;根据第一文本识别结果调整位置掩码器和第二预测模块的参数;根据第二文本识别结果调整第一预测模块的参数。通过该方式训练后的文本识别模型可以在自然场景图像中的文本内容被遮挡的情况下准确识别文本内容。
请参阅图8,图8是本申请提供的文本识别方法一实施方式的流程示意图,该方法包括:
S81:获取目标图像。
其中,目标图像可以对任一自然场景进行拍摄得到的图像。在一实施方式中,目标图像中包含有文本区域。
S82:利用文本识别模型的编码器对目标图像进行编码,得到目标图像的目标编码特征。
该步骤可以参考上述利用编码器对第一样本文本图像的第一非掩码区域图像进行编码的相关描述,此处不再赘述。
S83:利用文本识别模型的预测模块对目标图像的目标编码特征进行预测,得到目标图像中的目标文本。
其中,文本识别模型的预测模块可以为上述的第一预测模块或第二预测模块,本实施方式中,采用上述第一预测模块作为文本识别模型的预测模块。文本识别模型为通过上述任一文本识别模型的训练方法实施方式训练得到的文本识别模型。具体训练方法请参考上述任一实施方式,在此不再赘述。
请参阅图9,图9是本申请提供的电子设备一实施方式的框架结构示意图。
电子设备90包括相互耦接的存储器91和处理器92,存储器91存储有程序指令,处理器92用于执行存储器91中存储的程序指令,以实现上述任一文本识别模型的训练方法实施方式的步骤,或实现上述文本识别方法实施方式的步骤。在一个具体的实施场景中,电子设备90可以包括但不限于:微型计算机、服务器,此外,电子设备90还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器92用于控制其自身以及存储器91以实现上述任一方法实施方式的步骤。处理器92还可以称为CPU(Central Processing Unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92可以由集成电路芯片共同实现。
请参阅图10,图10是本申请提供的计算机可读存储介质一实施方式的框架示意图。
计算机可读存储介质100存储有程序指令101,程序指令101被处理器执行时,用以实现上述任一文本识别模型的训练方法实施方式的步骤,或实现上述文本识别方法实施方式的步骤。
计算机可读存储介质100具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储计算机程序的介质,或者也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (12)

1.一种文本识别模型的训练方法,其特征在于,所述方法包括:
对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;
利用所述文本识别模型的编码器对所述第一样本文本图像的所述第一非掩码区域图像进行编码得到第一编码特征;
对所述第一掩码特征和所述第一编码特征进行预测,得到所述第一样本文本图像的第一文本识别结果;
至少基于所述第一文本识别结果,调整所述文本识别模型的所述编码器的参数。
2.根据权利要求1所述的方法,其特征在于,在所述至少基于所述第一文本识别结果,调整所述文本识别模型的所述编码器的参数之前,所述方法还包括:
利用所述编码器对所述第一样本文本图像进行编码得到第二编码特征;
利用所述文本识别模型的第一预测模块对所述第二编码特征进行预测,得到所述第一样本文本图像的第二文本识别结果;
基于所述第二文本识别结果调整所述第一预测模块的参数;
所述至少基于所述第一文本识别结果,调整所述文本识别模型的所述编码器的参数,包括:
基于所述第一文本识别结果和所述第二文本识别结果,调整所述编码器的参数。
3.根据权利要求2所述的方法,其特征在于,所述第一样本文本图像标注有真实文本识别结果;
所述基于所述第一文本识别结果和所述第二文本识别结果,调整所述编码器的参数,以及所述基于所述第二文本识别结果调整所述第一预测模块的参数,包括:
基于所述第一文本识别结果与所述真实文本识别结果之间的差异,得到第一识别损失,并基于所述第二文本识别结果与所述真实文本识别结果之间的差异,得到第二识别损失;
基于所述第一识别损失和第二识别损失,调整所述编码器的参数;以及
基于所述第二识别损失调整所述第一预测模块的参数。
4.根据权利要求3所述的方法,其特征在于,所述对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像是利用位置掩码器执行;
所述对所述第一掩码特征和所述第一编码特征进行预测,得到所述第一样本文本图像的第一文本识别结果的步骤是利用第二预测模块执行的;
在所述基于所述第一文本识别结果与所述真实文本识别结果之间的差异,得到第一识别损失之后,所述方法还包括:
基于所述第一识别损失,调整所述位置掩码器和所述第二预测模块的参数。
5.根据权利要求1所述的方法,其特征在于,所述对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像是利用位置掩码器执行;
在所述对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像之前,所述方法还包括:
利用第二样本文本图像对所述位置掩码器和所述编码器进行预训练,其中,所述第二样本文本图像为无标注图像。
6.根据权利要求5所述的方法,其特征在于,所述利用第二样本文本图像对所述位置掩码器和所述编码器进行预训练,包括:
利用所述位置掩码器对所述第二样本文本图像进行掩码处理,得到所述第二样本文本图像中的第二掩码区域图像的第二掩码特征和第二非掩码区域图像;
利用所述编码器对所述第二样本文本图像的所述第二非掩码区域图像进行编码得到第二编码特征;
利用解码器基于所述第二掩码特征和第二编码特征对所述第二掩码区域图像进行像素信息重建,得到所述第二掩码区域图像的重建像素信息;
基于所述第二掩码区域图像的原始像素信息和所述重建像素信息,调整所述位置掩码器、所述编码器和所述解码器的参数。
7.根据权利要求6所述的方法,其特征在于,所述对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像,或所述对所述第二样本文本图像进行掩码处理,得到所述第二样本文本图像中的第二掩码区域图像的第二掩码特征和第二非掩码区域图像,包括:
基于预设的掩码比例,确定目标样本图像中的目标掩码区域图像和目标非掩码区域图像,并确定所述目标掩码区域图像对应的词嵌入向量;
融合所述目标掩码区域图像对应的词嵌入向量和所述目标掩码区域图像的区域特征,得到所述目标掩码区域图像的目标掩码特征;
其中,所述目标样本图像为第一样本文本图像、目标掩码区域图像为第一掩码区域图像、目标非掩码区域图像为第一非掩码区域图像、目标掩码特征为第一掩码特征;或者,所述目标样本图像为第二样本文本图像、目标掩码区域图像为第二掩码区域图像、目标非掩码区域图像为第二非掩码区域图像、目标掩码特征为第二掩码特征。
8.根据权利要求7所述的方法,其特征在于,所述基于预设的掩码比例,确定目标样本图像中的目标掩码区域图像和目标非掩码区域,包括:
基于所述预设的掩码比例,将所述目标样本图像沿预设方向划分为若干图像块,并从所述若干图像块中随机选择至少一个图像块作为所述目标掩码区域图像,剩余所述图像块作为所述目标非掩码区域图像;
所述融合所述目标掩码区域图像对应的词嵌入向量和所述目标掩码区域图像的区域特征,得到所述目标掩码区域图像的目标掩码特征,包括:
将所述词嵌入向量映射为预设维度,所述预设维度为所述区域特征的维度;
将所述预设维度的词嵌入向量与所述区域特征进行融合,得到所述目标掩码特征。
9.根据权利要求6所述的方法,其特征在于,所述利用所述文本识别模型的编码器对所述第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征,或者所述利用所述编码器对所述第二样本文本图像的第二非掩码区域图像进行编码得到第二编码特征,包括:
对目标非掩码区域图像进行特征提取,得到目标非掩码特征;
将所述目标非掩码特征进行自注意力处理,得到自注意力特征;
将所述目标非掩码特征与所述自注意力特征进行融合,以得到目标编码特征;
其中,所述目标非掩码区域图像为第一非掩码区域图像、所述目标编码特征为第一编码特征,或者所述目标非掩码区域图像为第二非掩码区域图像、所述目标编码特征为第二编码特征。
10.一种文本识别方法,其特征在于,所述方法包括:
获取目标图像;
利用文本识别模型的编码器对所述目标图像进行编码,得到所述目标图像的目标编码特征;
利用文本识别模型的预测模块对所述目标图像的目标编码特征进行预测,得到所述目标图像中的目标文本;其中,所述文本识别模型为利用权利要求1-9任一项所述的方法训练得到的文本识别模型。
11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1-9任一项所述的文本识别模型的训练方法,或实现权利要求10所述的文本识别方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令能够被执行以实现如权利要求1-9任一项所述的文本识别模型的训练方法,或实现权利要求10所述的文本识别方法。
CN202211256325.7A 2022-10-11 2022-10-11 文本识别模型的训练方法、文本识别方法及相关装置 Pending CN115620304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211256325.7A CN115620304A (zh) 2022-10-11 2022-10-11 文本识别模型的训练方法、文本识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211256325.7A CN115620304A (zh) 2022-10-11 2022-10-11 文本识别模型的训练方法、文本识别方法及相关装置

Publications (1)

Publication Number Publication Date
CN115620304A true CN115620304A (zh) 2023-01-17

Family

ID=84862485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211256325.7A Pending CN115620304A (zh) 2022-10-11 2022-10-11 文本识别模型的训练方法、文本识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN115620304A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383428A (zh) * 2023-03-31 2023-07-04 北京百度网讯科技有限公司 一种图文编码器训练方法、图文匹配方法及装置
CN116912636A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 目标识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383428A (zh) * 2023-03-31 2023-07-04 北京百度网讯科技有限公司 一种图文编码器训练方法、图文匹配方法及装置
CN116383428B (zh) * 2023-03-31 2024-04-05 北京百度网讯科技有限公司 一种图文编码器训练方法、图文匹配方法及装置
CN116912636A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 目标识别方法及装置
CN116912636B (zh) * 2023-09-12 2023-12-12 深圳须弥云图空间科技有限公司 目标识别方法及装置

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN115620304A (zh) 文本识别模型的训练方法、文本识别方法及相关装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN109063611B (zh) 一种基于视频语义的人脸识别结果处理方法和装置
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN113780243B (zh) 行人图像识别模型的训练方法、装置、设备以及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
Siddiqi et al. Human activity recognition using Gaussian mixture hidden conditional random fields
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
Mishra Video shot boundary detection using hybrid dual tree complex wavelet transform with Walsh Hadamard transform
CN111797247A (zh) 基于人工智能的案件推送方法、装置、电子设备及介质
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN112580616B (zh) 人群数量确定方法、装置、设备及存储介质
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN117251795A (zh) 基于自适应融合的多模态虚假新闻检测方法
Mishra Hybrid feature extraction and optimized deep convolutional neural network based video shot boundary detection
CN113723310B (zh) 基于神经网络的图像识别方法及相关装置
Hsia et al. Fast search real‐time face recognition based on DCT coefficients distribution
CN114817627A (zh) 基于多面视频表示学习的文本到视频的跨模态检索方法
CN115705756A (zh) 动作检测方法、装置、计算机设备和存储介质
CN117912005B (zh) 利用单个标记解码的文本识别方法、***、设备及介质
Goh et al. Recognizing hidden emotions from difference image using mean local mapped pattern
Liang et al. [Retracted] Adaptive Feature Analysis in Target Detection and Image Forensics Based on the Dual‐Flow Layer CNN Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination