CN113469188A - 字符识别模型训练的数据增强、字符识别的方法及装置 - Google Patents
字符识别模型训练的数据增强、字符识别的方法及装置 Download PDFInfo
- Publication number
- CN113469188A CN113469188A CN202110810466.8A CN202110810466A CN113469188A CN 113469188 A CN113469188 A CN 113469188A CN 202110810466 A CN202110810466 A CN 202110810466A CN 113469188 A CN113469188 A CN 113469188A
- Authority
- CN
- China
- Prior art keywords
- character
- sample image
- training sample
- character recognition
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 489
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 8
- 230000015654 memory Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种字符识别模型训练的数据增强、字符识别的方法及装置,该方法通过在训练出收敛后的字符识别基础模型之后且在判断出训练样本图像的预测结果与训练样本图像的样本标签匹配之后,基于训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,能够获取到不同方向字符的增强训练样本图像,实现训练样本图像的数据增强,有利于通过数据增强后的训练样本图像继续对收敛后的字符识别基础模型进行半监督式的训练,有利于增强字符识别基础模型对任意方向文字的识别能力,以及无需大量的训练样本,不仅提高了字符识别基础模型的训练准确性,还提高了字符识别基础模型的训练效率。
Description
技术领域
本发明涉及字符识别技术领域,尤其涉及一种字符识别模型训练的数据增强、字符识别的方法及装置。
背景技术
传统的文字识别方法通过对图片中成行的文字切割成一个个单字符,然后对这些单字符进行分类识别,从而识别到图片中的文字,但此种方式受限于切割算法,当背景复杂时,准确率较低。随着科学技术的快速发展,深度学***方向的文字。因此,提出一种如何实现多方向的字符识别的方案显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种字符识别模型训练的数据增强、字符识别的方法及装置,通过对字符识别模型训练的数据进行增强,能够提供半监督式的模型训练方式,有利于获取到能够识别多方向的字符识别模型,从而有利于实现多方向的字符识别,以及提高字符的识别准确性以及效率。
为了解决上述技术问题,本发明第一方面公开了一种字符识别模型训练的数据增强方法,所述方法包括:
在确定出收敛后的字符识别基础模型之后,基于收敛后的所述字符识别基础模型对所述当前训练样本图像执行预测操作,得到收敛后的所述字符识别基础模型的分析结果,收敛后的所述字符识别基础模型的分析结果包括所述当前训练样本图像的预测结果以及所述当前训练样本图像的每个预测字符在收敛后的所述字符识别基础模型的每个输出标签上的概率,所述当前训练样本图像的每个所述预测字符的类型包括空字符类型或非空字符类型,收敛后的所述字符识别基础模型包括多个所述输出标签,所述当前训练样本图像的预测结果为收敛后的所述字符识别基础模型识别到所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的识别结果;
判断所述当前训练样本图像的预测结果是否与所述当前训练样本图像的样本标签匹配,所述当前训练样本图像的样本标签用于表示所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的真实结果;
当判断出匹配时,根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,所述数据增强后的训练样本图像用于对收敛后的所述字符识别基础模型执行训练操作。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
所述根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,包括:
根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像的所有所述预测字符执行分割操作,得到所述当前训练样本图像中类型为所述非空字符类型的每个所述预测字符在所述当前训练样本图像中的位置区域;
对所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符中至少一个预测字符执行任意角度或者预设角度的旋转操作;
对所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符执行拼接操作,得到字符拼接后的训练样本图像,所述字符拼接后的训练样本图像用于对收敛后的所述字符识别基础模型执行训练操作,所述数据增强后的训练样本图像为所述字符拼接后的训练样本图像。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像的所有所述预测字符执行分割操作,得到所述当前训练样本图像中类型为所述非空字符类型的每个所述预测字符在所述当前训练样本图像中的位置区域,包括:
根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,确定每个所述输出标签对应的目标字符,每个所述输出标签对应的目标字符为在该输出标签上概率为最大概率对应的预测字符;
从所有所述目标字符中筛选类型为所述非空字符类型的所有目标字符,并根据所述当前训练样本图像的尺寸、所有所述输出标签的数量、类型为所述非空字符类型的每个所述目标字符对应的输出标签的位置确定类型为所述非空字符类型的每个所述目标字符在所述当前训练样本图像中的位置区域。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述当前训练样本图像的尺寸、所有所述输出标签的数量、类型为所述非空字符类型的每个所述目标字符对应的输出标签的位置确定类型为所述非空字符类型的每个所述目标字符在所述当前训练样本图像中的位置区域,包括:
针对类型为所述非空字符类型的第一个所述目标字符,根据所述当前训练样本图像的尺寸、所有所述输出标签的数量以及第一个所述目标字符对应的输出标签的位置,确定第一个所述目标字符在所述当前训练样本图像中的位置区域;
针对类型为所述非空字符类型的所有所述目标字符中除第一个所述目标字符之外的所有所述目标字符,根据所述当前训练样本图像的尺寸、所有所述输出标签的数量以及前一个所述目标字符对应的输出标签的位置和后一个所述目标字符对应的输出标签的位置确定所述后一个目标字符的位置区域,其中,前一个所述目标字符与后一个所述目标字符为不相同的字符,且当后一个所述目标字符为第二个所述目标字符时,前一个所述目标字符为第一个所述目标字符。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
确定字符拼接后的所述训练样本图像为所述当前训练样本图像,并重复执行所述的基于收敛后的所述字符识别基础模型对所述当前训练样本图像执行预测操作,得到收敛后的所述字符识别基础模型的分析结果的操作,得到目标字符识别基础模型;
判断所述目标字符识别基础模型是否满足确定出的训练停止条件,当判断结果为是时,确定所述目标字符识别基础模型为所需的字符识别模型。
作为一种可选的实施方式,在本发明第一方面中,所述判断所述目标字符识别基础模型是否满足确定出的训练停止条件,包括:
基于确定出的验证样本对所述目标字符识别基础模型执行验证操作,得到所述目标字符识别基础模型的识别准确率,并判断所述识别准确率是否趋于稳定,当判断结果为是时,确定所述目标字符识别基础模型满足确定出的训练停止条件;或者,
判断所述目标字符识别基础模型的训练次数是否大于等于确定出的训练次数阈值,当判断结果为是时,确定所述目标字符识别基础模型满足确定出的训练停止条件。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型;
其中,所述字符识别基础模型包括特征提取神经网络与特征解码神经网络;
其中,所述基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型,包括:
基于所述特征提取神经网络提取确定出的当前训练样本图像的所有字符特征;
基于所述特征解码神经网络对所述当前训练样本图像的每个所述字符特征执行解码操作,得到所述当前训练样本图像的每个所述字符特征的预测概率,所述当前训练样本图像的每个所述字符特征的预测概率用于表示每个所述字符特征的预测结果为预设预测结果的评估值;
基于确定出的损失函数与所述当前训练样本图像的预测概率计算所述当前训练样本图像的损失值,并在计算出的所述损失值处于预设损失值范围时,确定所述字符识别基础模型收敛。
本发明第二方面公开了一种字符识别的方法,所述方法包括:
将待识别字符的目标图像输入预先训练好的字符识别模型中进行分析,所述字符识别模型为能够识别多个方向字符的模型,所述目标图像所包含的所有所述待识别字符所对应的方向的数量至少大于等于1;
获取所述字符识别模型输出的分析结果,作为所述目标图像的字符识别结果,所述目标图像的字符识别结果包括每个所述待识别字符在所述目标图像中的位置区域以及每个所述待识别字符的识别结果。
本发明第三方面公开了一种字符识别模型训练的数据增强装置,所述装置包括:
预测模块,用于在确定出收敛后的字符识别基础模型之后,基于收敛后的所述字符识别基础模型对所述当前训练样本图像执行预测操作,得到收敛后的所述字符识别基础模型的分析结果,收敛后的所述字符识别基础模型的分析结果包括所述当前训练样本图像的预测结果以及所述当前训练样本图像的每个预测字符在收敛后的所述字符识别基础模型的每个输出标签上的概率,所述当前训练样本图像的每个所述预测字符的类型包括空字符类型或非空字符类型,收敛后的所述字符识别基础模型包括多个所述输出标签,所述当前训练样本图像的预测结果为收敛后的所述字符识别基础模型识别到所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的识别结果;
判断模块,用于判断所述当前训练样本图像的预测结果是否与所述当前训练样本图像的样本标签匹配,所述当前训练样本图像的样本标签用于表示所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的真实结果;
增强模块,用于当判断出匹配时,根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,所述数据增强后的训练样本图像用于对收敛后的所述字符识别基础模型执行训练操作。
作为一种可选的实施方式,在本发明第三方面中,所述增强模块,包括:
分割子模块,用于根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像的所有所述预测字符执行分割操作,得到所述当前训练样本图像中类型为所述非空字符类型的每个所述预测字符在所述当前训练样本图像中的位置区域;
旋转子模块,用于对所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符中至少一个预测字符执行任意角度或者预设角度的旋转操作;
拼接子模块,用于对所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符执行拼接操作,得到字符拼接后的训练样本图像,所述字符拼接后的训练样本图像用于对收敛后的所述字符识别基础模型执行训练操作,所述数据增强后的训练样本图像为所述字符拼接后的训练样本图像。
作为一种可选的实施方式,在本发明第三方面中,所述分割子模块根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像的所有所述预测字符执行分割操作,得到所述当前训练样本图像中类型为所述非空字符类型的每个所述预测字符在所述当前训练样本图像中的位置区域的方式具体为:
根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,确定每个所述输出标签对应的目标字符,每个所述输出标签对应的目标字符为在该输出标签上概率为最大概率对应的预测字符;
从所有所述目标字符中筛选类型为所述非空字符类型的所有目标字符,并根据所述当前训练样本图像的尺寸、所有所述输出标签的数量、类型为所述非空字符类型的每个所述目标字符对应的输出标签的位置确定类型为所述非空字符类型的每个所述目标字符在所述当前训练样本图像中的位置区域。
作为一种可选的实施方式,在本发明第三方面中,所述分割子模块根据所述当前训练样本图像的尺寸、所有所述输出标签的数量、类型为所述非空字符类型的每个所述目标字符对应的输出标签的位置确定类型为所述非空字符类型的每个所述目标字符在所述当前训练样本图像中的位置区域的方式具体为:
针对类型为所述非空字符类型的第一个所述目标字符,根据所述当前训练样本图像的尺寸、所有所述输出标签的数量以及第一个所述目标字符对应的输出标签的位置,确定第一个所述目标字符在所述当前训练样本图像中的位置区域;
针对类型为所述非空字符类型的所有所述目标字符中除第一个所述目标字符之外的所有所述目标字符,根据所述当前训练样本图像的尺寸、所有所述输出标签的数量以及前一个所述目标字符对应的输出标签的位置和后一个所述目标字符对应的输出标签的位置确定所述后一个目标字符的位置区域,其中,前一个所述目标字符与后一个所述目标字符为不相同的字符,且当后一个所述目标字符为第二个所述目标字符时,前一个所述目标字符为第一个所述目标字符。
作为一种可选的实施方式,在本发明第三方面中,所述装置还包括:
确定模块,用于确定字符拼接后的所述训练样本图像为所述当前训练样本图像,并重复触发所述预测模块执行所述的基于收敛后的所述字符识别基础模型对所述当前训练样本图像执行预测操作,得到收敛后的所述字符识别基础模型的分析结果的操作,得到目标字符识别基础模型;
所述判断模块,还用于判断所述目标字符识别基础模型是否满足确定出的训练停止条件;
所述确定模块,还用于当判断结果为是时,确定所述目标字符识别基础模型为所需的字符识别模型。
作为一种可选的实施方式,在本发明第三方面中,所述判断模块判断所述目标字符识别基础模型是否满足确定出的训练停止条件的方式具体为:
基于确定出的验证样本对所述目标字符识别基础模型执行验证操作,得到所述目标字符识别基础模型的识别准确率,并判断所述识别准确率是否趋于稳定,当判断结果为是时,确定所述目标字符识别基础模型满足确定出的训练停止条件;或者,
判断所述目标字符识别基础模型的训练次数是否大于等于确定出的训练次数阈值,当判断结果为是时,确定所述目标字符识别基础模型满足确定出的训练停止条件。
作为一种可选的实施方式,在本发明第三方面中,所述装置还包括:
训练模块,用于基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型;
其中,所述字符识别基础模型包括特征提取神经网络与特征解码神经网络;
其中,所述训练模块基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型的方式具体为:
基于所述特征提取神经网络提取确定出的当前训练样本图像的所有字符特征;
基于所述特征解码神经网络对所述当前训练样本图像的每个所述字符特征执行解码操作,得到所述当前训练样本图像的每个所述字符特征的预测概率,所述当前训练样本图像的每个所述字符特征的预测概率用于表示每个所述字符特征的预测结果为预设预测结果的评估值;
基于确定出的损失函数与所述当前训练样本图像的预测概率计算所述当前训练样本图像的损失值,并在计算出的所述损失值处于预设损失值范围时,确定所述字符识别基础模型收敛。
本发明第四方面公开了一种字符识别的装置,所述装置包括:
分析模块,用于将待识别字符的目标图像输入预先训练好的字符识别模型中进行分析,所述字符识别模型为能够识别多个方向字符的模型,所述目标图像所包含的所有所述待识别字符所对应的方向的数量至少大于等于1;
获取模块,用于获取所述字符识别模型输出的分析结果,作为所述目标图像的字符识别结果,所述目标图像的字符识别结果包括每个所述待识别字符在所述目标图像中的位置区域以及每个所述待识别字符的识别结果。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,在确定出收敛后的字符识别基础模型之后,基于收敛后的字符识别基础模型对当前训练样本图像执行预测操作,得到收敛后的字符识别基础模型的分析结果,收敛后的字符识别基础模型的分析结果包括当前训练样本图像的预测结果以及当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,当前训练样本图像的每个预测字符的类型包括空字符类型或非空字符类型,收敛后的字符识别基础模型包括多个输出标签,当前训练样本图像的预测结果为收敛后的字符识别基础模型识别到所述当前训练样本图像中类型为非空字符类型的所有预测字符的识别结果;判断当前训练样本图像的预测结果是否与当前训练样本图像的样本标签匹配,当前训练样本图像的样本标签用于表示当前训练样本图像中类型为非空字符类型的所有预测字符的真实结果;当判断出匹配时,根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,数据增强后的训练样本图像用于对收敛后的字符识别基础模型执行训练操作。可见,本发明能够在训练出收敛后的字符识别基础模型之后且在判断出训练样本图像的预测结果与训练样本图像的样本标签匹配之后,基于训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,能够获取到不同方向字符的增强训练样本图像,实现训练样本图像的数据增强,有利于通过数据增强后的训练样本图像继续对收敛后的字符识别基础模型进行半监督式的训练,有利于增强字符识别基础模型对任意方向文字的识别能力,以及无需大量的训练样本,不仅提高了字符识别基础模型的训练准确性,还提高了字符识别基础模型的训练效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种字符识别模型训练的数据增强方法的流程示意图;
图2是本发明实施例公开的一种字符识别模型的训练方法的流程示意图;
图3是本发明实施例公开的一种字符识别的方法的流程示意图;
图4是本发明实施例公开的一种字符识别模型训练的数据增强装置的结构示意图;
图5是本发明实施例公开的另一种字符识别模型训练的数据增强装置的结构示意图;
图6是本发明实施例公开的又一种字符识别模型训练的数据增强装置的结构示意图;
图7是本发明实施例公开的一种字符识别的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种字符识别模型训练的数据增强、字符识别的方法及装置,能够通过将包含至少一个方向的待识别字符的图像输入预先训练好的能够识别多个方向字符的字符识别模型中进行自动分析,并获取该字符识别模型输出的分析结果,能够实现多方向字符的识别,同时提高了字符识别的准确性以及效率,尤其当图像存在多个方向的字符时,能够减少字符识别不全的情况发生,提高了字符的识别全面性,有利于获取到图像中全面且精准的字符信息。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种字符识别模型训练的数据增强方法的流程示意图。其中,图1所描述的方法可以应用于字符识别模型训练的数据增强装置中,如服务器等,本发明实施例不做限定。如图1所示,该字符识别模型训练的数据增强方法可以包括以下操作:
101、在确定出收敛后的字符识别基础模型之后,基于收敛后的字符识别基础模型对当前训练样本图像执行预测操作,得到收敛后的字符识别基础模型的分析结果,收敛后的字符识别基础模型的分析结果包括当前训练样本图像的预测结果以及当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率。
本发明实施例中,当前训练样本图像的每个预测字符的类型包括空字符类型或非空字符类型,收敛后的字符识别基础模型包括多个输出标签,当前训练样本图像的预测结果为收敛后的字符识别基础模型识别到当前训练样本图像中类型为非空字符类型的所有预测字符的识别结果。
本发明实施例中,预测字符的类别包括文字类别、数字类别以及字母类别中的一种或多种组合,进一步的,待识别字符的类别还包括运算符号类别、标点符号类别以及功能性符号类别中的一种或多种组合。
102、判断当前训练样本图像的预测结果是否与当前训练样本图像的样本标签匹配,当前训练样本图像的样本标签用于表示当前训练样本图像中类型为非空字符类型的所有预测字符的真实结果;当判断出匹配时,可以执行步骤103;当判断出不匹配时,可选的,结束本次流程。
本发明实施例中,可选的,当判断出当前训练样本图像的预测结果与当前训练样本图像的样本标签不匹配时,确定下一训练样本图像为当前训练样本图像,并执行下述的基于确定出的当前训练样本图像训练确定出的字符识别基础模型的操作。这样便于训练出高准确性的字符识别基础模型,从而有利于提高后续图像中各个方向字符的识别准确性。
举例来说,当前训练样本图像的样本标签为“大米科技”,若当前训练样本图像的预测结果也为“大米科技”,则表示当前训练样本图像的样本标签与当前训练样本图像的预测结果的匹配。
103、根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,数据增强后的训练样本图像用于对收敛后的字符识别基础模型执行训练操作。
本发明实施例中,收敛后的字符识别基础模型存在对应预设数量的输出标签,且每个输出标签均存在对应的序号,如:若字符识别基础模型的输出标签的数量为10,则从左往后,所有输出标签对应的序号依次为1、2、3、4、5、6、7、8、9、10。
可见,实施图1所描述的方法能够在训练出收敛后的字符识别基础模型之后且在判断出训练样本图像的预测结果与训练样本图像的样本标签匹配之后,基于训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,能够获取到不同方向字符的增强训练样本图像,实现训练样本图像的数据增强,有利于通过数据增强后的训练样本图像继续对收敛后的字符识别基础模型进行半监督式的训练,有利于增强字符识别基础模型对任意方向文字的识别能力,以及无需大量的训练样本,不仅提高了字符识别基础模型的训练准确性,还提高了字符识别基础模型的训练效率。
在一个可选的实施例中,根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,数据增强后的训练样本图像用于对收敛后的字符识别基础模型执行训练操作,包括:
根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像的所有预测字符执行分割操作,得到当前训练样本图像中类型为非空字符类型的每个预测字符在当前训练样本图像中的位置区域;
对当前训练样本图像中类型为非空字符类型的所有预测字符中至少一个预测字符执行任意角度或者预设角度(如30°)的旋转操作;
对当前训练样本图像中类型为非空字符类型的所有预测字符执行拼接操作,得到字符拼接后的训练样本图像,字符拼接后的训练样本图像用于对收敛后的字符识别基础模型执行训练操作,数据增强后的训练样本图像为字符拼接后的训练样本图像。
需要说明的是,字符拼接后的训练样本图像也可以用于对确定出的字符识别基础模型进行训练,获取收敛后的字符识别基础模型之后,再基于该字符识别基础模型对字符拼接后的训练样本图像执行预测操作,
该可选的实施例中,预测字符在当前训练样本图像中的位置区域可以用户像素单位表示,也可以用长度单位表示。
可见,该可选的实施例在判断出训练样本图像的预测结果与训练样本图像的样本标签匹配之后,进一步通过确定非空字符类型的字符在训练样本图像的位置区域,并对训练样本图像中非空字符类型的字符进行旋转以及拼接操作,能够提高获取到不同方向字符的训练样本图像的准确性,有利于提高训练样本图像的数据增强的准确性,进而有利于提高对收敛后的字符识别基础模型进行半监督式训练的效率以及准确性。
在另一个可选的实施例中,根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像的所有预测字符执行分割操作,得到当前训练样本图像中类型为非空字符类型的每个预测字符在当前训练样本图像中的位置区域,包括:
根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,确定每个输出标签对应的目标字符,每个输出标签对应的目标字符为在该输出标签上概率为最大概率对应的预测字符;
从所有目标字符中筛选类型为非空字符类型的所有目标字符,并根据当前训练样本图像的尺寸、所有输出标签的数量、类型为非空字符类型的每个目标字符对应的输出标签的位置确定类型为非空字符类型的每个目标字符在当前训练样本图像中的位置区域。
举例来说,有三个预测字符a、b、c在输出标签3的概率为10%、14%、9%,则确定b为输出标签3上的目标字符,即输出标签3的最终字符。
可见,该可选的实施例在分析出训练样本图像中每个字符在字符识别基础模型的每个输出标签上的出现概率之后,进一步确定每个输出标签上最大概率的字符,并进一步基于训练样本图像的尺寸、所有输出标签的数量、类型为非空字符类型的每个字符对应的输出标签的位置确定类型为非空字符类型的每个字符在训练样本图像中的位置区域,能够提高类型为非空字符类型的每个字符在训练样本图像中的位置区域的确定准确性以及效率,从而有利于提高训练样本图像的数据增强的准确性以及效率。
在又一个可选的实施例中,根据当前训练样本图像的尺寸、所有输出标签的数量、类型为非空字符类型的每个目标字符对应的输出标签的位置确定类型为非空字符类型的每个目标字符在当前训练样本图像中的位置区域,包括:
针对类型为非空字符类型的第一个目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及第一个目标字符对应的输出标签的位置,确定第一个目标字符在当前训练样本图像中的位置区域;
针对类型为非空字符类型的所有目标字符中除第一个目标字符之外的所有目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及前一个目标字符对应的输出标签的位置和后一个目标字符对应的输出标签的位置确定后一个目标字符的位置区域,其中,前一个目标字符与后一个目标字符为不相同的字符,且当后一个目标字符为第二个目标字符时,前一个目标字符为第一个目标字符。
该可选的实施例中,第一个目标字符在当前训练样本图像中的位置区域的计算方式为:M1=[0,floor(c1*w/p],c1为第一个目标字符对应的输出标签的位置;针对类型为非空字符类型的所有目标字符中除第一个目标字符之外的所有目标字符,Mi=[floor(ci-1*w/p),floor(ci*w/p)],此时,i=2,ci-1为第i-1个目标字符对应的输出标签的位置,ci为第i个目标字符对应的输出标签的位置,且这两个计算方式中的w和p均相同,其中,w为当前训练样本图像的宽度,p为输出标签的数量。
可见,该可选的实施例通过将训练样本图像的尺寸、所有输出标签的数量以及前后目标字符对应的输出标签的位置,能够实现每个字符在训练样本图像中的位置区域的计算,提高了每个字符在训练样本图像中的位置区域的计算效率以及准确性。
该可选的实施例中,从所有目标字符中筛选类型为非空字符类型的所有目标字符之后,该方法还可以包括以下步骤:
根据所有输出标签对应的目标字符判断所有输出标签中是否存在同类的目标字符,当判断结果为是时,将同类的目标字符的所有输出标签进行归类,得到至少一个标签集合,每个标签集合存在至少一个输出标签,且每个标签集合对应一类字符;
其中,针对类型为非空字符类型的第一个目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及第一个目标字符对应的输出标签的位置,确定第一个目标字符在当前训练样本图像中的位置区域,包括:
针对类型为非空字符类型的第一类目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及第一类目标字符对应的输出标签的位置,确定第一个目标字符在当前训练样本图像中的位置区域,此时,第一类目标字符对应的输出标签的位置可以为出现第一类目标字符的第一个输出标签的位置(序号)或者第任何个输出标签的位置(序号)。
针对类型为非空字符类型的所有目标字符中除第一个目标字符之外的所有目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及前一个目标字符对应的输出标签的位置和后一个目标字符对应的输出标签的位置确定后一个目标字符的位置区域,其中,前一个目标字符与后一个目标字符为不相同的字符,且当后一个目标字符为第二个目标字符时,前一个目标字符为第一个目标字符,包括:
针对类型为非空字符类型的所有目标字符中除第一类目标字符之外的所有类目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及前一类目标字符对应的输出标签的位置和后一类目标字符对应的输出标签的位置确定后一类目标字符的位置区域,其中,前一类目标字符与后一类目标字符为不相同的字符,且当后一类目标字符为第二类目标字符时,前一类目标字符为第一类目标字符。
举例来说,训练样本图像A的类型为非空字符类型的所有字符依次为a、b,且a占有三个输出标签,b占有四个输出标签,其中,出现a的三个输出标签位置(序号)为3、4、5,出现b的三个输出标签位置(序号)为11、12、13、14,训练样本图像A的高宽为11*116,且字符识别基础模型对应的输出标签的数量为24,则字符a,b在训练样本图像上的位置区域的计算方式分别可以为:
a=[0,floor(3*116/24]=[0,87],b=[floor(3*116/24),floor(11*116/24)]=[87,53.2],其中,a,b的位置区域对应的单位为像素。
可见,该可选的实施例通过将同类字符进行归类之后,再结合训练样本图像的尺寸、所有输出标签的数量以及前后类字符对应的输出标签的位置,如:首次出现的位置进行计算,能够进一步提高每个字符在训练样本图像中的位置区域的计算效率、准确性以及可靠性。
在又一个可选的实施例中,对当前训练样本图像中类型为非空字符类型的所有预测字符执行拼接操作,得到字符拼接后的训练样本图像之后,该方法还可以包括以下步骤:
确定字符拼接后的训练样本图像为当前训练样本图像,并重复执行上述的的基于收敛后的字符识别基础模型对当前训练样本图像执行预测操作,得到收敛后的字符识别基础模型的分析结果的操作,得到目标字符识别基础模型;
判断目标字符识别基础模型是否满足确定出的训练停止条件,当判断结果为是时,确定目标字符识别基础模型为所需的字符识别模型。
该可选的实施例中,可选的,当判断出目标字符识别基础模型不满足确定出的训练停止条件时,继续执行上述的基于收敛后的字符识别基础模型对当前训练样本图像执行预测操作,得到收敛后的字符识别基础模型的分析结果的操作,直至得到满足停止训练条件的字符识别基础识别模型为止,这样便于提高获取到能够识别多个方向字符的字符分析模型,从而有利于后续同时识别到存在多个方向的字符的图像,提高多个方向的字符的识别准确性、效率以及全面性。
需要说明的是,也可以将拼接后的训练样本图像输入收敛前(确定出)的字符识别基础模型进行训练操作。
可见,该可选的实施例在获取到增强的训练样本图像之后,进一步基于该增强的训练样本图像对字符识别基础模型继续进行训练,并确定满足训练停止条件的字符识别基础模型作为所需的字符识别模型,能够提高获取到能够识别多方向/任意方向的字符识别模型,从而提高字符识别模型的适用性以及可靠性,以及有利于提高后续使用该字符识别模型识别图像中字符的准确性、效率以及全面性。
在又一个可选的实施例中,判断目标字符识别基础模型是否满足确定出的训练停止条件,包括:
基于确定出的验证样本对目标字符识别基础模型执行验证操作,得到目标字符识别基础模型的识别准确率,并判断识别准确率是否趋于稳定(如训练出50次的目标字符识别基础模型的识别准确率在98%的正负0.001%之间变化),当判断结果为是时,确定目标字符识别基础模型满足确定出的训练停止条件;或者,
判断目标字符识别基础模型的训练次数(如1000次等)是否大于等于确定出的训练次数阈值,当判断结果为是时,确定目标字符识别基础模型满足确定出的训练停止条件。
该可选的实施例中,可选的,当判断出目标字符识别基础模型的训练次数大于等于确定出的训练次数阈值之后,进一步在判断出目标字符识别基础模型的识别准确率趋于稳定之后,方确定目标字符识别基础模型满足确定出的训练停止条件,能够提高获取到能够识别多方向(任意方向)的目标字符识别基础模型的准确性以及可靠性。
可见,该可选的实施例通过判断出目标字符识别基础模型的识别准确率趋于稳定,即不再提升,或者目标字符识别基础模型的训练次数达到规定次数之后,确定目标字符识别基础模型的训练完成,能够丰富目标字符识别基础模型训练完成的确定方式,提高了目标字符识别基础模型训练完成的确定准确性以及效率。
在又一个可选的实施例中,确定目标字符识别基础模型为所需的字符识别模型之后,该方法还可以包括以下步骤:
将待识别字符的目标图像输入字符识别模型中进行分析,该字符识别模型为能够识别多个方向字符的模型,该目标图像所包含的所有待识别字符所对应的方向的数量至少大于等于1;
获取字符识别模型输出的分析结果,作为目标图像的字符识别结果,该目标图像的字符识别结果包括每个待识别字符在目标图像中的位置区域以及每个待识别字符的识别结果。
可见,该可选的实施例在获取训练出满足条件的字符识别模型之后,能够通过将包含至少一个方向的待识别字符的图像输入预先训练好的能够识别多个方向字符的字符识别模型中进行自动分析,并获取该字符识别模型输出的分析结果,能够实现多方向字符的识别,同时提高了字符识别的准确性以及效率,尤其当图像存在多个方向的字符时,能够减少字符识别不全的情况发生,提高了字符的识别全面性,有利于获取到图像中全面且精准的字符信息。
在又一个可选的实施例中,该方法还可以包括以下步骤:
基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型;
其中,字符识别基础模型包括特征提取神经网络与特征解码神经网络;且基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型,包括:
基于特征提取神经网络提取确定出的当前训练样本图像的所有字符特征;
基于特征解码神经网络对当前训练样本图像的每个字符特征执行解码操作,得到当前训练样本图像的每个字符特征的预测概率,当前训练样本图像的每个字符特征的预测概率用于表示每个字符特征的预测结果为预设预测结果的评估值;
基于当前训练样本图像的预测概率计算确定出的损失函数的损失值,并判断计算出的损失值是否趋于稳定时,当判断出趋于稳定时,确定字符识别基础模型收敛。
该可选的实施例中,字符识别基础模型包括特征提取神经网络与特征解码神经网络。进一步的,特征提取神经网络包括但不限于CNN神经网络和/或VGG,ResNet,特征解码神经网络包括但不限于RNN神经网络、原始的RNN、LSTM以及GRU中的至少一种,损失函数包括但不限于CTC损失函数或交叉熵损失函数。
可见,该可选的实施例通过结合不同类型的神经网络对训练样本图像进行训练,并在网络的损失值不再变化时,确定字符识别基础模型收敛,有利于提高字符识别基础模型收敛的确定准确性以及可靠性,从而后续操作(如预测训练样本图像的预测结果等)的执行准确性以及可靠性。
实施例二
请参阅图2,图2是本发明实施例公开的一种字符识别的方法的流程示意图。其中,图2所描述的方法可以应用于字符识别模型训练的数据增强装置中,如服务器等,本发明实施例不做限定。如图1所示,该字符识别模型训练的数据增强方法可以包括以下操作:
201、将待识别字符的目标图像输入预先训练好的字符识别模型中进行分析,该字符识别模型为能够识别多个方向字符的模型,该目标图像所包含的所有待识别字符所对应的方向的数量至少大于等于1。
本发明实施例中,待识别字符的目标图像为任何需要识别待识别字符的图像,其中,待识别字符的目标图像可以是字符识别模型训练的数据增强装置自动采集到的,也可以是任何用户向字符识别模型训练的数据增强装置输入的。其中,待识别字符的类别包括文字类别、数字类别以及字母类别中的一种或多种组合,进一步的,待识别字符的类别还包括运算符号类别、标点符号类别以及功能性符号类别中的一种或多种组合。
202、获取字符识别模型输出的分析结果,作为目标图像的字符识别结果,该目标图像的字符识别结果包括每个待识别字符在目标图像中的位置区域以及每个待识别字符的识别结果。
可见,实施图2所描述的方法能够通过将包含至少一个方向的待识别字符的图像输入预先训练好的能够识别多个方向字符的字符识别模型中进行自动分析,并获取该字符识别模型输出的分析结果,能够实现多方向字符的识别,同时提高了字符识别的准确性以及效率,尤其当图像存在多个方向的字符时,能够减少字符识别不全的情况发生,提高了字符的识别全面性,有利于获取到图像中全面且精准的字符信息。
实施例三
请参阅图3,图3是本发明实施例公开的一种字符识别模型训练的数据增强装置的结构示意图。如图3所示,该字符识别模型训练的数据增强装置可以包括:
预测模块301,用于在确定出收敛后的字符识别基础模型之后,基于收敛后的字符识别基础模型对当前训练样本图像执行预测操作,得到收敛后的字符识别基础模型的分析结果,收敛后的字符识别基础模型的分析结果包括当前训练样本图像的预测结果以及当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,当前训练样本图像的每个预测字符的类型包括空字符类型或非空字符类型,收敛后的字符识别基础模型包括多个输出标签,当前训练样本图像的预测结果为收敛后的字符识别基础模型识别到当前训练样本图像中类型为非空字符类型的所有预测字符的识别结果。
判断模块302,用于判断当前训练样本图像的预测结果是否与当前训练样本图像的样本标签匹配,当前训练样本图像的样本标签用于表示当前训练样本图像中类型为非空字符类型的所有预测字符的真实结果。
增强模块303,用于当判断出匹配时,根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,数据增强后的训练样本图像用于对收敛后的字符识别基础模型执行训练操作。
可见,实施图3所描述的装置能够在训练出收敛后的字符识别基础模型之后且在判断出训练样本图像的预测结果与训练样本图像的样本标签匹配之后,基于训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像执行数据增强操作,能够获取到不同方向字符的增强训练样本图像,实现训练样本图像的数据增强,有利于通过数据增强后的训练样本图像继续对收敛后的字符识别基础模型进行半监督式的训练,有利于增强字符识别基础模型对任意方向文字的识别能力,以及无需大量的训练样本,不仅提高了字符识别基础模型的训练准确性,还提高了字符识别基础模型的训练效率。
在一个可选的实施例中,如图4所示,增强模块303,包括:
分割子模块3031,用于根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像的所有预测字符执行分割操作,得到当前训练样本图像中类型为非空字符类型的每个预测字符在当前训练样本图像中的位置区域。
旋转子模块3032,用于对当前训练样本图像中类型为非空字符类型的所有预测字符中至少一个预测字符执行任意角度或者预设角度的旋转操作。
拼接子模块3033,用于对当前训练样本图像中类型为非空字符类型的所有预测字符执行拼接操作,得到字符拼接后的训练样本图像,字符拼接后的训练样本图像用于对收敛后的字符识别基础模型执行训练操作,数据增强后的训练样本图像为字符拼接后的训练样本图像。
可见,实施图4所描述的字符识别模型训练的数据增强装置能够在判断出训练样本图像的预测结果与训练样本图像的样本标签匹配之后,进一步通过确定非空字符类型的字符在训练样本图像的位置区域,并对训练样本图像中非空字符类型的字符进行旋转以及拼接操作,能够提高获取到不同方向字符的训练样本图像的准确性,有利于提高训练样本图像的数据增强的准确性,进而有利于提高对收敛后的字符识别基础模型进行半监督式训练的效率以及准确性。
在又一个可选的实施例中,如图4所示,分割子模块3031根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,对当前训练样本图像的所有预测字符执行分割操作,得到当前训练样本图像中类型为非空字符类型的每个预测字符在当前训练样本图像中的位置区域的方式具体为:
根据当前训练样本图像的每个预测字符在收敛后的字符识别基础模型的每个输出标签上的概率,确定每个输出标签对应的目标字符,每个输出标签对应的目标字符为在该输出标签上概率为最大概率对应的预测字符;
从所有目标字符中筛选类型为非空字符类型的所有目标字符,并根据当前训练样本图像的尺寸、所有输出标签的数量、类型为非空字符类型的每个目标字符对应的输出标签的位置确定类型为非空字符类型的每个目标字符在当前训练样本图像中的位置区域。
可见,实施图4所描述的字符识别模型训练的数据增强装置还能够在分析出训练样本图像中每个字符在字符识别基础模型的每个输出标签上的出现概率之后,进一步确定每个输出标签上最大概率的字符,并进一步基于训练样本图像的尺寸、所有输出标签的数量、类型为非空字符类型的每个字符对应的输出标签的位置确定类型为非空字符类型的每个字符在训练样本图像中的位置区域,能够提高类型为非空字符类型的每个字符在训练样本图像中的位置区域的确定准确性以及效率,从而有利于提高训练样本图像的数据增强的准确性以及效率。
在又一个可选的实施例中,如图4所示,分割子模块306根据当前训练样本图像的尺寸、所有输出标签的数量、类型为非空字符类型的每个目标字符对应的输出标签的位置确定类型为非空字符类型的每个目标字符在当前训练样本图像中的位置区域的方式具体为:
针对类型为非空字符类型的第一个目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及第一个目标字符对应的输出标签的位置,确定第一个目标字符在当前训练样本图像中的位置区域;
针对类型为非空字符类型的所有目标字符中除第一个目标字符之外的所有目标字符,根据当前训练样本图像的尺寸、所有输出标签的数量以及前一个目标字符对应的输出标签的位置和后一个目标字符对应的输出标签的位置确定后一个目标字符的位置区域,其中,前一个目标字符与后一个目标字符为不相同的字符,且当后一个目标字符为第二个目标字符时,前一个目标字符为第一个目标字符。
可见,实施图4所描述的字符识别模型训练的数据增强装置还能够将训练样本图像的尺寸、所有输出标签的数量以及前后目标字符对应的输出标签的位置,能够实现每个字符在训练样本图像中的位置区域的计算,提高了每个字符在训练样本图像中的位置区域的计算效率以及准确性。
在又一个可选的实施例中,如图4所示,该装置还包括:
确定模块304,用于确定字符拼接后的训练样本图像为当前训练样本图像,并重复执行上述的基于确定出的当前训练样本图像训练确定出的字符识别基础模型的操作,得到目标字符识别基础模型。
判断模块302,还用于判断目标字符识别基础模型是否满足确定出的训练停止条件。
确定模块304,还用于当判断结果为是时,确定目标字符识别基础模型为的字符识别模型。
可见,实施图4所描述的字符识别模型训练的数据增强装置能够在获取到增强的训练样本图像之后,进一步基于该增强的训练样本图像对字符识别基础模型继续进行训练,并确定满足训练停止条件的字符识别基础模型作为所需的字符识别模型,能够提高获取到能够识别多方向/任意方向的字符识别模型,从而提高字符识别模型的适用性以及可靠性,以及有利于提高后续使用该字符识别模型识别图像中字符的准确性、效率以及全面性。
在又一个可选的实施例中,如图4所示,判断模块302判断目标字符识别基础模型是否满足确定出的训练停止条件的方式具体为:
基于确定出的验证样本对目标字符识别基础模型执行验证操作,得到目标字符识别基础模型的识别准确率,并判断识别准确率是否趋于稳定,当判断结果为是时,确定目标字符识别基础模型满足确定出的训练停止条件;或者,
判断目标字符识别基础模型的训练次数是否大于等于确定出的训练次数阈值,当判断结果为是时,确定目标字符识别基础模型满足确定出的训练停止条件。
可见,实施图4所描述的字符识别模型训练的数据增强装置还能够通过判断出目标字符识别基础模型的识别准确率趋于稳定,即不再提升,或者目标字符识别基础模型的训练次数达到规定次数之后,确定目标字符识别基础模型的训练完成,能够丰富目标字符识别基础模型训练完成的确定方式,提高了目标字符识别基础模型训练完成的确定准确性以及效率。
在又一个可选的实施例中,如图4所示,该装置还包括:
训练模块305,用于基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型。
其中,字符识别基础模型包括特征提取神经网络与特征解码神经网络;以及,如图4所示,训练模块305基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型的方式具体为:
基于特征提取神经网络提取确定出的当前训练样本图像的所有字符特征;
基于特征解码神经网络对当前训练样本图像的每个字符特征执行解码操作,得到当前训练样本图像的每个字符特征的预测概率,当前训练样本图像的每个字符特征的预测概率用于表示每个字符特征的预测结果为预设预测结果的评估值;
基于确定出的损失函数与当前训练样本图像的预测概率计算当前训练样本图像的损失值,并在计算出的损失值处于预设损失值范围时,确定字符识别基础模型收敛。
该可选的实施例中,可选的,当训练模块305执行完毕上述的基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型之后,可以触发预测模块301执行上述的在确定出收敛后的字符识别基础模型之后,基于收敛后的字符识别基础模型对当前训练样本图像执行预测操作,得到收敛后的字符识别基础模型的分析结果。
可见,实施图4所描述的字符识别模型训练的数据增强装置还能够通过结合不同类型的神经网络对训练样本图像进行训练,并在网络的损失值不再变化时,确定字符识别基础模型收敛,有利于提高字符识别基础模型收敛的确定准确性以及可靠性,从而后续操作(如预测训练样本图像的预测结果等)的执行准确性以及可靠性。
实施例四
请参阅图5,图5是本发明实施例公开的一种字符识别的装置的结构示意图。如图5所示,该字符识别的装置可以包括:
分析模块501,用于将待识别字符的目标图像输入预先训练好的字符识别模型中进行分析,该字符识别模型为能够识别多个方向字符的模型,该目标图像所包含的所有待识别字符所对应的方向的数量至少大于等于1。
获取模块502,用于获取字符识别模型输出的分析结果,作为目标图像的字符识别结果,该目标图像的字符识别结果包括每个待识别字符在目标图像中的位置区域以及每个待识别字符的识别结果。
可见,实施图5所描述的字符识别的装置能够通过将包含至少一个方向的待识别字符的图像输入预先训练好的能够识别多个方向字符的字符识别模型中进行自动分析,并获取该字符识别模型输出的分析结果,能够实现多方向字符的识别,同时提高了字符识别的准确性以及效率,尤其当图像存在多个方向的字符时,能够减少字符识别不全的情况发生,提高了字符的识别全面性,有利于获取到图像中全面且精准的字符信息。
实施例五
请参阅图6,图6是本发明实施例公开的又一种字符识别模型训练的数据增强装置的结构示意图。如图6所示,该装置可以包括:
存储有可执行程序代码的存储器601;
与存储器601耦合的处理器602;
进一步的,还可以包括与处理器602耦合的输入接口603和输出接口604;
其中,处理器602调用存储器601中存储的可执行程序代码,执行本发明实施例一所公开的字符识别模型训练的数据增强方法中部分或全部的步骤。
实施例六
请参阅图7,图7是本发明实施例公开的另一种字符识别的装置的结构示意图。如图7所示,该装置可以包括:
存储有可执行程序代码的存储器701;
与存储器701耦合的处理器702;
进一步的,还可以包括与处理器702耦合的输入接口703和输出接口704;
其中,处理器702调用存储器701中存储的可执行程序代码,执行本发明实施例二所公开的字符识别的方法中部分或全部的步骤。
实施例七
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一所公开的字符识别模型训练的数据增强方法中部分或全部的步骤。
实施例八
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例二所公开的字符识别的方法中部分或全部的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种字符识别模型训练的数据增强、字符识别的方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种字符识别模型训练的数据增强方法,其特征在于,所述方法包括:
在确定出收敛后的字符识别基础模型之后,基于收敛后的所述字符识别基础模型对所述当前训练样本图像执行预测操作,得到收敛后的所述字符识别基础模型的分析结果,收敛后的所述字符识别基础模型的分析结果包括所述当前训练样本图像的预测结果以及所述当前训练样本图像的每个预测字符在收敛后的所述字符识别基础模型的每个输出标签上的概率,所述当前训练样本图像的每个所述预测字符的类型包括空字符类型或非空字符类型,收敛后的所述字符识别基础模型包括多个所述输出标签,所述当前训练样本图像的预测结果为收敛后的所述字符识别基础模型识别到所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的识别结果;
判断所述当前训练样本图像的预测结果是否与所述当前训练样本图像的样本标签匹配,所述当前训练样本图像的样本标签用于表示所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的真实结果;
当判断出匹配时,根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,所述数据增强后的训练样本图像用于对收敛后的所述字符识别基础模型执行训练操作。
2.根据权利要求1所述的字符识别模型训练的数据增强方法,其特征在于,所述根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,包括:
根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像的所有所述预测字符执行分割操作,得到所述当前训练样本图像中类型为所述非空字符类型的每个所述预测字符在所述当前训练样本图像中的位置区域;
对所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符中至少一个预测字符执行任意角度或者预设角度的旋转操作;
对所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符执行拼接操作,得到字符拼接后的训练样本图像,所述字符拼接后的训练样本图像用于对收敛后的所述字符识别基础模型执行训练操作,所述数据增强后的训练样本图像为所述字符拼接后的训练样本图像。
3.根据权利要求2所述的字符识别模型训练的数据增强方法,其特征在于,所述根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像的所有所述预测字符执行分割操作,得到所述当前训练样本图像中类型为所述非空字符类型的每个所述预测字符在所述当前训练样本图像中的位置区域,包括:
根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,确定每个所述输出标签对应的目标字符,每个所述输出标签对应的目标字符为在该输出标签上概率为最大概率对应的预测字符;
从所有所述目标字符中筛选类型为所述非空字符类型的所有目标字符,并根据所述当前训练样本图像的尺寸、所有所述输出标签的数量、类型为所述非空字符类型的每个所述目标字符对应的输出标签的位置确定类型为所述非空字符类型的每个所述目标字符在所述当前训练样本图像中的位置区域。
4.根据权利要求3所述的字符识别模型训练的数据增强方法,其特征在于,所述根据所述当前训练样本图像的尺寸、所有所述输出标签的数量、类型为所述非空字符类型的每个所述目标字符对应的输出标签的位置确定类型为所述非空字符类型的每个所述目标字符在所述当前训练样本图像中的位置区域,包括:
针对类型为所述非空字符类型的第一个所述目标字符,根据所述当前训练样本图像的尺寸、所有所述输出标签的数量以及第一个所述目标字符对应的输出标签的位置,确定第一个所述目标字符在所述当前训练样本图像中的位置区域;
针对类型为所述非空字符类型的所有所述目标字符中除第一个所述目标字符之外的所有所述目标字符,根据所述当前训练样本图像的尺寸、所有所述输出标签的数量以及前一个所述目标字符对应的输出标签的位置和后一个所述目标字符对应的输出标签的位置确定所述后一个目标字符的位置区域,其中,前一个所述目标字符与后一个所述目标字符为不相同的字符,且当后一个所述目标字符为第二个所述目标字符时,前一个所述目标字符为第一个所述目标字符。
5.根据权利要求2-4任一项所述的字符识别模型训练的数据增强方法,其特征在于,所述方法还包括:
确定字符拼接后的所述训练样本图像为所述当前训练样本图像,并重复执行所述的基于收敛后的所述字符识别基础模型对所述当前训练样本图像执行预测操作,得到收敛后的所述字符识别基础模型的分析结果的操作,得到目标字符识别基础模型;
判断所述目标字符识别基础模型是否满足确定出的训练停止条件,当判断结果为是时,确定所述目标字符识别基础模型为所需的字符识别模型。
6.根据权利要求5所述的字符识别模型训练的数据增强方法,其特征在于,所述判断所述目标字符识别基础模型是否满足确定出的训练停止条件,包括:
基于确定出的验证样本对所述目标字符识别基础模型执行验证操作,得到所述目标字符识别基础模型的识别准确率,并判断所述识别准确率是否趋于稳定,当判断结果为是时,确定所述目标字符识别基础模型满足确定出的训练停止条件;或者,
判断所述目标字符识别基础模型的训练次数是否大于等于确定出的训练次数阈值,当判断结果为是时,确定所述目标字符识别基础模型满足确定出的训练停止条件。
7.根据权利要求1、2、3、4或6所述的字符识别模型训练的数据增强方法,其特征在于,所述方法还包括:
基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型;
其中,所述字符识别基础模型包括特征提取神经网络与特征解码神经网络;
其中,所述基于确定出的当前训练样本图像训练确定出的字符识别基础模型,并获取收敛后的字符识别基础模型,包括:
基于所述特征提取神经网络提取确定出的当前训练样本图像的所有字符特征;
基于所述特征解码神经网络对所述当前训练样本图像的每个所述字符特征执行解码操作,得到所述当前训练样本图像的每个所述字符特征的预测概率,所述当前训练样本图像的每个所述字符特征的预测概率用于表示每个所述字符特征的预测结果为预设预测结果的评估值;
基于确定出的损失函数与所述当前训练样本图像的预测概率计算所述当前训练样本图像的损失值,并在计算出的所述损失值处于预设损失值范围时,确定所述字符识别基础模型收敛。
8.一种字符识别的方法,其特征在于,所述方法包括:
将待识别字符的目标图像输入预先训练好的字符识别模型中进行分析,所述字符识别模型为能够识别多个方向字符的模型,所述目标图像所包含的所有所述待识别字符所对应的方向的数量至少大于等于1;
获取所述字符识别模型输出的分析结果,作为所述目标图像的字符识别结果,所述目标图像的字符识别结果包括每个所述待识别字符在所述目标图像中的位置区域以及每个所述待识别字符的识别结果。
9.一种字符识别模型训练的数据增强装置,其特征在于,所述装置包括:
预测模块,用于在确定出收敛后的字符识别基础模型之后,基于收敛后的所述字符识别基础模型对所述当前训练样本图像执行预测操作,得到收敛后的所述字符识别基础模型的分析结果,收敛后的所述字符识别基础模型的分析结果包括所述当前训练样本图像的预测结果以及所述当前训练样本图像的每个预测字符在收敛后的所述字符识别基础模型的每个输出标签上的概率,所述当前训练样本图像的每个所述预测字符的类型包括空字符类型或非空字符类型,收敛后的所述字符识别基础模型包括多个所述输出标签,所述当前训练样本图像的预测结果为收敛后的所述字符识别基础模型识别到所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的识别结果;
判断模块,用于判断所述当前训练样本图像的预测结果是否与所述当前训练样本图像的样本标签匹配,所述当前训练样本图像的样本标签用于表示所述当前训练样本图像中类型为所述非空字符类型的所有所述预测字符的真实结果;
增强模块,用于当判断出匹配时,根据所述当前训练样本图像的每个所述预测字符在收敛后的所述字符识别基础模型的每个所述输出标签上的概率,对所述当前训练样本图像执行数据增强操作,得到数据增强后的训练样本图像,所述数据增强后的训练样本图像用于对收敛后的所述字符识别基础模型执行训练操作。
10.一种字符识别的装置,其特征在于,所述装置包括:
分析模块,用于将待识别字符的目标图像输入预先训练好的字符识别模型中进行分析,所述字符识别模型为能够识别多个方向字符的模型,所述目标图像所包含的所有所述待识别字符所对应的方向的数量至少大于等于1;
获取模块,用于获取所述字符识别模型输出的分析结果,作为所述目标图像的字符识别结果,所述目标图像的字符识别结果包括每个所述待识别字符在所述目标图像中的位置区域以及每个所述待识别字符的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810466.8A CN113469188B (zh) | 2021-07-15 | 2021-07-15 | 字符识别模型训练的数据增强、字符识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810466.8A CN113469188B (zh) | 2021-07-15 | 2021-07-15 | 字符识别模型训练的数据增强、字符识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469188A true CN113469188A (zh) | 2021-10-01 |
CN113469188B CN113469188B (zh) | 2024-06-14 |
Family
ID=77881013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110810466.8A Active CN113469188B (zh) | 2021-07-15 | 2021-07-15 | 字符识别模型训练的数据增强、字符识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469188B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN110866529A (zh) * | 2019-10-29 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN111667066A (zh) * | 2020-04-23 | 2020-09-15 | 北京旷视科技有限公司 | 网络模型的训练、文字识别方法、装置和电子设备 |
US20210201148A1 (en) * | 2018-12-13 | 2021-07-01 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, and storage medium for predicting information |
-
2021
- 2021-07-15 CN CN202110810466.8A patent/CN113469188B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
US20210201148A1 (en) * | 2018-12-13 | 2021-07-01 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, and storage medium for predicting information |
CN110866529A (zh) * | 2019-10-29 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN111667066A (zh) * | 2020-04-23 | 2020-09-15 | 北京旷视科技有限公司 | 网络模型的训练、文字识别方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113469188B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN107958230B (zh) | 人脸表情识别方法及装置 | |
CN110363220B (zh) | 行为类别检测方法、装置、电子设备和计算机可读介质 | |
CN110347872B (zh) | 视频封面图像提取方法及装置、存储介质及电子设备 | |
CN110738101A (zh) | 行为识别方法、装置及计算机可读存储介质 | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN111222487B (zh) | 视频目标行为识别方法及电子设备 | |
CN110321845B (zh) | 一种从视频中提取表情包的方法、装置及电子设备 | |
JP2000207492A (ja) | 手書き漢字を自動的にセグメント分割し、認識するための方法およびシステム | |
CN108205684B (zh) | 图像消歧方法、装置、存储介质和电子设备 | |
CN112257437B (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN109189965A (zh) | 图像文字检索方法及*** | |
CN111400607A (zh) | 搜索内容输出方法、装置、计算机设备及可读存储介质 | |
CN113449725B (zh) | 对象分类方法、装置、设备及存储介质 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN111178310A (zh) | 手掌特征识别方法、装置、计算机设备和存储介质 | |
CN110956157A (zh) | 基于候选框选择的深度学习遥感影像目标检测方法及装置 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN115376210B (zh) | 泳池防溺水的溺水行为识别方法、装置、设备及介质 | |
CN113469188A (zh) | 字符识别模型训练的数据增强、字符识别的方法及装置 | |
CN115713669B (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN117251725A (zh) | 基于机器学习对数据进行识别的方法及装置 | |
CN112560728B (zh) | 目标对象识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |