CN111079763B - 训练样本生成、模型训练、字符识别方法及其装置 - Google Patents

训练样本生成、模型训练、字符识别方法及其装置 Download PDF

Info

Publication number
CN111079763B
CN111079763B CN201911233955.0A CN201911233955A CN111079763B CN 111079763 B CN111079763 B CN 111079763B CN 201911233955 A CN201911233955 A CN 201911233955A CN 111079763 B CN111079763 B CN 111079763B
Authority
CN
China
Prior art keywords
character
image
character image
weight value
contained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911233955.0A
Other languages
English (en)
Other versions
CN111079763A (zh
Inventor
翟新刚
张楠赓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canaan Bright Sight Co Ltd
Original Assignee
Canaan Bright Sight Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canaan Bright Sight Co Ltd filed Critical Canaan Bright Sight Co Ltd
Priority to CN201911233955.0A priority Critical patent/CN111079763B/zh
Publication of CN111079763A publication Critical patent/CN111079763A/zh
Priority to US17/782,677 priority patent/US20230007989A1/en
Priority to PCT/CN2020/126197 priority patent/WO2021109775A1/zh
Application granted granted Critical
Publication of CN111079763B publication Critical patent/CN111079763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1914Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种训练样本生成、模型训练、字符识别方法及其装置,其中训练样本生成方法包括:获取字符图像,并确定字符图像包含的每一个字符;利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。模型训练方法包括利用该训练样本训练字符识别模型。字符识别方法包括利用该字符识别模型进行字符识别。利用这种方法和装置,可以实现针对字轮型计量表的双半字符类型的字符图像的精准识别,能够给出具有偏向性的、具有更高识别准确率的识别结果。

Description

训练样本生成、模型训练、字符识别方法及其装置
技术领域
本发明属于图像识别技术领域,具体涉及训练样本生成、模型训练、字符识别方法及其装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着智能化***的日益发展和完善,远程抄表技术的兴起解决了人工抄表统计工作的困难,成为为现代化管理***的重要组成部分。具有无线抄表功能的计量表如水表、电表、燃气表等已开始在住宅区、高档园区逐渐使用。
作为字轮型计量表的自动抄表***中的基础与核心,字轮型计量表的字符识别功能直接决定了***的好坏。目前通常采用字符识别模型识别字轮型计量表的表盘读数。
然而上述现有方案存在以下问题:针对字轮型计量表,字符识别包括对单整字符的识别和对双半字符的识别,而由于在字符识别模型的训练过程中,对应于双半字符类型而采用的训练样本通常只携带类别标签,比如,对于图2b中的字符图像,所标注的标签一般为“0”、“1”,或“0-1”,而忽略了图2b中字符图像由于是双半字符类型而具有的字符偏向性,比如图2b中的实际读数明显偏向字符“0”,因此可能导致生成不符合真实情况的训练样本,进而基于该训练样本所训练获得的字符识别模型对于双半字符图像的识别正确率较低。
发明内容
针对上述现有技术中易于生成不符合真实情况的训练样本,进而基于该训练样本所训练获得的字符识别模型对于双半字符图像的识别正确率较低这一问题,提出了训练样本生成、模型训练、字符识别方法及其装置与计算机可读存储介质,利用这种方法和装置,能够解决上述问题。
本发明提供了以下方案。
第一方面,提供一种训练样本生成方法,包括:获取字符图像,并确定字符图像包含的每一个字符;利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。
优选地,上述获取字符图像,确定字符图像包含的每一个字符,还包括:采集字轮型计量表的表盘图像;对表盘图像进行字符分割处理,得到对应于预设字轮的字符图像;由预设字轮的转动位置确定字符图像包含的每一个字符。
优选地,上述利用投影法确定字符图像包含的每一个字符的权重值,包括:利用投影法确定字符图像的总字符区域与总字符区域中对应于每一个字符的局部字符区域;确定局部字符区域相对于总字符区域之投影比例,并根据投影比例确定字符图像包含的每一个字符的权重值。
优选地,上述根据字符图像包含的每一个字符的权重值对字符图像标注标签,还包括:根据字符图像包含的每一个字符的权重值更新预设权重序列,以得到目标权重序列,并根据目标权重序列对字符图像标注标签;其中,预设权重序列是由多个候选字符的预设权重值按照预设排列顺序而预先构建的,且多个候选字符中的每一个候选字符的预设权重值为0。
第二方面,提供一种模型训练方法,包括:获取训练集,训练集包括如上述第一方面提供的方法而生成的训练样本;根据训练集训练字符识别模型,其中字符识别模型用于识别字轮型计量表的表盘读数。
第三方面,提供一种字符识别方法,包括:获取字轮型计量表的表盘图像,对表盘图像进行字符分割处理,得到对应于字轮型计量表的每一个字轮的待识别图像;将待识别图像输入如上述第二方面提供的方法而训练得到的字符识别模型,得到字轮型计量表的表盘读数。
第四方面,提供一种训练样本生成装置,包括:获取模块,用于获取字符图像,并确定字符图像包含的每一个字符;标注模块,用于利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。
优选地,获取模块还用于:采集字轮型计量表的表盘图像;对表盘图像进行字符分割处理,得到对应于预设字轮的字符图像;由预设字轮的转动位置确定字符图像包含的每一个字符。
优选地,标注模块还用于:利用投影法确定字符图像的总字符区域与总字符区域中对应于每一个字符的局部字符区域;确定局部字符区域相对于总字符区域之投影比例,并根据投影比例确定字符图像包含的每一个字符的权重值。
优选地,标注模块还用于:根据字符图像包含的每一个字符的权重值更新预设权重序列,以得到目标权重序列,并根据目标权重序列对字符图像标注标签;其中,预设权重序列是由多个候选字符的预设权重值按照预设排列顺序而预先构建的,且多个候选字符中的每一个候选字符的预设权重值为0。
第五方面,提供一种模型训练装置,包括:训练集获取模块,用于获取训练集,训练集包括如上述第四方面提供的装置而生成的训练样本;模型训练模块,用于根据训练集训练字符识别模型,其中字符识别模型用于识别字轮型计量表的表盘读数。
第六方面,提供一种字符识别装置,包括:待识别图像获取模块,用于获取字轮型计量表的表盘图像,对表盘图像进行字符分割处理,得到对应于字轮型计量表的每一个字轮的待识别图像;字符识别模块,用于将待识别图像输入如第五方面提供的装置而训练得到的字符识别模型,得到字轮型计量表的表盘读数。
第七方面,提供一种训练样本生成装置,包括:一个或者多个多核处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或者多个多核处理器执行时,使得一个或多个多核处理器实现:获取字符图像,并确定字符图像包含的每一个字符;利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。
第八方面,提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被多核处理器执行时,使得多核处理器执行如上述第一方面提供的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本实施例中,首先获取字轮型计量表的字符图像,并通过投影法对字符图像执行投影,得到字符图像所包含的每一个字符的权重值,然后根据该对应于每一个字符的权重值确定字符图像的标签,使得生成的训练样本所携带的标签并不是单一的分类标签(比如“0”、“1”或“2”),而是根据字符图像所包含的每一个字符的占比权重值而设置具有偏向性的标签,使得训练样本更加符合客观真实,通过采用上述训练样本所训练出来的字符识别模型不仅可以对单整字符类型的字符图像具有很好的识别效果,同时也可以实现双半字符类型的字符图像的精准识别,且对于双半字符类型的字符图像其能够给出具有偏向性的、具有更高识别准确率的识别结果。
应当理解,上述说明仅是本发明技术方案的概述,以便能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施。为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举说明本发明的具体实施方式。
附图说明
通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的有点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
图1为根据本发明一实施例的训练样本生成方法的流程示意图;
图2a为本发明实施例中的单整字符“1”的示意性字符图像,图2b为本发明实施例中的双半字符“0-1”的示意性字符图像;
图3a为图2a的二值图像,图3b为图2b的二值图像;
图4a为对图3a执行投影后形成的投影直方图,图4b为对图3b执行投影后形成的投影直方图;
图5为根据本发明一实施例的模型训练方法的流程示意图;
图6为根据本发明一实施例的字符识别方法的流程示意图;
图7为本发明实施例中的表盘图像的示意图;
图8为本发明实施例中的待识别图像的示意图;
图9为根据本发明一实施例的训练样本生成装置的结构示意图;
图10为根据本发明一实施例的模型训练装置的结构示意图;
图11为根据本发明一实施例的字符识别装置的结构示意图;
图12为根据本发明另一实施例的训练样本生成装置的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
以下对本上下文中出现的名词进行简要介绍:
字轮型计量表,是指通过驱动一个或多个字轮进行转动,从而将字轮上标注的数字分别展示于表盘的读数框内,以供用户读取数值的计量表装置,比如生活中常见的水表、燃气表等。
可以理解,本申请提供的训练样本生成方法可以应用于任意具有图形处理能力的处理设备。具体地,该处理设备可以是包括中央处理器(Central Processing Unit/Processor,CPU)和/或图形处理器(Graphics Processing Unit,GPU)的终端、服务器等设备。其中,终端包括桌面终端、手机/平板电脑等移动智能终端、车载终端以及可穿戴终端等等。
另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1为根据本申请一实施例的训练样本生成方法10的流程示意图,该训练样本生成方法10用于生成训练样本以训练字符识别模型,该字符识别模型用于识别字轮型计量表的表盘读数,在该流程中,从设备角度而言,执行主体可以是一个或者多个电子设备;从程序角度而言,执行主体相应地可以是搭载于这些电子设备上的程序。
图1中的流程可以包括以下步骤11~步骤12。
步骤11:获取字符图像,并确定字符图像包含的每一个字符;
具体地,该字符图像是该字轮型计量表的表盘图像中对应于某一个字轮的局部图像。可以通过架设在字轮型计量表上方的摄像装置而采集该表盘图像,并通过对该表盘图像执行分割处理后得到该字符图像,当然该字符图像也可以有其它来源,例如来自其它设备,或者也可以是现成的图像,本发明对此不进行限制。进一步地,该字符图像可能包含候选字符中的一个或更多字符,上述候选字符可以包括:“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”。可选地,可以通过预先设定字符图像采集策略或对字符图像进行初步模板匹配而确定字符图像包含的每一个字符,也可以由人工判断。
举例来说,对于字轮型计量表的任意一个字轮来说,在表盘图像中展示的字符图像可以包括单整字符与双半字符两种类型,其中单整字符包括:0、1、2、3、4、5、6、7、8、9,用于表示字符图像中只存在单一字符,比如在图2a示出了单整字符“1”的字符图像,双半字符包括:0-1、1-2、2-3、3-4、4-5、5-6、6-7、7-8、8-9、9-0,用于表示字符图像中同时存在两个字符,比如在图2b示出了双半字符“0-1”的字符图像。本实施例并不限制字符图像中包含的字符个数,当采用其他类型的字轮型计量表时,字符图像中也可能同时存在三个或以上字符。
步骤12:利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。
具体地,字符图像包含的每一个字符的权重值用于指示该字符图像中的字符分布情况,其中对应于更高权重值的字符在该字符图像中分布占比率更高,该字轮型计量表的实际读数也应该更加偏向于具有更高权重值的字符。进一步地,在字轮型计量表中通常将多个字符均匀地分布在字轮表面,并通过旋转字轮使分布在字轮表面的字符轮流展示在表盘的字符框中,因此通过在垂直于字轮的方向上对字符图像进行投影,能够便捷且准确地获取字符图像包含的每一个字符的分布占比率,进而可以将上述分布占比率作为权重值。
举例来说,对于图2b所示出的双半字符“0-1”的字符图像,可以利用投影法确定该字符图像包含的字符“0”与“1”各自对应的权重值。可以看出,尽管该字符图像中同时包含字符“0”与“1”,但是明显偏向字符“1”,此时若采取传统的打标方式,对该字符图像打标“0”或“1”或“0-1”,均不能真实表达出该字符图像表示的真实字符读数。而本申请对该字符图像所标注的标签中,同时携带字符“0”与字符“1”的权重值,其中使字符“0”具有更小权重值,字符“1”具有更高权重值,则可以生成更加符合客观真实的训练样本。
本实施例中,首先获取字轮型计量表的字符图像,并通过投影法对字符图像执行投影,得到字符图像所包含的每一个字符的权重值,然后根据该对应于每一个字符的权重值确定字符图像的标签,使得生成的训练样本所携带的标签并不是单一的分类标签(比如“0”、“1”或“2”),而是根据字符图像所包含的每一个字符的占比权重值而设置具有偏向性的标签,使得训练样本更加符合客观真实,通过采用上述训练样本所训练出来的字符识别模型不仅可以对单整字符类型的字符图像具有很好的识别效果,同时也可以实现双半字符类型的字符图像的精准识别,且对于双半字符类型的字符图像其能够给出具有偏向性的、具有更高识别准确率的识别结果。
基于图1的训练样本生成方法,本申请的一些实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。
在一实施例中,上述步骤11还可以还包括:采集字轮型计量表的表盘图像;对表盘图像进行字符分割处理,得到对应于预设字轮的字符图像;由预设字轮的转动位置确定字符图像包含的每一个字符。
具体地,字轮型计量表包括一个或更多字轮,可以选择其中任意一个字轮作为上述预设字轮。进一步地,可以预先使预设字轮按照预设转动规则转动,并通过架设在字轮型计量表上方的摄像装置而采集表盘图像,利用全局阈值法、边缘检查法或轮廓检测法等多种分割算法对该表盘图像执行字符分割处理,从而得到对应于该预设字轮的字符图像,进而能够根据预设转动规则以及该表盘图像的采集时间推算出该预设字轮的转动位置,进而由该预设字轮的转动位置计算出该预设字轮当前呈现在表盘中的读数,从而确定该字符图像包含的每一个字符。这样,避免了从字符图像中确定字符的繁琐步骤,进一步提高了生成训练样本的效率。
可选地,由于该预设字轮的转动位置固定时,呈现在表盘中的至少一个字符各自对应的权重值也是固定的,因此也可以由该预设字轮的转动位置直接确定该字符图像包含的每一个字符的权重值。
在一实施例中,上述步骤12中的利用投影法确定字符图像包含的每一个字符的权重值,还可以进一步包括:利用投影法确定字符图像的总字符区域与总字符区域中对应于每一个字符的局部字符区域;确定局部字符区域相对于总字符区域之投影比例,并根据该投影比例确定字符图像包含的每一个字符的权重值。
具体地,对字符图像执行投影之前还需要预先执行二值化处理。举例来说,图2a示出了单整字符“1”的字符图像,对该图2a执行二值化处理后得到图3a所示出的单整字符“1”的二值图像,对该图3a执行投影后得到图4a所示出的投影直方图,由该图4a所示出的投影直方图可以看出,字符图像的总字符区域为X的坐标区间“8~35”,对应于字符“1”的局部字符区域为X的坐标区间“8~35”,从而可以看出,字符“1”的局部字符区域相对于总字符区域之投影比例为100%,字符“1”的权重值为1(100%)。
又例如,图2b示出了双半字符“0-1”的字符图像,对该图2b执行二值化处理后得到图3b所示出的双半字符“0-1”的二值图像,对该图3b执行投影后得到图4b所示出的投影直方图,由该图4b所示出的投影直方图可以看出,字符图像的总字符区域为X的坐标区间“2~20”以及“28~39”,对应于字符“0”的局部字符区域为X的坐标区间“2~20”,对应于字符“1”的局部字符区域为X的坐标区间“28~39”,从而可以计算得到,字符“0”的局部字符区域相对于总字符区域之投影比例为(20-2+1)/[(20-2+1)+(39-28+1)]=0.6129,字符“0”的权重值为61.29%,字符“1”的局部字符区域相对于总字符区域之投影比例为(39-28+1)/[(20-2+1)+(39-28+1)]=0.3871,字符“1”的权重值为38.71%,使字符图像包含的至少一个字符的权重值之和为1。这样,能够更为便捷地获取字符图像包含的每一个字符的权重值。
在一实施例中,上述步骤12中的根据字符图像包含的每一个字符的权重值对字符图像标注标签,还可以包括:根据字符图像包含的每一个字符的权重值更新预设权重序列,以得到目标权重序列,并根据目标权重序列对字符图像标注标签。
具体地,其中预设权重序列是由多个候选字符的预设权重值按照预设排列顺序而预先构建的,且多个候选字符中的每一个候选字符的预设权重值为0。
举例来说,预设权重序列可以是:[R0,R1,R2,R3,R4,R5,R6,R7,R8,R9];其中,多个候选字符包括:0、1、2、…、9,R0指的是对应于候选字符“0”的预设权重值,R1指的是对应于候选字符“1”的预设权重值,并依次类推。进一步地,由于本实施例中多个候选字符中的每一个候选字符的预设权重值为0,因此上述预设权重序列可以是:[0,0,0,0,0,0,0,0,0,0]。进一步地,根据字符图像包含的每一个字符的权重值更新上述预设权重序列,得到目标权重序列。
例如,图2a示出了单整字符“1”的字符图像,若根据图2a所示出的字符图像包含的每一个字符的权重值更新上述预设权重序列,由于图2a所示出的字符图像包含字符“1”,且该字符“1”的权重值为1(100%),因此得到的目标权重序列可以是:[0,1,0,0,0,0,0,0,0,0]。
又例如,图2b示出了双半字符“0-1”的字符图像,若根据图2b所示出的字符图像包含的每一个字符的权重值更新上述预设权重序列,由于图2b所示出的字符图像包含双半字符“0-1”,且字符“0”的权重值为61.29%,字符“1”的权重值为38.71%。因此得到的目标权重序列可以是:[0.6129,0.33871,0,0,0,0,0,0,0,0,0]。
通过预先设置多个候选字符的排列顺序,使多个权重值按照该排列顺序构建权重序列就可以直接作为标签进行标注,无需额外携带具体的字符类别,比如“0”、“1”等,并且上述序列格式的标签更加有利于统计训练集的多个训练样本的样本覆盖率。
基于上述的训练样本生成方法,本申请实施例还提供了一种模型训练方法,图5为根据本申请一实施例的模型训练方法50的流程示意图,如图5所示,该方法包括如下步骤:
步骤51:获取训练集;
其中,上述训练集包括训练样本,该训练样本根据上述训练样本生成方法而获得。
步骤52:根据训练集训练字符识别模型;
其中,上述字符识别模型用于识别字轮型计量表的表盘读数。
本实施例中,采用已有的方法对待训练模型进行训练,使得训练得到的字符识别模型能够根据输入的字符图像而输出至少一个字符及其对应的权重值。这里对训练方法不做具体限定,本实施例中所使用的待训练模型可以为深度学习模型或卷积神经网络模型等模型。
本实施例中,用于训练字符识别模型而采用的训练样本所携带的标签并不是单一的分类标签,比如“0”、“1”或“2”,而是根据字符图像所包含的每一个字符的占比权重值而设置具有偏向性的标签,这样所训练出来的字符识别模型不仅可以对单整字符类型的字符图像具有很好的识别效果,同时也可以实现双半字符类型的字符图像的精准识别,且对于双半字符类型的字符图像其能够给出具有偏向性的识别结果,从而能够训练出具有更高识别准确率的字符识别模型。
基于上述的模型训练方法,本申请实施例还提供了一种字符识别方法,图6为根据本申请一实施例的字符识别方法60的流程示意图,如图6所示,该字符识别方法包括如下步骤:
步骤61:获取字轮型计量表的表盘图像,对表盘图像进行字符分割处理,得到对应于字轮型计量表的每一个字轮的待识别图像;
具体地,可以通过架设在字轮型计量表上方的摄像装置而采集该表盘图像。
步骤62:将待识别图像输入字符识别模型,得到字轮型计量表的表盘读数。
具体地,上述字符识别模型如图5所示出的模型训练方法而训练得到的
举例来说,图7示出了示意性的字轮型计量表的表盘图像,可以对图7所示出的表盘图像进行二值化处理以及字符分割处理,得到如图8所示出5个待识别图像:“001.png”、“002.png”、“003.png”、“004.png”、“005.png”,应理解,该5个待识别图像分别对应于字轮型计量表的5个字轮,进一步可以分别将该5个待识别图像输入训练好的字符识别模型,输出如下识别结果(假设采用的标注标签为上述[R0,R1,R2,R3,R4,R5,R6,R7,R8,R9]):
“001.png”:[1,0,0,0,0,0,0,0,0,0]
“002.png”:[1,0,0,0,0,0,0,0,0,0]
“003.png”:[1,0,0,0,0,0,0,0,0,0]
“004.png”:[0,0,0,3,0,0,0,0,0,0]
“005.png”:[0,0,0,0,0,0,0.79,0.21,0,0]
可以看出,字符识别模型输出的对应于“001.png”、“002.png”、“003.png”、“004.png”的识别字符分别是“0”,“0”,“0”,“3”,且对应于识别字符的权重值为100%,所以就可以得到第一位到第四位是0,0,0,3的单整字符;然而对于待识别图像“005.png”,字符识别模型输出的识别结果为[0,0,0,0,0,0,0.79,0.21,0,0],因此可以判断识别字符为“6”和“7”,且对应于“6”的权重值更高,因此可以得到待识别图像“005.png”为是“6-7”的双半字符,且偏向于6。
本实施例所采用的字符识别方法中,用于执行字符识别的字符识别模型不仅对单整字符类型的字符图像具有很好的识别效果,同时也可以实现双半字符类型的字符图像的精准识别,且对于双半字符类型的字符图像其能够给出具有偏向性的识别结果,从而具有更高识别准确率。
基于上述的训练样本生成方法,本申请实施例还提供了一种训练样本生成装置,图9为根据本申请一实施例的训练样本生成装置90的结构示意图,如图9所示,包括:
获取模块91,用于获取字符图像,并确定字符图像包含的每一个字符;
标注模块92,用于利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。
在一实施例中,获取模块还用于:采集字轮型计量表的表盘图像;对表盘图像进行字符分割处理,得到对应于预设字轮的字符图像;由预设字轮的转动位置确定字符图像包含的每一个字符。
在一实施例中,标注模块还用于:利用投影法确定字符图像的总字符区域与总字符区域中对应于每一个字符的局部字符区域;确定局部字符区域相对于总字符区域之投影比例,并根据投影比例确定字符图像包含的每一个字符的权重值。
在一实施例中,标注模块还用于:根据字符图像包含的每一个字符的权重值更新预设权重序列,以得到目标权重序列,并根据目标权重序列对字符图像标注标签;其中,预设权重序列是由多个候选字符的预设权重值按照预设排列顺序而预先构建的,且多个候选字符中的每一个候选字符的预设权重值为0。
本实施例中,首先获取字轮型计量表的字符图像,并通过投影法对字符图像执行投影,得到字符图像所包含的每一个字符的权重值,然后根据该对应于每一个字符的权重值确定字符图像的标签,使得生成的训练样本所携带的标签并不是单一的分类标签(比如“0”、“1”或“2”),而是根据字符图像所包含的每一个字符的占比权重值而设置具有偏向性的标签,使得训练样本更加符合客观真实,通过采用上述训练样本所训练出来的字符识别模型不仅可以对单整字符类型的字符图像具有很好的识别效果,同时也可以实现双半字符类型的字符图像的精准识别,且对于双半字符类型的字符图像其能够给出具有偏向性的、具有更高识别准确率的识别结果。
基于上述的模型训练方法,本申请实施例还提供了一种模型训练装置,该字符识别模型用于识别字轮型计量表的表盘读数,图10为根据本申请一实施例的模型训练装置100的结构示意图,如图10所示,包括:
训练集获取模块101,用于获取训练集,训练集包括如上述第四方面提供的装置而生成的训练样本;
模型训练模块102,用于根据训练集训练字符识别模型,其中字符识别模型用于识别字轮型计量表的表盘读数。
本实施例中,用于训练字符识别模型而采用的训练样本所携带的标签并不是单一的分类标签,比如“0”、“1”或“2”,而是根据字符图像所包含的每一个字符的占比权重值而设置具有偏向性的标签,这样所训练出来的字符识别模型不仅可以对单整字符类型的字符图像具有很好的识别效果,同时也可以实现双半字符类型的字符图像的精准识别,且对于双半字符类型的字符图像其能够给出具有偏向性的识别结果,从而能够训练出具有更高识别准确率的字符识别模型。
基于上述的字符识别方法,本申请实施例还提供了一种用于识别字轮型计量表的表盘读数的字符识别装置,图11为根据本申请一实施例的字符识别装置110的结构示意图,如图11所示,包括:
待识别图像获取模块111,用于获取字轮型计量表的表盘图像,对表盘图像进行字符分割处理,得到对应于字轮型计量表的每一个字轮的待识别图像;
字符识别模块112,用于将待识别图像输入如第五方面提供的装置而训练得到的字符识别模型,得到字轮型计量表的表盘读数。
本实施例所采用的字符识别装置中,用于执行字符识别的字符识别模型不仅对单整字符类型的字符图像具有很好的识别效果,同时也可以实现双半字符类型的字符图像的精准识别,且对于双半字符类型的字符图像其能够给出具有偏向性的识别结果,从而具有更高识别准确率。
需要说明的是,本申请实施例中的训练样本生成装置、模型训练装置以及字符识别装置分别可以实现前述训练样本生成方法、模型训练方法以及字符识别方法的实施例的各个过程,并达到相同的效果和功能,这里不再赘述。
图12为根据本申请一实施例的一种训练样本生成装置的示意图,用于执行如图1所示出的训练样本生成方法,该装置包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:
获取字符图像,并确定字符图像包含的每一个字符;
利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。
根据本申请的一些实施例,提供了与以上训练样本生成方法的非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:
获取字符图像,并确定字符图像包含的每一个字符;
利用投影法确定字符图像包含的每一个字符的权重值,并根据字符图像包含的每一个字符的权重值对字符图像标注标签,形成训练样本。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。
本申请实施例提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (14)

1.一种训练样本生成方法,其特征在于,包括:
获取字符图像,并确定所述字符图像包含的每一个字符;
利用投影法确定所述字符图像包含的每一个字符的权重值,并根据所述字符图像包含的每一个字符的权重值对所述字符图像标注标签,形成训练样本;所述每一个字符的权重值由所述每一个字符的局部字符区域相对于所述字符图像的总字符区域的投影比例确定。
2.如权利要求1所述的方法,其特征在于,获取字符图像,并确定所述字符图像包含的每一个字符,还包括:
采集字轮型计量表的表盘图像;
对所述表盘图像进行字符分割处理,得到对应于预设字轮的字符图像;
由所述预设字轮的转动位置确定所述字符图像包含的每一个字符。
3.如权利要求1所述的方法,其特征在于,利用投影法确定所述字符图像包含的每一个字符的权重值,包括:
利用投影法确定所述字符图像的总字符区域与所述总字符区域中对应于所述每一个字符的局部字符区域;
确定所述局部字符区域相对于所述总字符区域之投影比例,并根据所述投影比例确定所述字符图像包含的每一个字符的权重值。
4.如权利要求1所述的方法,其特征在于,根据所述字符图像包含的每一个字符的权重值对所述字符图像标注标签,还包括:
根据所述字符图像包含的每一个字符的权重值更新预设权重序列,以得到目标权重序列,并根据所述目标权重序列对所述字符图像标注标签;
其中,所述预设权重序列是由多个候选字符的预设权重值按照预设排列顺序而预先构建的,且所述多个候选字符中的每一个候选字符的预设权重值为0。
5.一种模型训练方法,其特征在于,包括:
获取训练集,所述训练集包括根据权利要求1-4中任一项所述的方法而生成的训练样本;
根据所述训练集训练字符识别模型,其中所述字符识别模型用于识别字轮型计量表的表盘读数。
6.一种字符识别方法,其特征在于,包括:
获取字轮型计量表的表盘图像,对所述表盘图像进行字符分割处理,得到对应于所述字轮型计量表的每一个字轮的待识别图像;
将所述待识别图像输入如权利要求5所述的方法而训练得到的字符识别模型,得到所述字轮型计量表的表盘读数。
7.一种训练样本生成装置,其特征在于,包括:
获取模块,用于获取字符图像,并确定所述字符图像包含的每一个字符;
标注模块,用于利用投影法确定所述字符图像包含的每一个字符的权重值,并根据所述字符图像包含的每一个字符的权重值对所述字符图像标注标签,形成训练样本;所述每一个字符的权重值由所述每一个字符的局部字符区域相对于所述字符图像的总字符区域的投影比例确定。
8.如权利要求7所述的装置,其特征在于,所述获取模块还用于:
采集字轮型计量表的表盘图像;
对所述表盘图像进行字符分割处理,得到对应于预设字轮的字符图像;
由所述预设字轮的转动位置确定所述字符图像包含的每一个字符。
9.如权利要求7所述的装置,其特征在于,所述标注模块还用于:
利用投影法确定所述字符图像的总字符区域与所述总字符区域中对应于所述每一个字符的局部字符区域;
确定所述局部字符区域相对于所述总字符区域之投影比例,并根据所述投影比例确定所述字符图像包含的每一个字符的权重值。
10.如权利要求7所述的装置,其特征在于,所述标注模块还用于:
根据所述字符图像包含的每一个字符的权重值更新预设权重序列,以得到目标权重序列,并根据所述目标权重序列对所述字符图像标注标签;
其中,所述预设权重序列是由多个候选字符的预设权重值按照预设排列顺序而预先构建的,且所述多个候选字符中的每一个候选字符的预设权重值为0。
11.一种模型训练装置,其特征在于,包括:
训练集获取模块,用于获取训练集,所述训练集包括根据权利要求7-10中任一项所述的装置而生成的训练样本;
模型训练模块,用于根据所述训练集训练字符识别模型,其中所述字符识别模型用于识别字轮型计量表的表盘读数。
12.一种字符识别装置,其特征在于,包括:
待识别图像获取模块,用于获取字轮型计量表的表盘图像,对所述表盘图像进行字符分割处理,得到对应于所述字轮型计量表的每一个字轮的待识别图像;
字符识别模块,用于将所述待识别图像输入如权利要求11所述的装置而训练得到的字符识别模型,得到所述字轮型计量表的表盘读数。
13.一种训练样本生成装置,其特征在于,包括:
一个或者多个多核处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或者多个多核处理器执行时,使得所述一个或多个多核处理器实现:
获取字符图像,并确定所述字符图像包含的每一个字符;
利用投影法确定所述字符图像包含的每一个字符的权重值,并根据所述字符图像包含的每一个字符的权重值对所述字符图像标注标签,形成训练样本;所述每一个字符的权重值由所述每一个字符的局部字符区域相对于所述字符图像的总字符区域的投影比例确定。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被多核处理器执行时,使得所述多核处理器执行如权利要求1-4中任一项所述的方法。
CN201911233955.0A 2019-12-05 2019-12-05 训练样本生成、模型训练、字符识别方法及其装置 Active CN111079763B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911233955.0A CN111079763B (zh) 2019-12-05 2019-12-05 训练样本生成、模型训练、字符识别方法及其装置
US17/782,677 US20230007989A1 (en) 2019-12-05 2020-11-03 Methods and devices for generating training sample, training model and recognizing character
PCT/CN2020/126197 WO2021109775A1 (zh) 2019-12-05 2020-11-03 训练样本生成、模型训练、字符识别方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911233955.0A CN111079763B (zh) 2019-12-05 2019-12-05 训练样本生成、模型训练、字符识别方法及其装置

Publications (2)

Publication Number Publication Date
CN111079763A CN111079763A (zh) 2020-04-28
CN111079763B true CN111079763B (zh) 2023-08-08

Family

ID=70313065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911233955.0A Active CN111079763B (zh) 2019-12-05 2019-12-05 训练样本生成、模型训练、字符识别方法及其装置

Country Status (3)

Country Link
US (1) US20230007989A1 (zh)
CN (1) CN111079763B (zh)
WO (1) WO2021109775A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079763B (zh) * 2019-12-05 2023-08-08 嘉楠明芯(北京)科技有限公司 训练样本生成、模型训练、字符识别方法及其装置
CN112464932A (zh) * 2020-11-26 2021-03-09 广东工业大学 水表数值自动读取方法、装置、电子设备及存储介质
CN112446383B (zh) * 2020-11-30 2022-09-02 展讯通信(上海)有限公司 车牌识别方法及装置、存储介质、终端
CN112381177A (zh) * 2020-12-07 2021-02-19 江苏科技大学 一种基于深度学习的表盘数字字符识别方法及***
CN113269194A (zh) * 2021-06-11 2021-08-17 四川长虹网络科技有限责任公司 读数表不完整字符识别方法以及读数表字符识别方法
CN113516110B (zh) * 2021-09-13 2021-12-21 成都千嘉科技有限公司 基于图像分割的燃气表字轮坐标提取方法
CN114973248B (zh) * 2022-05-18 2023-03-24 慧之安信息技术股份有限公司 基于ocr识别的pdf识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825212A (zh) * 2016-02-18 2016-08-03 江西洪都航空工业集团有限责任公司 一种基于Hadoop的分布式车牌识别方法
CN106709530A (zh) * 2017-01-17 2017-05-24 中国科学院上海高等研究院 基于视频的车牌识别方法
CN108491844A (zh) * 2018-02-07 2018-09-04 西安工程大学 基于图像处理的水表自动检测***及其图像处理方法
CN110245613A (zh) * 2019-06-17 2019-09-17 珠海华园信息技术有限公司 基于深度学习特征对比的船牌识别方法
CN110503090A (zh) * 2019-07-09 2019-11-26 中国科学院信息工程研究所 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9008429B2 (en) * 2013-02-01 2015-04-14 Xerox Corporation Label-embedding for text recognition
CN105844205B (zh) * 2015-01-15 2019-05-31 新天科技股份有限公司 基于图像处理的字符信息识别方法
CN111079763B (zh) * 2019-12-05 2023-08-08 嘉楠明芯(北京)科技有限公司 训练样本生成、模型训练、字符识别方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825212A (zh) * 2016-02-18 2016-08-03 江西洪都航空工业集团有限责任公司 一种基于Hadoop的分布式车牌识别方法
CN106709530A (zh) * 2017-01-17 2017-05-24 中国科学院上海高等研究院 基于视频的车牌识别方法
CN108491844A (zh) * 2018-02-07 2018-09-04 西安工程大学 基于图像处理的水表自动检测***及其图像处理方法
CN110245613A (zh) * 2019-06-17 2019-09-17 珠海华园信息技术有限公司 基于深度学习特征对比的船牌识别方法
CN110503090A (zh) * 2019-07-09 2019-11-26 中国科学院信息工程研究所 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文武 ; 乔龙辉 ; 何鹏 ; .基于自适应差分进化极限学习机的车牌识别算法.电子技术应用.2017,第43卷(第01期),全文. *

Also Published As

Publication number Publication date
WO2021109775A1 (zh) 2021-06-10
US20230007989A1 (en) 2023-01-12
CN111079763A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079763B (zh) 训练样本生成、模型训练、字符识别方法及其装置
CN110059637B (zh) 一种人脸对齐的检测方法及装置
CN110874591B (zh) 一种图像定位方法、装置、设备及存储介质
CN110991437B (zh) 字符识别方法及其装置、字符识别模型的训练方法及其装置
CN113888531B (zh) 混凝土表面缺陷检测方法、装置、电子设备及存储介质
CN114155244A (zh) 缺陷检测方法、装置、设备及存储介质
CN113554630A (zh) 芯片表面缺陷检测方法、***、计算机设备和存储介质
CN114882204A (zh) 船名自动识别方法
CN113177957A (zh) 一种细胞图像的分割方法、装置、电子设备及存储介质
CN113283445A (zh) 一种图像处理方法、装置和计算机设备
CN117611879A (zh) 缺陷检测方法、装置、设备及计算机可读介质
CN112632469A (zh) 业务交易数据的异常检测方法、装置及计算机设备
CN117095406A (zh) 一种获取指针水表读数的后处理方法、***、装置及介质
CN115713750A (zh) 一种车道线检测方法、装置、电子设备及存储介质
CN111753625B (zh) 一种行人检测方法、装置、设备及介质
CN112818865A (zh) 车载领域图像识别方法、识别模型建立方法、装置、电子设备和可读存储介质
CN114758123A (zh) 一种遥感影像目标样本增强方法
CN114581758A (zh) 基于EfficientNet网络与深度学习的植物叶部病害识别方法
CN114417965A (zh) 图像处理模型的训练方法、目标检测方法及相关装置
CN114550207B (zh) 脖子关键点检测方法及装置、检测模型训练方法及装置
CN117372510B (zh) 基于计算机视觉模型的地图注记识别方法、终端及介质
CN112629546B (zh) 一种位置调节参数确定方法、装置、电子设备及存储介质
CN116434005A (zh) 一种晶圆缺陷数据增强方法及装置
CN117994771A (zh) 一种电表读数识别方法、存储介质以及计算机设备
CN115512328A (zh) 一种车道线检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201211

Address after: Room 206, 2 / F, building C, phase I, Zhongguancun Software Park, No. 8, Dongbei Wangxi Road, Haidian District, Beijing 100094

Applicant after: Canaan Bright Sight Co.,Ltd.

Address before: Room 101, block C, building 27, phase I, Zhongguancun Software Park, No. 8, Dongbei Wangxi Road, Haidian District, Beijing 100094

Applicant before: Canaan Creative Co.,Ltd.

GR01 Patent grant
GR01 Patent grant