CN111340023A - 文本识别方法及装置、电子设备、存储介质 - Google Patents

文本识别方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111340023A
CN111340023A CN202010114235.9A CN202010114235A CN111340023A CN 111340023 A CN111340023 A CN 111340023A CN 202010114235 A CN202010114235 A CN 202010114235A CN 111340023 A CN111340023 A CN 111340023A
Authority
CN
China
Prior art keywords
character
region
prediction
character prediction
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010114235.9A
Other languages
English (en)
Other versions
CN111340023B (zh
Inventor
张发恩
陆强
袁智超
孙天齐
徐辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Wisdom Shanghai Technology Co ltd
Original Assignee
Innovation Wisdom Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Wisdom Shanghai Technology Co ltd filed Critical Innovation Wisdom Shanghai Technology Co ltd
Priority to CN202010114235.9A priority Critical patent/CN111340023B/zh
Priority to JP2020085898A priority patent/JP7026165B2/ja
Priority to US16/901,154 priority patent/US11132576B2/en
Publication of CN111340023A publication Critical patent/CN111340023A/zh
Application granted granted Critical
Publication of CN111340023B publication Critical patent/CN111340023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种文本识别方法及装置、电子设备、存储介质,该方法包括:通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合;根据字符区域集合中每个字符预测区域的位置,计算字符区域集合中字符预测区域之间的水平距离交并比;根据字符区域集合中字符预测区域之间的水平距离交并比,去除字符区域集合中重叠的字符预测区域,得到字符位置集合;将字符位置集合中字符预测区域对应的字符类别,按照字符位置集合中字符预测区域的位置进行排序输出。本申请实施例提供的技术方案,提高了文本识别的准确性。

Description

文本识别方法及装置、电子设备、存储介质
技术领域
本申请涉及图像处理技术领域,特别涉及一种文本识别方法及装置、电子设备、存储介质。
背景技术
文本识别一般是指对文本图像进行识别分析处理,获取文字图像上有用文字信息的过程。常见的文本识别领域为身份证识别、***识别、汽车VN码识别、车牌识别,而工业场景中的文本识别需求也越来越多,比如工件码的识别、工件序列号的匹配等。文本识别的工况越来越复杂,这对于文本识别算法的要求也越来越高。
现有针对图片处理和识别,主要采用传统文本检测识别技术(OpticalCharacterRecognition,OCR),OCR在识别数码相机获取的文档图像时,常常会因为图像的扭曲而导致识别率低,识别准确性差。
发明内容
本申请实施例提供了一种文本识别方法,用以提高文本识别的准确性。
本申请实施例提供了一种文本识别方法,包括:
通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合;
根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比;
根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合;
将所述字符位置集合中字符预测区域对应的字符类别,按照所述字符位置集合中字符预测区域的位置进行排序输出。
在一实施例中,所述通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合,包括:
将文本行图像输入已构建的文本识别模型,获得所述文本识别模型输出的字符预测区域以及所述字符预测区域对应的分类置信度;
根据所述字符预测区域对应的分类置信度,对所述字符预测区域进行非极大值抑制,获得字符区域集合。
在一实施例中,对所述字符预测区域进行非极大值抑制,获得字符区域集合之后,所述方法还包括:
从所述字符区域集合中筛选出所述分类置信度大于第一阈值的字符预测区域,重构所述字符区域集合。
在一实施例中,根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比,包括:
根据所述字符区域集合中每个字符预测区域的横坐标,对所述字符区域集合中的字符预测区域进行排序;
针对每一字符预测区域,依次计算所述字符预测区域与所述字符区域集合中其他字符预测区域的水平距离交并比。
在一实施例中,根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合,包括:
若所述字符区域集合中任一字符预测区域与所述字符区域集合中所有字符预测区域的水平距离交并比均小于等于所述第二阈值,将所述字符区域集合中选中的所述字符预测区域置于所述字符位置集合。
在一实施例中,根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合,包括:
若所述字符区域集合中任一字符预测区域与所述字符区域集合中至少一个字符预测区域的水平距离交并比大于第二阈值,将相关的字符预测区域从所述字符区域集合中去除,置于候选集合中;
根据所述候选集合中每个字符预测区域的分类置信度,选择字符预测区域添加至所述字符位置集合。
在一实施例中,所述根据所述候选集合中每个字符预测区域的分类置信度,选择字符预测区域添加至所述字符位置集合,包括:
根据所述候选集合中每个字符预测区域的分类置信度,筛选出分类置信度最大的前两个字符预测区域;
若所述两个字符预测区域之间的分类置信度的差值小于第三阈值,将所述两个字符预测区域中面积较大的字符预测区域添加至所述字符位置集合。
在一实施例中,所述根据所述候选集合中每个字符预测区域的分类置信度,筛选出分类置信度最大的前两个字符预测区域之后,所述方法还包括:
若所述两个字符预测区域之间的分类置信度的差值大于等于第三阈值,将所述两个字符预测区域中分类置信度较大的字符预测区域添加至所述字符位置集合。
本申请实施例提供了一种文本识别装置,包括:
区域提取模块,用于通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合;
交并比计算模块,用于根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比;
重叠去除模块,用于根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合;
字符输出模块,用于将所述字符位置集合中字符预测区域对应的字符类别,按照所述字符位置集合中字符预测区域的位置进行排序输出。
本申请实施例还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述文本识别方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述的文本识别方法。
本申请上述实施例提供的技术方案,可以通过计算字符预测区域之间的水平距离交并比,从而去除重叠的字符预测区域,得到字符位置集合,根据字符位置集合中每个字符预测区域的位置,可以对字符预测区域的字符类别排序输出,从而得到文本识别结果,这种方式可以适用于弯曲文本图像的识别,可以解决同一位置处出现多个字符识别框的问题,可以提高文本识别的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的文本识别方法的应用场景示意图;
图2为本申请实施例提供的文本识别方法的流程示意图;
图3是水平距离交并比的计算原理示意图;
图4为图2对应实施例中步骤210的细节流程图;
图5为图2对应实施例中步骤220的细节流程图;
图6为本申请另一实施例提供的文本识别方法的流程示意图;
图7为本申请实施例提供的文本识别装置的框图;
图8为基于水平距离交并比进行重叠预测框筛选前后的效果对比图;
图9为采用水平距离交并比和面积交并比的处理效果对比图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的文本识别方法的应用场景示意图。如图1所示,该应用场景包括智能设备110。该智能设备110可以是服务器、服务器集群或者云计算中心。智能设备110还可以是智能摄像头、移动终端或台式电脑。智能设备110可以采用本申请实施例提供的方法,识别出文本行图像包含的字符内容。
在一实施例中,上述应用场景还可以包括图像采集设备120,图像采集设备120可以采集包含字符内容的图像,并将此图像传输至智能设备110,由智能设备110采用本申请实施例提供的方法,进行文本识别。
本申请还提供了一种电子设备。该电子设备可以是图1所示的智能设备110。如图1所示,智能设备110可以包括处理器111和用于存储处理器111可执行指令的存储器112;其中,该处理器111被配置为执行本申请实施例提供的文本识别方法。
存储器112可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器111执行以完成本申请实施例提供的文本识别方法。
图2为本申请实施例提供的文本识别方法的流程示意图。如图2所示,该方法包括以下步骤S210-S240。
在步骤S210中,通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合。
其中,文本识别模型可以是已经训练好的基于目标检测的神经网络模型,例如SSD、YOLOV3。文本识别模型的输入可以是文本行图像,文本行图像的尺寸可以是88×352。文本识别模型的输出可以包括字符预测区域、字符预测区域的字符类别以及分类置信度。字符预测区域用于表示字符可能所在的区域,字符预测区域可以是矩形框的形式,用矩形框的四个顶点的坐标表示字符预测区域的位置,同一字符处可能检测到多个字符预测区域。也就是说,字符预测区域可能存在重叠的现象。字符区域集合是指所有字符预测区域构成的集合。
文本识别模型的损失函数中的分类损失的权重可以设置为10,以提高文本识别模型的检测结果的字符分类准确性。根据文本行中字符尺寸基本一致且横向排列的特性,设置锚框(即参考框)的高为输入的文本行图像的0.8倍。
在步骤S220中,根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比。
图3是水平距离交并比的计算原理示意图,如图3所示,两个字符预测区域之间存在重叠现象,这两个字符预测区域之间的Horizon-distance IOU(水平距离交并比)可以采用以下公式
Figure BDA0002390583570000071
计算得到。
其中,x2和x1代表一个字符预测区域的两个顶点的横坐标,x3和x4代表另一个字符预测区域的两个顶点的横坐标。水平距离交并比可以用于表征两个字符预测区域在水平方向上的重叠比例。
字符预测区域的位置可以包括字符预测区域的每个顶点的坐标。对于字符区域集合中的所有字符预测区域,可以两两计算任意两个字符预测区域之间的水平距离交并比。
在步骤S230中,根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合。
在一实施例中,任意两个字符预测区域之间的水平距离交并比大于第二阈值,可以认为这两个字符预测区域存在重叠现象。第二阈值可以是0.3。举例来说,假设某个字符预测区域与另外两个字符预测区域分别存在重叠现象,则对于这三个字符预测区域,可以去掉其中2个字符预测区域,余下的字符预测区域加入字符位置集合。字符位置集合可以认为是去除了重叠的字符预测区域后剩余的不存在重叠现在的字符预测区域的集合。
在步骤S240中,将所述字符位置集合中字符预测区域对应的字符类别,按照所述字符位置集合中字符预测区域的位置进行排序输出。
通常,文本中的字符呈横向排列,字符预测区域的位置可以是字符预测区域的横坐标的值。对于字符位置集合中的所有字符预测区域,可以根据这些字符预测区域的横坐标的大小,按照横坐标由小到大,对字符位置集合中的字符预测区域进行排序,之后将每个字符预测区域对应的字符类别按序输出。其中,字符类别是指字符预测区域所包含的字符,可以是汉字、字母或特定符号。对于呈纵向排列的字符,也可以截取每一列,将每一列作为文本行。用横坐标的大小区分文本行中每个字符的先后顺序。
字符类别可以在步骤S210通过上述文本识别模型识别出每个字符预测区域的字符类别。也可以在确定字符位置集合后,通过文本识别模型识别出每个字符预测区域的字符类别。
本申请上述实施例提供的技术方案,可以通过计算字符预测区域之间的水平距离交并比,从而去除重叠的字符预测区域,得到字符位置集合,根据字符位置集合中每个字符预测区域的位置,可以对字符预测区域的字符类别排序输出,从而得到文本识别结果,这种方式可以适用于弯曲文本图像的识别,可以解决同一位置处出现多个字符识别框的问题,可以提高文本识别的准确性。
在一实施例中,如图4所示,上述步骤210可以包括以下步骤211和步骤212。
在步骤211中,将文本行图像输入已构建的文本识别模型,获得所述文本识别模型输出的字符预测区域以及所述字符预测区域对应的分类置信度。
其中,分类置信度用于表征字符预测区域的字符类别的分类准确性。字符类别以及分类置信度可以在步骤210通过文本识别模型得到。
在步骤212中,根据所述字符预测区域对应的分类置信度,对所述字符预测区域进行非极大值抑制,获得字符区域集合。
一个字符可能得到多个字符预测区域,非极大值抑制是指从局部的多个字符预测区域中,选择分类置信度最高的字符预测区域,作为局部区域内的字符预测区域,此次筛选出的所有字符预测区域可以构成字符区域集合。
在步骤212之后,本申请实施例提供的方法还可以包括以下步骤213:从所述字符区域集合中筛选出所述分类置信度大于第一阈值的字符预测区域,重构所述字符区域集合。
举例来说,第一阈值可以是0.5,可以从字符区域集合中筛选出分类置信度大于0.5的字符预测区域,将筛选出的字符预测区域作为字符区域集合。
在一实施例中,如图5所示,上述步骤220具体包括以下步骤221-222。
在步骤221中,根据所述字符区域集合中每个字符预测区域的横坐标,对所述字符区域集合中的字符预测区域进行排序。
可以按照横坐标由小到大或者由大到小对字符区域集合中的所有字符预测区域进行排序。
在步骤222中,针对每一字符预测区域,依次计算所述字符预测区域与所述字符区域集合中其他字符预测区域的水平距离交并比。
假设字符区域集合为集合1,集合1中存在n个字符预测区域,基于上述排序,可以两两计算第一个字符预测区域分别与第2至n个字符预测区域的水平距离交并比,找出所有与第一个字符预测区域存在重叠的字符预测区域,并将第一个字符预测区域以及与其存在重叠的字符预测区域从集合1删除,置于集合2中,得到新的集合1。对于集合2中的存在重叠的多个字符预测区域,可以从中选择一个字符预测区域置于集合3中,并将集合2置为空集。集合3中的字符预测区域可以认为是无重叠现象的字符预测区域。
相反的,如果集合1中的第一字符预测区域与集合1中所有字符预测区域均不存在重叠,可以将第一字符预测区域从集合1中删除,置于集合3中,得到新的集合1;
继续针对新的集合1,两两计算新的集合1中第一个字符预测区域分别与第2至最后一个字符预测区域的水平距离交并比,找出所有与第一个字符预测区域存在重叠的字符预测区域,并将第一个字符预测区域以及与其存在重叠的字符预测区域从新的集合1删除,置于集合2中,得到更新的集合1。并继续从集合2中选择一个字符预测区域置于集合3中,将集合2置为空集
以此类推,直到集合1为空。由此,完成集合1中所有字符预测区域之间的水平距离交并比的计算,以及无重叠现象的字符预测区域的挑选。水平距离交并比的计算公式可以参见上文。
在一实施例中,上述步骤230具体包括:若所述字符区域集合中任一字符预测区域与所述字符区域集合中所有字符预测区域的水平距离交并比均小于等于所述第二阈值,将所述字符区域集合中选中的所述字符预测区域置于所述字符位置集合。
其中,字符区域集合可以相当于上述实施例中的集合1,字符位置集合可以相当于上述实施例中的集合3,第二阈值可以是0.3,如果集合1中某个字符预测区域与集合1中所有字符预测区域的水平距离交并比均小于等于0.3,可以认为该字符预测区域与其他所有字符预测区域均不存在重叠现象,故可以将该字符预测区域置于集合3中。字符位置集合中的字符预测区域可以认为是不存在重叠现象的字符预测区域。
相反的,上述步骤230可能包括:若所述字符区域集合中任一字符预测区域与所述字符区域集合中至少一个字符预测区域的水平距离交并比大于第二阈值,将相关的字符预测区域从所述字符区域集合中去除,置于候选集合中;根据所述候选集合中每个字符预测区域的分类置信度,选择字符预测区域添加至所述字符位置集合。
其中,候选集合可以相当于上述实施例中的集合2,集合1中的某个字符预测区域如果与集合1中的至少一个字符预测区域的水平距离交并比大于0.3,则水平距离交并比大于0.3的这几个字符预测区域可以从集合1中删除,置于集合2中。对于集合2中的这几个字符预测区域,也就是候选集合中的字符预测区域,可以根据分类置信度的高低,筛选出分类置信度最大的前两个字符预测区域。如果这两个字符预测区域的分类置信度的差值小于第三阈值(例如0.1),可以将两个字符预测区域中面积较大的字符预测区域添加至字符位置集合(也就是集合3)。
相反的,若两个字符预测区域之间的分类置信度的差值大于等于第三阈值,则将所两个字符预测区域中分类置信度较大的字符预测区域添加至字符位置集合(也就是集合3)。
由此,集合3中的字符预测区域可以认为是不存在重叠现象的字符预测区域。对于集合3中的所有字符预测区域进行排序,并对每个字符预测区域对应的字符类别依照排序输出,即可得到识别结果。
如图6是本申请一实施例提供的文本识别方法的流程示意图,如图6所示,该方法包括以下步骤。
步骤601,输入图像经过文本识别模型得到字符预测区域。
步骤602,对字符预测区域进行非极大值抑制(NMS),得到字符区域集合S0。
步骤603,从字符区域集合S0中筛选出分类置信度大于0.5的字符预测区域,得到字符区域集合S1。
步骤604,对字符区域集合S1中的字符预测区域按横坐标由小到大排序。
步骤605,判断字符区域集合S1是否为空,不为空,则将字符区域集合S1中的第一个字符预测区域与S1中剩余所有的字符预测区域分别计算水平距离交并比。为空,则执行步骤613。
步骤606,判断水平距离交并比是否大于0.3。如果否,执行步骤607,如果是,执行步骤608。
步骤607,将字符区域集合S1中的第一个字符预测区域放入字符位置集合S3中,同时从字符区域集合S1中删除第一个字符预测区域。返回步骤605。
步骤608,将第一字符预测区域以及与第一字符预测区域的水平距离交并比大于0.3的字符预测区域均放入候选集合S2中,同时从字符区域集合S1删除这些字符预测区域。
步骤609,将候选集合S2中的字符预测区域根据分类置信度由大到小排序,保留分类置信度最大的前两个字符预测区域,其余去除。
步骤610,判断候选集合S2中的字符预测区域的分类置信度的差值是否小于0.1;如果否,执行步骤611;如果是,执行步骤612。
步骤611,将候选集合S2分类置信度更大的字符预测区域放入字符位置集合S3中,并将候选集合S2置为空集。返回步骤605;
步骤612,将候选集合S2中面积更大的字符预测区域放入字符位置集合S3中,并将候选集合S2置为空集。返回步骤605;
步骤613,将字符位置集合S3中的字符预测区域的字符类别按照字符预测区域的横坐标由小到大排序输出。
图7为本申请实施例提供的一种文本识别装置的框图,该装置包括:区域提取模块710、交并比计算模块720、重叠去除模块730以及字符输出模块740。
区域提取模块710,用于通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合;
交并比计算模块720,用于根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比;
重叠去除模块730,用于根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合;
字符输出模块740,用于将所述字符位置集合中字符预测区域对应的字符类别,按照所述字符位置集合中字符预测区域的位置进行排序输出。
上述装置中各个模块的功能和作用的实现过程具体详见上述文本识别方法中对应步骤的实现过程,在此不再赘述。
图8是基于水平距离交并比进行重叠预测框筛选前后的效果对比图。其中第一行为没有基于水平距离交并比进行筛选的文本识别效果,第二行为基于水平距离交并比进行筛选后的文本识别效果。从图8中可以看第三个数字0,由于第一行存在重叠预测框,故识别出两个0,检测不够准确。图9是采用水平距离交并比和面积交并比的处理效果对比图。图9中的第一行图像为基于面积IOU进行重叠预测框筛选后的处理结果,第二行为基于水平距离交并比进行重叠预测框筛选后的处理结果。可见,基于水平距离交并比可解决同一位置处出现多个字符预测框,但是面积交并比没有超过阈值的情况,而传统的基于面积交并比的方式则处理不了。
本申请实施例提供的技术方案,相比基于分割的文本识别方法,本申请实施例提供的基于目标检测的文本识别算法不是基于像素级的预测,因此速度更快,提高了对于噪声的鲁棒性;提出的基于Horizon-distance IOU(水平距离交并比)进行重叠字符框筛选的处理方式,解决了目标检测用于文本识别时的字符框重叠问题,同时该方法的计算量非常少,相比现有的NMS计算量要少很多。本申请实施例提供的技术方案可以适用于弯曲文本识别,且可解决同一位置处出现多个字符框,但是面积交并比(IOU)没有超过阈值的情况。比如弯曲文本中,面积IOU一般都偏大,如果不采用本申请实施例提出的Horizon-distanceIOU而采用面积IOU,则很容易将正确的字符预测框筛选掉,从而导致后处理错误。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (11)

1.一种文本识别方法,其特征在于,
通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合;
根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比;
根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合;
将所述字符位置集合中字符预测区域对应的字符类别,按照所述字符位置集合中字符预测区域的位置进行排序输出。
2.根据权利要求1所述的方法,其特征在于,所述通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合,包括:
将文本行图像输入已构建的文本识别模型,获得所述文本识别模型输出的字符预测区域以及所述字符预测区域对应的分类置信度;
根据所述字符预测区域对应的分类置信度,对所述字符预测区域进行非极大值抑制,获得字符区域集合。
3.根据权利要求2所述的方法,其特征在于,对所述字符预测区域进行非极大值抑制,获得字符区域集合之后,所述方法还包括:
从所述字符区域集合中筛选出所述分类置信度大于第一阈值的字符预测区域,重构所述字符区域集合。
4.根据权利要求1所述的方法,其特征在于,根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比,包括:
根据所述字符区域集合中每个字符预测区域的横坐标,对所述字符区域集合中的字符预测区域进行排序;
针对每一字符预测区域,依次计算所述字符预测区域与所述字符区域集合中其他字符预测区域的水平距离交并比。
5.根据权利要求1所述的方法,其特征在于,根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合,包括:
若所述字符区域集合中任一字符预测区域与所述字符区域集合中所有字符预测区域的水平距离交并比均小于等于所述第二阈值,将所述字符区域集合中选中的所述字符预测区域置于所述字符位置集合。
6.根据权利要求1所述的方法,其特征在于,根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合,包括:
若所述字符区域集合中任一字符预测区域与所述字符区域集合中至少一个字符预测区域的水平距离交并比大于第二阈值,将相关的字符预测区域从所述字符区域集合中去除,置于候选集合中;
根据所述候选集合中每个字符预测区域的分类置信度,选择字符预测区域添加至所述字符位置集合。
7.根据权利要求6所述的方法,其特征在于,所述根据所述候选集合中每个字符预测区域的分类置信度,选择字符预测区域添加至所述字符位置集合,包括:
根据所述候选集合中每个字符预测区域的分类置信度,筛选出分类置信度最大的前两个字符预测区域;
若所述两个字符预测区域之间的分类置信度的差值小于第三阈值,将所述两个字符预测区域中面积较大的字符预测区域添加至所述字符位置集合。
8.根据权利要求7所述的方法,其特征在于,所述根据所述候选集合中每个字符预测区域的分类置信度,筛选出分类置信度最大的前两个字符预测区域之后,所述方法还包括:
若所述两个字符预测区域之间的分类置信度的差值大于等于第三阈值,将所述两个字符预测区域中分类置信度较大的字符预测区域添加至所述字符位置集合。
9.一种文本识别装置,其特征在于,包括:
区域提取模块,用于通过已构建的文本识别模型,提取文本行图像的字符预测区域,得到字符区域集合;
交并比计算模块,用于根据所述字符区域集合中每个字符预测区域的位置,计算所述字符区域集合中字符预测区域之间的水平距离交并比;
重叠去除模块,用于根据所述字符区域集合中字符预测区域之间的水平距离交并比,去除所述字符区域集合中重叠的字符预测区域,得到字符位置集合;
字符输出模块,用于将所述字符位置集合中字符预测区域对应的字符类别,按照所述字符位置集合中字符预测区域的位置进行排序输出。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8任意一项所述的文本识别方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-8任意一项所述的文本识别方法。
CN202010114235.9A 2020-02-24 2020-02-24 文本识别方法及装置、电子设备、存储介质 Active CN111340023B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010114235.9A CN111340023B (zh) 2020-02-24 2020-02-24 文本识别方法及装置、电子设备、存储介质
JP2020085898A JP7026165B2 (ja) 2020-02-24 2020-05-15 テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
US16/901,154 US11132576B2 (en) 2020-02-24 2020-06-15 Text recognition method and apparatus, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010114235.9A CN111340023B (zh) 2020-02-24 2020-02-24 文本识别方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111340023A true CN111340023A (zh) 2020-06-26
CN111340023B CN111340023B (zh) 2022-09-09

Family

ID=71181781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010114235.9A Active CN111340023B (zh) 2020-02-24 2020-02-24 文本识别方法及装置、电子设备、存储介质

Country Status (3)

Country Link
US (1) US11132576B2 (zh)
JP (1) JP7026165B2 (zh)
CN (1) CN111340023B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783695A (zh) * 2020-07-06 2020-10-16 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备及存储介质
CN113254653A (zh) * 2021-07-05 2021-08-13 明品云(北京)数据科技有限公司 一种文本分类方法、***、设备及介质
CN113723422A (zh) * 2021-09-08 2021-11-30 重庆紫光华山智安科技有限公司 车牌信息确定方法、***、设备及介质
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN115937843A (zh) * 2023-01-09 2023-04-07 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法
CN108564084A (zh) * 2018-05-08 2018-09-21 北京市商汤科技开发有限公司 文字检测方法、装置、终端及存储介质
CN109447015A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种处理表格图片中框选文字的方法及装置
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110533079A (zh) * 2019-08-05 2019-12-03 贝壳技术有限公司 形成图像样本的方法、装置、介质以及电子设备
CN110717366A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本信息的识别方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130066444A (ko) * 2011-12-12 2013-06-20 한국전자통신연구원 자동차 번호판 내에서 문자 영역을 추출하기 위한 장치 및 그 방법
US10467465B2 (en) * 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
CN111488870A (zh) 2019-01-28 2020-08-04 富士通株式会社 文字识别方法和文字识别装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法
CN108564084A (zh) * 2018-05-08 2018-09-21 北京市商汤科技开发有限公司 文字检测方法、装置、终端及存储介质
CN110717366A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本信息的识别方法、装置、设备及存储介质
CN109447015A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种处理表格图片中框选文字的方法及装置
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110533079A (zh) * 2019-08-05 2019-12-03 贝壳技术有限公司 形成图像样本的方法、装置、介质以及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783695A (zh) * 2020-07-06 2020-10-16 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备及存储介质
CN113254653A (zh) * 2021-07-05 2021-08-13 明品云(北京)数据科技有限公司 一种文本分类方法、***、设备及介质
CN113254653B (zh) * 2021-07-05 2021-12-21 明品云(北京)数据科技有限公司 一种文本分类方法、***、设备及介质
CN113723422A (zh) * 2021-09-08 2021-11-30 重庆紫光华山智安科技有限公司 车牌信息确定方法、***、设备及介质
CN113723422B (zh) * 2021-09-08 2023-10-17 重庆紫光华山智安科技有限公司 车牌信息确定方法、***、设备及介质
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN115937843A (zh) * 2023-01-09 2023-04-07 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备
CN115937843B (zh) * 2023-01-09 2023-05-26 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
JP2021135993A (ja) 2021-09-13
JP7026165B2 (ja) 2022-02-25
CN111340023B (zh) 2022-09-09
US11132576B2 (en) 2021-09-28
US20210264189A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
CN111340023B (zh) 文本识别方法及装置、电子设备、存储介质
CN108427950B (zh) 一种文字行检测方法及装置
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN111428723B (zh) 字符识别方法及装置、电子设备、存储介质
CN110032998B (zh) 自然场景图片的文字检测方法、***、装置和存储介质
CN109740606B (zh) 一种图像识别方法及装置
CN110717366A (zh) 文本信息的识别方法、装置、设备及存储介质
CN110619333B (zh) 一种文本行分割方法、文本行分割装置及电子设备
CN108108734B (zh) 一种车牌识别方法及装置
CN108197644A (zh) 一种图像识别方法和装置
CN112507782A (zh) 文本图像的识别方法及装置
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及***
JP2019102061A (ja) テキスト線の区分化方法
CN109508716B (zh) 一种图像文字的定位方法及装置
CN110232381B (zh) 车牌分割方法、装置、计算机设备及计算机可读存储介质
CN112052702A (zh) 一种识别二维码的方法和装置
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN110147785B (zh) 图像识别方法、相关装置和设备
CN113392455A (zh) 基于深度学习的户型图比例尺检测方法、装置及电子设备
CN111213157A (zh) 一种基于智能终端的快递信息录入方法及录入***
CN113269153B (zh) 一种表格识别方法以及装置
Xu et al. Application of Neural Network in Handwriting Recognition
CN113837119A (zh) 一种基于灰度图像识别易混淆字符的方法及设备
CN114926829A (zh) 一种证件检测方法、装置、电子设备及存储介质
CN114627456A (zh) 一种票据文本信息检测方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant