CN112861739A - 端到端文本识别方法、模型训练方法及装置 - Google Patents

端到端文本识别方法、模型训练方法及装置 Download PDF

Info

Publication number
CN112861739A
CN112861739A CN202110186700.4A CN202110186700A CN112861739A CN 112861739 A CN112861739 A CN 112861739A CN 202110186700 A CN202110186700 A CN 202110186700A CN 112861739 A CN112861739 A CN 112861739A
Authority
CN
China
Prior art keywords
training
text
data set
text recognition
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110186700.4A
Other languages
English (en)
Other versions
CN112861739B (zh
Inventor
张勇东
周宇
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110186700.4A priority Critical patent/CN112861739B/zh
Publication of CN112861739A publication Critical patent/CN112861739A/zh
Application granted granted Critical
Publication of CN112861739B publication Critical patent/CN112861739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

一种端到端文本识别方法、模型训练方法及装置,模型训练方法包括:构建初始端到端文本识别模型,其中,初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块;获取训练样本数据集;利用样本生成算法处理训练样本数据集中的训练样本,生成扩增训练样本数据集,以便增加用于训练初始文本识别模块的训练样本数量;以及利用训练样本数据集和扩增训练样本数据集训练初始端到端文本识别模型,得到端到端文本识别模型。通过上述技术方案本发明利用样本生成算法生成大量用于训练文本识别模块的训练样本,从而有效地解决了文本检测模块过拟合和文本识别模块欠拟合的问题,提升端到端文本识别模型的识别精度。

Description

端到端文本识别方法、模型训练方法及装置
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种端到端文本 识别方法、端到端文本识别模型的训练方法及装置。
背景技术
端到端文本识别方法一般集成了文本检测模块和文本识别模块到 一个网络模型中,其中文本检测模块用于检测文本的位置,文本识别 模块用于识别文本的内容。端到端文本识别在自动驾驶、机器翻译、 商品检索等领域有广泛的应用。但是针对不同的应用领域,模型中的 文本识别模块和文本检测模块需要训练,以达到更好的识别精度。训 练文本识别模块所需的样本数和训练文本检测模块需要的样本数的比 例通常大于100。然而,目前的端到端文本识别模型的训练方法的这 个所需样本数的比例小于10,不满足训练样本的要求量。因此,这些 方法中,训练文本识别模块的样本数的不足导致了文本检测模块的过 拟合以及文本识别模块的欠拟合,极大地限制了端到端文本识别的精 度。
发明内容
有鉴于此,本发明的主要目的是提供一种端到端文本识别方法、 端到端文本识别模型的训练方法及装置,以期至少部分地解决上述提 及的技术问题中的至少之一。
为实现上述目的,本发明的技术方案包括:
作为本发明的一个方面,提供一种端到端文本识别方法,包括:
构建初始端到端文本识别模型,其中,初始端到端文本识别模型 包括初始文本检测模块和初始文本识别模块;
获取训练样本数据集;
利用样本生成算法处理训练样本数据集中的训练样本,生成扩增 训练样本数据集,以便增加用于训练初始文本识别模块的训练样本数 量;以及
利用训练样本数据集和扩增训练样本数据集训练初始端到端文本 识别模型,得到端到端文本识别模型。
作为本发明的另一个方面,还提供一种端到端文本识别方法,识 别方法方法基于训练方法训练得到的端到端文本识别模型来实现,端 到端文本识别模型包括文本检测模块和文本识别模块,方法包括:
将待测文本图像输入端到端文本识别模型的文本检测模块中,得 到字级特征;
将字级特征输入端到端文本识别模型的文本识别模块中,得到序 列信息,序列信息用于表征文本图像中文本的内容。
作为本发明的一个方面,还提供一种端到端文本识别模型的训练 装置,包括:
构建模块,用于构建初始端到端文本识别模型,其中,初始端到 端文本识别模型包括初始文本检测模块和初始文本识别模块;
获取模块,获取训练样本数据集;
样本生成模块,用于利用样本生成算法处理训练样本数据集,生 成扩增训练样本数据集,以便增加用于训练初始文本识别模块的训练 样本数量;以及
训练模块,用于利用训练样本数据集和扩增训练样本数据集训练 初始端到端文本识别模型,得到端到端文本识别模型,其中,端到端 文本识别模型包括文本检测模块和文本识别模块。
基于上述技术方案,本发明的端到端文本识别方法具有以下积极 效果:
利用样本生成算法生成大量用于训练文本识别模块的训练样本, 从而有效地解决了文本检测模块过拟合和文本识别模块欠拟合的问题, 提升端到端文本识别模型的识别精度;
利用弱监督学习算法从字级标注中生成字符级标注并使用这些生 成的标注来训练文本识别模块;
利用多级特征增强模块融合多级特征,并增强这些特征以使文本 检测模块具有更强的特征表示能力,从而能更准确地检测文本。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其 他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了本发明实施例的端到端文本识别模型训练方法 流程图;
图2示意性示出了本发明实施例的端到端文本识别方法流程图;
图3示意性示出了本发明实施例的端到端文本识别模型的模型框 架图;
图4示意性示出了本发明实施例的多级特征增强模块的网络结构 图;
图5示意性示出了本发明实施例的端到端文本识别方法在数据集 ICDAR2013上的识别效果示意图;
图6示意性示出了本发明实施例的端到端文本识别方法在数据集 ICDAR2015上的识别效果示意图;
图7示意性示出了本发明实施例的端到端文本识别方法在数据集 Total-Text上的识别效果示意图;
图8示意性示出了本发明实施例的端到端文本识别模型的训练装 置的方框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些 描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述 中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全 面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情 况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术 的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本 发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、 操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、 步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人 员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解 释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于 刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下, 一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如,“具有A、B和C中至少一个的***”应包括但不限于单独具 有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B 和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等 中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人 员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少 一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、 具有A和B、具有A和C、具有B和C、和/或具有A、B、C的*** 等)。
本发明提出了一个样本生成算法来根据字符位置和标签信息在线 生成用于训练文本识别模块的样本。然而,现有的很多数据集都没有 提供字符级标注,因此,本发明提出了一种弱监督的学习策略用于从 字级的标注中生成字符级标注,然后样本生成算法利用弱监督学习策 略生成的字符级标注生成扩增的字级特征数据集,并利用扩增的字级 特征数据集来训练文本识别模块。
作为本发明的一个方面,提供一种端到端文本识别模型的训练方 法,参照图1,包括操作S101~操作S104。
在操作S101、构建初始端到端文本识别模型,其中,初始端到端 文本识别模型包括初始文本检测模块和初始文本识别模块;
根据本发明的实施例,初始文本检测模块可以包括特征提取分支、 全局文本分割分支、检测分支和字/字符分割分支。
根据本发明的实施例,特征提取分支可以包括ResNet50网络和 FPN网络。
在操作S102、获取训练样本数据集;
在操作S103、利用样本生成算法处理训练样本数据集中的训练样 本,生成扩增训练样本数据集,以便增加用于训练初始文本识别模块 的训练样本数量;以及
在操作S104、利用训练样本数据集和扩增训练样本数据集训练初 始端到端文本识别模型,得到端到端文本识别模型。
根据本发明的实施,利用样本生成算法生成大量用于训练文本识 别模块的训练样本,从而有效地解决了文本检测模块过拟合和文本识 别模块欠拟合的问题,提升端到端文本识别模型的识别精度。
根据本发明的实施例,训练样本数据集包括预训练样本数据集, 其中,预训练样本数据集中的预训练样本包括字符级标注信息,其中, 字符级标注信息包括字符级位置信息和字符级标签信息;
利用样本生成算法处理训练样本数据集中的训练样本,生成扩增 训练样本数据集包括:
利用样本生成算法处理预训练样本中的字符级标注信息,生成扩 增预训练样本数据集,其中扩增预训练样本数据集包括多个扩增预训 练样本。
根据本发明的实施例,利用训练样本数据集和扩增训练样本数据 集训练初始端到端文本识别模型,得到端到端文本识别模型包括:
利用预训练样本数据集训练初始文本检测模块,得到预训练文本 检测模块;
利用扩增预训练样本数据集训练初始文本识别模块,得到预训练 文本识别模块。
根据本发明的实施例,由于训练样本数据集中的训练样本,即文 本图像中只有几个字级特征(word),不能够使得文本识别模块收敛, 因此本发明利用样本生成算法来生成更多用于训练文本识别模块的字 级特征。
根据本发明的实施例,文本识别模块的输入是字级特征,用于输 入文本识别模块的字级特征可以是训练样本数据集中提供了字级标注, 直接使用训练样本数据集提供的字级标注(这些标注包括字级标签信 息,即字级特征的内容和字级位置信息),即可根据训练样本数据集提 供的字级标注剪裁下来与字级标注对应的特征。但是并不局限于此, 利用样本数据集提供的字级标注剪裁的特征数量还不够,还可以利用 样本生成算法SGA来将预训练样本生成更多的字级特征,进而得到扩 增预训练样本数据集。
根据本发明的可选实施例,利用样本生成算法SGA生成字级特征 的方法可以为根据字符的标签信息和对应的字符位置信息剪裁出各个 字符对应的字符级特征,然后将这些字符级特征随机组合,得到字级 特征。例如单词world,将w,o,r,l,d对应的字符级特征剪裁下来, 然后随机组合,可能组合成world,wldor,oldwr等字级特征。然后把 这些生成的字级特征输入到初始文本识别模块,用于训练初始文本识 别模块。
根据本发明的实施例,扩增预训练样本数据集中可以包括100个 扩增训练样本,从而显著地增加了用于训练初始文本识别模块的训练 样本数,有效地解决了文本检测模块过拟合和文本识别模块欠拟合的 问题。
根据本发明的实施例,训练样本数据集还包括弱监督训练样本数 据集,其中,弱监督训练样本数据集中的训练样本包括字级标注信息, 其中,字级标注信息包括字级位置信息和字级标签信息;
利用样本生成算法处理训练样本数据集中的训练样本,生成扩增 训练样本数据集还包括:
利用预训练文本检测模块处理弱监督训练样本数据集中的训练样 本,生成预测字符级标注信息;其中,预测字符级标注信息包括预测 字符级位置信息和预测字符级标签信息;
利用样本生成算法处理预测字符级标注信息,生成扩增弱监督训 练样本数据集,其中扩增弱监督训练样本数据集包括多个扩增弱监督 训练样本,以便利用扩增弱监督训练样本数据集训练预训练文本识别 模块。
本发明提供的实施例,创新性使用弱监督方法用于端到端文本识 别模型的训练任务中,也创新的结合样本生成算法在线生成样本用于 训练初始文本识别模块。
本发明通过弱监督的方式从字级标注中生成字符级标注用于端到 端文本识别模型的训练,并利用样本生成算法SGA基于字符级标注在 线生成样本用于训练文本识别模块,从而有效地解决文本检测模块过 拟合和文本识别模块欠拟合的问题,提升端到端文本识别的精度。
根据本发明的实施例,对于没有提供字符级标注的弱监督训练样 本数据集中的字级标注信息,可以利用预训练后的文本检测模块从字 级标注中生成预测的字符级标注。样本生成算法SGA将该预测的字符 级标注在线生成样本所需的字符级标注(字符的类别和字符的类别位 置信息)可以包括两种来源,一种是训练样本数据集本来就提供了, 可以直接使用。
以下用具体示例加以解释样本生成算法SGA生成样本的过程,需 要说明的是,以下示例仅用于示例性说明样本生成算法SGA生成样本 的过程,而不对本发明做任何限制。
根据本发明的实施例,假设利用弱监督学习从字级标注中生成M 个字符级标注,利用样本生成算法SGA从M个字符级标注中随机选 择N个字符级标注,其中N<=M。然后,对于样本生成算法SGA随机 选择的N个字符级标注,根据N个字符级标注确定N个字符对应的N个字符级特征,然后,将N个字符级特征拼接成为一个新的字级特征 X,从而在线生成了一个新的样本用于文本识别模块的训练。
假设一幅文本图像中包含两个文本,cat和zoo。利用弱监督算法 处理文本图像后,得到字符级标注集合{z,o,o,c,a,t},利用样 本生成算法SGA从字符级标注集合中随机选取N个字符级标注,根 据N个字符级标注剪裁N个字符级标注对应的N个字符级特征,组成单词。例如,N为3时,首先,从字符级标注集合{z,o,o,c,a, t}中随机选取一个字符级标注,例如o;然后再从字符级标注集合{z, o,o,c,a,t}中随机选取一个字符级标注,例如t;最后再从字符级 标注集合{z,o,o,c,a,t}中随机选取一个字符级标注,例如t;通 过上述操作,获取了三个字符级标注o、t、t,根据三个字符级标注o、 t、t剪裁下来三个字符级标注o、t、t对应的字符级特征o、t、t,组 成一个单词ott。需要说明的是,利用样本生成算法SGA生成样本时, 无需考虑生成的样本是否为正确的单词,由于非正确的单词具有无序 性反而可以增加样本的多样性,进而更有利于增强文本识别模块的鲁 棒性。至此,样本生成算法SGA根据字符级标注集合{z,o,o,c,a, t}生成了一个单词,也即一个样本。通过检测分支得到的字符级标注 集合可以包括M个字符,由于N取的过小不利于文本识别模块的训练, 所以N的取值可以为:3<=N<=M。
在上述示例中,字符级标注集合{z,o,o,c,a,t}中虽然有两 个字符级标注o,但是每个字符级标注o在文本图像中的坐标不同, 所以可以将两个字符级标注o作为两个不同的个体,选了第一个字符 级标注o之后还可以选第一个字符级标注o或者另一个字符级标注o。 假设集合中包括6个字符级标注,利用样本生成算法SGA进行选择时, 每次都是从字符级标注集合中的6个字符级标注中选一个,所以生成 的样本可以为ooooo,所有字符均相同。具体过程可以为:每次都生 成一个随机数N,例如第一次生成了一个随机数3,所以随机选择3 个字符组成一个新的单词,这三个字符,每次都是从所有的字符中选, 所以可能刚好3个都是同一个字符。第二次又生成随机数,可能是3, 4,5,6。然后又剪裁对应的特征组成一个新的单词。以此类推,在本 发明的实施例中,利用样本生成算法SGA为每幅文本图像生成100个 新的样本。利用样本生成算法SGA为每幅文本图像生成的100个新的 样本中,可能存在若干相同的样本,例如生成的两个样本均为world, 此时将每个样本作为单独的样本输入到文本识别模块中,而不进行舍 弃,以保证样本生成算法SGA生成的样本数量足够多。
根据本发明的实施例,利用样本生成算法SGA生成样本后,根据 训练样本数据集提供的K个字级标注得到与K个字级标注对应的K个 特征。可以将根据样本数据集提供的K个字级标注得到的K个特征和 由样本生产算法SGA生成的100个样本均输入文本识别模块,用于训 练文本识别模块。
根据本发明的实施例,文本识别模块可以是基于2维空间注意力 机制的文本识别模块。为了防止注意力漂移,使得注意力在每个解码 阶段更好地对齐,本发明使用了位置嵌入机制,使得可以明确文本识 别模块在每个处理步骤中处理的是第几个字符。文本识别模块的输出 层可以包括63个神经元,其中,可以包括10个用于输出***数字 的神经元,可以包括26个用于输出英文字符的衬经元,可以包括26 个用于输出标点符号的神经元,还可以包括一个用于输出序列截止符 的神经元,其中,序列截止符用于表示每个单词识别过程的结束。
由于现有技术中的CTC(Connectionist Temporal Classification,连 接主义时间分类器)和基于一维空间注意力机制的文本识别模型不能 有效地识别不规则文本,例如曲形文本,因此本发明的实施例使用基 于2-D注意力的文本识别模块来识别文本,基于2-D注意力的文本识 别模块使用卷积神经网络作为编码器进行特征提取操作,并使用基于 2-D注意力机制的解码器来解码字符序列。
位置嵌入机制的原理是通过正弦函数和余弦函数来计算出一个单 词中的每个字符在单词中的位置,从而使得2维空间注意力机制关注 到当前正在处理的字符而不是未在进行处理字符,进而提升了文本识 别的精度。
根据本发明的可选实施例,用于训练初始端到端文本识别模型中 参数的损失函数可以如下:
L=Lrpn+Lgseg+Lrcnn+Lmask+Lrecog
其中Lrpn和Lrcnn分别是RPN和检测分支的损失函数,Lgseg是全局 文本分割分支的损失函数,使用的是dice loss。Lmask是字/字符分割分 割的损失函数,使用的是二值交叉熵损失函数,Lrecog是文本识别模块 的损失函数。
其中,Lrecog是文本识别模块的损失函数,具体如下:
P(yt)=softmax(Wo×xt+bo);
(xt,st)=RNN(st-1,rt);
Figure BDA0002942526350000101
其中p(yt)是每个时间步t预测的结果的条件概率、t表示每个 时间步、T表示每个字符串处理的所有时间、Wo表示权重、xt表示RNN 在t时刻的输出、bo表示偏置、St表示RNN在t时刻的隐藏状态、rt表示当前的输入以及上一个时间步的输出。
作为本发明的另一个方面,参照图2,还提供一种端到端文本识 别方法,文本识别方法基于训练方法训练得到的端到端文本识别模型 来实现,端到端文本识别模型包括文本检测模块和文本识别模块,方 法包括操作S201和操作S202。
在操作S201,将待测文本图像输入端到端文本识别模型的文本检 测模块中,得到字级特征;
在操作S202,将字级特征输入端到端文本识别模型的文本识别模 块中,得到序列信息,序列信息用于表征文本图像中文本的内容。
根据本发明的实施例,文本检测模块包括检测分支、字/字符分割 分支和全局文本分割分支;其中,字/字符分割分支包括卷积单元和多 级特征增强单元;
将待测文本图像输入端到端文本识别模型的文本检测模块,得到 字级特征包括:
利用检测分支处理待测文本图像,得到分类和回归特征图;
利用全局文本分割分支处理待测文本图像,得到全局信息特征图;
利用字/字符分割分支中的卷积单元处理待测文本图像,得到字级 信息特征图;
利用多级特征增强单元处理全局信息特征图和字级特征图,得到 字/字符分割图;
将分类和回归特征图与字/字符分割图进行融合,得到字级特征。
根据本发明的其他实施例,可以仅利用检测分支处理待测文本图 像,得到字级标注信息,即得到字级标签信息和字级位置信息。
但是需要说明的是,利用检测分支得到的字级标签信息和字级位 置信息不够精确,包含有噪声。
根据本公开的实施例,还可以利用将检测分支、全局文本分割分 支与字/字符分割分支相结合,实现精确的字级特征输出。
根据本发明的实施例,如图3所示,通过利用字/字符分割分支中 的多级特征增强单元MFE处理全局信息特征图F4以及字级信息特征 图F3,得到字/字符分割图,该字/字符分割图可以确定出待测文本图 像中文本的轮廓。可以预定义轮廓内取值为1,轮廓外取值为0。
根据本发明的实施例,将字/字符分割分支处理得到的字/字符分割 图及检测分支处理得到的分类和回归特征图进行元素级相乘融合,得 到字级特征。字/字符分割图包含有待测文本图像中的文本的精确的轮 廓,字/字符分割图与包含噪声的分类和回归特征图进行元素级相乘后, 分类和回归特征图中与字/字符分割图轮廓内对应的区域得以保留,而 与轮廓外对应的区域均被过滤掉,从而可以过滤掉分类和回归特征图 中的噪声,进而可以得到较为精确的字级特征。
根据本发明的实施例,文本检测模块还包括特征提取分支、区域 建议网络和候选框特征提取网络;
在分别利用检测分支、字/字符分割分支和全局文本分割分支处理 待测文本图像之前,将待测文本图像输入端到端文本识别模型的文本 检测模块,得到字级特征还包括:
利用特征提取分支处理待测文本图像,得到多尺度特征图;
利用全局文本分割分支处理多尺度特征图,得到全局信息特征图;
利用区域建议网络处理多尺度特征图,生成至少一个候选框;
利用候选框特征提取网络提取多尺度特征图中对应至少一个候选 框的特征,得到第二特征图;
基于第二特征图,利用字/字符分割分支中的卷积单元得到字级信 息特征图。
根据本发明的实施例,如图3所示,特征提取分支可以包括 ResNet50网络和FPN网络,利用特征提取分支中的ResNet50网络和 FPN网络处理待测文本图像后,得到多尺度特征图F。
根据本发明的实施例,利用区域建议网络RPN处理多尺度特征图 F,生成的候选框R可以如图3中的区域建议网络RPN中的黑色矩形 框所示。
根据本发明的实施例,利用区域建议网络RPN处理多尺度特征图 F后可以生成一个、两个或多个候选框,图3中候选框数量仅为示例。
根据本发明的实施例,假设文本图像中有一个文本,可以根据标 注信息确定把文本图像中的文本框住的最小的水平矩形是A,假设利 用区域建议网络RPN处理多尺度特征图F后生成一个候选框B,若候 选框B满足如下条件:最小的水平矩形A和候选框B相交的面积除以 (最小的水平矩形A的面积+候选框B的面积-最小的水平矩形A与候 选框B相交的面积)大于预设阈值,例如0.7,则证明这个候选框B 初步框住了这个文本,因此能保留下来,用于后续的进一步调整候选 框B的位置,使得它刚好能将这个文本框住。需要说明的是,上述预 设阈值为0.7仅作为示例,而不对本发明做任何限制。
这些矩形框经过处理之后,置信度高的被保留了下来。根据本发 明的实施例,置信度可以为上述预设阈值。根据本发明的实施例,可 以将置信度大于0.6确定为置信度高。
根据本发明的实施例,对于每个被保留下来的候选框,利用候选 框特征提取网络RoIAlign从多尺度特征图F中提取与该候选框对应的 特征从而得到第二特征图F2。
根据本发明的实施例,还可以利用检测分支处理第二特征图F2 进行字/字符的分类和边框回归。
根据本发明的实施例,检测分支可以包括依次堆叠的3×3卷积核 和1×1卷积核。
根据本发明的实施例,第二特征图F2经过3×3卷积和1×1卷积 处理之后,再经过并行分支进行字/字符的分类和字/字符边框的回归处 理,得到分类和回归特征图。
根据本发明的实施例,分类可以用于分出候选框框住的字符内容, 即字符级标签信息,若候选框框住的是一整个文本(word-level),则 就粗略地将候选框框住的内容判断为text,然后将候选框框住的内容 输入到文本识别模块进行识别。边框回归可以用于预测出候选框左上 角的坐标以及候选框的宽和高,从而确定候选框框住的文本的位置。
根据本发明的实施例,基于第二特征图F2,利用字/字符分割分支 中的卷积单元得到字级信息特征图可以包括如下操作。
第二特征图F2经过一个字/字符分割分支中的卷积单元的3×3卷 积核处理之后得到字级信息特征图F3。
根据本发明的实施例,得到字级信息特征图F3后,可以将字级信 息特征图F3和全局信息特征图F4输入到多级特征增强单元MFE中, 字级信息特征图F3和全局信息特征图F4经过多级特征增强单元MFE 的处理后得到字/字符分割图。
如图4所示,多级特征增强单元可以包括第一融合层1、第一卷 积层2、第二卷积层3、第三卷积层4、第四卷积层5、第五卷积层6、 第六卷积层7及第二融合层8。
利用多级特征增强单元处理字级信息特征图F3和全局信息特征 图F4,得到字/字符分割图包括如下操作。
利用第一融合层1处理字级信息特征图F3及全局信息特征图F4, 得到初始融合特征图;利用第一卷积层2处理初始融合特征图,得到 第一融合特征图;利用第二卷积层3处理第一融合特征图,输出第二 融合特征图;利用第三卷积层4处理第一融合特征图,得到第三融合 特征图;利用第四卷积层5处理第三融合特征图,得到第四融合特征 图;利用第五卷积层6处理第三融合特征图,得到第五融合特征图; 利用第六卷积层7处理第五融合特征图,得到第六融合特征图;以及 利用第二融合层8处理第二融合图、第四融合图及第六融合特征图, 得到字/字符分割图。
根据本发明的实施例,第一卷积层2包括1x1卷积核;第二卷积 层3包括3x3卷积核,其中,3x3卷积核的空洞率为1;第三卷积层4 包括1x1卷积核;第四卷积层5包括3x3卷积核,其中,3x3卷积核 的空洞率为2;第五卷积层6包括1x1卷积核;第六卷积层7包括3x3 卷积核,其中,3x3卷积核的空洞率为3。
根据本发明的实施例,空洞率为1、2和3的卷积核分别表示隔1、 2和3个像素采样一次。
根据本发明的实施例,第一融合层1可以包括第一元素级相加模 块。
根据本发明的实施例,第二融合层8可以包括第二元素级相加模 块。
根据本发明的实施例,多级特征增强单元MFE用于融合多级特征, 并增强这些特征从而使文本检测模块具有更强的特征表示能力,从而 使文本检测模块能更准确地检测文本。
根据本发明的实施例,利用全局文本分割分支处理多尺度特征图 F,得到全局信息特征图F4可以包括如下操作。
将多尺度特征图F依次经过上采样、元素集相加处理得到包括多 尺度特征和全局信息的特征图F1;以及
利用候选框特征提取网络RolAlign根据候选框来提取特征图F1 的特征,得到全局信息特征图F4。
根据本发明可选实施例,利用全局文本分割分支的1x1卷积核和 sigmoid函数处理特征图F1,得到文本分割图。
根据本发明的实施例,利用多级特征增强单元MFE处理全局信息 特征图F4和字级信息特征图F3,得到字/字符分割图还可以包括如下 操作。
利用多级特征增强单元MFE处理全局信息特征图和字级信息特 征图F3,得到中间特征图F5;
利用字/字符分割分支的第二卷积单元和第三卷积单元处理中间 特征图F5,得到字/字符分割图。
根据本发明的实施例,第二卷积单元可以包括3x3卷积核;第三 卷积单元可以包括一个63通道的1x1卷积核。根据本发明的实施例, 63个通道中,可以包括10个用于分割数字的通道、包括52个用于分 割英文字符的通道、包括1个用于完整的字分割的通道。
根据本发明的实施例,可以首先利用合成数据集SynthText和 ICDAR2013两个数据集对端到端初始文本识别模型进行两轮预训练, 然后将预训练好的端到端文本识别模型在只有字级标注的数据集 ICDAR2015和Total-Text数据集上进行预测,从而得到字符级标注。 最后,使用得到的字符级标注和提供的字级标注在10000幅SynthText, ICDAR2013,ICDAR2015,Total-Text和SCUT组成的联合数据集上进 行微调300k次迭代,从而得到训练好的端到端文本识别模型
与现有方法相比,例如Jaderberg等使用的识别方法,本发明的端 到端文本识别方法在多个数据集上达到了最好的效果,本发明在数据 集ICDAR2013上的识别效果具体可参见表1。
表1
Figure BDA0002942526350000161
其中,Detection是文本检测模块输出的结果,R、P及F分别是 recall、precision及F-measure。End-to-end是端到端识别的结果,是端 到端文本识别模型输出的结果。S,W,G是一些参考词典,分别表示 词典strong,weak,generic,强的字典表示识别出来的单词肯定在这 100多个单词中。假设一个单词是world,识别出的是worldd,strong 词典可能有world,wrold,wolrd,等等,可以用代码而不是人为从里 面找出一个最匹配的作为最终结果。FPS是速度,表示每秒能处理几 幅图像。
检测结果用F作为综合指标,从表1可以看出,本发明的F是最 高的,即表明检测效果比别的方法都好。对于端到端识别结果,本发 明的文本识别方法在使用G字典的时候效果是最好的,表示它没有那 么依赖于使用字典来矫正识别的结果。本发明在数据集ICDAR2013 上的识别效果如图5所示。
对于倾斜文本ICDAR2015,本发明的F只比最好的结果差0.7%, 但是端到端识别结果在使用S,W,G三种字典的时候效果都是最好 的,表示它在倾斜文本上具有很好的端到端文本识别能力。本发明在 数据集ICDAR2015上的识别效果如图6所示。识别效果的具体参数信 息说明如表2所示。
表2
Figure BDA0002942526350000171
对于曲形文本Total-Text,本发明的F只比最好的结果差0.3%, 但是端到端识别结果在不使用字典的时候(None),和使用测试图像中 的所有文本作为字典的时候,效果都是最好的,表明它在曲形文本上 具有很好的端到端文本识别能力。本发明在数据集Total-Text上的识别 效果如图7所示。识别效果具体参数信息说明如表3:
表3
Figure BDA0002942526350000172
参照图8,作为本发明的另一个方面,还提供一种端到端文本识 别模型的训练装置800,包括构建模块810、获取模块820、样本生成 模块830及训练模块840。
构建模块810,用于构建初始端到端文本识别模型,其中,初始 端到端文本识别模型包括初始文本检测模块和初始文本识别模块;
获取模块820,获取训练样本数据集;
样本生成模块830,用于利用样本生成算法处理训练样本数据集, 生成扩增训练样本数据集,以便增加用于训练初始文本识别模块的训 练样本数量;以及
训练模块840,用于利用训练样本数据集和扩增训练样本数据集 训练初始端到端文本识别模型,得到端到端文本识别模型,其中,端 到端文本识别模型包括文本检测模块和文本识别模块。
作为本发明的再一个方面,还提供一种端到端文本识别装置,端 到端文本识别装置包括检测模块和识别模块。
检测模块,用于将待测文本图像输入端到端文本识别模型的文本 检测模块中,得到字级特征;以及
识别模块,用于将字级特征输入端到端文本识别模型的文本识别 模块中,得到序列信息,序列信息用于表征文本图像中文本的内容。
需要说明的是,本发明的实施例中端到端文本识别模型的训练装 置部分与本发明的实施例中端到端文本识别模型训练方法部分是相对 应的,端到端文本识别模型的训练装置部分的描述具体参考端到端文 本识别模型训练方法部分,在此不再赘述。
需要说明的是,本发明的实施例中端到端文本识别装置部分与本 发明的实施例中端到端文本识别方法部分是相对应的,端到端文本识 别装置部分的描述具体参考端到端文本识别方法部分,在此不再赘述。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为 了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述 了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合 使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明 的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改 都应落在本发明的范围之内。

Claims (10)

1.一种端到端文本识别模型的训练方法,包括:
构建初始端到端文本识别模型,其中,所述初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块;
获取训练样本数据集;
利用样本生成算法处理所述训练样本数据集中的训练样本,生成扩增训练样本数据集,以便增加用于训练所述初始文本识别模块的训练样本数量;以及
利用所述训练样本数据集和所述扩增训练样本数据集训练所述初始端到端文本识别模型,得到所述端到端文本识别模型。
2.根据权利要求1所述的方法,其中,
所述训练样本数据集包括预训练样本数据集,其中,所述预训练样本数据集中的预训练样本包括字符级标注信息,其中,所述字符级标注信息包括字符级位置信息和字符级标签信息;
所述利用样本生成算法处理所述训练样本数据集中的训练样本,生成扩增训练样本数据集包括:
利用所述样本生成算法处理所述预训练样本中的字符级标注信息,生成扩增预训练样本数据集,其中所述扩增预训练样本数据集包括多个扩增预训练样本。
3.根据权利要求2所述的方法,
所述利用所述训练样本数据集和所述扩增训练样本数据集训练所述初始端到端文本识别模型,得到所述端到端文本识别模型包括:
利用所述预训练样本数据集训练所述初始文本检测模块,得到预训练文本检测模块;
利用所述扩增预训练样本数据集训练所述初始文本识别模块,得到预训练文本识别模块。
4.根据权利要求3所述的方法,
其中,所述训练样本数据集还包括弱监督训练样本数据集,其中,所述弱监督训练样本数据集中的训练样本包括字级标注信息,其中,所述字级标注信息包括字级位置信息和字级标签信息;
所述利用样本生成算法处理所述训练样本数据集中的训练样本,生成扩增训练样本数据集还包括:
利用所述预训练文本检测模块处理所述弱监督训练样本数据集中的训练样本,生成预测字符级标注信息;其中,所述预测字符级标注信息包括预测字符级位置信息和预测字符级标签信息;
利用所述样本生成算法处理所述预测字符级标注信息,生成扩增弱监督训练样本数据集,其中所述扩增弱监督训练样本数据集包括多个扩增弱监督训练样本,以便利用所述扩增弱监督训练样本数据集训练所述预训练文本识别模块。
5.一种端到端文本识别方法,其中,所述方法基于如权利要求1至4任一项所述训练方法训练得到的端到端文本识别模型来实现,所述端到端文本识别模型包括文本检测模块和文本识别模块,所述方法包括:
将待测文本图像输入所述端到端文本识别模型的文本检测模块中,得到字级特征;
将所述字级特征输入所述端到端文本识别模型的文本识别模块中,得到序列信息,所述序列信息用于表征所述文本图像中文本的内容。
6.根据权利要求5所述的方法,所述文本检测模块包括检测分支、字/字符分割分支和全局文本分割分支;其中,所述字/字符分割分支包括卷积单元和多级特征增强单元;
所述将待测文本图像输入所述端到端文本识别模型的文本检测模块,得到字级特征包括:
利用所述检测分支处理所述待测文本图像,得到分类和回归特征图;
利用所述全局文本分割分支处理所述待测文本图像,得到全局信息特征图;
利用所述字/字符分割分支中的卷积单元处理所述待测文本图像,得到字级信息特征图;
利用所述多级特征增强单元处理所述全局信息特征图和所述字级特征图,得到字/字符分割图;
将所述分类和回归特征图与所述字/字符分割图进行融合,得到字级特征。
7.根据权利要求6所述的方法,其中,所述文本检测模块还包括特征提取分支、区域建议网络和候选框特征提取网络;
在分别利用所述检测分支、字/字符分割分支和全局文本分割分支处理所述待测文本图像之前,所述将待测文本图像输入所述端到端文本识别模型的文本检测模块,得到字级特征还包括:
利用所述特征提取分支处理所述待测文本图像,得到多尺度特征图;
利用所述全局文本分割分支处理所述多尺度特征图,得到全局信息特征图;
利用所述区域建议网络处理所述多尺度特征图,生成至少一个候选框;
利用所述候选框特征提取网络提取所述多尺度特征图中对应所述至少一个候选框的特征,得到第二特征图;
基于所述第二特征图,利用所述字/字符分割分支中的卷积单元得到字级信息特征图。
8.根据权利要求6所述的方法,其中,所述多级特征增强单元包括第一融合层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层及第二融合层;
所述利用多级特征增强单元处理所述字级信息特征图和所述全局信息特征图,得到字/字符分割图包括:
利用所述第一融合层处理所述字级信息特征图及所述全局信息特征图,得到初始融合特征图;
利用所述第一卷积层处理所述初始融合特征图,得到第一融合特征图;
利用所述第二卷积层处理所述第一融合特征图,输出第二融合特征图;
利用所述第三卷积层处理所述第一融合特征图,得到第三融合特征图;
利用所述第四卷积层处理所述第三融合特征图,得到第四融合特征图;
利用所述第五卷积层处理所述第三融合特征图,得到第五融合特征图;
利用所述第六卷积层处理所述第五融合特征图,得到第六融合特征图;以及
利用所述第二融合层处理所述第二融合图、所述第四融合图及所述第六融合特征图,得到字/字符分割图。
9.根据权利要求8所述的方法,其中:
所述第一卷积层包括1x1卷积核;
所述第二卷积层包括3x3卷积核,其中,所述3x3卷积核的空洞率为1;
所述第三卷积层包括1x1卷积核;
所述第四卷积层包括3x3卷积核,其中,所述3x3卷积核的空洞率为2;
所述第五卷积层包括1x1卷积核;
所述第六卷积层包括3x3卷积核,其中,所述3x3卷积核的空洞率为3。
10.一种端到端文本识别模型的训练装置,包括:
构建模块,用于构建初始端到端文本识别模型,其中,所述初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块;
获取模块,获取训练样本数据集;
样本生成模块,用于利用样本生成算法处理所述训练样本数据集,生成扩增训练样本数据集,以便增加用于训练所述初始文本识别模块的训练样本数量;以及
训练模块,用于利用所述训练样本数据集和所述扩增训练样本数据集训练所述初始端到端文本识别模型,得到所述端到端文本识别模型,其中,所述端到端文本识别模型包括文本检测模块和文本识别模块。
CN202110186700.4A 2021-02-10 2021-02-10 端到端文本识别方法、模型训练方法及装置 Active CN112861739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110186700.4A CN112861739B (zh) 2021-02-10 2021-02-10 端到端文本识别方法、模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110186700.4A CN112861739B (zh) 2021-02-10 2021-02-10 端到端文本识别方法、模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN112861739A true CN112861739A (zh) 2021-05-28
CN112861739B CN112861739B (zh) 2022-09-09

Family

ID=75988149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110186700.4A Active CN112861739B (zh) 2021-02-10 2021-02-10 端到端文本识别方法、模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN112861739B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468689A (zh) * 2021-07-08 2021-10-01 天津商业大学 剐削工艺优化方法、优化模型训练方法及装置
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及***
CN114036907A (zh) * 2021-11-18 2022-02-11 国网江苏省电力有限公司电力科学研究院 一种基于领域特征的文本数据扩增方法
CN114863434A (zh) * 2022-04-21 2022-08-05 北京百度网讯科技有限公司 文字分割模型的获取方法、文字分割方法及其装置
CN116958981A (zh) * 2023-05-31 2023-10-27 广东南方网络信息科技有限公司 一种文字识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110322495A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110414519A (zh) * 2019-06-27 2019-11-05 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置
CN110766008A (zh) * 2019-10-29 2020-02-07 北京华宇信息技术有限公司 一种面向任意方向和形状的文本检测方法
CN111598082A (zh) * 2020-04-24 2020-08-28 云南电网有限责任公司电力科学研究院 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110322495A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110414519A (zh) * 2019-06-27 2019-11-05 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置
CN110766008A (zh) * 2019-10-29 2020-02-07 北京华宇信息技术有限公司 一种面向任意方向和形状的文本检测方法
CN111598082A (zh) * 2020-04-24 2020-08-28 云南电网有限责任公司电力科学研究院 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHOWDHURY A 等: "An Efficient End-to-End Neural Model for Handwritten Text Recognition", 《ARXIV》 *
HONG-HYUN 等: "Text Detection with Deep Neural Network System Based on Overlapped Labels and a Hierarchical Segmentation of Feature Maps", 《INTERNATIONAL JOURNAL OF CONTROL, AUTOMATION AND SYSTEMS》 *
LI T 等: "Natural Scene Text Detection Based On Multi-level Fusion Proposal Network", 《IOP CONFERENCE SERIES MATERIALS SCIENCE AND ENGINEERING》 *
SIYANG QIN 等: "Towards Unconstrained End-to-End Text Spotting", 《ARXIV》 *
Y. ZHOU 等: "MLTS: A Multi-Language Scene Text Spotter", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *
何鎏一 等: "基于深度学习的光照不均匀文本图像的识别***", 《计算机应用与软件》 *
蔡鑫鑫 等: "基于分割的任意形状场景文本检测", 《计算机***应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468689A (zh) * 2021-07-08 2021-10-01 天津商业大学 剐削工艺优化方法、优化模型训练方法及装置
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及***
CN114036907A (zh) * 2021-11-18 2022-02-11 国网江苏省电力有限公司电力科学研究院 一种基于领域特征的文本数据扩增方法
CN114863434A (zh) * 2022-04-21 2022-08-05 北京百度网讯科技有限公司 文字分割模型的获取方法、文字分割方法及其装置
CN116958981A (zh) * 2023-05-31 2023-10-27 广东南方网络信息科技有限公司 一种文字识别方法及装置
CN116958981B (zh) * 2023-05-31 2024-04-30 广东南方网络信息科技有限公司 一种文字识别方法及装置

Also Published As

Publication number Publication date
CN112861739B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN112861739B (zh) 端到端文本识别方法、模型训练方法及装置
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
US20180137349A1 (en) System and method of character recognition using fully convolutional neural networks
CN113688652B (zh) 一种异常驾驶行为的处理方法和装置
CN111488770A (zh) 交通标志识别方法、神经网络模型的训练方法和装置
CN103984943B (zh) 一种基于贝叶斯概率框架的场景文本识别方法
Butt et al. Attention-based CNN-RNN Arabic text recognition from natural scene images
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN112528894B (zh) 一种差异项判别方法及装置
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
CN113378815B (zh) 一种场景文本定位识别的***及其训练和识别的方法
Gómez et al. Multimodal grid features and cell pointers for scene text visual question answering
KR20220000946A (ko) 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법 및 이를 이용한 액티브 러닝 디바이스
Wang et al. From object detection to text detection and recognition: A brief evolution history of optical character recognition
Gui et al. Adaptive Context-aware Reinforced Agent for Handwritten Text Recognition.
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及***
CN110659572B (zh) 基于双向特征金字塔的视频动作检测方法
CN116958561A (zh) 检测异常对象的方法、装置和存储介质
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
Zhang et al. C2st: Cross-modal contextualized sequence transduction for continuous sign language recognition
Li Research on methods of english text detection and recognition based on neural network detection model
Kumar et al. Scene text recognition using artificial neural network: a survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant