CN108304761A - 文本检测方法、装置、存储介质和计算机设备 - Google Patents

文本检测方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN108304761A
CN108304761A CN201710874973.1A CN201710874973A CN108304761A CN 108304761 A CN108304761 A CN 108304761A CN 201710874973 A CN201710874973 A CN 201710874973A CN 108304761 A CN108304761 A CN 108304761A
Authority
CN
China
Prior art keywords
text
subregion
matrix
image
prognostic chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710874973.1A
Other languages
English (en)
Inventor
刘铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710874973.1A priority Critical patent/CN108304761A/zh
Publication of CN108304761A publication Critical patent/CN108304761A/zh
Priority to PCT/CN2018/107032 priority patent/WO2019057169A1/zh
Priority to US16/572,171 priority patent/US11030471B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种文本检测方法,包括:获取待检测图像;将待检测图像输入至神经网络模型,输出目标特征矩阵;将目标特征矩阵输入至全连接层,全连接层根据预设锚点区域将目标特征矩阵的各个元素映射到待检测图像对应的预测图像子区域;获取预测图像子区域的文本特征信息,根据预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定待检测图像对应的文本区域。使用预测图像子区域确定待检测图像的文本区域,提高了检测的准确性和鲁棒性,还提供一种文本检测装置、存储介质和计算机设备。

Description

文本检测方法、装置、存储介质和计算机设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本检测方法、装置、存储介质和计算机设备。
背景技术
为了满足一定的应用需求需要对图像中的目标物体进行检测,由于通常的物体具有完整的封闭边界,因此通常的目标物体检测方法通过直接预测目标物体所在的候选区域,并能够根据预测候选区域中的目标物体的一部分特征推测物体类别,实现对目标物体的检测。
但是,文字与通常的物体不同,文字的边界是随着笔画变化的,且一个文字之间可能存在空格,通过一部分文字较难确定文字的类型,因此,利用传统的目标物体检测算法容易由于文字空格造成错检、漏检,且由于不能根据预测候选区域中的部分文字预测整个文字的类别,导致文字定位精准度不高,检测鲁棒性较低。
发明内容
基于此,有必要针对上述问题,提供一种文本检测方法、装置、存储介质和计算机设备,能够利用小尺度文本区域进行文本检测,提高文本检测的精确度,提高文本检测的鲁棒性。
一种文本检测方法,包括:
获取待检测图像;
将所述待检测图像输入至神经网络模型,输出目标特征矩阵;
将所述目标特征矩阵输入至全连接层,所述全连接层根据预设锚点区域将所述目标特征矩阵的各个元素映射到所述待检测图像对应的预测图像子区域;
获取所述预测图像子区域的文本特征信息,根据所述预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定所述待检测图像对应的文本区域。
一种文本检测装置,包括:
获取模块,用于获取待检测图像;
特征矩阵生成模块,用于将所述待检测图像输入至神经网络模型,输出目标特征矩阵;
文本子区域获取模块,用于将所述目标特征矩阵输入至全连接层,所述全连接层根据预设锚点区域将所述目标特征矩阵的各个元素映射到所述待检测图像对应的预测图像子区域;
文本区域确定模块,用于获取所述预测图像子区域的文本特征信息,根据所述预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定所述待检测图像对应的文本区域。
在其中一个实施例中,所述特征矩阵生成模块还用于对所述待检测图像进行特征提取得到第一特征矩阵,所述第一特征矩阵中的元素为二维元素;将所述第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵;将所述前向特征矩阵和后向特征矩阵拼接得到所述目标特征矩阵。
在其中一个实施例中,所述文本特征信息包括文本置信度;所述信息获取模块还用于获取各个预测图像子区域对应的文本置信度;根据所述文本置信度对各个预测图像子区域进行非极大值抑制,得到文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
在其中一个实施例中,文本检测装置还包括:
修正模块,用于获取各个预测文本行对应的预测水平方向偏移量,根据所述预测水平边界偏移量修正所述预测文本行的水平边界。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,使得所述处理器执行以下步骤:获取待检测图像;将所述待检测图像输入至神经网络模型,输出目标特征矩阵;将所述目标特征矩阵输入至全连接层,所述全连接层根据预设锚点区域将所述目标特征矩阵的各个元素映射到所述待检测图像对应的预测图像子区域;获取所述预测图像子区域的文本特征信息,根据所述预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定所述待检测图像对应的文本区域。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:获取待检测图像;将所述待检测图像输入至神经网络模型,输出目标特征矩阵;将所述目标特征矩阵输入至全连接层,所述全连接层根据预设锚点区域将所述目标特征矩阵的各个元素映射到所述待检测图像对应的预测图像子区域;获取所述预测图像子区域的文本特征信息,根据所述预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定所述待检测图像对应的文本区域。
上述文本检测方法、装置、存储介质和计算机设备,将待检测图像输入至神经网络模型得到目标特征矩阵,通过全连接层将目标特征矩阵根据预设锚点区域映射到待检测图像对应的图像子区域,将图像子区域连接成预测文本行从而确定待检测图像的文本区域。通过神经网络模型得到待处理图像对应的目标特征矩阵,并通过全连接层将目标特征矩阵的各个元素映射到待检测图像对应的位置得到对应的图像子区域,获取图像子区域的文本特征信息,使用文本特征信息反映预测图像子区域的文本特征,实现对待检测图像的切分处理,通过各个预测图像子区域检测待检测图像的文本特征,实现在较小的范围对文本进行检测,由于在小范围内文本通常变化比较小,提高了检测的精确度,通过文本聚类算法将相邻的预测图像子区域生成对应的文本行,由于对预测图像子区域进行了合并,因此,即使文字中存在空格,对相邻预测图像子区域进行合并后,能够将包含空格的字符合并成完整的字符,提高了文本检测的鲁棒性。
附图说明
图1为一个实施例中文本检测方法的流程图;
图2为一个实施例中目标特征矩阵生成方法的流程图;
图3为另一个实施例中目标特征矩阵生成方法的流程图;
图3A为一个实施例中获取预测图像子区域的文本特征信息的流程图;
图4为一个实施例中预测文本行生成方法的流程图;
图5为一个实施例中文本检测模型训练方法的流程图;
图6为一个实施例中文本检测方法的原理架构图;
图7为一个具体实施例中文本检测方法的流程图;
图8为一个实施例中文本检测装置的结构框图;
图9为一个实施例中特征矩阵生成模块的结构框图;
图10为一个实施例中文本区域确定模块的结构框图;
图11为另一个实施例中文本区域确定模块的结构框图;
图12为另一个实施例中文本检测装置的结构框图;
图13为又一个实施例中文本检测装置的结构框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供一种文本检测方法,包括以下内容:
步骤S110,获取待检测图像。
具体地,待检测图像是指待进行文本检测的图像。检测待检测图像中是否包含文本区域以及确定文本区域的位置。待检测图像可以是身份证、名片、广告图片、视频截图等各种类型的图像,待检测图像中的文字尺度可以是任意的。
步骤S120,将待检测图像输入至神经网络模型,输出目标特征矩阵。
具体地,可以将待检测图像输入至神经网络模型进行特征提取,并对提取的特征进行相应卷积处理得到对应的目标特征矩阵。进一步地,也可以预先将神经网络模型作为特征提取器对待检测图像进行特征提取,然后将提取的特征输入到不同的神经网络模型中输出目标特征矩阵。如使用残差网络对待处理图像进行特征提取,残差网络的层数可以根据需要任意设置,且一般层数增多提取的图像特征提高。也可以使用VGG19、Res50、ResNet101等其他网络结构对待检测图像进行特征提取。将提取的特征输入至记忆网络模型进行处理输出目标特征矩阵。
进一步地,输入的待检测图像的尺度是可以变化的,对待检测图像进行特征提取得到的特征维度也是变化的。目标特征矩阵可以看作是表征图像特征值的序列。
步骤S130,将目标特征矩阵输入至全连接层,全连接层根据预设锚点区域将目标特征矩阵的各个元素映射到待检测图像对应的预测图像子区域。
其中,全连接层是指一种卷积层,可由卷积操作实现,在卷积神经网络中起到“分类器”的作用,能够将特征映射到样本空间。锚点区域确定原图的映射范围,表示检测模型关注的区域,通过对锚点区域做多个尺度和宽高比变换,能够实现对多尺度和宽高比的文字的检测。进一步地,预设锚点区域的宽度为固定值。将锚点区域的宽度设置为固定值可以实现在预设宽度的区域范围内对待检测图像进行检测,在较小的范围内水平方向文本变化较小,能够提高文本检测的精确度。预设锚点区域的高度值可以发生变化,如将高度值设置为7,11,18,25,35,56,67,88,100,168,278等,通过变化的高度值实现使用锚点区域能够尽可能覆盖实际场景下形状多变的目标。
具体地,全连接层根据预设锚点区域将目标特征矩阵的各个元素对应的特征映射到待检测图像,得到各个特征在待检测图像中对应的图像子区域。进一步地,当锚点区域的宽度值固定时,映射到原图的特征对应的图像子区域宽度固定,只需要对图像子区域的宽度进行预测即可确定各个图像子区域的位置信息,当预设锚点区域宽度固定时,只需要对图像子区域的高度值进行预测减少了模型优化的搜索空间。
进一步地,将目标特征矩阵的各个元素映射回原图得到对应的图像子区域,对各个图像子区域进行文本检测,实现了对待检测图像的切分,将一个原始图像切分为若干个图像子区域进行文本检测。
步骤S140,获取预测图像子区域的文本特征信息,根据预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定待检测图像对应的文本区域。
其中,文本特征信息是指反映文本属性的信息,文本属性包括图像内的文本位置、文本置信度,预测图像子区域的文本特征信息包括预测图像子区域的文本位置信息和文本置信度,文本位置信息可以通过预测2K垂直坐标偏移量,1K文本行水平边界偏移量确定,其中K为预设的锚点数目,可以根据需要预先设置。文本检测模型经过训练后对待检测图像进行文本检测时,能够给出各个预测图像子区域对应的预测竖直方向偏移量,根据回归方程能够根据文本检测模型预测得到的竖直方向偏移量获取到各个预测图像子区域对应的实际竖直方向偏移量和高度值,从而确定各个预测图像子区域的文本位置信息。文本置信度是指预设图像子区域包含的内容为文本的概率。文本聚类算法是指能够实现将图像子区域连接成对应的文本行的算法或者预定义规则。如输入身份证的图片,能够获取得到身份证中各个文字的左上角和右下角坐标以及置信度。
具体地,根据预测图像子区域对应的文本位置信息和文本置信度,按照一定规则获取处于同一个文本行的图像子区域进行连接,将多个图像子区域连接成对应的文本行,将单个图像子区域连接成对应的文本行能够以行为单位从整体上确定待检测图像对应的文本区域,避免由于图像子区域位置提取到的文字中存在空格造成误检。
本实施例中,将待检测图像输入至神经网络模型得到目标特征矩阵,通过全连接层将目标特征矩阵根据预设锚点区域映射到待检测图像对应的图像子区域,将图像子区域连接成预测文本行从而确定待检测图像的文本区域。通过神经网络模型得到待处理图像对应的目标特征矩阵,并通过全连接层将目标特征矩阵的各个元素映射到待检测图像对应的位置得到对应的图像子区域,获取图像子区域的文本特征信息,使用文本特征信息反映预测图像子区域的文本特征,实现对待检测图像的切分处理,通过各个预测图像子区域检测待检测图像的文本特征,进一步地,根据预测图像子区域的文本特征信息和文本聚类算法,将相邻的预测图像子区域连接成对应的文本行,实现在较小的范围对文本进行检测,由于在小范围内文本通常变化比较小,提高了检测的精确度,通过文本聚类算法将相邻的预测图像子区域生成对应的文本行,由于对预测图像子区域进行了合并,因此,即使文字中存在空格,对相邻预测图像子区域进行合并后,能够将包含空格的字符合并成完整的字符,提高了文本检测的鲁棒性。
如图2所示,在一个实施例中,步骤S120包括:
步骤S121,对待检测图像进行特征提取得到第一特征矩阵,第一特征矩阵中的元素为二维元素。
具体地,利用残差网络作为多层卷积特征提取器对待检测图像进行特征提取,得到经过多层卷积得到的特征矩阵。提取得到的特征矩阵中的元素为二维元素,能够表征特征对应的位置。进一步地,使用的残差网络的层数可以根据需要设置,如设置为50层,使用Res50对待检测图像进行特征提取,一般残差网络层数增多提取的图像特征提高,但增加到一定层数如152层后效果提高逐渐不明显。
在其他实施例中,也可以使用VGG19、ResNet101等其他网络结构对待检测图像进行特征提取。
步骤S122,将第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵。
其中,长短期记忆网络模型是指LSTM(Long Short-Term Memory),一种时间递归神经网络。双向长短期记忆网络模型包括前向长短期记忆网络模型和后向长短期记忆网络模型。
具体地,对待检测图像进行特征提取后反映的是图像的局部信息,而一个单词或句子通常包括多个字符,且字符之间具有很强的关联性,为了反映图像的全局信息,将提取到的特征输入至LSTM中挖掘文字区域包含的序列信息,获取字符之间的关联关系。利用两个长短期记忆网络模型分别对左右两侧字符序列进行建模,形成完成的序列信息,利用特征矩阵反映对应的序列信息。具体地,分别将第一特征矩阵输入到前向长短期记忆网络模型和后向长短期记忆网络模型,前向长短期记忆网络模型对第一特征矩阵进行处理得到前向特征矩阵,前向特征矩阵反映前向序列信息,后向长短期记忆网络模型对第一特征矩阵进行处理得到后向特征矩阵,后向特征矩阵反映后向序列信息,序列信息表征特征元素对应的图像子区域之间的连接关系。
步骤S123,将前向特征矩阵和后向特征矩阵拼接得到目标特征矩阵。
具体地,将前向特征矩阵和后向特征矩阵拼接得到目标特征矩阵,由于前向特征矩阵反映前向序列信息,后向特征矩阵反映后向序列信息,因此目标特征矩阵能够反映各个元素对应的图像子区域的序列信息,表征各个元素对应的图像子区域的连接关系。
本实施例中,预先对待检测图像进行特征提取,利用提取得到的特征进行处理得到目标特征矩阵,将对原图像的处理转化为对原图像对应的特征的处理,极大的降低了信息处理的维度,进一步地,图片共用特征提取层避免了重复计算的问题,提高了信息处理的效率。且使用双向长短期记忆网络模型分别对前向和后向序列信息进行提取,能够更完整的反映特征元素之间的关联关系,提高后续文本区域确定的准确性。
如图3所示,在一个实施例中,步骤S122包括:
步骤S122A,获取当前滑窗矩阵的当前位置,根据当前位置计算当前滑窗矩阵与第一特征矩阵的当前卷积结果,当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵。
其中,滑窗矩阵是指能够滑动,并且在滑动的各个位置与目标矩阵进行卷积的矩阵。滑窗矩阵可以为根据需要设置的卷积核,滑窗矩阵的尺度可以通过设置对应的滑窗尺度确定,如设置滑窗矩阵对应的滑窗尺度为3*3,则滑窗矩阵为3*3的矩阵。
具体地,由于将第一特征矩阵分别输入到了前向长短期记忆网络模型和后向长短期记忆网络模型,而前向和后向长短期记忆网络模型提取的特征不同,也就是与第一特征矩阵卷积结果不同,因此,在前向长短期记忆网络模型和后向长短期记忆网络模型分别设置不同的滑窗矩阵与第一特征矩阵进行卷积得到对应的目标特征矩阵。进一步地,滑窗矩阵在不同的位置与第一特征矩阵进行卷积得到不同的卷积结果,获取滑窗矩阵当前位置,并将滑窗矩阵处于当前位置时第一特征矩阵与滑动矩阵重叠的部分与滑窗矩阵进行卷积得到对应的卷积结果。
步骤S122B,利用激活函数根据当前卷积结果与当前滑窗矩阵的前一个位置对应的长短期记忆网络模型的内部状态值得到长短期记忆网络模型当前位置对应的内部状态值。
其中,激活函数是指用于更新神经网络参数的函数。利用滑窗矩阵在当前位置时对应的卷积结果和前一个位置对应的神经网络模型的内部状态值计算得到长短期记忆网络模型当前位置对应的内部状态值。
具体地,使用sigmoid函数作为激活函数,表达式如下:
利用激活函数周期性的更新长短期记忆网络模型当前位置对应的内部状态值H(t),t=1,2,…,w,其中,滑动窗口在t时刻对应的位置处与第一特征矩阵产生的卷积结果,Ht-1表示t-1时刻长短期记忆模型的内部状态值。进一步地,若输入的长短期记忆网络模型为双向长短期记忆网络模型,且前向和后向长短期记忆网络模型内部状态维度为256维,则H(t)∈R256,R表示实数集合。
步骤S122C,滑动当前滑窗矩阵得到下一个位置,进入步骤S122A,直至当前滑窗矩阵遍历第一特征矩阵的元素。
具体地,滑窗矩阵能够在第一特征矩阵上滑动,每次移动一个像素位置,滑窗矩阵滑动到每一个位置对应一个卷积结果,得到当前位置滑窗矩阵对应的神经网络模型的内部状态值后,滑动当前滑窗矩阵到下一个位置,进入步骤S122A,计算滑窗矩阵在滑动后当前所处的位置对应的神经网络模型的内部状态值,重复执行上述过程,直至当前滑窗矩阵遍历第一特征矩阵的元素,得到当前滑窗每一个位置对应的神经网络模型的内部状态值。特别地,若设置预设锚点区域的宽度为固定值如16,则滑窗矩阵在第一特征矩阵上滑动一个像素,对应于待检测图像中16个像素。
步骤S122D,将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵。
具体地,长短期记忆网络模型对应的内部状态值是长短期记忆网络模型对第一特征矩阵进行处理的中间结果,需要进一步地对内部状态值进行映射或卷积等处理生成对应的当前特征矩阵,当前特征矩阵包括前向特征矩阵和后向特征矩阵,将前向特征矩阵和后向特征矩阵拼接成目标特征矩阵输出。
本实施例中,分别在前向和后向长短期记忆网络模型中利用不同的滑窗矩阵与第一特征矩阵进行卷积,分别在前向和后向长短期记忆网络模型中得到滑窗矩阵在各个位置对应的卷积结果,并使用激活函数计算各个位置长短期记忆网络模型对应的内部状态值,根据得到的内部状态值进行处理得到对应的当前特征矩阵。通过将滑窗矩阵在第一特征矩阵上进行卷积,避免了在原图进行滑窗带来的重复计算的问题,减少了滑窗操作消耗的时间和计算资源。
如图3A所示,在一个实施例中,预设锚点区域的宽度值为固定值,获取预测图像子区域的文本特征信息的步骤包括:
步骤S141,根据预设锚点区域的宽度值和目标特征矩阵的各个元素对应的第一维度坐标获取各个预测图像子区域的水平位置。
具体地,预设锚点区域的宽度值为固定值,宽度值可以经验设置,如设置为16像素。当预设锚点区域的宽度值确定时,通过全连接层映射到待检测图像的各个预测图像子区域的宽度值固定,且预设锚点区域位置固定,根据目标特征矩阵在全连接层中的位置即可确定根据预设锚点区域映射到原图中的水平位置。
步骤S142,获取各个预测图像子区域的竖直方向预测偏移量,根据竖直方向预测偏移量、对应的预设锚点区域的高度值和中心坐标数值分量进行计算,分别得到各个预测图像子区域对应的预测高度值和中心点竖直方向实际偏移量。
具体地,使用文本检测模型对待检测图像进行文本检测,预先对文本检测模型进行训练,使得文本检测模型在对待检测图像处理的过程中能够预测得到各个预测图像子区域对应的预测中心点竖直分量,然后根据预测中心点竖直分量反推得到各个图像子区域对应的预测高度值和实际中心点竖直分量。如利用下述公式进行计算:
其中,vc表示文本方块中心点竖直分量的回归目标的预测值,cy表示预测的文本方块中心点的竖直分量,表示对应的预设锚点区域的中心坐标的竖直分量,ha表示对应预设锚点区域的高度,vh表示文本方块的高度回归目标的预测值,h表示预测的文本方块的高度。
获取得到待检测图像对应的预测图像子区域后,能够根据2K竖直坐标分量偏移量预测任务得到各个预测文本行对应的预测水平边界偏移量vc,利用上述水平偏移量计算公式,能够反推得到各个预测文本行对应的实际中心点竖直分量cy、预测图像子区域的高度h。
步骤S143,根据水平位置、预测高度值和中心点竖直方向实际偏移量确定各个预测图像子区域的文本位置信息。
具体地,根据得到的预测图像子区域的水平位置,预测高度值和中心点竖直方向偏移量,并根据预设锚点区域的位置能够确定各个预测图像子区域在待检测图像中对应的坐标,从而确定各个预测图像子区域的文本位置信息。
本实施例中,通过模型预测得到各个预测图像子区域对应的水平位置、高度值以及水平方向偏移量,确定各个预测图像子区域在待检测图像中的坐标,从而确定各个预测图像子区域的文本位置信息,为后续对预测图像子区域进行连接组成文本行提供依据,且预设锚点区域的宽度值为固定值,在预设的水平范围内检测出的文本可行度更高,进一步地,只需要对预测图像子区域的高度值进行预测,减少了模型优化的搜索空间。
如图4所示,在一个实施例中,文本特征信息包括文本位置信息,步骤S140包括:
步骤S140A,将各个预测图像子区域作为候选文本子区域,获取当前候选文本子区域对应的第一文本位置信息。
具体地,候选文本子区域是指待检测图像中预测为文本的子区域,将根据目标特征矩阵映射到原图的预测图像子区域作为候选文本子区域。根据获取的预测图像子区域对应的文本特征信息,获取当前候选文本子区域对应的第一文本位置信息。当前候选文本子区域可以是任意选择的一个候选文本子区域,获取该文本子区域对应的位置信息。
步骤S140B,根据第一文本位置信息获取与当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,将距离当前候选文本子区域最近的目标候选文本子区域作为相邻候选文本子区域。
具体地,由于每一个独立的预测图像子区域代表了图像每一位置的特征,一个图像子区域对应的文本可能不是完整的文本,需要将相邻的文本组合在一起才能准确的预测完整的文本信息。文本一般以文本行为单位,处于同一文本行的两个相邻的图像子区域距离较近,因此,通过设置水平方向和竖直方向的条件获取当前候选文本子区域对应的相邻候选文本子区域。
预先设置两个候选文本子区域在水平方向的距离阈值,距离阈值可以根据经验设定也可以根据各个预测图像子区域的位置信息设定。预先设置两个候选文本子区域在竖直方向上的重叠度,由于处于同一文本行的文本子区域基本位于同一直线上,在竖直方向应该有较高的重叠度,可以根据经验设定重叠度的值。如预先设置水平方向的距离阈值为50像素,竖直方向上的重叠度为0.7。
获取与当前候选文本子区域的水平距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,然后在目标候选文本子区域中选择水平方向距离当前候选文本子区域最近的目标候选文本子区域作为当前候选文本子区域的相邻候选文本子区域。
步骤S140C,获取当前候选文本子区域对应的下一个候选文本子区域,将下一个候选文本子区域作为当前候选文本子区域,进入获取当前候选文本子区域对应的第一文本位置信息的步骤,直至遍历候选文本子区域。
具体地,依次将每一个候选文本子区域作为当前候选文本子区域,重复确定相邻候选文本子区域的过程,直至确定每一个候选文本子区域对应的相邻候选文本子区域。
步骤S140D,将当前候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行。
具体地,将每一个候选文本子区域与对应的相邻候选文本子区域连接,实现同一个文本行对应的候选文本子区域能够相互连接得到对应的文本行区域。从而,以行为单位确定待检测图像中的文本区域。
本实施例中,通过预设条件获取每一个候选文本子区域对应的相邻候选文本子区域,将每一个候选文本子区域与相邻候选文本子区域相连预测得到待检测图像对应的文本行,以行为单位反映待检测图像的文本区域,避免了由于单个候选文本子区域得到的文本信息不完整的问题,能够更加精确的反映待检测图像的文本区域。
在一个实施例中,文本特征信息包括文本置信度,将各个预测图像子区域作为候选文本子区域的步骤包括:获取各个预测图像子区域对应的文本置信度;根据文本置信度对各个预测图像子区域进行非极大值抑制,得到文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
具体地,得到预测图像子区域后,检测器检测各个预测图像子区域对应的文本置信度,判定每一个预测图像子区域为文本子区域的概率,由于通过全连接层映射到待检测图像,每一个锚点区域对应的预测图像子区域可能有很多个,为了能够更好的生成对应的文本行,对预测图像子区域进行筛选,获取文本置信度大于预设文本置信度的预测图像子区域,如设置预设文本置信度为0.7,根据预测图像子区域对应的文本置信度获取文本置信度大于0.7的预测图像子区域,将满足条件的预测图像子区域作为候选文本子区域,进行后续连接成文本行的操作。
本实施例中,在根据预设条件获取各个预测图像子区域对应的相邻图像子区域之前,预先根据文本置信度对预测图像子区域进行筛选,将文本置信度超过预设文本置信度的预测图像子区域作为候选文本子区域,减少获取相邻文本子区域的计算时间,提高预测得到的文本行的准确度,提高后续文本识别结果的准确性。
在一个实施例中,步骤S140之后还包括:获取各个预测文本行对应的预测水平方向偏移量,根据所述预测水平边界偏移量修正所述预测文本行的水平边界。
具体地,使用文本检测模型对待检测图像进行文本检测,预先对文本检测模型进行训练,使得文本检测模型在对待检测图像处理的过程中能够预测得到各个预测文本行对应的预测水平边界偏移量,然后根据预测水平边界偏移量反推得到各个预测文本行对应的实际水平边界偏移量。例如,利用下述公式获取各个文本行对应的水平方向偏移量:
其中,O表示预测的水平方向偏移量回归目标,xside表示当前细分的文本方块相对于原始未切分文本方块的左侧偏移量的预测值,表示对应锚点中心点水平分量,wa当前锚点/文本候选区的宽度为固定值,具体地,文本检测模型经过训练后具备边界预测能力,能够预测得到文本行水平方向偏移量O,并根据O的回归公式得到预测文本行实际水平偏移量xside
获取得到待检测图像对应的预测图像子区域后,能够通过1K文本行水平方向偏移量预测任务获取得到各个预测文本行对应的预测水平边界偏移量O,利用上述水平偏移量计算公式,能够反推得到各个预测文本行对应的实际水平偏移量xside
本实施例中,由于预设锚点宽度,使得候选文本子区域确定的文本行为预设锚点宽度的倍数,但真实文本行的宽度不一定均是锚点宽度的倍数,通过预测文本水平方向真实偏移量与标定的文本行边界真值的差值修正误差,提高待检测图像预测的文字区域的准确性。
如图5所示,在一个实施例中,步骤S110之前还包括:
步骤S210,获取模型训练数据,模型训练数据包括预设尺寸比例的样本图像区域集合。
其中,样本图像区域集合是指参与模型训练的样本图像区域的集合,样本图像区域可以是通过随机在图像库中随机采集图像中的部分区域得到的。图像库中包括多个图像,随机采集图像库中的图像的部分区域,能够获取大量的训练数据,多次对模型进行训练。
具体地,在对模型进行训练时,将得到的样本图像区域的宽高比缩放到预设尺寸,如600,保证样本图像区域尺寸一致性,便于对特征进行提取分析。进一步地,可以设置每次模型训练数据的样本数目为128,正负样本的比例为1:1。正样本是指包含文字的样本图像区域,负样本是指不包含文字的样本图像区域。
步骤S220,对样本图像区域集合进行特征提取并输入至初始化神经网络模型,初始化神经网络模型通过预设均值和方差的高斯分布随机数初始化神经网络模型得到。
其中,通过预设均值和方差的高斯分布随机数初始化神经网络模型,对神经网络模型进行优化得到初始化神经网络模型,如设置均值为0方差为0.001的高斯分布随机数对神经网络模型进行优化。
具体地,将神经网络模型与特征提取器一起训练,利用特征提取器对样本图像区域集合进行特征提取,并将提取到的特征输入至神经网络模型进行处理,能够得到样本图像区域的全局特征信息。对样本图像区域集合中的每个样本图像区域进行特征提取,并输入至初始化神经网络模型,以使初始化神经网络模型对提取到的特征进行处理,得到对应的序列信息,输出对应的特征矩阵。
步骤S230,获取初始化神经网络模型输出的特征矩阵,将特征矩阵通过全连接层映射到对应的样本图像区域得到对应的样本图像子区域。
具体地,根据初始化神经网络模型输出的特征矩阵通过全连接层映射到对应的样本图像区域,每个样本图像区域对应一个特征矩阵,特征矩阵映射到对应的样本图像区域,得到对应的样本图像子区域。
步骤S240,获取各个样本图像子区域对应的文本特征信息,并根据文本特征信息和预设文本聚类算法得到预测文本行。
具体地,可以通过分类或回归获取各个样本图像子区域对应的文本特征信息,如利用下述公式对预测各个预测样本图像子区域对应的中心点竖直方向偏移量进行训练。
其中,vc表示文本方块中心点竖直分量的回归目标的预测值,cy表示预测的文本方块中心点的竖直分量,表示对应的预设锚点区域的中心坐标的竖直分量,ha表示对应预设锚点区域的高度,vh表示文本方块的高度回归目标的预测值,h表示预测的文本方块的高度,表示文本方块中心点竖直分量的回归目标的真值,表示方块中心点竖直分量的真值,表示方块的高度回归目标的真值,h*表示文本方块的高度的真值。
vc是模型训练过程中预测得到的各个预测样本图像子区域中心点竖直方向的偏移量,是用来预测样本图像子区域中心点数值分量的真值,通过中的各个参数对vc中的各个参数就行监督训练,在训练过程使得vc值尽可能接近的值,以使在对待检测图像进行检测时,能够预测中心点竖直方向的偏移量,且预测得到的偏移量较为准确。
进一步地,根据下述公式对预测文本行水平边界偏移量进行训练。
其中,O表示预测的水平方向偏移量回归目标,xside表示当前细分的文本方块相对于原始未切分文本方块的左侧偏移量的预测值,表示对应锚点中心点水平分量,wa当前锚点/文本候选区的宽度为固定值,O*表示当前细分的文本方块相对于原未切分文本方块左侧偏移量的回归目标真值,表示当前细分的文本方块相对于原始未切分文本方块的左侧的偏移量的真值。
预测各个预测图像子区域组成的文本行的水平边界偏移量O,并通过标定的真值O*进行监督训练,通过不断的训练使得O的值尽可能的接近O*的值,以使在对待检测图像进行检测时,能够预测到较为准确的文本行水平边界偏移量。
具体地,根据上述训练过程,获取各个样本图像区域对应的文本特征信息,文本特征信息包括文本位置信息和文本置信度,根据各个样本图像区域对应的样本图像子区域的文本特征信息,预测得到各个图像样本区域对应的文本行区域,得到一组样本图像区域训练的数据,根据样本图像区域的真实数据调整文本检测模型参数。
步骤S250,重复进入步骤S210,根据预设势能项和预设权重衰减值对文本检测模型进行优化训练,根据目标优化函数得到目标文本检测模型。
具体地,势能项是维持模型稳定的一个参数,权重衰减值是防止过拟合的一个参数。重复对文本检测模型进行训练,如在完成一次训练后,再次随机获取对应的样本图像区域集合作为训练数据,设置初始学习率,学习率是指模型参数的更新***,新模型参数需要旧模型参数乘以学习率计算得到,学习率可以根据经验设置,如设置为0.001,对模型训练90000次后将迭代至0.0001,然后再进行10000次迭代训练,更新模型参数。
进一步地,根据预设势能项和权重衰减对模型进行SGD(Stochastic GradientDescent,随机梯度下降)优化,如设置势能项为0.9,权重衰减为0.0005。设置预设势能项防止训练过程中的抖动,能够提高模型优化过程中的稳定性,避免出现在极端点上跳转。具体地,如设置模型优化的目标函数如下:
其中,L(si,vj,ok)表示全局优化目标函数,分别表示文本分类、文本定位、边界优化任务的损失函数,si表示第i个锚点被预测为文本的概率,si *表示第i个锚点是否为文本的真值,vj表示第j个锚点竖直方向坐标预测值,vj *表示第j个锚点竖直方向坐标的真值;ok表示第k个边界锚点相对边界的水平偏移量预测值,ok *表示第k个边界锚点相对边界的水平偏移量真值。θ1和θ2分别为文本定位任务,边界优化任务的损失权重。Ns、Nv、No分别表示每个训练批次中文本分类,文本定位,边界优化任务用到的锚点数目。
根据目标优化函数对文本检测模型进行优化,确定文本检测模型对应的各个参数,得到训练后的目标文本检测模型,对输入的待检测图像进行文本检测。
本实施例中,通过获取样本图像区域作为模型训练数据,使用文本检测模型对样本图像区域进行文本检测,不断重复训练过程,并预设势能项和衰减权重以及学习率,建立目标优化函数对文本检测模型进行优化,最终确定文本检测模型的参数,得到优化后的文本检测模型,用于对实际的待检测图像进行文本预测。通过大量的训练数据以及目标优化函数不断的训练和优化文本检测模型,并且将神经网络模型和特征提取器结合训练,对提取得到的特征进行进一步处理,获取样本图像区域的全局文本信息,提高了文本检测模型预测待检测图像中文本区域的准确性。
如图6所示,为一个实施例中,文本检测方法的原理架构图。首先,将使用50层的残差网络600对待检测图像进行特征提取,经过多层卷积网络特征提取得到res4f特征610,将res4f特征输入至双向长短期记忆网络LSTM620建立文本候选区序列,然后将文本候选区序列经过全连接层FC630进行特征映射,并根据映射结果预测2K垂直坐标偏移量,2K文本置信度以及1K边界优化值,其中K为res4f上每个像素上的锚点数目。
通过预测竖直坐标偏移量和水平边界偏移量确定文本候选区位置信息,根据预测的文本置信度确定候选区域是否为文本区域,实现对待检测图像中文本区域的预测。
如图7所示,在一个具体实施例中,提供一种文本检测算法,包括以下内容:
步骤S301,获取待检测图像。
步骤S302,对待检测图像进行特征提取得到第一特征矩阵,将第一特征矩阵输入双向长短期记忆网络模型。
步骤S303,获取当前滑窗矩阵的当前位置,根据当前位置计算当前滑窗矩阵与第一特征矩阵的当前卷积结果,当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵。
步骤S304,利用激活函数根据当前卷积结果与当前滑窗矩阵的前一个位置对应的神经网络模型的内部状态值得到神经网络模型当前位置对应的内部状态值。
步骤S305,滑动当前滑窗矩阵得到下一个位置,进入步骤S303,直至当前滑窗矩阵遍历第一特征矩阵的元素。
步骤S306,将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵,当前特征矩阵包括前向特征矩阵和后向特征矩阵。
步骤S307,将前向特征矩阵和后向特征矩阵拼接得到目标特征矩阵,输出目标特征矩阵至全连接层,全连接层根据预设宽度的锚点区域将目标特征矩阵的各个元素映射到待检测图像对应的预测图像子区域。
步骤S308,获取预测图像子区域的文本特征信息,文本特征信息包括文本置信度和文本位置信息。
步骤S309,根据文本置信度对各个预测图像子区域进行非极大值抑制,将文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
步骤S310,获取当前候选文本子区域对应的第一文本位置信息,根据第一文本位置信息获取与当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域。
步骤S311,将距离当前候选文本子区域最近的目标候选文本子区域作为相邻候选文本子区域。
步骤S312,获取当前候选文本子区域对应的下一个候选文本子区域作为当前候选文本子区域,进入步骤S310,直至遍历候选文本子区域。
步骤S313,将候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行,对预测文本行进行边界修正,确定待检测图像对应的文本区域。
本实施例中,首先对待检测图像进行特征提取,然后将提取的特征输入至双向长短期记忆网络模型得到目标特征矩阵,通过全连接层将目标特征矩阵根据预设锚点区域映射到待检测图像对应的图像子区域,并根据图像子区域的文本位置信息和文本置信度确定候选文本子区域,并选取候选文本子区域的相邻子区域,将相邻的候选文本子区域相连生成预测文本行从而确定待检测图像的文本区域。首先对待检测图像进行特征提取然后再通过双向长短期记忆网络模型对提取的特征进行提取,降低了图像处理的维度,提高了计算效率,将得到的目标特征矩阵通过全连接层映射到待检测图像对应的位置得到对应的图像子区域,获取图像子区域的文本特征信息,实现对待检测图像的切分处理,通过各个预测图像子区域检测待检测图像的文本特征,并且预设锚点区域为固定宽度值,使得获取的预测图像子区域的宽度值固定,在较小的范围对文本进行检测,由于在小范围内文本通常变化比较小,提高了检测的精确度,通过文本聚类算法将相邻的预测图像子区域生成对应的文本行,由于对预测图像子区域进行了合并,因此,即使文字中存在空格,对相邻预测图像子区域进行合并后,能够将包含空格的字符合并成完整的字符,提高了文本检测的鲁棒性。
如图8所示,在一个实施例中,提供一种文本检测装置包括:
获取模块810,用于获取待检测图像。
特征矩阵生成模块820,用于将待检测图像输入至神经网络模型,输出目标特征矩阵。
文本子区域获取模块830,用于将目标特征矩阵输入至全连接层,全连接层根据预设锚点区域将目标特征矩阵的各个元素映射到待检测图像对应的预测图像子区域。
文本区域确定模块840,用于获取预测图像子区域的文本特征信息,根据预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定待检测图像对应的文本区域。
本实施例中,文本检测装置将待检测图像输入至神经网络模型得到目标特征矩阵,通过全连接层将目标特征矩阵根据预设锚点区域映射到待检测图像对应的图像子区域,将图像子区域连接成预测文本行从而确定待检测图像的文本区域。通过神经网络模型得到待处理图像对应的目标特征矩阵,并通过全连接层将目标特征矩阵的各个元素映射到待检测图像对应的位置得到对应的图像子区域,获取图像子区域的文本特征信息,使用文本特征信息反映预测图像子区域的文本特征,实现对待检测图像的切分处理,通过各个预测图像子区域检测待检测图像的文本特征,实现在较小的范围对文本进行检测,由于在小范围内文本通常变化比较小,提高了检测的精确度,通过文本聚类算法将相邻的预测图像子区域生成对应的文本行,由于对预测图像子区域进行了合并,即使文字中存在空格,对相邻预测图像子区域进行合并后,能够将包含空格的字符合并成完整的字符,提高了文本检测的鲁棒性。
在一个实施例中,特征矩阵生成模块820还用于对待检测图像进行特征提取得到第一特征矩阵,第一特征矩阵中的元素为二维元素,将第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵,将前向特征矩阵和后向特征矩阵拼接得到目标特征矩阵。
如图9所示,在一个实施例中,特征矩阵生成模块820包括:
卷积模块821,用于获取当前滑窗矩阵的当前位置,根据当前位置计算当前滑窗矩阵与第一特征矩阵的当前卷积结果,当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵。
更新模块822,用于利用激活函数根据当前卷积结果与当前滑窗矩阵的前一个位置对应的长短期记忆网络模型的内部状态值得到长短期记忆网络模型当前位置对应的内部状态值。
第一循环模块823,用于滑动当前滑窗矩阵得到下一个位置,进入获取当前滑窗矩阵的当前位置的步骤,直至当前滑窗矩阵遍历第一特征矩阵的元素。
生成模块824,用于将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵。
如图10所示,在一个实施例中,预设锚点区域的宽度值为固定值,文本区域确定840模块包括:
水平位置确定模块841,用于根据预设锚点区域的宽度值和目标特征矩阵的各个元素对应的第一维度坐标获取各个预测图像子区域的水平位置。
竖直位置确定模块842,用于获取各个预测图像子区域的竖直方向预测偏移量,根据竖直方向预测偏移量、对应的预设锚点区域的高度值和中心坐标数值分量进行计算,分别得到各个预测图像子区域对应的预测高度值和中心点竖直方向实际偏移量。
文本位置信息确定模块843,用于根据水平位置、预测高度值和中心点竖直方向实际偏移量确定各个预测图像子区域的文本位置信息。
如图11所示,在一个实施例中,文本特征信息包括文本位置信息。文本区域确定模块840包括:
信息获取模块840A,用于将各个预测图像子区域作为候选文本子区域,获取当前候选文本子区域对应的第一文本位置信息。
相邻区域确定模块840B,用于根据第一文本位置信息获取与当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,将距离当前候选文本子区域最近的目标候选文本子区域作为相邻候选文本子区域。
第二循环模块840C,用于获取当前候选文本子区域对应的下一个候选文本子区域作为当前候选文本子区域,进入获取当前候选文本子区域对应的第一文本位置信息的步骤,直至遍历候选文本子区域。
文本行生成模块840D,用于将候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行。
在一个实施例中,文本特征信息包括文本置信度,信息获取模块840A还用于获取各个预测图像子区域对应的文本置信度,根据文本置信度对各个预测图像子区域进行非极大值抑制,得到文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
如图12所示,在一个实施例中,文本检测装置还包括:
修正模块850,用于获取各个预测文本行对应的预测水平方向偏移量,根据预测水平边界偏移量修正预测文本行的水平边界。
如图13所示,在一个实施例中,文本检测装置还包括:
训练数据获取模块910,用于获取模型训练数据,模型训练数据包括预设尺寸比例的样本图像区域集合。
训练模块920,用于对样本图像区域集合进行特征提取并输入至初始化神经网络模型,初始化神经网络模型通过预设均值和方差的高斯分布随机数初始化神经网络模型得到,获取初始化神经网络模型输出的特征矩阵,将特征矩阵通过全连接层映射到对应的样本图像区域得到对应的样本图像子区域,获取各个样本图像子区域对应的文本特征信息,并根据文本特征信息和预设文本聚类算法得到预测文本行。
优化模块930,用于重复进入获取模型训练数据的步骤,根据预设势能项和预设权重衰减值对文本检测模型进行优化训练,根据目标优化函数得到目标文本检测模型。
如图14所示,为一个实施例中计算机设备的内部结构图,该计算机设备通过***连接总线连接处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质可存储操作***和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种文本检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文本检测方法。计算机设备的网络接口用于进行网络通信,如接收待检测图像,待检测图像文本检测结果等。该计算机设备可以是服务器,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。计算机设备也可以是终端,终端的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。触摸层和显示屏构成触控屏。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本检测装置可以实现为一种计算机程序的形式,计算机程序可在如图14所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该文本检测装置的各个程序模块,比如图8中的获取模块810、特征矩阵生成模块820、文本子区域获取模块830及文本区域确定模块840。各个程序模块中包括计算机可读指令,计算机可读指令用于使计算机设备执行本说明书中描述的本申请各个实施例的文本检测方法中的步骤,计算机设备中的处理器能够调用计算机设备的非易失性存储介质中存储的文本检测装置的各个程序模块,运行对应的可读指令,实现本说明书中文本检测装置的各个模块对应的功能。例如,计算机设备可以通过如图8所示的文本检测装置中的获取模块810获取待检测图像,通过特征矩阵生成模块820将待检测图像输入至神经网络模型,输出目标特征矩阵,通过文本子区域获取模块830将目标特征矩阵输入至全连接层,全连接层根据预设锚点区域将目标特征矩阵的各个元素映射到待检测图像对应的预测图像子区域,并通过文本区域确定模块获取预测图像子区域的文本特征信息,根据预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定待检测图像对应的文本区域。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,计算机可执行指令被处理器执行时,使得处理器执行以下步骤:获取待检测图像;将待检测图像输入至神经网络模型,输出目标特征矩阵;将目标特征矩阵输入至全连接层,全连接层根据预设锚点区域将目标特征矩阵的各个元素映射到待检测图像对应的预测图像子区域;获取预测图像子区域的文本特征信息,根据预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定待检测图像对应的文本区域。
本实施例中,计算机可读存储介质将待检测图像输入至神经网络模型得到目标特征矩阵,通过全连接层将目标特征矩阵根据预设锚点区域映射到待检测图像对应的图像子区域,将图像子区域连接成预测文本行从而确定待检测图像的文本区域。通过神经网络模型得到待处理图像对应的目标特征矩阵,并通过全连接层将目标特征矩阵的各个元素映射到待检测图像对应的位置得到对应的图像子区域,获取图像子区域的文本特征信息,使用文本特征信息反映预测图像子区域的文本特征,实现对待检测图像的切分处理,通过各个预测图像子区域检测待检测图像的文本特征,实现在较小的范围对文本进行检测,由于在小范围内文本通常变化比较小,提高了检测的精确度,通过文本聚类算法将相邻的预测图像子区域生成对应的文本行,由于对预测图像子区域进行了合并,即使文字中存在空格,对相邻预测图像子区域进行合并后,能够将包含空格的字符合并成完整的字符,提高了文本检测的鲁棒性。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:对待检测图像进行特征提取得到第一特征矩阵,第一特征矩阵中的元素为二维元素;将第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵;将前向特征矩阵和后向特征矩阵拼接得到目标特征矩阵。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:获取当前滑窗矩阵的当前位置,根据当前位置计算当前滑窗矩阵与第一特征矩阵的当前卷积结果,当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵;利用激活函数根据当前卷积结果与当前滑窗矩阵的前一个位置对应的长短期记忆网络模型的内部状态值得到长短期记忆网络模型当前位置对应的内部状态值;滑动当前滑窗矩阵得到下一个位置,进入获取当前滑窗矩阵的当前位置的步骤,直至当前滑窗矩阵遍历第一特征矩阵的元素;将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:预设锚点区域的宽度值为固定值;根据预设锚点区域的宽度值和目标特征矩阵的各个元素对应的第一维度坐标获取各个预测图像子区域的水平位置;获取各个预测图像子区域的竖直方向预测偏移量,根据竖直方向预测偏移量、对应的预设锚点区域的高度值和中心坐标数值分量进行计算,分别得到各个预测图像子区域对应的预测高度值和中心点竖直方向实际偏移量;根据水平位置、预测高度值和中心点竖直方向实际偏移量确定各个预测图像子区域的文本位置信息。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:将各个预测图像子区域作为候选文本子区域,获取当前候选文本子区域对应的第一文本位置信息;根据第一文本位置信息获取与当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,将距离当前候选文本子区域最近的目标候选文本子区域作为相邻候选文本子区域;获取当前候选文本子区域对应的下一个候选文本子区域作为当前候选文本子区域,进入获取当前候选文本子区域对应的第一文本位置信息的步骤,直至遍历候选文本子区域;将候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:获取各个预测图像子区域对应的文本置信度;根据文本置信度对各个预测图像子区域进行非极大值抑制,得到文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:获取各个预测文本行对应的预测水平方向偏移量,根据预测水平边界偏移量修正预测文本行的水平边界。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:获取模型训练数据,模型训练数据包括预设尺寸比例的样本图像区域集合;对样本图像区域集合进行特征提取并输入至初始化神经网络模型,初始化神经网络模型通过预设均值和方差的高斯分布随机数初始化神经网络模型得到;获取初始化神经网络模型输出的特征矩阵,将特征矩阵通过全连接层映射到对应的样本图像区域得到对应的样本图像子区域;获取各个样本图像子区域对应的文本特征信息,并根据文本特征信息和预设文本聚类算法得到预测文本行;重复进入获取模型训练数据的步骤,根据预设势能项和预设权重衰减值对文本检测模型进行优化训练,根据目标优化函数得到目标文本检测模型。
在一个实施例中,提供一种计算机设备,包括存储器和处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取待检测图像;将待检测图像输入至神经网络模型,输出目标特征矩阵;将目标特征矩阵输入至全连接层,全连接层根据预设锚点区域将目标特征矩阵的各个元素映射到待检测图像对应的预测图像子区域;获取预测图像子区域的文本特征信息,根据预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定待检测图像对应的文本区域。
本实施例中,计算机设备将待检测图像输入至神经网络模型得到目标特征矩阵,通过全连接层将目标特征矩阵根据预设锚点区域映射到待检测图像对应的图像子区域,将图像子区域连接成预测文本行从而确定待检测图像的文本区域。通过神经网络模型得到待处理图像对应的目标特征矩阵,并通过全连接层将目标特征矩阵的各个元素映射到待检测图像对应的位置得到对应的图像子区域,获取图像子区域的文本特征信息,使用文本特征信息反映预测图像子区域的文本特征,实现对待检测图像的切分处理,通过各个预测图像子区域检测待检测图像的文本特征,实现在较小的范围对文本进行检测,由于在小范围内文本通常变化比较小,提高了检测的精确度,通过文本聚类算法将相邻的预测图像子区域生成对应的文本行,由于对预测图像子区域进行了合并,即使文字中存在空格,对相邻预测图像子区域进行合并后,能够将包含空格的字符合并成完整的字符,提高了文本检测的鲁棒性。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:对待检测图像进行特征提取得到第一特征矩阵,第一特征矩阵中的元素为二维元素;将第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵;将前向特征矩阵和后向特征矩阵拼接得到目标特征矩阵。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:获取当前滑窗矩阵的当前位置,根据当前位置计算当前滑窗矩阵与第一特征矩阵的当前卷积结果,当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵;利用激活函数根据当前卷积结果与当前滑窗矩阵的前一个位置对应的长短期记忆网络模型的内部状态值得到长短期记忆网络模型当前位置对应的内部状态值;滑动当前滑窗矩阵得到下一个位置,进入获取当前滑窗矩阵的当前位置的步骤,直至当前滑窗矩阵遍历第一特征矩阵的元素;将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:预设锚点区域的宽度值为固定值;根据预设锚点区域的宽度值和目标特征矩阵的各个元素对应的第一维度坐标获取各个预测图像子区域的水平位置;获取各个预测图像子区域的竖直方向预测偏移量,根据竖直方向预测偏移量、对应的预设锚点区域的高度值和中心坐标数值分量进行计算,分别得到各个预测图像子区域对应的预测高度值和中心点竖直方向实际偏移量;根据水平位置、预测高度值和中心点竖直方向实际偏移量确定各个预测图像子区域的文本位置信息。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:将各个预测图像子区域作为候选文本子区域,获取当前候选文本子区域对应的第一文本位置信息;根据第一文本位置信息获取与当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,将距离当前候选文本子区域最近的目标候选文本子区域作为相邻候选文本子区域;获取当前候选文本子区域对应的下一个候选文本子区域作为当前候选文本子区域,进入获取当前候选文本子区域对应的第一文本位置信息的步骤,直至遍历候选文本子区域;将候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:获取各个预测图像子区域对应的文本置信度;根据文本置信度对各个预测图像子区域进行非极大值抑制,得到文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:获取各个预测文本行对应的预测水平方向偏移量,根据预测水平边界偏移量修正预测文本行的水平边界。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:获取模型训练数据,模型训练数据包括预设尺寸比例的样本图像区域集合;对样本图像区域集合进行特征提取并输入至初始化神经网络模型,初始化神经网络模型通过预设均值和方差的高斯分布随机数初始化神经网络模型得到;获取初始化神经网络模型输出的特征矩阵,将特征矩阵通过全连接层映射到对应的样本图像区域得到对应的样本图像子区域;获取各个样本图像子区域对应的文本特征信息,并根据文本特征信息和预设文本聚类算法得到预测文本行;重复进入获取模型训练数据的步骤,根据预设势能项和预设权重衰减值对文本检测模型进行优化训练,根据目标优化函数得到目标文本检测模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本检测方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入至神经网络模型,输出目标特征矩阵;
将所述目标特征矩阵输入至全连接层,所述全连接层根据预设锚点区域将所述目标特征矩阵的各个元素映射到所述待检测图像对应的预测图像子区域;
获取所述预测图像子区域的文本特征信息,根据所述预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定所述待检测图像对应的文本区域。
2.根据权利要求1所述的方法,其特征在于,所述将所述待检测图像输入至神经网络模型,输出目标特征矩阵的步骤包括:
对所述待检测图像进行特征提取得到第一特征矩阵,所述第一特征矩阵中的元素为二维元素;
将所述第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵;
将所述前向特征矩阵和后向特征矩阵拼接得到所述目标特征矩阵。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵的步骤,包括:
获取当前滑窗矩阵的当前位置,根据当前位置计算所述当前滑窗矩阵与所述第一特征矩阵的当前卷积结果,所述当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵;
利用激活函数根据所述当前卷积结果与当前滑窗矩阵的前一个位置对应的长短期记忆网络模型的内部状态值得到所述长短期记忆网络模型当前位置对应的内部状态值;
滑动当前滑窗矩阵得到下一个位置,进入所述获取当前滑窗矩阵的当前位置的步骤,直至所述当前滑窗矩阵遍历所述第一特征矩阵的元素;
将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述预设锚点区域的宽度值为固定值;获取所述预测图像子区域的文本特征信息的步骤包括:
根据所述预设锚点区域的宽度值和所述目标特征矩阵的各个元素对应的第一维度坐标获取各个预测图像子区域的水平位置;
获取各个预测图像子区域的竖直方向预测偏移量,根据所述竖直方向预测偏移量、对应的预设锚点区域的高度值和中心坐标数值分量进行计算,分别得到各个预测图像子区域对应的预测高度值和中心点竖直方向实际偏移量;
根据所述水平位置、预测高度值和中心点竖直方向实际偏移量确定各个预测图像子区域的文本位置信息。
5.根据权利要求1所述的方法,其特征在于,所述文本特征信息包括文本位置信息;根据所述预测图像子区域的文本特征信息和预设文本聚类算法将预测图像子区域连接成对应的预测文本行的步骤,包括:
将各个预测图像子区域作为候选文本子区域,获取当前候选文本子区域对应的第一文本位置信息;
根据所述第一文本位置信息获取与所述当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,将距离所述当前候选文本子区域最近的所述目标候选文本子区域作为相邻候选文本子区域;
获取所述当前候选文本子区域对应的下一个候选文本子区域作为当前候选文本子区域,进入所述获取当前候选文本子区域对应的第一文本位置信息的步骤,直至遍历候选文本子区域;
将候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行。
6.根据权利要求5所述的方法,其特征在于,所述文本特征信息包括文本置信度;所述将各个预测图像子区域作为候选文本子区域的步骤包括:
获取各个预测图像子区域对应的文本置信度;
根据所述文本置信度对各个预测图像子区域进行非极大值抑制,得到文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
7.根据权利要求1所述的方法,其特征在于,所述根据所述图像子区域的文本特征信息和预设文本聚类算法将预测图像子区域连接成对应的预测文本行的步骤之后,还包括:
获取各个预测文本行对应的预测水平方向偏移量,根据所述预测水平边界偏移量修正所述预测文本行的水平边界。
8.根据权利要求1所述的方法,其特征在于,在所述获取待检测图像的步骤之前还包括:
获取模型训练数据,所述模型训练数据包括预设尺寸比例的样本图像区域集合;
对所述样本图像区域集合进行特征提取并输入至初始化神经网络模型,所述初始化神经网络模型通过预设均值和方差的高斯分布随机数初始化神经网络模型得到;
获取初始化神经网络模型输出的特征矩阵,将特征矩阵通过全连接层映射到对应的样本图像区域得到对应的样本图像子区域;
获取各个样本图像子区域对应的文本特征信息,并根据文本特征信息和预设文本聚类算法得到预测文本行;
重复进入所述获取模型训练数据的步骤,根据预设势能项和预设权重衰减值对文本检测模型进行优化训练,根据目标优化函数得到目标文本检测模型。
9.一种文本检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图像;
特征矩阵生成模块,用于将所述待检测图像输入至神经网络模型,输出目标特征矩阵;
文本子区域获取模块,用于将所述目标特征矩阵输入至全连接层,所述全连接层根据预设锚点区域将所述目标特征矩阵的各个元素映射到所述待检测图像对应的预测图像子区域;
文本区域确定模块,用于获取所述预测图像子区域的文本特征信息,根据所述预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定所述待检测图像对应的文本区域。
10.根据权利要求9所述的装置,其特征在于,所述特征矩阵生成模块包括:
卷积模块,用于获取当前滑窗矩阵的当前位置,根据当前位置计算所述当前滑窗矩阵与所述第一特征矩阵的当前卷积结果,所述当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵;
更新模块,用于利用激活函数根据所述当前卷积结果与当前滑窗矩阵的前一个位置对应的长短期记忆网络模型的内部状态值得到所述长短期记忆网络模型当前位置对应的内部状态值;
第一循环模块,用于滑动当前滑窗矩阵得到下一个位置,进入所述获取当前滑窗矩阵的当前位置的步骤,直至所述当前滑窗矩阵遍历所述第一特征矩阵的元素;
生成模块,用于将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵。
11.根据权利要求9所述的装置,其特征在于,所述预设锚点区域的宽度值为固定值;文本区域确定模块包括:
水平位置确定模块,用于根据所述预设锚点区域的宽度值和所述目标特征矩阵的各个元素对应的第一维度坐标获取各个预测图像子区域的水平位置;
竖直位置确定模块,用于获取各个预测图像子区域的竖直方向预测偏移量,根据所述竖直方向预测偏移量、对应的预设锚点区域的高度值和中心坐标数值分量进行计算,分别得到各个预测图像子区域对应的预测高度值和中心点竖直方向实际偏移量;
文本位置信息确定模块,用于根据所述水平位置、预测高度值和中心点竖直方向实际偏移量确定各个预测图像子区域的文本位置信息。
12.根据权利要求9所述的装置,其特征在于,所述文本特征信息包括文本位置信息;文本区域确定模块包括:
信息获取模块,用于将各个预测图像子区域作为候选文本子区域,获取当前候选文本子区域对应的第一文本位置信息;
相邻区域确定模块,用于根据所述第一文本位置信息获取与所述当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,将距离所述当前候选文本子区域最近的所述目标候选文本子区域作为相邻候选文本子区域;
第二循环模块,用于获取所述当前候选文本子区域对应的下一个候选文本子区域作为当前候选文本子区域,进入所述获取当前候选文本子区域对应的第一文本位置信息的步骤,直至遍历候选文本子区域;
文本行生成模块,用于将候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
训练数据获取模块,用于获取模型训练数据,所述模型训练数据包括预设尺寸比例的样本图像区域集合;
训练模块,用于对所述样本图像区域集合进行特征提取并输入至初始化神经网络模型,所述初始化神经网络模型通过预设均值和方差的高斯分布随机数初始化神经网络模型得到;获取初始化神经网络模型输出的特征矩阵,将特征矩阵通过全连接层映射到对应的样本图像区域得到对应的样本图像子区域;获取各个样本图像子区域对应的文本特征信息,并根据文本特征信息和预设文本聚类算法得到预测文本行;
优化模块,用于重复进入所述获取模型训练数据的步骤,根据预设势能项和预设权重衰减值对文本检测模型进行优化训练,根据目标优化函数得到目标文本检测模型。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,使得所述处理器执行权利要求1至8中任一项所述方法的步骤。
15.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行权利要求1至8中任一项所述方法的步骤。
CN201710874973.1A 2017-09-25 2017-09-25 文本检测方法、装置、存储介质和计算机设备 Pending CN108304761A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710874973.1A CN108304761A (zh) 2017-09-25 2017-09-25 文本检测方法、装置、存储介质和计算机设备
PCT/CN2018/107032 WO2019057169A1 (zh) 2017-09-25 2018-09-21 文本检测方法、存储介质和计算机设备
US16/572,171 US11030471B2 (en) 2017-09-25 2019-09-16 Text detection method, storage medium, and computer device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710874973.1A CN108304761A (zh) 2017-09-25 2017-09-25 文本检测方法、装置、存储介质和计算机设备

Publications (1)

Publication Number Publication Date
CN108304761A true CN108304761A (zh) 2018-07-20

Family

ID=62869408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710874973.1A Pending CN108304761A (zh) 2017-09-25 2017-09-25 文本检测方法、装置、存储介质和计算机设备

Country Status (3)

Country Link
US (1) US11030471B2 (zh)
CN (1) CN108304761A (zh)
WO (1) WO2019057169A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019057169A1 (zh) * 2017-09-25 2019-03-28 腾讯科技(深圳)有限公司 文本检测方法、存储介质和计算机设备
CN109711406A (zh) * 2018-12-25 2019-05-03 中南大学 一种基于多尺度旋转锚点机制的多方向图像文本检测方法
CN109740482A (zh) * 2018-12-26 2019-05-10 北京科技大学 一种图像文本识别方法和装置
CN109886264A (zh) * 2019-01-08 2019-06-14 深圳禾思众成科技有限公司 一种文字检测方法、设备及计算机可读存储介质
CN109886330A (zh) * 2019-02-18 2019-06-14 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN110046616A (zh) * 2019-03-04 2019-07-23 北京奇艺世纪科技有限公司 图像处理模型生成、图像处理方法、装置、终端设备及存储介质
CN110163202A (zh) * 2019-04-03 2019-08-23 平安科技(深圳)有限公司 文字区域的定位方法、装置、终端设备及介质
CN110363785A (zh) * 2019-07-15 2019-10-22 腾讯科技(深圳)有限公司 一种文本超框检测方法及装置
CN110428504A (zh) * 2019-07-12 2019-11-08 北京旷视科技有限公司 文本图像合成方法、装置、计算机设备和存储介质
CN110796129A (zh) * 2018-08-03 2020-02-14 珠海格力电器股份有限公司 一种文本行区域检测方法及装置
CN110852229A (zh) * 2019-11-04 2020-02-28 泰康保险集团股份有限公司 图像中文本区域的位置确定方法、装置、设备及存储介质
CN111104846A (zh) * 2019-10-16 2020-05-05 平安科技(深圳)有限公司 数据检测方法、装置、计算机设备和存储介质
CN111144400A (zh) * 2018-11-06 2020-05-12 北京金山云网络技术有限公司 身份证信息的识别方法、装置、终端设备及存储介质
CN111222589A (zh) * 2018-11-27 2020-06-02 ***通信集团辽宁有限公司 图像文本识别方法、装置、设备及计算机存储介质
CN111444850A (zh) * 2020-03-27 2020-07-24 北京爱笔科技有限公司 一种图片检测的方法和相关装置
CN111539309A (zh) * 2020-04-21 2020-08-14 广州云从鼎望科技有限公司 一种基于ocr的数据处理方法、***、平台、设备及介质
CN111627036A (zh) * 2020-05-22 2020-09-04 深圳前海微众银行股份有限公司 图像区域校正方法、装置、设备及存储介质
CN111666941A (zh) * 2020-06-12 2020-09-15 北京达佳互联信息技术有限公司 一种文本检测方法、装置及电子设备
CN111783756A (zh) * 2019-04-03 2020-10-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN111832616A (zh) * 2020-06-04 2020-10-27 中国科学院空天信息创新研究院 利用多类深度表示图的遥感图像飞机型号识别方法及***
CN112199526A (zh) * 2020-09-30 2021-01-08 北京字节跳动网络技术有限公司 一种多媒体内容发布的方法、装置、电子设备及存储介质
CN112861836A (zh) * 2019-11-28 2021-05-28 马上消费金融股份有限公司 文本图像处理方法、文本及卡证图像质量评价方法和装置
CN112926564A (zh) * 2021-02-25 2021-06-08 中国平安人寿保险股份有限公司 图片分析方法、***、计算机设备和计算机可读存储介质
CN113536831A (zh) * 2020-04-13 2021-10-22 北京沃东天骏信息技术有限公司 基于图像识别的助读方法、装置、设备和计算机可读介质
CN115004261A (zh) * 2020-01-17 2022-09-02 微软技术许可有限责任公司 文本行检测
CN115410207A (zh) * 2021-05-28 2022-11-29 国家计算机网络与信息安全管理中心天津分中心 一种针对竖排文本的检测方法及装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200067631A (ko) * 2018-12-04 2020-06-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
CN110197179B (zh) * 2019-03-14 2020-11-10 北京三快在线科技有限公司 识别***的方法和装置、存储介质及电子设备
CN111291672B (zh) * 2020-01-22 2023-05-12 广州图匠数据科技有限公司 一种联合图像文本识别和模糊判断方法、装置及存储介质
CN111291754B (zh) * 2020-01-22 2023-05-12 广州图匠数据科技有限公司 一种文本级联检测方法、装置及存储介质
CN111508019A (zh) * 2020-03-11 2020-08-07 上海商汤智能科技有限公司 目标检测方法及其模型的训练方法及相关装置、设备
CN111310762A (zh) * 2020-03-16 2020-06-19 天津得迈科技有限公司 一种基于物联网的智能医疗票据识别方法
CN111461182B (zh) * 2020-03-18 2023-04-18 北京小米松果电子有限公司 图像处理方法、图像处理装置及存储介质
CN111401264A (zh) * 2020-03-19 2020-07-10 上海眼控科技股份有限公司 车辆目标检测方法、装置、计算机设备和存储介质
WO2021189889A1 (zh) * 2020-03-26 2021-09-30 平安科技(深圳)有限公司 场景图像中的文本检测方法、装置、计算机设备及存储介质
CN111582265A (zh) * 2020-05-14 2020-08-25 上海商汤智能科技有限公司 一种文本检测方法及装置、电子设备和存储介质
CN111832491A (zh) * 2020-07-16 2020-10-27 Oppo广东移动通信有限公司 文本检测方法、装置及处理设备
CN112926372B (zh) * 2020-08-22 2023-03-10 清华大学 基于序列变形的场景文字检测方法及***
CN112101344B (zh) * 2020-08-25 2022-09-06 腾讯科技(深圳)有限公司 一种视频文本跟踪方法及装置
CN112363918B (zh) * 2020-11-02 2024-03-08 北京云聚智慧科技有限公司 用户界面ai自动化测试方法、装置、设备和存储介质
CN112329849A (zh) * 2020-11-04 2021-02-05 中冶赛迪重庆信息技术有限公司 基于机器视觉的废钢料场卸料状态识别方法、介质及终端
US20220147843A1 (en) * 2020-11-12 2022-05-12 Samsung Electronics Co., Ltd. On-device knowledge extraction from visually rich documents
CN112232305B (zh) * 2020-11-19 2024-06-14 ***股份有限公司 图像检测方法、装置、电子设备及介质
CN112686114A (zh) * 2020-12-23 2021-04-20 杭州海康威视数字技术股份有限公司 一种行为检测方法、装置及设备
CN112749978B (zh) * 2020-12-31 2024-02-06 百度在线网络技术(北京)有限公司 检测方法、装置、设备、存储介质以及程序产品
CN113112406B (zh) * 2021-04-12 2023-01-31 山东迈科显微生物科技有限公司 一种特征确定方法、装置、电子设备以及存储介质
CN112990204B (zh) * 2021-05-11 2021-08-24 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113434721A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 表情包分类方法、装置、计算机设备和存储介质
CN113887535B (zh) * 2021-12-03 2022-04-12 北京世纪好未来教育科技有限公司 模型训练方法、文本识别方法、装置、设备和介质
CN115631493B (zh) * 2022-11-04 2023-05-09 金蝶软件(中国)有限公司 文本区确定方法、***及相关装置
CN115546790B (zh) * 2022-11-29 2023-04-07 深圳智能思创科技有限公司 文档版面分割方法、装置、设备及存储介质
CN116341640B (zh) * 2023-05-29 2023-08-11 深圳须弥云图空间科技有限公司 文本处理模型训练方法及装置
CN116740740B (zh) * 2023-08-11 2023-11-21 浙江太美医疗科技股份有限公司 同行文本判定方法、文档排序方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN106384112A (zh) * 2016-09-08 2017-02-08 西安电子科技大学 基于多通道多尺度与级联过滤器的快速图像文本检测方法
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555317A (en) * 1992-08-18 1996-09-10 Eastman Kodak Company Supervised training augmented polynomial method and apparatus for character recognition
US7164797B2 (en) * 2002-04-25 2007-01-16 Microsoft Corporation Clustering
CN1459761B (zh) * 2002-05-24 2010-04-21 清华大学 基于Gabor滤波器组的字符识别技术
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9058644B2 (en) * 2013-03-13 2015-06-16 Amazon Technologies, Inc. Local image enhancement for text recognition
US8965127B2 (en) * 2013-03-14 2015-02-24 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机***有限公司 一种文字识别方法及装置
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
WO2016054778A1 (en) * 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Generic object detection in images
US10043231B2 (en) * 2015-06-30 2018-08-07 Oath Inc. Methods and systems for detecting and recognizing text from images
US10635949B2 (en) * 2015-07-07 2020-04-28 Xerox Corporation Latent embeddings for word images and their semantics
CN106599900B (zh) * 2015-10-20 2020-04-21 华中科技大学 一种识别图像中的字符串的方法和装置
CN108171104B (zh) * 2016-12-08 2022-05-10 腾讯科技(深圳)有限公司 一种文字检测方法及装置
CN106897732B (zh) * 2017-01-06 2019-10-08 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
US10430649B2 (en) * 2017-07-14 2019-10-01 Adobe Inc. Text region detection in digital images using image tag filtering
CN108304761A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 文本检测方法、装置、存储介质和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN106384112A (zh) * 2016-09-08 2017-02-08 西安电子科技大学 基于多通道多尺度与级联过滤器的快速图像文本检测方法
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHI TIAN等: "Detecting Text in Natural Image with Connectionist Text Proposal Network", 《14TH EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11030471B2 (en) 2017-09-25 2021-06-08 Tencent Technology (Shenzhen) Company Limited Text detection method, storage medium, and computer device
WO2019057169A1 (zh) * 2017-09-25 2019-03-28 腾讯科技(深圳)有限公司 文本检测方法、存储介质和计算机设备
CN110796129A (zh) * 2018-08-03 2020-02-14 珠海格力电器股份有限公司 一种文本行区域检测方法及装置
CN111144400A (zh) * 2018-11-06 2020-05-12 北京金山云网络技术有限公司 身份证信息的识别方法、装置、终端设备及存储介质
CN111144400B (zh) * 2018-11-06 2024-03-29 北京金山云网络技术有限公司 身份证信息的识别方法、装置、终端设备及存储介质
CN111222589B (zh) * 2018-11-27 2023-07-18 ***通信集团辽宁有限公司 图像文本识别方法、装置、设备及计算机存储介质
CN111222589A (zh) * 2018-11-27 2020-06-02 ***通信集团辽宁有限公司 图像文本识别方法、装置、设备及计算机存储介质
CN109711406A (zh) * 2018-12-25 2019-05-03 中南大学 一种基于多尺度旋转锚点机制的多方向图像文本检测方法
CN109740482A (zh) * 2018-12-26 2019-05-10 北京科技大学 一种图像文本识别方法和装置
CN109886264A (zh) * 2019-01-08 2019-06-14 深圳禾思众成科技有限公司 一种文字检测方法、设备及计算机可读存储介质
CN109886330A (zh) * 2019-02-18 2019-06-14 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN109886330B (zh) * 2019-02-18 2020-11-27 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN110046616A (zh) * 2019-03-04 2019-07-23 北京奇艺世纪科技有限公司 图像处理模型生成、图像处理方法、装置、终端设备及存储介质
CN110046616B (zh) * 2019-03-04 2021-05-25 北京奇艺世纪科技有限公司 图像处理模型生成、图像处理方法、装置、终端设备及存储介质
CN110163202B (zh) * 2019-04-03 2024-06-04 平安科技(深圳)有限公司 文字区域的定位方法、装置、终端设备及介质
CN111783756B (zh) * 2019-04-03 2024-04-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN111783756A (zh) * 2019-04-03 2020-10-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110163202A (zh) * 2019-04-03 2019-08-23 平安科技(深圳)有限公司 文字区域的定位方法、装置、终端设备及介质
CN110428504A (zh) * 2019-07-12 2019-11-08 北京旷视科技有限公司 文本图像合成方法、装置、计算机设备和存储介质
CN110428504B (zh) * 2019-07-12 2023-06-27 北京旷视科技有限公司 文本图像合成方法、装置、计算机设备和存储介质
CN110363785A (zh) * 2019-07-15 2019-10-22 腾讯科技(深圳)有限公司 一种文本超框检测方法及装置
CN111104846A (zh) * 2019-10-16 2020-05-05 平安科技(深圳)有限公司 数据检测方法、装置、计算机设备和存储介质
CN111104846B (zh) * 2019-10-16 2022-08-30 平安科技(深圳)有限公司 数据检测方法、装置、计算机设备和存储介质
CN110852229A (zh) * 2019-11-04 2020-02-28 泰康保险集团股份有限公司 图像中文本区域的位置确定方法、装置、设备及存储介质
CN112861836A (zh) * 2019-11-28 2021-05-28 马上消费金融股份有限公司 文本图像处理方法、文本及卡证图像质量评价方法和装置
CN112861836B (zh) * 2019-11-28 2022-04-22 马上消费金融股份有限公司 文本图像处理方法、文本及卡证图像质量评价方法和装置
CN115004261A (zh) * 2020-01-17 2022-09-02 微软技术许可有限责任公司 文本行检测
CN111444850A (zh) * 2020-03-27 2020-07-24 北京爱笔科技有限公司 一种图片检测的方法和相关装置
CN111444850B (zh) * 2020-03-27 2023-11-14 北京爱笔科技有限公司 一种图片检测的方法和相关装置
CN113536831A (zh) * 2020-04-13 2021-10-22 北京沃东天骏信息技术有限公司 基于图像识别的助读方法、装置、设备和计算机可读介质
CN111539309A (zh) * 2020-04-21 2020-08-14 广州云从鼎望科技有限公司 一种基于ocr的数据处理方法、***、平台、设备及介质
CN111627036A (zh) * 2020-05-22 2020-09-04 深圳前海微众银行股份有限公司 图像区域校正方法、装置、设备及存储介质
CN111832616A (zh) * 2020-06-04 2020-10-27 中国科学院空天信息创新研究院 利用多类深度表示图的遥感图像飞机型号识别方法及***
CN111666941A (zh) * 2020-06-12 2020-09-15 北京达佳互联信息技术有限公司 一种文本检测方法、装置及电子设备
CN111666941B (zh) * 2020-06-12 2024-03-29 北京达佳互联信息技术有限公司 一种文本检测方法、装置及电子设备
CN112199526B (zh) * 2020-09-30 2023-03-14 抖音视界有限公司 一种多媒体内容发布的方法、装置、电子设备及存储介质
CN112199526A (zh) * 2020-09-30 2021-01-08 北京字节跳动网络技术有限公司 一种多媒体内容发布的方法、装置、电子设备及存储介质
CN112926564A (zh) * 2021-02-25 2021-06-08 中国平安人寿保险股份有限公司 图片分析方法、***、计算机设备和计算机可读存储介质
CN115410207B (zh) * 2021-05-28 2023-08-29 国家计算机网络与信息安全管理中心天津分中心 一种针对竖排文本的检测方法及装置
CN115410207A (zh) * 2021-05-28 2022-11-29 国家计算机网络与信息安全管理中心天津分中心 一种针对竖排文本的检测方法及装置

Also Published As

Publication number Publication date
WO2019057169A1 (zh) 2019-03-28
US11030471B2 (en) 2021-06-08
US20200012876A1 (en) 2020-01-09

Similar Documents

Publication Publication Date Title
CN108304761A (zh) 文本检测方法、装置、存储介质和计算机设备
CN109801293B (zh) 遥感影像分割方法、装置及存储介质、服务器
TWI773189B (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
CN109815770B (zh) 二维码检测方法、装置及***
CN109670452A (zh) 人脸检测方法、装置、电子设备和人脸检测模型
CN108052940A (zh) 基于深度学习的sar遥感图像水面目标检测方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN108460382A (zh) 基于深度学习单步检测器的光学遥感图像舰船检测方法
CN108229455A (zh) 物体检测方法、神经网络的训练方法、装置和电子设备
CN109165645A (zh) 一种图像处理方法、装置以及相关设备
CN109389038A (zh) 一种信息的检测方法、装置及设备
CN113435282B (zh) 基于深度学习的无人机影像麦穗识别方法
CN110096929A (zh) 基于神经网络的目标检测
CN109858547A (zh) 一种基于bssd的目标检测方法与装置
CN114049515A (zh) 图像分类方法、***、电子设备和存储介质
CN113468968A (zh) 一种基于无锚框的遥感图像旋转目标检测方法
CN109165654B (zh) 一种目标定位模型的训练方法和目标定位方法及装置
JP2019185787A (ja) 地理的地域内のコンテナのリモート決定
Cao et al. Multi angle rotation object detection for remote sensing image based on modified feature pyramid networks
CN117152484A (zh) 改进YOLOv5s的小目标布匹瑕疵检测方法
Yates et al. Evaluation of synthetic aerial imagery using unconditional generative adversarial networks
Zhang Innovation of English teaching model based on machine learning neural network and image super resolution
CN110263779A (zh) 文本区域检测方法及装置、文本检测方法、计算机可读介质
Chen et al. Alfpn: adaptive learning feature pyramid network for small object detection
CN113096104A (zh) 目标分割模型的训练方法及装置和目标分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180720

RJ01 Rejection of invention patent application after publication