CN110163202A - 文字区域的定位方法、装置、终端设备及介质 - Google Patents

文字区域的定位方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN110163202A
CN110163202A CN201910264868.5A CN201910264868A CN110163202A CN 110163202 A CN110163202 A CN 110163202A CN 201910264868 A CN201910264868 A CN 201910264868A CN 110163202 A CN110163202 A CN 110163202A
Authority
CN
China
Prior art keywords
matrix
training
class
area
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910264868.5A
Other languages
English (en)
Other versions
CN110163202B (zh
Inventor
黄泽浩
王满
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910264868.5A priority Critical patent/CN110163202B/zh
Publication of CN110163202A publication Critical patent/CN110163202A/zh
Application granted granted Critical
Publication of CN110163202B publication Critical patent/CN110163202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于人工智能技术领域,提供了一种文字区域的定位方法、装置、终端设备及介质,通过对目标图像执行预设次数的区域更新操作,将经过预设次数的区域更新操作之后的选定区域输出为目标图像的文字区域,每次区域更新操作的步骤为:获取目标图像的选定区域,根据目标图像中各个像素点的特征以及预设的神经网络模型,计算出分别用于表征目标图像全局特征、表征选定区域特征、表征历史操作的三个矩阵,并基于上述三个矩阵生成状态矩阵,再通过预设的决策模型生成状态矩阵对应的操作类型,并通过操作类型对当前的选定区域进行更新,从而通过一次次的调整,逐步缩小选定区域的范围,最终得到目标图像的文字区域,提高文字区域定位的自动化程度。

Description

文字区域的定位方法、装置、终端设备及介质
技术领域
本发明属于人工智能领域,尤其涉及一种文字区域的定位方法、装置、终端设备及介质。
背景技术
公司在运营过程中经常需要从各类图像中获取数据,例如:从员工递交的***的扫描图像中提取账目信息;从客户寄送的反馈书的扫描件中提取数据等。而一张扫描图像中往往包含了非文字区域和文字区域,由于非文字区域的内容可能对文字区域的文字识别工作造成干扰,所以现有的技术方法往往需要人工从各个扫描图像中锁定和分割出文字区域后,才可以通过机器自动识别出文字区域的文字。显然,现有方式锁定和分割文字区域的自动化程度较低,不利于整个文字识别工作的处理效率。
发明内容
有鉴于此,本发明实施例提供了一种文字区域的定位方法及终端设备,以解决现有技术存在的无法自动从图像中确定文字区域的问题。
本发明实施例的第一方面提供了一种文字区域的定位方法,包括:
对目标图像执行预设次数的区域更新操作,将经过所述预设次数的区域更新操作之后的选定区域输出为所述目标图像的所述文字区域;所述区域更新操作包括:获取目标图像的选定区域;根据所述目标图像中各个像素点的特征,确定所述目标图像的全局特征矩阵以及所述选定区域的局部特征矩阵;将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵;获取历史操作矩阵,所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别,将所述全局卷积特征矩阵、所述局部卷积特征矩阵以及所述历史操作矩阵组合成为状态矩阵;将所述状态矩阵输入预设的决策模型中,输出操作类别,根据所述操作类别对所述历史操作矩阵进行更新,并根据所述操作类别对所述选定区域的多个端点进行调整,以对所述选定区域进行更新。
本发明实施例的第二方面提供了一种文字区域的定位装置,包括:
执行模块,用于对目标图像执行预设次数的区域更新操作,将经过所述预设次数的区域更新操作之后的选定区域输出为所述目标图像的所述文字区域;所述执行模块包括:获取子模块,用于获取目标图像的选定区域;第一矩阵生成子模块,用于根据所述目标图像中各个像素点的特征,确定所述目标图像的全局特征矩阵以及选定区域的局部特征矩阵;第二矩阵生成子模块,用于将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵;组合子模块,用于获取初始的历史操作矩阵,所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别,将所述全局卷积特征矩阵、局部卷积特征矩阵以及历史操作矩阵组合成为状态矩阵;更新子模块,用于将所述状态矩阵输入预设的决策模型中,输出操作类别,根据所述操作类别对选定区域的多个端点进行调整,以对所述选定区域进行更新,并根据所述操作矩阵对历史操作矩阵进行更新。
本发明实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本发明实施例的第一方面提供的方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明实施例的第一方面提供的方法的步骤。
在本发明实施例中,通过对目标图像执行预设次数的区域更新操作,将经过预设次数的区域更新操作之后的选定区域输出为目标图像的文字区域,每次区域更新操作的步骤为:获取目标图像的选定区域,根据目标图像中各个像素点的特征,以及预设的神经网络模型,计算出分别用于表征目标图像全局特征、表征选定区域特征、表征历史操作的三个矩阵,并基于上述三个矩阵生成状态矩阵,通过预设的决策模型生成该状态矩阵对应的操作类型,并通过该操作类型对当前的选定区域进行更新调整,从而通过一次次的调整,逐步缩小选定区域的范围,最终自动地得到目标图像中的文字区域,提高文字区域定位的自动化程度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的区域更新操作的实现流程图;
图2是本发明实施例提供的区域更新操作S103的具体实现流程图;
图3是本发明实施例提供的生成训练数据集合的具体实现流程图;
图4是本发明实施例提供的文字区域的定位装置的结构框图;
图5是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
值得注意地,在本发明实施例中,需要被识别的目标图像中只能含有一个文字区域,即目标图像上的所有文字需只集中在文字区域内,而不能有文字出现在文字区域以外。示例性地,很多情况下,客户发送而来的函件中包含背景图像以及文字区域,文字区域中包含函件真正想要传达的信息,而背景图像起到美化和防伪的作用。在本发明实施例中,可以将函件的图像作为目标图像,并在执行多次区域更新操作后定位出文字区域。
与其他的技术相比,由于考虑到目标图像的背景中可能包含一些干扰的因素,所以本发明实施例的核心在于:并非在一次计算后就确定目标图像中的文字区域,而是从目标图像中的一个初始的选定区域开始(初始的选定区域可以涵盖目标图像的整个区域),对目标图像进行一轮轮的区域更新操作,从而逐渐缩小选定区域,直至在执行了预设次数的区域更新操作后,将最后一轮输出的选定区域,作为目标图像的文字区域。
可以理解地,由于在本发明实施例中,每一轮的区域更新操作只是将选定区域的边界改变一点,而且是在一次次的对于选定区域进行改变后,才得到了最终的文字区域。显然,这样做的好处在于如果在一次区域更新操作时由于目标图像中的干扰因素导致更新出现错误,还可能在之后的多次区域更新操作进行纠正,所以本发明实施例通过预设次数的区域更新操作对选定区域进行逐步缩小有较高的容错率。
由于本发明实施例是重复执行多次区域更新操作,即可输出目标图像的文字区域,所以在下文中详细介绍每次区域更新操作的具体流程,图1示出了本发明实施例提供的区域更新操作的实现流程,该方法流程包括步骤S101至S105。各步骤的具体实现原理如下。
在S101中:获取目标图像的选定区域。
在本发明实施例中,目标图像可以是直接接收到的电子图像,也可以是由照相机拍摄的照片图像或扫描仪扫描的扫描图像。
可以理解地,在每一轮区域更新操作中,都需要首先获取一个本轮对应的选定区域,每一轮的任务就是对本轮获取的选定区域的边框进行调整,从而更新这一选定区域。在本发明实施例中,选定区域为矩形,具有四个边框。
值得注意地,显然,在第一次进行区域更新操作时,获取的目标图像的选定区域为预设的初始区域,该初始区域的四个边框可以与目标图像的四个边框完全重合,即初始区域可以为涵盖整个目标图像的区域。在其他轮次的区域更新操作中,获取的选定区域都是在进行了上一轮次区域更新操作后,上一轮次得到的更新后的选定区域。可以理解地,正是由于将上一轮次更新后的选定区域作为下一轮次获取的选定区域,所以各个区域更新操作才能顺利地迭代进行。
在S102中,根据所述目标图像中各个像素点的特征,确定所述目标图像的全局特征矩阵以及所述选定区域的局部特征矩阵。
可以理解地,各个像素点的特征可以是各个像素点对应的RGB值,所以构造目标图像的全局特征矩阵的步骤可以为:首先:基于目标图像RGB三个图层分别构建3个矩阵,即R图层对应一个矩阵,G图层对应一个矩阵,B图层对应一个矩阵,每个矩阵中元素的取值为0-255。其次,将多个图层对应的矩阵进行融合,融合方式为:对R图层对应的矩阵的行进行扩充,每行之间填充两行空白行,并将其余两个图层对应的矩阵的各行根据行编号的次序,导入扩充后的R图层对应的矩阵中的各个空白行,从而构成3M×N的矩阵,其中,M为目标图像的像素点的行数,N为目标图像的像素点的列数,将该3M×N的矩阵作为目标图像对应的全局特征矩阵。
可以理解地,由于选定区域为目标图像中的一个局部(在第一轮区域更新操作中初始的选定区域可能为目标图像的全局),所以根据与上段介绍的构造全局特征矩阵的相同的方法,可以构造出选定区域对应的局部特征矩阵。
可以理解地,各个像素点的特征也可以是各个像素点对应的其他参数,例如各个图像的灰度值。
在S103中,将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵。
在本发明实施例中,需要预先训练好一个神经网络,该神经网络可以是卷积神经网络模型,具体的训练过程可以为:
第一步,获取多个预设的训练特征矩阵,以及训练特征矩阵对应的训练卷积特征矩阵。第二步,反复执行以下步骤直至更新后的神经网络的交叉熵损失函数值小于预设的损失阈值:将所述训练特征矩阵作为所述神经网络的输入,将所述训练卷积特征矩阵作为所述神经网络的输出,通过现有的随机梯度下降法对所述神经网络的各层参数进行更新,计算更新后的神经网络的交叉熵损失函数值。
可以理解地,在通过上文方式得到全局特征矩阵以及局部特征矩阵后只需要将这两个矩阵输入预设的神经网络中,即可以得到更能反映目标图像全局以及选定区域这一局部的特征的全局卷积特征矩阵以及局部卷积特征矩阵。
可选地,本发明实施例中的神经网络包括多个3×3的卷积层、池化层以及全连接层,其中,每个卷积层根据其在所述神经网络由前至后的顺序对应一个卷积层编号。
作为本发明的一个实施例,如图2所示,上述S103包括:
S1031,将全局特征矩阵以及所述局部特征矩阵分别导入预设的卷积神经网络,并从所述卷积神经网络中卷积层编号最大的卷积层开始,每间隔第一预设数量的卷积层编号,提取一个卷积层输出的数据,分别作为全局被选数据以及局部被选数据。
可选地,该预设的神经网络可以包括11个卷积层,模型的第1层和第2层为3x3的卷积层,卷积的步长为1,特征通道数为32;模型的第3层为3x3的卷积层,卷积的步长为2,特征通道数为64;模型的第4和第5层为3x3的卷积层,卷积的步长为1,特征通道数为64;模型的第6层为3x3的卷积层,卷积的步长为2,特征通道数为128;模型的第7和第8层为3x3的卷积层,卷积的步长为1,特征通道数为128;模型的第9层为3x3的卷积层,卷积的步长为2,特征通道数为256;模型的第10和第11层为3x3的卷积层,卷积的步长为1,特征通道数为256。
可选地,将全局特征矩阵输入后,从第11层卷积层往前每隔3个卷积层提取一个卷积层输出的数据,作为全局被选数据,因此提取第11层、第8层、第5层以及第2层输出的数据,作为全局被选数据。
可选地,将局部特征矩阵输入后,从第11层卷积层往前每隔3个卷积层提取一个卷积层输出的数据,作为局部被选数据,因此提取第11层、第8层、第5层以及第2层输出的数据,作为局部被选数据。
S1032,将第二预设数量的全局被选数据以及局部被选数据分别进行全局平均池化,生成所述第二预设数量的全局池化向量以及局部池化向量。
示例性地,假设第二预设数量取3,则对第11层、第8层、第5层的数据分别进行全局平均池化的运算,得到64维的池化向量、128维的池化向量以及256维的池化向量。
可以理解地,若在神经网络输入的是全局特征矩阵,则在本步骤中得到的是3个全局池化向量,若在神经网络输入的是局部特征矩阵,则在本步骤中得到的是3个局部池化向量。
S1033,对所述第二预设数量的全局池化向量进行拼接生成总全局池化向量,并对所述第二预设数量的局部池化向量进行拼接生成总局部池化向量。
示例性地,将上述的64维的全局池化向量、128维的全局池化向量以及256维的全局池化向量进行拼接,生成448维的总全局池化向量。
S1034,将所述总全局池化向量以及所述总局部池化向量分别输入所述卷积神经网络的全连接层,输出所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵。
可以理解地,通过预设的神经网络的全连接层可以将输入的448维的总全局池化向量或总局部池化向量转化为一个全局卷积特征矩阵或局部卷积特征矩阵,由于卷积神经网络的全连接层的计算原理为现有技术,所以在此不进行详述和具体限定。
可以理解地,通过上述的神经网络可以强化目标图像全局的特征以及选定区域这一局部的特征。
在S104中,获取历史操作矩阵,所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别,将所述全局卷积特征矩阵、所述局部卷积特征矩阵以及所述历史操作矩阵组合成为状态矩阵。
值得注意地,由于本发明实施例是通过一轮轮对选定区域的更新,最终确定出文字区域,而每次对选定区域的更新事实上是通过对选定区域的边框的移动来实现的。假设选定区域一直保持为矩形,那么该选定区域包含4个边框以及4个端点,显然,只要控制选定区域的互为对角线的两个端点的移动,就可以控制4个边框进行移动。其中,每个端点都有5中操作类别,分别为向右移动预设数量的像素点、向左移动预设数量的像素点、向上移动预设数量的像素点、向下移动预设数量的像素点以及不移动,可以理解地,两个端点的操作类别经过两两排列组合,一共有5×5=25种排列组合的方式,所以在本发明实施例中,每一轮计算出的操作类别是这25个操作类别中的一个。
由于每一轮都会得到25个操作类别中的一个,所以在本发明实施例中需要将在当前轮次的区域更新操作之前得到的历次操作类别按照时间顺序进行统计,并通过一个矩阵进行表示,该用于表示选定区域的多个端点已按时间顺序做出的操作类别的矩阵就是历史操作矩阵。
可选地,由于本发明实施例是需要重复预设次数的区域更新操作,每一轮区域更新操作只会得到一个操作类别,所以总共可以得到的操作类别实际上是有限的,即总共可以得到的操作类别的数值与预设次数的数值相同。另一方面,每轮可以得到的操作类别的数量也是有限的,即25种。所以本发明实施例的历史操作矩阵的行数可以为25,列数为预设次数的数值。因此,每一轮得到的操作类别对应该历史操作矩阵的一列数据,每一个操作类别对应该历史操作矩阵的一行数据。可以理解地,每一轮区域更新后,就将该轮对应的列的元素进行更新,更新的方式为:将该轮得到的操作类别对应行的元素标为1,该列其他元素保持为0。没有进行到的轮次对应的列的所有元素都为0。
可以理解地,根据现有的矩阵组合的方式就可以将全局卷积特征矩阵、所述局部卷积特征矩阵以及所述历史操作矩阵组合成为状态矩阵。
在S105中,将所述状态矩阵输入预设的决策模型中,输出操作类别,根据所述操作类别对所述历史操作矩阵进行更新,并根据所述操作类别对所述选定区域的多个端点进行调整,以对所述选定区域进行更新。
可选地,通过决策模型的公式:计算所述状态矩阵对应的概率矩阵;所述(j)为所述概率矩阵中第j个元素对应的概率值;zj为预设的参数矩阵中第j个元素对应的参数;所述M为所述参数矩阵中元素的个数,所述xi为所述状态矩阵中第i个元素,所述e为自然常数。
在本发明实施例中,将概率矩阵中元素值最大的元素对应的类别,作为本轮输出的操作类别,并通过该操作类别对选定范围以及历史操作矩阵进行更新。其中,对于历史操作矩阵的更新方式已在上文S104进行详述。可以理解地,更新后的选定范围以及历史操作矩阵,将被带入到下一轮次的区域更新操作中进行计算。显然,如果当前的轮次已经是预设次数的区域更新操作的最后一轮,则更新后的选定范围就是最后应被输出的目标图像的文字区域。
可以理解地,上文所述的参数矩阵中的各个元素事实为通过对训练数据的训练,得到的所述决策模型中的参数。
可选地,本发明实施例中的决策模型可以为长短期记忆(Long Short-TermMemory,LSTM)神经网络,因此对决策模型的训练过程包括:
首先,获取多组训练数据集合,其中,每组所述训练数据集合中包含用于表征训练图像全局特征的训练全局卷积特征矩阵、用于表征训练图像中一局部区域特征的训练局部卷积特征矩阵、用于表征从所述训练图像中一区域缩小至另一区域需依次执行的操作类别的训练操作记录矩阵以及需继续执行的训练操作类别;
其次,根据所述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵以及所述训练操作记录矩阵,生成训练状态矩阵,并将所述状态矩阵作为所述长短期记忆网络的输入,将所述训练操作类别作为所述长短期记忆网络的输出,对所述长短期记忆网络内的各个学习参数进行调整,以使所述长短期记忆网络满足收敛条件;所述收敛条件为:
其中,θ*为调整后的所述学习参数;sta为所述训练状态矩阵;atc为所述训练操作类别;p(sta|atc;θ)为当所述学习参数的值为θ时,将训练状态矩阵导入到所述LSTM神经网络,输出结果为所述训练操作类别的概率值;arg maxθStc logp(sta|atc;θ)为所述概率值取最大值时所述学习参数的取值;
最后,将调整后的长短期记忆网络作为所述决策模型。
可以理解地,在上文的训练过程中,训练决策模型的关键在于收集准确的训练数据集合,本发明实施例还提供了一种生成训练数据集合的方法,该方法需要获取训练图像以及候选操作类别集合,所述训练图像为文字区域已知的图像,所述候选操作类别集合中包含多个可用于调整所述训练图像中的选定区域的操作类别;重复执行所述预设次数的循环操作,输出多组所述训练数据集合,其中,所述循环操作的每一轮的步骤如图3所示,包括S301-S305,详述如下:
在S301中,从所述训练图像中选定一初始的训练选定区域,根据所述候选操作类别集合中各个操作类别对当前的训练选定区域进行调整,生成各个操作类别对应的调整后的训练选定区域。
可以理解地,由于通过训练数据训练出的决策模型最终是希望可以针对输入的状态矩阵得到对应的操作类别,所以在训练数据的收集过程中,需要采用和上述的区域更新操作类似的步骤。
在本发明实施例中,候选操作类别集合中包含25种操作类别,这25种操作类别的介绍已在上文详述,不再此赘述。
在S302中,根据所述文字区域与各个操作类别对应的调整后的训练选定区域的重合面积,计算各个操作类别对应的重合参数。
可选地,通过公式:计算各个操作类别对应的重合参数,所述Coi为所述候选操作类别集合中第i个操作类别对应的重合参数,所述Selecti为操作类别对应的调整后的训练选定区域,所述Text为所述文字区域,所述∩为计算两区域的交集面积,所述∪为计算两区域的并集面积。
可以理解地,由于训练图像为文字区域已知的图像,所以可以确定出根据候选操作类别集合中各个操作类别对训练选定区域进行调整后,文字区域与调整后的训练选定区域的重合面积相较于调整之前是增大了还是变小了,以及计算处变化的幅度。
在S303中,将对应的所述重合参数最大的操作类别作为被选操作类别,并将经过所述被选操作类别调整后的训练选定区域作为被选训练区域。
在S304中,生成表征从所述初始的训练选定区域缩小至所述被选训练区域需依次执行的操作类别的训练操作记录矩阵,并生成所述被选训练区域对应的训练局部卷积特征矩阵以及所述训练图像对应的训练全局卷积特征矩阵。
在S305中,将所述述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵、所述训练操作记录矩阵以及所述被选操作类别组合成为一组训练数据集合。
可以理解地,通过上述方式可以收集到用于对决策模型进行训练的训练数据。
对应于上文实施例所述的文字区域的定位方法,图4示出了本发明实施例提供的文字区域的定位装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参照图4,该装置包括:
执行模块401,用于对目标图像执行预设次数的区域更新操作,将经过所述预设次数的区域更新操作之后的选定区域输出为所述目标图像的所述文字区域。
所述执行模块包括:
获取子模块4011,用于获取目标图像的选定区域;
提取子模块4012,用于根据所述目标图像中各个像素点的特征,确定所述目标图像的全局特征矩阵以及所述选定区域的局部特征矩阵;
计算子模块4013,用于将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵;
组合子模块4014,用于获取历史操作矩阵,所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别,将所述全局卷积特征矩阵、所述局部卷积特征矩阵以及所述历史操作矩阵组合成为状态矩阵;
更新子模块4015,用于将所述状态矩阵输入预设的决策模型中,输出操作类别,根据所述操作类别对所述历史操作矩阵进行更新,并根据所述操作类别对所述选定区域的多个端点进行调整,以对所述选定区域进行更新。
所述计算子模块,具体用于:
将全局特征矩阵以及所述局部特征矩阵分别导入预设的卷积神经网络,并从所述卷积神经网络中卷积层编号最大的卷积层开始,每间隔第一预设数量的卷积层编号,提取一个卷积层输出的数据,分别作为全局被选数据以及局部被选数据;
将第二预设数量的全局被选数据以及局部被选数据分别进行全局平均池化,生成所述第二预设数量的全局池化向量以及局部池化向量;
对所述第二预设数量的全局池化向量进行拼接生成总全局池化向量,并对所述第二预设数量的局部池化向量进行拼接生成总局部池化向量;
将所述总全局池化向量以及所述总局部池化向量分别输入所述卷积神经网络的全连接层,输出所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵。
所述装置还包括:训练模块,用于:
获取多组训练数据集合,其中,每组所述训练数据集合中包含用于表征训练图像全局特征的训练全局卷积特征矩阵、用于表征训练图像中一局部区域特征的训练局部卷积特征矩阵、用于表征从所述训练图像中一区域缩小至另一区域需依次执行的操作类别的训练操作记录矩阵以及需继续执行的训练操作类别;
根据所述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵以及所述训练操作记录矩阵,生成训练状态矩阵,并将所述状态矩阵作为所述长短期记忆网络的输入,将所述训练操作类别作为所述长短期记忆网络的输出,对所述长短期记忆网络内的各个学习参数进行调整,以使所述长短期记忆网络满足收敛条件;所述收敛条件为:
其中,θ*为调整后的所述学习参数;sta为所述训练状态矩阵;atc为所述训练操作类别;p(sta|atc;θ)为当所述学习参数的值为θ时,将训练状态矩阵导入到所述LSTM神经网络,输出结果为所述训练操作类别的概率值;arg maxθStc logp(sta|atc;θ)为所述概率值取最大值时所述学习参数的取值;
将调整后的长短期记忆网络作为所述决策模型。
所述装置还包括:训练数据收集模块,用于
获取训练图像以及候选操作类别集合,所述训练图像为文字区域已知的图像,所述候选操作类别集合中包含多个可用于调整所述训练图像中的选定区域的操作类别;
重复执行所述预设次数的循环操作,输出多组所述训练数据集合,其中,所述循环操作的每一轮包括如下步骤:
从所述训练图像中选定一初始的训练选定区域,根据所述候选操作类别集合中各个操作类别对当前的训练选定区域进行调整,生成各个操作类别对应的调整后的训练选定区域;
根据所述文字区域与各个操作类别对应的调整后的训练选定区域的重合面积,计算各个操作类别对应的重合参数;
将对应的所述重合参数最大的操作类别作为被选操作类别,并将经过所述被选操作类别调整后的训练选定区域作为被选训练区域;
生成表征从所述初始的训练选定区域缩小至所述被选训练区域需依次执行的操作类别的训练操作记录矩阵,并生成所述被选训练区域对应的训练局部卷积特征矩阵以及所述训练图像对应的训练全局卷积特征矩阵;将所述述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵、所述训练操作记录矩阵以及所述被选操作类别组合成为一组训练数据集合。
可以理解地,本发明实施例通过对目标图像执行预设次数的区域更新操作,将经过预设次数的区域更新操作之后的选定区域输出为目标图像的文字区域,每次区域更新操作的步骤为:获取目标图像的选定区域,根据目标图像中各个像素点的特征以及预设的神经网络模型,计算出分别用于表征目标图像全局特征、表征选定区域特征、表征历史操作的三个矩阵,并基于上述三个矩阵生成状态矩阵,再通过预设的决策模型生成状态矩阵对应的操作类型,并通过操作类型对当前的选定区域进行更新,从而通过一次次的调整,逐步缩小选定区域的范围,最终得到目标图像的文字区域,提高文字区域定位的自动化程度。
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如文字区域的定位程序。所述处理器50执行所述计算机程序52时实现上述各个文字区域的定位方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护区域。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和区域,均应包含在本发明的保护区域之内。

Claims (10)

1.一种文字区域的定位方法,其特征在于,包括:
对目标图像执行预设次数的区域更新操作,将经过所述预设次数的区域更新操作之后的选定区域输出为所述目标图像的所述文字区域;
所述区域更新操作包括:
获取目标图像的选定区域;
根据所述目标图像中各个像素点的特征,确定所述目标图像的全局特征矩阵以及所述选定区域的局部特征矩阵;
将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵;
获取历史操作矩阵,所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别,将所述全局卷积特征矩阵、所述局部卷积特征矩阵以及所述历史操作矩阵组合成为状态矩阵;
将所述状态矩阵输入预设的决策模型中,输出操作类别,根据所述操作类别对所述历史操作矩阵进行更新,并根据所述操作类别对所述选定区域的多个端点进行调整,以对所述选定区域进行更新。
2.如权利要求1所述的文字区域的定位方法,其特征在于,所述将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵,包括:
将全局特征矩阵以及所述局部特征矩阵分别导入预设的卷积神经网络,并从所述卷积神经网络中卷积层编号最大的卷积层开始,每间隔第一预设数量的卷积层编号,提取一个卷积层输出的数据,分别作为全局被选数据以及局部被选数据;
将第二预设数量的全局被选数据以及局部被选数据分别进行全局平均池化,生成所述第二预设数量的全局池化向量以及局部池化向量;
对所述第二预设数量的全局池化向量进行拼接生成总全局池化向量,并对所述第二预设数量的局部池化向量进行拼接生成总局部池化向量;
将所述总全局池化向量以及所述总局部池化向量分别输入所述卷积神经网络的全连接层,输出所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵。
3.如权利要求1所述的文字区域的定位方法,其特征在于,在所述获取目标图像之前,还包括:
获取多组训练数据集合,其中,每组所述训练数据集合中包含用于表征训练图像全局特征的训练全局卷积特征矩阵、用于表征训练图像中一局部区域特征的训练局部卷积特征矩阵、用于表征从所述训练图像中一区域缩小至另一区域需依次执行的操作类别的训练操作记录矩阵以及需继续执行的训练操作类别;
根据所述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵以及所述训练操作记录矩阵,生成训练状态矩阵,并将所述状态矩阵作为所述长短期记忆网络的输入,将所述训练操作类别作为所述长短期记忆网络的输出,对所述长短期记忆网络内的各个学习参数进行调整,以使所述长短期记忆网络满足收敛条件;所述收敛条件为:
其中,θ*为调整后的所述学习参数;sta为所述训练状态矩阵;atc为所述训练操作类别;p(sta|atc;θ)为当所述学习参数的值为θ时,将训练状态矩阵导入到所述LSTM神经网络,输出结果为所述训练操作类别的概率值;arg maxθStc logp(sta|atc;θ)为所述概率值取最大值时所述学习参数的取值;
将调整后的长短期记忆网络作为所述决策模型。
4.如权利要求3所述的文字区域的定位方法,其特征在于,还包括:
获取训练图像以及候选操作类别集合,所述训练图像为文字区域已知的图像,所述候选操作类别集合中包含多个可用于调整所述训练图像中的选定区域的操作类别;
重复执行所述预设次数的循环操作,输出多组所述训练数据集合,其中,所述循环操作的每一轮包括如下步骤:
从所述训练图像中选定一初始的训练选定区域,根据所述候选操作类别集合中各个操作类别对当前的训练选定区域进行调整,生成各个操作类别对应的调整后的训练选定区域;
根据所述文字区域与各个操作类别对应的调整后的训练选定区域的重合面积,计算各个操作类别对应的重合参数;
将对应的所述重合参数最大的操作类别作为被选操作类别,并将经过所述被选操作类别调整后的训练选定区域作为被选训练区域;
生成表征从所述初始的训练选定区域缩小至所述被选训练区域需依次执行的操作类别的训练操作记录矩阵,并生成所述被选训练区域对应的训练局部卷积特征矩阵以及所述训练图像对应的训练全局卷积特征矩阵;将所述述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵、所述训练操作记录矩阵以及所述被选操作类别组合成为一组训练数据集合。
5.如权利要求4所述的文字区域的定位方法,其特征在于,所述根据所述文字区域与各个操作类别对应的调整后的训练选定区域的重合面积,计算各个操作类别对应的重合参数,包括:
通过公式计算各个操作类别对应的重合参数,所述Coi为所述候选操作类别集合中第i个操作类别对应的重合参数,所述Selecti为操作类别对应的调整后的训练选定区域,所述Text为所述文字区域,所述∩为计算两区域的交集面积,所述∪为计算两区域的并集面积。
6.一种文字区域的定位装置,其特征在于,所述装置包括:
执行模块,用于对目标图像执行预设次数的区域更新操作,将经过所述预设次数的区域更新操作之后的选定区域输出为所述目标图像的所述文字区域;
所述执行模块包括:
获取子模块,用于获取目标图像的选定区域;
第一矩阵生成子模块,用于根据所述目标图像中各个像素点的特征,确定所述目标图像的全局特征矩阵以及选定区域的局部特征矩阵;
第二矩阵生成子模块,用于将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵;
组合子模块,用于获取初始的历史操作矩阵,所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别,将所述全局卷积特征矩阵、局部卷积特征矩阵以及历史操作矩阵组合成为状态矩阵;
更新子模块,用于将所述状态矩阵输入预设的决策模型中,输出操作类别,根据所述操作类别对选定区域的多个端点进行调整,以对所述选定区域进行更新,并根据所述操作矩阵对历史操作矩阵进行更新。
7.如权利要求6所述的文字区域的定位装置,其特征在于,所述第一矩阵生成子模块,具体用于:
提取子模块,用于将全局特征矩阵以及所述局部特征矩阵分别导入预设的卷积神经网络,并从所述卷积神经网络中卷积层编号最大的卷积层开始,每间隔第一预设数量的卷积层编号,提取一个卷积层输出的数据,分别作为全局被选数据以及局部被选数据;
池化子模块,用于将第二预设数量的全局被选数据以及局部被选数据分别进行全局平均池化,生成所述第二预设数量的全局池化向量以及局部池化向量;
拼接子模块,用于对所述第二预设数量的全局池化向量进行拼接生成总全局池化向量,并对所述第二预设数量的局部池化向量进行拼接生成总局部池化向量;
输出子模块,用于将所述总全局池化向量以及所述总局部池化向量分别输入所述卷积神经网络的全连接层,输出所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵。
8.如权利要求7所述的文字区域的定位装置,其特征在于,还包括:
训练模块,用于获取多组训练数据集合,其中,每组所述训练数据集合中包含用于表征训练图像全局特征的训练全局卷积特征矩阵、用于表征训练图像中一局部区域特征的训练局部卷积特征矩阵、用于表征从所述训练图像中一区域缩小至另一区域需依次执行的操作类别的训练操作记录矩阵以及需继续执行的训练操作类别;
根据所述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵以及所述训练操作记录矩阵,生成训练状态矩阵,并将所述状态矩阵作为所述长短期记忆网络的输入,将所述训练操作类别作为所述长短期记忆网络的输出,对所述长短期记忆网络内的各个学习参数进行调整,以使所述长短期记忆网络满足收敛条件;所述收敛条件为:
其中,θ*为调整后的所述学习参数;sta为所述训练状态矩阵;atc为所述训练操作类别;p(sta|atc;θ)为当所述学习参数的值为θ时,将训练状态矩阵导入到所述LSTM神经网络,输出结果为所述所述训练操作类别的概率值;arg maxθStc logp(sta|atc;θ)为所述概率值取最大值时所述学习参数的取值;
将调整后的长短期记忆网络作为所述决策模型。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201910264868.5A 2019-04-03 2019-04-03 文字区域的定位方法、装置、终端设备及介质 Active CN110163202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910264868.5A CN110163202B (zh) 2019-04-03 2019-04-03 文字区域的定位方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910264868.5A CN110163202B (zh) 2019-04-03 2019-04-03 文字区域的定位方法、装置、终端设备及介质

Publications (2)

Publication Number Publication Date
CN110163202A true CN110163202A (zh) 2019-08-23
CN110163202B CN110163202B (zh) 2024-06-04

Family

ID=67638922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910264868.5A Active CN110163202B (zh) 2019-04-03 2019-04-03 文字区域的定位方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN110163202B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080002893A1 (en) * 2006-06-29 2008-01-03 Luc Vincent Recognizing text in images
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN108304761A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 文本检测方法、装置、存储介质和计算机设备
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning
CN109034152A (zh) * 2018-07-17 2018-12-18 广东工业大学 基于lstm-cnn组合模型的车牌定位方法及装置
CN109492630A (zh) * 2018-10-26 2019-03-19 信雅达***工程股份有限公司 一种基于深度学习的金融行业图像中的文字区域检测定位的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080002893A1 (en) * 2006-06-29 2008-01-03 Luc Vincent Recognizing text in images
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN108304761A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 文本检测方法、装置、存储介质和计算机设备
CN109034152A (zh) * 2018-07-17 2018-12-18 广东工业大学 基于lstm-cnn组合模型的车牌定位方法及装置
CN109492630A (zh) * 2018-10-26 2019-03-19 信雅达***工程股份有限公司 一种基于深度学习的金融行业图像中的文字区域检测定位的方法

Also Published As

Publication number Publication date
CN110163202B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
US20230021497A1 (en) Generating images using neural networks
US11836615B2 (en) Bayesian nonparametric learning of neural networks
CN107358293B (zh) 一种神经网络训练方法及装置
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN109816009A (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN110188795A (zh) 图像分类方法、数据处理方法和装置
CN110766038B (zh) 无监督式的地貌分类模型训练和地貌图构建方法
CN107688823A (zh) 一种图像特征获取方法及装置,电子设备
JP2019032808A (ja) 機械学習方法および装置
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN106203333A (zh) 人脸识别方法及***
CN110097178A (zh) 一种基于熵注意的神经网络模型压缩与加速方法
CN110222760A (zh) 一种基于winograd算法的快速图像处理方法
CN113095254B (zh) 一种人体部位关键点的定位方法及***
CN109766925A (zh) 特征融合方法、装置、电子设备及存储介质
CN107871103A (zh) 一种人脸认证方法和装置
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
CN110378250A (zh) 用于场景认知的神经网络的训练方法、装置及终端设备
CN109740057A (zh) 一种基于知识萃取的增强神经网络及信息推荐方法
CN111008631A (zh) 图像的关联方法及装置、存储介质和电子装置
CN103871086B (zh) 基于fpga构建的分层次栅格转矢量处理方法
CN115081613A (zh) 生成深度学习模型的方法、装置、电子设备及存储介质
CN107451617A (zh) 一种图转导半监督分类方法
CN109697511B (zh) 数据推理方法、装置及计算机设备
CN110163202A (zh) 文字区域的定位方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant