CN113392825B - 文本识别方法、装置、设备及存储介质 - Google Patents
文本识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113392825B CN113392825B CN202110666915.6A CN202110666915A CN113392825B CN 113392825 B CN113392825 B CN 113392825B CN 202110666915 A CN202110666915 A CN 202110666915A CN 113392825 B CN113392825 B CN 113392825B
- Authority
- CN
- China
- Prior art keywords
- text
- convolution
- picture
- feature
- text picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000010586 diagram Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种文本识别方法、装置、设备及存储介质,本申请获取待识别文本所在的图像区域对应的文本图片,进一步对于待识别的文本图片,对其提取至少两个不同方向上的图像特征,进而基于提取的至少两个不同方向上的图像特征,识别文本图片中包含的文本内容。由此可见,对于待识别的文本图片,鉴于其文本内容方向上的多样化,本申请在进行图像特征提取时强化了所提取的方向信息,也即,从两个及以上的不同方向对文本图片进行特征提取,使得提取的图像特征包含了文本图片中待识别文本的多个方向上的特征信息,在此基础上,基于提取的图像特征,能够更加准确的识别文本图片中所包含的文本内容,提高了文本识别的准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本识别方法、装置、设备及存储介质。
背景技术
随着文本识别技术的发展,文本识别在现实生活当中的应用越来越广泛。示例如,自动驾驶中的路标识别、拍照翻译、文档扫描识别等。
实际生活中,文本区域在场景图片中的方向分布多种多样,如图1所示,包括水平文本、倾斜文本、竖直文本等。由于待识别文本图片的方向性多样化,这给文本识别带来了更大的挑战,如何准确的对此类图片进行文本识别,成为了行业内亟需解决的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种文本识别方法、装置、设备及存储介质,以准确的对方向性多样化的待识别文本图片进行文本识别。具体方案如下:
一种文本识别方法,包括:
获取待识别的文本图片,所述文本图片为待识别文本所在的图像区域;
对所述文本图片提取至少两个不同方向上的图像特征;
基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
优选地,所述对所述文本图片提取至少两个不同方向上的图像特征,包括:
将所述文本图片输入预先构建的卷积网络;
利用所述卷积网络提取所述文本图片的至少两个不同方向上的图像特征,其中,卷积网络中每一卷积层输出的特征图由至少两个特征子图融合而成,所述至少两个特征子图包括同一卷积核在旋转前及经至少一次旋转后,对前一卷积层输出的特征图进行卷积操作所得。
优选地,所述利用所述卷积网络提取所述文本图片的至少两个不同方向上的图像特征,包括:
利用所述卷积网络中每一卷积层的卷积核对前一卷积层输出的特征图进行卷积操作,得到每一卷积核提取的特征子图,每一卷积层的卷积核包括原始卷积核及其经至少一次旋转后的卷积核;
将所述原始卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层;
由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
优选地,所述利用所述卷积网络提取所述文本图片的至少两个不同方向上的图像特征,包括:
对所述卷积网络中每一卷积层的卷积核进行至少一次旋转,并利用旋转前及旋转后的卷积核对前一卷积层输出的特征图进行卷积操作,得到旋转前及旋转后的每一卷积核提取的特征子图;
将所述卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层;
由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
优选地,所述至少两个特征子图包括:
同一卷积核在旋转前对前一卷积层输出的特征图进行卷积操作所得的特征子图;以及,
同一卷积核在按照设定方向旋转90度、180度和/或270度后,由旋转后的卷积核对前一卷积层输出的特征图进行卷积操作所得的特征子图。
优选地,所述基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容,包括:
将提取的所述至少两个不同方向上的图像特征输入预先构建的识别网络,得到识别网络输出的所述文本图片中包含的文本内容;
其中,所述识别网络和所述卷积网络组成文本识别模型,所述文本识别模型利用标注有文本内容识别结果的样本图片训练数据训练得到。
优选地,所述获取待识别的文本图片,包括:
获取待识别的原始文本图片;
若检测到所述原始文本图片相对于水平方向倾斜,则将所述原始文本图片旋转至水平方向,作为待识别的文本图片。
优选地,在所述将所述原始文本图片旋转至水平方向之后,该方法还包括:
计算水平方向的原始文本图片的高宽比;
若确定所述高宽比超过设定阈值,则将水平方向的原始文本图片旋转90度,作为待识别的文本图片。
优选地,在将所述文本图片输入预先构建的卷积网络之前,该方法还包括:
以所述文本图片作为正向文本图片,将所述正向文本图片旋转180度,得到反向文本图片;
则所述将所述文本图片输入预先构建的卷积网络,包括:
将所述正向文本图片和所述反向文本图片分别输入所述文本识别模型中的卷积网络,得到文本识别模型输出的所述正向文本图片包含的文本内容及其置信度,以及文本识别模型输出的所述反向文本图片包含的文本内容及其置信度;
将所述正向文本图片包含的文本内容,和所述反向文本图片包含的文本内容之中,置信度高的一个作为最终识别结果。
一种文本识别装置,包括:
图片获取单元,用于获取待识别的文本图片,所述文本图片为待识别文本所在的图像区域;
特征提取单元,用于对所述文本图片提取至少两个不同方向上的图像特征;
文本内容识别单元,用于基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
一种文本识别设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的文本识别方法的各个步骤。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的文本识别方法的各个步骤。
借由上述技术方案,本申请获取待识别文本所在的图像区域对应的文本图片,进一步对于待识别的文本图片,对其提取至少两个不同方向上的图像特征,进而基于提取的至少两个不同方向上的图像特征,识别文本图片中包含的文本内容。由此可见,对于待识别的文本图片,鉴于其文本内容方向上的多样化,本申请在进行图像特征提取时强化了所提取的方向信息,也即,从两个及以上的不同方向对文本图片进行特征提取,使得提取的图像特征包含了文本图片中待识别文本的多个方向上的特征信息,在此基础上,基于提取的图像特征,能够更加准确的识别文本图片中所包含的文本内容,提高了文本识别的准确度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示例了几种不同方向分布的文本图片示意图;
图2为本申请实施例提供的文本识别方法的一流程示意图;
图3示例了一种将原始文本图片旋转至水平方向的过程示意图;
图4示例了一种将文本图片旋转至横向放置的过程示意图;
图5示例了一种相邻两个卷积层通过共享旋转卷积核进行特征提取的过程示意图;
图6示例了一种编解码结构的识别网络架构示意图;
图7示例了一种对于文字翻转的文本图片进行旋转操作的过程示意图;
图8为本申请实施例提供的一种识别处理装置结构示意图;
图9为本申请实施例提供的文本识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图2所述,本申请的文本识别方法可以包括如下步骤:
步骤S100、获取待识别的文本图片。
具体地,待识别的文本图片为待识别文本所在的图像区域。本步骤中,可以直接获取需要进行文本识别的文本图片,也可以是对包含有待识别文本的原始图片进行文本区域检测,得到待识别文本所在的图像区域。
进一步地,为了便于文本识别,本步骤中获取的文本图片可以是文本行图片,也即一行文本所处的图像区域。
步骤S110、对所述文本图片提取至少两个不同方向上的图像特征。
具体地,待识别的文本图片其文本内容的方向并不固定,为了适应于多种不同方向文本内容的识别,本步骤中在进行图像特征提取时强化了所提取的方向信息,也即,从两个及以上的不同方向对文本图片进行特征提取,使得提取的图像特征包含了文本图片中待识别文本的多个不同方向上的特征信息。当然,对于图像特征的提取方式,可以有多种不同的实现方式,本步骤中不做严格限定。
步骤S120、基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
具体地,在提取得到待识别的文本图片的至少两个不同方向上的图像特征之后,基于提取的图像特征,能够更加准确的识别文本图片中所包含的文本内容,提高了文本识别的准确度。
本申请实施例提供的文本识别方法,获取待识别文本所在的图像区域对应的文本图片,进一步对于待识别的文本图片,对其提取至少两个不同方向上的图像特征,进而基于提取的至少两个不同方向上的图像特征,识别文本图片中包含的文本内容。由此可见,对于待识别的文本图片,鉴于其文本内容方向上的多样化,本申请在进行图像特征提取时强化了所提取的方向信息,也即,从两个及以上的不同方向对文本图片进行特征提取,使得提取的图像特征包含了文本图片中待识别文本的多个方向上的特征信息,在此基础上,基于提取的图像特征,能够更加准确的识别文本图片中所包含的文本内容,提高了文本识别的准确度。
在本申请的一些实施例中,进一步对前述步骤S100,获取待识别的文本图片的过程进行介绍。
本实施例中首先获取到待识别的原始文本图片,该原始文本图片为通过文本区域检测所得到的图片。一般性的,原始文本图片可以是文本行图片。根据文本区域检测时所使用的检测手段的不同,原始文本图片的形状也可以不同,示例如,原始文本图片可以是矩形、平行四边形或其它可选形状。通常情况下,本申请可以选取矩形的原始文本图片。
由于文本区域在不同场景下的位置、走势、文字方向等可能会不同,因此获取到的原始文本图片可以会相对于水平方向倾斜,也即原始文本图片的任意一条边均不平行于水平方向,如图3所示,图3中左侧原始文本图片相对于水平方向倾斜。
为了更好的供后续步骤中对文本图片提取多个不同方向上的图像特征,本实施例中可以将原始文本图片旋转至水平方向,作为待识别的文本图片。
对原始文本图片旋转的方向可以是逆时针,也可以是顺时针,只要确保旋转后的文本图片的一条边平行于水平方向即可。
可以理解的是,经过上述旋转处理后,在利用多个卷积核提取图像特征时,可以沿文字的水平和竖直中轴四个主方向,进行图像特征的提取,提取的图像特征更加便于后续进行文本内容识别。
再进一步的,水平方向旋转后的文本图片,其可能会存在两种形式,一种是文本图片竖直放置,另一种是文本图片横向放置。对于竖直放置的文本图片,其在后续网络处理时难度较高,同时,为了便于数据的统一性,本实施例中可以将文本图片均调整为横向放置,具体实施过程可以包括:
在前述将原始文本图片旋转至水平方向之后,进一步计算水平方向的原始文本图片的高宽比。
具体地,通过计算高宽比,可以判断文本图片是否为竖直放置或水平放置。示例如,可以预先设置高宽比阈值,如设置为2或其它可选数值。当确定计算得到的高宽比超过设定阈值时,可以认为文本图片呈竖直放置,为此可以进一步将水平方向的原始文本图片旋转90度,作为待识别的文本图片;若确定计算得到的高宽比不超过设定阈值,可以认为文本图片呈横向放置,不需要进行旋转处理,即可直接作为待识别的文本图片。
其中,上述将水平方向的原始文本图片旋转90度的过程,可以按照顺时针或逆时针方向进行旋转。如图4所示,对于图4中左侧文本图片,其竖直放置,可以按照顺时针方向,旋转90度。
在本申请的一些实施例中,对上述步骤S110,对所述文本图片提取至少两个不同方向上的图像特征的过程进行介绍。
本实施例中介绍了一种通过卷积网络进行图像特征提取的可选方案。具体地,本申请可以预先训练一个卷积网络,用于进行图像特征的提取。
卷积网络可以采用Resnet29网络或其他形式的带有卷积层的网络。
卷积网络包括若干个卷积层。为了实现对文本图片提取至少两个不同方向上的图像特征,本实施例中将卷积层的卷积核设置为共享旋转卷积核。这里,卷积核即权值矩阵,通过卷积核对前一卷积层输出的特征图进行卷积操作。所谓的共享旋转卷积核即,保持卷积核的参数不变(即权值矩阵内各权值不变),将卷积核以90度为单位进行至少一次旋转,旋转后的卷积核和旋转前的卷积核互为共享旋转卷积核。
通过共享旋转卷积核,可以获取文本图片的不同方向上的特征信息。
每一卷积层输出的特征图由至少两个特征子图融合而成,该至少两个特征子图包括同一卷积核在旋转前及经过至少一次旋转后,对前一卷积层输出的特征图进行卷积操作所得。
具体地,上述至少两个特征子图可以包括:
同一卷积核在旋转前对前一卷积层输出的特征图进行卷积操作所得的特征子图;以及,
同一卷积核在按照设定方向(如顺时针或逆时针)旋转90度、180度和/或270度后,由旋转后的卷积核对前一卷积层输出的特征图进行卷积操作所得的特征子图。
可以理解的是,卷积核在旋转前对前一卷积层输出的特征图进行卷积操作,可以得到对应的一个特征子图。在此基础上,卷积核可以按照上述方式旋转90度、180度和/或270度,每旋转一次,利用旋转后的卷积核对前一卷积层输出的特征图进行卷积操作,即可额外得到一个特征子图,示例如,卷积核旋转一次,可以额外得到一个特征子图,卷积核旋转两次,可以额外得到两个特征子图,卷积核旋转三次,可以额外得到三个特征子图。
由卷积核旋转前及旋转后得到的各个特征子图进行融合,得到当前卷积层的输出。
结合图5所示,图5示例了一种相邻两个卷积层通过共享旋转卷积核进行特征提取的过程示意图。
定义卷积网络中前一层的输出特征为Fi-1,尺寸为C*H*W,其中C为特征的通道数,H为特征的高,W为特征的宽。
将特征Fi-1作为当前卷积层的输入,设置卷积核大小为3*3(图5仅仅作为一种示例,卷积核的大小还可以是其它尺寸,本申请对此不做严格限定)。
为了使得卷积核能够捕捉到各个不同方向上的文本特征,本实施例中可以对卷积核进行旋转,示例如按照逆时针方向分别旋转90度、180度和270度。进一步,利用旋转前及旋转后的各个卷积核,在上一层输出的特征图上做卷积操作,获取四个主要方向上的特征信息。各卷积核卷积操作后得到的特征子图分别为Fi,0、Fi,90、Fi,180、Fi,270。当前层的输出为上述四个特征子图的融合Fi。各特征的计算公式如下:
Fi,0=conv0(Fi-1)
Fi,90=conv90(Fi-1)
Fi,180=conv180(Fi-1)
Fi,270=conv270(Fi-1)
Fi=cat(Fi,0,Fi,90,Fi,180,Fi,270)
其中,cat()表示特征的拼接操作。
融合后的输出特征Fi大小为4C′*H′*W′。其中,C′、H′和W′分别为当前卷积层特征的通道数、特征的高和宽。
将融合后的输出特征Fi输入下一卷积层进行处理,依次类推,每一卷积层提取的特征都包含了不同的方向信息,强化了提取的图像特征的方向性,最后一个卷积层输出的特征作为卷积网络提取的图像特征F。
基于上述介绍的卷积网络,在对文本图片提取至少两个不同方向上的图像特征时,可以将文本图片输入卷积网络。利用卷积网络提取文本图片的至少两个不同方向上的图像特征,其中,卷积网络中每一卷积层输出的特征图由至少两个特征子图融合而成,所述至少两个特征子图包括同一卷积核在旋转前及经至少一次旋转后,对前一卷积层输出的特征图进行卷积操作所得。
可以理解的是,卷积核经过一次旋转,能提取一个方向上的图像特征,若按照图5示例的旋转方式,则可以提取四个方向上的图像特征。
当然,相比于卷积核不做任何旋转处理的方式,卷积核每多旋转一次,则可以多提取一个方向上的图像特征,进而能够为后续文本识别提供更加准确的图像特征,提升文本识别的准确率。
在本申请的一些实施例中,进一步介绍了上述卷积网络的两种可选实现架构,以及利用卷积网络进行图像特征提取的实施过程。
一种可选的方式下,卷积网络中每一卷积层的卷积核可以包括原始卷积核以及原始卷积核经过至少一次旋转后的卷积核。
在此基础上,利用卷积网络提取所述文本图片的至少两个不同方向上的图像特征的过程,可以包括:
S1、利用卷积网络中每一卷积层的卷积核对前一卷积层输出的特征图进行卷积操作,得到每一卷积核提取的特征子图。
其中,由于每一卷积层的卷积核包括原始卷积核及其经至少一次旋转后的卷积核,因此可以得到原始卷积核及其经旋转后的各卷积核分别提取的特征子图。
S2、将所述原始卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层。
具体地,原始卷积核及其旋转后的各卷积核所提取的特征子图的融合过程,可以结合前文相关介绍,示例如将特征子图在通道维度拼接在一起。
S3、由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
另一种可选的方式下,卷积网络中每一卷积层的卷积核包括原始卷积核,而并不包括旋转后的卷积核。
在此基础上,利用卷积网络提取所述文本图片的至少两个不同方向上的图像特征的过程,可以包括:
S1、对卷积网络中每一卷积层的卷积核进行至少一次旋转,并利用旋转前及旋转后的卷积核对前一卷积层输出的特征图进行卷积操作,得到旋转前及旋转后的每一卷积核提取的特征子图。
可以理解的是,当卷积网络的卷积层中仅包含原始的卷积核时,为了实现从多个不同方向提取图像特征,在利用卷积网络进行特征提取时,需要首先对每一卷积层的卷积核进行至少一次旋转,进而利用旋转前及旋转后的卷积核对前一卷积层输出的特征图进行卷积操作,得到旋转前及旋转后每一卷积核提取的特征子图。
S2、将所述卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层。
S3、由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
对比两种卷积网络的架构可知,前一种卷积网络中预先配置了旋转前及旋转后的多个卷积核,进而在进行图像特征提取时,可以直接利用各卷积核进行特征的提取。后一种卷积网络中仅配置了旋转前的卷积核,为此在进行图像特征提取时,需要先对卷积核进行至少一次旋转,进一步才可以利用旋转前及旋转后的各卷积核进行特征的提取。两种实现方式均可实现多方向图像特征的提取,具体可以由技术人根据实际需要而选择。
基于前述实施例介绍的利用卷积网络对文本图片提取至少两个不同方向上的图像特征的基础上,本申请实施例中进一步介绍步骤S120,基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容的过程。
本实施例中可以选用神经网络模型来处理文本识别任务,也即可以预先训练识别网络,该识别网络和卷积网络共同组成文本识别模型。具体地,卷积网络的输出作为识别网络的输入,卷积网络和识别网络联合进行训练。
文本识别模型训练时,利用标注有文本内容识别结果的样本图片训练数据进行训练。
在此基础上,通过将待识别的文本图片输入文本识别模型的卷积网络,可以提取至少两个不同方向上的图像特征,进一步该提取的图像特征输入识别网络,由识别网络输出文本图片中包含的文本内容。
其中,识别网络可以选用多种神经网络架构,示例如可以采用Encoder-Decoder编解码架构,如图6所示。
其中编码器Encoder可以采用双向LSTM(Long Short-Term Memory,长短期记忆网络)结构,将上一步经过卷积网络输出的图像特征F作为输入,输出编码器每一帧的隐状态hi。
解码器Decoder可以采用GRU(Gate Recurrent Unit,门控循环单元)或LSTM结构。对于解码器当前时刻的隐状态st,可以采用注意力机制Attention,计算隐状态st与编码器每帧隐状态hi的相关性,获取上下文特征向量ct,计算过程如下:
eti=o(st,hi)
其中,o表示点乘操作,T表示编码器长度。
最后,解码器当前时刻的文本预测值yt,由当前时刻的隐状态st和上下文特征向量ct共同经过线性分类层W解出。
在本申请的一些实施例中,介绍了文本识别方法的另一种实现过程。
对于获取的待识别的文本图片,其可能出现文字翻转的问题,如图7所示,图7中上图中的文字是翻转的。
此外,结合图3、图4对应的文本图片旋转的过程,在旋转过程也可能会出现最终的文本图片出现文字翻转的情况。
若将存在文字翻转问题的文本图片输入文本识别模型进行识别,最终识别出的文本内容可能不准确,或者识别出的文本内容语序颠倒。
为此,本实施例中,在将文本图片输入预先构建的卷积网络之前,进一步增加如下处理步骤:
以文本图片作为正向文本图片,将所述正向文本图片旋转180度,得到反向文本图片。
在此基础上,将所述正向文本图片和所述反向文本图片分别输入文本识别模型中的卷积网络,得到文本识别模型输出的正向文本图片包含的文本内容及其置信度,以及文本识别模型输出的反向文本图片包含的文本内容及其置信度。
将正向文本图片包含的文本内容,和反向文本图片包含的文本内容之中,置信度高的一个作为最终识别结果。
通过将正向文本图片和反向文本图片分别输入文本识别模型,并选取置信度较高的一个识别后的文本内容作为最终识别结果,能够适应不同方向的文本图片,得到的最终识别结果更加准确。
下面对本申请实施例提供的文本识别装置进行描述,下文描述的文本识别装置与上文描述的文本识别方法可相互对应参照。
参见图8,图8为本申请实施例公开的一种文本识别装置结构示意图。
如图8所示,该装置可以包括:
图片获取单元11,用于获取待识别的文本图片,所述文本图片为待识别文本所在的图像区域;
特征提取单元12,用于对所述文本图片提取至少两个不同方向上的图像特征;
文本内容识别单元13,用于基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
可选的,上述特征提取单元可以包括:
卷积网络处理单元,用于将所述文本图片输入预先构建的卷积网络;利用所述卷积网络提取所述文本图片的至少两个不同方向上的图像特征,其中,卷积网络中每一卷积层输出的特征图由至少两个特征子图融合而成,所述至少两个特征子图包括同一卷积核在旋转前及经至少一次旋转后,对前一卷积层输出的特征图进行卷积操作所得。
可选的,本申请实施例提供了卷积网络处理单元的两种可选实现结构,分别如下:
第一种,卷积网络处理单元包括:
第一卷积操作单元,用于利用所述卷积网络中每一卷积层的卷积核对前一卷积层输出的特征图进行卷积操作,得到每一卷积核提取的特征子图,每一卷积层的卷积核包括原始卷积核及其经至少一次旋转后的卷积核;
第一特征融合单元,用于将所述原始卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层;
第一卷积输出单元,用于由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
第二种,卷积网络处理单元包括:
卷积核旋转单元,用于对所述卷积网络中每一卷积层的卷积核进行至少一次旋转;
第二卷积操作单元,用于利用旋转前及旋转后的卷积核对前一卷积层输出的特征图进行卷积操作,得到旋转前及旋转后的每一卷积核提取的特征子图;
第二特征融合单元,用于将所述卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层;
第二卷积输出单元,用于由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
可选的,上述至少两个特征子图可以包括:
同一卷积核在旋转前对前一卷积层输出的特征图进行卷积操作所得的特征子图;以及,
同一卷积核在按照设定方向旋转90度、180度和/或270度后,由旋转后的卷积核对前一卷积层输出的特征图进行卷积操作所得的特征子图。
可选的,上述文本内容识别单元可以包括:
识别网络处理单元,用于将提取的所述至少两个不同方向上的图像特征输入预先构建的识别网络,得到识别网络输出的所述文本图片中包含的文本内容;其中,所述识别网络和所述卷积网络组成文本识别模型,所述文本识别模型利用标注有文本内容识别结果的样本图片训练数据训练得到。
可选的,上述图片获取单元可以包括:
原始图片获取单元,用于获取待识别的原始文本图片,所述原始文本图片为矩形;
第一旋转单元,用于若检测到所述原始文本图片相对于水平方向倾斜,则将所述原始文本图片旋转至水平方向,作为待识别的文本图片。
进一步可选的,上述图片获取单元还可以包括:
高宽比计算单元,用于在所述第一旋转单元处理之后,计算水平方向的原始文本图片的高宽比;
第二旋转单元,用于若确定所述高宽比超过设定阈值,则将水平方向的原始文本图片旋转90度,作为待识别的文本图片。
可选的,本申请的装置还可以包括:
第三旋转单元,用于在将文本图片输入预先构建的卷积网络之前,以所述文本图片作为正向文本图片,将所述正向文本图片旋转180度,得到反向文本图片。在此基础上,上述卷积网络处理单元可以包括:
正反向文本图片输入单元,用于将所述正向文本图片和所述反向文本图片分别输入所述文本识别模型中的卷积网络,得到文本识别模型输出的所述正向文本图片包含的文本内容及其置信度,以及文本识别模型输出的所述反向文本图片包含的文本内容及其置信度;
置信度选取单元,用于将所述正向文本图片包含的文本内容,和所述反向文本图片包含的文本内容之中,置信度高的一个作为最终识别结果。
本申请实施例提供的文本识别装置可应用于文本识别设备,如终端:手机、电脑等。可选的,图9示出了文本识别设备的硬件结构框图,参照图9,文本识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待识别的文本图片,所述文本图片为待识别文本所在的图像区域;
对所述文本图片提取至少两个不同方向上的图像特征;
基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待识别的文本图片,所述文本图片为待识别文本所在的图像区域;
对所述文本图片提取至少两个不同方向上的图像特征;
基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种文本识别方法,其特征在于,包括:
获取待识别的文本图片,所述文本图片为待识别文本所在的图像区域;
对所述文本图片提取至少两个不同方向上的图像特征,使得提取的所述图像特征包含所述文本图片中待识别文本的多个不同方向上的特征信息;
基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本图片提取至少两个不同方向上的图像特征,包括:
将所述文本图片输入预先构建的卷积网络;
利用所述卷积网络提取所述文本图片的至少两个不同方向上的图像特征,其中,卷积网络中每一卷积层输出的特征图由至少两个特征子图融合而成,所述至少两个特征子图包括同一卷积核在旋转前及经至少一次旋转后,对前一卷积层输出的特征图进行卷积操作所得。
3.根据权利要求2所述的方法,其特征在于,所述利用所述卷积网络提取所述文本图片的至少两个不同方向上的图像特征,包括:
利用所述卷积网络中每一卷积层的卷积核对前一卷积层输出的特征图进行卷积操作,得到每一卷积核提取的特征子图,每一卷积层的卷积核包括原始卷积核及其经至少一次旋转后的卷积核;
将所述原始卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层;
由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
4.根据权利要求2所述的方法,其特征在于,所述利用所述卷积网络提取所述文本图片的至少两个不同方向上的图像特征,包括:
对所述卷积网络中每一卷积层的卷积核进行至少一次旋转,并利用旋转前及旋转后的卷积核对前一卷积层输出的特征图进行卷积操作,得到旋转前及旋转后的每一卷积核提取的特征子图;
将所述卷积核及其经旋转后的各卷积核所提取的特征子图进行融合,并将融合后的特征图输入下一卷积层;
由所述卷积网络的最后一个卷积层输出的特征图作为所述文本图片的图像特征。
5.根据权利要求2所述的方法,其特征在于,所述至少两个特征子图包括:
同一卷积核在旋转前对前一卷积层输出的特征图进行卷积操作所得的特征子图;以及,
同一卷积核在按照设定方向旋转90度、180度和/或270度后,由旋转后的卷积核对前一卷积层输出的特征图进行卷积操作所得的特征子图。
6.根据权利要求2所述的方法,其特征在于,所述基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容,包括:
将提取的所述至少两个不同方向上的图像特征输入预先构建的识别网络,得到识别网络输出的所述文本图片中包含的文本内容;
其中,所述识别网络和所述卷积网络组成文本识别模型,所述文本识别模型利用标注有文本内容识别结果的样本图片训练数据训练得到。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述获取待识别的文本图片,包括:
获取待识别的原始文本图片;
若检测到所述原始文本图片相对于水平方向倾斜,则将所述原始文本图片旋转至水平方向,作为待识别的文本图片。
8.根据权利要求7所述的方法,其特征在于,在所述将所述原始文本图片旋转至水平方向之后,该方法还包括:
计算水平方向的原始文本图片的高宽比;
若确定所述高宽比超过设定阈值,则将水平方向的原始文本图片旋转90度,作为待识别的文本图片。
9.根据权利要求6所述的方法,其特征在于,在将所述文本图片输入预先构建的卷积网络之前,该方法还包括:
以所述文本图片作为正向文本图片,将所述正向文本图片旋转180度,得到反向文本图片;
则所述将所述文本图片输入预先构建的卷积网络,包括:
将所述正向文本图片和所述反向文本图片分别输入所述文本识别模型中的卷积网络,得到文本识别模型输出的所述正向文本图片包含的文本内容及其置信度,以及文本识别模型输出的所述反向文本图片包含的文本内容及其置信度;
将所述正向文本图片包含的文本内容,和所述反向文本图片包含的文本内容之中,置信度高的一个作为最终识别结果。
10.一种文本识别装置,其特征在于,包括:
图片获取单元,用于获取待识别的文本图片,所述文本图片为待识别文本所在的图像区域;
特征提取单元,用于对所述文本图片提取至少两个不同方向上的图像特征,使得提取的所述图像特征包含所述文本图片中待识别文本的多个不同方向上的特征信息;
文本内容识别单元,用于基于提取的所述至少两个不同方向上的图像特征,识别所述文本图片中包含的文本内容。
11.一种文本识别设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~9中任一项所述的文本识别方法的各个步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~9中任一项所述的文本识别方法的各个步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110666915.6A CN113392825B (zh) | 2021-06-16 | 2021-06-16 | 文本识别方法、装置、设备及存储介质 |
PCT/CN2021/139972 WO2022262239A1 (zh) | 2021-06-16 | 2021-12-21 | 文本识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110666915.6A CN113392825B (zh) | 2021-06-16 | 2021-06-16 | 文本识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392825A CN113392825A (zh) | 2021-09-14 |
CN113392825B true CN113392825B (zh) | 2024-04-30 |
Family
ID=77621485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110666915.6A Active CN113392825B (zh) | 2021-06-16 | 2021-06-16 | 文本识别方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113392825B (zh) |
WO (1) | WO2022262239A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392825B (zh) * | 2021-06-16 | 2024-04-30 | 中国科学技术大学 | 文本识别方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222589A (zh) * | 2018-11-27 | 2020-06-02 | ***通信集团辽宁有限公司 | 图像文本识别方法、装置、设备及计算机存储介质 |
CN111400497A (zh) * | 2020-03-19 | 2020-07-10 | 北京远鉴信息技术有限公司 | 一种文本识别方法、装置、存储介质及电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320961A (zh) * | 2015-10-16 | 2016-02-10 | 重庆邮电大学 | 基于卷积神经网络和支持向量机的手写数字识别方法 |
CN111783756B (zh) * | 2019-04-03 | 2024-04-16 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN110659633A (zh) * | 2019-08-15 | 2020-01-07 | 坎德拉(深圳)科技创新有限公司 | 图像文本信息的识别方法、装置以及存储介质 |
CN112101351B (zh) * | 2020-09-07 | 2024-04-19 | 凌云光技术股份有限公司 | 一种基于投影的文本行旋转校正方法及装置 |
AU2021100391A4 (en) * | 2021-01-22 | 2021-04-15 | GRG Banking Equipment Co.,Ltd | Natural Scene Text Recognition Method Based on Sequence Transformation Correction and Attention Mechanism |
CN113392825B (zh) * | 2021-06-16 | 2024-04-30 | 中国科学技术大学 | 文本识别方法、装置、设备及存储介质 |
-
2021
- 2021-06-16 CN CN202110666915.6A patent/CN113392825B/zh active Active
- 2021-12-21 WO PCT/CN2021/139972 patent/WO2022262239A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222589A (zh) * | 2018-11-27 | 2020-06-02 | ***通信集团辽宁有限公司 | 图像文本识别方法、装置、设备及计算机存储介质 |
CN111400497A (zh) * | 2020-03-19 | 2020-07-10 | 北京远鉴信息技术有限公司 | 一种文本识别方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Accurate, data-efficient, unconstrained text recognition with convolutional neural networks;Mohamed Yousef et al;《Pattern Recognition》;第108卷;1-12 * |
基于轻量级网络的自然场景下的文本检测;孙婧婧等;《电子测量技术》;第43卷(第8期);101-107 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392825A (zh) | 2021-09-14 |
WO2022262239A1 (zh) | 2022-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704838B (zh) | 目标对象的属性识别方法及装置 | |
CN109961009B (zh) | 基于深度学习的行人检测方法、***、装置及存储介质 | |
US9665962B2 (en) | Image distractor detection and processng | |
US20200380263A1 (en) | Detecting key frames in video compression in an artificial intelligence semiconductor solution | |
CN109859096A (zh) | 图像风格迁移方法、装置、电子设备及存储介质 | |
WO2021208667A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN108304775A (zh) | 遥感图像识别方法、装置、存储介质以及电子设备 | |
JP2013522971A (ja) | 複数の特徴検出器の適用に基づいた画像特徴検出 | |
CN105512220B (zh) | 图像页面输出方法及装置 | |
CN112101359B (zh) | 文本公式的定位方法、模型训练方法及相关装置 | |
WO2021218706A1 (zh) | 文本识别方法、装置、设备及存储介质 | |
WO2022002262A1 (zh) | 基于计算机视觉的字符序列识别方法、装置、设备和介质 | |
CN107644423B (zh) | 基于场景分割的视频数据实时处理方法、装置及计算设备 | |
CN113392825B (zh) | 文本识别方法、装置、设备及存储介质 | |
CN113112511B (zh) | 试卷批改的方法、装置、存储介质及电子设备 | |
CN109871814B (zh) | 年龄的估计方法、装置、电子设备和计算机存储介质 | |
CN110321821B (zh) | 基于三维投影的人脸对齐初始化方法及装置、存储介质 | |
WO2020228171A1 (zh) | 数据增强方法、装置及计算机可读存储介质 | |
CN111160240A (zh) | 图像对象的识别处理方法、装置及智能设备、存储介质 | |
CN108304838B (zh) | 一种图片信息识别方法及终端 | |
CN113255667B (zh) | 文本图像相似度评估方法、装置、电子设备及存储介质 | |
CN113610864B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN106504223B (zh) | 图片的参考角度判定方法及装置 | |
CN113298098A (zh) | 基础矩阵估计方法及相关产品 | |
CN114092696A (zh) | 图像分割方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230506 Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96 Applicant after: University of Science and Technology of China Applicant after: IFLYTEK Co.,Ltd. Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Applicant before: IFLYTEK Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |