CN111368773A - 数学公式识别方法及装置、终端设备和可读存储介质 - Google Patents

数学公式识别方法及装置、终端设备和可读存储介质 Download PDF

Info

Publication number
CN111368773A
CN111368773A CN202010171178.8A CN202010171178A CN111368773A CN 111368773 A CN111368773 A CN 111368773A CN 202010171178 A CN202010171178 A CN 202010171178A CN 111368773 A CN111368773 A CN 111368773A
Authority
CN
China
Prior art keywords
module
mathematical formula
time
attention
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010171178.8A
Other languages
English (en)
Inventor
江顺尧
邓小兵
张春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN202010171178.8A priority Critical patent/CN111368773A/zh
Publication of CN111368773A publication Critical patent/CN111368773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种数学公式识别方法及装置、终端设备和可读存储介质,其中,数学公式识别方法中包括:获取包含有待识别数学公式的图片;采用CNN网络对图片进行特征提取并对提取的特征进行编码;依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,Attention模块中通过引入一对齐信息实现coverage机制。其将CNN网络、GRU模块、coverage机制和Attention模块结合为统一模型并进行联合优化,实现对印刷体、手写体混合等数学公式端到端的识别,根据输入的包含有待识别数学公式的图片直接得到最终的Latex文本串,大大简化了算法模型的结构,更加的清晰简单且易于实现。

Description

数学公式识别方法及装置、终端设备和可读存储介质
技术领域
本发明涉及通信技术领域,尤指一种数学公式识别方法及装置、终端设备和可读存储介质。
背景技术
数学公式用于表征自然界不同事物之数量之间的或等或不等的联系,常用于教材、科技论文等文档中。与一维结构的文本行不同,数学公式中通常存在上下、左右、包围等二维结构。由于其结构复杂,通过手动的方式进行输入较为繁琐,会浪费大量的时间,是以对数学公式进行识别成为一种需求。
数学公式识别是对二维结构的数学公式图片进行识别得到相应latex文本串的过程。一般来说,传统的数学公式识别方法需要经过字符定位分割、字符识别和结构分析3个步骤,其中,字符定位分割用于对公式中字符的进行组合,字符识别用于通过特征提取的方式对字符进行识别,结构分析用于对识别的字符对其进行组合得到公式。
虽然上述识别方法能够一定程度上实现目的,但是仍然存在诸多缺点:1)过程复杂难以实现,且存在错误叠加的问题;2)字符定位分割存在困难,粘连字符、存在分离结构的字符(如i、左右结构的汉字等)、字符大小不一、字体不清晰等情况都使得字符的定位和分割难度较大,难以兼容多种情况;3)字符识别是按单个字符进行识别,缺乏上下文信息,相似字符难以区分(如0和o等);4)结构分析情况复杂,依赖于经验分析,泛用性较差,实现上存在难度;5)难以识别手写公式等。
发明内容
本发明的目的是提供一种数学公式识别方法及装置、终端设备和可读存储介质,有效解决现有公式识别方法识别率高、识别难度大等技术问题。
本发明提供的技术方案如下:
一种数学公式识别方法,包括:
获取包含有待识别数学公式的图片;
采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;
依照编码,依次使用Attention模块和GRU(Gated recurrent unit,门控递归单元)模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。
在本技术方案中,CNN网络具体为卷积神经网络,可用于做为特征提取器;GRU模块为循环神经网络中的一种;Attention模块是一种根据当前的网络状态使网络关注输入中的特定局部的机制模块。
进一步优选地,在所述采用CNN网络对所述图片进行特征提取并对提取的特征进行编码中,包括:采用DenseNet结构的CNN网络对所述图片进行特征提取及对提取的特征进行编码。
进一步优选地,在所述依次使用Attention模块和GRU模块对各特征图进行解码的一次解码过程中,包括:
MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt,所述t-1时刻为t时刻的前一时刻;
Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct
GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht
进一步优选地,在所述MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重中,所述Attention权重αt为:
Figure BDA0002409237580000031
f=Q·βt
Figure BDA0002409237580000032
其中,n表示时刻,αn表示n时刻的Attention权重;Q、νa、Wa、Ua及Uf均为权重,为MLP模块的可训练参数;k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L。
进一步优选地,在所述Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct中,所述上下文向量ct为:
Figure BDA0002409237580000033
其中,k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L,αtk表示t时刻第k个特征向量的Attention权重。
进一步优选地,在所述GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht中,所述t时刻的输出yt和隐藏状态ht分别为:
yt=argmax(p(yt|a,yt-1))
p(yt|a,yt-1)=g(Wo(Eyt-1+Whht+Wcct))
Figure BDA0002409237580000034
zt=σ(WyzEyt-1+Uhzht-1+Cczct)
rt=σ(WyrEyt-1+Uhrht-1+Ccrct)
其中,σ表示sigmoid函数,
Figure BDA0002409237580000035
表示对应元素相乘,g表示softmax函数,argmax函数表示取向量最大值的下标,ct、zt、rt
Figure BDA0002409237580000036
分别表示t时刻的上下文向量、更新门值、重置门值和候选激活值,ht表示t时刻GRU模块的隐藏状态;p(yt|a,yt-1)表示t时刻数学公式中各字符的概率向量,yt表示t时刻识别结果字符;E、Wyz、Uhz、Ccz、Wyr、Uhr、Ccr、Wyh、Urh、Wo、Wh、Wc均为权重,为GRU模块的可训练参数。
本发明还提供了一种数学公式识别装置,应用于上述数学公式识别方法,所述数学公式识别装置中包括:
图片获取模块,用于获取包含有待识别数学公式的图片;
与所述图片获取模块连接的编码模块,用于采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;
与所述编码模块连接的解码模块,用于依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。
进一步优选地,所述编码模块用于采用DenseNet结构的CNN网络对所述图片进行特征提取及对提取的特征进行编码。
进一步优选地,所述解码模块中包括相互连接的Attention模块和GRU模块,且所述Attention模块中包括一MLP模块;所述MLP模块用于根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt,所述t-1时刻为t时刻的前一时刻;Attention模块用于根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct;所述GRU模块用于根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht
本发明还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述数学公式识别方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数学公式识别方法的步骤。
在本发明提供的数学公式识别方法及装置、终端设备和可读存储介质中,至少能够带来以下有益效果:
1.本发明对深度学习的encoder-decoder结构进行改进,将CNN网络、GRU模块、coverage机制和Attention模块结合为统一模型并进行联合优化,实现对印刷体、手写体混合等数学公式端到端的识别,根据输入的包含有待识别数学公式的图片直接得到最终的Latex文本串,无需使用传统方法的3个步骤(字符定位分割、字符识别和结构分析)就能实现目的,大大简化了算法模型的结构,更加的清晰简单且易于实现。
2.本发明在Attention模块中加入了coverage机制(coverage model),避免了encoder-decoder结构中存在的漏识别和误识别的问题,相比于将各个步骤分开设计的传统方法能够达到更高的识别准确率(准确率达80%以上)。
3.本发明端到端的识别使其不存在字符分割的步骤,进而规避了字符分割困难的问题,能够有效处理字符粘连、分离结构字符等的情况。
4.本发明直接进行序列识别,在字符识别时包括上下文信息,能够更好地识别出相似字符。
5.本发明的CNN网络、GRU模块和Attention模块均基于数据自行学习得到,结构分析亦是模型自行从数据中学习挖掘得到,相比于基于经验的人工设计的特征器和结构分析方法更有泛化能力,能更好地兼容各种图片质量、各种结构的数学公式识别。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施例,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明中数学公式识别方法一实施例流程图;
图2为一实例中DenseNet结构示意图;
图3为本发明中数学公式识别方法另一实施例流程图;
图4为本发明中MLP模块结构示意图;
图5为本发明中GRU模块结构示意图;
图6为本发明中数学公式识别装置一实施例结构示意图;
图7为本发明中数学公式识别装置另一实施例结构示意图;
图8为本发明中一实例中部分解码过程图;
图9为本发明中终端设备结构示意图。
附图标号说明:
100-数学公式识别装置,110-图片获取模块,120-编码模块,130-解码模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施例。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施例。
本发明的第一实施例,一种数学公式识别方法,如图1所示,该数学公式识别方法中包括:
S10获取包含有待识别数学公式的图片;
S20采用CNN网络对图片进行特征提取并对提取的特征进行编码;
S30依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,Attention模块中通过引入一对齐信息实现coverage机制。
本实施例的数学公式识别方法中包括编码阶段和解码阶段,在编码阶段,采用CNN网络提取图片中的高层特征信息,如字符的形状、笔画、位置等,为后续的解码阶段提供必要的特征信息;在解码阶段,带有coverage机制的Attention模块促使GRU模块关注特征图中的特定局部,同时每个时刻的上下文context不仅与特征图有关,同时与对齐信息βt及GRU状态有关,使得解码过程更具有针对性,能够更加充分地利用特征图的信息,实现对印刷体、手写体混合等数学公式端到端的识别,简化了算法模型结构的同时易于实现且具备更高的识别准确率。在其他实施例中,为了进一步提高识别率,可采用BiGRU(即双向GRU)作为GRU模块,进而实现从前到后和从后到前上下文信息的提取和解析;CNN网络也可以采用性能更为优异的卷积神经网络,以优化特征提取性能。
对第一实施例进行改进的得到第二实施例,在本实施例中,数学公式识别方法中包括:
S10获取包含有待识别数学公式的图片;
S20采用DenseNet结构的CNN网络对图片进行特征提取及对提取的特征进行编码;
S30依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,Attention模块中通过引入一对齐信息实现coverage机制。
在本实施例中,获取到包含有待识别数学公式的图片之后,采用DenseNet(Densely Connected Convolutional Networks)结构的CNN网络对图片进行特征提取及编码。由DenseNet结构中的DenseBlock的每一层的输入都是前面所有层的输出,使得DenseNet比起vgg、ResNet等卷积网络来说能够更加充分的利用每一层的特征,加强了特征在不同层的传递,进而减轻了深层卷积神经网络的梯度消失问题,更易于训练;与此同时,由于该结构中无需重新学习冗余特征图,使其相对于传统的卷积网络来说需要更少的参数,一定程度上减少了参数的数量。在该数学公式识别方法的编码阶段,DenseNet结构能够从图片中提取丰富的高层特征信息(如字符的形状、笔画、位置等)的同时,移除多余的干扰信息(如噪声、干扰线条、污迹等),以此为后续的解码阶段提供必要的特征信息。
在一应用中,如图2所示,该DenseNet结构为一包含3个DenseBlock的深度DenseNet,依次包括:Conv层、Max Pooling层、DenseBlock1层、Conv层、Max Pooling层、DenseBlock2层、Conv层、Max Pooling层及DenseBlock3层,包含一手写体混合公式
Figure BDA0002409237580000081
的图片输入该DenseNet结构后,得到结构为H×W×C(宽×高×通道数)的特征图a(特征图张量)。具体,输出的特征图的大小和数量由DenseNet的具体结构决定,可以根据实际应用需求进行调整,如在一实例中,假定输入64×192(高64px,宽192px)的灰度图,经DenseNet结构处理后,输出4×12×684(高×宽×通道数)的特征图张量,即输出684个4×12的特征图。
在解码阶段,带有coverage机制的Attention模块促使GRU模块关注特征图中的特定局部,同时每个时刻的上下文context不仅与特征图有关,同时与对齐信息βt及GRU状态有关,使得解码过程更具有针对性,能够更加充分地利用特征图的信息,实现对印刷体、手写体混合等数学公式端到端的识别,简化了算法模型结构的同时易于实现且具备更高的识别准确率。
对上述第一实施例和第二实施例进行改进得到第三实施例和第四实施例,如图3所示,在该两个实施例的步骤S30,依次使用Attention模块和GRU模块对各特征图进行解码的一次解码过程中,包括:
S31 MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt,t-1时刻为t时刻的前一时刻;
S32 Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct
S33 GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht
Attention模块中MLP模块的结构如图4所示,以t时刻的解码过程为例,该结构中包括:以过去时刻的对其信息βt作为输入的11×11卷积层(可根据实际应用调整)及全连接层,以GRU模块中t-1时刻的隐藏状态ht-1作为输入的全连接层及t时刻特征图a为输入的1×1卷积层(可根据实际应用调整),及将两个全连接层及1×1卷积层的输出元素相加(图示中的
Figure BDA0002409237580000091
)后的tanh函数层及softmax层,softmax层的输出即为Attention权重αt,如式(1)~(4):
Figure BDA0002409237580000092
f=Q·βt (3)
Figure BDA0002409237580000093
其中,n表示时刻,αn表示n时刻的Attention权重;Q、νa、Wa、Ua及Uf均为权重,为MLP模块的可训练参数;k表示特征图a的第k个特征向量,L表示特征图a的大小,且L=H×W(H和W分别为特征图a的宽和高),1≤k≤L。
在MLP模块的训练过程中,权重Q、νa、Wa、Ua及Uf的初始化值均为随机参数,通过标注数据的方式对MLP模块训练的过程中将其调整至合适的值,便于后续公式识别过程中直接使用。另外,在初始时刻时,初始化对其信息β0为0向量。这里,通过引入对齐信息βt,实现coverage机制,从而使得模型关注未被处理的特征,避免漏识别和重复识别。
计算得到Attention权重αt之后,Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct,如式(5):
Figure BDA0002409237580000094
其中,k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L,αtk表示t时刻第k个特征向量的Attention权重。
GRU模块结构示意图如图5所示,以t时刻的解码过程为例,该结构以上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1作为输入,输出yt和隐藏状态ht作为输出,如式(6)~(11):
yt=argmax(p(yt|a,yt-1)) (6)
p(yt|a,yt-1)=g(Wo(Eyt-1+Whht+Wcct)) (7)
Figure BDA0002409237580000101
zt=σ(WyzEyt-1+Uhzht-1+Cczct) (10)
rt=σ(WyrEyt-1+Uhrht-1+Ccrct) (11)
其中,σ表示sigmoid函数,
Figure BDA0002409237580000102
表示对应元素相乘,g表示softmax函数,argmax函数表示取向量最大值的下标,ct、zt、rt
Figure BDA0002409237580000103
分别表示t时刻的上下文向量、更新门值、重置门值和候选激活值,ht表示t时刻GRU模块的隐藏状态;p(yt|a,yt-1)表示t时刻数学公式中各字符的概率向量,yt表示t时刻识别结果字符;E、Wyz、Uhz、Ccz、Wyr、Uhr、Ccr、Wyh、Urh、Wo、Wh、Wc均为权重,为GRU模块的可训练参数。
在GRU模块的训练过程中,权重E、Wyz、Uhz、Ccz、Wyr、Uhr、Ccr、Wyh、Urh、Wo、Wh、Wc的初始化值均为随机参数,通过标注数据的方式对GRU模块训练的过程中将其调整至合适的值,便于后续公式识别过程中直接使用。
在解码过程中,初始时刻,输出yt-1用开始符作为输入,隐藏状态ht-1全0作为输入,重复步骤S31~S33,直到GRU模块的输出yt为结束符,循环结束,过程中得到的序列{y1,y2,...,yt}即为识别结果Latex串。
在该公式识别方法中,对深度学习的encoder-decoder结构进行改进,将CNN网络、GRU模块、coverage机制和Attention模块结合为统一模型并进行联合优化,输入包含有待识别数学公式的图片即可直接得到最终的Latex文本串,大大简化了算法模型结构的同时提高了识别准确率。
如图6所示,本发明还提供了一种数学公式识别装置100,应用于上述数学公式识别方法,在一实施例中数学公式识别装置100中包括:
图片获取模块110,用于获取包含有待识别数学公式的图片;
与图片获取模块110连接的编码模块120,用于采用CNN网络对图片进行特征提取并对提取的特征进行编码;
与编码模块120连接的解码模块130,用于依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,Attention模块中通过引入一对齐信息实现coverage机制。
本实施例的数学公式识别装置100中包括编码阶段和解码阶段,在编码阶段,采用CNN网络提取图片中的高层特征信息,如字符的形状、笔画、位置等,为后续的解码阶段提供必要的特征信息;在解码阶段,带有coverage机制的Attention模块促使GRU模块关注特征图中的特定局部,同时每个时刻的上下文context不仅与特征图有关,同时与对齐信息βt及GRU状态有关,使得解码过程更具有针对性,能够更加充分地利用特征图的信息,实现对印刷体、手写体混合等数学公式端到端的识别,简化了算法模型结构的同时易于实现且具备更高的识别准确率。在其他实施例中,为了进一步提高识别率,可采用BiGRU(即双向GRU)作为GRU模块,进而实现从前到后和从后到前上下文信息的提取和解析;CNN网络也可以采用性能更为优异的卷积神经网络,以优化特征提取性能。
对上述实施例进行改进的得到本实施例,在本实施例中,编码模块120用于采用DenseNet结构的CNN网络对图片进行特征提取及对提取的特征进行编码。
在本实施例中,获取到包含有待识别数学公式的图片之后,采用DenseNet结构的CNN网络对图片进行特征提取及编码。在编码阶段,DenseNet结构能够从图片中提取丰富的高层特征信息(如字符的形状、笔画、位置等)的同时,移除多余的干扰信息(如噪声、干扰线条、污迹等),以此为后续的解码阶段提供必要的特征信息。在一应用中,如图2所示,该DenseNet结构为一包含3个DenseBlock的深度DenseNet,依次包括:Conv层、Max Pooling层、DenseBlock1层、Conv层、Max Pooling层、DenseBlock2层、Conv层、Max Pooling层及DenseBlock3层,包含一手写体混合公式
Figure BDA0002409237580000121
的图片输入该DenseNet结构后,得到结构为H×W×C(宽×高×通道数)的特征图a。
在解码阶段,带有coverage机制的Attention模块促使GRU模块关注特征图中的特定局部,同时每个时刻的上下文context不仅与特征图有关,同时与对齐信息βt及GRU状态有关,使得解码过程更具有针对性,能够更加充分地利用特征图的信息,实现对印刷体、手写体混合等数学公式端到端的识别,简化了算法模型结构的同时易于实现且具备更高的识别准确率。
对上述实施方式进行改进得到本实施方式,如图7所示,在本实施方式中,数学公式识别装置中包括:图片获取模块(图未中获取包含一手写体混合公式
Figure BDA0002409237580000122
的图片),用于获取包含有待识别数学公式的图片;与图片获取模块连接的编码模块,用于采用CNN网络对图片进行特征提取并对提取的特征进行编码;与编码模块连接的解码模块,用于依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别。解码模块130中包括相互连接的Attention模块和GRU模块,且Attention模块中包括一MLP模块;MLP模块用于根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt(图示中ai表示第i各特征图),t-1时刻为t时刻的前一时刻;Attention模块用于根据t时刻输入的特征图a和计算得到的Attention权重αt(特征图ai对应得到Attention权重αti)进一步计算得到上下文向量ct;GRU模块用于根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht
Attention模块中MLP模块的结构如图4所示,以t时刻的解码过程为例,该结构中包括:以过去时刻的对其信息βt作为输入的11×11卷积层(可根据实际应用调整)及全连接层,以GRU模块中t-1时刻的隐藏状态ht-1作为输入的全连接层及t时刻特征图a为输入的1×1卷积层(可根据实际应用调整),及将两个全连接层及1×1卷积层的输出元素相加(图示中的
Figure BDA0002409237580000131
)后的tanh函数层及softmax层,softmax层的输出即为Attention权重αt,如式(1)~(4)。计算得到Attention权重αt之后,Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct,如式(5)。在训练过程中,权重Q、νa、Wa、Ua及Uf的初始化值均为随机参数,通过标注数据的方式对MLP模块训练的过程中将其调整至合适的值,便于后续公式识别过程中直接使用。另外,在初始时刻时,初始化对其信息β0为0向量。这里,通过引入对齐信息βt,实现coverage机制,从而使得模型关注未被处理的特征,避免漏识别和重复识别。
GRU模块结构示意图如图5所示,以t时刻的解码过程为例,该结构以上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1作为输入,输出yt和隐藏状态ht作为输出,如式(6)~(11)。在训练过程中,权重E、Wyz、Uhz、Ccz、Wyr、Uhr、Ccr、Wyh、Urh、Wo、Wh、Wc的初始化值均为随机参数,通过标注数据的方式对GRU模块训练的过程中将其调整至合适的值,便于后续公式识别过程中直接使用。
在解码过程中,初始时刻,输出yt-1用开始符作为输入,隐藏状态ht-1全0作为输入,重复步骤S31~S33,直到GRU模块的输出yt为结束符,循环结束,过程中得到的序列{y1,y2,...,yt}即为识别结果Latex串。
在一实例中,图片获取模块获取一包含公式
Figure BDA0002409237580000132
的图片,在针对
Figure BDA0002409237580000133
识别的过程如图8所示,图片中的模糊区域即该次识别中Attention模块关注的位置,识别过程中,Attention模型将特征图中该区域的权重加强而忽略其他区域,以此解码输出识别字符,其中,图8(a)中针对模糊区域识别得到的字符为\frac,得到的识别序列为1+\frac;图8(b)中针对模糊区域识别得到的字符为{,得到的识别序列为1+\frac{;图8(c)中针对模糊区域识别得到的字符为1,得到的识别序列为1+\frac{1,以此类推,直到完成整个公式的识别,输出识别序列1+\frac{1}{7}=\frac{8}{7}。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
图9是本发明一个实施例中提供的终端设备的结构示意图,如所示,该终端设备200包括:处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211,例如:数学公式识别关联程序。处理器220执行计算机程序211时实现上述各个数学公式识别方法实施例中的步骤,或者,处理器220执行计算机程序211时实现上述各数学公式识别装置实施例中各模块的功能。
终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括,但不仅限于处理器220、存储器210。本领域技术人员可以理解,图9仅仅是终端设备200的示例,并不构成对终端设备200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。
处理器220可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器210可以是终端设备200的内部存储单元,例如:终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备,例如:终端设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序211发送指令给相关的硬件完成,的计算机程序211可存储于一计算机可读存储介质中,该计算机程序211在被处理器220执行时,可实现上述各个方法实施例的步骤。其中,计算机程序211包括:计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施例,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种数学公式识别方法,其特征在于,包括:
获取包含有待识别数学公式的图片;
采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;
依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。
2.如权利要求1所述的数学公式识别方法,其特征在于,在所述采用CNN网络对所述图片进行特征提取并对提取的特征进行编码中,包括:采用DenseNet结构的CNN网络对所述图片进行特征提取及对提取的特征进行编码。
3.如权利要求1或2所述的数学公式识别方法,其特征在于,在所述依次使用Attention模块和GRU模块对各特征图进行解码的一次解码过程中,包括:
MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt,所述t-1时刻为t时刻的前一时刻;
Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct
GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht
4.如权利要求3所述的数学公式识别方法,其特征在于,在所述MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重中,所述Attention权重αt为:
Figure FDA0002409237570000011
Figure FDA0002409237570000021
f=Q·βt
Figure FDA0002409237570000022
其中,n表示时刻,αn表示n时刻的Attention权重;Q、νa、Wa、Ua及Uf均为权重,为MLP模块的可训练参数;k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L。
5.如权利要求3所述的数学公式识别方法,其特征在于,在所述Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct中,所述上下文向量ct为:
Figure FDA0002409237570000023
其中,k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L,αtk表示t时刻第k个特征向量的Attention权重。
6.如权利要求3或5所述的数学公式识别方法,其特征在于,在所述GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht中,所述t时刻的输出yt和隐藏状态ht分别为:
yt=arg max(p(yt|a,yt-1))
p(yt|a,yt-1)=g(Wo(Eyt-1+Whht+Wcct))
Figure FDA0002409237570000024
Figure FDA0002409237570000025
zt=σ(WyzEyt-1+Uhzht-1+Cczct)
rt=σ(WyrEyt-1+Uhrht-1+Ccrct)
其中,σ表示sigmoid函数,
Figure FDA0002409237570000026
表示对应元素相乘,g表示softmax函数,argmax函数表示取向量最大值的下标,ct、zt、rt
Figure FDA0002409237570000027
分别表示t时刻的上下文向量、更新门值、重置门值和候选激活值,ht表示t时刻GRU模块的隐藏状态;p(yt|a,yt-1)表示t时刻数学公式中各字符的概率向量,yt表示t时刻识别结果字符;E、Wyz、Uhz、Ccz、Wyr、Uhr、Ccr、Wyh、Urh、Wo、Wh、Wc均为权重,为GRU模块的可训练参数。
7.一种数学公式识别装置,其特征在于,应用于如权利要求1-6任意一项所述的数学公式识别方法,所述数学公式识别装置中包括:
图片获取模块,用于获取包含有待识别数学公式的图片;
与所述图片获取模块连接的编码模块,用于采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;
与所述编码模块连接的解码模块,用于依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。
8.如权利要求7所述的数学公式识别装置,其特征在于,所述编码模块用于采用DenseNet结构的CNN网络对所述图片进行特征提取及对提取的特征进行编码。
9.如权利要求7或8所述的数学公式识别装置,其特征在于,所述解码模块中包括相互连接的Attention模块和GRU模块,且所述Attention模块中包括一MLP模块;所述MLP模块用于根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt,所述t-1时刻为t时刻的前一时刻;Attention模块用于根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct;所述GRU模块用于根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求1-6中任一项所述数学公式识别方法的步骤。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述数学公式识别方法的步骤。
CN202010171178.8A 2020-03-12 2020-03-12 数学公式识别方法及装置、终端设备和可读存储介质 Pending CN111368773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171178.8A CN111368773A (zh) 2020-03-12 2020-03-12 数学公式识别方法及装置、终端设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171178.8A CN111368773A (zh) 2020-03-12 2020-03-12 数学公式识别方法及装置、终端设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN111368773A true CN111368773A (zh) 2020-07-03

Family

ID=71210516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171178.8A Pending CN111368773A (zh) 2020-03-12 2020-03-12 数学公式识别方法及装置、终端设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111368773A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783737A (zh) * 2020-07-29 2020-10-16 郑州航空工业管理学院 一种数学公式的识别方法和识别装置
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备
CN113743315A (zh) * 2021-09-07 2021-12-03 电子科技大学 一种基于结构增强的手写体初等数学公式识别方法
WO2022198828A1 (zh) * 2021-03-25 2022-09-29 北京搜狗科技发展有限公司 一种公式识别方法及装置
CN116363678A (zh) * 2023-05-31 2023-06-30 华南理工大学 一种数学公式图像的识别方法、***和计算机设备
WO2024027349A1 (zh) * 2022-08-05 2024-02-08 中南大学 一种印刷体数学公式识别方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN109977861A (zh) * 2019-03-25 2019-07-05 中国科学技术大学 离线手写体数学公式识别方法
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110705399A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种数学公式自动识别的方法
CN110766012A (zh) * 2019-09-20 2020-02-07 北京航空航天大学 一种基于深度学习的手写体数学表达式识别方法与装置
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN109977861A (zh) * 2019-03-25 2019-07-05 中国科学技术大学 离线手写体数学公式识别方法
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110705399A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种数学公式自动识别的方法
CN110766012A (zh) * 2019-09-20 2020-02-07 北京航空航天大学 一种基于深度学习的手写体数学表达式识别方法与装置
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GAO HUANG,ZHUANG LIU等: "Densely Connected Convolutional Networks", ARXIV, pages 1 - 9 *
JIANSHU ZHANG等: "A GRU-Based Encoder-Decoder Approach with Attention for Online Handwritten Mathematical Expression Recognition", 《2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》 *
JIANSHU ZHANG等: "A GRU-Based Encoder-Decoder Approach with Attention for Online Handwritten Mathematical Expression Recognition", 《2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》, 29 January 2018 (2018-01-29), pages 902 - 907 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783737A (zh) * 2020-07-29 2020-10-16 郑州航空工业管理学院 一种数学公式的识别方法和识别装置
CN111783737B (zh) * 2020-07-29 2024-02-02 郑州航空工业管理学院 一种数学公式的识别方法和识别装置
WO2022198828A1 (zh) * 2021-03-25 2022-09-29 北京搜狗科技发展有限公司 一种公式识别方法及装置
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备
CN113743315A (zh) * 2021-09-07 2021-12-03 电子科技大学 一种基于结构增强的手写体初等数学公式识别方法
CN113743315B (zh) * 2021-09-07 2023-07-14 电子科技大学 一种基于结构增强的手写体初等数学公式识别方法
WO2024027349A1 (zh) * 2022-08-05 2024-02-08 中南大学 一种印刷体数学公式识别方法、装置及存储介质
CN116363678A (zh) * 2023-05-31 2023-06-30 华南理工大学 一种数学公式图像的识别方法、***和计算机设备
CN116363678B (zh) * 2023-05-31 2023-08-11 华南理工大学 一种数学公式图像的识别方法、***和计算机设备

Similar Documents

Publication Publication Date Title
CN111368773A (zh) 数学公式识别方法及装置、终端设备和可读存储介质
Bartz et al. STN-OCR: A single neural network for text detection and text recognition
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN113591546B (zh) 语义增强型场景文本识别方法及装置
CN110414498B (zh) 一种基于交叉注意力机制的自然场景文本识别方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111428727B (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN113807340B (zh) 一种基于注意力机制的不规则自然场景文本识别方法
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN108509833A (zh) 一种基于结构化分析字典的人脸识别方法、装置及设备
CN112364838B (zh) 一种利用合成的联机文本图像改进手写ocr性能的方法
WO2021103474A1 (zh) 图像的处理方法和装置、存储介质及电子装置
CN114092930A (zh) 一种文字识别方法及***
CN114140786A (zh) 基于HRNet编码与双分支解码的场景文本识别方法
CN116071817A (zh) 一种汽车座舱用手势识别***的网络架构及训练方法
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN117636326A (zh) 车牌检测方法、装置、存储介质和电子设备
CN112597925A (zh) 手写字迹的识别/提取、擦除方法及擦除***、电子设备
CN115908464B (zh) 一种舌体图像分割方法及***
CN116012875A (zh) 一种人体姿态估计方法及相关装置
Reddy et al. A three-dimensional neural network model for unconstrained handwritten numeral recognition: a new approach
CN115346221A (zh) 基于深度学习的小学生数学算式识别及自动批改方法
CN114882512A (zh) 手写数学公式识别方法、***、设备和存储介质
Lv et al. Image semantic segmentation method based on atrous algorithm and convolution CRF

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination