CN110717336A

CN110717336A - 基于语义相关度预测和注意力解码的场景文本识别方法

Info

Publication number: CN110717336A
Application number: CN201910898753.1A
Authority: CN
Inventors: 陈晓雪; 金连文; 王天玮; 毛慧芸; 朱远志; 罗灿杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-21

Abstract

本发明公开了一种基于语义相关度预测和注意力解码的场景文本识别方法，包括：S1，数据获取：获取合成训练数据集、真实评测数据集及常用词根统计表；所述常用词根统计表作为语义指导；S2，数据处理：将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范；S3，深度神经网络模型训练，S4，场景文本识别：将待识别的场景文本图像输入到深度神经网络模型，深度神经网络模型对待识别的场景文本图像进行精确识别，并返回一串字符作为识别结果。本发明的语义相关度预测模块以词根统计表为语义指导为语义注意力机制提供更加准确的高阶先验信息引导，学习得到的参数更能适应真实场景文本的图像特点，识别准确率更高。

Description

基于语义相关度预测和注意力解码的场景文本识别方法

技术领域

本发明涉及模式识别与人工智能技术领域，具体涉及一种基于语义相关度预测和注意力解码的场景文本识别方法。

背景技术

文本中富含大量准确而丰富的语义信息，这些信息适用于许多实际应用场景，如智能检索、自动驾驶、构建视障人士的辅助设备等。因而，场景文本识别是计算机视觉领域长期存在的研究课题之一。不同于扫描文档中的光学字符识别，场景文本识别因文本字体多样，图像分辨率低，图像易受光影变化影响而十分具有挑战性。近年来，随着深度神经网络的飞速发展，大大推动了人工智能技术的创新应用。深度神经网络模型，特别是基于注意力机制的深度神经网络模型在场景文本识别中取得了较好的性能。基于注意力机制的识别网络着重关注文本区域，同时隐式嵌入了相邻字符的高阶先验信息，为后续转录过程提供了高阶统计语言模型，因而提高了识别性能。然而，现有场景文本识别中广泛使用的注意力机制缺乏高阶先验信息的选择性。它为所有识别情况提供了同等重要的先验信息指导，这无异于削弱了具有强烈语义的字符相关性，增强了无关字符相关性。

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了一种识别精度高、测试阶段不增加额外算力开销、识别速度快的基于语义相关度预测和注意力解码的场景文本识别方法。

本发明的目的通过以下的技术方案实现：

一种基于语义相关度预测和注意力解码的场景文本识别方法，包括：

S1，数据获取：获取合成训练数据集、真实评测数据集及常用词根统计表；所述常用词根统计表作为语义指导；

S2，数据处理：将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范；

S3，深度神经网络模型训练：将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练，训练过程中采用标注文本数据和语义指导做监督参数学习；其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块；

S4，场景文本识别：将待识别的场景文本图像输入到深度神经网络模型，深度神经网络模型对待识别的场景文本图像进行精确识别，并返回一串字符作为识别结果。

优选地，所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上，所述合成训练数据集的文本部分包含N种不同字体风格，N≥2，所述真实评测数据集由摄像设备拍摄得到；所述常用词根统计表包含707个常用词根，词根长度范围为2～10个字符之间。

优选地，在步骤S2中的拉伸变换的操作双线性插值或下采样操作。

优选地，步骤S3包括：

S31，构建深度神经网络模型；

S32，设定所述深度神经网络模型训练时的参数；其中，迭代次数：1,000,000，优化器：Adadelta，学习率：1.0；

S33，在设定的初始化参数下进行深度神经网络的训练。

优选地，所述深度神经网络模型的模型结构表1：

表1深度神经网络模型的模型结构

表2残差层的模型结构

深度神经网络模型的模型结构中的残差层的模型结构如表2所示，残差层内的非线性层均采用ReLU激活函数；下采样层通过卷积层和批标准化层实现。

优选地，步骤S4包括：待识别的场景文本图像通过深层卷积神经网络模型，获取具有鲁棒性的高级特征表达，语义相关度预测模块以常用词根统计表为语义指导，预测得到相邻字符语义相关度参数；语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正，得到一串字符作为识别结果。

优选地，步骤S3和S4之间还包括：深度神经网络模型测试；所述深度神经网络模型测试的步骤包括：真实评测数据集输入到深度神经网络模型，深度神经网络模型对真实评测数据集进行精确识别，并返回一串字符作为识别结果；若所述识别结果和真实评测数据集对应的标注文本数据一致，则所述深度神经网络模型的识别能力达到预设要求。

本发明相对于现有技术具有如下优点：

(1)本方案的深度神经网络模型中包括语义相关度预测模块和语义注意力机制解码模块；所述语义相关度预测模块以词根统计表为语义指导，预测得到相邻字符语义相关度参数，为语义注意力机制提供更加准确的高阶先验信息引导，学习得到的参数更能适应真实场景文本的图像特点，识别准确率更高。

(2)语义注意力机制仅依靠常用词根统计表作为语义引导，语义相关度标注信息不需要人工标注过程，节省了大量的人力物力；实际应用中可以有效提高识别准确率。

(3)采用反向传播算法，自动调整卷积核参数，从而得到更鲁棒的滤波器，能够适应图像模糊、透视变换、光线变化等应用场景。

(4)相对人工方式，本方案可以自动完成场景文本的识别，可以节省人力物力。

(5)相对传统基于计算机视觉的注意力机制方法，本方案有选择性地构建语义相关性，具有实现简单、识别精度高、测试阶段不增加额外算力开销、识别速度快等特点。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于语义相关度预测和注意力解码的场景文本识别方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参见图1、一种基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于，包括：

S1，数据获取：获取合成训练数据集、真实评测数据集及常用词根统计表；所述常用词根统计表作为语义指导；所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上，所述合成训练数据集的文本部分包含N种不同字体风格，N≥2，允许涵盖一定程度光影变化及分辨率变化。所述真实评测数据集由摄像设备拍摄得到；拍摄过程中，规范化后的场景文本图像中的文本应占据图像面积的三分之二以上，允许存在一定程度的倾斜、模糊。所述常用词根统计表包含707个常用词根，词根长度范围为2～10个字符之间。其中训练数据集、真实评测数据集场景文本识别领域常用的数据集，二者均涵盖多种不同字体风格、光影变化和分辨率变化；

需要说明的是，所谓自然场景图片或图像，指手机等电子设备获取的图片或图像，如路牌、招牌等街景图像。场景文字识别，是指识别自然场景图片中的文字信息。因自然场景图片中的文字展现形式丰富，图像背景复杂，分辨率低下等特点，难度远大于传统扫描文档图像中的文字识别。

S2，数据处理：将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范，大小为32*100，便于深度神经网络模型并行化处理；在步骤S2中的拉伸变换的操作双线性插值或下采样操作。

S3，深度神经网络模型训练：将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练，训练过程中采用标注文本数据和语义指导做监督参数学习；其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块；所述语义相关度预测模块以词根统计表为语义指导，预测得到相邻字符语义相关度参数；，为语义注意力机制提供更加准确的高阶先验信息引导。

其中，在步骤S3中，对应的标注文本数据指对合成训练数据集中的图像包含的文本的标注。比如，一张街景图像中含有文字“中国”，则该图像的标注文本数据为“中国”。每幅图像对应于一行特定的标注文本数据。

步骤S3和S4之间还包括：深度神经网络模型测试；所述深度神经网络模型测试的步骤包括：真实评测数据集输入到深度神经网络模型，深度神经网络模型对真实评测数据集进行精确识别，并返回一串字符作为识别结果；若所述识别结果和真实评测数据集对应的标注文本数据一致，则所述深度神经网络模型的识别能力达到预设要求。

需要说明的是，深度神经网络模型测试和场景文本识别的步骤一致，二者的区别点在于输入所述深度神经网络模型的图像不一样。深度神经网络模型测试输入的是真实评测数据集的文本图像，其中真实评测数据集的文本图像中的文本是预先已知的。若深度神经网络模型的识别后，识别结果和预先已知的文本图像中的文本一致，则所述深度神经网络模型的识别能力好。场景文本识别的输入是待识别的场景文本图像，是将待识别的场景文本图像输入到经测试识别能力好的深度神经网络模型，深度神经网络模型对将待识别的场景文本图像进行识别，返回一串字符作为待识别的场景文本图像中的文本。

更进一步地，步骤S4包括：待识别的场景文本图像通过深层卷积神经网络模型，获取具有鲁棒性的高级特征表达，语义相关度预测模块以常用词根统计表为语义指导，预测得到相邻字符语义相关度参数；语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正，得到一串字符作为识别结果。

在本实施例，步骤S3包括：

S31，构建深度神经网络模型；

S33，在设定的初始化参数下进行深度神经网络的训练。

所述深度神经网络模型的模型结构表1：

表1深度神经网络模型的模型结构

表2残差层的模型结构

深度神经网络模型的模型结构中的残差层的模型结构如表2所示，残差层内的非线性层均采用ReLU激活函数；下采样层通过卷积层和批标准化层实现。最后3层残差层的步长由2*2变为2*1，更适合场景文本图像的长宽比要求，便于提取鲁棒的空间特征。

语义相关度预测模块以常用词根统计表为语义指导，为语义注意力机制提供更加准确的高阶先验信息引导。经过统计，移除重复词根和单字母词根后的常用词根统计表中共计包含707个常用词根。词根长度主要分布在2～10个字符之间，其中3～4个字符长的的词根占比最大，约为71.99％，典型词根如"ing"和"ance"。极少数词根超过8个字符。

给定输入图片I和真实标注信息g＝(g₁，g₂...g_L)，用符号

代表高阶先验信息得分γ_t的真实标注信息。的值代表了相邻字符间的语义相关性。向量

长度为L-1。则γ_t的标注信息构建过程如下：

设场景文本图片标注信息为"information″，字符长度为11字符，因此

字符长度为10字符。若两个相邻字符构成词根，则在的相应位置增加1，反之增加0。标注信息″information″标注信息″information″中共计含有7个词根，分别为‘at’、‘ation’、‘or’、‘for’、‘form’、‘in’及‘ion’，重复上述过程，最终得到的高阶语义向量

为[1，0，2，3，1，0，2，1，2，2]。在深度神经网络训练过程中，

的值被归一化至区间[0，1]。该过程无需人工标注。

进一步地定义语义先验损失函数L_p为，

其中MSELoss代表预测值和真实标签之间的均方误差。

语义注意力机制解码模块根据语义相关度参数和经过深度卷积神经网络处理得到的文本图像高级特征表达进行有针对性的转录和修正，得到一串字符识别结果。

用F_e(I)＝(h₁，h₂...h_n)代表深度卷积神经网络编码过程，则基于语义注意力机制的解码模块用于将预测序列y＝(y₁，y₂...y_T)和真实标注g＝(g₁，g₂...g_L)对齐。用字母T代表最大解码步长，则t时刻，深度识别模型的输出y_t可以表示为，

y_t＝Softmax(W_os_t+b_o)， (2)

其中，s_t代表t时刻的Gated Recurrent unit(GRU)隐藏层状态。GRU是递归神经网络的一个变种，常被用于为文本序列长期语义依赖建模。s_t的计算方式表示为，

s_t＝GRU((p′_t，c_t)，s_t-1). (3)

p′_t代表上一位输出y_t-1的高阶先验信息，不同于传统的注意力机制，语义注意力机制的p′_t有选择性地构建如下所示，

p′_t＝γ_tp_t， (4)

其中γ_t反映了相邻字符串y_t和y_t-1的相关程度。γ_t的值越大代表相邻字符间的语义相关性越强烈，反之，γ_t的值越小，代表相邻字符间的语义相关性越弱。当γ_t＝0时，代表相邻字符间不存在语义相关性。相应地，γ_t的计算方式如下，

γ_t＝f_emb(c_t，c_t-1)， (5)

进一步地，先验函数f_emb计算方式为，

f_emb(c_t，c_t-1)＝σ(V_cTanh(W_pc_t-1+W_cc_t+b_c)， (6)

其中，σ为激活函数Sigmoid函数，符号c_t代表语义向量，由特征的权重和表示，

符号N代表特征向量的长度。α_t，j是注意力机制的权重向量，通常被表示为，

e_t，j＝f_attn(s_t-1，h_j). (9)

其中，对齐函数f_attn计算方式如下：·

f_attn(s_t-1，h_j)＝V_aTanh(W_ss_t-1+W_fh_j+b). (10)

上述提到的W_o，b_o，V_a，W_s，W_f，b，V_c，W_p，W_c和b_c都是可学习参数。当识别模型预测出终止符"EOS"时，语义注意力机制解码模块结束转录过程。

注意力机制损失函数用符号L_attn表示，其计算方式如下所示，

其中，θ代表深度神经网络模型的所有可学习参数。

结合语义相关度预测模块提出的语义先验损失函数L_p，深度网络识别模型最终的优化函数被定义为，

L＝L_attn+λL_p. (12)

其中，超参数λ用于平衡注意力机制损失函数和语义先验损失函数。实验过程中设定为常数1.

网络模型训练中采用反向传播算法，通过从最后一层计算传递梯度，逐层传递，更新网络模型的所有参数。训练策略采用监督方式：利用人工合成图像数据、相应的标注信息及词根表，训练一个通用的深度网络识别模型。该识别模型的输入为一张规范的场景文本图像，输出为该图像中的字符序列，训练的损失函数为前述的L。

本方案的场景文本识别可以用于路牌的自动识别，智能检索，图像数据的存储等。

本方案充分利用常用词根表的语义指导能力，基于深度网络模型的对抗式学习能力和反传残差的物理意义，通过学习数据样本的分布，提供一种准确的基于语义相关度预测和注意力解码的场景文本识别方法。该方法具有实现简单、识别精度高、测试阶段不增加额外算力开销、识别速度快等特点，具有较好的实用价值。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于，包括：

S1，数据获取：获取合成训练数据集、真实评测数据集及常用词根统计表；

S3，深度神经网络模型训练：将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练，其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块；所述语义相关度预测模块以词根统计表为语义指导，预测得到相邻字符语义相关度参数；

2.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于：所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上，所述合成训练数据集的文本部分包含N种不同字体风格，N≥2，所述真实评测数据集由摄像设备拍摄得到；所述常用词根统计表包含707个常用词根，词根长度范围为2～10个字符之间。

3.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于：在步骤S2中的拉伸变换的操作双线性插值或下采样操作。

4.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于，步骤S3包括：

S31，构建深度神经网络模型；

S33，在设定的初始化参数下进行深度神经网络的训练。

5.根据权利要求4所述的基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于，所述深度神经网络模型的模型结构表1：

表1 深度神经网络模型的模型结构

表2 残差层的模型结构

6.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于，步骤S4包括：

待识别的场景文本图像通过深层卷积神经网络模型，获取具有鲁棒性的高级特征表达，语义相关度预测模块以常用词根统计表为语义指导，预测得到相邻字符语义相关度参数；语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正，得到一串字符作为识别结果。

7.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法，其特征在于，步骤S3和S4之间还包括：深度神经网络模型测试；

所述深度神经网络模型测试的步骤包括：真实评测数据集输入到深度神经网络模型，深度神经网络模型对真实评测数据集进行精确识别，并返回一串字符作为识别结果；若所述识别结果和真实评测数据集对应的标注文本数据一致，则所述深度神经网络模型的识别能力达到预设要求。