CN111738251A

CN111738251A - 一种融合语言模型的光学字符识别方法、装置和电子设备

Info

Publication number: CN111738251A
Application number: CN202010867945.9A
Authority: CN
Inventors: 钱泓锦; 刘占亮; 窦志成; 刘家俊
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-10-02
Anticipated expiration: 2040-08-26
Also published as: CN111738251B

Abstract

本发明公开了一种融合语言模型的光学字符识别方法、装置和电子设备。该方法包括：提取待识别文字图片的视觉特征向量；对所述视觉特征向量进行预分类得到预分类文本序列；利用预先训练的语言模型，根据所述预分类文本序列提取语义特征向量；根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类，得到识别结果。本发明提高了OCR模型文本识别的准确率以及对于质量较差的文本图片的鲁棒性。

Description

一种融合语言模型的光学字符识别方法、装置和电子设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种融合语言模型的光学字符识别方法、装置和电子设备。

背景技术

OCR（Optical Character Recognition，光学字符识别）利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。

在现有的OCR***中，先提取文字图片的视觉特征向量，再通过分类器将字符识别出来。分类器通常采用模板匹配的方式进行分类。对于文字行，通过识别出每一个字符来确定最终文字行内容。因此需要对文字行进行字符切分，以得到单个文字，其中，分割-动态规划是最常见的切分方法。由于单个字符可能会由于切分位置的原因产生多个识别结果，例如“如”字在切分不当时会被切分成“女口”，因此一种方法是对候选字符进行过分割，使其足够破碎，之后通过动态规划合并分割碎片，得到最优组合，这一过程需要人工通过特征工程设计损失函数，识别效果较差。还有另一种方法是通过滑动窗口对每一个可能的字符进行匹配，这种方法的准确率则依赖于滑动窗口的滑动窗尺寸，如果滑动窗尺寸过大会造成信息丢失，而太小则会使计算需求大幅增加。而且，若文本质量较差或者其中部分文字脏污，则更加难以准确识别文字。

上述方法通过识别每个单字符以实现全文的识别，这一过程导致了上下文信息的丢失。虽然对于单个字符有较高的识别正确率，但其条目识别正确率却难以保证。例如识别具有18个字的句子的场景下，即使单字符识别正确率高达99%，其条目正确率只能到0.99¹⁸=83%，如果切分也存在1%的损失（即正确率99%），条目正确率则只有(0.99∗0.99)¹⁸=70%。

发明内容

为了解决现有技术的不足，本发明提供了如下发明内容：

本发明一方面提供了一种融合语言模型的光学字符识别方法，包括：

提取待识别文字图片的视觉特征向量；

对所述视觉特征向量进行预分类得到预分类文本序列；

利用预先训练的语言模型，根据所述预分类文本序列提取语义特征向量；

根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类，得到识别结果。

优选地，所述提取待识别文字图片的视觉特征向量，包括：

获取待识别文字图片；

利用卷积神经网络提取待识别文字图片的视觉特征向量。

优选地，所述对所述视觉特征向量进行预分类得到预分类文本序列之后还包括：对所述预分类文本序列进行归一化处理。

优选地，所述预先训练的语言模型为基于LSTM的深度语言模型。

优选地，所述根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类得到识别结果，包括：

将所述视觉特征向量和语义特征向量融合，得到融合特征向量；

根据所述融合特征向量对所述待识别的文字图片进行分类，得到识别结果。

优选地，所述根据所述融合特征向量对所述待识别的文字图片进行分类，得到识别结果，包括：

将所述融合特征向量输入循环神经网络，得到多模态融合的特征向量；

利用分类器对所述多模态融合的特征向量进行分类，得到识别结果。

优选地，利用预先训练的OCR识别模型实施所述光学字符识别方法，在所述OCR识别模型的训练中采用如下的损失函数：

，

其中，

为最终分类步骤的CTC损失，

为预分类和提取语义特征向量步骤的损失，

为实时训练轮数，

为训练总轮数，

为可调整的参数，

大于0且小于1。

本发明的另一方面提供了一种融合语言模型的光学字符识别装置，包括：

视觉特征向量提取模块，用于提取待识别文字图片的视觉特征向量；

预分类模块，用于对所述视觉特征向量进行预分类得到预分类文本序列；

语义特征提取模块，用于利用预先训练的语言模型，根据所述预分类文本序列提取语义特征向量；

最终分类模块，用于根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类，得到识别结果。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现上述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行上述的方法。

本发明的有益效果是：本发明提供的技术方案，首先提取待识别文字图片的视觉特征向量，然后对视觉特征向量进行预分类，得到预分类文本序列，再然后提取预分类文本序列的语义特征向量，最后根据语义特征向量与视觉特征向量对待识别的文字图片进行分类，得到识别结果。该技术方案将字符级语言模型引入OCR***，融合了文本图片的视觉信息和语义信息，不仅提高了OCR模型识别准确率，而且提高了OCR模型对于质量较差的文本图片的鲁棒性；另外，本发明提供的方法使用的损失函数，保证了OCR识别模型的训练效果，且收敛速度更快，能收敛到较小损失得分；而且，该损失函数也解决了训练前期由于预分类准确性不高而导致语义信息噪音较大的问题。

附图说明

图1为本发明所述融合语言模型的光学字符识别方法流程示意图；

图2为本发明所述融合语言模型的光学字符识别方法具体应用过程示意图；

图3为本发明所述融合语言模型的光学字符识别装置结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

在现有的OCR文本识别中，字符串的语义信息完全被忽略，如若文本质量较差或者其中部分文字脏污，最终的文字识别结果会比较差。

文字作为语言的一种表达形式，其字符间拥有很强的依赖关系，如果能将这样的语义信息引入OCR***，会给模型的表现带来很大的提升。

语言模型是自然语言任务的基石。总的来说，语言模型是在大规模未标注文本数据上训练出来的模型，旨在发现文本字符间的语义依赖关系。

得益于神经网络模型的蓬勃发展，近年来深度语言模型大放异彩。这些模型中大部分都是词级别的，例如Word2Vec，ELMo，BERT等，它们极大地促进自然语言相关任务的发展。同时也有一些基于字符的语言模型，能够挖掘更细粒度的字符间语义依赖关系，例如Flair。这些语言模型在文本生成任务上表现优异，有的时候甚至能媲美人类，例如GPT2。

本发明提供的方法将语言模型引入OCR模型，通过从预分类结果中获取语义信息，再融合语义信息和视觉信息进行字符识别，提升了识别的准确率。另外，通过提出全新设计的损失函数，使得本发明提供的方法的精度和适用性更好。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种融合语言模型的光学字符识别方法，包括：

S101，提取待识别文字图片的视觉特征向量；

S102，对所述视觉特征向量进行预分类得到预分类文本序列；

S103，利用预先训练的语言模型，根据所述预分类文本序列提取语义特征向量；

S104，根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类，得到识别结果。

上述方法中，首先获取待识别文字图片，然后提取其视觉特征向量。得到视觉特征向量之后，对其进行预分类，得到预分类文本序列。由于预分类过程中，是通过识别每个单字符以实现全文的识别，这一过程导致了上下文信息的丢失，所以即使每个字符的识别正确率高达99%，文字条目的正确率也很低。本发明中，在得到预分类文本序列后，提取其语义特征向量，然后根据语义特征向量与视觉特征向量对待识别的文字图片进行分类。该方法中，通过将语言模型引入OCR模型中，使语义信息和视觉信息融合后进行字符识别，提升了文字图片的识别准确率。

执行步骤S101，提取待识别文字图片的视觉特征向量，包括：

获取待识别文字图片；

利用卷积神经网络提取待识别文字图片的视觉特征向量。

卷积神经网络（Convolutional Neural Network CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（poolinglayer）。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更好的结果。

在实际应用过程中，将待识别文字图片输入到卷积神经网络中，利用卷积神经网络提取待识别文字图片的视觉特征向量。

执行步骤S102，对所述视觉特征向量进行预分类得到预分类文本序列。具体为，使用辅助分类器对所述视觉特征向量进行预分类得到预分类文本序列。

这个过程可以写成：S⁰=argmax(Linear ₀(R _v))。

其中，S⁰表示预分类文本序列，R _v表示卷积神经网络提取的视觉特征向量，Linear ₀()表示全连接层。

在本发明的一个优选实施例中，在得到预分类文本序列后，对其进行归一化处理。

执行步骤S103，利用预先训练的语言模型，根据所述预分类文本序列提取语义特征向量。

其中，预先训练的语言模型为基于LSTM的深度语言模型。

实际应用时，将所述预分类文本序列输入到预先训练的基于LSTM的深度语言模型中，得到语义特征向量；

这个过程可以表示为：R _n=Linear ₁(LM(S⁰))。

其中，R _n表示语义特征向量，LM()表示基于LSTM的深度语言模型，S⁰表示预分类文本序列，Linear ₁()表示全连接层。

执行步骤S104，根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类，得到识别结果。具体包括：

将所述视觉特征向量和语义特征向量融合，得到融合特征向量，其中，所述融合特征向量与视觉特征向量等宽，即向量的长度相同；

这个过程可以表示为：R _f:=[R _v;R _n]。

其中，R _f表示融合特征向量，R _v表示卷积神经网络提取的视觉特征向量，R _n表示语义特征向量。

其中，辅助分类器和分类器可采用现有的分类方法，其可以相同或不同。

本发明提供的融合语言模型的光学字符识别方法，实际应用过程可如图2所示，具体为：先使用卷积神经网络对图2顶部包含不完整的字母“P”的文字图片进行视觉特征的提取，使用辅助分类器对视觉信息进行预分类，得到预分类文本序列，然后将这个预分类文本序列先归一化，然后输入预训练的深度语言模型，得到编码这个序列的语义特征向量。在预测下一个字符的时候，再将这个融合了视觉信息和语义信息的融合特征向量输入分类器，得到最终预测的序列。

在本发明的一个优选实施例中，利用预先训练的OCR识别模型实施所述光学字符识别方法，在所述OCR识别模型的训练中采用如下的损失函数：

，

其中，

为最终分类步骤的CTC损失，

为预分类和提取语义特征向量步骤的损失，

为实时训练轮数，

为训练总轮数，

为可调整的参数，

大于0且小于1。

和

可采用现有方法计算得到，

可根据实际情况及经验进行设置。

在实际应用本发明方法的过程中发现，如果只进行CTC损失计算，对视觉特征向量进行预分类的步骤中会产生非常大的噪音，尤其是模型训练之初，噪音尤其大，导致OCR识别模型未能收敛，最终无法得到识别结果。如果在计算最终分类的CTC损失的同时，计算预分类步骤的损失，并按照相同的损失函数进行反向传播，由于模型训练之初，预分类步骤的噪音大，同样使得OCR识别模型未能收敛，最终无法得到识别结果。

基于上述发现，本发明实施例中，OCR识别模型训练过程中，同时计算预分类和提取语义特征向量步骤的损失以及最终分类步骤的CTC损失，在反向传播时，采用了如下的损失函数计算损失：

，

采用这个损失函数，预分类和提取语义特征向量步骤的结果对最终的模型影响很小，得到了收敛的OCR识别模型，最终得到了识别结果，而且收敛速度快。解决了训练前期由于预分类准确性不高而导致语义信息噪音较大的问题。

本发明实施例中，当OCR识别模型训练完成后，可以部署该模型，对文本图片进行字符识别。

本发明提供的上述方法，具有如下的有益效果：

（1）本发明提供的方法，将字符级深度语言模型引入OCR***，以增强OCR***的识别准确率。相比现有的OCR模型的字符识别方法，本发明提供的方法中，融合了文本图片的视觉信息和语义信息，不仅提高了OCR模型识别准确率，而且提高了OCR模型对于质量较差的文本图片的鲁棒性。

（2）本发明的方法中提供了新的损失函数，保证了OCR识别模型的训练效果，收敛速度更快，且能收敛到较小损失得分；另外，该损失函数也解决了训练前期由于预分类准确性不高而导致语义信息噪音较大的问题。

（3）本发明提供的方法采用二次分类的流程，基于预分类能够有效提取语义特征，再将视觉特征和语义特征融合进行分类，能够提高识别准确率，且采用该流程便于对实施方法的模型进行训练和优化。

（4）本发明提供的方法中，提取视觉信息的卷积神经网络模块不限于具体网络架构；提取文本语义信息的模块不限于具体深度语言模型。同时，本发明提供的方法不限于具体语种，适用于所有语言。

实施例二

如图3所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种融合语言模型的光学字符识别装置，包括：

视觉特征向量提取模块201，用于提取待识别文字图片的视觉特征向量；

预分类模块202，用于对所述视觉特征向量进行预分类得到预分类文本序列；

语义特征提取模块203，用于利用预先训练的语言模型，根据所述预分类文本序列提取语义特征向量；

最终分类模块204，用于根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类，得到识别结果。

进一步地，所述视觉特征向量提取模块进一步包括：

获取子模块，用于获取待识别文字图片；

卷积神经网络，用于提取待识别文字图片的视觉特征向量。

进一步地，所述装置还包括归一化处理模块，用于对所述预分类文本序列进行归一化处理。

进一步地，所述语义特征提取模块包括语言模型，所述语言模型可选地为基于LSTM的深度语言模型。

进一步地，所述最终分类模块具体包括：

融合子模块，用于将所述视觉特征向量和语义特征向量融合，得到融合特征向量；

分类子模块，用于根据所述融合特征向量对所述待识别的文字图片进行分类，得到识别结果。

其中，所述分类子模块进一步包括：

循环神经网络，用于根据所述融合特征向量得到多模态融合的特征向量；

分类器，用于对所述多模态融合的特征向量进行分类，得到识别结果。

进一步地，所述融合语言模型的光学字符识别装置实现为OCR识别模型，在所述OCR识别模型的训练中采用如下的损失函数：

，

其中，

为最终分类步骤的CTC损失，

为预分类和提取语义特征向量步骤的损失，

为实时训练轮数，

为训练总轮数，

为可调整的参数，

大于0且小于1。

该装置可实现实施例一提供的融合语言模型的光学字符识别方法，具体的方法步骤可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。