CN114445832A

CN114445832A - 基于全局语义的文字图像识别方法、装置及计算机设备

Info

Publication number: CN114445832A
Application number: CN202210086253.XA
Authority: CN
Inventors: 陈昊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-06

Abstract

本申请实施例属于人工智能和智慧城市领域，应用于文字领域中，涉及一种基于全局语义的文字图像识别方法、装置、计算机设备及存储介质，方法包括获取待识别文字图像；通过视觉特征提取模型的视觉部分对所述待识别文字图像进行视觉特征提取，通过视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，得到待识别文字图像的视觉特征矩阵；对视觉特征矩阵进行全局语义提取，得到待识别文字图像的全局语义特征；以全局语义特征为状态参数，通过注意机制对视觉特征矩阵进行特征解码，得到待识别文字图像的识别文本。本申请还涉及区块链技术，待识别文字图像以及识别文本可存储于区块链中。本申请可以提高对于低质量图像的文本识别准确度。

Description

基于全局语义的文字图像识别方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域和图像识别领域，尤其涉及一种基于全局语义的文字图像识别方法、装置、计算机设备及存储介质。

背景技术

随着人工智能的发展，图像识别技术在各个领域得到落地，其中，文字识别技术(OCR)是一种从图像中提取文字内容的技术，在日常生产、生活中得到广泛应用，比如在图像中进行车牌号识别、文字表格识别、客户信息识别等。但在一些场合中，由于文字图像的图像质量难以保证，可能会出现如图像缺损、图像模糊、光照不均匀、文字被遮挡、形近字等质量较低的图像，这种质量较低的文字图像存在识别困难的问题，导致文字识别的错误率较高。

发明内容

本申请实施例的目的在于提出一种基于全局语义的文字图像识别方法、装置、计算机设备及存储介质，以解决文字识别的错误率较高的问题。

为了解决上述技术问题，本申请实施例提供一种基于全局语义的文字图像识别方法，采用了如下所述的技术方案：

获取待识别文字图像；

通过预训练的视觉特征提取模型的视觉部分对所述待识别文字图像进行视觉特征提取，以及通过预训练的视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，得到所述待识别文字图像的视觉特征矩阵；

对所述视觉特征矩阵进行全局语义提取，得到所述待识别文字图像的全局语义特征；

以所述全局语义特征为状态参数，通过训练好的解码模型中的注意机制对所述视觉特征矩阵进行特征解码，得到所述待识别文字图像的识别文本。

为了解决上述技术问题，本申请实施例还提供一种基于全局语义的文字图像识别装置，采用了如下所述的技术方案：

获取模块，用于获取待识别文字图像；

第一提取模块，用于通过预训练的视觉特征提取模型的视觉部分对所述待识别文字图像进行视觉特征提取，以及通过预训练的视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，得到所述待识别文字图像的视觉特征矩阵；

第二提取模块，用于对所述视觉特征矩阵进行全局语义提取，得到所述待识别文字图像的全局语义特征；

解码模块，用于以所述全局语义特征为状态参数，通过训练好的解码模型中的注意机制对所述视觉特征矩阵进行特征解码，得到所述待识别文字图像的识别文本。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述的基于全局语义的文字图像识别方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的基于全局语义的文字图像识别方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：在获取到待识别文字图像后，通过预训练的视觉特征提取模型的视觉部分对所述待识别文字图像进行视觉特征提取，以及通过预训练的视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，使得视觉特征矩阵具有时序属性，对视觉特征矩阵进行全局语义提取，可以得到待识别文字图像的全局语义特征，以全局语义特征为指导，通过注意机制对视觉特征进行特征解码，得到待识别文字图像的识别文本，由于通过注意机制对视觉特征进行解码的过程是以全局语义特征为指导，在对局部视觉的解码基础上参考了全局语义，使得识别文本更准确，提高对于低质量图像的文本识别准确度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的基于全局语义的文字图像识别方法的一个实施例的流程图；

图3是根据本申请中视觉特征提取的一个实施例的流程图；

图3a是根据本申请的视觉特征提取模型的一个实施例的示意图；

图4是根据本申请中对视觉特征提取网络进行预训练的一个实施例的流程图；

图5是根据本申请中全局语义提取的一个实施例的流程图；

图6是根据本申请中对语义增强模型进行预训练的一个实施例的流程图；

图7是根据本申请中特征解码的一个实施例的流程图；

图8是根据本申请的基于全局语义的文字图像识别装置的一个实施例的结构示意图；

图9是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于全局语义的文字图像识别方法一般由服务器执行，相应地，基于全局语义的文字图像识别装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于全局语义的文字图像识别方法的一个实施例的流程图。所述的基于全局语义的文字图像识别方法，包括以下步骤：

步骤S201，获取待识别文字图像。

在本实施例中，基于全局语义的文字图像识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地，服务器可以通过用户扫描、用户上传或者从网络上下载的方式来获取到待识别文字图像，上述待识别文字图像可以理解为记载着文字内容的图像载体。

需要强调的是，为进一步保证上述待识别文字图像的私密和安全性，上述待识别文字图像还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202，通过预训练的视觉特征提取模型的视觉部分对待识别文字图像进行视觉特征提取，以及通过预训练的视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，得到待识别文字图像的视觉特征矩阵。

具体的，服务器在获取到待识别文字图像后，可以通过预训练的视觉特征提取模型对待识别文字图像进行视觉特征提取和时序信息提取，预训练的视觉特征提取模型包括视觉部分和时序部分，可以通过视觉部分对待识别文字图像进行视觉特征提取，通过预训练的视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，从而得到待识别文字图像的视觉特征矩阵。其中，视觉特征提取指的是将图像信息提取为计算机可识别的抽象特征。需要说明的是，图像信息指的是可被人识别的信息，抽象特征指可被计算机识别的信息，本申请中的视觉特征矩阵就是一种可被计算机识别处理的信息。

本实施例中，视觉部分可以是预设的卷积神经网络，时序部分可以是预设的时序信息提取网络，视觉特征的提取可以采用卷积神经网络进行提取，服务器调用预设的卷积神经网络对待识别文字图像进行处理，从而得到待识别文字图像的初步视觉特征矩阵。进一步的，视觉特征矩阵还经过时序处理，服务器在提取出待识别文字图像的初步视觉特征矩阵后，调用预设的时序信息提取网络对初步视觉特征矩阵进行时序处理，得到添加了时序属性的视觉特征矩阵。

在一种可能的实施例中，服务器可以将获取到的待识别图像进行0-1归一化处理，获得归一化后的待识别图像。

在本实施例中，服务将获取到待识别图像进行0-1归一化处理，得到归一化后的待识别图像，再对归一化后的待识别图像进行视觉特征处理。上述归一化处理可以理解为将图像中的像素值映射到0-1之间，这样可以使得待识别图像更符合计算机的计算形式，从而提高计算机的计算速度，进而提高文字识别的识别效率。

步骤S203，对视觉特征矩阵进行全局语义提取，得到待识别文字图像的全局语义特征。

服务器得到视觉特征矩阵后，可以对视觉特征的全局语义进行提取，得到待识别文字图像的全局语义。进一步的，待识别文字图像的视觉特征矩阵包含有多个尺度的视觉特征信息，因此，可以从不同尺度的视觉特征中提取出待识别文字图像在不同尺度下的语义特征，从而形成全局语义。

本实施例中，全局语义特征为增强型语义特征，增强型语义特征可以理解为通过语言模型对语义特征进行增强，以提高语义的准确度。本申请对全局语义特征进行增强，通过增强型的全局语义特征，进一步提高低质量图像的文本识别准确度。

步骤S204，以全局语义特征为状态参数，通过训练好的解码模型中的注意机制对视觉特征矩阵进行特征解码，得到待识别文字图像的识别文本。

服务器在获取到全局语义特征后，可以将全局语义特征与视觉特征矩阵分别输入到训练好的解码模型中进行解码，在训练好的解码模型中，通过预先构建的编码表可以将视觉特征矩阵转换为对应的文字，得到待识别文字图像的识别文本，从而完成从图像到文本的识别过程。

进一步的，可以采用全局语义特征对训练好的解码模型进行初始化，将全局语义特征为状态参数作为训练好的解码模型的状态参数，避免训练好的解码模型使用零状态初始化或随机初始化，使得训练好的解码模型无需要初始化过程，在提高解码速度的同时，可以采用全局语义特征为指导，不仅使用局部视觉信息进行解码，而且使用全局语义信息来产生更准确的结果，可以产生连贯且语义有效的识别文本。

本实施例中，对视觉特征矩阵进行全局语义提取，可以得到待识别文字图像的全局语义特征，以全局语义特征为指导，通过注意机制对视觉特征进行特征解码，得到待识别文字图像的识别文本，由于通过注意机制对视觉特征进行解码的过程是以全局语义特征为指导，在对局部视觉的解码基础上参考了全局语义，使得识别文本更准确，提高对于低质量图像的文本识别准确度。

需要强调的是，为进一步保证上述识别文本的私密和安全性，上述识别文本还可以存储于一区块链的节点中。

进一步的，预训练的视觉特征提取模型的视觉部分为联合训练后的视觉特征提取网络，预训练的视觉特征提取模型的时序部分为训练好的第一时序信息提取网络，第一时序信息提取网络用于在视觉层面提取时序信息，继续参考图3，图3示出了本申请中视觉特征提取的一个实施例的流程图。在步骤S202之前，还包括：

步骤S2021，构建基于卷积神经网络的视觉特征提取网络。

具体的，服务器构建基于卷积神经网络的视觉特征提取网络。其中，视觉特征提取网络可以包括预设数量的第一卷积层以及与第一卷积层一一对应的第二卷积层，第二卷积层用于将上一第二卷积层的卷积结果与对应的第一卷积层的卷积结果进行卷积计算。

更具体的，服务器可以预先获取基于卷积神经网络的视觉特征提取模型，从预先获取到的视觉特征提取模型中提取出部分计算网络来构建本申请的视觉特征提取网络。服务器也可以获取工作人员自行构建的视觉特征提取网络。

本实施例中，可以将视觉特征提取网络构建为V型结构，V结构可以包括输入侧和输出侧，输入侧可以包括预设数量的第一卷积层，输出侧可以包括与第一卷积层数量相同的第二卷积层，输入侧的每个卷积层都与输出侧的一个卷积层平行对应，每个第一卷积层在将卷积结果输入下一第一卷积层的同时，还将卷积结果输入平行的第二卷积层中，这样可以保留输入图像的全局信息。

步骤S2022，构建基于递归神经网络的第一时序信息提取网络。

具体的，服务器构建基于递归神经网络的第一时序信息提取网络，其中，第一时序信息提取网络包括与第二卷积层一一对应的时序处理单元，时序处理单元用于对上一时序处理单元的处理结果与对应的第二卷积层的卷积结果进行时序处理。

更具体的，服务器可以预先获取基于递归神经网络的时序处理模型，利用预先获取到的时序处理模型来构建本申请的第一时序信息提取网络。服务器也可以获取工作人员自行构建的第一时序信息提取网络。

将第一时序信息提取网络构建为双向长短时记忆网络的结构，这样，第一时序信息提取网络可以提取正向时序信息和反向时序信息，从而提取到更准确的时序信息。

举例来说，对于“我爱我家”，可以通过正向的长短时记忆网络将“我”、“爱”、“我家”提取为(h0，h1，h2，)这样的三个向量，通过反向的长短时记忆网络将“我家”、“爱”、“我”提取为(r2，r1，r0，)这样的三个向量，由于(h0，h1，h2)中的三个向量已经考虑到时序依赖，而(r0，r1，r2)中的三个向量也考虑到了时序依赖，可以用(h2，r2)来表示正向时序信息和反向时序信息的特征拼接，从而提取到更准确的时序信息。

本申请中，具有时序属性的视觉特征矩阵为h＝(h1，hL)，h1为反向时序信息中的最后一个特征矩阵，hL为正向时序信息中的最后一个特征矩阵，形状为L×C其中L是视觉特征提取网络中最后一个特征矩阵的宽度，C是特征矩阵的深度。

步骤S2023，通过预先构建的第一数据集，对视觉特征提取网络进行预训练，得到预训练好的视觉特征提取网络。

具体的，服务器可以预先构建用于训练视觉特征提取网络的第一数据集。第一数据集中包括样本文字图像以及对应图像标签，样本文字图像为记载着文字内容的图像载体，图像标签则为样本文字图像的视觉内容标签，图像标签可以由工作人员进行标注得到，也可以通过图像技术进行智能标注得到。

服务器在构建完成第一数据集后，使用第一数据集对构建好的视觉特征提取网络进行训练，在训练过程中，首先对构建好的视觉特征提取网络进行参数初始化，然后通过初始化完成后的视觉特征提取网络对样本图像进行视觉特征提取，得到训练输出，将训练输出与图像标签进行误差计算，并计算误差损失，以最小化误差损失为目标，对视觉特征提取网络进行迭代训练，直到视觉特征提取网络收敛或者达到预设的迭代次数为止，完成对视觉特征提取网络的预训练，得到训练好的视觉特征提取网络。

步骤S2024，通过预先构建的第二数据集，对预训练好的视觉特征提取网络以及第一时序信息提取网络进行联合训练，得到联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络。

具体的，在服务器对视觉特征提取网络进行预训练完成后，得到预训练好的视觉特征提取网络，可以将预训练好的视觉特征提取网络与构建好的第一时序信息提取网络进行结合。

需要说明的是，构建好的视觉特征提取网络在预训练过程中，视觉特征提取网络能够对文字图像进行多尺度的信息提取，并且能够有效且足量的提取图像中文字部分的信息。预训练好的视觉特征提取网络与构建好的第一时序信息提取网络进行联合训练，可以使视觉特征提取网络与第一时序信息提取网络在训练过程中更好的拟合，进而提高视觉特征矩阵的准确性。

第二数据集包括样本文字图像与文本标签，可以为第一时序信息提取网络构建一个初步的第一解码网络，在视觉特征提取网络提取出样本文字图像的视觉特征后，将视觉特征输入到时序信息提取网络中，得到具有时序属性的视觉特征，将具有时序属性的视觉特征通过该第一解码网络进行解码，输出对应的第一解码结果，计算将第一解码结果与文本标签之间的误差，以最小化第一解码结果与文本标签之间的误差损失为目标，对预训练好的视觉特征提取网络与构建好的第一时序信息提取网络进行联合训练，迭代到第一时序信息提取网络收敛或者达到预设的迭代次数为止，得到联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络。

服务器可以基于联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络，构建预训练的视觉特征提取模型，并通过预训练的视觉特征提取模型对待识别文字图像进行视觉特征提取，得到待识别文字图像的视觉特征矩阵。

将联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络构建成预训练的的视觉特征提取模型。需要说明的是，训练好的视觉特征提取模型包括联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络，从而可以提取具有时序属性的视觉特征矩阵。

视觉特征提取模型如图3a所示，图3a为一个实施例中视觉特征提取模型的示意图。在一种可能的实施方式中，可以将第一数据集与第二数据集合并为一个数据集，合并后的数据中包括样本文字图像以及与样本文字图像对应的图像标签和文本标签，通过合并后的数据集对应视觉特征提取模型进行训练，从而得到训练好的视觉特征提取模型，训练好的视觉特征提取模型则包含了联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络。

本实施例中，在构建基于卷积神经网络的视觉特征提取网络与构建基于递归神经网络的第一时序信息提取网络后，通过预先构建的第一数据集，对所述视觉特征提取网络进行预训练，得到预训练好的视觉特征提取网络，以及通过预先构建的第二数据集，对预训练好的视觉特征提取网络以及第一时序信息提取网络进行联合训练，得到联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络，并基于联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络，构建训练好的视觉特征提取模型，使得提取到的视觉特征矩阵具有多个尺度的特征，从而可以保留待识别文字图像的全局信息，同时可以提取到更准确的时序信息，进而提高文字识别的准确率。

进一步的，继续参考图4，图4示出了本申请中对视觉特征提取网络进行预训练的一个实施例的流程图。通过预先构建的第一数据集，对视觉特征提取网络进行预训练，得到预训练好的视觉特征提取网络的步骤具体包括：

步骤S20231，获取样本文字图像。

具体的，服务器可以预先获取样本文字图像来对第一数据集进行构建。样本文字图像可以是服务器从网络渠道上进行获取的，也可以通过用户上传到服务器进行获取的。

步骤S20232，将样本文字图像中文字部分按文字或语句排布规则逐字进行勾画，得到样本文字图像中每个文字对应的文字勾画图。

具体的，在服务器获取到样本文字图像后，可以将样本文字图像分发到工作人员处对样本文字图像中的文字进行勾画，在勾画过程中，按样本文字图像中的文字或语句的排布规则逐字进行勾画。

若样本文字图像中的文字或语句的排布规则为从上到下，从左到右，则按从上到下，从左到右的规则逐字进行勾画，得到对应的文字勾画图；若样本文字图像中的文字的排布规则为从上到下，从右到左，则按从上到下，从右到左的规则逐字进行勾画，得到对应的文字勾画图。

在服务器获取到样本文字图像后，也可以将样本文字图像通过图像分割技术来进行文字勾画，具体的，通过图像分割网络，对样本文字图像中的文字进行分割，得到各个文字的分割区域，再对各个文字的分割区域进行自动掩码勾画，按样本文字的排布规则将自动掩码勾画的文字区域形成对应的文字勾画图。

在一种实施方法中，一个样本文字图像对应的文字勾画图为多个序列图像，一个序列图像可以包括一个语句的所有文字的勾画，即样本文字图像有多少句话构成，则文字勾画图中则有多少个序列图像，序列图像按语句的排布规则进行排序。

在另一种实施方法中，一个样本文字图像对应的文字勾画图为多个序列图像，一个序列图像可以包括一个文字对应的勾画，即样本文字图像有多少个文字构成，则文字勾画图中则有多少个序列图像，序列图像按文字的排布规则进行排序。

在另一种实施方法中，对于一个样本文字图像，在关联对应的文字勾画图后，可以对样本文字图像进行图像随机掩码，以添加样本文字图像的噪音，使样本文字图像的图像质量下降，这样，可以提高训练出的视觉特征提取网络的鲁棒性。

进一步的，可以在对文字进行勾画过程中，在样本图像中文字笔划对应的区域进行随机笔划抹除，使样本图像中文字笔划缺失，但对应的文字勾画图中的笔划为完整笔划，相当于对缺失笔划进行正确的掩码，这样，可以进一步提高训练出的视觉特征提取网络的鲁棒性。

步骤S20233，以对应的文字勾画图为样本文字图像的图像标签，构建第一数据集，并将第一数据集分为训练集与测试集。

具体的，服务器在获取到文字勾画图后，将文字勾画图与对应的样本文字图像进行关联，从而将文字勾画图形成样本文字图像的图像标签。将有样本文字图像都关联上对应的文字勾画图后，得到对应的第一数据集。将第一数据集分为训练集与测试集，训练集可以包括第一数据集中一部分的样本文字图像与对应的文字勾画图，测试集可以包括第一数据集中另一部分的样本文字图像与对应的文字勾画图。

步骤S20234，在训练过程中，针对训练集，通过视觉特征提取网络的掩码输出层输出样本文字图像的掩码结果。

具体的，服务器构建的视觉特征提取网络包括掩码输出层，掩码输出层输出对于样本文字图像中的文字区域的掩码结果。可以通过视觉特征提取网络中的第一卷积层和第二卷积层的计算，将训练集中的样本文字图像中的文字区域映射为对应的局部视觉特征，通过掩码输出层对掩码特征进行线性变换，输出对应的掩码结果。

掩码输出层是在对视觉特征提取网络进行预训练过程时添加的结构，在训练好后，可以将掩码输出层进行删除，以降低模型的参数。

步骤S20235，计算掩码结果与文字勾画图的误差损失，以最小化误差损失为目标，对视觉特征提取网络进行迭代训练，直到视觉特征提取网络在测试集中收敛或者达到预设的迭代次数为止，完成对视觉特征提取网络的预训练，得到预训练好的视觉特征提取网络。

具体的，服务器获取样本文字图像的掩码结果后，可以计算掩码结果与文字勾画图之间的误差，掩码结果与文字勾画图之间的误差越小，则说明视觉特征提取网络的性能越好，提取到的视觉特征越准确。通过最小误差损失来对视觉特征提取进行迭代训练，直到视觉特征提取网络在测试集中收敛或者达到预设的迭代次数为止，完成对视觉特征提取网络的预训练，得到训练好的视觉特征提取网络。

测试集可以包括样本文字图像与对应的文字勾画图。具体可以将第一数据集分为训练集与测试集，使用训练集对视觉特征提取网络进行训练，而测试集不参与第一数据集对视觉特征提取网络的训练，只参与对视觉特征提取网络的效果测试。

本申请中采用的误差损失可以是dice损失函数，dice损失函数如下所示：

其中，A表示视觉特征提取网络生成的掩码结果，该掩码结果为样本文字图像中各个文字对应的掩码区域，B表示文字勾画图中的文字勾画区域。当该视觉特征提取网络预训练完成后，因为该视觉特征提取网络可以完整生成样本文字图像中各个文字区域的掩码，可以认为该视觉特征提取网络能够对文字图像进行多尺度的信息提取，并且能够有效且足量的提取图像中文字部分的信息。

本实施例中，通过将样本文字图像中文字部分按文字或语句排布规则逐字进行勾画，得到样本文字图像中每个文字对应的文字勾画图，并以对应的文字勾画图为样本文字图像的图像标签，构建所述第一数据集，在训练过程中，通过视觉特征提取网络的掩码输出层输出样本文字图像的掩码结果，计算掩码结果与文字勾画图的误差损失，以最小化误差损失为目标，对视觉特征提取网络进行迭代训练，可以提高视觉特征提取网络的准确性以及鲁棒性，进而提高文字识别的准确性。

进一步的，继续参考图5，图5示出了本申请中全局语义提取的一个实施例的流程图。对视觉特征矩阵进行全局语义提取，得到待识别文字图像的全局语义特征的步骤具体包括：

步骤S2031，构建语义模型以及构建语义增强模型。

具体的，服务器可以构建语义模型以及构建语义增强模型，语义模型用于提取视觉特征提取矩阵中包含的语义信息，语义增强模型用于对语义模型提取到的语义信息进行修正，提高语义信息的准确度。其中，语义模型可以包括隐含特征提取网络以及第二时序信息提取网络。

更具体的，服务器可以预先获取基于卷积神经网络的分类特征模型，从预先获取到的分类模型中提取出部分计算网络来构建本申请的隐含特征提取网络。服务器也可以获取工作人员自行构建的隐含特征提取网络。

举例来说，隐含特征提取网络可以基于ResNet结构的神经网络，具体可以是基于45层ResNet结构的神经网络，隐含特征提取网络用于将视觉特征中的全局语义到提取到隐含空间，从而得到全局语义的高级隐含特征。

服务器可以预先获取基于递归神经网络的时序处理模型，利用预先获取到的时序处理模型来构建本申请的第二时序信息提取网络。服务器也可以获取工作人员自行构建的第二时序信息提取网络。将第二时序信息提取网络构建为长短时记忆网络的结构，这样，第二时序信息提取网络可以在语义层面提取到更准确的时序信息。

服务器可以根据基于任意一种语言模型来构建语义增强模型，比如可以基于skip-gram的模型来构建语义增强模型。

步骤S2032，通过预设的第三数据集对语义模型进行预训练，得到预训练好的语义模型。

具体的，在服务器构建好语义模型后，可以通过第三数据集对语义模型进行预训练，第三数据集包括通过训练好的视觉特征模型提取出的视觉特征矩阵与对应的语义标签。进一步的，第三数据集中通过训练好的视觉特征模型提取出的视觉特征矩阵可以基于第一数据集或第二数据集中的样本文字图像进行提取得到，也可以是基于其他数据源的文字图像进行提取得到。

或者，由于语义模型的输入为视觉特征矩阵，而第一时序信息提取网络的输出为视觉特征矩阵，服务器可以将构建好的语义模型与第一时序信息提取网络进行联合训练，通过第二数据集中的样本文字图像与文字标签对语义模型进行联合训练。此时，语义模型中包括第二解码网络，从而使得语义模型可以替代第一解码网络对第一时序信息提取网络进行解码输出。

或者，服务器视觉特征提取模型与语义模型进行联合训练，训练使用的数据集为第一数据集与第二数据集合并后的数据集。

需要说明的是，由于视觉特征提取网络、第一时序信息提取网络、语义模型具有串联属性，即视觉特征提取网络的输出为第一时序信息提取网络输入，第一时序信息提取网络的输出为语义模型的输入，因此，可以对视觉特征提取网络、第一时序信息提取网络、语义模型进行灵活的联合训练，比如将视觉特征提取网络与第一时序信息提取网络进行联合训练，或者将第一时序信息提取网络与语义模型进行联合训练，或者将视觉特征提取网络、第一时序信息提取网络、语义模型进行联合训练。

在视觉特征矩阵输入语义模型之前，可以对视觉特征矩阵进行双线性抽样，使得语义模型能够更加关注于更高级的语义特征而不是细节，从而提高语义模型的鲁棒性。

双线性抽样也可以称为双线性采样或双线性插值，是一种在图中确定被采样点，利用被采样点周围的4个已知值参加计算新的值作为采样点的值，将被采样点的值***原来的图中，则是双线性上采样，将所有被采样点的值作为新图的值，则是双线性下采样。

视觉特征矩阵在语义模型中会被展开为一维特征向量I，语义信息是通过语义模型中的隐含特征提取网络以及第二时序信息提取网络进行线性处理得到，具体可以参考下述式子：

S＝W₂σ(W₁I+b₁)+b₂

其中W1、W2、b1、b2是线性函数中的可训练权重，σ是激活函数。

步骤S2033，通过预设的第四数据集对语义增强模型进行预训练，得到预训练好的语义增强模型。

具体的，服务器可以根据预先获取样本语料，根据样本语料构建第四数据集来训练语义增强模型。样本语料可以从网络渠道进行获取，也可以是工作人员进行上传。

语义增强模型可以通过第四数据集进行单独的预训练，最后将预训练好的语义增强模型与语义模型进行结合即可。语义增强模型用于对语义模型中语义信息进行语义校正，从而使语义模型得到更准确度的语义信息。

步骤S2034，通过语义增强模型指导语义模型对视觉特征矩阵进行全局语义提取，得到待识别文字图像的全局语义特征。

具体的，服务器将语义增强模型作为语义模型的指导，使得语义模型提取出的全局语义特征更为准确。由于语义增强模型可以处理语义模型中“词汇表外”的问题，使用语义增强模型相当于对输入的某些视觉特征进行一种向量嵌入，因此，语义增强模型中的嵌入向量，实际上相当于是对语义模型特征的一种校正。

举例来说，词汇表是一种转换工具，将某个类型的状态信息映射为另一个类型的状态信息，比如将特征向量H1转换“我”的词向量V1，将特征向量H2转换为“爱”词向量V2，将特征向量H3转换为“的”词向量V3，将特征向量H4转换为“祖”词向量V4，将特征向量H5转换为“国”词向量V5，将特征向量H6转换为“受”词向量V6。一般情况下，语义模型中的词汇表可以将(H1，H2，H1，H3，H4，H5)转换(V1，V2，V1，V3，V4，V5)，进而解码得到“我爱我的祖国”，但是由于图像质量的原因，语义模型拿到的可能是(H1，H2，H6，H3，H4，H5)，主义模型则会将(H1，H6，H1，H3，H4，H5)转换为(V1，V6，V1，V3，V4，V5)，最终解码得到“我受我的祖国”，而语义增强模型中嵌入了“我爱”这样的词向量(V1，V2)，因此，会通过“我爱”的嵌入向量(V1，V2)、“爱我”的嵌入向量(V2，V1)、“我爱我”的嵌入向量(V1，V2，V1)、“爱我的”的嵌入向量(V2，V1，V3)、“我爱我的”的嵌入向量(V1，V2，V1，V3)、“爱我的祖”的嵌入向量(V2，V1，V3，V4)、“我爱我的祖”的嵌入向量(V1，V2，V1，V3，V4)、“爱我的祖国”的嵌入向量(V2，V1，V3，V4，V5)这些嵌入向量来指导语义模型，从而使语义将(H1，H6，H1，H3，H4，H5)转换为(V1，V2，V1，V3，V4，V5)。

本实施例中，可以通过预训练好的语义增强模型对语义模型中语义信息进行语义校正，从而使语义模型得到更准确度的语义信息，从而进一步提高文字识别的准确性。

进一步的，继续参考图6，图6示出了本申请中对语义增强模型进行预训练的一个实施例的流程图。通过预设的第四数据集对语义增强模型进行预训练，得到预训练好的语义增强模型的步骤具体包括：

步骤S20331，获取样本语料。

具体的，服务可以从网络渠道进行获取样本语料，也可以根据工作人员上传来获取样本语料。样本语料包括预设长度的语句文本，对于一个语句，可以用T＝{wi-k，wi+k}进行表示，wi语句中的单词，k表示句子的长度。

步骤S20332，通过样本语料训练预设的前馈网络，同时在训练过程中优化嵌入向量，得到与样本语料语义相近的嵌入向量。

具体的，服务器构建的语义增强模型包括预设的前馈网络，单词wi可以由一个嵌入向量vi表示后输入到预设的前馈网络，预设的前馈网络是一个前向神经网络，预设的前馈网络的目的是预测Ci＝{wi-k，wi-1，wi+1，wi+k}。

更具体的，在服务器获取到样本语料后，会通过预设的前馈网络额外对样本语料中的单词嵌入子单词，并使用这些子单词生成单词wi的最终词嵌入向量。

举例来说，给定超参数lmin和lmax，表示子词的最小长度和最大长度。例如，给定lmin＝2，lmax＝5，单词是“where”，子单词的集合是{wh，he，er，re，whe，her，ere，wher，here}。

在服务器获取到样本语料后，会通过预设的前馈网络额外对样本语料中的语句嵌入子语句，并使用这些子语句生成语句wi的最终语句嵌入向量。

例如，给定lmin＝2，lmax＝4，语句是“我爱我的祖国”，子单词的集合是{我爱，爱我，我的，的祖，祖国，我爱我，爱我的，我的祖，的祖国，我爱我的，爱我的祖，我的祖国，我爱我的祖，爱我的祖国}

可以将嵌入子语句与嵌入子单词进行嵌套，对一样本语料中的句子嵌入子语句，再对子语句中的单词嵌入子单词，这样可以进一步提取出样本语义中的全局语义。

步骤S20333，将嵌入向量与对应单词或语句本身进行结合，得到单词或语句的表示，并通过单词或语句的表示得到预训练好的语义增强模型。

在服务器获取到得到单词或语句的表示后，可以将单词或语句的表示作为预训练好的语义增强模型。预训练好的语义增强模型用于对语义模型中语义信息进行语义校正，从而使语义模型得到更准确度的语义信息。

例如，给定lmin＝2，lmax＝4，语句是“我爱我的祖国”，子单词的集合是{我爱，爱我，我的，的祖，祖国，我爱我，爱我的，我的祖，的祖国，我爱我的，爱我的祖，我的祖国，我爱我的祖，爱我的祖国}。

本实施例中，可以使得预训练好的语义增强模型可以对语义模型中语义信息进行语义校正，从而使语义模型得到更准确度的语义信息。

进一步的，继续参考图7，图7示出了本申请中特征解码的一个实施例的流程图。在步骤S204之前，还包括：

步骤S2041，构建解码模型。

具体的，服务器可以预先获取基于卷积神经网络的分类模型，从预先获取到的分类模型中提取出分类部分的网络来构建本申请的解码模型，并在构建的解码模型中添加注意机制。服务器也可以获取工作人员自行构建包含注意机制的解码模型。

更具体的，解码模型可以采用Bahdanau注意机制进行校正，由一个单层注意GRU网络组成，包含512个隐藏单元和512个注意单元。优选的，本申请可以使用单向解码器。特别地，可以通过线性函数变换维数，利用语义信息对GRU网络的状态进行初始化，将全局语义特征为状态参数作为解码模型的状态参数，避免解码模型使用零状态初始化或随机初始化，使得解码模型无需要初始化过程，在提高解码速度的同时，可以采用全局语义特征为指导，不仅使用局部视觉信息进行解码，而且使用全局语义信息来产生更准确的结果，可以产生连贯且语义有效的识别文本。优选的，解码模型的结构可以是由resnet50结构的分类部分与GRU网络组成。

步骤S2042，基于预设的第五数据集，采用识别损失函数与嵌入损失函数对解码模型进行训练，得到训练好的解码模型。

具体的，服务器在构建好模型后，再构建对应的第五数据集，其中，第五数据集可以包括第二数据集以及第四数据集，第二数据集用于计算识别损失函数，第四数据集用于计算嵌入损失函数。

对于解码模型的训练可以是结合上述视觉特征提取模型、语义模型以及语义增强模型同时进行训练，通过第一数据集、第二数据集、第四数据集的结合即可完成全部模型的训练。当然，上述视觉特征提取模型、语义模型以及语义增强模型可以是预先训练好的，在与解码模型共同进行训练时，可以只调整解码模型中的参数，保持视觉特征提取模型、语义模型以及语义增强模型的参数不变。

具体的，损失函数如下述式子所示：

L＝L_rec+λL_sem

其中，Lrec为识别损失函数，Lsem为嵌入损失函数，λ为预设的权重参数，是一个先验值。

识别损失函数可以采用交叉熵损失函数，嵌入损失函数Lsem可以如下述式子所示：

L_sem＝1-cos(S，em)

其中S是解码模型预测的文本结果，em是预训练的语义增强模型中的嵌入向量。

训练好的解码模型用于以全局语义特征为状态参数，通过注意机制对视觉特征矩阵进行特征解码，得到待识别文字图像的识别文本。

本实施例中，可以在训练过程中考虑识别误差和嵌入误差，提高解码模型的解码准确度，从而进一步提高文字识别的准确性。同时，将全局语义特征为状态参数作为解码模型的状态参数，避免解码模型使用零状态初始化或随机初始化，使得解码模型无需要初始化过程，在提高解码速度的同时，可以采用全局语义特征为指导，不仅使用局部视觉信息进行解码，而且使用全局语义信息来产生更准确的结果，可以产生连贯且语义有效的识别文本。

本申请可应用于智慧城市领域中，从而推动智慧城市的建设。例如，本申请可应用于智慧城市领域中的广告识别、车牌识别、实体文本识别等多种涉及文字图像的应用领域。

进一步参考图8，作为对上述图2所示方法的实现，本申请提供了一种基于全局语义的文字图像识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例所述的基于全局语义的文字图像识别装置800包括：获取模块801、第一提取模块802、第二提取模块803以及解码模块804，其中：

获取模块801，用于获取待识别文字图像。

第一提取模块802，用于通过预训练的视觉特征提取模型的视觉部分对所述待识别文字图像进行视觉特征提取，以及通过预训练的视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，得到所述待识别文字图像的视觉特征矩阵。

第二提取模块803，用于对视觉特征矩阵进行全局语义提取，得到待识别文字图像的全局语义特征。

解码模块804，用于以全局语义特征为状态参数，通过训练好的解码模型中的注意机制对视觉特征矩阵进行特征解码，得到待识别文字图像的识别文本。

在本实施例的一些可选的实现方式中，预训练的视觉特征提取模型的视觉部分为联合训练后的视觉特征提取网络，预训练的视觉特征提取模型的时序部分为训练好的第一时序信息提取网络，第一时序信息提取网络用于在视觉层面提取时序信息；本实施例所述的基于全局语义的文字图像识别装置800还包括：第一构建模块、第二构建模块、第一训练模块以及第二训练模块第三构建模块，其中：

第一构建模块，用于构建基于卷积神经网络的视觉特征提取网络，视觉特征提取网络包括预设数量的第一卷积层以及与第一卷积层一一对应的第二卷积层，第二卷积层用于将上一第二卷积层的卷积结果与对应的第一卷积层的卷积结果进行卷积计算；

第二构建模块，用于构建基于递归神经网络的第一时序信息提取网络，第一时序信息提取网络包括与第二卷积层一一对应的时序处理单元，时序处理单元用于对上一时序处理单元的处理结果与对应的第二卷积层的卷积结果进行时序处理；

第一训练模块，用于通过预先构建的第一数据集，对视觉特征提取网络进行预训练，得到预训练好的视觉特征提取网络；

第二训练模块，用于通过预先构建的第二数据集，对预训练好的视觉特征提取网络以及第一时序信息提取网络进行联合训练，得到联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络。

在本实施例的一些可选的实现方式中，第一训练模块包括：第一获取单元、勾画单元、构建单元、输出单元以及计算单元，其中：

第一获取单元，用于获取样本文字图像；

勾画单元，用于将样本文字图像中文字部分按文字或语句排布规则逐字进行勾画，得到样本文字图像中每个文字对应的文字勾画图；

构建单元，用于以对应的文字勾画图为所述样本文字图像的图像标签，构建所述第一数据集，并将所述第一数据集分为训练集与测试集；

输出单元，用于在训练过程中，通过视觉特征提取网络的掩码输出层输出样本文字图像的掩码结果；

计算单元，用于计算掩码结果与所述文字勾画图的误差损失，以最小化误差损失为目标，对视觉特征提取网络进行迭代训练，直到视觉特征提取网络在测试集中收敛或者达到预设的迭代次数为止，完成对视觉特征提取网络的预训练，得到预训练好的视觉特征提取网络。

在本实施例的一些可选的实现方式中，所述第二提取模块803包括：构建子模块、第一训练子模块、第二训练子模块以及提取子模块，其中，

构建子模块，用于构建语义模型以及构建语义增强模型，其中，语义模型包括隐含特征提取网络以及第二时序信息提取网络，第二时序提取网络用于在语义层面提取时序信息；

第一训练子模块，用于通过预设的第三数据集对语义模型进行预训练，得到预训练好的语义模型；

第二训练子模块，用于通过预设的第四数据集对语义增强模型进行预训练，得到预训练好的语义增强模型；

提取子模块，用于通过语义增强模型指导语义模型对视觉特征矩阵进行全局语义提取，得到待识别文字图像的全局语义特征。

在本实施例的一些可选的实现方式中，第二训练子模块包括：第二获取单元、训练单元以及结合单元，其中：

第二获取单元，用于获取样本语料；

训练单元，用于通过样本语料训练预设的前馈网络，同时在训练过程中优化嵌入向量，得到与所述样本语料语义相近的嵌入向量；

结合单元，用于将嵌入向量与对应单词或语句本身进行结合，得到单词或语句的表示，并通过单词或语句的表示得到预训练好的语义增强模型。

在本实施例的一些可选的实现方式中，基于全局语义的文字图像识别装置800还包括：第三构建模块以及第三训练模块，其中：

第三构建子模块，用于构建解码模型；

第三训练子模块，用于基于预设的第五数据集，采用识别损失函数与嵌入损失函数对解码模型进行训练，得到训练好的解码模型，第五数据集包括第二数据集与第三数据集。

在本实施例的一些可选的实现方式中，基于全局语义的文字图像识别装置800还包括：归一化模块，其中：

归一化模块，用于将待识别图像进行0-1归一化处理，获得归一化后的待识别图像。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

所述计算机设备9包括通过***总线相互通信连接存储器91、处理器92、网络接口93。需要指出的是，图中仅示出了具有组件91-93的计算机设备9，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器91至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器91可以是所述计算机设备9的内部存储单元，例如该计算机设备9的硬盘或内存。在另一些实施例中，所述存储器91也可以是所述计算机设备9的外部存储设备，例如该计算机设备9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器91还可以既包括所述计算机设备9的内部存储单元也包括其外部存储设备。本实施例中，所述存储器91通常用于存储安装于所述计算机设备9的操作***和各类应用软件，例如基于全局语义的文字图像识别方法的计算机可读指令等。此外，所述存储器91还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器92在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92通常用于控制所述计算机设备9的总体操作。本实施例中，所述处理器92用于运行所述存储器91中存储的计算机可读指令或者处理数据，例如运行所述基于全局语义的文字图像识别方法的计算机可读指令。

所述网络接口93可包括无线网络接口或有线网络接口，该网络接口93通常用于在所述计算机设备9与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述基于全局语义的文字图像识别方法的步骤。此处基于全局语义的文字图像识别方法的步骤可以是上述各个实施例的基于全局语义的文字图像识别方法中的步骤。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于全局语义的文字图像识别方法的步骤。

本实施例中，在获取到待识别文字图像后，提取待识别文字图像的视觉特征矩阵，视觉特征矩阵经过时序处理，具有时序属性，对视觉特征矩阵进行全局语义提取，可以得到待识别文字图像的全局语义特征，以全局语义特征为指导，通过注意机制对视觉特征进行特征解码，得到待识别文字图像的识别文本，由于通过注意机制对视觉特征进行解码的过程是以全局语义特征为指导，在对局部视觉的解码基础上参考了全局语义，使得识别文本更准确，提高对于低质量图像的文本识别准确度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于全局语义的文字图像识别方法，其特征在于，包括下述步骤：

获取待识别文字图像；

2.根据权利要求1所述的基于全局语义的文字图像识别方法，其特征在于，所述预训练的视觉特征提取模型的视觉部分为联合训练后的视觉特征提取网络，所述预训练的视觉特征提取模型的时序部分为训练好的第一时序信息提取网络，所述训练好的第一时序信息提取网络用于在视觉层面提取时序信息；在所述通过预训练的视觉特征提取模型的视觉部分对所述待识别文字图像进行视觉特征提取，以及通过预训练的视觉特征提取模型的时序部分对提取到的视觉特征进行时序信息提取，得到所述待识别文字图像的视觉特征矩阵的步骤之前，还包括：

构建基于卷积神经网络的视觉特征提取网络，所述视觉特征提取网络包括预设数量的第一卷积层以及与所述第一卷积层一一对应的第二卷积层，所述第二卷积层用于将上一第二卷积层的卷积结果与对应的第一卷积层的卷积结果进行卷积计算；

构建基于递归神经网络的第一时序信息提取网络，所述第一时序信息提取网络包括与所述第二卷积层一一对应的时序处理单元，所述时序处理单元用于对上一时序处理单元的处理结果与对应的第二卷积层的卷积结果进行时序处理；

通过预先构建的第一数据集，对所述视觉特征提取网络进行预训练，得到预训练好的视觉特征提取网络；

通过预先构建的第二数据集，对所述预训练好的视觉特征提取网络以及所述第一时序信息提取网络进行联合训练，得到联合训练后的视觉特征提取网络与训练好的第一时序信息提取网络。

3.根据权利要求2所述的基于全局语义的文字图像识别方法，其特征在于，所述通过预先构建的第一数据集，对所述视觉特征提取网络进行预训练，得到预训练好的视觉特征提取网络的步骤包括：

获取样本文字图像；

将所述样本文字图像中文字部分按文字或语句排布规则逐字进行勾画，得到所述样本文字图像中每个文字对应的文字勾画图；

以对应的所述文字勾画图为所述样本文字图像的图像标签，构建所述第一数据集，并将所述第一数据集分为训练集与测试集；

在训练过程中，针对所述训练集，通过所述视觉特征提取网络的掩码输出层输出所述样本文字图像的掩码结果；

计算所述掩码结果与所述文字勾画图的误差损失，以最小化误差损失为目标，对视觉特征提取网络进行迭代训练，直到所述视觉特征提取网络在测试集中收敛或者达到预设的迭代次数为止，完成对所述视觉特征提取网络的预训练，得到预训练好的视觉特征提取网络。

4.根据权利要求1所述的基于全局语义的文字图像识别方法，其特征在于，所述对所述视觉特征矩阵进行全局语义提取，得到所述待识别文字图像的全局语义特征的步骤包括：

构建语义模型以及构建语义增强模型，其中，语义模型包括隐含特征提取网络以及第二时序信息提取网络，所述第二时序提取网络用于在语义层面提取时序信息；

通过预设的第三数据集对语义模型进行预训练，得到预训练好的语义模型；

通过预设的第四数据集对语义增强模型进行预训练，得到预训练好的语义增强模型；

通过所述语义增强模型指导所述语义模型对所述视觉特征矩阵进行全局语义提取，得到所述待识别文字图像的全局语义特征。

5.根据权利要求4所述的基于全局语义的文字图像识别方法，其特征在于，所述通过预设的第四数据集对语义增强模型进行预训练，得到预训练好的语义增强模型的步骤包括：

获取样本语料；

通过所述样本语料训练预设的前馈网络，在训练过程中优化嵌入向量，得到与所述样本语料语义相近的嵌入向量；

将嵌入向量与对应单词或语句本身进行结合，得到单词或语句的表示，并通过单词或语句的表示得到预训练好的语义增强模型。

6.根据权利要求4所述的基于全局语义的文字图像识别方法，其特征在于，所述以所述全局语义特征为状态参数，通过训练好的解码模型中的注意机制对所述视觉特征矩阵进行特征解码，得到所述待识别文字图像的识别文本的步骤之前，还包括：

构建解码模型；

基于预设的第五数据集，采用识别损失函数与嵌入损失函数对解码模型进行训练，得到训练好的解码模型，第五数据集包括第二数据集与第三数据集。

7.根据权利要求1至6中任一所述的基于全局语义的文字图像识别方法，其特征在于，在所述以所述全局语义特征为状态参数，通过训练好的解码模型中的注意机制对所述视觉特征矩阵进行特征解码，得到所述待识别文字图像的识别文本的步骤之前，所述方法还包括：

将所述待识别图像进行0-1归一化处理，获得归一化后的待识别图像。

8.一种基于全局语义的文字图像识别装置，其特征在于，包括：

获取模块，用于获取待识别文字图像；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于全局语义的文字图像识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于全局语义的文字图像识别方法的步骤。