CN113128494B

CN113128494B - 识别图像中文本的方法、装置和***

Info

Publication number: CN113128494B
Application number: CN201911391341.5A
Authority: CN
Inventors: 都林; 沈驰雄; 潘乐萌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2024-06-28
Anticipated expiration: 2039-12-30
Also published as: CN113128494A; WO2021135816A1; EP4027267A1; EP4027267A4; US20220262151A1

Abstract

本申请实施例提供一种识别图像中文本的方法、装置和***，该方法包括：根据多种识别方法，获取图像中待识别文本的多个识别结果；获取各该识别结果的语义信息；获取该图像的特征信息，该图像的特征信息能够表征该图像中该待识别文本周围的信息；根据该图像的特征信息以及该多个识别结果的语义信息，从该多个识别结果中确定该待识别文本的目标识别结果。本申请实施例中由于在从多个识别结果中确定最准确的识别结果时结合了能够表征在图像中待识别文本周围的信息的图像特征信息，那么识别结果中包括图像特征信息的识别结果就可以被识别出来，因此可以提高从多个识别结果中确定最准确的识别结果的准确度，即可以获取精确的识别结果。

Description

识别图像中文本的方法、装置和***

技术领域

本申请涉及计算机技术，尤其涉及一种识别图像中文本的方法、装置和***。

背景技术

光学字符识别(optical character recognition，简称OCR)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品上的文本转化成图像，再利用文字识别技术识别图像中的文本，以将印刷品上的文本转化为计算机可编辑的文本的技术，也可以说是识别图像中文本的技术。该技术可应用于银行票据、大量文字资料、档案卷宗以及文案的录入和处理领域。

目前存在多种识别图像中文本的方法，比如得到识别结果后采用自然语言处理(natural language processing，简称NLP)纠错算法，对识别结果进行纠错以得到最终的识别结果的方法。但是目前识别图像中文本的方法均不能得到精确的文本识别结果。

发明内容

本申请实施例提供一种识别图像中文本的方法、装置和***，可以得到精确的文本识别结果。

第一方面，本申请实施例提供一种识别图像中文本的方法，包括：根据多种识别方法，获取图像中待识别文本的多个识别结果；获取各所述识别结果的语义信息；获取所述图像的特征信息，所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息；根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定所述待识别文本的目标识别结果。其中，目标识别结果为多个识别结果中准确度高于其它识别结果的识别结果。

本方案中，采用多种方法得到多个识别结果后，根据各识别结果的语义信息和能够表征在图像中待识别文本周围的信息的图像特征信息，从多个识别结果中确定准确度高于其它识别结果的识别结果(为了后续表述的方便，本实施例中称多个识别结果中准确度高于其它识别结果的识别结果为最准确的识别结果)，将确定的最准确的识别结果作为图像中文本的识别结果。由于在从多个识别结果中确定最准确的识别结果时结合了能够表征在图像中待识别文本周围的信息的图像特征信息，那么识别结果中包括图像特征信息的识别结果就可以被识别出来，因此可以提高从多个识别结果中确定最准确的识别结果的准确度，即可以得到精确的文本识别结果。

在一种可能的实施方式中，所述识别结果的语义信息包括：所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。

本方案中的语义信息包括了识别结果中的命名实体信息，使得本方案中获取到的识别结果中的语义信息比较精确。

在一种可能的实施方式中，所述获取所述图像的特征信息，包括：获取所述图像包括的内容在所述图像中的布局特征信息；获取所述待识别文本在所述图像中的位置特征信息；根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息。

本方案提供了获取图像的特征信息的一种具体实现，本方案得到的图像的特征信息能够表征图像中待识别文本周围的信息，进而可以辅助基于各识别结果的语义信息从各识别结果中确定最准确的识别结果的准确度。

在一种可能的实施方式中，所述根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息，包括：融合所述布局特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的初选特征信息；对所述图像的初选特征信息进行池化处理，得到所述图像的预选特征信息；合并所述图像的预选特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的特征信息。

本方案中提供了根据布局特征信息和待识别文本在图像中的位置特征信息，获取图像的特征信息的一种具体实现。

在一种可能的实施方式中，所述根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定目标识别结果，包括：将所述图像的特征信息以及各所述识别结果的语义信息作为基于注意力机制的神经网络模型的输入，经基于注意力机制的神经网络算法后输出目标标签，所述目标标签指示各所述识别结果为所述目标识别结果的概率；根据所述目标标签与各预设标签之间的相似度，从所述多个识别结果中确定所述待识别文本的目标识别结果，其中，每个预设标签对应一种识别方法得到的识别结果。

本方案中提供了根据图像的特征信息以及多个识别结果的语义信息，从多个识别结果中确定目标识别结果的一种具体实现。本方案可以提高从各识别结果中确定最准确的识别结果的准确度。

在一种可能的实施方式中，所述识别结果的语义信息是基于第一机器学习模型获取的；在所述获取所述多个识别结果的语义信息之前，还包括：获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。可选地，训练所述第一机器学习模型所采用的损失函数包括第一损失函数与第二损失函数，包括：所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数，所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。

本方案中训练第一机器学习模型的方法，可以使得得到的第一机器学习模型具有获取到识别结果的命名实体信息和包括的各词之间的语义关联信息的能力。

在一种可能的实施方式中，所述图像包括的内容在所述图像中的布局特征信息是基于第二机器学习模型得到的，所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络：卷积子网络、空洞卷积子网络、可变形卷积子网络。

本方案可以提高获取到的图像包括的内容在所述图像中的布局特征信息的准确度，进而提高从各识别结果中确定最准确的识别结果的准确度。

在一种可能的实施方式中，所述待识别文本在所述图像中的位置特征信息是基于第三机器学习模型得到的，所述第三机器学习模型所对应的神经网络包括：卷积子网络，可选地，所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。

本方案中卷积子网络的使用可以得到比较准确的待识别文本在所述图像中的位置特征信息。在所述第三机器学习模型所对应的神经网络包括空间金字塔池化子网络时，还可实现所述图像包括的内容在所述图像中的布局特征信息和所述待识别文本在所述图像中的位置特征信息的正常融合。

第二方面，本申请实施例提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或者第一方面任一可能的实施方式中所述的方法。

第三方面，本申请实施例提供一种识别图像中文本的***，包括第一设备和第二设备；

所述第一设备用于：向所述第二设备发送至少一个机器学习模型；

所述第二设备用于：

根据多种识别方法，获取图像中待识别文本的多个识别结果；

基于多个机器学习模型，获取各所述识别结果的语义信息、获取所述图像的特征信息，以及根据所述特征信息和所述语义信息从所述多个识别结果中确定目标识别结果；所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息，所述多个机器学习模型包括所述指示至少一个机器学习模型。

在一种可能的实施方式中，所述多个机器学习模型包括第一机器学习模型；所述第二设备具体用于：根据所述第一机器学习模型，获取各所述识别结果的语义信息；所述识别结果的语义信息包括：所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。

在一种可能的实施方式中，所述多个机器学习模型包括第二机器学习模型和第三机器学习模型；所述第二设备具体用于：根据所述第二机器学习模型，获取所述图像包括的内容在所述图像中的布局特征信息；根据所述第三机器学习模型，获取所述待识别文本在所述图像中的位置特征信息；根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息。

在一种可能的实施方式中，所述第二设备在用于根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息时，具体用于：融合所述布局特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的初选特征信息；对所述图像的初选特征信息进行池化处理，得到所述图像的预选特征信息；合并所述图像的预选特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的特征信息。

在一种可能的实施方式中，所述多个机器学习模型中还包括：基于注意力机制的神经网络模型；所述第二设备具体用于：将所述图像的特征信息以及各所述识别结果的语义信息作为基于注意力机制的神经网络模型的输入，经基于注意力机制的神经网络算法后输出目标标签，所述目标标签指示各所述识别结果为所述目标识别结果的概率；根据所述目标标签与各预设标签之间的相似度，从所述多个识别结果中确定所述待识别文本的目标识别结果，其中，每个预设标签对应一种识别方法得到的识别结果。

在一种可能的实施方式中，所述至少一个机器学习模型包括所述第一机器学习模型，在所述第一设备向所述第二设备发送第一机器学习模型之前，所述第一设备还用于：获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。

在一种可能的实施方式中，所述至少一个机器学习模型中不包括所述第一机器学习模型，在所述第二设备获取各所述识别结果的语义信息之前，所述第二设备还用于：获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。

在一种可能的实施方式中，所述第一设备训练所述第一机器学习模型时所采用的损失函数包括第一损失函数与第二损失函数；所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数，所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。

在一种可能的实施方式中，所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络：卷积子网络、空洞卷积子网络、可变形卷积子网络。

在一种可能的实施方式中，所述第三机器学习模型所对应的神经网络包括：卷积子网络。

在一种可能的实施方式中，所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。

在一种可能的实施方式中，所述第一设备为本地服务器或云服务器，所述第二设备为终端设备；或者，所述第一设备为本地服务器，所述第二设备为云服务器。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面或者第一方面任一可能的实施方式中所述的方法。

本申请中，采用多种方法得到多个识别结果后，根据各识别结果的语义信息和能够表征在图像中待识别文本周围的信息的图像特征信息，从多个识别结果中确定最准确的识别结果，将确定的最准确的识别结果作为图像中文本的识别结果。由于在从多个识别结果中确定最准确的识别结果时结合了能够表征在图像中待识别文本周围的信息的图像特征信息，那么识别结果中包括图像特征信息的识别结果就可以被识别出来，因此可以提高从多个识别结果中确定最准确的识别结果的准确度，即可以得到精确的文本识别结果。

附图说明

图1为本申请实施例提供的***架构图；

图2为本申请实施例提供的图像中文本的识别方法的流程图；

图3为本申请实施例提供的包括待识别文本的图像的示意图；

图4为本申请实施例提供的获取各识别结果的编码序列的一种过程示意图；

图5A为本申请实施例提供的自注意力机制的残差神经网络的示意图；

图5B为本申请实施例提供的获取各识别结果的语义信息的过程示意图；

图6为本申请实施例提供的标准卷积和空洞卷积的对比图；

图7A为本申请实施例提供的获取图像的特征信息的过程示意图；

图7B为本申请实施例提供的获取图像的特征信息的神经网络示意图；

图8为本申请实施例提供的根据图像的特征信息以及多个识别结果的语义信息确定待识别文本的目标识别结果的一种过程示意图；

图9为本申请实施例提供的识别图像中的文本的过程示意图；

图10为本申请实施例提供的图像中文本的识别装置的示意图一；

图11为本申请实施例提供的图像中文本的识别装置的示意图二；

图12为本申请实施例提供的图像中文本的识别装置的示意图三；

图13为本申请实施例的电子设备的一种实现方式的示意性框图；

图14为本申请实施例提供的识别图像中文本的***的示意性框图。

具体实施方式

首先对本申请涉及的要素进行说明。

1、命名实体(named entity，简称NE)：命名实体是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的命名实体还包括数字、日期、货币、地址等等。

2、在机器学习领域中，比较通用一种技术为通过大量的训练样本训练得到机器学习模型后使用机器学习模型对待学习对象进行学习，以得到机器学习结果。其中，机器学习结果比如可为待学习对象的类别、待学习对象的语音识别结果、待学习对象的翻译结果、待学习对象的人脸识别结果、待学习对象的语义信息、待学习对象的图像特征信息等等。在使用机器学习模型时，一种方式中，服务器可从终端设备获取待学习对象，根据机器学习模型对待学习对象进行学习，得到机器学习结果；可选地，可将机器学习结果发送至终端设备以向用户显示；其中，机器学习模型可以是服务器训练得到的，还可是从其它的服务器中接收到的(比如本地服务器从云服务器中获取)。另一种方式中，服务器将机器学习模型发送至终端设备，以使终端设备根据机器学习模型对待学习对象进行学习，得到机器学习结果。其中，服务器可为云服务器或本地服务器。

其中，本实施例中所涉及的机器学习模型包括机器学习网络以及机器学习网络的参数。比如，在机器学习网络为神经网络时，神经网络的参数可包括各相邻层神经元之间的连接权重和/或滤波器等。

上述机器学习过程所涉及的***架构如图1所示，参见图1，该***架构包括服务器和终端设备。服务器可包括本地服务器和云服务器。

下面采用具体的实施例对本申请所涉及的图像中文本的识别方法进行说明。

图2为本申请实施例提供的图像中文本的识别方法的流程图，本实施例的执行主体可为服务器或者终端设备，服务器可为云服务器或者本地服务器。参见图2，本实施例的方法包括：

步骤S201、根据多种识别方法，得到图像中待识别文本的多个识别结果。

即采用多种识别方法对图像中的待识别文本进行识别，得到图像中待识别文本的多个识别结果。其中，多种识别方法可包括如下但不限于如下的至少两项：基于单字符的识别方法，基于深度学习的识别方法，基于模板匹配的识别方法，基于行识别的识别方法。

不同的识别方法在不同的场景下对图像中文本的识别精确度不同，因此，为了获取到图像中待识别文本的准确识别结果，可先采用多种识别方法得到多个识别结果，然后从多个识别结果中确定最准确的识别结果，以提高对图像中文本的识别准确度。

示例性地，图像如图3所示，图像中待识别文本为图3中圈出的文本“合同到期日为2019年10月1日”，分别采用识别方法1、识别方法2和识别方法3对图像中待识别文本进行识别。那么采用识别方法1得到的识别结果1可为：合同到期日为2019年10月1日，采用识别方法2得到的识别结果2可为：|合同到期日为2019年10月1日，采用识别方法3得到的识别结果3可为：合同到期口为2019年10月1口。

步骤S202、获取各识别结果的语义信息。

在一种方式中，可通过a1～a2所述的方法获取各识别结果的语义信息：

a1、对各识别结果进行词嵌入编码(word embedding)，得到各识别结果的编码序列。其中，编码序列包括多个向量。

其中，对识别结果进行词嵌入编码，得到该识别结果的编码序列的一种具体实现可包括a11～a13：

a11、对识别结果进行分词。

其中，分词方法可包括目前通用的分词方法。

a12、获取识别结果包括的各词语对应的词向量。

在一种方式中，可采用onehot编码将该识别结果被分词后各词语中的每个词语转化成数字向量，得到各词语对应的数字向量；将各词语对应的数字向量乘以预训练好的词向量矩阵，得到各词语对应的词向量。其中，预训练好的词向量矩阵中包括V个词对应的词向量，每一行的元素组成一个词的词向量，V为词典的大小。

a13、根据识别结果包括的各词语的词向量和第四机器学习模型，得到该识别结果的编码序列。

其中，第四机器学习模型可为双向神经网络模型，此时可将识别结果包括的各词语的词向量作为双向神经网络模型的输入，基于双向神经网络模型所对应的算法，学习各词语在该识别结果中的语义信息，得到该识别结果的编码序列，该识别结果的编码序列包括各词语的包含语义信息的词向量。其中，双向神经网络模型所对应的双向神经网络可为双向长短时记忆(Bidirectional-long short term memory，简称Bi-LSTM)神经网络。

在本实施例的执行主体为终端设备时，本实施的方法还包括：终端设备接收来自服务器的第四机器学习模型。在本实施例的执行主体为本地服务器时，本实施的方法还包括：本地服务器训练得到第四机器学习模型或者本地服务器接收来自云服务器的第四机器学习模型。在本实施例的执行主体为云服务器时，本实施的方法还包括：云服务器训练得到第四机器学习模型或者云服务器接收来自其它服务器的第四机器学习模型。

可以理解的是，上述步骤a11～a13对识别结果进行词嵌入编码，得到识别结果的编码序列的一种具体实现，还可包括其它方式的具体实现，本实施例中并不限制。

可选地，在对各识别结果进行词嵌入编码，得到各识别结果的编码序列之前，还可包括如下的步骤：识别各识别结果的语言，比如为中文或者英文。相应地，采用与该语言对应的词嵌入编码方式对各识别结果进行嵌入编码，得到各识别结果的编码序列。其中，可通过N-gram的Naive Bayes模型识别各识别结果的语言。

可选地，在对各识别结果进行词嵌入编码，得到各识别结果的编码序列之前，还可包括如下的步骤：过滤各识别结果中的异常字符。比如识别结果的语言为中文，识别结果中包括了一个希腊字符，该希腊字符即为异常字符。

综上，对各识别结果进行词嵌入编码，得到各识别结果的编码序列的一种过程示意图可如图4所示：对于每个识别结果，依次进行语言检测、异常字符过滤、词嵌入编码。

a2、根据各识别结果的编码序列和第一机器学习模型，得到各识别结果的语义信息。

对于每个识别结果，将该识别结果的编码序列作为第一机器学习模型的输入，基于第一机器学习模型所对应的算法，输出第一向量序列，第一向量序列包括多个向量，用于表征该识别结果的语义信息。每个识别结果的语义信息可包括该识别结果中的命名实体信息以及识别结果中所包括的词之间的语义关联信息。其中，命名实体信息至少包括识别结果中命名实体所在的位置(比如识别结果中的第3个词为命名实体)，还可包括命名实体的类别(比如是人名或者地名)等其它信息。

在识别结果的语义信息包括该识别结果中的命名实体信息以及识别结果中所包括的词之间的语义关联信息的情况下，第一机器学习模型为能够学习到文本中的命名实体信息以及文本中所包括的词之间的语义关联信息的机器学习模型。其中，第一机器学习模型可为基于自注意力(Self-Attention)机制的残差神经网络模型，相应地，第一机器学习模型所对应的神经网络为基于注意力机制的残差神经网络，第一机器学习模型所对应的算法为基于注意力机制的残差神经网络算法。在一种方式中，第一机器学习模型所对应的神经网络包括N份基于自注意力机制的残差神经网络，N为正整数，可选地，N＝3；每份基于自注意力机制的残差神经网络依次包括自注意力子网络(Self-Attention网络)、层归一化子网络(Layer Normalization子层)、前馈网络(Feed Froward网络子网络)以及层归一化子网络，具体可如图5A所示。其中，前馈网络可为卷积神经网络(convolutional neuralnetworks，简称CNN)。

根据各识别结果的编码序列和第一机器学习模型得到各识别结果的语义信息的过程示意图可如图5B所示。

在本实施例的执行主体为终端设备时，本实施的方法还包括：终端设备接收来自服务器的第一机器学习模型。在本实施例的执行主体为本地服务器时，本实施的方法还包括：本地服务器训练得到第一机器学习模型或者本地服务器接收来自云服务器的第一机器学习模型。在本实施例的执行主体为云服务器时，本实施的方法还包括：云服务器训练得到第一机器学习模型或者云服务器接收来自其它服务器的第一机器学习模型。

下面对服务器训练第一机器学习模型方法进行说明。

第一机器学习模型的获取可通过如下的b1～b2实现：

b1、获取多个第一训练样本以及多个第一训练文本的标签，第一训练文本的标签用于表征第一训练样本对应的命名实体信息。

b2、根据多个第一训练样本、多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本以及各被掩埋的信息，训练第一机器学习模型。

对于每个第一训练样本，将第一训练样本采用上述“对识别结果进行词嵌入编码，得到识别结果的编码序列”的方法进行编码，得到第一训练样本的编码序列。

对于每个第一训练样本，将第一训练样本的部分信息掩埋，得到第二训练样本。对于每个第二训练样本，将第二训练样本采用上述“对识别结果进行词嵌入编码，得到识别结果的编码序列”的方法进行编码，得到第二训练样本的编码序列。

在第一机器学习模型的训练过程中，可通过M次学习得到第一机器模型；其中，M可以是预设好的，还可以是根据训练过程中损失函数的值确定的。每次学习过程存在两次输入：第一次输入为第一训练样本的编码序列，第二次输入为第一训练样本被掩埋部分信息后得到的第二训练样本的编码序列。下面以第m次学习为例，对第一机器学习模型的训练进行说明，其中，m＝1,…,M：

b21、将第m次学习所使用的第一训练样本m的编码序列作为第m-1次学习得到的机器学习模型的输入，以及将第一训练样本m的标签作为第m次学习的第一期望输出。第一训练样本m的编码序列输入至第m-1次学习得到的机器学习模型后，经第m-1次学习得到的机器学习模型所对应的算法得到一输出，该输出称为第m次学习的第一实际输出，根据第一实际输出、第一期望输出和第一损失函数得到第一损失函数值。也就是说，第一误差值为在期望输出为相应第一训练样本的标签时所对应的误差值。

b22、将第一训练样本m的部分信息被掩埋后得到的第二训练样本m的编码序列作为第m-1次学习得到的机器学习模型的输入，以及将第一训练样本m被掩埋的信息作为第m次学习的第二期望输出。第二训练样本m的编码序列输入至第m-1次学习得到的机器学习模型后，经第m-1次学习得到的机器学习模型所对应的算法得到一输出，该输出称为第m次学习的第二实际输出，根据第二实际输出、第二期望输出和第二损失函数得到第二损失函数值。也就是说，第二误差值为期望输出为指示相应第一训练样本中被掩埋的信息时所对应的误差值。

b23、获取第一损失函数值和第二损失函数值的和，根据该和更新第m-1次学习得到的机器学习模型所包括的参数，得到新的机器学习模型，该新的机器学习模型为第m次学习得到的机器学习模型。

即训练过程中所采用的损失函数L＝L_NER+L_Mask，L_NER为第一损失函数，L_Mask为第二损失函数。

b24、在m不等于M的情况下，将第m次学习得到的机器学习模型作为新的第m-1次学习得到的机器学习模型，将第m+1次学习所使用的第一训练样本m+1作为新的第一训练样本m，重复执行b21～b24，直至m＝M，得到第一机器学习模型。在m等于M的情况下，第m次学习得到的机器学习模型即为第一机器学习模型。

可以理解的是，训练过程中每次学习得到的机器学习模型所对应的神经网络的结构与第一机器学习模型所对应的神经网络的结构相同，所对应的算法和第一机器学习模型所对应的算法相同。在第一机器学习模型所对应的神经网络为基于注意力机制的残差神经网络，第一机器学习模型所对应的算法为基于注意力机制的残差神经网络算法时，训练过程中每次学习使用的机器学习模型所对应的神经网络为该基于注意力机制的残差神经网络，所对应的算法为该基于注意力机制的残差神经网络算法。

根据步骤b21～b24的阐述可知，在第一机器学习模型的训练过程中，基于如下的两个任务进行联合训练：(1)用掩埋(Mask)词的方法对被掩埋的词进行预测，使得第一机器学习模型具有学习到文本包括的词之间的语义关联关系的能力；(2)获取文本中的命名实体信息，使得第一机器学习模型具有对文本中命名实体的识别能力。

也就是说本实施例中的用于获取识别结果的语义信息的第一机器学习模型既具有学习到文本包括的词之间的语义关联关系的能力，还具有对文本中命名实体的识别能力，使得得到的识别结果的语义信息包括：识别结果中的命名实体信息以及识别结果中所包括的词之间的语义关联信息；从而可以避免目前用于获取文本的语义信息的机器学习模型只能学习到文本包括的词之间的语义关联关系的能力且过于关注语义连贯造成的将命名实体的语义识别错误的现象的发生。例如：“便携”在某些特定的文本中的含义为“笔记本”这一命名实体，而不是“方便”这一含义，本实施例的第一机器学习模型可避免将特定文本中“便携”识别为“方便”得到错误的文本语义信息。也就是说，本实施例的第一机器学习模型可以提高获取识别结果的语义信息的准确度，进而提高了后续从待识别文本的多个识别结果中确定最准确的识别结果的准确度。

步骤S203、获取图像的特征信息，图像的特征信息能够表征图像中待识别文本周围的信息。

在一种具体的实现中，获取图像的特征信息，可通过如下的c1～c3实现：

c1、获取图像包括的内容在图像中的布局特征信息。

在一种方案中，获取图像包括的内容在图像中的布局特征信息可包括：获取图像的信息，将图像的信息作为第二机器学习模型的输入，采用第二机器学习模型对应的算法学习图像，得到第二向量序列，第二向量序列表征图像包括的内容在图像中的布局特征信息。其中，图像的信息可为该图像的像素值，还可为对该图像的像素值进行处理后的其它信息，比如图像中每个像素的局部二值模式(Local Binary Patterns，简称LBP)值等等。

其中，第二机器学习模型所对应的神经网络可依次包括：卷积子网络、空洞卷积子网络和可变形卷积子网络。卷积子网络可包括多个卷积模块(比如3个卷积模块)，卷积模块可包括卷积层，还可包括如下中的至少一项；池化层、激活层、采样层。空洞卷积子网络可包括多个空洞卷积模块(比如2个空洞卷积模块)，空洞卷积模块可包括空洞卷积层，还可包括如下中的至少一项：激活层、采样层；变形卷积子网络可包括一个或多个可变形卷积模块，可变形卷积模块可包括可变形卷积层，还可包括如下中的至少一项：池化层、激活层、采样层。

空洞卷积可以增大卷积的感受野(Receptive Field)，以能输出图像中较大范围内的信息，减少卷积过程中图像中信息的缺失。其中，在卷积神经网络中，感受野是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。

图6为标准卷积和空洞卷积的对比图，图6中的(a)为标准卷积示意图，标准卷积的卷积核尺寸为3×3、卷积感受野为3×3(阴影部分)。图6中的(b)图为扩张率为2的空洞卷积示意图，卷积核尺寸为3×3、卷积感受野为7×7(阴影部分)。对比(a)和(b)可知，空洞卷积的感受野大于标准卷积的感受野，使得每个输出都能包括图像中较大范围的信息。

可变形卷积是指卷积核在每一个元素上额外增加了一个方向参数—位移量，这样卷积核就能在训练过程中扩展到很大的范围，使得图像的兴趣区域可变，适用于具有几何形变的图像的特征的获取，比如文本图像的特征的获取。

也就是说，在第二机器学习模型所对应的神经网络包括空洞卷积子网络和/或可变形卷积子网络时，可以使得获取到的图像包括的内容在图像中的布局特征信息全面且准确。

可以理解的是，第二机器学习模型也是事先训练好的，第二机器学习模型具有学习图像中包括的各内容在该图像中的布局特征信息的能力。

在本实施例的执行主体为终端设备时，本实施的方法还包括：终端设备接收来自服务器的第二机器学习模型。在本实施例的执行主体为本地服务器时，本实施的方法还包括：本地服务器训练得到第二机器学习模型或者本地服务器接收来自云服务器的第二机器学习模型。在本实施例的执行主体为云服务器时，本实施的方法还包括：云服务器训练得到第二机器学习模型或者云服务器接收来自其它服务器的第二机器学习模型。

c2、获取待识别文本在图像中的位置特征信息。

其中，获取待识别文本在图像中的位置特征信息可包括：将待识别文本在图像中的位置信息作为第三机器学习模型的输入，采用第三机器学习模型对应的算法学习待识别文本在图像中的位置信息，得到第三向量序列，第三向量序列表征待识别文本在图像中的位置特征信息。其中，待识别文本在图像中的位置信息包括但不限于如下中的至少一项：(1)待识别文本所占的区域的关键点坐标；其中，在待识别文本所占的区域为矩形区域时，该矩形区域的四个顶点均为关键点，在待识别文本所占的区域为非矩形区域时，可将待识别文本所占的区域分成若干个矩形，该若干个矩形的顶点均为关键点；(2)待识别文本所占的区域的中心位置坐标信息；(3)待识别文本所占的区域的中心位置与图像的中心位置之间的距离信息；(4)图像的中心位置信息；(5)待识别文本与图片中待识别文本周围的内容之间的距离信息。

可选地，第三机器学习模型所对应的神经网络可包括：卷积子网络(也就是标准卷积子层)、空间金字塔池化(spatial pyramid pooling,简称SPP)子网络。卷积子网络可包括多个卷积模块。其中，SPP具有如下的特征：不管输入尺寸是怎样，SPP可以产生固定大小的输出，以控制第三向量序列中的向量的分量的数量和第二向量序列中的向量的分量的数量相同，便于后续布局特征信息和待识别文本在图像中的位置特征信息的融合。

可以理解的是，第三机器学习模型也是服务器事先训练好的，第三机器学习模型具有学习文本在图像中的位置特征信息的能力。

在本实施例的执行主体为终端设备时，本实施的方法还包括：终端设备接收来自服务器的第三机器学习模型。在本实施例的执行主体为本地服务器时，本实施的方法还包括：本地服务器训练得到第三机器学习模型或者本地服务器接收来自云服务器的第三机器学习模型。在本实施例的执行主体为云服务器时，本实施的方法还包括：云服务器训练得到第三机器学习模型或者云服务器接收来自其它服务器的第三机器学习模型。

c3、根据布局特征信息和待识别文本在图像中的位置特征信息，得到图像的特征信息。

其中，根据布局特征信息和待识别文本在图像中的位置特征信息，得到图像的特征信息，可包括：

c31、融合布局特征信息和待识别文本在图像中的位置特征信息，得到图像的初选特征信息；

其中，融合布局特征信息和待识别文本在图像中的位置特征信息，得到图像的初选特征信息包括：将第二向量序列中的每个向量和第三向量序列中的每个向量中的对应向量相加，得到第四向量序列，第二向量序列用于表征布局特征信息，第三向量序列用于表征待识别文本在图像中的位置特征信息。

本实施例中两个向量相加的含义为两个向量中的第一向量包括的第q个分量与第二向量包括的第q个分量相加，q＝1,2……Q。Q为一个向量包括的分量数量。

c32、对图像的初选特征信息进行池化处理，得到图像的预选特征信息。

其中，可对图像的初选特征信息进行平均池化处理，得到图像的预选特征信息。也就是对第四向量序列进行平均池化，得到第五向量序列。

c33、合并图像的预选特征信息和待识别文本在图像中的位置特征信息，得到图像的特征信息。

也就是将第五向量序列中的每个向量与第三向量序列中的对应向量合并，得到第五向量序列，第五向量序列用于表征图像的特征信息。

本实施例中的两个向量合并的含义为将两个向量中的分量组成一个向量。比如，向量1包括看k1个分量，向量2包括k2个分量，向量1和向量2合并后得到一个包括k1+k2个分量的向量。

通过c1～c3的阐述可知，本实施例中将图像包括的内容在图像中的布局特征信息和待识别文本在图像中的位置特征信息融合，并合并后得到图像的特征信息能够表征图像中位于待识别文本周围的内容信息。

综上，获取图像的特征信息的过程示意图可如图7A所示，获取图像的特征信息的神经网络示意图可如图7B所示。参见图7A，在获取图像的特征信息时，根据图像的整体信息获取图像包括的内容在图像中的布局特征信息，根据待识别文本在图像中的位置信息获取待识别文本在图像中的位置特征信息，根据图像包括的内容在图像中的布局特征信息以及待识别文本在图像中的位置特征信息，最终得到图像的特征信息。

步骤S204、根据图像的特征信息以及多个识别结果的语义信息，从多个识别结果中确定待识别文本的目标识别结果。

在一种方案中，根据图像的特征信息以及多个识别结果的语义信息，从多个识别结果中确定目标识别结果，可通过d1和d2实现：

d1、将图像的特征信息以及多个识别结果的语义信息作为基于注意力机制的神经网络模型的输入，采用基于注意力机制的神经网络算法得到目标标签，目标标签用于指示各识别方法得到的识别结果为目标识别结果的概率。

在一种具体的实现中，将图像的特征信息以及各识别结果的语义信息作为基于注意力机制的神经网络模型的输入，经过基于注意力机制的神经网络算法后，输出一目标标签，目标标签可用于指示各识别方法得到的各识别结果为目标识别结果的概率。本实施例中的目标识别结果是指多个识别结果中最准确的识别结果，因此，目标标签可用于指示各识别方法得到的各识别结果为最准确的识别结果的概率。其中，基于注意力机制的神经网络算法可为基于注意力机制的LSTM神经网络算法。

目标标签可为一个向量，该向量的分量的数量与采用的识别方法的数量相同，也就是与识别结果的数量相同。该向量的每个分量对应一种识别方法得到的识别结果。比如，目标标签包括3个分量，第1个分量对应识别方法1得到的识别结果，第2个分量对应识别方法2得到的识别结果，第3个分量对应识别方法3得到的识别结果，那么在目标标签为(0.9,0.05,0.05)时，则目标标签指示识别方法1得到的识别结果为最准确的识别结果的概率为0.9、识别方法2得到的识别结果为最准确的识别结果的概率为0.05以及识别方法3得到的识别结果为最准确的识别结果的概率为0.05。

由于图像的特征信息能够表征图像中位于待识别文本周围的信息，若某个识别结果中包括待识别文本的周围信息，那么图像的特征信息的引入可确定该识别结果中包含不是待识别文本的信息，该识别结果可能就不会被确定为最准确的识别结果。也就是说，本实施例中结合图像的特征信息和各识别结果的语义信息，通过基于注意力机制的神经网络模型从多个识别结果中确定最准确的识别结果，可提高确定的最准确的识别结果的准确度。

示例性地，继续参见图3，待识别文本为“合同到期日为2019年10月1日”，“合同到期日为2019年10月1日”位于一表格中。分别采用识别方法1、识别方法2和识别方法3对图像中待识别文本进行识别。采用识别方法1得到的识别结果1为：合同到期日为2019年10月1日，采用识别方法2得到的识别结果2为：|合同到期日为2019年10月1日，采用识别方法3得到的识别结果3为：合同到期口为2019年10月1口。在将图像的特征信息引入之后，可知待识别文本“合同到期日为2019年10月1日”的周围信息中包括表格，那么可知识别结果2“|合同到期日为2019年10月1日”前的“|”为表格的边框，在存在识别结果1“合同到期日为2019年10月1日”时，可知识别结果2不是三个识别结果中最准确的识别结果。

对于基于注意力机制的神经网络模型的获取，在本实施例的执行主体为终端设备时，本实施的方法还包括：终端设备接收来自服务器的基于注意力机制的神经网络模型。在本实施例的执行主体为本地服务器时，本实施的方法还包括：本地服务器训练得到基于注意力机制的神经网络模型或者本地服务器接收来自云服务器的基于注意力机制的神经网络模型。在本实施例的执行主体为云服务器时，本实施的方法还包括：云服务器训练得到基于注意力机制的神经网络模型或者云服务器接收来自其它服务器的基于注意力机制的神经网络模型。

下面对服务器获取上述基于注意力机制的神经网络模型的一种方法进行说明。

其中，基于注意力机制的神经网络模型为通过大量的训练样本训练好的；每个训练样本均具有标签，训练样本的标签指示各识别方法对训练样本识别后得到的各识别结果为最准确的识别结果的概率。训练样本的标签为一向量，向量的分量的数目与识别方法的数目相同，每个分量与一种识别方法得到的识别结果对应。由于各识别方法对训练样本识别后的识别结果中最准确的识别结果是已知的，因此，若已知各识别方法中第一识别方法对训练样本识别后得到的识别结果为最准确的识别结果，则第一识别方法得到的识别结果为最准确的识别结果的概率为1，其它识别方法得到的识别结果为最准确的识别结果的概率为0，那么在存在三种识别方法且标签的第一个分量与第一识别方法得到的识别结果对应时，则该训练样本的标签可为(1,0,0)。每个训练样本按照步骤S201～步骤S203得到该训练样本对应的各识别结果的语义信息和训练样本所对应的图像的特征信息。根据大量训练样本对应的各识别结果的语义信息、训练样本所对应的图像的特征信息以及大量训练样本的标签，采用基于注意力机制的神经网络算法，训练得到基于注意力机制的神经网络模型。

d2、根据目标标签与各预设标签之间的相似度，从多个识别结果中确定待识别文本的目标识别结果，其中，每个预设标签对应一种识别方法得到的识别结果。

在一种方式中，根据目标标签与各预设标签之间的相似度，从多个识别结果中确定待识别文本的目标识别结果，包括：确定目标标签与各预设标签之间的最大相似度大于预设相似度；确定与目标标签的相似度最大的预设标签所对应的识别方法得到的识别结果为目标识别结果。其中，可通过计算目标标签与预设标签之间的余弦相似度得到相似度，还可通过计算目标标签与预设标签之间欧氏距离得到相似度，本实施例中并不限制。

其中，预设标签可为一个向量，该向量中分量的数量与采用的识别方法的数量相同，也就是与识别结果的数量相同。预设标签的数量也与识别方法的数量或者识别结果的数量相同，且每个预设标签对应一种识别方法得到的识别结果。其中，预设标签对应一种识别方法得到的识别结果的含义为：若预设标签指示某一识别方法得到的识别结果为最准确的识别结果的概率为1，则该预设标签与该识别方法得到的识别结果对应。

示例性地，识别图像中文本的方法具有3种：识别方法a、识别方法b和识别方法c；3个预设标签可分别为(1，0，0)、(0，1，0)以及(0，0，1)。(1，0，0)指示识别方法a得到的识别结果为最准确的识别结果的概率为1，即(1，0，0)与识别方法a得到的识别结果对应，(0，1，0)指示识别方法b的得到的识别结果为最准确的识别结果的概率为1，即(0，1，0)与识别方法b的得到的识别结果对应，(0，0，1)指示识别方法c的得到的识别结果为最准确的识别结果的概率为1，即(0，0，1)与识别方法c的得到的识别结果对应。

可以理解的是，用于训练基于注意力机制的神经网络模型的大量训练样本中训练样本的标签均为预设标签。

综上，根据图像的特征信息以及多个识别结果的语义信息，从多个识别结果中确定待识别文本的目标识别结果的一种过程示意图可如图8所示。

根据步骤S201～步骤S204中的阐述，本实施例提供的识别图像中的文本的过程示意图可如图9所示。

本实施例的图像中文本的识别方法，采用多种方法得到多个识别结果后，通过具有识别命名实体信息能力的机器学习模型获取到各识别结果准确的语义信息，并结合能够表征在图像中待识别文本周围的信息的图像特征信息，从多个识别结果中确定最准确的识别结果，将确定的最准确的识别结果作为图像中文本的识别结果。由于在从多个识别结果中确定最准确的识别结果时结合了能够表征在图像中待识别文本周围的信息的图像特征信息，提高了从多个识别结果中确定最准确的识别结果的准确度，也就是说本实施的方法可以得到图像中文本的准确识别结果。

以上对本申请涉及的图像中文本的识别方法进行了说明，下面对本申请涉及的装置和***进行说明。

图10为本申请实施例提供的图像中文本的识别装置的示意图一，参见图10，本实施例的装置包括：识别模块1001和确定模块1002。

所述识别模块1001，用于根据多种识别方法，获取图像中待识别文本的多个识别结果。

所述确定模块1002，用于获取各所述识别结果的语义信息；以及获取所述图像的特征信息，所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息；以及根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定所述待识别文本的目标识别结果。

在一种可选的实施方式中，所述识别结果的语义信息包括：所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。

在一种可选的实施方式中，所述确定模块1002具体用于：

获取所述图像包括的内容在所述图像中的布局特征信息；

获取所述待识别文本在所述图像中的位置特征信息；

根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息。

在一种可选的实施方式中，所述确定模块1002具体用于：

融合所述布局特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的初选特征信息；

对所述图像的初选特征信息进行池化处理，得到所述图像的预选特征信息；

合并所述图像的预选特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的特征信息。

在一种可选的实施方式中，所述图像包括的内容在所述图像中的布局特征信息是基于第二机器学习模型得到的，所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络：卷积子网络、空洞卷积子网络、可变形卷积子网络。

在一种可选的实施方式中，所述待识别文本在所述图像中的位置特征信息是基于第三机器学习模型得到的，所述第三机器学习模型所对应的神经网络包括：卷积子网络。

在一种可选的实施方式中，所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。

在一种可选的实施方式中，所述确定模块1002具体用于：

将所述图像的特征信息以及各所述识别结果的语义信息作为基于注意力机制的神经网络模型的输入，经基于注意力机制的神经网络算法后输出目标标签，所述目标标签指示各所述识别结果为所述目标识别结果的概率；

根据所述目标标签与各预设标签之间的相似度，从所述多个识别结果中确定所述待识别文本的目标识别结果，其中，每个预设标签对应一种识别方法得到的识别结果。

本实施例的装置，可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。本实施例中的装置可为终端设备或者服务器的全部或部分，其中，服务器可为云服务器或者本地服务器。

图11为本申请实施例提供的图像中文本的识别装置的示意图二，参见图11，本实施例的装置在图10所示的装置的基础上，还包括：收发模块1003。

图10所示的实施例中的识别结果的语义信息是基于第一机器学习模型获取的。

所述收发模块1003用于接收如下中的至少一项：所述第一机器学习模型、所述第二机器学习模型、所述第三机器学习模型、所述基于注意力机制的神经网络模型。

图12为本申请实施例提供的图像中文本的识别装置的示意图三，参见图12，本实施例的装置在图10或图11所示的装置的基础上，还包括：训练模块1004。

训练模块1004用于：训练得到如下中的至少一项：所述第一机器学习模型、第二机器学习模型、第三机器学习模型、基于注意力机制的神经网络模型。图10所示的实施例中的识别结果的语义信息是基于所述第一机器学习模型获取的。

在一种可选的实施方式中，训练模块1004具体用于：获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。

在一种可选的实施方式中，训练所述第一机器学习模型时所采用的损失函数包括第一损失函数与第二损失函数，包括：所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数，所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。

本实施例的装置，可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。本实施例中的装置可为服务器的全部或部分，其中，服务器可为云服务器或者本地服务器。

图13为本申请实施例的电子设备的一种实现方式的示意性框图。本实施例的电子设备可以是服务器或终端设备，也可以是支持服务器或终端设备实现上述方法的芯片、芯片***、或处理器等，还可以是支持实现上述方法的芯片、芯片***、或处理器等。该电子设备可用于实现上述方法实施例中描述的终端设备或服务器对应的方法，具体可以参见上述方法实施例中的说明。其中，服务器可为本地服务器或云服务器。

所述电子设备可以包括一个或多个处理器1301，所述处理器1301也可以称为处理单元，可以实现一定的控制功能。所述处理器1301可以是通用处理器或者专用处理器等。

在一种可选的设计中，处理器1301也可以存有指令和/或数据1303，所述指令和/或数据1303可以被所述处理器运行，使得所述电子设备执行上述方法实施例中描述的方法。

在另一种可选的设计中，处理器1301中可以包括用于实现接收和发送功能的收发单元。例如该收发单元可以是收发电路，或者是接口，或者是接口电路。用于实现接收和发送功能的收发电路、接口或接口电路可以是分开的，也可以集成在一起。上述收发电路、接口或接口电路可以用于代码/数据的读写，或者，上述收发电路、接口或接口电路可以用于信号的传输或传递。

可选的，所述电子设备中可以包括一个或多个存储器1302，其上可以存有指令1304，所述指令可在所述处理器上被运行，使得所述电子设备执行上述方法实施例中描述的方法。可选的，所述存储器中还可以存储有数据。可选的，处理器中也可以存储指令和/或数据。所述处理器和存储器可以单独设置，也可以集成在一起。例如，上述方法实施例中所描述的对应关系可以存储在存储器中，或者存储在处理器中。

可选的，所述电子设备还可以包括收发器1305和/或天线1306。所述处理器1301可以称为处理单元，对所述电子设备进行控制。所述收发器1305可以称为收发单元、收发机、收发电路或者收发器等，用于实现收发功能。

本实施例中描述的处理器和收发器可以用各种IC工艺技术来制造，例如互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor，NMOS)、P型金属氧化物半导体(positive channelmetal oxide semiconductor,PMOS)、双极结型晶体管(Bipolar Junction Transistor，BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。

应理解，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例中描述的电子设备的范围并不限于此，而且电子设备的结构可以不受图13的限制。本申请实施例中描述的电子设备可以是独立的设备或者可以是较大设备的一部分。

图14为本申请实施例提供的识别图像中文本的***的示意性框图。参见图14，本实施例中的***包括第一设备1401和第二设备1402；

所述第一设备1401用于：向所述第二设备1402发送至少一个机器学习模型；

所述第二设备1402用于：

在一种可选的实施方式中，所述多个机器学习模型包括第一机器学习模型；所述第二设备1402具体用于：根据所述第一机器学习模型，获取各所述识别结果的语义信息；所述识别结果的语义信息包括：所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。

在一种可选的实施方式中，所述多个机器学习模型包括第二机器学习模型和第三机器学习模型；所述第二设备1402具体用于：根据所述第二机器学习模型，获取所述图像包括的内容在所述图像中的布局特征信息；根据所述第三机器学习模型，获取所述待识别文本在所述图像中的位置特征信息；根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息。

在一种可选的实施方式中，所述第二设备1402在用于根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息时，具体用于：融合所述布局特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的初选特征信息；对所述图像的初选特征信息进行池化处理，得到所述图像的预选特征信息；合并所述图像的预选特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的特征信息。

在一种可选的实施方式中，所述多个机器学习模型中还包括：基于注意力机制的神经网络模型；所述第二设备1402具体用于：将所述图像的特征信息以及各所述识别结果的语义信息作为基于注意力机制的神经网络模型的输入，经基于注意力机制的神经网络算法后输出目标标签，所述目标标签指示各所述识别结果为所述目标识别结果的概率；根据所述目标标签与各预设标签之间的相似度，从所述多个识别结果中确定所述待识别文本的目标识别结果，其中，每个预设标签对应一种识别方法得到的识别结果。

在一种可选的实施方式中，所述至少一个机器学习模型包括所述第一机器学习模型，在所述第一设备1401向所述第二设备1402发送第一机器学习模型之前，所述第一设备1401还用于：获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。

在一种可选的实施方式中，所述第一设备1401训练所述第一机器学习模型时所采用的损失函数包括第一损失函数与第二损失函数；所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数，所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。

在一种可能的实施方式中，所述至少一个机器学习模型中不包括所述第一机器学习模型，在所述第二设备1402获取各所述识别结果的语义信息之前，所述第二设备还用于：获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。

在一种可选的实施方式中，所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络：卷积子网络、空洞卷积子网络、可变形卷积子网络。

在一种可选的实施方式中，所述第三机器学习模型所对应的神经网络包括：卷积子网络。

在一种可选的实施方式中，所述至少一个机器学习模型中包括所述第二机器学习模型，在所述第一设备1401向所述第二设备1402发送第二机器学习模型之前，所述第一设备1401还用于：训练所述第二机器学习模型。

在一种可选的实施方式中，所述至少一个机器学习模型中包括所述第三机器学习模型，在所述第一设备1401向所述第二设备1402发送第三机器学习模型之前，所述第一设备1401还用于：训练所述第三机器学习模型。

在一种可选的实施方式中，在所述第一设备1401向所述第二设备1402发送基于注意力机制的神经网络模型之前，所述第一设备1401还用于：训练所述基于注意力机制的神经网络模型。

在一种可选的实施方式中，所述第一设备1401为终端设备，所述第二设备1402为本地服务器或云服务器；或者，所述第一设备1401为本地服务器，所述第二设备1402为云服务器。

本实施例的***可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请还提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述任一方法实施例的功能。

本申请还提供了一种计算机程序产品，该计算机程序产品被计算机执行时实现上述任一方法实施例的功能。

在上述实施例使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

应理解，说明书通篇中提到的“实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各个实施例未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，在本申请中，“当…时”、“若”以及“如果”均指在某种客观情况下终端设备或者服务器会做出相应的处理，并非是限定时间，且也不要求终端设备或者服务器实现时一定要有判断的动作，也不意味着存在其它限定。

本申请中对于使用单数表示的元素旨在用于表示“一个或多个”，而并非表示“一个且仅一个”，除非有特别说明。本申请中，在没有特别说明的情况下，“至少一个”旨在用于表示“一个或者多个”，“多个”旨在用于表示“两个或两个以上”。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A可以是单数或者复数，B可以是单数或者复数。

字符“/”一般表示前后关联对象是一种“或”的关系。

本文中术语“……中的至少一个”或“……中的至少一种”，表示所列出的各项的全部或任意组合，例如，“A、B和C中的至少一种”，可以表示：单独存在A，单独存在B，单独存在C，同时存在A和B，同时存在B和C，同时存在A、B和C这六种情况，其中A可以是单数或者复数，B可以是单数或者复数，C可以是单数或者复数。

应理解，在本申请各实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

Claims

1.一种识别图像中文本的方法，其特征在于，包括：

获取各所述识别结果的语义信息；

获取所述图像的特征信息，所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息；

根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定所述待识别文本的目标识别结果；

所述根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定目标识别结果，包括：

2.根据权利要求1所述的方法，其特征在于，所述识别结果的语义信息包括：所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述图像的特征信息，包括：

获取所述图像包括的内容在所述图像中的布局特征信息；

获取所述待识别文本在所述图像中的位置特征信息；

4.根据权利要求3所述的方法，其特征在于，所述根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息，包括：

5.根据权利要求1～4任一项所述的方法，其特征在于，所述识别结果的语义信息是基于第一机器学习模型获取的；在所述获取各所述识别结果的语义信息之前，还包括：

获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；

根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。

6.根据权利要求5所述的方法，其特征在于，训练所述第一机器学习模型时所采用的损失函数包括第一损失函数与第二损失函数，包括：

所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数，所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。

7.根据权利要求3所述的方法，其特征在于，所述图像包括的内容在所述图像中的布局特征信息是基于第二机器学习模型得到的，所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络：卷积子网络、空洞卷积子网络、可变形卷积子网络。

8.根据权利要求3或7所述的方法，其特征在于，所述待识别文本在所述图像中的位置特征信息是基于第三机器学习模型得到的，所述第三机器学习模型所对应的神经网络包括：卷积子网络。

9.根据权利要求8所述的方法，其特征在于，所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

11.一种识别图像中文本的***，其特征在于，包括第一设备和第二设备；

所述第二设备用于：

基于多个机器学习模型，获取各所述识别结果的语义信息、获取所述图像的特征信息，以及根据所述特征信息和所述语义信息从所述多个识别结果中确定目标识别结果；所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息，所述多个机器学习模型包括所述至少一个机器学习模型；

所述多个机器学习模型中还包括：基于注意力机制的神经网络模型；所述第二设备具体用于：

12.根据权利要求11所述的***，其特征在于，所述多个机器学习模型包括第一机器学习模型；所述第二设备具体用于：

根据所述第一机器学习模型，获取各所述识别结果的语义信息；所述识别结果的语义信息包括：所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。

13.根据权利要求11或12所述的***，其特征在于，所述多个机器学习模型包括第二机器学习模型和第三机器学习模型；所述第二设备具体用于：

根据所述第二机器学习模型，获取所述图像包括的内容在所述图像中的布局特征信息；

根据所述第三机器学习模型，获取所述待识别文本在所述图像中的位置特征信息；

14.根据权利要求13所述的***，其特征在于，所述第二设备在用于根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息时，具体用于：

15.根据权利要求12所述的***，其特征在于，所述至少一个机器学习模型包括所述第一机器学习模型，在所述第一设备向所述第二设备发送第一机器学习模型之前，所述第一设备还用于：

16.根据权利要求15所述的***，其特征在于，所述第一设备训练所述第一机器学习模型时所采用的损失函数包括第一损失函数与第二损失函数；

17.根据权利要求12所述的***，其特征在于，所述至少一个机器学习模型中不包括所述第一机器学习模型，在所述第二设备获取各所述识别结果的语义信息之前，所述第二设备还用于：

18.根据权利要求13或14所述的***，其特征在于，所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络：卷积子网络、空洞卷积子网络、可变形卷积子网络。

19.根据权利要求13或14所述的***，其特征在于，所述第三机器学习模型所对应的神经网络包括：卷积子网络。

20.根据权利要求19所述的***，其特征在于，所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。

21.根据权利要求11～16任一项所述的***，其特征在于，所述第一设备为本地服务器或云服务器，所述第二设备为终端设备；或者，

所述第一设备为本地服务器，所述第二设备为云服务器。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。